中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書_第1頁
中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書_第2頁
中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書_第3頁
中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書_第4頁
中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書序 言自上世紀(jì)四五十年代以來,經(jīng)過長時間的探索實(shí)踐,聲紋識別技術(shù)終于逐漸走向成熟,迎來了歷史上最佳的應(yīng)用發(fā)展期。這一改變,首先發(fā)生在中國。 2018 年可以說是聲紋識別邁向產(chǎn)業(yè)化的分水嶺,其標(biāo)志性事件莫過于中國人民銀行頒布的移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范。這是我國金融行業(yè)第一個生物識別技術(shù)標(biāo)準(zhǔn),其影響之深之廣,遠(yuǎn)超我們的預(yù)期。它不僅為聲紋識別技術(shù)進(jìn)入金融領(lǐng)域突破了標(biāo)準(zhǔn)難題,也為多年來一直堅持初心的業(yè)界同仁注入了一針強(qiáng)心劑, 2018 年因此被稱之為“聲紋元年”。聲紋開始熱了,產(chǎn)業(yè)態(tài)勢已成,孤軍奮戰(zhàn)的日子一去不復(fù)返。再好的科研成果,只有從象牙塔里走出來,放到實(shí)踐

2、中去檢驗(yàn),才能發(fā)光發(fā)熱,造福社 會。作為行業(yè)老兵,我們感到欣慰,因?yàn)檫@證明了我們當(dāng)初的判斷和堅持是正確的。但我們同樣也有擔(dān)心,如果一個剛發(fā)芽的美好事物,被魚龍混雜的信息誤導(dǎo)、被不切實(shí)際的想象捧殺,對它的發(fā)展有害無益。聲紋識別是一項(xiàng)簡單、優(yōu)雅、安全的技術(shù)。我們希望這個朝氣蓬勃的產(chǎn)業(yè)從一開始,就走上一條良性健康發(fā)展的道路,在開啟新希望的同時,避免重蹈某些產(chǎn)業(yè)的覆轍。這就是我們?yōu)槭裁窗l(fā)布白皮書的初衷。這份報告名為白皮書,實(shí)際上是從技術(shù)、產(chǎn)業(yè)、場景、企業(yè)、政策、資本等層面,根據(jù)可獲得的一些公開資料,對聲紋識別學(xué)術(shù)研究和產(chǎn)業(yè)發(fā)展脈絡(luò)做了一份梳理,力求為廣大研究人員、工程師、創(chuàng)業(yè)者、投資商和媒體人們提供一

3、份快速了解行業(yè)概貌的“導(dǎo)覽地圖”。我們力求盡量客觀的反映這一新生行業(yè)的總體態(tài)勢,但還談不上多么全面和深入,里面提到的有些觀點(diǎn),也可能有不對或不妥之處,需要交給市場和時間去檢驗(yàn)。 PAGE * ROMAN II目 錄 HYPERLINK l _TOC_250011 聲紋識別發(fā)展背景和環(huán)境分析1移動萬物互聯(lián),生物特征識別迅速搶占市場1人臉指紋漏洞頻發(fā),個人隱私泄露風(fēng)險加劇2系列政策法規(guī)出臺,國家加快 AI 產(chǎn)業(yè)引導(dǎo)3生物識別從生理特征走向行為特征4語音交互從千人一面向個性化進(jìn)階5 HYPERLINK l _TOC_250010 聲紋識別技術(shù)發(fā)展現(xiàn)狀6聲紋是一種特殊的行為特征6聲紋識別技術(shù)的分類邏輯

4、7聲紋識別技術(shù)進(jìn)入商用9行業(yè)專利申請量激增11 HYPERLINK l _TOC_250009 聲紋識別產(chǎn)業(yè)發(fā)展現(xiàn)狀13市場規(guī)模:想象空間巨大,規(guī)模將超千億13競爭格局:賽道選手增加,專業(yè)廠商領(lǐng)跑13市場份額:外企入華分羹,中企絕對占優(yōu)13技術(shù)來源:技術(shù)門檻高企,來源高度集中14資本現(xiàn)狀:融資進(jìn)度提速,行業(yè)風(fēng)口可期15公司案例:得意音通16 HYPERLINK l _TOC_250008 主要應(yīng)用領(lǐng)域及場景17國家公共安全174.2.泛金融18社會保險18智能安防及個性化語音交互19典型應(yīng)用案例:金融領(lǐng)域19 HYPERLINK l _TOC_250007 中國建設(shè)銀行19 HYPERLINK

5、 l _TOC_250006 貴陽銀行24 HYPERLINK l _TOC_250005 西安銀行25 HYPERLINK l _TOC_250004 浦東發(fā)展銀行25 HYPERLINK l _TOC_250003 標(biāo)準(zhǔn)化建設(shè)27技術(shù)基礎(chǔ)標(biāo)準(zhǔn)化27金融應(yīng)用標(biāo)準(zhǔn)化29正在進(jìn)行的標(biāo)準(zhǔn)化30 HYPERLINK l _TOC_250002 技術(shù)挑戰(zhàn)與發(fā)展趨勢32技術(shù)挑戰(zhàn)32發(fā)展趨勢35 HYPERLINK l _TOC_250001 附一:圖表索引37 HYPERLINK l _TOC_250000 附二:參考文獻(xiàn)38 PAGE 39聲紋識別發(fā)展背景和環(huán)境分析移動萬物互聯(lián),生物特征識別迅速搶占市

6、場據(jù) 2019 年中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告顯示,截至 2018 年 12 月,中國網(wǎng)民的規(guī)模達(dá)到了 8.29 億,全年新增網(wǎng)民的數(shù)量是 5653 萬,互聯(lián)網(wǎng)的普及率是 59.6%,較前年底提升了 3.8 個百分點(diǎn);中國手機(jī)網(wǎng)民的規(guī)模達(dá)到了 8.17 億,全年新增手機(jī)網(wǎng)民的數(shù)量是 6433 萬。截止去年 12月,我國即時通信用戶規(guī)模達(dá) 7.92 億,網(wǎng)絡(luò)新聞用戶規(guī)模達(dá) 6.75 億,網(wǎng)絡(luò)購物用戶規(guī)模達(dá) 6.10 億,網(wǎng)上外賣用戶規(guī)模達(dá) 4.06 億,網(wǎng)絡(luò)支付用戶規(guī)模達(dá) 6.00 億,網(wǎng)絡(luò)視頻用戶規(guī)模達(dá) 6.12 億,短視頻用戶規(guī)模達(dá) 6.48 億。以手機(jī)為中心的智能

7、設(shè)備,成為“萬物互聯(lián)”的基礎(chǔ)。移動支付、車聯(lián)網(wǎng)、智能家居、智能安防等智能化應(yīng)用場景多方位促進(jìn)國人“衣食住行”體驗(yàn)升級。移動互聯(lián)網(wǎng)服務(wù)場景不斷豐富,應(yīng)用場景日趨復(fù)雜,網(wǎng)絡(luò)身份認(rèn)證作為防護(hù)網(wǎng)絡(luò)資產(chǎn)的第一道關(guān)口,在萬物聯(lián)網(wǎng)時代有著舉足輕重的作用。生物識別技術(shù)作為新一代人工智能的重要領(lǐng)域,借助人體生理特征或行為特征進(jìn)行身份識別。近年來得益于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、深度學(xué)習(xí)等信息技術(shù)的快速發(fā)展,生物識別技術(shù)在基礎(chǔ)理論、算法模型、創(chuàng)新應(yīng)用、軟件支持等方面不斷取得突破。根據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的20182023 年中國生物識別技術(shù)行業(yè)市場調(diào)研與投資預(yù)測分析報告顯示,2013 年全球生物識別市場的規(guī)模達(dá)到 98

8、 億美元。 2016 年生物識別技術(shù)行業(yè)的市場規(guī)模在 150 億美元左右,到 2021 年這一數(shù)值將增加至 305 億美元。2002 至 2015 年,國內(nèi)生物識別市場的年復(fù)合增長率達(dá)到50%,2016 年生物識別市場規(guī)模達(dá)到 120 億元左右。預(yù)計到 2021 年,中國生物識別行業(yè)的市場規(guī)模將突破 340 億元人民幣。圖表 1-120072021 年全球生物識別技術(shù)行業(yè)市場規(guī)模與預(yù)測圖表來源:前瞻產(chǎn)業(yè)研究院圖表 1-220022021 年中國生物識別技術(shù)行業(yè)市場規(guī)模與預(yù)測圖表來源:前瞻產(chǎn)業(yè)研究院人臉指紋漏洞頻發(fā),個人隱私泄露風(fēng)險加劇人臉識別安全漏洞在 2017 年的“315”晚會上首次曝光,

9、憑借一張觀眾的自拍照成功“換臉”破解手機(jī)人臉識別系統(tǒng)。假體攻擊相關(guān)的安全漏洞:無效的活體檢測雷鋒網(wǎng):盜刷 28 萬,某支付平臺“人臉識別”現(xiàn)重大漏洞 HYPERLINK /news/201801/UfmGiSEhFiSVWBXo.html /news/ HYPERLINK /news/201801/UfmGiSEhFiSVWBXo.html 201801/UfmGiSEhFiSVWBXo.html無意圖檢測帶來的安全風(fēng)險:“被指紋”和“被人臉”鳳凰網(wǎng)科技:最擔(dān)心的事發(fā)生了!男子睡夢中被人用手機(jī)刷臉,醒來卡里一萬多元沒了! HYPERLINK /a/20190407/45588746_0.sht

10、ml /a/20190407/45588746_0.shtml半島都市報:女子網(wǎng)上交友被坑 熟睡中手機(jī)被男友盜刷 20 萬 HYPERLINK /news_html/201807/20180703/news_20180703_2842126.s /news_html/201807/20180703/news_20180703_2842126.s html比起數(shù)據(jù)在傳輸和認(rèn)證過程中的安全漏洞,后臺的生物特征數(shù)據(jù)一旦被盜,大量帶有唯一性的生物特征數(shù)據(jù)被盜取,給用戶帶來的風(fēng)險將會更大。中國支付清算協(xié)會 2018 年移動支付用戶調(diào)研報告顯示,“個人信息泄露是用戶使用移動支付過程中最常遇到的安全問題”。

11、在移動支付用戶實(shí)際使用行為分析中,“個人信息被泄露”高居第一,占比高達(dá) 81.0%,高于第二位的“手機(jī)掃描到偽假條碼”70.1%圖表 1-3移動支付用戶對生物特征識別技術(shù)認(rèn)知程度分析數(shù)據(jù)來源:2018 年移動支付用戶調(diào)研報告系列政策法規(guī)出臺,國家加快 AI 產(chǎn)業(yè)引導(dǎo)2017 年 6 月,中華人民共和國網(wǎng)絡(luò)安全法正式施行,提出實(shí)施網(wǎng)絡(luò)可信身份戰(zhàn)略,支持研究開發(fā)安全、方便的電子身份認(rèn)證技術(shù),推動不同電子身份認(rèn)證之間的互認(rèn);明確將個人生物識別信息納入個人信息范疇進(jìn)行規(guī)范管理。2017 年 7 月,國務(wù)院印發(fā)新一代人工智能發(fā)展規(guī)劃,從建立關(guān)鍵共性技術(shù)體系、探索行業(yè)創(chuàng)新應(yīng)用等方面對生物識別技術(shù)發(fā)展提出了

12、重點(diǎn)任務(wù)。2017 年 12 月,工信部印發(fā)促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020 年),智能身份識別系統(tǒng)、智能語音交互系統(tǒng)同時被列入率先取得突破的 8 大重點(diǎn)領(lǐng)域。2018 年 9 月,第十三屆全國人大常委會將個人信息保護(hù)法列入本屆立法規(guī)劃。人工智能和大數(shù)據(jù)時代的個人信息保護(hù)即將迎來專門立法。生物識別從生理特征走向行為特征生物特征識別最大的共性是唯一性。人的生理特征都存在唯一性,每個人都有獨(dú)一無二的臉、指紋、虹膜等。由于每個人的生物特征具有與其他人不同的唯一性和在一定時期內(nèi)不變的穩(wěn)定性,所以利用生物識別技術(shù)進(jìn)行身份認(rèn)定相對其他身份認(rèn)證技術(shù)是安全且準(zhǔn)確的。但也正是由于生理特

13、征的不可撤銷性,生物特征信息一旦被泄露、大量的帶有唯一性的生物特征數(shù)據(jù)被盜取,基于生理特征的身份識別系統(tǒng)將徹底崩潰。這也是生理特征識別方式的真正痛點(diǎn)。遠(yuǎn)程身份認(rèn)證技術(shù)要素類別金融領(lǐng)域場景示例風(fēng)險分析安全等級知悉要素持有要素生理要素手機(jī)號碼+短信驗(yàn)證碼手機(jī)銀行找回密碼手機(jī)惡意軟件竊取驗(yàn)證碼低銀行卡卡面信息+ 銀行預(yù)留信息+ 交易密碼+短信驗(yàn)證碼非銀行支付機(jī)構(gòu)利用銀行卡綁定進(jìn)行實(shí)名認(rèn)證銀行卡卡面信息、交易密碼、手機(jī)短信驗(yàn)證碼泄露較高身份證照片+人臉照片非銀行支付機(jī)構(gòu)利用手持身份證照片進(jìn)行實(shí)名認(rèn)證照片被竊取或偽造較高指紋、人臉、虹膜等生物認(rèn)證技術(shù)手機(jī)銀行登錄、移動支付生物特征泄露、假體攻擊較高身份證

14、號+姓名+人臉照片、類賬戶遠(yuǎn)程開戶身份證卡面信息泄露且人臉照片被偽造高數(shù)字證書+PIN網(wǎng)銀專業(yè)版登陸載體丟失且 PIN 泄露高聲紋識別技術(shù)(聲紋+動態(tài)聲紋密碼)手機(jī)銀行登錄、移動支付生物特征泄露、重放攻擊高圖表 1-4移動金融中遠(yuǎn)程身份認(rèn)證技術(shù)安全性比較資料來源:中國人民銀行移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范標(biāo)準(zhǔn)編制組語音交互從千人一面向個性化進(jìn)階2017 可以看做智能語音交互元年,各品牌廠商打造的智能音箱紛紛上市。2018 年語音交互落地突然加速,產(chǎn)品從智能音箱擴(kuò)展到其他品類,如電視盒子、鬧鐘、燈、智能馬桶等。未來,語音交互將迎來更多成長機(jī)會和更大的發(fā)展空間。在由全球最大中文 IT 社區(qū)

15、 CSDN 組織編撰的2018 中國人工智能產(chǎn)業(yè)路線圖中,將語音交互劃分為三種階段:L1 階段:能以極高的準(zhǔn)確率,在典型環(huán)境下響應(yīng)用戶的語音輸入;L2 階段:能以極高的準(zhǔn)確率識別出交互的當(dāng)事人和環(huán)境,然后進(jìn)行個性化的交互;L3 階段:只要有數(shù)據(jù),語音交互系統(tǒng)的能力就可以無邊界擴(kuò)展(包括個性和能力)。在 L2 階段體現(xiàn)的是個性化,語音交互不再停留在千人一面的固定化模式中, 而是實(shí)現(xiàn)千人千面的個性化交互體驗(yàn)。注:以上段落援引自聲智科技李智勇語音交互的進(jìn)階之路:層級、技術(shù)與顛覆性聲紋識別技術(shù)發(fā)展現(xiàn)狀聲紋是一種特殊的行為特征聲紋,是對語音中所蘊(yùn)含的、能表征和標(biāo)識說話人的語音特征,以及基于這些特征(參數(shù)

16、)所建立的語音模型的總稱,而聲紋識別是根據(jù)待識別語音的聲紋特征識別該段語音所對應(yīng)的說話人的過程。與指紋類似,每個人在說話過程中所蘊(yùn)含的語音特征和發(fā)音習(xí)慣幾乎是獨(dú)一無二的,即使是模仿,也難以改變說話者最本質(zhì)的發(fā)音特性和聲道特征。由于聲音的特殊性,聲紋識別與其他行為特征相比,又兼具生理特性。聲紋識別和語音識別在原理上一樣,都是通過對采集到的語音信號進(jìn)行分析和處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此做出判斷。但二者的根本目的,提取的特征、建立的模型是不一樣的。聲紋識別試圖尋找的是區(qū)別每個人的個性特征,而語音識別則是側(cè)重于對話者所表述的內(nèi)容進(jìn)行識別。簡而言之,語音識別(Speech Recogn

17、ition)關(guān)心說的什么(What),聲紋識別(Voiceprint Recognition)關(guān)心誰說的(Who),聲紋識別通常又稱作說話人識別(Speaker Recognition)。聲紋特征以聲音為載體,具有以下特點(diǎn):交互性。聲音是唯一可雙向傳遞信號的生物特征,既可以接收信息,也可以發(fā)出信息,實(shí)現(xiàn)交互。便捷性。聲音是唯一周邊無死角的生物特征,可以實(shí)現(xiàn)非接觸式采集, 方便使用。變化性。聲音是高可變性與唯一性的完美統(tǒng)一。沒有兩個聲音是完全一樣的,但里面所蘊(yùn)含的信息,比如你是誰、你的年齡、你的情感等信息卻都是唯一確定的。這種高可變性和唯一性的完美統(tǒng)一使得語音信號自身就具備了很強(qiáng)的防攻擊能力。豐

18、富性。聲音有“形簡意豐”的特點(diǎn),它雖然只是一個一維信號,但是蘊(yùn)含著豐富的信息。在相同一段語音中,除了包含說話人信息外,還包含內(nèi)容、語種、性別、情緒、年齡,甚至包含出生地、身體健康狀況等豐富的信息。聲紋識別作為生物特征識別技術(shù)中的一種,作為一種身份認(rèn)證手段,具有如下優(yōu)勢:不怕丟失。不同于指紋、虹膜、人臉等靜態(tài)的生理特征,聲紋作為一種動態(tài)的行為特征,不容易丟失,可以做到“失聲(音)不失身(份)”。難以偽造。聲紋蘊(yùn)含于人的語音當(dāng)中,而語音是千變?nèi)f化的。即便人兩次讀相同的內(nèi)容,也不可能發(fā)出完全相同的聲音。正是聲紋這種“蘊(yùn)不變于千變?nèi)f化之中”的特性,使得聲紋特征更加深層、難以琢磨,偽造起來也更為困難,

19、因而認(rèn)證強(qiáng)度更高、更安全。隱私性弱。俗話說“身體發(fā)膚受之父母”,在一般的大眾認(rèn)知中,人們在很多場合下往往不愿意被拍照或者按手印,但采集一段隨機(jī)跟讀的聲音,對于大眾更加容易接受。錯誤接受率錯誤拒絕率容易實(shí)用性處理速度/人易仿冒程度生物特征/%指紋很低較低好1s一般生理特征掌紋低5使用困難5-10s一般生理特征虹膜很低約10需要培訓(xùn)才能使用,手工操作對虹膜有困難一起自動對準(zhǔn)虹膜需要 3- 5s,手工操作需要5-25s極難生理特征視網(wǎng)膜未知未知不好15-30s極難生理特征人臉低0.2非常好5s一般生理特征聲紋低低可以1-3s難行為特征簽名低10一般5-10s一般行為特征圖表 2-1生物特征識別技術(shù)特

20、性對比資料來源:信息安全研究2016 年 1 月第一期聲紋識別技術(shù)的分類邏輯聲紋識別技術(shù)是一個統(tǒng)稱,實(shí)際上,按照不同的應(yīng)用方式和其他的一些限定, 聲紋識別又被分成了多個技術(shù)類別。其中,按照實(shí)際應(yīng)用的方式可分為四類:聲紋確認(rèn)即給定一個說話人的聲紋模型和一段只含一名說話人的語音,判斷該段語音是否是該說話人所說。聲紋辨認(rèn)即給定一組候選說話人的聲紋模型和一段語音,判斷該段語音是哪個說話人所說。聲紋檢出即給定一個說話人的聲紋模型和一些語音,判斷目標(biāo)說話人是否在給定的語音中出現(xiàn)。聲紋追蹤即給定一個說話人的聲紋模型和一些語音,判斷目標(biāo)說話人是否在給定的語音中出現(xiàn),若出現(xiàn),則標(biāo)示出對話語音中目標(biāo)說話人所說的語

21、音段的位置。正因?yàn)槁暭y是一種動態(tài)的行為特征,在上述普遍適用于各種生物特征識別技術(shù)的分類之外,聲紋識別還多了一個技術(shù)維度它的分類與說話的內(nèi)容有關(guān)。(注:還有一種分類是語言相關(guān)性:語言無關(guān)、語言相關(guān)。詳見自動聲紋識別(說話人識別)技術(shù)規(guī)范(2008 年 3 月工信部(原信息產(chǎn)業(yè)部)發(fā)布)根據(jù)聲紋識別與待識別語音的文本內(nèi)容的關(guān)系,聲紋識別又可分為三類:文本無關(guān)即對于語音文本內(nèi)容無任何要求,說話人的發(fā)音內(nèi)容不會被預(yù)先限定,說話人只需要隨意錄制達(dá)到一定長度的語音即可。這種方法使用起來更加方便靈活, 具有更好的推廣性和適應(yīng)性。文本相關(guān)即要求用戶必須按照事先指定的文本內(nèi)容進(jìn)行發(fā)音。由于文本相關(guān)場景下, 語音

22、內(nèi)容受到限定,整體隨機(jī)性比文本無關(guān)場景下的小,所以一般來說其系統(tǒng)性能也會相對好很多。文本提示即從說話人的訓(xùn)練文本庫中,隨機(jī)提取若干詞匯組合后提示用戶發(fā)音。既對語音內(nèi)容的發(fā)音范圍進(jìn)行了限定,又通過隨機(jī)組合的方式,保留了語音內(nèi)容的隨機(jī)性,是文本無關(guān)與文本相關(guān)的一種結(jié)合。這種方式能一定程度上避免文本相關(guān)時的假冒錄音闖入問題,同時具有較高的系統(tǒng)性能,且實(shí)現(xiàn)方便,是說話人識別技術(shù)的一大熱點(diǎn)。不同類別的聲紋識別技術(shù)之間,其采用的算法也會有細(xì)微的不同,對應(yīng)的應(yīng)用領(lǐng)域也會有所不同。無論是哪種聲紋識別技術(shù),都經(jīng)過了漫長的發(fā)展過程。聲紋識別技術(shù)進(jìn)入商用近年來,依托算法迭代、模型升級等優(yōu)化措施,在識別說話人的共振峰

23、、基音、倒頻譜等聲學(xué)特性方面取得一定突破,初步解決識別準(zhǔn)確率、穩(wěn)定性等問題。目前,聲紋識別技術(shù)已支持對千萬級以上容量的聲紋庫開展秒級檢索識別。圖表 2-2聲紋識別技術(shù)發(fā)展簡史資料來源:聲紋識別:走出實(shí)驗(yàn)室 邁向產(chǎn)業(yè)化行業(yè)專利申請量激增2013 年起,國內(nèi)相關(guān)專利公開數(shù)量呈大幅上升,5 年內(nèi)翻了 10 倍以上。相對專利公開數(shù)量,專利授權(quán)數(shù)量相對增長較緩,總數(shù)不超過 40 件。2018 年,無論公開數(shù)量還是授權(quán)數(shù)量,專利增幅均達(dá)歷史峰值。圖表 2-3國內(nèi)聲紋相關(guān)專利申請數(shù)量宏觀態(tài)勢圖表 2-4國內(nèi)聲紋相關(guān)專利類型分布圖表 2-5國內(nèi)聲紋相關(guān)專利法律狀態(tài)數(shù)據(jù)來源:國家知識產(chǎn)權(quán)局?jǐn)?shù)據(jù)庫聲紋識別產(chǎn)業(yè)發(fā)展

24、現(xiàn)狀市場規(guī)模:想象空間巨大,規(guī)模將超千億據(jù)前瞻產(chǎn)業(yè)研究院的分析,當(dāng)下全球生物識別產(chǎn)業(yè)規(guī)模龐大,僅語音生物識 別(注:即聲紋識別)這一細(xì)分方向的市場規(guī)模就將近百億美元,預(yù)計 2020 年更是有望超過 200 億美元(合 1346 億元人民幣),占整個生物識別市場的 22.4%。從網(wǎng)絡(luò)身份認(rèn)證應(yīng)用領(lǐng)域來看,據(jù)國外權(quán)威調(diào)研機(jī)構(gòu) MarketsandMarkets 數(shù)據(jù)顯示,2019 年網(wǎng)絡(luò)安全市場預(yù)計增長至 1557.4 億美元,其中,身份認(rèn)證信息安全市場規(guī)模將超過 300 億美元。聲紋識別在其中也將扮演重要角色。競爭格局:賽道選手增加,專業(yè)廠商領(lǐng)跑圖表 3-1中國聲紋識別相關(guān)廠商成立時間軸數(shù)據(jù)來源

25、:相關(guān)企業(yè)官網(wǎng)從時間軸上可以看出,可大致分為三個階段:2000 年前后:第一批公司成立,主要是老牌語音廠商。2005 年前后:第二批公司成立,主要是深耕聲紋的專業(yè)廠商。2015 年前后:第三批公司成立,主要是貼著 AI 標(biāo)簽的創(chuàng)業(yè)公司。最近兩年,BAT 等大公司也相繼在聲紋領(lǐng)域開始布局。市場份額:外企入華分羹,中企絕對占優(yōu)2018 年 5 月,花旗銀行宣布正式在中國市場推出“聲紋驗(yàn)證”服務(wù),其技術(shù)供應(yīng)商為曾為蘋果提供 Siri 技術(shù)支持的國際語音行業(yè)老牌廠商 Nuance。之后,ValidSoft、Nice 等外企開始進(jìn)入中國金融業(yè)市場,但市場份額有限,總體來看,國內(nèi)金融市場的聲紋供應(yīng)商里,以

26、得意音通為代表的中資企業(yè)占有絕對優(yōu)勢。圖表 3-2中國移動金融市場上的主要聲紋識別廠商分布技術(shù)來源:技術(shù)門檻高企,來源高度集中最近兩年來,隨著市場逐漸興起,聲紋識別相關(guān)廠商迅速從個位數(shù)擴(kuò)充到二位數(shù),其中既有深耕多年的專業(yè)聲紋或語音廠商,也開始涌現(xiàn)出一批新面 孔。不過,在專業(yè)聲紋廠商中,有明確技術(shù)來源的廠商總體占比不高,主要集中在少數(shù)幾家有深厚積淀的高校和科研機(jī)構(gòu);相當(dāng)一部分存在于搜索引擎和媒體上的廠商,技術(shù)來源不夠清晰。圖表 3-3各聲紋技術(shù)相關(guān)廠商技術(shù)來源數(shù)據(jù)來源:相關(guān)企業(yè)官網(wǎng)資本現(xiàn)狀:融資進(jìn)度提速,行業(yè)風(fēng)口可期圖表 3-4中國聲紋識別相關(guān)企業(yè)最新融資狀況公司案例:得意音通北京得意音通技術(shù)有

27、限責(zé)任公司(簡稱“得意音通”),2002 年成立,是清華大學(xué)知識產(chǎn)權(quán)入股的高科技企業(yè)、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)理事單位、互聯(lián)網(wǎng)金融身份認(rèn)證聯(lián)盟(IFAA)理事單位,是擁有完全自主知識產(chǎn)權(quán)的聲紋識別(VPR)、語音識別(ASR)與中文自然語言處理(CNLP)領(lǐng)域的技術(shù)研發(fā)商、產(chǎn)品開發(fā)商和服務(wù)提供商。得意音通在聲紋識別這一被美國列為戰(zhàn)略安全技術(shù)的領(lǐng)域居國際領(lǐng)先地位,可提供高安全、弱隱私、低成本的無監(jiān)督身份認(rèn)證服務(wù)。得意音通核心技術(shù)源自清華, 2015 年與清華大學(xué)成立“清華大學(xué)-得意音通聲紋處理聯(lián)合實(shí)驗(yàn)室”,2017 年組建得意音通信息技術(shù)研究院,延聘全球頂級人工智能專家,由張鈸院士(

28、中)和莊炳湟院士(美)任聯(lián)席主任。其“基于動態(tài)密碼語音的無監(jiān)督身份認(rèn)證系統(tǒng)”于 2018 年 5 月被中國電子學(xué)會組織的科技成果鑒定評價為“整體處于國際領(lǐng)先水平”。 在國際音頻情感識別競賽 MEC 2017 中獲冠軍;在國際自動說話人驗(yàn)證欺騙和對策挑戰(zhàn)賽 ASVspoof 2019 中獲冠軍。得意音通核心技術(shù)完全自主可控,擁有十六項(xiàng)國家發(fā)明專利和一項(xiàng)國際發(fā)明專利?!奥暶鼙!眱?nèi)核融合聲紋識別和語音識別,集成防錄音攻擊、防時變、情感識別等進(jìn)行無監(jiān)督身份認(rèn)證,其產(chǎn)品和服務(wù)已首先成功應(yīng)用于中國建設(shè)銀行手機(jī)銀行,并以“零事故”和“零投訴”通過數(shù)億次驗(yàn)證。目前,已在國家信息中心、中國銀聯(lián)、中國互金協(xié)會、貴

29、州省大數(shù)據(jù)中心、包括中國建設(shè)銀行在內(nèi)的多家銀行、包括貴州社保在內(nèi)的多省社保等成功應(yīng)用,在各行業(yè)布局初成。得意音通主導(dǎo)起草了我國第一個聲紋識別標(biāo)準(zhǔn),以及截至目前聲紋識別領(lǐng)域所有的國家和行業(yè)標(biāo)準(zhǔn)。尤其是主導(dǎo)了金融領(lǐng)域聲紋識別安全應(yīng)用技術(shù)標(biāo)準(zhǔn)的起草,該標(biāo)準(zhǔn)已于 2018 年 10 月 9 日由中國人民銀行頒布至各銀行、證券、保險、基金,以及非銀行支付機(jī)構(gòu),它也是我國金融領(lǐng)域第一個生物特征識別安全應(yīng)用技術(shù)標(biāo)準(zhǔn),得意音通擁有標(biāo)準(zhǔn)中規(guī)定的動態(tài)密碼語音的相關(guān)發(fā)明專利。主要應(yīng)用領(lǐng)域及場景圖表 4-1聲紋識別技術(shù)分支-應(yīng)用場景分布圖(圓圈越大代表成熟度越高)國家公共安全隨著固定電話和移動通訊網(wǎng)絡(luò)的發(fā)展,聲紋辨認(rèn)

30、技術(shù)首先在針對特定人群的國防安全、公安技偵、司法矯正等領(lǐng)域投入使用,有力保障了國家和公共安全。例如在戰(zhàn)場環(huán)境下,聲紋辨認(rèn)技術(shù)可察覺電話交談過程中是否有關(guān)鍵說話人出現(xiàn),一旦通過電話發(fā)出軍事指令時,便可對發(fā)出命令者進(jìn)行身份辨認(rèn)(敵我指戰(zhàn)員鑒別)。據(jù)報道,2001 年 4 月 1 日迫降在我國海南機(jī)場的美軍 EP-3 偵察機(jī)就載有類似的聲紋識別偵聽模塊。在反恐作戰(zhàn)中,恐怖分子在作案前后的通訊中往往會包含關(guān)鍵內(nèi)容,因此,在通信系統(tǒng)或安全監(jiān)測系統(tǒng)中預(yù)先安裝聲紋辨認(rèn)系統(tǒng),可通過通訊跟蹤和聲紋辨別技術(shù)對罪犯進(jìn)行預(yù)防和偵查追捕。據(jù)悉,拉登的落網(wǎng)正是美國情報部門充分利用了聲紋鑒別技術(shù)。此外,聲紋辨認(rèn)技術(shù)還用于對

31、滿刑釋放的犯罪嫌疑人進(jìn)行監(jiān)聽和跟蹤,可有效阻止犯罪嫌疑人再次犯科;針對通過電話勒索、綁架等刑事犯罪案件,公安司法人員也可利用聲紋辨認(rèn)技術(shù),從通話語音中鎖定嫌疑犯人、縮小刑偵范圍。泛金融隨著網(wǎng)上支付、手機(jī)支付等成為現(xiàn)代人購物付款的主流方式,網(wǎng)絡(luò)支付的身份認(rèn)證開始愈發(fā)重要。為防止盜刷等案件發(fā)生,將聲紋確認(rèn)技術(shù)加入到交易支付中,通過動態(tài)聲紋密碼的方式進(jìn)行客戶端身份認(rèn)證,可有效提高個人資金和交易支付的安全。在國外,英國巴克萊銀行、美國花旗銀行、澳大利亞國家銀行、萬事達(dá)卡機(jī)構(gòu)等都已開始引入聲紋技術(shù)。在我國,2016 到 2018 年間,中國建設(shè)銀行、貴陽銀行、蘭州銀行、西安銀行、中國銀聯(lián)、中國互金協(xié)會等

32、多家單位上線了聲紋識別身份認(rèn)證服務(wù),用于賬戶登錄、大額轉(zhuǎn)賬、無卡取款、密碼找回等業(yè)務(wù)場景。微信和支付寶也已上線基于聲紋動態(tài)口令的登錄方式。此外,在信貸業(yè)務(wù)中引入聲紋識別技術(shù)作為反欺詐手段,還可有效降低冒用他人身份進(jìn)行騙貸以及多頭貸款等事件的發(fā)生率。社會保險城鄉(xiāng)養(yǎng)老保險是社會保障體系的重要組成部分,目前我國社保面臨三個問題: 加速進(jìn)入老齡化社會,社保金管理存在冒領(lǐng)問題,現(xiàn)有解決冒領(lǐng)問題的方法成本 高、效率低。利用聲紋識別技術(shù)有效解決參保人員的遠(yuǎn)程和現(xiàn)場的身份認(rèn)證問題, 避免了指紋和人臉等需現(xiàn)場辦理、不易采集、易偽造等問題,杜絕了身份造假的 可能性,節(jié)省大量成本,降低養(yǎng)老金冒領(lǐng)有效杜絕了養(yǎng)老金流失

33、,同時方便老年 人足不出戶安全快捷領(lǐng)取養(yǎng)老金。以往半年甚至一年一次的認(rèn)證,可以提高為每 月一次;以往的參保用戶抽查方式,可以變?yōu)槿嫫詹?,為社保機(jī)構(gòu)免去諸多的 的人力成本、物力成本、行政成本和時間成本。聲紋生存認(rèn)證系統(tǒng)目前正在全國多省及自治區(qū)進(jìn)行試點(diǎn)工作,為多地群眾百姓提供了極大的便利。圖表 4-2中國聲紋社保試點(diǎn)分布圖智能安防及個性化語音交互隨著語音技術(shù)的普及,越來越多的聲紋識別應(yīng)用場景還在不斷涌現(xiàn)。如利用聲紋確認(rèn)技術(shù),可完成個人日常生活中的各種事物訪問控制的授權(quán),比如智能手機(jī)鎖屏、各類網(wǎng)絡(luò)賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等; 利用聲紋辨認(rèn)技術(shù),可支持智能音箱、智能語音助

34、手等提供個性化服務(wù),如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞, 以及開放特定的功能權(quán)限等;利用聲紋檢出和追蹤技術(shù),可取代人工完成會議紀(jì)要,通過語音識別和聲紋識別技術(shù)的結(jié)合,將會議錄音通過語音識別技術(shù)識別說話內(nèi)容、通過聲紋識別技術(shù)標(biāo)注每段話所對應(yīng)的說話人,即可輕松完成多人會議記錄,大大提高工作效率。目前這些新興需求大部分還處在探索階段。典型應(yīng)用案例:金融領(lǐng)域中國建設(shè)銀行2016 年 5 月,中國建設(shè)銀行與清華大學(xué)合作率先推出手機(jī)銀行中的聲紋識別應(yīng)用,并在建設(shè)銀行手機(jī)銀行 APP 中正式上線。作為傳統(tǒng)認(rèn)證方式的一項(xiàng)增強(qiáng)安全手段,被應(yīng)用于建行手機(jī)銀行 APP 登錄

35、、轉(zhuǎn)賬、取款、支付等幾乎所有環(huán)節(jié)。該系統(tǒng)上線以來,經(jīng)由用戶口口相傳,目前在線有效用戶數(shù)已超過 100 萬,調(diào)用聲紋識別的業(yè)務(wù)筆數(shù)逾 2 億次,并創(chuàng)造了“零差錯”和“零投訴”的記錄。發(fā)展規(guī)模據(jù)中國建設(shè)銀行官方最新數(shù)據(jù)顯示,中國建設(shè)銀行聲紋注冊用戶模型數(shù)增長到 182 萬個,總交易量達(dá)到 2.4 億次。圖表 4-3中國建設(shè)銀行聲紋注冊用戶模型數(shù)增長變化功能開通及設(shè)置用戶登錄手機(jī)銀行 APP,可以在個人安全中心,進(jìn)行安全認(rèn)證設(shè)置,可以選擇各個應(yīng)用場景時,需要進(jìn)行的身份識別技術(shù),比如登錄場景要求用戶選擇進(jìn)行雙因子認(rèn)證,就是從多種身份識別技術(shù)中選擇兩種進(jìn)行雙重認(rèn)證,從而提高了賬戶的安全級別。如圖所示,登

36、錄手機(jī)銀行 APP,進(jìn)入安全更新,選擇聲紋,第一次使用需要用戶進(jìn)行聲紋預(yù)留,選擇更新聲紋,即進(jìn)入聲紋預(yù)留界面。進(jìn)行聲紋建模應(yīng)選擇按鍵的場景,和手機(jī)揚(yáng)聲器的距離保持在 20cm 左右, 聲音平緩的念出顯示的 8 位隨機(jī)數(shù)字,一共進(jìn)行 5 遍,即完成用戶的聲紋建模。圖表 4-4建行手機(jī)銀行 APP 聲紋建模/更新界面應(yīng)用場景3-a)手機(jī)銀行登錄以建設(shè)銀行手機(jī)銀行 APP 為例,在完成開通“聲紋驗(yàn)證”功能并預(yù)留用戶個人聲紋信息后,當(dāng)用戶再登錄手機(jī)銀行時,就會要求進(jìn)行多重驗(yàn)證,進(jìn)行用戶名密碼登錄或指紋識別登錄,通過后進(jìn)入到“聲紋驗(yàn)證”頁面,如果進(jìn)行聲紋驗(yàn)證時讀錯顯示的 8 位數(shù)字,或現(xiàn)場環(huán)境過于嘈雜,

37、無法順利使用聲紋驗(yàn)證,此時可以選擇重讀(隨機(jī)數(shù)字會重新生成)或切換到短信密碼認(rèn)證,通過了雙重驗(yàn)證通過后可登錄手機(jī)銀行 APP 進(jìn)行操作(見下圖)。圖表 4-5建行手機(jī)銀行 APP 用戶雙重身份認(rèn)證登錄3-b)手機(jī)銀行轉(zhuǎn)賬/支付除了在手機(jī)銀行登錄時使用聲紋識別進(jìn)行雙重身份認(rèn)證登錄時,開通聲紋驗(yàn)證功能的賬戶在通過手機(jī)銀行轉(zhuǎn)賬時,在轉(zhuǎn)賬金額達(dá)到一定數(shù)額或第一次給某賬戶轉(zhuǎn)賬時,除了默認(rèn)的短信驗(yàn)證碼之外,可以選擇進(jìn)行聲紋驗(yàn)證以加強(qiáng)對用戶賬戶資金的保護(hù)。圖表 4-6建行手機(jī)銀行轉(zhuǎn)賬聲紋驗(yàn)證過程3-c) ATM 機(jī)無卡取款中國建設(shè)銀行推出的聲紋取款功能,利用最新的聲紋識別技術(shù),通過將客戶聲紋與其在系統(tǒng)中預(yù)留

38、的聲紋進(jìn)行比對,來代替銀行卡和密碼驗(yàn)證,實(shí)現(xiàn)無卡輕松取款。圖表 4-7建行手機(jī)銀行聲紋取款業(yè)務(wù)流程示意圖貴陽銀行2016 年 8 月 15 日,得意聲密保產(chǎn)品與貴陽銀行的業(yè)務(wù)系統(tǒng)完成聯(lián)調(diào)并正式上線,應(yīng)用于貴陽銀行手機(jī)銀行用戶的登錄與交易。應(yīng)用場景:通過移動應(yīng)用購買理財產(chǎn)品時的確認(rèn),規(guī)劃應(yīng)用到登錄、轉(zhuǎn)賬場景。圖表 4-8貴陽銀行手機(jī)銀行理財產(chǎn)品交易聲紋驗(yàn)證圖表 4-9貴陽銀行手機(jī)銀行聲紋注冊界面西安銀行2018 年 11 月 23 日,得意聲密保軟件在西安銀行手機(jī)銀行系統(tǒng)中正式上線投產(chǎn),為西安銀行手機(jī)銀行用戶提供登錄、交易等場景的聲紋識別身份認(rèn)證服務(wù)。聲紋識別主要應(yīng)用在西安銀行手機(jī)銀行的登錄、支

39、付、轉(zhuǎn)賬等場景中,全面的保障用戶資金安全,手機(jī)銀行中使用的是聲密保 3.0 系統(tǒng),具備防錄音、防時變、抗噪音等性能,各項(xiàng)性能指標(biāo)均符合央行標(biāo)準(zhǔn)規(guī)范。這也是在央行發(fā)布移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范后,第一個符合聲紋標(biāo)準(zhǔn)的聲紋識別技術(shù)應(yīng)用。應(yīng)用場景:登錄身份核實(shí),規(guī)劃應(yīng)用到轉(zhuǎn)賬理財贖回等各種核身場景。圖表 4-10西安銀行手機(jī)銀行聲紋登錄場景浦東發(fā)展銀行2018 年 3 月底完成了“得意聲密保軟件”在生產(chǎn)環(huán)境的部署,開始白名單試用。2019 年 2 月底,完成了全生產(chǎn)線部署工作實(shí)現(xiàn)生產(chǎn)線上的全面正式應(yīng)用。應(yīng)用場景:手機(jī)銀行免密登錄,規(guī)劃應(yīng)用在轉(zhuǎn)賬、理財、支付等各種業(yè)務(wù)交易的身份認(rèn)證環(huán)節(jié)。圖

40、表 4-11浦發(fā)銀行手機(jī)銀行聲紋登錄圖表 4-12浦發(fā)銀行手機(jī)銀行聲紋注冊界面標(biāo)準(zhǔn)化建設(shè)技術(shù)基礎(chǔ)標(biāo)準(zhǔn)化2008 年 3 月,原信息產(chǎn)業(yè)部正式頒布實(shí)施了自動聲紋識別(說話人識別) 技術(shù)規(guī)范。這是中國頒布的第一個關(guān)于聲紋識別的標(biāo)準(zhǔn)。圖表 5-1自動聲紋識別(說話人識別)技術(shù)規(guī)范2014 年 8 月,公安部頒布實(shí)施了安防聲紋確認(rèn)應(yīng)用算法技術(shù)要求和測試方法。這是中國首次就聲紋識別的應(yīng)用技術(shù)要求和安全等級制訂標(biāo)準(zhǔn)。圖表 5-2安防聲紋確認(rèn)應(yīng)用算法技術(shù)要求和測試方法金融應(yīng)用標(biāo)準(zhǔn)化2016 年 7 月 11 日,由中國建設(shè)銀行、清華大學(xué)、北京得意音通技術(shù)有限責(zé)任公司負(fù)責(zé)起草的手機(jī)銀行中基于聲紋識別的增強(qiáng)安全

41、應(yīng)用技術(shù)規(guī)范,經(jīng)專家組評審后由金標(biāo)委立項(xiàng)(項(xiàng)目編號 FISP2016005)。2016 年 7 月開始,在央行科技司主導(dǎo)下,發(fā)起單位聯(lián)合工、農(nóng)、中、交等國內(nèi)各大銀行,國家級測評機(jī)構(gòu)及第三方支付平臺等共同對標(biāo)準(zhǔn)報批稿進(jìn)行了為期一個半月的集中修訂完善,并將標(biāo)準(zhǔn)適用范圍從“手機(jī)銀行”擴(kuò)大到“移動金融”。2018 年 8 月 18 日,由央行科技司召集專家評審會,來自中央網(wǎng)信辦、公安部、國家信息中心、國家信息安全研究中心、中國銀聯(lián)、中國科學(xué)院、中國社會科學(xué)院、清華大學(xué)等單位的院士專家一致認(rèn)為,“與其他生物特征識別技術(shù)相比,聲紋識別技術(shù)在個人隱私保護(hù)、身份認(rèn)證強(qiáng)度等方面有一定的優(yōu)勢”,“具有較高的可靠性

42、、安全性、便捷性,能夠滿足移動金融服務(wù)應(yīng)用需求”。2018 年 10 月 9 日,移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范(標(biāo)準(zhǔn)編號:JR/T 0164-2018)由中國人民銀行正式發(fā)布,即日起實(shí)施。與此同時,關(guān)于發(fā)布金融行業(yè)標(biāo)準(zhǔn)規(guī)范聲紋識別技術(shù)金融應(yīng)用的通知(文件編號:0001-2018- S-000-005057)隨該標(biāo)準(zhǔn)的印刷版一同下發(fā)給全國各大銀行及各類金融機(jī)構(gòu)。 圖表 5-3移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范該標(biāo)準(zhǔn)由中國建設(shè)銀行、清華大學(xué)、北京得意音通技術(shù)有限責(zé)任公司發(fā)起, 從前期調(diào)研、立項(xiàng)論證、標(biāo)準(zhǔn)起草到征求意見、修訂和報批,前后歷時兩年多, 通過了 48 位金標(biāo)委委員的投票表決

43、,和 11 位院士專家的集中評審,歷經(jīng)“四稿三審”才正式由中國人民銀行發(fā)布,充分體現(xiàn)了技術(shù)新、起點(diǎn)高、過程嚴(yán)、范圍廣、自主性強(qiáng)等特點(diǎn)。中國人民銀行副行長、全國金融標(biāo)準(zhǔn)化技術(shù)委員會主任委員范一飛指出,這是“我國金融行業(yè)生物識別的第一個技術(shù)標(biāo)準(zhǔn),標(biāo)志著以聲紋識別為代表的生物識別應(yīng)用進(jìn)入嶄新的歷史發(fā)展階段”。正在進(jìn)行的標(biāo)準(zhǔn)化2018 年 5 月 14 日,全國安全防范報警系統(tǒng)標(biāo)準(zhǔn)化技術(shù)委員會(簡稱安標(biāo)委, 秘書處設(shè)在給公安部第一研究所)下設(shè)的人體生物特征應(yīng)用分委員會(SAC/TC100/SC2),投票通過了聲紋識別標(biāo)準(zhǔn)化體系建設(shè) 12 項(xiàng)標(biāo)準(zhǔn)中的 3 項(xiàng),進(jìn)入起草階段,它們是:聲紋數(shù)據(jù)采集的技術(shù)要求

44、聲紋數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)聲紋數(shù)據(jù)建庫要求這三大標(biāo)準(zhǔn)制訂是國家重點(diǎn)研發(fā)計劃“國家質(zhì)量基礎(chǔ)的共性技術(shù)研究與應(yīng)用(NQI)” 專項(xiàng)“智能語音產(chǎn)品符合性測試技術(shù)研究”(2017YFF0210901)的子任務(wù),由得意音通與清華大學(xué)牽頭,對規(guī)范我國未來聲紋身份認(rèn)證具有重要意義。2018 年 5 月 25 日,兩項(xiàng)應(yīng)用類標(biāo)準(zhǔn)由全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(簡稱信標(biāo)委,秘書處設(shè)在中國電子技術(shù)標(biāo)準(zhǔn)化研究院)予以立項(xiàng),進(jìn)入標(biāo)準(zhǔn)起草階段。它們是:信息技術(shù) 移動設(shè)備生物特征識別 第 5 部分:聲紋信息技術(shù) 生物特征數(shù)據(jù)交換格式 第 13 部分:聲紋數(shù)據(jù)這兩項(xiàng)標(biāo)準(zhǔn)是前述三大標(biāo)準(zhǔn)的延伸,主要規(guī)范了數(shù)據(jù)交換中的格式要求,及在互

45、聯(lián)網(wǎng)金融等重點(diǎn)領(lǐng)域的應(yīng)用要求。此外,由中國信息通信研究院牽頭的中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)、由螞蟻金服牽頭的互聯(lián)網(wǎng)金融身份認(rèn)證聯(lián)盟(IFAA),這兩大行業(yè)聯(lián)盟的聲紋識別團(tuán)體標(biāo)準(zhǔn)也已提上議事日程。一個覆蓋技術(shù)、應(yīng)用、數(shù)據(jù)、評測等的聲紋標(biāo)準(zhǔn)化綜合體系已經(jīng)成型。技術(shù)挑戰(zhàn)與發(fā)展趨勢技術(shù)挑戰(zhàn)由于聲音信號的復(fù)雜性,聲紋識別在實(shí)際應(yīng)用時仍然面對很多挑戰(zhàn),根據(jù)識別任務(wù)的不同,挑戰(zhàn)也會稍有不同。比如:身份認(rèn)證(聲紋確認(rèn)):假冒攻擊、真實(shí)意圖檢測、低語識別等;反欺詐(聲紋辨認(rèn)):多說話人、短語音、語音掩蓋等;文本無關(guān):(錄音重放的)假冒攻擊、短語音;文本相關(guān):(錄音重放的)假冒攻擊;文本提示:(錄音拼接重

46、放)假冒攻擊;共性:背景噪音、跨信道、時變(年齡變化)、身體狀況、(語速、音量、情感等)發(fā)音方式。下面分別敘述。背景噪音聲紋識別的實(shí)際使用中,不可避免的會帶入環(huán)境的噪聲,如辦公室大廳的人聲、馬路邊的汽車聲、超市菜市場的吵雜聲、車上的引擎聲和音樂聲等。此類噪聲會擾亂語音信號,對聲紋識別性能造成影響。由于噪聲的多樣性和未知性,完全消除噪聲的影響十分困難。目前,一些研究者語音增強(qiáng)的方法。一些方法在信號層對噪聲進(jìn)行估計,并嘗試對其進(jìn)行消除,在穩(wěn)定噪聲信號下得到了不錯的效果,但對于非穩(wěn)定信號效果不佳。另有一些研究者者嘗試在特征域、模型域和分?jǐn)?shù)域,對噪聲造成的影響進(jìn)行抑制。還有一些研究者通過數(shù)據(jù)增強(qiáng)的方法

47、,通過模擬方法在訓(xùn)練數(shù)據(jù)中加入噪聲。這些方法均取得了一定效果,但在實(shí)際的復(fù)雜多變的噪聲環(huán)境下,噪聲問題仍然是一大挑戰(zhàn)??缧诺缆曇粜枰ㄟ^復(fù)雜的信道環(huán)境,才能最終傳輸?shù)较到y(tǒng)當(dāng)中。信道即信號傳輸?shù)耐ǖ?,包含用戶嘴唇處形成的聲音信號,到系統(tǒng)接受到的聲音信號之間的所有過程。常見的信道有電話信道、網(wǎng)絡(luò)信道等。此外,錄音設(shè)備的不同,也是信道差異的一個重要來源。信道會對語音信號產(chǎn)生畸變,影響語音信號的聽感。此外, 信道還會夾雜信道噪聲,擾亂語音信號。因此,同一個說話人在不同信道下的聲音,會有很大的差別。這種差別影響了聲紋識別系統(tǒng)的識別性能。如何在跨信道情況下進(jìn)行聲紋識別任務(wù),是當(dāng)前一個很大的挑戰(zhàn)。短語音短語

48、音是指系統(tǒng)的識別性能對語音長度的依賴性。較長的語音會達(dá)到更高的精準(zhǔn)度,但顯然,過長的語音會影響用戶體驗(yàn)。并且在一些特定場景下,比如司法應(yīng)用中,系統(tǒng)只能收集到有限長度的語音。因此,如何在較短語音長度的情況下,提高系統(tǒng)的識別性能,也是一個研究方向。假冒攻擊聲紋識別作為一種身份認(rèn)證算法,經(jīng)常應(yīng)用于安全領(lǐng)域。此時,必然存在一些攻擊者,試圖愚弄聲紋識別系統(tǒng),以繞過安全驗(yàn)證,達(dá)成其攻擊目的。聲紋識別的防假冒攻擊即指聲紋識別系統(tǒng)拒絕非真實(shí)說話人的能力。這些嘗試進(jìn)入系統(tǒng)的聲音,可能是由人類模仿發(fā)聲的,也可能是機(jī)器偽造的,比如通過語音合成、聲音轉(zhuǎn)換以及錄音重放技術(shù),產(chǎn)生出和真實(shí)說話人相近的聲音,嘗試進(jìn)入系統(tǒng)。目

49、前,語音合成技術(shù)和聲音轉(zhuǎn)換技術(shù)達(dá)到了一個新的高度,計算機(jī)已經(jīng)可以合成流暢的、十分逼真的、甚至是人類難以辨別真?zhèn)蔚恼Z音,此類語音對聲紋識別系統(tǒng)有很大的威脅性。錄音重放攻擊則直接錄制目標(biāo)說話人的真實(shí)聲音,其具有很高的還原度。目前,已有研究者對于語音合成、聲音轉(zhuǎn)換以及錄音重放的攻擊進(jìn)行了研究,并進(jìn)行了防御對策的研究,取得了初步效果。但由于真實(shí)場景下攻擊方式未知切多樣,如何阻止這些假冒語音通過系統(tǒng),仍然是一個重要的研究方向。真實(shí)意圖聲紋識別技術(shù)經(jīng)常應(yīng)用于安全領(lǐng)域。除了假冒攻擊外,攻擊者可能使用脅迫的方式,要求真實(shí)說話人進(jìn)行驗(yàn)證。此外,也存在真實(shí)說話人在醉酒、說夢話甚至在無意間,通過聲音進(jìn)行了驗(yàn)證。此時

50、,真實(shí)意圖檢測就顯得非常重要。真實(shí)意圖檢測,即檢測驗(yàn)證者在進(jìn)行驗(yàn)證時,是否具有真實(shí)的被驗(yàn)證的意愿。若發(fā)現(xiàn)用戶并非主動自愿的進(jìn)行驗(yàn)證,則系統(tǒng)將發(fā)出警告,并進(jìn)行恰當(dāng)措施。然而,意圖是一個抽象概念,即使是人類,也很難非常準(zhǔn)確的通過語音來了解對方的意圖, 其更多的是一種抽象的感覺。同時,除了語音內(nèi)容所表達(dá)的顯式的意圖外,更多的隱含的意圖特征分散的隱藏在聲調(diào)、語速等更多細(xì)節(jié)中,因此檢測這類隱藏將十分困難。因此,如何通過語音,對說話人的真實(shí)意圖進(jìn)行檢測,是一個非常具有挑戰(zhàn)的研究方向。時變(年齡變化)人的身體機(jī)能會隨著年齡增長而變化,而其聲音也會隨之而發(fā)生變換。對于同一個人間隔較長的兩次錄音,其聲音也會有一

51、些不同。這種不同會削減兩個語音的相似性,進(jìn)而導(dǎo)致聲紋識別系統(tǒng)的性能下降。目前,有研究者通過自適應(yīng)的方式,不斷使用新的數(shù)據(jù)自動更新模型。但此方式無法解決長期間隔的問題。另有研究者嘗試提取時變魯棒的特征,或構(gòu)建時變魯棒的模型,取得了一定進(jìn)展, 但如何在人的年齡變化的情況下進(jìn)行魯棒的聲紋識別,仍然是一大挑戰(zhàn)。身體狀況人的聲音會隨著身體狀況發(fā)生變化。生活中,難免會碰上感冒、發(fā)燒、鼻塞、嗓子發(fā)啞的時候,此時,因身體狀況的變化,發(fā)聲器官本身發(fā)生了改變,因此人所發(fā)出的聲音特質(zhì)也會隨之改變。比如當(dāng)鼻塞時,鼻腔通道關(guān)閉,聲音會發(fā)悶; 嗓子發(fā)啞時,聲帶激勵的特性會發(fā)生變化。由于身體狀況變化直接導(dǎo)致發(fā)聲器官變化,影

52、響聲紋識別的準(zhǔn)確性,因此,如何在身體狀況發(fā)生變化時,進(jìn)行魯棒的聲紋識別,是一項(xiàng)重要的挑戰(zhàn)。發(fā)音方式語音信號,不僅與說話人和說話內(nèi)容相關(guān),也與說話人的發(fā)音方式相關(guān)。不同的發(fā)音方式,如語速快慢、音量大小、語氣變化等,會帶來不同的聽覺效果。由于發(fā)音方式是發(fā)音器官在發(fā)音時的一種行為特性,此類信息在語音信號中占有較大比重,即使在語音內(nèi)容相同時也會對語音信號的頻率成分造成影響,干擾聲紋識別的準(zhǔn)確判斷。因此,如何在發(fā)音方式發(fā)生變化時,進(jìn)行魯棒的聲紋識別, 是一個具有挑戰(zhàn)的研究方向。低語聲紋識別需要通過發(fā)聲才能進(jìn)行認(rèn)證,然而存在大量場合(如開會、上課、有人在休息時等)需要保持安靜,不能大聲說話。此時,若能夠通

53、過低語進(jìn)行聲紋識別,則可很大程度上提高聲紋識別的應(yīng)用場景,提高用戶體驗(yàn)。低語分為兩種,一種為聲帶振動的低聲說話;另一種為耳語,即在聲帶不振動的情況下進(jìn)行說話。由于用戶在低語情況下進(jìn)行發(fā)聲,其發(fā)音習(xí)慣與平常不同,因此發(fā)聲將造成變化。對于耳語情況,由于其聲帶不振動,相對正常發(fā)音,丟失了許多說話人信息,這將給聲紋識別造成困難。此外,由于耳語發(fā)音的特殊性,其對信道、說話人身體狀態(tài)、心理的變化等也更加敏感。因此,如何在低語情況下,進(jìn)行魯棒的聲紋識別,是當(dāng)前聲紋識別的一大挑戰(zhàn)。語音掩蓋在特殊情況下,有些人不想自己的聲音被別人認(rèn)出,就會對聲音進(jìn)行掩蓋, 如使用假聲說話,使用變聲器等。此類情況即成為語音掩蓋。

54、然而,一些應(yīng)用場景需要對經(jīng)過掩蓋的聲音進(jìn)行聲紋識別,判斷語音背后說話人的真實(shí)身份。由于在語音掩蓋情況下,說話人會刻意改變其聲道形狀、發(fā)聲習(xí)慣等,同時會故意增加聲音的變化性,這使得系統(tǒng)需要尋找一種穩(wěn)定的、難以按照人類主觀意愿進(jìn)行改變的聲音特征來進(jìn)行識別。因此,如何做語音掩蓋情況下,對上說話人身份進(jìn)行識別,是一個研究挑戰(zhàn)。多說話人在實(shí)際應(yīng)用場景下,可能會出現(xiàn)多個說話人輪流或者同時說話的情況,比如呼叫中心的客服對話、會議錄音等。此時,用戶希望將語音中多個說話人進(jìn)行分離,以方便進(jìn)一步處理。由于當(dāng)前聲紋識別技術(shù),其準(zhǔn)確性往往與語音時長相關(guān), 較長的語音才能進(jìn)行更準(zhǔn)確的識別。而當(dāng)同一語音包含多說話人的情況下,需要對不同說話人之間的邊界進(jìn)行準(zhǔn)確的界定,這就需要對短時間內(nèi)說話

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論