版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1.什么是說(shuō)話人識(shí)別(SR)? 說(shuō)話人識(shí)別(Speaker Recognition, SR)技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。 在國(guó)外,說(shuō)話人識(shí)別技術(shù)獲得了廣泛的研究,同時(shí)也有少量成熟產(chǎn)品問(wèn)世。AT而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容,并不考慮說(shuō)話人是誰(shuí),它強(qiáng)調(diào)共性。 聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。,2. SR的歷史 60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。 70年代,語(yǔ)音識(shí)別領(lǐng)域取得了突破 80年代,語(yǔ)音識(shí)別研究進(jìn)一步走
2、向深入 進(jìn)入90年代,隨著多媒體時(shí)代的來(lái)臨,迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)?用。,我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平,國(guó)家也很重視,并把大詞匯量語(yǔ)音識(shí)別的研究列入“863”計(jì)劃,由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開發(fā)。,3.語(yǔ)音識(shí)別技術(shù) 語(yǔ)音識(shí)別系統(tǒng)的分類方式及依據(jù) 根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求,可以分為孤立字(詞)語(yǔ)音識(shí)別系統(tǒng),連接字語(yǔ)音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng) 根據(jù)對(duì)說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。 根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。,不同的語(yǔ)音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似
3、,一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程如圖1所示。,特征提取,模式匹配,模型庫(kù),識(shí)別結(jié)果,語(yǔ)音輸入,圖1 語(yǔ)音識(shí)別的實(shí)現(xiàn),語(yǔ)音 分析,身份 聲明,模型 產(chǎn)生,模型 存儲(chǔ),特征 提取,距離 測(cè)量,識(shí)別 判決,表征說(shuō)話人特點(diǎn)的基本特征 這些特征應(yīng)該具有如下特點(diǎn): (1)能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。 (2)易于從語(yǔ)音信號(hào)中提取。 (3)不易被模仿。,特征提取,聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語(yǔ)音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說(shuō)話人,且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問(wèn)題,目前的聲紋識(shí)別系統(tǒng)
4、主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說(shuō)話人特征大體可歸為下述幾類: 譜包絡(luò)參數(shù)語(yǔ)音信息通過(guò)濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征。 基音輪廓、共振峰頻率帶寬及其軌跡 這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。,特征提取,線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語(yǔ)音信號(hào)處理中的一次飛躍,以線性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。 反映聽覺(jué)特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)
5、測(cè)等。 此外,人們還通過(guò)對(duì)不同特征參量的組合來(lái)提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)的不同特征。,說(shuō)話人識(shí)別的幾種方法 1.模板匹配法 模板匹配法的要點(diǎn)是:在訓(xùn)練過(guò)程中從每個(gè)說(shuō)話人發(fā)出的訓(xùn)練語(yǔ)句中提取相應(yīng)的特征矢量,這些特征矢量能充分描寫各個(gè)說(shuō)話人的行為。這些特征矢量稱為各說(shuō)話人的模板。 它們可以從單詞,數(shù)字串或句子中提取。在測(cè)試階段,從說(shuō)話人發(fā)出的語(yǔ)音信號(hào)中按同樣的處理方法提取測(cè)試模板,并且與其相應(yīng)的參考模板相比較。,2. 概率統(tǒng)計(jì)方法 語(yǔ)音中說(shuō)話人信息在短時(shí)內(nèi)較為平穩(wěn),通過(guò)對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、
6、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,比較適合文本無(wú)關(guān)的說(shuō)話人識(shí)別 利用子詞單元構(gòu)成的隱含馬爾柯夫模型,構(gòu)成了一個(gè)說(shuō)話人確認(rèn)系統(tǒng),每個(gè)子詞單元用一個(gè)從左至右的HMM描寫,每個(gè)模型包含2到3個(gè)狀態(tài)。,3 動(dòng)態(tài)時(shí)間規(guī)整方法 說(shuō)話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時(shí)變因素(語(yǔ)速、語(yǔ)調(diào)、重音和韻律)。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整DTW。,4 矢量量化方法 矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識(shí)別,把每個(gè)人的特定文本編成
7、碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的聲紋識(shí)別研究。這種方法的識(shí)別精度較高,且判斷速度快。,5 隱馬爾可夫模型方法 隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,最早在CMU和IBM被用于語(yǔ)音識(shí)別。 它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。 在使用HMM識(shí)別時(shí),為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。 識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。 HMM不需要時(shí)間規(guī)整,可
8、節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。,提取特征矢量,初試分段,構(gòu)造種子模型,讀入一次發(fā)音的特征矢量,計(jì)數(shù)器初使化,Viterbi算法重分段,“語(yǔ)法”約束,模型參數(shù),根據(jù)新的語(yǔ)音分段邊界,重估計(jì)各HMM狀態(tài)的輸出分布均值和方差,求方差的特征值,特征矢及每次轉(zhuǎn)移的概率,收斂,結(jié)束,最后一次發(fā)音,人工神經(jīng)網(wǎng)絡(luò)方法 人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。 其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說(shuō)話人數(shù)目增加時(shí)可
9、能大到難以訓(xùn)練的程度。 把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高聲紋識(shí)別的性能,如NTT實(shí)驗(yàn)室的T. Matsui和S. Furui使用倒譜、差分倒譜、基音和差分基音,采用VQ與HMM混和的方法得到99.3%的說(shuō)話人確認(rèn)率。,對(duì)于說(shuō)話人確認(rèn)系統(tǒng),表征其性能的最重要的兩個(gè)參量是錯(cuò)誤拒絕率和錯(cuò)誤接受率。 前者是拒絕真實(shí)的說(shuō)話人而造成的錯(cuò)誤,后者是接受假冒者而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān)。 說(shuō)話人確認(rèn)系統(tǒng)的錯(cuò)誤率與用戶數(shù)目無(wú)關(guān),而說(shuō)話人辨認(rèn)系統(tǒng)的性能與用戶數(shù)目有關(guān),并隨著用戶數(shù)目的增加,系統(tǒng)的性能會(huì)不斷下降。,總的說(shuō)來(lái),一個(gè)成功的說(shuō)話人識(shí)別系統(tǒng)應(yīng)該做到以下幾點(diǎn): 能夠有效地區(qū)分不同的說(shuō)話人
10、,但又能在同一說(shuō)話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定,如感冒等情況。 不易被他人模仿或能夠較好地解決被他人模仿問(wèn)題。 在聲學(xué)環(huán)境變化時(shí)能夠保持一定的穩(wěn)定性,即抗噪聲性能要好,聲紋識(shí)別應(yīng)用前景,與其他生物識(shí)別技術(shù),諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較,聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性: 用戶接受程度高,由于不涉及隱私問(wèn)題,用戶無(wú)任何心理障礙。 利用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉,甚至無(wú)費(fèi)用(電話),而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。 在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,如電話銀行、電話炒股、電子購(gòu)物等,與其他生物識(shí)
11、別技術(shù)相比,聲紋識(shí)別更為擅長(zhǎng),得天獨(dú)厚。 由于與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別具有更為簡(jiǎn)便、準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì),可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識(shí)別,通過(guò)SR技術(shù),可以利用人本身的生物特性進(jìn)行身份鑒別,例如為公安部門進(jìn)行語(yǔ)音驗(yàn)證、為一般用戶提供防盜門開啟功能等等。 在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域,SR技術(shù)可以應(yīng)用于諸如聲音撥號(hào)、電話銀行、電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、語(yǔ)音E-mail、安全控制、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。 在呼叫中心應(yīng)用上,SR技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。當(dāng)顧客以電話方式對(duì)呼叫中心進(jìn)行請(qǐng)求時(shí),系統(tǒng)能夠根據(jù)話音判斷出來(lái)者的身份,從而提供更個(gè)性化、更貼心的服務(wù)。,SR的未來(lái) SR技術(shù)發(fā)展至今,盡管已經(jīng)取得了不錯(cuò)的進(jìn)展,要尋找更加優(yōu)良的研究方法仍然有相當(dāng)艱巨的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 陶瓷銷售年終工作總結(jié)5篇
- 普通護(hù)士實(shí)習(xí)個(gè)人小結(jié)參考五篇
- 鋪面房屋租賃5篇
- 豆制品深加工技改擴(kuò)建項(xiàng)目可行性實(shí)施報(bào)告
- 滑雪場(chǎng)項(xiàng)目可行性研究報(bào)告
- 請(qǐng)遺骨協(xié)議書
- 三輪車事故協(xié)議書
- 山西焦煤就業(yè)協(xié)議書
- 酒店銷售經(jīng)理個(gè)人工作計(jì)劃模板5篇
- 地下管廊機(jī)械施工合同
- 小記者第一課我是一名小記者
- 2024年福建省托育服務(wù)職業(yè)技能競(jìng)賽理論考試題庫(kù)(含答案)
- 2024下半年江蘇蘇州城市學(xué)院招聘管理崗位工作人員27人歷年(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
- 二年級(jí)乘除法口算題大全500題(可直接打印)
- 建造節(jié)活動(dòng)策劃書
- sk239g報(bào)警器說(shuō)明書
- 半導(dǎo)體芯片項(xiàng)目創(chuàng)業(yè)計(jì)劃書(參考范文)
- 困難職工基本情況匯總統(tǒng)計(jì)表
- 檔案統(tǒng)計(jì)臺(tái)帳
- 七大浪費(fèi)實(shí)戰(zhàn)案例(消除企業(yè)中的浪費(fèi))
- 停用常壓儲(chǔ)罐管理辦法
評(píng)論
0/150
提交評(píng)論