語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt

上傳人：g*** IP屬地：河南上傳時(shí)間：2020-10-13 格式：PPT 頁(yè)數(shù)：22 大?。?94.50KB 積分：20 舉報(bào) 版權(quán)申訴

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt_第2頁(yè)

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt_第3頁(yè)

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt_第4頁(yè)

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt_第5頁(yè)

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1.什么是說(shuō)話人識(shí)別(SR)？說(shuō)話人識(shí)別（Speaker Recognition, SR）技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)分，從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。在國(guó)外，說(shuō)話人識(shí)別技術(shù)獲得了廣泛的研究，同時(shí)也有少量成熟產(chǎn)品問(wèn)世。AT而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容，并不考慮說(shuō)話人是誰(shuí)，它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分，即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話人身份的有效且穩(wěn)定可靠的特征，模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。,2. SR的歷史 60年代，計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。 70年代，語(yǔ)音識(shí)別領(lǐng)域取得了突破 80年代，語(yǔ)音識(shí)別研究進(jìn)一步走

2、向深入進(jìn)入90年代，隨著多媒體時(shí)代的來(lái)臨，迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)?用。,我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平，國(guó)家也很重視，并把大詞匯量語(yǔ)音識(shí)別的研究列入“863”計(jì)劃，由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開發(fā)。,3.語(yǔ)音識(shí)別技術(shù) 語(yǔ)音識(shí)別系統(tǒng)的分類方式及依據(jù) 根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求，可以分為孤立字（詞）語(yǔ)音識(shí)別系統(tǒng)，連接字語(yǔ)音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng) 根據(jù)對(duì)說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。根據(jù)詞匯量大小，可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。,不同的語(yǔ)音識(shí)別系統(tǒng)，雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同，但所采用的基本技術(shù)相似

3、，一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程如圖1所示。,特征提取,模式匹配,模型庫(kù),識(shí)別結(jié)果,語(yǔ)音輸入,圖1 語(yǔ)音識(shí)別的實(shí)現(xiàn),語(yǔ)音分析,身份聲明,模型產(chǎn)生,模型存儲(chǔ),特征提取,距離測(cè)量,識(shí)別判決,表征說(shuō)話人特點(diǎn)的基本特征這些特征應(yīng)該具有如下特點(diǎn)：（1）能夠有效地區(qū)分不同的說(shuō)話人，但又能在同一說(shuō)話人的語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。（2）易于從語(yǔ)音信號(hào)中提取。（3）不易被模仿。,特征提取,聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語(yǔ)音信號(hào)中表征人的基本特征，此特征應(yīng)能有效地區(qū)分不同的說(shuō)話人，且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定?？紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問(wèn)題，目前的聲紋識(shí)別系統(tǒng)

4、主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說(shuō)話人特征大體可歸為下述幾類：譜包絡(luò)參數(shù)語(yǔ)音信息通過(guò)濾波器組輸出，以合適的速率對(duì)濾波器輸出抽樣，并將它們作為聲紋識(shí)別特征。基音輪廓、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。,特征提取,線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語(yǔ)音信號(hào)處理中的一次飛躍，以線性預(yù)測(cè)導(dǎo)出的各種參數(shù)，如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù)，作為識(shí)別特征，可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽覺(jué)特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù)，如美倒譜系數(shù)、感知線性預(yù)

5、測(cè)等。此外，人們還通過(guò)對(duì)不同特征參量的組合來(lái)提高實(shí)際系統(tǒng)的性能，當(dāng)各組合參量間相關(guān)性不大時(shí)，會(huì)有較好的效果，因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)的不同特征。,說(shuō)話人識(shí)別的幾種方法 1.模板匹配法模板匹配法的要點(diǎn)是：在訓(xùn)練過(guò)程中從每個(gè)說(shuō)話人發(fā)出的訓(xùn)練語(yǔ)句中提取相應(yīng)的特征矢量，這些特征矢量能充分描寫各個(gè)說(shuō)話人的行為。這些特征矢量稱為各說(shuō)話人的模板。它們可以從單詞，數(shù)字串或句子中提取。在測(cè)試階段，從說(shuō)話人發(fā)出的語(yǔ)音信號(hào)中按同樣的處理方法提取測(cè)試模板，并且與其相應(yīng)的參考模板相比較。,2. 概率統(tǒng)計(jì)方法語(yǔ)音中說(shuō)話人信息在短時(shí)內(nèi)較為平穩(wěn)，通過(guò)對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析，可以利用均值、

6、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整，比較適合文本無(wú)關(guān)的說(shuō)話人識(shí)別利用子詞單元構(gòu)成的隱含馬爾柯夫模型，構(gòu)成了一個(gè)說(shuō)話人確認(rèn)系統(tǒng)，每個(gè)子詞單元用一個(gè)從左至右的HMM描寫，每個(gè)模型包含2到3個(gè)狀態(tài)。,3 動(dòng)態(tài)時(shí)間規(guī)整方法說(shuō)話人信息不僅有穩(wěn)定因素（發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣），而且有時(shí)變因素（語(yǔ)速、語(yǔ)調(diào)、重音和韻律）。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比，按照某種距離測(cè)定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整DTW。,4 矢量量化方法矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識(shí)別，把每個(gè)人的特定文本編成

7、碼本，識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼，以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的聲紋識(shí)別研究。這種方法的識(shí)別精度較高，且判斷速度快。,5 隱馬爾可夫模型方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型，最早在CMU和IBM被用于語(yǔ)音識(shí)別。它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程，符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識(shí)別時(shí)，為每個(gè)說(shuō)話人建立發(fā)聲模型，通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率，根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。 HMM不需要時(shí)間規(guī)整，可

8、節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量，在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。,提取特征矢量,初試分段,構(gòu)造種子模型,讀入一次發(fā)音的特征矢量,計(jì)數(shù)器初使化,Viterbi算法重分段,“語(yǔ)法”約束,模型參數(shù),根據(jù)新的語(yǔ)音分段邊界，重估計(jì)各HMM狀態(tài)的輸出分布均值和方差，求方差的特征值，特征矢及每次轉(zhuǎn)移的概率,收斂,結(jié)束,最后一次發(fā)音,人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性，它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型，具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性，其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng)，動(dòng)態(tài)時(shí)間規(guī)整能力弱，網(wǎng)絡(luò)規(guī)模隨說(shuō)話人數(shù)目增加時(shí)可

9、能大到難以訓(xùn)練的程度。把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高聲紋識(shí)別的性能，如NTT實(shí)驗(yàn)室的T. Matsui和S. Furui使用倒譜、差分倒譜、基音和差分基音，采用VQ與HMM混和的方法得到99.3%的說(shuō)話人確認(rèn)率。,對(duì)于說(shuō)話人確認(rèn)系統(tǒng)，表征其性能的最重要的兩個(gè)參量是錯(cuò)誤拒絕率和錯(cuò)誤接受率。前者是拒絕真實(shí)的說(shuō)話人而造成的錯(cuò)誤，后者是接受假冒者而造成的錯(cuò)誤，二者與閾值的設(shè)定相關(guān)。說(shuō)話人確認(rèn)系統(tǒng)的錯(cuò)誤率與用戶數(shù)目無(wú)關(guān)，而說(shuō)話人辨認(rèn)系統(tǒng)的性能與用戶數(shù)目有關(guān)，并隨著用戶數(shù)目的增加，系統(tǒng)的性能會(huì)不斷下降。,總的說(shuō)來(lái)，一個(gè)成功的說(shuō)話人識(shí)別系統(tǒng)應(yīng)該做到以下幾點(diǎn)：能夠有效地區(qū)分不同的說(shuō)話人

10、，但又能在同一說(shuō)話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定，如感冒等情況。不易被他人模仿或能夠較好地解決被他人模仿問(wèn)題。在聲學(xué)環(huán)境變化時(shí)能夠保持一定的穩(wěn)定性，即抗噪聲性能要好,聲紋識(shí)別應(yīng)用前景,與其他生物識(shí)別技術(shù)，諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較，聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外，還具有以下特性：用戶接受程度高，由于不涉及隱私問(wèn)題，用戶無(wú)任何心理障礙。利用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉，甚至無(wú)費(fèi)用（電話），而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中，如電話銀行、電話炒股、電子購(gòu)物等，與其他生物識(shí)

11、別技術(shù)相比，聲紋識(shí)別更為擅長(zhǎng)，得天獨(dú)厚。由于與其他生物識(shí)別技術(shù)相比，聲紋識(shí)別具有更為簡(jiǎn)便、準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì)，可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面，特別是基于電信網(wǎng)絡(luò)的身份識(shí)別,通過(guò)SR技術(shù)，可以利用人本身的生物特性進(jìn)行身份鑒別，例如為公安部門進(jìn)行語(yǔ)音驗(yàn)證、為一般用戶提供防盜門開啟功能等等。在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域，SR技術(shù)可以應(yīng)用于諸如聲音撥號(hào)、電話銀行、電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、語(yǔ)音E-mail、安全控制、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。在呼叫中心應(yīng)用上，SR技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。當(dāng)顧客以電話方式對(duì)呼叫中心進(jìn)行請(qǐng)求時(shí)，系統(tǒng)能夠根據(jù)話音判斷出來(lái)者的身份，從而提供更個(gè)性化、更貼心的服務(wù)。,SR的未來(lái) SR技術(shù)發(fā)展至今，盡管已經(jīng)取得了不錯(cuò)的進(jìn)展，要尋找更加優(yōu)良的研究方法仍然有相當(dāng)艱巨的

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 技術(shù)指導(dǎo)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音信號(hào)處理(ppt)語(yǔ)音識(shí)別.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔