基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究

上傳人：7*** IP屬地：湖北上傳時間：2022-03-05 格式：DOC 頁數(shù)：3 大小：22KB 積分：15 舉報 版權(quán)申訴

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第2頁

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究_第3頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究 08-05-05 16:43:00 作者：謝迎春1 劉建平2 編輯：studa0714摘要通過分析當(dāng)今說話人識別系統(tǒng)中常用的語音特征和基本的說話人識別方法，本文采用多門限多判決的動態(tài)時間規(guī)整算法作為識別方法，并提取出美爾頻率倒譜及其差分、線性預(yù)測倒譜及其差分、基音周期、短時譜的臨界帶特征矢量和子帶能量倒譜等多種語音特征進(jìn)

2、行互相組合，找出了相應(yīng)于該識別方法的最優(yōu)特征組合。關(guān)鍵詞說話人識別；動態(tài)時間規(guī)整；特征組合 1 引言說話人識別是語音識別的一個分支，在公安偵察、聲控系統(tǒng)、醫(yī)療診斷、電子金融業(yè)務(wù)等方面有著廣泛的應(yīng)用前景。它和語音識別的區(qū)別在于，它并不注意語音信號中的語義內(nèi)容，而是希望從語音信號中提取出個人的信息特征。從這點上說，說話人識別是企求挖掘出包含在語音信號中的個性因素。而語音識別是企求從不同人的語音信號中尋找共同因素。通過分析前人對說話人識別的工作總結(jié)，

3、為了進(jìn)一步提高識別率，本文采用了多門限多判決的改進(jìn)的動態(tài)規(guī)整（dynamic time warping ，簡稱DTW）方法進(jìn)行說話人辨認(rèn)，在增加少量運算代價的情況下，新方法改善了辨認(rèn)系統(tǒng)的性能。說話人識別是企求挖掘出包含在語音信號中的個性特征而后進(jìn)行識別。一般說來，單一參量很難使系統(tǒng)性能可靠，因為它不能充分描繪說話人的個體特征，其中會包含語義信息，或只是說話人特征的某一方面，所以在實際應(yīng)用中往往要采用不同參量的集合。因此，本文將提取的多種特征進(jìn)行不同的組合，試圖尋找出相應(yīng)于上述識別方法的具有較高識別率的語音特征組合。2 語音特征的提取

4、; 在提取特征之前，所采集的語音信號必須經(jīng)過預(yù)處理，一般包括預(yù)加重、加窗和分幀。為減少計算量提高計算精度，在預(yù)處理后要進(jìn)行端點檢測。本文利用語音短時能頻值5作為端點檢測的參數(shù)，這種方法相當(dāng)于在傳統(tǒng)方法中，以背景噪聲的短時能頻值為基準(zhǔn)對絕對門限值作調(diào)整，結(jié)果表明能頻值端點檢測的方法適應(yīng)環(huán)境的能力比較強(qiáng)，準(zhǔn)確率較好5。本文利用了“短時分析技術(shù)”1提取了以下幾種常用特征：16維的美爾倒譜參數(shù)MFCC及其差分系數(shù)MFCC、12維的線性預(yù)測倒譜參數(shù)（LPCC）及其差分系數(shù)LPCC、12維的美爾線性預(yù)測差分倒譜系數(shù)1（LPCMCC）、基音周期

5、P及其差分P、18維的短時譜的臨界帶特征矢量1（本文用GL表示）和子帶能量倒譜6（Sub-band MFCC，本文用SBC表示）系數(shù)及其差分（SBC）。其中，本文是采用自相關(guān)方法提取的基音周期，并運用了二次平滑算法1去除了基音軌跡中的“野點”。在提取子帶能量倒譜時，本文是將語音信號按照Mel刻度在樹結(jié)構(gòu)中的多級子帶分解為11個子帶信號進(jìn)行計算的。3 說話人識別方法3.1 動態(tài)時間規(guī)整算法動態(tài)時間規(guī)整匹配是基于動態(tài)規(guī)劃的思想，解決了發(fā)音長短不一的匹配問題，把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)正技術(shù)，是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算

6、法。設(shè)測試語音參數(shù)共有 I 幀矢量，則測試語音模板的特征矢量序列為X=（X1 、X2 、XI），參考語音參數(shù)共有 J 幀，則參考模板的特征矢量序列為Y（Y1 、Y2 、YJ ）。且 IJ，則動態(tài)時間規(guī)整就是要找到一個時間規(guī)整函數(shù) j=w(i) ，將測試矢量的時間軸 i 非線性地映射到參考模板的時間軸 j上，并使該函數(shù) w 滿足下式： &

7、#160; （3.1）其中，是第 i 幀測試矢量Xi 和第 j 幀模板矢量 Yj 之間的距離測度，一般這個距離測度采用歐氏距離的平方，如（3.2）式所示。D則是處于最優(yōu)時間規(guī)整情況下兩矢量的距離。 &

8、#160; （3.2）其中 Xi=( xi1， xi2，xi3 ，xiN)， Yj =( yj1，yj2 ，yj3 ，yjN )，N是特征矢量維數(shù)。實際應(yīng)用中，DTW一般采用動態(tài)規(guī)劃技術(shù)（DP）來實現(xiàn)1。動態(tài)規(guī)劃是一種最優(yōu)化算法，其原理如圖1所示。將測試模板的

9、各幀 i=1,2,.,I 作為二維直角坐標(biāo)系的橫軸，參考模板的各幀號j=1,2,.,J 作為縱軸。通常規(guī)整函數(shù)w(i) 被限制在一個平行四邊形內(nèi)，如圖1，它的一條邊的斜率為2，另一條邊的斜率為1/2 。規(guī)整函數(shù)的起始點為 (1,1)，終止點為(I,J) ，即W(1) =1，W(I)=J 。的斜率為0、1或2；否則就為1或2。這是一種簡單的局部路徑限制。求最佳路徑問題可以歸結(jié)為滿足局部路徑約束條件，使得沿路徑的累積距離最小。搜索該路徑的方法：從(1,1) 點出發(fā)，可以展開若干條滿足局部路徑約束條件的路徑。假設(shè)可以計算每條路徑達(dá)到 (I,J)點時的總的累積

10、距離，具有最小累積距離者即為最佳路徑。這個最小累積距離即為測試語音模板與參考模板語音之間的距離。則與測試模板距離最小的參考模板對應(yīng)的說話人即判為識別結(jié)果。3.2 改進(jìn)的多門限多判決的動態(tài)時間規(guī)整方法很顯然，在模板庫中總的詞條數(shù)目不變時，增加模板的數(shù)量會提高識別率，但是模板數(shù)目的增加也會帶來系統(tǒng)響應(yīng)速度變慢的問題。因此，本文在說話人辨認(rèn)系統(tǒng)中采取了多門限多次判決方法2，系統(tǒng)參考模板庫中共存有四套模板。輸入語音構(gòu)成的測試模板先跟第一套模板進(jìn)行匹配，求出與每個模板的最佳匹配距離，距離最小者作為候選輸出。設(shè)定一個拒

11、絕門限，若最小匹配距離也大于該門限，則表明該輸入語音不在語音庫范圍內(nèi)，停止下一步匹配，結(jié)果判該輸入語音對應(yīng)的說話人為庫外人員。另外再設(shè)一個接受門限，若匹配距離小于該門限，則候選輸出為正式的輸出；否則，再進(jìn)行第二輪匹配，即與第二套模板進(jìn)行匹配.這樣一直到第四套模板，如果此時還沒有得到理想的輸出，則可綜合評價四次匹配結(jié)果，得出最后的輸出結(jié)果。此外，為了減少多輪匹配的計算量，定義一個差別閾值2，在每輪匹配結(jié)束后，計算最小匹配距離與其他模板匹配距離的差別，若所有的差別均大于差別閾值，則表明輸入模板與候選輸出模板較其他模板有很大的相似性，可以作為正式的輸出。若仍有模板的差別小于差別閾值，則表明這些模板與候選輸出模板之間還可能存在混淆，需待下一輪匹配進(jìn)行澄清。因此在下一輪匹配時，只需計算輸入語音與這些模板之間的匹配距離，而將其他模板排除在外。本文的拒絕門限設(shè)定為在兩個參考模板中對候選輸出者的語音進(jìn)行模板匹配得到的累積距離dr 的倍數(shù)，即（1 ）為拒絕門限。接受門限則設(shè)定為：，其中 0<<1，是根據(jù)使用不同的特征矢量分別設(shè)定的。由于人的語音會隨著時間的變化而變化，而且會受到健康和

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究

文檔簡介

溫馨提示

最新文檔

評論

基于改進(jìn)的時間動態(tài)規(guī)整算法的多特征組合的說話人辨認(rèn)方法研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔