基于矢量量化模型的說(shuō)話人識(shí)別研究_第1頁(yè)
基于矢量量化模型的說(shuō)話人識(shí)別研究_第2頁(yè)
基于矢量量化模型的說(shuō)話人識(shí)別研究_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于矢量量化模型的說(shuō)話人識(shí)別研究

1線性預(yù)測(cè)分析識(shí)別語(yǔ)言的關(guān)鍵之一是從語(yǔ)言中提取反映語(yǔ)言特征的獨(dú)特函數(shù)。語(yǔ)音特征的選擇是整個(gè)說(shuō)話人識(shí)別系統(tǒng)的基礎(chǔ),對(duì)正確識(shí)別率有著直接的影響。線性預(yù)測(cè)(LinearPrediction)是語(yǔ)音處理中的核心技術(shù),其提取的語(yǔ)音特征線性預(yù)測(cè)系數(shù)(LPC)及其導(dǎo)出的特征用于說(shuō)話人識(shí)別時(shí)性能各有不同,如何選擇適當(dāng)?shù)膮?shù)獲得最好的分類結(jié)果是需要解決的重要問(wèn)題。論文通過(guò)矢量量化模型下說(shuō)話人識(shí)別系統(tǒng)的仿真實(shí)驗(yàn)系統(tǒng)地研究了線性預(yù)測(cè)系數(shù)(LPC)及其導(dǎo)出的特征集的性能,總結(jié)出適用于說(shuō)話人特征提取的參數(shù)設(shè)置規(guī)律,解決了線性預(yù)測(cè)分析在說(shuō)話人識(shí)別應(yīng)用中的實(shí)際問(wèn)題。2線性預(yù)測(cè)分析中生成的特征集2.1線性預(yù)測(cè)分析在語(yǔ)音信號(hào)中,相鄰采樣值之間存在很大的相關(guān)性,某時(shí)刻的信號(hào)很大程度上可以利用對(duì)過(guò)去的采樣值的預(yù)測(cè)得到,即每個(gè)采樣值可以通過(guò)幾個(gè)過(guò)去時(shí)間的采樣值的線性組合來(lái)逼近:式中,p是預(yù)測(cè)器的階數(shù),u(n)代表激勵(lì)序列,G為u(n)的增益。線性預(yù)測(cè)分析的目的是確定預(yù)測(cè)系數(shù)邀a(k)|k=1,...,p妖,使平均預(yù)測(cè)誤差盡可能的小。通常使用Levinson-Durbin算法計(jì)算LPC系數(shù),它是將自相關(guān)序列作為輸入,時(shí)間復(fù)雜度為o(p2),小于標(biāo)準(zhǔn)高斯消去方法的復(fù)雜度o(p3)。計(jì)算步驟見(jiàn)圖1。2.2lar、arcsin、zp的算法實(shí)現(xiàn)從LPC系數(shù)可以導(dǎo)出幾種很有用的特征,包括線性預(yù)測(cè)倒譜系數(shù)(LPCC),反射系數(shù)(REFL),對(duì)數(shù)面積比系數(shù)(LAR),反正弦系數(shù)(ARCSIN)和線譜頻率(LSF)。各特征集的計(jì)算是相互聯(lián)系的。LPCC系數(shù)可以使用(3)式直接從預(yù)測(cè)器系數(shù)中生成。使用Levinson-Durbin算法計(jì)算LPC系數(shù)同時(shí)可以生成REFL系數(shù)邀k(i)妖,i=1,...,p。對(duì)(4)式中的一組從REFL系數(shù)得到的新參數(shù)取對(duì)數(shù),即為L(zhǎng)AR系數(shù)。ARCSIN系數(shù)是通過(guò)對(duì)REFL系數(shù)求反正弦變換得到的。LSF特征集的計(jì)算比較復(fù)雜,需要求解兩個(gè)復(fù)多項(xiàng)式的根。除了計(jì)算上面的系數(shù)特征,LPC還可以用于共振峰估計(jì)。設(shè)z1,z2,...,zp是(5)式中傳遞函數(shù)通過(guò)數(shù)值求根的方法得到的極點(diǎn),每個(gè)極點(diǎn)對(duì)應(yīng)頻譜中的一個(gè)局部峰值,因此極點(diǎn)是與共振峰結(jié)構(gòu)相關(guān)的。通過(guò)(6)和(7)式來(lái)估計(jì)共振峰頻率和帶寬。3對(duì)單件性能的測(cè)量3.1特征空間的大小要求方差特征參數(shù)的選擇應(yīng)較好地反映說(shuō)話人的個(gè)人特征:即要求對(duì)于同一個(gè)人,這些特征參數(shù)最好能集中在特征空間的某一區(qū)域,或者說(shuō)方差很?。欢鴮?duì)不同的人則要求方差很大。特征類型的有效性可用“F比”來(lái)表征。3.2特征集碼書論文在分類實(shí)驗(yàn)中使用基于矢量量化(VQ)的分類方法。VQ技術(shù)是一種非參數(shù)建模方法,對(duì)特征的基本分布幾乎沒(méi)有要求,因此其實(shí)驗(yàn)結(jié)果可以推廣到其它模型。使用隨機(jī)局部搜索(RSL)算法從每個(gè)說(shuō)話人的數(shù)據(jù)集中產(chǎn)生固定尺寸的碼書。實(shí)驗(yàn)針對(duì)說(shuō)話人閉集數(shù)據(jù)庫(kù)進(jìn)行,因此選擇產(chǎn)生最小失真的測(cè)試序列對(duì)應(yīng)的說(shuō)話人作為辨認(rèn)判決結(jié)果。因?yàn)樽R(shí)別具體任務(wù)只是影響決策類型的選擇,所以如果一種特征集在閉集辨認(rèn)中有很好的性能,也可以推廣到說(shuō)話人識(shí)別其它兩項(xiàng)任務(wù)中(開集辨認(rèn)和確認(rèn))。分類性能使用分類誤差率來(lái)進(jìn)行測(cè)量:其中Ne是不正確分類的測(cè)試序列的數(shù)目,N是總的序列的數(shù)目。最初實(shí)驗(yàn)使用全部的測(cè)試序列,很多情況下誤差率等于零,觀察不到特征中的差異。因此需要將測(cè)試集做更細(xì)致的劃分,對(duì)各子集逐個(gè)進(jìn)行分類,以增強(qiáng)測(cè)試結(jié)果的分辨率。4語(yǔ)音信號(hào)的生成實(shí)驗(yàn)數(shù)據(jù)來(lái)自英語(yǔ)聲調(diào)變化數(shù)據(jù)集(IViE,IntonationalVariationinEnglish)。語(yǔ)音信號(hào)的采樣頻率為16kHz,在碼書生成(訓(xùn)練)和識(shí)別階段都使用歐氏距離。預(yù)處理參數(shù)分別為:30ms的漢明窗,窗移20ms,自適應(yīng)預(yù)加重。4.1線性預(yù)測(cè)器的階數(shù)對(duì)性能的影響所有LPC導(dǎo)出的特征都是基于預(yù)測(cè)器多項(xiàng)式確定的全極點(diǎn)模型,所以從線性預(yù)測(cè)系數(shù)性能開始研究。變化LPC預(yù)測(cè)器階數(shù)(p=5,6,...,30)和碼書尺寸(K=16,32,64)。圖2的仿真結(jié)果表明,LPC系數(shù)在說(shuō)話人識(shí)別中的性能與語(yǔ)音識(shí)別文獻(xiàn)中提出的觀點(diǎn)有所不同。在語(yǔ)音識(shí)別中,因?yàn)閮蓚€(gè)LPC系數(shù)之間的相關(guān)性較大,有人認(rèn)為L(zhǎng)PC系數(shù)不能單獨(dú)使用。而實(shí)驗(yàn)中,在只是使用了簡(jiǎn)單的歐氏距離測(cè)度,沒(méi)有任何歸整情況下LPC系數(shù)的性能就很好。盡管在不同預(yù)測(cè)器階數(shù)情況下性能有所差異,但總體上存在碼書增加,誤差下降的趨勢(shì)。在p=15左右誤差率接近零。人類語(yǔ)音大約每1kHz存在一個(gè)復(fù)極點(diǎn),并且有1~2個(gè)復(fù)極點(diǎn)對(duì)應(yīng)于喉和唇的發(fā)射效應(yīng)。實(shí)驗(yàn)中,F(xiàn)s=11.025kHz,第11個(gè)極點(diǎn)為復(fù)極點(diǎn),因此需要大約12~13個(gè)極點(diǎn),線性預(yù)測(cè)器的階數(shù)p=12~13。這個(gè)規(guī)則給出了估計(jì)預(yù)測(cè)器階數(shù)的大致方法。4.2基于低個(gè)數(shù)的lpc誘導(dǎo)的lsf特征性能基于前面的實(shí)驗(yàn),使用階數(shù)p=15的預(yù)測(cè)器計(jì)算LPC導(dǎo)出的特征。固定碼書尺寸K=64,變化特征系數(shù)的數(shù)目。從圖3給出的分類結(jié)果可以看出,由于設(shè)定系數(shù)數(shù)目足夠,所有的LPC導(dǎo)出的特征性能都優(yōu)于LPC系數(shù)。LSF系數(shù)在系數(shù)數(shù)目較少時(shí)性能較差,但隨系數(shù)數(shù)目的增加,LSF的性能也變得與其它特征性能相仿。固定預(yù)測(cè)器階數(shù)p=15,變化碼書尺寸:從K=16按2冪增加到K=256。從表1中數(shù)據(jù)可見(jiàn),所有的LPC導(dǎo)出的特征系數(shù)在預(yù)測(cè)器階數(shù)(叟15)和系數(shù)數(shù)目(叟12)足夠時(shí)都能達(dá)到零誤差,LPC系數(shù)的性能最差。4.3共振峰頻率的確定實(shí)驗(yàn)還對(duì)LPC導(dǎo)出的共振峰頻率及其帶寬進(jìn)行了研究。碼書尺寸固定為K=64,LPC系數(shù)的數(shù)目從p=5到p=15。對(duì)于給定的預(yù)測(cè)器階數(shù),選擇奈奎斯特范圍內(nèi)最少的極點(diǎn)數(shù)目。圖4比較了共振峰頻率,LPC和LPCC特征集??梢钥吹?,增加LPC階數(shù)可以降低共振峰的誤差率。共振峰的總體性能比LPC系數(shù)差,因此共振峰的判決性要比LPC導(dǎo)出的特征集都差。當(dāng)LPC階數(shù)高時(shí),共振峰的性能也會(huì)變得很好。雖然會(huì)出現(xiàn)偽共振峰的情況,但因?yàn)檎f(shuō)話人的許多信息只存在于共振峰頻率點(diǎn)上,所以研究LPC導(dǎo)出的共振峰頻率還是很有價(jià)值的。計(jì)算p=30時(shí)不同共振峰頻率的“F比”來(lái)比較它們的判決性。由圖5知:對(duì)于實(shí)驗(yàn)中的數(shù)據(jù)集,不同共振峰的判決性趨于一致。5基于lpc的輔助參數(shù)化論文通過(guò)對(duì)不同參數(shù)設(shè)置情況下,線性預(yù)測(cè)系數(shù)(LPC)及其導(dǎo)出的特征集的性能比較和分析,總結(jié)了線性預(yù)測(cè)分析用于說(shuō)話人特征提取時(shí)選擇參數(shù)的規(guī)律。說(shuō)話人特征提取中,計(jì)算LPC系數(shù)及其導(dǎo)出的特征時(shí)階數(shù)要高于語(yǔ)音識(shí)別中使用的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論