PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較_第1頁
PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較_第2頁
PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較_第3頁
PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較_第4頁
PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 PLP及MFCC在藏語連續(xù)語音識別系統(tǒng)中的比較【摘要】 本文論述了常用的語音特征參數(shù),并分析了mel頻譜倒譜系數(shù)(mfcc)和感知線性預測系數(shù)(plp)的計算方法,并在藏語拉薩話大詞表連續(xù)語音識別系統(tǒng)中分別提取mfcc和plp參數(shù),并對識別結(jié)果進行了比較.【關(guān)鍵詞】 mel倒譜 感知線性預測系數(shù) mfcc plp 語音識別 藏語自動語音識別研究起始于上世紀50年代,80年代最大突破是隱馬爾科夫模型(hmm)的應用,語音識別研究重點從特定人、小詞表、孤立詞語音識別向非特定人、大詞表、連續(xù)語音識別轉(zhuǎn)移;90年代以來,語音識別在模型細化、參數(shù)提取和優(yōu)化、系統(tǒng)自適應方面取得重大突破.進入本世紀,著名

2、的研究機構(gòu)和公司,如劍橋大學、ibm、cmu大學、微軟、貝爾實驗室等機構(gòu)的大詞表連續(xù)語音識別系統(tǒng)對特定說話人的識別率達到95左右.面對中國未來市場,國外ibm、apple、motorola等公司投入到漢語語音識別系統(tǒng)的開發(fā).我國語音識別研究雖然起步較晚,但發(fā)展發(fā)展迅速,中國科學院自動化研究所、聲學研究所及清華大學、北京交通大學等機構(gòu)都開展了語音識別的研究,總體上,漢語連續(xù)語音識別的研究與國外先進技術(shù)相差不大。實際環(huán)境對語音識別的聲學噪聲魯棒性要求越來越高,因此,提取具有魯棒性和較強區(qū)分能力的特征向量對語音識別系統(tǒng)具有重要的意義.目前常用的聲學特征參數(shù)有基于線性預測分析(lpc)的倒譜lpcc、

3、基于mel頻率彎折的倒譜mfcc及基于聽覺模型的感知線性預測(plp)分析等.由于考慮到人耳的聽覺特性,mel倒譜系數(shù)或感知線性預測系數(shù)已經(jīng)成為目前主流的語音特征向量提取方法之一,加上它們的一階、二階差分以及對特征向量進行歸一化處理以后,在大詞匯量連續(xù)語音識別問題上取得不錯的結(jié)果。為了使系統(tǒng)具有較好的魯棒性,通常要對語音識別系統(tǒng)的前端進行預處理.雖然語音信號是非平穩(wěn)信號,但在一個小的時段內(nèi)具有相對的穩(wěn)定性,因此在對語音信號進行分析時,我們總是假定語音信號在一個時間幀(frame)內(nèi)是平穩(wěn)信號,這就是語音信號的短時分析假設。通常一幀大約為20ms左右。對一幀信號通過加hamming 窗、hann

4、ing 窗或矩形窗后再進行特征分析就可以得到相應的一組特征,然后通過把分析窗移動一個偏移(稱為幀移,通常為一幀的1/2或1/3),然后進行下一幀的處理。1mfcc的計算mel頻率倒譜參數(shù)(mfcc),著眼于人耳的聽覺特性。人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,從人類聽覺系統(tǒng)的研究成果來看,人耳分辨聲音頻率的過程猶如一種取對數(shù)的功能,而mel頻率尺度則更符合人耳的聽覺特性。類似于臨界頻帶的劃分,可以將語音頻率劃分成一系列三角形的濾波器序列,即mel濾波器組。mel頻率和頻率的關(guān)系如下:mel(f)=2595lg(1+f/700)mel頻率帶寬隨頻率的增長而變化,在1000hz以下

5、,大致呈線性分布,帶寬為100hz左右,在1000hz以上呈對數(shù)增長。將頻譜通過24個三角濾波器,其中中心頻率在1000hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000hz以下為線性分布,1000hz以上為等比數(shù)列分布。圖1 mel三角濾波器mfcc的具體計算過程如下:1)由原始信號計算其dft,得到離散譜s n n n t ( ) = 1,2,., ;2)三角濾波器的輸出則為此頻率帶寬內(nèi)所有信號幅度譜加權(quán)和。l = 1,2,.,243)對所有濾波器輸出作對數(shù)運算ln(y(l)l= 1,2,.,244)作離散余弦變換(dct)得到mel頻率倒譜參數(shù)(mfcc)。i = 1,2,.

6、,p,p為mfcc參數(shù)的階數(shù),取p12.2plp的計算感知線性預測(plp)技術(shù)涉及到聽力、心理、物理學的三個概念:(1)臨界波段頻譜分辨率;(2)等響度曲線;(3)強度-響度功率定律。使用一個自回歸全極點模型去逼近聽覺頻譜。5階的全極點模型能有效地抑制聽覺頻譜中與話者有關(guān)的細節(jié)信息。與傳統(tǒng)的線性預測(lp)分析相比,在強調(diào)聽覺這方面,plp分析更為合理。plp分析流程:(1)使用fft用對原始信號從時域變換到頻域,得到功率譜 ;(2)關(guān)鍵波段頻譜分析(critical-band spectral resolution):以不同于mel頻譜分析的新的臨界波段曲線進行分段離散卷積,產(chǎn)生臨界波段功

7、率譜的樣點.(3)等響度預加重(equal-loudness pre-emphasis):樣值化的通過模擬的等響度曲線進行預加重(4) 利用強度-響度冪律(intensity-loudness power law)進行立方根幅度壓縮(5) 自回歸建模(auto-regressive modeling):利用全極點頻譜建模的自相關(guān)方法由全極點模型的頻譜去逼近 ?;驹硎牵簩?)進行逆dft變換,產(chǎn)生自相關(guān)函數(shù)。前m1個自相關(guān)值用于從yule-walker方程中解出m階全極點模型的自回歸系數(shù)。3.實驗結(jié)果分別提取12維plp和mfcc特征參數(shù),1維歸一化短時能量,并求其一階差分及二階差分,共39

8、維mfcc和plp特征參數(shù).以音素為聲學建模單元,采用5狀態(tài)的連續(xù)hmm模型(見圖2),其中1、5狀態(tài)只起連接作用,沒有觀測概率,第2、3、4狀態(tài)有g(shù)mm概率分布,假設特征參數(shù)是相互獨立的,所以規(guī)定協(xié)方差矩陣為對角陣。圖2 五狀態(tài)hmm模型結(jié)構(gòu)聲學模型的訓練基于4007句朗讀式的特定人男聲語料,共2.84小時,結(jié)合藏語語言學和語音學的研究成果,對拉薩話中全部50個音素進行分類,共劃分了38個音素類別集,對全部72個聲韻母設計了72個類別集,根據(jù)其前后語境分別建立決策樹問題集,生成決策樹,生成三音子模型后逐步增加高斯混合度。選擇50句短句作為測試集,測試集與訓練集為同一發(fā)音人,但發(fā)音文本完全獨立

9、,同時,測試集語料與語言模型的訓練語料也完全獨立,測試集共有885個單音節(jié),其中界外詞(oov)25個,全部為緊縮音節(jié)。當特征參數(shù)分別為plp和mfcc時,實驗結(jié)果如下(三音子triphone模型的狀態(tài)數(shù)為584):由藏語大詞表連續(xù)語音識別的實驗結(jié)果來看,plp和mfcc的效果相差不大。參考文獻1 lawrence rabiner, biing-hwang juang. fundamentals of speech recognitionm.北京:清華大學出版社.19932 鄭方,吳文虎,方棣棠. 連續(xù)無限制語音流中關(guān)鍵詞識別的研究現(xiàn)狀c.第四屆全國人機語音通訊學術(shù)會議,北京,19963 高升,徐波,黃泰翼.基于決策樹的漢語三音子模型j.聲學學報,2000,11(2):271-2764 julian james odell. the use of context in large vocabulary spe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論