基于動靜態(tài)特征參數(shù)的語音信號識別_第1頁
基于動靜態(tài)特征參數(shù)的語音信號識別_第2頁
基于動靜態(tài)特征參數(shù)的語音信號識別_第3頁
基于動靜態(tài)特征參數(shù)的語音信號識別_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于動靜態(tài)特征參數(shù)的語音信號識別

1抗噪性能分析mfc是目前語言識別中最常用的特征參數(shù)。這是基于人耳聽力特性的特征參數(shù)。與其他特征參數(shù)相比,它反映了更好的性能,并能在無噪聲的情況下獲得較高的識別率。但是,隨著環(huán)境噪聲的惡化或者識別詞匯量的增大,這種參數(shù)的識別性能急劇下降,說明這種特征不適合強噪聲環(huán)境和大詞匯量識別。近年來,小波變換被廣泛應用于數(shù)據(jù)壓縮和編碼。在語音識別中,小波變換沒有成為主流的方法,是因為小波系數(shù)不能直接作為特征參數(shù)參與識別。本文在MFCC特征參數(shù)的基礎上引入小波技術,分析了一種抗噪性強的特征參數(shù)。由于小波變換的局部化性質(zhì),它可以使語音信號在很小的分析幀長下仍具有較好的頻譜分辨率,這一點應用在語音識別系統(tǒng)的特征提取中,可以增強對輔音區(qū)的識別.因此,以這種特征參數(shù)作為隱馬爾可夫識別網(wǎng)絡的輸入,得出了較好的識別結果。2mfcc的參數(shù)基于聲道全極點模型的LPC倒譜系數(shù)(LPCC)在語音識別中具有廣泛的應用,但它對噪聲特別敏感。人耳能夠從嘈雜的背景噪聲中聽到語音信號,這是因為人耳基底膜對外來信號會產(chǎn)生調(diào)節(jié)作用,對不同的頻率,在相應的臨界帶寬內(nèi)的信號會引起基底膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺。以往研究表明,基于符合人耳聽覺的MeI頻率尺度提取出的倒譜系數(shù)MFCC比LPCC具有更好的識別性能。許多實驗表明,大部分情況下,MFCC優(yōu)于其他倒譜系數(shù),是一種魯棒性較好的參數(shù),能夠有效地提高系統(tǒng)的性能,因此成為目前最為流行的語音特征參數(shù)。MFCC參數(shù)計算的要點是將線性功率譜轉(zhuǎn)換成Mel頻率下的功率譜,在計算之前需要在語音的頻譜范圍內(nèi)設置若干個帶通濾波器Hm(n),m=0,…,M-1;n=0,…,N/2。M為濾波器個數(shù),N為一幀語音信號的點數(shù)。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel三角濾波器的分布圖如圖1所示。MFCC參數(shù)提取的過程見圖1,其中Mel濾波器組的作用是利用人耳聽覺特性對語音信號的幅度平方譜進行平滑。對數(shù)操作的用途:壓縮語音譜的動態(tài)范圍;考慮乘性噪聲,將頻域中的乘性成分轉(zhuǎn)換成加性成分。離散余弦變化主要用來對不同頻段的頻譜成份進行解相關處理,使得各維向量之間相互獨立。3新特征參數(shù)dwptmfcc提取原理3.1mfcc參數(shù)的提取現(xiàn)代小波變換被稱為數(shù)學的顯微鏡,它通過有限個基函數(shù)在尺度-頻率域上對信號進行分析,在控制分辨率的同時,保留了時域信息,因此在時變信號的處理上受到了極大關注。并且小波變換在各分析頻段的恒Q(品質(zhì)因數(shù))特性與人耳聽覺對信號的加工特點相一致,這一良好的特性為利用小波變換提取語音特征參數(shù)奠定了基礎。小波變換中的多分辨分析其最終目的是力求構造一個在頻率上高度逼近L2(R)空間的正交小波基,這些頻率和分辨率不同的正交小波基相當于帶寬各異的帶通濾波器。小波包分析就是在多分辨分析的基礎上,對高頻信號部分進一步分解,根據(jù)被分析信號的特性,從而提取感興趣頻帶的信息,為信號提供了一種更為精細的分析方法。MFCC參數(shù)提取過程是把信號的頻譜通過一系列的帶通濾波器,求得每個濾波器輸出的對數(shù)能量,再進行DCT變換得到的。從濾波器的角度看,小波包分析就是信號通過一系列不同頻帶范圍的帶通濾波器,從而獲得信號在各頻帶內(nèi)的信息。MEL濾波器組與小波包分析的作用在某種意義上可以互換,一種很自然的想法就是用小波包分析來代替FFT與MEL濾波器組,然后再進行DCT變換,從而得到一組語音特征參數(shù)DWPTMFCC(DiscreteWaveletPacketTransformMel-FrequencyCepstralCoefficient)。該參數(shù)的提取計算過程如圖2所示。圖4是小波包變換的頻帶劃分技術示意圖,其中s0為原始信號,其Nyquist截止頻率為fHz。在小波包中任意選取一組可組成L2(R)的正交基,對信號進行分解,可以根據(jù)信號的頻帶分布特點,靈活地選擇分解方式。例如,若選擇分解到AAA3、DAA3、DA2和D1時,可得到與小波的多分辨率分析一致的結果,分別得到頻帶[0ue0a8f8]、[f8ue0a8f4]、[f4ue0a8f2]、[f2ue0a8f]上的信息;而當進行完全三層分解時,則可分別得到頻帶[0ue0a8f8]、[f8ue0a8f4]、[f4ue0a83f8]、[3f8ue0a8f2]、[f2ue0a85f8]、[5f8ue0a83f4]、[3f4ue0a87f8]、[7f8ue0a8f]上的信息。對語音信號的采樣頻率為11025Hz,即最高語音頻率約為5500Hz,根據(jù)臨界帶的劃分與Mel濾波器組在頻帶上的分布,選取24個小波包分析節(jié)點頻帶進行6層小波包分解。小波包分解樹中節(jié)點及其頻帶的選取如表1所示。3.2實驗結果及分析DWPTMFCC的提取計算過程如下:(1)對輸入的語音信號進行預處理。預加重:用以提升高頻部分,使信號的頻譜變得平坦。預加重通常使用一階數(shù)字濾波器實現(xiàn),即式中,μ的典型值為0.94。分幀、加窗:這里的分幀是為了提高特征參數(shù)提取的精度,而不是為了滿足平穩(wěn)假設的條件。端點檢測(短時能量與過零率):去除靜音段,提取有用幀,減少計算量。(2)對各幀信號進行小波包分解,得到各子帶系數(shù)WPXkue0a8m,其中WPXkue0a8m為第k個子帶的第m個小波系數(shù)。本文選擇dB1小波進行小波包分解。(3)計算所選節(jié)點頻帶內(nèi)信號的對數(shù)能量:其中:k為子帶序號;Nk為第k個子帶中小波包分解系數(shù)的個數(shù);K所選頻帶的數(shù)目,在本文的實驗中,K=24。(4)將上述Sk經(jīng)DCT得到新的特征參數(shù)WPDC。其中P是DWPTMFCC的維數(shù)。3.3階dwptmfcc差分參數(shù)標準的DWPTMFCC參數(shù)只反映了語音參數(shù)的靜態(tài)特性,而人耳對語音的動態(tài)特征更為敏感,通常用差分倒譜參數(shù)來描述這種動態(tài)特性,差分參數(shù)采用式(5)來計算。其中c和d都表示一幀語音參數(shù),k為常數(shù),通常取2,此時差分參數(shù)就稱為當前幀的前兩幀和后兩幀的線性組合。由式(5)計算得到的差分參數(shù)為一階DWPTMFCC差分參數(shù),用同樣的公式對一階差分參數(shù)進行計算,就可以得到二階DWPTMFCC差分參數(shù)。在實際的使用時,通常將WPMFCC參數(shù)和它的各階差分參數(shù)合并為一個矢量,作為一幀語音信號的特征參數(shù)。4試驗結果與分析4.1新參數(shù)與mfcc特征參數(shù)的比較實驗中,對同樣的語音”開始”提取DWPTMFWC參數(shù),圖中的坐標軸分別表示MFCC參數(shù)的階數(shù)、語音分析的幀數(shù)和對應的MFCC參數(shù)值。通過與MFCC參數(shù)比較發(fā)現(xiàn),新參數(shù)反映的形狀更加接近,特征更加相似,在4,5,6,7,8,9,10等階都有很好的相似性,而MFCC特征參數(shù)雖然也有不少的相似點,但是相對而言變化差異較大。另外,小波處理的參數(shù)分布更稀疏,這是由于小波包分析在多分辨分析的基礎上,對高頻信號部分進一步分解,但加大了算法復雜度。通過特征提取,訓練,到識別,發(fā)現(xiàn)基于DWPTMFCC特征參數(shù)的語音識別系統(tǒng)更能反映人耳的聽覺特性,對系統(tǒng)的識別率比基于MFCC參數(shù)的識別率要高。4.2實驗結果與分析實驗操作系統(tǒng)為WindowsXP,仿真平臺采用Matlab7.1軟件,聲音錄入設備使用Windows自帶的錄音機。語音信號的采樣頻率為11.025kHz,幀長N=256點,幀移M=128點。由于每個詞的語音波形文件長度各不相同,所以為了處理方便,將提取的特征參數(shù)進行時間歸一化處理,即每個單詞的每一次發(fā)音最后得到統(tǒng)一的12維的語音特征矢量序列,作為HMM網(wǎng)絡的輸入。實驗系統(tǒng)以非特定人,孤立詞語音為識別對象。系統(tǒng)的詞表為10詞,每詞采集48次發(fā)音,共16人,每人發(fā)音3次,其中9人的發(fā)音作為訓練集,其余7人的發(fā)音作為測試集。語音的添加噪音為高斯白噪聲,信噪比從clean到15dB四種情況。表2是仿真實驗結果。從表2可以看出:(1)在相對安靜的環(huán)境下,MFCC和DWPTMFCC的識別率比較接近,看整個結果,對于表2中的每個識別率,WPMFCC特征較MFCC特征都有更優(yōu)的結果;(2)從右到左看結果,隨信噪比變小,MFCC特征的識別率有較大的下降,尤其是在低信噪比情況下,因此,DWPTMFCC特征較MFCC特征有更強的魯棒性;在有一定噪聲干擾的環(huán)境下,DWPTMFCC的識別率高于MFCC,說明用小波包提取的特征參數(shù)具有一定的抗噪聲能力;(3)從計算量上來講,用小波包分析代替了FFT變換與MEL濾波器組的設計,因此新的參數(shù)的計算量與MFCC相當。在此選取新參數(shù)與MFCC都是12維的參數(shù),因此最終兩者的存儲量是相同的。實驗表明,DWPTMFCC特征較MFCC特征有更強的噪聲魯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論