基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型_第1頁
基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型_第2頁
基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型_第3頁
基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型_第4頁
基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于動態(tài)貝葉斯網(wǎng)絡的異步整詞-發(fā)音特征語音識別模型

聲音檢測系統(tǒng)在實驗室環(huán)境下取得了巨大成功,但在實際應用中,由于背景噪聲和通信通道等因素的影響,檢測率急劇下降。一種原因是傳統(tǒng)的語音識別都是從語音信號出發(fā),很少考慮語音的發(fā)音機理。而人在發(fā)音過程中都會伴隨有發(fā)音器官(舌頭、嘴唇)的運動,文中稱之為發(fā)音特征(ArticulatoryFeatures,AFs)。非線性語音學指出這些發(fā)音器官的運動具有異步性。研究表明,對發(fā)音特征建模,模擬發(fā)音器官的運動及其異步性,不僅能更好地解釋協(xié)同發(fā)音現(xiàn)象,而且語音識別系統(tǒng)也更具魯棒性。目前,DBN以其強大的表示能力和通用的學習、推理算法,已成為語音識別研究中的熱點。Zweig首先采用DBN模擬標準的隱馬爾可夫模型(HMM),實現(xiàn)了孤立詞的語音識別。后來,Bilmes等人在該模型的基礎(chǔ)上增加了詞層和語言層,構(gòu)建了能用于連續(xù)語音識別的單流動態(tài)貝葉斯網(wǎng)絡模型。對于模型中詞的構(gòu)成,Bilmes提出了兩種方式,一是每個詞采用固定個數(shù)的整詞狀態(tài)數(shù)來描述,構(gòu)成基于整詞-狀態(tài)的單流DBN(WS-DBN)模型;二是每個詞采用它對應的音素序列來描述,構(gòu)成基于整詞-音素的單流DBN(WP-DBN)模型。近年來,MIT的人工智能實驗室在結(jié)合發(fā)音特征的語音識別問題上也做了大量工作,提出了一種具有整詞-發(fā)音特征結(jié)構(gòu)的語音模型(WA-DBN),引入了發(fā)音特征異步檢查節(jié)點。但在相關(guān)文獻中,對發(fā)音特征間的約束關(guān)系及條件概率分布,以及前后幀發(fā)音特征之間及其與其他節(jié)點之間的關(guān)系,并沒有給出詳盡的描述和定義。本文在WA-DBN模型的基礎(chǔ)上,對發(fā)音特征流之間的異步關(guān)系重新進行了約束,并定義了在該約束關(guān)系下各發(fā)音特征節(jié)點及異步檢查節(jié)點的條件概率分布,構(gòu)建了一種新的異步WA-DBN模型(AWA-DBN)。最后,利用圖模型處理工具包GMTK實現(xiàn)了AWA-DBN模型,以及WS-DBN和WP-DBN模型,并在連接數(shù)字語音庫Aurora5.0上進行了語音識別實驗。詞識別結(jié)果表明,AWA-DBN模型比WP-DBN模型具有更高的識別率和更強的系統(tǒng)魯棒性。在進行發(fā)音特征建模之前,首要工作就是選擇合適的發(fā)音特征集。發(fā)音特征是指發(fā)音器官(Articulator)的配置或運動信息,諸如聲帶的振動、舌頭的起伏、口形的變化等。發(fā)音特征描述的是語音產(chǎn)生的源頭和過程,對常規(guī)聲學信號來說,這些特征是隱藏的。到目前為止還沒有統(tǒng)一的發(fā)音特征定義,但有一些特征是大多文獻通常采用的,例如place、manner等。本文采用的發(fā)音特征集是發(fā)音特征的組合,如表1所示。其中發(fā)音特征L描述的是發(fā)音器官嘴唇所處位置(position)及張開度(degreeofopening)。對位置而言,有P=protruded(伸出、突出);L=labial(唇音的,表示嘴唇通常所處的位置);D=dental(齒音的,表示唇齒相接時的位置)。對嘴唇張開度而言,有CL=closed(閉合);CR=critical(臨界閉合狀態(tài));N=narrow(張開度小);W=wide(張開度大)。對于描述舌尖和舌體的發(fā)音特征T,有D=inter-dental(舌尖處于上下齒之間,如[th],[dh]),A=alveolar(齒槽音,如[t],[n]),P=palatal(上顎音,如[sh]),R=retroflex(卷舌音,如[r]),CL=closed,CR=critical(臨界閉合,如[s]),N=narrow(如[r]),M=medium,PH=pharyngeal(咽喉的,如[aa]),MN=medium-narrow,W=wide,V=velar(軟腭音,如[k],[ng]),U=uvular(懸垂的,指舌頭一般所處的位置)。對于描述軟腭和聲門的發(fā)音特征G,有C=closed(軟腭關(guān)閉);O=open(軟腭打開);CL=closed(聲門關(guān)閉);CR=critical(聲門處于臨界關(guān)閉狀態(tài),此時表現(xiàn)為濁音);O=open(聲門打開,清音)。圖1給出了三幀的模型描述,但在實際應用中可對Chunk塊進行適當擴展,從而顯式描述語音的發(fā)音過程。圖中實線箭頭表示確定性條件概率,虛線箭頭表示隨機條件概率。模型中各節(jié)點的具體含義如下:Word(W)———當前詞;WordTransition(WT)———如果值為1,表示詞發(fā)生轉(zhuǎn)移;LPosition、TPosition、GPosition(LP、TP、GP)———發(fā)音特征L、T、G在某個詞中的位置;LTransition、TTransition、GTransition(LT、TT、GT)———如果值為1,表示發(fā)音特征發(fā)生轉(zhuǎn)移;L、T、G———詞中具體的發(fā)音特征;ChecksynLT(CLT)———如果值為1,表示L、T發(fā)音特征同步或處于限制狀態(tài)內(nèi)的異步;ChecksynLTG(CLTG)———如果值為1,表示L、T、G發(fā)音特征同步或處于限制狀態(tài)內(nèi)的異步;AudioObs(O)———音頻觀測向量。2.2基于模型的概率關(guān)系的描述圖1中的聯(lián)合條件概率關(guān)系表示為:4實驗與結(jié)果分析4.1實驗模型及結(jié)構(gòu)本實驗是在ETSI(EuropeanTelecommunicationsStandardInstitute)錄制的連接數(shù)字語音庫Aurora5.0上進行,包括zero到nine以及oh這11個單詞,另外加上靜音sil和停頓sp,共13個詞,22個音素。該實驗中選取3個說話人的語音樣本,其中每人200句作為訓練樣本,40句作為測試樣本。為了測試模型對背景噪聲的魯棒性,還對測試樣本施加了不同信噪比的噪聲。音頻信號選用窗長為25ms的Hamming窗,采用13維的PLP特征,1維的能量特征,以及一階和二階差分特征向量,形成共42維特征向量。實驗采用華盛頓大學的圖模型工具包GMTK(GraphicModelsToolKits)來構(gòu)建所需要的發(fā)音特征級模型結(jié)構(gòu)。對于混合高斯采取了隱馬爾可夫模型處理工具包HTK中增加高斯的策略,先建立單高斯模型進行訓練,然后進行一次分裂以增加高斯個數(shù),再進行訓練,重復該步驟以達到需要的高斯個數(shù)為止。對于WS-DBN模型,每個詞采用8個狀態(tài)來描述,靜音采用3個狀態(tài),而停頓和靜音共享靜音的中間狀態(tài),每個狀態(tài)產(chǎn)生的觀測向量用一組混合高斯模型(GMM)參數(shù)來描述,對WS-DBN模型共需訓練91組GMM參數(shù)。對WP-DBN模型,又將其細分為兩種模型結(jié)構(gòu),一是每個音素對應一個音素狀態(tài),共需訓練22組GMM參數(shù),模型標記為WP-DBN1;二是每個音素對應3個音素狀態(tài),但這3個音素狀態(tài)共享一組GMM參數(shù),所以最終仍為22組GMM參數(shù),這種情況可以理解為音素綁定,模型標記為WP-DBN3。對本文提到的模型,根據(jù)詞內(nèi)異步程度,也分為三種模型結(jié)構(gòu):AWA-DBN1、AWA-DBN2和AWA-DBN3,分別表示詞內(nèi)各發(fā)音特征流間的異步狀態(tài)數(shù)最多不超過一個狀態(tài)、兩個狀態(tài)和三個狀態(tài)。另外類似于音素三狀態(tài)情況,每個發(fā)音特征也采用三狀態(tài)結(jié)構(gòu)。該語音庫只涉及到11個單詞,用到的發(fā)音特征T只有4維,L為14維,G為3維,共形成168種發(fā)音特征組合,所以模型需建立168組GMM。4.2音素三狀態(tài)模型本文采用的評價標準是詞識別正確率(Corr),定義如下:其中H表示識別結(jié)果中除去刪除、替換單詞后正確識別詞的個數(shù),N表示原始腳本中詞的個數(shù)。表2即是各個模型在不同信噪比條件下的詞識別正確率。分析上面數(shù)據(jù),得到以下結(jié)論:(1)整詞-狀態(tài)DBN(WS-DBN)模型具有最高的識別率,這是因為音素和發(fā)音特征是被所有詞共享,而整詞狀態(tài)屬于每個詞單獨擁有,更適合于小詞匯量孤立詞語音識別。(2)音素三狀態(tài)(WP-DBN3)模型將每個音素細分為3個狀態(tài),對音素進行了更精細建模,也即對詞進行更精細建模,所以該模型的識別結(jié)果要比音素單狀態(tài)模型(WP-DBN1)的結(jié)果好。(3)整詞-發(fā)音特征DBN(AWA-DBN)模型的識別結(jié)果稍微高于整詞-音素DBN(WP-DBN)模型的識別結(jié)果,這是因為AWA-DBN采用3個發(fā)音特征流來對詞進行建模,利用發(fā)音特征間固有的異步性能更準確地描述發(fā)音過程。另外隨著信噪比的降低,可以發(fā)現(xiàn),結(jié)合發(fā)音特征的DBN語音模型表現(xiàn)出了比音素級DBN語音模型更強的系統(tǒng)魯棒性。5單次語音識別實驗本文構(gòu)建了發(fā)音特征異步的語音識別模型(AWA-DBN),定義了在約束條件下發(fā)音特征節(jié)點的條件概率分布,并在ETSI錄制的標準語音庫Aurora5.0上做了連接詞的語音識別實驗。結(jié)果表明,具有整詞-發(fā)音特征結(jié)構(gòu)的AWA-DBN模型比整詞-音素結(jié)構(gòu)的WP-DBN模型具有更高的識別率和更強的魯棒性。雖然整詞-狀態(tài)DBN(WS-DBN)模型具有最高的識別率,但該模型只適合于小詞匯量語音識別,并不適合于大詞匯量連續(xù)語音識別,所以結(jié)合發(fā)音特征的DBN模型就成了最有前景的語音識別模型。在未來工作中,會將該模型擴展為結(jié)合發(fā)音特征的多流語音識別模型,使得輸入流同時包含音頻特征流和視頻特征流,以期在噪聲環(huán)境下得到更高的語音識別率,提高語音識別系統(tǒng)的魯棒性。1發(fā)音特征2分階段dbn模型aw-dbn與發(fā)音特征相結(jié)合2.1形態(tài)同步機制本文構(gòu)建的異步整詞-發(fā)音特征DBN(AWA-DBN)語音識別模型如圖1所示。頂層為詞層,隱層為發(fā)音特征層,底層為音頻觀測向量,其中發(fā)音特征層由3個流構(gòu)成,分別為3個發(fā)音特征流L、T、G,各流在詞內(nèi)異步、詞邊界同步。其中下標t表示當前時間片,t-1表示前一時間片。該模型不同于WS-DBN、WP-DBN之處在于引入了節(jié)點CLT和CLTG,這兩個節(jié)點的作用是檢查并限制各個流之間的異步程度。由于模型描述的是詞邊界同步,從而各發(fā)音特征流間的異步程度用它們在詞中位置的絕對距離表示,這同WA-DBN模型中的定義一致。其中節(jié)點CLT檢查發(fā)音特征流L、T間的異步程度a=|LP-TP|,CLTG則檢查3個發(fā)音特征流的異步程度。在WA-DBN模型中,節(jié)點CLT與CLTG服從不確定性條件概率分布,用來檢查當前時刻各發(fā)音特征流間是否存在異步。本文的AWA-DBN模型中,節(jié)點CLT與CLTG服從確定性條件概率分布,它們不僅檢查當前幀中各發(fā)音特征流的異步關(guān)系,而且根據(jù)檢查結(jié)果影響并控制下一幀中各發(fā)音特征在詞中所處的狀態(tài)。因此定義這兩個節(jié)點的概率關(guān)系為:其中m為各流間的最大異步狀態(tài)數(shù),如果a>m有CLT=0;如果b>m則有CLTG=0。根據(jù)發(fā)音器官的運動機理,m的值一般限制在3~4之內(nèi),可以在實驗中進行設置和調(diào)整。當發(fā)音特征流L、T間的異步程度超過規(guī)定的最大異步狀態(tài)數(shù)時,本模型采取以發(fā)音特征L為基準,修正T,使得兩個流間的異步程度始終保持在最大異步狀態(tài)數(shù)之內(nèi);對于3個發(fā)音特征流,則采取以L、T為基準,修正G。概率關(guān)系描述為:本文采用混合高斯模型(GMM)來描述由發(fā)音特征組合到觀測向量的概率分布,公式如下:它描述的是第j種發(fā)音特征組合的GMM,其中l(wèi)1、l2和l3分別為發(fā)音特征流L、T和G的狀態(tài)數(shù),N為3個發(fā)音特征流的狀態(tài)組合數(shù),q、m和n分別為3個發(fā)音特征在某詞內(nèi)所處狀態(tài)的一個索引值。3單高斯模型的建立本文模型中的節(jié)點變量,既有可觀測變量,又有不可觀測變量,屬觀測不完全的DBN模型,因此模型的訓練和學習采用期望最大化(EM)算法。令x為所有實例中的所有觀測值,χ為所有實例中的所有可觀測變量,y代表所有實例中的全部隱變量,Θ是概率模型的所有參數(shù),那么EM算法就是通過迭代并最大化模型的極大似然估計的輔助函數(shù)來找到最優(yōu)的模型參數(shù)Θ贊,即其中Θ與Θ′表示模型原有的和迭代新產(chǎn)生的參數(shù)。假設不完全觀測數(shù)據(jù)的混合概率分布為:其中Θ=(α1,…,αM,θ1,…,θM),為第i個高斯分量函數(shù)的參數(shù),M為混合高斯個數(shù),y={yj}Jj=1,yj∈{1,…,N}為第j個發(fā)音特征狀態(tài)組合取值實例,為隱變量,不可觀測,J為觀測實例個數(shù)。在DBN和HMM的語音識別系統(tǒng)中,通常都是先訓練單高斯模型,然后再分裂高斯個數(shù),進行循環(huán)迭代訓練。因此首先要建立N個發(fā)音特征組合產(chǎn)生觀測向量的單高斯模型。為不改變公式(2)的描述方式,將N個單高斯模型與公式(2)中的M個高斯分量相對應,即令M=N。此時如果yj=i,那么第j個觀測實例則由第i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論