語音信號處理第5章-hmm_第1頁
語音信號處理第5章-hmm_第2頁
語音信號處理第5章-hmm_第3頁
語音信號處理第5章-hmm_第4頁
語音信號處理第5章-hmm_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章 隱馬爾可夫模型5.1 馬爾可夫性和馬爾可夫鏈5.2 HMM模型5.3 HMM的三個基本算法5.4 HMM的各種結(jié)構(gòu)類型5.5 HMM的一些實際問題5.1馬兒可夫性和馬兒可夫鏈如果一個過程的“將來”僅依賴“現(xiàn)在”,而不依賴“過去”,則此過程具有馬爾可夫性,或稱此過程為馬爾可夫過程5.1馬兒可夫性和馬兒可夫鏈時間和狀態(tài)都離散的馬爾可夫過程稱為馬爾可夫鏈:也稱為一階Markov過程(單純Markov),擴(kuò)展為n階Markov過程:5.1馬兒可夫性和馬兒可夫鏈對于Markov,如果轉(zhuǎn)移概率與時間t無關(guān):稱為齊次Markov過程。如果從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移是可能的,即對任意的i、j都有:稱為正則

2、Markov過程。5.2HMM模型隱Markov模型(HMM)狀態(tài)轉(zhuǎn)移序列S=s1s2sT,對應(yīng)著一階Markov過程:符號序列O=o1o2oT ,由狀態(tài)轉(zhuǎn)移時輸出的符號組成,并且相鄰符號之間是不相關(guān)的狀態(tài)S是不可觀測的,只有符號序列O是可觀測的。觀察到的球的顏色312屏障5.2HMM模型5.2HMM模型有N個缸,每個缸中有很多彩球,球的顏色由一組概率分布描述。實驗進(jìn)行方式如下根據(jù)初始概率分布,隨機(jī)選擇N個缸中的一個開始實驗根據(jù)缸中球顏色的概率分布,隨機(jī)選擇一個球,記球的顏色為O1,并把球放回缸中根據(jù)描述缸的轉(zhuǎn)移的概率分布,隨機(jī)選擇下一個缸,重復(fù)以上步驟。最后得到一個描述球的顏色的序列o1o2

3、,,稱為觀察值序列O。 5.2HMM模型在上述實驗中,有幾個要點需要注意:1.不能直接觀察缸間的轉(zhuǎn)移2.從缸中所選取的球的顏色和缸并不是 一一對應(yīng)的3.每次選取哪個缸由一組轉(zhuǎn)移概率決定 5.2HMM模型綠圈表示隱含狀態(tài)隱僅依賴于前一個狀態(tài)一階給定當(dāng)前狀態(tài),過去與將來無關(guān)馬爾可夫紫圈表示輸出觀察序列僅依賴于各自對應(yīng)的隱狀態(tài)5.2HMM模型HMM是一個雙重隨機(jī)過程,兩個組成部分 馬爾可夫鏈:描述狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。 一般隨機(jī)過程:描述狀態(tài)與觀察序列間的關(guān)系, 用觀察值概率描述。Markov鏈(, A)隨機(jī)過程(B)狀態(tài)序列觀察值序列s1, s2, ., sTo1, o2, ., oT5.2

4、HMM模型S,K, P, A,B S : s1sN 隱狀態(tài)的值,共有N種可能值O : o1oM 觀察的值,共有M種可能值 P = pi隱狀態(tài)初始概率A = aij 隱狀態(tài)轉(zhuǎn)移概率,NNB = bjk 觀察狀態(tài)的概率,NMABAAABBSSSKKKSKSK5.2HMM模型用模型五元組M=S,O,A,B, 來描述HMM,或簡寫為M=A,B, 參數(shù)含義實例S=s1sN隱狀態(tài)數(shù)目缸的數(shù)目O=o1oM每個狀態(tài)觀察值數(shù)目彩球顏色數(shù)目A=aij狀態(tài)轉(zhuǎn)移概率矩陣在給定某個缸的情況下,選擇另一個缸的概率B=bjk給定狀態(tài)j下觀察值的概率分布每個缸中的顏色分布p初始狀態(tài)的概率分布初始時選擇某口缸的概率5.2HMM

5、模型HMM模型的主要參數(shù)A、BA矩陣描述了短時平穩(wěn)段如何轉(zhuǎn)變?yōu)橄乱粋€短時平穩(wěn)段B矩陣?yán)枚虝r模型描述了平穩(wěn)段信號的特征語音信號的時變統(tǒng)計特性由隱含的Markov鏈表示,而短時平穩(wěn)特性由觀測值的概率分布表示,由于每個狀態(tài)下的B矩陣是有所區(qū)別的,因此HMM反映了語音的短時平穩(wěn)特性。5.3HMM三個基本算法問題1:給定觀察序列O=o1o2oT,以及模型 M=A,B, , 如何計算P(O|M)?模型識別問題前后向算法問題2:給定觀察序列O=o1o2oT,和模型M,如何選擇一個對應(yīng)的狀態(tài)序列S = s1,s2,sT,使得在該狀態(tài)下觀測序列的概率最大? 估計問題Viterbi算法問題3:如何調(diào)整模型參數(shù)M

6、=A,B, , 使得P(O|M)最大?訓(xùn)練問題 Baum Welch算法(EM算法)問題1:給定觀察序列O=o1o2oT,以及模型M=A,B, , 如何計算P(O|M)?基礎(chǔ)方法給定一個固定的狀態(tài)序列S=s1s2sTbst 表示在st狀態(tài)下觀測到Ot的概率oTo1otot-1ot+1s1st+1sTstst-1oTo1otot-1ot+1s1st+1sTstst-1狀態(tài)數(shù)為N,時間長度為T,則乘法計算量為2TNT解決問題1前向法定義前向變量給定模型M,t時刻狀態(tài)處于i,輸出觀察序列為O=o1o2ot的概率。初始化:遞歸:終結(jié):解決問題1前向法乘法計算量N(N+1)(T-1) 1 . t t+1

7、 .a1jat1sN.si.sj.s1atNatiaNjaij解決問題1后向法定義后向變量給定模型M,時刻t處在狀態(tài)i,觀察到ot+1ot+2oT的概率。初始化:遞歸:終結(jié):解決問題2Viterbi算法目的:給定觀察序列O以及模型M,如何選擇一個對應(yīng)的狀態(tài)序列S ,使得O在S下的輸出概率最大?定義:觀測序列為o1o2ot,計算到達(dá)每一狀態(tài)的最大概率的狀態(tài)。 算法思想:在前一狀態(tài)已知條件下,搜索在輸出為ot時,概率最大的當(dāng)前狀態(tài)解決問題2Viterbi算法初始化:遞歸:終結(jié):回溯最佳狀態(tài)轉(zhuǎn)移S序列解決問題2Viterbi算法前后向算法:Viterbi算法Viterbi計算的概率是前后向累加中概率

8、最大的,一般而言,這個最大值舉足輕重,因此常用maxP(s,o|M)計算概率代替P(s,o|M)解決問題3Baum-Welch算法(模型訓(xùn)練)目的:給定觀察值序列O,通過計算確定一個最佳模型M , 使得P(O|M)最大。算法步驟:1. 初始模型(待訓(xùn)練模型) M0,2. 基于M0 以及觀察值序列O,訓(xùn)練新模型 M3. 如果 logP(X|M) - logP(X|M0) Delta,說明訓(xùn)練已經(jīng)達(dá)到預(yù)期效果,算法結(jié)束。4. 否則,令M0 M ,繼續(xù)第2步工作 Baum-Welch算法參數(shù)估計定義給定模型M和觀察序列O,在時刻t 處在狀態(tài)i,時刻t+1 處在狀態(tài)j 的概率t(i, j),即:Bau

9、m-Welch算法利用估算公式,進(jìn)行迭代運(yùn)算,直到參數(shù)值收斂。Baum 等人證明參數(shù)的收斂點并不一定是一個全局最優(yōu)值,但一定是一個局部最優(yōu)值Baum-Welch 算法是一類稱為EM (Estimation-Maximisation:估計-最大化)算法的例子,這類算法均可保證收斂于一個局部最優(yōu)值。 5.4 HMM各種結(jié)構(gòu)類型 按照HMM狀態(tài)轉(zhuǎn)移矩陣(A參數(shù))分類 各態(tài)歷經(jīng)型或遍歷型HMM: 經(jīng)過有限步的轉(zhuǎn)移后,系統(tǒng)能達(dá)到任何一個狀態(tài),即狀態(tài)轉(zhuǎn)移矩陣中的每一個元素均為大于零的數(shù),沒有零元素。各態(tài)歷經(jīng)型HMM不符合時間順序的要求,因為它可以回到以前狀態(tài),所以只能用于不要求時間順序的語音信號處理,如:

10、與文本無關(guān)的說話人識別等。5.4 HMM各種結(jié)構(gòu)類型從左到右型HMM:所謂的從左到右模型,就是指隨著時間的增加,狀態(tài)的轉(zhuǎn)移只能是從左到右進(jìn)行或停留在原來的狀態(tài),因此,其狀態(tài)轉(zhuǎn)移矩陣具有如下的形式,它是一個上三角矩陣。5.4 HMM各種結(jié)構(gòu)類型另外從狀態(tài)轉(zhuǎn)移結(jié)構(gòu)上HMM還有其他的一些變體,如圖所示,由兩條并行的從左到右模型組成的HMM,又稱為HMM網(wǎng)絡(luò)。它不是一般的情況,是由標(biāo)準(zhǔn)模型組合的變體,用于特殊的應(yīng)用場合。這種模型較復(fù)雜,所以性能一般要比單個左右模型要好。 5.4 HMM各種結(jié)構(gòu)類型按照HMM的輸出概率分布(B參數(shù))分類 離散HMM(DHMM):每一狀態(tài)下輸出的字符,是從一個有限的離散字

11、符集中按照一定的離散概率分布選出的。對于語音信號,離散HMM需要將語音特征參數(shù)向量進(jìn)行矢量量化。 5.4 HMM各種結(jié)構(gòu)類型連續(xù)型HMM(Continuous HMM):用概率密度函數(shù)來表示,一般用高斯概率密度函數(shù):連續(xù)HMM中,高斯模型中的協(xié)防差矩陣也分為全協(xié)方差矩陣和對角協(xié)方差矩陣,因此連續(xù)HMM也分成全協(xié)方差矩陣CHMM和對角協(xié)方差矩陣CHMM。5.4 HMM各種結(jié)構(gòu)類型用一個高斯概率不足以表示語音參數(shù)的輸出概率分布,通常利用多個高斯概率分布的加權(quán)和來表示參數(shù)的概率密度函數(shù),稱之為“高斯元混合密度模型”GMM:高斯單元數(shù)M值較大(如M為4或5)時,具有更多的自由度,能更好的逼近實際分布,

12、識別更高。隨著詞匯量的增加,這一優(yōu)點更加突出,因而,對一些大詞匯量的與說話人無關(guān)的語音識別系統(tǒng),連續(xù)混合密度HMM受到重視。5.4 HMM各種結(jié)構(gòu)類型半連續(xù)型SCHMM(Semi-Continuous HMM):離散HMM的模型參數(shù)少,對訓(xùn)練數(shù)據(jù)量要求不高,計算量較少,易于實時實現(xiàn),識別精度不高。連續(xù)型HMM運(yùn)算量大,訓(xùn)練數(shù)據(jù)不夠時訓(xùn)練的模型精度較低。為了結(jié)合這兩種模型的優(yōu)點,提出了半連續(xù)型HMM:SCHMM用多個正態(tài)分布線性相加彌補(bǔ)了離散分布的誤差。正態(tài)分布與狀態(tài)無關(guān),加權(quán)系數(shù)與狀態(tài)相關(guān)。5.4 HMM各種結(jié)構(gòu)類型 一些特殊的HMM的形式 空轉(zhuǎn)移(Null Transitions):在這種類

13、型的HMM中,系統(tǒng)的輸出是與轉(zhuǎn)移弧相聯(lián)系的,允許不產(chǎn)生輸出的轉(zhuǎn)移,即從一個狀態(tài)轉(zhuǎn)移到其他狀態(tài)時,無觀察符號(或矢量)輸出。這樣的轉(zhuǎn)移稱為空轉(zhuǎn)移。在連續(xù)語音識別系統(tǒng)中,單詞或語句的HMM都是由基元HMM的連接形成的。一個基元HMM的終止?fàn)顟B(tài)和一個基元HMM的初始狀態(tài)相連接,這種連接產(chǎn)生的轉(zhuǎn)移弧就是空轉(zhuǎn)移,所以在大詞匯連續(xù)語音識別系統(tǒng)中大量使用了這種模型。 5.4 HMM各種結(jié)構(gòu)類型基元HMM的連接 5.4 HMM各種結(jié)構(gòu)類型參數(shù)捆綁(Parameter tieing) :參數(shù)捆綁的基本思想是在HMM的不同狀態(tài)轉(zhuǎn)移弧的參數(shù)之間建立一定的關(guān)系,使得不同狀態(tài)轉(zhuǎn)移弧使用相同的參數(shù),其目的就是使模型中的獨

14、立的狀態(tài)參數(shù)減少,從而使得參數(shù)估計變得較為簡單參數(shù)捆綁是解決訓(xùn)練數(shù)據(jù)不足問題的重要方法,因為模型的參數(shù)越多,則需要的訓(xùn)練數(shù)據(jù)數(shù)量就越大,否則訓(xùn)練出的模型精度就不夠。參數(shù)捆綁常用于兩個或多個狀態(tài)的輸出觀察向量的概率密度分布近似相同的情況,提取的語音特征參數(shù)可以認(rèn)為在這些狀態(tài)轉(zhuǎn)移弧上符合相同的分布。實際上,在如圖5-7所示的連續(xù)型HMM中,一個狀態(tài)的自轉(zhuǎn)移弧和互轉(zhuǎn)移弧的參數(shù)必須進(jìn)行參數(shù)捆綁,因為,對于一個訓(xùn)練參數(shù)的時間序列,實際上互轉(zhuǎn)移弧上只通過了一幀的語音數(shù)據(jù),而用一幀的語音數(shù)據(jù)估計正態(tài)分布概率密度函數(shù)是不可能的。 5.4 HMM各種結(jié)構(gòu)類型具有參數(shù)捆綁的連續(xù)型HMM 5.5HMM的一些實際問題

15、下溢問題在計算HMM的三個問題時,需要計算前向變量和后向變量,是通過遞歸運(yùn)算求得的,例如在 Viterbi算法中,計算前向變量所用的遞歸公式如下: 在上式中,aij 和 bj項均為小于的1數(shù)(甚至遠(yuǎn)小于1),因此在實際運(yùn)算中,t(i) 較t-1(i) 要小,隨著t的增加, t(i) 就有明顯得降低,最后,該變量變得非常小,以致會超出計算動態(tài)范圍的下限,即使采用雙精度運(yùn)算,當(dāng)t相當(dāng)大時,幾乎所有的t(i) 都趨向于0,后向變量的計算也有類似的情況,這就是計算中的下溢問題。因此,在進(jìn)行相關(guān)計算時,必須加入定標(biāo)過程。5.5HMM的一些實際問題參數(shù)的初始化問題 Baum-Welch重估訓(xùn)練算法能夠給出

16、似然函數(shù)的局部最大點,一個關(guān)鍵的問題是如何恰當(dāng)?shù)剡x擇HMM的初始參數(shù),使局部最大值盡量的接近全局最優(yōu)點,此外,好的初值選擇還可以保證達(dá)到收斂所需的迭代次數(shù)最小,即計算效率較高。初始概率和狀態(tài)轉(zhuǎn)移系數(shù)矩陣的初值較易確定,通常初值設(shè)置為均勻分布之值或非零的隨機(jī)數(shù),據(jù)有關(guān)文獻(xiàn)介紹, 和的初值設(shè)置對識別率的影響不是太大。參數(shù)B的初值設(shè)置較其它兩組參數(shù)的設(shè)置更至關(guān)重要也更困難。對離散型HMM等較簡單的情況,B的設(shè)置較容易,可以采取均勻的或隨機(jī)的設(shè)置每一字符出現(xiàn)的概率初值。在連續(xù)分布HMM的B中,包含的參數(shù)越多越復(fù)雜,則參數(shù)初值的設(shè)置對于迭代計算的結(jié)果越至關(guān)重要,一種較簡單的B初值的設(shè)置方法是用手工對輸入

17、的語音進(jìn)行狀態(tài)劃分并統(tǒng)計出相應(yīng)的概率分布作為初值,這適合于較小的語音單位。對于較大的語音單位,目前普遍采用分段K-均值算法。 5.5HMM的一些實際問題用分段K-均值算法求模型的參數(shù)初值5.5HMM的一些實際問題提高HMM描述語音動態(tài)特性的能力為了保證HMM計算的有效性和訓(xùn)練的可實現(xiàn)性,基本的HMM模型本身隱含了以下三個假設(shè): 假設(shè)1:狀態(tài)轉(zhuǎn)移概率A與觀察序列無關(guān),且時不變; 假設(shè)2:狀態(tài)觀察概率密度函數(shù)B與過去狀態(tài)無關(guān); 假設(shè)3:狀態(tài)觀察概率密度函數(shù)B與過去觀察無關(guān)。由于語音是發(fā)音系統(tǒng)連續(xù)變化所產(chǎn)生的,具有很強(qiáng)的相關(guān)性,以上基本HMM的假設(shè)無疑是不合理的。因此,雖然隱馬爾可夫模型是現(xiàn)在最流行

18、的語音識別模型,然而基本型的HMM采用狀態(tài)輸出獨立假設(shè)是它的一個固有的缺陷。它影響了HMM描述語音信號時間上幀間相關(guān)動態(tài)特性的能力。5.5HMM的一些實際問題為了彌補(bǔ)這一缺陷,最早人們采用的方法是在利用語音靜態(tài)參數(shù)X的同時,增加如下式(5-63)所示的語音的動態(tài)特性參數(shù),即以時刻t(幀)為中心,2W+1(幀)為幅度的線性回歸系數(shù)X(t):然而這些擴(kuò)展都沒有從根本上解決HMM假設(shè)的不合理性,因而其對識別性能的改進(jìn)也必然是有限的。因此,基于語音段的統(tǒng)計建模方法正是在此基礎(chǔ)上于八十年代末、九十年代初應(yīng)運(yùn)而生了,提出許多方法,如使用線性或非線性預(yù)測器法、利用多項式回歸函數(shù)法、利用條件概率HMM的方法和復(fù)數(shù)幀段輸入HMM方法等。 5.5HMM的一些實際問題利用語音幀間相關(guān)信息最直接最簡便的方法,是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法。利用這一設(shè)想,可以較好地改善傳統(tǒng)輸出獨立HMM的缺陷,是一種有效而簡便的利用幀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論