語音信號處理第5章-hmm

上傳人：湯*** IP屬地：北京上傳時間：2022-09-16 格式：PPTX 頁數(shù)：46 大小：540.06KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章隱馬爾可夫模型5.1 馬爾可夫性和馬爾可夫鏈5.2 HMM模型5.3 HMM的三個基本算法5.4 HMM的各種結(jié)構(gòu)類型5.5 HMM的一些實際問題5.1馬兒可夫性和馬兒可夫鏈如果一個過程的“將來”僅依賴“現(xiàn)在”，而不依賴“過去”，則此過程具有馬爾可夫性,或稱此過程為馬爾可夫過程5.1馬兒可夫性和馬兒可夫鏈時間和狀態(tài)都離散的馬爾可夫過程稱為馬爾可夫鏈:也稱為一階Markov過程（單純Markov），擴(kuò)展為n階Markov過程：5.1馬兒可夫性和馬兒可夫鏈對于Markov，如果轉(zhuǎn)移概率與時間t無關(guān)：稱為齊次Markov過程。如果從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移是可能的，即對任意的i、j都有:稱為正則

2、Markov過程。5.2HMM模型隱Markov模型(HMM)狀態(tài)轉(zhuǎn)移序列S=s1s2sT，對應(yīng)著一階Markov過程:符號序列O=o1o2oT ，由狀態(tài)轉(zhuǎn)移時輸出的符號組成，并且相鄰符號之間是不相關(guān)的狀態(tài)S是不可觀測的，只有符號序列O是可觀測的。觀察到的球的顏色312屏障5.2HMM模型5.2HMM模型有N個缸，每個缸中有很多彩球，球的顏色由一組概率分布描述。實驗進(jìn)行方式如下根據(jù)初始概率分布，隨機(jī)選擇N個缸中的一個開始實驗根據(jù)缸中球顏色的概率分布，隨機(jī)選擇一個球，記球的顏色為O1，并把球放回缸中根據(jù)描述缸的轉(zhuǎn)移的概率分布，隨機(jī)選擇下一個缸，重復(fù)以上步驟。最后得到一個描述球的顏色的序列o1o2

3、,，稱為觀察值序列O。 5.2HMM模型在上述實驗中，有幾個要點需要注意：1.不能直接觀察缸間的轉(zhuǎn)移2.從缸中所選取的球的顏色和缸并不是一一對應(yīng)的3.每次選取哪個缸由一組轉(zhuǎn)移概率決定 5.2HMM模型綠圈表示隱含狀態(tài)隱僅依賴于前一個狀態(tài)一階給定當(dāng)前狀態(tài)，過去與將來無關(guān)馬爾可夫紫圈表示輸出觀察序列僅依賴于各自對應(yīng)的隱狀態(tài)5.2HMM模型HMM是一個雙重隨機(jī)過程，兩個組成部分馬爾可夫鏈：描述狀態(tài)的轉(zhuǎn)移，用轉(zhuǎn)移概率描述。一般隨機(jī)過程：描述狀態(tài)與觀察序列間的關(guān)系，用觀察值概率描述。Markov鏈（, A）隨機(jī)過程（B）狀態(tài)序列觀察值序列s1, s2, ., sTo1, o2, ., oT5.2

4、HMM模型S,K, P, A,B S : s1sN 隱狀態(tài)的值，共有N種可能值O : o1oM 觀察的值，共有M種可能值 P = pi隱狀態(tài)初始概率A = aij 隱狀態(tài)轉(zhuǎn)移概率，NNB = bjk 觀察狀態(tài)的概率，NMABAAABBSSSKKKSKSK5.2HMM模型用模型五元組M=S,O,A,B, 來描述HMM，或簡寫為M=A,B, 參數(shù)含義實例S=s1sN隱狀態(tài)數(shù)目缸的數(shù)目O=o1oM每個狀態(tài)觀察值數(shù)目彩球顏色數(shù)目A=aij狀態(tài)轉(zhuǎn)移概率矩陣在給定某個缸的情況下，選擇另一個缸的概率B=bjk給定狀態(tài)j下觀察值的概率分布每個缸中的顏色分布p初始狀態(tài)的概率分布初始時選擇某口缸的概率5.2HMM

5、模型HMM模型的主要參數(shù)A、BA矩陣描述了短時平穩(wěn)段如何轉(zhuǎn)變?yōu)橄乱粋€短時平穩(wěn)段B矩陣?yán)枚虝r模型描述了平穩(wěn)段信號的特征語音信號的時變統(tǒng)計特性由隱含的Markov鏈表示，而短時平穩(wěn)特性由觀測值的概率分布表示，由于每個狀態(tài)下的B矩陣是有所區(qū)別的，因此HMM反映了語音的短時平穩(wěn)特性。5.3HMM三個基本算法問題1：給定觀察序列O=o1o2oT,以及模型 M=A,B, , 如何計算P(O|M)？模型識別問題前后向算法問題2：給定觀察序列O=o1o2oT，和模型M，如何選擇一個對應(yīng)的狀態(tài)序列S = s1,s2,sT，使得在該狀態(tài)下觀測序列的概率最大？估計問題Viterbi算法問題3：如何調(diào)整模型參數(shù)M

6、=A,B, , 使得P(O|M)最大？訓(xùn)練問題 Baum Welch算法（EM算法）問題1：給定觀察序列O=o1o2oT,以及模型M=A,B, , 如何計算P(O|M)？基礎(chǔ)方法給定一個固定的狀態(tài)序列S=s1s2sTbst 表示在st狀態(tài)下觀測到Ot的概率oTo1otot-1ot+1s1st+1sTstst-1oTo1otot-1ot+1s1st+1sTstst-1狀態(tài)數(shù)為N，時間長度為T，則乘法計算量為2TNT解決問題1前向法定義前向變量給定模型M，t時刻狀態(tài)處于i，輸出觀察序列為O=o1o2ot的概率。初始化：遞歸：終結(jié)：解決問題1前向法乘法計算量N(N+1)(T-1) 1 . t t+1

7、 .a1jat1sN.si.sj.s1atNatiaNjaij解決問題1后向法定義后向變量給定模型M，時刻t處在狀態(tài)i，觀察到ot+1ot+2oT的概率。初始化：遞歸：終結(jié)：解決問題2Viterbi算法目的：給定觀察序列O以及模型M，如何選擇一個對應(yīng)的狀態(tài)序列S ，使得O在S下的輸出概率最大？定義：觀測序列為o1o2ot，計算到達(dá)每一狀態(tài)的最大概率的狀態(tài)。算法思想：在前一狀態(tài)已知條件下，搜索在輸出為ot時，概率最大的當(dāng)前狀態(tài)解決問題2Viterbi算法初始化：遞歸：終結(jié)：回溯最佳狀態(tài)轉(zhuǎn)移S序列解決問題2Viterbi算法前后向算法：Viterbi算法Viterbi計算的概率是前后向累加中概率

8、最大的，一般而言，這個最大值舉足輕重，因此常用maxP(s,o|M)計算概率代替P(s,o|M)解決問題3Baum-Welch算法(模型訓(xùn)練)目的：給定觀察值序列O，通過計算確定一個最佳模型M ，使得P(O|M)最大。算法步驟：1. 初始模型（待訓(xùn)練模型） M0,2. 基于M0 以及觀察值序列O，訓(xùn)練新模型 M3. 如果 logP(X|M) - logP(X|M0) Delta，說明訓(xùn)練已經(jīng)達(dá)到預(yù)期效果，算法結(jié)束。4. 否則，令M0 M ，繼續(xù)第2步工作 Baum-Welch算法參數(shù)估計定義給定模型M和觀察序列O，在時刻t 處在狀態(tài)i，時刻t+1 處在狀態(tài)j 的概率t(i, j)，即：Bau

9、m-Welch算法利用估算公式，進(jìn)行迭代運(yùn)算，直到參數(shù)值收斂。Baum 等人證明參數(shù)的收斂點并不一定是一個全局最優(yōu)值，但一定是一個局部最優(yōu)值Baum-Welch 算法是一類稱為EM (Estimation-Maximisation:估計-最大化)算法的例子，這類算法均可保證收斂于一個局部最優(yōu)值。 5.4 HMM各種結(jié)構(gòu)類型按照HMM狀態(tài)轉(zhuǎn)移矩陣（A參數(shù)）分類各態(tài)歷經(jīng)型或遍歷型HMM: 經(jīng)過有限步的轉(zhuǎn)移后，系統(tǒng)能達(dá)到任何一個狀態(tài)，即狀態(tài)轉(zhuǎn)移矩陣中的每一個元素均為大于零的數(shù)，沒有零元素。各態(tài)歷經(jīng)型HMM不符合時間順序的要求，因為它可以回到以前狀態(tài)，所以只能用于不要求時間順序的語音信號處理，如：

10、與文本無關(guān)的說話人識別等。5.4 HMM各種結(jié)構(gòu)類型從左到右型HMM：所謂的從左到右模型，就是指隨著時間的增加，狀態(tài)的轉(zhuǎn)移只能是從左到右進(jìn)行或停留在原來的狀態(tài)，因此，其狀態(tài)轉(zhuǎn)移矩陣具有如下的形式，它是一個上三角矩陣。5.4 HMM各種結(jié)構(gòu)類型另外從狀態(tài)轉(zhuǎn)移結(jié)構(gòu)上HMM還有其他的一些變體，如圖所示，由兩條并行的從左到右模型組成的HMM，又稱為HMM網(wǎng)絡(luò)。它不是一般的情況，是由標(biāo)準(zhǔn)模型組合的變體，用于特殊的應(yīng)用場合。這種模型較復(fù)雜，所以性能一般要比單個左右模型要好。 5.4 HMM各種結(jié)構(gòu)類型按照HMM的輸出概率分布（B參數(shù)）分類離散HMM（DHMM）:每一狀態(tài)下輸出的字符，是從一個有限的離散字

11、符集中按照一定的離散概率分布選出的。對于語音信號，離散HMM需要將語音特征參數(shù)向量進(jìn)行矢量量化。 5.4 HMM各種結(jié)構(gòu)類型連續(xù)型HMM（Continuous HMM）：用概率密度函數(shù)來表示，一般用高斯概率密度函數(shù)：連續(xù)HMM中，高斯模型中的協(xié)防差矩陣也分為全協(xié)方差矩陣和對角協(xié)方差矩陣，因此連續(xù)HMM也分成全協(xié)方差矩陣CHMM和對角協(xié)方差矩陣CHMM。5.4 HMM各種結(jié)構(gòu)類型用一個高斯概率不足以表示語音參數(shù)的輸出概率分布，通常利用多個高斯概率分布的加權(quán)和來表示參數(shù)的概率密度函數(shù)，稱之為“高斯元混合密度模型”GMM：高斯單元數(shù)M值較大（如M為4或5）時，具有更多的自由度，能更好的逼近實際分布，

12、識別更高。隨著詞匯量的增加，這一優(yōu)點更加突出，因而，對一些大詞匯量的與說話人無關(guān)的語音識別系統(tǒng)，連續(xù)混合密度HMM受到重視。5.4 HMM各種結(jié)構(gòu)類型半連續(xù)型SCHMM（Semi-Continuous HMM）：離散HMM的模型參數(shù)少，對訓(xùn)練數(shù)據(jù)量要求不高，計算量較少，易于實時實現(xiàn)，識別精度不高。連續(xù)型HMM運(yùn)算量大，訓(xùn)練數(shù)據(jù)不夠時訓(xùn)練的模型精度較低。為了結(jié)合這兩種模型的優(yōu)點，提出了半連續(xù)型HMM：SCHMM用多個正態(tài)分布線性相加彌補(bǔ)了離散分布的誤差。正態(tài)分布與狀態(tài)無關(guān)，加權(quán)系數(shù)與狀態(tài)相關(guān)。5.4 HMM各種結(jié)構(gòu)類型一些特殊的HMM的形式空轉(zhuǎn)移（Null Transitions）:在這種類

13、型的HMM中，系統(tǒng)的輸出是與轉(zhuǎn)移弧相聯(lián)系的，允許不產(chǎn)生輸出的轉(zhuǎn)移，即從一個狀態(tài)轉(zhuǎn)移到其他狀態(tài)時，無觀察符號（或矢量）輸出。這樣的轉(zhuǎn)移稱為空轉(zhuǎn)移。在連續(xù)語音識別系統(tǒng)中，單詞或語句的HMM都是由基元HMM的連接形成的。一個基元HMM的終止?fàn)顟B(tài)和一個基元HMM的初始狀態(tài)相連接，這種連接產(chǎn)生的轉(zhuǎn)移弧就是空轉(zhuǎn)移，所以在大詞匯連續(xù)語音識別系統(tǒng)中大量使用了這種模型。 5.4 HMM各種結(jié)構(gòu)類型基元HMM的連接 5.4 HMM各種結(jié)構(gòu)類型參數(shù)捆綁（Parameter tieing） :參數(shù)捆綁的基本思想是在HMM的不同狀態(tài)轉(zhuǎn)移弧的參數(shù)之間建立一定的關(guān)系，使得不同狀態(tài)轉(zhuǎn)移弧使用相同的參數(shù)，其目的就是使模型中的獨

14、立的狀態(tài)參數(shù)減少，從而使得參數(shù)估計變得較為簡單參數(shù)捆綁是解決訓(xùn)練數(shù)據(jù)不足問題的重要方法，因為模型的參數(shù)越多，則需要的訓(xùn)練數(shù)據(jù)數(shù)量就越大，否則訓(xùn)練出的模型精度就不夠。參數(shù)捆綁常用于兩個或多個狀態(tài)的輸出觀察向量的概率密度分布近似相同的情況，提取的語音特征參數(shù)可以認(rèn)為在這些狀態(tài)轉(zhuǎn)移弧上符合相同的分布。實際上，在如圖5-7所示的連續(xù)型HMM中，一個狀態(tài)的自轉(zhuǎn)移弧和互轉(zhuǎn)移弧的參數(shù)必須進(jìn)行參數(shù)捆綁，因為，對于一個訓(xùn)練參數(shù)的時間序列，實際上互轉(zhuǎn)移弧上只通過了一幀的語音數(shù)據(jù)，而用一幀的語音數(shù)據(jù)估計正態(tài)分布概率密度函數(shù)是不可能的。 5.4 HMM各種結(jié)構(gòu)類型具有參數(shù)捆綁的連續(xù)型HMM 5.5HMM的一些實際問題

15、下溢問題在計算HMM的三個問題時，需要計算前向變量和后向變量，是通過遞歸運(yùn)算求得的，例如在 Viterbi算法中，計算前向變量所用的遞歸公式如下：在上式中,aij 和 bj項均為小于的1數(shù)（甚至遠(yuǎn)小于1），因此在實際運(yùn)算中，t(i) 較t-1(i) 要小，隨著t的增加， t(i) 就有明顯得降低，最后，該變量變得非常小，以致會超出計算動態(tài)范圍的下限，即使采用雙精度運(yùn)算，當(dāng)t相當(dāng)大時，幾乎所有的t(i) 都趨向于0，后向變量的計算也有類似的情況，這就是計算中的下溢問題。因此，在進(jìn)行相關(guān)計算時，必須加入定標(biāo)過程。5.5HMM的一些實際問題參數(shù)的初始化問題 Baum-Welch重估訓(xùn)練算法能夠給出

16、似然函數(shù)的局部最大點，一個關(guān)鍵的問題是如何恰當(dāng)?shù)剡x擇HMM的初始參數(shù)，使局部最大值盡量的接近全局最優(yōu)點，此外，好的初值選擇還可以保證達(dá)到收斂所需的迭代次數(shù)最小，即計算效率較高。初始概率和狀態(tài)轉(zhuǎn)移系數(shù)矩陣的初值較易確定，通常初值設(shè)置為均勻分布之值或非零的隨機(jī)數(shù)，據(jù)有關(guān)文獻(xiàn)介紹，和的初值設(shè)置對識別率的影響不是太大。參數(shù)B的初值設(shè)置較其它兩組參數(shù)的設(shè)置更至關(guān)重要也更困難。對離散型HMM等較簡單的情況，B的設(shè)置較容易，可以采取均勻的或隨機(jī)的設(shè)置每一字符出現(xiàn)的概率初值。在連續(xù)分布HMM的B中，包含的參數(shù)越多越復(fù)雜，則參數(shù)初值的設(shè)置對于迭代計算的結(jié)果越至關(guān)重要，一種較簡單的B初值的設(shè)置方法是用手工對輸入

17、的語音進(jìn)行狀態(tài)劃分并統(tǒng)計出相應(yīng)的概率分布作為初值，這適合于較小的語音單位。對于較大的語音單位，目前普遍采用分段K-均值算法。 5.5HMM的一些實際問題用分段K-均值算法求模型的參數(shù)初值5.5HMM的一些實際問題提高HMM描述語音動態(tài)特性的能力為了保證HMM計算的有效性和訓(xùn)練的可實現(xiàn)性，基本的HMM模型本身隱含了以下三個假設(shè)：假設(shè)1：狀態(tài)轉(zhuǎn)移概率A與觀察序列無關(guān)，且時不變；假設(shè)2：狀態(tài)觀察概率密度函數(shù)B與過去狀態(tài)無關(guān)；假設(shè)3：狀態(tài)觀察概率密度函數(shù)B與過去觀察無關(guān)。由于語音是發(fā)音系統(tǒng)連續(xù)變化所產(chǎn)生的，具有很強(qiáng)的相關(guān)性，以上基本HMM的假設(shè)無疑是不合理的。因此，雖然隱馬爾可夫模型是現(xiàn)在最流行

18、的語音識別模型，然而基本型的HMM采用狀態(tài)輸出獨立假設(shè)是它的一個固有的缺陷。它影響了HMM描述語音信號時間上幀間相關(guān)動態(tài)特性的能力。5.5HMM的一些實際問題為了彌補(bǔ)這一缺陷，最早人們采用的方法是在利用語音靜態(tài)參數(shù)X的同時，增加如下式（5-63）所示的語音的動態(tài)特性參數(shù)，即以時刻t（幀）為中心，2W+1（幀）為幅度的線性回歸系數(shù)X(t):然而這些擴(kuò)展都沒有從根本上解決HMM假設(shè)的不合理性，因而其對識別性能的改進(jìn)也必然是有限的。因此，基于語音段的統(tǒng)計建模方法正是在此基礎(chǔ)上于八十年代末、九十年代初應(yīng)運(yùn)而生了，提出許多方法，如使用線性或非線性預(yù)測器法、利用多項式回歸函數(shù)法、利用條件概率HMM的方法和復(fù)數(shù)幀段輸入HMM方法等。 5.5HMM的一些實際問題利用語音幀間相關(guān)信息最直接最簡便的方法，是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法。利用這一設(shè)想，可以較好地改善傳統(tǒng)輸出獨立HMM的缺陷，是一種有效而簡便的利用幀

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音信號處理第5章-hmm

文檔簡介

溫馨提示

最新文檔

評論

語音信號處理第5章-hmm

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔