基于HMM模型進(jìn)行語音識(shí)別的基本思路

上傳人：5*** IP屬地：湖北上傳時(shí)間：2022-03-10 格式：DOC 頁數(shù)：7 大?。?33.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章基于HMM模型進(jìn)行語音識(shí)別的基本思路摘要：本文對(duì)隱馬爾科夫模型（HMM）進(jìn)行了詳細(xì)的闡述，并對(duì)基于HMM模型進(jìn)行語音識(shí)別這一方法的基本思路進(jìn)行了簡(jiǎn)單的介紹。關(guān)鍵字：隱馬爾可夫（HMM），模型，語音識(shí)別1 知識(shí)背景隱馬爾可夫模型作為語音信號(hào)的一種統(tǒng)計(jì)模型，在語音處理各個(gè)領(lǐng)域中廣泛的應(yīng)用，它的理論基礎(chǔ)是在1970年前后由Buam等人建立起來的，隨后由CMU的Baker和BIM的eJhnek等人將其應(yīng)用到語音識(shí)別之中。由于貝爾實(shí)驗(yàn)室Rbainer等人在20世紀(jì)80年代中期對(duì)HMM的深入淺出的介紹，才逐漸使HMM為世界各國從事語音處理研究人員所了解和熟悉，進(jìn)而成為公認(rèn)的有效的語音識(shí)別方法【1】

2、。一般來說，語音識(shí)別的方法有四種：(1)統(tǒng)計(jì)模型方法(2)基于聲道模型和語音知識(shí)的方法(3)模式匹配的方法(4)人工神經(jīng)網(wǎng)絡(luò)的方法基于聲道模型和語音知識(shí)的方法起步較早，沒有達(dá)到實(shí)用的階段。目前常用的方法是后三種方法，目前它們都已達(dá)到了實(shí)用階段。隱馬爾可夫模型(HMM) 是常見的統(tǒng)計(jì)型模型方法，本文主要介紹經(jīng)典的隱馬爾可夫模型及其在語音識(shí)別中的應(yīng)用。 2 隱馬爾可夫模型馬爾可夫過程（或馬爾可夫鏈）直觀解釋是：在已知系統(tǒng)目前的狀態(tài)(現(xiàn)在)的條件下，“將來”與“過去”無關(guān)。這種過程也稱為無記憶的單隨機(jī)過程。如果這種單隨機(jī)過程的取值(狀態(tài))是離散的，我們又可以將它稱作無記憶的離散隨機(jī)過程。假設(shè)有一

3、個(gè)系統(tǒng)，它在任何時(shí)間可以認(rèn)為處在有限多個(gè)狀態(tài)的某個(gè)狀態(tài)下。在均勻劃分的時(shí)間間隔上，系統(tǒng)的狀態(tài)按一組概率發(fā)生改變（包括停留在原狀態(tài)），這組概率值和狀態(tài)有關(guān)，而且這個(gè)狀態(tài)對(duì)應(yīng)于一個(gè)可觀測(cè)的物理事件，因此稱之為可觀測(cè)馬爾可夫過程。不可測(cè)(隨機(jī))的雙隨機(jī)過程只能通過另一組隨機(jī)過程才能觀測(cè)到，另一組隨機(jī)過程產(chǎn)生出觀測(cè)序列（行為），而這組行為是可見不可測(cè)的。因此，這種雙隨機(jī)過程稱為隱馬爾可夫模型(或隱馬爾可夫過程)。通常，HMM對(duì)應(yīng)的狀態(tài)被假設(shè)為離散的，且其演變是無記憶的，因而，HMM也被稱為無記憶的離散雙隨機(jī)過程。一個(gè)隱馬爾可夫模型由下列參數(shù)來決定：(1) N模型的狀態(tài)數(shù)目。狀態(tài)的集合表示為(2)

4、N觀測(cè)符號(hào)數(shù)。即每個(gè)狀態(tài)可能輸出的觀測(cè)符號(hào)的數(shù)目。觀測(cè)符號(hào)集合表示為 (3) A狀態(tài)轉(zhuǎn)移概率分布。狀態(tài)轉(zhuǎn)移概率構(gòu)成的矩陣為 (4) B狀態(tài)的觀測(cè)符號(hào)概率分布。(5) p初始狀態(tài)分布。為了完整地描述一個(gè)隱馬爾可夫模型，應(yīng)當(dāng)指定狀態(tài)數(shù)N，觀測(cè)符號(hào)數(shù)M，以及三個(gè)概率密度A、B和p 。這些參數(shù)之間有一定的聯(lián)系，因此為了方便，HMM常用來簡(jiǎn)記。給定HMM的形式后，為了將其應(yīng)用于實(shí)際，必須解決以下三個(gè)基本關(guān)鍵問題：(1) 已知觀測(cè)序列和模型，如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率。(2) 已知觀測(cè)序列和模型，如何選擇在某種意義上最佳的狀態(tài)序列。(3) 給定觀測(cè)序列，如何調(diào)整參數(shù)使

5、條件概率最大。2.1 第一個(gè)問題的求解這是一個(gè)評(píng)估問題，即已知模型和一個(gè)觀測(cè)序列，怎樣來評(píng)估這個(gè)模型（它與給定序列匹配得如何），或怎樣給模型打分，這個(gè)問題通常被稱為“前向-后向”的算法解決。（一）前向算法首先要定義一個(gè)前向變量:即在給定模型條件下，產(chǎn)生t以前的部分觀測(cè)符號(hào)序列，且t時(shí)刻又處于狀態(tài)的概率。以下是前向變量進(jìn)行迭代計(jì)算的步驟：(1) 初始化 (2) 迭代計(jì)算 (3) 最后計(jì)算其中為狀態(tài)轉(zhuǎn)移矩陣中的元素，為觀測(cè)符號(hào)矩陣中的元素。（二）后向算法同理，可以類似地定義后向變量：即在給定模型及時(shí)刻處于狀態(tài)的條件下，產(chǎn)生t以后的部分觀測(cè)符號(hào)序列的概率。后向變量也可以用迭代法進(jìn)行計(jì)算，

6、步驟如下：(1) 初始化 (2) 迭代計(jì)算(3) 最后計(jì)算前向和后向算法對(duì)于求解問題2和問題3也是有幫助的。由于表示t時(shí)刻處于狀態(tài)且部分觀測(cè)序列為,而表示t時(shí)刻處于狀態(tài)且剩下部分的觀測(cè)序列為,因而、表示產(chǎn)生整個(gè)觀測(cè)序列O且t時(shí)刻處于狀態(tài)的概率，即那么，問題1也可以通過同時(shí)使用前向后向概率來求解，即2.2 第二個(gè)問題的求解這個(gè)問題是求取伴隨給定觀測(cè)序列產(chǎn)生的最佳狀態(tài)序列。這一最佳判據(jù)，目的就是要使正確的狀態(tài)數(shù)目的期望值最大。它通常用Viterbi算法解決，用于模型細(xì)調(diào)。首先定義變量：它是在給定觀測(cè)序列O和模型的條件下，t時(shí)刻處在狀態(tài)的概率?？捎们昂笙蜃兞勘硎緸椋河捎谒杂?且從而可求出在各

7、個(gè)時(shí)刻所處的最可能的狀態(tài)為：但是，上式的求解僅僅從每個(gè)時(shí)刻出現(xiàn)最可能的狀態(tài)來考慮的，而沒有考慮到狀態(tài)序列的發(fā)生概率（如沒有考慮全局結(jié)構(gòu)，時(shí)間上相鄰狀態(tài)以及觀測(cè)序列的長(zhǎng)度等等）。上述問題的解決辦法是對(duì)最佳判據(jù)進(jìn)行修正。最廣泛應(yīng)用的判據(jù)是尋找單個(gè)最佳狀態(tài)序列(路徑)，亦即使最大。下面介紹的Viterbi算法就是一種以動(dòng)態(tài)規(guī)劃為基礎(chǔ)的尋找單個(gè)最佳狀態(tài)序列的方法。完整的算法如下所述：(1)初始化(2) 迭代計(jì)算(3) 最后計(jì)算 (4) 路徑(狀態(tài)序列)回溯2.3 第三個(gè)問題的求解這個(gè)問題是調(diào)整模型參數(shù) ，使觀測(cè)序列在給定模型條件下發(fā)生概率最大。即模型參數(shù)重估問題(訓(xùn)練問題)。事實(shí)上，給定任何有限觀

8、測(cè)序列作為訓(xùn)練數(shù)據(jù)，沒有一種最佳方法能估計(jì)模型參數(shù)。但是可以利用迭代處理方法(Baum-Welch)法，或稱期望值修正法)來選擇(A，B，p)以使得最大，可以用參數(shù)重估來解決。把現(xiàn)在的模型定義為，把重估模型定義為。以上述方法為基礎(chǔ)，如果不斷地用代替，并重復(fù)上述重估計(jì)算，那么就能夠改善由模型觀測(cè)到O的概率，直到達(dá)到某個(gè)極限點(diǎn)為止。3 HMM模型進(jìn)行語音識(shí)別在本文中，所謂的語音聲學(xué)分析，就是對(duì)語音信號(hào)進(jìn)行聲學(xué)信號(hào)處理，它包括預(yù)處理和特征提取。最終得到以幀為單位的語音信號(hào)的特征向量。語音聲學(xué)分析是為隱馬爾可夫模型的建模和訓(xùn)練作準(zhǔn)備。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程：一重用于描述非平穩(wěn)信號(hào)的短時(shí)平

9、穩(wěn)段的統(tǒng)計(jì)特征(信號(hào)的瞬態(tài)特征，可直接觀測(cè)到)；另一重隨機(jī)過程描述了每個(gè)短時(shí)平穩(wěn)段如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段，即短時(shí)統(tǒng)計(jì)特征的動(dòng)態(tài)特性(隱含在觀察序列中)。基于這兩重隨機(jī)過程，HMM既可有效解決怎樣辨識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)信號(hào)段，又可解決怎樣跟蹤它們之間的轉(zhuǎn)化等問題。人的言語過程也是這樣一個(gè)雙重隨機(jī)過程。因?yàn)檎Z音信號(hào)本身是一個(gè)可觀察的序列，而它又是由大腦里的（不可觀察的）、根據(jù)言語需要和語法知識(shí)(狀態(tài)選擇)所發(fā)出的音素(詞、句)的參數(shù)流，大量實(shí)驗(yàn)表明，HMM的確可以非常精確地描述語音信號(hào)的產(chǎn)生過程。隱馬爾可夫模型是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型，將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程：一個(gè)

10、是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程，另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測(cè)的。語音識(shí)別具體步驟：第一步：特征提取第二步：矢量量化第三步：訓(xùn)練隱馬爾可夫模型第四步：對(duì)測(cè)試集單詞進(jìn)行識(shí)別經(jīng)典HMM語音識(shí)別一般過程為：(1)前向后向算法計(jì)算P(O|) ；(2) Baum-Welch 算法求出最優(yōu)解*= arg maxP(O|)；(3)Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列；(4) 根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的給出候選音節(jié)或聲韻母(5) 通過語言模型形成詞和句子基于HMM的孤立詞語音識(shí)別原理圖

11、采用HMM進(jìn)行語音識(shí)別，實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后，測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率（Viterbi算法），取此概率最大者即為識(shí)別結(jié)果。除訓(xùn)練時(shí)需運(yùn)算量較大外，識(shí)別時(shí)的運(yùn)算量?jī)H有模式匹配法的幾分之一。在本文中，所謂的語音聲學(xué)分析，就是對(duì)語音信號(hào)進(jìn)行聲學(xué)信號(hào)處理，它包括預(yù)處理和特征提取。最終得到以幀為單位的語音信號(hào)的特征向量。語音聲學(xué)分析是為隱馬爾可夫模型的建模和訓(xùn)練作準(zhǔn)備。4 總結(jié)隨著隱馬爾可夫模型在語音識(shí)別中的應(yīng)用，語音識(shí)別技術(shù)得到了很大的發(fā)展，特別是在實(shí)驗(yàn)室安靜環(huán)境中語音識(shí)別系統(tǒng)可以達(dá)到實(shí)用的要求。在今天一個(gè)信息時(shí)代，信息的交流和獲取顯得尤為重要，語言是我們?nèi)祟惤涣魉枷牒托畔⒌闹饕緩?，和人類交流一樣，隨著語音識(shí)別技術(shù)的發(fā)展，語音成為人與機(jī)器交流的又一橋梁。語音識(shí)別技術(shù)是近十年中信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一，語音識(shí)別技術(shù)和語音合成技術(shù)是人們能夠甩掉鍵盤通過語音命令進(jìn)行操作。相比之下，語音識(shí)別比語音合成更富有挑戰(zhàn)性的一個(gè)課題，近幾十年來，語音識(shí)別技術(shù)發(fā)展至今在理論和成果上都取得了顯著的進(jìn)步。參考文獻(xiàn)：1 湯玲.基于HMM模型的語音識(shí)別系統(tǒng)的研究(碩士學(xué)位論文) D .長(zhǎng)沙:國防科技大學(xué),2005.1

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于HMM模型進(jìn)行語音識(shí)別的基本思路

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于HMM模型進(jìn)行語音識(shí)別的基本思路

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔