基于HMM模型進(jìn)行語音識(shí)別的基本思路_第1頁
基于HMM模型進(jìn)行語音識(shí)別的基本思路_第2頁
基于HMM模型進(jìn)行語音識(shí)別的基本思路_第3頁
基于HMM模型進(jìn)行語音識(shí)別的基本思路_第4頁
基于HMM模型進(jìn)行語音識(shí)別的基本思路_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章基于HMM模型進(jìn)行語音識(shí)別的基本思路摘要:本文對(duì)隱馬爾科夫模型(HMM)進(jìn)行了詳細(xì)的闡述,并對(duì)基于HMM模型進(jìn)行語音識(shí)別這一方法的基本思路進(jìn)行了簡(jiǎn)單的介紹。關(guān)鍵字: 隱馬爾可夫(HMM),模型,語音識(shí)別1 知識(shí)背景隱馬爾可夫模型作為語音信號(hào)的一種統(tǒng)計(jì)模型,在語音處理各個(gè)領(lǐng)域中廣泛的應(yīng)用,它的理論基礎(chǔ)是在1970年前后由Buam等人建立起來的,隨后由CMU的Baker和BIM的eJhnek等人將其應(yīng)用到語音識(shí)別之中。由于貝爾實(shí)驗(yàn)室Rbainer等人在20世紀(jì)80年代中期對(duì)HMM的深入淺出的介紹,才逐漸使HMM為世界各國從事語音處理研究人員所了解和熟悉,進(jìn)而成為公認(rèn)的有效的語音識(shí)別方法【1】

2、。一般來說,語音識(shí)別的方法有四種:(1)統(tǒng)計(jì)模型方法(2)基于聲道模型和語音知識(shí)的方法(3)模式匹配的方法(4)人工神經(jīng)網(wǎng)絡(luò)的方法基于聲道模型和語音知識(shí)的方法起步較早,沒有達(dá)到實(shí)用的階段。目前常用的方法是后三種方法,目前它們都已達(dá)到了實(shí)用階段。 隱馬爾可夫模型(HMM) 是常見的統(tǒng)計(jì)型模型方法,本文主要介紹經(jīng)典的隱馬爾可夫模型及其在語音識(shí)別中的應(yīng)用。 2 隱馬爾可夫模型馬爾可夫過程(或馬爾可夫鏈)直觀解釋是:在已知系統(tǒng)目前的狀態(tài)(現(xiàn)在)的條件下,“將來”與“過去”無關(guān)。這種過程也稱為無記憶的單隨機(jī)過程。如果這種單隨機(jī)過程的取值(狀態(tài))是離散的,我們又可以將它稱作無記憶的離散隨機(jī)過程。 假設(shè)有一

3、個(gè)系統(tǒng),它在任何時(shí)間可以認(rèn)為處在有限多個(gè)狀態(tài)的某個(gè)狀態(tài)下。在均勻劃分的時(shí)間間隔上,系統(tǒng)的狀態(tài)按一組概率發(fā)生改變(包括停留在原狀態(tài)),這組概率值和狀態(tài)有關(guān),而且這個(gè)狀態(tài)對(duì)應(yīng)于一個(gè)可觀測(cè)的物理事件,因此稱之為可觀測(cè)馬爾可夫過程。不可測(cè)(隨機(jī))的雙隨機(jī)過程只能通過另一組隨機(jī)過程才能觀測(cè)到,另一組隨機(jī)過程產(chǎn)生出觀測(cè)序列(行為),而這組行為是可見不可測(cè)的。因此,這種雙隨機(jī)過程稱為隱馬爾可夫模型(或隱馬爾可夫過程)。通常,HMM對(duì)應(yīng)的狀態(tài)被假設(shè)為離散的,且其演變是無記憶的,因而,HMM也被稱為無記憶的離散雙隨機(jī)過程。 一個(gè)隱馬爾可夫模型由下列參數(shù)來決定:(1) N模型的狀態(tài)數(shù)目。 狀態(tài)的集合表示為(2)

4、N觀測(cè)符號(hào)數(shù)。 即每個(gè)狀態(tài)可能輸出的觀測(cè)符號(hào)的數(shù)目。 觀測(cè)符號(hào)集合表示為 (3) A狀態(tài)轉(zhuǎn)移概率分布。 狀態(tài)轉(zhuǎn)移概率構(gòu)成的矩陣為 (4) B狀態(tài)的觀測(cè)符號(hào)概率分布。(5) p初始狀態(tài)分布。 為了完整地描述一個(gè)隱馬爾可夫模型,應(yīng)當(dāng)指定狀態(tài)數(shù)N,觀測(cè)符號(hào)數(shù)M,以及三個(gè)概率密度A、B和p 。這些參數(shù)之間有一定的聯(lián)系,因此為了方便,HMM常用 來簡(jiǎn)記。給定HMM的形式后,為了將其應(yīng)用于實(shí)際,必須解決以下三個(gè)基本關(guān)鍵問題:(1) 已知觀測(cè)序列和模型,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率 。(2) 已知觀測(cè)序列和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。(3) 給定觀測(cè)序列,如何調(diào)整參數(shù)使

5、條件概率最大。2.1 第一個(gè)問題的求解這是一個(gè)評(píng)估問題,即已知模型和一個(gè)觀測(cè)序列,怎樣來評(píng)估這個(gè)模型(它與給定序列匹配得如何),或怎樣給模型打分,這個(gè)問題通常被稱為“前向-后向”的算法解決。 (一)前向算法首先要定義一個(gè)前向變量:即在給定模型條件下,產(chǎn)生t以前的部分觀測(cè)符號(hào)序列,且t時(shí)刻又處于狀態(tài)的概率。以下是前向變量進(jìn)行迭代計(jì)算的步驟:(1) 初始化 (2) 迭代計(jì)算 (3) 最后計(jì)算 其中 為狀態(tài)轉(zhuǎn)移矩陣中的元素, 為觀測(cè)符號(hào)矩陣中的元素。(二)后向算法 同理,可以類似地定義后向變量: 即在給定模型及時(shí)刻處于狀態(tài)的條件下,產(chǎn)生t以后的部分觀測(cè)符號(hào)序列的概率。后向變量也可以用迭代法進(jìn)行計(jì)算,

6、步驟如下:(1) 初始化 (2) 迭代計(jì)算(3) 最后計(jì)算前向和后向算法對(duì)于求解問題2和問題3也是有幫助的。 由于表示t時(shí)刻處于狀態(tài)且部分觀測(cè)序列為,而表示t時(shí)刻處于狀態(tài)且剩下部分的觀測(cè)序列為,因而 、表示產(chǎn)生整個(gè)觀測(cè)序列O且t時(shí)刻處于狀態(tài)的概率,即 那么,問題1也可以通過同時(shí)使用前向后向概率來求解,即2.2 第二個(gè)問題的求解這個(gè)問題是求取伴隨給定觀測(cè)序列產(chǎn)生的最佳狀態(tài)序列。這一最佳判據(jù),目的就是要使正確的狀態(tài)數(shù)目的期望值最大。它通常用Viterbi算法解決,用于模型細(xì)調(diào)。首先定義變量:它是在給定觀測(cè)序列O和模型的條件下,t時(shí)刻處在狀態(tài)的概率??捎们昂笙蜃兞勘硎緸椋河捎谒杂?且從而可求出在各

7、個(gè)時(shí)刻所處的最可能的狀態(tài)為: 但是,上式的求解僅僅從每個(gè)時(shí)刻出現(xiàn)最可能的狀態(tài)來考慮的,而沒有考慮到狀態(tài)序列的發(fā)生概率(如沒有考慮全局結(jié)構(gòu),時(shí)間上相鄰狀態(tài)以及觀測(cè)序列的長(zhǎng)度等等)。上述問題的解決辦法是對(duì)最佳判據(jù)進(jìn)行修正。最廣泛應(yīng)用的判據(jù)是尋找單個(gè)最佳狀態(tài)序列(路徑),亦即使 最大。下面介紹的Viterbi算法就是一種以動(dòng)態(tài)規(guī)劃為基礎(chǔ)的尋找單個(gè)最佳狀態(tài)序列的方法。完整的算法如下所述:(1)初始化(2) 迭代計(jì)算(3) 最后計(jì)算 (4) 路徑(狀態(tài)序列)回溯2.3 第三個(gè)問題的求解這個(gè)問題是調(diào)整模型參數(shù) ,使觀測(cè)序列在給定模型條件下發(fā)生概率最大。即模型參數(shù)重估問題(訓(xùn)練問題)。事實(shí)上,給定任何有限觀

8、測(cè)序列作為訓(xùn)練數(shù)據(jù),沒有一種最佳方法能估計(jì)模型參數(shù)。但是可以利用迭代處理方法(Baum-Welch)法,或稱期望值修正法)來選擇(A,B,p)以使得 最大,可以用參數(shù)重估來解決。把現(xiàn)在的模型定義為,把重估模型定義為。以上述方法為基礎(chǔ),如果不斷地用代替,并重復(fù)上述重估計(jì)算,那么就能夠改善由模型觀測(cè)到O的概率,直到達(dá)到某個(gè)極限點(diǎn)為止。3 HMM模型進(jìn)行語音識(shí)別在本文中,所謂的語音聲學(xué)分析,就是對(duì)語音信號(hào)進(jìn)行聲學(xué)信號(hào)處理,它包括預(yù)處理和特征提取。最終得到以幀為單位的語音信號(hào)的特征向量。語音聲學(xué)分析是為隱馬爾可夫模型的建模和訓(xùn)練作準(zhǔn)備。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程: 一重用于描述非平穩(wěn)信號(hào)的短時(shí)平

9、穩(wěn)段的統(tǒng)計(jì)特征(信號(hào)的瞬態(tài)特征,可直接觀測(cè)到);另一重隨機(jī)過程描述了每個(gè)短時(shí)平穩(wěn)段如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段,即短時(shí)統(tǒng)計(jì)特征的動(dòng)態(tài)特性(隱含在觀察序列中)。基于這兩重隨機(jī)過程,HMM既可有效解決怎樣辨識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)信號(hào)段,又可解決怎樣跟蹤它們之間的轉(zhuǎn)化等問題。人的言語過程也是這樣一個(gè)雙重隨機(jī)過程。因?yàn)檎Z音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的(不可觀察的)、根據(jù)言語需要和語法知識(shí)(狀態(tài)選擇)所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,HMM的確可以非常精確地描述語音信號(hào)的產(chǎn)生過程。 隱馬爾可夫模型是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)

10、是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測(cè)的。語音識(shí)別具體步驟:第一步:特征提取第二步:矢量量化第三步:訓(xùn)練隱馬爾可夫模型第四步:對(duì)測(cè)試集單詞進(jìn)行識(shí)別經(jīng)典HMM語音識(shí)別一般過程為:(1)前向后向算法計(jì)算P(O|) ;(2) Baum-Welch 算法求出最優(yōu)解*= arg maxP(O|);(3)Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列;(4) 根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的給出候選音節(jié)或聲韻母(5) 通過語言模型形成詞和句子基于HMM的孤立詞語音識(shí)別原理圖

11、采用HMM進(jìn)行語音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。 除訓(xùn)練時(shí)需運(yùn)算量較大外,識(shí)別時(shí)的運(yùn)算量?jī)H有模式匹配法的幾分之一。在本文中,所謂的語音聲學(xué)分析,就是對(duì)語音信號(hào)進(jìn)行聲學(xué)信號(hào)處理,它包括預(yù)處理和特征提取。最終得到以幀為單位的語音信號(hào)的特征向量。語音聲學(xué)分析是為隱馬爾可夫模型的建模和訓(xùn)練作準(zhǔn)備。4 總結(jié)隨著隱馬爾可夫模型在語音識(shí)別中的應(yīng)用,語音識(shí)別技術(shù)得到了很大的發(fā)展,特別是在實(shí)驗(yàn)室安靜環(huán)境中語音識(shí)別系統(tǒng)可以達(dá)到實(shí)用的要求。在今天一個(gè)信息時(shí)代,信息的交流和獲取顯得尤為重要,語言是我們?nèi)祟惤涣魉枷牒托畔⒌闹饕緩?,和人類交流一樣,隨著語音識(shí)別技術(shù)的發(fā)展,語音成為人與機(jī)器交流的又一橋梁。語音識(shí)別技術(shù)是近十年中信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一,語音識(shí)別技術(shù)和語音合成技術(shù)是人們能夠甩掉鍵盤通過語音命令進(jìn)行操作。相比之下,語音識(shí)別比語音合成更富有挑戰(zhàn)性的一個(gè)課題,近幾十年來,語音識(shí)別技術(shù)發(fā)展至今在理論和成果上都取得了顯著的進(jìn)步。參考文獻(xiàn):1 湯玲.基于HMM模型的語音識(shí)別系統(tǒng)的研究(碩士學(xué)位論文) D .長(zhǎng)沙:國防科技大學(xué),2005.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論