孤立詞語音識別程序_第1頁
孤立詞語音識別程序_第2頁
孤立詞語音識別程序_第3頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、信息處理仿真實驗 語音處理部分一、實驗目的按所學相關(guān)語音處理的知識,自己設計一個孤立詞語音識別程序,分析 所設計系統(tǒng)的特性。熟悉不同模塊間如何進行有效的組合,以及模塊內(nèi)的設 計,重點掌握特征參數(shù)的提取和模式識別方法,并對不同的特征參數(shù)提取方 法和模式匹配方法有大概的了解,知道其不同的優(yōu)缺點。二、實驗內(nèi)容1、熟悉預處理、特征參數(shù)提取、模式匹配三個模塊的原理,并設計這三 個模塊的matlab子程序。2、設計主程序,將上述3個模塊合理組合構(gòu)成一個系統(tǒng),訓練模板并測試。實驗原理及設計步驟1、孤立詞語音識別系統(tǒng):先用端點檢測將語音中有用的語音部分提取出來即將頭部和尾部的靜音部分除掉,然后提取語音信號的M

2、el尺度倒譜參 數(shù)(MFCC)進行動態(tài)歸整(DTW算法)后與模板庫里面的標準語音作比較,具2、各模塊解析預處理:包括反混疊失真濾波器、預加重器、端點檢測和噪聲濾波器。這里將預加重器和噪聲濾波器放在下一個模塊里,所以預處理主要進行端點 檢測以捕捉到數(shù)據(jù)中的語音信息。端點檢測采用雙門限法來檢測端點。同時,利用過零率檢測清音,用短 時能量檢測濁音,兩者配合。整個語音信號的端點檢測可以分為四段:靜音、 過渡段、語音段、結(jié)束。程序中使用一個變量status來表示當前所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就應該開始標記起始點,進 入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真

3、正的語音段,因此只要兩個參數(shù)的數(shù)值都回落到低門限以下,就將當前狀態(tài)恢復到靜音狀態(tài)。而如果在過渡段中兩個參數(shù)中任意一個超過了高門限, 就可以確信進入語 音段了。一些突發(fā)性的噪聲可以引發(fā)短時能量或過零率的數(shù)值很高,但是往往不能維持足夠長的時間,這些可以通過設定最短時間門限來判別。當前狀態(tài)處于語 音段時,如果兩個參數(shù)的數(shù)值降低到低門限以下,而且總的計時長度小于最 短時間門限,則認為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。否則就標記 好結(jié)束端點,并返回特征參數(shù)提?。撼S玫恼Z音識別參數(shù)有線性預測參數(shù) (LPC)線性預測倒 譜參數(shù)(LPCC和Mel尺度倒譜參數(shù)(MFCC等。這里提取語音信號的 Mel尺度 倒

4、譜參數(shù)(MFCC)步驟如下:語音信號特征 參數(shù)圖3.2特征參數(shù)提取分析: 預加重 加漢明窗 FFTy(n) x(n)-0.97x( n 1)Xw(n) y(n) w(n)Xw(k)N 1j2 nk/N en 0這里直接采用現(xiàn)成的FFT快速算法。 對頻譜進行三角濾波程序采用歸一化mel濾波器組系數(shù) 計算每個濾波器的輸出能量N 12S(m) ln Xw(k) Hm(k)0 m Mk 0離散余弦變換(DCT得到MFCCMC(n) S(m)cos n(m 0.5) / M n 1,2,., pm 1通常協(xié)方差矩陣一般取對角陣,三角濾波器組的對數(shù)能量輸出之間存在 著很大的相關(guān),采用 DCT這種正交變換可

5、以去除參數(shù)之間的相關(guān)性,從而 使后端識別模型采用對角陣具有更高的識別率歸一化倒譜提升w = 1 + 6 * sin( u / 12) 1 u 12 w = w/max(w)計算差分系數(shù)并合并 mfcc 參數(shù)和一階差分 mfcc 參數(shù)將其作為一個整體,讓參數(shù)更完備模式匹配:有矢量量化技術(shù)、 DTW HMM技術(shù)、人工神經(jīng)網(wǎng)絡技術(shù)。 目前,語音識別的匹配主要應用HMM和DTW兩種算法。DTW算法由于沒 有一個有效地用統(tǒng)計方法進行訓練的框架, 也不容易將低層和頂層的各種知 識用到語音識別算法中,因此在解決大詞匯量、連續(xù)語音、非特定人語音識 別問題時較之 HMM 算法相形見絀。 HMM 是一種用參數(shù)表示

6、的 ,用于描述隨 機過程統(tǒng)計特性的概率模型。而對于孤立詞識別,HMM算法和DTW算法在相 同條件下,識別效果相差不大,又由于DTW算法本身既簡單又有效,但HMM 算法要復雜得多。 它需要在訓練階段提供大量的語音數(shù)據(jù) ,通過反復計算才能 得到參數(shù)模型,而DTW算法的訓練中幾乎不需要額外的計算。 鑒于此,DTW更 適合本系統(tǒng)的要求。DTW算法原理:該算法基于動態(tài)規(guī)劃DP的思想,解決了發(fā)音長短不 一的模板匹配問題。如果把測試模板的各個幀號n=1N在一個二維直角坐標 系中的橫軸上標出,把參考模板的各幀號 m=1M 在縱軸上標出,通過這些 表示幀號的整數(shù)坐標畫出一些縱橫線即可形成一個網(wǎng)絡, 網(wǎng)絡中的每一

7、個交 叉點n,m表示測試模式中某一幀的交匯點。DP算法可以歸結(jié)為尋找一 條通過此網(wǎng)絡中假設干格點的路徑, 路徑通過的格點即為測試和參考模板中 進行計算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有 可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從 左下角出發(fā),在右上角結(jié)束。DTW算法可以直接按上面的描述來實現(xiàn),即分配兩個 NX M的矩陣,分 別為積累距離矩陣D和幀匹配距離矩陣d,其中幀匹配距離矩陣di, j的 值為測試模板的第i幀與參考模板的第j幀間的距離。D :N,M丨即為最正 確匹配路徑所對應的匹配距離。無論在訓練和建立模板階段還是在識別階段,都先采用端點算法

8、確定語 音的起點和終點。已存入模板庫的各個詞條稱為參考模板,一個參考模板可 表示為R=R 1,R2,Rm,RM, m為訓練語音幀 的時序標號, m=1 為起點語音幀, m=M 為終點語音幀,因此 M 為該模板所 包含的語音幀總數(shù),R m為第m幀的語音特征矢量。所要識別的一個輸 入詞條語音稱為測試模板,可表示為 T=T 1,T2,Tn, T N,n為測試語音幀的時序標號,n=1為起點語音幀,n=N為終點語音 幀,因此N為該模板所包含的語音幀總數(shù),Tn為第n幀的語音特征矢量。 參考模板與測試模板采用相同形式的 MFCC系數(shù)、相同的幀長、相同的窗函 數(shù)和相同的幀移。假設測試和參考模板分別用 T和R表

9、示,為了比較它們之間的相似度, 可以計算它們之間的距離 DT,R,距離越小則相似度越高。為了計算這一 失真距離,應從 T 和 R 中各個對應幀之間的距離算起。設 n 和 m 分別是 T 和R中任意選擇的幀號,dTn:, Rm表示這兩幀特征矢量之間的距離。 距離函數(shù)取決于實際采用的距離度量,在 DTW算法中通常采用歐氏距離。四、實驗結(jié)果及分析首先通過訓練得到詞匯表中 '盤古 ''伏羲''女媧 ''神農(nóng) '各參考語音的特征 序列,直接將這些序列存儲為模板。 在進行識別時, 將待識語音的特征序列依次 與各參考語音特征序列進行 DTW 匹

10、配,最后得到的總失真度最小且小于識別閾 值的就認為是識別結(jié)果:正在計算參考模板的參數(shù) .ans =6824ans =7324ans = 6524ans = 6724正在計算測試模板的參數(shù) .ans =5024ans =6724ans =5324ans =5024正在進行模板匹配 .正在計算匹配結(jié)果 .測試模板1 的識別結(jié)果為:盤古測試模板2 的識別結(jié)果為:伏羲測試模板3 的識別結(jié)果為:女媧測試模板4 的識別結(jié)果為:神農(nóng)分析:從輸出的結(jié)果看,識別得到了正確的結(jié)果,這是由于采用了預加重、 歸一化導譜提升、加入差分系數(shù)。為了進一步驗證識別的正確性,看一下匹 配距離距陣 dist 的數(shù)據(jù):dist =

11、 1.0e+004 *2.31214.77227.22964.62766.82742.85809.49807.19587.25066.66242.40805.37983.97504.71984.77173.6102距離距陣的對角線上是正確匹配模板的對應分數(shù),可見對角線上的 4 個數(shù)值都是在本行中最小的,由此驗證了識別結(jié)果的正確性。但由于需要對大量路徑及這些路徑中的所有節(jié)點進行匹配計算,導致 計算量極大,隨著詞匯量的增大其識別過程甚至將到達難以接受的程度,因 此無法直接應用于大、中詞匯量識別系統(tǒng)。五、實驗體會與思考這次實驗,我所做的工作主要是設計并實現(xiàn)各模塊的合理組合。雖然在 學習課程中已經(jīng)對M

12、ATLAB有過一定的理論學習,但是要讀懂 MATLAB的程 序還需要找相關(guān)的書來看, 通過這次實踐,對 matlab 的語法與應用更加了解, 培養(yǎng)了我們獨立分析問題和解決問題的能力。在設計過程中,我通過查閱大量有關(guān)資料,與同學交流經(jīng)驗和自學,并 向老師請教等方式,使自己學到了不少知識,也經(jīng)歷了不少艱辛,但收獲同 樣巨大。在整個設計中我懂得了許多東西,也培養(yǎng)了我獨立工作的能力,樹 立了對自己工作能力的信心, 相信會對今后的學習工作生活有非常重要的影 響。而且大大提高了動手的能力,使我充分體會到了在創(chuàng)造過程中探索的艱 難和成功時的喜悅。雖然這個設計做的也不太好,但是在設計過程中所學到 的東西是這次

13、實驗的最大收獲和財富,使我終身受益。要實現(xiàn)這個Dtw與Test的算法,主要是弄懂它的幀匹配距離的由來和累 積距離的計算公式。這也是實現(xiàn)本系統(tǒng)最難得一環(huán),經(jīng)過不斷的調(diào)試修改, 最終實現(xiàn)了算法的要求。Dtw 算法采用動態(tài)規(guī)劃技術(shù),存在一些問題: (1)運算量大。由于要找出 最正確匹配點,因此要考慮多種可能的情況雖然路徑限制減少了運算量, 但運算量仍然很大,因而使識別速度減慢這在大詞匯量的識別中是一個嚴 重缺點。 (2)識別性能過分依賴于端點檢測。 端點檢測的精度隨著不同音素而 有所不同,有些音素的瑞點檢測精度較低。由此影響識別率的提高。(3)沒有充分利用語音信號的時序動態(tài)信息。在檢測語音信號的端點時, 一般采用平均能量或平均幅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論