基于DTW的語音識別在MATLAB中的實現(xiàn)方法淺析_第1頁
基于DTW的語音識別在MATLAB中的實現(xiàn)方法淺析_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于DTW勺語音識別在MATLAB中的實現(xiàn)方法淺析摘要:本文闡述了基于dtw的非特定人語音識別的基本原理與實現(xiàn)方法。該語音識別系統(tǒng)預(yù)先建立標(biāo)準(zhǔn)語音模板庫與三名待測者的語音模板的方法,然后結(jié)合matlab中自帶voicebox語音工具箱及相應(yīng)語音處理函數(shù)的編寫,成功的實現(xiàn)了數(shù)字1-10的孤立詞的語音識別,識別成功率統(tǒng)計達到90%以上。關(guān)鍵詞:語音識別端點檢測特征參數(shù)dtw算法中圖分類號:tn912文獻標(biāo)識碼:a文章編號:1007-9416(2011)12-0184-021、語音識別系統(tǒng)概述語音信號是一種典型的非平穩(wěn)信號,并且在錄音過程中不免受到電噪音,呼吸產(chǎn)生的氣流噪音以及錄音環(huán)境下的突發(fā)噪音的

2、影響,所以語音信號要經(jīng)過預(yù)濾波、采樣量化、分幀、加窗、預(yù)加重、端點檢測等預(yù)處理過程后才可以進行下一步的特征征參數(shù)提取等工作。在接下來的語音訓(xùn)練階段,我們將那些信號狀態(tài)良好,攜帶噪聲小且特征參數(shù)穩(wěn)定的語音信號作為指定詞條的模板,進而為每個詞條創(chuàng)建一個模板并保存為模板庫。在識別階段,語音信號經(jīng)過相同的通道生成測試模板,用相同的方法計算測試模板的特征參數(shù)后,將其與模板庫模板的特征參數(shù)進行匹配,配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。2、語音信號的錄入語音信號的采集方法有很多,鑒于該系統(tǒng)是在matlab上實現(xiàn),且matlab本身提供了一定的音頻處理函數(shù),因此我們完全可以采用在matlab中先完成錄音函數(shù)的編

3、寫,然后再結(jié)合windows自帶的錄音設(shè)備進行錄音。錄音得到的wav文件即是經(jīng)過預(yù)濾波采樣和量化的語音。利用soundview讀所錄入的文件時,會彈出一個gui界面,并可以通過輸出設(shè)備對所錄語音進行回訪,該gui界面如圖1所示。單擊playagain按鈕可可回放,單擊done按鈕可關(guān)閉界面。3、語音信號的預(yù)加重我們知道,對語音識別更有用的是語音的高頻部分,而對于語音信號的頻譜,通常是頻率越高幅值越低。因此我們必須對語音的高頻進行加重處理。處理方法是將語音信號通過一個一階高通濾波器,即預(yù)加重濾波器,它不僅能濾除低頻提升高頻,還能很好的抑制50hz到60hz的工頻干擾。尤其在短點檢測之前進行預(yù)加重

4、還可起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的效果。預(yù)加重在matlab中可由語句x二filter(1-0.9375,1,x)實現(xiàn)。4、語音信號的分幀和加窗經(jīng)過數(shù)字化的語音信號實際上是一個時變信號,為了能用傳統(tǒng)的方法對語音信號進行分析,應(yīng)假設(shè)語音信號在10ms-30ms內(nèi)是短時平穩(wěn)的。為了得到短時的語音信號,要對語音信號進行加窗操作。窗函數(shù)平滑地在語音信號上滑動,將語音信號進行分幀,幀與幀的交疊為幀移,一般為窗長的一半。語音信號的分幀采用enframe函數(shù),其語法為f=enframe(x,len,inc);其中x為輸入的語音信號,len為制定的幀長,inc為指定幀移。函數(shù)將返回一個nx

5、ien的一個矩陣,每行都是一幀數(shù)據(jù)。在本系統(tǒng)中幀長取240,幀移取80。在matlab中要實現(xiàn)加窗即將分幀后的語音信號乘上窗函數(shù),本文加漢明窗,即為x=x.*hamming(n)。5、端點檢測在語音識別系統(tǒng)中,訓(xùn)練階段和建模階段都比較重要的環(huán)節(jié)都是要先通過端點檢測找到語音的起點和終點,這樣,我們就可以只對有效語音進行處理,這對于識別的準(zhǔn)確率和識別效率至關(guān)重要。本論文在短點檢測環(huán)節(jié)采用雙門限端點檢測法,即采用短時能量檢測和短時過零率檢測雙重指標(biāo)約束。結(jié)合實際,我們將整個語音端點檢測分為四個段落,即:無聲段、等待段、語音段、結(jié)束段,再為短時能量和短時過零率各設(shè)置一個高門限和一個低門限:ehigh、elow和zhigh、zlow。結(jié)合matlab中所編程序,可以較準(zhǔn)確的確定語音的各個部分。圖2所示為語音“T的處理結(jié)果。6、特征參數(shù)的提取經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率。本文將梅爾倒譜系數(shù)(mfcc)和一階mfcc系數(shù)的差分結(jié)合起來,將其合并為一個矢量作為一幀語音信號的參數(shù),這樣,不僅描述了語音的靜態(tài)特性,由于加入了差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論