基于DTW的語音識別在MATLAB中的實現(xiàn)方法淺析

上傳人：g*** IP屬地：天津上傳時間：2022-05-07 格式：DOCX 頁數(shù)：3 大?。?3.66KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基于DTW勺語音識別在MATLAB中的實現(xiàn)方法淺析摘要：本文闡述了基于dtw的非特定人語音識別的基本原理與實現(xiàn)方法。該語音識別系統(tǒng)預(yù)先建立標(biāo)準(zhǔn)語音模板庫與三名待測者的語音模板的方法，然后結(jié)合matlab中自帶voicebox語音工具箱及相應(yīng)語音處理函數(shù)的編寫，成功的實現(xiàn)了數(shù)字1-10的孤立詞的語音識別，識別成功率統(tǒng)計達到90%以上。關(guān)鍵詞：語音識別端點檢測特征參數(shù)dtw算法中圖分類號：tn912文獻標(biāo)識碼：a文章編號：1007-9416(2011)12-0184-021、語音識別系統(tǒng)概述語音信號是一種典型的非平穩(wěn)信號，并且在錄音過程中不免受到電噪音，呼吸產(chǎn)生的氣流噪音以及錄音環(huán)境下的突發(fā)噪音的

2、影響，所以語音信號要經(jīng)過預(yù)濾波、采樣量化、分幀、加窗、預(yù)加重、端點檢測等預(yù)處理過程后才可以進行下一步的特征征參數(shù)提取等工作。在接下來的語音訓(xùn)練階段，我們將那些信號狀態(tài)良好，攜帶噪聲小且特征參數(shù)穩(wěn)定的語音信號作為指定詞條的模板，進而為每個詞條創(chuàng)建一個模板并保存為模板庫。在識別階段，語音信號經(jīng)過相同的通道生成測試模板，用相同的方法計算測試模板的特征參數(shù)后，將其與模板庫模板的特征參數(shù)進行匹配，配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。2、語音信號的錄入語音信號的采集方法有很多，鑒于該系統(tǒng)是在matlab上實現(xiàn)，且matlab本身提供了一定的音頻處理函數(shù)，因此我們完全可以采用在matlab中先完成錄音函數(shù)的編

3、寫，然后再結(jié)合windows自帶的錄音設(shè)備進行錄音。錄音得到的wav文件即是經(jīng)過預(yù)濾波采樣和量化的語音。利用soundview讀所錄入的文件時，會彈出一個gui界面，并可以通過輸出設(shè)備對所錄語音進行回訪，該gui界面如圖1所示。單擊playagain按鈕可可回放，單擊done按鈕可關(guān)閉界面。3、語音信號的預(yù)加重我們知道，對語音識別更有用的是語音的高頻部分，而對于語音信號的頻譜，通常是頻率越高幅值越低。因此我們必須對語音的高頻進行加重處理。處理方法是將語音信號通過一個一階高通濾波器，即預(yù)加重濾波器，它不僅能濾除低頻提升高頻，還能很好的抑制50hz到60hz的工頻干擾。尤其在短點檢測之前進行預(yù)加重

4、還可起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的效果。預(yù)加重在matlab中可由語句x二filter(1-0.9375,1,x)實現(xiàn)。4、語音信號的分幀和加窗經(jīng)過數(shù)字化的語音信號實際上是一個時變信號，為了能用傳統(tǒng)的方法對語音信號進行分析，應(yīng)假設(shè)語音信號在10ms-30ms內(nèi)是短時平穩(wěn)的。為了得到短時的語音信號，要對語音信號進行加窗操作。窗函數(shù)平滑地在語音信號上滑動，將語音信號進行分幀，幀與幀的交疊為幀移，一般為窗長的一半。語音信號的分幀采用enframe函數(shù)，其語法為f=enframe(x,len,inc);其中x為輸入的語音信號，len為制定的幀長，inc為指定幀移。函數(shù)將返回一個nx

5、ien的一個矩陣，每行都是一幀數(shù)據(jù)。在本系統(tǒng)中幀長取240,幀移取80。在matlab中要實現(xiàn)加窗即將分幀后的語音信號乘上窗函數(shù)，本文加漢明窗，即為x=x.*hamming(n)。5、端點檢測在語音識別系統(tǒng)中，訓(xùn)練階段和建模階段都比較重要的環(huán)節(jié)都是要先通過端點檢測找到語音的起點和終點，這樣，我們就可以只對有效語音進行處理，這對于識別的準(zhǔn)確率和識別效率至關(guān)重要。本論文在短點檢測環(huán)節(jié)采用雙門限端點檢測法，即采用短時能量檢測和短時過零率檢測雙重指標(biāo)約束。結(jié)合實際，我們將整個語音端點檢測分為四個段落，即：無聲段、等待段、語音段、結(jié)束段，再為短時能量和短時過零率各設(shè)置一個高門限和一個低門限：ehigh、elow和zhigh、zlow。結(jié)合matlab中所編程序，可以較準(zhǔn)確的確定語音的各個部分。圖2所示為語音“T的處理結(jié)果。6、特征參數(shù)的提取經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進行特征參數(shù)提取，特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率。本文將梅爾倒譜系數(shù)(mfcc)和一階mfcc系數(shù)的差分結(jié)合起來，將其合并為一個矢量作為一幀語音信號的參數(shù)，這樣，不僅描述了語音的靜態(tài)特性，由于加入了差

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于DTW的語音識別在MATLAB中的實現(xiàn)方法淺析

文檔簡介

溫馨提示

最新文檔

評論

基于DTW的語音識別在MATLAB中的實現(xiàn)方法淺析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔