![第五章 實(shí)驗(yàn)及總結(jié)_第1頁](http://file4.renrendoc.com/view10/M02/3A/00/wKhkGWWebLSAU0SSAAGe9RnILQk643.jpg)
![第五章 實(shí)驗(yàn)及總結(jié)_第2頁](http://file4.renrendoc.com/view10/M02/3A/00/wKhkGWWebLSAU0SSAAGe9RnILQk6432.jpg)
![第五章 實(shí)驗(yàn)及總結(jié)_第3頁](http://file4.renrendoc.com/view10/M02/3A/00/wKhkGWWebLSAU0SSAAGe9RnILQk6433.jpg)
![第五章 實(shí)驗(yàn)及總結(jié)_第4頁](http://file4.renrendoc.com/view10/M02/3A/00/wKhkGWWebLSAU0SSAAGe9RnILQk6434.jpg)
![第五章 實(shí)驗(yàn)及總結(jié)_第5頁](http://file4.renrendoc.com/view10/M02/3A/00/wKhkGWWebLSAU0SSAAGe9RnILQk6435.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章實(shí)驗(yàn)及總結(jié)5.1實(shí)驗(yàn)準(zhǔn)備及步驟實(shí)驗(yàn)平臺(tái)為Windows平臺(tái)上,采用Matlab數(shù)學(xué)工具通過完成程序而實(shí)現(xiàn)的。本實(shí)驗(yàn)主要采用DTW算法實(shí)現(xiàn)語音識(shí)別。首先,我們使用windows自帶的錄音器,分別由我和合作者黃博錄入了4組數(shù)據(jù)(1人兩組),每組8個(gè)音頻文件,本別為從“一”到“八”的漢語發(fā)音。其中一組為參考模板,另外一組為測試模板。首先用wavread函數(shù)讀入wav文件,用mfcc函數(shù)獲得其MFCC參數(shù),用vad函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測,并保存語音部分的MFCC參數(shù)到參考模板的機(jī)構(gòu)數(shù)組ref(i).mfcc中。我們比較一下兩個(gè)人的語音端點(diǎn)檢測的短時(shí)信號(hào)圖:圖5-1說話者A發(fā)音的vad輸出(1)——橫軸:時(shí)間(單位:秒)縱軸:能量——(單位:eV)(上圖)語音原始信號(hào);Energy短時(shí)能量(單位:eV);ZCR過零率(單位:%)圖5-2說話者A發(fā)音的vad輸出(2)——橫軸:時(shí)間(單位:秒)——縱軸:能量(單位:eV)(上圖)語音原始信號(hào);Energy短時(shí)能量(單位:eV);ZCR過零率(單位:%)圖5-3說話者B發(fā)音的vad輸出(2)——橫軸:時(shí)間(單位:秒)——縱軸:能量(單位:eV)(上圖)語音原始信號(hào);Energy短時(shí)能量(單位:eV);ZCR過零率(單位:%)Vad函數(shù)的功能就是通過端點(diǎn)檢測功能甄別出語音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn),圖中的紅線就是程序標(biāo)記的語音信號(hào)始末點(diǎn),可以看出,雜音基本被排除,效果是非常明顯的。同時(shí),從以上三個(gè)圖的對(duì)比可以看出,不同發(fā)音者的發(fā)音波形及特性有較明顯區(qū)別。原始波形中,發(fā)音者A的波形在橫軸兩端不對(duì)稱,而發(fā)音者B的波形在橫軸兩端比較對(duì)稱;能量波形中,兩者的區(qū)別更加明顯:發(fā)音者A的能量高峰在語音后部,發(fā)音者B的能量高峰在語音前部;過零率波形中也可以明顯看出兩個(gè)人的區(qū)別。端點(diǎn)檢測下的短時(shí)能量分析只是語音識(shí)別的第一步,但是通過該步驟已經(jīng)可以粗略的區(qū)別出不同發(fā)音者,并且可以進(jìn)一步分析發(fā)音者語音信號(hào)的特點(diǎn)。由此證明了端點(diǎn)檢測在語音識(shí)別中是非常重要的。5.2實(shí)驗(yàn)結(jié)果及討論本實(shí)驗(yàn)的MATLAB運(yùn)行環(huán)境中輸出結(jié)果如下列圖所示:圖5-4說話者A的兩組語音匹配結(jié)果及距離匹配矩陣圖6說話者B的兩組語音匹配結(jié)果及距離矩陣從輸出記過看,識(shí)別具有了一定程度的正確度。為了進(jìn)一步驗(yàn)證結(jié)果,看一下匹配距離矩陣dist的數(shù)據(jù)如下圖所示:距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù),可見對(duì)角線上的8個(gè)數(shù)值中有50%都是在本行中最小的,由此驗(yàn)證了識(shí)別結(jié)果的正確性。圖5-5說話者B的兩組語音匹配結(jié)果及距離匹配矩陣圖5-6說話者A和B的語音匹配結(jié)果及距離匹配矩陣圖5-7說話者A和B的匹配矩陣的三維曲面圖圖5-8說話者A和B的匹配矩陣的的三維柱狀圖圖5-9說話者A和B的匹配矩陣的灰度視圖結(jié)果顯示:說話者A的自匹配識(shí)別率為89%,說話者B的自匹配識(shí)別率也為89%,而A和B之間的識(shí)別率為62%。圖5-4,圖5-5,圖5-6中的匹配矩陣元為每個(gè)語音信號(hào)和參考模板中所有共8個(gè)語音信號(hào)的匹配距離,可以看出,在正確識(shí)別情況下,矩陣對(duì)角線上的矩陣元是本行中最小的(同一個(gè)語音信號(hào)和自己匹配距離最?。谄ヅ涫〉那闆r下,對(duì)角線上的矩陣元也是次最小的。這一結(jié)果說明了DTW的可靠性和穩(wěn)定性。圖5-7,圖5-8,圖5-9以不同方式直觀的顯示了矩陣元的大小關(guān)系。X軸表示說話者A的語音信號(hào)編號(hào),Y軸表示說話者B的語音信號(hào)編號(hào),Z軸表示矩陣元的大小。三維曲面圖中的藍(lán)色部分,灰度圖中的全黑色部分為數(shù)值較小區(qū)域,可以看書,這個(gè)區(qū)域基本是在對(duì)角線上的。灰度圖中的紅色連線便顯示了黑色方塊分布在對(duì)角線上及附近。自匹配的識(shí)別準(zhǔn)確率達(dá)到90%,而不同發(fā)音者之間的識(shí)別率有明顯下降,為60%。這也是顯示出DTW算法在非特定人語音識(shí)別中不如特定人語音識(shí)別準(zhǔn)確。文獻(xiàn)[1]指出,使用DTW算法的特定人孤立字語音識(shí)別率能高達(dá)近100%,而我們始終無法達(dá)到這一效果。有幾方面的原因:1.錄音設(shè)備和程序偏簡單。一個(gè)非常良好和精確的模板庫是高效率語音識(shí)別系統(tǒng)的基礎(chǔ)。我們使用簡易麥克風(fēng)和windows自帶錄音程序可能無法建立一個(gè)完備的模板庫。2.DTW算法自身的缺陷。DTW自身算法只適用于孤立字語音識(shí)別,而且是簡單字。因此識(shí)別機(jī)理上更加先進(jìn)的HMM和ANN方法能夠滿足更高的要求。對(duì)DTW算法進(jìn)行改進(jìn)(比如端點(diǎn)檢測)已經(jīng)提高了該算法的識(shí)別率。3.DTW算法僅限于孤立字的語音識(shí)別,而連續(xù)語音的識(shí)別目前來說還比較難以達(dá)到高的識(shí)別率,這也是今后語音識(shí)別課題研究發(fā)展的方向。5.3實(shí)驗(yàn)結(jié)論課題最終在MATLAB平臺(tái)的基礎(chǔ)上基本實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音識(shí)別,基本上達(dá)到了預(yù)定的目的?;贒TW模型的語音識(shí)別簡單的說就是通過MATLAB的程序段,將待識(shí)別的語音信號(hào)與數(shù)據(jù)庫中的模板進(jìn)行相似度對(duì)比,將相似度最高者最為識(shí)別結(jié)果輸出,同時(shí)DTW的識(shí)別效率取決于參考模板的清晰度以及廣泛度,如果能夠建立一個(gè)范圍龐大而且清晰的特定人語音庫,將能夠大大提高語音識(shí)別的效率。我們的試驗(yàn)由于時(shí)間以及外部設(shè)備的關(guān)系,難以組建一個(gè)非常精確的參考樣本,因此識(shí)別的效率略微偏低,不過已經(jīng)足夠說明DTW識(shí)別算法在特定人孤立字語音識(shí)別中的巨大作用。本文對(duì)于DTW算法提出了幾條在實(shí)際操作中切實(shí)可行的改進(jìn)建議,并對(duì)MFCC參數(shù)編程和ANN的應(yīng)用進(jìn)行了探討。在程序中,由于受數(shù)據(jù)庫的局限,并沒有實(shí)現(xiàn)對(duì)于語音的模糊識(shí)別,但個(gè)別個(gè)體的特定語音識(shí)別也具有廣泛的用途。參考文獻(xiàn):[1]RabinerL,JuangBH.FundamentalsofSpeechRecognition,Prentice-HallInternational.Inc,1999,p.17[2]D.G.Childers,Matlab之語音處理與合成工具箱(影印版),清華大學(xué)出版社,2004,p.45-51[3]黃文梅,熊桂林,楊勇,信號(hào)分析與處理—MATLAB語言及應(yīng)用,國防科技大學(xué)出版社,2000,p.37-40[4]楊行峻,遲惠生,“語音數(shù)字信號(hào)處理”,電子工業(yè)出版社.1995[5]張焱,張杰,黃志同,語音識(shí)別中動(dòng)態(tài)時(shí)間規(guī)整和隱馬爾可夫統(tǒng)一模型數(shù)據(jù)采集與處理1997年03期p.218-222[6]何強(qiáng),何英,MATLAB擴(kuò)展編程[M],清華大學(xué)出版社,2002p.345-347[7]RabinerLandJuangBH.IntroductiontohiddenMarkovmodels,IEEEASSPMag,vol.3,no.1,4-16,1986[8]HuangXD.HiddenMarkovModelsforSpeechRecognition,EdinburghInformationTechnologySeries.1999(7):136-202[9]RabinerL,AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition,Proc,ofIEEE,77(2)257-286,1989[10]Jen+TzungChien,PredictiveHiddenMarkovModelSelectionforSpeechRecognition,IEEETransactiononSpeechandAudioProcessing,vol.13,No.3,May2005[11]謝錦輝,隱Markov模型(HMM)及其在語音處理中的應(yīng)用,華中理工大學(xué)出版社.[12]ChristophGerber,AGeneralApproachtoSpeechRecognition,ElectronicWorkshopsinComputing,1995[13]XuBo,FENGYuguang,YUJinsong,IntelligentclassifierfordynamicfaultpatternsbasedonHiddenMarkovModel[14]MATLABPrimer,seventhedi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年地質(zhì)樣品自動(dòng)采集器行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2025-2030年地下空間環(huán)境監(jiān)測與預(yù)警機(jī)器人企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 2025-2030年數(shù)控機(jī)床智能維護(hù)培訓(xùn)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2025-2030年手術(shù)室設(shè)備維護(hù)培訓(xùn)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2025-2030年手工創(chuàng)意市集行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2025-2030年增強(qiáng)現(xiàn)實(shí)游戲機(jī)行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2025-2030年手術(shù)室設(shè)備快速安裝家具行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 二手房買賣定金合同范本
- 企業(yè)擔(dān)保個(gè)合同范例
- 再生鋼材采購合同范本
- 檔案管理流程優(yōu)化與效率提升
- 2023高考語文實(shí)用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場應(yīng)用
- (完整word版)大格子作文紙模板(帶字?jǐn)?shù)統(tǒng)計(jì))
- 高考語文復(fù)習(xí):小說閱讀主觀題題型探究-解讀《理水》
- revit簡單小別墅教程
- 第二章 第一節(jié) CT設(shè)備基本運(yùn)行條件
- 藍(lán)印花布鑒賞課件
- 血液灌流流程及注意事項(xiàng)詳細(xì)圖解
- 注水井洗井操作規(guī)程
- 貝克曼梁測定路基路面回彈彎沉
評(píng)論
0/150
提交評(píng)論