孤立詞語音識別中期報(bào)告.doc

上傳人：x*** IP屬地：四川上傳時(shí)間：2020-03-14 格式：DOC 頁數(shù)：12 大?。?39KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1課題研究的背景及意義國外的語音識別研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室開發(fā)的第一個(gè)能實(shí)現(xiàn)十個(gè)英文數(shù)字的語音識別系統(tǒng)。我國的語音識別研究起始于1958年，由中國科學(xué)院聲學(xué)所利用電子管電路識別十個(gè)元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識別。1986年3月我國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng)，國家863智能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng)，每兩年舉行一次專題會(huì)議?，F(xiàn)在我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步，在漢語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢。國內(nèi)有不少語音識別系統(tǒng)已研制成功。在孤立字大詞匯量語音識別方面，最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實(shí)時(shí)系統(tǒng)。在連續(xù)語音識別方面，91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。在非特定人語音識別方面，有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實(shí)際使用。隨著信息產(chǎn)業(yè)的迅速發(fā)展，人們傾向于使用高效，快捷，方便的電子產(chǎn)品。語音識別作為人機(jī)交互的一項(xiàng)關(guān)鍵領(lǐng)域，具備了實(shí)時(shí)，方便，快速等特點(diǎn)，在當(dāng)今科學(xué)技術(shù)的發(fā)展上也有著日益重要的地位。在一些特定的環(huán)境或是對于一些特定的人，語音識別可以帶來很大的方便。例如，駕駛員在高速行駛的汽車內(nèi)電話撥號，飛行員在飛行過程中發(fā)出必要的命令等，都需要語音識別系統(tǒng)，另外語音識別也給失明者帶來很大的幫助。課題任務(wù)探討基于MATLAB的多個(gè)特定人孤立詞語音識別的方法，期望在進(jìn)行端點(diǎn)檢測時(shí)，能進(jìn)一步提高識別率。該設(shè)計(jì)要求采用TW算法。主要任務(wù)：1、理論分析，提出設(shè)計(jì)方案；2、語音采集；3、特征提取，形成訓(xùn)練集；4、特定人孤立詞語音識別算法的程序?qū)崿F(xiàn)。基本原理3.1語音識別的基本原理語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng)，因此它的基本結(jié)構(gòu)與常規(guī)模式識別系統(tǒng)一樣，包含有特征提取、模式匹配、參考模式庫等三個(gè)基本單元。圖1為語音識別系統(tǒng)的原理框圖。失真測度識別識別結(jié)果訓(xùn)練模式匹配模型庫逐幀特征提取預(yù)處理語音信號圖1 語音識別系統(tǒng)的原理框圖根據(jù)對說話人發(fā)音方式的不同，語音識別研究的內(nèi)容可以分為孤立詞識別系統(tǒng)、連續(xù)字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)。本次畢設(shè)研究的是孤立詞語音識別。3.2孤立詞語音識別系統(tǒng)的設(shè)計(jì)孤立詞語音識別系統(tǒng)指人在發(fā)音時(shí)，以單字的發(fā)音方式向語音識別系統(tǒng)輸入語音，詞語詞之間要有足夠的時(shí)間間隙，以便系統(tǒng)能夠檢測到始末點(diǎn)。采用這種方式的語音識別系統(tǒng)可以做到很高的識別率。圖2為孤立詞有語音識別系統(tǒng)的原理框圖：預(yù)處理特征提取超音段特征提取參考模式庫模式識別訓(xùn)練后處理器識別結(jié)果輸入語音圖2 孤立詞語音識別系統(tǒng)3.2.1語音信號的采集Windows 自帶了一個(gè)錄音機(jī)程序（簡稱錄音機(jī)），通過它可以驅(qū)動(dòng)聲卡采集、播放和簡單處理語音信號。語音信號的采集可以用麥克風(fēng)直接錄制人的語音，也可以通過音頻線或者M(jìn)IDI 線將收音機(jī)、電視機(jī)或磁帶錄機(jī)中的語音信號采集到計(jì)算機(jī)中。在錄音機(jī)中可以進(jìn)行簡單的聲音處理，如加大或降低音量，加速或減速，聲音的反轉(zhuǎn)或添加回音效果等。加速或減速的改變可以完成變音功能，反轉(zhuǎn)可以達(dá)到對聲音文件保密的功能。通過windows自帶的錄音器，分別由我和同學(xué)錄入了2組數(shù)據(jù)（1人1組），每組10個(gè)音頻文件，分別為從“零”到“九”的漢語發(fā)音。其中一組為參考模板，另外一組為測試模板。3.2.2端點(diǎn)檢測語音信號錄制進(jìn)來后，不論是識別孤立詞還是識別連續(xù)詞都必須做語音分段，即語音端點(diǎn)檢測，找出語音段的開始和結(jié)尾，這可借助于語音信號的短時(shí)能量和過零率。有聲音段的能量值較大，無聲音段的過零率較高，因此可以通過計(jì)算短時(shí)能量大致判斷語音的端點(diǎn)，然后使用過零率找到語音端點(diǎn)的相對精確位置，分解出每一個(gè)語音段。整個(gè)語音信號的端點(diǎn)檢測可以分為四段：靜音、過渡段、語音段、結(jié)束。系統(tǒng)中使用一個(gè)變量來表示當(dāng)前所處的狀態(tài)，在靜音段，如能量或過零率超過了低門限，則開始標(biāo)記起始點(diǎn)，進(jìn)入過渡段。在過渡段，由于參數(shù)的數(shù)值比較小，不能確信是否處于真正的語音段，因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下，就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中兩個(gè)參數(shù)的任意一個(gè)超過了高門限，就可以確信進(jìn)入語音段了。端點(diǎn)檢測時(shí)，首先根據(jù)短時(shí)能量進(jìn)行初步判斷，此時(shí)對終點(diǎn)的檢測已比較準(zhǔn)確，但由于大多數(shù)聲母是清聲母，它的能量相當(dāng)弱，依靠能量無法將其與無聲段區(qū)分開，所以在進(jìn)行起點(diǎn)檢測時(shí)，很難僅僅通過短時(shí)能量進(jìn)行判斷，但對于清輔音而言，它的過零率明顯高于無聲段，所以可以根據(jù)短時(shí)過零率進(jìn)一步準(zhǔn)確檢測。圖3為端點(diǎn)檢測的流程圖：否否是是否發(fā)現(xiàn)終點(diǎn)？是否發(fā)現(xiàn)起點(diǎn)？開始自適應(yīng)能量預(yù)加重、加窗、計(jì)算每幀能量能量狀態(tài)跳轉(zhuǎn)是結(jié)束圖3 端點(diǎn)檢測的流程圖圖3 端點(diǎn)檢測程序流程圖3.2.3特征提取由于直接采集得到的語音信號的數(shù)據(jù)量巨大，同時(shí)原始語音信號包含了許多隨機(jī)因素，所以原始信號不能直接用來進(jìn)行語音識別。因此需要從語音信號中提取合適的、有代表性的特征參數(shù)。特征提取就是通過對語音信號的分析，去除其中的冗余信息，得到影響語音識別的有用信息，語音信號的時(shí)域參數(shù)有短時(shí)平均能量、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。這是語音信號的一組最基本的短時(shí)參數(shù)，在各種語音信號數(shù)字處理技術(shù)中都要應(yīng)用，下面分別討論：短時(shí)平均能量清音段的幅度一般比濁音段的幅度小的很多。語音信號的短時(shí)能量給出了反映這些幅度變化的一個(gè)合適的描述方法。圖4為短時(shí)平均能量的方框圖如下表示：圖4 短時(shí)平均能量的方框圖表示短時(shí)過零率過零率分析是語音時(shí)域分析中最基本的一種。對于連續(xù)信號，過零率意味著時(shí)域波形通過時(shí)間軸。在離散時(shí)間信號情況下，當(dāng)相鄰的兩次抽樣具有不同的代數(shù)符號時(shí)就稱為發(fā)生了過零。過零率是指單位時(shí)間內(nèi)信號由正變負(fù)、由負(fù)變正的總次數(shù)。圖5為短時(shí)平均過零率的方框圖如下表示：低通濾波器一階差分圖5 短時(shí)平均過零數(shù)的實(shí)現(xiàn)框圖3.2.4模式匹配語音識別過程是根據(jù)模式匹配原則，計(jì)算未知語音模式與語音模板庫中的每一個(gè)模板的距離測度，從而得到最佳的匹配模式。語音識別所應(yīng)用的模板匹配方法主要基于動(dòng)態(tài)時(shí)間規(guī)整匹配的（DTW）識別算法、基于統(tǒng)計(jì)的隱含馬爾可夫模型（HMM)識別算法和基于神經(jīng)網(wǎng)絡(luò)的識別算法。本次畢設(shè)我采用的是動(dòng)態(tài)時(shí)間彎折（DTW)。DTW(dynamic time warping)動(dòng)態(tài)時(shí)間規(guī)整匹配，是基于動(dòng)態(tài)規(guī)劃的思想，解決了發(fā)音長短不一的匹配問題，是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。動(dòng)態(tài)時(shí)間規(guī)整是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測試和參考模板分別用T和R表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離DT,R ，距離越小則相似度越高。為了計(jì)算這一失真距離，應(yīng)對T和R中各個(gè)對應(yīng)幀之間的距離算起。在DTW算法中通常采用歐式距離，設(shè)n和m分別是T和R中任意選擇的幀號，則有: 因?yàn)橐话闱闆r下參考模板和待匹配模板的長度不相等，即MN，因此要考慮將T和R對齊。對齊主要采用的是動(dòng)態(tài)規(guī)劃（DP）的方法。將測試模板的各個(gè)幀號n=1N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出，把參考模板的各個(gè)幀號m=1M在縱軸上標(biāo)出，通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)(n，m)表示測試模塊中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。4仿真結(jié)果與分析本次畢設(shè)到現(xiàn)在為止，我已經(jīng)完成了語音采集和端點(diǎn)檢測這兩項(xiàng)任務(wù)，端點(diǎn)檢測時(shí)采用短時(shí)能量和短時(shí)過零率這兩個(gè)特征參數(shù)，根據(jù)端點(diǎn)檢測的程序得到如下圖形：圖6 語音信號波形圖6顯示了語音信號波形，從波形中可以看出，音頻前后都有噪音，這是由于說話的短暫停留引起的。在語音信號的起始位置，從圖中可以看出其幅值為零，在語音信號的結(jié)束位置可以看出信號波形做周期性的變化，可以判定其為濁音。圖7 初始語音的端點(diǎn)檢測結(jié)果分析上圖可知，在語音的起始位置和結(jié)束位置，短時(shí)過零率較高，短時(shí)能量也較大。這與短時(shí)能量大時(shí)是濁音、能量小時(shí)是清音，短時(shí)過零率高時(shí)是清音、過零率低時(shí)是濁音相矛盾。故可知輸入的原始語音有噪聲干擾。在語音的結(jié)束位置，這兩項(xiàng)參數(shù)都趨向于零。圖8 語音“00”的雙門限端點(diǎn)檢測結(jié)果Vad函數(shù)的功能就是通過端點(diǎn)檢測功能甄別出語音信號的起始點(diǎn)與結(jié)束點(diǎn)，圖中的紅線就是標(biāo)記的語音信號始末點(diǎn)，可以看出，雜音基本被排除，效果是非常明顯的。5總結(jié)作為一項(xiàng)具有實(shí)用性的技術(shù)，孤立詞語音識別的應(yīng)用越來越廣。為了滿足實(shí)際需求人們一直在致力于不斷完善孤立詞語音識別系統(tǒng)。語音具有便捷性、高效性、隨機(jī)性、交互性等顯著特點(diǎn)，是實(shí)現(xiàn)人機(jī)交互的一種重要通信方式，進(jìn)一步提高社會(huì)的信息化和自動(dòng)化程度。根據(jù)本次畢業(yè)設(shè)計(jì)的要求，探討基于MATLAB的多個(gè)特定人孤立詞語音識別的方法，期望在進(jìn)行端點(diǎn)檢測時(shí)，能進(jìn)一步提高識別率。該設(shè)計(jì)要求的設(shè)計(jì)為主采用DTW算法。大部分內(nèi)容要通過程序的編寫來完成，不過主要的操作是對函數(shù)的調(diào)用，這就要求我熟悉MATLAB的一些函數(shù)的基本功能以及它們的基本語句。通過這次設(shè)計(jì)能夠使我掌握大量關(guān)于語音信號分析的知識技能，對這門課程有深入的了解和認(rèn)識，為將來的工作提供了資料，積累寶貴的經(jīng)驗(yàn)。6參考文獻(xiàn) 1 趙力，語音信號處理M第一版，北京：機(jī)械工業(yè)出版社，2003 2 王炳錫，屈丹，彭煊實(shí)用語音識別基礎(chǔ)M.北京：國防工業(yè)出版社，2005 3 易克初，田斌，付強(qiáng)等語音信號處理M.北京：國防工業(yè)出版社，2000 4 高成華，聾兒康復(fù)事業(yè)的歷史、現(xiàn)狀和展望J，中國聽力語言康復(fù)科學(xué)雜志，2003 5 楊行竣，遲惠生等，語音信號數(shù)字處理M.第一版，北京：電子工業(yè)出版社，1995 6 彭昭，呂冠中，梁潔，等. 基于P2P 的流媒體點(diǎn)播技術(shù)研究與展望J. 計(jì)算機(jī)科學(xué)，2008. 7 莊雷，常玉存，董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究，2009， (01) ：266-26 8 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉 . 北京:電子工業(yè)出版社, 2006, 8 9 莊雷，常玉存，董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究，2009， (01) ：266-268.10 周輝，董正宏.數(shù)字信號處理基礎(chǔ)及MATLAB實(shí)現(xiàn)M.北京：北京希望電子出版社，2006.11 鄒理和.語音信號處理M.北京：國防工業(yè)出版社，1985.12 梁曉輝, 周權(quán).語音信號處理方法的可靠性研究J.電聲技術(shù)，2010年04期. 13 吳艷花.語言短時(shí)幅度和短時(shí)過零率分析與應(yīng)用J.電腦知識與技術(shù).2009年33期.14 胡航.語音信號處理M.哈爾濱：哈爾濱工業(yè)大學(xué)出版社,2009.7.15 孫燕.語音頻譜分析與應(yīng)用J.計(jì)算機(jī)與現(xiàn)代化，2010年04期.16 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉. 北京:電子工業(yè)出版社, 2006, 817 黃文梅，熊桂林，楊勇. 信號分析與處理MMATLAB語言及應(yīng)用.長沙：國防科技大學(xué)出版社，2010年2月.18劉江華，程君實(shí)，陳佳品支持向量機(jī)訓(xùn)練算法綜述J信息與控制，2002,31(1):45-49.19ZENG Qingning.Speech enhancement by array crosstalk resistantANC and spectrumSubtraction. 聲學(xué)學(xué)報(bào)：英文版，2008年，27卷1期.20 GUAN Tian，GONG Qin，YE Datian.Effective use of the spectral information in speech processing of cochlear implant. 自然科學(xué)進(jìn)展，2007年17卷3期.21侯風(fēng)雷，王炳錫基于支持向量機(jī)的說話人辨認(rèn)研究J.通信學(xué)報(bào)，2002,23(6):61-67.22周志杰.MLP語音信號非線性預(yù)測器J.解放軍理工大學(xué)學(xué)報(bào)（自然科學(xué)版）,2001,2(5):1-4.23RIZVI A.Residu

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

孤立詞語音識別中期報(bào)告.doc

文檔簡介

溫馨提示

最新文檔

評論

孤立詞語音識別中期報(bào)告.doc

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔