孤立詞語音識別中期報告.doc_第1頁
孤立詞語音識別中期報告.doc_第2頁
孤立詞語音識別中期報告.doc_第3頁
孤立詞語音識別中期報告.doc_第4頁
孤立詞語音識別中期報告.doc_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1課題研究的背景及意義國外的語音識別研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實驗室開發(fā)的第一個能實現(xiàn)十個英文數(shù)字的語音識別系統(tǒng)。我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別十個元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計算機語音識別。1986年3月我國高科技發(fā)展計劃(863計劃)啟動,國家863智能計算機專家組為語音識別技術(shù)研究專門立項,每兩年舉行一次專題會議。現(xiàn)在我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢。國內(nèi)有不少語音識別系統(tǒng)已研制成功。在孤立字大詞匯量語音識別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統(tǒng)。在連續(xù)語音識別方面,91年12月四川大學(xué)計算機中心在微機上實現(xiàn)了一個主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。在非特定人語音識別方面,有清華大學(xué)計算機科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實際使用。隨著信息產(chǎn)業(yè)的迅速發(fā)展,人們傾向于使用高效,快捷,方便的電子產(chǎn)品。語音識別作為人機交互的一項關(guān)鍵領(lǐng)域,具備了實時,方便,快速等特點,在當(dāng)今科學(xué)技術(shù)的發(fā)展上也有著日益重要的地位。在一些特定的環(huán)境或是對于一些特定的人,語音識別可以帶來很大的方便。例如,駕駛員在高速行駛的汽車內(nèi)電話撥號,飛行員在飛行過程中發(fā)出必要的命令等,都需要語音識別系統(tǒng),另外語音識別也給失明者帶來很大的幫助。課題任務(wù)探討基于MATLAB的多個特定人孤立詞語音識別的方法,期望在進行端點檢測時,能進一步提高識別率。該設(shè)計要求采用TW算法。主要任務(wù):1、 理論分析,提出設(shè)計方案;2、 語音采集;3、 特征提取,形成訓(xùn)練集;4、 特定人孤立詞語音識別算法的程序?qū)崿F(xiàn)?;驹?.1語音識別的基本原理語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),因此它的基本結(jié)構(gòu)與常規(guī)模式識別系統(tǒng)一樣,包含有特征提取、模式匹配、參考模式庫等三個基本單元。圖1為語音識別系統(tǒng)的原理框圖。失真測度識別識別結(jié)果訓(xùn)練模式匹配模型庫逐幀特征提取預(yù)處理語音信號圖1 語音識別系統(tǒng)的原理框圖根據(jù)對說話人發(fā)音方式的不同,語音識別研究的內(nèi)容可以分為孤立詞識別系統(tǒng)、連續(xù)字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)。本次畢設(shè)研究的是孤立詞語音識別。3.2孤立詞語音識別系統(tǒng)的設(shè)計孤立詞語音識別系統(tǒng)指人在發(fā)音時,以單字的發(fā)音方式向語音識別系統(tǒng)輸入語音,詞語詞之間要有足夠的時間間隙,以便系統(tǒng)能夠檢測到始末點。采用這種方式的語音識別系統(tǒng)可以做到很高的識別率。圖2為孤立詞有語音識別系統(tǒng)的原理框圖:預(yù)處理特征提取超音段特征提取參考模式庫模式識別 訓(xùn)練后處理器識別結(jié)果 輸入語音圖2 孤立詞語音識別系統(tǒng)3.2.1語音信號的采集Windows 自帶了一個錄音機程序(簡稱錄音機),通過它可以驅(qū)動聲卡采集、播放和簡單處理語音信號。語音信號的采集可以用麥克風(fēng)直接錄制人的語音,也可以通過音頻線或者MIDI 線將收音機、電視機或磁帶錄機中的語音信號采集到計算機中。在錄音機中可以進行簡單的聲音處理,如加大或降低音量,加速或減速,聲音的反轉(zhuǎn)或添加回音效果等。加速或減速的改變可以完成變音功能,反轉(zhuǎn)可以達到對聲音文件保密的功能。通過windows自帶的錄音器,分別由我和同學(xué)錄入了2組數(shù)據(jù)(1人1組),每組10個音頻文件,分別為從“零”到“九”的漢語發(fā)音。其中一組為參考模板,另外一組為測試模板。3.2.2端點檢測語音信號錄制進來后,不論是識別孤立詞還是識別連續(xù)詞都必須做語音分段,即語音端點檢測,找出語音段的開始和結(jié)尾,這可借助于語音信號的短時能量和過零率。有聲音段的能量值較大,無聲音段的過零率較高,因此可以通過計算短時能量大致判斷語音的端點,然后使用過零率找到語音端點的相對精確位置,分解出每一個語音段。整個語音信號的端點檢測可以分為四段:靜音、過渡段、語音段、結(jié)束。系統(tǒng)中使用一個變量來表示當(dāng)前所處的狀態(tài),在靜音段,如能量或過零率超過了低門限,則開始標(biāo)記起始點,進入過渡段。在過渡段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中兩個參數(shù)的任意一個超過了高門限,就可以確信進入語音段了。端點檢測時,首先根據(jù)短時能量進行初步判斷,此時對終點的檢測已比較準(zhǔn)確,但由于大多數(shù)聲母是清聲母,它的能量相當(dāng)弱,依靠能量無法將其與無聲段區(qū)分開,所以在進行起點檢測時,很難僅僅通過短時能量進行判斷,但對于清輔音而言,它的過零率明顯高于無聲段,所以可以根據(jù)短時過零率進一步準(zhǔn)確檢測。圖3為端點檢測的流程圖:否否是是否發(fā)現(xiàn)終點?是否發(fā)現(xiàn)起點?開始自適應(yīng)能量預(yù)加重、加窗、計算每幀能量能量狀態(tài)跳轉(zhuǎn)是結(jié)束圖3 端點檢測的流程圖圖3 端點檢測程序流程圖3.2.3特征提取由于直接采集得到的語音信號的數(shù)據(jù)量巨大,同時原始語音信號包含了許多隨機因素,所以原始信號不能直接用來進行語音識別。因此需要從語音信號中提取合適的、有代表性的特征參數(shù)。特征提取就是通過對語音信號的分析,去除其中的冗余信息,得到影響語音識別的有用信息,語音信號的時域參數(shù)有短時平均能量、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。這是語音信號的一組最基本的短時參數(shù),在各種語音信號數(shù)字處理技術(shù)中都要應(yīng)用,下面分別討論:短時平均能量清音段的幅度一般比濁音段的幅度小的很多。語音信號的短時能量給出了反映這些幅度變化的一個合適的描述方法。圖4為短時平均能量的方框圖如下表示: 圖4 短時平均能量的方框圖表示短時過零率過零率分析是語音時域分析中最基本的一種。對于連續(xù)信號,過零率意味著時域波形通過時間軸。在離散時間信號情況下,當(dāng)相鄰的兩次抽樣具有不同的代數(shù)符號時就稱為發(fā)生了過零。過零率是指單位時間內(nèi)信號由正變負(fù)、由負(fù)變正的總次數(shù)。圖5為短時平均過零率的方框圖如下表示:低通濾波器一階差分圖5 短時平均過零數(shù)的實現(xiàn)框圖3.2.4模式匹配語音識別過程是根據(jù)模式匹配原則,計算未知語音模式與語音模板庫中的每一個模板的距離測度,從而得到最佳的匹配模式。語音識別所應(yīng)用的模板匹配方法主要基于動態(tài)時間規(guī)整匹配的(DTW)識別算法、基于統(tǒng)計的隱含馬爾可夫模型(HMM)識別算法和基于神經(jīng)網(wǎng)絡(luò)的識別算法。本次畢設(shè)我采用的是動態(tài)時間彎折(DTW)。DTW(dynamic time warping)動態(tài)時間規(guī)整匹配,是基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。動態(tài)時間規(guī)整是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計算它們之間的距離DT,R ,距離越小則相似度越高。為了計算這一失真距離,應(yīng)對T和R中各個對應(yīng)幀之間的距離算起。在DTW算法中通常采用歐式距離,設(shè)n和m分別是T和R中任意選擇的幀號,則有: 因為一般情況下參考模板和待匹配模板的長度不相等,即MN,因此要考慮將T和R對齊。對齊主要采用的是動態(tài)規(guī)劃(DP)的方法。將測試模板的各個幀號n=1N在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各個幀號m=1M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(n,m)表示測試模塊中某一幀與訓(xùn)練模式中某一幀的交匯點。4仿真結(jié)果與分析本次畢設(shè)到現(xiàn)在為止,我已經(jīng)完成了語音采集和端點檢測這兩項任務(wù),端點檢測時采用短時能量和短時過零率這兩個特征參數(shù),根據(jù)端點檢測的程序得到如下圖形:圖6 語音信號波形圖6顯示了語音信號波形,從波形中可以看出,音頻前后都有噪音,這是由于說話的短暫停留引起的。在語音信號的起始位置,從圖中可以看出其幅值為零,在語音信號的結(jié)束位置可以看出信號波形做周期性的變化,可以判定其為濁音。圖7 初始語音的端點檢測結(jié)果分析上圖可知,在語音的起始位置和結(jié)束位置,短時過零率較高,短時能量也較大。這與短時能量大時是濁音、能量小時是清音,短時過零率高時是清音、過零率低時是濁音相矛盾。故可知輸入的原始語音有噪聲干擾。在語音的結(jié)束位置,這兩項參數(shù)都趨向于零。圖8 語音“00”的雙門限端點檢測結(jié)果Vad函數(shù)的功能就是通過端點檢測功能甄別出語音信號的起始點與結(jié)束點,圖中的紅線就是標(biāo)記的語音信號始末點,可以看出,雜音基本被排除,效果是非常明顯的。5總結(jié)作為一項具有實用性的技術(shù),孤立詞語音識別的應(yīng)用越來越廣。為了滿足實際需求人們一直在致力于不斷完善孤立詞語音識別系統(tǒng)。語音具有便捷性、高效性、隨機性、交互性等顯著特點,是實現(xiàn)人機交互的一種重要通信方式,進一步提高社會的信息化和自動化程度。根據(jù)本次畢業(yè)設(shè)計的要求,探討基于MATLAB的多個特定人孤立詞語音識別的方法,期望在進行端點檢測時,能進一步提高識別率。該設(shè)計要求的設(shè)計為主采用DTW算法。大部分內(nèi)容要通過程序的編寫來完成,不過主要的操作是對函數(shù)的調(diào)用,這就要求我熟悉MATLAB的一些函數(shù)的基本功能以及它們的基本語句。通過這次設(shè)計能夠使我掌握大量關(guān)于語音信號分析的知識技能,對這門課程有深入的了解和認(rèn)識,為將來的工作提供了資料,積累寶貴的經(jīng)驗。6參考文獻 1 趙力,語音信號處理M第一版,北京:機械工業(yè)出版社,2003 2 王炳錫,屈丹,彭煊實用語音識別基礎(chǔ)M.北京:國防工業(yè)出版社,2005 3 易克初,田斌,付強等語音信號處理M.北京:國防工業(yè)出版社,2000 4 高成華,聾兒康復(fù)事業(yè)的歷史、現(xiàn)狀和展望J,中國聽力語言康復(fù)科學(xué)雜志,2003 5 楊行竣,遲惠生等,語音信號數(shù)字處理M.第一版,北京:電子工業(yè)出版社,1995 6 彭昭,呂冠中,梁潔,等. 基于P2P 的流媒體點播技術(shù)研究與展望J. 計算機科學(xué),2008. 7 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵機制J . 計算機應(yīng)用研究,2009, (01) :266-26 8 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉 . 北京:電子工業(yè)出版社, 2006, 8 9 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵機制J . 計算機應(yīng)用研究,2009, (01) :266-268.10 周輝,董正宏.數(shù)字信號處理基礎(chǔ)及MATLAB實現(xiàn)M.北京:北京希望電子 出版社,2006.11 鄒理和.語音信號處理M.北京:國防工業(yè)出版社,1985.12 梁曉輝, 周權(quán).語音信號處理方法的可靠性研究J.電聲技術(shù),2010年04期. 13 吳艷花.語言短時幅度和短時過零率分析與應(yīng)用J.電腦知識與技術(shù).2009年33期.14 胡航.語音信號處理M.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2009.7.15 孫燕.語音頻譜分析與應(yīng)用J.計算機與現(xiàn)代化,2010年04期.16 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉. 北京:電子工業(yè)出版社, 2006, 817 黃文梅,熊桂林,楊勇. 信號分析與處理MMATLAB語言及應(yīng)用.長沙:國防科技大學(xué)出版社,2010年2月.18劉江華,程君實,陳佳品支持向量機訓(xùn)練算法綜述J信息與控制,2002,31(1):45-49.19ZENG Qingning.Speech enhancement by array crosstalk resistantANC and spectrumSubtraction. 聲學(xué)學(xué)報:英文版,2008年,27卷1期.20 GUAN Tian,GONG Qin,YE Datian.Effective use of the spectral information in speech processing of cochlear implant. 自然科學(xué)進展,2007年17卷3期.21侯風(fēng)雷,王炳錫基于支持向量機的說話人辨認(rèn)研究J.通信學(xué)報,2002,23(6):61-67.22周志杰.MLP語音信號非線性預(yù)測器J.解放軍理工大學(xué)學(xué)報(自然科學(xué)版),2001,2(5):1-4.23RIZVI A.Residu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論