




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1課題研究的背景及意義國外的語音識別研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室開發(fā)的第一個(gè)能實(shí)現(xiàn)十個(gè)英文數(shù)字的語音識別系統(tǒng)。我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別十個(gè)元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識別。1986年3月我國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),國家863智能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng),每兩年舉行一次專題會(huì)議?,F(xiàn)在我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢。國內(nèi)有不少語音識別系統(tǒng)已研制成功。在孤立字大詞匯量語音識別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實(shí)時(shí)系統(tǒng)。在連續(xù)語音識別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。在非特定人語音識別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實(shí)際使用。隨著信息產(chǎn)業(yè)的迅速發(fā)展,人們傾向于使用高效,快捷,方便的電子產(chǎn)品。語音識別作為人機(jī)交互的一項(xiàng)關(guān)鍵領(lǐng)域,具備了實(shí)時(shí),方便,快速等特點(diǎn),在當(dāng)今科學(xué)技術(shù)的發(fā)展上也有著日益重要的地位。在一些特定的環(huán)境或是對于一些特定的人,語音識別可以帶來很大的方便。例如,駕駛員在高速行駛的汽車內(nèi)電話撥號,飛行員在飛行過程中發(fā)出必要的命令等,都需要語音識別系統(tǒng),另外語音識別也給失明者帶來很大的幫助。課題任務(wù)探討基于MATLAB的多個(gè)特定人孤立詞語音識別的方法,期望在進(jìn)行端點(diǎn)檢測時(shí),能進(jìn)一步提高識別率。該設(shè)計(jì)要求采用TW算法。主要任務(wù):1、 理論分析,提出設(shè)計(jì)方案;2、 語音采集;3、 特征提取,形成訓(xùn)練集;4、 特定人孤立詞語音識別算法的程序?qū)崿F(xiàn)。基本原理3.1語音識別的基本原理語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),因此它的基本結(jié)構(gòu)與常規(guī)模式識別系統(tǒng)一樣,包含有特征提取、模式匹配、參考模式庫等三個(gè)基本單元。圖1為語音識別系統(tǒng)的原理框圖。失真測度識別識別結(jié)果訓(xùn)練模式匹配模型庫逐幀特征提取預(yù)處理語音信號圖1 語音識別系統(tǒng)的原理框圖根據(jù)對說話人發(fā)音方式的不同,語音識別研究的內(nèi)容可以分為孤立詞識別系統(tǒng)、連續(xù)字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)。本次畢設(shè)研究的是孤立詞語音識別。3.2孤立詞語音識別系統(tǒng)的設(shè)計(jì)孤立詞語音識別系統(tǒng)指人在發(fā)音時(shí),以單字的發(fā)音方式向語音識別系統(tǒng)輸入語音,詞語詞之間要有足夠的時(shí)間間隙,以便系統(tǒng)能夠檢測到始末點(diǎn)。采用這種方式的語音識別系統(tǒng)可以做到很高的識別率。圖2為孤立詞有語音識別系統(tǒng)的原理框圖:預(yù)處理特征提取超音段特征提取參考模式庫模式識別 訓(xùn)練后處理器識別結(jié)果 輸入語音圖2 孤立詞語音識別系統(tǒng)3.2.1語音信號的采集Windows 自帶了一個(gè)錄音機(jī)程序(簡稱錄音機(jī)),通過它可以驅(qū)動(dòng)聲卡采集、播放和簡單處理語音信號。語音信號的采集可以用麥克風(fēng)直接錄制人的語音,也可以通過音頻線或者M(jìn)IDI 線將收音機(jī)、電視機(jī)或磁帶錄機(jī)中的語音信號采集到計(jì)算機(jī)中。在錄音機(jī)中可以進(jìn)行簡單的聲音處理,如加大或降低音量,加速或減速,聲音的反轉(zhuǎn)或添加回音效果等。加速或減速的改變可以完成變音功能,反轉(zhuǎn)可以達(dá)到對聲音文件保密的功能。通過windows自帶的錄音器,分別由我和同學(xué)錄入了2組數(shù)據(jù)(1人1組),每組10個(gè)音頻文件,分別為從“零”到“九”的漢語發(fā)音。其中一組為參考模板,另外一組為測試模板。3.2.2端點(diǎn)檢測語音信號錄制進(jìn)來后,不論是識別孤立詞還是識別連續(xù)詞都必須做語音分段,即語音端點(diǎn)檢測,找出語音段的開始和結(jié)尾,這可借助于語音信號的短時(shí)能量和過零率。有聲音段的能量值較大,無聲音段的過零率較高,因此可以通過計(jì)算短時(shí)能量大致判斷語音的端點(diǎn),然后使用過零率找到語音端點(diǎn)的相對精確位置,分解出每一個(gè)語音段。整個(gè)語音信號的端點(diǎn)檢測可以分為四段:靜音、過渡段、語音段、結(jié)束。系統(tǒng)中使用一個(gè)變量來表示當(dāng)前所處的狀態(tài),在靜音段,如能量或過零率超過了低門限,則開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中兩個(gè)參數(shù)的任意一個(gè)超過了高門限,就可以確信進(jìn)入語音段了。端點(diǎn)檢測時(shí),首先根據(jù)短時(shí)能量進(jìn)行初步判斷,此時(shí)對終點(diǎn)的檢測已比較準(zhǔn)確,但由于大多數(shù)聲母是清聲母,它的能量相當(dāng)弱,依靠能量無法將其與無聲段區(qū)分開,所以在進(jìn)行起點(diǎn)檢測時(shí),很難僅僅通過短時(shí)能量進(jìn)行判斷,但對于清輔音而言,它的過零率明顯高于無聲段,所以可以根據(jù)短時(shí)過零率進(jìn)一步準(zhǔn)確檢測。圖3為端點(diǎn)檢測的流程圖:否否是是否發(fā)現(xiàn)終點(diǎn)?是否發(fā)現(xiàn)起點(diǎn)?開始自適應(yīng)能量預(yù)加重、加窗、計(jì)算每幀能量能量狀態(tài)跳轉(zhuǎn)是結(jié)束圖3 端點(diǎn)檢測的流程圖圖3 端點(diǎn)檢測程序流程圖3.2.3特征提取由于直接采集得到的語音信號的數(shù)據(jù)量巨大,同時(shí)原始語音信號包含了許多隨機(jī)因素,所以原始信號不能直接用來進(jìn)行語音識別。因此需要從語音信號中提取合適的、有代表性的特征參數(shù)。特征提取就是通過對語音信號的分析,去除其中的冗余信息,得到影響語音識別的有用信息,語音信號的時(shí)域參數(shù)有短時(shí)平均能量、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。這是語音信號的一組最基本的短時(shí)參數(shù),在各種語音信號數(shù)字處理技術(shù)中都要應(yīng)用,下面分別討論:短時(shí)平均能量清音段的幅度一般比濁音段的幅度小的很多。語音信號的短時(shí)能量給出了反映這些幅度變化的一個(gè)合適的描述方法。圖4為短時(shí)平均能量的方框圖如下表示: 圖4 短時(shí)平均能量的方框圖表示短時(shí)過零率過零率分析是語音時(shí)域分析中最基本的一種。對于連續(xù)信號,過零率意味著時(shí)域波形通過時(shí)間軸。在離散時(shí)間信號情況下,當(dāng)相鄰的兩次抽樣具有不同的代數(shù)符號時(shí)就稱為發(fā)生了過零。過零率是指單位時(shí)間內(nèi)信號由正變負(fù)、由負(fù)變正的總次數(shù)。圖5為短時(shí)平均過零率的方框圖如下表示:低通濾波器一階差分圖5 短時(shí)平均過零數(shù)的實(shí)現(xiàn)框圖3.2.4模式匹配語音識別過程是根據(jù)模式匹配原則,計(jì)算未知語音模式與語音模板庫中的每一個(gè)模板的距離測度,從而得到最佳的匹配模式。語音識別所應(yīng)用的模板匹配方法主要基于動(dòng)態(tài)時(shí)間規(guī)整匹配的(DTW)識別算法、基于統(tǒng)計(jì)的隱含馬爾可夫模型(HMM)識別算法和基于神經(jīng)網(wǎng)絡(luò)的識別算法。本次畢設(shè)我采用的是動(dòng)態(tài)時(shí)間彎折(DTW)。DTW(dynamic time warping)動(dòng)態(tài)時(shí)間規(guī)整匹配,是基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。動(dòng)態(tài)時(shí)間規(guī)整是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離DT,R ,距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)對T和R中各個(gè)對應(yīng)幀之間的距離算起。在DTW算法中通常采用歐式距離,設(shè)n和m分別是T和R中任意選擇的幀號,則有: 因?yàn)橐话闱闆r下參考模板和待匹配模板的長度不相等,即MN,因此要考慮將T和R對齊。對齊主要采用的是動(dòng)態(tài)規(guī)劃(DP)的方法。將測試模板的各個(gè)幀號n=1N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各個(gè)幀號m=1M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測試模塊中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。4仿真結(jié)果與分析本次畢設(shè)到現(xiàn)在為止,我已經(jīng)完成了語音采集和端點(diǎn)檢測這兩項(xiàng)任務(wù),端點(diǎn)檢測時(shí)采用短時(shí)能量和短時(shí)過零率這兩個(gè)特征參數(shù),根據(jù)端點(diǎn)檢測的程序得到如下圖形:圖6 語音信號波形圖6顯示了語音信號波形,從波形中可以看出,音頻前后都有噪音,這是由于說話的短暫停留引起的。在語音信號的起始位置,從圖中可以看出其幅值為零,在語音信號的結(jié)束位置可以看出信號波形做周期性的變化,可以判定其為濁音。圖7 初始語音的端點(diǎn)檢測結(jié)果分析上圖可知,在語音的起始位置和結(jié)束位置,短時(shí)過零率較高,短時(shí)能量也較大。這與短時(shí)能量大時(shí)是濁音、能量小時(shí)是清音,短時(shí)過零率高時(shí)是清音、過零率低時(shí)是濁音相矛盾。故可知輸入的原始語音有噪聲干擾。在語音的結(jié)束位置,這兩項(xiàng)參數(shù)都趨向于零。圖8 語音“00”的雙門限端點(diǎn)檢測結(jié)果Vad函數(shù)的功能就是通過端點(diǎn)檢測功能甄別出語音信號的起始點(diǎn)與結(jié)束點(diǎn),圖中的紅線就是標(biāo)記的語音信號始末點(diǎn),可以看出,雜音基本被排除,效果是非常明顯的。5總結(jié)作為一項(xiàng)具有實(shí)用性的技術(shù),孤立詞語音識別的應(yīng)用越來越廣。為了滿足實(shí)際需求人們一直在致力于不斷完善孤立詞語音識別系統(tǒng)。語音具有便捷性、高效性、隨機(jī)性、交互性等顯著特點(diǎn),是實(shí)現(xiàn)人機(jī)交互的一種重要通信方式,進(jìn)一步提高社會(huì)的信息化和自動(dòng)化程度。根據(jù)本次畢業(yè)設(shè)計(jì)的要求,探討基于MATLAB的多個(gè)特定人孤立詞語音識別的方法,期望在進(jìn)行端點(diǎn)檢測時(shí),能進(jìn)一步提高識別率。該設(shè)計(jì)要求的設(shè)計(jì)為主采用DTW算法。大部分內(nèi)容要通過程序的編寫來完成,不過主要的操作是對函數(shù)的調(diào)用,這就要求我熟悉MATLAB的一些函數(shù)的基本功能以及它們的基本語句。通過這次設(shè)計(jì)能夠使我掌握大量關(guān)于語音信號分析的知識技能,對這門課程有深入的了解和認(rèn)識,為將來的工作提供了資料,積累寶貴的經(jīng)驗(yàn)。6參考文獻(xiàn) 1 趙力,語音信號處理M第一版,北京:機(jī)械工業(yè)出版社,2003 2 王炳錫,屈丹,彭煊實(shí)用語音識別基礎(chǔ)M.北京:國防工業(yè)出版社,2005 3 易克初,田斌,付強(qiáng)等語音信號處理M.北京:國防工業(yè)出版社,2000 4 高成華,聾兒康復(fù)事業(yè)的歷史、現(xiàn)狀和展望J,中國聽力語言康復(fù)科學(xué)雜志,2003 5 楊行竣,遲惠生等,語音信號數(shù)字處理M.第一版,北京:電子工業(yè)出版社,1995 6 彭昭,呂冠中,梁潔,等. 基于P2P 的流媒體點(diǎn)播技術(shù)研究與展望J. 計(jì)算機(jī)科學(xué),2008. 7 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究,2009, (01) :266-26 8 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉 . 北京:電子工業(yè)出版社, 2006, 8 9 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究,2009, (01) :266-268.10 周輝,董正宏.數(shù)字信號處理基礎(chǔ)及MATLAB實(shí)現(xiàn)M.北京:北京希望電子 出版社,2006.11 鄒理和.語音信號處理M.北京:國防工業(yè)出版社,1985.12 梁曉輝, 周權(quán).語音信號處理方法的可靠性研究J.電聲技術(shù),2010年04期. 13 吳艷花.語言短時(shí)幅度和短時(shí)過零率分析與應(yīng)用J.電腦知識與技術(shù).2009年33期.14 胡航.語音信號處理M.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2009.7.15 孫燕.語音頻譜分析與應(yīng)用J.計(jì)算機(jī)與現(xiàn)代化,2010年04期.16 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉. 北京:電子工業(yè)出版社, 2006, 817 黃文梅,熊桂林,楊勇. 信號分析與處理MMATLAB語言及應(yīng)用.長沙:國防科技大學(xué)出版社,2010年2月.18劉江華,程君實(shí),陳佳品支持向量機(jī)訓(xùn)練算法綜述J信息與控制,2002,31(1):45-49.19ZENG Qingning.Speech enhancement by array crosstalk resistantANC and spectrumSubtraction. 聲學(xué)學(xué)報(bào):英文版,2008年,27卷1期.20 GUAN Tian,GONG Qin,YE Datian.Effective use of the spectral information in speech processing of cochlear implant. 自然科學(xué)進(jìn)展,2007年17卷3期.21侯風(fēng)雷,王炳錫基于支持向量機(jī)的說話人辨認(rèn)研究J.通信學(xué)報(bào),2002,23(6):61-67.22周志杰.MLP語音信號非線性預(yù)測器J.解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,2(5):1-4.23RIZVI A.Residu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 停車棚安裝合同樣本
- 與私人合同范例
- 鄉(xiāng)村農(nóng)莊托管合同范例
- j加工承攬合同范例
- 個(gè)人眾籌合同樣本
- 買石料合同范例
- epc合同范例住建部
- 紡織機(jī)械操作證書考試的復(fù)習(xí)重要基石試題及答案
- 主制作服務(wù)合同范例
- 2025年四川省樂山市峨眉山市初中中考二調(diào)英語試題(原卷版+解析版)
- 頸椎病中醫(yī)食療保健
- DZ/T 0432-2023 煤炭與煤層氣礦產(chǎn)綜合勘查規(guī)范(正式版)
- DB43-T 2927-2024 中醫(yī)護(hù)理門診建設(shè)與管理規(guī)范
- 2024年沈陽市高三數(shù)學(xué)第三次模擬聯(lián)考試卷附答案解析
- 三年級語文下冊《火燒云》課件
- MOOC 思辨式英文寫作-南開大學(xué) 中國大學(xué)慕課答案
- 殘疾人輔具申請
- MOOC 旅游學(xué)概論-中國地質(zhì)大學(xué)(武漢) 中國大學(xué)慕課答案
- 2023人教版小學(xué)美術(shù)四年級上冊期末試卷含部分答案(三套)
- 宋教仁出生及偉大事跡及遇刺真相
- 承包經(jīng)營食堂日控管周排查月調(diào)度記錄和管理表
評論
0/150
提交評論