[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究_第1頁
[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究_第2頁
[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究_第3頁
[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究_第4頁
[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

[碩士論文精品]基于對(duì)特定人小詞匯量的車載語音識(shí)別的研究.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

武漢理工大學(xué)碩士學(xué)位論文摘要語音識(shí)別與處理技術(shù)在信息技術(shù)的人機(jī)接口中得到普遍關(guān)注,它在電子產(chǎn)品中的應(yīng)用使得人們的生活變得更加的精彩。通過語音命令,人們就能控制系統(tǒng)設(shè)備讓其響應(yīng)語音指令的相應(yīng)動(dòng)作。這種具備了語音識(shí)別功能的系統(tǒng)在互聯(lián)網(wǎng)、通信、軍事、國(guó)防等方面具有十分重要的價(jià)值。語音識(shí)別技術(shù)應(yīng)用于車載平臺(tái)上,它能使對(duì)小車的駕駛顯得更加的靈活簡(jiǎn)單,也更加的安全與舒適。本文研究基于特定人小詞匯量的DTW模型與算法的語音識(shí)別技術(shù)。介紹了語音識(shí)別的基本方法,并在傳統(tǒng)DTW算法的基礎(chǔ)上對(duì)語音識(shí)別算法進(jìn)行了改進(jìn)與優(yōu)化。本文采用可變窗長(zhǎng)和雙門限相結(jié)合的方法來進(jìn)行語音端點(diǎn)檢測(cè)。在進(jìn)行最優(yōu)路徑選擇中,本文采取了松弛起點(diǎn)與終點(diǎn)的辦法來選取最優(yōu)匹配路徑。通過MATLAB的仿真結(jié)果可以看出改進(jìn)后的DTW算法識(shí)別結(jié)果明顯優(yōu)化傳統(tǒng)DTW算法的識(shí)別結(jié)果。全文首先是對(duì)語音識(shí)別技術(shù)的基本原理作出了介紹與分析。對(duì)于特定人孤立詞小詞匯量語音識(shí)別系統(tǒng),本文選用DTW算法進(jìn)行語音識(shí)別。在確定選用DTW算法后,本文就開始對(duì)DTW算法進(jìn)行改進(jìn)與優(yōu)化。并將改進(jìn)后的DTW算法與傳統(tǒng)的DTW算法進(jìn)行對(duì)比,通過仿真結(jié)果的比較我們可以看出優(yōu)化后的算法優(yōu)于傳統(tǒng)算法。在進(jìn)行端點(diǎn)檢測(cè)的過程中,本文首先將分幀處理后的語音信號(hào)劃分為靜音段、過渡段和語音段。然后對(duì)靜音段、過渡段、語音段分別取不同的窗長(zhǎng)來進(jìn)行處理。在靜音段本文選用較長(zhǎng)的窗長(zhǎng)進(jìn)行處理,對(duì)于語音過渡段我們?nèi)≥^小的窗長(zhǎng)與幀移,在語音段,我們就取常規(guī)窗,這樣既不會(huì)影響語音識(shí)別系統(tǒng)的處理速度,又能夠較準(zhǔn)確的達(dá)到端點(diǎn)檢測(cè)的目的。在進(jìn)行變窗長(zhǎng)處理的同時(shí)本文還結(jié)合雙門限端點(diǎn)檢測(cè)的方法來進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè)。在具體的DTW算法實(shí)現(xiàn)的過程中,本文利用了動(dòng)態(tài)規(guī)整技術(shù)與松弛端點(diǎn)的方法來選取最優(yōu)匹配路徑。在具體的硬件實(shí)現(xiàn)中,本文采用了最小系統(tǒng)與最高性價(jià)比的方案來實(shí)現(xiàn)語音識(shí)別功能。語音識(shí)別模塊完全采用自制的程序,而且在對(duì)小車的控制方面,本文采用了劃分頻段發(fā)送波形的方法來控制小車響應(yīng)不同的動(dòng)作。針對(duì)此語音識(shí)別系統(tǒng),本文提出了需要改進(jìn)的地方。最后本文對(duì)全文工作做了總結(jié),并對(duì)語音識(shí)別的未來提出了展望。關(guān)鍵字語音識(shí)別;DTW模型;車載語音;端點(diǎn)檢測(cè)武漢理工大學(xué)碩士學(xué)位論文ABSTRACTSPEECHRECOGNITIONANDPROCESSINGINHUMANMACHINEINTERFACESTECHNOLOGYISWIDESPREADCONCERNEDITSAPPLICATIONMAKESPEOPLESLIVESMORECONVENIENTPEOPLECANOPERATETHEDEVICEONLYBYTHECOMMANDOFTHEVOICETHEDEVICEWHICHISAVOICERECOGNITIONSYSTEMONTHEINTEMET,COMMUNICATIONS,MILITARY,NATIONALDEFENSEANDETCISOFVERYIMPORTANTVALUESIMILARLY,THESPEECHRECOGNITIONTECHNOLOGYINTHEPLATFORMOFVEHICLE,ITMUSTMAKETHEDRIVINGISMOREFLEXIBLE,MORESECURITYANDCOMFORTABLETHISPAPERISAPAPERBASEDONTHEDTWMODELOFSPEECHRECOGNITIONTECHNOLOGYANDITINTRODUCESTHEBASICMETHODSOFSPEECHRECOGNITIONTHATTHESPEECHRECOGNITIONISIMPROVEDANDOPTIMIZEDISTOBEAPPLIEDTOVEHICLESIMULATIONSYSTEMSTHISPAPERISFOCUSINGONTHEOPTIMIZATIONBASEDENDPOINTDETECTION,COMBININGWITHVARIABLEWINDOWLENGTH,TWOVOICEACTIVITYDETECTIONTHRESHOLDANDTHENMAKINGOPTIMALPATHSELECTION,TAKINGARELAXINGWAYTOTHEBEGINANDTHEEND,SOSPEECHRECOGNITIONWILLBEMOREACCURATETHESIMULATIONANDEXPERIMENTCANBESEENTHATTHESEMETHODSCOULDIMPROVETHEACCURACYOFSPEECHRECOGNITIONANDTENTATIVEONTHEFUZZYALGORITHMISAPPLIEDTOSPEECHRECOGNITIONMODELSPECIFICALLY,FLRST,THEPROCESSINGOFDTWMODELBASEDONSPEECHRECOGNITIONINCLUDINGHOWTOREMOVETHENOISE,THESPEECHFEATUREPARAMETERSEXTRACTIONANDTHEINTERTRANSFORMOFTHESIGNALBETWEENFREQUENCYDOMAINANDTIMEDOMAINANDTHEBASICTHEORYOFSPEECHRECOGNITION,THISPAPERMAKESTHEINTRODUCTIONANDANALYSISTOTHATWHILEDETERMININGTHEISOLATEDWORDSPEECHRECOGNITIONAPPLICATIONSANDTHEDTWMODEL,ITHASBEENIMPROVEDANDOPTIMIZEDTHERECOGNITIONALGORITHMANDITREALIZESTHESYSTEMTHESIMULATIONWILLBEIMPROVEDCOMPAREDTHEOPTIMALALGORITHMSPEECHRECOGNITIONWITHTHEPREVIOUSTRADITIONALMETHODTHISPAPERANALYZEDHOWTHE“VOICERECOGNITIONALGORITHMIMPROVEDWHENATTHEFRAMEPROCESSING,QUIETSEGMENTS,VOICESEGMENTSANDTRANSIENTSEGMENTSGETTHEDIFFERENTWINDOWSTOPROCESSINTHEQUIETSECTIONOFTHESIGNALSOFVOICE,WECANUSELONGERWINDOWLENGTHCAMETOPICKUPTHEFRAMEINTHETRANSITIONSECTIONOFTHEVOICE,WEC盈TNUSESHORTERWINDOWLENGTHTOPICKUPTHEN武漢理工大學(xué)碩士學(xué)位論文FRAMEINTHEVOICESECTION,WECARLUSEREGULARWINDOWLENGTHTOPICKUPTHEFRAMEATTHESAMETIMEWEALSOCOULDUSEADOUBLETHRESHOLDMETHODFORENDPOINTDETECTION,WHICHCOMBINESSHORTTIMEAVERAGEENERGYANDTHESHORTTERMZEROCROSSINGRATE,WETAKETHELOWTHRESHOLDANDHI。GHTHRESHOLDTOLIMITTHEVALUEOFTHESTARTINGPOINTANDENDPOINTINTHESPECIFICPROCESSOFDTWALGORITHM,USINGDYNAMICWARPINGANDRELAXATIONMETHODSINTHEENDPOINT,SELECTINGTHEOPTIMALPATH,SOITCANGETAMOREACCURATEVOICEMATCHINSPECIFICAPPLICATIONS,WECOMBINETHESYSTEMWITHTHEHIGHESTMINIMUMCOSTOFTHEPROGRAMTOACHIEVEITINTHEENTIREAPPLICATIONOFTHEALGORITHM,THISPAPERCOMPLETESTHEIMPLEMENTATIONSPEECHRECOGNITIONPROCESSISCOMPLETELYSELFMADEPROGRAM,INTHECONTROLOFTHECARTHEMETHODOFSENDINGWAVEBANDDIVISIONUSEDTODEALWITHTHEDIFFERENTC缸ACTIONSTHISPAPERPROPOSESTHEPOINTWHICHISNEEDEDTOIMPROVEINSPEECHRECOGNITIONANDPRESENTSTHEFUTUREPROSPECTOFSPEECHRECOGNITIONKEYWORDSSPEECHRECOGNITION;DTWMODEL;AUDIOOFCAR;ENDPOINTDETECTIONIIL獨(dú)創(chuàng)性聲明本人聲明,所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得武漢理工大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名塑查日期獨(dú)之學(xué)位論文使用授權(quán)書本人完全了解武漢理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)武漢理工大學(xué)可以將本學(xué)位論文的全部?jī)?nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或其他復(fù)制手段保存或匯編本學(xué)位論文。同時(shí)授權(quán)經(jīng)武漢理工大學(xué)認(rèn)可的國(guó)家有關(guān)機(jī)構(gòu)或論文數(shù)據(jù)庫使用或收錄本學(xué)位論文,并向社會(huì)公眾提供信息服務(wù)O保密的論文在解密后應(yīng)遵守此規(guī)定研究生C糊艫棒翩C簽蝴日期渺、LI7武漢理工大學(xué)碩士學(xué)位論文第1章緒論11語音識(shí)別的研究概況語音識(shí)別技術(shù)的研究開始于上個(gè)世紀(jì)的50年代,ATBELL實(shí)驗(yàn)室研制成功的第一個(gè)可以用來識(shí)別僅10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)AUDRY系統(tǒng)以來,語音識(shí)別技術(shù)才真正走上軌道。AUDRY系統(tǒng)主要通過測(cè)量數(shù)字元音區(qū)域的共振波譜來進(jìn)行識(shí)別語音。它是一個(gè)針對(duì)特定人的離散數(shù)字識(shí)別系統(tǒng)。20世紀(jì)60年代計(jì)算機(jī)開始在實(shí)際研究中得到應(yīng)用,這也促使了語音識(shí)別技術(shù)得以快速地發(fā)展。這一時(shí)期出現(xiàn)了線性預(yù)測(cè)分析LPLINEARPREDICTION和動(dòng)態(tài)規(guī)劃DPDYNAMICPROGRAMMING等在語音識(shí)別方面的幾種比較重要的思想。在這兩種思想之中線性預(yù)測(cè)分析技術(shù)能較好地解決語音信號(hào)產(chǎn)生模型的問題,而動(dòng)態(tài)規(guī)劃則有效解決了不等長(zhǎng)語音信號(hào)的匹配問題。這些重要的思想給以后語音識(shí)別技術(shù)的發(fā)展奠定了基礎(chǔ)【。同時(shí)BELL實(shí)驗(yàn)室又提出了基于模式匹配和概率統(tǒng)計(jì)的方法來進(jìn)行語音識(shí)別的思想,這種新的思想給語音識(shí)別開辟了新的道路,給語音識(shí)別技術(shù)的發(fā)展帶來了更加深遠(yuǎn)的影響。20世紀(jì)70年代,伴隨著在微電子技術(shù)方面的發(fā)展與研究,語音識(shí)別又有了新的進(jìn)展。特別是在具體的應(yīng)用上,語音識(shí)別技術(shù)開始成功地應(yīng)用到電子產(chǎn)品中。這標(biāo)志著語音識(shí)別技術(shù)已經(jīng)能夠走出實(shí)驗(yàn)室應(yīng)用到實(shí)際的生活中。由于微電子技術(shù)與語音識(shí)別技術(shù)的完美結(jié)合以及市場(chǎng)對(duì)語音電子產(chǎn)品的需求,使得語音識(shí)別方面的成果接連不斷。具體表現(xiàn)為在理論上,線性預(yù)測(cè)分析技術(shù)得到了進(jìn)一步的發(fā)展,而且動(dòng)態(tài)時(shí)間彎曲DTWDYNAMICTIMEWARPING技術(shù)基本也已成熟,特別是提出了矢量量化QVECTORQUANTIZATION和隱馬爾科夫模型HMMHIDDENMARKOVMODEL的理論,這些新的理論方法解決了當(dāng)時(shí)語音識(shí)別技術(shù)所面臨的困難與問題。同時(shí)在實(shí)際應(yīng)用中也實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜等算法的識(shí)別系統(tǒng)。理論與實(shí)踐的結(jié)合使語音識(shí)別技術(shù)取得更快的發(fā)展。80年代,隨著語音識(shí)別研究的進(jìn)一步深入,HMM模型在語音識(shí)別中得到了成功的應(yīng)用。而且在這一階段人工神經(jīng)網(wǎng)絡(luò)ANN的提出又將語音識(shí)別技術(shù)推進(jìn)到一個(gè)全新的發(fā)展階段之中。在ATBALL實(shí)驗(yàn)室研究人員的共同努力下,他們終于把原來HMM的純數(shù)學(xué)模型進(jìn)行了工程化的推廣I到。從DTW到HMM模型的改武漢理工大學(xué)碩士學(xué)位論文變這標(biāo)志著語音識(shí)別算法從模板匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù),而且將小詞匯量轉(zhuǎn)入到大詞匯量的解決方案中來。語音識(shí)別技術(shù)朝向更復(fù)雜更高端的方向發(fā)展。進(jìn)入90年代,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展與應(yīng)用以及電信領(lǐng)域的快速發(fā)展,這些都加速了多媒體時(shí)代的來臨。許多發(fā)達(dá)國(guó)家和一些全球知名的大企業(yè)都置身于對(duì)語音識(shí)別系統(tǒng)的研究中。在這一階段,市場(chǎng)上出現(xiàn)了可以語音撥號(hào)的手機(jī)、與人對(duì)話的智能玩具等等一序列的電子產(chǎn)品。而且在商業(yè)服務(wù)中,出現(xiàn)了以語音識(shí)別、語音合成為核心技術(shù)的呼叫中,T1,CANCENTER、語音門戶網(wǎng)站等等。我國(guó)語音識(shí)別研究工作始于二十世紀(jì)八十年代初,一直緊跟國(guó)際水平。在語音識(shí)別技術(shù)方面的研究,國(guó)家做了大量的投入。越來越多的學(xué)者都投身到語音識(shí)別技術(shù)的研究工作中來。而且在國(guó)內(nèi),基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)的研究工作早已開始?;谡Z音識(shí)別技術(shù)的電子產(chǎn)品也早已在國(guó)內(nèi)市場(chǎng)出現(xiàn)。綜上所述,語音識(shí)別技術(shù)的研究不僅受到各個(gè)國(guó)家的重視,更是近幾十年來人們一直關(guān)注的熱點(diǎn)話題。而現(xiàn)在人們更多關(guān)注的是語音識(shí)別技術(shù)在車載這個(gè)平臺(tái)上的應(yīng)用。12語音識(shí)別系統(tǒng)的構(gòu)成經(jīng)過飛速的發(fā)展,語音識(shí)別技術(shù)已經(jīng)發(fā)展到一個(gè)實(shí)用性的階段,已經(jīng)從實(shí)驗(yàn)室走向市場(chǎng)。語音特征矢量提取單元前端處理、訓(xùn)練單元、識(shí)別單元和后處理單元共同組成了語音識(shí)別的主要系統(tǒng),其系統(tǒng)構(gòu)成如圖11所示。測(cè)試模塊測(cè)量估計(jì)識(shí)別抉擇語音輸趙預(yù)特訓(xùn)勇,JIJL處征一理提參考模板取。1,模板塊專家知識(shí)圖11語音識(shí)別系統(tǒng)構(gòu)成圖語音控制汽車是車載語音的一種發(fā)展趨勢(shì)。目前,將語音識(shí)別技術(shù)應(yīng)用于汽車的產(chǎn)品大多只有在一些玩具中才能見到,而沒有應(yīng)用到實(shí)際的車載平臺(tái)中其主要是因?yàn)榭紤]到安全性以及各種車載環(huán)境因素的原因。由此可想車載語音控制這一領(lǐng)域蘊(yùn)涵著相當(dāng)大的潛在市場(chǎng)與挑戰(zhàn)。語音識(shí)別理論已經(jīng)可以應(yīng)用到實(shí)際2武漢理工大學(xué)碩士學(xué)位論文階段了,但目前語音識(shí)別技術(shù)應(yīng)用到車載系統(tǒng)中還不夠完善,存在著一些問趔31。但最終語音識(shí)別將會(huì)成功應(yīng)用于各個(gè)領(lǐng)域中。語音識(shí)別技術(shù)采用語音命令作為人機(jī)接口,通過說話來控制各項(xiàng)功能。目前比較多的是特定人語音識(shí)別,其工作原理是先需要事先進(jìn)行錄音,然后將錄制語音作為參考模板,將待識(shí)別語音信號(hào)與參考模板語音進(jìn)行匹配計(jì)算,從而找出最佳匹配結(jié)果來進(jìn)行語音的識(shí)別?,F(xiàn)在,非特定人語音識(shí)別技術(shù)的應(yīng)用也正開始逐步擴(kuò)大。那么具體語音識(shí)別系統(tǒng)是如何通過其構(gòu)成部分來進(jìn)行語音識(shí)別功能的昵首先語音信號(hào)經(jīng)麥克風(fēng)轉(zhuǎn)換成電信號(hào),然后加在輸入端,它首先經(jīng)過預(yù)處理,也就包括語音信號(hào)的預(yù)加重、加窗和端點(diǎn)檢測(cè)等。經(jīng)過預(yù)處理之后,提起語音信號(hào)的特征參數(shù),然后訓(xùn)練形成語音模板,然后對(duì)待識(shí)別語音同樣經(jīng)過預(yù)處理、特征參數(shù)提取之后與語音參考模板庫進(jìn)行匹配,得到識(shí)別結(jié)果。而語音識(shí)別技術(shù)應(yīng)用于車載系統(tǒng)中能發(fā)揮其獨(dú)特的優(yōu)勢(shì)以及在車載這個(gè)平臺(tái)上能得到完美的表現(xiàn)。13語音識(shí)別技術(shù)在汽車上的應(yīng)用隨著汽車產(chǎn)業(yè)的發(fā)展和汽車的普及,人們對(duì)汽車的安全性、便利性和舒適性都提出了更高的要求。汽車上所添加的功能也是越來越多,而且越來越智能化、越來越便于使用,這些都?xì)w功于汽車電子在車載這個(gè)大的平臺(tái)上發(fā)揮著其獨(dú)特的作用。電子產(chǎn)品在汽車上的應(yīng)用可謂是無處不及,而這些都推動(dòng)著汽車電子的發(fā)展,也為車載系統(tǒng)提出了更高的要求14】。車載語音便是車載系統(tǒng)的重要組成部分。利用語音命令作為人機(jī)接口,通過說話即可控制車載系統(tǒng)的各項(xiàng)功能。語音識(shí)別在車載系統(tǒng)上的實(shí)現(xiàn)使得駕駛員無需雙手和雙眼的嚴(yán)密配合而只需要進(jìn)行語音命令就能控制小車,這樣既提高了駕駛安全性又增添了駕駛的樂趣。而全部操作只需要通過簡(jiǎn)單的幾句話就可以完成,使得車載終端系統(tǒng)的通用性更強(qiáng),也更加人性化。采用語音命令來控制汽車的相應(yīng)部件來作出反應(yīng),這樣既簡(jiǎn)便而且又能提高系統(tǒng)響應(yīng)速率,增加駕駛的安全度。就目前語音識(shí)別技術(shù)在車載系統(tǒng)中的應(yīng)用而言,語音指令不是很多,所需要訓(xùn)練的語音信號(hào)也就無需太多。因?yàn)橹恍枰刂菩≤嚨南鄳?yīng)的基本動(dòng)作,而且為了提高系統(tǒng)響應(yīng)速率以及車載語音系統(tǒng)對(duì)說話人語音信號(hào)響應(yīng)的準(zhǔn)確度,也應(yīng)盡量使用小詞匯量語音識(shí)別15J。目前在車載語音方面應(yīng)用得比較多的為特定人語音識(shí)別技術(shù),這種識(shí)別技術(shù)需要事先進(jìn)行訓(xùn)練錄音,然后獲取語音模板,這樣才能響應(yīng)特定人的語音指令。而它相對(duì)于非特定人語音識(shí)別技術(shù)在車載語音系統(tǒng)中的應(yīng)用有一3武漢理工大學(xué)碩士學(xué)位論文定的地位和優(yōu)勢(shì),成熟度也相對(duì)高些。雖然現(xiàn)在非特定人語音識(shí)別技術(shù)的應(yīng)用正在逐漸擴(kuò)大,準(zhǔn)確性也有所提高,相信其在車載系統(tǒng)上的應(yīng)用也會(huì)越來越多,但其理論比較復(fù)雜,實(shí)現(xiàn)起來比較繁瑣。目前,非特定人語音識(shí)別技術(shù)應(yīng)用于車載系統(tǒng)當(dāng)中會(huì)有一定的不穩(wěn)定性,不能起到較好的效果?,F(xiàn)階段也出現(xiàn)了很多車載語音產(chǎn)品如免提車載GPS系統(tǒng),司機(jī)可以在駕駛室內(nèi)通過語音來控制這個(gè)免提車載GPS系統(tǒng),通過它來對(duì)小車定位與導(dǎo)航,從而解決不熟悉路線的問題和提升汽車駕駛的安全性【6】。本文基于特定人的車載語音識(shí)別系統(tǒng)是針對(duì)小車主人先通過語音訓(xùn)練獲取小車主人的語音特征參數(shù),然后進(jìn)行特定人識(shí)別,進(jìn)行模板匹配從而來識(shí)別語音指令。本文選用特定人語音識(shí)別既能實(shí)現(xiàn)車主方便舒適的語音控制,又能給車主提供可靠的安全保障。14本文研究的內(nèi)容與思路課題研究的主要內(nèi)容是在分析研究各種語音識(shí)別算法的基礎(chǔ)上,根據(jù)系統(tǒng)設(shè)計(jì)的要求及系統(tǒng)所要實(shí)現(xiàn)的功能,選擇確定了特定人小詞匯量的DTW語音識(shí)別系統(tǒng),利用改進(jìn)與優(yōu)化后的DTW算法來實(shí)現(xiàn)語音的識(shí)別。整個(gè)系統(tǒng)就是通過語音指令來控ND,車的相應(yīng)動(dòng)作。本論文的結(jié)構(gòu)安排如下第一章即為緒論,簡(jiǎn)要的介紹語音識(shí)別技術(shù)的研究歷程以及語音識(shí)別系統(tǒng)的構(gòu)成。語音識(shí)別技術(shù)在車載語音系統(tǒng)中的應(yīng)用以及發(fā)展。第二章論述語音識(shí)別的基本原理,介紹語音識(shí)別的處理過程及原理。第三章探討語音識(shí)別算法的改進(jìn)與實(shí)現(xiàn)。重點(diǎn)介紹語音識(shí)別中對(duì)DTW算法的改進(jìn)與優(yōu)化,并將改進(jìn)的DTW算法進(jìn)行了實(shí)現(xiàn)。第四章主要是對(duì)特定人小詞匯量語音識(shí)別系統(tǒng)的硬件系統(tǒng)與軟件的設(shè)計(jì)與實(shí)現(xiàn)。第五章是對(duì)本論文的一個(gè)總結(jié),概括了在論文撰寫的學(xué)習(xí)過程中所做的工作、收獲和體會(huì)以及對(duì)以后所要開展工作的一個(gè)展望。4武漢理工大學(xué)碩士學(xué)位論文第2章語音識(shí)別技術(shù)的分析21語音信號(hào)的預(yù)處理對(duì)語音信號(hào)的預(yù)處理主要包括對(duì)其聲音的預(yù)加重,分幀處理和窗化處理?;谜Z音信號(hào)的預(yù)加重采用預(yù)加重方法處理語音信號(hào)能補(bǔ)償語音信號(hào)的固有衰落,而且能有效地消除唇輻射的影響用。預(yù)加重時(shí)所需的傳遞函數(shù)為P1094ZQ21若假設(shè)SN為語音輸入信號(hào),經(jīng)過預(yù)加重后得到的信號(hào)為SOSO094S0122參伽就是經(jīng)過預(yù)加重后得到的信號(hào)。砩分幀處理要將時(shí)域信號(hào)變?yōu)轭l率信號(hào),而且將模擬信號(hào)進(jìn)行數(shù)字化處理。那么首先就要將語音信號(hào)作分幀處理。由于在一般情況下,語音信號(hào)在1020MS內(nèi)是相對(duì)穩(wěn)定的【羽。那么得到的分幀處理公式如下式23所示。而O一GML以,刀一0J,一1,一0工,三一123曲窗化處理因?yàn)橐@取語音特征,濾出噪聲信號(hào),需要進(jìn)行窗化處理。在所有的窗化處理的方法中,漢明窗的旁瓣最低,而且它具有更平滑的低通特性。為了在語音處理的過程中能有效地克服泄漏現(xiàn)象,我們采用漢明窗來進(jìn)行窗化處理【9】O其公式即如下27所示。蜀萬一X,OWO,0S玎SN124式中州一U054046COS舟,眶胚N_12522語音信號(hào)的端點(diǎn)檢測(cè)對(duì)于硬件系統(tǒng)的語音采集口來說它需要實(shí)時(shí)的檢測(cè)有沒有語音指令的輸5武漢理工大學(xué)碩士學(xué)位論文入,而語音指令又不是連續(xù)發(fā)出的,所以通過語音采集口采集到的聲音數(shù)據(jù)并不全是語音指令信號(hào),其中必定有噪音以及其它我們并不需要的信號(hào)以及數(shù)據(jù)。因此就需要系統(tǒng)一直判斷是否有聲音指令進(jìn)入,何時(shí)是聲音信號(hào)。而這種處理過程就是對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)技術(shù)用來確定聲音指令音頭、音尾的位置。確定語音信號(hào)的起止點(diǎn)能更好的對(duì)語音信號(hào)進(jìn)行識(shí)別,從而提高系統(tǒng)識(shí)別率和獲取到更好的語音特征參數(shù)。端點(diǎn)檢測(cè)常用的方法有短時(shí)過零率、短時(shí)平均能量、短時(shí)平均幅度、短時(shí)自相關(guān)函數(shù)、短時(shí)頻域處理等幾種【10L。但在本文中選擇短時(shí)過零率和短時(shí)平均能量相結(jié)合的方法來進(jìn)行端點(diǎn)檢測(cè)。1短時(shí)平均能量短時(shí)平均能量是具有時(shí)域特征的參數(shù)。假設(shè)SN為加窗后的語音信號(hào),那么第T幀語音的短時(shí)平均能量可表示為如下式26所示??萬1N驢1刀I26其中N為窗的寬度,SB為第T幀語音信號(hào)中第N個(gè)采樣點(diǎn)的信號(hào)樣值。本文采用將獲取到的語音短時(shí)平均能量取其對(duì)數(shù)值的方法,結(jié)合短時(shí)過零率來進(jìn)行端點(diǎn)檢測(cè),能更加準(zhǔn)確的獲取到語音信號(hào)的端點(diǎn)值。2短時(shí)過零率短時(shí)過零率ZCRZEROCROSSINGRATE用式子表示為如下27所示。Z行墨SGNXM一SGNXM一11。形NM27其中RSGNXN】一1XNNOISEMAXNOISEMAX為噪聲上限SGNXN】一1XNNOISEMINNOISEMIN噪聲下限28LSGNXN】一0OTHERWISE巴亨0SNSN一1為一幀聲音的長(zhǎng)度OTHERWISE629210武漢理工大學(xué)碩士學(xué)位論文4短時(shí)自相關(guān)函數(shù)自相關(guān)函數(shù)是描述一個(gè)隨機(jī)信號(hào)的重要特性。自相關(guān)函數(shù)在不同的領(lǐng)域,定義不完全相同。在短時(shí)處理技術(shù)中,短時(shí)自相關(guān)函數(shù)可描述為1KRKMK脅七,O咖212短時(shí)頻域的變化放映了語音信號(hào)的頻譜隨時(shí)間變化的性質(zhì)。23語音信號(hào)的特征參數(shù)提取進(jìn)行語音識(shí)別就是要從語音信號(hào)中提取對(duì)我們有用的信息,濾出無用的信息,從而獲取特征參數(shù)來進(jìn)行語音信號(hào)的匹配識(shí)別。去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,提取出對(duì)語音識(shí)別有用的重要信息這便是語音信號(hào)的特征參數(shù)提取的關(guān)鍵。特征提取是語音識(shí)別前端處理的主要任務(wù),如果特征提取得好,以后的模型的設(shè)計(jì)與語音訓(xùn)練就會(huì)變得容易。因此語音識(shí)別所需要的特征是既具備能穩(wěn)定表示語音的特性又有很強(qiáng)的區(qū)別性的特征。特征提取就是要獲取到好的特征參數(shù),那么如何獲取到好的語音特征參數(shù)呢它需要滿足以下三方面的要求才能稱為一個(gè)好的特征提取1能有效的提取語音的信號(hào)特征,包括人的聲道特征與聽覺模型;2參數(shù)之間具有良好的獨(dú)立性;3特征參數(shù)有比較高效的計(jì)算方法。就目前最常用的兩種特征參數(shù)是線性預(yù)測(cè)倒譜系數(shù)LPCC和MEL倒譜系數(shù)MFCC,它們?cè)谝欢ǔ潭壬戏从沉巳硕鷮?duì)聲音的處理特性?;肔PCC特征參數(shù)的提取線性預(yù)測(cè)分析LPCC是較為常用的語音特征分析方法之一。它可以有效地解決短時(shí)平穩(wěn)信號(hào)的模型化問題。LPCC的基本原理為語音的每個(gè)樣值都可以由它過去若干個(gè)樣值的線性組合來近似,同樣也可采用實(shí)際語音抽樣信號(hào)與對(duì)它的線性預(yù)測(cè)值之間的均方差最小的方式來進(jìn)行逼近,最后解出一組預(yù)測(cè)系數(shù)7武漢理工大學(xué)碩士學(xué)位論文【121??捎萌缦聢D21的模型來表示。21信號(hào)模型圖UN表示模型的輸入,SN表示模型的輸出。模型的系統(tǒng)函數(shù)HZ表示為HZ一丟L一2131一弩AJZ一釘式子中A,是系數(shù),P是預(yù)測(cè)模型的階數(shù)。用信號(hào)的前P個(gè)樣本來預(yù)測(cè)當(dāng)前樣本,定義的方法如下S刀一ATN七214蜀語音信號(hào)S刀可由過去的P個(gè)樣值SNK來預(yù)測(cè)。式214其中的A為加權(quán)系數(shù),即LPC系數(shù),P為L(zhǎng)PCC預(yù)測(cè)階數(shù),預(yù)測(cè)誤差為EN一S廳一S以一S刀一AT5N七215EI由此可求其極值,便得到“CC系數(shù),LPCC系數(shù)它記錄了語音信號(hào)譜的極值點(diǎn)的軌跡,以此LPCC系數(shù)來表示語音信號(hào)的特征?!盡EL倒譜系數(shù)MFCCMEL倒譜系數(shù)MELFREQUENCYCEPSTRUMCOEFFICIENT是基于人的聽覺模型的基礎(chǔ)上提出來的。它能形象的描述人類聽覺系統(tǒng)對(duì)聲音頻率的感覺,近似計(jì)算可以表示為如下式216所示。MEL廠_2595LG1700216人耳對(duì)不同頻率的聲波有不同的聽覺靈敏度,但從人的聽覺靈敏度來看,人會(huì)覺得低音掩蓋高音比較容易,然而高音掩蓋低音就比較困難。在低頻處的聲音掩蔽的臨界帶寬比高頻處的聲音掩蔽的臨界帶寬要小。當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人就只能聽到其中頻率較低的一個(gè)音調(diào),對(duì)于這種由于人的主觀感覺突變而產(chǎn)生無法區(qū)分帶寬邊界的情況,MEL亥LJ度是對(duì)這一臨界帶寬的度量方法之一。于是在語音識(shí)別過程中可以采取從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到稀安排一組帶通濾波器的方法來進(jìn)行語音信號(hào)的處理【13】。對(duì)輸入信號(hào)進(jìn)行濾波,將每個(gè)帶通濾波器輸出的信號(hào)能量作為信號(hào)的基本特征。所選用的帶通濾波器進(jìn)行濾波的情況如下圖22所示。8武漢理工大學(xué)碩士學(xué)位論文圖22MEL尺度濾波器組MFCC特征參數(shù)提取的過程為首先將語音信號(hào)進(jìn)行兀丌變換到頻域,通過MEL尺度的濾波器陣列后,將經(jīng)過濾波器陣列輸出后的語音信號(hào)進(jìn)行離散余弦變換。具體的參數(shù)計(jì)算步驟如下首先將信號(hào)進(jìn)行預(yù)加重處理然后假定取T時(shí)刻的一幀語音采樣信號(hào),幀長(zhǎng)為N,即用式子表示為XT,TL,2,3N,然后確定每一幀的采樣點(diǎn)數(shù)和幀移。然后進(jìn)行相應(yīng)的變換與計(jì)算【14L。1加HAMMING窗后作N點(diǎn)快速傅里葉變換H呵,取到信號(hào)幅度譜IXKI。2運(yùn)用217此公式將實(shí)際頻率尺度轉(zhuǎn)換為MEL頻率尺度其中無為實(shí)際頻率。3然后可以設(shè)置在整個(gè)MEL軸上配置價(jià)三角形濾波器,每個(gè)三角形濾波器的中心頻率CL在MEL軸頻率軸上等間隔分配。假設(shè)BL、CL、AL分別是第L個(gè)三角型濾波器的下限,中心和上限頻率,相鄰濾波器之間的下限中心和上限頻率有如下圖23的關(guān)系。CLAL廣1BL1217I,1L“1CL1BLAL1CBL1ALC1圖23頻率相連三角形濾波器的關(guān)系9武漢理工大學(xué)碩士學(xué)位論文4由所得到的語音信號(hào)幅度卜七I可求出每一個(gè)三角形濾波器的輸出。肌。篡啡L砷I卜,218彬K一KB1C二;箋7,BZS七CZ,CZS七S彳219AICI5對(duì)所有三角形濾波器的輸出作對(duì)數(shù)運(yùn)算,然后再進(jìn)行離散余弦變換,便可以得到MFCC參數(shù)。一歷蹇剛叫”糾孫蚺,Q220其中,Q為MFCC參數(shù)的階數(shù),“I為所求的MFCC的參數(shù)。24語音識(shí)別的模型與算法隨著語音識(shí)別技術(shù)的飛速發(fā)展和它越來越受人們的關(guān)注與重視,各種各樣的識(shí)別方法也陸續(xù)的出現(xiàn)了。但主要的識(shí)別技術(shù)仍然是基于模板匹配法、HMM模型法、DTW動(dòng)態(tài)時(shí)間規(guī)劃模型法、ANN神經(jīng)網(wǎng)絡(luò)模型法。對(duì)于語音識(shí)別技術(shù)來說,這些方法都存在著一些共同點(diǎn),基本上都有一個(gè)相同的基本原理。如下圖24所示。語音信號(hào)經(jīng)過采樣預(yù)處理后,進(jìn)行特征參數(shù)提取,得到一組反映該段語音特征的參數(shù)模型,然后這些特征參數(shù)送入模型庫模塊進(jìn)行比較,聲音模式匹配模塊根據(jù)模型庫對(duì)該段語音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果。對(duì)于大詞匯量,非特定人等情況的語音識(shí)別還需要通過語言模型對(duì)結(jié)果進(jìn)行進(jìn)一步的分析處理,最終得到正確的識(shí)別結(jié)果。圖24語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)10武漢理工大學(xué)碩士學(xué)位論文241DTW動(dòng)態(tài)時(shí)間規(guī)整DTW動(dòng)態(tài)時(shí)間規(guī)整算法其實(shí)是把一個(gè)語音段內(nèi)的時(shí)變特征變?yōu)橐恢碌倪^程,是一種非線性規(guī)整技術(shù)。DTW的基本思想是通過將待識(shí)別語音信號(hào)或者參考模板在時(shí)間軸上進(jìn)行不均勻地拉伸或者彎曲,使其特征與模板特征對(duì)齊,并在兩者之間不斷的進(jìn)行兩個(gè)矢量距離最小的匹配路徑計(jì)算,來獲得兩個(gè)矢量匹配時(shí)累積距離最小的規(guī)整函數(shù)。這種方法是一個(gè)將時(shí)間規(guī)整和距離測(cè)度有機(jī)結(jié)合在一起的非線性規(guī)整技術(shù),它能保證待識(shí)別語音特征與模板特征之間最大的聲學(xué)相似特性和最小的時(shí)差失真。采用這種方法能成功的解決待識(shí)別語音和模板長(zhǎng)度不相等的問題。具體用公式來表示則為首先得利用時(shí)間規(guī)整函數(shù)J一WI,此函數(shù)的意義即為使測(cè)試語音矢量的時(shí)間軸I映射到模板語音矢量的時(shí)間軸I上。使其特征與模板特征對(duì)齊,并在兩者之間不斷的進(jìn)行兩個(gè)矢量距離最小的匹配路徑計(jì)算,來獲得兩個(gè)矢量匹配時(shí)累積距離最小的規(guī)整【151。那么具體用表達(dá)式來表示則可表示為D噸了DPF,尺WF1,其中RF表示測(cè)試語音矢量,尺WF表示測(cè)試時(shí)間軸酊第I幀信號(hào)經(jīng)過時(shí)間規(guī)整函數(shù)后對(duì)應(yīng)于模板語音的矢量,式中D阿F,RWF1是第I幀測(cè)試矢量TI和第J幀模板矢量尺之間的距離測(cè)度。D則是在最優(yōu)情況下的兩個(gè)矢量之間的匹配路徑。DTW的搜索路徑圖如下25所示。JM語ER日模贛J數(shù)1IN待識(shí)別語音信號(hào)的幀數(shù)圖25DTW的搜索路徑DTW一般采用逆向思路,從過程的最后端開始一直到起點(diǎn)來尋找最優(yōu)路徑,武漢理工大學(xué)碩士學(xué)位論文因?yàn)檫@樣才能更好的確定條更佳的路徑。DTW算法它一般適用于小詞匯量的特定人的孤立詞識(shí)別系統(tǒng),采用多模板的訓(xùn)練方法。由于語音的耦合性比較大、訓(xùn)練時(shí)又容易產(chǎn)生誤差,所以這種方法的魯棒性不是很好,為了克服這個(gè)問題可采用串行訓(xùn)練法,即重復(fù)將訓(xùn)練詞多說幾遍,也就是進(jìn)行多重復(fù)訓(xùn)練,直到找到一致性比較好的特征矢量序列為止,這樣就可以得到較好的沿DTW搜索路徑的特征矢量序列,然后求這些特征序列的平均來得到模板??傊?,DTW也有其優(yōu)點(diǎn),其優(yōu)點(diǎn)是只包含了對(duì)要識(shí)別詞的特征提取,因此訓(xùn)練起來比較簡(jiǎn)單,而且已經(jīng)存在有效的硬件方法來實(shí)現(xiàn)它,不足之處是對(duì)于連續(xù)語音它卻顯得有些無能為力。242HMM隱馬爾可夫模型HMM是一個(gè)雙重隨機(jī)過程。它的一個(gè)隨機(jī)模型用來表示狀態(tài)的轉(zhuǎn)移另一個(gè)隨機(jī)模型用來表示狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。它用概率論的方式來描述時(shí)變信號(hào)的變化過程。在該模型中,一個(gè)狀態(tài)轉(zhuǎn)移到另外一個(gè)狀態(tài)取決于該狀態(tài)的統(tǒng)計(jì)特性,而某一個(gè)狀態(tài)的觀察值也取決于該狀態(tài)生成語音觀察值的概率。因?yàn)樵谟^察者的角度只可以看到觀察值,而看不到狀態(tài),所以叫做隱馬爾可夫模型,簡(jiǎn)寫為HMM。隱馬爾可夫HMM模型是利用概率及統(tǒng)計(jì)學(xué)理論來解決如何辨識(shí)具有不同參數(shù)特性的短時(shí)平穩(wěn)信號(hào)段以及如何跟蹤這些具有不同參數(shù)特性的短時(shí)平穩(wěn)信號(hào)段它們之間的轉(zhuǎn)化問題的模型【161。它通過統(tǒng)計(jì)與概率論的方法來實(shí)現(xiàn)語音識(shí)別。就HMM模型來說,一個(gè)HMM模型可以由下列參數(shù)來決定。T觀察符號(hào)序列的長(zhǎng)度。其集合也可以表示為O一D1D,一DR。M一觀察符號(hào)數(shù),即每個(gè)狀態(tài)可能輸出的觀察符號(hào)的數(shù)目。那么觀察符號(hào)的集合可表示為V一VL,12,叫。N模型中的狀態(tài)數(shù)目。雖然隱馬爾可夫模型的狀態(tài)是不能直接獲得的,但這些狀態(tài)它們彼此之間是相互聯(lián)系著的,因?yàn)槿魏我粋€(gè)狀態(tài)都可以由其它的狀態(tài)來表示或者是轉(zhuǎn)移而來。狀態(tài)的集合可表示為S而,J一”S,T時(shí)刻的狀態(tài)表示為。萬初始狀態(tài)分布。即初始時(shí)刻系統(tǒng)處于某個(gè)狀態(tài)的概率??杀硎緸槭?;乃,吒LITP【吼一墨J,1SFSNA吠態(tài)轉(zhuǎn)移概率分布。其中元素口。是指T時(shí)刻狀態(tài)為墨,而在TL時(shí)刻轉(zhuǎn)移到狀12武漢理工大學(xué)碩士學(xué)位論文SS的概率。它是,由鑒態(tài)轉(zhuǎn)移概率構(gòu)成的一個(gè)矩陣,用公式??梢员聿粸獒芤豢谌譐,口驢PQI1SJIGI一墨】,1SISNB狀態(tài)S,的觀測(cè)符號(hào)概率分布。即它是狀態(tài)SJ的觀測(cè)符號(hào)概率構(gòu)成的一個(gè)矩陣,元素K是指狀態(tài)SJ輸出觀測(cè)符號(hào)心的概率,T時(shí)刻處于狀態(tài)SJ。其公式為B。PJ七J,七。P攻I毋一S門,1SJ墨N,1S七SM243ANN人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是近些年來比較新和熱門的研究方向。它的原理是由多個(gè)非常簡(jiǎn)單的處理單元彼此按某種方式相互連接而形成的計(jì)算機(jī)系統(tǒng),該系統(tǒng)能根據(jù)外部輸入信息的動(dòng)態(tài)狀態(tài)來做出相應(yīng)的響應(yīng),它具有實(shí)時(shí)性和靈活性。人腦若要對(duì)某個(gè)模式得到正確的模式匹配,就需要進(jìn)行大量的訓(xùn)練和糾正。訓(xùn)練越多,糾正越多,匹配就會(huì)越準(zhǔn)確,人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法也是如此,它模擬人的大腦,需要通過大量的學(xué)習(xí)與訓(xùn)練才能投入正確使用,在使用中又不斷地進(jìn)行自我學(xué)習(xí)從而來更正或者調(diào)整信號(hào)值。而基于ANN的語音識(shí)別系統(tǒng)是由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等要素來構(gòu)成的。它融合了并行處理機(jī)制、非線性信息處理機(jī)制和信息分布存貯機(jī)制等多方面的現(xiàn)代信息技術(shù)【171?;谌斯ど窠?jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)在訓(xùn)練過程中能不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求。而且在模式識(shí)別中也有速度快、識(shí)別率高等顯著特點(diǎn)而且反應(yīng)靈敏且能自動(dòng)適應(yīng)環(huán)境。人工神經(jīng)網(wǎng)絡(luò)技術(shù)一直是國(guó)內(nèi)外語音識(shí)別系統(tǒng)研究的方向和熱點(diǎn)。由于人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元個(gè)數(shù)眾多以及整個(gè)網(wǎng)絡(luò)存儲(chǔ)信息容量的巨大,使得它具有很強(qiáng)的不確定性的信息處理能力。即使是在輸入信息不完全、不準(zhǔn)確或模糊不清的情況下,神經(jīng)網(wǎng)絡(luò)也能夠通過獲取到的這些不完整信息聯(lián)想到存在于思維記憶中的一些相關(guān)的信息【1引。只要輸入到神經(jīng)網(wǎng)絡(luò)中的信號(hào)模式接近于訓(xùn)練樣本的信號(hào)模式,神經(jīng)網(wǎng)絡(luò)系統(tǒng)就能給出正確的推理結(jié)論。人工神經(jīng)網(wǎng)絡(luò)能進(jìn)行自我完善從而改進(jìn)訓(xùn)練參數(shù),提高精確度。人工神經(jīng)網(wǎng)絡(luò)是一種非線性的處理單元,因?yàn)閷?duì)于所有的輸入信號(hào),神經(jīng)元對(duì)這些輸入信號(hào)進(jìn)行綜合處理。它突破了傳統(tǒng)的以線性處理為基礎(chǔ)的數(shù)字電子計(jì)算機(jī)的局限,這標(biāo)志著智能信息處理能力和模擬人腦智能行為能力的一大技術(shù)飛躍。武漢理工大學(xué)碩士學(xué)位論文25現(xiàn)階段語音識(shí)別所面臨的問題就目前而言,語音識(shí)別技術(shù)仍然存在著許多有待進(jìn)一步改進(jìn)以及優(yōu)化的地方。由于語音識(shí)別一般情況下是對(duì)自然語言的識(shí)別,那么就必須面臨著連續(xù)語音的識(shí)別,然而連續(xù)語音中的因素、音節(jié)或單詞之間的調(diào)音結(jié)合引起的音變,使基本模型的邊界變的不明確,而且需要建立一個(gè)語法與語義的規(guī)則來理解它們,這就需要一個(gè)優(yōu)化的系統(tǒng)來解決這些問題。不僅如此,語音識(shí)別技術(shù)同樣面臨著外界環(huán)境以及噪聲等因素的影響,而不能精確的或者很理想的處理語音識(shí)別的問題。因?yàn)檎Z音信息的信息量大而且變化量也很大,語音模型對(duì)于不同的說話者不可能完全一樣,因此不同的講話者所需選擇的語音模型還是有差異的,即使是同一講話者,其語音模式仍然會(huì)隨時(shí)間的改變有所改變。其次語音信號(hào)有很大的模糊性,不同的語音聽起來雖很相似,但實(shí)際則不同,難以區(qū)分。而且在強(qiáng)噪聲的環(huán)境下,語音識(shí)別顯得尤為困難。這些因素的影響促使語音識(shí)別技術(shù)有待進(jìn)一步的改進(jìn)與完善。而且端點(diǎn)檢測(cè)的方法仍需進(jìn)行優(yōu)化。語音識(shí)別系統(tǒng)即使在安靜的環(huán)境下,系統(tǒng)的識(shí)別錯(cuò)誤仍然有一半以上來自端點(diǎn)檢測(cè)。不僅如此,應(yīng)用于各種環(huán)境下,不同的環(huán)境情況差別也大,語音識(shí)別技術(shù)也難以完成準(zhǔn)確的識(shí)別。例如應(yīng)用在車載方面,噪音與車載環(huán)境對(duì)語音識(shí)別來說仍然是很大的難題。語音識(shí)別技術(shù)需要融合多學(xué)科知識(shí),如何將多學(xué)科知識(shí)更好的應(yīng)用到語音識(shí)別系統(tǒng)之中仍然是需要解決的問題【19】。隨著科技的進(jìn)步發(fā)展,語音識(shí)別技術(shù)的研究也需要得到更進(jìn)一步的深入。26車載語音識(shí)別系統(tǒng)的算法選用由于車載系統(tǒng)工作環(huán)境的影響,車載語音系統(tǒng)就必須具有高抗噪聲的功能以及性能穩(wěn)定等特點(diǎn)。而且現(xiàn)在的汽車電子系統(tǒng)越來越龐大,每個(gè)系統(tǒng)構(gòu)成部分都會(huì)影響到彼此的穩(wěn)定性。這就要求車載語音部分也必須簡(jiǎn)單而且穩(wěn)定可靠。這就需要一個(gè)比較簡(jiǎn)單可靠的語音模型和算法來達(dá)到車載語音識(shí)別系統(tǒng)的要求。在所有的語音模型和算法中,DTW模型以及算法是最古典以及最完善的一套方法與理論,在實(shí)際應(yīng)用中也最簡(jiǎn)單和易實(shí)現(xiàn)。人們往往需要采用這種最簡(jiǎn)單可靠的方法來實(shí)現(xiàn)這樣或者那樣的一些功能?;贒TW模型與算法的語音識(shí)別系統(tǒng)訓(xùn)練起來比較簡(jiǎn)單,而且已經(jīng)存在有效的硬件方法來實(shí)現(xiàn)?;贒TW模型與算法的語音識(shí)別系統(tǒng)應(yīng)用于車載語音中能讓駕駛更加的簡(jiǎn)單方便,而且語14武漢理工大學(xué)碩士學(xué)位論文音識(shí)別率也比較高,性能穩(wěn)定,能滿足車載語音識(shí)別系統(tǒng)的要求。首先就應(yīng)用和理論的復(fù)雜度來說,DTW要比HMM和ANN簡(jiǎn)單明了,其原理易于被人們掌握和理解。其次就是DTW算法已經(jīng)能通過硬件來實(shí)現(xiàn)【硼。最后,從車載整體性能方面來考慮,如果在汽車電子系統(tǒng)中加入更多更加復(fù)雜的系統(tǒng)或部件,難免會(huì)影響到整體性能,整個(gè)控制系統(tǒng)控制起來就會(huì)比較麻煩,這樣各個(gè)系統(tǒng)部件之間就會(huì)相互的影響,產(chǎn)生安全以及可靠性方面的問題。于是一個(gè)簡(jiǎn)單而且獨(dú)立性比較好的系統(tǒng)設(shè)計(jì)就顯得尤為重要,因?yàn)檫@樣的系統(tǒng)能讓各個(gè)部分獨(dú)立的工作,而不是互相產(chǎn)生干擾。這種系統(tǒng)不僅能提高整體性能,而且還能提高安全性??傊?,結(jié)合語音識(shí)別技術(shù)在實(shí)際中的應(yīng)用和考慮到性價(jià)比以及汽車安全方面的因素,就目前來講DTW仍然是應(yīng)用于特定人小詞匯量語音識(shí)別系統(tǒng)上比較好的模型與算法。27本章小結(jié)本章對(duì)語音識(shí)別的方法及基本原理進(jìn)行了介紹和總結(jié)。首先介紹了語音信號(hào)的初步處理,對(duì)語音的預(yù)處理、端點(diǎn)檢測(cè)、特征參數(shù)提取作了詳細(xì)的介紹與分析。然后對(duì)語音識(shí)別的模型與算法進(jìn)行了詳細(xì)的介紹,DTW、HMM、ANN本文都一一作了介紹。針對(duì)語音識(shí)別所面臨的問題作了分析。最后對(duì)于特定人小詞匯量語音識(shí)別系統(tǒng)的模型與算法的選用,本文就所提到的一些模型與算法作了比較,結(jié)合實(shí)際與理論闡明了DTW作為此系統(tǒng)的語音模型與算法的優(yōu)點(diǎn)。武漢理工大學(xué)碩士學(xué)位論文第3章語音識(shí)別算法的設(shè)計(jì)與改進(jìn)31傳統(tǒng)DTW算法的設(shè)計(jì)DTW基于動(dòng)態(tài)規(guī)整的思想,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法,它解決了發(fā)音長(zhǎng)短不一的匹配問題。那么傳統(tǒng)的DTW算法是如何來實(shí)現(xiàn)語音識(shí)別的呢按照第2章所介紹的內(nèi)容,首先對(duì)語音信號(hào)進(jìn)行預(yù)處理,然后進(jìn)行端點(diǎn)檢測(cè)。在進(jìn)行完端點(diǎn)檢測(cè)之后,就需要獲取語音信號(hào)的特征參數(shù),對(duì)于MEL倒譜系數(shù),采用如下的方式來提取。首先根據(jù)式MEL1一2595LG1,700,將實(shí)際頻率尺度轉(zhuǎn)換為MEL頻率尺度。然后在MEL頻率軸上配置I介三角形濾波器組,而L的個(gè)數(shù)由信號(hào)的截止頻率決定。其次再根據(jù)語音信號(hào)幅度譜求每一個(gè)三角形濾波器的輸出。最后對(duì)所有濾波器輸出作對(duì)數(shù)運(yùn)算,再進(jìn)行離散余弦變換就可以得到MFCC系數(shù)了。對(duì)于程序而言首先要設(shè)置好三角形濾波器系數(shù),即歸一化濾波器系數(shù)【2N。獲取到特征參數(shù)以后,便可以確定模板,然后就可以對(duì)待識(shí)別語音進(jìn)行特征參數(shù)提取了。本文所選取的倒譜矢量維數(shù)為12,即選用的階數(shù)為12。在參數(shù)提取分析過程中,若選擇的階數(shù)很大,可將極零點(diǎn)模型用全極點(diǎn)模型來代替,雖然可攜帶大量的語音信息,但同時(shí)也增加了運(yùn)算量,但階數(shù)增加到一定程度的話又會(huì)使語音的內(nèi)在特征出現(xiàn)很大的隨機(jī)性,導(dǎo)致識(shí)別率降低,經(jīng)過實(shí)驗(yàn)統(tǒng)計(jì)一般情況下階數(shù)選擇8至1J14之間的數(shù)。通過實(shí)驗(yàn)顯示,本系統(tǒng)選用階數(shù)P為12時(shí)所求出的倒譜特征參數(shù)與模板倒譜特征參數(shù)具有良好的相似度。MEL濾波器數(shù)為24個(gè),DFT長(zhǎng)度也為160,幀長(zhǎng)仍然為160,幀移為40。在獲取到的MEL系數(shù)后除首尾兩幀,因?yàn)檫@兩幀的一階差分參數(shù)為O。然后將所獲取到的MEL倒譜系數(shù)用MATLAB仿真出來的結(jié)果如下圖32所示,這個(gè)語音信號(hào)是選取的數(shù)字9的發(fā)音信掣22J。由于矢量維數(shù)為12,得到的矩陣行數(shù)其實(shí)為88幀,列數(shù)為24表示階數(shù),從圖中可以看出也就是橫坐標(biāo)X表示列數(shù),縱坐標(biāo)Y表示行數(shù),Z軸表示MFCC值。而選擇的是三維坐標(biāo)圖,所以獲取到的結(jié)果如圖31所示。16武攫理工太學(xué)碩士學(xué)位論文墜墊J坩K叭I出_M葉墅世D富口舀嚕QQO??谀縄目XCOLUMNYROWZ抽3020言10芷口王1口20口。_MFCCROW00MFCCCMMN圖31MATLAB繪制的MFCC參數(shù)圖在獲得了特征參數(shù)后,就可以建立模扳將模板的MFCC參數(shù)存入一指定數(shù)組中。在建立所有的參考模板之后,我們對(duì)語音模板要做的處理就已經(jīng)完成,那么接著便要對(duì)待識(shí)別的語音進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征參數(shù)提取,和前面對(duì)參考模板語音所做的處理一樣。在獲取到的待識(shí)別語音的MFCC參數(shù)后同樣要取一指定的數(shù)組來存儲(chǔ)這些特征參數(shù)信息,然后用程序設(shè)置一個(gè)循環(huán),外循環(huán)的次數(shù)為所存入的模板數(shù),例如,如果已取了10個(gè)模板,那么所需要設(shè)置的外循環(huán)則為10,然后進(jìn)行內(nèi)循環(huán),內(nèi)循環(huán)用來進(jìn)行對(duì)待識(shí)別語音每幀分別與模板相應(yīng)的每幀進(jìn)行匹配計(jì)算。那么接著的問題就是如何進(jìn)行模式匹配。特征序列可分為兩類,對(duì)于訓(xùn)練階段輸入的語音進(jìn)行分析,得到各組特征序列被稱為參考模板,記為RJ一,。,一,RJ,L2,,V31式中,為模板對(duì)應(yīng)的命令編號(hào),J為該命令中的所需要分析的總的幀數(shù),V為系統(tǒng)模板庫中的總模板數(shù),可以等于或大于待識(shí)別的命令條數(shù)。對(duì)識(shí)別階段輸入武漢理工大學(xué)碩士學(xué)位論文的語音進(jìn)行分析,得到的特征序列被稱為待測(cè)試模板,記為R一毛,F(xiàn),一,乙,TJ為輸入待識(shí)別語音的幀數(shù)【231。這樣模板匹配過程就是將參考模板R和待測(cè)試模板T之間進(jìn)行比較,計(jì)算它們之間的相似程度。一般是通過失真度來衡量相似度的,失真越小則相似度越高,那么如何計(jì)算失真度呢可以將模板R與測(cè)試模板T中對(duì)應(yīng)的幀算起,設(shè)N與J分別為T和R中任意選取的一幀的幀號(hào),用DR玎,尺_(dá)|1來表示這兩幀之間的特征矢量的失真,這樣就可以求出每幀的失真,然后再進(jìn)行求和從而計(jì)算總失真度。用式子表示則為如下式32所示RDP,R羅DZ廳,R_132,“71。假設(shè)測(cè)試語音模板共有幀矢量,而參考模板共有,幀矢量,且桫。那么動(dòng)態(tài)時(shí)間歸整就是尋找一個(gè)時(shí)間歸整函數(shù)MWN,它將測(cè)試矢量的時(shí)間軸非線性的映射到模板的時(shí)間軸上,并使函數(shù)滿足D一罌彈DFR廳,RW萬133“L勻L、,7J、7式中,D丁刀,尺W力1是測(cè)試模板T的第N幀與參考模板的第J幀的距離測(cè)度。式中的D它表示處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的距離。假設(shè)T的第N幀與R的第J幀對(duì)準(zhǔn),當(dāng)N等于J且T和R完全相同時(shí),WN就可以用一條斜率為1的線段來表示。那么當(dāng)T和R不完全相同時(shí),T的第N幀與R的第J幀對(duì)準(zhǔn),則得到的這些點(diǎn)組成的線便不是一條直線而是一條曲線了,那么這條曲線對(duì)應(yīng)的函數(shù)就是規(guī)整函數(shù)WN,如圖28所示。動(dòng)態(tài)時(shí)間規(guī)整其實(shí)是將一個(gè)N階段的決策過程劃分為N個(gè)單一階段的決策過程。那么所選取的規(guī)整函數(shù)WN需要滿足以下條件1WN為單調(diào)函數(shù)。2規(guī)整函數(shù)必須從1,1點(diǎn)開始至NJ點(diǎn)結(jié)束。3規(guī)整函數(shù)不能跳過任何點(diǎn)。4最大規(guī)整量不能超過限定值,用式子表示即為L(zhǎng)NJLQ,Q稱為“窗寬“一般取2。傳統(tǒng)的DTW算法是把時(shí)間規(guī)整和距離測(cè)度結(jié)合起來的一種非線性規(guī)整技術(shù)。但是傳統(tǒng)動(dòng)態(tài)規(guī)整算法DP算法1的計(jì)算量比較大,由運(yùn)算量大而影響了系統(tǒng)識(shí)別速率。那么如何減小計(jì)算量而且更好的進(jìn)行匹配以及獲取到更準(zhǔn)確的語音識(shí)別結(jié)果就必須進(jìn)行算法的改進(jìn)與優(yōu)化。32DTW算法的改進(jìn)與優(yōu)化應(yīng)用傳統(tǒng)DTW算法來進(jìn)行識(shí)別,識(shí)別效果不是很好。那么本文對(duì)傳統(tǒng)DTW18武漢理工大學(xué)碩士學(xué)位論文算法進(jìn)行了改進(jìn)優(yōu)化。語音信號(hào)進(jìn)行預(yù)處理之后便需要進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè),端點(diǎn)檢測(cè)是語音識(shí)別技術(shù)中的關(guān)鍵所在。語音信號(hào)的整個(gè)端點(diǎn)檢測(cè)的工作流程如下圖32所示。好的端點(diǎn)檢測(cè)方法會(huì)給以后建模以及識(shí)別過程帶來很多便利,同時(shí)能實(shí)現(xiàn)更快更精確的識(shí)別【241。圖32端點(diǎn)檢測(cè)321可變窗長(zhǎng)的語音端點(diǎn)檢測(cè)用窗函數(shù)對(duì)語音序列進(jìn)行處理后所獲取的一幀語音序列的長(zhǎng)度稱為窗長(zhǎng)也被稱為幀長(zhǎng)。它是指在窗化處理后進(jìn)行的分幀處理。由于語音信號(hào)具有時(shí)域特性,它是按照時(shí)間先后順序進(jìn)行讀取與存入的,那么取幀也就可以按時(shí)間順序來取,在存儲(chǔ)空間中也就可以按存入存儲(chǔ)空間中的先后順序來取。據(jù)大量實(shí)驗(yàn)統(tǒng)計(jì),一般的語音信號(hào)的窗長(zhǎng)取LOMS至20MS之間,前一幀與后一幀的交疊部分為幀移,幀移一般是取小于LOMS的。因?yàn)檎Z音信號(hào)一般在LO20MS內(nèi)是相對(duì)穩(wěn)定的并且由信號(hào)的采樣定理可知按上述方法來對(duì)語音信號(hào)進(jìn)行取幀是合理的。而且如果對(duì)語音信號(hào)取比較小的窗長(zhǎng),那么就能夠比較準(zhǔn)確的檢測(cè)到語音信號(hào)的端點(diǎn),但是這樣一來卻增加了計(jì)算量,使得語音識(shí)別耗時(shí)較長(zhǎng),同時(shí)也會(huì)影響系統(tǒng)的速率。反之,如果所取的窗長(zhǎng)很大,那么的確能減少計(jì)算量同時(shí)能提高語音識(shí)別的速度,但是端點(diǎn)檢測(cè)的結(jié)果卻是很不精確,對(duì)識(shí)別結(jié)果也會(huì)造成比較大的影響。為此,可靈活的針對(duì)不同的情況進(jìn)行不同的處理,這樣就可以在語音靜音段時(shí)采用較長(zhǎng)的窗進(jìn)行處理,在語音段采用常規(guī)窗進(jìn)行處理,在語音的過渡段采用較小的窗進(jìn)行處理,這樣處理既可以較為精確的判斷語音的起止點(diǎn)也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論