[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第1頁
[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第2頁
[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第3頁
[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第4頁
[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

武漢理工大學碩士學位論文摘要語音識別與處理技術在信息技術的人機接口中得到普遍關注,它在電子產(chǎn)品中的應用使得人們的生活變得更加的精彩。通過語音命令,人們就能控制系統(tǒng)設備讓其響應語音指令的相應動作。這種具備了語音識別功能的系統(tǒng)在互聯(lián)網(wǎng)、通信、軍事、國防等方面具有十分重要的價值。語音識別技術應用于車載平臺上,它能使對小車的駕駛顯得更加的靈活簡單,也更加的安全與舒適。本文研究基于特定人小詞匯量的DTW模型與算法的語音識別技術。介紹了語音識別的基本方法,并在傳統(tǒng)DTW算法的基礎上對語音識別算法進行了改進與優(yōu)化。本文采用可變窗長和雙門限相結合的方法來進行語音端點檢測。在進行最優(yōu)路徑選擇中,本文采取了松弛起點與終點的辦法來選取最優(yōu)匹配路徑。通過MATLAB的仿真結果可以看出改進后的DTW算法識別結果明顯優(yōu)化傳統(tǒng)DTW算法的識別結果。全文首先是對語音識別技術的基本原理作出了介紹與分析。對于特定人孤立詞小詞匯量語音識別系統(tǒng),本文選用DTW算法進行語音識別。在確定選用DTW算法后,本文就開始對DTW算法進行改進與優(yōu)化。并將改進后的DTW算法與傳統(tǒng)的DTW算法進行對比,通過仿真結果的比較我們可以看出優(yōu)化后的算法優(yōu)于傳統(tǒng)算法。在進行端點檢測的過程中,本文首先將分幀處理后的語音信號劃分為靜音段、過渡段和語音段。然后對靜音段、過渡段、語音段分別取不同的窗長來進行處理。在靜音段本文選用較長的窗長進行處理,對于語音過渡段我們?nèi)≥^小的窗長與幀移,在語音段,我們就取常規(guī)窗,這樣既不會影響語音識別系統(tǒng)的處理速度,又能夠較準確的達到端點檢測的目的。在進行變窗長處理的同時本文還結合雙門限端點檢測的方法來進行語音信號的端點檢測。在具體的DTW算法實現(xiàn)的過程中,本文利用了動態(tài)規(guī)整技術與松弛端點的方法來選取最優(yōu)匹配路徑。在具體的硬件實現(xiàn)中,本文采用了最小系統(tǒng)與最高性價比的方案來實現(xiàn)語音識別功能。語音識別模塊完全采用自制的程序,而且在對小車的控制方面,本文采用了劃分頻段發(fā)送波形的方法來控制小車響應不同的動作。針對此語音識別系統(tǒng),本文提出了需要改進的地方。最后本文對全文工作做了總結,并對語音識別的未來提出了展望。關鍵字語音識別;DTW模型;車載語音;端點檢測武漢理工大學碩士學位論文ABSTRACTSPEECHRECOGNITIONANDPROCESSINGINHUMANMACHINEINTERFACESTECHNOLOGYISWIDESPREADCONCERNEDITSAPPLICATIONMAKESPEOPLESLIVESMORECONVENIENTPEOPLECANOPERATETHEDEVICEONLYBYTHECOMMANDOFTHEVOICETHEDEVICEWHICHISAVOICERECOGNITIONSYSTEMONTHEINTEMET,COMMUNICATIONS,MILITARY,NATIONALDEFENSEANDETCISOFVERYIMPORTANTVALUESIMILARLY,THESPEECHRECOGNITIONTECHNOLOGYINTHEPLATFORMOFVEHICLE,ITMUSTMAKETHEDRIVINGISMOREFLEXIBLE,MORESECURITYANDCOMFORTABLETHISPAPERISAPAPERBASEDONTHEDTWMODELOFSPEECHRECOGNITIONTECHNOLOGYANDITINTRODUCESTHEBASICMETHODSOFSPEECHRECOGNITIONTHATTHESPEECHRECOGNITIONISIMPROVEDANDOPTIMIZEDISTOBEAPPLIEDTOVEHICLESIMULATIONSYSTEMSTHISPAPERISFOCUSINGONTHEOPTIMIZATIONBASEDENDPOINTDETECTION,COMBININGWITHVARIABLEWINDOWLENGTH,TWOVOICEACTIVITYDETECTIONTHRESHOLDANDTHENMAKINGOPTIMALPATHSELECTION,TAKINGARELAXINGWAYTOTHEBEGINANDTHEEND,SOSPEECHRECOGNITIONWILLBEMOREACCURATETHESIMULATIONANDEXPERIMENTCANBESEENTHATTHESEMETHODSCOULDIMPROVETHEACCURACYOFSPEECHRECOGNITIONANDTENTATIVEONTHEFUZZYALGORITHMISAPPLIEDTOSPEECHRECOGNITIONMODELSPECIFICALLY,FLRST,THEPROCESSINGOFDTWMODELBASEDONSPEECHRECOGNITIONINCLUDINGHOWTOREMOVETHENOISE,THESPEECHFEATUREPARAMETERSEXTRACTIONANDTHEINTERTRANSFORMOFTHESIGNALBETWEENFREQUENCYDOMAINANDTIMEDOMAINANDTHEBASICTHEORYOFSPEECHRECOGNITION,THISPAPERMAKESTHEINTRODUCTIONANDANALYSISTOTHATWHILEDETERMININGTHEISOLATEDWORDSPEECHRECOGNITIONAPPLICATIONSANDTHEDTWMODEL,ITHASBEENIMPROVEDANDOPTIMIZEDTHERECOGNITIONALGORITHMANDITREALIZESTHESYSTEMTHESIMULATIONWILLBEIMPROVEDCOMPAREDTHEOPTIMALALGORITHMSPEECHRECOGNITIONWITHTHEPREVIOUSTRADITIONALMETHODTHISPAPERANALYZEDHOWTHE“VOICERECOGNITIONALGORITHMIMPROVEDWHENATTHEFRAMEPROCESSING,QUIETSEGMENTS,VOICESEGMENTSANDTRANSIENTSEGMENTSGETTHEDIFFERENTWINDOWSTOPROCESSINTHEQUIETSECTIONOFTHESIGNALSOFVOICE,WECANUSELONGERWINDOWLENGTHCAMETOPICKUPTHEFRAMEINTHETRANSITIONSECTIONOFTHEVOICE,WEC盈TNUSESHORTERWINDOWLENGTHTOPICKUPTHEN武漢理工大學碩士學位論文FRAMEINTHEVOICESECTION,WECARLUSEREGULARWINDOWLENGTHTOPICKUPTHEFRAMEATTHESAMETIMEWEALSOCOULDUSEADOUBLETHRESHOLDMETHODFORENDPOINTDETECTION,WHICHCOMBINESSHORTTIMEAVERAGEENERGYANDTHESHORTTERMZEROCROSSINGRATE,WETAKETHELOWTHRESHOLDANDHI。GHTHRESHOLDTOLIMITTHEVALUEOFTHESTARTINGPOINTANDENDPOINTINTHESPECIFICPROCESSOFDTWALGORITHM,USINGDYNAMICWARPINGANDRELAXATIONMETHODSINTHEENDPOINT,SELECTINGTHEOPTIMALPATH,SOITCANGETAMOREACCURATEVOICEMATCHINSPECIFICAPPLICATIONS,WECOMBINETHESYSTEMWITHTHEHIGHESTMINIMUMCOSTOFTHEPROGRAMTOACHIEVEITINTHEENTIREAPPLICATIONOFTHEALGORITHM,THISPAPERCOMPLETESTHEIMPLEMENTATIONSPEECHRECOGNITIONPROCESSISCOMPLETELYSELFMADEPROGRAM,INTHECONTROLOFTHECARTHEMETHODOFSENDINGWAVEBANDDIVISIONUSEDTODEALWITHTHEDIFFERENTC缸ACTIONSTHISPAPERPROPOSESTHEPOINTWHICHISNEEDEDTOIMPROVEINSPEECHRECOGNITIONANDPRESENTSTHEFUTUREPROSPECTOFSPEECHRECOGNITIONKEYWORDSSPEECHRECOGNITION;DTWMODEL;AUDIOOFCAR;ENDPOINTDETECTIONIIL獨創(chuàng)性聲明本人聲明,所呈交的論文是本人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得武漢理工大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。簽名塑查日期獨之學位論文使用授權書本人完全了解武漢理工大學有關保留、使用學位論文的規(guī)定,即學校有權保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權武漢理工大學可以將本學位論文的全部內(nèi)容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或其他復制手段保存或匯編本學位論文。同時授權經(jīng)武漢理工大學認可的國家有關機構或論文數(shù)據(jù)庫使用或收錄本學位論文,并向社會公眾提供信息服務O保密的論文在解密后應遵守此規(guī)定研究生C糊艫棒翩C簽蝴日期渺、LI7武漢理工大學碩士學位論文第1章緒論11語音識別的研究概況語音識別技術的研究開始于上個世紀的50年代,ATBELL實驗室研制成功的第一個可以用來識別僅10個英文數(shù)字的語音識別系統(tǒng)AUDRY系統(tǒng)以來,語音識別技術才真正走上軌道。AUDRY系統(tǒng)主要通過測量數(shù)字元音區(qū)域的共振波譜來進行識別語音。它是一個針對特定人的離散數(shù)字識別系統(tǒng)。20世紀60年代計算機開始在實際研究中得到應用,這也促使了語音識別技術得以快速地發(fā)展。這一時期出現(xiàn)了線性預測分析LPLINEARPREDICTION和動態(tài)規(guī)劃DPDYNAMICPROGRAMMING等在語音識別方面的幾種比較重要的思想。在這兩種思想之中線性預測分析技術能較好地解決語音信號產(chǎn)生模型的問題,而動態(tài)規(guī)劃則有效解決了不等長語音信號的匹配問題。這些重要的思想給以后語音識別技術的發(fā)展奠定了基礎【。同時BELL實驗室又提出了基于模式匹配和概率統(tǒng)計的方法來進行語音識別的思想,這種新的思想給語音識別開辟了新的道路,給語音識別技術的發(fā)展帶來了更加深遠的影響。20世紀70年代,伴隨著在微電子技術方面的發(fā)展與研究,語音識別又有了新的進展。特別是在具體的應用上,語音識別技術開始成功地應用到電子產(chǎn)品中。這標志著語音識別技術已經(jīng)能夠走出實驗室應用到實際的生活中。由于微電子技術與語音識別技術的完美結合以及市場對語音電子產(chǎn)品的需求,使得語音識別方面的成果接連不斷。具體表現(xiàn)為在理論上,線性預測分析技術得到了進一步的發(fā)展,而且動態(tài)時間彎曲DTWDYNAMICTIMEWARPING技術基本也已成熟,特別是提出了矢量量化QVECTORQUANTIZATION和隱馬爾科夫模型HMMHIDDENMARKOVMODEL的理論,這些新的理論方法解決了當時語音識別技術所面臨的困難與問題。同時在實際應用中也實現(xiàn)了基于線性預測倒譜等算法的識別系統(tǒng)。理論與實踐的結合使語音識別技術取得更快的發(fā)展。80年代,隨著語音識別研究的進一步深入,HMM模型在語音識別中得到了成功的應用。而且在這一階段人工神經(jīng)網(wǎng)絡ANN的提出又將語音識別技術推進到一個全新的發(fā)展階段之中。在ATBALL實驗室研究人員的共同努力下,他們終于把原來HMM的純數(shù)學模型進行了工程化的推廣I到。從DTW到HMM模型的改武漢理工大學碩士學位論文變這標志著語音識別算法從模板匹配技術轉向基于統(tǒng)計模型技術,而且將小詞匯量轉入到大詞匯量的解決方案中來。語音識別技術朝向更復雜更高端的方向發(fā)展。進入90年代,隨著計算機技術的飛速發(fā)展與應用以及電信領域的快速發(fā)展,這些都加速了多媒體時代的來臨。許多發(fā)達國家和一些全球知名的大企業(yè)都置身于對語音識別系統(tǒng)的研究中。在這一階段,市場上出現(xiàn)了可以語音撥號的手機、與人對話的智能玩具等等一序列的電子產(chǎn)品。而且在商業(yè)服務中,出現(xiàn)了以語音識別、語音合成為核心技術的呼叫中,T1,CANCENTER、語音門戶網(wǎng)站等等。我國語音識別研究工作始于二十世紀八十年代初,一直緊跟國際水平。在語音識別技術方面的研究,國家做了大量的投入。越來越多的學者都投身到語音識別技術的研究工作中來。而且在國內(nèi),基于神經(jīng)網(wǎng)絡的語音識別技術的研究工作早已開始。基于語音識別技術的電子產(chǎn)品也早已在國內(nèi)市場出現(xiàn)。綜上所述,語音識別技術的研究不僅受到各個國家的重視,更是近幾十年來人們一直關注的熱點話題。而現(xiàn)在人們更多關注的是語音識別技術在車載這個平臺上的應用。12語音識別系統(tǒng)的構成經(jīng)過飛速的發(fā)展,語音識別技術已經(jīng)發(fā)展到一個實用性的階段,已經(jīng)從實驗室走向市場。語音特征矢量提取單元前端處理、訓練單元、識別單元和后處理單元共同組成了語音識別的主要系統(tǒng),其系統(tǒng)構成如圖11所示。測試模塊測量估計識別抉擇語音輸趙預特訓勇,JIJL處征一理提參考模板取。1,模板塊專家知識圖11語音識別系統(tǒng)構成圖語音控制汽車是車載語音的一種發(fā)展趨勢。目前,將語音識別技術應用于汽車的產(chǎn)品大多只有在一些玩具中才能見到,而沒有應用到實際的車載平臺中其主要是因為考慮到安全性以及各種車載環(huán)境因素的原因。由此可想車載語音控制這一領域蘊涵著相當大的潛在市場與挑戰(zhàn)。語音識別理論已經(jīng)可以應用到實際2武漢理工大學碩士學位論文階段了,但目前語音識別技術應用到車載系統(tǒng)中還不夠完善,存在著一些問趔31。但最終語音識別將會成功應用于各個領域中。語音識別技術采用語音命令作為人機接口,通過說話來控制各項功能。目前比較多的是特定人語音識別,其工作原理是先需要事先進行錄音,然后將錄制語音作為參考模板,將待識別語音信號與參考模板語音進行匹配計算,從而找出最佳匹配結果來進行語音的識別?,F(xiàn)在,非特定人語音識別技術的應用也正開始逐步擴大。那么具體語音識別系統(tǒng)是如何通過其構成部分來進行語音識別功能的昵首先語音信號經(jīng)麥克風轉換成電信號,然后加在輸入端,它首先經(jīng)過預處理,也就包括語音信號的預加重、加窗和端點檢測等。經(jīng)過預處理之后,提起語音信號的特征參數(shù),然后訓練形成語音模板,然后對待識別語音同樣經(jīng)過預處理、特征參數(shù)提取之后與語音參考模板庫進行匹配,得到識別結果。而語音識別技術應用于車載系統(tǒng)中能發(fā)揮其獨特的優(yōu)勢以及在車載這個平臺上能得到完美的表現(xiàn)。13語音識別技術在汽車上的應用隨著汽車產(chǎn)業(yè)的發(fā)展和汽車的普及,人們對汽車的安全性、便利性和舒適性都提出了更高的要求。汽車上所添加的功能也是越來越多,而且越來越智能化、越來越便于使用,這些都歸功于汽車電子在車載這個大的平臺上發(fā)揮著其獨特的作用。電子產(chǎn)品在汽車上的應用可謂是無處不及,而這些都推動著汽車電子的發(fā)展,也為車載系統(tǒng)提出了更高的要求14】。車載語音便是車載系統(tǒng)的重要組成部分。利用語音命令作為人機接口,通過說話即可控制車載系統(tǒng)的各項功能。語音識別在車載系統(tǒng)上的實現(xiàn)使得駕駛員無需雙手和雙眼的嚴密配合而只需要進行語音命令就能控制小車,這樣既提高了駕駛安全性又增添了駕駛的樂趣。而全部操作只需要通過簡單的幾句話就可以完成,使得車載終端系統(tǒng)的通用性更強,也更加人性化。采用語音命令來控制汽車的相應部件來作出反應,這樣既簡便而且又能提高系統(tǒng)響應速率,增加駕駛的安全度。就目前語音識別技術在車載系統(tǒng)中的應用而言,語音指令不是很多,所需要訓練的語音信號也就無需太多。因為只需要控制小車的相應的基本動作,而且為了提高系統(tǒng)響應速率以及車載語音系統(tǒng)對說話人語音信號響應的準確度,也應盡量使用小詞匯量語音識別15J。目前在車載語音方面應用得比較多的為特定人語音識別技術,這種識別技術需要事先進行訓練錄音,然后獲取語音模板,這樣才能響應特定人的語音指令。而它相對于非特定人語音識別技術在車載語音系統(tǒng)中的應用有一3武漢理工大學碩士學位論文定的地位和優(yōu)勢,成熟度也相對高些。雖然現(xiàn)在非特定人語音識別技術的應用正在逐漸擴大,準確性也有所提高,相信其在車載系統(tǒng)上的應用也會越來越多,但其理論比較復雜,實現(xiàn)起來比較繁瑣。目前,非特定人語音識別技術應用于車載系統(tǒng)當中會有一定的不穩(wěn)定性,不能起到較好的效果。現(xiàn)階段也出現(xiàn)了很多車載語音產(chǎn)品如免提車載GPS系統(tǒng),司機可以在駕駛室內(nèi)通過語音來控制這個免提車載GPS系統(tǒng),通過它來對小車定位與導航,從而解決不熟悉路線的問題和提升汽車駕駛的安全性【6】。本文基于特定人的車載語音識別系統(tǒng)是針對小車主人先通過語音訓練獲取小車主人的語音特征參數(shù),然后進行特定人識別,進行模板匹配從而來識別語音指令。本文選用特定人語音識別既能實現(xiàn)車主方便舒適的語音控制,又能給車主提供可靠的安全保障。14本文研究的內(nèi)容與思路課題研究的主要內(nèi)容是在分析研究各種語音識別算法的基礎上,根據(jù)系統(tǒng)設計的要求及系統(tǒng)所要實現(xiàn)的功能,選擇確定了特定人小詞匯量的DTW語音識別系統(tǒng),利用改進與優(yōu)化后的DTW算法來實現(xiàn)語音的識別。整個系統(tǒng)就是通過語音指令來控ND,車的相應動作。本論文的結構安排如下第一章即為緒論,簡要的介紹語音識別技術的研究歷程以及語音識別系統(tǒng)的構成。語音識別技術在車載語音系統(tǒng)中的應用以及發(fā)展。第二章論述語音識別的基本原理,介紹語音識別的處理過程及原理。第三章探討語音識別算法的改進與實現(xiàn)。重點介紹語音識別中對DTW算法的改進與優(yōu)化,并將改進的DTW算法進行了實現(xiàn)。第四章主要是對特定人小詞匯量語音識別系統(tǒng)的硬件系統(tǒng)與軟件的設計與實現(xiàn)。第五章是對本論文的一個總結,概括了在論文撰寫的學習過程中所做的工作、收獲和體會以及對以后所要開展工作的一個展望。4武漢理工大學碩士學位論文第2章語音識別技術的分析21語音信號的預處理對語音信號的預處理主要包括對其聲音的預加重,分幀處理和窗化處理。幻語音信號的預加重采用預加重方法處理語音信號能補償語音信號的固有衰落,而且能有效地消除唇輻射的影響用。預加重時所需的傳遞函數(shù)為P1094ZQ21若假設SN為語音輸入信號,經(jīng)過預加重后得到的信號為SOSO094S0122參伽就是經(jīng)過預加重后得到的信號。砩分幀處理要將時域信號變?yōu)轭l率信號,而且將模擬信號進行數(shù)字化處理。那么首先就要將語音信號作分幀處理。由于在一般情況下,語音信號在1020MS內(nèi)是相對穩(wěn)定的【羽。那么得到的分幀處理公式如下式23所示。而O一GML以,刀一0J,一1,一0工,三一123曲窗化處理因為要獲取語音特征,濾出噪聲信號,需要進行窗化處理。在所有的窗化處理的方法中,漢明窗的旁瓣最低,而且它具有更平滑的低通特性。為了在語音處理的過程中能有效地克服泄漏現(xiàn)象,我們采用漢明窗來進行窗化處理【9】O其公式即如下27所示。蜀萬一X,OWO,0S玎SN124式中州一U054046COS舟,眶胚N_12522語音信號的端點檢測對于硬件系統(tǒng)的語音采集口來說它需要實時的檢測有沒有語音指令的輸5武漢理工大學碩士學位論文入,而語音指令又不是連續(xù)發(fā)出的,所以通過語音采集口采集到的聲音數(shù)據(jù)并不全是語音指令信號,其中必定有噪音以及其它我們并不需要的信號以及數(shù)據(jù)。因此就需要系統(tǒng)一直判斷是否有聲音指令進入,何時是聲音信號。而這種處理過程就是對語音信號進行端點檢測。端點檢測技術用來確定聲音指令音頭、音尾的位置。確定語音信號的起止點能更好的對語音信號進行識別,從而提高系統(tǒng)識別率和獲取到更好的語音特征參數(shù)。端點檢測常用的方法有短時過零率、短時平均能量、短時平均幅度、短時自相關函數(shù)、短時頻域處理等幾種【10L。但在本文中選擇短時過零率和短時平均能量相結合的方法來進行端點檢測。1短時平均能量短時平均能量是具有時域特征的參數(shù)。假設SN為加窗后的語音信號,那么第T幀語音的短時平均能量可表示為如下式26所示。咖T萬1N驢1刀I26其中N為窗的寬度,SB為第T幀語音信號中第N個采樣點的信號樣值。本文采用將獲取到的語音短時平均能量取其對數(shù)值的方法,結合短時過零率來進行端點檢測,能更加準確的獲取到語音信號的端點值。2短時過零率短時過零率ZCRZEROCROSSINGRATE用式子表示為如下27所示。Z行墨SGNXM一SGNXM一11。形NM27其中RSGNXN】一1XNNOISEMAXNOISEMAX為噪聲上限SGNXN】一1XNNOISEMINNOISEMIN噪聲下限28LSGNXN】一0OTHERWISE巴亨0SNSN一1為一幀聲音的長度OTHERWISE629210武漢理工大學碩士學位論文4短時自相關函數(shù)自相關函數(shù)是描述一個隨機信號的重要特性。自相關函數(shù)在不同的領域,定義不完全相同。在短時處理技術中,短時自相關函數(shù)可描述為1KRKMK脅七,O咖212短時頻域的變化放映了語音信號的頻譜隨時間變化的性質。23語音信號的特征參數(shù)提取進行語音識別就是要從語音信號中提取對我們有用的信息,濾出無用的信息,從而獲取特征參數(shù)來進行語音信號的匹配識別。去除對語音識別無關緊要的冗余信息,提取出對語音識別有用的重要信息這便是語音信號的特征參數(shù)提取的關鍵。特征提取是語音識別前端處理的主要任務,如果特征提取得好,以后的模型的設計與語音訓練就會變得容易。因此語音識別所需要的特征是既具備能穩(wěn)定表示語音的特性又有很強的區(qū)別性的特征。特征提取就是要獲取到好的特征參數(shù),那么如何獲取到好的語音特征參數(shù)呢它需要滿足以下三方面的要求才能稱為一個好的特征提取1能有效的提取語音的信號特征,包括人的聲道特征與聽覺模型;2參數(shù)之間具有良好的獨立性;3特征參數(shù)有比較高效的計算方法。就目前最常用的兩種特征參數(shù)是線性預測倒譜系數(shù)LPCC和MEL倒譜系數(shù)MFCC,它們在一定程度上反映了人耳對聲音的處理特性?;肔PCC特征參數(shù)的提取線性預測分析LPCC是較為常用的語音特征分析方法之一。它可以有效地解決短時平穩(wěn)信號的模型化問題。LPCC的基本原理為語音的每個樣值都可以由它過去若干個樣值的線性組合來近似,同樣也可采用實際語音抽樣信號與對它的線性預測值之間的均方差最小的方式來進行逼近,最后解出一組預測系數(shù)7武漢理工大學碩士學位論文【121。可用如下圖21的模型來表示。21信號模型圖UN表示模型的輸入,SN表示模型的輸出。模型的系統(tǒng)函數(shù)HZ表示為HZ一丟L一2131一弩AJZ一釘式子中A,是系數(shù),P是預測模型的階數(shù)。用信號的前P個樣本來預測當前樣本,定義的方法如下S刀一ATN七214蜀語音信號S刀可由過去的P個樣值SNK來預測。式214其中的A為加權系數(shù),即LPC系數(shù),P為LPCC預測階數(shù),預測誤差為EN一S廳一S以一S刀一AT5N七215EI由此可求其極值,便得到“CC系數(shù),LPCC系數(shù)它記錄了語音信號譜的極值點的軌跡,以此LPCC系數(shù)來表示語音信號的特征?!盡EL倒譜系數(shù)MFCCMEL倒譜系數(shù)MELFREQUENCYCEPSTRUMCOEFFICIENT是基于人的聽覺模型的基礎上提出來的。它能形象的描述人類聽覺系統(tǒng)對聲音頻率的感覺,近似計算可以表示為如下式216所示。MEL廠_2595LG1700216人耳對不同頻率的聲波有不同的聽覺靈敏度,但從人的聽覺靈敏度來看,人會覺得低音掩蓋高音比較容易,然而高音掩蓋低音就比較困難。在低頻處的聲音掩蔽的臨界帶寬比高頻處的聲音掩蔽的臨界帶寬要小。當兩個頻率相近的音調同時發(fā)出時,人就只能聽到其中頻率較低的一個音調,對于這種由于人的主觀感覺突變而產(chǎn)生無法區(qū)分帶寬邊界的情況,MEL亥LJ度是對這一臨界帶寬的度量方法之一。于是在語音識別過程中可以采取從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到稀安排一組帶通濾波器的方法來進行語音信號的處理【13】。對輸入信號進行濾波,將每個帶通濾波器輸出的信號能量作為信號的基本特征。所選用的帶通濾波器進行濾波的情況如下圖22所示。8武漢理工大學碩士學位論文圖22MEL尺度濾波器組MFCC特征參數(shù)提取的過程為首先將語音信號進行兀丌變換到頻域,通過MEL尺度的濾波器陣列后,將經(jīng)過濾波器陣列輸出后的語音信號進行離散余弦變換。具體的參數(shù)計算步驟如下首先將信號進行預加重處理然后假定取T時刻的一幀語音采樣信號,幀長為N,即用式子表示為XT,TL,2,3N,然后確定每一幀的采樣點數(shù)和幀移。然后進行相應的變換與計算【14L。1加HAMMING窗后作N點快速傅里葉變換H呵,取到信號幅度譜IXKI。2運用217此公式將實際頻率尺度轉換為MEL頻率尺度其中無為實際頻率。3然后可以設置在整個MEL軸上配置價三角形濾波器,每個三角形濾波器的中心頻率CL在MEL軸頻率軸上等間隔分配。假設BL、CL、AL分別是第L個三角型濾波器的下限,中心和上限頻率,相鄰濾波器之間的下限中心和上限頻率有如下圖23的關系。CLAL廣1BL1217I,1L“1CL1BLAL1CBL1ALC1圖23頻率相連三角形濾波器的關系9武漢理工大學碩士學位論文4由所得到的語音信號幅度卜七I可求出每一個三角形濾波器的輸出。肌。篡啡L砷I卜,218彬K一KB1C二;箋7,BZS七CZ,CZS七S彳219AICI5對所有三角形濾波器的輸出作對數(shù)運算,然后再進行離散余弦變換,便可以得到MFCC參數(shù)。一歷蹇剛叫”糾孫蚺,Q220其中,Q為MFCC參數(shù)的階數(shù),“I為所求的MFCC的參數(shù)。24語音識別的模型與算法隨著語音識別技術的飛速發(fā)展和它越來越受人們的關注與重視,各種各樣的識別方法也陸續(xù)的出現(xiàn)了。但主要的識別技術仍然是基于模板匹配法、HMM模型法、DTW動態(tài)時間規(guī)劃模型法、ANN神經(jīng)網(wǎng)絡模型法。對于語音識別技術來說,這些方法都存在著一些共同點,基本上都有一個相同的基本原理。如下圖24所示。語音信號經(jīng)過采樣預處理后,進行特征參數(shù)提取,得到一組反映該段語音特征的參數(shù)模型,然后這些特征參數(shù)送入模型庫模塊進行比較,聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別,最后得出識別結果。對于大詞匯量,非特定人等情況的語音識別還需要通過語言模型對結果進行進一步的分析處理,最終得到正確的識別結果。圖24語音識別系統(tǒng)的基本結構10武漢理工大學碩士學位論文241DTW動態(tài)時間規(guī)整DTW動態(tài)時間規(guī)整算法其實是把一個語音段內(nèi)的時變特征變?yōu)橐恢碌倪^程,是一種非線性規(guī)整技術。DTW的基本思想是通過將待識別語音信號或者參考模板在時間軸上進行不均勻地拉伸或者彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,來獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這種方法是一個將時間規(guī)整和距離測度有機結合在一起的非線性規(guī)整技術,它能保證待識別語音特征與模板特征之間最大的聲學相似特性和最小的時差失真。采用這種方法能成功的解決待識別語音和模板長度不相等的問題。具體用公式來表示則為首先得利用時間規(guī)整函數(shù)J一WI,此函數(shù)的意義即為使測試語音矢量的時間軸I映射到模板語音矢量的時間軸I上。使其特征與模板特征對齊,并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,來獲得兩個矢量匹配時累積距離最小的規(guī)整【151。那么具體用表達式來表示則可表示為D噸了DPF,尺WF1,其中RF表示測試語音矢量,尺WF表示測試時間軸酊第I幀信號經(jīng)過時間規(guī)整函數(shù)后對應于模板語音的矢量,式中D阿F,RWF1是第I幀測試矢量TI和第J幀模板矢量尺之間的距離測度。D則是在最優(yōu)情況下的兩個矢量之間的匹配路徑。DTW的搜索路徑圖如下25所示。JM語ER日模贛J數(shù)1IN待識別語音信號的幀數(shù)圖25DTW的搜索路徑DTW一般采用逆向思路,從過程的最后端開始一直到起點來尋找最優(yōu)路徑,武漢理工大學碩士學位論文因為這樣才能更好的確定條更佳的路徑。DTW算法它一般適用于小詞匯量的特定人的孤立詞識別系統(tǒng),采用多模板的訓練方法。由于語音的耦合性比較大、訓練時又容易產(chǎn)生誤差,所以這種方法的魯棒性不是很好,為了克服這個問題可采用串行訓練法,即重復將訓練詞多說幾遍,也就是進行多重復訓練,直到找到一致性比較好的特征矢量序列為止,這樣就可以得到較好的沿DTW搜索路徑的特征矢量序列,然后求這些特征序列的平均來得到模板??傊珼TW也有其優(yōu)點,其優(yōu)點是只包含了對要識別詞的特征提取,因此訓練起來比較簡單,而且已經(jīng)存在有效的硬件方法來實現(xiàn)它,不足之處是對于連續(xù)語音它卻顯得有些無能為力。242HMM隱馬爾可夫模型HMM是一個雙重隨機過程。它的一個隨機模型用來表示狀態(tài)的轉移另一個隨機模型用來表示狀態(tài)和觀察值之間的統(tǒng)計對應關系。它用概率論的方式來描述時變信號的變化過程。在該模型中,一個狀態(tài)轉移到另外一個狀態(tài)取決于該狀態(tài)的統(tǒng)計特性,而某一個狀態(tài)的觀察值也取決于該狀態(tài)生成語音觀察值的概率。因為在觀察者的角度只可以看到觀察值,而看不到狀態(tài),所以叫做隱馬爾可夫模型,簡寫為HMM。隱馬爾可夫HMM模型是利用概率及統(tǒng)計學理論來解決如何辨識具有不同參數(shù)特性的短時平穩(wěn)信號段以及如何跟蹤這些具有不同參數(shù)特性的短時平穩(wěn)信號段它們之間的轉化問題的模型【161。它通過統(tǒng)計與概率論的方法來實現(xiàn)語音識別。就HMM模型來說,一個HMM模型可以由下列參數(shù)來決定。T觀察符號序列的長度。其集合也可以表示為O一D1D,一DR。M一觀察符號數(shù),即每個狀態(tài)可能輸出的觀察符號的數(shù)目。那么觀察符號的集合可表示為V一VL,12,叫。N模型中的狀態(tài)數(shù)目。雖然隱馬爾可夫模型的狀態(tài)是不能直接獲得的,但這些狀態(tài)它們彼此之間是相互聯(lián)系著的,因為任何一個狀態(tài)都可以由其它的狀態(tài)來表示或者是轉移而來。狀態(tài)的集合可表示為S而,J一”S,T時刻的狀態(tài)表示為。萬初始狀態(tài)分布。即初始時刻系統(tǒng)處于某個狀態(tài)的概率。可表示為石;乃,吒LITP【吼一墨J,1SFSNA吠態(tài)轉移概率分布。其中元素口。是指T時刻狀態(tài)為墨,而在TL時刻轉移到狀12武漢理工大學碩士學位論文SS的概率。它是,由鑒態(tài)轉移概率構成的一個矩陣,用公式。可以表不為彳一口茸J,口驢PQI1SJIGI一墨】,1SISNB狀態(tài)S,的觀測符號概率分布。即它是狀態(tài)SJ的觀測符號概率構成的一個矩陣,元素K是指狀態(tài)SJ輸出觀測符號心的概率,T時刻處于狀態(tài)SJ。其公式為B。PJ七J,七。P攻I毋一S門,1SJ墨N,1S七SM243ANN人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡是近些年來比較新和熱門的研究方向。它的原理是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機系統(tǒng),該系統(tǒng)能根據(jù)外部輸入信息的動態(tài)狀態(tài)來做出相應的響應,它具有實時性和靈活性。人腦若要對某個模式得到正確的模式匹配,就需要進行大量的訓練和糾正。訓練越多,糾正越多,匹配就會越準確,人工神經(jīng)網(wǎng)絡的識別方法也是如此,它模擬人的大腦,需要通過大量的學習與訓練才能投入正確使用,在使用中又不斷地進行自我學習從而來更正或者調整信號值。而基于ANN的語音識別系統(tǒng)是由神經(jīng)元、訓練算法及網(wǎng)絡結構等要素來構成的。它融合了并行處理機制、非線性信息處理機制和信息分布存貯機制等多方面的現(xiàn)代信息技術【171?;谌斯ど窠?jīng)網(wǎng)絡的語音識別系統(tǒng)在訓練過程中能不斷調整自身的參數(shù)權值和拓撲結構,以適應環(huán)境和系統(tǒng)性能優(yōu)化的需求。而且在模式識別中也有速度快、識別率高等顯著特點而且反應靈敏且能自動適應環(huán)境。人工神經(jīng)網(wǎng)絡技術一直是國內(nèi)外語音識別系統(tǒng)研究的方向和熱點。由于人工神經(jīng)網(wǎng)絡中神經(jīng)元個數(shù)眾多以及整個網(wǎng)絡存儲信息容量的巨大,使得它具有很強的不確定性的信息處理能力。即使是在輸入信息不完全、不準確或模糊不清的情況下,神經(jīng)網(wǎng)絡也能夠通過獲取到的這些不完整信息聯(lián)想到存在于思維記憶中的一些相關的信息【1引。只要輸入到神經(jīng)網(wǎng)絡中的信號模式接近于訓練樣本的信號模式,神經(jīng)網(wǎng)絡系統(tǒng)就能給出正確的推理結論。人工神經(jīng)網(wǎng)絡能進行自我完善從而改進訓練參數(shù),提高精確度。人工神經(jīng)網(wǎng)絡是一種非線性的處理單元,因為對于所有的輸入信號,神經(jīng)元對這些輸入信號進行綜合處理。它突破了傳統(tǒng)的以線性處理為基礎的數(shù)字電子計算機的局限,這標志著智能信息處理能力和模擬人腦智能行為能力的一大技術飛躍。武漢理工大學碩士學位論文25現(xiàn)階段語音識別所面臨的問題就目前而言,語音識別技術仍然存在著許多有待進一步改進以及優(yōu)化的地方。由于語音識別一般情況下是對自然語言的識別,那么就必須面臨著連續(xù)語音的識別,然而連續(xù)語音中的因素、音節(jié)或單詞之間的調音結合引起的音變,使基本模型的邊界變的不明確,而且需要建立一個語法與語義的規(guī)則來理解它們,這就需要一個優(yōu)化的系統(tǒng)來解決這些問題。不僅如此,語音識別技術同樣面臨著外界環(huán)境以及噪聲等因素的影響,而不能精確的或者很理想的處理語音識別的問題。因為語音信息的信息量大而且變化量也很大,語音模型對于不同的說話者不可能完全一樣,因此不同的講話者所需選擇的語音模型還是有差異的,即使是同一講話者,其語音模式仍然會隨時間的改變有所改變。其次語音信號有很大的模糊性,不同的語音聽起來雖很相似,但實際則不同,難以區(qū)分。而且在強噪聲的環(huán)境下,語音識別顯得尤為困難。這些因素的影響促使語音識別技術有待進一步的改進與完善。而且端點檢測的方法仍需進行優(yōu)化。語音識別系統(tǒng)即使在安靜的環(huán)境下,系統(tǒng)的識別錯誤仍然有一半以上來自端點檢測。不僅如此,應用于各種環(huán)境下,不同的環(huán)境情況差別也大,語音識別技術也難以完成準確的識別。例如應用在車載方面,噪音與車載環(huán)境對語音識別來說仍然是很大的難題。語音識別技術需要融合多學科知識,如何將多學科知識更好的應用到語音識別系統(tǒng)之中仍然是需要解決的問題【19】。隨著科技的進步發(fā)展,語音識別技術的研究也需要得到更進一步的深入。26車載語音識別系統(tǒng)的算法選用由于車載系統(tǒng)工作環(huán)境的影響,車載語音系統(tǒng)就必須具有高抗噪聲的功能以及性能穩(wěn)定等特點。而且現(xiàn)在的汽車電子系統(tǒng)越來越龐大,每個系統(tǒng)構成部分都會影響到彼此的穩(wěn)定性。這就要求車載語音部分也必須簡單而且穩(wěn)定可靠。這就需要一個比較簡單可靠的語音模型和算法來達到車載語音識別系統(tǒng)的要求。在所有的語音模型和算法中,DTW模型以及算法是最古典以及最完善的一套方法與理論,在實際應用中也最簡單和易實現(xiàn)。人們往往需要采用這種最簡單可靠的方法來實現(xiàn)這樣或者那樣的一些功能。基于DTW模型與算法的語音識別系統(tǒng)訓練起來比較簡單,而且已經(jīng)存在有效的硬件方法來實現(xiàn)?;贒TW模型與算法的語音識別系統(tǒng)應用于車載語音中能讓駕駛更加的簡單方便,而且語14武漢理工大學碩士學位論文音識別率也比較高,性能穩(wěn)定,能滿足車載語音識別系統(tǒng)的要求。首先就應用和理論的復雜度來說,DTW要比HMM和ANN簡單明了,其原理易于被人們掌握和理解。其次就是DTW算法已經(jīng)能通過硬件來實現(xiàn)【硼。最后,從車載整體性能方面來考慮,如果在汽車電子系統(tǒng)中加入更多更加復雜的系統(tǒng)或部件,難免會影響到整體性能,整個控制系統(tǒng)控制起來就會比較麻煩,這樣各個系統(tǒng)部件之間就會相互的影響,產(chǎn)生安全以及可靠性方面的問題。于是一個簡單而且獨立性比較好的系統(tǒng)設計就顯得尤為重要,因為這樣的系統(tǒng)能讓各個部分獨立的工作,而不是互相產(chǎn)生干擾。這種系統(tǒng)不僅能提高整體性能,而且還能提高安全性??傊?,結合語音識別技術在實際中的應用和考慮到性價比以及汽車安全方面的因素,就目前來講DTW仍然是應用于特定人小詞匯量語音識別系統(tǒng)上比較好的模型與算法。27本章小結本章對語音識別的方法及基本原理進行了介紹和總結。首先介紹了語音信號的初步處理,對語音的預處理、端點檢測、特征參數(shù)提取作了詳細的介紹與分析。然后對語音識別的模型與算法進行了詳細的介紹,DTW、HMM、ANN本文都一一作了介紹。針對語音識別所面臨的問題作了分析。最后對于特定人小詞匯量語音識別系統(tǒng)的模型與算法的選用,本文就所提到的一些模型與算法作了比較,結合實際與理論闡明了DTW作為此系統(tǒng)的語音模型與算法的優(yōu)點。武漢理工大學碩士學位論文第3章語音識別算法的設計與改進31傳統(tǒng)DTW算法的設計DTW基于動態(tài)規(guī)整的思想,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法,它解決了發(fā)音長短不一的匹配問題。那么傳統(tǒng)的DTW算法是如何來實現(xiàn)語音識別的呢按照第2章所介紹的內(nèi)容,首先對語音信號進行預處理,然后進行端點檢測。在進行完端點檢測之后,就需要獲取語音信號的特征參數(shù),對于MEL倒譜系數(shù),采用如下的方式來提取。首先根據(jù)式MEL1一2595LG1,700,將實際頻率尺度轉換為MEL頻率尺度。然后在MEL頻率軸上配置I介三角形濾波器組,而L的個數(shù)由信號的截止頻率決定。其次再根據(jù)語音信號幅度譜求每一個三角形濾波器的輸出。最后對所有濾波器輸出作對數(shù)運算,再進行離散余弦變換就可以得到MFCC系數(shù)了。對于程序而言首先要設置好三角形濾波器系數(shù),即歸一化濾波器系數(shù)【2N。獲取到特征參數(shù)以后,便可以確定模板,然后就可以對待識別語音進行特征參數(shù)提取了。本文所選取的倒譜矢量維數(shù)為12,即選用的階數(shù)為12。在參數(shù)提取分析過程中,若選擇的階數(shù)很大,可將極零點模型用全極點模型來代替,雖然可攜帶大量的語音信息,但同時也增加了運算量,但階數(shù)增加到一定程度的話又會使語音的內(nèi)在特征出現(xiàn)很大的隨機性,導致識別率降低,經(jīng)過實驗統(tǒng)計一般情況下階數(shù)選擇8至1J14之間的數(shù)。通過實驗顯示,本系統(tǒng)選用階數(shù)P為12時所求出的倒譜特征參數(shù)與模板倒譜特征參數(shù)具有良好的相似度。MEL濾波器數(shù)為24個,DFT長度也為160,幀長仍然為160,幀移為40。在獲取到的MEL系數(shù)后除首尾兩幀,因為這兩幀的一階差分參數(shù)為O。然后將所獲取到的MEL倒譜系數(shù)用MATLAB仿真出來的結果如下圖32所示,這個語音信號是選取的數(shù)字9的發(fā)音信掣22J。由于矢量維數(shù)為12,得到的矩陣行數(shù)其實為88幀,列數(shù)為24表示階數(shù),從圖中可以看出也就是橫坐標X表示列數(shù),縱坐標Y表示行數(shù),Z軸表示MFCC值。而選擇的是三維坐標圖,所以獲取到的結果如圖31所示。16武攫理工太學碩士學位論文墜墊J坩K叭I出_M葉墅世D富口舀嚕QQO??谀縄目XCOLUMNYROWZ抽3020言10芷口王1口20口。_MFCCROW00MFCCCMMN圖31MATLAB繪制的MFCC參數(shù)圖在獲得了特征參數(shù)后,就可以建立模扳將模板的MFCC參數(shù)存入一指定數(shù)組中。在建立所有的參考模板之后,我們對語音模板要做的處理就已經(jīng)完成,那么接著便要對待識別的語音進行預處理、端點檢測、特征參數(shù)提取,和前面對參考模板語音所做的處理一樣。在獲取到的待識別語音的MFCC參數(shù)后同樣要取一指定的數(shù)組來存儲這些特征參數(shù)信息,然后用程序設置一個循環(huán),外循環(huán)的次數(shù)為所存入的模板數(shù),例如,如果已取了10個模板,那么所需要設置的外循環(huán)則為10,然后進行內(nèi)循環(huán),內(nèi)循環(huán)用來進行對待識別語音每幀分別與模板相應的每幀進行匹配計算。那么接著的問題就是如何進行模式匹配。特征序列可分為兩類,對于訓練階段輸入的語音進行分析,得到各組特征序列被稱為參考模板,記為RJ一,。,一,RJ,L2,,V31式中,為模板對應的命令編號,J為該命令中的所需要分析的總的幀數(shù),V為系統(tǒng)模板庫中的總模板數(shù),可以等于或大于待識別的命令條數(shù)。對識別階段輸入武漢理工大學碩士學位論文的語音進行分析,得到的特征序列被稱為待測試模板,記為R一毛,F(xiàn),一,乙,TJ為輸入待識別語音的幀數(shù)【231。這樣模板匹配過程就是將參考模板R和待測試模板T之間進行比較,計算它們之間的相似程度。一般是通過失真度來衡量相似度的,失真越小則相似度越高,那么如何計算失真度呢可以將模板R與測試模板T中對應的幀算起,設N與J分別為T和R中任意選取的一幀的幀號,用DR玎,尺_|1來表示這兩幀之間的特征矢量的失真,這樣就可以求出每幀的失真,然后再進行求和從而計算總失真度。用式子表示則為如下式32所示RDP,R羅DZ廳,R_132,“71。假設測試語音模板共有幀矢量,而參考模板共有,幀矢量,且桫。那么動態(tài)時間歸整就是尋找一個時間歸整函數(shù)MWN,它將測試矢量的時間軸非線性的映射到模板的時間軸上,并使函數(shù)滿足D一罌彈DFR廳,RW萬133“L勻L、,7J、7式中,D丁刀,尺W力1是測試模板T的第N幀與參考模板的第J幀的距離測度。式中的D它表示處于最優(yōu)時間規(guī)整情況下兩矢量的距離。假設T的第N幀與R的第J幀對準,當N等于J且T和R完全相同時,WN就可以用一條斜率為1的線段來表示。那么當T和R不完全相同時,T的第N幀與R的第J幀對準,則得到的這些點組成的線便不是一條直線而是一條曲線了,那么這條曲線對應的函數(shù)就是規(guī)整函數(shù)WN,如圖28所示。動態(tài)時間規(guī)整其實是將一個N階段的決策過程劃分為N個單一階段的決策過程。那么所選取的規(guī)整函數(shù)WN需要滿足以下條件1WN為單調函數(shù)。2規(guī)整函數(shù)必須從1,1點開始至NJ點結束。3規(guī)整函數(shù)不能跳過任何點。4最大規(guī)整量不能超過限定值,用式子表示即為LNJLQ,Q稱為“窗寬“一般取2。傳統(tǒng)的DTW算法是把時間規(guī)整和距離測度結合起來的一種非線性規(guī)整技術。但是傳統(tǒng)動態(tài)規(guī)整算法DP算法1的計算量比較大,由運算量大而影響了系統(tǒng)識別速率。那么如何減小計算量而且更好的進行匹配以及獲取到更準確的語音識別結果就必須進行算法的改進與優(yōu)化。32DTW算法的改進與優(yōu)化應用傳統(tǒng)DTW算法來進行識別,識別效果不是很好。那么本文對傳統(tǒng)DTW18武漢理工大學碩士學位論文算法進行了改進優(yōu)化。語音信號進行預處理之后便需要進行語音信號的端點檢測,端點檢測是語音識別技術中的關鍵所在。語音信號的整個端點檢測的工作流程如下圖32所示。好的端點檢測方法會給以后建模以及識別過程帶來很多便利,同時能實現(xiàn)更快更精確的識別【241。圖32端點檢測321可變窗長的語音端點檢測用窗函數(shù)對語音序列進行處理后所獲取的一幀語音序列的長度稱為窗長也被稱為幀長。它是指在窗化處理后進行的分幀處理。由于語音信號具有時域特性,它是按照時間先后順序進行讀取與存入的,那么取幀也就可以按時間順序來取,在存儲空間中也就可以按存入存儲空間中的先后順序來取。據(jù)大量實驗統(tǒng)計,一般的語音信號的窗長取LOMS至20MS之間,前一幀與后一幀的交疊部分為幀移,幀移一般是取小于LOMS的。因為語音信號一般在LO20MS內(nèi)是相對穩(wěn)定的并且由信號的采樣定理可知按上述方法來對語音信號進行取幀是合理的。而且如果對語音信號取比較小的窗長,那么就能夠比較準確的檢測到語音信號的端點,但是這樣一來卻增加了計算量,使得語音識別耗時較長,同時也會影響系統(tǒng)的速率。反之,如果所取的窗長很大,那么的確能減少計算量同時能提高語音識別的速度,但是端點檢測的結果卻是很不精確,對識別結果也會造成比較大的影響。為此,可靈活的針對不同的情況進行不同的處理,這樣就可以在語音靜音段時采用較長的窗進行處理,在語音段采用常規(guī)窗進行處理,在語音的過渡段采用較小的窗進行處理,這樣處理既可以較為精確的判斷語音的起止點也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論