基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究

上傳人：1*** IP屬地：廣西上傳時(shí)間：2023-12-07 格式：DOC 頁(yè)數(shù)：18 大小：145KB 積分：12 舉報(bào) 版權(quán)申訴

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究_第2頁(yè)

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究_第3頁(yè)

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究_第4頁(yè)

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究_第5頁(yè)

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本科學(xué)生學(xué)年論文論文題目：基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究學(xué)院：電子工程學(xué)院年級(jí)：2023級(jí)專業(yè)：電子信息工程姓名：學(xué)號(hào)：指導(dǎo)教師：2023年06月22日摘要隨著計(jì)算機(jī)技術(shù)的不斷開(kāi)展,人們?cè)絹?lái)越希望通過(guò)語(yǔ)音來(lái)實(shí)現(xiàn)人機(jī)對(duì)話,語(yǔ)音識(shí)別技術(shù)由此應(yīng)運(yùn)而生。語(yǔ)音識(shí)別是讓機(jī)器自動(dòng)識(shí)別和理解語(yǔ)音信號(hào),并把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)命令的技術(shù)。特定人孤立詞的語(yǔ)音識(shí)別是應(yīng)用最為廣泛的一種語(yǔ)音識(shí)別技術(shù),而當(dāng)前這方面的硬件設(shè)備本錢較高,使得難以大量推廣應(yīng)用?；谏鲜鲈?本文通過(guò)對(duì)孤立詞語(yǔ)音特點(diǎn)的研究,結(jié)合單片機(jī)等硬件設(shè)備,設(shè)計(jì)了一種基于特定人孤立詞的語(yǔ)音識(shí)別系統(tǒng)。本文的研究工作和成果主要有以下幾個(gè)方面的內(nèi)容:文章首先分析了語(yǔ)音產(chǎn)生的機(jī)理,并以此分析了語(yǔ)音識(shí)別的各種算法。對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理后,提出了一種新的基于短時(shí)平均幅度和短時(shí)平均過(guò)零率的端點(diǎn)檢測(cè)手段,增強(qiáng)了算法對(duì)于不同類型詞語(yǔ)的適用性。提取語(yǔ)音線性預(yù)測(cè)倒譜系數(shù),作為特征參數(shù)選擇動(dòng)態(tài)時(shí)間規(guī)整法為模板匹配算法,并針對(duì)傳統(tǒng)匹配算法中計(jì)算量大的特點(diǎn),作出改良,采用了一種全局路徑限制的方法以減小匹配過(guò)程中的計(jì)算量。在模板的訓(xùn)練中,針對(duì)語(yǔ)音信號(hào)隨機(jī)性較大的特點(diǎn),提出了一種平均模板的訓(xùn)練法,提高了模板的可靠性。然后,以C805IF040單片機(jī)為核心,對(duì)系統(tǒng)的硬件電路做了詳細(xì)設(shè)計(jì)。之后,文章詳細(xì)闡述了系統(tǒng)算法的具體實(shí)現(xiàn)過(guò)程。另外,考慮到系統(tǒng)的定位,對(duì)算法中特征階數(shù)的選擇作出計(jì)算。最后,對(duì)系統(tǒng)在不同的噪聲環(huán)境和語(yǔ)言環(huán)境下進(jìn)行了大量的實(shí)驗(yàn)。結(jié)果說(shuō)明,系統(tǒng)在相對(duì)安靜的條件下,對(duì)特定人孤立詞的識(shí)別率較高,滿足設(shè)計(jì)要求。同時(shí),由于系統(tǒng)本錢低,操作簡(jiǎn)單,在社會(huì)中將具有很好的應(yīng)用前景。關(guān)鍵詞語(yǔ)音識(shí)別；線性預(yù)測(cè)倒譜；動(dòng)態(tài)規(guī)整技術(shù)；單片機(jī)AbstractWiththecontinuousdevelopmentofcomputertechnology,itishopedtoachieveman-computerdialoguebyvoice.Asaresult,speechrecognitiontechnologycameintobeing.Speechrecognitionisakindoftechnologythatisusingcomputertotransferthevoicesignaltoacommandbyidentificationandunderstanding.Speaker-dependedisolatedwordspeechrecognitionisthemostwidelyusedspeechrecognitiontechnology.However,thecostofhardwaredevicesinthisregardistoohighatpresent,resultinginanunnecessarywasteofresources.Giventhestatus,throughthestudyingofthecharactersofsingleword,aspeaker-DependedIsolated-wordspeechrecognitionsystemisdesignedwiththecombinationofMCUandotherhardwaredevice.Themainresearchandresultsaresummarizedasfollows:Firstly,accordingtothemechanismofvoiceproduction,avarietyofspeechrecognitionalgorithmsareintroduced.Afterthepretreatmentonthespeechsignal,anewalgorithmbasedonzero-crossingrateandshort-termaveragerateispresentedwhichenhancedtheapplicabilityfordifferenttypesofwords.LPCC(LinearPredictiveCepstralCoding)isextractedfromthesignalasthespeechcharacteristicparameters,DTW(DynamicTimeWarping)algorithm,whichisimprovedtoreducetheamountofdatainthematchingprocessbyusingglobalconstraint,isusedforthematchingofthemodel.Theaveragetrainingmethodisusedtoenhancetherobustnessofthesysteminthecourseofthetrainingtemplatesfortherandomnessofspeechsignal.Secondly,C805lF040micro-controllerselectedasthecore,circuitdesignofthesystemisshown.Then,thepaperdetailsthesoftwarecomponents,includingtheconcreterealizationoftheProcessofthealgorithm.Inaddition,takingintoaccountthecharacteristicsofthesystemitself,theparametersofthealgorithmarecalculated.Finally,alotofdebuggingandtestarecarriedoutunderdifferentnoiseenvironmentandlanguageenvironment.Experimentresultsindicatethatthiscontrolsystemisstable,andcanachieveagoodrecognitionresultforspecialwordsinquietconditions.Atthesametime,duetothelowcost,simpleoperation,thesystemwillhaveagoodapplicationprospectsandwillbewidelyusedinfuture.KeywordsSpeechRecognition;LPCC;DTW;MCU目錄28092摘要I27952AbstractII20744前言130228第一章語(yǔ)音識(shí)別相關(guān)技術(shù)2285811.1語(yǔ)音識(shí)別概述2306911.1.1語(yǔ)音識(shí)別系統(tǒng)2306911.1.2語(yǔ)音識(shí)別的步驟397551.2預(yù)處理及特征參數(shù)提取3306911.2.1語(yǔ)音信號(hào)的預(yù)處理364981.2.2線性預(yù)測(cè)系數(shù)LPC5225451.3基于DTW的語(yǔ)音識(shí)別6152121.3.1DTW算法原理6226121.3.2DTW算法的改良6320341.3.3匹配模板的訓(xùn)練方法715878第二章系統(tǒng)軟件設(shè)計(jì)8161312.1主程序流程8145352.2模板的訓(xùn)練與識(shí)別程序8245352.3端點(diǎn)檢測(cè)子程序117422.4特征提取子程序1112795第三章實(shí)驗(yàn)與分析13267003.1系統(tǒng)實(shí)驗(yàn)平臺(tái)介紹 1376703.2實(shí)驗(yàn)方案設(shè)計(jì) 14312293.3實(shí)驗(yàn)結(jié)果與分析 1427760結(jié)論1717403參考文獻(xiàn)1830983致謝19前言語(yǔ)音不僅是人和人之間進(jìn)行信息交流最直接最方便和最有效的工具,而且也是人和機(jī)器之間進(jìn)行通信的一種重要手。實(shí)現(xiàn)人機(jī)自然語(yǔ)音對(duì)話,對(duì)于方便人們生活,提高工作效率具有重要的意義。而實(shí)現(xiàn)人機(jī)自然語(yǔ)音對(duì)話的核心技術(shù)就是語(yǔ)音信號(hào)處理。語(yǔ)音信號(hào)處理,是以語(yǔ)音學(xué)和數(shù)字信號(hào)處理為根底開(kāi)展形成的一個(gè)綜合性的學(xué)科,它的研究方向主要有語(yǔ)音分析、語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別、語(yǔ)音合成等幾個(gè)分支。在過(guò)去的近半個(gè)世紀(jì)里,在語(yǔ)音信號(hào)處理方面的研究已經(jīng)為社會(huì)生活帶來(lái)了深遠(yuǎn)的影響和極大的便利。作為語(yǔ)音信號(hào)處理的關(guān)鍵分支,語(yǔ)音識(shí)別技術(shù)己經(jīng)走出實(shí)驗(yàn)室,在諸多領(lǐng)域有著廣泛的應(yīng)用,成為了智能計(jì)算機(jī)研究的主要分支和人機(jī)語(yǔ)音通信的主要途徑之一。由于語(yǔ)音識(shí)別本身所存在的巨大商業(yè)價(jià)值,世界各大公司紛紛在這方面投以巨資,讓這項(xiàng)技術(shù)取得了長(zhǎng)足的開(kāi)展,并已經(jīng)進(jìn)入社會(huì)的各個(gè)領(lǐng)域之中。在以后的生活中,語(yǔ)音識(shí)別會(huì)扮演越來(lái)越重要的角色,為人類社會(huì)的開(kāi)展帶來(lái)更大的便利。目前,語(yǔ)音識(shí)別技術(shù)主要有兩個(gè)開(kāi)展方向,即大詞匯量的語(yǔ)音識(shí)別系統(tǒng)和小型化、便攜式的語(yǔ)音識(shí)別系統(tǒng)。其中,大詞匯量的語(yǔ)音識(shí)別系統(tǒng)算法復(fù)雜,實(shí)現(xiàn)難度大,主要用于聽(tīng)寫機(jī)等設(shè)備;小型的語(yǔ)音識(shí)別系統(tǒng),尤其是基于特定人孤立詞的語(yǔ)音識(shí)別系統(tǒng),在很多行業(yè)中已經(jīng)有了廣泛的應(yīng)用。盡管小型語(yǔ)音識(shí)別系統(tǒng)正日臻完善,但是由于語(yǔ)音信號(hào)的隨機(jī)性較大,而且對(duì)背景噪聲極為敏感的特點(diǎn),導(dǎo)致在通常情況下識(shí)別率很難到達(dá)100%,而一旦背景噪聲增大,系統(tǒng)的識(shí)別率更會(huì)迅速降低。基于以上原因,我們必須對(duì)語(yǔ)音識(shí)別做進(jìn)一步的研究工作。本文的研究目的就是要找出一套適合于特定人孤立詞語(yǔ)音識(shí)別的系統(tǒng)方案。第一章語(yǔ)音識(shí)別相關(guān)技術(shù)1.1語(yǔ)音識(shí)別概述1.1.1語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),它的根本結(jié)構(gòu)如圖1-1所示,與一般模與一般模式識(shí)別系統(tǒng)一樣包括有特征提取、模式匹配、參考模式庫(kù)等三個(gè)根本單元,一般分兩個(gè)步驟。第一步是系統(tǒng)學(xué)習(xí)或訓(xùn)練階段。這一階段的任務(wù)是建立識(shí)別根本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型,即構(gòu)建參考模式庫(kù)。第二步是識(shí)別或測(cè)試階段。根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的一種識(shí)別方法,采用語(yǔ)音信號(hào)處理方法分析出這種識(shí)別方法所需求的語(yǔ)音特征參數(shù),按照一定的準(zhǔn)那么和測(cè)度與參考模式庫(kù)中的模型進(jìn)行比擬,通過(guò)判決得出結(jié)果。圖1-1語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)框圖語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)要考慮到效勞對(duì)象、詞表大小、發(fā)音方式、任務(wù)性質(zhì)等許多因素。按不同的影響因素,語(yǔ)音識(shí)別系統(tǒng)可以做許多分類。1.根據(jù)效勞對(duì)象分為:特定人和非特定人這里所說(shuō)的效勞對(duì)象,是指所研制的識(shí)別系統(tǒng)是考慮提供應(yīng)特定的人使用的,還是不確定的任意人使用的,即有特定人識(shí)別系統(tǒng)和非特定人識(shí)別系統(tǒng)之分。2.根據(jù)詞表大小分類:大、中、小詞匯量每一個(gè)語(yǔ)音識(shí)別系統(tǒng)都有一個(gè)詞匯表,系統(tǒng)只能識(shí)別詞匯表中包含的詞匯。很明顯，隨著詞匯數(shù)目的增加,識(shí)別器的難度一般會(huì)增加。這是由于:詞匯越多,潛在的詞間相似性會(huì)增加,分辨愈困難;隨著詞條數(shù)增加,系統(tǒng)的搜索運(yùn)算開(kāi)銷及存儲(chǔ)開(kāi)銷就增加。3.根據(jù)發(fā)音方式分為:孤立詞和連續(xù)語(yǔ)音發(fā)音方式指的是采用孤立詞發(fā)音方式還是連續(xù)語(yǔ)音發(fā)音方式。一般的孤立詞識(shí)別系統(tǒng)的結(jié)構(gòu)比擬簡(jiǎn)單,其原理框圖如圖1-1所示,詞表中每個(gè)詞對(duì)應(yīng)有一個(gè)參考模式,它是由這個(gè)詞重復(fù)發(fā)音多遍,再經(jīng)特征提取和某種訓(xùn)練算法得到的。孤立詞的發(fā)音,詞與詞之間要有足夠的時(shí)間間隙,以便能夠檢測(cè)到首末點(diǎn)。對(duì)于連續(xù)語(yǔ)音發(fā)音方式通常采用連續(xù)語(yǔ)音識(shí)別系統(tǒng),其系統(tǒng)結(jié)構(gòu)更為復(fù)雜,碰到的困難也更多[1]。1.1.2語(yǔ)音識(shí)別的步驟語(yǔ)音信號(hào)首先經(jīng)過(guò)預(yù)處理(含AD轉(zhuǎn)換)變成滿足要求的離散數(shù)字信號(hào);然后對(duì)其進(jìn)行頻譜分析,提取出語(yǔ)音信號(hào)的參數(shù)化表示(或稱待識(shí)別未知模式),通常是由特征矢量構(gòu)成的特征矩陣;在識(shí)別過(guò)程中,再把此模式和數(shù)據(jù)庫(kù)中的參考模式進(jìn)行比擬;最后由識(shí)別決策來(lái)決定是否識(shí)別,并給出結(jié)果[2]。預(yù)處理預(yù)處理的內(nèi)容很豐富,首先是A/D轉(zhuǎn)換,其目的就是將麥克風(fēng)錄入的原始模擬語(yǔ)音信號(hào)采樣量化成能夠被程序控制和處理的數(shù)字信號(hào)。特征提取經(jīng)過(guò)對(duì)語(yǔ)音信號(hào)的預(yù)處理之后就要進(jìn)行特征參數(shù)的提取,特征提取是任何一個(gè)模式識(shí)別處理問(wèn)題首先要解決的問(wèn)題。在語(yǔ)音信號(hào)的特征提取中對(duì)特征參數(shù)的要求是:〔1〕能有效代表語(yǔ)音特征,具有良好的區(qū)分性;〔2〕特征參數(shù)之間有良好的獨(dú)立性;(3)特征參數(shù)易于計(jì)算,最好能保證語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。線性預(yù)測(cè)系數(shù)是能夠有效地表征語(yǔ)音的全極點(diǎn)模型參數(shù)。在語(yǔ)音信號(hào)的頻域特征參數(shù)中,目前使用最為廣泛的是線性預(yù)測(cè)倒譜系數(shù)〔LPCC)和美爾頻率倒譜系數(shù)(MFCC)，MFCC在非特定人識(shí)別方面性能優(yōu)越于LPCC。但求解MFCC系數(shù)需要快速傅立葉變換(FFT)、三角濾波、取對(duì)數(shù)和離散余弦變換(DCT)等過(guò)程,運(yùn)算復(fù)雜,LPCC在特定人的語(yǔ)音識(shí)別方面也具有較好的效果,其運(yùn)算量相對(duì)較小。本系統(tǒng)設(shè)計(jì)采用LPCC系數(shù),本文也將主要介紹線性預(yù)測(cè)倒譜系數(shù)(LPCC)[3]。識(shí)別判決語(yǔ)音識(shí)別過(guò)程就是根據(jù)模式匹配原那么,按照一定的相似性度量法那么,使未知模式與參考模式庫(kù)中的某一個(gè)參考模型獲得最正確匹配的過(guò)程。1.2預(yù)處理及特征參數(shù)提取1.2.1語(yǔ)音信號(hào)的預(yù)處理由于自然界的語(yǔ)音都是模擬信號(hào),假設(shè)希望對(duì)語(yǔ)音信號(hào)做處理,必須將其轉(zhuǎn)變成數(shù)字信號(hào),再對(duì)數(shù)字信號(hào)進(jìn)行整理分析,濾除不必要的信息。這個(gè)過(guò)程就被稱為語(yǔ)音信號(hào)的預(yù)處理,它包括數(shù)字化、預(yù)加重和加窗分幀三個(gè)局部。數(shù)字化語(yǔ)音信號(hào)的數(shù)字化是將語(yǔ)音模擬信號(hào)轉(zhuǎn)變成為數(shù)字信號(hào)的過(guò)程,這個(gè)過(guò)程分為兩個(gè)步驟:采樣和量化。圖1-2語(yǔ)音信號(hào)數(shù)字化過(guò)程采樣就是把信號(hào)在等間隔的時(shí)間上進(jìn)行抽取,得到離散的序列,并將其轉(zhuǎn)換成數(shù)字?！?-1〕其中n為整數(shù);T為采樣周期,是原始模擬信號(hào)。雖然語(yǔ)音信號(hào)的頻率最大值可達(dá)1okHz,但是語(yǔ)音中對(duì)聲音的清晰度有最重要影響的還是集中在300一3400Hz之間,而根據(jù)采樣定理,只有當(dāng)采樣頻率大于信號(hào)自身頻率的2倍時(shí),才不會(huì)導(dǎo)致信息的喪失,因此本文選擇8kHz的采樣頻率。在對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化之前,由于信號(hào)中可能存在一些在信號(hào)頻率之后的的背景噪聲,因此為了防止噪聲干擾,需要對(duì)信號(hào)進(jìn)行帶通濾波處理,濾除信號(hào)中的背景噪聲,以保證信號(hào)的有效性。預(yù)加重當(dāng)人發(fā)濁音時(shí),聲門振蕩產(chǎn)生的是準(zhǔn)周期性的脈沖串,而這樣的脈沖形狀和理想的占脈沖性比,會(huì)導(dǎo)致信號(hào)在高頻局部產(chǎn)生一12db/oct的衰減作用。由于輻射模型可以看做是一個(gè)一階的差分方程,它會(huì)引起語(yǔ)音的高頻局部產(chǎn)生6db/oct的提升作用,因此總的來(lái)說(shuō)語(yǔ)音信號(hào)的高頻有一6db/oct的衰減,即頻率每增加一倍信號(hào)的功率就會(huì)減少1/4,因此,為了抵消這種影響,就要在預(yù)處理中對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重。預(yù)加重的可以提升語(yǔ)音的高頻局部,使信號(hào)的頻譜變得平坦,這樣就能消除聲道模型中的極點(diǎn)帶來(lái)的影響預(yù)加重可以放在模數(shù)轉(zhuǎn)換之后進(jìn)行,用具有與6db/otc。相當(dāng)?shù)念A(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),一般來(lái)說(shuō),用一階數(shù)字濾波器濾波器,即來(lái)實(shí)現(xiàn)。分幀加窗在對(duì)語(yǔ)音信號(hào)進(jìn)行分析的過(guò)程中,信號(hào)流的處理通常是以分幀的前提來(lái)實(shí)現(xiàn)的。也就是以一定的長(zhǎng)度對(duì)信號(hào)進(jìn)行截取,這個(gè)長(zhǎng)度就是幀長(zhǎng)。從時(shí)域上來(lái)分析,信號(hào)具有短時(shí)平穩(wěn)的特性,也就是說(shuō)在10到2Oms這么短的一段時(shí)間內(nèi),可以將信號(hào)看作是平穩(wěn)的。在本系統(tǒng)中,將幀長(zhǎng)取為2Oms。在對(duì)信號(hào)進(jìn)行分幀時(shí),常采用交疊分段的方法,這樣可以使幀和幀之間的過(guò)度更加的平滑,可以保證數(shù)據(jù)的連續(xù)性。在交疊分段中,前一幀和后一幀的交疊局部稱為幀移,如圖1-1所示。幀移和幀長(zhǎng)之比一般取O到0.5。本文對(duì)音頻信號(hào)進(jìn)行8kHz的采樣,以160個(gè)采樣點(diǎn)為一幀,步長(zhǎng)為80個(gè)采樣點(diǎn)。圖1-3步長(zhǎng)幀移示意圖根據(jù)傅里葉變換的原理,在計(jì)算信號(hào)的頻譜之時(shí),所觀測(cè)信號(hào)的長(zhǎng)度應(yīng)是無(wú)限的,在現(xiàn)實(shí)中對(duì)語(yǔ)音信號(hào)采用分幀截?cái)嗟姆椒▽?duì)信號(hào)進(jìn)行處理。1.2.2線性預(yù)測(cè)系數(shù)LPC1947年維納首次提出了線性預(yù)測(cè)分析(LinearPrediction)方法,之后,線性預(yù)測(cè)就應(yīng)用于許多領(lǐng)域中。1967年,板倉(cāng)等人最先將線性預(yù)測(cè)技術(shù)應(yīng)用到語(yǔ)音分析與合成中。目前,線性預(yù)測(cè)作為一種工具,幾乎普遍地應(yīng)用于語(yǔ)音信號(hào)處理的各個(gè)方面,是最有效和最流行的語(yǔ)音分析技術(shù)之一,線性預(yù)測(cè)能用極少的參數(shù),有效正確的表現(xiàn)出語(yǔ)音信號(hào)的波形及其頻譜特性,而且參數(shù)計(jì)算簡(jiǎn)單、快速,己被成功用于語(yǔ)音識(shí)別、合成、編碼、說(shuō)話人識(shí)別等方面[4]。線性預(yù)測(cè)根本原理：線性分析的根本原理將被分析的信號(hào)用模型來(lái)表示,即將信號(hào)看作是某一個(gè)模型或系統(tǒng)的輸出。這樣,就可以用模型參數(shù)來(lái)描述信號(hào)。模型的系統(tǒng)函數(shù)可以寫成有理分式的形式:(1-2)信號(hào)可以用有限數(shù)目的參數(shù)構(gòu)成的模型來(lái)表示。線性預(yù)測(cè)倒譜系數(shù)(LPCC)在語(yǔ)音識(shí)別系統(tǒng)中很少直接使用LPC系數(shù),而是由LPC系數(shù)推導(dǎo)出參數(shù)線性預(yù)測(cè)倒譜系數(shù)LPCC。倒譜特征的實(shí)質(zhì)就是將信號(hào)作適當(dāng)?shù)耐瑧B(tài)濾波,將信號(hào)中的卷積關(guān)系變?yōu)槌朔e關(guān)系,隨之作對(duì)數(shù)處理使之化為可別離的相加成分,標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行FFT變換、對(duì)數(shù)操作和相位校正等步驟,運(yùn)算比擬復(fù)雜。在實(shí)際計(jì)算中,當(dāng)序列x(n)為最小相位的情況下,可利用序列x(n)及其復(fù)倒譜c(n)的遞推關(guān)系來(lái)簡(jiǎn)化運(yùn)算。1.3基于DTW的語(yǔ)音識(shí)別1.3.1DTW算法原理模板匹配法是多維模式識(shí)別系統(tǒng)中最常用的一種相似度計(jì)算方法,是最早用于語(yǔ)音識(shí)別的方法。這種方法采用某種非線性時(shí)間對(duì)準(zhǔn)算法,解決了發(fā)音長(zhǎng)短不一的問(wèn)題。常用的是基于最近鄰原那么的動(dòng)態(tài)時(shí)間規(guī)整方法,簡(jiǎn)稱DTW,是效果最好的一種非線性時(shí)間規(guī)整模板匹配算法,在孤立詞語(yǔ)音識(shí)別中獲得了成功的應(yīng)用[5]。DTW就是將發(fā)音在時(shí)間軸進(jìn)行彎曲,以使兩次發(fā)音能夠更好的匹配。假設(shè)己存入的參考模板為:R(1,2，...，M),測(cè)試模板為:T(1,2，...，N),其相似度用距離D=[T,R]來(lái)表示,假設(shè)n和m分別是T和R中任意選擇的幀號(hào),D=T(n),R(m)]表示兩幀之間的距離。在DTW算法中通常采用歐式距離,距離越小相似度越高。假設(shè)N=M那么可以直接計(jì)算,否那么要考慮將T(n),R(m)對(duì)齊,對(duì)齊采用線性擴(kuò)張的方法,如果N<M可以將T線性映射為一個(gè)M幀的序列,再計(jì)算它與R{R(l),R(2),,,R(M)}之間的距離,但這樣的計(jì)算沒(méi)有考慮語(yǔ)音中各個(gè)段在不同情況下的持續(xù)時(shí)間會(huì)產(chǎn)生的變化,因此識(shí)別效果不好,更多情況下是采用動(dòng)態(tài)規(guī)劃(DP)的方法。DP算法就是要尋找一個(gè)最正確的時(shí)間規(guī)整函數(shù),使被測(cè)語(yǔ)音模板的時(shí)間軸M非線性地映射到參考模板的時(shí)間軸N,使總的累積失真量最小。1.3.2DTW算法的改良傳統(tǒng)的DTW算法的缺點(diǎn)是模板匹配的運(yùn)算量太大,當(dāng)兩個(gè)模板的長(zhǎng)度較大時(shí),訓(xùn)練和識(shí)別算法的運(yùn)算量就相當(dāng)大。實(shí)際上,在匹配的路徑中限定了規(guī)整路徑的斜率,因此許多網(wǎng)格點(diǎn)是達(dá)不到,所以平行四邊形外的網(wǎng)格點(diǎn)是不需要計(jì)算的,另外也沒(méi)必要保存所有幀的匹配距離矩陣和累積距離矩陣[6]。改良型DTW算法大大提高了運(yùn)算效率,它把實(shí)際路徑分為三段:(1-3)其中=1/3(2M-N),=2/3(2N一M),和都取最相近的整數(shù)。如圖1-4所示由此也得出了對(duì)M和N長(zhǎng)度的限制條件2M-N≥3,2N-M≥2,當(dāng)限制條件不滿足時(shí),即說(shuō)明語(yǔ)音和模板的長(zhǎng)度相差太大,匹配意義不大,不進(jìn)行動(dòng)態(tài)規(guī)劃匹配,在x坐標(biāo)軸上的每一幀與Y坐標(biāo)軸上間的幀做比擬,的計(jì)算公式如下:(1-4)圖1-4匹配路徑約束示意圖1.3.3匹配模板的訓(xùn)練方法偶然訓(xùn)練法當(dāng)待識(shí)別詞表不太大且系統(tǒng)為特定人設(shè)計(jì)時(shí),可以采用一種簡(jiǎn)單的多模板訓(xùn)練方法。即每個(gè)詞的每一遍讀音形成一個(gè)模板,在識(shí)別時(shí),待識(shí)別矢量序列用DTW算法分別求得與每個(gè)模扳的累計(jì)失真,然后判別它屬于哪一個(gè)。但由于語(yǔ)音的偶然性很大,且訓(xùn)練時(shí)讀音可能存在錯(cuò)誤,比方不正確的音聯(lián)。錯(cuò)誤發(fā)音亦得不到糾正,故這種方法形成的模板魯棒性不好,這也是這種方法被稱為偶然訓(xùn)練法的原因。魯棒性訓(xùn)練法團(tuán)魯棒性訓(xùn)練是一種串行訓(xùn)練法。將每一詞重復(fù)說(shuō)多遍直到得到一對(duì)一致性較好的特征矢量序列。最終得到的模板是在一致性較好的特征矢量序列對(duì)在沿DTW的路徑上求平均。其訓(xùn)練過(guò)程可描述如下:假定只考慮某個(gè)特定的詞。令X1={X11,X12,...,X1r,}為第一遍的特征矢量序列,X2={X21,X22,...,X2r,}為另一遍的特征矢量序列,通過(guò)DTW算法計(jì)算這兩個(gè)模板的失真d(xl,x2),如果d(xl,x2)小于某個(gè)門限,便認(rèn)為這兩遍特征矢量序列一致性較好,便可求xl和的時(shí)間彎折平均而得到一個(gè)新模板。具體求法如下:令T為DTW算法的最優(yōu)路徑長(zhǎng)度,最終得到最優(yōu)路徑序列。(1-5)新模板Y可通過(guò)下式求得:(1-6)非特定人識(shí)別任務(wù)的模板訓(xùn)練算法一聚類[7]對(duì)于非特定人語(yǔ)音識(shí)別,要想獲得較高的識(shí)別率,就須對(duì)多組訓(xùn)練數(shù)據(jù)進(jìn)行聚類,以獲得可靠的案板參數(shù)。最初的孤立詞識(shí)別采用人工干預(yù)的聚類方法,這些方法盡管有效,但由于人工干預(yù)的繁瑣工作,阻礙其廣泛應(yīng)用。為了解決這個(gè)問(wèn)題,人們提出過(guò)一系列的聚類算法。這些聚類算法與常規(guī)的模式聚類方法的主要不同點(diǎn)是:語(yǔ)音識(shí)別模板的聚類,針對(duì)的是有時(shí)序關(guān)系的特征序列,而不是維數(shù)固定的模式,訓(xùn)練方法復(fù)雜,主要用于非特定人的語(yǔ)音識(shí)別。第二章系統(tǒng)軟件設(shè)計(jì)2.1主程序流程語(yǔ)音識(shí)別系統(tǒng)在整個(gè)程序的設(shè)計(jì)中,系統(tǒng)進(jìn)入主程序之后主程序采用調(diào)用子程序的方式來(lái)完成對(duì)語(yǔ)音模板的訓(xùn)練以及識(shí)別等任務(wù)。圖2-1語(yǔ)音識(shí)別主程序流程圖2-1為系統(tǒng)的主程序流程。系統(tǒng)運(yùn)行之后,有按鍵按下之時(shí),判斷為何種命令,如果是模板訓(xùn)練命令那么進(jìn)行模板訓(xùn)練的算法操作,語(yǔ)音識(shí)別命令那么執(zhí)行語(yǔ)音識(shí)別子程序。2.2模板的訓(xùn)練與識(shí)別程序模板的訓(xùn)練程序主要完成從開(kāi)始采集語(yǔ)音信號(hào)到最終生成語(yǔ)音參考模板的全過(guò)程,而識(shí)別子程序那么完成采集待識(shí)別語(yǔ)音信號(hào)到最終通過(guò)模式匹配得出識(shí)別結(jié)果。在模板的訓(xùn)練中,對(duì)每個(gè)詞進(jìn)行三次錄音,將信號(hào)進(jìn)行處理之后,根據(jù)DTW匹配計(jì)算這三個(gè)詞之間的相互距離,并找到距離最短的兩段信號(hào),采用平均模板的算法將這兩段信號(hào)進(jìn)行平均,得到新的矢量作為最終模板。模板訓(xùn)練的流程如圖3-2所示。圖2-2模板訓(xùn)練流程圖2-3為進(jìn)行語(yǔ)音識(shí)別時(shí)的流程圖,其大致過(guò)程與模板訓(xùn)練的過(guò)程相似圖2-3識(shí)別子程序流程從圖2-2和2-3可以看出,在進(jìn)行模板訓(xùn)練和語(yǔ)音識(shí)別的時(shí)候,需要反復(fù)調(diào)用很多子程序,這其中包括預(yù)處理、端點(diǎn)檢測(cè)、特征參數(shù)的提取等。這些算法的原理和方法在第一章中已經(jīng)有了詳細(xì)的介紹,在下面幾節(jié)中將距離給出這些算法的流程圖。2.3端點(diǎn)檢測(cè)子程序本系統(tǒng)對(duì)于語(yǔ)音信號(hào)采用8kHz的頻率進(jìn)行采樣,之后對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重和加窗處理。本文采用的是一階高通數(shù)字濾波器1-z-1,實(shí)現(xiàn)預(yù)加重,采用漢明窗對(duì)數(shù)字信號(hào)進(jìn)行加窗,其中0.91.0,取u=0.94。預(yù)加重流程如圖2-4,其中N為采樣點(diǎn)數(shù)。圖2一4預(yù)加重流程通過(guò)預(yù)加重處理之后的信號(hào)通過(guò)矩形窗進(jìn)行加窗分幀。本系統(tǒng)語(yǔ)音信號(hào)處理的幀長(zhǎng)度取20ms,因此,每幀有160個(gè)采樣點(diǎn),幀移和幀長(zhǎng)之比選為0.5,因幀移選擇為80。2.4特征提取子程序本系統(tǒng)在對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取時(shí),采用LPCC作為特征矢量。LPC階數(shù)的選取決定了語(yǔ)音識(shí)別過(guò)程中的計(jì)算量,也決定了語(yǔ)音模型的階數(shù),對(duì)語(yǔ)音識(shí)別系統(tǒng)的性能有著重要影響。當(dāng)階數(shù)選擇在8到32之間的時(shí)候,LPC一般可以較好地表征聲學(xué)特性[10]。而且隨著LPC的階數(shù)的增加,語(yǔ)音識(shí)別率并不是一直升高,這是由于階數(shù)增加的時(shí)候,預(yù)測(cè)系數(shù)受語(yǔ)音信號(hào)中的隨機(jī)信息的影響也越來(lái)越大,以及有限字長(zhǎng)等一系列效應(yīng),都會(huì)導(dǎo)致系統(tǒng)識(shí)別率的降低[11]而且隨著階數(shù)的增加,由1.2節(jié)的算法原理可知,系統(tǒng)的計(jì)算量也會(huì)隨著特征模型階數(shù)的增加以幾何倍數(shù)而增加,這樣也并不利于系統(tǒng)在單片機(jī)上的實(shí)現(xiàn)。因此,必須合理的選擇階數(shù)才能讓系統(tǒng)的性能到達(dá)最高。本系統(tǒng)所采用8kHz的頻率語(yǔ)音信號(hào)進(jìn)行采樣,而8kHz的采樣信號(hào)通常有4個(gè)共振峰[12],因此取p=8。此外為了彌補(bǔ)鼻音中存在的零點(diǎn)以及其他因素引起的偏差,通常在上述階數(shù)的根底上再增加兩個(gè)極點(diǎn),p=10。在對(duì)LPCC的提取之前,首先要對(duì)語(yǔ)音信號(hào)進(jìn)行LPC特征參數(shù)的提取,之后再對(duì)其進(jìn)行倒譜計(jì)算,定義變量i來(lái)表示當(dāng)前處理到的幀數(shù),N來(lái)表示經(jīng)過(guò)端點(diǎn)檢測(cè)之后所保存的幀數(shù),即N=I_End-1start+1,定義E來(lái)存放最小誤差能量.本系統(tǒng)使用矩陣c[]J[p+2]來(lái)存放語(yǔ)音信號(hào)的LPCC參數(shù)以語(yǔ)音信號(hào)的第i幀為例,其計(jì)算流程如圖2-5所示。圖2-5LPCC參數(shù)計(jì)算流程第三章實(shí)驗(yàn)與分析3.1系統(tǒng)實(shí)驗(yàn)平臺(tái)介紹本文在對(duì)系統(tǒng)的實(shí)驗(yàn)研究中,針對(duì)上文所分析的各種算法采用MATLAB構(gòu)建了一個(gè)語(yǔ)音識(shí)別系統(tǒng)。在錄制音頻信號(hào)時(shí),通過(guò)調(diào)用wavrecord函數(shù),以8kHz的采樣率對(duì)語(yǔ)音信號(hào)進(jìn)行8位采樣,之后將信號(hào)進(jìn)行歸一化。對(duì)于歸一化之后的數(shù)字信號(hào),采用巴特沃斯數(shù)字濾波器對(duì)信號(hào)進(jìn)行濾波,然后對(duì)信號(hào)分別進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征提取、模板訓(xùn)練、語(yǔ)音識(shí)別等操。系統(tǒng)在運(yùn)行時(shí),首先需要對(duì)語(yǔ)音模板進(jìn)行訓(xùn)練。調(diào)用wavrecord函數(shù)對(duì)每個(gè)信號(hào)進(jìn)行三次錄制,通過(guò)預(yù)處理、端點(diǎn)檢測(cè)、特征提取之后,找到距離最近的段音頻信號(hào),采用平均模板的方法生成新的向量作為語(yǔ)音模板。在語(yǔ)音識(shí)別之時(shí),同樣采用wavrecord函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行錄制,提取出相應(yīng)的特征模板,與已存的模板進(jìn)行匹配,找到與已存模板DTW距離最小的那個(gè)模板,也就是對(duì)應(yīng)的識(shí)別結(jié)果。本系統(tǒng)在研究語(yǔ)音識(shí)別的相關(guān)算法之時(shí),采用MATLABGUIDE結(jié)合代碼設(shè)計(jì)了一個(gè)語(yǔ)音信號(hào)處理系統(tǒng),系統(tǒng)界面如圖3-1所示。圖3-1語(yǔ)音信號(hào)處理界面圖3-1所示的系統(tǒng)中，包含預(yù)處理、平均幅度、過(guò)零率、端點(diǎn)檢測(cè)、DTW路徑計(jì)算等多種功能。讀取兩端音頻信號(hào)之后就可進(jìn)行相應(yīng)的算法實(shí)驗(yàn)。通過(guò)點(diǎn)擊相應(yīng)的按鈕以完成不同的子函數(shù)調(diào)用來(lái)實(shí)現(xiàn)不同功能。3.2實(shí)驗(yàn)方案設(shè)計(jì)由于本系統(tǒng)的定位是特定人孤立詞的語(yǔ)音識(shí)別，因此在實(shí)驗(yàn)過(guò)程中，為了能夠表達(dá)系統(tǒng)對(duì)特定人以及孤立詞的識(shí)別效果，為以后的研究做參考，共設(shè)計(jì)了以下4種方案：1．對(duì)于同一特定人，在安靜在安靜的環(huán)境下對(duì)數(shù)據(jù)1到10及“黑〞、“龍〞、“江〞、“大〞、“學(xué)〞共15個(gè)孤立字語(yǔ)音模版進(jìn)行訓(xùn)練后，分別在安靜條件、信噪比分別為40db30db、25db的環(huán)境下對(duì)每個(gè)信號(hào)進(jìn)行20次的識(shí)別實(shí)驗(yàn),記錄下系統(tǒng)在這些環(huán)境下的識(shí)別率作為實(shí)驗(yàn)結(jié)果。2．對(duì)同一個(gè)特定人,在安靜的環(huán)境下分別采集“前進(jìn)〞、“后退〞、“確認(rèn)〞、“停止〞、“取消〞、“關(guān)閉〞六條孤立詞的語(yǔ)音命令作為訓(xùn)練模板,采用與第一種實(shí)驗(yàn)相同的方案進(jìn)行實(shí)驗(yàn),記錄下實(shí)驗(yàn)結(jié)果。3．對(duì)于同一特定人,在安靜情況下采用“黑龍江大學(xué)〞、“信息學(xué)院〞、“端點(diǎn)檢測(cè)〞、“特定提取〞、“動(dòng)態(tài)規(guī)劃〞、“模板訓(xùn)練〞、“語(yǔ)音識(shí)別〞共七段語(yǔ)音信號(hào)作為識(shí)別對(duì)象,經(jīng)訓(xùn)練后在多種噪聲環(huán)境下進(jìn)行一系列的實(shí)驗(yàn)。4．為了反映算法對(duì)于不同的特定人語(yǔ)音的識(shí)別率,增加對(duì)于非特定人之間的識(shí)別方案"在安靜條件下對(duì)總共三位特定人共采集1到10共10個(gè)數(shù)字聲音信號(hào)以及“黑〞、“龍〞、“江〞、“大〞、“學(xué)〞05個(gè)孤立字信號(hào),每位特定人14段音頻信號(hào),共51段語(yǔ)音信號(hào),將這些信號(hào)作為參考模板庫(kù)。之后,對(duì)三位特定人在不同的信噪比環(huán)境下采用傳統(tǒng)的DTW方法以及簡(jiǎn)化的DTW算法進(jìn)行屢次識(shí)別實(shí)驗(yàn),并記錄下實(shí)驗(yàn)結(jié)果。在以上所設(shè)計(jì)的四種實(shí)驗(yàn)方案中,實(shí)驗(yàn)方案1和方案2主要用于檢驗(yàn)系統(tǒng)對(duì)特定人孤立詞的識(shí)別能力,以及系統(tǒng)在不同的噪聲環(huán)境中識(shí)別率的規(guī)律所在。通過(guò)這兩次實(shí)驗(yàn),找出系統(tǒng)所適用的信噪比范圍；方案3那么主要用于在系統(tǒng)所適用的背景噪聲范圍內(nèi)對(duì)于較長(zhǎng)詞匯的識(shí)別率;方案4側(cè)重于研究系統(tǒng)對(duì)于不同的特定人的區(qū)分能力。3.3實(shí)驗(yàn)結(jié)果與分析表3-1為第二種實(shí)驗(yàn)方案的識(shí)別結(jié)果。從表中可以看出,識(shí)別率隨著信噪比的減小而越來(lái)越小。同時(shí),這是因?yàn)椴捎迷~語(yǔ)作為識(shí)別對(duì)象的時(shí)候,語(yǔ)音信號(hào)的隨機(jī)性更高,語(yǔ)速過(guò)快或者過(guò)慢時(shí),所生成的特征向量的維數(shù)會(huì)發(fā)生變化,導(dǎo)致匹配過(guò)程中的距離增大,從而影響到系統(tǒng)的識(shí)別率。表3-1雙字詞匯識(shí)別結(jié)果表識(shí)別對(duì)象安靜條件識(shí)別率40db識(shí)別率30db識(shí)別率25db識(shí)別率前進(jìn)90%80%60%50%后退100%80%80%70%確認(rèn)95%90%60%55%停止100%100%100%100%取消100%90%85%80%關(guān)閉95%90%80%60%平均識(shí)別率96.7%88.3%77.5%69.2%通過(guò)前兩次的實(shí)驗(yàn)可以看出,本系統(tǒng)所設(shè)計(jì)的算法并不適用于有較大外部噪聲的情況,也就是說(shuō)信噪比應(yīng)在30db以上才能保證一定的識(shí)別率,當(dāng)信噪比低于30db之時(shí),在很多詞匯上,尤其是相近以及輕易比擬明顯的語(yǔ)音上,識(shí)別率都會(huì)大大下降。表3-2四字詞匯識(shí)別結(jié)果識(shí)別對(duì)象安靜條件識(shí)別率40db識(shí)別率30db識(shí)別率黑龍江大學(xué)80%60%45%信息學(xué)院100%90%80%端點(diǎn)檢測(cè)70%65%70%特征提取95%95%90%動(dòng)態(tài)規(guī)那么90%80%65%模板訓(xùn)練95%95%85%語(yǔ)音識(shí)別100%80%85%平均識(shí)別率90%80.7%74.3%表3-2為方案3的實(shí)驗(yàn)結(jié)果。由于前兩種方案己經(jīng)得出系統(tǒng)只適合在信噪比為3Odb以上的環(huán)境中進(jìn)行實(shí)驗(yàn),因而只采用了三種背景作為實(shí)驗(yàn)環(huán)境。通過(guò)實(shí)驗(yàn)數(shù)據(jù)可以看出,系統(tǒng)對(duì)于較長(zhǎng)詞匯的識(shí)別率相比于短小詞匯來(lái)說(shuō)有一定下降,這是由于詞語(yǔ)較長(zhǎng),當(dāng)特定人進(jìn)行發(fā)音之時(shí),語(yǔ)速的快慢變得尤為明顯。而較快的語(yǔ)音對(duì)應(yīng)著較大的模板,較短的語(yǔ)音對(duì)應(yīng)著較小的模板"就算是同一位特定人,對(duì)于四字詞匯的發(fā)音時(shí)間也會(huì)有較大變化,從而導(dǎo)致了語(yǔ)音信號(hào)的長(zhǎng)短不一。另外,對(duì)于長(zhǎng)詞匯的語(yǔ)音信號(hào)來(lái)說(shuō),如果語(yǔ)速過(guò)慢就會(huì)導(dǎo)致端點(diǎn)檢測(cè)時(shí)出現(xiàn)問(wèn)題,導(dǎo)致識(shí)別率降低,并最終導(dǎo)致識(shí)別率的下降。表3-3非特定人孤立詞識(shí)別結(jié)果安靜條件識(shí)別率40db識(shí)別率30db識(shí)別率語(yǔ)音正確率92.6%91.3%83.9%信息學(xué)院93.9%92.6%85.2%端點(diǎn)檢測(cè)90.9%88.2%78.2%表3-3為第4種實(shí)驗(yàn)方案的實(shí)驗(yàn)結(jié)果。從表上可以看出,相比于特定人孤立字來(lái)說(shuō),系統(tǒng)的識(shí)別成功率有所下降,但是在很安靜的情況下系統(tǒng)的識(shí)別率仍然保持在了90%以上,說(shuō)明本算法對(duì)于對(duì)于不同的特定人有一定的區(qū)分能力。由于本實(shí)驗(yàn)主要采用MATLAB進(jìn)行算法仿真,因此為了研究此系統(tǒng)在單片機(jī)上運(yùn)行的可行性,錄制了多個(gè).wav音頻文件,并進(jìn)行大量的語(yǔ)音信號(hào)處理和模板匹配的實(shí)驗(yàn),記錄下總的運(yùn)行時(shí)間。由于實(shí)驗(yàn)時(shí)間受到孤立詞長(zhǎng)度等因素的影響,不同的詞長(zhǎng)對(duì)應(yīng)的運(yùn)行時(shí)間不一樣,因此采用孤立字作為研究對(duì)象。另外,為了計(jì)算匹配時(shí)的計(jì)算速度,選取兩組孤立詞音頻,每組10段,其中一組作為模板,另外一組每個(gè)音頻信號(hào)與模板中的10個(gè)進(jìn)行匹配實(shí)驗(yàn),總共100次匹配,記錄下總時(shí)間。實(shí)驗(yàn)說(shuō)明,總共100次匹配的平均時(shí)間為475ms,每次的匹配平均時(shí)間為4.75ms,因此10段模板,那么待識(shí)別信號(hào)與所有模板匹配所需的時(shí)間為47.5ms。可以推斷,一段孤立字信號(hào)從錄制完畢,到提取出特征向量,一直到與已存的10段模板信號(hào)進(jìn)行模式匹配找到最正確匹配結(jié)果需要100ms左右。而本實(shí)驗(yàn)系統(tǒng)的主頻為1.8GHz,采用的犯位操作系統(tǒng),因此,如果將系統(tǒng)移植到8位單片機(jī)之上,計(jì)算時(shí)間會(huì)大大增加,基于這些原因,還需要對(duì)系統(tǒng)的算法進(jìn)行進(jìn)一步的簡(jiǎn)化處理。通過(guò)以上的實(shí)驗(yàn),大致可以得出以下結(jié)論:(l)本系統(tǒng)在安靜條件下的條件下對(duì)于孤立詞能夠到達(dá)一定的識(shí)別率。(2)隨著信噪比的降低,系統(tǒng)的識(shí)別率也會(huì)下降。在信噪比大于30曲的環(huán)境下時(shí)系統(tǒng)能保證較高的識(shí)別率。(3)詞長(zhǎng)度的增加,系統(tǒng)的識(shí)別率會(huì)下降。(4)對(duì)于不同的特定人有一定的區(qū)分能力,但是識(shí)別率會(huì)比同一位特定人要低。(5)假設(shè)要將系統(tǒng)移植到單片機(jī)之上,還需要進(jìn)一步的簡(jiǎn)化。結(jié)論語(yǔ)音識(shí)別在未來(lái)的通信領(lǐng)域有著廣闊的開(kāi)展前景。本文主要研究基于C805IF040單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)。算法上采用動(dòng)態(tài)時(shí)間規(guī)整DTW理論和方法,進(jìn)行特定人、短小詞匯的嵌入式語(yǔ)音系統(tǒng)。本文研究的主要內(nèi)容包括:(l)討論了語(yǔ)音信號(hào)處理中的主要技術(shù),包括預(yù)處理、端點(diǎn)檢測(cè)、特征提取等一系列算法,并針對(duì)本系統(tǒng)的目的對(duì)各類算法進(jìn)行了選取并對(duì)其中的一些環(huán)節(jié)作了改良。(2)對(duì)語(yǔ)音識(shí)別中的DTW算法進(jìn)行了原理性介紹,通過(guò)對(duì)算法的分析,總結(jié)出傳統(tǒng)的DTW算法在很多地方的缺乏,采用一種全局限制的DTW算法,大大減少了系統(tǒng)的計(jì)算量,經(jīng)過(guò)實(shí)驗(yàn)證明了這種算法的有效性。在進(jìn)行模板匹配的過(guò)程中,采用平均模板的方法,增強(qiáng)了系統(tǒng)的魯棒性。(3)對(duì)系統(tǒng)的硬件組成局部進(jìn)行了設(shè)計(jì)和研究,包括方案的設(shè)計(jì)、功能子程序的設(shè)計(jì)、芯片的選型以及硬件外圍電路的設(shè)計(jì)。(4)對(duì)系統(tǒng)軟件進(jìn)行了開(kāi)發(fā)研究,包括了主程序的設(shè)計(jì)、語(yǔ)音識(shí)別中所采用的一系列算法的設(shè)計(jì)。(5)對(duì)系統(tǒng)的算法進(jìn)行了仿真研究,采用了四種實(shí)驗(yàn)方案,對(duì)系統(tǒng)在不同的背景噪聲環(huán)境下、不同長(zhǎng)度的孤立詞、不同的特定人進(jìn)行了全面的實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果說(shuō)明系統(tǒng)對(duì)于特定人孤立詞有較好的識(shí)別效果。本文對(duì)特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)作了一定的研究,對(duì)語(yǔ)音識(shí)別技術(shù)的研究與使用有一定的借

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔