基于matlab的語(yǔ)音識(shí)別技術(shù)_第1頁(yè)
基于matlab的語(yǔ)音識(shí)別技術(shù)_第2頁(yè)
基于matlab的語(yǔ)音識(shí)別技術(shù)_第3頁(yè)
基于matlab的語(yǔ)音識(shí)別技術(shù)_第4頁(yè)
基于matlab的語(yǔ)音識(shí)別技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、項(xiàng)目題目:基于Matlab的語(yǔ)首識(shí)別一、引言語(yǔ)音識(shí)別技術(shù)是讓計(jì)算機(jī)識(shí)別一些語(yǔ)音信號(hào),并把語(yǔ)音信號(hào)轉(zhuǎn)換成相應(yīng)的文本或者命令的一種高科技技術(shù)。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域非常廣泛,包括信號(hào)處理、模式識(shí)別、人工智能等技術(shù)。近年來(lái)已經(jīng)從實(shí)驗(yàn)室開(kāi)始走向市場(chǎng),滲透到家電、通信、醫(yī)療、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域,讓人們的生活更加方便。語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)有三種依據(jù):詞匯量大小,對(duì)說(shuō)話人說(shuō)話方式的要求和對(duì)說(shuō)話人的依賴程度。(1)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量及無(wú)限詞匯量識(shí)別系統(tǒng)。(2)根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求,可以分為孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)、連接字語(yǔ)音識(shí)別系統(tǒng)及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。(3)根據(jù)對(duì)

2、說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。二、語(yǔ)音識(shí)別系統(tǒng)框架設(shè)計(jì)2.1語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu)果用模塊一處理播以一T-I1榆出站果1_C結(jié)束)一識(shí)別模塊一圖1語(yǔ)音宗附系統(tǒng)泊程圖語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),其基本結(jié)構(gòu)原理框圖如圖l所示,主要包括語(yǔ)音信號(hào)預(yù)處理、特征提取、特征建模(建立參考模式庫(kù))、相似性度量(模式匹配)和后處理等幾個(gè)功能模塊,其中后處理模塊為可選部分。三、語(yǔ)音識(shí)別設(shè)計(jì)步驟3.1 語(yǔ)音信號(hào)的特征及其端點(diǎn)檢測(cè)圖2數(shù)字7'開(kāi)始部分波形圖2是數(shù)字“7"的波形進(jìn)行局部放大后的情況,可以看到,在6800之前的部分信號(hào)幅度很低,明顯屬于靜音。而在6800

3、以后,信號(hào)幅度開(kāi)始增強(qiáng),并呈現(xiàn)明顯的周期性。在波形的上半部分可以觀察到有規(guī)律的尖峰,兩個(gè)尖峰之間的距離就是所謂的基音周期,實(shí)際上也就是說(shuō)話人的聲帶振動(dòng)的周期。這樣可以很直觀的用信號(hào)的幅度作為特征,區(qū)分靜音和語(yǔ)音。只要設(shè)定一個(gè)門(mén)限,當(dāng)信號(hào)的幅度超過(guò)該門(mén)限的時(shí)候,就認(rèn)為語(yǔ)音開(kāi)始,當(dāng)幅度降低到門(mén)限以下就認(rèn)為語(yǔ)音結(jié)束。3.2 語(yǔ)音識(shí)別系統(tǒng)3.2.1 語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)語(yǔ)音識(shí)別按說(shuō)話人的講話方式可分為3類(lèi):(1)即孤立詞識(shí)別(isolatedwordrecognition),孤立詞識(shí)別的任務(wù)是識(shí)別事先已知的孤立的詞,如“開(kāi)機(jī)”、“關(guān)機(jī)”等。(3)連續(xù)語(yǔ)音識(shí)別,連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音,如

4、一個(gè)句子或一段話。從識(shí)別對(duì)象的類(lèi)型來(lái)看,語(yǔ)音識(shí)別可以分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別,特定人是指針對(duì)一個(gè)用戶的語(yǔ)音識(shí)別,非特定人則可用于不同的用戶。顯然,非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但它要比針對(duì)特定人的識(shí)別困難得多。3.2.2 語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)方案如圖3所示。輸入的模擬語(yǔ)音信號(hào)首先要進(jìn)行處理,包括預(yù)濾波,采樣和量化,加窗,端點(diǎn)檢測(cè),預(yù)加重等。語(yǔ)音信號(hào)經(jīng)處理后,接下來(lái)很重要的一環(huán)就是特征參數(shù)提取。圖3語(yǔ)音識(shí)別系統(tǒng)在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫(kù)。在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過(guò)相同的通道得到語(yǔ)音參數(shù),生成測(cè)試模版,與參考模

5、板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模型作為識(shí)別結(jié)果。3.2.3語(yǔ)音識(shí)別系統(tǒng)的特征參數(shù)提取特征提取是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。語(yǔ)音信號(hào)是一種典型的時(shí)變信號(hào),然而如果把觀察時(shí)間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬,這就是所謂的聲管模型。全極點(diǎn)線性預(yù)測(cè)參數(shù)(LPC:LinerPredictionCoeffieien)t可以對(duì)聲管模型進(jìn)行很好的描述,LP終數(shù)是模擬人的發(fā)聲器官的,是一種基于語(yǔ)音合成的參數(shù)模型。在語(yǔ)音識(shí)別中,很少用LPC(數(shù),而是用LPC到譜參數(shù)(LPCC:Line

6、rPredictionCepstralCoefficient)。LPC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力較差,抗噪聲性能較差。然而,人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)關(guān)系。近年來(lái),一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel倒譜參數(shù)(MFCC:MeLFrequencyCePstralCoeffieie"。MFC參數(shù)能夠比LPC參數(shù)更好地提高系統(tǒng)的識(shí)別性能。03.2.4特定人語(yǔ)音識(shí)別算法一DT啾法在孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法是采用DTW;Dynamic

7、TimeWarping,動(dòng)態(tài)時(shí)間歸整)算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法,用于孤立詞識(shí)別。HMM法在訓(xùn)練階段需要提供大量的語(yǔ)音數(shù)據(jù),通過(guò)反復(fù)計(jì)算才能得到模型參數(shù),而DTWT法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語(yǔ)音識(shí)別中,DTWT法仍然得到廣泛的應(yīng)用。無(wú)論在訓(xùn)練和建立模板階段還是在識(shí)別階段,都先采用端點(diǎn)算法確定語(yǔ)音的起點(diǎn)和終點(diǎn)。已存入模板庫(kù)的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為R=R(1),R(2),R(m,R(M),m為訓(xùn)練語(yǔ)音幀的時(shí)序標(biāo)號(hào),m=1»起點(diǎn)語(yǔ)音幀,m=Mfe終點(diǎn)語(yǔ)音幀,因此泌該

8、模板所包含的語(yǔ)音幀總數(shù),R(M為第n#的語(yǔ)音特征矢量。所要識(shí)別的一個(gè)輸入詞條語(yǔ)音稱為測(cè)試模板,可表示為丁=丁(1),T(2),,T(n),,T(N),n為測(cè)試語(yǔ)音幀的時(shí)序標(biāo)號(hào),n=1為起點(diǎn)語(yǔ)音幀,n=N»終點(diǎn)語(yǔ)音幀,因此N為該模板所包含的語(yǔ)音幀總數(shù),T(n)為第n幀的語(yǔ)音特征矢量。參考模板與測(cè)試模板一般采用相同類(lèi)型的特征矢量(如MFCCLPCC數(shù))、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。四、基于Matlab的語(yǔ)音識(shí)別系統(tǒng)仿真4.1 語(yǔ)音模板的獲取運(yùn)用系統(tǒng)的采集模塊錄制一個(gè)普通男聲聲音,錄制09十個(gè)語(yǔ)音為實(shí)驗(yàn)對(duì)象分別命名為Oa.wav,la.wav,2a.wav,3a.wav,4a.w

9、av,5a.wav,6a.wav,7a.wav,8a.wav,9a.wav分析處理后提取特征參數(shù),經(jīng)過(guò)模板訓(xùn)練,為十個(gè)語(yǔ)音分別選取最合適的語(yǔ)音作為模板,存入數(shù)據(jù)庫(kù)建立參考模型庫(kù)。4.2 語(yǔ)音訓(xùn)練類(lèi)似,錄制一組普通男聲的聲音,同樣為09十個(gè)語(yǔ)音,作為十個(gè)待測(cè)語(yǔ)音信號(hào)。圖4數(shù)字0'的訓(xùn)練波形及系數(shù)4.3語(yǔ)音識(shí)別訓(xùn)練結(jié)束后,用錄音設(shè)備錄入09中的數(shù)字,經(jīng)過(guò)波形及系數(shù)匹配識(shí)別出錄入數(shù)字,并正確顯示識(shí)別結(jié)果。圖4數(shù)字0'的識(shí)別結(jié)果五總結(jié)通過(guò)這次二級(jí)項(xiàng)目,更深入的了解的Matlab軟件強(qiáng)大的功能,了解了利用Matlab軟件進(jìn)行界面設(shè)計(jì)等。學(xué)習(xí)到語(yǔ)音識(shí)別技術(shù)仿真中各函數(shù)的運(yùn)用。在不斷地改進(jìn)和完善中,這次二級(jí)項(xiàng)目終于順利完成。參考文獻(xiàn)1 .何強(qiáng)、何英.MATLAET展編程.北京:清華大學(xué)出版社,2002.62 .

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論