畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別

上傳人：扣*** IP屬地：寧夏上傳時(shí)間：2021-10-07 格式：DOC 頁數(shù)：24 大小：316.03KB 積分：15 舉報(bào) 版權(quán)申訴

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別_第2頁

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別_第3頁

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別_第4頁

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別_第5頁

已閱讀5頁，還剩19頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、西南林學(xué) 院本本科科畢畢業(yè)（設(shè)計(jì)）論業(yè)（設(shè)計(jì)）論文文（二四屆）題題目：目：基于 dtw 模型的語音識(shí)別分院系部：分院系部：計(jì)算機(jī)與信息科學(xué)系專專業(yè)：業(yè)：計(jì)算機(jī)科學(xué)與技術(shù) 姓姓名：名：導(dǎo)師姓名：導(dǎo)師姓名：導(dǎo)師職稱：導(dǎo)師職稱：二四年六月一日基于 dtw 模型的語音識(shí)別xxx（西南林學(xué)院計(jì)算機(jī)與信息科學(xué)系，云南昆明 650224）摘要摘要：語音識(shí)別（speech recognition）是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在課題中，通過采用 dtw（dynamic time warping, 動(dòng)態(tài)時(shí)間伸縮）算法，對(duì)實(shí)現(xiàn)孤立詞的識(shí)

2、別進(jìn)行了初步探討和研究，實(shí)現(xiàn)了在matlab 軟件環(huán)境下孤立詞語的語音識(shí)別，并針對(duì) dtw 的主要特點(diǎn)及不足做出了總結(jié)。dtw 算法基于動(dòng)態(tài)規(guī)劃（dp）的思想，解決了孤立詞發(fā)音長短不一的模板匹配問題。文中還針對(duì)動(dòng)態(tài)規(guī)劃的不足提出了改進(jìn)。關(guān)鍵詞：關(guān)鍵詞：語音識(shí)別 dtw matlab 動(dòng)態(tài)規(guī)劃voice-identification based on dtw modeldan peng(dept. of computer and information science, southwest forestry college, kunming, yunan, 650224, china) abst

3、ract: voice-identification is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. in this paper, dtw arithmetic is adapted to study and research the implement the identification of single-word, and speech recogni

4、tion for single-word is realized by using matlab. in the end, this paper gets a conclusion on the feature and the shortage of dtw.dtw arithmetic based on the method of dp has solved the problem that the voice has different time during the template matching. this paper also put forward some advises a

5、bout dp. key words: voice-identification dtw matlab dp目目錄錄引言引言.11 開發(fā)背景及可行性分析開發(fā)背景及可行性分析.11.1 開發(fā)背景.11.2 可行性分析.22 語音識(shí)別基礎(chǔ)語音識(shí)別基礎(chǔ).22.1 語音識(shí)別概述.22.2 語音識(shí)別系統(tǒng)分類.32.3 語音識(shí)別技術(shù)介紹.32.3.1 語音識(shí)別單元的選取 .32.3.2 特征參數(shù)提取技術(shù) .42.3.3 模式匹配及模型訓(xùn)練技術(shù) .42.4 語音識(shí)別系統(tǒng)的基本構(gòu)成.53 matlab 簡介簡介 .64 算法闡述算法闡述.74.1 dtw 算法原理 .74.2 dtw 算法實(shí)現(xiàn) .94.2.

6、1 算法簡介 .94.2.2 程序運(yùn)行流程 .94.3 運(yùn)行結(jié)果.104.4 算法改進(jìn).115 總結(jié)總結(jié).125.1 語音識(shí)別難點(diǎn).125.1.1 語音識(shí)別系統(tǒng)的開發(fā)過程中的難點(diǎn) .125.1.2 語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用中的難點(diǎn) .135.1.3 語音識(shí)別所面臨的實(shí)際情況 .135.2 課題總結(jié).145.3 課題心得及長遠(yuǎn)發(fā)展.14參考文獻(xiàn)參考文獻(xiàn).15致謝致謝.16附錄附錄源程序代碼源程序代碼.17西南林學(xué)院 2004 屆本科畢業(yè)論文1引言語言是人類特有的功能，聲音是人類最常用的工具。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的信息交換形式12。語言信號(hào)是人類進(jìn)行思想疏通和情感交

7、流的最主要途徑。讓計(jì)算機(jī)能聽懂人類的語言，是自計(jì)算機(jī)誕生以來人類夢(mèng)寐以求的想法。在本課題中，將針對(duì) dtw 算法，討論如何實(shí)現(xiàn)對(duì)個(gè)別個(gè)體的特定聲音進(jìn)行語音識(shí)別的問題。1 開發(fā)背景及可行性分析1.1 開發(fā)背景開發(fā)背景本項(xiàng)目來源于云南省重點(diǎn)項(xiàng)目西雙板納自然保護(hù)區(qū)系統(tǒng)建設(shè)。在該項(xiàng)目中綜合應(yīng)用傳感器技術(shù)，數(shù)字仿真技術(shù)，數(shù)據(jù)編碼與數(shù)據(jù)壓縮技術(shù)，dsp 技術(shù)，無線傳輸技術(shù)等，研究自然保護(hù)區(qū)視頻信號(hào)、聲音信號(hào)以及其他監(jiān)測信號(hào)的采集、傳送、處理方案，設(shè)備選型方案，二次開發(fā)技術(shù)，為自然保護(hù)區(qū)信息系統(tǒng)建設(shè)。研究內(nèi)容：1)自然保護(hù)區(qū)圖像與聲音等監(jiān)測信息自動(dòng)采集技術(shù)及專用設(shè)備研究。惡劣的自然環(huán)境下，其有低成本，高可靠

8、性，免維護(hù)太陽能供電，間歇工作條件，窄帶寬，單一功能的信息采集設(shè)備的研制。2)自然保護(hù)區(qū)監(jiān)測信息無線傳輸技術(shù)與方法研究。最佳頻點(diǎn)選擇，組網(wǎng)方式，圖上作業(yè)，機(jī)站選點(diǎn)，天線類型，實(shí)驗(yàn)設(shè)備選型等。3)自然保護(hù)區(qū)監(jiān)測信息數(shù)據(jù)格式及 dsp 芯片開發(fā)技術(shù)研究。與華為等開發(fā)商合作進(jìn)行專用設(shè)備的設(shè)計(jì)與開發(fā)等。4)重點(diǎn)保護(hù)動(dòng)物自動(dòng)跟蹤技術(shù)研究。監(jiān)測設(shè)備之間的配合，待機(jī)與激活狀態(tài)的自動(dòng)切換等。5)太陽能電圍欄智能化改造現(xiàn)有太陽能電圍欄設(shè)備，由于技術(shù)太簡單，野象很容易適應(yīng)并能找到對(duì)策，本項(xiàng)目擬在進(jìn)一步研究野象生活習(xí)性的基礎(chǔ)，引入其他技術(shù)，如：聲、光、影像偽裝基于 dtw 模型的語音識(shí)別2技術(shù)和智能技術(shù)，改進(jìn)現(xiàn)有簡

9、單、被動(dòng)的野象防護(hù)技術(shù)，并對(duì)太陽能產(chǎn)品性能作進(jìn)一步研究。該課題的目標(biāo)是基于研究內(nèi)容的第一點(diǎn)實(shí)現(xiàn)野生大象的語音識(shí)別。1.2 可行性分析可行性分析語音識(shí)別有兩種特殊形式：說話人識(shí)別和語種辨別，它們和語音識(shí)別一樣，都是通過提取語音信號(hào)的特征和建立相應(yīng)的模型進(jìn)行分類判斷的12。說話人識(shí)別力求找出包含在語音信號(hào)中說話人的個(gè)性因素，強(qiáng)調(diào)不同人之間的特征差異；而語種辨別則要從一個(gè)語音片段中判別它是哪一個(gè)語種，所以就要盡可能的找出不同語種的差別特征。在課題中，我們要實(shí)現(xiàn)的是大象聲音的識(shí)別，即實(shí)現(xiàn)在所聽到的聲音中判別哪個(gè)聲音發(fā)自于大象，或判別聽到的一個(gè)聲音是否發(fā)自于大象。這實(shí)際上就是語音的模糊識(shí)別，但為了實(shí)現(xiàn)方

10、便，只實(shí)現(xiàn)了對(duì)個(gè)別個(gè)體的特定語音識(shí)別。個(gè)別個(gè)體是指因?yàn)樗惴ǖ牟煌晟埔约把芯繉?duì)象的相對(duì)獨(dú)立，只能識(shí)別某只特定的大象，而對(duì)于象群的模糊識(shí)別，還未能達(dá)到要求。特定聲音是指因?yàn)檎Z音數(shù)據(jù)庫的不完善，只能正確的識(shí)別大象在特定情緒下的語音。這部分內(nèi)容在總結(jié)部分將會(huì)重點(diǎn)提出。2 語音識(shí)別基礎(chǔ)2.1 語音識(shí)別概述語音識(shí)別概述語音識(shí)別：語音識(shí)別（speech recognition）重要是指讓機(jī)器聽懂人說的話，即在各種情況下，準(zhǔn)確的識(shí)別語音的內(nèi)容，從而根據(jù)其信息，執(zhí)行人的各種意圖或執(zhí)行特定的任務(wù)12。語音識(shí)別以語音為研究對(duì)象，它是語音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支，涉及到生理學(xué)、心理學(xué)、語言學(xué)、

11、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域，甚至還涉及到人的體態(tài)語言（如人在說話時(shí)的表情、手勢等行為動(dòng)作可幫助對(duì)方理解），其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。西南林學(xué)院 2004 屆本科畢業(yè)論文32.2 語音識(shí)別系統(tǒng)分類語音識(shí)別系統(tǒng)分類語音識(shí)別系統(tǒng)按照不同的角度，不同的應(yīng)用范圍，不同的性能要求會(huì)有不同的系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)，有以下幾種類型：1)孤立詞，連接詞，連續(xù)語音識(shí)別系統(tǒng)以及語音理解和會(huì)話系統(tǒng)。2)大詞匯，中詞匯和小詞匯量語音識(shí)別系統(tǒng)。3)特定人和非特定人語音識(shí)別系統(tǒng)。在我們的課題中由于要實(shí)現(xiàn)的是對(duì)大象聲音的識(shí)別，所以可以將其歸結(jié)為第 3類，即特定人和非特定人的語音識(shí)別系統(tǒng)。2.3 語音識(shí)別技術(shù)語

12、音識(shí)別技術(shù)介紹介紹語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外，還涉及到語音識(shí)別單元的選取。2.3.1 語音識(shí)別單元的選取語音識(shí)別單元的選取選擇識(shí)別單元是語音識(shí)別研究的第一步。語音識(shí)別單元有單詞（句）、音節(jié)和音素三種，具體選擇哪一種，由具體的研究任務(wù)決定4。單詞（句）單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng)，但不適合大詞匯系統(tǒng)，原因在于模型庫太龐大，訓(xùn)練模型任務(wù)繁重，模型匹配算法復(fù)雜，難以滿足實(shí)時(shí)性要求。音節(jié)單元多見于漢語語音識(shí)別，主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言，而英語是多音節(jié)，并且漢語雖然有大約 1300 個(gè)音節(jié)，但若不考慮聲調(diào)，約有 408 個(gè)無調(diào)音節(jié)，數(shù)量相對(duì)較

13、少。因此，對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說，以音節(jié)為識(shí)別單元基本是可行的4。音素單元以前多見于英語語音識(shí)別的研究中，但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母（包括零聲母有 22 個(gè)）和韻母（共有 28 個(gè)）構(gòu)成，且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母，這樣雖然增加了模型數(shù)目，但提高了易混淆音節(jié)的區(qū)基于 dtw 模型的語音識(shí)別4分能力。由于協(xié)同發(fā)音的影響，音素單元不穩(wěn)定，所以如何獲得穩(wěn)定的音素單元，還有待研究4。2.3.2 特征參數(shù)提取技術(shù)特征參數(shù)提取技術(shù)語音信號(hào)中含有豐富的信息，如何從中提取出對(duì)語音識(shí)別有用的信息是語

14、音識(shí)別的關(guān)鍵。特征提取就是完成這項(xiàng)工作，它對(duì)語音信號(hào)進(jìn)行分析處理，去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息，獲得影響語音識(shí)別的重要信息。對(duì)于非特定人語音識(shí)別來講，希望特征參數(shù)盡可能多的反映語義信息，盡量減少說話人的個(gè)人信息（對(duì)特定人語音識(shí)別來講，則相反）。從信息論角度講，這是信息壓縮的過程。線性預(yù)測（lp）分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù)，許多成功的應(yīng)用系統(tǒng)都采用基于 lp 技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型是純數(shù)學(xué)模型，沒有考慮人類聽覺系統(tǒng)對(duì)語音的處理特點(diǎn)4。mel 參數(shù)和基于感知線性預(yù)測（plp）分析提取的感知線性預(yù)測倒譜，在一定程度上模擬了人耳對(duì)語音的處理特點(diǎn)，應(yīng)用了人耳聽覺感知方面的

15、一些研究成果4。實(shí)驗(yàn)證明，采用這種技術(shù)，語音識(shí)別系統(tǒng)的性能有一定提高。2.3.3 模式匹配及模型訓(xùn)練技術(shù)模式匹配及模型訓(xùn)練技術(shù)模型訓(xùn)練是指按照一定的準(zhǔn)則，從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù)，而模式匹配則是根據(jù)一定準(zhǔn)則，使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)（dtw）、隱馬爾可夫模型（hmm）、概率語法分析法和人工神經(jīng)元網(wǎng)絡(luò)（ann）。dtw(dynamic time warping 動(dòng)態(tài)時(shí)間伸縮算法)是較早的一種模式匹配和模型訓(xùn)練技術(shù)，它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長不等的難題，在

16、孤立詞語音識(shí)別中獲得了良好性能。dtw 是用滿足一定條件的時(shí)間歸正函數(shù)描述待識(shí)別模式和參考模板的時(shí)間對(duì)應(yīng)關(guān)系，求解兩模板匹配是累計(jì)距離最小所對(duì)應(yīng)的歸正函數(shù)，從而保證了模板間存在的最大的聲學(xué)相似性。dtw 算法在詞匯表較小以及各個(gè)詞條不容易混淆的情況下具有一定的優(yōu)越性，但在由于其只是簡單的模板匹配，在處理要求更高的語音識(shí)別就顯得力不從心了。因?yàn)閷?duì)于連續(xù)語音識(shí)西南林學(xué)院 2004 屆本科畢業(yè)論文5別系統(tǒng)來講，如果選擇詞，詞組，短語甚至整個(gè)句子作為識(shí)別單位，為每個(gè)詞條建立一個(gè)模板，那么隨著系統(tǒng)用詞量的增加，模板的數(shù)量將達(dá)到天文數(shù)字，而這在實(shí)際應(yīng)用中是不可能被允許出現(xiàn)的情況。hmm 模型是語音信號(hào)時(shí)變

17、特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性，其中一個(gè)是隱蔽的（不可觀測的）具有有限狀態(tài)的markor 鏈，另一個(gè)是與 markor 鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程（可觀測的）。隱蔽 markor 鏈的特征要靠可觀測到的信號(hào)特征揭示。這樣，語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過程描述，而信號(hào)隨時(shí)間的變化由隱蔽 markor 鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括 hmm 拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn)，hmm 模型可分為離散隱馬爾可夫模型（采用離散概率密度函數(shù)，簡稱 dhmm）和連續(xù)隱馬爾可夫模型（采用連續(xù)

18、概率密度函數(shù)，簡稱 chmm）以及半連續(xù)隱馬爾可夫模型（schmm，集 dhmm 和 chmm 特點(diǎn)）。一般來講，在訓(xùn)練數(shù)據(jù)足夠的，chmm 優(yōu)于 dhmm和 schmm。語法分析法：一方面由于不同的人說同一些語音時(shí)，相應(yīng)的語譜極其變化有種種差異，但總有一些共同的特點(diǎn)足以使他們區(qū)分于其他語音，也即語音學(xué)家提出的“區(qū)別性特征”。而另一方面，人類的語言要受詞法，語法，語義等約束，人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息。于是，將語音識(shí)別專家提出的“區(qū)別性特征”與來自構(gòu)詞，句法，語義等語用約束相互結(jié)合，就可以構(gòu)成一個(gè)“由底向上”或“自頂向下”的交互作用的知識(shí)系統(tǒng)，不同層次的知識(shí)

19、可以用若干規(guī)則來描述。人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ann 本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類神經(jīng)元活動(dòng)的原理，具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是 hmm 模型不具備的，但 ann 又不具有 hmm模型的動(dòng)態(tài)時(shí)間歸正性能。因此，現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來，從而提高整個(gè)模型的魯棒性。2.4 語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別的典型方案如圖 1 所示。輸基于 dtw 模型的語音識(shí)別6特征提取模式匹配模型庫語音輸入識(shí)別結(jié)果圖 1 語音識(shí)別流程圖入的模擬語音信號(hào)首先要經(jīng)過預(yù)處理，包括預(yù)濾波，采樣和量化，加窗，端點(diǎn)檢測，

20、預(yù)加重等。語音信號(hào)經(jīng)預(yù)處理后，接下來重要的一環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是：1)提取的特征參數(shù)能有效的代表語音特征，具有很好的區(qū)分性。2)各階參數(shù)之間有良好的獨(dú)立性。3)特征參數(shù)要計(jì)算方便，具有高效的計(jì)算方法，以保證語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。將特征參數(shù)進(jìn)行一定的處理后，為每個(gè)詞條得到一個(gè)模型，保存為模板庫。在識(shí)別階段，語音信號(hào)經(jīng)過相同的通道得到語音參數(shù)，生成測試模板，與參考模板進(jìn)行匹配，將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下，提高識(shí)別的準(zhǔn)確率。3 3 matlab 簡介matlab 是矩陣實(shí)驗(yàn)室（matrixlaboratory）之意。除具備卓越的數(shù)值計(jì)算能力

21、外，它還提供了專業(yè)水平的符號(hào)計(jì)算，文字處理，可視化建模仿真和實(shí)時(shí)控制等功能。matlab 是一種解釋性執(zhí)行語言，具有強(qiáng)大的計(jì)算、仿真、繪圖等功能，而且使用簡單，擴(kuò)充方便，同時(shí)因?yàn)橛胸S富的函數(shù)庫（工具箱）所以計(jì)算的功能實(shí)現(xiàn)也很簡單。matlab 和其他高級(jí)語言也具有良好的接口，可以方便的實(shí)現(xiàn)與其他語言的混合編程3。其主要特點(diǎn)在于：語言簡潔緊湊，使用方便靈活，庫函數(shù)豐富；運(yùn)算符豐富；matlab 既具有結(jié)構(gòu)化的控制語句（如 for 循環(huán)，while 循環(huán)，break 語句和 if 語句），又有面向?qū)ο缶幬髂狭謱W(xué)院 2004 屆本科畢業(yè)論文7程的特性；程序限制不嚴(yán)格，程序設(shè)計(jì)自由度大；程序的可移植

22、性好；matlab 的圖形功能強(qiáng)大；matlab 的缺點(diǎn)是，它和其他高級(jí)程序相比，程序的執(zhí)行速度較慢；擁有功能強(qiáng)大的工具箱；源程序的開放性3。4 算法闡述4.1 dtw 算法原理算法原理假設(shè)測試和參考模板分別用 t 和 r 表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離，距離越小則相似度越高。為了計(jì)算這一失真距離，應(yīng)從 , d t rt 和 r 中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè) n 和 m 分別是 t 和 r 中任意選擇的幀號(hào)，表示這兩幀特征矢量之間的距離。距離函數(shù)處決于實(shí)際采用的距離度量，( )(),nmd tr在 dtw 算法中通常采用歐氏距離。若 n=m 則可以直接計(jì)算，否則要考慮

23、將和對(duì)齊。對(duì)齊主要采用的是動(dòng)( )nt()mr態(tài)規(guī)劃（dp）的方法。將測試模板的各個(gè)幀號(hào)在一個(gè)二維直角坐標(biāo)系中的1nn 橫軸上標(biāo)出，把參考模板的各幀號(hào)在縱軸上標(biāo)出，通過這些表示幀號(hào)的整1mm 數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)表示測試模( ,)n m式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。dp 算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑，路徑通過的格點(diǎn)即為測試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的，首先任何一種語音的發(fā)音快慢都有可能變化，但是其各部分的先后次序不可能改變，因此所選的路徑必定是從左下角出發(fā)，在右上角結(jié)束，如圖 2為了描述這條路徑，假設(shè)路徑通

24、過的所有格點(diǎn)依次為（,）,(, ),(1n1minim,),其中（,）=(1,1),(,)=(n,m)。路徑可以用函數(shù)=描述，其中mnnm1n1mmnnmim( )in=i,i=1,2,n,=1, =m。為了使路徑不至于過分傾斜，可以約束斜率在in(1)()n的范圍內(nèi)，如果路徑已通過了格點(diǎn)（,）,那么下一個(gè)通過的格點(diǎn)（,0.521in1imin基于 dtw 模型的語音識(shí)別8）只可能是下列三種情況之一：im (,)= (+1,+2)inim1in1in (,)= (+1,+1)inim1in1in (,)= (+1,)inim1in1inm 876 54321 1 2 3 4 5 6 7 8 9

25、 10 n 圖 2 dtw 算法搜索路徑用表示上述三個(gè)約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件時(shí)，求最佳路徑函數(shù)=,使得沿路徑的積累距離達(dá)到最小值，即：im( )in()( ) , ,11minmnmniiiinniiiid n md n mnnii 搜索該路徑的方法如下：搜索從（,）點(diǎn)出發(fā)，可以展開若干條滿足的路1n1m徑，假設(shè)可計(jì)算每條路徑達(dá)到(,)點(diǎn)時(shí)的總的積累距離，具有最小積累距離者nnnm即為最佳路徑。易于證明，限定范圍內(nèi)的任一格點(diǎn)(,)只可能有一條搜索路徑通inim過。對(duì)于，其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是(,)、(,)和(,)，1inim1in1im1in2im那

26、么(,)一定選擇這 3 個(gè)距離中的最小者所對(duì)應(yīng)的格點(diǎn)作為其前續(xù)格點(diǎn)，若用(inim,)代表此格點(diǎn)，并將通過該格點(diǎn)之路延伸而通過，這時(shí)此路徑的積累距離為：1in1im=id(n ,)im11 ( ), ()(,)iiiid t nr md nm其中的=,由下式?jīng)Q定:in1in1i1m 西南林學(xué)院 2004 屆本科畢業(yè)論文9=11(,)iid nmi-111mind(n ,),(,1),(,2)iiiiimd nmd nm這樣可以從出發(fā)搜索，在搜索，對(duì)每一個(gè)都存儲(chǔ)相應(yīng)的前一格點(diǎn)及相應(yīng)的幀匹配距離。搜索到時(shí)，只保留一條最佳路徑。如果有必要的話，通過逐點(diǎn)向前尋找就可以求得整條路徑2。這套 dp 算法便

27、是 dtw 算法。dtw 算法可以直接按上面的描述來實(shí)現(xiàn)，即分配兩個(gè)的矩陣，分別為積*nm累距離矩陣 d 和幀匹配距離矩陣 d,其中幀匹配距離矩陣的值為測試模板的第( , )d i ji 幀與參考模板的第 j 幀間的距離。即為最佳匹配路徑所對(duì)應(yīng)的匹配距離2。(,)d n m4.2 dtw 算法實(shí)現(xiàn)算法實(shí)現(xiàn)4.2.1 算法簡介算法簡介首先申請(qǐng)兩個(gè)的矩陣 d 和 d，分別為累計(jì)距離和幀匹配距離。這里 n 和 m*n m為測試模板與參考模板的幀數(shù)。然后通過一個(gè)循環(huán)計(jì)算兩個(gè)模板的幀匹配距離矩陣d。接下來進(jìn)行動(dòng)態(tài)規(guī)劃，為每個(gè)格點(diǎn)都計(jì)算其三個(gè)可能的前續(xù)格點(diǎn)的累積距( , )i j離，和?？紤]到邊界問題，有

28、些前續(xù)格點(diǎn)可能不存在，因此要加用一些判1d2d3d斷條件。最后利用最小值函數(shù)，找到三個(gè)前續(xù)格點(diǎn)的累積距離的最小值作為累min積距離，與當(dāng)前幀的匹配距離相加，作為當(dāng)前格點(diǎn)的累積距離。該計(jì)算過程( , )d i j一直達(dá)到格點(diǎn)，并將輸出，作為模板匹配的結(jié)果2。( ,)n m( ,)d n mdtw 算法的主體函數(shù) dtw.m 代碼詳見附件。4.2.2 程序運(yùn)行流程程序運(yùn)行流程程序運(yùn)行后，首先讀入 wav 文件，用 mfcc 函數(shù)獲得其 mfcc 參數(shù)，用 vad 函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測，并保存語音部分的 mfcc 參數(shù)到參考模板的結(jié)構(gòu)數(shù)組中或測試模板的結(jié)構(gòu)數(shù)組中2。( ).ref i mfcc( )

29、.test i mfcc在模板匹配階段，計(jì)算所有測試模板和參考模板之間的距離，保存到矩陣 dist中，將最后的匹配分?jǐn)?shù)用 min 函數(shù)找到最小值對(duì)應(yīng)的模板2。基于 dtw 模型的語音識(shí)別10dtw 算法的測試程序 testdtw.m 代碼詳見附件。4.3 運(yùn)行結(jié)果運(yùn)行結(jié)果程序的輸出結(jié)果如下：正在計(jì)算參考模板的參數(shù).正在計(jì)算測試模板的參數(shù).正在進(jìn)行模板匹配.正在計(jì)算匹配結(jié)果.測試模板 1 的識(shí)別結(jié)果為：1測試模板 2 的識(shí)別結(jié)果為：2測試模板 3 的識(shí)別結(jié)果為：3測試模板 4 的識(shí)別結(jié)果為：4測試模板 5 的識(shí)別結(jié)果為：5測試模板 6 的識(shí)別結(jié)果為：6測試模板 7 的識(shí)別結(jié)果為：7測試模板

30、8 的識(shí)別結(jié)果為：8測試模板 9 的識(shí)別結(jié)果為：9測試模板 10 的識(shí)別結(jié)果為：10從輸出結(jié)果看，識(shí)別得到了正確的結(jié)果。為了進(jìn)一步驗(yàn)證識(shí)別的正確性，接下來看一下匹配距離矩陣 dist 的數(shù)據(jù)： distdist =1.0e+004 * 0.5741 1.8575 3.7164 2.7567 3.2732 2.4946 2.1208 1.8565 3.4530 1.7783 1.6183 0.6201 5.4711 4.0024 4.5169 3.8422 3.025 1.439 5.5660 3.4090 3.5879 5.2763 0.4147 1.4435 2.4924 3.1520 2.

31、5371 3.5035 1.0029 2.9692 2.2657 3.6250 1.0511 0.5487 2.1223 2.2573 1.8405 2.5638 1.0303 2.0788 2.4052 3.9130 2.1418 1.8048 0.4234 2.9629 2.6261 2.5600 2.1139 2.2589西南林學(xué)院 2004 屆本科畢業(yè)論文11 2.2896 3.2425 3.0996 2.7853 3.0529 0.5002 2.2229 3.2317 2.7873 1.9719 2.1692 3.8311 3.1997 2.6173 2.9306 2.4412 0.

32、6207 2.9675 2.6489 1.5591 1.9428 2.2470 4.0326 2.6934 3.1362 3.6682 3.4982 0.7567 4.3060 2.6786 3.2084 4.7374 1.0319 1.4739 2.2992 2.9104 2.2509 3.8464 0.4946 2.5945 2.2231 4.4386 2.9113 2.5731 2.7994 2.2883 1.3779 3.6557 2.2412 0.3803距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù)，可見對(duì)角線上的 10 個(gè)數(shù)值都是在本行中最小的，由此驗(yàn)證了識(shí)別結(jié)果的正確性。以下是程序

33、運(yùn)行結(jié)果及匹配矩陣 dist 的抓圖 3：圖 3 程序運(yùn)行結(jié)果4.44.4 算法改進(jìn)算法改進(jìn)因?yàn)?dtw 算法是一套對(duì)測試模板和參考模板進(jìn)行動(dòng)態(tài)規(guī)劃的算法，所以對(duì)算法的改進(jìn)主要集中在模板的動(dòng)態(tài)規(guī)劃上面。由文中的圖 2 可以得知，測試模板和參考模板語音幀長的最大差距為 2 倍關(guān)系。這是因?yàn)樵趧?dòng)態(tài)規(guī)劃中，在參考格點(diǎn)的位置確定的情況下，下一格點(diǎn)的確定要計(jì)算基于 dtw 模型的語音識(shí)別12參考格點(diǎn)的三個(gè)前續(xù)格點(diǎn)的可能性，這樣如果參考格點(diǎn)的下一格點(diǎn)每次都取到最遠(yuǎn)的路徑即可推導(dǎo)出測試模板和參考模板語音幀長的最大差距為 2 倍關(guān)系。但在實(shí)際進(jìn)行的語音識(shí)別測試中，待測模板和參考模板語音幀長的最大差距不能到達(dá)理

34、論的最大值。這樣,對(duì)動(dòng)態(tài)規(guī)劃進(jìn)行如下改進(jìn),即在端點(diǎn)檢測中,對(duì)測試模板和參考模板的長度進(jìn)行動(dòng)態(tài)的統(tǒng)一。方案如下：首先按常規(guī)檢測出參考模板和測試模板的幀長。再對(duì)兩模板進(jìn)行二次端點(diǎn)檢測,通過修改端點(diǎn)檢測時(shí)的幀長和幀移,使兩模板的幀長相等。這樣在動(dòng)態(tài)匹配的時(shí)候，轉(zhuǎn)而去計(jì)算參考模板和測試模板每一幀的斜率比值的累積值，這樣累積值最小的即是需要尋找的模板。但是由于語音信號(hào)曲線是由語音的各項(xiàng)參數(shù)來決定的，所以并不是一條規(guī)則的可以用簡單方程式來表示的曲線，故斜率比值的計(jì)算并不容易實(shí)現(xiàn)。這也是改進(jìn)算法實(shí)現(xiàn)的難點(diǎn)所在。5 總結(jié)5.1 語音識(shí)別難點(diǎn)語音識(shí)別難點(diǎn)5.1.1 語音識(shí)別系統(tǒng)的開發(fā)過程中的難點(diǎn)語音識(shí)別系統(tǒng)的開

35、發(fā)過程中的難點(diǎn)計(jì)算機(jī)語音識(shí)別是一個(gè)模式識(shí)別匹配的過程。在這個(gè)過程中，計(jì)算機(jī)首先要根據(jù)人的語音特點(diǎn)建立語音模型，對(duì)輸入的語音信號(hào)進(jìn)行分析，并抽取所需的特征，在此基礎(chǔ)上建立語音識(shí)別所需的模板5。而計(jì)算機(jī)在識(shí)別過程中要根據(jù)語音識(shí)別的整體模型，將計(jì)算機(jī)中存放的語音模板與輸入的語音信號(hào)的特征進(jìn)行比較，根據(jù)一定的搜索和匹配策略，找出一系列最優(yōu)的與輸入的語音匹配的模板。然后，據(jù)此模板的定義，通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。顯然，這種最優(yōu)的結(jié)果與特征的選擇、語音模型和語言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。一個(gè)語音識(shí)別系統(tǒng)性能好壞的關(guān)鍵首先是它所采用的語音模型能否真實(shí)地反映話音的物理變化規(guī)律，所用的

36、語言模型能否表達(dá)自然語言所包含的豐富語言學(xué)知識(shí)。然而無論是語音信號(hào)還是人類的自然語言都是隨機(jī)、多變和不穩(wěn)定的，很難把握。這就是目前語音識(shí)別過程中的最大難點(diǎn)5。其次，模板訓(xùn)練的好壞也直接關(guān)系到語音識(shí)別系統(tǒng)識(shí)別率的高低。為了得到一西南林學(xué)院 2004 屆本科畢業(yè)論文13個(gè)好的模板，往往需要有大量的原始語音數(shù)據(jù)來訓(xùn)練語音模型。因此，在開始進(jìn)行語音識(shí)別研究之前，首先要建立起一個(gè)龐大的語音數(shù)據(jù)庫和語料數(shù)據(jù)庫。一個(gè)好的語音數(shù)據(jù)庫包括足夠數(shù)量、具有不同性別、年齡、口音說話人的聲音，并且必須要有代表性，能均衡地反映實(shí)際使用情況5。有了語音數(shù)據(jù)庫及語音特征，就可以建立語音模型，并用語音數(shù)據(jù)庫中的語音來訓(xùn)練這個(gè)語

37、音模型。訓(xùn)練過程是指選擇系統(tǒng)的某種最佳狀態(tài)（如對(duì)語音庫中的所有語音有最好的識(shí)別率），不斷地調(diào)整系統(tǒng)模型（或模板）的參數(shù)，使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近的過程。這是一個(gè)復(fù)雜的過程，要求計(jì)算機(jī)有強(qiáng)大的計(jì)算能力，并有很強(qiáng)的理論指導(dǎo)，才能保證得到良好的訓(xùn)練結(jié)果。5.1.2 語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用中的難點(diǎn)語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用中的難點(diǎn)語音識(shí)別系統(tǒng)的適應(yīng)性差，主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)，即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用，否則系統(tǒng)性能將急劇下降；另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng)，使用不方便9。高噪聲環(huán)境下語音識(shí)別進(jìn)展困難，因?yàn)榇藭r(shí)人的發(fā)音變化很大，如聲音變高，語速變慢，

38、音調(diào)及共振峰變化等等，這就是所謂 lombard 效應(yīng)，必須尋找新的信號(hào)分析處理方法9。5.1.3 語音識(shí)別所面臨的實(shí)際情況語音識(shí)別所面臨的實(shí)際情況語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少，但如何把這些知識(shí)量化、建模并用于語音識(shí)別，還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的6。首先，對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚；其次，把這方面的現(xiàn)有成果用于語音識(shí)別，還有一個(gè)艱難的過程6。語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決，識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞（句）檢測技術(shù)（即從連續(xù)語音中去

39、除諸如“啊”、 “唉”等語音，獲得真正待識(shí)別的語音部分）等等技術(shù)細(xì)節(jié)要解決6?；?dtw 模型的語音識(shí)別145.2 課題總結(jié)課題總結(jié)課題最終在編程上實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音的識(shí)別，基本上達(dá)到了預(yù)定的目標(biāo)。基于 dtw 模型的語音識(shí)別簡單的說就是將待識(shí)別的語音信號(hào)與數(shù)據(jù)庫中的模板進(jìn)行相似度對(duì)比，將相似度最高者作為識(shí)別結(jié)果輸出。因此在實(shí)際程序?qū)崿F(xiàn)中，功能強(qiáng)大的數(shù)據(jù)庫將是程序是否成功的關(guān)鍵。在程序中，由于受數(shù)據(jù)庫的局限，并沒有實(shí)現(xiàn)對(duì)語音的模糊識(shí)別，但個(gè)別個(gè)體的特定語音識(shí)別也具有廣泛的用途。例如，在對(duì)象群的追蹤中，就可以采取個(gè)別個(gè)體的特定語音識(shí)別的方法，重點(diǎn)就是要最大限度的搜集象群中頭象的聲音特征數(shù)

40、據(jù)，以后一旦發(fā)現(xiàn)頭象的蹤跡，即可認(rèn)為是發(fā)現(xiàn)了象群的蹤跡。這樣，既免除了搜集大量其它大象聲音特征數(shù)據(jù)的麻煩，節(jié)省了大量的時(shí)間，又免除了因?yàn)閿?shù)據(jù)庫文件數(shù)量過多而引起的管理困難。因?yàn)閿?shù)據(jù)庫的龐大，雖然可以保證識(shí)別的準(zhǔn)確性，但是也可能因?yàn)樽R(shí)別時(shí)間過長，而失去意義，如，程序的識(shí)別結(jié)果還未給出，象群早已走出了控制范圍。5.3 課題心得及長遠(yuǎn)發(fā)展課題心得及長遠(yuǎn)發(fā)展一個(gè)完善的語音識(shí)別系統(tǒng)是由一個(gè)優(yōu)秀的算法以及一個(gè)語音特征數(shù)據(jù)完備的數(shù)據(jù)庫構(gòu)成的，所以說，語音識(shí)別系統(tǒng)的完善過程可以認(rèn)為就是語音識(shí)別算法的完善過程和語音數(shù)據(jù)庫的完善過程之和。算法的完善有助于提高模板搜尋和匹配的效率和可靠性，相當(dāng)于賦予程序一個(gè)善于思考

41、且運(yùn)轉(zhuǎn)迅速的大腦，而數(shù)據(jù)庫的完善有助于提高語音識(shí)別的精度和準(zhǔn)確性，因?yàn)樵趶?qiáng)大的數(shù)據(jù)庫的支持下，程序能最大限度的識(shí)別準(zhǔn)確的結(jié)果。在算法和數(shù)據(jù)庫逐步完善的過程，模糊識(shí)別也將迎刃而解。模糊識(shí)別的意義在于能夠使程序區(qū)分不同的群體做出相應(yīng)的反映，而不像特定識(shí)別只能針對(duì)指定的群體。西南林學(xué)院 2004 屆本科畢業(yè)論文15參考文獻(xiàn)1 趙力.語音信號(hào)處理.北京：機(jī)械工業(yè)出版社，20032 何強(qiáng),何英.matlab 擴(kuò)展編程.北京：清華大學(xué)出版社，20023 周金萍.matlab 6.5.北京：科學(xué)出版社，20034 胡航.語音信號(hào)處理.哈爾濱：哈爾濱工業(yè)大學(xué)出版社，20005 易克初等.語音信號(hào)處理.北京：國防工業(yè)出版社，20006 陳尚勤等.近代語音識(shí)別.成都：電子科技大學(xué)出版社，19917 樓順天.matlab 程序設(shè)計(jì)語言.西安：西安電子科技大學(xué)出版社，19978 姚天任.數(shù)字語音處理.武漢：華中理工大學(xué)出版社，

人人文庫> 全部分類> 應(yīng)用文書 > 事務(wù)文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別

文檔簡介

溫馨提示

最新文檔

評(píng)論

畢業(yè)設(shè)計(jì)（論文）基于DTW模型的語音識(shí)別

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔