




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、本科學(xué)生畢業(yè)論文(設(shè)計)題目(中 文):特定人孤立詞語音識別的研究(英 文):Research Of Speaker-dependent Isolated-word Speech recognition姓 名學(xué) 號院 (系)專業(yè)、年級指導(dǎo)教師畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體,均已在文中作了明確的
2、說明并表示了謝意。作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日期: 使用授權(quán)說明本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名: 日 期: 湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)誠信聲明本人鄭重聲明:所呈交的本科畢業(yè)論文(設(shè)計),是本人在指導(dǎo)老師的指導(dǎo)下,獨立進行研究工作所取得的成果,成果不存在知識產(chǎn)權(quán)爭議,除文中已經(jīng)注明引用的內(nèi)容外,本
3、論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。 本科畢業(yè)論文(設(shè)計)作者簽名: 二八 年 月 日30 畢業(yè)論文(設(shè)計)任務(wù)書課題名稱:特定人孤立詞語音識別的研究學(xué)生姓名:系 別:物理與電子工程系專 業(yè):電子信息工程指導(dǎo)教師:湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)任務(wù)書1、主題詞、關(guān)鍵詞: 語音識別、孤立詞、特定人、DTW 2、畢業(yè)論文(設(shè)計)內(nèi)容要求:對語音識別的概念、分類、發(fā)展過程及發(fā)展趨勢要有所介紹;設(shè)計一個基于特定人的語音識別系統(tǒng),給出實現(xiàn)方案。對特定人語音識別系統(tǒng)中牽涉到的有關(guān)識別
4、算法要進行編程,并在MATLAB6.5環(huán)境下進行仿真調(diào)試,給出具體仿真結(jié)果。3、文獻查閱指引:1 趙力語音信號處理第一版,北京:機械工業(yè)出版社.2 陳立萬基于語音識別系統(tǒng)中DTW算法改進技術(shù)研究微計算機信息,2006,2(2).3 何強,何英MATLAB擴展編程第一版,北京:清華大學(xué)出版社.4 李瀟,王大堃基于MATLAB的孤立字語音識別試驗平臺四川理工學(xué)院學(xué)報(自然科學(xué)版),19(3).4、畢業(yè)論文(設(shè)計)進度安排:12007.12月-1月 論文資料收集和整理,完成開題報告。22008.2月-3月 查找資料,給出系統(tǒng)實現(xiàn)方案,對算法進行編程和調(diào)試并完成畢業(yè)論文初稿。32008.3月-4月 完
5、成畢業(yè)論文修改并定稿。42008年5月 準(zhǔn)備答辯。教研室意見: 負(fù)責(zé)人簽名: 注:本任務(wù)書一式三份,由指導(dǎo)教師填寫,經(jīng)教研室審批后一份下達(dá)給學(xué)生,一份交指導(dǎo)教師,一份留系里存檔。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)開題報告書論文(設(shè)計)題目特定人孤立詞語音識別的研究作 者 姓 名周 剛所屬系、專業(yè)、年級 物理與電子工程系 電子信息工程專業(yè) 2004年級指導(dǎo)教師姓名、職稱楊 熙預(yù)計字?jǐn)?shù)10000開題日期2008.1.15選題的根據(jù):1)說明本選題的理論、實際意義2)綜述國內(nèi)外有關(guān)本選題的研究動態(tài)和自己的見解一個完整特定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點檢測等
6、)、特征提取、訓(xùn)練與識別等幾個環(huán)節(jié)。語音識別的過程可以被看作模式匹配的過程。本文介紹的DTW是采用一種最優(yōu)化的算法動態(tài)規(guī)整法,通過將待識別語音信號的時間軸進行不均勻地扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷地進行兩個矢量距離最小的匹配路徑計算,從而獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這是一個將時間規(guī)整和距離測度有機結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識別特征與模板特征之間最大的聲學(xué)相似特性和最小的時差失真。DTW解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法。語音識別研究從二十世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半個多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進
7、展。但語音識別ASR(Automatic Speech Recognition)系統(tǒng)的實用化研究仍是近十年語音識別研究的一個主要方向。語音識別系統(tǒng)包含的知識面非常廣,對其進行研究對自己各方面知識的應(yīng)用能力會有很大的提高。并且語音識別作為一門正火熱發(fā)展的技術(shù),其發(fā)展前景相當(dāng)可觀,對其進行深入了解,研究是非常必要的。主要內(nèi)容:(1)語音識別的概念、分類、發(fā)展過程及發(fā)展趨勢;(2)語音識別系統(tǒng)的實現(xiàn)方案與語音識別中需要的語音信號處理理論;(3)傳統(tǒng)DTW算法及改進后的快速DTW算法的實現(xiàn)與比較;(4)在Matlab6.5環(huán)境下進行特定人語音識別的仿真。研究方法:(1)閱讀文獻,進行理論分析;(2)把
8、整個識別過程分成幾個子過程,逐步分析;(3)對整個系統(tǒng)程序的測試采用分模塊調(diào)試,然后進行整體調(diào)試;完成期限和采取的主要措施:完成期限:2007年12月 到2008年5月 主要措施:嚴(yán)格遵照湖南科技學(xué)院畢業(yè)論文(設(shè)計)工作管理辦法的指示精神,結(jié)合個人的實際情況,我完成這項設(shè)計所采取的主要措施有兩條:一是密切聯(lián)系。聯(lián)系本組設(shè)計成員及畢業(yè)設(shè)計指導(dǎo)師,尋求有關(guān)畢業(yè)設(shè)計信息,確定設(shè)計課題方向與設(shè)計內(nèi)容;二是虛心學(xué)習(xí)。利用課余時間到圖書館和網(wǎng)絡(luò)上查閱資料,并虛心向老師請教和同學(xué)進行學(xué)習(xí)交流,保障畢業(yè)設(shè)計的順利完成。主要參考資料:1 鐘林,劉加,劉潤生多層前向感知機漢語孤立數(shù)碼語音識別J電路與系統(tǒng)學(xué)報,5(
9、2)。2 何強,何英MATLAB擴展編程M第一版,北京:清華大學(xué)出版社.3 徐文盛,戴蓓倩,方紹武,陸偉特定人漢語數(shù)碼語音抗噪識別方法J電路與系統(tǒng)學(xué)報, 5(2).4 陳立萬基于語音識別系統(tǒng)中DTW 算法改進技術(shù)研究J.微計算機信息(嵌入式與SOC),2006,22(2).5 李瀟,王大堃基于MATLAB 的孤立字語音識別試驗平臺J四川理工學(xué)院學(xué)報(自然科學(xué)版),2006,19(3).6 黃文梅,楊勇,熊桂林,成曉明系統(tǒng)仿真分析與設(shè)計Matlab語音工程應(yīng)用M長沙:國防科技大學(xué)出版社.7 林波,呂明基于DTW改進算法的孤立詞識別系統(tǒng)的仿真與分析J信息技術(shù),2006年第4期.指導(dǎo)教師意見: 指導(dǎo)
10、教師簽名: 教研室意見:簽 名: 年 月 日開 題 報 告 會 紀(jì) 要時間2008年1月15日地點第三教學(xué)樓317與會人員姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)李春樹副教授楊熙助教李艷芳副教授周玲助教廖朝陽講師譚永宏講師盧卯旺教授會議記錄摘要:會議主持人:記 錄 人:年 月 日指導(dǎo)小組意見負(fù)責(zé)人簽名: 年 月 日系部 意 見負(fù)責(zé)人簽名:年月日注:此表由學(xué)生本人填寫,一式三份,一份留系里存檔,指導(dǎo)老師和本人各保存一份湖南科技學(xué)院畢業(yè)論文(設(shè)計)中期檢查表畢業(yè)論文(設(shè)計)題 目特定人孤立詞語音識別的研究學(xué)生姓名周 剛學(xué) 號2004010099系 別物理與電子工程專 業(yè)電子信息工程指
11、導(dǎo)教師楊 熙檢查日期2008.3.26指導(dǎo)教師檢查情況記載及修改意見:已經(jīng)完成的工作:1、完成了語音的采集。2、初步完成特定人語音識別系統(tǒng)中的端點檢測、特征提取、傳統(tǒng)DTW算法和改進型DTW算法的比較和編程。3、進行資料的整理。4、論文大部分內(nèi)容已經(jīng)完成。 下一步的工作: 1、對整個系統(tǒng)在MATLAB下進行仿真測試。2、同時繼續(xù)論文的寫作工作。3、參考文獻要按照學(xué)校的規(guī)范寫,要在正文出現(xiàn)的位置標(biāo)出。4、仔細(xì)修改摘要。5、進一步優(yōu)化程序,提高識別速度。 簽名: 簽名: 注:此表用于指導(dǎo)教師在學(xué)生畢業(yè)論文(設(shè)計)初稿完成后對學(xué)生執(zhí)行任務(wù)書情況進行中期檢查時用,由指導(dǎo)教師填寫。湖南科技學(xué)院畢業(yè)設(shè)計(
12、論文)指導(dǎo)過程記錄表畢業(yè)論文(設(shè)計)題目特定人孤立詞語音識別的研究學(xué)生姓名周剛學(xué)號2004010099專業(yè)班級電信0401指導(dǎo)教師楊熙職稱助教系(教研室)電子科學(xué)與技術(shù)指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(一)建議畢業(yè)設(shè)計的選題方向,并提供一些參考課題及如何查閱資料。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(二)確定畢業(yè)設(shè)計題目,給出畢業(yè)論文設(shè)計要求,指導(dǎo)開題報告,并推薦一些參考文獻、書籍和網(wǎng)站。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(三)特定人語音識別系統(tǒng)所需的語音處理理論知識及核心算法DTW算法。學(xué) 生 簽 名:
13、 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(四)語音樣本的采集,樣本語音庫和測試語音庫的建立。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)過程記錄指導(dǎo)內(nèi)容記錄(五)對采集到的樣本進行處理,端點檢測算法的選擇和特征參數(shù)的選擇。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(六)傳統(tǒng)型DTW算法和快速DTW算法的編程實現(xiàn)。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(七)在MATLAB下對程序進行編譯和調(diào)試,對DTW算法和快速DTW算法進行比較。學(xué) 生 簽 名:
14、200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(八)修改論文初稿,摘要的修改,章節(jié)的調(diào)節(jié),對仿真結(jié)果要分析,圖表的標(biāo)注和引用的參考文獻要規(guī)范。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日答辯小組組長意見組長(簽名): 200 年 月 日注:本表與畢業(yè)論文一起裝訂存檔。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)評審表論文題目特定人孤立詞語音識別的研究作者姓名周 剛所屬系、專業(yè)、年級物理與電子工程 系 電子信息工程 專業(yè) 2004年級指導(dǎo)教師姓名、職稱楊 熙字 數(shù)10000定稿日期2008.5.10中文摘要論文中首先介紹了孤立詞語音識別系統(tǒng)的基本理論,分析了孤
15、立詞語音識別的基本工作過程。接著介紹了常用的孤立詞語音識別算法:DTW(Dynamic Time Warping,動態(tài)時間彎折)以及改進的DTW,對兩種算法進行了比較,根據(jù)比較結(jié)果,采用比較高效的改進型DTW,以提高識別效率。提出了基于動態(tài)噪聲的四狀態(tài)端點檢測算法,給出了詳細(xì)的算法流程圖以及具體參數(shù)的設(shè)置。用MATLAB6.5仿真了在有噪聲和無噪聲的情況下,利用這些算法對孤立詞的端點檢測效果,實驗結(jié)果表明,些算法具有抗噪聲能力。關(guān)鍵詞(3-5個)語音識別,孤立詞,特定人,DTW英文摘要The thesis first introduces the elementary theory of is
16、olated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to the both.According to the c
17、omparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters establ
18、ishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.關(guān)鍵詞(3-5個)speech recognition;isolated word;speaker-dependent;D
19、TW指導(dǎo)教師評定成績評審基元評審要素評審內(nèi)涵滿分指導(dǎo)教師實評分選題質(zhì)量25%目的明確符合要求選題符合專業(yè)培養(yǎng)目標(biāo),體現(xiàn)學(xué)科、專業(yè)特點和教學(xué)計劃的基本要求,達(dá)到畢業(yè)論文(設(shè)計)綜合訓(xùn)練的目的。10理論意義或?qū)嶋H價值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟建設(shè)和社會發(fā)展的應(yīng)用性研究中的某個理論或方法問題進行研究,具有一定的實際價值。10選題恰當(dāng)題目規(guī)模適當(dāng),難易度適中;有一定的科學(xué)性。5能力水平40%查閱文獻資料能力能獨立查閱相關(guān)文獻資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。10綜合運用知識能力能運用所學(xué)專業(yè)知識闡述問題;能對查閱的資料進行整理和運用;能對其科學(xué)論點進行論證。10研究方
20、案的設(shè)計能力整體思路清晰;研究方案合理可行。5研究方法和手段的運用能力能運用本學(xué)科常規(guī)研究方法及相關(guān)研究手段(如計算機、實驗儀器設(shè)備等)進行實驗、實踐并加工處理、總結(jié)信息。10外文應(yīng)用能力能閱讀、翻譯一定量的本專業(yè)外文資料、外文摘要和外文參考書目(特殊專業(yè)除外)體現(xiàn)一定的外語水平。5論文質(zhì)量35%文題相符較好地完成論文選題的目的要求。5寫作水平論點鮮明;論據(jù)充分;條理清晰;語言流暢。15寫作規(guī)范符合學(xué)術(shù)論文的基本要求。用語、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。10論文篇幅10000字左右。5實評總分 成績等級 指導(dǎo)教師評審意見: 指導(dǎo)教師簽名: 說明:評定成績分為優(yōu)秀、良
21、好、中等、及格、不及格五個等級,實評總分90100分記為優(yōu)秀,8089分記為良好,7079分記為中等,6069分記為及格,60分以下記為不及格。評閱教師評定成績評審基元評審要素評審內(nèi)涵滿分評閱教師實評分選題質(zhì)量25%目的明確符合要求選題符合專業(yè)培養(yǎng)目標(biāo),體現(xiàn)學(xué)科、專業(yè)特點和教學(xué)計劃的基本要求,達(dá)到畢業(yè)論文(設(shè)計)綜合訓(xùn)練的目的。10理論意義或?qū)嶋H價值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對經(jīng)濟建設(shè)和社會發(fā)展的應(yīng)用性研究中的某個理論或方法問題進行研究,具有一定的實際價值。10選題恰當(dāng)題目規(guī)模適當(dāng),難易度適中;有一定的科學(xué)性。5能力水平40%查閱文獻資料能力能獨立查閱相關(guān)文獻資料,歸納總結(jié)本論文
22、所涉及的有關(guān)研究狀況及成果。10綜合運用知識能力能運用所學(xué)專業(yè)知識闡述問題;能對查閱的資料進行整理和運用;能對其科學(xué)論點進行論證。10研究方案的設(shè)計能力整體思路清晰;研究方案合理可行。5研究方法和手段的運用能力能運用本學(xué)科常規(guī)研究方法及相關(guān)研究手段(如計算機、實驗儀器設(shè)備等)進行實驗、實踐并加工處理、總結(jié)信息。10外文應(yīng)用能力能閱讀、翻譯一定量的本專業(yè)外文資料、外文摘要和外文參考書目(特殊專業(yè)除外)體現(xiàn)一定的外語水平。5論文質(zhì)量35%文題相符較好地完成論文選題的目的要求。5寫作水平論點鮮明;論據(jù)充分;條理清晰;語言流暢。15寫作規(guī)范符合學(xué)術(shù)論文的基本要求。用語、格式、圖表、數(shù)據(jù)、量和單位、各種
23、資料引用規(guī)范化、符合標(biāo)準(zhǔn)。10論文篇幅10000字左右。5實評總分 成績等級 評閱教師評審意見: 評閱教師簽名: 說明:評定成績分為優(yōu)秀、良好、中等、及格、不及格五個等級,實評總分90100分記為優(yōu)秀,8089分記為良好,7079分記為中等,6069分記為及格,60分以下記為不及格。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計)答辯記錄表論文題目特定人孤立詞語音識別的研究作者姓名周 剛所屬系、專業(yè)、年級物理與電子工程系 電子信息工程專業(yè) 2004年級指導(dǎo)教師姓名、職稱楊 熙答 辯 會 紀(jì) 要時間2008年5月15日地點第三教學(xué)樓317答辯小組成員姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)姓 名職務(wù)(職稱)李春樹副
24、教授楊熙助教李艷芳副教授周玲助教廖朝陽講師譚永宏講師盧卯旺教授答辯中提出的主要問題及回答的簡要情況記錄:1、 論文中改進的DTW算法較傳統(tǒng)DTW算法有何優(yōu)點?答:由論文中圖6可看出,改進的DTW算法更進一步約束了搜索范圍,從而減少了數(shù)據(jù)計算量,加快識別速度并提高了計算準(zhǔn)確度,在仿真結(jié)果中能清楚的看出其改進效果。2、 論文中用到的端點檢測算法為何能抗噪聲?答:論文中的端點檢測算法設(shè)定了高低短時能量、高低過零率、最大靜音時間、最小語音長度六個門限值,其中短時能量是用于抗噪聲設(shè)計的,由于語音序列的前10幀一般都為噪聲,而端點檢測算法中的高低能量門限是以前10幀的平均能量值作為參考依據(jù),這樣我們的算法
25、就是基于動態(tài)背景噪聲的。一般要根據(jù)實際情況選取,本系統(tǒng)取前10幀平均能量值的3倍和1.5倍分別作為高低能量門限。3、 論文中只提到了對單個字的識別,能否實現(xiàn)對多字詞的識別?答:DTW能實現(xiàn)對多字詞的識別,但本文中的四端點檢測法是針對單字詞設(shè)計的,不過根據(jù)本文中四端點檢測法的方法進行擴展,便能輕易實現(xiàn)對多字詞的識別。會議主持人:記 錄 人:年 月 日答辯小組意見評語:評定等級: 負(fù)責(zé)人(簽名): 年 月 日系學(xué)位委員會意見評語:論文(設(shè)計)最終評定等級:負(fù)責(zé)人(簽名): 系部(公章) 年月 日校學(xué)位委員會意見評語:評定等級: 負(fù)責(zé)人(簽名): 年月 日目 錄緒 論11 語音識別系統(tǒng)基本理論31.
26、1 語音識別系統(tǒng)的組成31.2 預(yù)處理31.3 特征參數(shù)的提取41.3.1 MFCC參數(shù)計算流程51.3.2 差分倒譜參數(shù)52 Dynamic Time Warping算法72.1 DTW算法原理72.2 改進的DTW算法83 系統(tǒng)的軟件設(shè)計與仿真123.1 語音預(yù)處理123.2 改進的端點檢測算法及仿真123.2.1 改進的端點檢測算法123.2.2 端點檢測算法子程序流程圖143.2.3 端點檢測仿真153.3 特征參數(shù)提取子程序及仿真163.4 DTW算法仿真163.5 語音識別仿真18結(jié) 論19參 考 文 獻20附錄A 部分程序21致 謝28插圖索引圖1 一般語音識別系統(tǒng)框圖3圖2 用
27、能量和過零率進行端點檢測4圖3 線性頻率上 fm 和 f 關(guān)系5圖4 動態(tài)時間彎曲(DTW)算法求最小失真7圖5 DTW算法搜索路徑8圖6 匹配路徑約束示意圖9圖7 對角線附近的帶狀區(qū)域圖10圖8 放寬端點后的區(qū)域限制11圖9 預(yù)加重后的語音效果12圖10 四狀態(tài)轉(zhuǎn)移的端點檢測13圖11 “停止”的短時能量和過零率13圖12 基于四狀態(tài)轉(zhuǎn)移的端點檢測流程圖14圖13 無噪聲環(huán)境下的端點檢測15圖14 有噪聲環(huán)境下的端點檢測15圖15 24維特征參數(shù)部分值16圖16 數(shù)字16在MATLAB環(huán)境下的識別結(jié)果顯示18附表索引表1 實驗一在傳統(tǒng)DTW算法下的失真測度16表2 實驗一在改進DTW算法下的
28、失真測度17表3 實驗二在傳統(tǒng)DTW算法下的失真測度17表4 實驗二在改進DTW算法下的失真測度17表5 實驗一傳統(tǒng)DTW算法和改進DTW算法的用時比較18表6 實驗二傳統(tǒng)DTW算法和改進DTW算法的用時比較18特定人孤立詞語音識別的研究摘 要語音是人類進行交流的手段,因此,使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設(shè)備的小型化也要求省略鍵盤以節(jié)省體積。近年來,語音識別技術(shù)被廣泛應(yīng)用于工業(yè)控制、消費類產(chǎn)品及移動通信中,是高科技應(yīng)用領(lǐng)域的研究熱點。本文就是在這種情況下對特定人孤立詞語音識別系統(tǒng)做了一些探討。論文中首先介紹了孤立詞語音識別系統(tǒng)的基本理論,分析了孤立詞語音識別的
29、基本工作過程。接著介紹了常用的孤立詞語音識別算法:DTW(Dynamic Time Warping,動態(tài)時間彎折)以及改進的DTW,對兩種算法進行了比較,根據(jù)比較結(jié)果,采用比較高效的改進型DTW,以提高識別效率。提出了基于動態(tài)噪聲的四狀態(tài)端點檢測算法,給出了詳細(xì)的算法流程圖以及具體參數(shù)的設(shè)置。用MATLAB6.5仿真了在有噪聲和無噪聲的情況下,利用這些算法對孤立詞的端點檢測效果,實驗結(jié)果表明,些算法具有抗噪聲能力。【關(guān)鍵詞】語音識別孤立詞特定人DTWResearch Of Speaker-dependent Isolated-word Speech RecognitionAbstractSpe
30、ech is the means that human being carries on communication.Therefore,using speech as a human-computer interaction approach is the most natural way for the user.At the same time,equipment miniaturization also demands omitting the keyboard to economize volume.In recent years,the speech recognition tec
31、hnology has been widely applied to industrial control,consuming product and mobile communication.It is a hot research spot in high technology application field.This thesis makes some discussions on speaker-independent isolated word speech recognition system in this case.The thesis first introduces t
32、he elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to t
33、he both.According to the comparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the
34、concrete parameters establishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.【Key words】speech recognition isola
35、ted word speaker-dependent DTW緒 論語音識別(Speech Recognition)是機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。作為專門的研究領(lǐng)域,語音識別又是一門交叉學(xué)科,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機科學(xué)、人工智能、數(shù)理統(tǒng)計等眾多學(xué)科緊密相連。語音識別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景1。隨著計算機技術(shù)、模式識別和信號處理技術(shù)以及聲學(xué)技術(shù)等的發(fā)展,使得語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。近二三十年來,語音識別技術(shù)在工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)
36、用。當(dāng)今,語音識別產(chǎn)品在人機交互應(yīng)用中,已經(jīng)占到了越來越大的比例。其主要應(yīng)用在語音命令、應(yīng)用于電信增值業(yè)務(wù)、數(shù)據(jù)庫檢索等方面。語音識別系統(tǒng)從不同角度、不同的應(yīng)用范圍等都會有不同的分類。一般語音識別系統(tǒng)按不同的角度有下面幾種分類:1按說話人的講話方式可以分為孤立詞(Isolated Word)識別連續(xù)語音(Continuous Speech)識別。孤立詞識別是指說話人每次只說一個詞或短語,每個詞或短語在詞匯表中都算作一個孤立詞條。因此,可以用來實現(xiàn)簡單的家用電器控制。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。2按識別對象的類型可以分為特定人(Speaker De
37、pendent)語音識別和非特定人(Speaker Independent)語音識別。特定人是指定只針對一個用戶的語音識別,比較簡單,能得到較高的識別率,但使用前必須由特定人的用戶輸入大量的發(fā)音數(shù)據(jù)對其進行訓(xùn)練。非特定人則可用于不同的用戶,這種識別系統(tǒng)的通用性好,應(yīng)用面廣,但難度也較大,不容易得到高的識別率,它的實用化將會有很高的經(jīng)濟價值和深遠(yuǎn)的社會意義。3按識別的詞匯量可以分為小詞匯、中詞匯和大詞匯量語音識別。一般來講,120個詞匯屬于小詞匯量語音識別系統(tǒng)、201000個詞匯屬于中詞匯量語音識別系統(tǒng)、大于1000個詞匯屬于大詞匯量語音識別系統(tǒng)。語音識別研究從二十世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半
38、個多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進行簡要回顧。50年代,AT& T Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)Audry系統(tǒng)。60年代,提出了動態(tài)規(guī)劃(DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,對語音識別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,在模式識別思想、動態(tài)規(guī)劃方法、線性預(yù)測思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語句發(fā)音的識別成為了可行的有用技術(shù)。80年代,的最大特點是從基于模板的方法向統(tǒng)計模型方法的轉(zhuǎn)變,特別是轉(zhuǎn)向研究隱馬爾柯夫模型HMM的理論、方法和實現(xiàn)問題。90年代,語音
39、識別研究的重點轉(zhuǎn)向自然語言的識別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。同時,語音識別技術(shù)不斷應(yīng)用于電話網(wǎng)絡(luò),增強話務(wù)員服務(wù)和自動化。2000年以來,人機語音交互成為研究的焦點。研究重點包括即興口語的識別和理解,自然口語對話,以及多語種的語音同聲翻譯5。語音識別技術(shù)經(jīng)過全球半個多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達(dá)到90%以上。在這樣的水平基礎(chǔ)上,語音識別技術(shù)開始嘗試從實驗室演示系統(tǒng)走向?qū)嵱没唐贰5Z音識別技術(shù)要進入成熟的商業(yè)運用還有一段艱難的路程,還必須在很多方面取得突破性進展。主要包括高可靠性;增加詞匯量;應(yīng)用拓
40、展;降低成本減小體積四個方面。語音識別ASR(Automatic Speech Recognition)系統(tǒng)的實用化研究是近十年語音識別研究的一個主要方向。近年來,消費類電子產(chǎn)品對低成本、高穩(wěn)健性的語音識別片上系統(tǒng)的需要快速增加,語音識別系統(tǒng)大量地從實驗室的PC平臺轉(zhuǎn)移到嵌入式設(shè)備中。本文主要是針對普通控制命令詞,小詞匯量的特定人孤立詞語音識別的研究。全文共分章,具體的研究內(nèi)容如下:第章:介紹了語音識別系統(tǒng)的實現(xiàn)方案,給出了孤立詞識別中需要的語音信號處理理論,如預(yù)加重、端點檢測和特征參數(shù)提取等。第章:介紹了基于動態(tài)規(guī)劃(DP)思想的DTW算法,并在此算法的基礎(chǔ)上,討論了快速DTW算法的實現(xiàn)。最
41、后給出了兩者的對比仿真。第章:針對本文采集的語音樣本,對預(yù)處理后的語音提出了基于動態(tài)噪聲有四狀態(tài)端點檢測法。闡述了系統(tǒng)的軟件設(shè)計過程,對各部分給出了相應(yīng)的軟件流程圖,并且對具體算法進行了MATLAB仿真論證。1 語音識別系統(tǒng)基本理論1.1 語音識別系統(tǒng)的組成語音識別系統(tǒng)的典型實現(xiàn)方案如框圖1所示。預(yù)處理特征提取輸入語音測度估計識別判決參考模板識別結(jié)果模板庫識別訓(xùn)練圖1 一般語音識別系統(tǒng)框圖一個完整特定人孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音的預(yù)處理(預(yù)加重、加窗分幀、端點檢測等)、特征提取、訓(xùn)練與識別等幾個環(huán)節(jié),基本構(gòu)成如圖1所示。語音識別的過程可以被看作模式匹配的過程,模式匹配是指根據(jù)一
42、定的準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配的過程。 模式匹配中需要用到的參考模板通過模板訓(xùn)練獲得。 在訓(xùn)練階段,用戶將詞匯表中的每個詞依次說一遍作為模板保存為模板庫。 在識別階段,語音信號經(jīng)過相同的通道得到語音特征參數(shù),生成測試模板并與參考模板進行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識別結(jié)果。同時,還可以在一些先驗知識的幫助下,提高識別的準(zhǔn)確率3。1.2 預(yù)處理由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進行預(yù)加重(Pre-emphasi
43、s)處理。預(yù)加重通過濾波提升高頻分量并消除50Hz或60Hz的工頻干擾,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。通常用一階FIR數(shù)字濾波器來實現(xiàn),系統(tǒng)函數(shù)為:H(z)= 1 a z 1 (a 接近于1) (1-1)進行預(yù)加重數(shù)字濾波處理后,接下來就要進行加窗分幀處理。分幀采用可移動的有限窗口進行加權(quán)的方法實現(xiàn),即用窗函數(shù)(n)來乘X(n),從而形成加窗語音信號X(n)=X(n)* (n)。在語音信號處理中,常用的窗函數(shù)是矩形窗和漢明窗。本文中,8kHz采樣,幀長為256,幀移為80的漢明窗。端點檢測的目的是從包含語音的一般信號中
44、確定出語音的起點以及終點, 有效的端點檢測不僅能使處理時間最小, 而且能排除無聲段的噪聲干擾, 從而使識別系統(tǒng)具有良好的識別性能, 端點檢測的成功與否甚至在某種程度上直接決定了整個語音識別系統(tǒng)的成敗。在實際應(yīng)用中,通常是利用過零率來檢測清音,用短時能量來檢測濁音,兩者配合實現(xiàn)可靠的端點檢測。用得比較多的是經(jīng)典的雙門限端點檢測算法。如圖2所示。幅值amp2amp10N0N1N2n過零率ZCR00N0N1N2n圖2 用能量和過零率進行端點檢測輸入的語音信號X(l),加窗分幀處理后得到的第n幀的語音信號為Xn(m),則:Xn(m)= (m)X(n+m) m=0 (N-1) (1-2)其中,n=0,1
45、T,2T,并且N為幀長,T為幀移。第n幀語音信號Xn(m)的短時能量En為:En = |Xn(m)|N -1m=0 (1-3)這里定義短時能量即短時幅值,它的主要作用:區(qū)分濁音和清音,因為濁音的短時能量比清音大得多。區(qū)分聲母與韻母的邊界,無聲和有聲的分界,連字的分界等。作為一種超音段信息,用于語音識別中。一幀信號中波形穿越零電平的次數(shù),稱為過零率。定義Xn(m)的短時過零率Zn為:Zn = |sgn Xn(m)-sgnXn(m-1)|N -1m=012 (1-4)上式中,sgn 是符號函數(shù)??紤]到開始以后總會出現(xiàn)能量較大的濁音,設(shè)一個較高的門限amp1用以確定語音已開始,再取一比amp1稍低的
46、門限amp2,用以確定語音的起始點N1,和結(jié)束點N2,由于語音起始段往往存在著能量很弱的清輔音(如s、f等),只用能量去判斷,很難把它們和無聲區(qū)分開,但發(fā)現(xiàn)它們的過零率明顯高于無聲段,因此可以用過零率來精確起點。第四將仔細(xì)介紹端點檢測算法。1.3 特征參數(shù)的提取特征參數(shù)提取的目的是抽取語音特征,以使在語音識別時類內(nèi)距離盡量小,類間距離盡量大。語音特征參數(shù)提取是語音識別的關(guān)鍵問題,特征參數(shù)的好壞對于語音識別精度和識別時間有很大影響。常用的參數(shù)有線性預(yù)測的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。全極點線性預(yù)測模型(LPC)是基于發(fā)音模型建立的,并假設(shè)語音信號為自回歸信號,利用線性預(yù)
47、測分析獲得倒譜參數(shù)。因此,LPCC系數(shù)也是基于合成的參數(shù),沒有充分利用人耳的聽覺特性,對輔音的描述能力較差,抗噪聲性能較差。實際上,人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。由于充分模擬了人的聽覺特性,而且沒有任何前提假設(shè),因此MFCC參數(shù)具有很好的識別性能和抗噪能力。研究表明, Mel頻率的倒譜參數(shù)所含的信息量比其它參數(shù)多,能較好的表現(xiàn)語音信號,并且比較充分利用人耳特殊感知特性,性能優(yōu)于LPCC參數(shù)。因此,本文中用到的Voicebox工具箱中的mfcc.m函數(shù)就是采用采用MFCC參數(shù)。1.3.1 MFCC參數(shù)計算流程MFCC參數(shù)計算的要點
48、是將線性功率譜S ( n)轉(zhuǎn)換成為mel頻率下的功率譜, 這需要在計算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器:Hm ( n) ,m = 0 Y 1,n = 0 H /2 1Y為濾波器個數(shù),H為一幀語音信號的點數(shù)。每個濾波器具有三角形特性,其中心頻率為fm,它們在 Mel 頻率軸上是均勻分布的。在線性頻率上,當(dāng) m 較小時,相鄰的 fm 間隔很小,隨著 m 的增加相鄰的 fm 間隔逐漸拉開。另外在頻率較低的區(qū)域,fm 和 f 之間有一段是線性的。如圖3所示:m圖3 線性頻率上 fm 和 f 關(guān)系MFCC參數(shù)的計算是以“bark”為頻率基準(zhǔn)的,Mel頻率與線性頻率的轉(zhuǎn)換關(guān)系為:f mel = 2595 log10 (1+ )f700 (1-5)其中,線性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林省長春市汽車經(jīng)濟技術(shù)開發(fā)區(qū)第六中學(xué)2024-2025學(xué)年高三三校聯(lián)合測試物理試題試卷含解析
- 集成電路(IC)卡專用芯片項目安全風(fēng)險評價報告
- 成都錦城學(xué)院《能源與動力專業(yè)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 內(nèi)蒙古工業(yè)職業(yè)學(xué)院《會展商務(wù)英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶城市科技學(xué)院《道路與橋梁發(fā)展新技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 河南推拿職業(yè)學(xué)院《新聞攝影技巧(實踐)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南鐵路科技職業(yè)技術(shù)學(xué)院《汽車構(gòu)造雙語》2023-2024學(xué)年第二學(xué)期期末試卷
- 同德縣2025屆數(shù)學(xué)五年級第二學(xué)期期末達(dá)標(biāo)檢測模擬試題含答案
- 山東理工職業(yè)學(xué)院《城市地下空間規(guī)劃》2023-2024學(xué)年第一學(xué)期期末試卷
- 河南工程學(xué)院《人類學(xué)英文文獻導(dǎo)讀》2023-2024學(xué)年第一學(xué)期期末試卷
- 參觀河南省博物院
- 2024水電站股權(quán)轉(zhuǎn)讓協(xié)議
- 可穿戴式設(shè)備安全可靠性技術(shù)規(guī)范 頭戴式設(shè)備
- 《網(wǎng)絡(luò)營銷》-課件:33病毒營銷
- 《駱駝祥子》讀書分享
- 湖南省2024年中考物理試題(含答案)
- NB-T35026-2022混凝土重力壩設(shè)計規(guī)范
- 中考數(shù)學(xué)計算題練習(xí)100道(2024年中考真題)
- DL-T-5161.8-2018電氣裝置安裝工程質(zhì)量檢驗及評定規(guī)程盤、柜、及二次回路接線施工質(zhì)量檢驗
- 家校溝通經(jīng)驗分享-溝通有方法教育有溫度
- CJJ75-1997 城市道路綠化規(guī)劃與設(shè)計規(guī)范
評論
0/150
提交評論