




已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀
【畢業(yè)學位論文】語音識別系統(tǒng)噪聲魯棒性算法研究-計算機應用技術(shù).pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分類號 密級 公開 重慶郵電大學碩士學位論文 論文題目 語音識別系統(tǒng)噪聲魯棒性算法研究 英文題目 士研究生 蒲 甫 安 指導教師 李銀國 教授 /鄭方 教授 學科專業(yè) 計算機應用技術(shù) 論文提交日期 2012 年 4 月 論文答辯日期 2012 年 5 月 論文評閱人 答辯委員會主席 2012 年 5 月 重慶郵電大學碩士論文 摘 要 I 摘 要 近年來,隨著語音識別技術(shù)不斷地 發(fā)展,語音識別系統(tǒng)已開始從 逐步走向嵌入式平臺。然而當嵌入式語音識別系統(tǒng)應用到真實 的操作環(huán)境中時,由于訓練環(huán)境和識別環(huán)境 的 不匹配, 導致其識別 性能大大的下降。本文 的 重點是針對這些問題,對語音識別系統(tǒng)噪聲魯棒性算法展開研究 。 論文的 主要工作有如下幾個方面: 第一, 構(gòu)建了一個 非特定人語音識別 的仿真 系統(tǒng), 系統(tǒng)采用 一個 簡化的 連續(xù)隱馬爾科夫 模型,即 非線性分段與高斯 混合模型( 。該系統(tǒng) 將用于噪聲魯棒 算法 的 研究與測試 。 隨后以該系統(tǒng)為基礎(chǔ),進行了 譜減法( 維納濾波( 語音增強實驗 。實驗 結(jié)果 表明,在低信噪比情況 下 ,兩種 語音 增強 算法都使 系統(tǒng) 對噪聲 的 魯棒性得到提升 。 第二,提出了求取 倒譜 均值 方差 歸一( 參數(shù)的遞推算法。 該 遞推算法能在線性時間復 雜度內(nèi)計算出 均值和方差,使得 數(shù)的平均 計算速度得到顯著提升。 第三 , 在 法基礎(chǔ)上, 提出了基于統(tǒng)計閾值的 法 不僅能 濾除 特征空間的 高頻 噪聲 ,而且 進一步減小訓練 環(huán)境 和 識別 環(huán)境的不匹配 。實驗表明,在信噪比較低情況下 , 要優(yōu)于 比,相對提升率最高達到 而 比,相對提升率最高達到 第四 ,提出 了語音 增強與特征變換 的兩種 融合 算法。算法一 : 只將增強后的語音應用于 特征提取 使用原始帶噪語音;算法二 : 將增強后的語音 既用于 用于特征提取。實驗表明, 兩種融合算法 的識別結(jié)果 整體上都要好于 文中未融合 噪聲魯棒算法的 識別結(jié)果 。就這兩種融合算法相比較而言,在較低信噪比( 5況下 ,算法一 的識別率高于算法二;在較高信噪比( 10,算法二的識別率高于算法一。 關(guān)鍵詞: 噪聲 魯棒性 , 語音識別 , 嵌入式 , 語音增強 , 特征變換 重慶郵電大學碩士論文 I n of in in to a a in of In of of as is a be of on of at a is to of to is in a is in in NR a a of is in to of is is or is 慶郵電大學碩士論文 is is AD in of as is at in is . 重慶郵電大學碩士論文 目 錄 錄 摘 要 I 1 章 緒論 1 音識別技術(shù)研究現(xiàn)狀 1 音識別系統(tǒng)的分類 2 音識別技術(shù)基本問題 2 入式語音識別技術(shù) 3 究意義與難點 3 究現(xiàn)狀 4 音識別的噪聲魯棒技術(shù) 4 聲對語音識別性能的影響 4 聲魯棒語音識別技術(shù)綜述 5 文研究思路和結(jié)構(gòu)安排 6 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù) 8 音識別技術(shù) 8 音識別基本框架 8 音的收集和預處理 9 點檢測 14 學特征選取 18 學特征的高斯混合建模 22 于嵌入式平臺的非線性分段與高斯混合建模 25 聲魯棒語音識別技術(shù) 27 學環(huán)境中的噪聲和信噪比 27 音增強技術(shù) 28 征空間噪聲魯棒技術(shù) 34 結(jié) 38 第 3 章 噪聲魯棒語音識別仿真系統(tǒng)搭建 39 驗數(shù)據(jù)準備 39 音數(shù)據(jù)庫 39 聲數(shù)據(jù)庫 39 驗仿真系統(tǒng)搭建 39 重慶郵電大學碩士論文 目 錄 V 統(tǒng)參數(shù)配置模塊 40 據(jù)讀入模塊 41 端處理模塊 42 型訓練 43 聲魯棒性測試模塊 44 音增強的噪聲魯棒性實驗 44 統(tǒng)參數(shù)設置 44 驗結(jié)果與分析 45 結(jié) 46 第 4 章 快速特征變換算法和基于統(tǒng)計閾值的 47 塊倒譜特征變換遞推算法 47 推算法原理 47 推算法分析和實驗比較 48 于統(tǒng)計閾值的 49 計閾值方法的基本原理 49 值的確定 51 征變換實驗結(jié)果和分析 52 結(jié) 53 第 5 章 多種噪聲魯棒性算法的融合 54 音增強與特征變換的兩種融合算法 54 驗結(jié)果和分析 55 結(jié) 57 第 6 章 總結(jié)與展望 58 作總結(jié) 58 來展望 59 致 謝 60 碩士期間從事的科研工作 61 參考文獻 62 重慶郵電大學碩士論文 第 1 章 緒論 1 第 1章 緒論 從人類史前文明到如今的數(shù)字媒體時代,語音交流已成為人類社會形成和信息交流的主導模式。語音不僅 是語言聲音的表現(xiàn)形式,而且還是人類特有的自然屬性之一。在人類眾多的交流溝通方式中,語音毫無疑問是最自然、最有效、最直接的。沒有語音的溝通,信息交流就受到阻礙;信息不能得到流暢的交流,人類社會的形成和發(fā)展也就無從談起。 當人類進入瞬息萬變的信息時代時,計算機已經(jīng)成為我們生活中必不可少的一部分。 隨著計算機技術(shù)的發(fā)展,人們不再 滿足于讓計算機繼續(xù)做一些簡單的計算,而是向它提出了更高的要求 向智能化方向發(fā)展。人們更加期待讓機器明白自己在說什么,更加期待人機之間能夠進行更自然的交流。在這種情況下,如何讓計算機聽懂人類 的語言,讓人機之間的交流更加自然,便成為當今研究的熱門領(lǐng)域。語音識別就是這樣一種技術(shù),在任何情況下,機器通過識別和理解過程,把人類的語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎?,其最終目標是實現(xiàn)人與機器進行自然的語言通信。語音識別是一門交叉學科,它所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等。 本章首先介紹本文相關(guān)研究的背景和現(xiàn)狀,最后是本文內(nèi)容結(jié)構(gòu)的安排。 音識別 技術(shù) 研究現(xiàn)狀 語音是語言信息的載體。語音識別最基本的任務是將輸入的語音信號轉(zhuǎn)化為相應的語言符號。這不僅使得存儲或傳輸語 言符號的數(shù)碼率比存儲或傳輸原始語音信號的數(shù)碼率大大的降低,而且還將連續(xù)多變的語音數(shù)字信號轉(zhuǎn)變成一種有限的符號。這樣得到的有限符號很容易被計算機識別處理,并理解其含義便于與人進行交流,因而語音識別技術(shù)得到廣泛的研究 1 語音信號中包含了許多有意義的信息,主要包括以下幾個方面: 1. 音韻信息,即同一發(fā)音的共性特征; 2. 音律信息,即有關(guān)個人特征的信息,如音強、節(jié)奏、音高等; 3. 語言信息,即說話人使用何種語言,如英語、漢語等; 4. 方言信息,對于一種語言可能有若干種不同的方 言(也稱口音),如四川話,普通話、粵語等; 5. 情感信息,即語音中帶有說話人的情緒。 從廣義上來說,語音識別也包括了說話人識別 67、方言識別 8、語言識別、重慶郵電大學碩士論文 第 1 章 緒論 2 情感識別等,但在本文中主要研究的是有意義、有內(nèi)容的識別,即音韻信息的識別。 音識別系統(tǒng)的分類 根據(jù)識別 對象不同,語音識別 的基本 任務大體可分為 3 類 9,即孤立詞識別( 關(guān)鍵詞檢出( 連續(xù)語音識別( 其中,孤立詞識別的識別單元為字、詞或短語,如“開機”、“關(guān)機”等,由 它們組成識別的詞匯表 ,對他們中的每一個通過訓練建立標準模板或模型;連續(xù)語音識別的任務則是識別任意的連續(xù)語音,如一個句子或一段話;關(guān)鍵字檢出的輸入也是連續(xù)語音流,但它并不識別全部文字,而只是檢測已知的若干關(guān)鍵詞是否在句子中出現(xiàn)以及在何處出現(xiàn),如在一段話中檢測“計算機”、“世界”這兩個詞。 根據(jù)針對的發(fā)音人,可以把語音識別技術(shù)分為特定人語音識別( 非特定人( 音 識別。特定人語音識別的標準模型或模板只是用于某一個人,實際上,該模型就是該人通過詞匯表中的每個字、詞或短語的語音建立起來的。當其他人也需要使用時,需要建立自己相應的標準模型。而對于非特定人的語音識別,其模型適用于指定的某一范疇的說話人(如說標準普通話),其模型是由該范疇的多個人通過訓練他們的語音而得到的,識別時可以供參加訓練的發(fā)音人(集內(nèi))使用,也可以是未參加訓練的卻在同一范疇的發(fā)音人(集外)使用。顯然,非特定人語音識別系統(tǒng)更符合實際需要,但它要比針對特定人的識別困難得多。 另外,根據(jù)語音設備和通道,可以分 為桌面語音識別、電話語音識別和嵌入式設備 (手機、 )語音識別。不同的采集通道會使人的發(fā)音的聲學特性發(fā)生變形,因此需要構(gòu)造各自的識別系統(tǒng)。 音識別 技術(shù) 基本問題 盡管語音識別的研究工作迄今已近 60 年,但仍未有突破性進展,主要原因如下 10: 1. 語音識別系統(tǒng)的適應性差。一方面全世界有近百種官方語言,每種語言有多達幾十種方言,同種語言的不同方言在語音上相差懸殊,這樣,隨著語言環(huán)境的改變,系統(tǒng)性能會變得很差。另一方面不同的說話人或說話的方式不同也會造成影響,如朗讀式發(fā)音、隨意發(fā)音和說話語速會對識別模型的結(jié) 果造成影響。 2. 應用環(huán)境、采集設備和傳輸信道的不同。由于語音數(shù)據(jù)大部分都是在接重慶郵電大學碩士論文 第 1 章 緒論 3 近理想的條件下采集的,語音識別的編碼方案在研制時都要在高保真設備上錄制語音,尤其要在無噪環(huán)境下錄音。然而,由這些語音經(jīng)訓練得到的聲學模型,在走向?qū)嶋H應用環(huán)境時,由于 環(huán)境噪聲的存在所帶來的問題就變得越來越重要 。該問題是本文研究的重點。 3. 語音信號和自然語言的多變性和復雜性。聯(lián)系語音詞與詞之間停頓不明顯,使得詞與詞之間的分割比較困難,同時每一個基本的聲學識別基元(如音素)受前后音素發(fā)音方式的影響(也稱為協(xié)同發(fā)音),使特征變得非 常不穩(wěn)定。對于不同人、不同生理和心理特征在不同說話環(huán)境下說同一詞時,聲學特征也會發(fā)生變化。自然語言的多變性難以用一些基本語法規(guī)則進行描述,因而增加了計算機編程的困難。 4. 體態(tài)語言難以識別。有人在講話時習慣用眼神、手勢、面部表情等動作協(xié)助表達自己的思想。由于這種體態(tài)語言的含義與個人習慣、文化背景、宗教信仰及生存地域等因素有關(guān),其信息提取非常困難。 5. 對于人類由中樞神經(jīng)控制的記憶機理、聽覺理解機理、聯(lián)想判斷機理等,人們目前仍知之甚少。 入式語音識別技術(shù) 究 意義與難點 語音識別技術(shù)發(fā)展到現(xiàn)在,主要有兩 個大的運用方向。其中一個方向是大詞匯量連續(xù)語音識別系統(tǒng),主要應用于計算機聽寫機、電話網(wǎng)或者 結(jié)合的語音查詢信息服務系統(tǒng),這些系統(tǒng)都是在 平臺上實現(xiàn)。另外一個方向是小型化、便攜式、移動化 和 終端化 的智能設備 1112,即嵌入式平臺上的語音產(chǎn)品,如智能手機上的語音撥號、汽車設備的語音控制、智能玩具、家電聲控設備等,這些應用系統(tǒng)大部分都使用專門的硬件系統(tǒng)實現(xiàn)。 隨著科學技術(shù)不斷的發(fā)展,移動信息時代、嵌入式時代的來臨,人類越來越需要和這些智能設備進行交互,盡管交互的方式多種多樣,但毫無疑問的是使 用自然語言顯然最為便捷。在這個背景下,語音識別系統(tǒng)開始從普通 臺走向智能設備、嵌入式平臺等。 然而由于語音識別算法的復雜性、龐大的詞匯庫、應用環(huán)境以及嵌入式平臺的各種受限資源都制約了嵌入式語音識別技術(shù)的發(fā)展。因此如何構(gòu)建出體積小,耗電省,價格低,便攜性好,可支持移動作業(yè)并能適應各種復雜環(huán)境的嵌入式語音識別系統(tǒng)成為當前的一大研究熱點。 重慶郵電大學碩士論文 第 1 章 緒論 4 究現(xiàn)狀 由于資源的限制, 在當前的嵌入式語音識別系統(tǒng)多為中、小詞匯量的語音識別系統(tǒng),即只能識別 10 至 100 個詞條 1314。而且該系統(tǒng)一般僅局限于特定人語音識別的實現(xiàn),即 需要讓使用者對所識別的詞條先進行學習和訓練,這一類識別系統(tǒng)對詞條、語種以及方言沒有什么限制。 由此芯片組成一個完整的語音識別系統(tǒng)。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能 。 多為實時系統(tǒng),即當用戶說完待識別的詞條后,系統(tǒng)立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。 音識別 的 噪聲魯棒 技術(shù) 在早期的語音識別研究中, 大多數(shù)情況下標準數(shù)據(jù)庫都是在相對安靜的環(huán)境錄制的,這樣訓練得到的系統(tǒng),雖然在相同環(huán)境下可以獲得很高的識別率,但是如果在實際帶有噪聲的環(huán)境下測試,其性能往往會變得非常差,主要原因就是帶噪語音特征分布和聲學模型分布之間的差異所導致 15。 語音識別系統(tǒng)的噪聲魯棒性以噪聲 為研究 對象, 主要目的是減少 由噪聲造成的 訓練環(huán)境和 實際 應用環(huán)境的不匹配 ,這里的噪聲包括背景噪聲和信道噪聲 。由于語音信號和實際噪聲這兩者在統(tǒng)計上都是極其復雜的,所以噪聲魯棒性至今也沒有完美的解決方案,但是在某些受限環(huán)境下,我們可以有針對性的加以解決。 聲對語音識別性能的影響 大量實驗表明 16在大多數(shù)現(xiàn)有非特定人的語音識別系統(tǒng)中,當訓練使用的麥克風與識別使用的不相同時,識別性能都會嚴重下降。而對于汽車、街道、餐館、商場、飛機、人群等環(huán)境中的語音來說,現(xiàn)有識別系統(tǒng)的魯棒性變得更差。 在基于統(tǒng)計模型的語音識別系統(tǒng)中,訓練數(shù)據(jù)必須要具有充分的代表性。但當識別系統(tǒng)應用于噪聲環(huán)境時,純凈的訓練數(shù)據(jù)與真實環(huán)境中被噪聲污染的測試數(shù)據(jù)存在著不匹配,正是這種不匹配使得識別系統(tǒng)在噪聲環(huán)境下的性能大大的下降。 由噪聲造成的訓練和測試的不匹配可以從信號 空間、特征空間和模型空間三個層次來分析。 重慶郵電大學碩士論文 第 1 章 緒論 5 聲魯棒 語音識別技術(shù)綜述 噪聲環(huán)境下的語音識別一直是一個研究熱點, 也稱作 噪聲魯棒 語音識別 技術(shù)。到目前為止,噪聲魯棒 技術(shù) 層出不窮 ,主要圍繞信號空間、特征空間和模型空間三個方面。 1. 信號空間的 噪聲魯棒 技術(shù) 信號空間的 噪聲魯棒 技術(shù) 主要關(guān)注于對原始語音信號的處理,主要包括端點檢測和語音增強兩方面。 端點檢測 (稱語音激活檢測 (其主要目的是從麥克風采集的數(shù)字信號中區(qū)分出語音 信號與非語音信號,這有利于減少非語音信號對語音識別系統(tǒng)的干擾,從而減少識別時間和 提升 識別性能。傳統(tǒng)的端點檢測方法有基于能量的和基于過零率的 20,但這些方法在較大的噪聲環(huán)境中,其性能開始惡化,不能很好的區(qū)分語音和噪聲,特別是有些清音和噪聲的特點相似,根本檢測不出來。之后在基于傳統(tǒng)的方法基礎(chǔ)上,根據(jù)不同的應用需求又提出了許多新的方法 21, 包括基于基頻 22、對數(shù)能量等。這些方法將在本文的第二章進行簡單介紹。 語音增強的目的是 盡可能地 從帶噪的語音信號中提取出原始的純凈語音信號。由于不同的噪聲具有不同的特性,所 以不存 在一種可以通用于各種背景噪聲環(huán)境的語音增強算法?;诙虝r譜估計 方法是語音增強最常用的一種方法,主要包括譜減法 2324、維納濾波等。需要注意的是語音增強算法在去除噪聲的同時,會殘留下一些非常刺耳的音樂噪聲,從而造成原始語音信號失真。為了 抑制 音樂噪聲 對語音信號 的影響,一些文獻提出了時域和頻域的平滑方法 25 2. 特征參數(shù)空間 的噪聲魯棒 技術(shù) 特征參數(shù)空間 噪聲魯棒 技術(shù)的主要目的是在聲學特征層減小訓練和測試的不匹配所帶來的影響,包括魯棒性特征提取,特征歸一化等。 魯棒性特征提取主要是研究人類語音 具有 的 特性,試圖選擇對噪聲不敏感的特征參數(shù)。這種方法的優(yōu)點是 假設噪聲的影響很小 ,并且利用了人的生理特性和聽覺特性,所以適用于大部分噪聲環(huán)境;缺點是沒有充分地利用特定噪聲的性質(zhì)。這種方法包括基于人耳聽覺特性的魯棒性特征選擇方法,如 2829和0;基于人類聲道特性的魯棒性特征選擇方法,如 特征歸一化方法也稱特征規(guī)整、特征后處理等,是指在提取聲學特征后,通過對特征的歸一化 處理或者進行某種變換,將特征從一個空間變換到另一個空間 , 這個過程不需要太多的聲學知識 。 特征參數(shù)歸一化的主要 作用有 : 變換后的特征參數(shù)更加符合某種 概率 分布 、 壓縮 了 特征參數(shù) 值域 的動態(tài)范圍 、減少了訓練重慶郵電大學碩士論文 第 1 章 緒論 6 和測試環(huán)境的不匹配 等 。常用的特征歸一化方法 3132有倒譜均值減 ( 倒譜特征均值方差歸一 (。 其中 簡單有效地降低了卷積噪聲的影響;承了 特點,不僅對卷積噪聲有很好的效果,而且還能提升其對加性噪聲的魯棒性。特征參數(shù)歸一化方法原理簡單、計算量小,非常適用 于計算資源受限的系統(tǒng)。 3. 模型空間 的噪聲魯棒 技術(shù) 模型空間 的噪聲魯棒 技術(shù) 主要方法是通過調(diào)整已經(jīng)訓練好的 模型參數(shù)來 減小聲學環(huán)境的不匹配 ,它包括 模型補償和 模型 自適應技術(shù) 。 模型補償是直接在識別模型中增加對環(huán)境噪音的處理。最具代表性的方法是平行模型合并 (33。 自適應技術(shù)的 任務 是讓純凈 語音 的 模型參 數(shù)在不同的環(huán)境下具有一定的自適應能力,即能 根據(jù)當前 環(huán)境中 的噪聲情況自動更新模型參數(shù),以提高系統(tǒng)在該噪聲環(huán)境下的識別性能 。主要方法有雅克比自適應技術(shù) (34和最大似然線性回歸技術(shù) (35等。 盡管這三種方法都各具有各自的優(yōu)點,但它們也有各自的不足。 信號空間級噪聲魯棒技術(shù) 的主要缺點有: (1). 清輔音和寬帶噪聲 很難區(qū)分 且清輔音的相對失真比濁輔音和元音要大 ,一方面是因為清輔音的能量較??;另一方面是因為清輔音和寬帶噪聲在頻譜上具有非常大的相似性,使得兩者不容易區(qū)分。 (2). 信號級方法在去噪后會殘留下一些音樂噪音,當信噪比越大時該現(xiàn)象就越明顯 ,從而造成語音再度的失真 ,因此許多系統(tǒng)僅采用增強后的語音作端點檢測,特征提取選擇原始帶噪語音 或未經(jīng)處理的語音 ( 。 特征參數(shù)級 噪聲魯棒技術(shù) 的缺點 主要有 : (1). 對于魯棒性特征參數(shù)提取而言,目前的方法都是從現(xiàn)象入手,語音的本質(zhì)特征并沒有完全體現(xiàn)出來 ,如 (2). 絕大部分噪聲都是非平穩(wěn)噪聲,因此其 時變性很強 ,使得噪聲的特性很難得到運用。 (3). 對特征參數(shù)變換法而言,由于目前常用的特征參數(shù)與人的聽覺機理沒有密切關(guān)系,聽覺上失真小并不能保證識別效果 好。 模型級噪聲魯棒技術(shù) 的缺點 主要是所使用的自適應處理僅針對噪聲 模型的自適應,而不應該對其它非噪音的語音基元模型使用 。 而且這種方法計算量較大,對計算機的處理性能有所要求 ,不適用于快速改變的環(huán)境 。 文研究思路和結(jié)構(gòu)安排 本文研究的 對象是 噪聲魯棒 語音識別技術(shù), 主要目的是減少 噪聲 或噪聲處理對語音識別系統(tǒng) 的性能影響, 最終目標是 能 將這些技術(shù)運用 到 嵌入式語音識 別系重慶郵電大學碩士論文 第 1 章 緒論 7 統(tǒng)中 。 首先 , 研究 了目前常用的噪聲魯棒性算法,并通過對比各種算法 在不同噪聲環(huán)境下的準確率 和識別效率。綜合各種算法的優(yōu)缺點,選擇出既能適用于資源受到限制的 嵌入 式平臺 ,又能滿足在噪聲環(huán)境下具有較好 魯棒性的 算法 。 其次, 在提升識別效率方面,主要的考慮是對算法進行 優(yōu)化,利用算法自身具有的特性,并根據(jù)嵌入式系統(tǒng)的具體運用對某些需要運算得到的參數(shù)采用查表法代替;采用參數(shù)較少的連續(xù)統(tǒng)計模型替代離散的模型;利用算法中已經(jīng)計算的結(jié)果來遞推新的計算,從而優(yōu)化算法結(jié)構(gòu);采用靜態(tài)內(nèi)存分配,盡管這種方法降低了內(nèi)存利用率,但卻減少了動態(tài)內(nèi)存分配時所帶來的時間開銷 以及內(nèi)存碎片等問題 。 本論文主要內(nèi)容安排如下: 第 1 章為緒論,首先對語音識別 技術(shù)、噪聲環(huán)境下的語音識別技術(shù)和嵌入式語音識別 的研 究 背景、相關(guān)概念以及研究 現(xiàn)狀 進行 綜述。明確了 語音識別 系統(tǒng)噪聲魯棒性 研究 的背景 和 意義 ,并指出了它們在 嵌入式 平臺上的運用前景 ,簡要描述了 現(xiàn)有的 工作和存在的 挑戰(zhàn),最后介紹了論文的主要工作。 第 2 章 介紹了 語音識別 技術(shù)和 噪聲魯棒 技術(shù)的一些常用基本 技術(shù) ,語音識別技術(shù) 包括語音識別的基本框架、語音信號的特點、端點檢測技術(shù)、特征選擇技術(shù)、聲學特征建模 等 。其中著重介紹了高斯混合模型和非線性分段技術(shù), 因為它們主要針對嵌入式語音識別 。 噪聲魯棒性技術(shù)包括語音增強和特征變換。 第 3 章 構(gòu)建了一個基于 語音識別系統(tǒng), 該系統(tǒng)具有系 統(tǒng)參數(shù)配置、數(shù)據(jù)讀入、前端處理、模型訓練以及 噪聲魯棒 算法 測試等功能。 該系統(tǒng)有助于指導 嵌入式語音識別系統(tǒng)的實現(xiàn),并方便 計算量 較大的噪聲魯棒性算法測試。在 本章中還包括前期的 語音數(shù)據(jù)和噪聲數(shù)據(jù)的準備 。最后,給出了 語音增強算法的實驗 結(jié)果與分析 。 第 4 章中首先 提出了快速 遞推算法 ,并對遞推算法進行分析和實驗;其次提出了 基于統(tǒng)計閾值的倒譜均值歸一 ,并在理論和實踐上對該算法進行檢驗 。最后是 特征參數(shù) 各種 變換算法的 實驗結(jié)果和分 析。 第 5 章 主要是語音增強技術(shù)和特征變換 技術(shù) 兩者的融合,本章中主要介紹了它 們的兩種融合算法 , 并 對 這 兩種融合算法 進行 實驗 和 分析。 第 6 章是總結(jié)與展望,總結(jié)論文的主要研究工作,指出其中的不足,并展望之后的研究工作。 重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù) 8 第 2章 語音識別技術(shù)與噪聲魯棒性技術(shù) 語音識別是 一門新興 邊緣學科 ,它主要 研究如何 從 語音 數(shù)字信號 中 提取最基本、最有意義的信息, 它是語音 數(shù)字 信號處理學科的一個分支。語音識別所涉及的學科領(lǐng)域 包括數(shù)字信號處理、物理學( 聲學 )、模式識別、通信及信息理論、語言語音學、生理學 (人類發(fā)音機理) 、計算機科學(研究軟硬件算法以便更有效地實現(xiàn)用于識別系統(tǒng)中的各種方法) 、心理學等。 在本章中將系統(tǒng)介紹 語音識別 技術(shù)和噪 聲魯棒性技術(shù)的 基本概念、原理、方法和應用 。 音識別 技術(shù) 音識別基本框架 不同的語音識別系統(tǒng),雖然具體實現(xiàn)細節(jié)有所 不同,但所采用的基本技術(shù)相似,一個典型語音識別系統(tǒng)的實現(xiàn)過程如 圖 示。 預 處 理聲 學 特 征參 數(shù) 提 取模 式 匹 配模 型 訓 練特 征 后處 理判 決采 樣 和 A / 語 音 模型 庫 反 混 疊 失 真 濾 波 器 預 加 重 分 幀 、 加 窗 端 點 檢 測 語 音 增 強 噪 聲 濾 波 器 專 家 知識 庫 M F C C L P C C P L P 特 征 補 償 特 征 歸 一 動 態(tài) 特 征 歐 氏 距 離 似 然 比 準 則 語 音 信 號輸 入識 別 結(jié) 果輸 出 構(gòu) 詞 規(guī) 則 語 言 模 型 同 音 詞 判 決 領(lǐng) 域 知 識 語 法 語 義 V Q D T W H M M D N N 增 益 控 制 編 碼 預 濾 波 圖 音識別基本框架 首先 , 麥克風將接收到的待識別語音 轉(zhuǎn)換成電信號 ,并經(jīng)過預增益控制、濾波采樣、模數(shù)轉(zhuǎn)換以及編碼 等 過程 得到語音的數(shù)字信號。 這時 該數(shù)字信號 需要進行 預處理,預處理包括反混疊失真濾波、預加重 ,分幀,加窗, 端點檢測 等,必要時,還 可以在此環(huán)節(jié)中增加語音增強和噪聲濾波器 等 信號空間的抗噪技術(shù) 。 經(jīng)過預處理后,按照一定的特征提取方法 獲得 語音 的聲學特征參數(shù),這些特重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù) 9 征參數(shù)的時間序列便構(gòu)成了輸入語音的特征序列。在之后的特征后處理過程中可以對聲學特征 提取 其動態(tài)特征,也可以進行特征補償和特征參數(shù)歸一化等處理。 當特征參數(shù)序列進入模型訓練模塊中通過不同的訓練模型可以得到相應的聲學模型,并存入語音模型庫(也稱參考模型庫)中。當特征 參數(shù)序列進入模式匹配模塊時應根據(jù)不同的聲學模型選擇不同的度量準則,當聲學模型為 時,應使用歐氏距離度量準則;當聲學模型為統(tǒng)計模型時,應選擇似然比為度量準則。經(jīng)過模式匹配后得到 待識別特征和 模型間的距離或似然分。 最后根據(jù)模式匹配得到的距離值和似然分,并結(jié)合專家知識庫中的語言模型、構(gòu)詞規(guī)則、領(lǐng)域知識、同音詞判別、語法語義等進行判別,得到最終的識別結(jié)果。 音的收集和預處理 濾波、采樣和量化 為了將物理波形態(tài)的語音轉(zhuǎn)換成數(shù)字信號,必須經(jīng)過預濾波( 采樣( 量化( 從而得到時間和幅度 均 離散的語音數(shù)字信號。 預濾波的 主要 目的有兩個方面,一方面抑制輸入信號 中 頻率超過 2分量,以防止混疊干擾,其中 采樣率;另一方面是減少 50交流電頻率干擾。這樣預濾波器便是一個帶通濾波器。 采樣是 在采樣脈沖的作用 下,將時間上、幅值上都連續(xù)的模擬信號 轉(zhuǎn)換成時間上離散(時間上有固定間隔)、但幅值上仍連續(xù)的離散模擬信號。所以采樣又稱為波形的離散化過程 。每秒鐘 的采樣樣本數(shù)稱為采樣頻率。采樣頻率越高, 數(shù)值化后的聲波就越接近原始的聲音波形,即聲音的保真度也就越高,但由于采樣樣本的增多 ,便 會 對傳輸速率和存儲 造成 壓力。根據(jù)采樣定理,只有當采樣頻率高于聲音最高頻率的兩倍時,才能把離散數(shù)字 信號表示的聲音信號唯一地還原成原來的聲音 36。 因此 ,采樣頻率決定了聲音頻率的范圍。一般而言, 語音識別 系統(tǒng) 采樣率為 16入式平的 為 8 預濾波和采樣之后要對信號進行量化,即 A/D 轉(zhuǎn)換。量化是將采樣得到的離散點的值用二進制表示以方便計算機傳輸、運行和存儲。常用的量化方法是 將整個幅度值區(qū)間等間隔的劃分,并用一個固定的離散點表示,稱為量化電平。每一個語音采樣之后的數(shù)據(jù)點用其所在區(qū)間對應的離散點或量化電平替代。存儲時可以采用簡單的二進制編碼方案,即如果量化電平的個數(shù)為 256,則可以使用 8 位( 進制來進行編碼。這種方法被稱為均勻量化,編碼方法稱為脈沖編碼重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù) 10 調(diào)制( 在當前的語音處理系統(tǒng)中,常用的編碼位數(shù)為 16,即經(jīng)常所說的“ 16 比特量化”。 實際上,預濾波、采樣、量化等功能都可以用同一塊芯片來完成。 音信號的短時分析技術(shù) 語音數(shù)字信號處理處理的 前提和基礎(chǔ)是語音信號分析,只有通過分析才能找出語音信號的本質(zhì)特性 ,才有可能利用這些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 3-Pyrimidin-2-yl-2-pyrimidin-2-ylmethyl-propionic-acid-生命科學試劑-MCE
- 監(jiān)理兼職合同范本
- 保險合同變更申請書
- 正規(guī)打工合同范本
- 磚廠清包工合同范本
- 2025年三維編織型材織物合作協(xié)議書
- 2025年畜禽肉、油脂及食用雜碎項目發(fā)展計劃
- 課程評估與改進協(xié)議書(2篇)
- 2025年環(huán)保節(jié)能型冷卻塔項目合作計劃書
- 節(jié)能監(jiān)察報告范文
- 課件-DeepSeek從入門到精通
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 藥品類體外診斷試劑專項培訓課件
- 心電監(jiān)護儀的操作及注意事項 課件
- GB/T 718-2024鑄造用生鐵
- 人教版八年級下冊道德與法治全冊教案完整版教學設計含教學反思
- 細胞生物學(全套1047張課件)
- 自動化生產(chǎn)線運行與維護完整版課件(全)
- 土地整理竣工測量技術(shù)報告
- 所羅門學習風格量表4頁
- 離職證明模版
評論
0/150
提交評論