




已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
重慶郵電大學(xué)碩士論文 摘 要 I 摘 要 目前,自動(dòng) 語(yǔ)音識(shí)別技術(shù)已經(jīng)進(jìn)入了一個(gè)由實(shí)驗(yàn)室到實(shí)用化的高速發(fā)展時(shí)期,基于云 計(jì)算 技術(shù)的語(yǔ)音識(shí)別系統(tǒng)也在嵌入式平臺(tái)上 得到了較好的應(yīng)用 。然而,大多數(shù)實(shí)際環(huán)境并不能滿足基于云的系統(tǒng)要求,如何構(gòu)建一個(gè)基于嵌入式平臺(tái)的語(yǔ)音識(shí)別系統(tǒng)仍是當(dāng)前 語(yǔ)音識(shí)別技術(shù) 研究的 主要方向 之一 。 考慮 到 嵌入式平臺(tái)和 性能上的差距, 以及 不同的語(yǔ)音 識(shí)別系統(tǒng)對(duì)實(shí)際噪聲環(huán)境的適應(yīng)要求,本文 針對(duì)嵌入式平臺(tái)語(yǔ)音識(shí)別系統(tǒng)的構(gòu)建需要,主要 從以下 幾個(gè) 方面 展開研究工作 : 第一,廣泛了解和分析了語(yǔ)音識(shí)別技術(shù)的發(fā)展過程 、技術(shù)難點(diǎn), 提出了在特征的噪聲魯棒性和更快速的解碼網(wǎng)絡(luò)上展開研究工作。 第二, 對(duì)如何構(gòu)建一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行分析,對(duì)比在語(yǔ)音識(shí)別過程中不同層次的主要技術(shù)和方法,分析選擇最適合當(dāng)前目的的技術(shù) ,并分別從信號(hào)層、特征層和模型層研究了語(yǔ)音識(shí)別的噪聲魯棒性和語(yǔ)音增強(qiáng)的技術(shù)及方法。 第 三 , 用基于時(shí)域的 征替代傳統(tǒng)的頻域上的 征。 這兩種特征都是基于人類聽覺感知系統(tǒng)的特征,而用時(shí)域分析取代頻域分析,用離散余弦變換( 代快速傅里葉變換( 大大減少了計(jì)算量;在同一嵌入式設(shè)備上,采用 征的識(shí)別任務(wù)的實(shí)時(shí)性更高,速度因此也更快。 同時(shí),實(shí)驗(yàn)表明,基于時(shí)域 波的 征在大多數(shù)噪音環(huán)境下,比 有更強(qiáng)的魯棒性。 第 四 ,構(gòu)建了基于 加權(quán) 有限狀態(tài)轉(zhuǎn)換的解碼圖來完成對(duì)識(shí)別的解碼操作。 將加權(quán)有限狀態(tài)機(jī)理論引入語(yǔ)音識(shí)別,用加權(quán)有限狀態(tài)轉(zhuǎn)換器構(gòu)建詞圖 ,通過對(duì)模型的平滑和壓縮處理,對(duì)詞圖的剪枝操作,更夠壓縮整個(gè)系統(tǒng)的大小,并保證識(shí)別性能維持在一個(gè)較高的水平,解碼速度也能 相應(yīng) 的提高。 關(guān)鍵詞: 語(yǔ)音識(shí)別; 棒性;加權(quán)有限狀態(tài) 轉(zhuǎn)換器 重慶郵電大學(xué)碩士論文 I ow of a of to a of in of of so it is of to a on of C, as as to of a of a on is of of in of to a in of of we on by of on we by of ; at in on is in we on to we a By we to of to 慶郵電大學(xué)碩士論文 II at a be a 慶郵電大學(xué)碩士論文 目 錄 錄 摘 要 I 錄 1 章 緒論 1 音識(shí)別技術(shù)研究現(xiàn)狀 1 音識(shí)別系統(tǒng)類型 2 音識(shí)別技術(shù)的難點(diǎn) 3 題背景及意義 4 文結(jié)構(gòu)安排 5 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù)研究 6 音識(shí)別系統(tǒng)框架 6 集和預(yù)處理 7 樣和量化 7 加重、分幀和加窗 7 音信號(hào)分析方法 9 音信號(hào)時(shí)域分析方法 9 音信號(hào)頻域分析方法 10 他分析方法 11 學(xué)特征選擇 12 性預(yù)測(cè)倒譜系數(shù) 12 率倒譜系數(shù) 13 它特征選擇和處理方法 14 學(xué)模型 15 馬爾可夫模型 15 本思想 15 型 16 練 17 碼 18 法的實(shí)現(xiàn)問題 21 言模型 21 聲魯棒性技術(shù) 22 重慶郵電大學(xué)碩士論文 目 錄 V 聲與信噪比 23 號(hào)空間噪聲魯棒技術(shù) 23 征空間噪聲魯棒技術(shù) 24 型空間噪聲魯棒技術(shù) 24 結(jié) 26 第 3 章 基于時(shí)域 波的 征 28 效矩形帶寬 28 域 波 28 波器組 28 寬和中心頻率 29 域分析 30 征提取 31 章小結(jié) 32 第 4 章 基于 語(yǔ)音識(shí)別解碼方法 33 權(quán)有限狀態(tài)機(jī)定義 33 權(quán)有限狀態(tài)接收器 34 權(quán)有限狀態(tài)轉(zhuǎn)換器 35 權(quán)轉(zhuǎn)換器處理 36 合( 36 定化( 38 小化( 39 識(shí)源的 示 40 言模型( G) 41 音詞典( L) 41 下文相關(guān)音素模型( C) 42 學(xué)模型( H) 43 優(yōu)化 43 定化 44 小化 44 章小節(jié) 45 第 5 章 系統(tǒng)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果 46 音數(shù)據(jù)庫(kù) 46 聲分析 46 驗(yàn)設(shè)置 49 重慶郵電大學(xué)碩士論文 目 錄 聲學(xué)模型訓(xùn)練 49 言模型訓(xùn)練 49 建解碼圖 50 征提取 52 驗(yàn)結(jié)果 52 凈語(yǔ)音對(duì)比實(shí)驗(yàn) 52 噪語(yǔ)音對(duì)比實(shí)驗(yàn) 53 同頻段抗噪對(duì)比實(shí)驗(yàn) 55 第 6 章 總結(jié)與展望 59 作總結(jié) 59 來展望 59 致 謝 61 碩士期間從事的科研工作 62 參考文獻(xiàn) 63 重慶郵電大學(xué)碩士論文 第 1 章 緒論 1 第 1章 緒論 在文字產(chǎn)生之前,人類已經(jīng)開始用語(yǔ)音來進(jìn)行交流,即使在文明高度發(fā)達(dá)的今天,語(yǔ)音交流仍然是人類交流最主要的模式。從計(jì)算機(jī)的發(fā)明開始,人們就憧憬著有一天能夠?qū)崿F(xiàn)人 與機(jī)器的語(yǔ)音信號(hào)交流,而不滿足于傳統(tǒng)的鼠標(biāo)、鍵盤的輸入,因而語(yǔ)音識(shí)別技術(shù)的研究應(yīng)運(yùn)而生。 語(yǔ)音識(shí)別是一門交叉學(xué)科,它涵蓋了包括信號(hào)處理、模式識(shí)別、人工智能、生理學(xué)、概率統(tǒng)計(jì)和隨機(jī)過程等等在內(nèi)的大量研究領(lǐng)域。 近二十年來,在語(yǔ)音識(shí)別技術(shù)領(lǐng)域取得了大量的成果,語(yǔ)音識(shí)別技術(shù)開始從實(shí)驗(yàn)室走向商業(yè)應(yīng)用。未來十年,語(yǔ)音識(shí)別技術(shù)將大量應(yīng)用于家電、工業(yè)生產(chǎn)、通信服務(wù)、汽車電子、消費(fèi)電子產(chǎn)品、醫(yī)療等各個(gè)領(lǐng)域,語(yǔ)音識(shí)別技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有高競(jìng)爭(zhēng)性的高新技術(shù)產(chǎn)業(yè)。 1 語(yǔ)音識(shí)別的研究最早開始于 1952 年, 貝爾實(shí)驗(yàn)室的的 人把語(yǔ)音信號(hào)的第一、第二共振峰作為特征參數(shù),實(shí)現(xiàn)了第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng) 。 20 世紀(jì) 50 年代末 60 年代初,隨著數(shù)字集成電路的出現(xiàn) ,語(yǔ)音數(shù)字信號(hào)處理也因此產(chǎn)生,這是計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)的開端。 快速傅里葉變換( 頻譜分析中 得到 廣泛應(yīng)用,人們借此開始研究語(yǔ)音信號(hào)的內(nèi)部本質(zhì)。 進(jìn)入 70 年代后 , 美國(guó)國(guó)防部高級(jí)研究計(jì)劃署提出了語(yǔ)音理解研究計(jì)劃并推動(dòng)了該計(jì)劃的展開, 吸引了眾多的 工業(yè)界和學(xué)術(shù)界的研究機(jī)構(gòu),為語(yǔ)音識(shí)別領(lǐng)域注入了更多的新鮮血液,這全面推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展。 人首次系統(tǒng)闡述了隱馬爾可夫模型( 并將其引入語(yǔ)音識(shí)別領(lǐng)域。至今為止, 法仍是語(yǔ)音識(shí)別領(lǐng)域最好的算法之一。在這一時(shí)期,線性預(yù)測(cè)參數(shù)( 3被提出并與動(dòng)態(tài)時(shí)間規(guī)整( 4技術(shù) 和模式識(shí)別 5方法 一起,實(shí)現(xiàn)了特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)。 80 年 代,實(shí)驗(yàn)室語(yǔ)音識(shí)別技術(shù)的研究取得巨大突破 ,研究重點(diǎn)也由孤立詞向連續(xù)語(yǔ)音識(shí)別發(fā)展 。貝爾實(shí)驗(yàn)室 6,使得基于 統(tǒng)計(jì) 概率模型的 方法開始在語(yǔ)音識(shí)別領(lǐng)域得到廣泛應(yīng)用。 1988 年 用 現(xiàn)的 統(tǒng) 7,是第一個(gè)高性能的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 20 世紀(jì) 90 年代, 隨著各種規(guī)模的著名語(yǔ)音識(shí)別任務(wù)的發(fā)布和標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的建立, 各個(gè)研究機(jī)構(gòu)的識(shí)別技術(shù)有了一個(gè)客觀比較的平臺(tái)。 在對(duì)這些標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的測(cè)重慶郵電大學(xué)碩士論文 第 1 章 緒論 2 試比對(duì)取得較好的基礎(chǔ)上, 等都將語(yǔ) 音識(shí)別技術(shù)推入了商用領(lǐng)域。其中 司推出的 統(tǒng),是具有代表性的漢語(yǔ)大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng),該技術(shù)應(yīng)用于聽寫機(jī)、電話網(wǎng)和語(yǔ)音信息查詢服務(wù)系統(tǒng)等領(lǐng)域。 而劍橋大學(xué)推出的 具包 8,也使得研究語(yǔ)音識(shí)別的門檻大大降低,大量研究機(jī)構(gòu)的加入掀起了語(yǔ)音識(shí)別領(lǐng)域研究的又一波高潮。 進(jìn)入 21 世紀(jì)后,語(yǔ)音識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用于商業(yè)用途。 在半導(dǎo)體技術(shù)飛速發(fā)展的前提下, 嵌入式技術(shù) 也得到了 顯著 的 發(fā)展,語(yǔ)音識(shí)別不再局限于計(jì)算機(jī)平臺(tái),開始大量進(jìn)入移動(dòng)設(shè)備領(lǐng)域。 從早期的單片機(jī),到后來的 專用語(yǔ)音識(shí)別 芯片的出現(xiàn),都為嵌入式語(yǔ)音識(shí)別技術(shù)的研究和發(fā)展提供了平臺(tái);而現(xiàn)在,在小型化、高性能的微處理器的普及和 云計(jì)算服務(wù) 、 無線通信技術(shù)的支持下,手機(jī)平臺(tái)的語(yǔ)音識(shí)別應(yīng)用已經(jīng)得到普及, 基于本地語(yǔ)音識(shí)別和云計(jì)算服務(wù)的 應(yīng)用 方式開始推廣, 這其中最成功的例子就是 司的 統(tǒng)。而隨著圖形處理器( 能的提高和在某些領(lǐng)域?qū)?shù)字信號(hào)處理器( 替代,基于深度學(xué)習(xí)( 深度神經(jīng)網(wǎng)絡(luò)( 9也成為當(dāng)前語(yǔ)音識(shí)別最前沿的研究方向之一。 回顧語(yǔ)音識(shí)別發(fā)展的幾十年, 可以用“日新月異”來形容:從最初的音素識(shí)別到當(dāng)前的大詞匯連續(xù)語(yǔ)音識(shí)別, 各種新技術(shù)不斷涌現(xiàn), 識(shí)別性能不斷提升, 應(yīng)用范圍不斷擴(kuò)展 。 但是我們也要清楚的認(rèn)識(shí)到,當(dāng)前的語(yǔ)音識(shí)別技術(shù)和我們想象中的還有 一定距離, 如何真正實(shí)現(xiàn)人與機(jī)器之間暢通無比的語(yǔ)言交流 , 推動(dòng)語(yǔ)音識(shí)別技術(shù)的全面實(shí)用化,將是我們需要面對(duì)的困難和研究的方向。 根據(jù)對(duì)說話人說話方式的要求,語(yǔ)音識(shí)別系統(tǒng)可以分為 3 大類:孤 立字(詞)識(shí)別,關(guān)鍵詞檢出以及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。孤立字(詞)的識(shí)別對(duì)象為一個(gè)字、詞或者是一個(gè)短語(yǔ),對(duì)每一個(gè)對(duì)象都訓(xùn)練出一個(gè)模型,并組成詞匯表,如 “一 ”、 “二 ”、“開門 ”等等;關(guān)鍵詞檢出的識(shí)別對(duì)象為連續(xù)的語(yǔ)音信號(hào),但只對(duì)該信號(hào)中的某一段或幾段信號(hào)進(jìn)行識(shí)別;連續(xù)語(yǔ)音識(shí)別則是對(duì)任意的一句話或一段話進(jìn)行識(shí)別。 根據(jù)對(duì)說話人的依賴程度,語(yǔ)音識(shí)別系統(tǒng)可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。其中,特定人語(yǔ)音識(shí)別的訓(xùn)練模型只針對(duì)于某一個(gè)人,當(dāng)其他人使用該系統(tǒng)時(shí),需要對(duì)這個(gè)人重新訓(xùn)練模型才能完成識(shí)別任務(wù),這種系統(tǒng)可以應(yīng)用在某些 對(duì)安全性要求較高的領(lǐng)域。非特定人語(yǔ)音識(shí)別則適用于某一范疇的說話人的識(shí)別任務(wù),如英文、中文、方言等等,通過對(duì)該范疇內(nèi)的多個(gè)說話人的語(yǔ)音訓(xùn)練出模型,識(shí)別對(duì)象包括訓(xùn)練模型說話人在內(nèi)的該范疇的所有說話人。相對(duì)于特定人識(shí)別系統(tǒng),非重慶郵電大學(xué)碩士論文 第 1 章 緒論 3 特定人識(shí)別系統(tǒng)更能夠滿足實(shí)際應(yīng)用的需要,但其需要的訓(xùn)練時(shí)間更長(zhǎng)、訓(xùn)練資源更多、識(shí)別起來也更加的困難。 根據(jù)識(shí)別詞匯量的大小,語(yǔ)音識(shí)別系統(tǒng)又可以分為小詞匯量、中詞匯量、大詞匯量以及無限詞匯量語(yǔ)音識(shí)別系統(tǒng)。 此外,根據(jù)語(yǔ)音設(shè)備和通道的不同,語(yǔ)音識(shí)別系統(tǒng)還可以分為桌面( 音識(shí)別、電話語(yǔ)音識(shí)別 和嵌入式設(shè)備(手機(jī)、平板、 )語(yǔ)音識(shí)別。 雖然根據(jù)分類準(zhǔn)備的不同而有各種不同類型的語(yǔ)音識(shí)別系統(tǒng),但是其在基本原理和技術(shù)上是相似的。一個(gè)簡(jiǎn)單的語(yǔ)音識(shí)別系統(tǒng)原理圖如圖 1 所示。 圖 1 語(yǔ)音識(shí)別基本原理圖 語(yǔ)音識(shí)別的最終 目的 是讓機(jī)器能聽懂人的語(yǔ)言,真正的實(shí)現(xiàn)人機(jī)對(duì)話。而這卻又是十分的困難,主要原因是: 環(huán)境依賴性強(qiáng),要求測(cè)試條件和訓(xùn)練條件保持一致,否則系統(tǒng)性能會(huì)大大下降; 別是在車載條件下,人的發(fā)音變化大,像發(fā)音失真、發(fā)音速 度和音調(diào)的改變等等,即所謂的 應(yīng); 使在安靜的環(huán)境下,語(yǔ)音識(shí)別系統(tǒng)一半以上的識(shí)別錯(cuò)誤來自錯(cuò)誤的端點(diǎn)檢測(cè); 得漢語(yǔ)的語(yǔ)言信息處理更為困難和復(fù)雜。包括漢語(yǔ)的字詞不分、同音字詞、語(yǔ)義的表述等等; 存在著大量的問題,比如識(shí)別速度、拒識(shí)問題和關(guān)鍵字(詞)檢測(cè)技術(shù)等等。 當(dāng)前語(yǔ)音識(shí)別技術(shù)的應(yīng)用可以分為兩個(gè)發(fā)展方向:一個(gè)方向是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),其平臺(tái)為計(jì)算機(jī),主要應(yīng)用于聽寫機(jī)以及與電話、網(wǎng)絡(luò)結(jié)合的語(yǔ)音 查詢服務(wù);另一個(gè)重要的發(fā)展方向是在小型化、便攜式設(shè)備上的應(yīng)用,如手機(jī)、平板電腦、汽車電子設(shè)備、智能家電和玩具等等,這些都通過專門的硬件系統(tǒng)實(shí)現(xiàn)。以預(yù)處理 特征提取 模式匹配模板庫(kù)語(yǔ)音信號(hào)訓(xùn)練識(shí)別 識(shí)別結(jié)果重慶郵電大學(xué)碩士論文 第 1 章 緒論 4 計(jì)算機(jī)為平臺(tái)的語(yǔ)音識(shí)別系統(tǒng)計(jì)算性能高,存儲(chǔ)空間大,工作環(huán)境相對(duì)安靜,系統(tǒng)的識(shí)別性能很高,而在這些方面,基于嵌入式設(shè)備的語(yǔ)音識(shí)別系統(tǒng)則面臨著更大的困難: 動(dòng)設(shè)備對(duì)識(shí)別任務(wù)的實(shí)時(shí)性要求更高,在相對(duì)計(jì)算資源受限的情況下,要求計(jì)算量小、計(jì)算速度快的處理方法。 使當(dāng)前的移動(dòng)存儲(chǔ)技術(shù)更先進(jìn),但相對(duì) 說,嵌入式設(shè)備的存儲(chǔ)資源仍較小,這就需要訓(xùn)練 模型占用的空間更少。 入式語(yǔ)音識(shí)別的應(yīng)用環(huán)境五花八門,需要有很強(qiáng)的語(yǔ)音增強(qiáng)技術(shù),能夠減少噪音對(duì)識(shí)別性能的干擾。 音識(shí)別系統(tǒng)要讓用戶感覺到是在跟人對(duì)話,這就需要系統(tǒng)允許用戶以各種自然句式發(fā)布命令,這樣就要采用有限狀態(tài)語(yǔ)法網(wǎng)絡(luò)、對(duì)話管理、統(tǒng)計(jì)語(yǔ)言模型和關(guān)鍵詞檢出等技術(shù),來滿足用戶的自然對(duì)話需求。 括自動(dòng)適應(yīng)用戶的口音和說話習(xí)慣。這要求對(duì)聲學(xué)模型和語(yǔ)言模型有自適應(yīng)技術(shù),要求優(yōu)化模型的架構(gòu)和管理程序以滿足嵌入式系統(tǒng)的需要。 近年來,以手機(jī) 等 為 代表 、基于可 移動(dòng) 嵌入式設(shè)備的 語(yǔ)音識(shí)別技術(shù) 的研究 已經(jīng)成為一個(gè)熱點(diǎn) ,并且以本地語(yǔ)音識(shí)別為主、輔以云計(jì)算服務(wù)的語(yǔ)音識(shí)別方式也進(jìn) 入了市場(chǎng)化階段;而然,由于各種應(yīng)用環(huán)境中噪聲的影響、無線通信網(wǎng)絡(luò)的限制 ,如何在性能有限的嵌入式設(shè)備上構(gòu)建一個(gè)本地的、噪聲魯棒的、高效的語(yǔ)音識(shí)別系統(tǒng)仍是當(dāng)前研究的重中之重。 在前人對(duì)語(yǔ)音識(shí)別中噪聲魯棒性技術(shù)的研究基礎(chǔ)上,本文從語(yǔ)音特征的角度出發(fā),選取用基于 波的 征作 為語(yǔ)音識(shí)別中的特征。 實(shí)驗(yàn)證明,與傳統(tǒng)的 征相比,模擬人類聽覺感知系統(tǒng)設(shè)計(jì)的 征對(duì)噪聲 有更強(qiáng)的區(qū)分性,在靜音和多種帶噪語(yǔ)音的環(huán)境中, 有高于 識(shí)別性能;而在時(shí)域上的 征提取與頻域上的 取方式相比,計(jì)算量更小,能夠節(jié)省設(shè)備資源,更適合于嵌入式語(yǔ)音識(shí)別的任務(wù)要求。 在 研究者對(duì)加權(quán)有限狀態(tài)轉(zhuǎn)換器( 先期研究工作的鋪墊下, 目前主流的大詞匯量非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)均采用 架。 在該理論框架下, 語(yǔ)音識(shí)別中各層次的模型和知識(shí)被轉(zhuǎn)換成 形式,并通過加權(quán)有限狀態(tài)機(jī)理論中的組合 操作,將模型和知識(shí)整合成完成的解碼網(wǎng)絡(luò);而最小化操作又能去除冗余,最大程度的壓縮網(wǎng)絡(luò)的規(guī)模。 在加重慶郵電大學(xué)碩士論文 第 1 章 緒論 5 權(quán)有限狀態(tài)機(jī)的理論和操作下,我們可以得到一個(gè)完整的、高效的、單階段的 而通過將其它知識(shí)表達(dá)成 組合到解碼網(wǎng)絡(luò)中的操作,可以 解決 特定的問題或提高整個(gè)系統(tǒng)的識(shí)別性能。 國(guó)外研究結(jié)果表明, 與傳統(tǒng)的兩階段識(shí)別系統(tǒng)( 2比,在優(yōu)化后的靜態(tài)網(wǎng)絡(luò)上的單階段識(shí)別系統(tǒng)( 1具有競(jìng)爭(zhēng)力。 綜上,本文中構(gòu)建了一個(gè)以 語(yǔ)音識(shí)別特征、以 理論基礎(chǔ)的語(yǔ)音識(shí)別系統(tǒng),實(shí) 驗(yàn)測(cè)試了該系統(tǒng)在噪聲環(huán)境下的性能,并對(duì)其在嵌入式設(shè)備上的移植和應(yīng)用做出分析和總結(jié)。 本論文主要內(nèi)容安排如下: 第 1 章為緒論,主要介紹了語(yǔ)言識(shí)別技術(shù)的發(fā)展情況、語(yǔ)音識(shí)別系統(tǒng)的分類和當(dāng)前語(yǔ)音識(shí)別技術(shù)的難點(diǎn),特別是在當(dāng)前語(yǔ)音識(shí)別技術(shù)向嵌入式系統(tǒng)移植的趨勢(shì)下的研究方向。 第 2 章介紹了語(yǔ)音識(shí)別過程中各處理環(huán)節(jié)的一些主流技術(shù)方法,包括對(duì)語(yǔ)音信號(hào)的前端處理、語(yǔ)音信號(hào)的特征處理方法、聲學(xué)模型和語(yǔ)言模型的訓(xùn)練與優(yōu)化處理等等 ,著重介紹了在本文中所采用的方法并和其它方法作比較分析 。 第 3 章詳細(xì)闡述了 波器組的濾波原理,以及基于 波的 征的時(shí)域提取方法。 第 4 章介紹了加權(quán)有限狀態(tài)機(jī)理論以及加權(quán)有限狀態(tài)轉(zhuǎn)換器在語(yǔ)音識(shí)別任務(wù)中的應(yīng)用和處理方法,并描述了在 具包下用加權(quán)有限狀態(tài)轉(zhuǎn)換器構(gòu)建一個(gè)完整的語(yǔ)音識(shí)別解碼圖 和對(duì)本文中所采用的各層次知識(shí)源的組合優(yōu)化操作 。 第 5 章是實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析,設(shè)計(jì)在 境下的一個(gè)完整的語(yǔ)音識(shí)別解碼過程,對(duì) 噪聲語(yǔ)音環(huán)境下的識(shí)別性能進(jìn)行對(duì)比,研究 第 6 章是總結(jié)和展望,對(duì)論文的研究 工作和結(jié)論進(jìn) 行總結(jié),點(diǎn)明優(yōu)勢(shì),指出不足,并提出下一步的研究 和 工作 方向 。 重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù)研究 6 第 2章 語(yǔ)音識(shí)別 技術(shù) 與噪聲魯棒性技術(shù) 研究 語(yǔ)音識(shí)別是一門新興學(xué)科,它在發(fā)展的過程中不斷借鑒和融入其它學(xué)科的理論和方法,形成了一門涵蓋數(shù)字信號(hào)處理、聲學(xué)、生理學(xué) 、語(yǔ)言學(xué)、模式識(shí)別、通信理論、計(jì)算機(jī)科學(xué)等多門學(xué)科的綜合性學(xué)科。而在語(yǔ)音識(shí)別領(lǐng)域,研究者 針 對(duì)不同的側(cè)重點(diǎn)也進(jìn)行了一系列研究; 提高語(yǔ)音識(shí)別系統(tǒng) 在噪音環(huán)境下 的識(shí)別性能, 增強(qiáng)語(yǔ)音識(shí)別系統(tǒng)的噪聲魯棒性,也是語(yǔ)音識(shí)別技術(shù) 中 一個(gè)重要 的 研究方向。 在本章中, 主要介紹了從前端處理、特征提取到識(shí)別 的整個(gè)語(yǔ)音識(shí)別系統(tǒng)的理論和方法;并針對(duì)大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù),著重介紹了本文所構(gòu)建系統(tǒng)中采用的技術(shù),及與其它技術(shù)和方法的分析比較。 對(duì)于不同的識(shí)別任務(wù),語(yǔ)音識(shí)別系統(tǒng)會(huì)不同,但基本技術(shù)和處理流程大致上是相同的。一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)框架如圖 示。 圖 語(yǔ)音識(shí)別系統(tǒng)框架 語(yǔ)音信號(hào)通過麥克風(fēng)采集,經(jīng)過采樣和 A/D 轉(zhuǎn)換后由模擬信號(hào)轉(zhuǎn)變?yōu)閿?shù)字信號(hào)。然后對(duì)語(yǔ)音的數(shù)字信號(hào)進(jìn)行預(yù)加重,分幀,加窗,端點(diǎn)檢測(cè)和濾波等處理。 預(yù)處理過后的語(yǔ)音信號(hào)將按照特定的特 征提取方法提取出最能夠表現(xiàn)這段語(yǔ)采 樣A / D 轉(zhuǎn) 換預(yù) 處 理 特 征 提 取 特 征 處 理解 碼聲 學(xué)模 型語(yǔ) 言模 型訓(xùn) 練語(yǔ) 音 數(shù) 據(jù)庫(kù)語(yǔ) 言 數(shù) 據(jù)庫(kù)語(yǔ) 音 、 語(yǔ) 言 學(xué) 知 識(shí)數(shù) 據(jù) 挖 掘 技 術(shù)信 號(hào) 處 理 技 術(shù)統(tǒng) 計(jì) 建 模 方 法預(yù) 濾 波增 益編 碼. . 重分 幀 、 加 窗端 點(diǎn) 檢 測(cè)噪 聲 濾 波. . C C C C. . 補(bǔ) 償特 征 歸 一 化動(dòng) 態(tài) 特 征. . 距 離馬 氏 距 離最 大 似 然 準(zhǔn) 則. . 信 號(hào) 識(shí) 別 結(jié) 果前 端后 端重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù)研究 7 音信號(hào)特征的參數(shù),這些特征參數(shù)按時(shí)間序列構(gòu)成了這段語(yǔ)音信號(hào)的特征序列。 在訓(xùn)練過程中,獲得的特征參數(shù)通過不同的訓(xùn)練方法獲得模型,而后存入模板庫(kù);在解碼過程中,新采集的語(yǔ)音信號(hào)經(jīng)過處理獲得特征參數(shù)后,與模板庫(kù)中的模型進(jìn)行模式匹配,并結(jié)合一些專家知識(shí)得出識(shí)別結(jié)果。 在語(yǔ)音信號(hào)的采集過程中,麥克風(fēng)將聲音從物理狀態(tài)轉(zhuǎn)化為模擬的電信號(hào),我們需要把連續(xù)的模擬信號(hào)轉(zhuǎn)化為時(shí)間上離散、但幅值上仍連續(xù)的離散模擬信號(hào),這一過程就是采樣。在采樣過程中,根據(jù) 采樣定理,采樣頻率 必須是聲音最高頻率的 2 倍以上。采樣頻率越高,數(shù)字化后的聲波的保真度就越高,但相應(yīng)的信息的存儲(chǔ)量就越大。人耳所能接收到的聲音頻率范圍約為 200常在 上的采樣頻率為 16入式設(shè)備上為 8 為了便于計(jì)算機(jī)計(jì)算、傳輸和存儲(chǔ),采樣后的信號(hào)還要轉(zhuǎn)化為能夠用二進(jìn)制表示的離散值,這一過程就稱為 A/D 轉(zhuǎn)換。為了確保系統(tǒng)處理結(jié)果的精確度,我們必須保證 A/D 轉(zhuǎn)換具有足夠的轉(zhuǎn)換精度。通常采用的方法是均勻量化和脈沖編碼調(diào)制( 當(dāng)前語(yǔ)音識(shí)別中常用 16化。 幀和加窗 對(duì)語(yǔ)音信號(hào)進(jìn)行采樣處理后,還要進(jìn)行一些預(yù)加重。由于受到口鼻輻射和聲門激勵(lì)的影響,語(yǔ)音信號(hào)的高頻部分在 800上會(huì)有 頻程的跌落,因此預(yù)加重的目的就是提升語(yǔ)音信號(hào)的高頻部分,使頻譜平滑。一般預(yù)加重通過一個(gè)一階高通濾波器實(shí)現(xiàn),其表達(dá)形式為: ( 其中 u 值接近于 1,典型取值范圍為 數(shù)字化的語(yǔ)音信號(hào)是一個(gè)不平穩(wěn)的時(shí)變信號(hào) ,為了便于分析,通常假設(shè)語(yǔ)音信號(hào)在 100是短時(shí)平穩(wěn)的,我們所有的分析工作都是在這個(gè)假設(shè)基礎(chǔ)上進(jìn)行的。因此,在對(duì)語(yǔ)音信號(hào)進(jìn)行分析前,需要對(duì)其進(jìn)行分幀,通常將語(yǔ)音信號(hào)的每幀長(zhǎng)度設(shè)為 20鄰兩幀之間有 10重疊。 為了實(shí)現(xiàn)分幀步驟,我們要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗操作。不同的窗口選擇對(duì)語(yǔ)音信號(hào)分析的結(jié)果會(huì)產(chǎn)生影響。最簡(jiǎn)單的窗函數(shù)為矩形窗,即 ( 其他, ,0 1 11 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù)研究 8 其中 N 為幀長(zhǎng)。通常我們選擇的窗函數(shù)為漢明窗( 其定義為: ( ( a) 漢明窗 ( b)矩形窗 圖 函數(shù)波形 選擇漢明窗能夠減小幀起始和結(jié)束處信號(hào)的不連續(xù)性,避免采用矩形窗帶來的象,因此在本文的特征提取中,均采用漢明窗。 其他,010,12c o nN 重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù)研究 9 在信號(hào)分析時(shí),最自然最直接的方法就是以時(shí)間作為要分析函數(shù)的自變量。典型語(yǔ)音信號(hào)特征是隨時(shí)間變化的,本節(jié)簡(jiǎn)單介紹了語(yǔ)音信號(hào)基于短時(shí)分析的幾種時(shí)域分析方法。 時(shí) 過零率 短時(shí)能量分析對(duì)語(yǔ)音信號(hào)能量的時(shí)間變化趨勢(shì)有一個(gè)合理的描述。對(duì)信號(hào) ( 其中, 窗函數(shù) , , 為從第 n 個(gè)點(diǎn)開始的短時(shí)能量。 短時(shí)能量在對(duì)語(yǔ)音信號(hào)的分析中的作用:首先能夠區(qū)分清音和濁音,因?yàn)橥ǔG闆r下濁音比清音具有明顯更大的能量;其次能夠用來進(jìn)行端點(diǎn)檢測(cè),區(qū)分靜音段和聲音段,或者用來判定聲、韻母或連字的分界。 由于對(duì)信號(hào)的平方運(yùn)算 人為增加了高頻信號(hào)和低頻信號(hào)的差距,因此在某些場(chǎng)合可能會(huì)造成更大的誤差。為了解決這個(gè)問題,最簡(jiǎn)單的方法是用短時(shí)平均幅值的變化來表示能量的變化。 短時(shí)平均過零率( 指短時(shí)間內(nèi)信號(hào)通過零值的次數(shù),具體于連續(xù)信號(hào)即其波形通過 x 軸的次數(shù),離散信號(hào)即采樣符號(hào)變化的次數(shù)。對(duì)于第 n 幀語(yǔ)音信號(hào),其過零率為 ( 其中 符號(hào)函數(shù),即 ( 短時(shí)過零率在一定程度上能夠反映頻率的高低,濁音的過零 率較低,清音的過零率相對(duì)較高,因此可以用來初步分析清、濁音。短時(shí)過零率容易受到低頻的干擾,通常我們?cè)谔幚碇羞€會(huì)加入門限值,即將波形穿過零點(diǎn)的次數(shù)改為越過門限值的次數(shù),以此來增強(qiáng)抗干擾能力。 在語(yǔ)音信號(hào)處理中,常將短時(shí)平均能量和短時(shí)平均過零率結(jié)合起來進(jìn)行語(yǔ)音段起始點(diǎn)的檢測(cè),即端點(diǎn)檢測(cè)。當(dāng)背景噪聲較小時(shí),用短時(shí)平均能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 雇主保姆勞務(wù)合同范本
- 按日租車合同范本
- 贈(zèng)與子女土地合同范本
- 重慶買賣合同范本
- 超市專柜扣點(diǎn)合同范本
- 中文版Creo-3.0基礎(chǔ)教程-第4章-工程特征建模
- 正規(guī)私人借款合同范本
- 簡(jiǎn)單電腦租賃合同范本
- 承接鍍鋅加工合同范本
- 2025私人房屋交易合同樣本
- 人教版小學(xué)數(shù)學(xué)四年級(jí)下冊(cè)平均數(shù)教學(xué)教材課件
- 中國(guó)古錢幣課件5(宋元明清)
- 外腳手架拆除方案
- 配電變壓器運(yùn)行管理制度
- 不可gdqwz01-ae001l01eel cl0501rev.0物料電力電纜表
- 應(yīng)急管理概論-理論與實(shí)踐電子教案完整版
- 保安隊(duì)排班表
- (完整版)ERCP并發(fā)癥及應(yīng)急預(yù)案
- AD域部署方案完整版
- T∕CAGHP 066-2019 危巖落石柔性防護(hù)網(wǎng)工程技術(shù)規(guī)范(試行)
- 初一數(shù)學(xué)趣味競(jìng)賽試題
評(píng)論
0/150
提交評(píng)論