


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、漢語孤立字語音識別技術(shù)的研究 漢語孤立字語音識別技術(shù)的研究 study on isolated mandarin speech recognition technology 【摘要】 人類有個理想,讓機(jī)器具有“聽”、“說”人類語言的能力。這個理想,在信息時代正逐步變成現(xiàn)實。語音識別正是解決機(jī)器“聽”懂人類語言的一項研究。孤立詞語音識別實現(xiàn)簡單、技術(shù)成熟,有著廣泛的應(yīng)用前景,是深入研究語音識別的基礎(chǔ)。本文對小詞匯量、非特定人的漢語孤立詞的語音識別技術(shù)進(jìn)行了分析和研究。首先介紹了語音識別系統(tǒng)的組成和識別原理,并對語音信號的預(yù)處理過程、端點檢測常用的特征參數(shù)以及語音識別的方法作了分析,重點討論了mf
2、cc特征參數(shù)的提取。繼而重點研究了孤立詞的端點檢測算法,并在基于信息熵、子帶譜熵和頻帶方差的端點檢測算法的基礎(chǔ)上,對原有算法做了修正和改進(jìn),仿真結(jié)果表明,在不同噪聲下,基于改進(jìn)的端點檢測算法在低信噪比條件下的檢測準(zhǔn)確率明顯高于傳統(tǒng)的基于能量和過零率的雙門限檢測算法,其中基于改進(jìn)的頻帶方差的檢測效果最好。最后深入研究了基于dtw和hmm的語音識別方法。其中基于dtw的高效算法具有運算復(fù)雜度低的特點,仿真結(jié)果表明,它非常適合于小詞匯量、特定人的語音識別,識別率可以達(dá)到100%。但是對于非特定人識別,本文選用主流的基于hmm的識別方法,并仔細(xì)探討了chmm應(yīng)用到語音識別中的具體問題。結(jié)合改進(jìn)的端點檢
3、測算法并采用基于chmm的語音識別方法,最終實現(xiàn)了對自建的漢語孤立數(shù)字語音庫92%的平均識別率?!綼bstract】 man has long dreamed of having a machine that can “l(fā)isten to” and “speak” human languages. this ideal of man, in the information era, is gradually becoming a reality with the state-of-the-art technology in speech recognition, the task of whi
4、ch is to solve the problem of machine understanding the human speech.isolated-word speech recognition is the foundation of further deep research on speech recognition, which is easy to implement, with its technique mature and its application prospect broad. in this paper, the technique of small-voca
5、bulary speaker-independent isolated-word speech recognition is analyzed and researched.firstly, this paper focuses on the introduction of the fundamentals of speech recognition. the components and principles of a typical speech recognition system is presented in simple, then the speech signal prepro
6、cess, the endpoint detection feature parameters and the speech recognition methods are analyzed, further the extraction of mel frequency cepstrum coefficients (mfcc) feature is discussed in detail.secondly, the isolated-word endpoint detection algorithms are mainly researched. based on the endpoint
7、detection algorithms of information entropy, band-partitioning spectral entropy and variance of frequency, revisions and ameliorations are made on the original algorithms and corresponding improved endpoint detection algorithms are proposed, the simulation results under the same snr conditions show
8、that the detection accuracy rate of the improved endpoint detection algorithms is significantly higher than that of the traditional threshold detection algorithm based on energy and zero-crossing, wherein the detection performance of the improved variance of frequency based algorithm is the best.fin
9、ally, speech recognition methods based on dynamic time warping (dtw) and hidden markov model (hmm) are deeply studied. the fast dtw algorithm has low complexity and is very suitable for small-vocabulary speaker-dependent speech recognition. the experimental data shows that its correct identification
10、 rate is almost up to 100%. for speaker-independent speech recognition, hmm-based mainstream identification methods is used in this paper, the specific issues of continuous hmm applied to speech recognition are also discussed. ultimately, combining the improved endpoint detection algorithms with con
11、tinuous hmm recognition method, an average recognition rate of up to 92% is achieved in the recognition of self-built chinese figures voice database. 【關(guān)鍵詞】 孤立詞識別; 非特定人; 端點檢測; 美爾頻率倒譜參數(shù); 動態(tài)時間規(guī)整; 隱馬爾可夫模型 【key words】 isolated-word recognition; speaker-independent; endpoint detection; mel frequency cepst
12、rum coefficients; dynamic time warping; hidden markov model 漢語孤立字語音識別技術(shù)的研究摘要 6-7 abstract 7-8 第1章 緒論 11-16 1.1 語音識別的基本概念 11-12 1.2 語音識別技術(shù)的發(fā)展歷程 12-13 1.3 語音識別研究現(xiàn)狀和面臨的挑戰(zhàn) 13-15 1.4 論文的研究內(nèi)容和結(jié)構(gòu)安排 15-16 第2章 語音識別的基本原理 16-33 2.1 語音信號的產(chǎn)生及數(shù)學(xué)模型 16-18 2.2 語音識別系統(tǒng)的組成及其識別原理 18-19 2.3 語音信號的預(yù)處理 19-22 2.3.1 語音信號數(shù)字化 1
13、9 2.3.2 預(yù)加重處理 19-20 2.3.3 加窗和分幀處理 20-22 2.4 端點檢測常用的特征參數(shù) 22-26 2.4.1 時域特征參數(shù) 23-24 2.4.2 頻域特征參數(shù) 24-26 2.5 特征提取 26-32 2.5.1 線性預(yù)測倒譜系數(shù)(lpcc) 27 2.5.2 美爾頻率倒譜參數(shù)(mfcc) 27-32 2.6 語音識別方法簡介 32-33 第3章 基于孤立詞的端點檢測算法研究 33-48 3.1 噪聲源和信噪比 33-35 3.2 語音端點檢測算法及其改進(jìn) 35-48 3.2.1 基于短時能量和短時過零率的語音端點檢測方法 35-36 3.2.2 基于信息熵的語音端點檢測方法及其改進(jìn)算法 36-41 3.2.3 基于改進(jìn)的子帶譜熵的端點檢測算法 41-44 3.2.4 基于能量加權(quán)的頻帶方差的端點檢測算法 44-48 第4章 語音識別算法研究 48-69 4.1 動態(tài)時間規(guī)整(dtw)算法 48-56 4.1.1 dtw算法的匹配原理 48-52 4.1.2 一種改進(jìn)的高效dtw算法 52-55 4.1.3 dtw模板訓(xùn)練和識別 55-56 4.2 隱馬爾可夫模型(hmm)在語音識別中的運用 56-69 4.2.1 隱馬爾可夫模型 57-58 4.2.2 hmm中的三個基本問題及其解決方案 58-63 4.2.3 hmm在語音識別應(yīng)用中的具體問題 63
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025新房購房合同范本2
- 2025版權(quán)轉(zhuǎn)讓合同書模板
- 2025裝飾裝修工程勞務(wù)分包合同【裝飾裝修分包合同】
- 2025船舶租賃及購買合同范本
- 2025電氣設(shè)備安裝合同模板
- 2025年高強(qiáng)2號玻璃纖維紗項目合作計劃書
- 2025年種植施肥機(jī)械項目合作計劃書
- 2025年三異丙醇胺合作協(xié)議書
- 2025年藥品批發(fā)零售合作協(xié)議書
- 2025年雷達(dá)、無線電導(dǎo)航及無線電遙控設(shè)備項目建議書
- 臺球助教培訓(xùn)流程
- 樓板結(jié)構(gòu)開洞施工方案
- 鋰電行業(yè)異物管控
- 生態(tài)管理考試題及答案
- 安置房收樓合同協(xié)議
- 2025春季學(xué)期國開電大本科《人文英語3》一平臺在線形考綜合測試(形考任務(wù))試題及答案
- 2025-2030中國養(yǎng)老服務(wù)行業(yè)市場深度調(diào)研及前景趨勢與投資研究報告
- 2024年吉林省高職高專單招考試數(shù)學(xué)卷試題真題(含答案)
- (一模)2025年廣東省高三高考模擬測試 (一) 歷史試卷(含官方答案及詳解)
- 龍門吊安裝、拆卸工程安全監(jiān)理實施細(xì)則
- 中醫(yī)康復(fù)理療師職業(yè)道德試題及答案引導(dǎo)
評論
0/150
提交評論