




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 讓機器聽懂人類的語音,這是人們長期以來夢寐以求的事情。伴隨計算機技 術(shù)發(fā)展,語音識別己成為信息產(chǎn)業(yè)領(lǐng)域的標志性技術(shù),在人機交互應(yīng)用中逐漸進 入我們?nèi)粘5纳?,并迅速發(fā)展成為“改變未來人類生活方式廳的關(guān)鍵技術(shù)之一。 語音識別技術(shù)以語音信號為研究對象,是語音信號處理的一個重要研究方 向 。其最終目標是實現(xiàn)人與機器進行自然語言通信。 發(fā)展和現(xiàn)狀:發(fā)展和現(xiàn)狀: 20世紀50年代,AT (2)連接詞語音識別系統(tǒng):其輸入系統(tǒng)要求對每個詞都清楚發(fā)音,開始出現(xiàn)一些 連音現(xiàn)象; (3) 連續(xù)語音識別系統(tǒng):連續(xù)語音輸入自然流利的語音,會出現(xiàn)大量的連音和 變音。 另外從識別系統(tǒng)的詞匯量大小分:小詞匯量語音識別系統(tǒng)
2、(幾十個詞);中等 詞匯量語音識別系統(tǒng)(幾百到上千個詞);大詞匯量語音識別系統(tǒng)(幾千到幾萬 個詞)。 語音識別的基本方法語音識別的基本方法: : 一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模 板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。 (1)語音學和聲學的方法 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由 于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達到實用的階段. (2)模板匹配的方法 模板匹配的方法發(fā)展比較成熟,目前己達到了實用階段。常用的技術(shù)有三種: 動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。 (3)神經(jīng)網(wǎng)絡(luò)的方法 基于AN
3、N的語音識別系統(tǒng)通常由神經(jīng)元、訓練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu) 成。由于基于神經(jīng)網(wǎng)絡(luò)的訓練識別算法由于實現(xiàn)起來較復(fù)雜,目前仍只是處 于實驗室研究階段。 目前語音識別的研究主流是大詞匯量的非特定人的連續(xù)語音系統(tǒng),但是事實 上,對于許多應(yīng)用來說,一個語音識別系統(tǒng)只要一組詞匯或命令,它就可能為用 戶提供一個有效的工具,簡單有效的孤立詞特定人語音識別系統(tǒng)就能滿足要求。 正是孤立詞特定人語音識別系統(tǒng)廣闊的應(yīng)用前景以及優(yōu)越性促使我們繼續(xù)對它進 行研究 目前市場上出現(xiàn)的語音識別器大多數(shù)是特定人孤立單詞語音識別系統(tǒng)。 孤立詞語音識別系統(tǒng)中的難點問題:孤立詞語音識別系統(tǒng)中的難點問題: (1) 語音信號的多變性 語
4、音信號是非平穩(wěn)隨機信號,不但不同發(fā)音者發(fā)音之間存在重大的差異,即 使同一人同一語音的不同次發(fā)音,也存在很大差異。 (2) 噪聲影響 當實際環(huán)境中有噪聲存在時,容易造成訓練與測試環(huán)境不匹配導(dǎo)致語音識別 系統(tǒng)性能急劇下降。 (3) 端點檢測 統(tǒng)計表明語音識別系統(tǒng)一半以上的識別錯誤來自端點檢測錯誤。在安靜環(huán)境 下有聲段和無聲段時能量存在很大差異,由此判斷語音的起點。但是當噪聲的能 量和語音信號的能量接近時就可能造成端點檢測的誤差從而導(dǎo)致識別結(jié)果錯誤。 (4) 詞與詞的特征空間混疊 語音識別的常規(guī)方法是利用語音信號的短時周期特性將語音時域采樣信號分 為若干段,計算出每一段的特征矢量序列作為識別參數(shù)。但
5、是很多不同的詞語的 矢量序列在特征空間中存在混疊現(xiàn)象,甚至有些不同詞語的混疊程度會超過同一 詞語的不同次發(fā)音,從而降低識別率。 語音信號產(chǎn)生模型語音信號產(chǎn)生模型 語音是由空氣流激勵聲道產(chǎn)生的。對于濁音、清音和爆破音三種不同類型的 音來說,激勵源是不同的。濁音激勵源是位于聲門處的準周期脈沖序列,清音的 激勵源是位于聲道的某個收縮區(qū)的空氣湍流(類似于噪聲),而爆破音的激勵源 是位于聲道某個閉合點處建立起來的氣壓及其突然釋放。 語音生成系統(tǒng)分為三個部分,在聲門(聲帶)以下,稱為聲門子系統(tǒng),它產(chǎn)生 激勵振動,是激勵系統(tǒng):從聲門到嘴唇的呼氣通道是聲道系統(tǒng):語音從嘴唇輻射出 去,所以嘴唇以外是輻射系統(tǒng)。因
6、此,完整的語音信號的數(shù)學模型可以用三個子 模型:激勵模型、聲道模型和輻射模型的串聯(lián)表示。 語音信號產(chǎn)生的時域模型語音信號產(chǎn)生的時域模型 語音信號分析基礎(chǔ)語音信號分析基礎(chǔ) 語音信號的分析主要有時域分析和頻域分析兩種,其他還有倒譜域、語譜分 析等。 語音信號是一種典型的非平穩(wěn)信號。語音的形成過程與發(fā)音器官的運動密切 相關(guān),這種物理運動比起聲音振動速度來講要緩慢得多,因此語音信號可假定為 短時平穩(wěn)的,其頻譜特性和某些物理參數(shù)在10-30ms時間段內(nèi)是近似不變的,對 語音信號進行處理都是基于這個假設(shè) 語音信號的時域分析參數(shù)主要有短時能量、短時平均幅度、短時過零率等, 這些參數(shù)主要用在語音端點檢測中。頻
7、域分析參數(shù)主要有基音頻率、濾波器組參 數(shù)、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC)、線譜對參數(shù)(Linear Spectrum Pair, LSP),MEL頻率倒譜系 數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)等. 語音識別系統(tǒng)基本構(gòu)成語音識別系統(tǒng)基本構(gòu)成 預(yù)處理預(yù)處理 預(yù)處理部分包括語音信號的采樣、反混疊濾波、語音增強,去除聲門激勵和 口唇輻射的影響以及噪聲影響等,預(yù)處理最重要的步驟是端點檢測。 特征提取特征提取 特征提取部分的作用是從語音信號波形中提取一組
8、或幾組能夠描述語音信號 特征的參數(shù),如平均能量、過零數(shù)、共振峰、倒譜、線性預(yù)測系數(shù)等,以便訓練 和識別。參數(shù)的選擇直接關(guān)系著語音識別系統(tǒng)識別率的高低。 訓練訓練 訓練是建立模式庫的必備過程,詞表中每個詞對應(yīng)一個參考模式,它由這個 詞重復(fù)發(fā)音多遍,再經(jīng)特征提取和某種訓練中得到。 模式匹配模式匹配 模式匹配部分是整個系統(tǒng)的核心,其作用是按照一定的準則求取待測語音特 征參數(shù)和語音信息與模式庫中相應(yīng)模板之間的失真測度,最匹配的就是識別結(jié)果。 語音信號的數(shù)字化和預(yù)處理語音信號的數(shù)字化和預(yù)處理 1 1、語音信號數(shù)字化 要了分析說話人的語音,就要將話筒中傳來的語音信號轉(zhuǎn)換成計算機所能處 理的數(shù)字信號。通過對
9、語音信號特性的分析表明,濁音語音的頻譜一般在4KHz 以上便迅速下降。而清音語音信號的頻譜在4KHz以上頻段反而呈上升趨勢,甚至 超過了8KHz以后仍沒有明顯下降的苗頭。實驗表明語音清晰度和可懂度有明顯 影響的成分最高頻率約為5.7KHz。而語音信號本身的冗余度又比較大,少數(shù)輔 音清晰度下降并不明顯影響語句的可懂度。因此語音識別時常用的采樣頻率為 10KHz或16KHz。 2、預(yù)加重 為了消除聲門激勵和口鼻輻射的影響,需要對語音信號作預(yù)加重理。它的目 的在于消除低頻干擾尤其是50Hz的工作頻率干擾,將對語音識別更為有用的高 頻部分的頻譜進行提升。使信號的頻譜變的平坦,保持在低頻到高頻的整個頻帶
10、 中,能用同樣的信噪比求頻譜, 以便于頻譜分析。 預(yù)加重數(shù)字濾波器一般是一階的數(shù)字濾彼器: ,其中u的取值一般 介于0.93和0.98之間。 1 1)( zzH 3 3、語音分幀 語音信號常??杉俣槎虝r平穩(wěn)的,即在10-20ms這樣的時間段內(nèi),其頻譜 特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩(wěn)過程的分 析處理方法來處理了。這種處理的基本方法是將語音信號分隔為一些短段即分幀 再加以處理。分幀可以采用連續(xù)分段的方法,也可采用交疊分段的方法。一般采 用交疊分段的方法,即幀與幀之間有交疊,交疊的目的是使幀與幀之間平滑過渡, 保持其連續(xù)性。語音信號處理的幀長一般取20ms )()(
11、)(nwnsnsw 10, 1)(Nnnw 10), 1 2cos(46.054.0)( Nn N n nw 10), 1 2cos(1 (5 .0)( Nn N n nw 矩形窗的主瓣寬度最小,旁瓣高度最高,會導(dǎo)致泄漏現(xiàn)象,漢明窗的主瓣 最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性, 應(yīng)用更廣泛。 語音信號的時域分析語音信號的時域分析 1 1、短時平均能量 短時平均能量反映了語音振幅或能量隨著時間緩慢變化的規(guī)律??梢詮恼Z音 中區(qū)別出濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大 很多。其計算公式如下: 2、短時過零率 短時過零率表示一幀語音中語音信號波形穿
12、過橫軸的次數(shù)。對于連續(xù)信號, 過零率意味著時域波形通過時間軸;在離散時間信號情況下,當相鄰的兩次抽樣 具有不同的代數(shù)符號時就稱為發(fā)生了過零.應(yīng)用短時平均過零率可以得到譜特性 的粗略估計。短時平均過零率的定義為: 濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高 頻率段內(nèi),具有較高的過零率。 )( 1 2 mnSE mN mn wm 1 0 0 )1()( 2 1 N n ww nSSgnnSSgnZ 3 3、端點檢測 端點檢測的目的就是從連續(xù)的聲音中間檢測出每一段語音的起始點和終止點, 從而達到節(jié)省系統(tǒng)資源,方便實時分析的效果。此外,端點檢測的好壞還將直接 影響孤立詞識別
13、率的高低。 雙門限前端檢測算法是經(jīng)典的起止點檢測算法,這種端點檢測技術(shù)主要利用 短時過零率特征和每幀的平均幅值特征來判斷語音信號的起止點,采用矩形窗進 行分幀。 端點檢測效果圖端點檢測效果圖 語音信號的特征參數(shù)提取語音信號的特征參數(shù)提取 提取特征參數(shù)滿足的要求: 1、能有效地代表語音特征,具有很好的區(qū)分性 2、參數(shù)間有良好的獨立性 3、特征參數(shù)要計算方便,要考慮到語音識別的實時實現(xiàn) 常用的特征參數(shù)包括: 線性預(yù)測系數(shù)(LPC); 線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC); MEL頻率倒譜系數(shù)(Mel-Frequency Cep
14、strum Coefficient, MFCC)。 倒譜介紹倒譜介紹 倒譜定義為時間序列的z變換的模的對數(shù)的逆z變換: 倒譜分析的基礎(chǔ)是假設(shè)語音是激勵函數(shù)與聲道沖激響應(yīng)的卷積。語音的倒譜 實際上是將語音的頻譜(短時譜)取對數(shù)后再進行逆傅里葉變換(實際上代之以 DFT)得到的。因此,聲道濾波器對于倒譜的貢獻將表現(xiàn)為=0附近的峰起;而 周期性脈沖激勵對倒譜的貢獻將表現(xiàn)為具有同樣周期的沖擊 。 )(ln)( 1 nxzznc 線性預(yù)測系數(shù)線性預(yù)測系數(shù)(LPC) )()( 0 lnxanx p l pl p l l lz a zH 1 1 1 )( 線性預(yù)測倒譜系數(shù)線性預(yù)測倒譜系數(shù)(LPCC) 通過線
15、性預(yù)測得到全極點系統(tǒng)函數(shù)為: 倒譜定義為時間序列的z變換的模的對數(shù)的逆z變換。因此線性預(yù)測倒譜可 表示為: LPCC系數(shù)主要是模擬人的發(fā)聲模型,未考慮人耳的聽覺特性, 它對元音 有較好的描述能力,對輔音描述能力及抗噪性能比較差,其優(yōu)點是計算量小,易 于實現(xiàn)。 p l l lz a zH 1 1 1 )( )(ln)( 1 zHznh MEL頻率倒譜系數(shù)頻率倒譜系數(shù)MFCC MFCC參數(shù)是目前大多數(shù)語音識別系統(tǒng)中廣泛使用的特征參數(shù),它是基于人 耳的聽覺特性。人耳對聲音音調(diào)的感受與其頻率并不成線性關(guān)系。而Mel倒譜尺 寸,則更符合人耳的聽覺特性。 Mel頻率尺度,它的值大體上對應(yīng)于實際頻率的 對數(shù)
16、分布關(guān)系。Mel頻率與實際頻率的具體關(guān)系可用下式表示: MFCC的計算流程可以簡單的概括為以下五個步驟: 1、分幀 2、DFT計算譜系數(shù) 3、對譜系數(shù)的幅值取log 4、將3中的結(jié)果轉(zhuǎn)化到Mel 頻標下 5、做DCT變換 MFCC與基于線性預(yù)測的LPCC相比,其突出優(yōu)點是不依賴全極點語音產(chǎn)生 模型的假定,因而在噪聲環(huán)境下表現(xiàn)出更強的魯棒性,在非特定人語音識別方面 有利于減小因說話人不同的差異可能帶來的影響。不足之處是MFCC方法中多次 用到FFT,故算法的復(fù)雜程度遠大于LPCC方法。 )700/1lg(*2595)(ffMel Mel濾波器組 模板訓練方法模板訓練方法 偶然性訓練方法 每個單詞
17、的每一遍讀音形成一個模板,在識別時,待識別語音特征矢量序列 用特定的匹配算法分別求得與每個模板的累計失真,然后判別它屬于哪一類。 魯棒性訓練方法 將每一個詞重復(fù)說多遍,直到得到一個一致性較好的特征矢量序列。最終得 到的模板是在一致性較好的特征矢量序列。 聚類訓練法 對于非特定人語音識別,要想獲得較高的識別率,就需要對多組訓練數(shù)據(jù)進 行聚類,以獲得可靠的模板參數(shù)。比如矢量量化方法(VQ)。 模式匹配方法模式匹配方法 基于動態(tài)模板匹配技術(shù)的DTW識別法 動態(tài)時間彎折(DTW)基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的匹配問題, 是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。 模式匹配方法模式匹配方法 基
18、于聚類理論的矢量量化(VQ)識別法 矢量量化是將n維歐氏空間 中的矢量按某種準則用有限個矢量 來表示。在矢量量化理中, 稱為輸入矢量, 稱為量化矢量、 碼字或碼矢, 稱為碼書或碼本,碼字數(shù)目k稱為碼本大小。 碼本設(shè)計常采用LBG算法 n R k, 2 , 1|iyix i y k, 2 , 1|iyi 矢量量化示例:矢量量化示例: 模式匹配方法模式匹配方法 基于隨機過程理論的HMM模型 人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的 時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參 數(shù)流。HMM合理地模仿了這一過程,它對語音信號的時間序列建立統(tǒng)計模型, 很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模 型。 基于神經(jīng)網(wǎng)絡(luò)識別法 人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng)非線性動力學系統(tǒng),模擬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【復(fù)習大串講】【中職專用】高二語文上學期期末綜合測試題(一)(職業(yè)模塊)(原卷版)
- 修理店合同范本
- 原油合同范本
- 公路測量合同范本
- 廠房 合同范本
- 養(yǎng)殖大棚轉(zhuǎn)讓合同范例
- 同城物流合同范本
- 包工地消防安裝合同范本
- 合購車合同范本
- 民營經(jīng)濟改革創(chuàng)新助力高質(zhì)量發(fā)展轉(zhuǎn)型
- 2025年黑龍江民族職業(yè)學院單招職業(yè)技能測試題庫完整版
- 2024年南京機電職業(yè)技術(shù)學院單招職業(yè)技能測試題庫標準卷
- 事業(yè)單位考試職業(yè)能力傾向測驗(綜合管理類A類)試題與參考答案(2024年)
- 小紅書食用農(nóng)產(chǎn)品承諾書示例
- 【課件】化學與人體健康課件-九年級化學人教版(2024)下冊
- 離職證明(標準模版)
- 2024年版的企業(yè)績效評價標準
- 2024年共青團入團積極分子考試題庫(附答案)
- 學術(shù)規(guī)范與學術(shù)誠信
- 【招標控制價編制研究文獻綜述(論文)4800字】
- 古建筑木構(gòu)架構(gòu)造二
評論
0/150
提交評論