



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、孤立詞語音識別原理與實現(xiàn)群 123蔣 逸 大學(xué)遙感信息大學(xué)遙感信息大學(xué)遙感信息1303 班 20133025900071303 班 20133025901861305 班 2013302590114摘要本文實現(xiàn)了一個識別孤立數(shù)字 0-9 的語音識別系統(tǒng)。該系統(tǒng)首先對語音進行預(yù)處理、特征提取,將一部分語音作為訓(xùn)練樣本生成匹配模板后,與測試語音進行模板匹配從而實現(xiàn)語音模型,保存為模板庫。在識別過程中,將語音信號經(jīng)過相同通道來得到語音參數(shù)生成測試模板。最后將測試模版與參考模板進行匹配,將匹配分數(shù)最高的參考模板作為識別結(jié)果。識別功能。本文最后給出了在果。環(huán)境下的編程及實驗結(jié)2015 進行編程實現(xiàn),用包
2、含數(shù)字本系統(tǒng)使用0-9 共 10 段作為樣本,進行訓(xùn)練建立模版庫, 另外語音識別;DTW 算法;端點檢測;MFCC 系數(shù)的 0-9 共 10 段作為測試語料,使用 Windows 的“錄I. 簡介語音識別技術(shù),也被稱為自動語音識別,被譽為近音機”程序錄制多個 wav 文件作為測試語音,并對其進行識別。A 語音預(yù)處理由于在實際環(huán)境中存在呼吸氣流、外部噪音等噪聲外界干擾,語音信號不平穩(wěn),所以在提取特征前必須對語音信號進行預(yù)處理3。預(yù)處理模塊對輸入的原始語音信號,濾除噪聲,并進行語音信號的端點檢測,判定語音有效范圍的開始和結(jié)束位置,進行語音分幀及預(yù)加重等處理工作4。本文實現(xiàn)的算法使用 wavread
3、()函數(shù)讀入語音后進行預(yù)處理。預(yù)處理主要包括分幀、預(yù)加重、加窗三個步驟。1)分幀研究發(fā)現(xiàn),語音信號在短時間內(nèi)頻譜特性保持平穩(wěn),即具有短時平穩(wěn)特性。因此,在實際處理時可以將語音信號分成時間段小的“幀”,而為保證幀間的過年來領(lǐng)域十大重要發(fā)展技術(shù)之一,其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容1。語音識別本質(zhì)上是一種模式識別的過程2。系統(tǒng)對輸入的語音進行預(yù)處理、特征提取后,用一部分的語音作為訓(xùn)練樣本對系統(tǒng)進行訓(xùn)練,經(jīng)訓(xùn)練后的系統(tǒng)可將待識別語音與訓(xùn)練樣本進行匹配,這個
4、過程稱為語音識別。本文實現(xiàn)了一個采用 DTW 算法識別孤立數(shù)字 0-9的語音識別系統(tǒng)。II.方法度平滑通常相鄰幀有一定, 幀與幀的非部一個完整的語音識別系統(tǒng)主要包括音頻預(yù)處理、特征提取、樣本訓(xùn)練、模版匹配等單元。具體過程如下圖:分稱為幀移,通常設(shè)置為幀長的 1/3 左右。將語音信號分成若干幀的過程稱為分幀。本系統(tǒng)中幀長取為 240ms,幀移取 80ms (這里兩次分幀是為計算過零率做準備)。圖 2 分幀代碼2)預(yù)加重通常情況下語音信號頻率越高幅值越小,因此必須對高頻信號進行加重處理。本系統(tǒng)使用預(yù)加重濾波器,在提高高頻信號頻譜的同時,濾除低頻干擾信號,達到抑制隨機噪聲、清音部分能量的效果。圖 1
5、 語音識別系統(tǒng)流程圖系統(tǒng)首先對輸入的語音進行預(yù)處理。預(yù)處理過程包括預(yù)濾波、預(yù)加重、端點檢測、采樣、量化、分幀等步驟。預(yù)處理后的語音數(shù)據(jù)進行特征參數(shù)提取。訓(xùn)練階段,將特征參數(shù)進行一定的處理之后,為每個詞條得到一個圖 3 預(yù)加重代碼3)加窗使用窗函數(shù)可減少由截斷處理導(dǎo)致的Gi短時過零表示一幀語音信號波形穿過橫軸(零電平)的次數(shù)。對于連續(xù)語音信號,過零意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值的改變符號則稱為過零。過零率就是樣本改變符號次數(shù),定義語音信號壽(m)的短時過零率Zn 為:效應(yīng)4,達到保持語音信號短時平穩(wěn)性的目的。常用的有矩形窗、漢明窗(Hamming)和漢寧窗(Hanni
6、ng)三種窗函數(shù)。1 N 11(0 n N 1)Zn | sgn x (m) sgn x (m 1) |矩形窗:WR nn20(other)m0sgnx 1(x 0)0.5 0.46cos(2n /( N 1)(0 n N 1)1(x 0)漢明窗:WHM 清音的能量多集中在較高的頻率上,它的平均過0(other)0.5- 0.5cos(2n /(N 1)(0 n N 1)漢寧窗:WHN 零率要高于濁音,故短時過零率可以用來區(qū)分清音、濁音以及無聲。但在實際應(yīng)用時不能直接通過式 3-3計算過零率,因為存在無聲段噪聲,所以語音波形在 0 值附近來回擺動,計算得到的過零率和有聲段的區(qū)別并不十分明顯。但
7、可以設(shè)定一個差的閾值,使不僅xn(m)* xn(m -1) 。在本系統(tǒng)中經(jīng)多次試驗取定=0.01。1)雙門限端點檢測雙門限端點檢測即短時能量檢測和短時過零率 檢測。需要設(shè)定 4 個門限,即分別為短時能量和短時過零率設(shè)置高低閾值 EHigh、ELow 和ZHigh、ZLow。0(other)矩形窗的頻譜平滑,但波形細節(jié)丟失;而漢明窗可以有效克服泄漏現(xiàn)象,具有平滑的低通特性5。本系統(tǒng)進行端點檢測時采用時域方法故加矩形窗,計算 MFCC 系數(shù)時加漢明窗。代碼如下:這 4 個閾值設(shè)定,閾值好壞直接影響端點檢圖 4 漢明窗代碼B 端點檢測語音識別時,訓(xùn)練建立模版階段和識別階段都需使用算點監(jiān)測算法來檢測語
8、音信號的起點和終點。端點檢測的基本參數(shù)包括短時能量、幅度、過零率和相關(guān)函數(shù)等5,1)短時能量語音和噪聲的主要區(qū)別在它們的能量上,語音段的能量比噪聲段的大,語音段的能量是噪聲段能量疊加語音聲波能量的和。設(shè)第 n 幀語音信號的短時能量 En2為:N 1測質(zhì)量,需要根據(jù)經(jīng)驗和實際環(huán)境來進行調(diào)整。常見的方法有最大值乘上某個比率、中位值乘上某個比率、最小值乘上某個常數(shù)、前三幀平均值乘上某個常數(shù)等。本系統(tǒng)中 EHigh,ELow,ZHigh,ZLow 的取值分別為4:EHigh= max(min(ma p)*10,mean(*) 0.2,max(*) 0.1);ZHigh= max(roun(dmax(z
9、cr*) 0.1),5);ELow= min(min(ma p)*10,mean(*) 0.2,max(*) 0.1);ZLow= max(roun(dmean(zcr*) 0.1),3);n nE x (m)m02C 特征參數(shù)提取特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率,所以提取的特征參數(shù)必須能有效代表語音特征,具有很好的區(qū)分性且各階參數(shù)之間有良好的獨立性;同時盡可能滿足計算方便,算法高效的要求。常用的特征參數(shù)有幅度、能量、過零率、線性系數(shù)(LPC)與 LPC 倒譜系數(shù)(LPCC)、線譜對參數(shù)xn 為原樣本序列在窗函數(shù)所切取出的第n 段短時語音,N 為幀長。因為計算時使用的是信號的平方,所以
10、將 En 作為一個度量語音幅度值變化的函數(shù)對高電平非常敏感。因此在許多場合會將 En 用下式來代替5:En | xn (m) |m 0這樣就不會因為取平方而造成信號的小取樣值的大取樣值出現(xiàn)較大差異。1)短時過零率N 1(LSP)、短時頻譜、峰頻率和 MFCC 系數(shù)等。其中效果較好的有 LPC 系數(shù)、LPCC 系數(shù)以及 MFCC 系數(shù)2。LPC 系數(shù)是一種基于語音的參數(shù)模型,模擬人的發(fā)音,LPCC 系數(shù)是 LPC 在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC 的優(yōu)點計算量小,易于實現(xiàn),對元音有較好的描述能力,缺點是對輔音描述能力較差6。MFCC
11、 系數(shù)因其可反映人耳聽覺特征而常被采用。大量實驗表明,對比 LPCC 系數(shù),MFCC 系數(shù)更能提高系統(tǒng)的識別性能。本系統(tǒng)采用 24 維 MFCC 參數(shù)進行特征提取。 MFCC 系數(shù)按幀計算。首先要通過 FFT 得到該幀信號的功率譜 S(n),轉(zhuǎn)換為 Mel 頻率下的功率譜。這需要在計算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器:Hm (n) m = 0,1, M -1; n = 0,1, N/2-1M 為濾波器的個數(shù),與臨界帶的個數(shù)一樣通常取 24,;N 為一幀語音信號的點數(shù),為了計算 FFT 的方便,通常取 256。濾波器在頻域上為簡單的三角形,其中心頻率 fm 在 Mel 頻率軸上是均勻
12、分布的2。(N)=MM時間規(guī)整函數(shù)Rim21(1)=1123inT圖 5 時間規(guī)整函數(shù)ND DTW 算法語音識別系統(tǒng)通過訓(xùn)練樣本特征參數(shù)與待識別語 料的特征參數(shù)進行比對來實現(xiàn)語音的識別功能,這一比對的過程成為特征匹配。特征匹配最基本的方式是模板DTW 算法是要尋找一條通過各個交叉點從起始點到終止點的最佳路徑,使得該路徑上所有交叉點的幀失真度總和最小。并且基于語音的特點,本算法對 DTW 算法進一步進行改進24:雖然語音的發(fā)音快慢和長短可能會變化,但是各部分的先后次序不可能顛倒,因此上述路徑必然從左下角出發(fā),終止于右上角。為避免盲目的搜索,一般不容許向橫軸或縱軸過分傾斜的路徑??稍O(shè)定各點斜率最大
13、為 2,最小為 1/2。匹配,即將訓(xùn)練樣本的特征參數(shù)作為模板,再依某種相似性測度將模板與待匹配語音進行匹配?;谀0迤ヅ涞恼Z音識別技術(shù),有多種會影響識別的正確率,其中最重要的是相似性測度的確定。最基本的相似性測度為歐氏距離法。將特征模板庫中的各個模板成為參考模板,用 R 表示;將待識別的輸入語音經(jīng)預(yù)處理以及特征提取后得到的特征矢量序列成為測試模板,用 T 表示2。R = R(1), R(2), R(3),.R(m),R(M)T = T(1), T(2), T(3),T(n),T(N)其中 M 為參考模板所包含的語音幀總數(shù),m 為語音幀的時序標號,R(m)為第 m 幀的特征矢量;T 為測試模板所
14、包含的語音幀總數(shù),n 為語音幀的時序標號,T(n)為第n 幀的特征矢量。計算測試模板和參考模板之間的相似度,可以以歐氏距離計算它們之間的失真:p 為特征矢量維數(shù),T(n) = t1, t2, t3, tp, R(m) = r1, r2, r3,rp在實際應(yīng)用中歐氏距離測度常常不能取得很好的 效果,因為在語音識別過程中,即使是同樣的語音內(nèi)容,其持續(xù)時間長度也會隨即改變,且每個詞的相對時常也是隨化的。因此如果直接用矢量序列的模式來圖 6 時間規(guī)整函數(shù)示意圖3) 傳統(tǒng)的 DTW 算法的效果很大程度上決定點檢測的精度,因此可在端點處放寬端點限制,不嚴格要求端點對齊。也就是起點可以在 (1,1),(1,
15、2),(1,3),(2,1),(3,1),終點類似,如上圖所示。進行相似性比較,其效果不可能最佳,需要對特征參數(shù)序列模式重新進行時間的對準,因此有人提出了動態(tài)時間規(guī)整(DTW)算法來解決這個問題6。DTW 算法構(gòu)建一個橫向坐標代表測試模板 T(n),縱向坐標代表參考模板R(m)的m*n 網(wǎng)格,如下圖。在網(wǎng)格的每個交叉點都可以依上式計算出對應(yīng)的失真度 DT(m),R(n)7表 1. 測試正確率圖 7 DTW 算法代碼在語音識別中,現(xiàn)在還有許多技術(shù)被廣泛使用,如模型(HMM)的語音識別等8,HMM 模型主基于隱IV. 總結(jié)技術(shù)的一次大型課后作業(yè),該題目讓本要是以一個有限狀態(tài)自模擬語音識別過程,通過
16、分析當(dāng)前的波形推斷產(chǎn)生該波形的最可能的音素。其在連續(xù)詞語音識別中很好地改善了識別效果2。本系統(tǒng)中僅實現(xiàn)對孤立詞語音識別,采用HMM 模型增大計算量并且作為多小組成員悉心研究了語音識別的各個算法及知識點,諸如預(yù)處理、DTW 算法、隱蔣逸群負責(zé)進行預(yù)處理編程、模型等。本次作業(yè),負責(zé)進行特征提取對效果的不大,因此采用 DTW 算法實現(xiàn)語音識別。編程,算法。負責(zé)查找訓(xùn)練材料,之后三人一同編寫 DTW和PPT 也是三人分工完成。因時間有限,部III. 實驗結(jié)果環(huán)境編程的好處是,部分音頻處理函使用分算法還未能實現(xiàn),然而已經(jīng)深刻掌握其原理,相信假以時日,能夠改進本次作業(yè),獲取更好的語音識別結(jié)果。數(shù)已經(jīng)包含。
17、本小組了“voicebox”的語音工具箱,其中包含對于語音的預(yù)處理等。語音識別系統(tǒng)的歷史并遠,發(fā)展空間不可限量,如何克服當(dāng)下出現(xiàn)的諸多問題例如針對英語技術(shù)在漢語中如何應(yīng)用,也有待新一代進行解決。參考文獻.基于 DTW 的孤立詞語音識別研究和算法改,圣,1進J.計算機與現(xiàn)代化,2003,11:4-6,.M,2003,清2華大學(xué)34.語音識別技術(shù)及應(yīng)用綜述J.現(xiàn)代電子技術(shù),36(13):43-45,.語音識別系統(tǒng)及其特征參數(shù)的提取研究J.計算機與現(xiàn)代化,2009,9:167-172.語音特征參數(shù)提取方法研究D.電子科技大學(xué),2006:1-6156,崔光照,. 基于 DTW 算法的語音識別系統(tǒng)實現(xiàn)J. 電子工程師, 2004,(07).孤立詞語音識別系統(tǒng)設(shè)計研究D.浙江大學(xué),2006:1-5378現(xiàn)代9,.基于隱技術(shù), 2008(12):54-58模型的中文術(shù)語識別研究J,圖 8 語音識別系統(tǒng)的文件結(jié)構(gòu)本語音識別系統(tǒng)的文件結(jié)構(gòu)如圖6-1所示,其中train文件夾中包含數(shù)字09、字母A-D的訓(xùn)練語音,test中包含若干測試語音
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度數(shù)據(jù)中心工程聯(lián)營合作協(xié)議書
- 二零二五年度專業(yè)籃球俱樂部球員轉(zhuǎn)會合同
- 勞動合同復(fù)印件在2025年度的歸檔與法律效力審查協(xié)議
- 2025年度車隊掛靠及汽車租賃、維修保養(yǎng)、保險、配送及物流服務(wù)合同
- 二零二五年度共享辦公空間租賃終止協(xié)議
- 二零二五年度車輛贈與及駕駛安全培訓(xùn)及保險服務(wù)協(xié)議書范文
- 二零二五年度農(nóng)村土地置換與農(nóng)業(yè)人才培養(yǎng)合作協(xié)議
- 企業(yè)服務(wù)企業(yè)級IT服務(wù)支持與解決方案提供
- 2024年全球及中國書桌抽屜鎖行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 通信廣播機房設(shè)備項目風(fēng)險識別與評估綜合報告
- 現(xiàn)代家政導(dǎo)論-課件 3.2.2認知家庭生活管理
- 北師大版高中歷史必修三第17課-14-16世紀西方人文主義的復(fù)興教學(xué)課件共30張
- 上海中考課內(nèi)文言文必背篇目
- 2022風(fēng)電工程標桿造價指標表格
- 遼寧省部分高中2023-2024學(xué)年高一下學(xué)期4月月考化學(xué)試題
- 08J333 建筑防腐蝕構(gòu)造
- 電工技術(shù)基礎(chǔ)與技能 第4版 課件全套(姚錦衛(wèi))第1-7章 電能與安全用電- 戶內(nèi)開關(guān)箱的安裝與調(diào)試
- 熟練掌握客服常用工具的使用課件
- 分析化學(xué)試題(附答案)
- 2024年上海楊浦區(qū)初三一模語文試卷和答案
- 小兒腸套疊護理查房
評論
0/150
提交評論