版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
模式識別句法方法第一頁,共四十八頁,編輯于2023年,星期六第十章:語音識別基礎(chǔ)第二頁,共四十八頁,編輯于2023年,星期六語音識別概述語音是人類信息交流的基本手段之一讓計算機能說會聽是智能計算機系統(tǒng)的重要特征語音識別技術(shù)的應(yīng)用將從根本上改變計算機的人機界面,從而對計算機的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠的影響3第三頁,共四十八頁,編輯于2023年,星期六語音識別概述基于電話的語音識別技術(shù),使計算機直接為客戶提供金融證券和旅游等方面的信息查詢及服務(wù)成為可能,進而成為電子商務(wù)進展中的重要一環(huán)作為聲控產(chǎn)業(yè),語音識別技術(shù)將對編輯排版、辦公自動化、工業(yè)過程和機器操作的聲控技術(shù)起到重大的推進作用??梢灶A(yù)言,語音技術(shù)必將對工業(yè)、金融、商業(yè)、文化、教育等諸方面事業(yè)產(chǎn)生革命性的影響4第四頁,共四十八頁,編輯于2023年,星期六語音識別概述
微軟:讓計算機能說會聽
IBM:ViaVoice仍居主流
Intel:做語音技術(shù)倡導(dǎo)者
面對如此廣闊的應(yīng)用領(lǐng)域,目前國內(nèi)外眾多公司正積極推動語音識別技術(shù)的應(yīng)用。5第五頁,共四十八頁,編輯于2023年,星期六語音識別概述微軟:讓計算機能說會聽BillGates在97年世界計算機博覽會(COMDEX)主題演講會上描繪IT事業(yè)的發(fā)展宏圖時,率先指出:下一代操作系統(tǒng)和應(yīng)用程序的用戶界面將是語音識別。工業(yè)界應(yīng)對語音識別領(lǐng)域的重大突破做好充分準備,因為那將是一場席卷全球的另一次熱潮。1998年11月5日,微軟中國研究院在北京成立重點研究計算機在中文環(huán)境下的易用性6第六頁,共四十八頁,編輯于2023年,星期六語音識別概述IBM:ViaVoice仍居主流IBM公司潛心研究語音識別技術(shù)迄今已達30年之久,投資超過2億美元。IBM公司于1995年在北京成立了中國研究中心,中文語音信息處理成了該中心三大研究領(lǐng)域之一1997年9月4日,IBM在北京推出了中文連續(xù)語音識別產(chǎn)品ViaVoice。7第七頁,共四十八頁,編輯于2023年,星期六語音識別概述Intel:做語音技術(shù)倡導(dǎo)者1998年,英特爾公司也宣布致力于推廣語音識別技術(shù),除了在北京舉辦首屆語音技術(shù)國際論壇之外,還在北京、上海、成都、廣州等地展開了“基于英特爾框架的語音識別技術(shù)”的宣傳活動。聯(lián)合了七家世界著名學(xué)術(shù)機構(gòu)(中科院自動化所、清華大學(xué)、香港科技大學(xué)、香港中文大學(xué)、麻省理工學(xué)院、俄勒崗研究院、WATERLLOO大學(xué))成立了“國際語音技術(shù)研究組織”,致力于計算機語音技術(shù)的基礎(chǔ)研究8第八頁,共四十八頁,編輯于2023年,星期六語音識別概述國內(nèi)開展語音識別的科研機構(gòu)和高等院校主要有中科院聲學(xué)所、自動化所、清華大學(xué)、北方交通大學(xué)。已有不少語音識別系統(tǒng)已研制成功清華大學(xué)電子工程系與中國電子器件公司合作研制成功特定人語音識別與理解實時系統(tǒng)四川大學(xué)計算機中心研發(fā)的特定人連續(xù)英語---漢語語音翻譯演示系統(tǒng)清華大學(xué)計算機科學(xué)與技術(shù)系研制的聲控電話查號系統(tǒng)并投入實際使用9第九頁,共四十八頁,編輯于2023年,星期六語音識別概述語音中包含有多種有用的信息:語義信息、語言信息、說話人信息、情感信息等語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中的上述信息的一門新興的邊緣學(xué)科是模式識別的重要應(yīng)用領(lǐng)域之一10第十頁,共四十八頁,編輯于2023年,星期六語音識別的分類按識別任務(wù)說話人識別:說話人辯識、說話人確認語種識別關(guān)鍵詞識別語音識別與理解11第十一頁,共四十八頁,編輯于2023年,星期六語音識別的分類按識別器的類型孤立單詞識別連續(xù)單詞識別連續(xù)言語識別12第十二頁,共四十八頁,編輯于2023年,星期六語音識別的分類按使用者情況特定人語音識別非特定人語音識別按詞匯表大小有限詞匯識別無限詞匯識別13第十三頁,共四十八頁,編輯于2023年,星期六語音識別的關(guān)鍵問題連續(xù)語音詞與詞之間沒有明顯的停頓,詞與詞之間的分割比較困難聲學(xué)識別基元(如音素)受前后音素發(fā)音方式的影響(協(xié)同發(fā)音)使特征變得不穩(wěn)定不同人、不同心理和生理以及在不同的說話環(huán)境下說同一詞時,聲學(xué)信號特征會發(fā)生變化一個詞的讀音不僅包含了詞義特征,而且還包含了說話人性別、年齡、情緒等大量與詞義無關(guān)的信息,而這些信息的分離是不容易的14第十四頁,共四十八頁,編輯于2023年,星期六語音識別系統(tǒng)結(jié)構(gòu)語音輸入預(yù)處理特征提取模型建立訓(xùn)練識別模式匹配判決規(guī)則判決結(jié)果15第十五頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理對語音信號進行轉(zhuǎn)換,使之更適合計算機處理,并符合特征提取的要求語音信號數(shù)字化頻率預(yù)加重分幀加窗16第十六頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理語音信號數(shù)字化
話音(也稱語音),頻率范圍通常為300Hz~3400Hz音樂(由樂器演奏形成的規(guī)范的符號化聲音),其帶寬可達到20Hz~20kHz語音信號的采樣頻率一般為8kHz,音樂信號的采樣頻率則應(yīng)在40kHz以上
17第十七頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理語音信號數(shù)字化
采樣周期(T)·xa(t):模擬波形x(n)=x(nT):取樣值時間振幅··············18第十八頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理頻率預(yù)加重
語音信號受聲門激勵和口鼻輻射的影響,高頻部分(清音)幅度快速跌落預(yù)加重的目的是提升高頻部分,使信號頻譜平坦,以便于提取特征參數(shù)通常采用一階FIR濾波器19第十九頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理分幀處理與加窗
語音信號是時變的非平穩(wěn)過程由于人的發(fā)音器官運動速度較慢,可以認為語音信號是局部平穩(wěn)的,或短時平穩(wěn)的采用分段或分幀來進行分析,即認為在同一幀時間內(nèi)語音信號是平穩(wěn)的一般每秒幀數(shù)為33-100幀20第二十頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理分幀處理與加窗通過加窗處理實現(xiàn)語音信號分幀w(n)x(n)xj(n)=x(j+n)w(n)jj+N-121第二十一頁,共四十八頁,編輯于2023年,星期六語音信號預(yù)處理矩形窗:
漢明窗(Hamming):哈寧窗(Hanning):WR=1=(0≤n<N-1)0=(Other){WHM=0.5-0.46cos(2πn/(N-1))(0≤n<N-1)0=(Other){WHN=0.5-0.5cos(2πn/(N-1))(0≤n<N-1)0=(Other){22第二十二頁,共四十八頁,編輯于2023年,星期六語音信號的特征時域特征短時平均能量
N-1E=∑{x(n)2}
n=0短時平均幅度
N-1M=∑|x(n)|
n=023第二十三頁,共四十八頁,編輯于2023年,星期六語音信號的特征時域特征短時平均過零率
N-1Z=∑{neg(x(n)x(n+1))}
n=0時域特征用于判斷語音信號的起止位置
24第二十四頁,共四十八頁,編輯于2023年,星期六語音信號的特征由于說話內(nèi)容的語義特征、說話人的個性特征和語言特征總是交織在一起的,目前還沒有找到將三者很好地分離的方法語音識別系統(tǒng)主要依靠語音信號的聲學(xué)特征來進行識別25第二十五頁,共四十八頁,編輯于2023年,星期六語音信號的特征語音信號的產(chǎn)生音源:聲帶音源(濁音)、非聲帶音源(清音)-聲帶振動周期:T(F0=1/T:基本頻率)聲道調(diào)音:對聲道形狀進行調(diào)整-聲道共振頻率:F1、F2、F3音源產(chǎn)生聲道調(diào)音向外輻射26第二十六頁,共四十八頁,編輯于2023年,星期六語音信號的特征語音信號的產(chǎn)生沖激串發(fā)生器時變數(shù)字濾波器隨機數(shù)發(fā)生器有聲/無聲開關(guān)語音信號聲道參數(shù)幅度控制27第二十七頁,共四十八頁,編輯于2023年,星期六語音信號的特征基音周期指發(fā)濁音時聲帶振動所引起的準周期運動的時間間隔時域估計法:直接由語音波形來估計基音周期(自相關(guān)法、平均幅度差法)變換域估計法:將語音信號變換到頻域來估計基音周期(倒譜法)28第二十八頁,共四十八頁,編輯于2023年,星期六語音信號的特征共振峰:漢語拼音七個韻母的共振峰頻率(Hz)29第二十九頁,共四十八頁,編輯于2023年,星期六語音信號的特征頻率特征30第三十頁,共四十八頁,編輯于2023年,星期六語音信號的特征線性預(yù)測系數(shù)研究結(jié)果表明,聲道對聲源信號的影響可視為一全極點時變?yōu)V波器,其系統(tǒng)函數(shù)為:
其中為時變參數(shù)31第三十一頁,共四十八頁,編輯于2023年,星期六語音信號的特征線性預(yù)測系數(shù)則語音信號合成的差分方程為:可見,是前p個語音信號采樣值的線性組合,故稱為線性預(yù)測(LP)模型或自回歸(AR)模型稱為線性預(yù)測系數(shù)32第三十二頁,共四十八頁,編輯于2023年,星期六語音信號的特征線性預(yù)測系數(shù)由于聲道形狀在時間上是變化的,故預(yù)測系數(shù)也是時變的。根據(jù)語音信號的短時平穩(wěn)性,可以認為語音在一個分析幀(10-30ms)上是非時變的線性預(yù)測系數(shù)可從語音信號中提取出來33第三十三頁,共四十八頁,編輯于2023年,星期六語音信號的特征線性預(yù)測系數(shù)計算線性預(yù)測系數(shù)常用方法為自相關(guān)法基本思想是使預(yù)測誤差的均方值最小計算的準則是使均方誤差極小34第三十四頁,共四十八頁,編輯于2023年,星期六語音信號的特征令得到關(guān)于線性方程組35第三十五頁,共四十八頁,編輯于2023年,星期六語音信號的特征其中稱為語音短時自相關(guān)函數(shù),N為語音幀的樣點數(shù),p為預(yù)測器階數(shù)。用Durbin算法可解上述方程組。36第三十六頁,共四十八頁,編輯于2023年,星期六語音信號的特征線性預(yù)測倒譜系數(shù)(LPCC)美爾頻率倒譜系數(shù)(MFCC)37第三十七頁,共四十八頁,編輯于2023年,星期六語音識別模型在訓(xùn)練階段,采用合適的模型來表征語音特征參數(shù)常用模型包括:模板匹配模型概率統(tǒng)計生成模型(參數(shù)模型)神經(jīng)網(wǎng)絡(luò)模型融合模型38第三十八頁,共四十八頁,編輯于2023年,星期六語音識別模型模板匹配模型(模板匹配法)從每類模式的訓(xùn)練語句中提取相應(yīng)的特征向量,并以此為模板識別時,從語音信號中按同樣的處理方法提取測試模板通過對參考模板的比較確定待識樣本的類別最近鄰模型(NN)、動態(tài)時間規(guī)整(DTW)模型、矢量量化(VQ)模型
39第三十九頁,共四十八頁,編輯于2023年,星期六語音識別模型動態(tài)時間規(guī)整模型(DTW)是模板匹配模型的典型應(yīng)用解決匹配時音長不一致問題線性匹配與非線性匹配40第四十頁,共四十八頁,編輯于2023年,星期六語音識別模型動態(tài)時間規(guī)整模型(DTW)
待測模式T參考模式Rttttt直接匹配D1(T,R)線性匹配D2(T,R)非線性匹配D3(T,R)41第四十一頁,共四十八頁,編輯于2023年,星期六語音識別模型動態(tài)時間規(guī)整模型(DTW)詞匯表:W(n),n=1,2,…,N參考模式:R(k),k=1,2,…,N待識模式:T利用DTW算法,計算所有Dk(T,R(k))對所有Dk(T,R(k))求其最小值,該最小失真度所對應(yīng)的下標n就為識別結(jié)果。
n=argmin{Dk}
42第四十二頁,共四十八頁,編輯于2023年,星期六語音識別模型矢量量化模型語音序列經(jīng)加窗處理,成為若干短時段的時間序列,再進行特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度協(xié)議離婚房產(chǎn)分割及賠償協(xié)議范本3篇
- 2025年商場柜臺轉(zhuǎn)讓及售后服務(wù)承諾書3篇
- 2025年中國果脯食品行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國木制包裝行業(yè)市場全景評估及投資規(guī)劃建議報告
- 2025年度大棚農(nóng)產(chǎn)品質(zhì)量安全檢測服務(wù)合同4篇
- 2025年中國室內(nèi)健身服裝行業(yè)發(fā)展監(jiān)測及市場發(fā)展?jié)摿︻A(yù)測報告
- 2025版建筑類工程施工合同(含建筑廢棄物分類處理與回收利用)3篇
- 2025年度商業(yè)綜合體場承包經(jīng)營管理協(xié)議4篇
- 2025年中國電動壓裂泵行業(yè)市場發(fā)展監(jiān)測及投資潛力預(yù)測報告
- 二零二四年度在線電子版學(xué)生安全責任與免責協(xié)議3篇
- 2014新PEP小學(xué)英語六年級上冊-Unit5-What-does-he-do復(fù)習(xí)課件
- 9.2溶解度(第1課時飽和溶液不飽和溶液)+教學(xué)設(shè)計-2024-2025學(xué)年九年級化學(xué)人教版(2024)下冊
- 礦山隱蔽致災(zāi)普查治理報告
- 副總經(jīng)理招聘面試題與參考回答(某大型國企)2024年
- PDCA循環(huán)提高護士培訓(xùn)率
- 《獅子王》電影賞析
- 河北省保定市定州市2025屆高二數(shù)學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 中醫(yī)護理人文
- 2024-2030年中國路亞用品市場銷售模式與競爭前景分析報告
- 貨物運輸安全培訓(xùn)課件
- 前端年終述職報告
評論
0/150
提交評論