版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、VAD、解碼、自動錄音、解碼、自動錄音李龍2015.1.14IFLYTEK模塊關(guān)系cfgcategorypps:試卷解析arc:自動錄音模塊ftr:特征提取模塊,提取MFCC特征,用于識別,速度慢pth:基頻提取模塊sftr:特征提取,用于跟蹤,速度快ick:輸入檢測模塊,檢測輸入語音的能量、有效語音長度、信噪比、截幅比例,以決策出是否存在相應(yīng)異常trk:自動跟蹤解碼dbf:神經(jīng)網(wǎng)絡(luò)ssp:文本切分orc:音段識別,用于打分特征edt:檢錯,用于打分特征mcp:打分特征smp:計(jì)算分?jǐn)?shù)oct:xmlIFLYTEK模塊關(guān)系判斷判斷結(jié)尾結(jié)尾音素音素解碼解碼直接結(jié)束直接結(jié)束最大靜音最大靜音時長后結(jié)時
2、長后結(jié)束束是是否否Arc模塊模塊cfgcategoryVADIFLYTEKVADVAD原理IFLYTEKVAD Voice Activity Detection(端點(diǎn)檢測) 目的 從數(shù)字語音信號中將語音語音和各種非語音非語音信號區(qū)分開來,確定出語音信號的端點(diǎn)。 意義減少數(shù)據(jù)的采集量,節(jié)約處理時間;排除無聲段或噪聲段的干擾,提高信息質(zhì)量; IFLYTEKVAD算法分類算法分類基于特征的方法-能量vad思想:尋找能對語音與噪聲具有區(qū)分性的特征特征:能量能量、子帶能量、過零率、基頻、熵等基于模型的方法-模型vad思想:對語音與噪聲分別建模以區(qū)分語音時段建模方法:GMM、HMMHMM、MLP、SVM、
3、Gamma分布等IFLYTEK能量雙門限算法能量雙門限算法 流程圖IFLYTEK能量雙門限算法能量雙門限算法 算法示意圖IFLYTEK能量雙門限算法能量雙門限算法算法描述尋找語音前端點(diǎn): 當(dāng)前位置后的X幀內(nèi)有連續(xù)Y幀超過E_Low; 當(dāng)前位置后的M幀內(nèi)有連續(xù)N幀超過E_High;尋找語音后端點(diǎn): 找到低于E_Low的點(diǎn); 低于E_Low點(diǎn)后的A幀內(nèi)沒有連續(xù)B幀超過E_High;IFLYTEKVADIFLYTEK能量雙門限算法能量雙門限算法 IFLYTEK模型模型vad模型訓(xùn)練特征為MFCC等Speech、Nonspeech兩個模型Hmm 、Gmm 、DNN計(jì)算語音每幀的后驗(yàn)概率得到每幀語音是S
4、peech的概率;模型決策最終判定與能量vad的四種狀態(tài)跳轉(zhuǎn)類似IFLYTEK解碼解碼原理IFLYTEK解碼什么是解碼?1我們所說的解碼是什么?2解碼(Decoding):用特定方法把數(shù)碼還原成它所代表的內(nèi)容或?qū)㈦娒}沖信號、光信號、無線電波等轉(zhuǎn)換成它所代表的信息、數(shù)據(jù)等的過程。在語音領(lǐng)域,語音識別就是解碼。物理意義:對于輸入語音,算出概率最高的詞序列。IFLYTEK問題這里的解碼器是什么?3解碼器就是將語音信號識別成相應(yīng)的文字信息的模型算法IFLYTEKHMMnHMM:可以用五個元素來描述,包括2個狀態(tài)集合和3個概率矩陣。n1. 隱含狀態(tài) Sn2. 可觀測狀態(tài) On3. 初始狀態(tài)概率矩陣 n4
5、. 隱含狀態(tài)轉(zhuǎn)移概率矩陣 A。n5. 觀測狀態(tài)輸出概率矩陣B。IFLYTEKHMM晴天(0.4)下雨(0.6)散步購物清理0.60.70.40.30.60.30.10.10.40.5IFLYTEKHMM解碼(維特比解碼)一個例子: 想象一個鄉(xiāng)村診所。村民有著非常理想化的特性,要么健康要么發(fā)燒。他們只有問診所的醫(yī)生的才能知道是否發(fā)燒。 聰明醫(yī)生通過詢問病人的感覺診斷他們是否發(fā)燒。村民只回答他們感覺正常、頭暈或冷。 假設(shè)一個病人每天來到診所并告訴醫(yī)生他的感覺。醫(yī)生相信病人的健康狀況如同一個離散馬爾可夫鏈。病人的狀態(tài)有兩種“健康”和“發(fā)燒”,但醫(yī)生不能直接觀察到,這意味著狀態(tài)對他是“隱含”的。每天病
6、人會告訴醫(yī)生自己有以下幾種由他的健康狀態(tài)決定的感覺的一種:正常、冷或頭暈。這些是觀察結(jié)果。 整個系統(tǒng)為一個隱馬爾可夫模型(HMM)。 醫(yī)生知道村民的總體健康狀況,還知道發(fā)燒和沒發(fā)燒的病人通常會抱有什么癥狀。 換句話說,醫(yī)生知道隱馬爾可夫模型的參數(shù)。IFLYTEKHMM解碼(維特比解碼)構(gòu)建醫(yī)生看病的HMM模型:IFLYTEKHMM解碼(維特比解碼)一個問題: 病人連續(xù)三天看醫(yī)生,醫(yī)生發(fā)現(xiàn)第一天他感覺正常,第二天感覺冷,第三天感覺頭暈。 于是醫(yī)生產(chǎn)生了一個問題:怎樣的健康狀態(tài)序列最能夠解釋這些觀察結(jié)果。NORMALCOLDDIZZYHEALTHYFEVER?IFLYTEKHMM解碼(維特比解碼)醫(yī)生看病流程(維特比解碼): NORMALCOLDDIZZYIFLYTEK維特比解碼IFLYTEK維特比解碼最小建模單位:音素最小建模單位:音素abc發(fā)音的三個狀態(tài)發(fā)音的三個狀態(tài)abcIFLYTEK解碼解碼網(wǎng)絡(luò)IFLYTEK維特比解碼111:( )( ), 1 ( )0.iiib oiNi 初始化t1111:( )max( )( ), 2,1. ( )argmax( ), 2,1.tijjti Nttiji Nji a b otTjNji atTjN 遞推*1*1: max( ). argmax( )Ti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023-2024學(xué)年廣西貴港市名校高一上學(xué)期入學(xué)聯(lián)考英語試題(解析版)
- 2024屆廣東省廣州市天河區(qū)高考三模地理試題(解析版)
- 2023-2024學(xué)年云南省文山州高一下學(xué)期期末地理試卷(解析版)
- 2024年微合金粉末合作協(xié)議書
- 2024年印刷電路板化學(xué)品項(xiàng)目合作計(jì)劃書
- 2024年直型熒光燈管項(xiàng)目建議書
- 2024年輸注延長管合作協(xié)議書
- 2024年鋅鎳蓄電池合作協(xié)議書
- 2024年地板護(hù)理品項(xiàng)目發(fā)展計(jì)劃
- 2024智慧校園管理平臺設(shè)計(jì)規(guī)范
- 工程訓(xùn)練(廣東工業(yè)大學(xué))智慧樹知到答案2024年廣東工業(yè)大學(xué)
- 酒店管理專業(yè)崗位分析總結(jié)報(bào)告
- 故事繪本刑天舞干戚
- 2024-2029年女裝套裝行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評估規(guī)劃分析研究報(bào)告
- 田徑運(yùn)動會體育道德風(fēng)尚獎評比細(xì)則
- 垃圾制氫工藝流程
- 新生兒真菌感染
- 2023-2024學(xué)年廣西南寧市高一年級上冊期中考試數(shù)學(xué)質(zhì)量檢測模擬試題(含解析)
- 2024年度自學(xué)ps認(rèn)識蒙版基本原理及案例演示
- 股份期權(quán)協(xié)議
- 《兒科護(hù)理學(xué)》課件-新生兒分類
評論
0/150
提交評論