VAD、解碼、自動錄音模塊_第1頁
VAD、解碼、自動錄音模塊_第2頁
VAD、解碼、自動錄音模塊_第3頁
VAD、解碼、自動錄音模塊_第4頁
VAD、解碼、自動錄音模塊_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、VAD、解碼、自動錄音、解碼、自動錄音李龍2015.1.14IFLYTEK模塊關(guān)系cfgcategorypps:試卷解析arc:自動錄音模塊ftr:特征提取模塊,提取MFCC特征,用于識別,速度慢pth:基頻提取模塊sftr:特征提取,用于跟蹤,速度快ick:輸入檢測模塊,檢測輸入語音的能量、有效語音長度、信噪比、截幅比例,以決策出是否存在相應(yīng)異常trk:自動跟蹤解碼dbf:神經(jīng)網(wǎng)絡(luò)ssp:文本切分orc:音段識別,用于打分特征edt:檢錯,用于打分特征mcp:打分特征smp:計(jì)算分?jǐn)?shù)oct:xmlIFLYTEK模塊關(guān)系判斷判斷結(jié)尾結(jié)尾音素音素解碼解碼直接結(jié)束直接結(jié)束最大靜音最大靜音時長后結(jié)時

2、長后結(jié)束束是是否否Arc模塊模塊cfgcategoryVADIFLYTEKVADVAD原理IFLYTEKVAD Voice Activity Detection(端點(diǎn)檢測) 目的 從數(shù)字語音信號中將語音語音和各種非語音非語音信號區(qū)分開來,確定出語音信號的端點(diǎn)。 意義減少數(shù)據(jù)的采集量,節(jié)約處理時間;排除無聲段或噪聲段的干擾,提高信息質(zhì)量; IFLYTEKVAD算法分類算法分類基于特征的方法-能量vad思想:尋找能對語音與噪聲具有區(qū)分性的特征特征:能量能量、子帶能量、過零率、基頻、熵等基于模型的方法-模型vad思想:對語音與噪聲分別建模以區(qū)分語音時段建模方法:GMM、HMMHMM、MLP、SVM、

3、Gamma分布等IFLYTEK能量雙門限算法能量雙門限算法 流程圖IFLYTEK能量雙門限算法能量雙門限算法 算法示意圖IFLYTEK能量雙門限算法能量雙門限算法算法描述尋找語音前端點(diǎn): 當(dāng)前位置后的X幀內(nèi)有連續(xù)Y幀超過E_Low; 當(dāng)前位置后的M幀內(nèi)有連續(xù)N幀超過E_High;尋找語音后端點(diǎn): 找到低于E_Low的點(diǎn); 低于E_Low點(diǎn)后的A幀內(nèi)沒有連續(xù)B幀超過E_High;IFLYTEKVADIFLYTEK能量雙門限算法能量雙門限算法 IFLYTEK模型模型vad模型訓(xùn)練特征為MFCC等Speech、Nonspeech兩個模型Hmm 、Gmm 、DNN計(jì)算語音每幀的后驗(yàn)概率得到每幀語音是S

4、peech的概率;模型決策最終判定與能量vad的四種狀態(tài)跳轉(zhuǎn)類似IFLYTEK解碼解碼原理IFLYTEK解碼什么是解碼?1我們所說的解碼是什么?2解碼(Decoding):用特定方法把數(shù)碼還原成它所代表的內(nèi)容或?qū)㈦娒}沖信號、光信號、無線電波等轉(zhuǎn)換成它所代表的信息、數(shù)據(jù)等的過程。在語音領(lǐng)域,語音識別就是解碼。物理意義:對于輸入語音,算出概率最高的詞序列。IFLYTEK問題這里的解碼器是什么?3解碼器就是將語音信號識別成相應(yīng)的文字信息的模型算法IFLYTEKHMMnHMM:可以用五個元素來描述,包括2個狀態(tài)集合和3個概率矩陣。n1. 隱含狀態(tài) Sn2. 可觀測狀態(tài) On3. 初始狀態(tài)概率矩陣 n4

5、. 隱含狀態(tài)轉(zhuǎn)移概率矩陣 A。n5. 觀測狀態(tài)輸出概率矩陣B。IFLYTEKHMM晴天(0.4)下雨(0.6)散步購物清理0.60.70.40.30.60.30.10.10.40.5IFLYTEKHMM解碼(維特比解碼)一個例子: 想象一個鄉(xiāng)村診所。村民有著非常理想化的特性,要么健康要么發(fā)燒。他們只有問診所的醫(yī)生的才能知道是否發(fā)燒。 聰明醫(yī)生通過詢問病人的感覺診斷他們是否發(fā)燒。村民只回答他們感覺正常、頭暈或冷。 假設(shè)一個病人每天來到診所并告訴醫(yī)生他的感覺。醫(yī)生相信病人的健康狀況如同一個離散馬爾可夫鏈。病人的狀態(tài)有兩種“健康”和“發(fā)燒”,但醫(yī)生不能直接觀察到,這意味著狀態(tài)對他是“隱含”的。每天病

6、人會告訴醫(yī)生自己有以下幾種由他的健康狀態(tài)決定的感覺的一種:正常、冷或頭暈。這些是觀察結(jié)果。 整個系統(tǒng)為一個隱馬爾可夫模型(HMM)。 醫(yī)生知道村民的總體健康狀況,還知道發(fā)燒和沒發(fā)燒的病人通常會抱有什么癥狀。 換句話說,醫(yī)生知道隱馬爾可夫模型的參數(shù)。IFLYTEKHMM解碼(維特比解碼)構(gòu)建醫(yī)生看病的HMM模型:IFLYTEKHMM解碼(維特比解碼)一個問題: 病人連續(xù)三天看醫(yī)生,醫(yī)生發(fā)現(xiàn)第一天他感覺正常,第二天感覺冷,第三天感覺頭暈。 于是醫(yī)生產(chǎn)生了一個問題:怎樣的健康狀態(tài)序列最能夠解釋這些觀察結(jié)果。NORMALCOLDDIZZYHEALTHYFEVER?IFLYTEKHMM解碼(維特比解碼)醫(yī)生看病流程(維特比解碼): NORMALCOLDDIZZYIFLYTEK維特比解碼IFLYTEK維特比解碼最小建模單位:音素最小建模單位:音素abc發(fā)音的三個狀態(tài)發(fā)音的三個狀態(tài)abcIFLYTEK解碼解碼網(wǎng)絡(luò)IFLYTEK維特比解碼111:( )( ), 1 ( )0.iiib oiNi 初始化t1111:( )max( )( ), 2,1. ( )argmax( ), 2,1.tijjti Nttiji Nji a b otTjNji atTjN 遞推*1*1: max( ). argmax( )Ti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論