




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聲音識(shí)別基礎(chǔ)知識(shí)2015級(jí)電子與通信工程 董雪聲音識(shí)別原理語(yǔ)音輸入語(yǔ)音輸入訓(xùn)練訓(xùn)練識(shí)別識(shí)別結(jié)果結(jié)果聲音識(shí)別的過(guò)程 聲音的預(yù)處理:振幅歸一化、預(yù)加重、樣本分割、加窗 特征提取:特征參數(shù)可以是能量、基音頻率、共振峰值等,較常見(jiàn)的是線性預(yù)測(cè)倒譜系數(shù)LPCC、Mel倒譜系數(shù)MFCC。二者均為將聲音信號(hào)變換到倒譜域上。幅值歸一化 幅值歸一化就是把每一個(gè)采樣值除以本段信號(hào)的幅值。即: 其中, 是原始信號(hào), 是歸一化后的信號(hào),n是信號(hào)長(zhǎng)度。01( )( )/ max ( )i nX ix ix i ( )x i( )X i預(yù)加重處理 目的:對(duì)高頻部分進(jìn)行加重,增加語(yǔ)音的高頻分辨率。 實(shí)現(xiàn)方式:一般通過(guò)傳遞函
2、數(shù) 的一階FIR高通數(shù)字濾波器來(lái)實(shí) 現(xiàn)預(yù)加重,其中, 為預(yù)加重系 數(shù),其值介于0.9到1.0之間。 11H zz 加窗處理 預(yù)加重處理后,進(jìn)行加窗分幀處理。 原理:由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間內(nèi)(一般為1030ms)語(yǔ)音信號(hào)近似不變,即語(yǔ)音信號(hào)具有平穩(wěn)性。這樣,可以把語(yǔ)音信號(hào)分為一些短段(分析幀)。語(yǔ)音信號(hào)的分幀是采用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。一般每秒33100幀。加窗處理 雖采用連續(xù)分段,但一般采用交疊分段 的方法使幀與幀之間平滑過(guò)渡,保持連 續(xù)性。前幀與后幀的交疊部分稱(chēng)為幀移 ,幀移與幀長(zhǎng)的比值一般取01/2。 常用窗: 一種是矩形窗: 另一種是漢明窗:1,0
3、10,( )n Nothersn 0.54 0.46cos2/(1),00,nNn Nothers 矢量量化 基本原理:先把信號(hào)序列的每K個(gè)連續(xù)樣點(diǎn)分成一組,形成N維歐式空間中的一個(gè)矢量,然后對(duì)此矢量進(jìn)行量化。矢量量化就是把一個(gè)K維模擬矢量X映射為另一個(gè)k維量化矢量,其數(shù)學(xué)表達(dá)式為:Y=Q(X)。 矢量量化系統(tǒng)通??梢苑纸鉃閮蓚€(gè)映射的乘積:Q=ab。a是編碼器,將輸入矢量X映射為信道符號(hào)集 中的一個(gè)元 ;b是譯碼器,它是將信道符號(hào)集 映射為碼書(shū)中的一個(gè)碼字Yi。NIjiji矢量量化 失真測(cè)度:要對(duì)落在二維空間的模擬矢量X=(a1,a2)進(jìn)行量化,要先選擇一個(gè)合適 的失真測(cè)度,而后利用最小失真原
4、則,分別計(jì)算用量化矢量Yi替代X所帶來(lái)的失真。 其中最小失真值所對(duì)應(yīng)的那個(gè)量化矢量Yi中某一個(gè)就是模擬矢量X的重構(gòu)矢量。通常把所有N個(gè)量化矢量構(gòu)成的集合稱(chēng)之為碼書(shū)或碼本。碼書(shū)中的矢量稱(chēng)之為碼字或碼矢。矢量量化 常用的失真測(cè)度有如下幾種: (1)平方失真測(cè)度: (2)絕對(duì)誤差失真測(cè)度: (3)加權(quán)平方失真測(cè)度: 其中,W為正定加權(quán)矩陣,T為矩 陣轉(zhuǎn)置符號(hào)。2(, )()iid X YXY1(, )|kiiid X YXY(, )()()Td X YXYW XY矢量量化 失真度必須具有如下特點(diǎn): (1)在主觀評(píng)價(jià)上具有意義,即小的失真對(duì)應(yīng)好的主觀質(zhì)量評(píng)價(jià)。 (2)數(shù)學(xué)上易于處理,能導(dǎo)致實(shí)際的系統(tǒng)設(shè)計(jì)。 (3)可計(jì)算并保證平均失真 D=Ed(X, Q(X)存在。 (4)采用的失真測(cè)度應(yīng)使系統(tǒng)容易用硬件實(shí)現(xiàn)?;贛el和矢量量化的方法 聲音預(yù)處理 取幀長(zhǎng),每幀作FFT變換。 用Mel帶通濾波器進(jìn)行濾波,得到一組系數(shù)。 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜 利用反離散余弦變換得到MFCC 矢量量化 特征匹配基于MFCC和GMM的方法 聲音預(yù)處理 取幀長(zhǎng),每幀作FFT變換 把上述功率譜映射到梅爾頻標(biāo),再用M個(gè)梅爾帶通濾波器濾波 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜 利用離散余弦變換得
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 休閑農(nóng)業(yè)與鄉(xiāng)村旅游融合發(fā)展報(bào)告:鄉(xiāng)村旅游與鄉(xiāng)村旅游教育研究
- 休閑食品健康化轉(zhuǎn)型對(duì)2025年市場(chǎng)拓展的產(chǎn)業(yè)鏈協(xié)同效應(yīng)分析報(bào)告
- 傳統(tǒng)食品產(chǎn)業(yè)升級(jí)新動(dòng)力:2025年生產(chǎn)技術(shù)改造與市場(chǎng)競(jìng)爭(zhēng)力提升報(bào)告
- 五年級(jí)科學(xué)下冊(cè)教科版小學(xué)實(shí)驗(yàn)教學(xué)整體計(jì)劃
- 山東省煙臺(tái)市萊山區(qū)2025屆化學(xué)九年級(jí)第一學(xué)期期末達(dá)標(biāo)檢測(cè)模擬試題含解析
- 長(zhǎng)治市重點(diǎn)中學(xué)2024-2025學(xué)年八年級(jí)物理第一學(xué)期期末達(dá)標(biāo)測(cè)試試題含解析
- 小學(xué)五年級(jí)體育與健康安全教育計(jì)劃
- 三年級(jí)上冊(cè)教科版科學(xué)實(shí)驗(yàn)教學(xué)裝備計(jì)劃
- 韶關(guān)市科技計(jì)劃項(xiàng)目延期報(bào)告書(shū)
- 新版PEP五年級(jí)英語(yǔ)上冊(cè)教學(xué)內(nèi)容計(jì)劃
- 做自己的心理壓力調(diào)節(jié)師智慧樹(shù)知到期末考試答案章節(jié)答案2024年嘉興大學(xué)
- 學(xué)術(shù)期刊推廣方案
- 安檢設(shè)備采購(gòu)安裝調(diào)試方案
- 2023年保定市蠡縣教師招聘考試真題
- 實(shí)習(xí)生-OFFER正式通知函
- 市政臨時(shí)占道施工方案
- 《分娩方式的選擇》課件
- 《FABE銷(xiāo)售法則》課件
- 直流屏培訓(xùn)課件
- 培訓(xùn)課件 -BBF品牌建設(shè)模型-
- 新的患者護(hù)理模式個(gè)性化醫(yī)療關(guān)懷培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論