下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、轉(zhuǎn)發(fā):有關(guān)MFCC梅爾倒譜參數(shù)的資料。內(nèi)容:1. Mfcc梅爾倒譜參數(shù)參數(shù)知識(shí)2. mfcc的matlab代碼 1.在語音辨識(shí)(Speech Recognition)和語者辨識(shí)(Speaker Recognition)方面,最常用到的語音特征就是梅爾倒頻譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,簡稱MFCC),此參數(shù)考慮到人耳對(duì)不同頻率的感受程度,因此特別適合用在語音辨識(shí)。下面簡單的介紹一下求解MFCC的過程。1.預(yù)強(qiáng)調(diào)(Pre-emphasis):將語音訊號(hào) s(n) 通過一個(gè)高通濾波器。 H(z)=1-a*(z-1) 系數(shù)其中 a 介于 0
2、.9 和 1.0 之間。若以時(shí)域的表達(dá)式來表示,預(yù)強(qiáng)調(diào)后的訊號(hào) s2(n) 為 s2(n) = s(n) - a*s(n-1) 這個(gè)目的就是為了消除發(fā)聲過程中聲帶和嘴唇的效應(yīng),來補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高頻部分。(另一種說法則是要突顯在高頻的共振峰。)2.音框化(Frame blocking):先將 N 個(gè)取樣點(diǎn)集合成一個(gè)觀測單位,稱為音框(Frame),通常 N 的值是 256 或 512,涵蓋的時(shí)間約為 2030 ms 左右。為了避免相鄰兩音框的變化過大,所以我們會(huì)讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了 M 個(gè)取樣點(diǎn),通常 M 的值約是 N 的一半或 1/3。通常語音辨識(shí)
3、所用的音訊的取樣頻率為 8 KHz或 16 KHz,以 8 KHz 來說,若音框長度為 256 個(gè)取樣點(diǎn),則對(duì)應(yīng)的時(shí)間長度是 256/8000*1000 = 32 ms。3.漢明窗(Hamming window):將每一個(gè)音框(frame)乘上漢明窗,以增加音框左端和右端的連續(xù)性(請(qǐng)見下一個(gè)步驟的說明)。假設(shè)音框化的訊號(hào)為 S(n), n = 0,N-1。N為frame的大小,那么乘上漢明窗后為 S(n) = S(n)*W(n),此 W(n) 形式如下: W(n, a) = (1 - a) - a *cos(2pn/(N-1),0nN-1 ?不同的 a 值會(huì)產(chǎn)生不同的漢明窗。一般我們都取 a
4、= 0.46。4.快速傅利葉轉(zhuǎn)換(Fast Fourier Transform, or FFT):由于訊號(hào)在時(shí)域(Time domain)上的變化通常很難看出訊號(hào)的特性,所以通常將它轉(zhuǎn)換成頻域(Frequency domain)上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每個(gè)音框還必需再經(jīng)過 FFT 以得到在頻譜上的能量分布。 乘上漢明窗的主要目的,是要加強(qiáng)音框左端和右端的連續(xù)性,這是因?yàn)樵谶M(jìn)行 FFT 時(shí),都是假設(shè)一個(gè)音框內(nèi)的訊號(hào)是代表一個(gè)周期性訊號(hào),如果這個(gè)周期性不存在,F(xiàn)FT 會(huì)為了要符合左右端不連續(xù)的變化,而產(chǎn)生一些不存在原訊號(hào)的能量分布,造成分析上
5、的誤差。當(dāng)然,如果我們在取音框時(shí),能夠使音框中的訊號(hào)就已經(jīng)包含基本周期的整數(shù)倍,這時(shí)候的音框左右端就會(huì)是連續(xù)的,那就可以不需要乘上漢明窗了。但是在實(shí)作上,由于基本周期的計(jì)算會(huì)需要額外的時(shí)間,而且也容易算錯(cuò),因此我們都用漢明窗來達(dá)到類似的效果。5.三角帶通濾波器(Triangular Bandpass Filters):將能量頻譜能量乘以一組 20 個(gè)三角帶通濾波器,求得每一個(gè)濾波器輸出的對(duì)數(shù)能量(Log Energy),共20個(gè)。必須注意的是:這 20 個(gè)三角帶通濾波器在梅爾頻率(Mel Frequency)上是平均分布的,而梅爾頻率和一般頻率 f 的關(guān)系式如下: mel(f)=2595*lo
6、g10(1+f/700) 或是 mel(f)=1125*ln(1+f/700) 梅爾頻率代表一般人耳對(duì)于頻率的感受度,由此也可以看出人耳對(duì)于頻率 f 的感受是呈對(duì)數(shù)變化的: 在低頻部分,人耳感受是比較敏銳 。在高頻部分,人耳的感受就會(huì)越來越粗糙 。三角帶通濾波器有兩個(gè)主要目的: 對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,突顯原先語音的共振峰。(因此一段語音的音調(diào)或音高,是不會(huì)呈現(xiàn)在 MFCC 參數(shù)內(nèi),換句話說,以 MFCC 為特征的語音辨識(shí)系統(tǒng),并不會(huì)受到輸入語音的音調(diào)不同而有所影響。) 降低資料量。 6.離散余弦轉(zhuǎn)換(Discrete cosine transform, or DCT):將上述的
7、20 個(gè)對(duì)數(shù)能量 Ek帶入離散余弦轉(zhuǎn)換,求出 L 階的 Mel- scale Cepstrum 參數(shù),這里 L 通常取 12。離散余弦轉(zhuǎn)換公式如下: Cm=Sk=1Ncosm*(k-0.5)*p/N*Ek, m=1,2, ., L 其中 Ek 是由前一個(gè)步驟所算出來的三角濾波器和頻譜能量的內(nèi)積值,這里N 是三角濾波器的個(gè)數(shù)。由于之前作了 FFT,所以采用 DCT 轉(zhuǎn)換是期望能轉(zhuǎn)回類似 Time Domain 的情況來看,又稱 Quefrency Domain,其實(shí)也就是 Cepstrum(倒譜)。又因?yàn)橹安捎?Mel- Frequency 來轉(zhuǎn)換至梅爾頻率,所以才稱之Mel-scale Ce
8、pstrum。 7.對(duì)數(shù)能量(Log energy):一個(gè)音框的音量(即能量),也是語音的重要特征,而且非常容易計(jì)算。因此我們通常再加上一個(gè)音框的對(duì)數(shù)能量(定義為一個(gè)音框內(nèi)訊號(hào)的平方和,再取以 10 為底的對(duì)數(shù)值,再乘以 10),使得每一個(gè)音框基本的語音特征就有 13 維,包含了 1 個(gè)對(duì)數(shù)能量和 12 個(gè)倒頻譜參數(shù)。(若要加入其它語音特征以測試辨識(shí)率,也可以在此階段加入,這些常用的其它語音特征,包含音高、過零率、共振峰等。) 8.差量倒頻譜參數(shù)(Delta cepstrum):雖然已經(jīng)求出 13 個(gè)特征參數(shù),然而在實(shí)際應(yīng)用于語音辨識(shí)時(shí),我們通常會(huì)再加上差量倒頻譜參數(shù),以顯示倒頻譜參數(shù)對(duì)時(shí)間的
9、變化。它的意義為倒頻譜參數(shù)相對(duì)于時(shí)間的斜率,也就是代表倒頻譜參數(shù)在時(shí)間上的動(dòng)態(tài)變化,公式如下: Cm(t) = St=-MMCm(t+t)t / St=-MMt2 這里 M 的值一般是取 2 或 3。因此,如果加上差量運(yùn)算,就會(huì)產(chǎn)生 26 維的特征向量;如果再加上差量運(yùn)算,就會(huì)產(chǎn)生 39 維的特征向量。一般我們在 PC 上進(jìn)行的語音辨識(shí),就是使用 39 維的特征向量。 2. %mfccfunction mfc=mfcc(x)%對(duì)輸入的語音序列x進(jìn)行mfcc參數(shù)提取,返回mfcc參數(shù)和一階差分mfcc參數(shù),mel濾波器的階數(shù)為24%fft變換長度為256,采樣頻率為8000HZ,對(duì)x 256點(diǎn)分
10、為一幀%bank=melbankm(24,256,8000,0,0.5,m);%歸一化mel濾波器組參數(shù)bank=full(bank);bank=bank/max(bank(:);%DCT系數(shù),12*24for k=1:12 n=0:23; dctcoef(:,k)=cos(2*n+1)*k*pi/(2*24);end%歸一化倒譜提升窗口w=1+6*sin(pi*1:12./12);w=w/max(w);%預(yù)加重濾波器xx=double(x);xx=filter(1 -0.9375,1,xx);%語音信號(hào)分幀xx=enframe(xx,256,80);%計(jì)算每幀的mfcc參數(shù)for i=1:size(xx,1) % y=xx(i,:); s=y.*hamming(256); t=abs(fft(s); t=t.2;%計(jì)算能量 c1=dctcoef*log(bank*t(1:129);%dctcoef為dct系數(shù),bank歸一化mel濾波器組系數(shù) c2=c1.*w;%w為歸一化倒譜提升窗口 m(i,:)=c2;end%差分系數(shù)dtm=zeros
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度大學(xué)生國際交流資助借款合同4篇
- 二零二五版辦公室裝修與辦公家具定制采購協(xié)議2篇
- 宜賓酒王2025年度控量保價(jià)銷售支持合同3篇
- 二零二四年度信報(bào)箱定制與安裝工程合同3篇
- 二零二五版教育培訓(xùn)機(jī)構(gòu)分期繳納學(xué)費(fèi)協(xié)議3篇
- 2025版中英文對(duì)照的外籍實(shí)習(xí)生勞動(dòng)合同規(guī)定3篇
- 2025年度抹灰工程勞務(wù)分包合同(含項(xiàng)目進(jìn)度管理)4篇
- 二零二五年度高品質(zhì)圖文打印服務(wù)合同模板4篇
- 二零二五年度特種船舶租賃與維護(hù)管理合同4篇
- 二零二五年度安保人員應(yīng)急演練與處置能力合同3篇
- 《酸堿罐區(qū)設(shè)計(jì)規(guī)范》編制說明
- 橋梁監(jiān)測監(jiān)控實(shí)施方案
- 書籍小兵張嘎課件
- 藝術(shù)哲學(xué):美是如何誕生的學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 北京海淀區(qū)2025屆高三下第一次模擬語文試題含解析
- 量子醫(yī)學(xué)治療學(xué)行業(yè)投資機(jī)會(huì)分析與策略研究報(bào)告
- 多重耐藥菌病人的管理-(1)課件
- (高清版)TDT 1056-2019 縣級(jí)國土資源調(diào)查生產(chǎn)成本定額
- 環(huán)境監(jiān)測對(duì)環(huán)境保護(hù)的意義
- 2023年數(shù)學(xué)競賽AMC8試卷(含答案)
- 2023年十天突破公務(wù)員面試
評(píng)論
0/150
提交評(píng)論