MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第1頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第2頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第3頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、轉(zhuǎn)發(fā):有關(guān)MFCC梅爾倒譜參數(shù)的資料。內(nèi)容:1. Mfcc梅爾倒譜參數(shù)參數(shù)知識(shí)2. mfcc的matlab代碼 1.在語音辨識(shí)(Speech Recognition)和語者辨識(shí)(Speaker Recognition)方面,最常用到的語音特征就是梅爾倒頻譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,簡稱MFCC),此參數(shù)考慮到人耳對(duì)不同頻率的感受程度,因此特別適合用在語音辨識(shí)。下面簡單的介紹一下求解MFCC的過程。1.預(yù)強(qiáng)調(diào)(Pre-emphasis):將語音訊號(hào) s(n) 通過一個(gè)高通濾波器。 H(z)=1-a*(z-1) 系數(shù)其中 a 介于 0

2、.9 和 1.0 之間。若以時(shí)域的表達(dá)式來表示,預(yù)強(qiáng)調(diào)后的訊號(hào) s2(n) 為 s2(n) = s(n) - a*s(n-1) 這個(gè)目的就是為了消除發(fā)聲過程中聲帶和嘴唇的效應(yīng),來補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高頻部分。(另一種說法則是要突顯在高頻的共振峰。)2.音框化(Frame blocking):先將 N 個(gè)取樣點(diǎn)集合成一個(gè)觀測單位,稱為音框(Frame),通常 N 的值是 256 或 512,涵蓋的時(shí)間約為 2030 ms 左右。為了避免相鄰兩音框的變化過大,所以我們會(huì)讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了 M 個(gè)取樣點(diǎn),通常 M 的值約是 N 的一半或 1/3。通常語音辨識(shí)

3、所用的音訊的取樣頻率為 8 KHz或 16 KHz,以 8 KHz 來說,若音框長度為 256 個(gè)取樣點(diǎn),則對(duì)應(yīng)的時(shí)間長度是 256/8000*1000 = 32 ms。3.漢明窗(Hamming window):將每一個(gè)音框(frame)乘上漢明窗,以增加音框左端和右端的連續(xù)性(請(qǐng)見下一個(gè)步驟的說明)。假設(shè)音框化的訊號(hào)為 S(n), n = 0,N-1。N為frame的大小,那么乘上漢明窗后為 S(n) = S(n)*W(n),此 W(n) 形式如下: W(n, a) = (1 - a) - a *cos(2pn/(N-1),0nN-1 ?不同的 a 值會(huì)產(chǎn)生不同的漢明窗。一般我們都取 a

4、= 0.46。4.快速傅利葉轉(zhuǎn)換(Fast Fourier Transform, or FFT):由于訊號(hào)在時(shí)域(Time domain)上的變化通常很難看出訊號(hào)的特性,所以通常將它轉(zhuǎn)換成頻域(Frequency domain)上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每個(gè)音框還必需再經(jīng)過 FFT 以得到在頻譜上的能量分布。 乘上漢明窗的主要目的,是要加強(qiáng)音框左端和右端的連續(xù)性,這是因?yàn)樵谶M(jìn)行 FFT 時(shí),都是假設(shè)一個(gè)音框內(nèi)的訊號(hào)是代表一個(gè)周期性訊號(hào),如果這個(gè)周期性不存在,F(xiàn)FT 會(huì)為了要符合左右端不連續(xù)的變化,而產(chǎn)生一些不存在原訊號(hào)的能量分布,造成分析上

5、的誤差。當(dāng)然,如果我們在取音框時(shí),能夠使音框中的訊號(hào)就已經(jīng)包含基本周期的整數(shù)倍,這時(shí)候的音框左右端就會(huì)是連續(xù)的,那就可以不需要乘上漢明窗了。但是在實(shí)作上,由于基本周期的計(jì)算會(huì)需要額外的時(shí)間,而且也容易算錯(cuò),因此我們都用漢明窗來達(dá)到類似的效果。5.三角帶通濾波器(Triangular Bandpass Filters):將能量頻譜能量乘以一組 20 個(gè)三角帶通濾波器,求得每一個(gè)濾波器輸出的對(duì)數(shù)能量(Log Energy),共20個(gè)。必須注意的是:這 20 個(gè)三角帶通濾波器在梅爾頻率(Mel Frequency)上是平均分布的,而梅爾頻率和一般頻率 f 的關(guān)系式如下: mel(f)=2595*lo

6、g10(1+f/700) 或是 mel(f)=1125*ln(1+f/700) 梅爾頻率代表一般人耳對(duì)于頻率的感受度,由此也可以看出人耳對(duì)于頻率 f 的感受是呈對(duì)數(shù)變化的: 在低頻部分,人耳感受是比較敏銳 。在高頻部分,人耳的感受就會(huì)越來越粗糙 。三角帶通濾波器有兩個(gè)主要目的: 對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,突顯原先語音的共振峰。(因此一段語音的音調(diào)或音高,是不會(huì)呈現(xiàn)在 MFCC 參數(shù)內(nèi),換句話說,以 MFCC 為特征的語音辨識(shí)系統(tǒng),并不會(huì)受到輸入語音的音調(diào)不同而有所影響。) 降低資料量。 6.離散余弦轉(zhuǎn)換(Discrete cosine transform, or DCT):將上述的

7、20 個(gè)對(duì)數(shù)能量 Ek帶入離散余弦轉(zhuǎn)換,求出 L 階的 Mel- scale Cepstrum 參數(shù),這里 L 通常取 12。離散余弦轉(zhuǎn)換公式如下: Cm=Sk=1Ncosm*(k-0.5)*p/N*Ek, m=1,2, ., L 其中 Ek 是由前一個(gè)步驟所算出來的三角濾波器和頻譜能量的內(nèi)積值,這里N 是三角濾波器的個(gè)數(shù)。由于之前作了 FFT,所以采用 DCT 轉(zhuǎn)換是期望能轉(zhuǎn)回類似 Time Domain 的情況來看,又稱 Quefrency Domain,其實(shí)也就是 Cepstrum(倒譜)。又因?yàn)橹安捎?Mel- Frequency 來轉(zhuǎn)換至梅爾頻率,所以才稱之Mel-scale Ce

8、pstrum。 7.對(duì)數(shù)能量(Log energy):一個(gè)音框的音量(即能量),也是語音的重要特征,而且非常容易計(jì)算。因此我們通常再加上一個(gè)音框的對(duì)數(shù)能量(定義為一個(gè)音框內(nèi)訊號(hào)的平方和,再取以 10 為底的對(duì)數(shù)值,再乘以 10),使得每一個(gè)音框基本的語音特征就有 13 維,包含了 1 個(gè)對(duì)數(shù)能量和 12 個(gè)倒頻譜參數(shù)。(若要加入其它語音特征以測試辨識(shí)率,也可以在此階段加入,這些常用的其它語音特征,包含音高、過零率、共振峰等。) 8.差量倒頻譜參數(shù)(Delta cepstrum):雖然已經(jīng)求出 13 個(gè)特征參數(shù),然而在實(shí)際應(yīng)用于語音辨識(shí)時(shí),我們通常會(huì)再加上差量倒頻譜參數(shù),以顯示倒頻譜參數(shù)對(duì)時(shí)間的

9、變化。它的意義為倒頻譜參數(shù)相對(duì)于時(shí)間的斜率,也就是代表倒頻譜參數(shù)在時(shí)間上的動(dòng)態(tài)變化,公式如下: Cm(t) = St=-MMCm(t+t)t / St=-MMt2 這里 M 的值一般是取 2 或 3。因此,如果加上差量運(yùn)算,就會(huì)產(chǎn)生 26 維的特征向量;如果再加上差量運(yùn)算,就會(huì)產(chǎn)生 39 維的特征向量。一般我們在 PC 上進(jìn)行的語音辨識(shí),就是使用 39 維的特征向量。 2. %mfccfunction mfc=mfcc(x)%對(duì)輸入的語音序列x進(jìn)行mfcc參數(shù)提取,返回mfcc參數(shù)和一階差分mfcc參數(shù),mel濾波器的階數(shù)為24%fft變換長度為256,采樣頻率為8000HZ,對(duì)x 256點(diǎn)分

10、為一幀%bank=melbankm(24,256,8000,0,0.5,m);%歸一化mel濾波器組參數(shù)bank=full(bank);bank=bank/max(bank(:);%DCT系數(shù),12*24for k=1:12 n=0:23; dctcoef(:,k)=cos(2*n+1)*k*pi/(2*24);end%歸一化倒譜提升窗口w=1+6*sin(pi*1:12./12);w=w/max(w);%預(yù)加重濾波器xx=double(x);xx=filter(1 -0.9375,1,xx);%語音信號(hào)分幀xx=enframe(xx,256,80);%計(jì)算每幀的mfcc參數(shù)for i=1:size(xx,1) % y=xx(i,:); s=y.*hamming(256); t=abs(fft(s); t=t.2;%計(jì)算能量 c1=dctcoef*log(bank*t(1:129);%dctcoef為dct系數(shù),bank歸一化mel濾波器組系數(shù) c2=c1.*w;%w為歸一化倒譜提升窗口 m(i,:)=c2;end%差分系數(shù)dtm=zeros

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論