第四講 語音信號處理第3.5~3.6章_第1頁
第四講 語音信號處理第3.5~3.6章_第2頁
第四講 語音信號處理第3.5~3.6章_第3頁
第四講 語音信號處理第3.5~3.6章_第4頁
第四講 語音信號處理第3.5~3.6章_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、3.13.1概述概述3.23.2語音信號的數(shù)字化和預處理語音信號的數(shù)字化和預處理3.33.3語音信號的時域分析語音信號的時域分析3.43.4語音信號的頻域分析語音信號的頻域分析3.53.5語音信號的倒譜分析語音信號的倒譜分析3.63.6語音信號的線性預測分析語音信號的線性預測分析* *3.7 3.7 語音信號的小波分析語音信號的小波分析3.8 3.8 基音周期估計基音周期估計3.93.9共振峰估計共振峰估計3.53.5語音信號的倒譜分析語音信號的倒譜分析3.63.6語音信號的線性預測分析語音信號的線性預測分析回顧回顧v語音信號的語音信號的時域分析時域分析就是分析和提取語音信號的時域參數(shù)。就是分

2、析和提取語音信號的時域參數(shù)。進行語音分析時,最先接觸到并且也是最直觀的是它的時域進行語音分析時,最先接觸到并且也是最直觀的是它的時域波形。語音信號本身就是時域信號,因而時域分析是最早使波形。語音信號本身就是時域信號,因而時域分析是最早使用,也是應用最廣泛的一種分析方法,這種方法直接利用語用,也是應用最廣泛的一種分析方法,這種方法直接利用語音信號的時域波形。時域分析通常用于最基本的參數(shù)分析及音信號的時域波形。時域分析通常用于最基本的參數(shù)分析及應用,如語音的分割、預處理、大分類等。這種分析方法的應用,如語音的分割、預處理、大分類等。這種分析方法的特點是:特點是:表示語音信號比較直觀、物理意義明確。

3、表示語音信號比較直觀、物理意義明確。實現(xiàn)起來比較簡單、運算量少。實現(xiàn)起來比較簡單、運算量少??梢缘玫秸Z音的一些重要的參數(shù)??梢缘玫秸Z音的一些重要的參數(shù)。只使用示波器等通用設備,使用較為簡單等。只使用示波器等通用設備,使用較為簡單等。短時能量短時能量過零率過零率短時平均幅度差短時平均幅度差 短時能量及短時平均幅度分析短時能量及短時平均幅度分析v 如圖如圖3-23-2所示,設語音波形時域信號為所示,設語音波形時域信號為x(t)x(t)、加窗分幀處理、加窗分幀處理后得到的第后得到的第n n幀語音信號為幀語音信號為x xn n(m),(m),則則x xn n(m)(m)滿足下式:滿足下式:x xn n

4、(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T,并且并且N N為幀長,為幀長,T T為幀移長度。為幀移長度。v設第設第n n幀語音信號幀語音信號x xn n(m)(m)的的短時能量短時能量用用E En n表示,則其計算公式表示,則其計算公式如下:如下:其它值mNmm, 0) 1(0, 1)(102)(NmnnmxE短時過零率分析由定義可以看出,短時過零率對噪音噪音的存在非常敏感敏感,如果背景中有反復穿越坐標軸的隨機噪聲,那么會產(chǎn)生大量的“虛假”的過零,影響計算結(jié)果。門限過零率為了提高過零率計算的魯棒魯棒性性(Robustness),除了

5、對原始信號進行帶通濾波,一種有效的方法是修正過零率的定義,加入門限門限的定義如圖所示。6.門限過零率設一個門限值T,將過零的定義修正為穿越正負門限穿越正負門限,帶門限的過零率計算公式為這樣噪音信號的振蕩只要不超過門限間的區(qū)域,就不會對真實的過零率產(chǎn)生影響。一般說來,短時過零率的最主要用處是分辨清音清音和濁音濁音、有聲有聲與無無聲聲。101sgn( )sgn(1)sgn( )sgn(1)2NnnnnnmZx mTx mTx mTx mT7.端點檢測背景背景噪音噪音輔音輔音元音元音如何區(qū)分?能量?過零率?語音語音“三三”的波形圖的波形圖背景背景噪音噪音輔音輔音7.端點檢測如何區(qū)分?能量?過零率?

6、短時平均幅度差函數(shù)短時平均幅度差函數(shù)v對于實際的語音信號,對于實際的語音信號,d(n)d(n)雖不為零,但其值很小。這些極雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時平均短時平均幅度差函數(shù)幅度差函數(shù):v可以證明平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系,兩者可以證明平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系,兩者之間的關(guān)系可由下式表達:之間的關(guān)系可由下式表達:kNmnnnkmxmxkF10)()()(2/1)()0()(2)(kRRkkFnnn3.4 3.4 語音信號的頻域分析語音信號的頻域分析v從廣義上講,語音信號的頻域分析

7、包括語音信號的頻譜、功從廣義上講,語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡分析等,常用的頻域分析方法有率譜、倒頻譜、頻譜包絡分析等,常用的頻域分析方法有帶通濾波器組法帶通濾波器組法傅里葉變換法傅里葉變換法線性預測法線性預測法v本節(jié)介紹本節(jié)介紹傅里葉分析法傅里葉分析法。因為語音波是一個非平穩(wěn)過程,因。因為語音波是一個非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機信號的標準傅里葉變換不能此適用于周期、瞬變或平穩(wěn)隨機信號的標準傅里葉變換不能用來直接表示語音信號,而應該用短時傅里葉變換對語音信用來直接表示語音信號,而應該用短時傅里葉變換對語音信號的頻譜進行分析,相應的頻譜稱為號的頻譜

8、進行分析,相應的頻譜稱為“短時譜短時譜”。 利用語音的短時傅里葉變換求語音的短時譜利用語音的短時傅里葉變換求語音的短時譜v對第對第n n幀語音信號幀語音信號x xn n(m)(m)進行傅里葉變換進行傅里葉變換( (離散時域傅里葉變離散時域傅里葉變換,換,DTFT)DTFT),可得到,可得到短時傅里葉變換短時傅里葉變換,其定義如下:,其定義如下:v由定義可知,短時傅里葉變換實際就是窗選語音信號的標準由定義可知,短時傅里葉變換實際就是窗選語音信號的標準傅里葉變換。這里,窗傅里葉變換。這里,窗(n)(n)是一個是一個“滑動的滑動的”窗口,它隨窗口,它隨n n的變化而沿著序列的變化而沿著序列x(m)x

9、(m)滑動。由于窗口是有限長度的,滿足滑動。由于窗口是有限長度的,滿足絕對可和條件,所以這個變換是存在的。當然窗口函數(shù)不同,絕對可和條件,所以這個變換是存在的。當然窗口函數(shù)不同,傅里葉變換的結(jié)果也將不同。傅里葉變換的結(jié)果也將不同。10)()(NmmjnjnemxeXv我們還可以將式我們還可以將式(3-27)(3-27)寫成另一種形式。設語音信號序列和寫成另一種形式。設語音信號序列和窗口序列的標準傅里葉變換均存在。當窗口序列的標準傅里葉變換均存在。當n n取固定值時,取固定值時,(n-(n-m)m)的傅里葉變換為:的傅里葉變換為:v根據(jù)卷積定理有根據(jù)卷積定理有:v因為上式右邊兩個卷積項均為關(guān)于角

10、頻率因為上式右邊兩個卷積項均為關(guān)于角頻率的以的以22為周期為周期的連續(xù)函數(shù),所以也可將其寫成以下的卷積積分形式:的連續(xù)函數(shù),所以也可將其寫成以下的卷積積分形式:v即,假設即,假設x(m)x(m)的的DTFTDTFT是是X(eX(ejj) ),且且(m)(m)的的DTFTDTFT是是X(eX(ejj) ),那么那么X Xn n(e(ejj)是是X(eX(ejj) )和和W(eW(ejj) )的周期卷積。的周期卷積。)()(jmjmmjeWeemn)()()(jnjjjneWeeXeXdeXeeWeXjjnjjn)()(21)()(v功率譜:根據(jù)功率譜定義,可以寫出短時功率譜與短時傅里功率譜:根據(jù)

11、功率譜定義,可以寫出短時功率譜與短時傅里葉變換之間的關(guān)系:葉變換之間的關(guān)系:v或者或者:v功率譜功率譜S Sn n(e(ejj) )是是短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)R Rn n(k)(k)的傅里葉變的傅里葉變換。換。2*)()()()(jnjnjnjneXeXeXeS2*)()()()(kXkXkXkSnnnn112)()()(NNkkjnjnjnekReXeS3.5 3.5 語音信號的倒譜分析語音信號的倒譜分析v語音信號的語音信號的倒譜倒譜分析就是求取語音倒譜特征參數(shù)的分析就是求取語音倒譜特征參數(shù)的過程,它可以通過同態(tài)處理來實現(xiàn)。過程,它可以通過同態(tài)處理來實現(xiàn)。v同態(tài)信號處理也稱為同態(tài)濾波,

12、同態(tài)信號處理也稱為同態(tài)濾波,它實現(xiàn)了將卷積關(guān)它實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。系變換為求和關(guān)系的分離處理,即解卷。v對語音信號進行解卷,可將語音信號的聲門激勵信對語音信號進行解卷,可將語音信號的聲門激勵信息及聲道響應信息分離開來,從而求得聲道共振特息及聲道響應信息分離開來,從而求得聲道共振特征和基音周期,用于語音編碼、合成、識別等。征和基音周期,用于語音編碼、合成、識別等。v求倒譜特征參數(shù)的方法有兩種,一種是線性預測分求倒譜特征參數(shù)的方法有兩種,一種是線性預測分析,一種是同態(tài)分析處理。析,一種是同態(tài)分析處理。 同態(tài)信號處理的基本原理同態(tài)信號處理的基本原理v我們?nèi)粘I钪杏龅降?/p>

13、許多信號,它們并不是加性我們?nèi)粘I钪杏龅降脑S多信號,它們并不是加性信號信號( (即組成各分量按加法原則組合起來即組成各分量按加法原則組合起來) )而是乘積而是乘積性信號或卷積性信號,如語音信號、圖像信號、通性信號或卷積性信號,如語音信號、圖像信號、通信中的衰落信號、調(diào)制信號等。這些信號要用非線信中的衰落信號、調(diào)制信號等。這些信號要用非線性系統(tǒng)來處理。性系統(tǒng)來處理。v同態(tài)信號處理同態(tài)信號處理就是將非線性問題轉(zhuǎn)化為線性問題的就是將非線性問題轉(zhuǎn)化為線性問題的處理方法。按被處理的信號來分類,大體分為乘積處理方法。按被處理的信號來分類,大體分為乘積同態(tài)處理和卷積同態(tài)處理兩種。同態(tài)處理和卷積同態(tài)處理兩種

14、。由于語音信號可視由于語音信號可視為聲門激勵信號和聲道沖擊響應的卷積,所以這里為聲門激勵信號和聲道沖擊響應的卷積,所以這里僅討論卷積同態(tài)信號處理。僅討論卷積同態(tài)信號處理。 同態(tài)信號處理的基本原理同態(tài)信號處理的基本原理v卷積同態(tài)系統(tǒng)的模型(圖卷積同態(tài)系統(tǒng)的模型(圖3-9a3-9a),該系統(tǒng)的輸人卷積信號經(jīng)),該系統(tǒng)的輸人卷積信號經(jīng)過系統(tǒng)變換后的輸出是一個處理過的卷積信號。過系統(tǒng)變換后的輸出是一個處理過的卷積信號。v同態(tài)系統(tǒng)可分解為三個子系統(tǒng),如圖同態(tài)系統(tǒng)可分解為三個子系統(tǒng),如圖3-9b3-9b所示,即兩個特征所示,即兩個特征子系統(tǒng)子系統(tǒng)( (它們只取決于信號的組合規(guī)則它們只取決于信號的組合規(guī)則)

15、 )和一個線性子系統(tǒng)和一個線性子系統(tǒng)( (它僅取決于處理的要求它僅取決于處理的要求) )。v第一個子系統(tǒng),如圖第一個子系統(tǒng),如圖3-9c3-9c所示,它完成將卷積性信號轉(zhuǎn)化為所示,它完成將卷積性信號轉(zhuǎn)化為加性信號的運算;第二個子系統(tǒng)是一個普通線性系統(tǒng),滿足加性信號的運算;第二個子系統(tǒng)是一個普通線性系統(tǒng),滿足線性疊加原理,用于對加性信號進行線性變換;第三個子系線性疊加原理,用于對加性信號進行線性變換;第三個子系統(tǒng)是第一個子系統(tǒng)的逆變換,它將加性信號反變換為卷積性統(tǒng)是第一個子系統(tǒng)的逆變換,它將加性信號反變換為卷積性信號,如圖信號,如圖3-10d3-10d所示。所示。 同態(tài)信號處理的基本原理同態(tài)信號

16、處理的基本原理 同態(tài)信號處理的基本原理同態(tài)信號處理的基本原理v第一個子系統(tǒng)第一個子系統(tǒng)D D* * 完成將卷積性信號轉(zhuǎn)化為加性信號的完成將卷積性信號轉(zhuǎn)化為加性信號的運算,即對于信號運算,即對于信號x(n)=xx(n)=xl l(n)(n)* *x x2 2(n)(n)進行了如下運算處理:進行了如下運算處理:)()()()() 1 (21zXzXzXnxZ)()()()(ln)(ln)(ln)2(2121zXzXzXzXzXzX)( )()()()()()3(212111nxnxnxzXzXZzXZ 同態(tài)信號處理的基本原理同態(tài)信號處理的基本原理v由于由于x x (n)(n)為加性信號,所以第二個

17、子系統(tǒng)可對其進行需要為加性信號,所以第二個子系統(tǒng)可對其進行需要的線性處理得到的線性處理得到y(tǒng) y (n)(n)。第三個子系統(tǒng)是逆特征系統(tǒng)。第三個子系統(tǒng)是逆特征系統(tǒng)D D* *-1-1 ,它對它對y y (n)=(n)= y y1 1 (n)+y(n)+y2 2 (n)(n)進行逆變換,使其恢復為卷積性進行逆變換,使其恢復為卷積性v信號,即進行了如下處理:信號,即進行了如下處理:v從而得到卷積性的恢復信號。從而得到卷積性的恢復信號。)()()()( ) 1 (21zYzYzYnyZ)()()()(exp)2(21zYzYzYzY)(*)()()()()3(21211nynyzYzYZny 復倒譜

18、和倒譜復倒譜和倒譜v雖然雖然D D* * 與與D D* *-1-1 系統(tǒng)中的系統(tǒng)中的x x (n)(n)和和y y (n)(n)信號也信號也均是時域序列,但它們所處的離散時域顯然不同于均是時域序列,但它們所處的離散時域顯然不同于x(n)x(n)和和y(n)y(n)所處的離散時域,所以我們把它稱之為所處的離散時域,所以我們把它稱之為“復倒頻譜域復倒頻譜域”。 x x (n)(n)是是x(n)x(n)的的“復倒頻譜復倒頻譜”,簡稱為簡稱為“復倒譜復倒譜”,有時也稱作對數(shù)復倒譜。其英,有時也稱作對數(shù)復倒譜。其英文原文為文原文為“Complex Cepstrum”Complex Cepstrum”,C

19、epstrumCepstrum是一個是一個新造的英文詞,它是由新造的英文詞,它是由SpectrumSpectrum這個詞的前四個字這個詞的前四個字母倒置而構(gòu)成的。同樣,序列母倒置而構(gòu)成的。同樣,序列y y (n)(n)也是也是y(n)y(n)的復倒的復倒譜。譜。 復倒譜和倒譜復倒譜和倒譜v在絕大多數(shù)數(shù)字信號處理中,在絕大多數(shù)數(shù)字信號處理中,X(z)X(z),X X (z)(z),Y(z)Y(z),Y Y (z)(z)的的收斂域均包含單位圓,因而收斂域均包含單位圓,因而D D* * 與與D D* *-1-1 系統(tǒng)有如下形系統(tǒng)有如下形式:式:vD D* * = =vD D* *-1-1 = =)(

20、)(jneXxF)(ln)(jjeXeX)()( 1jeXFnx)()(nyFeYj)(exp)(jjeYeY)()(1jeYFnyv設設: :v則取其對數(shù)得則取其對數(shù)得: :v即復數(shù)的對數(shù)仍是復數(shù),它包含實部和虛部。注意,這時對即復數(shù)的對數(shù)仍是復數(shù),它包含實部和虛部。注意,這時對數(shù)的虛部數(shù)的虛部argX(eargX(ejj)由于是由于是X(eX(ejj) )的相位的相位, ,所以將產(chǎn)生不一所以將產(chǎn)生不一致性。如果,我們只考慮致性。如果,我們只考慮X X (e(ejj) )的實部,令:的實部,令:v顯然顯然c(n)c(n)是序列是序列x(n)x(n)對數(shù)幅度譜的傅里葉逆變換。對數(shù)幅度譜的傅里葉

21、逆變換。c(n)c(n)稱為稱為“倒頻譜倒頻譜”或簡稱為或簡稱為“倒譜倒譜”,有時也稱,有時也稱“對數(shù)倒頻譜對數(shù)倒頻譜”。倒譜對應的量綱是倒譜對應的量綱是“Quefrency”Quefrency”,它也是一個新造的英文,它也是一個新造的英文詞,是由詞,是由“Frequency”Frequency”轉(zhuǎn)變而來的,因此也稱為轉(zhuǎn)變而來的,因此也稱為“倒頻倒頻”,它的量綱是時間。它的量綱是時間。c(n)c(n)實際上就是我們要求取的語音信號倒實際上就是我們要求取的語音信號倒譜特征。譜特征。)(arg)(ln)(jjjeXjeXeX)(arg)()(jeXjjjeeXeX)(ln)(1jeXFncv下面我

22、們根據(jù)上面的討論來分析一下下面我們根據(jù)上面的討論來分析一下復倒譜和倒譜特點和關(guān)復倒譜和倒譜特點和關(guān)系系。v(1)(1)復倒譜要進行復對數(shù)運算,而倒譜只進行實對數(shù)運算。復倒譜要進行復對數(shù)運算,而倒譜只進行實對數(shù)運算。v(2)(2)在倒譜情況下一個序列經(jīng)過正逆兩個特征系統(tǒng)變換后,在倒譜情況下一個序列經(jīng)過正逆兩個特征系統(tǒng)變換后,不能還原成自身,因為在計算倒譜的過程中將序列的相位信不能還原成自身,因為在計算倒譜的過程中將序列的相位信息丟失了。息丟失了。v(3)(3)與復倒譜類似,如果與復倒譜類似,如果c c1 1(n)(n)和和c c2 2(n)(n)分別是分別是x x1 1(n)(n)和和x x2

23、2(n)(n)的的倒譜,并且倒譜,并且x(n)= xx(n)= x1 1(n)(n)* *x x2 2(n)(n),則,則x(n)x(n)的倒譜的倒譜c(n)= c(n)= c c1 1(n)+c(n)+c2 2(n) (n) 。v(4)(4)已知一個實數(shù)序列已知一個實數(shù)序列x(n)x(n)的復倒譜的復倒譜x x (n)(n),可以由,可以由x x (n)(n)求出求出它的倒譜它的倒譜c(n)c(n)。v(5)(5)已知一個實數(shù)序列已知一個實數(shù)序列x(n)x(n)的倒譜的倒譜c(n)c(n),能否用它來求出復,能否用它來求出復倒譜倒譜x x (n)?(n)? 語音信號倒譜分析實例語音信號倒譜分

24、析實例1 1由同態(tài)分析求出的語音信號倒譜實例由同態(tài)分析求出的語音信號倒譜實例v一個信號的倒譜定義為信號頻譜模的自然對數(shù)的逆傅里葉變一個信號的倒譜定義為信號頻譜模的自然對數(shù)的逆傅里葉變換換( (即設相位恒定為零即設相位恒定為零) )。設信號為。設信號為s(n)s(n),則其倒譜為:則其倒譜為:v根據(jù)語音信號產(chǎn)生模型,語音信號根據(jù)語音信號產(chǎn)生模型,語音信號s(n)s(n)是由聲門脈沖激勵是由聲門脈沖激勵e(n)e(n)經(jīng)聲道響應經(jīng)聲道響應v(n)v(n)濾波而得到,即:濾波而得到,即:v設三者的倒譜分別為設三者的倒譜分別為s s (n)(n)、e e (n)(n)及及v v (n)(n),則有:,

25、則有:)(ln)( nsDFTIDFTns)(*)()(nvnens)( )( )( nvnens 語音信號倒譜分析實例語音信號倒譜分析實例 語音信號倒譜分析實例語音信號倒譜分析實例2 2MELMEL頻率倒譜參數(shù)(頻率倒譜參數(shù)(MFCCMFCC)v與普通實際頻率倒譜分析不同,與普通實際頻率倒譜分析不同,MFCCMFCC(Mel-Frequency Mel-Frequency Cepstral CoefficentsCepstral Coefficents,簡稱,簡稱MFCCMFCC)的分析著眼于人耳的聽的分析著眼于人耳的聽覺特性,因為,人耳所聽到的聲音的高低與聲音的頻率并不覺特性,因為,人耳所

26、聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,而用成線性正比關(guān)系,而用MelMel頻率尺度則更符合人耳的聽覺特頻率尺度則更符合人耳的聽覺特性。所謂性。所謂MelMel頻率尺度,它的值大體上對應于實際頻率的對頻率尺度,它的值大體上對應于實際頻率的對數(shù)分布關(guān)系。數(shù)分布關(guān)系。MelMel頻率與實際頻率的具體關(guān)系可用式(頻率與實際頻率的具體關(guān)系可用式(3-893-89)表示:表示:v這里,實際頻率的單位是這里,實際頻率的單位是HzHz。)700/1lg(2595)(ffMel人的聽覺感知過程人的聽覺感知過程外耳:中耳:內(nèi)耳:聲音在聽覺器官中的傳遞過程:耳廓外耳道鼓膜耳蝸聽小骨1.人的聽覺特性之一人的

27、聽覺對頻率是有選擇性的雖然語音信號的大部分功率包含在低頻分量中,但是它們對清晰度的貢獻并不大人耳聽到聲音的高低與聲音頻率聲音頻率不成線性關(guān)系,而是與該聲音頻聲音頻率的率的對數(shù)對數(shù)近似成線性正比關(guān)系人的聽覺對信號的幅度是有選擇性的.語音信號的大部分信息都保留在其低幅值的部分,高幅值的部分作用不大人耳的聽覺特性之二人耳的聽覺特性之二人類并不能有效地分辨所有的頻率分量分辨所有的頻率分量。只有當兩個頻率分量相差一定帶寬時,人類才能將其區(qū)分,否則人就會把兩個音調(diào)聽成一個,這稱為屏蔽效應,這個帶寬被稱為臨界帶寬臨界帶寬(Critical Bandwidth) ,其計算公式如下:當中心頻率在1000Hz以下

28、時,臨界帶寬基本恒定,約為100Hz。當中心頻率超過1000Hz時,隨中心頻率的增長,臨界帶寬呈指指數(shù)數(shù)增長。2 0.6925751 1.4(/1000) cccBWff其中 為中心頻率人耳的聽覺特性之三人耳的聽覺特性之三基于以上兩點考慮,我們構(gòu)造(1)Mel頻率尺度;人耳感知的對數(shù)關(guān)系(2)Mel濾波器組,屏蔽效應來模仿人耳的感知特性。這組濾波器需要滿足:(1)中心頻率在Mel頻率域內(nèi)呈線性分布;(2)每一個濾波器的帶寬在其臨界帶寬之內(nèi)。梅爾頻率倒譜系數(shù)梅爾頻率倒譜系數(shù)人的聽覺系統(tǒng)人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應不同頻率信號的靈敏度是不同的。在語音特征的提取上,人類聽覺系統(tǒng)人類聽覺

29、系統(tǒng)做得非常好,它不僅能提取出語義信息, 而且能提取出說話人的個人特征,這些都是現(xiàn)有的語現(xiàn)有的語音識別系統(tǒng)音識別系統(tǒng)所望塵莫及的。如果在語音識別系統(tǒng)中能模擬人類聽覺感知處理特點, 就有可能提高語音的識別率。MFCC 考慮到了人類的聽覺特征,先將線性頻譜映射到基于聽覺感知的Mel非線性頻譜中,然后轉(zhuǎn)換到倒譜上。MFCC參數(shù)具有良好的識別性能和抗噪能力v使用的最廣泛的特征之一v考慮了人耳的聽覺生理特征 v在語音識別中,相比于LPC系數(shù)、PARCOR系數(shù),MFCC有更強的魯棒性和可靠性MFCC的應用的應用MFCC 的定義mmjmjeceSlog21)02)(1)(1)(limlimNnnjNjNen

30、xNeXNSMFCC的計算方法vFFTvLPC變換法MFCC 參數(shù)提取流程圖如下:(1) 語音信號經(jīng)過預加重、加窗分幀處理后變?yōu)槎虝r信號,將時域信號做離散傅里葉變換。( 2) 求出頻譜平方,即能量譜,并通過Mel頻率濾波器組濾波處理,得到一組系數(shù) ,MFCC參數(shù)語音信號預加重加窗分幀F(xiàn)FTMel濾波器組Log對數(shù)能量DCT求倒譜通過對數(shù)能量的處理得到對數(shù)頻譜。(3) 將上述對數(shù)頻譜經(jīng)過離散余弦變換( DCT)得到N 個Mel 頻率倒譜系數(shù)。MFCC 系數(shù)為:求求MFCC流程流程輸入語音輸入語音預加重、分幀和加窗預加重、分幀和加窗FFT (Fast Fourier transform)取絕對值或

31、平方值取絕對值或平方值Mel濾波濾波取對數(shù)取對數(shù)DCT (Discrete cosine transform)輸出特征向量輸出特征向量動態(tài)特征動態(tài)特征(Delta MFCC)原始語音信號經(jīng)過預加重、分幀和加窗處理后,需要將時域信號變換到頻域。常用的變換方法為 “傅立葉變換(DFT)”或者其快速算法“快速傅里葉變換(FFT)”12/0( )( )(0,1)Njnk NnX kx n en kN在實際應用中,常常通過FFT(蝶形算法)進行時域到頻域的變換求MFCC-FFT將上述線性頻譜利用Mel濾波器組進行Mel濾波Mel濾波器組則有線性頻譜到對數(shù)頻譜的中傳遞函數(shù)為:21( )|( )|( )(1

32、)NmkS mX kHkmM求MFCC:Mel濾波 取對數(shù):對三角窗濾波器組的輸出求取對數(shù),可以得到近似于同態(tài)變換的結(jié)果。倒譜(cepstrum):一種信號的傅里葉變換經(jīng)對數(shù)運算后再進行傅里葉反變換得到的譜。倒譜的計算過程:DFTln|逆DFT時域信號信號頻譜對數(shù)譜倒譜)()()(21nxnxnx12( )( )( )c nx nx n取對數(shù)取對數(shù)求MFCC由于各個濾波器組輸出的幅度或能量之間具有很強的相關(guān)性,因此有必要有必要去除各維信號之間的相關(guān)性,并將信號映射到低維空間。(如HMM中,假設各維特征獨立,以使用對角協(xié)方差矩陣,從而減小計算量)在MFCC中,對濾波器組的輸出使用了離散余弦變換(

33、DCT)來去除相關(guān)性并獲得倒譜系數(shù)c(n):1(0.5)( )( )cos(0,1,2,)Mmn mc nS mnpM當n=0時,c(0)為第0階MFCC,反應頻譜能量DCT (Discrete cosine transform)求MFCC201111ln,1,mmmkm kkmmkm kkckcac ampmkcc ampm參數(shù)轉(zhuǎn)換公式MFCC-LPC轉(zhuǎn)換法(了解)普通話發(fā)音“三”的波形圖和MFCCMFCC 樣例-18.105.303.722.111.730.25-0.11-0.0020.067-19.35.283.492.142.130.390.05-0.1750.070-19.455.6

34、23.572.061.940.100.120.1440.100-19.824.613.202.201.84-0.070.080.2430.114-20.143.212.211.631.940.320.280.6980.6953.6 3.6 語音信號的線性預測分析語音信號的線性預測分析v線性預測分析線性預測分析的的基本思想基本思想是:由于語音樣點之間存是:由于語音樣點之間存在相關(guān)性,所以可以用過去的樣點值來預測現(xiàn)在或在相關(guān)性,所以可以用過去的樣點值來預測現(xiàn)在或未來的樣點值,即一未來的樣點值,即一個語音的抽樣能夠用過去若干個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近個語音抽樣或它們的

35、線性組合來逼近。v 通過使實際語音抽樣和線性預測抽樣之間的通過使實際語音抽樣和線性預測抽樣之間的誤差誤差在某個準則下達到在某個準則下達到最小值最小值來決定唯一的一組預測系來決定唯一的一組預測系數(shù)。而這組預測系數(shù)就反映了語音信號的特性,可數(shù)。而這組預測系數(shù)就反映了語音信號的特性,可以作為語音信號特征參數(shù)用于語音識別、語音合成以作為語音信號特征參數(shù)用于語音識別、語音合成等。等。 線性預分析的基本原理線性預分析的基本原理v線性預測分析線性預測分析的的基本思想基本思想是:用過去是:用過去p p個樣點值來預測現(xiàn)在個樣點值來預測現(xiàn)在或未來的樣點值:或未來的樣點值:v預測誤差預測誤差(n)(n)為:為:v這

36、樣就可以通過在某個準則下使預測誤差這樣就可以通過在某個準則下使預測誤差(n)(n)達到最小值達到最小值的方法來決定惟一的一組線性預測系數(shù)的方法來決定惟一的一組線性預測系數(shù)a ai i(i=1i=1,2 2,p p)。)。piiinsans1)()( piiinsansnsnsn1)()()( )()( 線性預測分析的基本原理線性預測分析的基本原理v這里,系統(tǒng)的輸入這里,系統(tǒng)的輸入e(n)e(n)是語音激勵是語音激勵,s(n)s(n)是輸出語音是輸出語音,模型模型的系統(tǒng)函數(shù)的系統(tǒng)函數(shù)H(z)H(z)可以寫成有理分式的形式:可以寫成有理分式的形式:v采用全極點模型,輻射、聲道以及聲門激勵的組合譜效

37、應的采用全極點模型,輻射、聲道以及聲門激勵的組合譜效應的傳輸函數(shù)為:傳輸函數(shù)為:piiiqlllzazbGzH1111)()(1)()()(1zAGzaGzEzSzHpiiiv在模型參數(shù)估計程中,把如下系統(tǒng)稱為在模型參數(shù)估計程中,把如下系統(tǒng)稱為線性預測器線性預測器:v式中式中a ai i稱為線性預測系數(shù)稱為線性預測系數(shù)。從而,。從而,p p階線性預測器的系統(tǒng)函階線性預測器的系統(tǒng)函數(shù)具有如下形式:數(shù)具有如下形式:v預測誤差為:預測誤差為:v線性預測分析線性預測分析要解決的問題要解決的問題是:給定語音序列是:給定語音序列( (顯然,鑒于顯然,鑒于語音信號的時變特性,語音信號的時變特性,LPCLPC

38、分析必須按幀進行分析必須按幀進行) ),使預測誤差,使預測誤差在某個準則下最小,求預測系數(shù)的最佳估值在某個準則下最小,求預測系數(shù)的最佳估值a ai i,這個準則通這個準則通常采用常采用最小均方誤差準則最小均方誤差準則。piiinsans1)()( piiizazP1)()()()()(1nGeinsansnpiiv下面推導線性預測方程。把某一幀內(nèi)的下面推導線性預測方程。把某一幀內(nèi)的短時平均預測誤差短時平均預測誤差定定義為:義為:v為使為使EE2 2(n)(n)最小,對最小,對a aj j求偏導,并令其為零,有:求偏導,并令其為零,有:v上式表明采用最佳預測系數(shù)時,預測誤差上式表明采用最佳預測系

39、數(shù)時,預測誤差(n)(n)與過去的語與過去的語音樣點音樣點正交正交。由于語音信號的短時平穩(wěn)性,要分幀處理。由于語音信號的短時平穩(wěn)性,要分幀處理(10-(10-30ms),30ms),對于一幀從對于一幀從n n時刻開窗選取的時刻開窗選取的N N個樣點的語音段個樣點的語音段S Sn n,記記n n(j,i)(j,i)為為v則有:則有:212 )()()(piiinsansEnEpjjijanpini,.,1),0 ,(),(1pjjnsinsansEpii,.,1,0)( )()(1)()(),(imsjmsEijnnnLPC求解-線性方程組求解v線性預測方程組線性預測方程組的求解方法有:自相關(guān)法

40、協(xié)方差法格型法 線性預測方程組的求解(線性預測方程組的求解(自相關(guān)法自相關(guān)法)v對于語音段對于語音段S Sn n,它的自相關(guān)函數(shù)為:它的自相關(guān)函數(shù)為:v因此,可以定義因此,可以定義n n(j,i)(j,i)為為v因此有:因此有:pjjnsnsjRNjnn,.,1, )()()(1|)(|)()(),(|10jiRjnsnsijnjiNmnnn)(|)(|1jRjiRanpini 線性預測方程組的求解線性預測方程組的求解v把上式展開寫成矩陣形式:把上式展開寫成矩陣形式:v這種方程叫這種方程叫Yule-WalkerYule-Walker方程方程,方程左邊的矩陣稱為,方程左邊的矩陣稱為托普利托普利茲

41、茲(Toeplitz)(Toeplitz)矩陣矩陣,它是以主對角線對稱的、而且其沿著主,它是以主對角線對稱的、而且其沿著主對角線平行方向的各軸向的元素值都相等。這種對角線平行方向的各軸向的元素值都相等。這種Yule-Yule-WalkerWalker方程可用方程可用萊文遜萊文遜- -杜賓杜賓(LevinsonDurbin)(LevinsonDurbin)遞推算法遞推算法來高效地求解。下面介紹來高效地求解。下面介紹DurbinDurbin快速遞推算法??焖龠f推算法。)()2() 1 ()0()2() 1()2()0() 1 () 1() 1 ()0(21pRRRaaaRpRpRpRRRpRRRn

42、nnpnnnnnnnnn線性預測方程組的求解(線性預測方程組的求解(推導過程見教材推導過程見教材P56-58P56-58)v完整的遞推過程為:完整的遞推過程為: if ip go to (1) if ip go to (1)0() 1 (0nnRE 111/)()()2(ijjinnijniEjiRaiRkiiika )3(11 ,)4(11ijakaaijiiijij12)1 ()5(iniinEkEpjaapjj1 ,)6(原始語音原始語音采樣點個數(shù):7064一一 分幀分幀幀長:30ms(480個采樣點)幀移:15ms(240個采樣點)分幀結(jié)果:48028幀二二 對每一幀提取對每一幀提取1

43、2階階LPC提取結(jié)果:1228幀提取LPC-Matlab普通話發(fā)音“三”時長:441 ms采樣率:16k Hz降維降維語音波形LPC系數(shù)5.LPC特征案例v在本次實驗中分別對h u t ao 這四個提取LPC特征v采樣率為16000Hz,單聲道. v幀長為32ms,幀移為16msv使用自相關(guān)法求解LPC特征5.LPC特征提取-hLPC系數(shù)為: -0.8202 -0.4106 0.0765 -0.4185 0.3262 0.2405 0.2874 0.1080 -0.4481 0.3147 -0.1685 -0.0854h的波形5.LPC特征提取-uLPC系數(shù)為: -2.0420 1.4623

44、-0.4832 -0.3253 0.5238 -0.0108 - 0.0508 0.0054 -0.1332 0.1888 -0.1692 0.0549u的波形5.LPC特征提取-tLPC系數(shù)為:-1.0772 0.5986 -0.2074 -0.1201 -0.2620 0.1746 0.1952 -0.3134 0.1175 0.1708 -0.2086 -0.0512t的波形5.LPC特征提取-aoLPC系數(shù)為: -2.0912 1.9318 -1.3574 0.7663 -0.2111 -0.1302 0.4606 -0.3900 0.2447 -0.2715 0.1442 -0.00

45、27ao的波形 LPCLPC譜估計和譜估計和LPCLPC復倒譜復倒譜1.LPC1.LPC譜估計譜估計v當求出一組預測器系數(shù)后,就可以得到語音產(chǎn)生模型的頻率當求出一組預測器系數(shù)后,就可以得到語音產(chǎn)生模型的頻率響應,即:響應,即:v因此因此在共振峰頻率上其頻率響應特性會出現(xiàn)峰值在共振峰頻率上其頻率響應特性會出現(xiàn)峰值。所以線性。所以線性預測分析法又可以看做是一種短時譜估計法。其頻率響應預測分析法又可以看做是一種短時譜估計法。其頻率響應H(eH(ejj) )即稱為即稱為LPCLPC譜譜。)(1)(01jpiijipiijijeAGeaGeaGeH LPCLPC譜估計和譜估計和LPCLPC復倒譜復倒譜1

46、.LPC1.LPC譜估計譜估計vLPCLPC譜估計具有一個特點:在信號能量較大的區(qū)域即接近譜譜估計具有一個特點:在信號能量較大的區(qū)域即接近譜的峰值處,的峰值處,LPCLPC譜和信號譜很接近;而在信號能量較低的區(qū)譜和信號譜很接近;而在信號能量較低的區(qū)域即接近譜的谷底處,則相差比較大。這個特點域即接近譜的谷底處,則相差比較大。這個特點對于呈現(xiàn)諧對于呈現(xiàn)諧波結(jié)構(gòu)的濁音語音譜來說,就是在諧波成分處波結(jié)構(gòu)的濁音語音譜來說,就是在諧波成分處LPCLPC譜匹配信譜匹配信號譜的效果要遠比諧波之間好得多號譜的效果要遠比諧波之間好得多。LPCLPC譜估計的這一特點譜估計的這一特點實際上來自均方誤差最小準則。實際上

47、來自均方誤差最小準則。v從以上討論我們知道如果從以上討論我們知道如果p p選得很大,可以使選得很大,可以使|H(e|H(ejj)|)|精確精確地匹配于地匹配于|S(e|S(ejj)|)|,而且極零模型也可以用全極點模型來代,而且極零模型也可以用全極點模型來代替,但卻增加了計算量和存儲量,且替,但卻增加了計算量和存儲量,且p p增加到一定程度以后,增加到一定程度以后,預測平方誤差的改善就很不明顯了,預測平方誤差的改善就很不明顯了,因此在語音信號處理中,因此在語音信號處理中,p p一般選在一般選在8 81414之間。之間。LPCLPC譜估計和譜估計和LPCLPC復倒譜復倒譜2 2LPCLPC復倒譜

48、復倒譜vLPCLPC系數(shù)是線性預測分析的基本參數(shù),可以把這些系數(shù)變換系數(shù)是線性預測分析的基本參數(shù),可以把這些系數(shù)變換為其他參數(shù),以得到語音的其他替代表示方法。為其他參數(shù),以得到語音的其他替代表示方法。LPCLPC系數(shù)可系數(shù)可以表示整個以表示整個LPCLPC系統(tǒng)沖激響應的復倒譜。系統(tǒng)沖激響應的復倒譜。v按上式求得的復倒譜按上式求得的復倒譜h h (n)(n)稱之為稱之為LPCLPC復倒譜。復倒譜。0)0(h1) 1 (ah)( , )()/1 ()(1pnknhanknhpkk)1 ( , )()/1 ()(11pnknhankanhnkknvLPCLPC復倒譜由于利用了線性預測中聲道系統(tǒng)函數(shù)復

49、倒譜由于利用了線性預測中聲道系統(tǒng)函數(shù)H(z)H(z)的最小的最小相位特性,避免了相位卷繞問題;且相位特性,避免了相位卷繞問題;且LPCLPC復倒譜的運算量小,復倒譜的運算量小,它僅是用它僅是用FFTFFT求復倒譜時運算量的一半;又因為當求復倒譜時運算量的一半;又因為當p p時,時,語音信號的短時復頻譜語音信號的短時復頻譜S(eS(ejj) )滿足滿足|S(e|S(ejj)|= |H(e)|= |H(ejj)|)|,因,因而可以認為而可以認為h h (n)(n)包含了語音信號頻譜包絡信息,即可近似包含了語音信號頻譜包絡信息,即可近似把把h h (n)(n)當作當作s(n)s(n)的短時復倒譜的短

50、時復倒譜s s (n)(n),來分別估計出語音短,來分別估計出語音短時譜包絡和聲門激勵參數(shù)。在實時語音識別中也經(jīng)常采用時譜包絡和聲門激勵參數(shù)。在實時語音識別中也經(jīng)常采用LPCLPC復倒譜作為特征矢量。復倒譜作為特征矢量。v對以上所介紹的進行總結(jié)可知,為了估計語音信號的短時譜對以上所介紹的進行總結(jié)可知,為了估計語音信號的短時譜包絡,有三種方法:由包絡,有三種方法:由LPCLPC系數(shù)直接估計語音信號的譜包系數(shù)直接估計語音信號的譜包絡;由絡;由LPCLPC倒譜估計譜包絡;求得復倒譜倒譜估計譜包絡;求得復倒譜s s (n)(n),再用低,再用低時窗取出短時譜包絡信息,這種方法稱之為時窗取出短時譜包絡信

51、息,這種方法稱之為FFTFFT倒譜。倒譜。LPCLPC譜估計和譜估計和LPCLPC復倒譜復倒譜3 3LPCLPC美爾倒譜系數(shù)美爾倒譜系數(shù)(LPCCMCC)(LPCCMCC)v由式由式(3-143)(3-143)求得復倒譜求得復倒譜h h (n)(n)后,由后,由c(n)=1/2hc(n)=1/2h (n)+h(n)+h (-n)(-n)即可求出倒譜即可求出倒譜c(n)c(n)。但是,這個倒譜。但是,這個倒譜c(n)c(n)是實際頻率尺度的是實際頻率尺度的倒譜系數(shù)倒譜系數(shù)( (稱為稱為LPCLPC倒譜系數(shù):倒譜系數(shù):LPCC)LPCC)。根據(jù)人的聽覺特性可。根據(jù)人的聽覺特性可以把上述的倒譜系數(shù)進一步按符合人的聽覺特性的美爾以把上述的倒譜系數(shù)進一步按符合人的聽覺特性的美爾(MEL)(M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論