語音信號的短時分析技術(shù)_第1頁
語音信號的短時分析技術(shù)_第2頁
語音信號的短時分析技術(shù)_第3頁
語音信號的短時分析技術(shù)_第4頁
語音信號的短時分析技術(shù)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、v常用的短時分析技術(shù)有:短時能量短時平均幅度短時過零率短時自相關(guān)函數(shù)短時平均幅度差函數(shù)短時頻譜短時功率譜預(yù)濾波v預(yù)濾波的目的防止混疊干擾抑制50Hz的電源干擾預(yù)濾波實(shí)際上是一個帶通濾波器,其上下截止頻率分別為fH和fL 。對于絕大多數(shù)語音編碼器而言,要求fH=3400Hz, fL=60100Hz, fs=8KHz.對于語音識別系統(tǒng)而言,用于電話用戶時要求技術(shù)指標(biāo)與語音編碼器相同,如果對于更高的要求場合,則fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz幀和加窗的概念v短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;v幀長:1030ms,20ms常見;(

2、幀率)幀移:01/2幀長,幀與幀之間的平滑過渡;v為了減小語音幀的截?cái)嘈?yīng),需要加窗處理;)()()(nwnsnsw10, 1)(Nnnw10),12cos(46. 054. 0)(NnNnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗HammingHannv不同的窗口選擇(形狀、長度),將決定短時平均能量的性質(zhì)。什么樣的窗口,其短時平均能量才能更好的反映語音信號的振幅變化哪?v首先是窗口的形狀,窗口有多種形狀,他們都是中心對稱的。v其次是窗口的長度,無論什么形狀的窗口,窗口序列的長度N將起決定性的作用。N選得太大,濾波器的通帶變窄,波形的振幅變化細(xì)節(jié)就看不出來,反之,如果N太

3、小,則濾波器的通帶變寬,信號得不到足夠的平均。v所謂窗口長度的長短,都是相對于語音信號的基調(diào)周期而言的。通常認(rèn)為在一個語音幀內(nèi),應(yīng)含有17個基調(diào)周期為好??墒侨说恼Z音的基調(diào)周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基調(diào)頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為100200點(diǎn)為宜。若采用頻率為10KHz,則相當(dāng)于每幀的長度(即窗口序列的長度)約為1020ms為宜。若采樣頻率為8KHz,200點(diǎn)相當(dāng)于25ms,40幀/s;120點(diǎn)相當(dāng)于15ms,66幀/s.窗函數(shù)及其比較三種窗函數(shù)都有低通特性,通過分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn):矩形窗的主瓣寬

4、度最小,旁瓣高度最高,會導(dǎo)致泄漏現(xiàn)象,哈明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。v窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣;10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesAmplitude

5、Time domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHann矩形窗語音信號的短時能量(語音信號強(qiáng)度的度量參數(shù))v如果窗的起點(diǎn)是n=0,短時能量為v如果窗的起點(diǎn)

6、為n=m,短時能量為:)(1020nSENnw)(12mnSEmNmnwm不同窗口寬度的短時能量函數(shù)示意圖短時平均能量的主要用途可以從語音中區(qū)別出濁音來,因?yàn)闈嵋魰r短時平均能量的值要比清音時短時平均能量的值大很多;可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等最為一種超音段信息,用于語音識別中。語音信號的短時平均幅度v如果窗的起點(diǎn)是n=0,短時平均幅度為v如果窗的起點(diǎn)為n=m,短時平均幅度為:1)(mNmnwmmnSM100)(NnwnSMv短時過零率v波形穿過橫軸(零電平)的次數(shù)|)1(sgn)(sgn|210nsnsZww短時過零可以看作信號頻率的簡單度量0, 10, 1)sgn(xxx

7、語音信號的短時過零率Zv過零就是指信號通過零值。過零率就是每秒內(nèi)信號值通過零值的次數(shù)。v對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本的改變符號的次數(shù)。對于語音信號,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。可以用相鄰兩個取樣改變符號的次數(shù)來計(jì)算。v如果窗的起點(diǎn)是n=0,短時過零率Z為100)1()(21NnwwnSSgnnSSgnZ將Z應(yīng)用于語音信號分析中v發(fā)濁音時,聲帶振動,因而聲門激勵是以此音調(diào)頻率為基頻來使聲道共振;盡管有若干個共振峰,但其能量的分布集中于低于3KHz的頻率范圍內(nèi)。v發(fā)清音時聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵,通過聲道后其能量集

8、中在比濁音時更高的頻率范圍內(nèi)。v濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。濁音和清音情況下典型的平均過零率的直方圖。直方圖的分布形狀與高斯分布很吻合,而且濁音時的短時平均過零率的均值為14過零/10ms,清音時短時過零率的均值為47過零/10ms。注意到濁音和清音有一個交疊區(qū)域,此時很難分清是濁音還是清音,盡管如此,平均過零率仍可以粗略的判斷清音和濁音。v短時平均能量和短時平均過零率兩個參數(shù),也都可以用于語音識別中。主要用于識別無聲段和語音段的起點(diǎn)和終點(diǎn)的位置。v在背景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均

9、過零率來識別比較有效,但是通常情況是兩個參數(shù)聯(lián)合進(jìn)行識別。vE、M、Z的條件概率密度函數(shù)濁音、清音、無聲的短時特性S(無聲)U(清音)V(濁音)三種情況下短時平均幅度的條件概率密度的示意圖??梢钥闯觯瑵嵋舻亩虝r平均幅度最大,無聲的短時平均幅度最小。清音的短時過零率最大,無聲居中,濁音的短時過零率最小。語音有聲和無聲v在許多語音處理技術(shù)中需要判斷一段輸入信號中哪些是語音段,哪些是無聲段(只有背景噪聲)v在語音識別中正確的決定所要識別語音的起點(diǎn)、終點(diǎn)對于提高識別率往往是重要的。v對于數(shù)字移動通信的手持機(jī)編譯碼器,在較長的無聲段應(yīng)降低發(fā)射功率以節(jié)約其電池的消耗。語音有聲和無聲v對于已經(jīng)判定為語音段的

10、部分,尚需決定其清音或濁音,無論對于語音識別還是低速語音編譯碼器這都是很重要的。這些問題可以概括為無聲/有聲判決以及更細(xì)致的S/U/V判決。v能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語音應(yīng)具有一致的語音特性,它們不會在 S、U、V之間跳來跳去。判斷語音信號的起點(diǎn)和終點(diǎn)v在獨(dú)立詞(字)語音識別系統(tǒng)中需正確判定每一個輸入語音的起點(diǎn)和終點(diǎn),利用短時平均幅度和短時過零率可以做到這一點(diǎn)。v首先,可根據(jù)濁語音情況下短時平均幅度M的概率密度函數(shù)P(M/V)確定一個閾值參數(shù)MH, MH的值定得比較高。當(dāng)一幀輸入信號的M值超過MH時,就可以十分肯定該幀語音信號

11、不是無聲,而有相當(dāng)大的可能性是濁音。判斷語音信號的起點(diǎn)和終點(diǎn)v根據(jù)MH可判定輸入語音中的前后兩個點(diǎn)N1和N2, N1和N2之間肯定是語音段,但是語音的精確起點(diǎn)、終點(diǎn)還要在N1之前和N2之后仔細(xì)查找。為此在設(shè)置一個低閾值參數(shù)ML ,由N1向前找,當(dāng)短時平均幅度M由大到小減至ML時可以確定點(diǎn)N1 。類似由N2向后找,可以確定N2 。在N1和N2之間仍能肯定是語音段。判斷語音信號的起點(diǎn)和終點(diǎn)v由N1向前和N2向后繼續(xù)用短時過零率Z進(jìn)行搜索。根據(jù)無聲情況下短時過零率Z的均值,設(shè)置一個參數(shù)Z0,如果由N1向前搜索時Z始終大于Z0的3倍,則認(rèn)為這些信號仍屬于語音段,直至Z突然下降到低于3Z0值時,這時可以

12、確定語音的精確起點(diǎn)(為了保證可靠,由N1 向前搜索時間不超過25ms)。對終點(diǎn)做同樣的處理。采取這一算法的原因在于, N1以前可能是一段清輔音段(如f,s),它的能量相當(dāng)弱,依靠能量不可能把他們與無聲段區(qū)別開,而他們的過零率明顯高于無聲,因而能用這個參數(shù)來精確的判斷二者的分割點(diǎn),也就是語音真正的起點(diǎn)。判斷語音信號的起點(diǎn)和終點(diǎn)v另一種判斷的方法是如果能夠求出S、U、V三種情況下短時平均幅度M和短時過零率Z的條件聯(lián)合概率密度函數(shù)P(M、 Z/S), P(M、Z/U), P(M、Z/V),那么就可以采用統(tǒng)計(jì)學(xué)中的最大似然算法,根據(jù)一幀信號的M和Z值來判斷它的S/U/V。就是計(jì)算后驗(yàn)概率:vP(X/M

13、,Z)=P(M,Z/X)P(X)/P(M,Z)v其中,X=S或U或V。后驗(yàn)概率最大者即作為判決結(jié)果。v事實(shí)上,僅依靠M和Z兩個參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。v短時自相關(guān)函數(shù)10)()()(kNnwwwknsnskR1、是偶函數(shù);2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估計(jì)和線性預(yù)測分析;語音信號的短時自相關(guān)函數(shù)假設(shè) 一段加窗語音信號,非零區(qū)間為n=0N-1, 的自相關(guān)函數(shù)稱為語音信號的短時自相關(guān)函數(shù),)(nsw 1, 1)()()()()(10NNllnSnSlnSnSlRnlNnwwwww可以證明,自相關(guān)函數(shù)是偶函數(shù),且在l=0處取得最大值,且值

14、為短時能量)(nswv修正的自相關(guān)函數(shù)KkknsnskRNnwww0, )()()(10)()()(nwnsnswKNnnw10, 1)(短時自相關(guān)函數(shù)的特點(diǎn)濁音是周期信號,濁音的短時自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期。清音接近于隨機(jī)噪聲,請音的短時自相關(guān)函數(shù)不具有周期性,且隨著l的增大迅速減小。根據(jù)這個性質(zhì)可以判斷一個語音信號是清音還是濁音,還可以判斷濁音的基音周期。語音信號的短時頻譜)(nsw的離散時域付里葉變換)(exp( jwSw稱為語音信號的短時頻譜10)exp()()(exp(NnwwjwnnsjwS2)(exp(jwSw稱為語音信號的短時功率譜語音信

15、號的短時頻譜窗函數(shù)w(n)語音信號S(n)加窗語音信號Sw(n)DTFTS(exp(jw)DTFTW(exp(jw)DTFTSw(exp(jw)計(jì)算短時頻譜一般采用哈明窗)(exp()(exp()(exp(jwWjwSjwSw)()()(nwnsnswv短時平均幅度差函數(shù)(AMDF)Average Magnitude Difference FunctionRoss等人于1974年提出的 10| )()(|)(lNnwwwnslnslD050100150200250300350-4000-20000200040006000Voiced Frame. The pitch is about 42.0

16、5010015020025030035002468x 105AMDF Fun050100150200250300350400450-4000-2000020004000(a) A Voiced Speech Segment05010015020025030035040045002468x 105(b) AMDF for the Speech Segment( + local minima )050100150200250300350400450-2000020004000A: Speech Segment05010015020025000.511.522.5x 105B: Modified A

17、MDF( + local minima )短時基音周期估計(jì)v基于短時自相關(guān)函數(shù)的基音周期估計(jì)最大峰與基音周期不一致,要求幀長大于兩個基音周期;受共振峰的干擾,可以采取濾波或中心消波預(yù)處理。v基于短時AMDF的基音周期估計(jì)需進(jìn)行谷值點(diǎn)清晰度檢查、比較復(fù)雜的閾值判決;預(yù)處理可以改善效果;對幅度變化比較敏感?;诙虝r自相關(guān)函數(shù)的基音周期估計(jì)方法v短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點(diǎn)上取得最大值,只要能找到第一最大峰值點(diǎn)的位置并計(jì)算它與l=0點(diǎn)的間隔,便能估計(jì)出基音周期。v實(shí)際上,第一最大峰值點(diǎn)的位置有時不能與基音周期相吻合。因此很多時候并不是計(jì)算l=0點(diǎn)的距離作為基音周期。產(chǎn)生這種情況的原因:與窗

18、的選取長度有關(guān),窗口過長或過短都會導(dǎo)致不一致。通常認(rèn)為窗長至少應(yīng)大于兩個基音周期,語音信號中最長的基音周期約為20ms,因此在基音周期估計(jì)時窗長應(yīng)選的大于40ms。與聲道特性的影響有,有時窗長足夠長,但是第一最大值與基音周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。(1、60900Hz的帶通濾波器濾波,并用濾波信號的自相關(guān)函數(shù)進(jìn)行基音周期的估計(jì); 2、對語音信號進(jìn)行非線性變換后求自相關(guān)函數(shù),一種有效的非線性變換是中心削波,削波后基音周期的峰起更尖銳) 語音信號的短時平均幅度差函數(shù)(AMDF)為了求基音周期,還可以采用短時平均幅度差函數(shù)10)()()(lNnwwwnslnslr對于周期語音信號,其短時平均幅度差函數(shù)也是周期性的。在估計(jì)基音周期時,不論計(jì)算短時自相關(guān)函數(shù)還是短時平均幅度差函數(shù),一般都采用矩形窗基于短時平均幅度差函數(shù)的基音周期估計(jì)方法的特點(diǎn)v基音周期的谷點(diǎn)銳度比峰點(diǎn)的銳度要尖銳,估計(jì)的精度更高v計(jì)算短時平均幅度差函數(shù)不用乘法,計(jì)算量小v可以通過對語音信號進(jìn)行譜平滑(去除共振峰的影響)和中心削波處理來改善基音周期估計(jì)的效果v短時平均幅度差函數(shù)對于語音信號的快速變化比較敏感。對基音周期軌跡的平滑v中值濾波 平滑點(diǎn)附近左右各取L個點(diǎn),將2L+1個點(diǎn)按大小排列,取隊(duì)列中間值作為平滑器的輸出v線性濾波 通過一個低通濾波器v組合平滑 可以將兩個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論