《語(yǔ)音與音頻編碼》課件第2章_第1頁(yè)
《語(yǔ)音與音頻編碼》課件第2章_第2頁(yè)
《語(yǔ)音與音頻編碼》課件第2章_第3頁(yè)
《語(yǔ)音與音頻編碼》課件第2章_第4頁(yè)
《語(yǔ)音與音頻編碼》課件第2章_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2.1概述

2.2語(yǔ)音的發(fā)音機(jī)理

2.3語(yǔ)音信號(hào)的數(shù)字模型

2.4短時(shí)時(shí)域分析方法

2.5小結(jié)

習(xí)題二第二章語(yǔ)音信號(hào)數(shù)字模型及短時(shí)時(shí)域分析二元激勵(lì)模型是一種經(jīng)典的模擬語(yǔ)音信號(hào)產(chǎn)生過(guò)程的模型,它簡(jiǎn)單實(shí)用,是學(xué)習(xí)語(yǔ)音編碼理論的基礎(chǔ)。建立起語(yǔ)音信號(hào)的數(shù)字模型后,我們就可以用以前學(xué)過(guò)的時(shí)域或頻域信號(hào)處理知識(shí)對(duì)其進(jìn)行分析和處理。本章我們只介紹語(yǔ)音信號(hào)的短時(shí)時(shí)域分析方法。2.1概述2.2.1人的發(fā)音器官

人類的語(yǔ)音是由人的發(fā)音器官在大腦控制下的生理運(yùn)動(dòng)產(chǎn)生的。人的發(fā)音器官由三部分組成:肺和氣管產(chǎn)生氣源;喉和聲帶組成聲門;咽腔、口腔、鼻腔組成聲道。其發(fā)音器官機(jī)理模型見圖2.1。2.2語(yǔ)音的發(fā)音機(jī)理圖2.1發(fā)音器官機(jī)理模型喉是控制聲帶運(yùn)動(dòng)的軟骨和肌肉的復(fù)雜系統(tǒng),它主要包括:環(huán)狀軟骨、甲狀軟骨、杓狀軟骨和聲帶。其中,聲帶是重要的發(fā)音器官,它是伸展在喉前、后端之間的褶肉。如圖2.2所示,喉的前端由甲狀軟骨支撐,后端由杓狀軟骨支撐,而杓狀軟骨又與環(huán)狀軟骨的較高部分相聯(lián)。

這些軟骨在環(huán)狀軟骨上肌肉的控制下,能將兩片聲帶合攏或分離。聲帶之間的間隙稱為聲門。聲帶的聲學(xué)功能主要是產(chǎn)生激勵(lì)。位于喉前端呈圓形的甲狀軟骨稱為喉結(jié)。圖2.2喉的平面解剖示意圖2.2.2語(yǔ)音生成

1.濁音

空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是崩緊的,聲帶將產(chǎn)生張弛振動(dòng),即聲帶將周期性地啟開和閉合。聲帶啟開時(shí),空氣流從聲門噴射出來(lái),形成一個(gè)脈沖,聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙期。

2.清音

空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是完全舒展開來(lái)的,則肺部發(fā)出的空氣流將不受影響地通過(guò)聲門??諝饬魍ㄟ^(guò)聲門后,會(huì)遇到兩種不同情況。一種情況是,如果聲道的某個(gè)部位發(fā)生收縮形成了一個(gè)狹窄的通道,當(dāng)空氣流到達(dá)此處時(shí)被迫以高速?zèng)_過(guò)收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種空氣湍流通過(guò)聲道后便形成了所謂摩擦音或清音;另一種情況是,如果聲道的某個(gè)部位完全閉合在一起,當(dāng)空氣流到達(dá)時(shí)便在此處建立起空氣壓力,閉合點(diǎn)突然開啟便會(huì)讓氣壓快速釋放,經(jīng)過(guò)聲道后便形成了所謂爆破音。這兩種情況下發(fā)出的音均稱為清音。由2.2節(jié)介紹的發(fā)音機(jī)理和發(fā)音機(jī)理模型圖可知,語(yǔ)音生成系統(tǒng)包含三部分:由聲門產(chǎn)生的激勵(lì)函數(shù)G(z)、由聲道產(chǎn)生的調(diào)制函數(shù)V(z)和由嘴唇產(chǎn)生的輻射函數(shù)R(z)。語(yǔ)音生成系統(tǒng)的傳遞函數(shù)由這三個(gè)函數(shù)級(jí)聯(lián)而成,即

H(z)=G(z)V(z)R(z)

(2-1)2.3語(yǔ)音信號(hào)的數(shù)字模型2.3.1激勵(lì)模型

發(fā)濁音時(shí),由于聲門不斷開啟或關(guān)閉,從而產(chǎn)生間隙的脈沖。經(jīng)儀器測(cè)試,它類似于斜三角形的脈沖。也就是說(shuō),這時(shí)的激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。斜三角波及其頻譜如圖2.3所示。圖2.3斜三角波及其頻譜單個(gè)三角形波的數(shù)學(xué)表達(dá)式為

式中,N1為斜三角波的上升時(shí)間,N2為其下降時(shí)間。由圖2.3可以看出單個(gè)斜三角波的頻譜G(ejω)表現(xiàn)出一個(gè)低通濾波器的特性,可以把它表示成z變換的全極點(diǎn)形式,即

(2-3)(2-2)其中,c是一個(gè)常數(shù),T=N1+N2,顯然上式表示一個(gè)兩極點(diǎn)模型。因此,作為激勵(lì)的斜三角波串可以用一串加了權(quán)的單位脈沖序列去激勵(lì)上述單位斜三角波模型實(shí)現(xiàn)。單位脈沖串序列和幅值因子可以表示為e(n)-e(n-1)=Av,e(n)為離散階躍函數(shù),它的z變換形式為

所以整個(gè)激勵(lì)模型可表示為

(2-4)(2-5)2.3.2聲道模型

典型的聲道模型有兩種,即無(wú)損聲管模型和共振峰模型。這兩種數(shù)字模型本質(zhì)上沒(méi)有區(qū)別。無(wú)損聲管模型比較復(fù)雜,故本節(jié)只介紹共振峰模型。

當(dāng)聲波通過(guò)聲道時(shí),受到聲腔共振的影響,在某些頻率附近形成諧振。反映在信號(hào)頻譜圖上,在諧振頻率處其譜線包絡(luò)產(chǎn)生峰值,一般把它叫做共振峰,如圖2.4所示。圖2.4語(yǔ)音信號(hào)的頻譜一個(gè)二階諧振器的傳輸函數(shù)可以寫成

實(shí)踐表明,用前三個(gè)共振峰代表一個(gè)元音就足夠了。對(duì)于較復(fù)雜的輔音或鼻音,共振峰的個(gè)數(shù)要達(dá)到五個(gè)以上。多個(gè)Vi疊加可以得到聲道的共振峰模型為

(2-6)(2-7)2.3.3輻射模型

從聲道模型輸出的是速度波,而語(yǔ)音信號(hào)是聲壓波。二者的倒比稱為輻射阻抗Zl,它表征口唇的輻射效應(yīng)。如果認(rèn)為口唇張開的面積遠(yuǎn)遠(yuǎn)小于頭部的表面積,則利用單板開槽輻射的處理方法,可以得到輻射阻抗為

(2-8)式中:

(2-9)2.3.4語(yǔ)音信號(hào)數(shù)字模型

前面我們分別得到了語(yǔ)音信號(hào)激勵(lì)模型G(z)、輻射模型R(z)和聲道模型V(z),并且知道它們的級(jí)聯(lián)組合形式為ARMA模型。這說(shuō)明語(yǔ)音信號(hào)數(shù)字模型的傳遞函數(shù)為

(2-10)一般情況下,極點(diǎn)個(gè)數(shù)取8~12個(gè),零點(diǎn)個(gè)數(shù)取3~5個(gè),在采樣率為8kHz或10kHz時(shí),H(z)在10~20ms范圍內(nèi)可以很好地反映語(yǔ)音信號(hào)的特征。

根據(jù)隨機(jī)過(guò)程理論,一個(gè)零點(diǎn)可以用若干極點(diǎn)來(lái)近似。因此,適當(dāng)選取極點(diǎn)個(gè)數(shù)p,可以用全極點(diǎn)模型即AR(p)過(guò)程來(lái)表達(dá)語(yǔ)音信號(hào),即

(2-11)語(yǔ)音信號(hào)產(chǎn)生的二元激勵(lì)模型圖如圖2.5所示。為簡(jiǎn)單起見,將圖中的沖激序列發(fā)生器和聲門波模型合并為周期脈沖發(fā)生器,將聲道模型和輻射模型合并在一起成為時(shí)變數(shù)字濾波器,清音和濁音的振幅統(tǒng)一起來(lái)用G表示,這樣就成為圖2.6所示的簡(jiǎn)化數(shù)字模型圖,這就是經(jīng)典的語(yǔ)音信號(hào)數(shù)字模型圖。圖2.5二元激勵(lì)的語(yǔ)音生成模型圖2.6語(yǔ)音信號(hào)數(shù)字模型簡(jiǎn)化圖2.4.1語(yǔ)音信號(hào)的預(yù)加重處理

對(duì)輸入的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加重,通常是對(duì)語(yǔ)音的高頻部分進(jìn)行加重,以去除口唇輻射的影響。一般通過(guò)傳遞函數(shù)為H(z)=1-αz-1的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重,其中α為預(yù)加重系數(shù),0.9<α<1.0。設(shè)n時(shí)刻的語(yǔ)音采樣值為x(n),經(jīng)過(guò)預(yù)加重處理后的結(jié)果為y(n)=x(n)-αx(n-1),這里取α=0.98。圖2.7中分別給出了預(yù)加重前和預(yù)加重后的一段濁音信號(hào)及頻譜,可以看出,預(yù)加重后的頻譜在高頻部分的幅度得到了提升。2.4短時(shí)時(shí)域分析方法圖2.7預(yù)加重前和預(yù)加重后的一段語(yǔ)音信號(hào)及頻譜2.4.2語(yǔ)音信號(hào)的加窗處理

常用的窗有兩種,一種是矩形窗,窗函數(shù)如下:

另一種是漢明(Hamming)窗,窗函數(shù)如下:

圖2.8和圖2.9分別為矩形窗和漢明窗的時(shí)域波形和幅度特性圖。(2-12)(2-13)圖2.8矩形窗及其頻譜圖2.9漢明窗及其頻譜圖2.10說(shuō)明了加窗方法,其中窗序列沿著語(yǔ)音樣點(diǎn)值序列x(m)逐幀從左向右移動(dòng),窗w(n)長(zhǎng)度為N。圖2.10加窗方法示意圖2.4.3短時(shí)平均能量

由于語(yǔ)音信號(hào)的能量隨時(shí)間而變化,清音和濁音之間的能量差別相當(dāng)顯著,因此對(duì)短時(shí)能量和短時(shí)平均幅度進(jìn)行分析,可以描述語(yǔ)音的這種特征變化情況。

定義n時(shí)刻某語(yǔ)音信號(hào)的短時(shí)平均能量En為

式中,N為窗長(zhǎng),可見短時(shí)能量為一幀樣點(diǎn)值的加權(quán)平方和。特殊地,當(dāng)窗函數(shù)為矩形窗時(shí),有

(2-14)(2-15)也可以從另外一個(gè)角度來(lái)解釋短時(shí)平均能量En。令

h(n)=w2(n)(2-16)

則式(2-14)可以表示為

式(2-17)可以理解為:首先語(yǔ)音信號(hào)各個(gè)樣點(diǎn)值平方,然后通過(guò)一個(gè)沖激響應(yīng)為h(n)的濾波器,輸出為由短時(shí)能量構(gòu)成的時(shí)間序列,如圖2.11所示。(2-17)圖2.11語(yǔ)音信號(hào)的短時(shí)平均能量實(shí)現(xiàn)方框圖圖2.12畫出了一段實(shí)際語(yǔ)音(女聲“我到北京去”)的短時(shí)能量函數(shù)隨矩形窗長(zhǎng)的變化曲線,橫坐標(biāo)為幀數(shù),幀間無(wú)交疊。圖中的四幅圖分別對(duì)應(yīng)序列長(zhǎng)度N=50,N=100,N=400,N=800。從圖中可以看到,N=50和N=100的短時(shí)平均能量曲線不夠平滑;而N=800的曲線又過(guò)于平滑,將個(gè)別的細(xì)節(jié)變化平滑掉了;N=400的曲線就比較合適。圖2.12不同矩形窗長(zhǎng)N時(shí)的短時(shí)能量函數(shù)2.4.4短時(shí)平均幅度函數(shù)

短時(shí)能量的一個(gè)主要問(wèn)題是En對(duì)信號(hào)電平值過(guò)于敏感。由于需要計(jì)算信號(hào)樣值的平方和,在定點(diǎn)實(shí)現(xiàn)時(shí)很容易產(chǎn)生溢出。為了克服這個(gè)缺點(diǎn),可以定義一個(gè)短時(shí)平均幅度函數(shù)Mn來(lái)衡量語(yǔ)音幅度的變化:

式(2-18)可以理解為w(n)對(duì)|x(n)|的線性濾波運(yùn)算,實(shí)現(xiàn)框圖如圖2.13所示。與短時(shí)能量比較,短時(shí)平均幅度相當(dāng)于用絕對(duì)值之和代替了平方和,從而簡(jiǎn)化了運(yùn)算。(2-18)圖2.13短時(shí)平均幅度平均框圖圖2.14不同矩形窗長(zhǎng)N時(shí)的短時(shí)平均幅度函數(shù)2.4.5短時(shí)平均過(guò)零率

短時(shí)平均過(guò)零率的定義為

其中,sgn[·]為符號(hào)函數(shù),即

(2-19)(2-20)

w(n)為窗函數(shù),計(jì)算時(shí)常采用矩形窗,窗長(zhǎng)為N??梢赃@樣理解:當(dāng)相鄰兩個(gè)樣點(diǎn)符號(hào)相同時(shí),|sgn[x(m)]-sgn[x(m-1)]|=0,沒(méi)有產(chǎn)生過(guò)零;當(dāng)相鄰兩個(gè)樣點(diǎn)符號(hào)相反時(shí),|sgn[x(m)]-sgn[x(m-1)]|=2,為過(guò)零次數(shù)的2倍。因此在統(tǒng)計(jì)一幀(N點(diǎn))的短時(shí)平均過(guò)零率時(shí),求和后必須要除以2N。這樣的話,我們就可以將窗函數(shù)w(n)表示為

(2-21)在矩形窗條件下,式(2-19)可以簡(jiǎn)化為下式

按照式(2-22),可得出實(shí)現(xiàn)短時(shí)平均過(guò)零率的運(yùn)算圖,如圖2.15所示。(2-22)圖2.15語(yǔ)音信號(hào)的短時(shí)平均過(guò)零率圖2.16畫出了語(yǔ)音(女聲“我到北京去”)的短時(shí)平均過(guò)零次數(shù)的變化曲線,圖中窗長(zhǎng)N=220,幀重疊50%。圖2.16一句語(yǔ)音的短時(shí)平均過(guò)零率2.4.6短時(shí)自相關(guān)函數(shù)

由以前學(xué)過(guò)的信號(hào)處理知識(shí)可知,自相關(guān)函數(shù)R(k)具有下述性質(zhì):

(1)對(duì)稱性R(k)=R(-k);

(2)在k=0處,R(k)為最大值,即對(duì)于所有k來(lái)說(shuō),|R(k)|≤R(0);

(3)對(duì)于確定信號(hào),值R(0)對(duì)應(yīng)于能量,而對(duì)于隨機(jī)信號(hào),R(0)對(duì)應(yīng)于平均功率。定義語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù)為

因?yàn)镽n(-k)=Rn(k),所以

(2-23)

(2-24)定義

hk(n)=w(n)w(n+k)

(2-25)

那么式(2-24)可以寫成:

(2-26)

上式表明,序列x(n)x(n-k)經(jīng)過(guò)一個(gè)沖激響應(yīng)為hk(n)的數(shù)字濾波器濾波即得到短時(shí)自相關(guān)函數(shù)Rn(k),如圖2.17所示。圖2.17短時(shí)自相關(guān)函數(shù)的方框圖表示也可采用直接運(yùn)算的方法。令m=n+m′,代入式(2-27)中,且令w(-m)=w′(m),則

注意:當(dāng)0≤m≤N-1時(shí),w′(m)為非零值;當(dāng)0≤k+m≤N-1或-k≤m≤N-1-k時(shí),w′(k+m)為非零值,故w′(m)和w′(k+m)均為非零值時(shí),為0≤m≤N-1-k,故式(2-28)可以寫成:

(2-27)(2-28)圖2.18和圖2.19分別給出了濁音和清音的短時(shí)自相關(guān)函數(shù)曲線,分別畫出了時(shí)域波形、加矩形窗和加漢明窗后用式(2-28)計(jì)算短時(shí)自相關(guān)歸一化后的結(jié)果。語(yǔ)音的抽樣頻率為

8kHz,窗長(zhǎng)為320。圖2.18濁音的短時(shí)自相關(guān)函數(shù)圖2.19清音的短時(shí)自相關(guān)函數(shù)從圖2.20也可看到,采用式(2-29)計(jì)算出的短時(shí)自相關(guān)函數(shù),其幅度是一個(gè)逐漸衰減的曲線。這是由于在計(jì)算短時(shí)自相關(guān)時(shí),窗選語(yǔ)音段為有限長(zhǎng)度N,而求和上限為N-1-k,因此當(dāng)k增加時(shí),可用于計(jì)算的數(shù)據(jù)就越來(lái)越少了,從而導(dǎo)致k增加時(shí)自相關(guān)函數(shù)的幅度減小。圖2.20不同矩形窗長(zhǎng)時(shí)的短時(shí)自相關(guān)函數(shù)2.4.7修正的短時(shí)自相關(guān)函數(shù)

修正的短時(shí)自相關(guān)函數(shù)定義如下:

若令m=n+m′,代入式(2-29)中,可得

(2-29)(2-30)定義

則有

(2-31)(2-32)由式(2-32)可知,要使為非零值,必須使m+k≤N-1+K,考慮到k≤K,可得m=N-1,故式(2-31)可以寫成

(2-33)

與圖2.20對(duì)應(yīng)的修正自相關(guān)函數(shù)示于圖2.21中,可以看到,自相關(guān)函數(shù)相關(guān)峰值下降很小。圖2.21不同矩形窗長(zhǎng)時(shí)的修正短時(shí)自相關(guān)函數(shù)2.4.8短時(shí)平均幅度差函數(shù)

對(duì)一個(gè)周期為P的周期信號(hào)x(n),在k=0,±P,±2P…時(shí),d(n)=x(n)-x(n-k)=0(k=0,±P,±2P,…)。

對(duì)于濁音語(yǔ)音,在基音周期的整數(shù)倍上,d(n)總是很小,但不是零。因此,定義短時(shí)平均幅度差函數(shù)(AMDF)為

(2-34)使用矩形窗時(shí),短時(shí)平均幅度差函數(shù)可寫成

(2-35)

rn(k)與之間的關(guān)系為

(2-36)2.4.9基于短時(shí)自相關(guān)法的基音周期估值

中心削波函數(shù)如下

(2-37)其中,xL為削波電平,一般取本幀語(yǔ)音最大幅度的60%~70%。將削波后的序列f(x)用短時(shí)自相關(guān)函數(shù)估計(jì)基音周期,位于基音周期位置的峰值更加尖銳,有利于檢出基音周期。圖2.22和圖2.23分別給出了削波前后語(yǔ)音信號(hào)對(duì)比圖及修正自相關(guān)對(duì)比圖。可以看到,削波后的語(yǔ)音信號(hào)峰值更加突出,零值點(diǎn)增多,有利于減小自相關(guān)的計(jì)算量。圖2.22中心削波前后語(yǔ)音信號(hào)對(duì)比圖圖2.23中心削波前后修正自相關(guān)對(duì)比圖本章主要講述了語(yǔ)音信號(hào)數(shù)字模型及短時(shí)時(shí)域分析。首先從語(yǔ)音的發(fā)音器官以及它們的功能得到語(yǔ)音的生成機(jī)理,即空氣由肺部排入喉部,經(jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語(yǔ)音。2.5小結(jié)其次導(dǎo)出語(yǔ)音信號(hào)的數(shù)字模型,包括三部分,即由聲門產(chǎn)生的激勵(lì)函數(shù)G(z)、由聲道產(chǎn)生的調(diào)制函數(shù)V(z)和由嘴唇產(chǎn)生的輻射函數(shù)R(z),語(yǔ)音生成系統(tǒng)的傳遞函數(shù)由這三個(gè)函數(shù)級(jí)聯(lián)而成,由此得到語(yǔ)音信號(hào)的二元激勵(lì)模型。最后根據(jù)語(yǔ)音的發(fā)音慣性,在短時(shí)間內(nèi)的特性保持穩(wěn)定,詳細(xì)介紹了語(yǔ)音信號(hào)的時(shí)域分析,包括對(duì)短時(shí)能量、短時(shí)平均過(guò)零率、

短時(shí)自相關(guān)以及修正自相關(guān)這些時(shí)域特征參數(shù)的定義和作用說(shuō)明,通過(guò)對(duì)它們分別加不同的窗長(zhǎng)進(jìn)行討論和比較,并給出實(shí)際波形圖,可以直觀地看到結(jié)果,便于加強(qiáng)理解。

1. 簡(jiǎn)述語(yǔ)音的發(fā)音機(jī)理,并介紹它們的功能。

2.解釋下列名詞的定義:濁音,清音,基音周期,共振峰,預(yù)加重技術(shù)。

3.畫出語(yǔ)音信號(hào)的二元激勵(lì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論