第03章時(shí)域分析_第1頁(yè)
第03章時(shí)域分析_第2頁(yè)
第03章時(shí)域分析_第3頁(yè)
第03章時(shí)域分析_第4頁(yè)
第03章時(shí)域分析_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 語(yǔ)音信號(hào)的時(shí)域分析 引言1.語(yǔ)音信號(hào)的短時(shí)處理方法2.短時(shí)能量和短時(shí)平均幅度3.短時(shí)平均過(guò)零率4.短時(shí)自相關(guān)函數(shù)5.短時(shí)時(shí)域處理技術(shù)應(yīng)用舉例引言l語(yǔ)音信號(hào)處理語(yǔ)音信號(hào)處理包括語(yǔ)音通信、語(yǔ)音合成、語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和語(yǔ)音增強(qiáng)等方面,但其前提和基礎(chǔ)是對(duì)語(yǔ)音信號(hào)的分析。l語(yǔ)音信號(hào)分析語(yǔ)音信號(hào)分析可分為時(shí)域、頻域、倒譜域等方法。在分析處理之前必須把要分析的語(yǔ)音信號(hào)部分從輸人信號(hào)中找出來(lái),這項(xiàng)工作叫語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。l語(yǔ)音信號(hào)的數(shù)字化一般包括放大及增益控制、反混疊濾波、采樣、A/D變換及編碼(一般就是PCM碼);l預(yù)處理預(yù)處理一般包括預(yù)加重、加窗和分幀等。l語(yǔ)音分析語(yǔ)音分析分為模型分析法和非

2、模型分析法兩種。l模型分析法是指依據(jù)語(yǔ)音產(chǎn)生的數(shù)學(xué)模型,來(lái)分析和提取表征這些模型的特征參數(shù);共振峰模型分析及聲管模型(即線性預(yù)測(cè)模型)分析即屬于這種分析方法。l非模型分析法,包括上面提到的時(shí)域分析法、頻域分析法及同態(tài)分析法等。引言l時(shí)域分析通常用于最基本的參數(shù)分析及用于語(yǔ)音的分割、預(yù)處理和大分類等。其特點(diǎn)為:l 表示語(yǔ)音信號(hào)比較直觀、物理意義明確。l 實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算量少。l 可以得到語(yǔ)音的一些重要參數(shù)。引言l短時(shí)分析技術(shù):語(yǔ)音信號(hào)有時(shí)變特性,是一個(gè)非平穩(wěn)的隨機(jī)過(guò)程。但在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變。即語(yǔ)音的“短時(shí)平穩(wěn)性”。l “短時(shí)分析”,即對(duì)語(yǔ)音信號(hào)流采用分段處理。將其分為一段

3、一段來(lái)分析,其中每一段稱為一“幀”,由于語(yǔ)音通常在1030 ms之內(nèi)是保持相對(duì)平穩(wěn)的,因而幀長(zhǎng)一般取為1030 ms。l注:對(duì)于某些要求較高的研究領(lǐng)域或應(yīng)用場(chǎng)合(如語(yǔ)音識(shí)別),應(yīng)該考慮語(yǔ)音信號(hào)是時(shí)變或非平穩(wěn)的,此時(shí)應(yīng)采用“隱馬爾可夫模型”3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 語(yǔ)音信號(hào)的波形在時(shí)間上是連續(xù)變化的,所以是一個(gè)連續(xù)時(shí)間信號(hào),它的電位振幅可以是在一個(gè)電壓范圍內(nèi)的任何電位,是一個(gè)連續(xù)值,這個(gè)電位信號(hào)我們叫它模擬信號(hào)。我們?cè)谔幚碚Z(yǔ)音信號(hào)時(shí),通常是一小段一小段地觀察語(yǔ)音信號(hào)的變化,也就是以音窗也可稱作語(yǔ)音幀為單位,對(duì)每一語(yǔ)音幀內(nèi)的信號(hào),抽取出代表語(yǔ)音的特征參數(shù),這就是短時(shí)語(yǔ)音處理。 在本章中,我們

4、先介紹如何將語(yǔ)音信號(hào)作取樣與數(shù)字化,然后介紹基本的數(shù)字編碼,即脈沖編碼調(diào)制 (PCM)。將語(yǔ)音信號(hào)變成數(shù)字信號(hào)之后,我們可以計(jì)算短時(shí)段的信號(hào)能量、過(guò)零率、自相關(guān)函數(shù)等時(shí)域參數(shù),以及在下一章將一個(gè)音窗內(nèi)的信號(hào)作傅里葉轉(zhuǎn)換,得到頻域中的參數(shù)。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法離散時(shí)間信號(hào)現(xiàn)在許多設(shè)備都是在數(shù)字系統(tǒng)中處理信號(hào),所以模擬信號(hào)(analog signal)要經(jīng)過(guò)一個(gè)模擬到數(shù)字轉(zhuǎn)換器(analog-to-digital converter , ADC),轉(zhuǎn)換成數(shù)字信號(hào)(digital signal),才能在數(shù)字系統(tǒng)(digital system)中儲(chǔ)存或是讓計(jì)算機(jī)處理。在數(shù)字系統(tǒng)中處理后的數(shù)字

5、信號(hào),要經(jīng)過(guò)數(shù)字到模擬轉(zhuǎn)換器(digital-to-analog converter, DAC),轉(zhuǎn)換成模擬信號(hào)之后,才作為輸出。將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的過(guò)程,就叫做模擬到數(shù)字的轉(zhuǎn)換。它需經(jīng)過(guò)兩個(gè)步驟,就是取樣(sampling)與量化(quantization)。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法取樣所謂取樣,就是以固定的時(shí)間間隔,將模擬信號(hào)的振幅記錄下來(lái)。從數(shù)學(xué)上看,就是將模擬信號(hào)乘上一個(gè)周期性的脈沖信號(hào),得到一序列的脈沖,其脈沖的大小就是在該取樣的時(shí)間點(diǎn)上模擬信號(hào)的振幅。如果以時(shí)間函數(shù)xa(t)表示一個(gè)模擬信號(hào),取樣周期為Ts,則取樣后的信號(hào)變成xp(t),它等于xa(t)乘上一序列的脈沖

6、,)()()(tptxtxap(3-1)(3-2)p(t)是一個(gè)脈沖序列信號(hào),表示如下式kskTttp)()(3.1 語(yǔ)音信號(hào)的短時(shí)處理方法圖3-1語(yǔ)音信號(hào)波形及其取樣3.1 語(yǔ)音信號(hào)的短時(shí)處理方法如果我們對(duì)一個(gè)信號(hào)取樣,而未對(duì)信號(hào)事先作低通濾波即反混疊濾波,取樣頻率又太低,這樣得到的離散時(shí)間信號(hào)就不正確,取樣得到的數(shù)字信號(hào)是不能用的。轉(zhuǎn)換到頻域看,若是取樣頻率太低,它的信號(hào)頻譜就會(huì)發(fā)生重疊,用低通濾波器無(wú)法取出原來(lái)的頻譜,因此就不可能完整地復(fù)原。這種取樣之后使得頻域上頻譜重疊的現(xiàn)象,叫做信號(hào)混疊(aliasing)。信號(hào)頻寬取樣頻率電話的語(yǔ)音3.5 kHz8 kHz計(jì)算機(jī)上麥克風(fēng)接口信號(hào)7

7、kHz16 kHz音響,人耳聽(tīng)覺(jué)的上限20 kHz44.1 kHz3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制一個(gè)模擬信號(hào)取樣之后,變成離散時(shí)間信號(hào),接下來(lái)就是要用數(shù)字方式來(lái)表示這個(gè)離散時(shí)間信號(hào)上的每個(gè)取樣值。一個(gè)電位波形會(huì)有固定的電壓范圍,一個(gè)取樣值可以是在此電壓范圍內(nèi)的任何電位。如果只能用固定數(shù)目的位來(lái)表示這些取樣值,那么這些二進(jìn)數(shù)字就只能代表固定的幾個(gè)電位值,這個(gè)轉(zhuǎn)換就是量化(quantization),而轉(zhuǎn)換之后只允許存在的幾個(gè)電位值就是量化階數(shù)(quantization level)。執(zhí)行量化轉(zhuǎn)換的硬件電路,就是量化器(quantizer)。以二進(jìn)數(shù)字表示的信號(hào)就是數(shù)字信號(hào)(digi

8、tal signal),而這種將信號(hào)波形轉(zhuǎn)變成二進(jìn)數(shù)字的方法,就叫脈沖編碼調(diào)制(pulse code modulation, PCM)。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制圖3-3等間距量化的例子在 -2V到 +2V的電壓范圍內(nèi),用三個(gè)位代表的二進(jìn)數(shù)字作量化3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制如果有一個(gè)取樣的電位為 +0.65V,落在 +0.5V到 +1.0V的格子中,我們就知道它的對(duì)應(yīng)二進(jìn)數(shù)字是101,于是這個(gè)離散時(shí)間信號(hào)被轉(zhuǎn)換成101所代表的數(shù)字信號(hào)。當(dāng)要將數(shù)字信號(hào)還原成離散時(shí)間信號(hào)時(shí),每三個(gè)位就組成一個(gè)數(shù)字,代表一個(gè)離散時(shí)間信號(hào)值,但是作為代表的電位,是該格子的中間值,以

9、101為例,其代表的電位是+0.75V,所以還原之后的離散時(shí)間信號(hào)值是+0.75V,與原來(lái)的+0.65V相差0.10V,這個(gè)差值就是量化誤差(quantization error) 。對(duì)于每一格寬度為0.5V的量化方式,其誤差值在 -0.25V到 +0.25V之間,也就是格子寬度的一半。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制將量化誤差d(n)看成是一個(gè)隨機(jī)變數(shù)(random variable),其值就在 -/2到 +/2之間作均勻分布(uniform distribution),其概率密度函數(shù)(probability density function, pdf)寫成下式,22,1)(df

10、(3-8)平均值(mean)為0,方差(variance)為2max2223212xBd(3-9)3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制對(duì)于平均值為0的信號(hào),其強(qiáng)度(intensity)即能量就等于其方差。我們計(jì)算其信號(hào)能量對(duì)量化誤差引起的噪音能量的比值,就叫做量化信噪比(signal-to-noise ratio, SNR) ,2max222223xSNRxBdx(3-10)以分貝(decibel, dB)來(lái)表示信噪比,)(log2077. 402. 6max10 xBSNRxdB(3-11)3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 脈沖編碼調(diào)制若是xmax取為4倍方差(x)27. 702. 6

11、BSNRdB(3-12)取樣之位數(shù)數(shù)字信號(hào)的信噪比841 dB1689 dB24137 dBl取樣率經(jīng)常取10 kHz。l某些現(xiàn)代語(yǔ)音處理系統(tǒng)語(yǔ)音頻率高端擴(kuò)展到79 kHz,相應(yīng)的取樣率也提高到1520 kHz。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法取樣率和量化字長(zhǎng)的選擇 l(a)是一段語(yǔ)音信號(hào)400個(gè)取樣值的包絡(luò)曲線,l(b)3 bit量化器的量化噪聲與被量化信號(hào)之間存在著一定的相關(guān)性l(c)8 bit量化噪聲幾乎已經(jīng)看不出這種相關(guān)性了。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法取樣率和量化字長(zhǎng)的選擇 l(d)3 bit量化器的噪聲與“平穩(wěn)白噪聲過(guò)程”的假設(shè)不大相符l(e)8 bit量化器的噪聲的自相關(guān)函數(shù)的估

12、計(jì)幾乎是一個(gè)沖激函數(shù),這與“白噪聲過(guò)程”的假設(shè)相一致。l(f) 3 bit量化噪聲譜和語(yǔ)音信號(hào)譜的性質(zhì)有某些相似,也是隨著頻率的升高而下降l(g) 8 bit時(shí),其量化噪聲譜就比較平坦了,這是典型的白噪聲譜的形狀。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法取樣率和量化字長(zhǎng)的選擇 lSNR(dB)6.02B-7.2 l每bit字長(zhǎng)對(duì)SNR貢獻(xiàn)為6dB。l當(dāng)B7bit時(shí), SNR35 dB。此時(shí)量化后的語(yǔ)音質(zhì)量能滿足一般通信系統(tǒng)的要求。l語(yǔ)音波形的動(dòng)態(tài)范圍可達(dá)55 dB,故B應(yīng)取10 bit以上。為了在語(yǔ)音信號(hào)變化的范圍內(nèi)保持35 dB的信噪比,一般要求B11,實(shí)際常用12 bit來(lái)量化,其中附加的5bit用

13、于補(bǔ)償30 dB左右的語(yǔ)音波形的動(dòng)態(tài)范圍變化。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法取樣率和量化字長(zhǎng)的選擇 3.1 語(yǔ)音信號(hào)的短時(shí)處理方法預(yù)處理 圖3-4語(yǔ)音信號(hào)處理系統(tǒng)框圖l反混疊濾波器:為了防止混疊失真和噪聲干擾,必須在取樣前用一個(gè)具有良好截止特性的模擬低通濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行濾波,該濾波器稱為反混疊濾波器。有時(shí)為了防止50 Hz市電頻率干擾,該低通濾波器實(shí)際上做成一個(gè)從100 Hz到3.4kHz的帶通濾波器。對(duì)該濾波器的要求是其帶內(nèi)波動(dòng)和帶外衰減特性應(yīng)盡可能好。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法預(yù)處理 l平滑濾波器:D/A后面的低通濾波器是平滑濾波器,對(duì)重構(gòu)的語(yǔ)音波形的高次諧波起平滑作用,以去除高次

14、諧波失真。l預(yù)加重:l現(xiàn)象:由于語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800 Hz以上按6dB/倍頻程跌落,為此要在預(yù)處理中進(jìn)行預(yù)加重。l目的:提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。l位置:預(yù)加重可在A/D變換前的反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法預(yù)處理 3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀對(duì)于一段語(yǔ)音的離散時(shí)間信號(hào)x(m),用一個(gè)固定長(zhǎng)度的窗口(window)套上去,只看窗口內(nèi)的信號(hào),對(duì)這些信號(hào)做計(jì)算,用以求出在這窗口內(nèi)的語(yǔ)音特征(s

15、peech features)。這樣的處理方式,就叫加窗(windowing),而套上去的這一段語(yǔ)音即稱為語(yǔ)音幀(frame)。通常窗口的長(zhǎng)度是取1030 毫秒 (ms),這樣一段語(yǔ)音信號(hào),足以計(jì)算出語(yǔ)音的特征參數(shù)(feature parameters)。窗口的移動(dòng)距離,大約會(huì)取520 ms,讓前后的語(yǔ)音幀有部分重疊,這樣能觀察到語(yǔ)音特征改變的延續(xù)性以保證分析的準(zhǔn)確性。3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀假設(shè)加窗的長(zhǎng)度為N,在時(shí)域中可以寫成(3-13)將窗函數(shù)w(

16、m)乘在語(yǔ)音信號(hào)中的某一個(gè)時(shí)間點(diǎn)上,otherwiseNmmsmww, 010),()()()()(mnwmxmxn(3-14)n是加窗位置標(biāo)示,可以看出只有當(dāng)當(dāng)m m在在n-N+1mnn-N+1mn之間之間, 才不會(huì)是0,也就是x(m)在n-N+1mn這一時(shí)段中被取出,作為一個(gè)語(yǔ)音幀。)(mxn3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀在語(yǔ)音處理中最常用的兩種窗函數(shù)是矩形窗(rectangular window)與海明窗(Hamming window)。矩形窗的數(shù)學(xué)式如下:otherwiseNnnw, 010, 1)(3-15)otherwiseNnNnnw, 010),12c

17、os(46. 054. 0)(海明窗數(shù)學(xué)式如下:(3-16)3.1 語(yǔ)音信號(hào)的短時(shí)處理方法 加窗加窗取語(yǔ)音幀取語(yǔ)音幀圖3-4常用的窗函數(shù)3.1 語(yǔ)音信號(hào)的短時(shí)處理方法l語(yǔ)音信號(hào)短時(shí)處理的一般表示:其中T 為某種運(yùn)算關(guān)系,Qn為運(yùn)算后的結(jié)果)()(mnwmxTQn( )( ) ()nx mx m w nm3.2 短時(shí)能量和短時(shí)平均幅度l語(yǔ)音信號(hào)的能量分析是基于語(yǔ)音信號(hào)能量隨時(shí)間有相當(dāng)大的變化,l清音段的能量一般比濁音段的小得多。l能量分析包括能量和幅度兩個(gè)方面。l對(duì)語(yǔ)音信號(hào)采用短時(shí)分析時(shí),信號(hào)流的處理用分段或分幀來(lái)實(shí)現(xiàn)。l一般每秒的幀數(shù)約為33100,視實(shí)際情況而定。l分幀既可連續(xù),也可采用交疊

18、分段的方法,使相鄰幀有部分相重疊。3.2 短時(shí)能量和短時(shí)平均幅度l振幅越大則能量越大,通常用以下方式計(jì)算語(yǔ)音能量l短時(shí)平均能量函數(shù) 變換T 是指平方和運(yùn)算; 兩種計(jì)算方法: (3-17) mnmnwmxE2)()(3.2 短時(shí)能量和短時(shí)平均幅度l振幅越大則能量越大,通常用以下方式計(jì)算語(yǔ)音能量l短時(shí)平均能量函數(shù) 變換T 是指平方和運(yùn)算; 兩種計(jì)算方法: (3-18) h(n)是無(wú)限沖激響應(yīng)濾波器時(shí),短時(shí)能量可遞推計(jì)算得到mnmnhmxE)()(2l直角窗時(shí)lh(n)1, 0nN-1lh(n)0, 其他 l對(duì)應(yīng)于該單位函數(shù)響應(yīng)的數(shù)字濾波器的頻率響應(yīng)為 l它具有線性的相位頻率特性,其頻率響應(yīng)中第一個(gè)

19、零值所對(duì)應(yīng)的頻率為這里,fs為取樣頻率,而T1/fs為取樣周期。2/ )1(10)2/sin()2/sin()(NjNnnTjTjeTTNeeHNTNffs1013.2 短時(shí)能量和短時(shí)平均幅度矩形窗與海明窗的頻率響應(yīng): 海明窗的第一個(gè)零值頻率位置比直角窗要大1倍左右,即帶寬約增加1倍; 同時(shí)其帶外衰減也比直角窗大得多。3.2 短時(shí)能量和短時(shí)平均幅度l對(duì)語(yǔ)音信號(hào)的時(shí)域分析來(lái)說(shuō):l窗口的形狀窗口的形狀是重要的,選用不同的窗口,將使能量的平均結(jié)果不同:直角窗的譜平滑較好,但波形細(xì)節(jié)丟失(高頻分量);而海明窗則相反。l窗的長(zhǎng)度窗的長(zhǎng)度對(duì)于能否反映語(yǔ)音信號(hào)的幅度變化,將起決定作用。如果N很大,它等效于帶

20、寬很窄的低通濾波器,此時(shí)En隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,波形的變化細(xì)節(jié)就看不出來(lái);反之,N太小時(shí),濾波器的通帶變寬,短時(shí)能量隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。因此,窗口長(zhǎng)度選擇應(yīng)合適。l窗口長(zhǎng)度選擇應(yīng)合適。這里所謂窗口的長(zhǎng)與短,都是相對(duì)于語(yǔ)音信號(hào)的基音周期而言的。通常認(rèn)為在一個(gè)語(yǔ)音幀內(nèi),應(yīng)含有17個(gè)基音周期。然而不同人的基音周期變化范圍很大,從女性兒童的2 ms到老年男子的14 ms(即基音頻率為500 Hz70 Hz),所以N的選擇比較困難。通常在10 kHz取樣頻率下,N折衷選擇為折衷選擇為100200(即即1020 ms持續(xù)時(shí)間持續(xù)時(shí)間)。3.2 短時(shí)能量和短

21、時(shí)平均幅度lN51時(shí),窗選得較窄,En隨語(yǔ)音信號(hào)波形變化而很快起伏;lN401時(shí),窗選得太寬,En隨語(yǔ)音信號(hào)波形的變化而很緩慢地變化;lN101或N201時(shí),En隨語(yǔ)音信號(hào)波形的變化而快速變化,從而充分反映出此信號(hào)的特征。3.2 短時(shí)能量和短時(shí)平均幅度En的作用:反映出語(yǔ)音的能量或語(yǔ)音振幅隨時(shí)間緩慢變 化的規(guī)律。(濁音段能量比清音段大的多)En的應(yīng)用:1)區(qū)分清音段和濁音段 2)區(qū)分聲母和韻母3)區(qū)分無(wú)聲和有聲的分界(信噪比較高的信號(hào))4) 區(qū)分連字的邊界 5)用于語(yǔ)音識(shí)別 En的缺點(diǎn):對(duì)高電平過(guò)于敏感,給加窗寬度的選擇帶來(lái)了困難。擴(kuò)大了振幅不相等的任何兩個(gè)相鄰取樣值(此處的取樣值是指某語(yǔ)幀的

22、短時(shí)平均能量值)之間的幅度差別,必須用較寬的窗函數(shù)才能平滑能量幅度的起伏。l為了使En能準(zhǔn)確反映語(yǔ)音能量的時(shí)變規(guī)律: 數(shù)據(jù)窗w(n)或?yàn)V波器h(n)函數(shù)形式和寬度的選擇相當(dāng)重要。)3.2 短時(shí)能量和短時(shí)平均幅度圖3-6 語(yǔ)音信號(hào)的短時(shí)平均能量曲線3.2 短時(shí)能量和短時(shí)平均幅度短時(shí)平均幅度 變換T 是取絕對(duì)值求和運(yùn)算; 兩種計(jì)算方法: 即:)(* | )(|)(| )(|nhnxmnhmxMmn)(| )(|mnwmxMmn3.2 短時(shí)能量和短時(shí)平均幅度l窗口長(zhǎng)度N對(duì)平均幅度函數(shù)的影響與短時(shí)平均能量的分析結(jié)果相同。l短時(shí)平均幅度的動(dòng)態(tài)范圍(最大值與最小值之比)比短時(shí)平均能量要小,實(shí)際上短時(shí)平均幅

23、度的動(dòng)態(tài)范圍接近于短時(shí)平均能量的平方根。l同樣可以區(qū)分出清音和濁音,但二者的電平差不如短時(shí)能量那樣明顯。l在清音的范圍內(nèi),Mn和En二者的區(qū)別特別顯著。 3.3 短時(shí)平均過(guò)零率計(jì)算一個(gè)語(yǔ)音幀內(nèi)單位時(shí)間越過(guò)零線的平均次數(shù),可以得出其短時(shí)平均過(guò)零率(zero crossing rate)或短時(shí)平均過(guò)零數(shù)。聲帶振動(dòng)時(shí),是在發(fā)濁音,所以過(guò)零率低,聲帶不振動(dòng)時(shí),是在發(fā)清音,所以過(guò)零率就高,沒(méi)有聲音時(shí)若有噪音存在,也會(huì)有較高的過(guò)零率。過(guò)零:信號(hào)波形穿越時(shí)間軸或零值線;對(duì)于離散時(shí)間信號(hào)而言就是相鄰的取樣值符號(hào)改變。平均過(guò)零率:?jiǎn)挝粫r(shí)間(或單位樣本)內(nèi)過(guò)零的次數(shù)。3.3 短時(shí)平均過(guò)零率l變換T 相當(dāng)于平均過(guò)零

24、率計(jì)算;l短時(shí)平均過(guò)零率的計(jì)算方法:0)(, 10)(,00)(, 1)(sgn,010 ,21)()(*|)1(sgn)(sgn|)(|)1(sgn)(sgn|nxnxnxnxnNnNnwnwnxnxmnwmxmxZmn值其余3.3 短時(shí)平均過(guò)零率圖3-7 語(yǔ)音信號(hào)的短時(shí)平均過(guò)零率曲線3.3 短時(shí)平均過(guò)零率實(shí)際應(yīng)用區(qū)分清、濁音3.3 短時(shí)平均過(guò)零率l在背景噪聲較大的情況下,從噪聲信號(hào)中找出語(yǔ)音信號(hào),判斷出語(yǔ)音的起點(diǎn)和終點(diǎn)。注意:對(duì)于弱摩擦音f、h,弱爆破音p、t、k,鼻音ng、n、m,只用En(Mn)或Zn中一個(gè)參量判斷語(yǔ)音的起點(diǎn)和終點(diǎn)是有困難的,必須同時(shí)用En和Zn或Mn和Zn。3.3 短

25、時(shí)平均過(guò)零率語(yǔ)音的端點(diǎn)檢測(cè)利用短時(shí)平均能量函數(shù)曲線與短時(shí)平均過(guò)零率曲線,我們可以做語(yǔ)音的端點(diǎn)檢測(cè)(end-point detection)。在語(yǔ)音未開(kāi)始之前,會(huì)取到一段背景噪音的信號(hào),在語(yǔ)音結(jié)束之后也會(huì)取到一段背景噪音。語(yǔ)音端點(diǎn)檢測(cè)就是要找出語(yǔ)音從第幾個(gè)語(yǔ)音幀開(kāi)始,到第幾個(gè)語(yǔ)音幀結(jié)束。語(yǔ)音端點(diǎn)偵測(cè)程序如下:(1) 取到的一段聲音以固定語(yǔ)音幀長(zhǎng)度及固定語(yǔ)音幀幀移,轉(zhuǎn)成一序列的語(yǔ)音幀。然后計(jì)算每一語(yǔ)音幀的短時(shí)平均能量函數(shù)En,l 與短時(shí)平均過(guò)零率Zn, l 其中l(wèi)是語(yǔ)音幀的序號(hào),l = 1, 2,3, .,語(yǔ)音幀能量以對(duì)數(shù)值表示(2) 最前面的若干個(gè)語(yǔ)音幀視為噪音部分,求其所有語(yǔ)音幀短時(shí)平均能量與

26、短時(shí)平均過(guò)零率的分布,即計(jì)算其平均值與方差。bnNllnbnbnENE1,1bnNllnbnbnZNZ1,1bnNlbnlnbnEbnEEN12,2)(1bnNlbnlnbnZbnZZN12,2)(1(3) 設(shè)定兩個(gè)能量門限值及一個(gè)過(guò)零率門限值。EbnbnELET1212,EbnbnEUETZbnbnZZT33.3 短時(shí)平均過(guò)零率語(yǔ)音的端點(diǎn)檢測(cè)(4) 沿著語(yǔ)音幀序列,標(biāo)注第一個(gè)短時(shí)平均能量超過(guò)TEL 的語(yǔ)音幀,注記為NV。如果其后連續(xù)的B個(gè)語(yǔ)音幀,其短時(shí)平均能量大于TEL,而且B個(gè)語(yǔ)音幀之后,短時(shí)平均能量更是大于TEU,則NV視為可能的語(yǔ)音起點(diǎn)。反之,在NV之后的B個(gè)語(yǔ)音幀內(nèi),有小于TEL的,

27、或是B個(gè)語(yǔ)音幀之后不會(huì)大于TEU,則可能只是短暫的噪音造成的現(xiàn)象。因此放棄此NV點(diǎn),繼續(xù)往下找。(5) 找到NV之后,往回檢查,看其前個(gè)語(yǔ)音幀短時(shí)平均過(guò)零率,是否大于TZ,若是就繼續(xù)往回找,直到短時(shí)平均過(guò)零率小于TZ為止。這時(shí)候的語(yǔ)音幀視為真正語(yǔ)音的起點(diǎn),將此語(yǔ)音幀訂為N0。如果在NV之前,C個(gè)語(yǔ)音幀內(nèi)沒(méi)有短時(shí)平均過(guò)零率大于TZ者,就將NV作為真正的語(yǔ)音起點(diǎn),這表示沒(méi)有低能量的輔音在前面。3.3 短時(shí)平均過(guò)零率語(yǔ)音的端點(diǎn)檢測(cè)(6) 從NV之后應(yīng)該是元音,以后的語(yǔ)音幀能量大于TEL,就是語(yǔ)音存在,一直到能量小于TEL,就視為語(yǔ)音結(jié)束,語(yǔ)音終點(diǎn)的語(yǔ)音幀標(biāo)注為NE。(7) 從N0或NV到NE之間,就

28、是語(yǔ)音存在的區(qū)域。如果只是要找元音存在的語(yǔ)音幀,也可以用整句語(yǔ)音中的最大短時(shí)平均能量來(lái)估計(jì),如:max3 . 0 ETE3.3 短時(shí)平均過(guò)零率語(yǔ)音的端點(diǎn)檢測(cè)圖3-8語(yǔ)音端點(diǎn)的檢測(cè)3.3 短時(shí)平均過(guò)零率語(yǔ)音的端點(diǎn)檢測(cè)3.4 短時(shí)自相關(guān)函數(shù)相關(guān)分析:1)自相關(guān) 2) 互相關(guān)語(yǔ)音信號(hào)處理的相關(guān)分析:短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)應(yīng)用: 分析語(yǔ)音信號(hào)的同步性和周期性?;仡櫞_定性信號(hào)序列自相關(guān)函數(shù):( )( ) ()mR kx m x mk3.4 短時(shí)自相關(guān)函數(shù)l序列自相關(guān)函數(shù)的性質(zhì):1) 若此序列是周期的(周期為Np),則 R (k)=R (k + Np) 2) R (k)= R (-k)3) R (0

29、)R (k)4) R(0)等于確定性信號(hào)序列的能量或隨機(jī)序列的平均功率l由性質(zhì)1)、3)可知濁音的自相關(guān)函數(shù)周期性出現(xiàn)峰值點(diǎn),且周期為基音周期。3.4 短時(shí)自相關(guān)函數(shù)l短時(shí)自相關(guān)函數(shù)的定義l計(jì)算方法: 優(yōu)點(diǎn):在只需計(jì)算少數(shù)幾個(gè)滯后時(shí)間的自相關(guān)值時(shí);窗函數(shù)選擇適當(dāng)時(shí),可得到遞推計(jì)算方法 )()()()()()(,, )()()()()()(mnnmnnkmnwkmxmnwmxkRkR。kmnwkmxmnwmxmxTkR利用自相關(guān)函數(shù)的性質(zhì)式應(yīng)用于窗選語(yǔ)音段然后把自相關(guān)函數(shù)定義段首先乘以窗來(lái)選擇語(yǔ)音lRn(k)x(n)x(n-k) * hk(n) l短時(shí)自相關(guān)函數(shù)可看做序列x(n)x(n-k)通過(guò)單位脈沖響應(yīng)為hk(n)的數(shù)字濾波器的輸出。 3.4 短時(shí)自相關(guān)函數(shù)l由圖3-18(a)、(b)可見(jiàn):l對(duì)應(yīng)于濁音語(yǔ)音的自相關(guān)函數(shù),具有一定的周期性。在相隔一定的取樣后,自相關(guān)函數(shù)達(dá)到最大值。l圖3-18(c)上自相關(guān)函數(shù)沒(méi)有很強(qiáng)的周期峰值,表明在信號(hào)中缺乏周期性,這種清音語(yǔ)音的自相關(guān)函數(shù)有一個(gè)類似噪聲的高頻波形,有點(diǎn)像清音信號(hào)。3.4 短時(shí)自相關(guān)函數(shù)3.4 短時(shí)自相關(guān)函數(shù)修正的短時(shí)自相關(guān)函數(shù)l在語(yǔ)音信號(hào)處理中l(wèi) N值至少要大于基音周期的二倍,否則將找不到第二個(gè)最大值點(diǎn)。lN值也要盡可能地小;因?yàn)檎Z(yǔ)音信號(hào)的特性是變化的,如N過(guò)大將影響短時(shí)性。l由于語(yǔ)音信號(hào)的最小

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論