語(yǔ)音信號(hào)處理第4講剖析_第1頁(yè)
語(yǔ)音信號(hào)處理第4講剖析_第2頁(yè)
語(yǔ)音信號(hào)處理第4講剖析_第3頁(yè)
語(yǔ)音信號(hào)處理第4講剖析_第4頁(yè)
語(yǔ)音信號(hào)處理第4講剖析_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

4.1概述4.2語(yǔ)音分幀4.3語(yǔ)音信號(hào)的時(shí)域分析4.4語(yǔ)音信號(hào)的頻域分析第四章語(yǔ)音信號(hào)分析語(yǔ)音信號(hào)分析語(yǔ)音信號(hào)處理的前提和基礎(chǔ),只有分析出可表示語(yǔ)音信號(hào)特征的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語(yǔ)音通信、語(yǔ)音合成和語(yǔ)音識(shí)別等處理。貫穿于語(yǔ)音分析全過(guò)程的是“短時(shí)分析技術(shù)”語(yǔ)音信號(hào)從整體來(lái)看其特征及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化的,所以它是一個(gè)非平衡態(tài)過(guò)程,不能用處理平衡信號(hào)的數(shù)字信號(hào)處理技術(shù)對(duì)其進(jìn)行分析處理。

但是在一個(gè)短時(shí)間范圍內(nèi)(一般認(rèn)為在10-30ms的短時(shí)間內(nèi)),其特性基本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程,即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。

4.1概述根據(jù)所分析出的參數(shù)的性質(zhì)的不同可以分為:

時(shí)域分析、頻域分析、倒頻域分析,線性預(yù)測(cè)分析等;分析方法的不同:

模型分析方法和非模型分析方法不論是分析怎么樣的參數(shù)以及彩什么分析方法,在按幀進(jìn)行語(yǔ)音分析,提取語(yǔ)音參數(shù)之前,有一些經(jīng)常使用的、共同的短時(shí)分析技術(shù)必須預(yù)先進(jìn)行,如語(yǔ)音信號(hào)的數(shù)字化、語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)、預(yù)加重、加窗和分幀等,這些也是不可忽視的語(yǔ)音信號(hào)分析的關(guān)鍵技術(shù)。

4.1概述

4.2語(yǔ)音分幀進(jìn)行過(guò)預(yù)加重?cái)?shù)字濾波處理后,接下來(lái)就要進(jìn)行加窗分幀處理。一般每秒的幀數(shù)約為33-100幀,視實(shí)際情況而定。分幀雖然可以采用連續(xù)分段的方法,但一般要采用如圖3-1所示的交疊分段的方法,這是為了使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長(zhǎng)的比值一般取為0-1/2。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的,這就是用窗函數(shù)ω(n)來(lái)乘s(n),從而形成加窗語(yǔ)音信號(hào)sω(n)=s(n)ω(n)。語(yǔ)音分幀幀長(zhǎng)與幀移:

取的點(diǎn)數(shù)為幀長(zhǎng),乘以采樣周期得幀長(zhǎng)時(shí)間

兩幀間隔為幀移兩幀一定要有重疊,否則有參數(shù)突變?cè)谡Z(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,它們的表達(dá)式如下(其中N為幀長(zhǎng)):矩形窗:漢明窗:語(yǔ)音分幀1.窗口的形狀雖然,不同的短時(shí)分析方法(時(shí)域、頻域、倒頻域分析)以及求取不同的語(yǔ)音特征參數(shù)可能對(duì)窗函數(shù)的要求不盡一樣,一般來(lái)講,一個(gè)好的窗函數(shù)的標(biāo)準(zhǔn)是:在時(shí)域因?yàn)槭钦Z(yǔ)音波形乘以窗函數(shù),所以要減小時(shí)間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而平滑過(guò)渡到零,這樣可以使截取出的語(yǔ)音波形緩慢降為零,減小語(yǔ)音幀的截?cái)嘈?yīng);在頻域要有較寬的3dB帶寬以及較小的邊帶最大值。語(yǔ)音分幀2.窗口的長(zhǎng)度采樣周期Ts=1/fs,窗口長(zhǎng)度N和頻率分辨率Δf之間存在下列關(guān)系:Δf=1/NTs可見(jiàn),采樣周期一定時(shí),Δf隨窗口寬度N的增加而減小,即頻率分辨率相應(yīng)得到提高,但同時(shí)時(shí)間分辨率降低;如果窗口取短,頻率分辨率下降,而時(shí)間分辨率提高,因而二者是矛盾的。應(yīng)該根據(jù)不同的需要選擇合適的窗口長(zhǎng)度。

語(yǔ)音分幀有時(shí)窗口長(zhǎng)度的選擇,更重要的是要考慮語(yǔ)音信號(hào)的基音周期。通常認(rèn)為在一個(gè)語(yǔ)音幀內(nèi)應(yīng)包含1~7個(gè)基音周期。然而不同人的基音周期變化很大,從女性和兒童的2ms到老年男子的14ms(即基音頻率的變化范圍為500~70Hz),所以N的選擇比較困難。通常在10kHz取樣頻率下,N折中選擇為100~200點(diǎn)為宜(即10~20ms持續(xù)時(shí)間)。這樣,經(jīng)過(guò)上面介紹的處理過(guò)程,語(yǔ)音信號(hào)就已經(jīng)被分割成一幀一幀的加過(guò)窗函數(shù)的短時(shí)信號(hào),然后再把每一個(gè)短時(shí)語(yǔ)音幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來(lái)提取語(yǔ)音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,等等,最后得到由每一幀參數(shù)組成的語(yǔ)音特征參數(shù)的時(shí)間序列。語(yǔ)音信號(hào)的時(shí)域分析就是分析和提取語(yǔ)音信號(hào)的時(shí)域參數(shù)。進(jìn)行語(yǔ)音分析時(shí),最先接觸到并且也是最直觀的是它的時(shí)域波形。語(yǔ)音信號(hào)本身就是時(shí)域信號(hào),時(shí)域分析是最早使用,也是應(yīng)用最廣泛的一種分析方法,這種方法直接利用語(yǔ)音信號(hào)的時(shí)域波形。時(shí)域分析通常用于最基本的參數(shù)分析及應(yīng)用,如語(yǔ)音的分割、預(yù)處理、大分類等。特點(diǎn)是:①表示語(yǔ)音信號(hào)比較直觀、物理意義明確。②實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算量少。③可以得到語(yǔ)音的一些重要的參數(shù)。④只使用示波器等通用設(shè)備,使用較為簡(jiǎn)單等。4.3語(yǔ)音信號(hào)的時(shí)域分析

短時(shí)平均能量及含義短時(shí)平均能量:每區(qū)一個(gè)n,得到一個(gè)

短時(shí)能量及短時(shí)平均幅度分析En是一個(gè)度量語(yǔ)音信號(hào)幅度值變化的函數(shù),但它有一個(gè)缺陷,即它對(duì)高電平非常敏感(因?yàn)樗?jì)算時(shí)用的是信號(hào)的平方)。短時(shí)平均幅度函數(shù)Mn,它定義為:Mn也是一幀語(yǔ)音信號(hào)能量大小的表征,它與En的區(qū)別在于計(jì)算時(shí)小取樣值和大取樣值不會(huì)因取平方而造成較大差異。(1)區(qū)分清/濁音:

大,對(duì)應(yīng)濁音,小,對(duì)應(yīng)清音。(2)在SNR高的情況下,能進(jìn)行有聲/無(wú)聲判決

無(wú)聲時(shí),背景噪聲的小

有聲時(shí),顯著增大。判決時(shí)可設(shè)置一個(gè)門(mén)限(3)大致能定出濁音變?yōu)榍逡舻臅r(shí)刻,或反之。存在的問(wèn)題:短時(shí)能量函數(shù)對(duì)信號(hào)電平值過(guò)于敏感,在實(shí)際應(yīng)用中(如定點(diǎn)設(shè)備)很容易溢出。此時(shí)可以用平均幅度函數(shù)代替,單對(duì)清/濁音,有/無(wú)聲

的幅度差不如短時(shí)能量明顯。

短時(shí)平均幅度函數(shù)和能量函數(shù)的作用

短時(shí)過(guò)零率(ZCR)分析短時(shí)過(guò)零率:一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)。對(duì)于連續(xù)語(yǔ)音信號(hào),過(guò)零即意味著時(shí)域波形通過(guò)時(shí)間軸;對(duì)于離散信號(hào),如果相鄰的取樣值改變符號(hào)則稱為過(guò)零。過(guò)零率就是樣本改變符號(hào)的次數(shù)。

短時(shí)過(guò)零率分析定義語(yǔ)音信號(hào)xn(m)的短時(shí)過(guò)零率Zn為:式中,sgn[]是符號(hào)函數(shù),即

短時(shí)過(guò)零率分析(1)區(qū)分清/濁音:

清音平均過(guò)零率高,集中在高頻端

濁音平均過(guò)零率低,集中在低頻端(2)從背景噪聲中找出是否有語(yǔ)音。以及語(yǔ)音的起點(diǎn)。清音——隨機(jī)噪聲,高頻濁音——周期信號(hào),低頻

短時(shí)過(guò)零率分析在實(shí)際應(yīng)用中,短時(shí)平均過(guò)零率容易受到A/D轉(zhuǎn)換的直流偏移、50Hz交流電源的干擾以及噪聲的影響。減少這些干擾可以有兩種方法:(1)采用帶通濾波器消除信號(hào)中的直流和50Hz低頻分量(2)用過(guò)門(mén)限率來(lái)修改過(guò)零率,減少隨機(jī)噪聲的影響過(guò)門(mén)限率反應(yīng)了穿過(guò)正負(fù)門(mén)限的次數(shù),如果存在隨機(jī)噪聲,只要信號(hào)沒(méi)有超過(guò)[-T,T]的范圍,就沒(méi)有過(guò)零率的產(chǎn)生

短時(shí)相關(guān)分析相關(guān)分析是一種常用的時(shí)域波形分析方法,并有自相關(guān)和互相關(guān)之分。這里主要討論自相關(guān)函數(shù)。自相關(guān)函數(shù)具有一些性質(zhì),如它是偶函數(shù);假設(shè)序列具有周期性,則其自相關(guān)函數(shù)也是同周期的周期函數(shù)等??梢詰?yīng)用于語(yǔ)音信號(hào)的時(shí)域分析中。在語(yǔ)音信號(hào)分析中,采用的是短時(shí)自相關(guān)函數(shù)。

1.短時(shí)自相關(guān)函數(shù)定義語(yǔ)音信號(hào)xn(m)的短時(shí)自相關(guān)函數(shù)Rn(k)的計(jì)算式如下:這里K是最大的延遲點(diǎn)數(shù)。短時(shí)自相關(guān)函數(shù)具有以下性質(zhì):(1)如果xn(m)是周期的(設(shè)周期為N),則自相關(guān)函數(shù)是同周期的周期函數(shù),即Rn(k)=Rn(k+Np)。(2)Rn(k)是偶函數(shù),即Rn(k)=Rn(-k)。(3)當(dāng)k=0時(shí),自相關(guān)函數(shù)具有最大值,即Rn(0)≥|Rn(k)|,并且Rn(0)等于確定性信號(hào)序列的能量或隨機(jī)性序列的平均功率。

1.短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)存在的問(wèn)題:隨著k的變化,參加運(yùn)算的項(xiàng)減少。極限k=N-1時(shí)無(wú)運(yùn)算!改進(jìn)方法:兩個(gè)不同長(zhǎng)度的窗2.修正的短時(shí)自相關(guān)函數(shù)矩形窗1:矩形窗2:

3.相關(guān)函數(shù)的作用(1)區(qū)分清/濁音

濁音語(yǔ)音的自相關(guān)函數(shù)具有一定的周期性

清音語(yǔ)音的自相關(guān)函數(shù)不具有周期性,類似噪聲。(2)估計(jì)濁音語(yǔ)音信號(hào)的周期,即估計(jì)基音周期

短時(shí)平均幅度差函數(shù)短時(shí)自相關(guān)函數(shù)是語(yǔ)音信號(hào)時(shí)域分析的重要參量。但是,計(jì)算自相關(guān)函數(shù)的運(yùn)算量很大,其原因是乘法運(yùn)算所需要的時(shí)間較長(zhǎng)。為了避免乘法,一個(gè)簡(jiǎn)單的方法就是利用差值。為此常常采用另一種與自相關(guān)函數(shù)有類似作用的參量,即短時(shí)平均幅度差函數(shù)(AMDF)。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語(yǔ)音分析的原理:如果信號(hào)是完全的周期信號(hào)(設(shè)周期為Np),則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差值為零。

短時(shí)平均幅度差函數(shù)短時(shí)平均幅度差函數(shù)的定義:對(duì)于周期性的語(yǔ)音信號(hào),也呈周期性,與相反的是:在谷點(diǎn)時(shí),對(duì)應(yīng)的是峰值平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系可由下式表達(dá):短時(shí)平均幅度差函數(shù)語(yǔ)音信號(hào)的頻域分析就是分析語(yǔ)音信號(hào)的頻域特征。從廣義上講,語(yǔ)音信號(hào)的頻域分析包括語(yǔ)音信號(hào)的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法、線性預(yù)測(cè)法等幾種。本章介紹的是語(yǔ)音信號(hào)的傅里葉分析法。因?yàn)檎Z(yǔ)音波是一個(gè)非平穩(wěn)過(guò)程,因此適用于周期、瞬變或平穩(wěn)隨機(jī)信號(hào)的標(biāo)準(zhǔn)傅里葉變換不能用來(lái)直接表示語(yǔ)音信號(hào),而應(yīng)該用短時(shí)傅里葉變換對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析,相應(yīng)的頻譜稱為“短時(shí)譜”。4.4語(yǔ)音信號(hào)的頻域分析

利用語(yǔ)音的短時(shí)傅里葉變換求語(yǔ)音的短時(shí)譜對(duì)第n幀語(yǔ)音信號(hào),短時(shí)傅里葉變換,其定義如下:可知函數(shù)是時(shí)間n的離散函數(shù),又是角頻率的連續(xù)函數(shù),因此,可以從兩個(gè)角度解釋短時(shí)傅里葉變換的含義:(1)標(biāo)準(zhǔn)傅里葉變換(2)濾波器角度是窗口函數(shù)序列,不同的窗口函數(shù)序列,將得到不同的傅里葉變換結(jié)果討論(1)當(dāng)n取固定值時(shí),記

,標(biāo)準(zhǔn)傅里葉變換為:(2)ω固定不變,記ω=L,相當(dāng)于一個(gè)濾波器當(dāng)n取不同值時(shí),窗沿著序列滑動(dòng)標(biāo)準(zhǔn)的FT離散的短時(shí)傅里葉變換令則在語(yǔ)音信號(hào)數(shù)字處理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論