第2章 語(yǔ)音信號(hào)的數(shù)字模型_第1頁(yè)
第2章 語(yǔ)音信號(hào)的數(shù)字模型_第2頁(yè)
第2章 語(yǔ)音信號(hào)的數(shù)字模型_第3頁(yè)
第2章 語(yǔ)音信號(hào)的數(shù)字模型_第4頁(yè)
第2章 語(yǔ)音信號(hào)的數(shù)字模型_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材22.1 2.1 語(yǔ)音的發(fā)聲機(jī)理語(yǔ)音的發(fā)聲機(jī)理2.2 2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理語(yǔ)音的聽(tīng)覺(jué)機(jī)理 2.3 2.3 語(yǔ)音信號(hào)的線性模型語(yǔ)音信號(hào)的線性模型2.4 2.4 語(yǔ)音信號(hào)的非線性模型語(yǔ)音信號(hào)的非線性模型第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材32.1 語(yǔ)音的發(fā)聲機(jī)理 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 4 本章重點(diǎn)介紹本章重點(diǎn)介紹語(yǔ)音信號(hào)產(chǎn)生的數(shù)

2、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型字模型,對(duì)語(yǔ)音信,對(duì)語(yǔ)音信號(hào)的特性和聽(tīng)覺(jué)特號(hào)的特性和聽(tīng)覺(jué)特性做一般介紹。性做一般介紹。 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 51.1.組成組成 肺和氣管產(chǎn)生聲源; 喉和聲帶組成聲門(mén); 由咽腔、口腔、鼻腔 組成聲道。 圖2.1 發(fā)音器官機(jī)理模型 2.1 語(yǔ)音的發(fā)聲機(jī)理“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1.1 人的發(fā)聲器官人的發(fā)聲器官62. 2. 功能功能2.1 語(yǔ)音的發(fā)聲機(jī)理“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材7 圖 2.2 喉的平面解剖示意圖 前面前面 甲狀軟骨甲狀軟骨 聲帶聲帶 環(huán)狀軟骨環(huán)狀軟骨 杓狀

3、軟骨杓狀軟骨 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理8“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理9 口腔包括:上下唇、上下齒、上下齒齦、上下腭、舌和小舌等部分。 上腭又分為:硬腭和軟腭兩部分; 舌又分為:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔開(kāi)。當(dāng)小舌下垂時(shí),鼻腔和口腔便耦合起來(lái),當(dāng)小舌上抬時(shí),口腔與鼻腔是不相通的??谇缓捅乔欢际前l(fā)音時(shí)的共鳴器?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理10圖2.3 聲道縱剖面圖“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理11右圖為語(yǔ)音生成其機(jī)理模型???/p>

4、氣由肺部排入喉部,經(jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語(yǔ)音。在聲門(mén)(聲帶)以左,稱為“聲門(mén)子系統(tǒng)”,它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng);右邊是“聲道系統(tǒng)”和“輻射系統(tǒng)”。當(dāng)發(fā)不同性質(zhì)的語(yǔ)音時(shí),激勵(lì)和聲道的情況是不同的,它們對(duì)應(yīng)的模型也是不同的?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理12激勵(lì)(聲門(mén))調(diào)制(聲道)輻射語(yǔ)音(嘴唇)語(yǔ)音生成框圖“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理132.2.1 1.2 .2 語(yǔ)音生成語(yǔ)音生成 空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動(dòng),即聲帶將周期性地啟開(kāi)和閉合。聲帶啟開(kāi)時(shí),空氣流從聲門(mén)噴射出來(lái),形成一個(gè)脈沖

5、,聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙期。因此,這種情況下在聲門(mén)處產(chǎn)生出一個(gè)準(zhǔn)周期脈沖狀的空氣流。該空氣流經(jīng)過(guò)聲道后最終從嘴唇輻射出聲波,這便是濁音語(yǔ)音。這個(gè)準(zhǔn)周期脈沖的周期即為基音周期。“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理1、濁音、濁音14 基音頻率是由聲帶張開(kāi)閉合的周期所決定的:基音頻率是由聲帶張開(kāi)閉合的周期所決定的:“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理15“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理162 2、清音、清音空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是完全舒展開(kāi)來(lái)的,則肺部發(fā)出的空氣流將不受影響地通過(guò)聲門(mén)??諝饬魍ㄟ^(guò)聲門(mén)后,會(huì)遇

6、到兩種不同情況。一種情況是,如果聲道的某個(gè)部位發(fā)生收縮形成了一個(gè)狹窄的通道,當(dāng)空氣流到達(dá)此處時(shí)被迫以高速?zèng)_過(guò)收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過(guò)聲道后便形成所謂摩擦音或清音?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理17 共振峰頻率或共振峰 聲音產(chǎn)生后,便沿著聲道進(jìn)行傳播。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時(shí)起著共鳴器的作用。聲音進(jìn)入聲道后,其頻譜必定會(huì)受到聲道的共振特性的影響,聲道具有一組共振頻率,稱為共振峰頻率或共振峰。聲道的頻譜特性便主要地反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于

7、一組不同的共振峰參數(shù)。“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.1 語(yǔ)音的發(fā)聲機(jī)理182.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 192.2.2 2.1 .1 聽(tīng)覺(jué)器官聽(tīng)覺(jué)器官 人的聽(tīng)覺(jué)器官包括:外耳、中耳和內(nèi)耳人的聽(tīng)覺(jué)器官包括:外耳、中耳和內(nèi)耳圖2.4 人耳結(jié)構(gòu)示意圖“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理20 1. 1.外耳外耳 外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)組成。 2. 2.中耳中耳 組成:包括三塊聽(tīng)小骨:錘骨,砧骨和鐙骨。 作用:阻抗匹配和限幅 外耳和中耳的綜合作用相當(dāng)于一個(gè)介于50

8、0Hz到6kHz之間的平滑的帶通濾波器,可以用有限沖激響應(yīng)(FIR-Finite Impulse Response)濾波器來(lái)模擬?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理21 3. 3. 內(nèi)耳內(nèi)耳 內(nèi)耳是一個(gè)充滿液體的骨質(zhì)結(jié)構(gòu),由前庭、圓形窗、卵形窗及耳蝸組成?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材圖2.5 耳蝸未展開(kāi)時(shí)的內(nèi)耳2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理22人耳聽(tīng)覺(jué)界限的頻率范圍大約為20Hz-20kHz。語(yǔ)音感知的強(qiáng)度范圍是0130dB聲壓級(jí)。響度 這是頻率和強(qiáng)度級(jí)的函數(shù)。人耳剛剛可以聽(tīng)到的聲音強(qiáng)度,稱為“聽(tīng)閾”。音高(音調(diào)) 音高也叫基音?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)

9、規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理2.2.2 2.2 .2 聽(tīng)覺(jué)掩蔽效應(yīng)聽(tīng)覺(jué)掩蔽效應(yīng)23掩蔽效應(yīng)掩蔽效應(yīng)兩個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感受,使其變得不易察覺(jué),一個(gè)聲音的聽(tīng)覺(jué)感受性受同時(shí)存在的另外一個(gè)聲音的影響,這個(gè)現(xiàn)象稱為人耳的“掩蔽效應(yīng)”?!笆濉逼胀ǜ叩冉逃究茋?guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理24 2.2.2 2.3 .3 臨界帶寬與頻率群臨界帶寬與頻率群 臨界頻帶也可定義為:一個(gè)給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應(yīng)的那一部分。一個(gè)頻率群的劃分相應(yīng)于基底膜分成許多很小的部分,每一部分對(duì)應(yīng)一個(gè)頻率群。一個(gè)臨界帶的單位用巴克(Ba

10、rk)表示。 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理252.2.2 2. .4 4 耳蝸的信號(hào)處理機(jī)制耳蝸的信號(hào)處理機(jī)制圖2.6 耳蝸內(nèi)流體波的簡(jiǎn)單表示“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理26 當(dāng)聲音經(jīng)外耳傳入中耳時(shí),鐙骨的運(yùn)動(dòng)引起耳蝸內(nèi)流體壓強(qiáng)的變化,從而引起行波沿基底膜的傳播。圖2.6是流體波的簡(jiǎn)單表示。在耳蝸的底部基底膜的硬度很高,流體波傳播的很快。隨著波的傳播,膜的硬度變得越來(lái)越小,波的傳播也逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而峰值出現(xiàn)在基底膜的不同位置上。 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理27圖2.

11、7 基底膜上六個(gè)不同點(diǎn)的頻率響應(yīng)1 1 基底膜基底膜2 2 內(nèi)毛細(xì)胞內(nèi)毛細(xì)胞3 3 外毛細(xì)胞外毛細(xì)胞4 4 聽(tīng)傳導(dǎo)通路聽(tīng)傳導(dǎo)通路 “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理282.2.2 2. .5 5 語(yǔ)音信號(hào)聽(tīng)覺(jué)模型語(yǔ)音信號(hào)聽(tīng)覺(jué)模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理聽(tīng)覺(jué)系統(tǒng)的研究主要集中在三個(gè)方面:聽(tīng)覺(jué)系統(tǒng)的實(shí)驗(yàn)研究、聽(tīng)覺(jué)系統(tǒng)的建模和聽(tīng)覺(jué)模型的應(yīng)用。耳蝸建模主要集中在基底膜的振動(dòng)上,而耳蝸的聽(tīng)覺(jué)感受實(shí)際上是通過(guò)基底膜的振動(dòng)和毛細(xì)胞的轉(zhuǎn)換才能最后變成神經(jīng)纖維的脈沖發(fā)放。然而,建立基底膜的振動(dòng)模型是耳蝸建模的首要任務(wù),它又被稱為耳蝸的宏觀力學(xué)模型

12、。29“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理這里介紹一種計(jì)算模型,由三部分組成。第一部分是基底膜的振動(dòng)模型;第二部分是毛細(xì)胞模型;第三部分是神經(jīng)纖維模型。30“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2 語(yǔ)音的聽(tīng)覺(jué)機(jī)理整個(gè)模型共有64個(gè)通道,系統(tǒng)的輸出是一種類似于語(yǔ)譜圖的信號(hào)。由此得到了聽(tīng)覺(jué)模型常用結(jié)構(gòu)圖,如圖2.8所示。 輸入語(yǔ)音 外耳 中耳 帶 通 濾波器 半波 整流 半波 整流 聽(tīng)神經(jīng) 發(fā) 放 聽(tīng) 覺(jué) 語(yǔ)譜圖 圖2.8 語(yǔ)音信號(hào)聽(tīng)覺(jué)模型的一般原理框圖312.3 語(yǔ)音信號(hào)的 線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的

13、數(shù)字模型 32有三部分作用施加在語(yǔ)音的聲波上:語(yǔ)音信號(hào)的傳遞函數(shù)由這三個(gè)函數(shù)級(jí)聯(lián)而成,即: H(z)=G(z)V(z)R(z) (2.12.1)“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型332.2.3 3.1 .1 激勵(lì)模型激勵(lì)模型 發(fā)濁音時(shí),產(chǎn)生的脈沖類似于斜三角形的脈沖。激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。 圖2.9 三角波及其頻譜圖“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型34 1 0nN 單個(gè)三角波的數(shù)學(xué)表達(dá)式為 0 2cos cos121)(211其它NNnNnng112NnNN其中:N1為斜三角波的上升時(shí)間 N2為其下降時(shí)間

14、“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.22.2)2.3 語(yǔ)音信號(hào)的線性模型35 單個(gè)斜三角波的頻譜G(ej)表現(xiàn)出一個(gè)低通濾波器的特性。其z變換的全極點(diǎn)形式為:21e11)(ZzGcT 作為激勵(lì)的斜三角波串可以用一串加了權(quán)的單位脈沖序列去激勵(lì)單位斜三角波模型實(shí)現(xiàn)。這個(gè)單位脈沖串和幅值因子可以表示成下面的z變換形式11)(zAzEv“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.32.3)(2.42.4)2.3 語(yǔ)音信號(hào)的線性模型36 濁音激勵(lì)模型可表示為 清音可以模擬成隨機(jī)白噪聲。211111)()()(zeZAzGzEzUcTv“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.52.5)2

15、.3 語(yǔ)音信號(hào)的線性模型37 典型的聲道模型有兩種:無(wú)損聲管模型和共振峰模型。無(wú)損聲管模型比較復(fù)雜,故本節(jié)只介紹共振峰模型。共振峰模型: 當(dāng)聲波通過(guò)聲道時(shí),受到聲腔共振的影響,在某些頻率附近形成諧振。反映在信號(hào)頻譜圖上,在諧振頻率處其譜線包絡(luò)產(chǎn)生峰值,一般把它叫作共振峰。2.2.3 3.2 .2 聲道模型聲道模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型38“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材圖2.10 語(yǔ)音信號(hào)的頻譜2.3 語(yǔ)音信號(hào)的線性模型39 實(shí)踐表明,用前三個(gè)共振峰代表一個(gè)元音足夠了。多個(gè)Vi疊加可以得到聲道的共振峰模型: 211zczBAzViiii Mi

16、NkkkiiiMiizaAZCZBAzVzV1121111一個(gè)二階諧振器的傳輸函數(shù)可以寫(xiě)成:“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.62.6)(2.72.7)2.3 語(yǔ)音信號(hào)的線性模型40圖2.11 “我到北京去”的語(yǔ)譜圖“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型41)1 ()(10rzRzR 從聲道模型輸出的是速度波ul (n),而語(yǔ)音信號(hào)是聲壓波Pl(n)。二者倒比稱為輻射阻抗Zl,它表征口唇的輻射效應(yīng)。如果認(rèn)為口唇張開(kāi)的面積遠(yuǎn)遠(yuǎn)小于頭部的表面積,利用單板開(kāi)槽輻射的處理方法,可以得到輻射阻抗,r近似為1 2.2.3 3.3 .3 輻射模型輻射模型“十二五”普通

17、高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型(2.82.8)式中,式中,(2.92.9)42 語(yǔ)音信號(hào)數(shù)字模型的傳遞函數(shù)為:“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.2.3 3. .4 4 語(yǔ)音信號(hào)數(shù)字模型語(yǔ)音信號(hào)數(shù)字模型(2.102.10)一般情況下,極點(diǎn)個(gè)數(shù)取812個(gè),零點(diǎn)個(gè)數(shù)取35個(gè),在采樣率為8kHz或10kHz時(shí),H(z)在1020ms范圍內(nèi)可以很好的反映語(yǔ)音信號(hào)的特征。2.3 語(yǔ)音信號(hào)的線性模型43 根據(jù)隨機(jī)過(guò)程理論,一個(gè)零點(diǎn)可以用若干極點(diǎn)來(lái)近似。因此,適當(dāng)選取極點(diǎn)個(gè)數(shù)p,可以用全極點(diǎn)模型即AR(p)過(guò)程來(lái)表達(dá)語(yǔ)音信號(hào):“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.112

18、.11)在早期LPC二元激勵(lì)模型下,極點(diǎn)個(gè)數(shù)p一般選為10。對(duì)于延時(shí)較短或采用后向?yàn)V波時(shí),對(duì)模型要求較嚴(yán),必須加入零點(diǎn)或增加極點(diǎn)個(gè)數(shù)。實(shí)際上,對(duì)于男聲來(lái)說(shuō),取20個(gè)極點(diǎn)已經(jīng)足夠了,考慮女聲后,階數(shù)可以加大到30階。2.3 語(yǔ)音信號(hào)的線性模型44 T 沖激序列 發(fā)生器 聲門(mén)波 模型 隨機(jī)噪聲 發(fā)聲器 聲道 模型 V(z) 輻射 模型 R(z) 振幅 Au 聲道參數(shù) a1ap 清/濁 音判斷 圖 2.12 二元激勵(lì)的語(yǔ)音生成模型 振幅 Av “十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2.3 語(yǔ)音信號(hào)的線性模型45“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材 聲道的傳輸函數(shù)具有全極點(diǎn)的性質(zhì),這對(duì)于元音和大

19、多數(shù)輔音來(lái)說(shuō)是比較符合實(shí)際的,但對(duì)于鼻音和阻塞音來(lái)說(shuō),由于出現(xiàn)了零點(diǎn),這種模型就不夠準(zhǔn)確了。 一種解決問(wèn)題的方案是在V(z)中引入若干零點(diǎn),但這將使模型復(fù)雜化;另一種方法是適當(dāng)提高階數(shù)p,使得全極點(diǎn)模型能更好地逼近具有此種零點(diǎn)的傳輸函數(shù)。數(shù)字模型的基本思想是認(rèn)為任何語(yǔ)音都是由一個(gè)適當(dāng)?shù)募?lì)源作用于聲道而產(chǎn)生的,這意味著激勵(lì)源與聲道系統(tǒng)是互相獨(dú)立的。上述假定對(duì)于大多數(shù)語(yǔ)音是合適的,但在有些情況下,例如某些瞬變音,實(shí)際上聲門(mén)和聲道是互相耦合的,這便形成了這些語(yǔ)音的非線性特性。2.3 語(yǔ)音信號(hào)的線性模型462.4 語(yǔ)音信號(hào)的非 線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材第二章第二章 語(yǔ)音信號(hào)的

20、數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 47 語(yǔ)音信號(hào)的產(chǎn)生是一個(gè)非線性過(guò)程,其中存在著混沌的機(jī)制,發(fā)濁音、清音以及聲音傳播過(guò)程中都表現(xiàn)出了非線性混沌現(xiàn)象。20世紀(jì)80年代,Teager等人研究發(fā)現(xiàn)語(yǔ)音的產(chǎn)生是渦流與平面波共同形成的,是非線性的。 基于上述的種種表現(xiàn),僅僅使用線性模型來(lái)描述語(yǔ)音信號(hào)顯然已經(jīng)不再合適,因此本節(jié)將詳細(xì)介紹語(yǔ)音信號(hào)的幾種非線性模型。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材非線性理論的發(fā)展48 早期的語(yǔ)音信號(hào)處理方法大多是基于語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性理論,當(dāng)語(yǔ)音信號(hào)分幀處理足夠小時(shí),語(yǔ)音信號(hào)可以當(dāng)作近似線性信號(hào)來(lái)處理。 通常,基于確定性線性系統(tǒng)理論的短時(shí)處

21、理技術(shù)分為時(shí)域和頻域兩種。雖然這些分析方法得到了廣泛地應(yīng)用,但是同時(shí)也存在著很大的局限性。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材1、線性模型的局限性491 1)調(diào)頻)調(diào)頻- -調(diào)幅模型調(diào)幅模型 調(diào)頻-調(diào)幅模型的依據(jù)是語(yǔ)音由聲道共振產(chǎn)生的理論。用能量分離算法將每個(gè)共振峰相對(duì)應(yīng)的瞬時(shí)頻率從語(yǔ)音信號(hào)中分離出來(lái),并利用這個(gè)瞬時(shí)頻率,就可以得到描述語(yǔ)音信號(hào)特性的特征。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材2、幾種非線性模型50在調(diào)頻-調(diào)幅模型中,對(duì)于一個(gè)載波頻率為 ,頻率調(diào)制信號(hào)為 ,由 來(lái)控制幅值的調(diào)制信號(hào)可以表示為:2.4 語(yǔ)音信號(hào)的非線性

22、模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.122.12)其中 為 時(shí)刻瞬時(shí)相位。51將瞬時(shí)頻率定義為瞬時(shí)相位的變化率,即 ,可以將語(yǔ)音信號(hào)看作是由若干個(gè)共振峰調(diào)制信號(hào)疊加而成,可以表示為:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.132.13)其中, 為總的共振峰數(shù)目, 為用第 個(gè)共振峰作為載波頻率調(diào)制和幅度調(diào)制后的信號(hào)。522 2)TeagerTeager能量算子能量算子 Teager能量算子在連續(xù)域和離散域中有兩種形式。對(duì)于有限連續(xù)信號(hào) , ,Teager能量算子可以表示為:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.1

23、42.14)對(duì)于有限離散信號(hào)對(duì)于有限離散信號(hào) ,Teager能量算子可以表示為:(2.152.15)53設(shè)寬帶穩(wěn)態(tài)隨機(jī)信號(hào)為 ,其方差為:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.162.16)或,(2.172.17)式(2.172.17)中, 是 的自相關(guān)函數(shù)。54帶噪語(yǔ)音信號(hào) ,為純語(yǔ)音信號(hào) 與噪音 之和,則其Teager能量算子如式(2.18)所示:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.182.18)式中, 是 與 的互Teager能量,如式(2.19)所示:(2.192.19)55因?yàn)?和 相互獨(dú)立且均值為零,故 的期

24、望值為零,可以推導(dǎo)出:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.202.20)上式(2.20)中, 相對(duì)于 可以忽略不計(jì),則可以得到:(2.212.21)56最后,Teager能量算子在離散域的表示形式如式(2-22)所示:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.222.22)其中, 、 、 分別是當(dāng)前樣點(diǎn)、前一個(gè)樣點(diǎn)和下一個(gè)樣點(diǎn)值。 從上式(2.22)可以看出,計(jì)算能算算子在第 點(diǎn)處的輸出值,只需知道該樣點(diǎn)和它前后時(shí)刻的值,計(jì)算量小的同時(shí)也保證了能量算子輸出后的信號(hào)依然與原始信號(hào)具有相似性。573 3)能量分離算法)能量分離算

25、法能量分離算法(Energy Separation Algorithm, ESA)使用非線性能量算子跟蹤語(yǔ)音信號(hào),將只包含單個(gè)共振峰的語(yǔ)音信號(hào)分離成頻率分量和幅值分量。其中單個(gè)共振峰的調(diào)制信號(hào)表示如式(2.23)所示:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.232.23)其中瞬時(shí)頻率為其中瞬時(shí)頻率為 。58對(duì)上述信號(hào)進(jìn)行能量算子操作可以得到如下結(jié)果:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.242.24)從上式從上式(2.24)(2.24)可以看出,可以看出, 的能量算子輸出由兩部分組成,的能量算子輸出由兩部分組成,一個(gè)是頻率調(diào)

26、制后的瞬時(shí)頻率;另一個(gè)是幅值調(diào)制后的幅值包一個(gè)是頻率調(diào)制后的瞬時(shí)頻率;另一個(gè)是幅值調(diào)制后的幅值包絡(luò)。絡(luò)。59 上述結(jié)果顯示了該算子的能量跟蹤能力,因此將該算子稱為能量算子。該能量算子可以反映出幅值與頻率的變化。當(dāng)幅值包絡(luò)不變時(shí),信號(hào)的能量算子就可以反映出頻率的變化。 綜上所述,該節(jié)所述的三種語(yǔ)音非線性產(chǎn)生模型中,語(yǔ)音信號(hào)的能量算子輸出都是幅值包絡(luò)與瞬時(shí)頻率的函數(shù),因此根據(jù)這兩個(gè)輸出可以分別求出瞬時(shí)頻率和幅值包絡(luò),構(gòu)建語(yǔ)音非線性模型。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材60 非線性動(dòng)力學(xué)理論是解決語(yǔ)音非線性建模問(wèn)題的新理論,基本思想是依據(jù)語(yǔ)音信號(hào)的混沌特性及非線性

27、時(shí)間序列分析技術(shù),從定量的角度對(duì)語(yǔ)音的非線性動(dòng)力學(xué)特性進(jìn)行研究。 非線性時(shí)間序列分析方法大致可以分為兩步: 第一,對(duì)一維語(yǔ)音數(shù)字信號(hào)數(shù)據(jù)序列進(jìn)行空間重構(gòu),將一維時(shí)間序列映射到高維空間中。 第二,對(duì)重構(gòu)后的語(yǔ)音信號(hào)進(jìn)行特性分析。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材3、非線性動(dòng)力學(xué)模型61 Takens嵌入定理指出:選取合適的最小延遲時(shí)間 和嵌入維數(shù) 兩個(gè)參數(shù)就可以將一維情感語(yǔ)音信號(hào)映射到高維空間實(shí)現(xiàn)相空間重構(gòu),且重構(gòu)后高維空間與原始空間等價(jià)。 在高維空間里分析情感語(yǔ)音信號(hào),進(jìn)一步提取情感語(yǔ)音動(dòng)力學(xué)模型下的非線性特征。2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材62 C-C方法計(jì)算量小,對(duì)小數(shù)據(jù)組可靠且具有較強(qiáng)的抗噪聲能力,可以在計(jì)算最小延遲時(shí)間的同時(shí)得到相對(duì)應(yīng)的嵌入維數(shù),計(jì)算方法如下。(1)將時(shí)間序列 分成 個(gè)不相交的時(shí)間序列,每個(gè)子序列的長(zhǎng)度為 ,形式為 。(2)定義每個(gè)子序列 為:2.4 語(yǔ)音信號(hào)的非線性模型“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材(2.252.25)其中 為關(guān)聯(lián)積分函數(shù)。63(3)計(jì)算以下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論