數(shù)字語音處理_第二章_第1頁
數(shù)字語音處理_第二章_第2頁
數(shù)字語音處理_第二章_第3頁
數(shù)字語音處理_第二章_第4頁
數(shù)字語音處理_第二章_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)字語音處理及MATLAB仿真 張雪英編著1第二章第二章 語音信號的數(shù)字模型語音信號的數(shù)字模型 2.1 概述概述12.2 語音的發(fā)音機理語音的發(fā)音機理 2.3 語音的語音的語音聽覺機理語音聽覺機理32.4 語音的感知語音的感知42.5 語音信號模型語音信號模型5 2.6 語音信號數(shù)字模型語音信號數(shù)字模型62數(shù)字語音處理及MATLAB仿真 張雪英編著22.1 概述概述 本章重點介紹語音信號產(chǎn)生的數(shù)字模型,對語本章重點介紹語音信號產(chǎn)生的數(shù)字模型,對語音信號的特性和聽覺特性做一般介紹。音信號的特性和聽覺特性做一般介紹。 數(shù)字語音處理及MATLAB仿真 張雪英編著32.2 語音的發(fā)音機理語音的發(fā)音機理

2、2.2.1 人的發(fā)音器官人的發(fā)音器官1.組成組成 肺和氣管組成聲源;肺和氣管組成聲源; 喉和聲帶稱為聲門;喉和聲帶稱為聲門; 由咽腔、口腔、鼻腔由咽腔、口腔、鼻腔 組成聲道;組成聲道; 圖圖2.1 發(fā)音器官機理模型發(fā)音器官機理模型 數(shù)字語音處理及MATLAB仿真 張雪英編著42. 功能功能肺:產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系肺:產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系 統(tǒng)。統(tǒng)。喉:控制聲帶運動的復雜系統(tǒng)。主要包括:環(huán)狀軟喉:控制聲帶運動的復雜系統(tǒng)。主要包括:環(huán)狀軟 骨、甲狀軟骨、杓狀軟骨、聲帶。骨、甲狀軟骨、杓狀軟骨、聲帶。數(shù)字語音處理及MATLAB仿真 張雪英編著5 圖圖 2.1 喉喉的

3、的平平面面解解剖剖示示意意圖圖 前前面面 甲甲狀狀軟軟骨骨 聲聲帶帶 環(huán)環(huán)狀狀軟軟骨骨 杓杓狀狀軟軟骨骨 數(shù)字語音處理及MATLAB仿真 張雪英編著6 聲門:聲門:聲帶之間的間隙稱為聲門。聲帶之間的間隙稱為聲門。 主要功能:主要功能:產(chǎn)生激勵產(chǎn)生激勵。 聲道:聲道聲道:聲道指聲門至嘴唇的所有發(fā)音器官。指聲門至嘴唇的所有發(fā)音器官。 包括:咽喉、口腔和鼻腔。包括:咽喉、口腔和鼻腔。 主要功能:主要功能:傳輸調制聲波傳輸調制聲波。 聲道的形狀變化由舌、軟腭、唇、牙決定聲道的形狀變化由舌、軟腭、唇、牙決定。 數(shù)字語音處理及MATLAB仿真 張雪英編著7 口腔包括:上下唇、上下齒、上下齒齦、上口腔包括:

4、上下唇、上下齒、上下齒齦、上下腭、舌和小舌等部分。下腭、舌和小舌等部分。 上腭又分為:硬腭和軟腭兩部分;上腭又分為:硬腭和軟腭兩部分; 舌又分為:舌尖、舌面和舌根三部分。舌又分為:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠軟腭和小舌將其與口腔鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔開。當小舌下垂時,鼻腔和口腔便耦合起來,隔開。當小舌下垂時,鼻腔和口腔便耦合起來,當小舌上抬時,口腔與鼻腔是不相通的。口腔和當小舌上抬時,口腔與鼻腔是不相通的??谇缓捅乔欢际前l(fā)音時的共鳴器。鼻腔都是發(fā)音時的共鳴器。數(shù)字語音處理及MATLAB仿真 張雪英編著8圖圖2.3 聲道縱剖面圖聲道縱剖面圖數(shù)字語音處理及MATL

5、AB仿真 張雪英編著92.2.2 語音生成語音生成 圖圖2.1為語音生成其機理模型。空氣由肺部排為語音生成其機理模型??諝庥煞尾颗湃牒聿?,經(jīng)過聲帶進入聲道,最后由嘴輻射出聲波,入喉部,經(jīng)過聲帶進入聲道,最后由嘴輻射出聲波,這就形成了語音。在聲門(聲帶)以左,稱為這就形成了語音。在聲門(聲帶)以左,稱為“聲聲門子系統(tǒng)門子系統(tǒng)”,它負責產(chǎn)生激勵振動;右邊是,它負責產(chǎn)生激勵振動;右邊是“聲道聲道系統(tǒng)系統(tǒng)”和和“輻射系統(tǒng)輻射系統(tǒng)”。當發(fā)不同性質的語音時,。當發(fā)不同性質的語音時,激勵和聲道的情況是不同的,它們對應的模型也是激勵和聲道的情況是不同的,它們對應的模型也是不同的。不同的。數(shù)字語音處理及MATL

6、AB仿真 張雪英編著10 圖圖 2.1 發(fā)音器官機理模型發(fā)音器官機理模型 數(shù)字語音處理及MATLAB仿真 張雪英編著11 語音生成動作可分為兩種功能:語音生成動作可分為兩種功能: (1 1)激勵)激勵 (2 2)調制)調制 激勵激勵 (聲門)(聲門) 調制調制 (聲道)(聲道) 幅射語音幅射語音 (嘴唇)(嘴唇) 圖圖 語音生成模型語音生成模型 數(shù)字語音處理及MATLAB仿真 張雪英編著122.2.2 語音生成語音生成-濁音濁音 空氣流經(jīng)過聲帶時,如果聲帶是崩緊的,則空氣流經(jīng)過聲帶時,如果聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和聲帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和閉合。

7、聲帶啟開時,空氣流從聲門噴射出來,形閉合。聲帶啟開時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應于脈沖序列的間隙成一個脈沖,聲帶閉合時相應于脈沖序列的間隙期。因此,期。因此,這種情況下在聲門處產(chǎn)生出一個準周這種情況下在聲門處產(chǎn)生出一個準周期脈沖狀的空氣流。該空氣流經(jīng)過聲道后最終從期脈沖狀的空氣流。該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波,這便是濁音語音。這個準周期嘴唇輻射出聲波,這便是濁音語音。這個準周期脈沖的周期即為基音周期。脈沖的周期即為基音周期。數(shù)字語音處理及MATLAB仿真 張雪英編著13 基音頻率是由聲帶張開閉合的周期所決定的:基音頻率是由聲帶張開閉合的周期所決定的: 男性的基

8、音頻率一般為男性的基音頻率一般為50250Hz; 女性基音頻率為女性基音頻率為100500Hz。數(shù)字語音處理及MATLAB仿真 張雪英編著14數(shù)字語音處理及MATLAB仿真 張雪英編著152.2.2 語音生成語音生成-清音清音 空氣流經(jīng)過聲帶時,如果聲帶是完全舒展開空氣流經(jīng)過聲帶時,如果聲帶是完全舒展開來的,則肺部發(fā)出的空氣流將不受影響地通過聲來的,則肺部發(fā)出的空氣流將不受影響地通過聲門??諝饬魍ㄟ^聲門后,會遇到兩種不同情況。門??諝饬魍ㄟ^聲門后,會遇到兩種不同情況。一種情況是,如果聲道的某個部位發(fā)生收縮形成一種情況是,如果聲道的某個部位發(fā)生收縮形成了一個狹窄的通道,當空氣流到達此處時被迫以了

9、一個狹窄的通道,當空氣流到達此處時被迫以高速沖過收縮區(qū),并在附近產(chǎn)生出空氣湍流,這高速沖過收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過聲道后便形成所謂摩擦音或清音。種湍流空氣通過聲道后便形成所謂摩擦音或清音。數(shù)字語音處理及MATLAB仿真 張雪英編著16元音元音i:數(shù)字語音處理及MATLAB仿真 張雪英編著17原音原音u數(shù)字語音處理及MATLAB仿真 張雪英編著182.2.2 語音生成語音生成-爆破爆破音音 另一種情況是,如果聲道的某個部位完全閉另一種情況是,如果聲道的某個部位完全閉合在一起,當空氣流到達時便在此處建立起空氣合在一起,當空氣流到達時便在此處建立起空氣壓力,閉合點突然開啟便會

10、讓氣壓快速釋放,經(jīng)壓力,閉合點突然開啟便會讓氣壓快速釋放,經(jīng)過聲道后便形成所謂爆破音。過聲道后便形成所謂爆破音。數(shù)字語音處理及MATLAB仿真 張雪英編著19 共振峰頻率或共振峰共振峰頻率或共振峰 聲音產(chǎn)生后,便沿著聲道進行傳播。聲道可聲音產(chǎn)生后,便沿著聲道進行傳播。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時以看成是一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的作用。起著共鳴器的作用。聲音進入聲道后,其頻譜必聲音進入聲道后,其頻譜必定會受到聲道的共振特性的影響,聲道具有一組定會受到聲道的共振特性的影響,聲道具有一組共振頻率,稱為共振峰頻率或共振峰。共振頻率,稱為共振峰頻率或共振峰。聲道的

11、頻聲道的頻譜特性便主要地反映出這些共振峰的不同位置以譜特性便主要地反映出這些共振峰的不同位置以及各個峰的頻帶寬度。共振峰及其帶寬取決于聲及各個峰的頻帶寬度。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語音對應于一組不道的形狀和尺寸,因而不同的語音對應于一組不同的共振峰參數(shù)。同的共振峰參數(shù)。數(shù)字語音處理及MATLAB仿真 張雪英編著20數(shù)字語音處理及MATLAB仿真 張雪英編著21數(shù)字語音處理及MATLAB仿真 張雪英編著222.3 語音的聽覺機理語音的聽覺機理2.3.1 聽覺器官聽覺器官 人的聽覺器官包括:外耳、中耳和內(nèi)耳人的聽覺器官包括:外耳、中耳和內(nèi)耳圖圖2.3 2.3 人耳結構示意圖

12、人耳結構示意圖數(shù)字語音處理及MATLAB仿真 張雪英編著23 1. 1.外耳外耳 外耳由耳廓外耳由耳廓(耳翼耳翼)、外耳道和耳鼓(鼓膜)組、外耳道和耳鼓(鼓膜)組成。成。 2.2.中耳中耳 組成:包括三塊聽小骨組成:包括三塊聽小骨:錘骨,砧骨和鐙骨。錘骨,砧骨和鐙骨。 作用:阻抗匹配和限幅作用:阻抗匹配和限幅 外耳和中耳的綜合作用相當于一個介于外耳和中耳的綜合作用相當于一個介于500Hz到到6kHz之間的平滑的帶通濾波器,可以用有限沖之間的平滑的帶通濾波器,可以用有限沖激響應激響應(FIR-Finite Impulse Response)濾波器來模濾波器來模擬。擬。數(shù)字語音處理及MATLAB仿

13、真 張雪英編著24 3. 內(nèi)耳內(nèi)耳 內(nèi)耳是一個充滿液體的骨質結構,由前庭、內(nèi)耳是一個充滿液體的骨質結構,由前庭、圓形窗、卵形窗及耳蝸組成。圓形窗、卵形窗及耳蝸組成。數(shù)字語音處理及MATLAB仿真 張雪英編著252.3.2 耳蝸耳蝸的信號處理機制的信號處理機制數(shù)字語音處理及MATLAB仿真 張雪英編著26 當聲音經(jīng)外耳傳入中耳時,鐙骨的運動引起當聲音經(jīng)外耳傳入中耳時,鐙骨的運動引起耳蝸內(nèi)流體壓強的變化,從而引起行波沿基底膜耳蝸內(nèi)流體壓強的變化,從而引起行波沿基底膜的傳播。圖的傳播。圖2.62.6是流體波的簡單表示。在耳蝸的底是流體波的簡單表示。在耳蝸的底部基底膜的硬度很高,流體波傳播的很快。隨著

14、部基底膜的硬度很高,流體波傳播的很快。隨著波的傳播,膜的硬度變得越來越小,波的傳播也波的傳播,膜的硬度變得越來越小,波的傳播也逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而峰值出現(xiàn)在基底膜的不同位置上。峰值出現(xiàn)在基底膜的不同位置上。 數(shù)字語音處理及MATLAB仿真 張雪英編著27圖圖2.7 基底膜上六個不同點的頻率響應基底膜上六個不同點的頻率響應1 1 基底膜基底膜2 2 內(nèi)毛細胞內(nèi)毛細胞3 3 外毛細胞外毛細胞4 聽傳導通路聽傳導通路 數(shù)字語音處理及MATLAB仿真 張雪英編著282.3.3 語音信號聽覺模型語音信號聽覺模型 聽覺系統(tǒng)的研究主要集中在三個

15、方面:聽覺系聽覺系統(tǒng)的研究主要集中在三個方面:聽覺系統(tǒng)的實驗研究、聽覺系統(tǒng)的建模和聽覺模型的應用。統(tǒng)的實驗研究、聽覺系統(tǒng)的建模和聽覺模型的應用。聽覺系統(tǒng)的實驗研究主要是指聽覺系統(tǒng)在醫(yī)學、生聽覺系統(tǒng)的實驗研究主要是指聽覺系統(tǒng)在醫(yī)學、生理學及心理學方面的研究。由于耳蝸深植于顱骨中,理學及心理學方面的研究。由于耳蝸深植于顱骨中,尺寸極?。ㄈ缥伖艿闹睆街挥谐叽鐦O?。ㄈ缥伖艿闹睆街挥?mm),所以耳蝸的),所以耳蝸的實驗研究是一項非常艱巨和復雜的工作。實驗研究是一項非常艱巨和復雜的工作。 耳蝸建模主要集中在基底膜的振動上,然而,耳蝸建模主要集中在基底膜的振動上,然而,建立基底膜的振動模型是耳蝸建模的首要

16、任務,它建立基底膜的振動模型是耳蝸建模的首要任務,它又被稱為耳蝸的宏觀力學模型。又被稱為耳蝸的宏觀力學模型。 數(shù)字語音處理及MATLAB仿真 張雪英編著29圖2.10 語音信號聽覺模型一般原理框圖 輸入語音 外耳 中耳 帶 通 濾波器 半波 整流 低通 濾波 聽神經(jīng) 發(fā) 放 聽 覺 語譜圖 語音信號首先通過一串帶通濾波器語音信號首先通過一串帶通濾波器(BPF)陣列,陣列,其中心頻率跟隨著圖其中心頻率跟隨著圖2.7所示的基底膜頻率響應按所示的基底膜頻率響應按照對數(shù)尺度分布。每一個帶通濾波器都被獨立的照對數(shù)尺度分布。每一個帶通濾波器都被獨立的設定為有限沖激響應濾波器設定為有限沖激響應濾波器(FIR

17、)或無限沖激響應或無限沖激響應濾波器濾波器(IIR),但是頻率響應的波形并不是嚴格精,但是頻率響應的波形并不是嚴格精確的。確的。數(shù)字語音處理及MATLAB仿真 張雪英編著30 被濾波的信號在通過內(nèi)毛細胞被濾波的信號在通過內(nèi)毛細胞/突觸模型之后,突觸模型之后,到達聽傳導通路模型。雖然各種聽覺模型的帶通到達聽傳導通路模型。雖然各種聽覺模型的帶通濾波器的性能特征是基本相同的,但是在接下來濾波器的性能特征是基本相同的,但是在接下來幾級的信號處理過程卻有很大差異。事實上,不幾級的信號處理過程卻有很大差異。事實上,不同的聽覺模型都各自擁有不同的同的聽覺模型都各自擁有不同的IHC模型,突觸模型,突觸模型和聽

18、傳導通路模型。一些模型為每一個濾波模型和聽傳導通路模型。一些模型為每一個濾波后的信號都設有獨立的頻道,而另一些模型則認后的信號都設有獨立的頻道,而另一些模型則認為在基底膜上相鄰位置處濾波得到的信號之間存為在基底膜上相鄰位置處濾波得到的信號之間存在耦合性。在耦合性。數(shù)字語音處理及MATLAB仿真 張雪英編著31 根據(jù)人耳的聽覺特性得出的模型作為語音識根據(jù)人耳的聽覺特性得出的模型作為語音識別的特征提取部分,可獲得具有魯棒性的特征參別的特征提取部分,可獲得具有魯棒性的特征參數(shù),它們對真實世界中的噪音環(huán)境下的語音識別數(shù),它們對真實世界中的噪音環(huán)境下的語音識別都表現(xiàn)出很好的性能。都表現(xiàn)出很好的性能。數(shù)字

19、語音處理及MATLAB仿真 張雪英編著322.4 語音的感知語音的感知2.4.1 幾個概念幾個概念 1. 人耳聽覺界限的頻率范圍大約為人耳聽覺界限的頻率范圍大約為20Hz-20kHz。2. 語音感知的強度范圍是語音感知的強度范圍是0130dB聲壓級。聲壓級。3. 響度響度 這是頻率和強度級的函數(shù)。通常用響度這是頻率和強度級的函數(shù)。通常用響度( (單單位為宋位為宋) )和響度級和響度級( (單位為方單位為方) )來表示。此時響度級來表示。此時響度級定為零方。測量表明聽閾值是隨頻率變化的。通定為零方。測量表明聽閾值是隨頻率變化的。通常,人們把常,人們把1kHz純音聽閾值定為零方。純音聽閾值定為零方

20、。數(shù)字語音處理及MATLAB仿真 張雪英編著334 4. 人耳剛剛可以聽到的聲音強度,稱為人耳剛剛可以聽到的聲音強度,稱為“聽聽閾閾”。 加大聲音的強度,使聽起來令耳朵感到加大聲音的強度,使聽起來令耳朵感到疼痛,這個閾值稱為疼痛,這個閾值稱為“痛閾痛閾”。5.音高音高(音調音調) 音高也叫基音。音高也叫基音。 物理單位為物理單位為Hz,主觀感覺的音高單位是美,主觀感覺的音高單位是美(Mel)。當聲強級為當聲強級為40dB頻率為頻率為1kHz時,設時,設定的音高為定的音高為1000美。美。數(shù)字語音處理及MATLAB仿真 張雪英編著342.4.2 掩蔽效應掩蔽效應 掩蔽效應:掩蔽效應: 兩個響度不

21、等的聲音作用于人耳時,則響度兩個響度不等的聲音作用于人耳時,則響度較高的頻率成分的存在會影響到對響度較低的頻較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,即:率成分的感受,使其變得不易察覺,即:一個聲一個聲音的聽覺感受性受同時存在的另外一個聲音的影音的聽覺感受性受同時存在的另外一個聲音的影響,這個現(xiàn)象稱為人耳的響,這個現(xiàn)象稱為人耳的“掩蔽效應掩蔽效應”。此時前此時前者稱為被掩蔽音,后者稱為掩蔽音。在掩蔽情況者稱為被掩蔽音,后者稱為掩蔽音。在掩蔽情況下,被隱蔽音的聽閾會提高,即加大被掩蔽音的下,被隱蔽音的聽閾會提高,即加大被掩蔽音的強度才能聽到。此時聽閾稱為掩蔽聽閾。

22、強度才能聽到。此時聽閾稱為掩蔽聽閾。數(shù)字語音處理及MATLAB仿真 張雪英編著35 低頻的純音可以有效地掩蔽高頻的純音。低頻的純音可以有效地掩蔽高頻的純音。 利用人耳的掩蔽效應,在進行語音壓縮時,讓利用人耳的掩蔽效應,在進行語音壓縮時,讓量化噪音的頻譜跟隨語言信號頻譜包絡變化。則共振量化噪音的頻譜跟隨語言信號頻譜包絡變化。則共振峰的頻率成分就會掩蔽掉量化噪聲。這個技術稱為噪峰的頻率成分就會掩蔽掉量化噪聲。這個技術稱為噪聲整形或聽覺加權處理。聲整形或聽覺加權處理。 低音容易掩蔽高音,而高音掩蔽低音較難。低音容易掩蔽高音,而高音掩蔽低音較難。 基于此,可以將真實的聲音頻率映射到基于此,可以將真實的

23、聲音頻率映射到“感知感知”頻率尺度,即頻率尺度,即Bark尺度對應的臨界帶寬。尺度對應的臨界帶寬。數(shù)字語音處理及MATLAB仿真 張雪英編著36 2.4.3 臨界帶寬與頻率群臨界帶寬與頻率群 用一中心頻率為用一中心頻率為f,帶寬為,帶寬為f的白噪聲來掩蔽的白噪聲來掩蔽一頻率為一頻率為f的純音,先將這個白噪聲的強度調節(jié)到的純音,先將這個白噪聲的強度調節(jié)到使被掩蔽純音恰好聽不見為止。然后將使被掩蔽純音恰好聽不見為止。然后將f由大到小由大到小逐漸變化,而保持單位頻率的噪聲強度(即噪聲譜逐漸變化,而保持單位頻率的噪聲強度(即噪聲譜密度)不變,起初這個純音一直是聽不見的,但當密度)不變,起初這個純音一直

24、是聽不見的,但當f小到某個臨界值時,這個純音就突然可以聽見了。小到某個臨界值時,這個純音就突然可以聽見了。如果再進一步減小如果再進一步減小f,被掩蔽音,被掩蔽音f就會越來越清晰。就會越來越清晰。這里剛剛開始能聽到被掩蔽聲時的這里剛剛開始能聽到被掩蔽聲時的f寬的頻帶,叫寬的頻帶,叫做頻率做頻率f處的臨界帶。處的臨界帶。數(shù)字語音處理及MATLAB仿真 張雪英編著37 當掩蔽噪聲的帶寬窄于臨界帶的帶寬時,能當掩蔽噪聲的帶寬窄于臨界帶的帶寬時,能掩蔽住純音掩蔽住純音f的強度是隨噪聲的帶寬的增加而增加的強度是隨噪聲的帶寬的增加而增加的,但當掩蔽噪聲的帶寬達到臨界帶后,繼續(xù)增的,但當掩蔽噪聲的帶寬達到臨界

25、帶后,繼續(xù)增加噪聲帶寬就不再引起掩蔽量的提高了。臨界帶加噪聲帶寬就不再引起掩蔽量的提高了。臨界帶寬是隨中心頻率而變的,被掩蔽純音的頻率(即寬是隨中心頻率而變的,被掩蔽純音的頻率(即臨界帶的中心頻率)越高,臨界帶寬也越寬。臨界帶的中心頻率)越高,臨界帶寬也越寬。 臨界頻帶也可定義為:一個給定的正弦純音臨界頻帶也可定義為:一個給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應的那一部分。一個在基底膜上能夠產(chǎn)生諧振反應的那一部分。一個頻率群的劃分相應于基底膜分成許多很小的部分,頻率群的劃分相應于基底膜分成許多很小的部分,每一部分對應一個頻率群。每一部分對應一個頻率群。 一個臨界帶的單位用巴克(一個臨界帶的單位

26、用巴克(Bark)表示。)表示。 數(shù)字語音處理及MATLAB仿真 張雪英編著382.5 語音信號模型語音信號模型有三部分作用施加在語音的聲波上:有三部分作用施加在語音的聲波上:聲門產(chǎn)生的激勵模型聲門產(chǎn)生的激勵模型G(z);聲道產(chǎn)生的調制函數(shù)聲道產(chǎn)生的調制函數(shù)V(z);嘴唇產(chǎn)生的輻射函數(shù)嘴唇產(chǎn)生的輻射函數(shù)R(z)。語音信號的傳遞函數(shù)由這三個函數(shù)級聯(lián)而成,語音信號的傳遞函數(shù)由這三個函數(shù)級聯(lián)而成,即:即:H(z)=G(z)V(z)R(z)數(shù)字語音處理及MATLAB仿真 張雪英編著392.5.1 激勵模型激勵模型 發(fā)濁音時,產(chǎn)生的脈沖類似于斜三角形的脈沖。發(fā)濁音時,產(chǎn)生的脈沖類似于斜三角形的脈沖。激勵

27、波是一個以基音周期為周期的斜三角脈沖串。激勵波是一個以基音周期為周期的斜三角脈沖串。 圖圖2.9 三角波及其頻譜圖三角波及其頻譜圖數(shù)字語音處理及MATLAB仿真 張雪英編著40 1 0nN 單個三角波的數(shù)學表達式為單個三角波的數(shù)學表達式為 0 2cos cos121)(211其它NNnNnng112NnNN其中:其中:N1為斜三角波的上升時間為斜三角波的上升時間 N2為其下降時間為其下降時間 數(shù)字語音處理及MATLAB仿真 張雪英編著41 單個斜三角波的頻譜單個斜三角波的頻譜G(ej)表現(xiàn)出一個低通濾波表現(xiàn)出一個低通濾波器的特性。其器的特性。其z變換的全極點形式為:變換的全極點形式為:21e1

28、1)(ZzGcT 作為激勵的斜三角波串可以用一串加了權的單作為激勵的斜三角波串可以用一串加了權的單位脈沖序列去激勵單位斜三角波模型實現(xiàn)。這個單位脈沖序列去激勵單位斜三角波模型實現(xiàn)。這個單位脈沖串和幅值因子可以表示成下面的位脈沖串和幅值因子可以表示成下面的z變換形式變換形式11)(zAzEv數(shù)字語音處理及MATLAB仿真 張雪英編著42 濁音激勵模型可表示為濁音激勵模型可表示為 清音可以模擬成隨機白噪聲。清音可以模擬成隨機白噪聲。211111)()()(zeZAzGzEzUcTv數(shù)字語音處理及MATLAB仿真 張雪英編著432.5.2 聲道模型聲道模型- -(1 1)共振峰模型)共振峰模型 典型

29、的聲道模型有兩種:無損聲管模型和共典型的聲道模型有兩種:無損聲管模型和共振峰模型。振峰模型。 (1 1)共振峰模型)共振峰模型 當聲波通過聲道時,受到聲腔共振的影響,當聲波通過聲道時,受到聲腔共振的影響,在某些頻率附近形成諧振。反映在信號頻譜圖上,在某些頻率附近形成諧振。反映在信號頻譜圖上,在諧振頻率處其譜線包絡產(chǎn)生峰值,一般把它叫在諧振頻率處其譜線包絡產(chǎn)生峰值,一般把它叫作共振峰作共振峰。數(shù)字語音處理及MATLAB仿真 張雪英編著44數(shù)字語音處理及MATLAB仿真 張雪英編著45 實踐表明,用前三個共振峰代表一個元音足夠實踐表明,用前三個共振峰代表一個元音足夠了。多個了。多個Vi疊加可以得到

30、聲道的共振峰模型:疊加可以得到聲道的共振峰模型: 211zczBAzViiii MiNkkkiiiMiizaAZCZBAzVzV1121111一個二階諧振器的傳輸函數(shù)可以寫成一個二階諧振器的傳輸函數(shù)可以寫成數(shù)字語音處理及MATLAB仿真 張雪英編著46 無損聲管模型:是假定聲道由多個等長的不無損聲管模型:是假定聲道由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中的流體及管壁沒有熱傳導和粘滯的損耗。在短時的流體及管壁沒有熱傳導和粘滯的損耗。在短時間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認為間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認為聲波是沿管軸傳播的

31、平面波。聲波是沿管軸傳播的平面波。 2.5.2 聲道模型聲道模型- -(2)無損聲管模型無損聲管模型數(shù)字語音處理及MATLAB仿真 張雪英編著47 聲門 口唇 圖 2.14 用聲管模擬聲道 對于對于N個無損聲管級聯(lián)的情況,可得到無損聲個無損聲管級聯(lián)的情況,可得到無損聲管的傳遞函數(shù)為:管的傳遞函數(shù)為: NmmmzGzV11數(shù)字語音處理及MATLAB仿真 張雪英編著48 從聲道模型輸出的是速度波從聲道模型輸出的是速度波ul (n),而語音信號,而語音信號是聲壓波是聲壓波Pl(n)。二者倒比稱為輻射阻抗。二者倒比稱為輻射阻抗Zl,它表征它表征口唇的輻射效應。如果認為口唇張開的面積遠遠小口唇的輻射效應

32、。如果認為口唇張開的面積遠遠小于頭部的表面積,利用單板開槽輻射的處理方法,于頭部的表面積,利用單板開槽輻射的處理方法,可以得到輻射阻抗,可以得到輻射阻抗,r近似為近似為1 )1 ()(10rzRzR2.5.2 聲道模型聲道模型- -(3)輻射)輻射模型模型數(shù)字語音處理及MATLAB仿真 張雪英編著49 由輻射引起的能量損耗正比于輻射阻抗的實由輻射引起的能量損耗正比于輻射阻抗的實部部R(z),其頻響曲線表現(xiàn)出一階高通濾波器的特,其頻響曲線表現(xiàn)出一階高通濾波器的特性。在實際信號分析時,常用所謂預加重技術。性。在實際信號分析時,常用所謂預加重技術。這樣,模型只剩下聲道部分,對參數(shù)分析就方便這樣,模型

33、只剩下聲道部分,對參數(shù)分析就方便了。在語音合成時再進行解加重處理。了。在語音合成時再進行解加重處理。數(shù)字語音處理及MATLAB仿真 張雪英編著502.6 語音信號數(shù)字模型語音信號數(shù)字模型2.6.1 數(shù)字模型數(shù)字模型 (1)組成:)組成: 包括三部分:激勵模型、聲道模型和輻射模型。包括三部分:激勵模型、聲道模型和輻射模型。 激勵源分濁音和清音兩個分支,按照濁音激勵源分濁音和清音兩個分支,按照濁音/清音清音開關所處的位置來決定產(chǎn)生的語音是濁音還是清開關所處的位置來決定產(chǎn)生的語音是濁音還是清音。音。 數(shù)字語音處理及MATLAB仿真 張雪英編著51 T 沖激序列 發(fā)生器 聲門波 模型 隨機噪聲 發(fā)聲器

34、 聲道 模型 V(z) 輻射 模型 R(z) 振幅 Au 聲道參數(shù) a1ap 清/濁 音判斷 圖 2.12 二元激勵的語音生成模型 振幅 Av 數(shù)字語音處理及MATLAB仿真 張雪英編著52 (2)在濁音的情況下,激勵信號由一個周期脈沖)在濁音的情況下,激勵信號由一個周期脈沖發(fā)生器產(chǎn)生。所產(chǎn)生的序列是一個周期為發(fā)生器產(chǎn)生。所產(chǎn)生的序列是一個周期為T的沖的沖激序列激序列,T的倒數(shù)即為基音頻率。為了使?jié)嵋舻募さ牡箶?shù)即為基音頻率。為了使?jié)嵋舻募钚盘柧哂新曢T氣流脈沖的實際波形,還需要使勵信號具有聲門氣流脈沖的實際波形,還需要使上述的沖激序列通過一個聲門脈沖模型濾波器。上述的沖激序列通過一個聲門脈沖模

35、型濾波器。數(shù)字語音處理及MATLAB仿真 張雪英編著53(3)在清音的情況下,激勵信號由一個隨機噪聲發(fā))在清音的情況下,激勵信號由一個隨機噪聲發(fā)生器產(chǎn)生。設其均值為生器產(chǎn)生。設其均值為0,方差為常數(shù),幅度具有,方差為常數(shù),幅度具有高斯概率分布。乘系數(shù)的作用是調節(jié)清音信號的高斯概率分布。乘系數(shù)的作用是調節(jié)清音信號的幅度。幅度。(4) 圖圖2.16中畫出了一段濁音語音產(chǎn)生過程中的有中畫出了一段濁音語音產(chǎn)生過程中的有關波形。關波形。數(shù)字語音處理及MATLAB仿真 張雪英編著54 e(t) s(t) T E(w) V(w) S(w) 2/T 圖 2.16 準周期脈沖序列激勵聲道產(chǎn)生濁音 v(t) 數(shù)字

36、語音處理及MATLAB仿真 張雪英編著55(5)聲道模型)聲道模型V(Z)給出了離散時域的聲道傳輸函給出了離散時域的聲道傳輸函數(shù),把實際聲道作為一個變截面聲管加以研究,數(shù),把實際聲道作為一個變截面聲管加以研究,采用流體力學的方法可以導出,在大多數(shù)情況下采用流體力學的方法可以導出,在大多數(shù)情況下它是一個全極點函數(shù)。它是一個全極點函數(shù)。V(Z)可以表示為:可以表示為:iPiiiaaZaZV , 1 , 100數(shù)字語音處理及MATLAB仿真 張雪英編著56 把截面積連續(xù)變化的聲管近似為把截面積連續(xù)變化的聲管近似為P段短聲管的段短聲管的串聯(lián),每段短聲管的截面積是不變的。串聯(lián),每段短聲管的截面積是不變的

37、。P稱為這個稱為這個全極點濾波器的階。全極點濾波器的階。P值越大,模型的傳輸函數(shù)與值越大,模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度越高。聲道實際傳輸函數(shù)的吻合程度越高。 輻射模型輻射模型R(Z)與嘴型有關,通常與嘴型有關,通常R(Z)可以表可以表示為示為 1 , 11rrZZR數(shù)字語音處理及MATLAB仿真 張雪英編著57 在這個模型中,除了在這個模型中,除了G(Z)和和R(Z)保持不變以保持不變以外,外,T、Av、Au、清、清/濁音開關的位置以及聲道模濁音開關的位置以及聲道模型中參數(shù)型中參數(shù)a1ap都是隨時間而變化的,都是隨時間而變化的,由于發(fā)音由于發(fā)音器官的慣性使這些參數(shù)的變化速度受到限制。對器官的慣性使這些參數(shù)的變化速度受到限制。對于聲道參數(shù),在于聲道參數(shù),在1030ms的時間間隔內(nèi)可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論