版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著1第二章第二章 語(yǔ)音信號(hào)的數(shù)字模型語(yǔ)音信號(hào)的數(shù)字模型 2.1 概述概述12.2 語(yǔ)音的發(fā)音機(jī)理語(yǔ)音的發(fā)音機(jī)理 2.3 語(yǔ)音的語(yǔ)音的語(yǔ)音聽覺(jué)機(jī)理語(yǔ)音聽覺(jué)機(jī)理32.4 語(yǔ)音的感知語(yǔ)音的感知42.5 語(yǔ)音信號(hào)模型語(yǔ)音信號(hào)模型5 2.6 語(yǔ)音信號(hào)數(shù)字模型語(yǔ)音信號(hào)數(shù)字模型62數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著22.1 概述概述 本章重點(diǎn)介紹語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型,對(duì)語(yǔ)本章重點(diǎn)介紹語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型,對(duì)語(yǔ)音信號(hào)的特性和聽覺(jué)特性做一般介紹。音信號(hào)的特性和聽覺(jué)特性做一般介紹。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著32.2 語(yǔ)音的發(fā)音機(jī)理語(yǔ)音的發(fā)音機(jī)理
2、2.2.1 人的發(fā)音器官人的發(fā)音器官1.組成組成 肺和氣管組成聲源;肺和氣管組成聲源; 喉和聲帶稱為聲門;喉和聲帶稱為聲門; 由咽腔、口腔、鼻腔由咽腔、口腔、鼻腔 組成聲道;組成聲道; 圖圖2.1 發(fā)音器官機(jī)理模型發(fā)音器官機(jī)理模型 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著42. 功能功能肺:產(chǎn)生壓縮氣體,通過(guò)氣管傳送到聲音生成系肺:產(chǎn)生壓縮氣體,通過(guò)氣管傳送到聲音生成系 統(tǒng)。統(tǒng)。喉:控制聲帶運(yùn)動(dòng)的復(fù)雜系統(tǒng)。主要包括:環(huán)狀軟喉:控制聲帶運(yùn)動(dòng)的復(fù)雜系統(tǒng)。主要包括:環(huán)狀軟 骨、甲狀軟骨、杓狀軟骨、聲帶。骨、甲狀軟骨、杓狀軟骨、聲帶。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著5 圖圖 2.1 喉喉的
3、的平平面面解解剖剖示示意意圖圖 前前面面 甲甲狀狀軟軟骨骨 聲聲帶帶 環(huán)環(huán)狀狀軟軟骨骨 杓杓狀狀軟軟骨骨 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著6 聲門:聲門:聲帶之間的間隙稱為聲門。聲帶之間的間隙稱為聲門。 主要功能:主要功能:產(chǎn)生激勵(lì)產(chǎn)生激勵(lì)。 聲道:聲道聲道:聲道指聲門至嘴唇的所有發(fā)音器官。指聲門至嘴唇的所有發(fā)音器官。 包括:咽喉、口腔和鼻腔。包括:咽喉、口腔和鼻腔。 主要功能:主要功能:傳輸調(diào)制聲波傳輸調(diào)制聲波。 聲道的形狀變化由舌、軟腭、唇、牙決定聲道的形狀變化由舌、軟腭、唇、牙決定。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著7 口腔包括:上下唇、上下齒、上下齒齦、上口腔包括:
4、上下唇、上下齒、上下齒齦、上下腭、舌和小舌等部分。下腭、舌和小舌等部分。 上腭又分為:硬腭和軟腭兩部分;上腭又分為:硬腭和軟腭兩部分; 舌又分為:舌尖、舌面和舌根三部分。舌又分為:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠軟腭和小舌將其與口腔鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔開。當(dāng)小舌下垂時(shí),鼻腔和口腔便耦合起來(lái),隔開。當(dāng)小舌下垂時(shí),鼻腔和口腔便耦合起來(lái),當(dāng)小舌上抬時(shí),口腔與鼻腔是不相通的??谇缓彤?dāng)小舌上抬時(shí),口腔與鼻腔是不相通的。口腔和鼻腔都是發(fā)音時(shí)的共鳴器。鼻腔都是發(fā)音時(shí)的共鳴器。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著8圖圖2.3 聲道縱剖面圖聲道縱剖面圖數(shù)字語(yǔ)音處理及MATL
5、AB仿真 張雪英編著92.2.2 語(yǔ)音生成語(yǔ)音生成 圖圖2.1為語(yǔ)音生成其機(jī)理模型。空氣由肺部排為語(yǔ)音生成其機(jī)理模型??諝庥煞尾颗湃牒聿浚?jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,入喉部,經(jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語(yǔ)音。在聲門(聲帶)以左,稱為這就形成了語(yǔ)音。在聲門(聲帶)以左,稱為“聲聲門子系統(tǒng)門子系統(tǒng)”,它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng);右邊是,它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng);右邊是“聲道聲道系統(tǒng)系統(tǒng)”和和“輻射系統(tǒng)輻射系統(tǒng)”。當(dāng)發(fā)不同性質(zhì)的語(yǔ)音時(shí),。當(dāng)發(fā)不同性質(zhì)的語(yǔ)音時(shí),激勵(lì)和聲道的情況是不同的,它們對(duì)應(yīng)的模型也是激勵(lì)和聲道的情況是不同的,它們對(duì)應(yīng)的模型也是不同的。不同的。數(shù)字語(yǔ)音處理及MATL
6、AB仿真 張雪英編著10 圖圖 2.1 發(fā)音器官機(jī)理模型發(fā)音器官機(jī)理模型 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著11 語(yǔ)音生成動(dòng)作可分為兩種功能:語(yǔ)音生成動(dòng)作可分為兩種功能: (1 1)激勵(lì))激勵(lì) (2 2)調(diào)制)調(diào)制 激勵(lì)激勵(lì) (聲門)(聲門) 調(diào)制調(diào)制 (聲道)(聲道) 幅射語(yǔ)音幅射語(yǔ)音 (嘴唇)(嘴唇) 圖圖 語(yǔ)音生成模型語(yǔ)音生成模型 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著122.2.2 語(yǔ)音生成語(yǔ)音生成-濁音濁音 空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是崩緊的,則空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動(dòng),即聲帶將周期性地啟開和聲帶將產(chǎn)生張弛振動(dòng),即聲帶將周期性地啟開和閉合。
7、聲帶啟開時(shí),空氣流從聲門噴射出來(lái),形閉合。聲帶啟開時(shí),空氣流從聲門噴射出來(lái),形成一個(gè)脈沖,聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙成一個(gè)脈沖,聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙期。因此,期。因此,這種情況下在聲門處產(chǎn)生出一個(gè)準(zhǔn)周這種情況下在聲門處產(chǎn)生出一個(gè)準(zhǔn)周期脈沖狀的空氣流。該空氣流經(jīng)過(guò)聲道后最終從期脈沖狀的空氣流。該空氣流經(jīng)過(guò)聲道后最終從嘴唇輻射出聲波,這便是濁音語(yǔ)音。這個(gè)準(zhǔn)周期嘴唇輻射出聲波,這便是濁音語(yǔ)音。這個(gè)準(zhǔn)周期脈沖的周期即為基音周期。脈沖的周期即為基音周期。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著13 基音頻率是由聲帶張開閉合的周期所決定的:基音頻率是由聲帶張開閉合的周期所決定的: 男性的基
8、音頻率一般為男性的基音頻率一般為50250Hz; 女性基音頻率為女性基音頻率為100500Hz。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著14數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著152.2.2 語(yǔ)音生成語(yǔ)音生成-清音清音 空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是完全舒展開空氣流經(jīng)過(guò)聲帶時(shí),如果聲帶是完全舒展開來(lái)的,則肺部發(fā)出的空氣流將不受影響地通過(guò)聲來(lái)的,則肺部發(fā)出的空氣流將不受影響地通過(guò)聲門。空氣流通過(guò)聲門后,會(huì)遇到兩種不同情況。門。空氣流通過(guò)聲門后,會(huì)遇到兩種不同情況。一種情況是,如果聲道的某個(gè)部位發(fā)生收縮形成一種情況是,如果聲道的某個(gè)部位發(fā)生收縮形成了一個(gè)狹窄的通道,當(dāng)空氣流到達(dá)此處時(shí)被迫以了
9、一個(gè)狹窄的通道,當(dāng)空氣流到達(dá)此處時(shí)被迫以高速?zèng)_過(guò)收縮區(qū),并在附近產(chǎn)生出空氣湍流,這高速?zèng)_過(guò)收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過(guò)聲道后便形成所謂摩擦音或清音。種湍流空氣通過(guò)聲道后便形成所謂摩擦音或清音。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著16元音元音i:數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著17原音原音u數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著182.2.2 語(yǔ)音生成語(yǔ)音生成-爆破爆破音音 另一種情況是,如果聲道的某個(gè)部位完全閉另一種情況是,如果聲道的某個(gè)部位完全閉合在一起,當(dāng)空氣流到達(dá)時(shí)便在此處建立起空氣合在一起,當(dāng)空氣流到達(dá)時(shí)便在此處建立起空氣壓力,閉合點(diǎn)突然開啟便會(huì)
10、讓氣壓快速釋放,經(jīng)壓力,閉合點(diǎn)突然開啟便會(huì)讓氣壓快速釋放,經(jīng)過(guò)聲道后便形成所謂爆破音。過(guò)聲道后便形成所謂爆破音。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著19 共振峰頻率或共振峰共振峰頻率或共振峰 聲音產(chǎn)生后,便沿著聲道進(jìn)行傳播。聲道可聲音產(chǎn)生后,便沿著聲道進(jìn)行傳播。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時(shí)以看成是一根具有非均勻截面的聲管,在發(fā)音時(shí)起著共鳴器的作用。起著共鳴器的作用。聲音進(jìn)入聲道后,其頻譜必聲音進(jìn)入聲道后,其頻譜必定會(huì)受到聲道的共振特性的影響,聲道具有一組定會(huì)受到聲道的共振特性的影響,聲道具有一組共振頻率,稱為共振峰頻率或共振峰。共振頻率,稱為共振峰頻率或共振峰。聲道的
11、頻聲道的頻譜特性便主要地反映出這些共振峰的不同位置以譜特性便主要地反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不道的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。同的共振峰參數(shù)。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著20數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著21數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著222.3 語(yǔ)音的聽覺(jué)機(jī)理語(yǔ)音的聽覺(jué)機(jī)理2.3.1 聽覺(jué)器官聽覺(jué)器官 人的聽覺(jué)器官包括:外耳、中耳和內(nèi)耳人的聽覺(jué)器官包括:外耳、中耳和內(nèi)耳圖圖2.3 2.3 人耳結(jié)構(gòu)示意圖
12、人耳結(jié)構(gòu)示意圖數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著23 1. 1.外耳外耳 外耳由耳廓外耳由耳廓(耳翼耳翼)、外耳道和耳鼓(鼓膜)組、外耳道和耳鼓(鼓膜)組成。成。 2.2.中耳中耳 組成:包括三塊聽小骨組成:包括三塊聽小骨:錘骨,砧骨和鐙骨。錘骨,砧骨和鐙骨。 作用:阻抗匹配和限幅作用:阻抗匹配和限幅 外耳和中耳的綜合作用相當(dāng)于一個(gè)介于外耳和中耳的綜合作用相當(dāng)于一個(gè)介于500Hz到到6kHz之間的平滑的帶通濾波器,可以用有限沖之間的平滑的帶通濾波器,可以用有限沖激響應(yīng)激響應(yīng)(FIR-Finite Impulse Response)濾波器來(lái)模濾波器來(lái)模擬。擬。數(shù)字語(yǔ)音處理及MATLAB仿
13、真 張雪英編著24 3. 內(nèi)耳內(nèi)耳 內(nèi)耳是一個(gè)充滿液體的骨質(zhì)結(jié)構(gòu),由前庭、內(nèi)耳是一個(gè)充滿液體的骨質(zhì)結(jié)構(gòu),由前庭、圓形窗、卵形窗及耳蝸組成。圓形窗、卵形窗及耳蝸組成。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著252.3.2 耳蝸耳蝸的信號(hào)處理機(jī)制的信號(hào)處理機(jī)制數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著26 當(dāng)聲音經(jīng)外耳傳入中耳時(shí),鐙骨的運(yùn)動(dòng)引起當(dāng)聲音經(jīng)外耳傳入中耳時(shí),鐙骨的運(yùn)動(dòng)引起耳蝸內(nèi)流體壓強(qiáng)的變化,從而引起行波沿基底膜耳蝸內(nèi)流體壓強(qiáng)的變化,從而引起行波沿基底膜的傳播。圖的傳播。圖2.62.6是流體波的簡(jiǎn)單表示。在耳蝸的底是流體波的簡(jiǎn)單表示。在耳蝸的底部基底膜的硬度很高,流體波傳播的很快。隨著
14、部基底膜的硬度很高,流體波傳播的很快。隨著波的傳播,膜的硬度變得越來(lái)越小,波的傳播也波的傳播,膜的硬度變得越來(lái)越小,波的傳播也逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而峰值出現(xiàn)在基底膜的不同位置上。峰值出現(xiàn)在基底膜的不同位置上。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著27圖圖2.7 基底膜上六個(gè)不同點(diǎn)的頻率響應(yīng)基底膜上六個(gè)不同點(diǎn)的頻率響應(yīng)1 1 基底膜基底膜2 2 內(nèi)毛細(xì)胞內(nèi)毛細(xì)胞3 3 外毛細(xì)胞外毛細(xì)胞4 聽傳導(dǎo)通路聽傳導(dǎo)通路 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著282.3.3 語(yǔ)音信號(hào)聽覺(jué)模型語(yǔ)音信號(hào)聽覺(jué)模型 聽覺(jué)系統(tǒng)的研究主要集中在三個(gè)
15、方面:聽覺(jué)系聽覺(jué)系統(tǒng)的研究主要集中在三個(gè)方面:聽覺(jué)系統(tǒng)的實(shí)驗(yàn)研究、聽覺(jué)系統(tǒng)的建模和聽覺(jué)模型的應(yīng)用。統(tǒng)的實(shí)驗(yàn)研究、聽覺(jué)系統(tǒng)的建模和聽覺(jué)模型的應(yīng)用。聽覺(jué)系統(tǒng)的實(shí)驗(yàn)研究主要是指聽覺(jué)系統(tǒng)在醫(yī)學(xué)、生聽覺(jué)系統(tǒng)的實(shí)驗(yàn)研究主要是指聽覺(jué)系統(tǒng)在醫(yī)學(xué)、生理學(xué)及心理學(xué)方面的研究。由于耳蝸深植于顱骨中,理學(xué)及心理學(xué)方面的研究。由于耳蝸深植于顱骨中,尺寸極?。ㄈ缥伖艿闹睆街挥谐叽鐦O?。ㄈ缥伖艿闹睆街挥?mm),所以耳蝸的),所以耳蝸的實(shí)驗(yàn)研究是一項(xiàng)非常艱巨和復(fù)雜的工作。實(shí)驗(yàn)研究是一項(xiàng)非常艱巨和復(fù)雜的工作。 耳蝸建模主要集中在基底膜的振動(dòng)上,然而,耳蝸建模主要集中在基底膜的振動(dòng)上,然而,建立基底膜的振動(dòng)模型是耳蝸建模的首要
16、任務(wù),它建立基底膜的振動(dòng)模型是耳蝸建模的首要任務(wù),它又被稱為耳蝸的宏觀力學(xué)模型。又被稱為耳蝸的宏觀力學(xué)模型。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著29圖2.10 語(yǔ)音信號(hào)聽覺(jué)模型一般原理框圖 輸入語(yǔ)音 外耳 中耳 帶 通 濾波器 半波 整流 低通 濾波 聽神經(jīng) 發(fā) 放 聽 覺(jué) 語(yǔ)譜圖 語(yǔ)音信號(hào)首先通過(guò)一串帶通濾波器語(yǔ)音信號(hào)首先通過(guò)一串帶通濾波器(BPF)陣列,陣列,其中心頻率跟隨著圖其中心頻率跟隨著圖2.7所示的基底膜頻率響應(yīng)按所示的基底膜頻率響應(yīng)按照對(duì)數(shù)尺度分布。每一個(gè)帶通濾波器都被獨(dú)立的照對(duì)數(shù)尺度分布。每一個(gè)帶通濾波器都被獨(dú)立的設(shè)定為有限沖激響應(yīng)濾波器設(shè)定為有限沖激響應(yīng)濾波器(FIR
17、)或無(wú)限沖激響應(yīng)或無(wú)限沖激響應(yīng)濾波器濾波器(IIR),但是頻率響應(yīng)的波形并不是嚴(yán)格精,但是頻率響應(yīng)的波形并不是嚴(yán)格精確的。確的。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著30 被濾波的信號(hào)在通過(guò)內(nèi)毛細(xì)胞被濾波的信號(hào)在通過(guò)內(nèi)毛細(xì)胞/突觸模型之后,突觸模型之后,到達(dá)聽傳導(dǎo)通路模型。雖然各種聽覺(jué)模型的帶通到達(dá)聽傳導(dǎo)通路模型。雖然各種聽覺(jué)模型的帶通濾波器的性能特征是基本相同的,但是在接下來(lái)濾波器的性能特征是基本相同的,但是在接下來(lái)幾級(jí)的信號(hào)處理過(guò)程卻有很大差異。事實(shí)上,不幾級(jí)的信號(hào)處理過(guò)程卻有很大差異。事實(shí)上,不同的聽覺(jué)模型都各自擁有不同的同的聽覺(jué)模型都各自擁有不同的IHC模型,突觸模型,突觸模型和聽
18、傳導(dǎo)通路模型。一些模型為每一個(gè)濾波模型和聽傳導(dǎo)通路模型。一些模型為每一個(gè)濾波后的信號(hào)都設(shè)有獨(dú)立的頻道,而另一些模型則認(rèn)后的信號(hào)都設(shè)有獨(dú)立的頻道,而另一些模型則認(rèn)為在基底膜上相鄰位置處濾波得到的信號(hào)之間存為在基底膜上相鄰位置處濾波得到的信號(hào)之間存在耦合性。在耦合性。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著31 根據(jù)人耳的聽覺(jué)特性得出的模型作為語(yǔ)音識(shí)根據(jù)人耳的聽覺(jué)特性得出的模型作為語(yǔ)音識(shí)別的特征提取部分,可獲得具有魯棒性的特征參別的特征提取部分,可獲得具有魯棒性的特征參數(shù),它們對(duì)真實(shí)世界中的噪音環(huán)境下的語(yǔ)音識(shí)別數(shù),它們對(duì)真實(shí)世界中的噪音環(huán)境下的語(yǔ)音識(shí)別都表現(xiàn)出很好的性能。都表現(xiàn)出很好的性能。數(shù)字
19、語(yǔ)音處理及MATLAB仿真 張雪英編著322.4 語(yǔ)音的感知語(yǔ)音的感知2.4.1 幾個(gè)概念幾個(gè)概念 1. 人耳聽覺(jué)界限的頻率范圍大約為人耳聽覺(jué)界限的頻率范圍大約為20Hz-20kHz。2. 語(yǔ)音感知的強(qiáng)度范圍是語(yǔ)音感知的強(qiáng)度范圍是0130dB聲壓級(jí)。聲壓級(jí)。3. 響度響度 這是頻率和強(qiáng)度級(jí)的函數(shù)。通常用響度這是頻率和強(qiáng)度級(jí)的函數(shù)。通常用響度( (單單位為宋位為宋) )和響度級(jí)和響度級(jí)( (單位為方單位為方) )來(lái)表示。此時(shí)響度級(jí)來(lái)表示。此時(shí)響度級(jí)定為零方。測(cè)量表明聽閾值是隨頻率變化的。通定為零方。測(cè)量表明聽閾值是隨頻率變化的。通常,人們把常,人們把1kHz純音聽閾值定為零方。純音聽閾值定為零方
20、。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著334 4. 人耳剛剛可以聽到的聲音強(qiáng)度,稱為人耳剛剛可以聽到的聲音強(qiáng)度,稱為“聽聽閾閾”。 加大聲音的強(qiáng)度,使聽起來(lái)令耳朵感到加大聲音的強(qiáng)度,使聽起來(lái)令耳朵感到疼痛,這個(gè)閾值稱為疼痛,這個(gè)閾值稱為“痛閾痛閾”。5.音高音高(音調(diào)音調(diào)) 音高也叫基音。音高也叫基音。 物理單位為物理單位為Hz,主觀感覺(jué)的音高單位是美,主觀感覺(jué)的音高單位是美(Mel)。當(dāng)聲強(qiáng)級(jí)為當(dāng)聲強(qiáng)級(jí)為40dB頻率為頻率為1kHz時(shí),設(shè)時(shí),設(shè)定的音高為定的音高為1000美。美。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著342.4.2 掩蔽效應(yīng)掩蔽效應(yīng) 掩蔽效應(yīng):掩蔽效應(yīng): 兩個(gè)響度不
21、等的聲音作用于人耳時(shí),則響度兩個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感受,使其變得不易察覺(jué),即:率成分的感受,使其變得不易察覺(jué),即:一個(gè)聲一個(gè)聲音的聽覺(jué)感受性受同時(shí)存在的另外一個(gè)聲音的影音的聽覺(jué)感受性受同時(shí)存在的另外一個(gè)聲音的影響,這個(gè)現(xiàn)象稱為人耳的響,這個(gè)現(xiàn)象稱為人耳的“掩蔽效應(yīng)掩蔽效應(yīng)”。此時(shí)前此時(shí)前者稱為被掩蔽音,后者稱為掩蔽音。在掩蔽情況者稱為被掩蔽音,后者稱為掩蔽音。在掩蔽情況下,被隱蔽音的聽閾會(huì)提高,即加大被掩蔽音的下,被隱蔽音的聽閾會(huì)提高,即加大被掩蔽音的強(qiáng)度才能聽到。此時(shí)聽閾稱為掩蔽聽閾。
22、強(qiáng)度才能聽到。此時(shí)聽閾稱為掩蔽聽閾。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著35 低頻的純音可以有效地掩蔽高頻的純音。低頻的純音可以有效地掩蔽高頻的純音。 利用人耳的掩蔽效應(yīng),在進(jìn)行語(yǔ)音壓縮時(shí),讓利用人耳的掩蔽效應(yīng),在進(jìn)行語(yǔ)音壓縮時(shí),讓量化噪音的頻譜跟隨語(yǔ)言信號(hào)頻譜包絡(luò)變化。則共振量化噪音的頻譜跟隨語(yǔ)言信號(hào)頻譜包絡(luò)變化。則共振峰的頻率成分就會(huì)掩蔽掉量化噪聲。這個(gè)技術(shù)稱為噪峰的頻率成分就會(huì)掩蔽掉量化噪聲。這個(gè)技術(shù)稱為噪聲整形或聽覺(jué)加權(quán)處理。聲整形或聽覺(jué)加權(quán)處理。 低音容易掩蔽高音,而高音掩蔽低音較難。低音容易掩蔽高音,而高音掩蔽低音較難。 基于此,可以將真實(shí)的聲音頻率映射到基于此,可以將真實(shí)的
23、聲音頻率映射到“感知感知”頻率尺度,即頻率尺度,即Bark尺度對(duì)應(yīng)的臨界帶寬。尺度對(duì)應(yīng)的臨界帶寬。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著36 2.4.3 臨界帶寬與頻率群臨界帶寬與頻率群 用一中心頻率為用一中心頻率為f,帶寬為,帶寬為f的白噪聲來(lái)掩蔽的白噪聲來(lái)掩蔽一頻率為一頻率為f的純音,先將這個(gè)白噪聲的強(qiáng)度調(diào)節(jié)到的純音,先將這個(gè)白噪聲的強(qiáng)度調(diào)節(jié)到使被掩蔽純音恰好聽不見為止。然后將使被掩蔽純音恰好聽不見為止。然后將f由大到小由大到小逐漸變化,而保持單位頻率的噪聲強(qiáng)度(即噪聲譜逐漸變化,而保持單位頻率的噪聲強(qiáng)度(即噪聲譜密度)不變,起初這個(gè)純音一直是聽不見的,但當(dāng)密度)不變,起初這個(gè)純音一直
24、是聽不見的,但當(dāng)f小到某個(gè)臨界值時(shí),這個(gè)純音就突然可以聽見了。小到某個(gè)臨界值時(shí),這個(gè)純音就突然可以聽見了。如果再進(jìn)一步減小如果再進(jìn)一步減小f,被掩蔽音,被掩蔽音f就會(huì)越來(lái)越清晰。就會(huì)越來(lái)越清晰。這里剛剛開始能聽到被掩蔽聲時(shí)的這里剛剛開始能聽到被掩蔽聲時(shí)的f寬的頻帶,叫寬的頻帶,叫做頻率做頻率f處的臨界帶。處的臨界帶。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著37 當(dāng)掩蔽噪聲的帶寬窄于臨界帶的帶寬時(shí),能當(dāng)掩蔽噪聲的帶寬窄于臨界帶的帶寬時(shí),能掩蔽住純音掩蔽住純音f的強(qiáng)度是隨噪聲的帶寬的增加而增加的強(qiáng)度是隨噪聲的帶寬的增加而增加的,但當(dāng)掩蔽噪聲的帶寬達(dá)到臨界帶后,繼續(xù)增的,但當(dāng)掩蔽噪聲的帶寬達(dá)到臨界
25、帶后,繼續(xù)增加噪聲帶寬就不再引起掩蔽量的提高了。臨界帶加噪聲帶寬就不再引起掩蔽量的提高了。臨界帶寬是隨中心頻率而變的,被掩蔽純音的頻率(即寬是隨中心頻率而變的,被掩蔽純音的頻率(即臨界帶的中心頻率)越高,臨界帶寬也越寬。臨界帶的中心頻率)越高,臨界帶寬也越寬。 臨界頻帶也可定義為:一個(gè)給定的正弦純音臨界頻帶也可定義為:一個(gè)給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應(yīng)的那一部分。一個(gè)在基底膜上能夠產(chǎn)生諧振反應(yīng)的那一部分。一個(gè)頻率群的劃分相應(yīng)于基底膜分成許多很小的部分,頻率群的劃分相應(yīng)于基底膜分成許多很小的部分,每一部分對(duì)應(yīng)一個(gè)頻率群。每一部分對(duì)應(yīng)一個(gè)頻率群。 一個(gè)臨界帶的單位用巴克(一個(gè)臨界帶的單位
26、用巴克(Bark)表示。)表示。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著382.5 語(yǔ)音信號(hào)模型語(yǔ)音信號(hào)模型有三部分作用施加在語(yǔ)音的聲波上:有三部分作用施加在語(yǔ)音的聲波上:聲門產(chǎn)生的激勵(lì)模型聲門產(chǎn)生的激勵(lì)模型G(z);聲道產(chǎn)生的調(diào)制函數(shù)聲道產(chǎn)生的調(diào)制函數(shù)V(z);嘴唇產(chǎn)生的輻射函數(shù)嘴唇產(chǎn)生的輻射函數(shù)R(z)。語(yǔ)音信號(hào)的傳遞函數(shù)由這三個(gè)函數(shù)級(jí)聯(lián)而成,語(yǔ)音信號(hào)的傳遞函數(shù)由這三個(gè)函數(shù)級(jí)聯(lián)而成,即:即:H(z)=G(z)V(z)R(z)數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著392.5.1 激勵(lì)模型激勵(lì)模型 發(fā)濁音時(shí),產(chǎn)生的脈沖類似于斜三角形的脈沖。發(fā)濁音時(shí),產(chǎn)生的脈沖類似于斜三角形的脈沖。激勵(lì)
27、波是一個(gè)以基音周期為周期的斜三角脈沖串。激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。 圖圖2.9 三角波及其頻譜圖三角波及其頻譜圖數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著40 1 0nN 單個(gè)三角波的數(shù)學(xué)表達(dá)式為單個(gè)三角波的數(shù)學(xué)表達(dá)式為 0 2cos cos121)(211其它NNnNnng112NnNN其中:其中:N1為斜三角波的上升時(shí)間為斜三角波的上升時(shí)間 N2為其下降時(shí)間為其下降時(shí)間 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著41 單個(gè)斜三角波的頻譜單個(gè)斜三角波的頻譜G(ej)表現(xiàn)出一個(gè)低通濾波表現(xiàn)出一個(gè)低通濾波器的特性。其器的特性。其z變換的全極點(diǎn)形式為:變換的全極點(diǎn)形式為:21e1
28、1)(ZzGcT 作為激勵(lì)的斜三角波串可以用一串加了權(quán)的單作為激勵(lì)的斜三角波串可以用一串加了權(quán)的單位脈沖序列去激勵(lì)單位斜三角波模型實(shí)現(xiàn)。這個(gè)單位脈沖序列去激勵(lì)單位斜三角波模型實(shí)現(xiàn)。這個(gè)單位脈沖串和幅值因子可以表示成下面的位脈沖串和幅值因子可以表示成下面的z變換形式變換形式11)(zAzEv數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著42 濁音激勵(lì)模型可表示為濁音激勵(lì)模型可表示為 清音可以模擬成隨機(jī)白噪聲。清音可以模擬成隨機(jī)白噪聲。211111)()()(zeZAzGzEzUcTv數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著432.5.2 聲道模型聲道模型- -(1 1)共振峰模型)共振峰模型 典型
29、的聲道模型有兩種:無(wú)損聲管模型和共典型的聲道模型有兩種:無(wú)損聲管模型和共振峰模型。振峰模型。 (1 1)共振峰模型)共振峰模型 當(dāng)聲波通過(guò)聲道時(shí),受到聲腔共振的影響,當(dāng)聲波通過(guò)聲道時(shí),受到聲腔共振的影響,在某些頻率附近形成諧振。反映在信號(hào)頻譜圖上,在某些頻率附近形成諧振。反映在信號(hào)頻譜圖上,在諧振頻率處其譜線包絡(luò)產(chǎn)生峰值,一般把它叫在諧振頻率處其譜線包絡(luò)產(chǎn)生峰值,一般把它叫作共振峰作共振峰。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著44數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著45 實(shí)踐表明,用前三個(gè)共振峰代表一個(gè)元音足夠?qū)嵺`表明,用前三個(gè)共振峰代表一個(gè)元音足夠了。多個(gè)了。多個(gè)Vi疊加可以得到
30、聲道的共振峰模型:疊加可以得到聲道的共振峰模型: 211zczBAzViiii MiNkkkiiiMiizaAZCZBAzVzV1121111一個(gè)二階諧振器的傳輸函數(shù)可以寫成一個(gè)二階諧振器的傳輸函數(shù)可以寫成數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著46 無(wú)損聲管模型:是假定聲道由多個(gè)等長(zhǎng)的不無(wú)損聲管模型:是假定聲道由多個(gè)等長(zhǎng)的不同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中的流體及管壁沒(méi)有熱傳導(dǎo)和粘滯的損耗。在短時(shí)的流體及管壁沒(méi)有熱傳導(dǎo)和粘滯的損耗。在短時(shí)間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認(rèn)為間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認(rèn)為聲波是沿管軸傳播的
31、平面波。聲波是沿管軸傳播的平面波。 2.5.2 聲道模型聲道模型- -(2)無(wú)損聲管模型無(wú)損聲管模型數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著47 聲門 口唇 圖 2.14 用聲管模擬聲道 對(duì)于對(duì)于N個(gè)無(wú)損聲管級(jí)聯(lián)的情況,可得到無(wú)損聲個(gè)無(wú)損聲管級(jí)聯(lián)的情況,可得到無(wú)損聲管的傳遞函數(shù)為:管的傳遞函數(shù)為: NmmmzGzV11數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著48 從聲道模型輸出的是速度波從聲道模型輸出的是速度波ul (n),而語(yǔ)音信號(hào),而語(yǔ)音信號(hào)是聲壓波是聲壓波Pl(n)。二者倒比稱為輻射阻抗。二者倒比稱為輻射阻抗Zl,它表征它表征口唇的輻射效應(yīng)。如果認(rèn)為口唇張開的面積遠(yuǎn)遠(yuǎn)小口唇的輻射效應(yīng)
32、。如果認(rèn)為口唇張開的面積遠(yuǎn)遠(yuǎn)小于頭部的表面積,利用單板開槽輻射的處理方法,于頭部的表面積,利用單板開槽輻射的處理方法,可以得到輻射阻抗,可以得到輻射阻抗,r近似為近似為1 )1 ()(10rzRzR2.5.2 聲道模型聲道模型- -(3)輻射)輻射模型模型數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著49 由輻射引起的能量損耗正比于輻射阻抗的實(shí)由輻射引起的能量損耗正比于輻射阻抗的實(shí)部部R(z),其頻響曲線表現(xiàn)出一階高通濾波器的特,其頻響曲線表現(xiàn)出一階高通濾波器的特性。在實(shí)際信號(hào)分析時(shí),常用所謂預(yù)加重技術(shù)。性。在實(shí)際信號(hào)分析時(shí),常用所謂預(yù)加重技術(shù)。這樣,模型只剩下聲道部分,對(duì)參數(shù)分析就方便這樣,模型
33、只剩下聲道部分,對(duì)參數(shù)分析就方便了。在語(yǔ)音合成時(shí)再進(jìn)行解加重處理。了。在語(yǔ)音合成時(shí)再進(jìn)行解加重處理。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著502.6 語(yǔ)音信號(hào)數(shù)字模型語(yǔ)音信號(hào)數(shù)字模型2.6.1 數(shù)字模型數(shù)字模型 (1)組成:)組成: 包括三部分:激勵(lì)模型、聲道模型和輻射模型。包括三部分:激勵(lì)模型、聲道模型和輻射模型。 激勵(lì)源分濁音和清音兩個(gè)分支,按照濁音激勵(lì)源分濁音和清音兩個(gè)分支,按照濁音/清音清音開關(guān)所處的位置來(lái)決定產(chǎn)生的語(yǔ)音是濁音還是清開關(guān)所處的位置來(lái)決定產(chǎn)生的語(yǔ)音是濁音還是清音。音。 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著51 T 沖激序列 發(fā)生器 聲門波 模型 隨機(jī)噪聲 發(fā)聲器
34、 聲道 模型 V(z) 輻射 模型 R(z) 振幅 Au 聲道參數(shù) a1ap 清/濁 音判斷 圖 2.12 二元激勵(lì)的語(yǔ)音生成模型 振幅 Av 數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著52 (2)在濁音的情況下,激勵(lì)信號(hào)由一個(gè)周期脈沖)在濁音的情況下,激勵(lì)信號(hào)由一個(gè)周期脈沖發(fā)生器產(chǎn)生。所產(chǎn)生的序列是一個(gè)周期為發(fā)生器產(chǎn)生。所產(chǎn)生的序列是一個(gè)周期為T的沖的沖激序列激序列,T的倒數(shù)即為基音頻率。為了使?jié)嵋舻募さ牡箶?shù)即為基音頻率。為了使?jié)嵋舻募?lì)信號(hào)具有聲門氣流脈沖的實(shí)際波形,還需要使勵(lì)信號(hào)具有聲門氣流脈沖的實(shí)際波形,還需要使上述的沖激序列通過(guò)一個(gè)聲門脈沖模型濾波器。上述的沖激序列通過(guò)一個(gè)聲門脈沖模
35、型濾波器。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著53(3)在清音的情況下,激勵(lì)信號(hào)由一個(gè)隨機(jī)噪聲發(fā))在清音的情況下,激勵(lì)信號(hào)由一個(gè)隨機(jī)噪聲發(fā)生器產(chǎn)生。設(shè)其均值為生器產(chǎn)生。設(shè)其均值為0,方差為常數(shù),幅度具有,方差為常數(shù),幅度具有高斯概率分布。乘系數(shù)的作用是調(diào)節(jié)清音信號(hào)的高斯概率分布。乘系數(shù)的作用是調(diào)節(jié)清音信號(hào)的幅度。幅度。(4) 圖圖2.16中畫出了一段濁音語(yǔ)音產(chǎn)生過(guò)程中的有中畫出了一段濁音語(yǔ)音產(chǎn)生過(guò)程中的有關(guān)波形。關(guān)波形。數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著54 e(t) s(t) T E(w) V(w) S(w) 2/T 圖 2.16 準(zhǔn)周期脈沖序列激勵(lì)聲道產(chǎn)生濁音 v(t) 數(shù)字
36、語(yǔ)音處理及MATLAB仿真 張雪英編著55(5)聲道模型)聲道模型V(Z)給出了離散時(shí)域的聲道傳輸函給出了離散時(shí)域的聲道傳輸函數(shù),把實(shí)際聲道作為一個(gè)變截面聲管加以研究,數(shù),把實(shí)際聲道作為一個(gè)變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下它是一個(gè)全極點(diǎn)函數(shù)。它是一個(gè)全極點(diǎn)函數(shù)。V(Z)可以表示為:可以表示為:iPiiiaaZaZV , 1 , 100數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著56 把截面積連續(xù)變化的聲管近似為把截面積連續(xù)變化的聲管近似為P段短聲管的段短聲管的串聯(lián),每段短聲管的截面積是不變的。串聯(lián),每段短聲管的截面積是不變的
37、。P稱為這個(gè)稱為這個(gè)全極點(diǎn)濾波器的階。全極點(diǎn)濾波器的階。P值越大,模型的傳輸函數(shù)與值越大,模型的傳輸函數(shù)與聲道實(shí)際傳輸函數(shù)的吻合程度越高。聲道實(shí)際傳輸函數(shù)的吻合程度越高。 輻射模型輻射模型R(Z)與嘴型有關(guān),通常與嘴型有關(guān),通常R(Z)可以表可以表示為示為 1 , 11rrZZR數(shù)字語(yǔ)音處理及MATLAB仿真 張雪英編著57 在這個(gè)模型中,除了在這個(gè)模型中,除了G(Z)和和R(Z)保持不變以保持不變以外,外,T、Av、Au、清、清/濁音開關(guān)的位置以及聲道模濁音開關(guān)的位置以及聲道模型中參數(shù)型中參數(shù)a1ap都是隨時(shí)間而變化的,都是隨時(shí)間而變化的,由于發(fā)音由于發(fā)音器官的慣性使這些參數(shù)的變化速度受到限制。對(duì)器官的慣性使這些參數(shù)的變化速度受到限制。對(duì)于聲道參數(shù),在于聲道參數(shù),在1030ms的時(shí)間間隔內(nèi)可
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版酒店安保服務(wù)與旅游安全監(jiān)管合同3篇
- 二零二五版擔(dān)保居間服務(wù)線上線下融合合同3篇
- 二零二五年砂石料采購(gòu)合同2篇
- 二零二五版國(guó)際教育服務(wù)合同范本及學(xué)生權(quán)益保護(hù)條款3篇
- 二零二五年度變壓器安裝與環(huán)保排放標(biāo)準(zhǔn)合同3篇
- 樣板間裝修工程2025版知識(shí)產(chǎn)權(quán)合同3篇
- 二零二五版單位食堂餐飲服務(wù)設(shè)施租賃合同3篇
- 二零二五年辣椒種植與加工一體化項(xiàng)目合同3篇
- 二零二五版電子商務(wù)移動(dòng)應(yīng)用開發(fā)與推廣合同2篇
- 二零二五年酒店會(huì)議室裝修與設(shè)備安裝服務(wù)合同3篇
- 2024年《藥物臨床試驗(yàn)質(zhì)量管理規(guī)范》(GCP)網(wǎng)絡(luò)培訓(xùn)題庫(kù)
- 新華健康體檢報(bào)告查詢
- 2024版智慧電力解決方案(智能電網(wǎng)解決方案)
- 公司SWOT分析表模板
- 小學(xué)預(yù)防流行性感冒應(yīng)急預(yù)案
- 肺癌術(shù)后出血的觀察及護(hù)理
- 生物醫(yī)藥大數(shù)據(jù)分析平臺(tái)建設(shè)-第1篇
- 基于Android的天氣預(yù)報(bào)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 沖鋒舟駕駛培訓(xùn)課件
- 美術(shù)家協(xié)會(huì)會(huì)員申請(qǐng)表
- 聚合收款服務(wù)流程
評(píng)論
0/150
提交評(píng)論