版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章語音信號(hào)基礎(chǔ)學(xué)問人類的語言器官語音產(chǎn)生過程語音信號(hào)產(chǎn)生的數(shù)字模型語音信號(hào)的特性人類的聽覺功能11.人類的語言器官人類能以語言溝通,進(jìn)而累積學(xué)問,形成文化,其中一個(gè)主要的緣由,就是人類具有較其它生物優(yōu)越的發(fā)音器官。人類的發(fā)音器官能夠產(chǎn)生多樣性的聲音,構(gòu)成豐富的詞匯,無疑是最關(guān)鍵的因素。聲音是一種波,能被人耳聽到,它的振動(dòng)頻率在20~20000Hz之間。1、人類的語言器官21.人類的語言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和聲道,肺是語音產(chǎn)生的能源所在;聲帶為產(chǎn)生語音供應(yīng)主要的激勵(lì)源;聲道是指聲門至嘴唇的全部器官:咽、鼻腔、口腔等,它們具有非勻整截面,且隨時(shí)間變更,起共鳴器(或諧振器)的作用。1、人類的語言器官31.人類的語言器官鼻腔(nasalcavity)口腔(oralcavity)齒(teeth)舌(tongue)咽(pharynx)喉(larynx)齒齦(alveolarridge)硬顎(hardpalate)軟顎(velum)小舌頭(uvula)聲門(glottis)唇(lips)圖2-1
人類的發(fā)音器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在聲門以下1、人類的語言器官41.人類的語言器官圖2-2
最重要的發(fā)音器官之一:聲帶(a)閉合狀態(tài)(b)張開狀態(tài)甲狀軟骨杓狀軟骨環(huán)狀軟骨聲門聲帶1、人類的語言器官52.語音產(chǎn)生過程肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源激勵(lì)源諧振源輻射源溝通氣流2、語音信號(hào)產(chǎn)生過程6
聲門氣流和嘴部聲壓2、語音信號(hào)產(chǎn)生過程7
物理模型2、語音信號(hào)產(chǎn)生過程82.語音產(chǎn)生過程語音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最終由嘴輻射出聲波,形成語音。濁音(Voicedsounds):聲帶繃緊,氣流通過時(shí)會(huì)使得開口變成一開一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流,如a,o;清音(UnvoicedorFricativesounds):聲帶完全伸展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全伸展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開啟,空氣壓力快速釋放,如b,p。能被人耳聽到,它的振動(dòng)頻率在20~20000Hz之間2、語音信號(hào)產(chǎn)生過程92.語音產(chǎn)生過程語音的兩個(gè)重要聲學(xué)特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力確定,其值等于聲帶張開和閉合一次的時(shí)間的倒數(shù)。人類基音頻率的范圍在80~500Hz左右。共振峰(Fn,n=1,2,...):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率重量而衰減其他頻率重量,被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形態(tài)和尺寸,因而不同的語音對(duì)應(yīng)于一組不同的共振峰參數(shù)。實(shí)際應(yīng)用中,頭三個(gè)共振峰最重要,越多越精確。2、語音信號(hào)產(chǎn)生過程10
口腔對(duì)聲源頻譜的調(diào)制——共振峰2、語音信號(hào)產(chǎn)生過程11共振峰是聲道的重要聲學(xué)特性。聲道對(duì)于一個(gè)激勵(lì)信號(hào)的響應(yīng),可以用一個(gè)含有多對(duì)極點(diǎn)的線性系統(tǒng)來近似描述。每對(duì)極點(diǎn)都對(duì)應(yīng)一個(gè)共振峰頻率。這個(gè)線性系統(tǒng)的頻率響應(yīng)特性稱為共振峰特性,它確定信號(hào)頻譜的總輪廓,或稱譜包絡(luò)。語音的頻率特性主要是由共振峰確定的。而聲道的共振峰特性確定所發(fā)聲音的頻譜特性,即音色。元音的音色和區(qū)分特征主要取決于聲道的共振峰特性。共振峰特性可以從語音信號(hào)頻譜分析得到的幅頻特性視察到。在聲學(xué)語音學(xué)中通??紤]F1和F2,但在語音識(shí)別技術(shù)中至少要考慮三個(gè)共振峰,而在語音合成技術(shù)中考慮五個(gè)共振峰是最為現(xiàn)實(shí)的。聲波的共振也稱為共鳴。聲道截面積隨縱向位置而變更的函數(shù),稱為聲道截面積函數(shù),它確定共振峰的特性。12頻率范圍/Hz成年男子成年女子帶寬F1200~800250~100040~70F2600~2800700~330050~90F31300~34001500~400060~180前三個(gè)共振峰的頻率范圍2、語音信號(hào)產(chǎn)生過程132.語音產(chǎn)生過程志向狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是勻整的(此時(shí)可把聲道看作一個(gè)粗細(xì)勻整的圓筒),從喉到唇的距離L=17cm,音速c=340m/s,則共振峰將發(fā)生在:諧振頻率發(fā)生在500Hz的奇數(shù)倍2、語音信號(hào)產(chǎn)生過程143.語音信號(hào)產(chǎn)生的數(shù)字模型在探討了發(fā)聲器官和語音的產(chǎn)生過程以后,便可以建立一個(gè)離散時(shí)域的語音信號(hào)產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語音信號(hào)的基礎(chǔ)。下圖是一個(gè)完整的語音信號(hào)產(chǎn)生的數(shù)字模型:3、語音信號(hào)產(chǎn)生的數(shù)字模型15語音產(chǎn)生模型(SpeechProduction/GenerationModel)4、語音信號(hào)的特性16語音信號(hào)(SpeechSignal)4、語音信號(hào)的特性17數(shù)字語音信號(hào)表示(RepresentationsofSpeechSignals)4、語音信號(hào)的特性18(1)激勵(lì)模型由此模型框圖,我們可將語音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:激勵(lì)模型、聲道模型、輻射模型激勵(lì)模型依據(jù)發(fā)濁音和發(fā)清音的機(jī)理又分為:(a)濁音激勵(lì)(b)清音激勵(lì)3、語音信號(hào)產(chǎn)生的數(shù)字模型19(a)濁音激勵(lì)由前面所講發(fā)音過程可知,發(fā)濁音時(shí)聲帶不斷地張開和閉合將產(chǎn)生間歇的準(zhǔn)周期性脈沖波,其周期為基音周期,單個(gè)脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵(lì)。由于人類語音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。3、語音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型20由圖可見,它是一個(gè)低通濾波器。頻率分析表明,其幅度譜按12dB/倍頻程的速率衰減。假如將其表示為Z變換的全極模型的形式,有G(z)=1/(1-g1z-1)(1-g2z-1)假如g1和g2的值都接近于1,則由此形成的激勵(lì)信號(hào)頻譜很接近于聲門脈沖的頻譜。明顯,上式表明斜三角波可描述為一個(gè)二階極點(diǎn)的模型。須要指出,不同人、不同語音,其聲門脈沖的形態(tài)不確定相同,但在語音合成中對(duì)其形態(tài)要求不很苛刻,只要其傅里葉變換有近似的特性就可以了。21
周期性的斜三角波脈沖可看做加權(quán)的單位脈沖串激勵(lì)上述單個(gè)斜三角脈沖的結(jié)果。而周期沖激序列及幅值因子可表示成下面的Z變換形式E(z)=AV/(1-z-1)(2-5)所以整個(gè)激勵(lì)模型可表示為U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)3、語音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型22(b)清音激勵(lì)發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把清音激勵(lì)模擬成隨機(jī)白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可接受隨機(jī)噪聲發(fā)生器來產(chǎn)生此序列。3、語音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型23(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,按此原則導(dǎo)出。基于各種音素發(fā)音的不同諧振特點(diǎn)可建立起三種好用的共振峰模型:(a)級(jí)聯(lián)型(b)并聯(lián)型(c)混合型3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型24(a)級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:若P為偶數(shù),解其根會(huì)得到共扼復(fù)數(shù)(conjugatecomplex)的根,表示成:3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型25F=1/T--取樣頻率
i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個(gè)二階因式均對(duì)應(yīng)一個(gè)共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語音的各個(gè)共振峰所對(duì)應(yīng)的二階系統(tǒng)級(jí)聯(lián)起來就形成了一個(gè)完整的級(jí)聯(lián)型聲道模型,且具有明顯的諧振特性。3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型26(b)并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必需在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:通常P>R,假設(shè)分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)限制。3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型27前面兩種共振峰模型各自都只能適用于部分語音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長(zhǎng)度,一般成人取3到5級(jí)。級(jí)聯(lián)型結(jié)構(gòu)較為簡(jiǎn)潔,并聯(lián)型各諧振器幅度可獨(dú)立限制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來就得到一種較為完備的共振峰模型。3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型28(c)混合型我們可以依據(jù)發(fā)音的須要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度限制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增加反諧振特性。3、語音信號(hào)產(chǎn)生的數(shù)字模型(2)聲道模型29在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達(dá)聽者耳朵的這段過程,聲音信號(hào)會(huì)衰減,而且有高通濾波的特性,我們常用一個(gè)一階的數(shù)字高通濾波器擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型(radiationmodel),其數(shù)學(xué)式如下完整的數(shù)字模型的系統(tǒng)函數(shù)由激勵(lì)模型、聲道模型和輻射模型的級(jí)聯(lián)來表示:3、語音信號(hào)產(chǎn)生的數(shù)字模型(3)輻射模型3031總結(jié):1.到此為止組成語音產(chǎn)生的數(shù)字模型的三個(gè)組成部分己介紹完畢。此模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡(jiǎn)潔的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來模擬。2.語音產(chǎn)生的數(shù)字模型中增益限制(對(duì)Av或AN)代表了輸出語音的音響強(qiáng)度;時(shí)變線性系統(tǒng)主要用來模擬聲道的特性;3.數(shù)字語音處理中兩個(gè)基本問題,即語音分析和語音合成,都是基于這個(gè)模型來實(shí)現(xiàn)的;4.此數(shù)字模型的特點(diǎn):系統(tǒng)參數(shù)固定不變—短時(shí)分析;全極點(diǎn)性質(zhì)—零點(diǎn)可由多個(gè)極點(diǎn)靠近;激勵(lì)源和聲道相互獨(dú)立—適用于大多數(shù)數(shù)字語音處理。3、語音信號(hào)產(chǎn)生的數(shù)字模型324.語音信號(hào)的特性語音學(xué)和語言學(xué)概要語音的聲學(xué)特性語音的時(shí)間波形和頻譜特性語音信號(hào)的統(tǒng)計(jì)特性4、語音信號(hào)的特性334.1語言學(xué)和語音學(xué)概要對(duì)語音學(xué)和語言學(xué)的詳盡探討對(duì)我們來講離題太遠(yuǎn),但是對(duì)語音信號(hào)加以處理以改善或提取信息時(shí),假如我們對(duì)語音信號(hào)的結(jié)構(gòu)(信號(hào)中信息編碼的方法)有盡可能多的學(xué)問則是很有幫助的。1.語言學(xué):是以人類的語言為探討對(duì)象的一門科學(xué),主要對(duì)限制語音中各個(gè)音的排列規(guī)則及其含義進(jìn)行探討。語言(Language)是從千百萬個(gè)人的言語(Speech)中概括總結(jié)出來的規(guī)律性的符號(hào)系統(tǒng)。所以,探討語言首先要了解一下人的言語(說話)過程。4、語音信號(hào)的特性344.1語言學(xué)和語音學(xué)概要圖3-1人的說話過程分為五個(gè)階段(1)想說階段:人的說話首先是客觀現(xiàn)實(shí)在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動(dòng)機(jī);接著講話神經(jīng)中樞選擇恰當(dāng)?shù)膯卧~、短語以及按語法規(guī)則的組合,以表達(dá)他想說的內(nèi)容和情感。這個(gè)階段與大腦中樞的活動(dòng)有關(guān)。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動(dòng)作發(fā)出聲音來。另外還開動(dòng)另一個(gè)“反饋系統(tǒng)”即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳收集到的聲波信息,經(jīng)過中耳的放大作用,到達(dá)內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動(dòng)轉(zhuǎn)化為耳蝸內(nèi)的毛細(xì)胞的電位變更,由聽覺神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽覺神經(jīng)中樞收到脈沖信息后,分辨出說話的人及其所說的信息,從而聽懂講話者的話。4、語音信號(hào)的特性354.1語言學(xué)和語音學(xué)概要從五個(gè)階段來看,言語的過程包含著相當(dāng)困難的因素,其中有心理的、生理的、物理的以及個(gè)人的和社會(huì)的因素。這里,個(gè)人的因素還指講活者的腔調(diào)和用詞造句的特色以及聽話者的聽音和理解實(shí)力;社會(huì)的因素則是指講話者和聽話音對(duì)用于進(jìn)行交際的手段有共同的理解的社會(huì)基礎(chǔ)。語言是從言語中概括出來的一個(gè)符號(hào)系統(tǒng)。包括形式和內(nèi)容兩個(gè)方面,即語音的形式和語義的內(nèi)容。將這兩個(gè)基本要素相結(jié)合起來,可以構(gòu)成語言的語素、詞、短語和句子等的不同層次的單位;這個(gè)構(gòu)成規(guī)則就是語法。目前我們可以利用語法和語義信息減小語音識(shí)別中搜尋匹配范圍,提高語音識(shí)別率。4、語音信號(hào)的特性364.1語言學(xué)和語音學(xué)概要2.語音學(xué):探討語音中各個(gè)音的物理特征和分類的學(xué)科。從某種意義上講,語音學(xué)與語音信號(hào)處理這門學(xué)科聯(lián)系更緊密。大多數(shù)語言包括漢語在內(nèi)可以用一組不同的音即音素來加以描述。對(duì)于漢語來說約有六十個(gè)音素,包括元音、復(fù)合元音和輔音。探討語音學(xué)的途徑有很多種,例如語言學(xué)家探討音素的不同特性或特征。而對(duì)我們來講,只要探討不同的聲學(xué)特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語譜特征。本章后面幾個(gè)話題均以語音學(xué)為基礎(chǔ)。4、語音信號(hào)的特性374.2語音的聲學(xué)特性1.物理屬性—音色、音調(diào)、音強(qiáng)和音長(zhǎng);音色:也叫音質(zhì),是一種聲音區(qū)分于另一種聲音的基本特征,是由聲道的位置和形態(tài)確定。音調(diào):聲音的凹凸,確定于聲波的頻率的凹凸,而聲波頻率的凹凸又由語音的基音頻率F0所確定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強(qiáng):聲音的強(qiáng)弱,由聲波的振幅所確定。音長(zhǎng):聲音的長(zhǎng)短,取決于發(fā)音時(shí)間的長(zhǎng)短。4、語音信號(hào)的特性384.2語音的聲學(xué)特性2.語音的構(gòu)成—音節(jié)(syllable)、音素音素(phoneme):語音發(fā)音的最小單位。分類:(1)國(guó)際標(biāo)準(zhǔn)分類清音:發(fā)清音時(shí)聲帶不振動(dòng)。濁音:發(fā)濁音時(shí)聲帶振動(dòng)。(2)我國(guó)傳統(tǒng)分類元音(韻母):是當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流在聲道中不受阻礙,這種狀況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。4、語音信號(hào)的特性394.2語音的聲學(xué)特性音節(jié):說話時(shí)一次發(fā)出的,具有一個(gè)洪亮的中心,并被明顯感覺到的語音片段。一個(gè)音節(jié)可由一個(gè)音素或幾個(gè)音素構(gòu)成。音節(jié)最典型的結(jié)構(gòu),就是以一個(gè)元音或雙元音(diphthong)為主體,其前面或后面可能連接一個(gè)或多個(gè)輔音。3.漢語語音的特點(diǎn)—聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按確定的方式構(gòu)成的,是語言的最小運(yùn)用單位;音節(jié)結(jié)構(gòu)簡(jiǎn)潔,與其它語言相比漢語語音音節(jié)和音素都很少。4、語音信號(hào)的特性404.2語音的聲學(xué)特性4.語義:語音總是和確定的意義相聯(lián)系著,確定的語音要表達(dá)確定的思想和意義;另外,語音還能表達(dá)出確定的語氣、情感,甚至表達(dá)很多“言外之意”。5.元音的共振峰特性:元音構(gòu)成一個(gè)音節(jié)的主干,無論從發(fā)音長(zhǎng)度還是從能量看,元音在音節(jié)中都占主要部分。所以有必要在此探討一下元音的共振峰特性或者說探討其頻譜特性。4、語音信號(hào)的特性414.2語音的聲學(xué)特性影響元音共振峰特性的發(fā)音機(jī)制:(1)舌頭的形態(tài);(2)舌頭在口腔中的位置,簡(jiǎn)稱舌位;(3)嘴唇的形態(tài),即口形;其中由舌位的凹凸前后位置變更,可以發(fā)出不同的音素,也就是說舌位與元音的共振峰特性有親密關(guān)系。4、語音信號(hào)的特性424.2語音的聲學(xué)特性圖4-1漢語單元音舌位梯形圖(1)F1與舌位凹凸有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位凹凸為開口度。(2)F2與舌位前后親密相關(guān),舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)F3與舌位關(guān)系不親密,但受舌尖活動(dòng)影響;舌尖抬高卷起時(shí)F3就明顯下降。4、語音信號(hào)的特性43各種語音表示的信息率4、語音信號(hào)的特性444.3語音的時(shí)間波形和頻譜特性語音可以干脆用它的時(shí)間波形來表示,依據(jù)時(shí)間波形可以看出語音信號(hào)的一些主要特性。就其本性而言,語音波形是時(shí)間的連續(xù)函數(shù),是隨時(shí)間而變更的,但比較緩慢,10~30ms4、語音信號(hào)的特性454.3語音的時(shí)間波形和頻譜特性語音的頻譜特性由聲道的形態(tài)和尺寸確定,隨時(shí)間變更——短時(shí)譜(清濁音的不同、對(duì)數(shù)和線性振幅譜);語譜圖(濁音和清音的不同、寬帶和窄帶語譜圖)4、語音信號(hào)的特性464.3語音的時(shí)間波形和頻譜特性左圖中的u(n)就是前面所講的聲音激勵(lì)ug(n),由于聲門波脈沖模型g(n)引入兩個(gè)極點(diǎn),故在語音信號(hào)約0.8至1.0kHz以上的頻率造成12db/倍頻程的衰減4、語音信號(hào)的特性474.3語音的時(shí)間波形和頻譜特性語音信號(hào)時(shí)域波形示意圖:靜息波
脈沖波(清塞音)準(zhǔn)周期波(濁音)噪聲波(摩擦音)4、語音信號(hào)的特性484.3語音的時(shí)間波形和頻譜特性圖4-2聲音的語譜圖4、語音信號(hào)的特性494.3語音的時(shí)間波形和頻譜特性窄頻帶的語譜圖(narrowbandspectrograms)語譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fouriertransform),當(dāng)我們用較長(zhǎng)的分析窗口(analysiswindows),約20ms,對(duì)應(yīng)頻寬約為45Hz,得到的頻率辨別率較高,頻譜上可以看到諧振的成分。在語譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0)。4、語音信號(hào)的特性504.3語音的時(shí)間波形和頻譜特性寬頻帶的語譜圖(widebandspectrograms)若是在轉(zhuǎn)換演算時(shí)用較少的取樣點(diǎn),分析窗口大約3ms,對(duì)應(yīng)頻寬約300Hz,則頻譜上看不到諧振成分,在語譜圖上看不到等距的黑白相間。頻率辨別率較低,反而是時(shí)軸上的辨別率較高,看到明顯的垂直線條。4、語音信號(hào)的特性514.3語音的時(shí)間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語譜圖上就是顏色較深的位置。在發(fā)元音時(shí),音強(qiáng)較大,聲帶振動(dòng)而呈現(xiàn)出基頻及其諧振頻率,也可以明顯看到共振峰,能量集中在低頻。假如是發(fā)輔音,而且聲帶不振動(dòng),就看不到諧振頻率。通常輔音的音強(qiáng)小,顏色看來就比較淡,而且能量較集中在高頻。若是在沒有語音的空檔,則語譜圖上呈現(xiàn)的,就是有一段空白。4、語音信號(hào)的特性524.3語音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性(一)元音發(fā)元音的聲音時(shí),聲帶是振動(dòng)的,音強(qiáng)也較大,波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對(duì)應(yīng)的頻率就是基頻,通常以F0表示。正常說話時(shí),元音的音長(zhǎng)大約是50到400ms之間。元音在頻譜上會(huì)呈現(xiàn)能量集中的現(xiàn)象,集中處的頻帶稱為共振峰。在5kHz的語音頻帶范圍內(nèi),會(huì)有5個(gè)共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較明顯。4、語音信號(hào)的特性534.3語音的時(shí)間波形和頻譜特性圖4-3三個(gè)元音的語譜圖(分別對(duì)應(yīng)漢語拼音的元音i,a,u)4、語音信號(hào)的特性544.3語音的時(shí)間波形和頻譜特性圖4-4雙元音在語譜圖上共振峰轉(zhuǎn)移(過渡)的現(xiàn)象分別對(duì)應(yīng)漢語拼音的雙元音ai,ei,ao,ou4、語音信號(hào)的特性554.3語音的時(shí)間波形和頻譜特性(二)輔音輔音是對(duì)元音的前或后作修飾。帶聲的輔音會(huì)有類似元音的共振峰,因?yàn)槁晭д駝?dòng),所以和元音一樣有諧振的成分,但相對(duì)于元音,能量小得多。不帶聲的摩擦音(如f,s,sh,x,h)類似噪音,能量?jī)A向在高頻。發(fā)鼻音時(shí),鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動(dòng)而有共振峰,但低頻的共振峰能量較弱。下圖分別對(duì)應(yīng)漢語拼音輔音:b,p,m,f,j,q,x,zh,ch,sh4、語音信號(hào)的特性564.3語音的時(shí)間波形和頻譜特性圖4-5塞音(或爆破音)出現(xiàn)在元音前的例子下圖分別對(duì)應(yīng)ba,da,ga,pa,ta,ka在一個(gè)音節(jié)的起先若有塞音,當(dāng)氣流放出之后,隨著就發(fā)元音,聲帶起先振動(dòng),在語譜圖上可以視察到一小段時(shí)間之后,才有明顯的共振峰出現(xiàn),這一小段時(shí)間就叫做嗓音的起始時(shí)間(voiceonsettime),簡(jiǎn)稱VOT。返回4、語音信號(hào)的特性574.4語音信號(hào)的統(tǒng)計(jì)特性語音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過程的樣本函數(shù);語音信號(hào)的統(tǒng)計(jì)特性可以用它的振幅概率密度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來描述——概率密度的估算、靠近方法及意義;自相關(guān)函數(shù)的估計(jì)及影響因素(語音段和濾波狀況);語音信號(hào)的統(tǒng)計(jì)特性也可以用功率譜來描述——長(zhǎng)期平均功率譜可以用周期圖來估計(jì);4、語音信號(hào)的特性58
語音信號(hào)時(shí)域波形4、語音信號(hào)的特性59
語音信號(hào)的波形與頻譜4、語音信號(hào)的特性60
語音波形幅度分布4、語音信號(hào)的特性61
基頻變更范圍4、語音信號(hào)的特性62自學(xué)部分63
美式英語發(fā)音4、語音信號(hào)的特性64
美式英語的音素4、語音信號(hào)的特性65
元音(Vowels)?由固定聲道形態(tài)產(chǎn)生,可持續(xù)的聲音?聲帶振動(dòng)–濁音?聲道的截面積確定了元音的頻率響應(yīng)和聲音質(zhì)量?舌的位置(高度,前后),唇的形態(tài)對(duì)確定元音發(fā)音有重要的作用?一般持續(xù)期相對(duì)長(zhǎng)(歌頌時(shí)可以保持的),有規(guī)則的頻譜形態(tài)4、語音信號(hào)的特性66
元音的產(chǎn)生4、語音信號(hào)的特性67
美式英語中元音4、語音信號(hào)的特性68
元音發(fā)音器官形態(tài)4、語音信號(hào)的特性69
元音波形與譜圖4、語音信號(hào)的特性70
元音共振峰平均4、語音信號(hào)的特性71
元音持續(xù)期4、語音信號(hào)的特性72735.人類的聽覺功能用語言作溝通,就是說話的人能讓對(duì)方聽懂他在說些什么,雙方用說與聽來達(dá)成信息交換與感情溝通。而語言的學(xué)習(xí)過程,更是不斷地聽,然后學(xué)習(xí)會(huì)說,所以語言與聽覺有親密的關(guān)聯(lián)性。本節(jié)將說明人類聽覺器官的構(gòu)造,以及如何聽聲音。并且對(duì)于人耳在聽覺上的一個(gè)重要特性,聽覺掩蔽效應(yīng)做了簡(jiǎn)要敘述,這是語音處理中常常會(huì)用到的聽覺特性。5、語音感知74
語音通信SpeechCommunication5、語音感知75
聽覺系統(tǒng)中聲音表示框圖5、語音感知76
聽覺器官5、語音感知77語音感知模型(SpeechPerceptionModel)5、語音感知785.人類的聽覺功能外耳從耳翼(pinnas)到鼓膜(eardrum)這一段叫做外耳。耳翼的功能在幫助推斷聲音的來源方向,它對(duì)于聽者前方來的聲音比較敏感。耳翼到鼓膜之間的通道叫做耳道(meatus),這是一個(gè)長(zhǎng)約2.7公分直徑約0.7公分的通道。對(duì)于聲波的傳播而言,這條通道等于是一個(gè)四分之一波長(zhǎng)的共振腔,它的第一個(gè)共振頻率大約是3kHz,這個(gè)共振作用將3~5kHz的聲波放大15dB左右,因此使得我們的聽覺對(duì)于3~5kHz的頻率范圍比較敏感。5、語音感知795.人類的聽覺功能中耳
在鼓膜與耳蝸之間有一個(gè)大約6立方公分的小空間,稱之為中耳。在這個(gè)小空間內(nèi),有三塊小骨頭,分別是槌骨(hammer,或稱為malleus),砧骨(anvil或稱為incus)與鐙骨(stapes,或稱為stirrup)。槌骨黏接在鼓膜上,聲波造成的空氣振動(dòng)會(huì)使鼓膜振動(dòng),進(jìn)而推動(dòng)槌骨的振動(dòng),鐙骨貼在耳蝸的橢圓形窗(ovalwindow)上,槌骨的振動(dòng)經(jīng)過砧骨與鐙骨的傳遞,將振動(dòng)信號(hào)傳到耳蝸內(nèi)的淋巴液,所以中耳可以看成是聲波到淋巴液的信號(hào)轉(zhuǎn)換,在此轉(zhuǎn)換過程中,對(duì)于1kHz以上的信號(hào)做了-15dB/10倍頻程的衰減,可以看成是一個(gè)低通濾波器(lowpassfilter)。5、語音感知805.人類的聽覺功能人類在辨別聲音時(shí),是取決于頻域上的辨別率,聽覺器官等于是將時(shí)域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽到聲音或辨別聲音,是取決于音強(qiáng)(intensity)與頻譜(spectrum)。一般人的聽覺器官可以感知頻率范圍16Hz到18kHz的聲音,動(dòng)態(tài)范圍約1000倍。超出人類聽覺感知范圍,如20kHz以上的聲波,我們稱之為超音波(ultrasonic)。人耳對(duì)于1kHz到5kHz的聲音最為敏感,但是對(duì)于1kHz以下與5kHz以上的聲音,就要較大的音強(qiáng)才聽得到。5、語音感知815.人類的聽覺功能圖5-4人類聽覺的范圍5、語音感知825.人類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 贛南師范大學(xué)《古生物與地層學(xué)含實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 加工中心的編程教學(xué)課件
- 七年級(jí)道德與法治上冊(cè)第一單元成長(zhǎng)的節(jié)拍第一課中學(xué)時(shí)代第二課時(shí)誤區(qū)警示新人教版
- 三年級(jí)數(shù)學(xué)上冊(cè)6乘法單元概述和課時(shí)安排素材北師大版
- 三年級(jí)科學(xué)上冊(cè)7土壤的保護(hù)教案冀教版
- 三年級(jí)科學(xué)下冊(cè)第三單元固體和液體1認(rèn)識(shí)固體教案蘇教版1
- 《知識(shí)社會(huì)學(xué)》課件
- 高二物理期末模擬卷(A卷)【測(cè)試范圍:必修第一、二、三冊(cè)及選擇性必修第一冊(cè)第1章】(考試版A3)(浙江專用)
- 《前言關(guān)鍵點(diǎn)》課件
- 初中數(shù)學(xué)等腰直角三角形添加輔助線三垂直構(gòu)建K字型全等專項(xiàng)練習(xí)題1(附答案詳解)
- 正常分娩產(chǎn)婦護(hù)理查房
- 紅色經(jīng)典影片與近現(xiàn)代中國(guó)發(fā)展答案考試
- 2018年10月自考00015英語二真題及答案含解析
- 降低會(huì)陰側(cè)切率的PDCA
- 推進(jìn)文化自信自強(qiáng),鑄就社會(huì)主義文化新輝煌 心得體會(huì)
- 《西醫(yī)外科學(xué)》教學(xué)大綱:膽道感染及膽石病
- 私宅施工方案
- 提升國(guó)家語言能力的若干思考
- 四年級(jí)語文硬筆書法比賽方案
- 城鎮(zhèn)污水處理文獻(xiàn)綜述
- 母乳喂養(yǎng)質(zhì)量檢查評(píng)分表
評(píng)論
0/150
提交評(píng)論