語音信號處理基礎(chǔ)知識_第1頁
語音信號處理基礎(chǔ)知識_第2頁
語音信號處理基礎(chǔ)知識_第3頁
語音信號處理基礎(chǔ)知識_第4頁
語音信號處理基礎(chǔ)知識_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)于語音信號處理基礎(chǔ)知識2.1概述語音信號處理目的:一是要通過處理得到一些反映語音信號重要特征的語音參數(shù)以便高效的傳輸或儲存語音信號信息;二是要通過處理的某種運算以達(dá)到某種用途的要求,例如人工合成出語音、辨識出講話者、識別出講話的內(nèi)容等等。

研究用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理的一門學(xué)科第2頁,共58頁,2024年2月25日,星期天語音中包含的信息語言(文字)說話人、性別方言:認(rèn)老鄉(xiāng)的主要依據(jù)情感(情緒)語種:國外找“親人”的主要信息來源說話方式(快、慢、耳語)語音品質(zhì)(口語、朗誦、流暢性、動聽度)健康狀況:特別是發(fā)音器官病變第3頁,共58頁,2024年2月25日,星期天重要概念語音音節(jié)元音、輔音清音、濁音聲母、韻母共振峰、音色語譜圖、聲紋第4頁,共58頁,2024年2月25日,星期天2.1概述2.2語音和語言2.3漢語語音學(xué)2.4語音生成系統(tǒng)和語音感知系統(tǒng)2.5語音信號生成的數(shù)學(xué)模型2.6語音信號的特性分析第2章語音信號處理的基礎(chǔ)知識第5頁,共58頁,2024年2月25日,星期天

2.2語音和語言語音是人的發(fā)聲器官發(fā)出的一種聲波,它具有一定的音色,音調(diào),音強和音長。一種聲音區(qū)別于另一種聲音的基本特征聲音的高低,它取決于聲波的頻率聲音的強弱,聲波的振動幅度決定聲音的長短叫音長,它取決于發(fā)音時間的長短第6頁,共58頁,2024年2月25日,星期天語音語音(Speech)=聲音(Acoustic)+語言(Language),是二者的組合體語音是由一連串的音組成語言的聲音第7頁,共58頁,2024年2月25日,星期天語言是從人們的話語中概括總結(jié)出來的規(guī)律性的符號系統(tǒng)。2.2語音和語言2.2語音和語言2.2語音和語言不同層次的單位:語素、詞、短語和句子語法和語義內(nèi)容:詞法、句法、文脈第8頁,共58頁,2024年2月25日,星期天2.2語音和語言人的說話的過程:第9頁,共58頁,2024年2月25日,星期天語音學(xué)(Phonetics)是研究言語過程的一門科學(xué)。它考慮的是語音產(chǎn)生、語音感知等的過程以及語音中各個音的特征和分類等問題。

現(xiàn)代語音學(xué)發(fā)展成為三個主要分支:

發(fā)音語音學(xué)

聲學(xué)語音學(xué)

聽覺語音學(xué)第10頁,共58頁,2024年2月25日,星期天2.2語音和語言第11頁,共58頁,2024年2月25日,星期天重要概念語音元音、輔音清音、濁音聲母、韻母音節(jié)共振峰、音色語譜圖、聲紋第12頁,共58頁,2024年2月25日,星期天2.2語音和語言

當(dāng)聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,這種音稱為元音。

第13頁,共58頁,2024年2月25日,星期天

2.2語音和語言呼出的聲流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。發(fā)輔音時由聲帶是否振動引起濁音和清音的區(qū)別,聲帶振動的是濁音,聲帶不振動的是清音。(b/p)第14頁,共58頁,2024年2月25日,星期天

2.2語音和語言決定元音音色的主要因素是舌頭的形狀及其在口腔中的位置(簡稱舌位)、嘴唇的形狀(簡稱口形)等。元音的另一個重要聲學(xué)特性是共振峰(Formant)。共振峰參數(shù)是區(qū)別不同元音的重要參數(shù),它一般包括共振峰頻率(FormantFrequency)的位置和頻帶寬度(FormantBandwidth)。

一般地說,女聲和童聲的基頻高于男聲,但是實驗表明:區(qū)分語音是男聲還是女聲、是成人聲音還是兒童聲音,更重要的因素是共振峰頻率的高低。

第15頁,共58頁,2024年2月25日,星期天

2.2語音和語言發(fā)音器官產(chǎn)生元音的三條件①聲道受到聲帶振動的激勵引起共振;②在語音流的持續(xù)過程中,聲道不發(fā)生極端的狹窄,并維持較穩(wěn)定的形狀;③和鼻腔不發(fā)生偶合,聲音只從口腔輻射出去。這三個條件中,只要缺少其中之一,則該語音就是輔音。輔音沒有明確的共振峰結(jié)構(gòu)。輔音發(fā)音時的阻礙的位置叫調(diào)音點(PlaceofArticulation)、阻礙的方法叫調(diào)音方式(MannerofArticulation)第16頁,共58頁,2024年2月25日,星期天

2.2語音和語言調(diào)音方式等的不同可以把輔音分成如下幾類:塞音、摩擦音、塞擦音、鼻音、邊音、顫音、通音。根據(jù)發(fā)輔音時聲帶有無振動,可以把輔音分類成濁輔音和清輔音。根據(jù)輔音除阻后是否緊跟著送出一股氣來,可以把輔音分類成送氣輔音和不送氣輔音。第17頁,共58頁,2024年2月25日,星期天2.1概述2.2語音和語言2.3漢語語音學(xué)2.4語音生成系統(tǒng)和語音感知系統(tǒng)2.5語音信號生成的數(shù)學(xué)模型2.6語音信號的特性分析第2章語音信號處理的基礎(chǔ)知識第18頁,共58頁,2024年2月25日,星期天重要概念語音音節(jié)元音、輔音清音、濁音聲母、韻母共振峰、音色語譜圖、聲紋第19頁,共58頁,2024年2月25日,星期天

2.3漢語語音學(xué)漢語語音的特點:

音系簡單。這是指音素少、音節(jié)少。音節(jié)的結(jié)構(gòu)也比較簡單。

由于清輔音多,而且多是弱清音,而且開口呼的音節(jié)占全部音節(jié)的一半以上,所以漢語語音聽感上有清亮、高揚和舒服、柔和的感覺。

有鮮明的輕重音和兒化韻,所以字詞分隔清楚,語言表達(dá)準(zhǔn)確而豐富。

第20頁,共58頁,2024年2月25日,星期天

漢語的拼音方法漢語由音素構(gòu)成聲母或韻母。有時,將含有聲調(diào)(漢語通常認(rèn)為有五個聲調(diào))的韻母稱為調(diào)母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞(其中主要是兩音節(jié)字構(gòu)成的兩字詞,約占74%),最后再由詞構(gòu)成句子。國際上,都是用音標(biāo)來描述拼音過程的。漢語也不例外。漢語拼音的音標(biāo)包括:聲母表、韻母表和聲調(diào)符號等。

第21頁,共58頁,2024年2月25日,星期天漢語音節(jié)的一般結(jié)構(gòu)

漢語音節(jié)一般由聲母、韻母和聲調(diào)三部分組成。漢語普通話中有6000多個常用字每個漢字是一個音節(jié),如將同音字合一處理,則漢語中共有1332個有調(diào)音節(jié),其中可以單念的有1268個。漢語中一般有五個聲調(diào),即陰平、陽平、上聲、去聲以及輕聲。如果不考慮聲調(diào),則漢語中無調(diào)音節(jié)共有407個。

漢語音節(jié)的一般結(jié)構(gòu),由9個部分組成。其中1~4段屬于聲母(輔音),6~9段屬于韻母(元音),第5段是二者的過渡段。一個音節(jié)可能只包含里面的某幾段,但是第7段(主要元音段)是每個音節(jié)是具有的。

第22頁,共58頁,2024年2月25日,星期天漢語音節(jié)的一般結(jié)構(gòu)第23頁,共58頁,2024年2月25日,星期天漢語聲母的結(jié)構(gòu)

普通話中的22個聲母可分為六大類:擦音塞音塞擦音邊音鼻音零聲母除零聲母之外,其他所有的聲母全部都是單輔音。

第24頁,共58頁,2024年2月25日,星期天漢語韻母的結(jié)構(gòu)

普通話的38個韻母大致可以分為三類8個單韻母,如[a]、[i]、[u]等14個復(fù)韻母,如[ai]、[ao]等16個鼻韻母如[an]、[uang]等在這38個韻母中有三個(-i、er、ê)是特殊韻母。應(yīng)該注意,元音并不等于韻母。元音、輔音是按音素的發(fā)音特征分類的;而聲母、韻母則是按音節(jié)結(jié)構(gòu)分類的。這是兩種不同的概念,盡管它們之間有一定的聯(lián)系。

第25頁,共58頁,2024年2月25日,星期天聲母和韻母的相互作用——音征互載

在普通話里,聲母和韻母的音征并不總是在各自的音段之內(nèi),而且又可能跨越兩者的邊界,即聲母里可能會帶有韻母的信息,韻母里也可能帶有聲母的信息,如輔音音渡。如果把韻母從元音起始就開始算起的話,那么音渡就是韻母中載帶的輔音音征,對于某些輔音來說,如不送氣塞音[b]、[d],元音里的音渡正是它們之間相互區(qū)別的主要音征。而韻母中的某些音征有聲帶載帶的現(xiàn)象,最典型的就是介音的實現(xiàn)方式。第26頁,共58頁,2024年2月25日,星期天漢語的聲調(diào)漢語是一種聲調(diào)語言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對應(yīng)著不同的漢字。漢語普通話的聲調(diào)只有陰平、陽平、上聲、去聲以及“輕聲”等五種聲調(diào)。聲調(diào)的變化就是濁音基音周期(或基音頻率)的變化,各個韻母段中基音周期隨時間的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。

第27頁,共58頁,2024年2月25日,星期天漢語的聲調(diào)漢語普通話四種聲調(diào)的典型曲線:

第28頁,共58頁,2024年2月25日,星期天2.1概述2.2語音和語言2.3漢語語音學(xué)2.4語音生成系統(tǒng)和語音感知系統(tǒng)2.5語音信號生成的數(shù)學(xué)模型2.6語音信號的特性分析第2章語音信號處理的基礎(chǔ)知識第29頁,共58頁,2024年2月25日,星期天2.4語音生成系統(tǒng)和語音感知系統(tǒng)語音發(fā)音系統(tǒng)

人的發(fā)音器官包括:肺、氣管、喉(包括聲帶)、咽、鼻和口。這些器官共同形成一條形狀復(fù)雜的管道。喉的部分稱為聲門。從聲門到嘴唇的呼氣通道叫做聲道(VocalTract)。聲道的形狀主要由嘴唇、顎和舌頭的位置來決定。由聲道形狀的不斷改變,而發(fā)出不同的語音。

第30頁,共58頁,2024年2月25日,星期天語音聽覺系統(tǒng)人耳由內(nèi)耳、中耳和外耳三部分組成。外耳由耳翼、外耳道和鼓膜構(gòu)成。外耳在對聲音的感知中起著聲源定位和聲音放大的作用。中耳包括由錘骨、砧骨和鐙骨這三塊聽小骨構(gòu)成的聽骨鏈以及咽鼓管等組成。中耳的作用是進(jìn)行聲阻抗的變換,即將中耳兩端的聲阻抗匹配起來,同時對內(nèi)耳起著保護(hù)的作用。內(nèi)耳的主要構(gòu)成器官是耳蝸(Cochlea)。它是聽覺的受納器,把聲音通過機械變換產(chǎn)生神經(jīng)發(fā)放信號。

第31頁,共58頁,2024年2月25日,星期天語音聽覺系統(tǒng)人的聽覺系統(tǒng)

第32頁,共58頁,2024年2月25日,星期天語音聽覺系統(tǒng)人的聽覺系統(tǒng)有兩個重要特性,一個是耳蝸對于聲信號的時頻分析特性;另一個是人耳聽覺掩蔽效應(yīng)。如果信號是一個多頻率信號,則產(chǎn)生的行波將沿著基底膜在不同的位置產(chǎn)生最大幅度。從這個意義上講,耳蝸就象一個頻譜分析儀,將復(fù)雜的信號分解成各種頻率分量。并非所有的聲音都能被人耳聽到,這取決于聲音的強度和其頻率范圍。心理聲學(xué)中的聽覺掩蔽效應(yīng)是指,在一個強信號附近,弱信號將變得不可聞,被掩蔽掉了。時間掩蔽:同時掩蔽和短時掩蔽頻率掩蔽第33頁,共58頁,2024年2月25日,星期天2.1概述2.2語音和語言2.3漢語語音學(xué)2.4語音生成系統(tǒng)和語音感知系統(tǒng)2.5語音信號生成的數(shù)學(xué)模型2.6語音信號的特性分析第2章語音信號處理的基礎(chǔ)知識第34頁,共58頁,2024年2月25日,星期天

2.5語音信號生成的數(shù)學(xué)模型所謂建立數(shù)學(xué)模型就是要尋求一種可以表達(dá)一定物理狀態(tài)下量與量之間關(guān)系的數(shù)學(xué)表示。建立了語音信號的數(shù)字模型,才能夠用計算機來定量地對語音信號進(jìn)行模擬和處理。所以語音信號生成的數(shù)學(xué)模型是語音信號處理的基礎(chǔ)。

第35頁,共58頁,2024年2月25日,星期天

2.5語音信號生成的數(shù)學(xué)模型理想的模型是線性的和時不變的。語音信號是非平穩(wěn)隨機過程,其特性是隨著時間變化的,所以模型中的參數(shù)應(yīng)該是隨時間而變化的。但語音信號特性隨著時間變化是很緩慢的。所以可以作出一些合理的假設(shè),將語音信號分為一些相繼的短段進(jìn)行處理,在這些短段中可以認(rèn)為語音信號特性是不隨著時間變化的平穩(wěn)隨機過程。這樣在這些短段時間內(nèi)表示語音信號時,可以采用線性時不變模型。

第36頁,共58頁,2024年2月25日,星期天激勵模型激勵模型一般分成濁音激勵和清音激勵來討論。發(fā)濁音時,由于聲帶不斷張開和關(guān)閉,將產(chǎn)生間歇的脈沖波。這個脈沖波的波形類似于斜三角形的脈沖,它的數(shù)學(xué)表達(dá)式如下:

式中,N1為斜三角波上升部分的時間,N2為其下降部分的時間。單個斜三角波波形的頻譜的圖形如圖2-18所示。由圖可見,它是一個低通濾波器。它的變換的全極模型的形式是:

第37頁,共58頁,2024年2月25日,星期天激勵模型這里,c是一個常數(shù)。顯然,上式表示斜三角波形可描述為一個二極點的模型。因此,斜三角波形串可視為加權(quán)了單位脈沖串激勵上述單個斜三角波模型的結(jié)果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式:所以,整個濁音激勵模型可表示為:也就是說濁音激勵波是一個以基音周期為周期的斜三角脈沖串。第38頁,共58頁,2024年2月25日,星期天

聲道模型關(guān)于聲道部分的數(shù)學(xué)模型,有多種觀點,目前最常用的有兩種建模方法。一是把聲道視為由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng)。按此觀點推導(dǎo)出的叫“聲管模型”。另一個是把聲道視為一個諧振腔,按此推導(dǎo)出的叫“共振峰模型”。

共振峰模型,把聲道視為一個諧振腔。共振峰就是這個腔體的諧振頻率。由于人耳聽覺的柯替氏器官的纖毛細(xì)胞就是按頻率感受而排列其位置的,所以這種共振峰的聲道模型方法是非常有效的。一般來說,一個元音用前三個共振峰來表示就足夠了;而對于較復(fù)雜的輔音或鼻音,大概要用到前五個以上的共振峰才行?;谖锢砺晫W(xué)的共振峰理論,可以建立起三種實用的共振峰模型:級聯(lián)型、并聯(lián)型和混合型。

第39頁,共58頁,2024年2月25日,星期天聲道模型級聯(lián)型這時認(rèn)為聲道是一組串聯(lián)的二階諧振器。從共振峰理論來看,整個聲道具有多個諧振頻率和多個反諧振頻率,所以它可被模擬為一個零極點的數(shù)學(xué)模型;但對于一般元音,則用全極點模型就可以了。它的傳輸函數(shù)可分解表示為多個二階極點的網(wǎng)絡(luò)的串聯(lián):

第40頁,共58頁,2024年2月25日,星期天聲道模型級聯(lián)型第41頁,共58頁,2024年2月25日,星期天聲道模型并聯(lián)型對于非一般元音以及大部分輔音,必須考慮采用零極點模型。此時,模型的傳輸函數(shù)如下:

通常,N>R,且設(shè)分子與分母無公因子及分母無重根,則上式可分解為如下部分分式之和的形式:這就是并聯(lián)型的共振峰模型。如圖2-21所示(M=5)。第42頁,共58頁,2024年2月25日,星期天聲道模型并聯(lián)型第43頁,共58頁,2024年2月25日,星期天聲道模型混合型上述兩種模型中,級聯(lián)型比較簡單,可以用于描述一般元音。當(dāng)鼻化元音或鼻腔參與共振,以及阻塞音或摩擦音等情況時,級聯(lián)模型就不能勝任了。這時腔體具有反諧振特性,必須考慮加入零點,使之成為零極點模型。采用并聯(lián)結(jié)構(gòu)的目的就在于此,它比級聯(lián)型復(fù)雜些,每個諧振器的幅度都要獨立地給以控制。但對于鼻音、塞音、擦音以及塞擦音等都可以適用。正因為如此,將級聯(lián)模型和并聯(lián)模型結(jié)合起來的混合模型也許是比較完備的一種共振峰模型。

第44頁,共58頁,2024年2月25日,星期天聲道模型混合型共振峰模型

第45頁,共58頁,2024年2月25日,星期天輻射模型從聲道模型輸出的是速度波

,而語音信號是聲壓波

,二者之倒比稱為輻射阻抗

。它表征口唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。當(dāng)然,從理論上推導(dǎo)這個阻抗是有困難的。但是如果認(rèn)為口唇張開的面積遠(yuǎn)小于頭部的表面積,則可近似地看成平板開槽輻射的情況。此時,可推導(dǎo)出輻射阻抗的公式如下:式中,,這里,是口唇張開時的開口半徑,是聲波傳播速度。圖2-24顯示了輻射阻抗的實部和虛部的頻率響應(yīng)曲線。由輻射引起的能量損耗正比于輻射阻抗的實部,所以輻射模型是一階類高通濾波器。

第46頁,共58頁,2024年2月25日,星期天語音信號的數(shù)學(xué)模型

綜上所述,完整的語音信號的數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)來表示。如圖所示:

它的傳輸函數(shù)可以表示為:第47頁,共58頁,2024年2月25日,星期天語音信號的數(shù)學(xué)模型這里,U(z)是激勵信號,濁音時U(z)是聲門脈沖即斜三角形脈沖序列的z變換;在清音的情況下,U(z)是一個隨機噪聲的z變換。V(z)是聲道傳輸函數(shù),既可用聲管模型,也可以共振峰模型等來描述。實際上就是全極點模型:上式所示模型的內(nèi)部結(jié)構(gòu)并不和語音產(chǎn)生的物理過程相一致,但這種模型和真實模型在輸出處是等效的。第48頁,共58頁,2024年2月25日,星期天2.1概述2.2語音和語言2.3漢語語音學(xué)2.4語音生成系統(tǒng)和語音感知系統(tǒng)2.5語音信號生成的數(shù)學(xué)模型2.6語音信號的特性分析第2章語音信號處理的基礎(chǔ)知識第49頁,共58頁,2024年2月25日,星期天2.6語音信號的特性分析語音信號的特性主要是指它的聲學(xué)特性、語音信號的時域波形和頻譜特性以及語音信號的統(tǒng)計特性等。在時間域里,語音信號可以直接用它的時間波形表示出來,通過觀察時間波形可以看出語音信號的一些重要特性。第50頁,共58頁,2024年2月25日,星期天語音信號的時域波形

下圖是漢語拼音“souke”的時間波形。表示這段語音波形時采用的采樣頻率是8kHz,量化精度是16bit。從B點開始的音節(jié)[OU]從D點開始的音節(jié)[e]元音具有明顯的周期性,且振幅較大清輔音的波形類似于白噪聲,振幅很小,沒有明顯的周期性從A點開始的音節(jié)[s]從C點開始的音節(jié)[k]第51頁,共58頁,2024年2月25日,星期天語音信號的頻譜特性語音信號屬于短時平穩(wěn)信號,一般認(rèn)為在10~30ms內(nèi)語音信號特性基本上是不變的,或者變化很緩慢。于是,可以從中截取一小段進(jìn)行頻譜分析。下圖給出“sou”中音素“ou”的傅里葉變換:頻率/kHz幅度/dB第52頁,共58頁,2024年

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論