語音信號處理 第4版 課件全套 魏昕 第1-13章:語音信號處理緒論-多模態(tài)語音信號處理_第1頁
語音信號處理 第4版 課件全套 魏昕 第1-13章:語音信號處理緒論-多模態(tài)語音信號處理_第2頁
語音信號處理 第4版 課件全套 魏昕 第1-13章:語音信號處理緒論-多模態(tài)語音信號處理_第3頁
語音信號處理 第4版 課件全套 魏昕 第1-13章:語音信號處理緒論-多模態(tài)語音信號處理_第4頁
語音信號處理 第4版 課件全套 魏昕 第1-13章:語音信號處理緒論-多模態(tài)語音信號處理_第5頁
已閱讀5頁,還剩390頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章語音信號處理緒論為什么要學(xué)習(xí)這門課程語音信號處理發(fā)展概況本課程知識體系架構(gòu)1.1為什么要學(xué)習(xí)這門課程語音信號處理的定義:語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進行處理的一門學(xué)科語音信號處理需要數(shù)字信號處理和語音學(xué)兩方面的知識作為基礎(chǔ)。語音學(xué)是研究言語過程的一門科學(xué),它包括:發(fā)音語音學(xué)、聲學(xué)語音學(xué)和聽覺語音學(xué)三大分支。1.1為什么要學(xué)習(xí)這門課程言語過程的五個階段:想說、說出、傳輸、接受、理解。1.1為什么要學(xué)習(xí)這門課程語音處理技術(shù)的應(yīng)用極其廣泛,包括:工業(yè)、軍事、交通、醫(yī)學(xué)、民用等各個領(lǐng)域。語音識別具有十分廣泛的應(yīng)用:

①可以進行聲控應(yīng)用;②VoiceActivatedDialing(VAD)語音撥號;③可以用于自動口語翻譯(實現(xiàn)不同語言之間的直接通信);④可以將語音識別與語音合成技術(shù)相結(jié)合,構(gòu)成一種超低比特率的語音通信系統(tǒng)。

1.1為什么要學(xué)習(xí)這門課程說話人識別已在安全加密、銀行信息電話查詢服務(wù)等方面得到了應(yīng)用,此外在公安機關(guān)破案和法庭取證方面可以應(yīng)用。語種辨識在軍事情報工作、國家安全事務(wù)中有重要應(yīng)用。語音合成技術(shù)的一個應(yīng)用實例,是計算機語聲應(yīng)答系統(tǒng)。語音編碼技術(shù)的根本作用是使語音通信數(shù)字化。語音增強系統(tǒng)的基本應(yīng)用是去混響,或去回聲,消除噪聲,或從潛水員使用的氦氧混合氣體下的發(fā)音中恢復(fù)出可懂的語音等。

1.1為什么要學(xué)習(xí)這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號處理技術(shù)已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應(yīng)用,并已成為當(dāng)前主流操作系統(tǒng)和應(yīng)用程序中人機交互的重要手段。3.語音信號技術(shù)始終與當(dāng)時信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。1.1為什么要學(xué)習(xí)這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號處理技術(shù)已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應(yīng)用,并已成為當(dāng)前主流操作系統(tǒng)和應(yīng)用程序中人機交互的重要手段。3.語音信號技術(shù)始終與當(dāng)時信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。為什么要學(xué)習(xí)這門課程語音信號處理發(fā)展概況本課程知識體系架構(gòu)1.2語音信號處理技術(shù)發(fā)展概況20世紀(jì)40年代~60年代(萌芽階段)(1)可追溯到1940年前后Dudley的聲碼器,其從語音中提取參數(shù)加以傳輸,在收端重新合成語音。即,產(chǎn)生“語音參數(shù)模型”了思想;

(2)1952年貝爾實驗室研制成功能識別10個英文數(shù)字的實驗裝置;(3)1956年Olsen等人采用8個帶通濾波器組提取頻譜參數(shù),研制成功最早的語音打字機;(4)數(shù)字信號處理技術(shù)(數(shù)字濾波器,F(xiàn)FT等)快速發(fā)展,成為語音信號處理理論和技術(shù)的基礎(chǔ)。1.2語音信號處理技術(shù)發(fā)展概況20世紀(jì)70年代~80年代(信號分析與處理階段)(1)1971年,美國ARPA主導(dǎo)的“語音理解系統(tǒng)”研究計劃開始啟動,促進了語音識別研究的興起;

(2)70年代初,動態(tài)時間規(guī)整技術(shù)(DTW)用于語音識別;(3)70年代中期,線性預(yù)測技術(shù)(LPC)技術(shù)用于語音信號分析;(4)70年代末,矢量量化技術(shù)(VQ)用于語音編碼。(5)80年代,Baum等提出隱馬爾可夫模型(HMM),后被Baker等用于語音識別中,取得巨大成功。1.2語音信號處理技術(shù)發(fā)展概況20世紀(jì)90年代(向傳統(tǒng)人工智能過渡階段)(1)語音識別逐漸由實驗室走向?qū)嵱没簩β晫W(xué)語音學(xué)統(tǒng)計模型研究逐漸深入,講者自適應(yīng)/聽覺模型/語言模型也備受關(guān)注;

(2)以PSOLA為代表的波形拼接語音合成方法得到廣泛應(yīng)用;(3)出現(xiàn)了4~8kbit/s的波形與參數(shù)混合語音編碼器;(4)以找出包含在語音信號中的說話人個性因素以及情感因素的說話人識別方法,語音信號的情感信息處理等方向開始興起。(5)語音增強與去噪技術(shù),盲分離技術(shù)受到關(guān)注。1.2語音信號處理技術(shù)發(fā)展概況2000年~2020年(以深度學(xué)習(xí)為代表的人工智能主導(dǎo)階段)(1)2006年,Hinton等人提出了深度學(xué)習(xí)技術(shù);

(2)2010年,深度學(xué)習(xí)技術(shù)首先被應(yīng)用于語音識別系統(tǒng),在各項任務(wù)上大幅提升了識別準(zhǔn)確率;(3)2010年后,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機制、生成對抗網(wǎng)絡(luò)、Transformer等深度學(xué)習(xí)技術(shù)進一步發(fā)展;(4)深度學(xué)習(xí)技術(shù)已應(yīng)用于語音識別、語音合成、語音編碼、語音情感信息處理等各個方向上,均取得了很好的效果。1.2語音信號處理技術(shù)發(fā)展概況2020年后(多模態(tài)語音信號處理階段)(1)文本、圖像、視頻、觸覺、運動、生理等數(shù)據(jù)采集手段豐富,上述模態(tài)信息與語音信號深度融合;

(2)將其他模態(tài)信息引入語音信號處理各方向、各任務(wù)中,進一步提升了語音信號處理系統(tǒng)的性能,產(chǎn)生了“多模態(tài)語音信號處理”這一新方向。(3)2020年南京郵電大學(xué)周亮教授團隊提出的跨模態(tài)通信與信息恢復(fù)技術(shù),極大提升了包括語音在內(nèi)的多模態(tài)信息的傳輸與處理效率。為什么要學(xué)習(xí)這門課程語音信號處理發(fā)展概況本課程知識體系架構(gòu)1.3本課程知識體系架構(gòu)模塊一:基礎(chǔ)知識(Chapter2~3)(1)語音信號處理的基礎(chǔ)知識(2)語音信號處理的常用算法模塊二:分析方法(Chapter4)(1)語音信號的時域和頻域分析(2)語音信號的倒譜和線性預(yù)測分析模塊三:特征提取技術(shù)(Chapter5)語音信號的端點檢測、基音周期、共振峰估計模塊四:典型處理技術(shù)(Chapter6~10)語音增強、語音識別、說話人識別、語音編碼、語音合成模塊五:前沿技術(shù)(Chapter11~13)語音信號情感處理、聲源定位、多模態(tài)語音信號處理1.3教材2003年4月第一版,2009年6月第二版,2016年5月第三版,2024年7月第四版累計印刷20次,發(fā)行近8萬冊,被多所高校選為教材2023年9月以來,開始第四輪改版??傮w原則:在相對穩(wěn)定中力求變革,處理好經(jīng)典理論與最新技術(shù)的相互融合。兩大變化:增加深度學(xué)習(xí)方法用于經(jīng)典語音信號處理任務(wù)的內(nèi)容;增加關(guān)于多模態(tài)語音信號處理技術(shù)的介紹。

南京郵電大學(xué)

通信與信息工程學(xué)院

第2章語音信號處理的基礎(chǔ)知識語音發(fā)音及感知系統(tǒng)語音信號生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號的數(shù)字化和預(yù)處理2.1語音發(fā)音及感知系統(tǒng)語音發(fā)音系統(tǒng)語音是由肺部呼出的氣流通過在喉頭至嘴唇的各種作用而發(fā)出的。(1)把肺部呼出的直氣流變?yōu)橐粼?;?)對音源其共振和反共振作用,使其帶有音色;(3)從嘴唇或鼻孔向空間輻射的作用;聲門:聲帶之間的部分,開啟或閉合,其開閉一次的時間為基音周期(倒數(shù)為基音頻率);男性:50~250Hz,女性:100~500Hz聲道:從聲門到嘴唇的呼氣通道;發(fā)濁音時,聲門處氣流沖擊聲帶產(chǎn)生振動,通過聲道響應(yīng)變?yōu)檎Z音。發(fā)清音時,聲帶不振動。2.1語音發(fā)音及感知系統(tǒng)語音聽覺系統(tǒng)分為聽覺外周和聽覺中樞兩部分。聽覺外周(外耳、中耳、內(nèi)耳、蝸神經(jīng)):完成聲音的采集、頻率分解、聲能轉(zhuǎn)換功能;聽覺中樞(位于聽神經(jīng)以上):加工和分析聲音,包括感知聲音的音色、音調(diào)、聲強、判斷方位等。2.1語音發(fā)音及感知系統(tǒng)語音聽覺系統(tǒng)外耳:對聲音感知中起著聲源定位以及聲音放大作用;中耳:進行聲阻抗變換;聽小骨對聲音進行線性或非線性傳遞;內(nèi)耳:主要構(gòu)成器官是耳蝸,是聽覺的受納器,把聲音通過機械變換產(chǎn)生神經(jīng)發(fā)放信號。2.1語音發(fā)音及感知系統(tǒng)人耳聽覺特性基底膜的頻率響應(yīng)分布多通道濾波器實現(xiàn)人類能夠聽到的聲音頻率為20~20000Hz,強度為-5~130dB。耳蝸基底膜具有時頻分析儀的功能,將復(fù)雜信號分解為各種頻率分量。可由一組伽馬通濾波器實現(xiàn),每個濾波器模擬基底膜不同部位最大位移處的響應(yīng)。2.1語音發(fā)音及感知系統(tǒng)人耳聽覺掩蔽效應(yīng)掩蔽效應(yīng):在一個強信號附近,弱信號變得不可聞。最小可聽閾曲線:在安靜環(huán)境下,人耳對各種頻率聲音可以聽到的最低聲壓(人耳對低頻率和高頻率不敏感,在1kHz附近最為敏感)。由于位于1kHz頻率的掩蔽聲存在,使聽閾曲線發(fā)生了變化,本可以聽到的三個被掩蔽聲,變得聽不到了。

在掩蔽聲附近發(fā)生了掩蔽效應(yīng)。同時掩蔽:強信號和弱信號同時出現(xiàn)。頻率靠的越近,掩蔽聲越強,掩蔽效應(yīng)越明顯。短時掩蔽:強信號和弱信號不同時出現(xiàn)。又分為后向掩蔽和前向掩蔽。語音發(fā)音及感知系統(tǒng)語音信號生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號的數(shù)字化和預(yù)處理2.2語音信號生成的數(shù)學(xué)模型語音信號的數(shù)字模型U(z)是激勵信號,濁音時U(z)是聲門脈沖,即,斜三角脈沖序列的z變換;清音時,U(z)是一個隨機噪聲的z變換。V(z)是聲道傳遞函數(shù),可用聲管模型或共振峰模型來描述。R(z)為輻射模型,一般為一階高通形式。模擬了語音發(fā)音系統(tǒng)!2.2語音信號生成的數(shù)學(xué)模型激勵模型

G(z)是一個低通濾波器。濁音激勵模型可表示為以基音周期1/F0為周期的單位脈沖序列E(z)激勵G(z),得到的U(z)是一個周期斜三角脈沖串:發(fā)清音時,可以模擬成隨機白噪聲(均值為0,方差為1,在時間或幅度上為白色分布的序列)。發(fā)濁音時,由于聲帶不斷張開和關(guān)閉,將產(chǎn)生間歇的脈沖波。首先,單個脈沖波(斜三角波)的時頻域波形(g(n),G(z))如下:2.2語音信號生成的數(shù)學(xué)模型聲道模型(共振峰模型)把聲道視為一個諧振腔,共振峰為腔體的諧振頻率。一般地,元音用前3個共振峰表示,而對于較復(fù)雜的輔音或鼻音,需要用到前5個以上的共振峰。(實際中需要求出每個濁音/清音的共振峰頻率、帶寬、幅度等參數(shù))級聯(lián)型:傳遞函數(shù)V(z)為全極點模型,結(jié)構(gòu)簡單,適用于一般濁音。并聯(lián)型:傳遞函數(shù)V(z)加入了零點,結(jié)構(gòu)復(fù)雜,適用于非一般濁音以及大部分清音。2.2語音信號生成的數(shù)學(xué)模型聲道模型(共振峰模型)混合型:將上述二者結(jié)合。研究表明,口唇端輻射在高頻較為顯著,在低頻端時影響較小,所以輻射模型R(z)是一階類高通濾波器的形式。輻射模型語音發(fā)音及感知系統(tǒng)語音信號生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號的數(shù)字化和預(yù)處理2.3語音基本概念與參數(shù)基本參數(shù)聲壓與聲強:(1)聲壓、有效聲壓、聲壓級(SPL);(2)聲強、聲強級(IL);(3)聲壓與聲強的關(guān)系;響度:聲音的響亮程度頻率與音高:音高是以人的主觀感受來評價所聽到的聲音高低2.3語音基本概念與參數(shù)時域波形濁音[ou](B段),[e](D段)的波形具有明顯的周期性,且振幅較大,它們的周期與聲帶振動的頻率有關(guān),即為基音周期清音[s](A段),[k](C段)的波形類似于白噪聲,振幅很小,沒有明顯的周期性2.3語音基本概念與參數(shù)頻域特性濁音[ou]的頻譜,可以看出其基音頻率為300Hz,與時域波形一致。另外可以看出其共振峰(頻譜中的凸起點)。清音頻譜峰點之間的間隔是隨機的,沒有周期分量2.3語音基本概念與參數(shù)語譜圖表示語音頻譜隨時間變化的波形??v軸為頻率,橫軸為時間,任一給定頻率成分在給定時刻的強弱作用用相應(yīng)點的灰度濃淡來表示。--聲紋(反映說話人特性)橫杠:與時間軸平行的深黑色帶紋,對應(yīng)于短時譜中的共振峰,從橫杠對應(yīng)的頻率和帶寬可確定共振峰頻率帶寬。豎直條:與時間軸垂直的一條窄黑條,每個豎直條相當(dāng)于一個基音,條紋的起點對應(yīng)聲門脈沖的起點,條紋間的距離表示基音周期。亂紋:清音語譜圖表現(xiàn)為亂紋。語音發(fā)音及感知系統(tǒng)語音信號生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號的數(shù)字化和預(yù)處理2.4語音信號的數(shù)字化和預(yù)處理語音信號的數(shù)字化包括:放大及增益控制、反混疊濾波、采樣、A/D轉(zhuǎn)換及編碼。(1)預(yù)濾波:抑制輸入信號各頻率分量中頻率超出fs/2的所有分量,以防止混疊干擾;抑制50Hz的電源工頻干擾。其常為帶通濾波器:上截止頻率為3400Hz左右,而下截止頻率為60~100Hz。(2)A/D轉(zhuǎn)換:會引起量化誤差(量化后信號與原信號之間的差值,又稱為量化噪聲);通常采用12位的A/D轉(zhuǎn)換器。數(shù)字化的反過程:從數(shù)字化語音中重構(gòu)語音波形,通常在D/A后加一個平滑濾波器,對重構(gòu)的語音波形的高次諧波其平滑作用,以去除高次諧波失真。語音信號的預(yù)處理包括:預(yù)加重、加窗、分幀等。2.4語音信號的數(shù)字化和預(yù)處理語音信號的預(yù)處理包括:預(yù)加重、加窗、分幀等。為什么要預(yù)加重和去加重?語音信號低頻段能量大,高頻段能量小,而接收機鑒頻器輸出的低頻噪聲小,高頻噪聲大;造成信號低頻信噪比大,而高頻信號比小,使高頻傳輸困難。預(yù)加重的做法?在噪聲引入之前采用預(yù)加重網(wǎng)絡(luò),人為提升發(fā)射機輸入調(diào)制信號的高頻分量。具體做法:在取樣后,插入一個一階高通濾波器。去加重的做法?在接收機鑒頻器輸出端,采用去加重網(wǎng)絡(luò)把高頻分量壓制,恢復(fù)原信號功率。優(yōu)點:預(yù)加重對噪聲沒有影響,而去加重同時也減小了噪聲的高頻分量,因此有效提高了輸出信噪比。

南京郵電大學(xué)

通信與信息工程學(xué)院

第3章語音信號處理的常用算法矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.1矢量量化標(biāo)量量化:整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值。對于一個輸入的標(biāo)量信號,量化時落入小區(qū)間的值就用這個代表值來代替,或者被量化為這個代表值。矢量量化:是對矢量進行量化,和標(biāo)量量化一樣,它把矢量空間分成若干個小區(qū)域,每個小區(qū)域?qū)ふ乙粋€代表矢量,量化時落入小區(qū)域的矢量就用這個代表矢量代替,或者稱為“被量化為這個代表矢量”。矢量量化的目的:將若干個標(biāo)量數(shù)據(jù)組成一個矢量(或者從一幀語音數(shù)據(jù)中提取的特征矢量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。3.1矢量量化—基本原理設(shè)有N個K維特征矢量其中第i個矢量(可看作語音信號中某幀參數(shù)組成的矢量)可記為把K維歐幾里得空間無遺漏地劃分成J個互不相交的子空間滿足:在每個子空間Rj找一個代表矢量Yj,則j個代表矢量可以組成矢量集為這樣組成了一個矢量量化器。Y稱為碼書或碼本;Yj稱為碼矢或碼字;J稱為碼本尺寸。不同的劃分或不同的代表矢量選取方法可以構(gòu)成不同的矢量量化器。3.1矢量量化—基本原理矢量量化過程:當(dāng)輸入任意矢量進行矢量量化時,矢量量化器首先判斷它屬于哪個子空間Rj,然后輸出該子空間Rj的代表矢量Yj

。即,用Yj代表Xi的過程,即,量化過程就是完成一個從K維歐幾里得空間中的矢量X到K維空間有限子集Y的映射通常Q(.)選擇是根據(jù)最小失真原理,分別計算用各碼矢Yj代替Xi所帶來的失真,其中產(chǎn)生最小失真值時所對應(yīng)的那個碼矢,就是最終量化的輸出碼矢。缺點:存在量化噪聲!3.1矢量量化—基本原理矢量量化在語音通信中的應(yīng)用:編碼:解碼:矢量量化在語音識別中的應(yīng)用:3.1矢量量化—基本原理矢量量化需要解決的兩大關(guān)鍵問題:(1)設(shè)計一個好的碼本(“訓(xùn)練”或“學(xué)習(xí)”):需要搜集海量且具有代表性的數(shù)據(jù);要選擇一個好的失真度量準(zhǔn)則以及碼本優(yōu)化方法(常用LBG算法來實現(xiàn))。(2)未知矢量的量化:需要按照選定的失真測度準(zhǔn)則,把未知矢量量化為失真測度最小的區(qū)域邊界的中心(碼字)矢量值,并獲得該碼字的序列號(碼字在碼本中的地址或標(biāo)號)。存在兩矢量在進行比較時的測度問題;未知矢量量化時的搜索策略。3.1矢量量化—失真測度失真測度的定義:是將輸入矢量Xi用碼本重構(gòu)矢量Yj表征時所產(chǎn)生的誤差或失真的度量方法,用以描述兩個或多個模型矢量間的相似程度。失真測度的選擇好壞直接影響到聚類效果和量化精度。設(shè)對兩個k維語音特征矢量X和Y進行比較,要使其距離測度d(X,Y)在語音信號處理中有效,必須具備以下條件:3.1矢量量化—失真測度常用的失真測度:(1)均方誤差歐氏距離(2)r平方誤差(3)r平均誤差(4)絕對值平均誤差(5)最大平均誤差(6)加權(quán)歐氏距離測度3.1矢量量化—失真測度線性預(yù)測失真測度:當(dāng)語音信號特征矢量是用線性預(yù)測方法求出的LPC系數(shù)時(即,用LPC參數(shù)描述語音信號時),不能直接用歐氏距離。當(dāng)預(yù)測器的階數(shù)p趨近于無窮大,信號與模型完全匹配時,信號功率譜為相應(yīng)地,如碼本中某重構(gòu)矢量的功率譜為可定義I-S距離來衡量二者失真:其中另外,還有對數(shù)似然比失真測度、模型失真測度、識別失真測度等。3.1矢量量化—最佳碼本設(shè)計碼本設(shè)計:用d(X,Y)表示訓(xùn)練用的特征矢量X和訓(xùn)練出的碼本的碼字Y之間的畸變,那么最佳碼本設(shè)計的任務(wù)就是在一定的條件下,使得此畸變的統(tǒng)計平均值D=E[d(X,Y)]達到最小。應(yīng)遵循的兩條原則:(1)最近鄰原則,表示為(2)設(shè)所有選擇碼字Yl(即歸屬于Yl所表示的區(qū)域)的輸入矢量X的集合為Sl,那么Yl應(yīng)使該集合中的所有矢量與Yl之間的畸變值最小。如果采用歐氏距離來度量X與Y之間的畸變值,那么容易證明Yl應(yīng)等于Sl中所有矢量的質(zhì)心:根據(jù)上述兩條原則,設(shè)計碼本設(shè)計的遞推算法——LBG算法。整個算法就是上述兩個條件的反復(fù)迭代過程,即從初始碼本尋找最佳碼本的迭代過程。3.1矢量量化—最佳碼本設(shè)計LBG算法的步驟:矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.2隱馬爾可夫模型—概述隱馬爾可夫模型(HiddenMarkovModels,HMM)作為語音信號的一種統(tǒng)計模型,在語音信號處理各個領(lǐng)域中獲得廣泛的應(yīng)用。HMM是一個輸出符號序列的統(tǒng)計模型,具有N個狀態(tài)S1,S2,…,SN,它按一定的周期從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài),每次轉(zhuǎn)移時,輸出一個符號。轉(zhuǎn)移到哪一個狀態(tài),轉(zhuǎn)移時輸出什么符號,分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時的輸出概率來決定。特點:只能觀測到輸出符號序列,而不能觀測到狀態(tài)轉(zhuǎn)移序列!3.2隱馬爾可夫模型—概述球和缸的實驗(隱馬爾可夫模型中“隱”的含義)設(shè)有N個缸,每個缸里裝有很多彩色的球,在同一個缸中不同顏色球的多少由一組概率分布來描述。根據(jù)某個初始概率分布,隨機選擇一個缸,再根據(jù)這個缸中彩色球顏色的概率分布,隨機選擇一個球,記下球的顏色,再把球放回缸中。又跟據(jù)描述缸的轉(zhuǎn)移的概率分布,選擇下一個缸,再從缸中隨機選一個球,……,一直進行下去,就可以得到一個描述球的顏色的序列。由于球的顏色和缸之間不是一一對應(yīng)的,所以缸之間的轉(zhuǎn)移以及每次選取的缸被隱藏起來了,并不能直接觀察到。3.2隱馬爾可夫模型—概述隱馬爾可夫模型和語音信號建模之間的關(guān)系HMM用于語音信號建模時,是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,它是數(shù)學(xué)上的雙重隨機過程:一個是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱隨機過程,另一個是與Markov鏈的每一狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。人的言語過程也可以看成一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。因此HMM合理地模仿了這一過程,很好地描述了語音信號整體非平穩(wěn)性和局部平穩(wěn)性。3.2隱馬爾可夫模型—定義離散Markov過程設(shè)在時刻t的隨機變量St的觀察值為st,則在S1=s1,S2=s2,…,St=st的前提下,St+1=st+1的概率為:即,系統(tǒng)在任一時刻所處的狀態(tài)只與此時刻的前一時刻所處的狀態(tài)有關(guān)(1階Markov過程)。此外,為了處理方便,只考慮右邊的概率與時間無關(guān)的情況,假設(shè)有N個不同的狀態(tài)(S1=s1,S2=s2,…,St=st),系統(tǒng)在經(jīng)歷了一段時間后,按照上式所定義的概率關(guān)系經(jīng)歷了一系列狀態(tài)的變化,此時輸出的是狀態(tài)序列。3.2隱馬爾可夫模型—定義隱Markov模型HMM是由兩個隨機過程組成的:一個是狀態(tài)轉(zhuǎn)移序列,它對應(yīng)于1階Markov過程,另一個是每次轉(zhuǎn)移時輸出的符號組成的符號序列。設(shè)狀態(tài)轉(zhuǎn)移序列為S=s1,

s2,…,sT,輸出的符號序列為O=o1,

o2,…,oT,則對于HMM,把所有可能得狀態(tài)轉(zhuǎn)移序列都考慮進去,則有3.2隱馬爾可夫模型—定義HMM的基本元素對于描述語音信號特征序列的HMM,可用如下6個模型參數(shù)來定義,即,S:模型中狀態(tài)的有限集合,即,模型由幾個狀態(tài)組成。設(shè)有N個狀態(tài),S={Si|i=1,2,…,N}。記t時刻所處的狀態(tài)為st,

球與缸實驗中的缸。O:輸出的觀測值符號的集合,即每個狀態(tài)對應(yīng)的可能的觀測值數(shù)目。記M個觀察值為O=o1,

o2,…,oT,記t時刻的觀察值為ot,球與缸實驗中所選彩球的顏色就是觀察值。A:狀態(tài)轉(zhuǎn)移概率的集合。aij是從狀態(tài)Si到Sj的轉(zhuǎn)移概率,

每次在當(dāng)前選取的缸的條件下選取下一個缸的概率。3.2隱馬爾可夫模型—定義HMM的基本元素對于描述語音信號特征序列的HMM,可用如下6個模型參數(shù)來定義,即,B:輸出觀測值概率集合。B={bij(k)},其中bij(k)是從狀態(tài)Si到Sj轉(zhuǎn)移時觀測值符號k的輸出概率。即缸中球的顏色k出現(xiàn)的概率。:系統(tǒng)初始狀態(tài)概率的集合,表示初始狀態(tài)是si的概率,即

開始時選取某個缸的概率F:系統(tǒng)終了狀態(tài)的集合3.2隱馬爾可夫模型—定義HMM用于語音識別對于每個孤立字(詞)需要準(zhǔn)備一個HMM,可以通過模型學(xué)習(xí)或訓(xùn)練來完成。對于任一要識別的未知孤立字(詞)語音,首先通過分幀、參數(shù)分析和特征參數(shù)提取,得到一組隨機向量序列X1,X2,…XT(T為觀察時間長度,即,幀數(shù));再通過矢量量化把上述序列轉(zhuǎn)化為符號序列O=o1,o2,…,oT;而后計算這組符號序列再每個HMM上的輸出概率,輸出概率最大的HMM對應(yīng)的孤立字(詞),就是識別結(jié)果。3.2隱馬爾可夫模型—基本算法HMM用于語音信號處理需要解決的三個問題(1)識別問題:給定觀察符號序列O=o1,o2,…,oT和模型,如何快速有效地計算觀察符號序列的輸出概率P(O|M)?解決方法:前向—后向算法(2)已知模型,尋找與給定觀察序列對應(yīng)的最佳狀態(tài)序列。解決方法:維特比算法(3)模型訓(xùn)練問題:對于初始模型和給定用于訓(xùn)練的觀察符號序列O=o1,o2,…,oT,如何調(diào)整模型的參數(shù),使得輸出概率P(O|M)最大?解決方法:Baum-Welch算法3.2隱馬爾可夫模型—基本算法前向—后向算法前向算法:按照輸出觀察值序列的時間,從前向后遞推計算輸出概率。3.2隱馬爾可夫模型—基本算法前向—后向算法P(O|M)的計算過程如下:3.2隱馬爾可夫模型—基本算法前向—后向算法后向算法:按照輸出觀察值序列的時間,從后向前遞推計算輸出概率。3.2隱馬爾可夫模型—基本算法維特比算法:給定觀察值序列O和模型M時,在最佳意義上確定一個狀態(tài)序列S=s1,s2,…,sT的問題,即使P(S,O|M)最大時確定的狀態(tài)序列。算法描述:在這個遞推公式中,每一次使得最大的狀態(tài)i組成的狀態(tài)序列就是所求的最佳狀態(tài)序列3.2隱馬爾可夫模型—基本算法維特比算法:實現(xiàn)步驟:3.2隱馬爾可夫模型—基本算法Baum-Welch算法:基本思想:給定一個觀察值O,確定M,使得P(O|M)最大。其利用遞歸思想,通過迭代得到P(O|M)的局部極值。具體地,在每次迭代中都使得由估計出的參數(shù)組成的新模型滿足。重復(fù)該過程,直至收斂,此時即為所求的模型。對于符號序列O,在時刻t從狀態(tài)Si轉(zhuǎn)移到狀態(tài)Sj的轉(zhuǎn)移概率為對于符號序列O,在時刻t時Markov鏈處于3.2隱馬爾可夫模型—基本算法Baum-Welch算法:對于符號序列O,從狀態(tài)Si轉(zhuǎn)移到Sj的轉(zhuǎn)移次數(shù)的期望值為從狀態(tài)Si轉(zhuǎn)移出去的次數(shù)的期望值為則重估公式為3.2隱馬爾可夫模型—基本算法Baum-Welch算法的實現(xiàn)步驟關(guān)于模型收斂(或者停止訓(xùn)練的判定)問題。矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.3深度學(xué)習(xí)—概述深度學(xué)習(xí)起源:2006年,GeoffreyHinton等學(xué)者提出深度信念網(wǎng)絡(luò)以及相應(yīng)的半監(jiān)督算法,開啟了深度學(xué)習(xí)的研究熱潮?;舅枷耄翰捎弥饘映跏蓟驼w反饋的方法,以受限玻爾茲曼機為基本單元來搭建神經(jīng)網(wǎng)絡(luò),利用無監(jiān)督預(yù)訓(xùn)練初始化權(quán)值以及有監(jiān)督參數(shù)微調(diào),來訓(xùn)練該神經(jīng)網(wǎng)絡(luò)的參數(shù)。在語音信號處理領(lǐng)域的應(yīng)用:傳統(tǒng)語音信號處理方法中,語音信號的分析與特征提取、目標(biāo)任務(wù)的完成通常是被當(dāng)作兩個相互分離的問題分別處理。帶來的問題是所提取的特征對于目標(biāo)任務(wù)而言常常不是最優(yōu)的。深度學(xué)習(xí)技術(shù)具有自動提取特征的能力,可以將上述兩個問題進行聯(lián)合處理。3.3深度學(xué)習(xí)—概述深度學(xué)習(xí)模型的優(yōu)點:(1)學(xué)習(xí)能力強,在很多任務(wù)中性能優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型。(2)適應(yīng)性好:深度學(xué)習(xí)模型的網(wǎng)絡(luò)層數(shù)多,理論上可以映射到任意函數(shù)。(3)數(shù)據(jù)驅(qū)動:深度學(xué)習(xí)高度依賴數(shù)據(jù),數(shù)據(jù)量越大,它的表現(xiàn)就越好。深度學(xué)習(xí)模型的缺點:(1)計算量大:深度學(xué)習(xí)需要大量的數(shù)據(jù)與算力支持。(2)硬件要求高:普通CPU無法滿足深度學(xué)習(xí)模型和算法的運算需求。(3)模型設(shè)計復(fù)雜:需要投入大量人力和時間來開發(fā)新的模型3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(DNN)的基本結(jié)構(gòu):具有多個隱藏層和多個輸出的網(wǎng)絡(luò),可以擬合復(fù)雜的非線性函數(shù),模型靈活性高。在DNN中,各神經(jīng)元分別屬于不同的層,每一層的神經(jīng)元可以接收前一層的神經(jīng)元信號,并產(chǎn)生信號輸出到下一層。L+1層DNN,輸入層為第0層,輸出層為第L層。第第l-1層與第l層的關(guān)系:

3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)DNN的激活函數(shù):3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:在數(shù)據(jù)輸入DNN經(jīng)過前向傳播得到輸出后,由預(yù)先定義的目標(biāo)函數(shù)可以計算損失,根據(jù)損失從后向前依次調(diào)整各層的權(quán)重與偏置,實現(xiàn)DNN參數(shù)的反向傳播。給定訓(xùn)練集,將每個樣本x輸入DNN,得到輸出為y,其損失函數(shù)定義為在一些語音信號處理任務(wù)中,常使用交叉熵作為損失函數(shù):計算權(quán)重目標(biāo)函數(shù)關(guān)于參數(shù)W和b的梯度,更新如下:3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:由于梯度下降法在計算損失函數(shù)對參數(shù)的偏導(dǎo)數(shù)時,會帶來很大的計算開銷,因而在DNN訓(xùn)練過程中,通常通過反向傳播算法提升計算效率。仍以第l層為例,對第l層的參數(shù)W和b計算偏導(dǎo)數(shù)。其中,3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:在計算出上述三個偏微分后,可以表示為上式可進一步寫成:同理,可以得到損失函數(shù)關(guān)于第l層偏置的梯度:在計算出每一層的誤差后,就可以根據(jù)上式得到每一層參數(shù)的梯度。因此DNN訓(xùn)練算法包括如下三個步驟:3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)DNN的缺點:(1)模型當(dāng)前的輸出只取決于當(dāng)前輸入,而實際中可能與過去時刻輸出也相關(guān)。(2)輸入數(shù)據(jù)和輸出數(shù)據(jù)的維度是固定的,不能任意改變。(3)無法處理實際場景中的時序數(shù)據(jù)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):(1)通過在DNN上加入循環(huán)連接使得模型具有記憶能力。(2)由具有環(huán)路的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成,其神經(jīng)元不僅可以接收其他神經(jīng)元的信息,也可以接收自身的信息,能夠更好地處理時序數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)。(3)在訓(xùn)練算法上,采用時間反向傳播算法進行參數(shù)更新,也存在著梯度消失的問題。3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的結(jié)構(gòu):隱藏層的輸入由兩部分組成:來自輸入層的輸入,來自上一時刻隱藏層的輸出;與DNN最大的不同:存在隱藏層的循環(huán)連接。信息在RNN中的傳播方式:

st可以表征之前所有時刻的輸入信息{x1,x2,…,xT}

ot包含當(dāng)前時刻的輸入以及以往所有時刻的輸入。3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)長短期記憶網(wǎng)絡(luò)(LSTM)(1)RNN的長程依賴:RNN雖然可以建模時序數(shù)據(jù),但由于序列長度增大可能帶來梯度消失或爆炸問題。其只能學(xué)到短期的“記憶”(時刻t的輸出yt只與一定時間間隔k內(nèi)的輸入有關(guān)),當(dāng)時間間隔過長時,RNN就難以準(zhǔn)確描述關(guān)聯(lián)性。(2)LSTM是RNN的變體,引入門控單元,通過選擇性遺忘過去時刻的累積信息來更新網(wǎng)絡(luò)參數(shù),達到緩解RNN長程依賴的問題。(3)LSTM由記憶單元ct,輸入門it,輸出門ot,遺忘門ft組成,3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)長短期記憶網(wǎng)絡(luò)(LSTM)RNN中的每個h存儲了歷史信息,可以看作一種記憶。在RNN中,隱狀態(tài)的每個時刻都會被重寫,因此其為短期記憶。而長期記憶可以看作網(wǎng)絡(luò)參數(shù),表征了從訓(xùn)練數(shù)據(jù)中學(xué)到的經(jīng)驗,其更新周期遠遠慢于短期記憶。在LSTM中,記憶單元c可以在某個時刻捕捉到某個關(guān)鍵信息,并有能力將此關(guān)鍵信息保存一定的時間間隔。記憶單元c中保存信息的生命周期要長于短期記憶h,但又遠遠短于長期記憶,因此被稱為長短期記憶。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)與DNN的區(qū)別在于,CNN中的神經(jīng)元并非全連接,而是局部連接。即,CNN中卷積層的某個神經(jīng)元的輸出并不取決于輸入特征圖中的所有神經(jīng)元的輸入,而是僅由卷積核對應(yīng)位置的神經(jīng)元的輸入決定。由于局部連接的特點,使得CNN能夠很好地捕捉輸入特征圖中的局部特征;同時,在進行卷積計算時,卷積核在輸入特征圖的不同位置,其權(quán)值參數(shù)是不變的,并且通常將卷積層和池化層結(jié)合使用,這樣使得CNN的計算復(fù)雜度顯著降低,大大拓展了其應(yīng)用領(lǐng)域。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)在CNN計算過程中,首先通過輸入層向模型中輸入數(shù)據(jù),然后經(jīng)過卷積層對數(shù)據(jù)做進一步處理,逐層提取更為抽象的特征,緊接著對輸出特征圖使用池化層達到特征降維的作用,按照該方式對卷積層和池化層進行多次堆疊,最后經(jīng)過全連接的輸出層完成回歸、分類等任務(wù)。此外,每層網(wǎng)絡(luò)的輸出還需要經(jīng)過激活函數(shù)的映射,從而使模型具有更強的表達能力。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)(1)輸入層:CNN的輸入層可以處理多維數(shù)據(jù),其“數(shù)據(jù)”可以對原始數(shù)據(jù)經(jīng)過預(yù)處理所得的初步特征,也可以是原始數(shù)據(jù)。(2)卷積層:根據(jù)上一層節(jié)點對下一層節(jié)點的重要性分布,將下一層節(jié)點只和與其關(guān)聯(lián)性較大的上一層階段相連接。(3)池化層:在卷積層后添加池化層,可以降低特征維度,避免過擬合。

(4)全連接層:

利用所提取出的

高階特征完成目

標(biāo)任務(wù)。

南京郵電大學(xué)

通信與信息工程學(xué)院

第4章語音信號分析4.0概述短時分析技術(shù)雖然語音信號具有時變特性,但在一個短時間范圍內(nèi)(10~30ms),其特性基本保持不變,即相對穩(wěn)定(由于口腔肌肉運動相對緩慢)——短時平穩(wěn)性。短時分析:將語音分為一段一段來分析其特征參數(shù),其中每一段稱為一幀(10~30ms)。對于整體語音而言,分析處的是由每一幀特征參數(shù)所組成的特征參數(shù)時間序列。分析方法(根據(jù)分析出的參數(shù)性質(zhì)不同):時域分析、頻域分析、倒譜域分析、線性預(yù)測分析。語音分幀語音信號的時域分析語音信號的頻域分析語音信號的倒譜分析語音信號的線性預(yù)測分析4.1語音分幀幀移與幀長的比值一般取0~1/2;分幀的實現(xiàn):用可移動的有限長度窗口進行加權(quán):4.1語音分幀矩形窗的譜平滑特性好,但由于主瓣寬度小,加窗后的語音損失了高頻成分;漢明窗正好相反。窗的選擇(1)窗函數(shù)的選擇標(biāo)準(zhǔn):在時域需要減小時間窗兩端的坡度,使截取得到的語音波形緩慢降為0,減小語音幀的截斷效應(yīng);在頻域要有較寬的3dB帶寬以及較小的邊帶最大值。(2)窗口長度的選擇:N與時間分辨率、頻率分辨率之間的關(guān)系(N越大,頻域帶寬越小,語音信號加窗后反應(yīng)波形細節(jié)的高頻部分被阻礙,短時能量隨時間變化小,不能真實反應(yīng)語音幅度變;反之亦然);N的數(shù)值:保證在一個語音幀里包含1~7個基音周期。語音分幀語音信號的時域分析語音信號的頻域分析語音信號的倒譜分析語音信號的線性預(yù)測分析4.2語音信號的時域分析時域分析的特點(1)語音信號直觀表示、物理意義明確;(2)實現(xiàn)簡單、運算量?。唬?)可以得到語音的一些重要參數(shù);(4)只使用示波器等通用設(shè)備,使用簡單。典型的時域分析(1)短時能量和短時平均幅度分析(2)短時過零率分析(3)短時相關(guān)分析4.2語音信號的時域分析—短時能量短時能量、短時平均幅度對高電平敏感!用途:(1)區(qū)分濁音段和清音段;(2)區(qū)分聲母和韻母的分界、無聲與有聲的分界等。4.2語音信號的時域分析—短時過零率短時過零率:一幀語音中信號波形橫穿零電平的次數(shù)符號函數(shù)對于濁音,其語音能量集中在3kHz以下低頻段,過零率也低;清音多數(shù)能量出現(xiàn)在較高頻率上,過零率相對較高。用途:從背景噪聲中找出語音信號,用于判斷寂靜無聲段和有聲段的起點和終點位置。背景噪聲較小時用平均能量較為有效,而背景噪聲較大時用平均過零率更有效。4.2語音信號的時域分析—短時過零率無聲(S),清音(U),濁音(V)的短時平均幅度以及短時過零率的概率分布濁音:短時平均幅度最高,短時過零率最低;清音:短時平均幅度居中,短時過零率最高;無聲:短時平均幅度最低,短時過零率居中??苫诟怕收摚ㄟ^短時平均幅度和短時過零率,來判別語音中的濁音/清音/無聲類別。4.2語音信號的時域分析—短時相關(guān)分析短時相關(guān)分析:用于求濁音語音的基音周期,用于線性預(yù)測分析短時自相關(guān)函數(shù):K為最大延遲點數(shù)性質(zhì):(1)如果

是周期的(周期為Np),則自相關(guān)函數(shù)是同周期的周期函數(shù),(2)是偶函數(shù),即,(3)當(dāng)k=0時,自相關(guān)函數(shù)具有最大值,即,,并且等于確定性信號序列的能量或隨機序列的平均功率。4.2語音信號的時域分析—短時相關(guān)分析修正的短時相關(guān)分析:傳統(tǒng)短時自相關(guān)函數(shù)的缺點:(1)隨著延遲k的增加,進行乘積和的項數(shù)在減少,導(dǎo)致自相關(guān)函數(shù)的幅度值隨著k的增加而下降;(2)如果窗長不夠,包含的周期數(shù)不夠多,會給周期計算帶來麻煩。4.2語音信號的時域分析—短時相關(guān)分析修正的短時相關(guān)分析:用兩個長度不同的窗口,截取兩個不等長的序列進行乘積和,兩個窗口長度始終相差最大的延遲點數(shù)K。這樣可以始終保持乘積和的項數(shù)不變,始終為短窗的長度。4.2語音信號的時域分析—短時相關(guān)分析短時幅度差函數(shù):計算自相關(guān)函數(shù)的運算量很大(有乘法運算)。如果信號是完全的周期信號,則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為0(實際語音信號差值很小,極小值出現(xiàn)在整數(shù)倍周期的位置上)定義:濁音(a)(b)和清音(c)的短時平均幅度差函數(shù)語音分幀語音信號的時域分析語音信號的頻域分析語音信號的倒譜分析語音信號的線性預(yù)測分析4.3語音信號的頻域分析利用短時傅里葉變換求語音短時譜第n幀語音信號的離散傅里葉變換:窗類型的選擇以及窗口寬度的選擇(與時域分析結(jié)論相同?。?.3語音信號的頻域分析利用短時傅里葉變換求語音短時譜令角頻率,則得到離散短時傅里葉變換:在語音信號的數(shù)字處理中都是采用上式來作為頻譜,可以采用FFT完成將時域語音變換到頻域。語音的功率譜:功率譜是短時自相關(guān)函數(shù)的傅里葉變換4.3語音信號的頻域分析語音短時譜的臨界帶特征目的:把線性頻譜轉(zhuǎn)化為臨界帶頻譜,更符合人耳的聽覺特性;步驟:(1)求取各幀加窗語音的功率譜;(2)確定若干個臨界帶頻率分割點;(3)計算各個臨界帶中功率譜之和,將其作為臨界帶特征矢量,用于后續(xù)語音處理任務(wù)。語音分幀語音信號的時域分析語音信號的頻域分析語音信號的倒譜分析語音信號的線性預(yù)測分析4.4語音信號的倒譜分析—同態(tài)信號處理同態(tài)信號處理:將卷積關(guān)系(非線性關(guān)系)變成求和關(guān)系(線性關(guān)系),從而將語音信號的聲門激勵信息及聲道響應(yīng)信息分離開來,求得聲道共振特征和基音周期,用于語音編碼、合成、識別等任務(wù)。4.4語音信號的倒譜分析—同態(tài)信號處理子系統(tǒng)1:將卷積信號轉(zhuǎn)化為加性信號:子系統(tǒng)2:對進行線性處理得到;子系統(tǒng)3:對進行逆變換,得到恢復(fù)信號。如果處于不同的位置并且互不交替,那么適當(dāng)設(shè)計線性系統(tǒng),便可將二者分離開來。4.4語音信號的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜:為的復(fù)倒譜。倒譜:如果只考慮上式的實部,則:4.4語音信號的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜和倒譜的關(guān)系:(1)復(fù)倒譜要進行復(fù)對數(shù)運算,倒譜只進行實對數(shù)運算;(2)由于在計算過程中相位信息丟失,在倒譜情況下一個序列經(jīng)過正逆兩個特征系統(tǒng)變換后,不能還原成自身;(3)倒譜和復(fù)倒譜一樣,是把兩個信號卷積轉(zhuǎn)換成求和;(4)已知實序列的復(fù)倒譜,可以求出其倒譜。(5)在復(fù)倒譜滿足一定條件時,也可以由倒譜求得復(fù)倒譜。4.4語音信號的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù):Mel頻率與實際頻率呈對數(shù)分布關(guān)系,MFCC也著眼于人耳的聽覺特性;在1000Hz以下,大致呈線性分布,帶寬為100Hz左右;在1000Hz以上,呈對數(shù)增長。類似于臨界頻帶的劃分,可以將語音頻率劃分為一系列三角形的濾波器序列(Mel濾波器組)4.4語音信號的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù)的求法:取每個三角形濾波器頻率帶寬內(nèi)所有信號的幅度加權(quán)和作為某個帶通濾波器的輸出,然后對所有濾波器輸出做對數(shù)運算,再進一步做離散余弦變換即得到MFCC。步驟:(1)將實際頻率尺度轉(zhuǎn)換為Mel頻率尺度;(2)在Mel頻率軸上配置L個通道的三角形濾波器組,相鄰之間截止頻率關(guān)系:(3)根據(jù)語音信號的幅度譜求每個三角形濾波器的輸出:(4)對所有濾波器輸出做對數(shù)運算,再做離散余弦變換得到MFCC語音分幀語音信號的時域分析語音信號的頻域分析語音信號的倒譜分析語音信號的線性預(yù)測分析4.5語音信號的線性預(yù)測分析—基本原理線性預(yù)測分析的基本思想:由于語音樣點之間存在相關(guān)性,可以用過去的樣點值來預(yù)測現(xiàn)在或未來的樣點值。即,一個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近。通過實際語音抽樣

和線性預(yù)測抽樣之間的誤差在某個準(zhǔn)則下達到最小值,來決定唯一的預(yù)測系數(shù)。這組預(yù)測系數(shù)就反映了語音信號的特性,可以作為語音信號特征參數(shù)用于語音識別、語音合成等。4.5語音信號的線性預(yù)測分析—基本原理語音模型:系統(tǒng)的輸入e(n)是語音激勵,s(n)是輸出語音,模型的系統(tǒng)參數(shù)H(z)可寫成有理分式:H(z)可以分為自回歸—滑動平均模型(ARMA),自回歸模型(AR),滑動平均模型(MA)三種形式;實際語音信號處理中最常用的是AR模型(全極點模型):(1)除了鼻音和摩擦音,語音的聲道傳遞函數(shù)就是一個全極點模型;對于鼻音摩擦音,也可以用全極點模型來近似;(2)由于全極點模型的參數(shù)估計是對線性方程組的求解,所以可以用線性預(yù)測的方法來求解。4.5語音信號的線性預(yù)測分析—基本原理采用全極點模型后,傳遞函數(shù)H(z)為:語音抽樣s(n)和e(n)之間的關(guān)系為:對于濁音,激勵e(n)是以基音周期重復(fù)的單位沖激;對于清音,e(n)是白噪聲。線性預(yù)測模型建立的本質(zhì):是由語音信號來估計模型參數(shù)的過程。線性預(yù)測器:時域表達式:頻域系統(tǒng)函數(shù):逆濾波器:預(yù)測誤差:4.5語音信號的線性預(yù)測分析—基本原理線性預(yù)測方程的推導(dǎo)(選用最小均方誤差準(zhǔn)則)令某一幀內(nèi)的短時平均預(yù)測誤差為:為使最小,對ai求偏導(dǎo)數(shù),并令其為0,有:上式表明,預(yù)測誤差與過去的語音樣點正交。實際中需要分幀處理,設(shè)一幀從n時刻開窗選取的N個樣點的語音段為sn,記

為,則有求解過程:先計算出,再求解上述方程組。最后計算最小軍方預(yù)測誤差:4.5語音信號的線性預(yù)測分析—方程組求解線性預(yù)測方程組的求解:設(shè)n時刻開窗選取N個樣點的語音段sn,即用個語音樣點來分析該幀的預(yù)測系數(shù)ai。對于該語音段,其自相關(guān)函數(shù)為:由于上述自相關(guān)函數(shù)為偶函數(shù)并且只與j和i的相對大小有關(guān),因此,則線性預(yù)測方程為:4.5語音信號的線性預(yù)測分析—方程組求解線性預(yù)測方程組的求解:寫成矩陣的形式:該方程為Yule-Walker方程,方程左邊的矩陣稱為托普利茲矩陣,是以主對角線對稱的,并且沿著主對角線平行方向各軸向的元素值都相等。上述矩陣可采用萊文遜—杜賓算法來求解。4.5語音信號的線性預(yù)測分析—方程組求解線性預(yù)測方程組的求解:算法過程:通過對上式進行遞推求解,可獲得最終解為:

其中確保Ep隨著迭代而縮小4.5語音信號的線性預(yù)測分析—LPC譜估計LPC譜估計:當(dāng)求出一組預(yù)測器系數(shù)后,就可以得到語音產(chǎn)生模型的頻率響應(yīng):用表示模型H(z)的頻率響應(yīng),表示語音信號s(n)的傅里葉變換,則

為語音信號s(n)的功率譜。如果s(n)是一個嚴(yán)格的p階AR模型,則實際中,語音信號用ARMA模型表示更為精確,可用一個無限長的AR模型逼近(p的值要選的很大,實際中p一般在8~14之間)。LPC譜估計的特點:在信號能量較大的區(qū)域(接近譜的峰值處),LPC譜和信號譜很接近;而在信號能量較低的區(qū)域(接近譜的谷底處),相差比較大。原因:由最小均方誤差引起。4.5語音信號的線性預(yù)測分析—LPC譜估計LPC復(fù)倒譜(另一種表示方法)設(shè)表示為h(n)的復(fù)倒譜,則有將H(z)表達式代入,并對求導(dǎo),令上式左右兩邊的常數(shù)項和各冪次的系數(shù)分別相等,從而可由ak求出4.5語音信號的線性預(yù)測分析—LPC復(fù)倒譜LPC復(fù)倒譜(另一種表示方法)優(yōu)點:(1)由于利用了線性預(yù)測中聲道系統(tǒng)函數(shù)H(z)的最小相位特性,避免了相位卷繞;(2)LPC復(fù)倒譜的運算量?。唬?)由于當(dāng)p趨近于無窮大時,語音信號的短時復(fù)頻譜滿足因而可以認為包含了語音信號頻譜的包絡(luò)信息,可以近似把當(dāng)作s(n)的短時復(fù)倒譜來估計語音短時譜包絡(luò)和聲門激勵參數(shù)。(4)在實時語音識別中也經(jīng)常采用LPC復(fù)倒譜作為特征矢量。4.5語音信號的線性預(yù)測分析—LPC

Mel倒譜系數(shù)LPCCMCC求得復(fù)倒譜之后,可以求得倒譜c(n);可根據(jù)人類聽覺特性,把倒譜系數(shù)進行非線性變換,求出LPCMel倒譜系數(shù):采用迭代求解法,最后求得的LPCCMCC可作為后續(xù)語音信號處理任務(wù)的特征。4.5語音信號的線性預(yù)測分析—線譜對分析線譜對(LSP)求解的模型參數(shù)是線譜對(頻域參數(shù)),與語音信號譜包絡(luò)聯(lián)系更緊密。推導(dǎo)過程:令A(yù)(z)為(1)由萊文遜—杜賓算法可得:(2)兩邊同乘以得(3)分別將kp+1=1和kp+1=-1時的用P(z)和Q(z)表示,可得4.5語音信號的線性預(yù)測分析—線譜對分析線譜對(LSP)(4)根據(jù)A(z)的表達式,P(z)和Q(z)可寫成:(5)對P(z)和Q(z)進行因式分解其中成對出現(xiàn),反映了譜的特性,稱為線譜對??偨Y(jié):線譜對分析將A(z)的p個零點通過P(z)和Q(z)映射到單位圓上,使得這些零點可以直接用頻率w來反映,并且P(z)和Q(z)各提供p/2零點頻率。從物理意義上說,P(z)和Q(z)對應(yīng)著聲門全開或全閉時的全反射情況。

南京郵電大學(xué)

通信與信息工程學(xué)院

第5章語音信號特征提取技術(shù)端點檢測基音周期估計共振峰估計5.1端點檢測—概述端點檢測:從一段語音信號中準(zhǔn)確找出語音信號的起始點和結(jié)束點。目的:為了使有效的語音信號和無用的噪聲信號得以分離,在語音識別、語音增強、語音編碼等系統(tǒng)中得到了廣泛應(yīng)用。主要方法:(1)基于閾值的方法:根據(jù)語音信號和噪聲信號的不同特征,提取每一段語音信號的特征,然后把這些特征值和設(shè)定的閾值進行比較,已到達檢測目的。(2)基于模式識別的方法:需要估計語音信號和噪聲信號的模型參數(shù)來檢測。本章主要探討基于閾值的方法。5.1端點檢測—雙門限法復(fù)習(xí):短時能量與短時過零率雙門限法的基本思想:根據(jù)語音的統(tǒng)計特性,可以把語音段分為清音、濁音、靜音(包括背景噪聲);短時能量可以較好地區(qū)分濁音和清音。對于清音,由于其能量較小,在短時能量檢測中會因為低于能量門限而被誤判為靜音;短時過零率則可以從語音中區(qū)分靜音和清音。將兩者結(jié)合起來,就可以檢測出語音段(清音和濁音)及靜音段。首先為短時能量和過零率分別確定兩個門限,一個為較低門限,對信號的變化比較敏感,另一個是較高門限。當(dāng)?shù)烷T限被超過時,很可能是由于很小的噪聲引起的,未必是語音的開始,當(dāng)高門限被超過并且在接下來的時間段內(nèi)一直超過低門限時,則意味著語音信號的開始。5.1端點檢測—雙門限法雙門限法的步驟:(1)計算信號的短時能量和短時平均過零率;(2)根據(jù)語音能量的輪廓選取一個較高的門限T2,語音信號的能量大部分都在此門限之上,可進行一次初判。語音起止點位于該門限與短時能量包絡(luò)交點N3和N4所對應(yīng)的時間間隔之外。5.1端點檢測—雙門限法雙門限法的步驟:(3)根據(jù)背景噪聲的能量確定一個較低的門限T1,并從初判起點往左,從初判終點往右搜索,分別找到語音輪廓與門限T1相交的兩個點N2和N5;(4)以短時平均過零率為準(zhǔn),從N2點往左和N5點往右搜索,找到短時平均過零率低于某個閾值T3的兩個點N1和N6

,作為語音段的起止點。需要注意門限的選取方法5.1端點檢測—自相關(guān)法自相關(guān)的步驟:(1)計算語音信號的短時自相關(guān)函數(shù)(2)將自相關(guān)函數(shù)進行歸一化處理:(3)由于語音和噪聲兩種信號的自相關(guān)函數(shù)存在極大差異,可以利用這種差異來提取語音端點:根據(jù)噪聲的情況,設(shè)置閾值T1和T2,當(dāng)相關(guān)函數(shù)最大值大于T2時,判斷為語音;當(dāng)相關(guān)函數(shù)最大值大于或小于T1時,判定為語音信號端點。噪聲信號及其自相關(guān)函數(shù)含噪語音及其自相關(guān)函數(shù)5.1端點檢測—譜熵法熵:衡量信息的有序程度。一個信息源發(fā)出的信號以信息熵來作為信息選擇和不確定性的度量。語音的熵和噪聲的熵存在較大差異,二者在整個信號段中的分布概率不同。譜熵法端點檢測就是通過檢測譜的平坦程度,達到語音端點檢測的目的。譜熵的特點:(1)語音與噪聲的譜熵不同;(2)語音譜熵隨語音隨機性而變化,與能量特征相比,譜熵變化較小;(3)譜熵對噪聲具有一定的穩(wěn)健性。同一語音信號當(dāng)信噪比降低時,語音信號的譜熵值的形狀大體保持不變;(4)語音譜熵只與語音信號隨機性有關(guān),而與語音信號的幅度無關(guān)。5.1端點檢測—譜熵法譜熵的定義:設(shè)加窗分幀處理后的第n幀語音信號為xn(m),其FFT表示為Xn(k),其中k表示為第k條譜線。該語音幀在頻域中的短時能量為:而對于某一譜線k的能量譜為,則每個頻率分量的歸一化譜概率密度函數(shù)定義為:該語音幀的短時譜熵定義為5.1端點檢測—譜熵法譜熵法的步驟:(1)對語音信號進行分幀加窗,取FFT點數(shù);(2)計算每一幀的譜的能量;(3)計算每一幀中每個樣本點的概率密度函數(shù);(4)計算每一幀的譜熵值;(5)設(shè)置判決門限;(6)根據(jù)各幀的譜熵值進行端點檢測。每一幀的譜熵值為:H(i)計算是基于譜的能量變化而不是譜的能量。端點檢測基音周期估計共振峰估計5.2基音周期估計概述:基音:發(fā)濁音時聲帶振動所引起的周期性;基音周期:聲帶振動頻率的倒數(shù);聲調(diào):基音的變化模式,攜帶具有辨意作用的信息;人的聲道易變性及其聲道特征因人而異,基音周期的范圍寬,同一個人在不同情態(tài)下發(fā)音的基音周期也不同,基音周期受單詞發(fā)音音調(diào)影響。基音周期的提取存在困難:(1)聲門激勵信號不是一個完全周期的序列,有些清音和濁音的過渡幀很難判斷其周期性;(2)聲道共振峰會嚴(yán)重影響激勵信號的諧波結(jié)構(gòu),因而從語音中直接取出僅和聲帶振動有關(guān)的激勵信號并不容易;(3)語音信號本身是準(zhǔn)周期性的(音調(diào)有變化),其波形的峰值點或過零點受共振峰的結(jié)構(gòu)、噪聲等影響;(4)基音周期變化范圍大,從老年男性的50Hz到兒童和女性的450Hz。5.2基音周期估計—自相關(guān)法自相關(guān):其部位0的范圍為k=(-N+1)~(N-1),且為偶函數(shù)。自相關(guān)法的基本思想:濁音信號的自相關(guān)函數(shù)在基音周期的整數(shù)倍位置上出現(xiàn)峰值;而清音的自相關(guān)函數(shù)沒有明顯的峰值出現(xiàn)。因此,檢測是否有峰值就可以判斷是清音還是濁音,檢測峰值的位置就可以提取基音周期值。利用自相關(guān)函數(shù)估計基音周期時需要考慮的兩個問題:(1)窗函數(shù)的選取問題:窗的類型,窗的長度(至少大于兩個基音周期)(2)共振峰的影響問題:與聲道特性相關(guān)。當(dāng)基音周期與共振峰的周期性混疊在一起時,被檢測出來的峰值會偏離原來峰值的真實位置(共振峰對基音周期造成“干擾”);此外,某些濁音的第一共振峰頻率可能會等于或低于基音頻率,會給基音周期檢測帶來誤差。5.2基音周期估計—自相關(guān)法克服共振峰干擾問題的方法:(1)用帶寬為60~900Hz的帶通濾波器對語音信號進行濾波,去除共振峰影響,并利用濾波后的信號的自相關(guān)函數(shù)進行基音估計(因為共振峰頻率相對較高)。--頻域方法(2)對語音信號進行非線性變換后再求自相關(guān)函數(shù)。中心削波:消去語音信號的低幅度部分(含有大量的共振峰信息),保留高幅度部分(包含大量的基音信息)--時域方法5.2基音周期估計—自相關(guān)法克服共振峰干擾問題的方法:三電平削波由于削波后信號取值只有-1,0,1三種情況,不需要作乘法只需簡單的組合邏輯,解決了中心削波的計算量大的問題。5.2基音周期估計—平均幅度差函數(shù)法平均幅度差函數(shù)法:短時平均幅度差函數(shù)(AMDF)的定義:對于周期性的濁音,F(xiàn)n(k)呈現(xiàn)與濁音語音周期相一致的周期特性,在周期的各個整數(shù)倍點上具有谷值特性。對于清音信號,F(xiàn)n(k)無周期特性。利用該特性可以判斷一段語音是濁音還是清音,并估計出濁音的基音周期。利用AMDF法估計基音周期,同樣面臨窗函數(shù)和共振峰影響兩個問題。(1)要求窗長足夠長;(2)可采用LPC逆濾波和中心削波等方法減少輸入語音中的聲道特性或共振峰的影響。5.2基音周期估計—平均幅度差函數(shù)法平均幅度差函數(shù)法:修正處理方法(P89)5.2基音周期估計—倒譜法倒譜法原理:利用語音信號的倒譜特征,檢測出表征聲門激勵周期的基音信息。語音是由聲門脈沖激勵e(n)經(jīng)聲道v(n)濾波得到,,則三者倒譜之間的關(guān)系為因此,含有基音信息的聲脈沖倒譜可與聲道響應(yīng)倒譜分類,因此從倒譜域分離

后恢復(fù)出e(n),可從中求出基音周期。實際中的問題:(1)反映基音信息的倒譜峰,在過渡音和含噪語音中將會變得不清晰甚至完全消失(過渡音中的周期激勵信號能量降低,含噪語音中的噪聲干擾);(2)對于濁音的倒譜,其倒譜域中的基音信息與聲道信息并非完全分離,在周期激勵信號能量較低時,聲道響應(yīng)(特別是共振峰)對基音倒譜峰的影響不能忽略。解決方法:(1)去除語音中的聲道響應(yīng)信息,對類噪激勵和噪聲加以抑制。5.2基音周期估計—倒譜法去除語音信號中的聲道響應(yīng)的方法:采用線性預(yù)測方法(LPC),步驟如下:(1)在LPC中,語音信號s(n)可以表示為:(2)對輸入語音進行LPC分析獲得預(yù)測系數(shù)ai,并由此構(gòu)成逆濾波器A(z)(3)再將原始語音通過A(z)進行逆濾波,則可以獲得預(yù)測余量信號該余量信號不包含聲道響應(yīng)信息,但包含完整的激勵信息。(4)對余量信號進行倒譜分析,可獲得更為清晰準(zhǔn)確的基音信息。5.2基音周期估計—倒譜法抑制噪聲干擾的方法:由于語音基音頻率低于500Hz,一般對原始語音或預(yù)測余量信號進行低通濾波處理。在倒譜分析中,可以直接將傅里葉逆變換之前的頻域信號高頻分量置0。這樣既可以實現(xiàn)類似低通濾波的處理,又可以濾去噪聲和激勵源中的高頻分量,降噪。5.2基音周期估計—簡化逆濾波法&后處理簡化逆濾波法的基本思想:先對語音信號進行LPC分析和逆濾波,獲得語音信號的預(yù)測殘差,然后將殘差信號通過自相關(guān)濾波器濾波,再做峰值檢測,進而獲得基音周期。步驟如下:基音檢測的后處理:原因:求得的基音周期軌跡中有偏離正常軌跡的基音周期估計值。方法:中值平滑、線性平滑、組合平滑。端點檢測基音周期估計共振峰估計5.3共振峰估計共振峰的定義:當(dāng)準(zhǔn)周期脈沖激勵進入聲道時會引起共振特性,產(chǎn)生的一組共振頻率。共振峰參數(shù):共振峰頻率和頻帶寬度;共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計自然語音的頻譜包絡(luò),并認為譜包絡(luò)中的最大值就是共振峰。精準(zhǔn)的共振峰估計遇到的困難:(1)虛假峰值:非線性預(yù)測分析方法的頻譜包絡(luò)估計器中容易出現(xiàn);(2)共振峰合并:相鄰共振峰的頻率可能靠的太近難以分辨;(3)高音調(diào)語音:容易離開真實位置。5.3共振峰估計—帶通濾波器組法帶通濾波器組法:濾波器中心頻率的選?。海?)等間距的分布在分析頻段上,即,所有帶通濾波器帶寬相同,保證各通道的群時延相同;(2)非均勻分布,低頻端間距小,高頻端間距大,帶寬也隨之增加。5.3共振峰估計—倒譜法倒譜法的原理:為了消除基頻諧波對于共振峰測定的影響,可采用同態(tài)解卷技術(shù),將基音的各次諧波和聲道的頻譜包絡(luò)分離開來。(1)對語音加窗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論