![語音信號(hào)處理 第4版 課件全套 魏昕 第1-13章:語音信號(hào)處理緒論-多模態(tài)語音信號(hào)處理_第1頁](http://file4.renrendoc.com/view8/M02/2C/0B/wKhkGWcRA2uAHKR1AACb1WJcDO4154.jpg)
![語音信號(hào)處理 第4版 課件全套 魏昕 第1-13章:語音信號(hào)處理緒論-多模態(tài)語音信號(hào)處理_第2頁](http://file4.renrendoc.com/view8/M02/2C/0B/wKhkGWcRA2uAHKR1AACb1WJcDO41542.jpg)
![語音信號(hào)處理 第4版 課件全套 魏昕 第1-13章:語音信號(hào)處理緒論-多模態(tài)語音信號(hào)處理_第3頁](http://file4.renrendoc.com/view8/M02/2C/0B/wKhkGWcRA2uAHKR1AACb1WJcDO41543.jpg)
![語音信號(hào)處理 第4版 課件全套 魏昕 第1-13章:語音信號(hào)處理緒論-多模態(tài)語音信號(hào)處理_第4頁](http://file4.renrendoc.com/view8/M02/2C/0B/wKhkGWcRA2uAHKR1AACb1WJcDO41544.jpg)
![語音信號(hào)處理 第4版 課件全套 魏昕 第1-13章:語音信號(hào)處理緒論-多模態(tài)語音信號(hào)處理_第5頁](http://file4.renrendoc.com/view8/M02/2C/0B/wKhkGWcRA2uAHKR1AACb1WJcDO41545.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章語音信號(hào)處理緒論為什么要學(xué)習(xí)這門課程語音信號(hào)處理發(fā)展概況本課程知識(shí)體系架構(gòu)1.1為什么要學(xué)習(xí)這門課程語音信號(hào)處理的定義:語音信號(hào)處理是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語音信號(hào)進(jìn)行處理的一門學(xué)科語音信號(hào)處理需要數(shù)字信號(hào)處理和語音學(xué)兩方面的知識(shí)作為基礎(chǔ)。語音學(xué)是研究言語過程的一門科學(xué),它包括:發(fā)音語音學(xué)、聲學(xué)語音學(xué)和聽覺語音學(xué)三大分支。1.1為什么要學(xué)習(xí)這門課程言語過程的五個(gè)階段:想說、說出、傳輸、接受、理解。1.1為什么要學(xué)習(xí)這門課程語音處理技術(shù)的應(yīng)用極其廣泛,包括:工業(yè)、軍事、交通、醫(yī)學(xué)、民用等各個(gè)領(lǐng)域。語音識(shí)別具有十分廣泛的應(yīng)用:
①可以進(jìn)行聲控應(yīng)用;②VoiceActivatedDialing(VAD)語音撥號(hào);③可以用于自動(dòng)口語翻譯(實(shí)現(xiàn)不同語言之間的直接通信);④可以將語音識(shí)別與語音合成技術(shù)相結(jié)合,構(gòu)成一種超低比特率的語音通信系統(tǒng)。
1.1為什么要學(xué)習(xí)這門課程說話人識(shí)別已在安全加密、銀行信息電話查詢服務(wù)等方面得到了應(yīng)用,此外在公安機(jī)關(guān)破案和法庭取證方面可以應(yīng)用。語種辨識(shí)在軍事情報(bào)工作、國(guó)家安全事務(wù)中有重要應(yīng)用。語音合成技術(shù)的一個(gè)應(yīng)用實(shí)例,是計(jì)算機(jī)語聲應(yīng)答系統(tǒng)。語音編碼技術(shù)的根本作用是使語音通信數(shù)字化。語音增強(qiáng)系統(tǒng)的基本應(yīng)用是去混響,或去回聲,消除噪聲,或從潛水員使用的氦氧混合氣體下的發(fā)音中恢復(fù)出可懂的語音等。
1.1為什么要學(xué)習(xí)這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號(hào)處理技術(shù)已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應(yīng)用,并已成為當(dāng)前主流操作系統(tǒng)和應(yīng)用程序中人機(jī)交互的重要手段。3.語音信號(hào)技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。1.1為什么要學(xué)習(xí)這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號(hào)處理技術(shù)已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應(yīng)用,并已成為當(dāng)前主流操作系統(tǒng)和應(yīng)用程序中人機(jī)交互的重要手段。3.語音信號(hào)技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展。為什么要學(xué)習(xí)這門課程語音信號(hào)處理發(fā)展概況本課程知識(shí)體系架構(gòu)1.2語音信號(hào)處理技術(shù)發(fā)展概況20世紀(jì)40年代~60年代(萌芽階段)(1)可追溯到1940年前后Dudley的聲碼器,其從語音中提取參數(shù)加以傳輸,在收端重新合成語音。即,產(chǎn)生“語音參數(shù)模型”了思想;
(2)1952年貝爾實(shí)驗(yàn)室研制成功能識(shí)別10個(gè)英文數(shù)字的實(shí)驗(yàn)裝置;(3)1956年Olsen等人采用8個(gè)帶通濾波器組提取頻譜參數(shù),研制成功最早的語音打字機(jī);(4)數(shù)字信號(hào)處理技術(shù)(數(shù)字濾波器,F(xiàn)FT等)快速發(fā)展,成為語音信號(hào)處理理論和技術(shù)的基礎(chǔ)。1.2語音信號(hào)處理技術(shù)發(fā)展概況20世紀(jì)70年代~80年代(信號(hào)分析與處理階段)(1)1971年,美國(guó)ARPA主導(dǎo)的“語音理解系統(tǒng)”研究計(jì)劃開始啟動(dòng),促進(jìn)了語音識(shí)別研究的興起;
(2)70年代初,動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)用于語音識(shí)別;(3)70年代中期,線性預(yù)測(cè)技術(shù)(LPC)技術(shù)用于語音信號(hào)分析;(4)70年代末,矢量量化技術(shù)(VQ)用于語音編碼。(5)80年代,Baum等提出隱馬爾可夫模型(HMM),后被Baker等用于語音識(shí)別中,取得巨大成功。1.2語音信號(hào)處理技術(shù)發(fā)展概況20世紀(jì)90年代(向傳統(tǒng)人工智能過渡階段)(1)語音識(shí)別逐漸由實(shí)驗(yàn)室走向?qū)嵱没簩?duì)聲學(xué)語音學(xué)統(tǒng)計(jì)模型研究逐漸深入,講者自適應(yīng)/聽覺模型/語言模型也備受關(guān)注;
(2)以PSOLA為代表的波形拼接語音合成方法得到廣泛應(yīng)用;(3)出現(xiàn)了4~8kbit/s的波形與參數(shù)混合語音編碼器;(4)以找出包含在語音信號(hào)中的說話人個(gè)性因素以及情感因素的說話人識(shí)別方法,語音信號(hào)的情感信息處理等方向開始興起。(5)語音增強(qiáng)與去噪技術(shù),盲分離技術(shù)受到關(guān)注。1.2語音信號(hào)處理技術(shù)發(fā)展概況2000年~2020年(以深度學(xué)習(xí)為代表的人工智能主導(dǎo)階段)(1)2006年,Hinton等人提出了深度學(xué)習(xí)技術(shù);
(2)2010年,深度學(xué)習(xí)技術(shù)首先被應(yīng)用于語音識(shí)別系統(tǒng),在各項(xiàng)任務(wù)上大幅提升了識(shí)別準(zhǔn)確率;(3)2010年后,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、生成對(duì)抗網(wǎng)絡(luò)、Transformer等深度學(xué)習(xí)技術(shù)進(jìn)一步發(fā)展;(4)深度學(xué)習(xí)技術(shù)已應(yīng)用于語音識(shí)別、語音合成、語音編碼、語音情感信息處理等各個(gè)方向上,均取得了很好的效果。1.2語音信號(hào)處理技術(shù)發(fā)展概況2020年后(多模態(tài)語音信號(hào)處理階段)(1)文本、圖像、視頻、觸覺、運(yùn)動(dòng)、生理等數(shù)據(jù)采集手段豐富,上述模態(tài)信息與語音信號(hào)深度融合;
(2)將其他模態(tài)信息引入語音信號(hào)處理各方向、各任務(wù)中,進(jìn)一步提升了語音信號(hào)處理系統(tǒng)的性能,產(chǎn)生了“多模態(tài)語音信號(hào)處理”這一新方向。(3)2020年南京郵電大學(xué)周亮教授團(tuán)隊(duì)提出的跨模態(tài)通信與信息恢復(fù)技術(shù),極大提升了包括語音在內(nèi)的多模態(tài)信息的傳輸與處理效率。為什么要學(xué)習(xí)這門課程語音信號(hào)處理發(fā)展概況本課程知識(shí)體系架構(gòu)1.3本課程知識(shí)體系架構(gòu)模塊一:基礎(chǔ)知識(shí)(Chapter2~3)(1)語音信號(hào)處理的基礎(chǔ)知識(shí)(2)語音信號(hào)處理的常用算法模塊二:分析方法(Chapter4)(1)語音信號(hào)的時(shí)域和頻域分析(2)語音信號(hào)的倒譜和線性預(yù)測(cè)分析模塊三:特征提取技術(shù)(Chapter5)語音信號(hào)的端點(diǎn)檢測(cè)、基音周期、共振峰估計(jì)模塊四:典型處理技術(shù)(Chapter6~10)語音增強(qiáng)、語音識(shí)別、說話人識(shí)別、語音編碼、語音合成模塊五:前沿技術(shù)(Chapter11~13)語音信號(hào)情感處理、聲源定位、多模態(tài)語音信號(hào)處理1.3教材2003年4月第一版,2009年6月第二版,2016年5月第三版,2024年7月第四版累計(jì)印刷20次,發(fā)行近8萬冊(cè),被多所高校選為教材2023年9月以來,開始第四輪改版。總體原則:在相對(duì)穩(wěn)定中力求變革,處理好經(jīng)典理論與最新技術(shù)的相互融合。兩大變化:增加深度學(xué)習(xí)方法用于經(jīng)典語音信號(hào)處理任務(wù)的內(nèi)容;增加關(guān)于多模態(tài)語音信號(hào)處理技術(shù)的介紹。
南京郵電大學(xué)
通信與信息工程學(xué)院
第2章語音信號(hào)處理的基礎(chǔ)知識(shí)語音發(fā)音及感知系統(tǒng)語音信號(hào)生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號(hào)的數(shù)字化和預(yù)處理2.1語音發(fā)音及感知系統(tǒng)語音發(fā)音系統(tǒng)語音是由肺部呼出的氣流通過在喉頭至嘴唇的各種作用而發(fā)出的。(1)把肺部呼出的直氣流變?yōu)橐粼?;?)對(duì)音源其共振和反共振作用,使其帶有音色;(3)從嘴唇或鼻孔向空間輻射的作用;聲門:聲帶之間的部分,開啟或閉合,其開閉一次的時(shí)間為基音周期(倒數(shù)為基音頻率);男性:50~250Hz,女性:100~500Hz聲道:從聲門到嘴唇的呼氣通道;發(fā)濁音時(shí),聲門處氣流沖擊聲帶產(chǎn)生振動(dòng),通過聲道響應(yīng)變?yōu)檎Z音。發(fā)清音時(shí),聲帶不振動(dòng)。2.1語音發(fā)音及感知系統(tǒng)語音聽覺系統(tǒng)分為聽覺外周和聽覺中樞兩部分。聽覺外周(外耳、中耳、內(nèi)耳、蝸神經(jīng)):完成聲音的采集、頻率分解、聲能轉(zhuǎn)換功能;聽覺中樞(位于聽神經(jīng)以上):加工和分析聲音,包括感知聲音的音色、音調(diào)、聲強(qiáng)、判斷方位等。2.1語音發(fā)音及感知系統(tǒng)語音聽覺系統(tǒng)外耳:對(duì)聲音感知中起著聲源定位以及聲音放大作用;中耳:進(jìn)行聲阻抗變換;聽小骨對(duì)聲音進(jìn)行線性或非線性傳遞;內(nèi)耳:主要構(gòu)成器官是耳蝸,是聽覺的受納器,把聲音通過機(jī)械變換產(chǎn)生神經(jīng)發(fā)放信號(hào)。2.1語音發(fā)音及感知系統(tǒng)人耳聽覺特性基底膜的頻率響應(yīng)分布多通道濾波器實(shí)現(xiàn)人類能夠聽到的聲音頻率為20~20000Hz,強(qiáng)度為-5~130dB。耳蝸基底膜具有時(shí)頻分析儀的功能,將復(fù)雜信號(hào)分解為各種頻率分量。可由一組伽馬通濾波器實(shí)現(xiàn),每個(gè)濾波器模擬基底膜不同部位最大位移處的響應(yīng)。2.1語音發(fā)音及感知系統(tǒng)人耳聽覺掩蔽效應(yīng)掩蔽效應(yīng):在一個(gè)強(qiáng)信號(hào)附近,弱信號(hào)變得不可聞。最小可聽閾曲線:在安靜環(huán)境下,人耳對(duì)各種頻率聲音可以聽到的最低聲壓(人耳對(duì)低頻率和高頻率不敏感,在1kHz附近最為敏感)。由于位于1kHz頻率的掩蔽聲存在,使聽閾曲線發(fā)生了變化,本可以聽到的三個(gè)被掩蔽聲,變得聽不到了。
在掩蔽聲附近發(fā)生了掩蔽效應(yīng)。同時(shí)掩蔽:強(qiáng)信號(hào)和弱信號(hào)同時(shí)出現(xiàn)。頻率靠的越近,掩蔽聲越強(qiáng),掩蔽效應(yīng)越明顯。短時(shí)掩蔽:強(qiáng)信號(hào)和弱信號(hào)不同時(shí)出現(xiàn)。又分為后向掩蔽和前向掩蔽。語音發(fā)音及感知系統(tǒng)語音信號(hào)生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號(hào)的數(shù)字化和預(yù)處理2.2語音信號(hào)生成的數(shù)學(xué)模型語音信號(hào)的數(shù)字模型U(z)是激勵(lì)信號(hào),濁音時(shí)U(z)是聲門脈沖,即,斜三角脈沖序列的z變換;清音時(shí),U(z)是一個(gè)隨機(jī)噪聲的z變換。V(z)是聲道傳遞函數(shù),可用聲管模型或共振峰模型來描述。R(z)為輻射模型,一般為一階高通形式。模擬了語音發(fā)音系統(tǒng)!2.2語音信號(hào)生成的數(shù)學(xué)模型激勵(lì)模型
G(z)是一個(gè)低通濾波器。濁音激勵(lì)模型可表示為以基音周期1/F0為周期的單位脈沖序列E(z)激勵(lì)G(z),得到的U(z)是一個(gè)周期斜三角脈沖串:發(fā)清音時(shí),可以模擬成隨機(jī)白噪聲(均值為0,方差為1,在時(shí)間或幅度上為白色分布的序列)。發(fā)濁音時(shí),由于聲帶不斷張開和關(guān)閉,將產(chǎn)生間歇的脈沖波。首先,單個(gè)脈沖波(斜三角波)的時(shí)頻域波形(g(n),G(z))如下:2.2語音信號(hào)生成的數(shù)學(xué)模型聲道模型(共振峰模型)把聲道視為一個(gè)諧振腔,共振峰為腔體的諧振頻率。一般地,元音用前3個(gè)共振峰表示,而對(duì)于較復(fù)雜的輔音或鼻音,需要用到前5個(gè)以上的共振峰。(實(shí)際中需要求出每個(gè)濁音/清音的共振峰頻率、帶寬、幅度等參數(shù))級(jí)聯(lián)型:傳遞函數(shù)V(z)為全極點(diǎn)模型,結(jié)構(gòu)簡(jiǎn)單,適用于一般濁音。并聯(lián)型:傳遞函數(shù)V(z)加入了零點(diǎn),結(jié)構(gòu)復(fù)雜,適用于非一般濁音以及大部分清音。2.2語音信號(hào)生成的數(shù)學(xué)模型聲道模型(共振峰模型)混合型:將上述二者結(jié)合。研究表明,口唇端輻射在高頻較為顯著,在低頻端時(shí)影響較小,所以輻射模型R(z)是一階類高通濾波器的形式。輻射模型語音發(fā)音及感知系統(tǒng)語音信號(hào)生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號(hào)的數(shù)字化和預(yù)處理2.3語音基本概念與參數(shù)基本參數(shù)聲壓與聲強(qiáng):(1)聲壓、有效聲壓、聲壓級(jí)(SPL);(2)聲強(qiáng)、聲強(qiáng)級(jí)(IL);(3)聲壓與聲強(qiáng)的關(guān)系;響度:聲音的響亮程度頻率與音高:音高是以人的主觀感受來評(píng)價(jià)所聽到的聲音高低2.3語音基本概念與參數(shù)時(shí)域波形濁音[ou](B段),[e](D段)的波形具有明顯的周期性,且振幅較大,它們的周期與聲帶振動(dòng)的頻率有關(guān),即為基音周期清音[s](A段),[k](C段)的波形類似于白噪聲,振幅很小,沒有明顯的周期性2.3語音基本概念與參數(shù)頻域特性濁音[ou]的頻譜,可以看出其基音頻率為300Hz,與時(shí)域波形一致。另外可以看出其共振峰(頻譜中的凸起點(diǎn))。清音頻譜峰點(diǎn)之間的間隔是隨機(jī)的,沒有周期分量2.3語音基本概念與參數(shù)語譜圖表示語音頻譜隨時(shí)間變化的波形??v軸為頻率,橫軸為時(shí)間,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱作用用相應(yīng)點(diǎn)的灰度濃淡來表示。--聲紋(反映說話人特性)橫杠:與時(shí)間軸平行的深黑色帶紋,對(duì)應(yīng)于短時(shí)譜中的共振峰,從橫杠對(duì)應(yīng)的頻率和帶寬可確定共振峰頻率帶寬。豎直條:與時(shí)間軸垂直的一條窄黑條,每個(gè)豎直條相當(dāng)于一個(gè)基音,條紋的起點(diǎn)對(duì)應(yīng)聲門脈沖的起點(diǎn),條紋間的距離表示基音周期。亂紋:清音語譜圖表現(xiàn)為亂紋。語音發(fā)音及感知系統(tǒng)語音信號(hào)生成的數(shù)學(xué)模型語音基本概念和參數(shù)語音信號(hào)的數(shù)字化和預(yù)處理2.4語音信號(hào)的數(shù)字化和預(yù)處理語音信號(hào)的數(shù)字化包括:放大及增益控制、反混疊濾波、采樣、A/D轉(zhuǎn)換及編碼。(1)預(yù)濾波:抑制輸入信號(hào)各頻率分量中頻率超出fs/2的所有分量,以防止混疊干擾;抑制50Hz的電源工頻干擾。其常為帶通濾波器:上截止頻率為3400Hz左右,而下截止頻率為60~100Hz。(2)A/D轉(zhuǎn)換:會(huì)引起量化誤差(量化后信號(hào)與原信號(hào)之間的差值,又稱為量化噪聲);通常采用12位的A/D轉(zhuǎn)換器。數(shù)字化的反過程:從數(shù)字化語音中重構(gòu)語音波形,通常在D/A后加一個(gè)平滑濾波器,對(duì)重構(gòu)的語音波形的高次諧波其平滑作用,以去除高次諧波失真。語音信號(hào)的預(yù)處理包括:預(yù)加重、加窗、分幀等。2.4語音信號(hào)的數(shù)字化和預(yù)處理語音信號(hào)的預(yù)處理包括:預(yù)加重、加窗、分幀等。為什么要預(yù)加重和去加重?語音信號(hào)低頻段能量大,高頻段能量小,而接收機(jī)鑒頻器輸出的低頻噪聲小,高頻噪聲大;造成信號(hào)低頻信噪比大,而高頻信號(hào)比小,使高頻傳輸困難。預(yù)加重的做法?在噪聲引入之前采用預(yù)加重網(wǎng)絡(luò),人為提升發(fā)射機(jī)輸入調(diào)制信號(hào)的高頻分量。具體做法:在取樣后,插入一個(gè)一階高通濾波器。去加重的做法?在接收機(jī)鑒頻器輸出端,采用去加重網(wǎng)絡(luò)把高頻分量壓制,恢復(fù)原信號(hào)功率。優(yōu)點(diǎn):預(yù)加重對(duì)噪聲沒有影響,而去加重同時(shí)也減小了噪聲的高頻分量,因此有效提高了輸出信噪比。
南京郵電大學(xué)
通信與信息工程學(xué)院
第3章語音信號(hào)處理的常用算法矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.1矢量量化標(biāo)量量化:整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值。對(duì)于一個(gè)輸入的標(biāo)量信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值來代替,或者被量化為這個(gè)代表值。矢量量化:是對(duì)矢量進(jìn)行量化,和標(biāo)量量化一樣,它把矢量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表矢量,量化時(shí)落入小區(qū)域的矢量就用這個(gè)代表矢量代替,或者稱為“被量化為這個(gè)代表矢量”。矢量量化的目的:將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量(或者從一幀語音數(shù)據(jù)中提取的特征矢量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。3.1矢量量化—基本原理設(shè)有N個(gè)K維特征矢量其中第i個(gè)矢量(可看作語音信號(hào)中某幀參數(shù)組成的矢量)可記為把K維歐幾里得空間無遺漏地劃分成J個(gè)互不相交的子空間滿足:在每個(gè)子空間Rj找一個(gè)代表矢量Yj,則j個(gè)代表矢量可以組成矢量集為這樣組成了一個(gè)矢量量化器。Y稱為碼書或碼本;Yj稱為碼矢或碼字;J稱為碼本尺寸。不同的劃分或不同的代表矢量選取方法可以構(gòu)成不同的矢量量化器。3.1矢量量化—基本原理矢量量化過程:當(dāng)輸入任意矢量進(jìn)行矢量量化時(shí),矢量量化器首先判斷它屬于哪個(gè)子空間Rj,然后輸出該子空間Rj的代表矢量Yj
。即,用Yj代表Xi的過程,即,量化過程就是完成一個(gè)從K維歐幾里得空間中的矢量X到K維空間有限子集Y的映射通常Q(.)選擇是根據(jù)最小失真原理,分別計(jì)算用各碼矢Yj代替Xi所帶來的失真,其中產(chǎn)生最小失真值時(shí)所對(duì)應(yīng)的那個(gè)碼矢,就是最終量化的輸出碼矢。缺點(diǎn):存在量化噪聲!3.1矢量量化—基本原理矢量量化在語音通信中的應(yīng)用:編碼:解碼:矢量量化在語音識(shí)別中的應(yīng)用:3.1矢量量化—基本原理矢量量化需要解決的兩大關(guān)鍵問題:(1)設(shè)計(jì)一個(gè)好的碼本(“訓(xùn)練”或“學(xué)習(xí)”):需要搜集海量且具有代表性的數(shù)據(jù);要選擇一個(gè)好的失真度量準(zhǔn)則以及碼本優(yōu)化方法(常用LBG算法來實(shí)現(xiàn))。(2)未知矢量的量化:需要按照選定的失真測(cè)度準(zhǔn)則,把未知矢量量化為失真測(cè)度最小的區(qū)域邊界的中心(碼字)矢量值,并獲得該碼字的序列號(hào)(碼字在碼本中的地址或標(biāo)號(hào))。存在兩矢量在進(jìn)行比較時(shí)的測(cè)度問題;未知矢量量化時(shí)的搜索策略。3.1矢量量化—失真測(cè)度失真測(cè)度的定義:是將輸入矢量Xi用碼本重構(gòu)矢量Yj表征時(shí)所產(chǎn)生的誤差或失真的度量方法,用以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇好壞直接影響到聚類效果和量化精度。設(shè)對(duì)兩個(gè)k維語音特征矢量X和Y進(jìn)行比較,要使其距離測(cè)度d(X,Y)在語音信號(hào)處理中有效,必須具備以下條件:3.1矢量量化—失真測(cè)度常用的失真測(cè)度:(1)均方誤差歐氏距離(2)r平方誤差(3)r平均誤差(4)絕對(duì)值平均誤差(5)最大平均誤差(6)加權(quán)歐氏距離測(cè)度3.1矢量量化—失真測(cè)度線性預(yù)測(cè)失真測(cè)度:當(dāng)語音信號(hào)特征矢量是用線性預(yù)測(cè)方法求出的LPC系數(shù)時(shí)(即,用LPC參數(shù)描述語音信號(hào)時(shí)),不能直接用歐氏距離。當(dāng)預(yù)測(cè)器的階數(shù)p趨近于無窮大,信號(hào)與模型完全匹配時(shí),信號(hào)功率譜為相應(yīng)地,如碼本中某重構(gòu)矢量的功率譜為可定義I-S距離來衡量二者失真:其中另外,還有對(duì)數(shù)似然比失真測(cè)度、模型失真測(cè)度、識(shí)別失真測(cè)度等。3.1矢量量化—最佳碼本設(shè)計(jì)碼本設(shè)計(jì):用d(X,Y)表示訓(xùn)練用的特征矢量X和訓(xùn)練出的碼本的碼字Y之間的畸變,那么最佳碼本設(shè)計(jì)的任務(wù)就是在一定的條件下,使得此畸變的統(tǒng)計(jì)平均值D=E[d(X,Y)]達(dá)到最小。應(yīng)遵循的兩條原則:(1)最近鄰原則,表示為(2)設(shè)所有選擇碼字Yl(即歸屬于Yl所表示的區(qū)域)的輸入矢量X的集合為Sl,那么Yl應(yīng)使該集合中的所有矢量與Yl之間的畸變值最小。如果采用歐氏距離來度量X與Y之間的畸變值,那么容易證明Yl應(yīng)等于Sl中所有矢量的質(zhì)心:根據(jù)上述兩條原則,設(shè)計(jì)碼本設(shè)計(jì)的遞推算法——LBG算法。整個(gè)算法就是上述兩個(gè)條件的反復(fù)迭代過程,即從初始碼本尋找最佳碼本的迭代過程。3.1矢量量化—最佳碼本設(shè)計(jì)LBG算法的步驟:矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.2隱馬爾可夫模型—概述隱馬爾可夫模型(HiddenMarkovModels,HMM)作為語音信號(hào)的一種統(tǒng)計(jì)模型,在語音信號(hào)處理各個(gè)領(lǐng)域中獲得廣泛的應(yīng)用。HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型,具有N個(gè)狀態(tài)S1,S2,…,SN,它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每次轉(zhuǎn)移時(shí),輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪一個(gè)狀態(tài),轉(zhuǎn)移時(shí)輸出什么符號(hào),分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來決定。特點(diǎn):只能觀測(cè)到輸出符號(hào)序列,而不能觀測(cè)到狀態(tài)轉(zhuǎn)移序列!3.2隱馬爾可夫模型—概述球和缸的實(shí)驗(yàn)(隱馬爾可夫模型中“隱”的含義)設(shè)有N個(gè)缸,每個(gè)缸里裝有很多彩色的球,在同一個(gè)缸中不同顏色球的多少由一組概率分布來描述。根據(jù)某個(gè)初始概率分布,隨機(jī)選擇一個(gè)缸,再根據(jù)這個(gè)缸中彩色球顏色的概率分布,隨機(jī)選擇一個(gè)球,記下球的顏色,再把球放回缸中。又跟據(jù)描述缸的轉(zhuǎn)移的概率分布,選擇下一個(gè)缸,再從缸中隨機(jī)選一個(gè)球,……,一直進(jìn)行下去,就可以得到一個(gè)描述球的顏色的序列。由于球的顏色和缸之間不是一一對(duì)應(yīng)的,所以缸之間的轉(zhuǎn)移以及每次選取的缸被隱藏起來了,并不能直接觀察到。3.2隱馬爾可夫模型—概述隱馬爾可夫模型和語音信號(hào)建模之間的關(guān)系HMM用于語音信號(hào)建模時(shí),是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,它是數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱隨機(jī)過程,另一個(gè)是與Markov鏈的每一狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。人的言語過程也可以看成一個(gè)雙重隨機(jī)過程,語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流。因此HMM合理地模仿了這一過程,很好地描述了語音信號(hào)整體非平穩(wěn)性和局部平穩(wěn)性。3.2隱馬爾可夫模型—定義離散Markov過程設(shè)在時(shí)刻t的隨機(jī)變量St的觀察值為st,則在S1=s1,S2=s2,…,St=st的前提下,St+1=st+1的概率為:即,系統(tǒng)在任一時(shí)刻所處的狀態(tài)只與此時(shí)刻的前一時(shí)刻所處的狀態(tài)有關(guān)(1階Markov過程)。此外,為了處理方便,只考慮右邊的概率與時(shí)間無關(guān)的情況,假設(shè)有N個(gè)不同的狀態(tài)(S1=s1,S2=s2,…,St=st),系統(tǒng)在經(jīng)歷了一段時(shí)間后,按照上式所定義的概率關(guān)系經(jīng)歷了一系列狀態(tài)的變化,此時(shí)輸出的是狀態(tài)序列。3.2隱馬爾可夫模型—定義隱Markov模型HMM是由兩個(gè)隨機(jī)過程組成的:一個(gè)是狀態(tài)轉(zhuǎn)移序列,它對(duì)應(yīng)于1階Markov過程,另一個(gè)是每次轉(zhuǎn)移時(shí)輸出的符號(hào)組成的符號(hào)序列。設(shè)狀態(tài)轉(zhuǎn)移序列為S=s1,
s2,…,sT,輸出的符號(hào)序列為O=o1,
o2,…,oT,則對(duì)于HMM,把所有可能得狀態(tài)轉(zhuǎn)移序列都考慮進(jìn)去,則有3.2隱馬爾可夫模型—定義HMM的基本元素對(duì)于描述語音信號(hào)特征序列的HMM,可用如下6個(gè)模型參數(shù)來定義,即,S:模型中狀態(tài)的有限集合,即,模型由幾個(gè)狀態(tài)組成。設(shè)有N個(gè)狀態(tài),S={Si|i=1,2,…,N}。記t時(shí)刻所處的狀態(tài)為st,
球與缸實(shí)驗(yàn)中的缸。O:輸出的觀測(cè)值符號(hào)的集合,即每個(gè)狀態(tài)對(duì)應(yīng)的可能的觀測(cè)值數(shù)目。記M個(gè)觀察值為O=o1,
o2,…,oT,記t時(shí)刻的觀察值為ot,球與缸實(shí)驗(yàn)中所選彩球的顏色就是觀察值。A:狀態(tài)轉(zhuǎn)移概率的集合。aij是從狀態(tài)Si到Sj的轉(zhuǎn)移概率,
每次在當(dāng)前選取的缸的條件下選取下一個(gè)缸的概率。3.2隱馬爾可夫模型—定義HMM的基本元素對(duì)于描述語音信號(hào)特征序列的HMM,可用如下6個(gè)模型參數(shù)來定義,即,B:輸出觀測(cè)值概率集合。B={bij(k)},其中bij(k)是從狀態(tài)Si到Sj轉(zhuǎn)移時(shí)觀測(cè)值符號(hào)k的輸出概率。即缸中球的顏色k出現(xiàn)的概率。:系統(tǒng)初始狀態(tài)概率的集合,表示初始狀態(tài)是si的概率,即
開始時(shí)選取某個(gè)缸的概率F:系統(tǒng)終了狀態(tài)的集合3.2隱馬爾可夫模型—定義HMM用于語音識(shí)別對(duì)于每個(gè)孤立字(詞)需要準(zhǔn)備一個(gè)HMM,可以通過模型學(xué)習(xí)或訓(xùn)練來完成。對(duì)于任一要識(shí)別的未知孤立字(詞)語音,首先通過分幀、參數(shù)分析和特征參數(shù)提取,得到一組隨機(jī)向量序列X1,X2,…XT(T為觀察時(shí)間長(zhǎng)度,即,幀數(shù));再通過矢量量化把上述序列轉(zhuǎn)化為符號(hào)序列O=o1,o2,…,oT;而后計(jì)算這組符號(hào)序列再每個(gè)HMM上的輸出概率,輸出概率最大的HMM對(duì)應(yīng)的孤立字(詞),就是識(shí)別結(jié)果。3.2隱馬爾可夫模型—基本算法HMM用于語音信號(hào)處理需要解決的三個(gè)問題(1)識(shí)別問題:給定觀察符號(hào)序列O=o1,o2,…,oT和模型,如何快速有效地計(jì)算觀察符號(hào)序列的輸出概率P(O|M)?解決方法:前向—后向算法(2)已知模型,尋找與給定觀察序列對(duì)應(yīng)的最佳狀態(tài)序列。解決方法:維特比算法(3)模型訓(xùn)練問題:對(duì)于初始模型和給定用于訓(xùn)練的觀察符號(hào)序列O=o1,o2,…,oT,如何調(diào)整模型的參數(shù),使得輸出概率P(O|M)最大?解決方法:Baum-Welch算法3.2隱馬爾可夫模型—基本算法前向—后向算法前向算法:按照輸出觀察值序列的時(shí)間,從前向后遞推計(jì)算輸出概率。3.2隱馬爾可夫模型—基本算法前向—后向算法P(O|M)的計(jì)算過程如下:3.2隱馬爾可夫模型—基本算法前向—后向算法后向算法:按照輸出觀察值序列的時(shí)間,從后向前遞推計(jì)算輸出概率。3.2隱馬爾可夫模型—基本算法維特比算法:給定觀察值序列O和模型M時(shí),在最佳意義上確定一個(gè)狀態(tài)序列S=s1,s2,…,sT的問題,即使P(S,O|M)最大時(shí)確定的狀態(tài)序列。算法描述:在這個(gè)遞推公式中,每一次使得最大的狀態(tài)i組成的狀態(tài)序列就是所求的最佳狀態(tài)序列3.2隱馬爾可夫模型—基本算法維特比算法:實(shí)現(xiàn)步驟:3.2隱馬爾可夫模型—基本算法Baum-Welch算法:基本思想:給定一個(gè)觀察值O,確定M,使得P(O|M)最大。其利用遞歸思想,通過迭代得到P(O|M)的局部極值。具體地,在每次迭代中都使得由估計(jì)出的參數(shù)組成的新模型滿足。重復(fù)該過程,直至收斂,此時(shí)即為所求的模型。對(duì)于符號(hào)序列O,在時(shí)刻t從狀態(tài)Si轉(zhuǎn)移到狀態(tài)Sj的轉(zhuǎn)移概率為對(duì)于符號(hào)序列O,在時(shí)刻t時(shí)Markov鏈處于3.2隱馬爾可夫模型—基本算法Baum-Welch算法:對(duì)于符號(hào)序列O,從狀態(tài)Si轉(zhuǎn)移到Sj的轉(zhuǎn)移次數(shù)的期望值為從狀態(tài)Si轉(zhuǎn)移出去的次數(shù)的期望值為則重估公式為3.2隱馬爾可夫模型—基本算法Baum-Welch算法的實(shí)現(xiàn)步驟關(guān)于模型收斂(或者停止訓(xùn)練的判定)問題。矢量量化隱馬爾可夫模型深度學(xué)習(xí)3.3深度學(xué)習(xí)—概述深度學(xué)習(xí)起源:2006年,GeoffreyHinton等學(xué)者提出深度信念網(wǎng)絡(luò)以及相應(yīng)的半監(jiān)督算法,開啟了深度學(xué)習(xí)的研究熱潮?;舅枷耄翰捎弥饘映跏蓟驼w反饋的方法,以受限玻爾茲曼機(jī)為基本單元來搭建神經(jīng)網(wǎng)絡(luò),利用無監(jiān)督預(yù)訓(xùn)練初始化權(quán)值以及有監(jiān)督參數(shù)微調(diào),來訓(xùn)練該神經(jīng)網(wǎng)絡(luò)的參數(shù)。在語音信號(hào)處理領(lǐng)域的應(yīng)用:傳統(tǒng)語音信號(hào)處理方法中,語音信號(hào)的分析與特征提取、目標(biāo)任務(wù)的完成通常是被當(dāng)作兩個(gè)相互分離的問題分別處理。帶來的問題是所提取的特征對(duì)于目標(biāo)任務(wù)而言常常不是最優(yōu)的。深度學(xué)習(xí)技術(shù)具有自動(dòng)提取特征的能力,可以將上述兩個(gè)問題進(jìn)行聯(lián)合處理。3.3深度學(xué)習(xí)—概述深度學(xué)習(xí)模型的優(yōu)點(diǎn):(1)學(xué)習(xí)能力強(qiáng),在很多任務(wù)中性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。(2)適應(yīng)性好:深度學(xué)習(xí)模型的網(wǎng)絡(luò)層數(shù)多,理論上可以映射到任意函數(shù)。(3)數(shù)據(jù)驅(qū)動(dòng):深度學(xué)習(xí)高度依賴數(shù)據(jù),數(shù)據(jù)量越大,它的表現(xiàn)就越好。深度學(xué)習(xí)模型的缺點(diǎn):(1)計(jì)算量大:深度學(xué)習(xí)需要大量的數(shù)據(jù)與算力支持。(2)硬件要求高:普通CPU無法滿足深度學(xué)習(xí)模型和算法的運(yùn)算需求。(3)模型設(shè)計(jì)復(fù)雜:需要投入大量人力和時(shí)間來開發(fā)新的模型3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(DNN)的基本結(jié)構(gòu):具有多個(gè)隱藏層和多個(gè)輸出的網(wǎng)絡(luò),可以擬合復(fù)雜的非線性函數(shù),模型靈活性高。在DNN中,各神經(jīng)元分別屬于不同的層,每一層的神經(jīng)元可以接收前一層的神經(jīng)元信號(hào),并產(chǎn)生信號(hào)輸出到下一層。L+1層DNN,輸入層為第0層,輸出層為第L層。第第l-1層與第l層的關(guān)系:
3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)DNN的激活函數(shù):3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:在數(shù)據(jù)輸入DNN經(jīng)過前向傳播得到輸出后,由預(yù)先定義的目標(biāo)函數(shù)可以計(jì)算損失,根據(jù)損失從后向前依次調(diào)整各層的權(quán)重與偏置,實(shí)現(xiàn)DNN參數(shù)的反向傳播。給定訓(xùn)練集,將每個(gè)樣本x輸入DNN,得到輸出為y,其損失函數(shù)定義為在一些語音信號(hào)處理任務(wù)中,常使用交叉熵作為損失函數(shù):計(jì)算權(quán)重目標(biāo)函數(shù)關(guān)于參數(shù)W和b的梯度,更新如下:3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:由于梯度下降法在計(jì)算損失函數(shù)對(duì)參數(shù)的偏導(dǎo)數(shù)時(shí),會(huì)帶來很大的計(jì)算開銷,因而在DNN訓(xùn)練過程中,通常通過反向傳播算法提升計(jì)算效率。仍以第l層為例,對(duì)第l層的參數(shù)W和b計(jì)算偏導(dǎo)數(shù)。其中,3.3深度學(xué)習(xí)—深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法:在計(jì)算出上述三個(gè)偏微分后,可以表示為上式可進(jìn)一步寫成:同理,可以得到損失函數(shù)關(guān)于第l層偏置的梯度:在計(jì)算出每一層的誤差后,就可以根據(jù)上式得到每一層參數(shù)的梯度。因此DNN訓(xùn)練算法包括如下三個(gè)步驟:3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)DNN的缺點(diǎn):(1)模型當(dāng)前的輸出只取決于當(dāng)前輸入,而實(shí)際中可能與過去時(shí)刻輸出也相關(guān)。(2)輸入數(shù)據(jù)和輸出數(shù)據(jù)的維度是固定的,不能任意改變。(3)無法處理實(shí)際場(chǎng)景中的時(shí)序數(shù)據(jù)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):(1)通過在DNN上加入循環(huán)連接使得模型具有記憶能力。(2)由具有環(huán)路的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成,其神經(jīng)元不僅可以接收其他神經(jīng)元的信息,也可以接收自身的信息,能夠更好地處理時(shí)序數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)。(3)在訓(xùn)練算法上,采用時(shí)間反向傳播算法進(jìn)行參數(shù)更新,也存在著梯度消失的問題。3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的結(jié)構(gòu):隱藏層的輸入由兩部分組成:來自輸入層的輸入,來自上一時(shí)刻隱藏層的輸出;與DNN最大的不同:存在隱藏層的循環(huán)連接。信息在RNN中的傳播方式:
st可以表征之前所有時(shí)刻的輸入信息{x1,x2,…,xT}
ot包含當(dāng)前時(shí)刻的輸入以及以往所有時(shí)刻的輸入。3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)(1)RNN的長(zhǎng)程依賴:RNN雖然可以建模時(shí)序數(shù)據(jù),但由于序列長(zhǎng)度增大可能帶來梯度消失或爆炸問題。其只能學(xué)到短期的“記憶”(時(shí)刻t的輸出yt只與一定時(shí)間間隔k內(nèi)的輸入有關(guān)),當(dāng)時(shí)間間隔過長(zhǎng)時(shí),RNN就難以準(zhǔn)確描述關(guān)聯(lián)性。(2)LSTM是RNN的變體,引入門控單元,通過選擇性遺忘過去時(shí)刻的累積信息來更新網(wǎng)絡(luò)參數(shù),達(dá)到緩解RNN長(zhǎng)程依賴的問題。(3)LSTM由記憶單元ct,輸入門it,輸出門ot,遺忘門ft組成,3.3深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)RNN中的每個(gè)h存儲(chǔ)了歷史信息,可以看作一種記憶。在RNN中,隱狀態(tài)的每個(gè)時(shí)刻都會(huì)被重寫,因此其為短期記憶。而長(zhǎng)期記憶可以看作網(wǎng)絡(luò)參數(shù),表征了從訓(xùn)練數(shù)據(jù)中學(xué)到的經(jīng)驗(yàn),其更新周期遠(yuǎn)遠(yuǎn)慢于短期記憶。在LSTM中,記憶單元c可以在某個(gè)時(shí)刻捕捉到某個(gè)關(guān)鍵信息,并有能力將此關(guān)鍵信息保存一定的時(shí)間間隔。記憶單元c中保存信息的生命周期要長(zhǎng)于短期記憶h,但又遠(yuǎn)遠(yuǎn)短于長(zhǎng)期記憶,因此被稱為長(zhǎng)短期記憶。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)與DNN的區(qū)別在于,CNN中的神經(jīng)元并非全連接,而是局部連接。即,CNN中卷積層的某個(gè)神經(jīng)元的輸出并不取決于輸入特征圖中的所有神經(jīng)元的輸入,而是僅由卷積核對(duì)應(yīng)位置的神經(jīng)元的輸入決定。由于局部連接的特點(diǎn),使得CNN能夠很好地捕捉輸入特征圖中的局部特征;同時(shí),在進(jìn)行卷積計(jì)算時(shí),卷積核在輸入特征圖的不同位置,其權(quán)值參數(shù)是不變的,并且通常將卷積層和池化層結(jié)合使用,這樣使得CNN的計(jì)算復(fù)雜度顯著降低,大大拓展了其應(yīng)用領(lǐng)域。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)在CNN計(jì)算過程中,首先通過輸入層向模型中輸入數(shù)據(jù),然后經(jīng)過卷積層對(duì)數(shù)據(jù)做進(jìn)一步處理,逐層提取更為抽象的特征,緊接著對(duì)輸出特征圖使用池化層達(dá)到特征降維的作用,按照該方式對(duì)卷積層和池化層進(jìn)行多次堆疊,最后經(jīng)過全連接的輸出層完成回歸、分類等任務(wù)。此外,每層網(wǎng)絡(luò)的輸出還需要經(jīng)過激活函數(shù)的映射,從而使模型具有更強(qiáng)的表達(dá)能力。3.3深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)(1)輸入層:CNN的輸入層可以處理多維數(shù)據(jù),其“數(shù)據(jù)”可以對(duì)原始數(shù)據(jù)經(jīng)過預(yù)處理所得的初步特征,也可以是原始數(shù)據(jù)。(2)卷積層:根據(jù)上一層節(jié)點(diǎn)對(duì)下一層節(jié)點(diǎn)的重要性分布,將下一層節(jié)點(diǎn)只和與其關(guān)聯(lián)性較大的上一層階段相連接。(3)池化層:在卷積層后添加池化層,可以降低特征維度,避免過擬合。
(4)全連接層:
利用所提取出的
高階特征完成目
標(biāo)任務(wù)。
南京郵電大學(xué)
通信與信息工程學(xué)院
第4章語音信號(hào)分析4.0概述短時(shí)分析技術(shù)雖然語音信號(hào)具有時(shí)變特性,但在一個(gè)短時(shí)間范圍內(nèi)(10~30ms),其特性基本保持不變,即相對(duì)穩(wěn)定(由于口腔肌肉運(yùn)動(dòng)相對(duì)緩慢)——短時(shí)平穩(wěn)性。短時(shí)分析:將語音分為一段一段來分析其特征參數(shù),其中每一段稱為一幀(10~30ms)。對(duì)于整體語音而言,分析處的是由每一幀特征參數(shù)所組成的特征參數(shù)時(shí)間序列。分析方法(根據(jù)分析出的參數(shù)性質(zhì)不同):時(shí)域分析、頻域分析、倒譜域分析、線性預(yù)測(cè)分析。語音分幀語音信號(hào)的時(shí)域分析語音信號(hào)的頻域分析語音信號(hào)的倒譜分析語音信號(hào)的線性預(yù)測(cè)分析4.1語音分幀幀移與幀長(zhǎng)的比值一般取0~1/2;分幀的實(shí)現(xiàn):用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán):4.1語音分幀矩形窗的譜平滑特性好,但由于主瓣寬度小,加窗后的語音損失了高頻成分;漢明窗正好相反。窗的選擇(1)窗函數(shù)的選擇標(biāo)準(zhǔn):在時(shí)域需要減小時(shí)間窗兩端的坡度,使截取得到的語音波形緩慢降為0,減小語音幀的截?cái)嘈?yīng);在頻域要有較寬的3dB帶寬以及較小的邊帶最大值。(2)窗口長(zhǎng)度的選擇:N與時(shí)間分辨率、頻率分辨率之間的關(guān)系(N越大,頻域帶寬越小,語音信號(hào)加窗后反應(yīng)波形細(xì)節(jié)的高頻部分被阻礙,短時(shí)能量隨時(shí)間變化小,不能真實(shí)反應(yīng)語音幅度變;反之亦然);N的數(shù)值:保證在一個(gè)語音幀里包含1~7個(gè)基音周期。語音分幀語音信號(hào)的時(shí)域分析語音信號(hào)的頻域分析語音信號(hào)的倒譜分析語音信號(hào)的線性預(yù)測(cè)分析4.2語音信號(hào)的時(shí)域分析時(shí)域分析的特點(diǎn)(1)語音信號(hào)直觀表示、物理意義明確;(2)實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算量小;(3)可以得到語音的一些重要參數(shù);(4)只使用示波器等通用設(shè)備,使用簡(jiǎn)單。典型的時(shí)域分析(1)短時(shí)能量和短時(shí)平均幅度分析(2)短時(shí)過零率分析(3)短時(shí)相關(guān)分析4.2語音信號(hào)的時(shí)域分析—短時(shí)能量短時(shí)能量、短時(shí)平均幅度對(duì)高電平敏感!用途:(1)區(qū)分濁音段和清音段;(2)區(qū)分聲母和韻母的分界、無聲與有聲的分界等。4.2語音信號(hào)的時(shí)域分析—短時(shí)過零率短時(shí)過零率:一幀語音中信號(hào)波形橫穿零電平的次數(shù)符號(hào)函數(shù)對(duì)于濁音,其語音能量集中在3kHz以下低頻段,過零率也低;清音多數(shù)能量出現(xiàn)在較高頻率上,過零率相對(duì)較高。用途:從背景噪聲中找出語音信號(hào),用于判斷寂靜無聲段和有聲段的起點(diǎn)和終點(diǎn)位置。背景噪聲較小時(shí)用平均能量較為有效,而背景噪聲較大時(shí)用平均過零率更有效。4.2語音信號(hào)的時(shí)域分析—短時(shí)過零率無聲(S),清音(U),濁音(V)的短時(shí)平均幅度以及短時(shí)過零率的概率分布濁音:短時(shí)平均幅度最高,短時(shí)過零率最低;清音:短時(shí)平均幅度居中,短時(shí)過零率最高;無聲:短時(shí)平均幅度最低,短時(shí)過零率居中??苫诟怕收摚ㄟ^短時(shí)平均幅度和短時(shí)過零率,來判別語音中的濁音/清音/無聲類別。4.2語音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析短時(shí)相關(guān)分析:用于求濁音語音的基音周期,用于線性預(yù)測(cè)分析短時(shí)自相關(guān)函數(shù):K為最大延遲點(diǎn)數(shù)性質(zhì):(1)如果
是周期的(周期為Np),則自相關(guān)函數(shù)是同周期的周期函數(shù),(2)是偶函數(shù),即,(3)當(dāng)k=0時(shí),自相關(guān)函數(shù)具有最大值,即,,并且等于確定性信號(hào)序列的能量或隨機(jī)序列的平均功率。4.2語音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析修正的短時(shí)相關(guān)分析:傳統(tǒng)短時(shí)自相關(guān)函數(shù)的缺點(diǎn):(1)隨著延遲k的增加,進(jìn)行乘積和的項(xiàng)數(shù)在減少,導(dǎo)致自相關(guān)函數(shù)的幅度值隨著k的增加而下降;(2)如果窗長(zhǎng)不夠,包含的周期數(shù)不夠多,會(huì)給周期計(jì)算帶來麻煩。4.2語音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析修正的短時(shí)相關(guān)分析:用兩個(gè)長(zhǎng)度不同的窗口,截取兩個(gè)不等長(zhǎng)的序列進(jìn)行乘積和,兩個(gè)窗口長(zhǎng)度始終相差最大的延遲點(diǎn)數(shù)K。這樣可以始終保持乘積和的項(xiàng)數(shù)不變,始終為短窗的長(zhǎng)度。4.2語音信號(hào)的時(shí)域分析—短時(shí)相關(guān)分析短時(shí)幅度差函數(shù):計(jì)算自相關(guān)函數(shù)的運(yùn)算量很大(有乘法運(yùn)算)。如果信號(hào)是完全的周期信號(hào),則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差值為0(實(shí)際語音信號(hào)差值很小,極小值出現(xiàn)在整數(shù)倍周期的位置上)定義:濁音(a)(b)和清音(c)的短時(shí)平均幅度差函數(shù)語音分幀語音信號(hào)的時(shí)域分析語音信號(hào)的頻域分析語音信號(hào)的倒譜分析語音信號(hào)的線性預(yù)測(cè)分析4.3語音信號(hào)的頻域分析利用短時(shí)傅里葉變換求語音短時(shí)譜第n幀語音信號(hào)的離散傅里葉變換:窗類型的選擇以及窗口寬度的選擇(與時(shí)域分析結(jié)論相同?。?.3語音信號(hào)的頻域分析利用短時(shí)傅里葉變換求語音短時(shí)譜令角頻率,則得到離散短時(shí)傅里葉變換:在語音信號(hào)的數(shù)字處理中都是采用上式來作為頻譜,可以采用FFT完成將時(shí)域語音變換到頻域。語音的功率譜:功率譜是短時(shí)自相關(guān)函數(shù)的傅里葉變換4.3語音信號(hào)的頻域分析語音短時(shí)譜的臨界帶特征目的:把線性頻譜轉(zhuǎn)化為臨界帶頻譜,更符合人耳的聽覺特性;步驟:(1)求取各幀加窗語音的功率譜;(2)確定若干個(gè)臨界帶頻率分割點(diǎn);(3)計(jì)算各個(gè)臨界帶中功率譜之和,將其作為臨界帶特征矢量,用于后續(xù)語音處理任務(wù)。語音分幀語音信號(hào)的時(shí)域分析語音信號(hào)的頻域分析語音信號(hào)的倒譜分析語音信號(hào)的線性預(yù)測(cè)分析4.4語音信號(hào)的倒譜分析—同態(tài)信號(hào)處理同態(tài)信號(hào)處理:將卷積關(guān)系(非線性關(guān)系)變成求和關(guān)系(線性關(guān)系),從而將語音信號(hào)的聲門激勵(lì)信息及聲道響應(yīng)信息分離開來,求得聲道共振特征和基音周期,用于語音編碼、合成、識(shí)別等任務(wù)。4.4語音信號(hào)的倒譜分析—同態(tài)信號(hào)處理子系統(tǒng)1:將卷積信號(hào)轉(zhuǎn)化為加性信號(hào):子系統(tǒng)2:對(duì)進(jìn)行線性處理得到;子系統(tǒng)3:對(duì)進(jìn)行逆變換,得到恢復(fù)信號(hào)。如果處于不同的位置并且互不交替,那么適當(dāng)設(shè)計(jì)線性系統(tǒng),便可將二者分離開來。4.4語音信號(hào)的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜:為的復(fù)倒譜。倒譜:如果只考慮上式的實(shí)部,則:4.4語音信號(hào)的倒譜分析—復(fù)倒譜和倒譜復(fù)倒譜和倒譜的關(guān)系:(1)復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算,倒譜只進(jìn)行實(shí)對(duì)數(shù)運(yùn)算;(2)由于在計(jì)算過程中相位信息丟失,在倒譜情況下一個(gè)序列經(jīng)過正逆兩個(gè)特征系統(tǒng)變換后,不能還原成自身;(3)倒譜和復(fù)倒譜一樣,是把兩個(gè)信號(hào)卷積轉(zhuǎn)換成求和;(4)已知實(shí)序列的復(fù)倒譜,可以求出其倒譜。(5)在復(fù)倒譜滿足一定條件時(shí),也可以由倒譜求得復(fù)倒譜。4.4語音信號(hào)的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù):Mel頻率與實(shí)際頻率呈對(duì)數(shù)分布關(guān)系,MFCC也著眼于人耳的聽覺特性;在1000Hz以下,大致呈線性分布,帶寬為100Hz左右;在1000Hz以上,呈對(duì)數(shù)增長(zhǎng)。類似于臨界頻帶的劃分,可以將語音頻率劃分為一系列三角形的濾波器序列(Mel濾波器組)4.4語音信號(hào)的倒譜分析—Mel頻率倒譜系數(shù)Mel頻率倒譜系數(shù)的求法:取每個(gè)三角形濾波器頻率帶寬內(nèi)所有信號(hào)的幅度加權(quán)和作為某個(gè)帶通濾波器的輸出,然后對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換即得到MFCC。步驟:(1)將實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度;(2)在Mel頻率軸上配置L個(gè)通道的三角形濾波器組,相鄰之間截止頻率關(guān)系:(3)根據(jù)語音信號(hào)的幅度譜求每個(gè)三角形濾波器的輸出:(4)對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再做離散余弦變換得到MFCC語音分幀語音信號(hào)的時(shí)域分析語音信號(hào)的頻域分析語音信號(hào)的倒譜分析語音信號(hào)的線性預(yù)測(cè)分析4.5語音信號(hào)的線性預(yù)測(cè)分析—基本原理線性預(yù)測(cè)分析的基本思想:由于語音樣點(diǎn)之間存在相關(guān)性,可以用過去的樣點(diǎn)值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值。即,一個(gè)語音的抽樣能夠用過去若干個(gè)語音抽樣或它們的線性組合來逼近。通過實(shí)際語音抽樣
和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值,來決定唯一的預(yù)測(cè)系數(shù)。這組預(yù)測(cè)系數(shù)就反映了語音信號(hào)的特性,可以作為語音信號(hào)特征參數(shù)用于語音識(shí)別、語音合成等。4.5語音信號(hào)的線性預(yù)測(cè)分析—基本原理語音模型:系統(tǒng)的輸入e(n)是語音激勵(lì),s(n)是輸出語音,模型的系統(tǒng)參數(shù)H(z)可寫成有理分式:H(z)可以分為自回歸—滑動(dòng)平均模型(ARMA),自回歸模型(AR),滑動(dòng)平均模型(MA)三種形式;實(shí)際語音信號(hào)處理中最常用的是AR模型(全極點(diǎn)模型):(1)除了鼻音和摩擦音,語音的聲道傳遞函數(shù)就是一個(gè)全極點(diǎn)模型;對(duì)于鼻音摩擦音,也可以用全極點(diǎn)模型來近似;(2)由于全極點(diǎn)模型的參數(shù)估計(jì)是對(duì)線性方程組的求解,所以可以用線性預(yù)測(cè)的方法來求解。4.5語音信號(hào)的線性預(yù)測(cè)分析—基本原理采用全極點(diǎn)模型后,傳遞函數(shù)H(z)為:語音抽樣s(n)和e(n)之間的關(guān)系為:對(duì)于濁音,激勵(lì)e(n)是以基音周期重復(fù)的單位沖激;對(duì)于清音,e(n)是白噪聲。線性預(yù)測(cè)模型建立的本質(zhì):是由語音信號(hào)來估計(jì)模型參數(shù)的過程。線性預(yù)測(cè)器:時(shí)域表達(dá)式:頻域系統(tǒng)函數(shù):逆濾波器:預(yù)測(cè)誤差:4.5語音信號(hào)的線性預(yù)測(cè)分析—基本原理線性預(yù)測(cè)方程的推導(dǎo)(選用最小均方誤差準(zhǔn)則)令某一幀內(nèi)的短時(shí)平均預(yù)測(cè)誤差為:為使最小,對(duì)ai求偏導(dǎo)數(shù),并令其為0,有:上式表明,預(yù)測(cè)誤差與過去的語音樣點(diǎn)正交。實(shí)際中需要分幀處理,設(shè)一幀從n時(shí)刻開窗選取的N個(gè)樣點(diǎn)的語音段為sn,記
為,則有求解過程:先計(jì)算出,再求解上述方程組。最后計(jì)算最小軍方預(yù)測(cè)誤差:4.5語音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:設(shè)n時(shí)刻開窗選取N個(gè)樣點(diǎn)的語音段sn,即用個(gè)語音樣點(diǎn)來分析該幀的預(yù)測(cè)系數(shù)ai。對(duì)于該語音段,其自相關(guān)函數(shù)為:由于上述自相關(guān)函數(shù)為偶函數(shù)并且只與j和i的相對(duì)大小有關(guān),因此,則線性預(yù)測(cè)方程為:4.5語音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:寫成矩陣的形式:該方程為Yule-Walker方程,方程左邊的矩陣稱為托普利茲矩陣,是以主對(duì)角線對(duì)稱的,并且沿著主對(duì)角線平行方向各軸向的元素值都相等。上述矩陣可采用萊文遜—杜賓算法來求解。4.5語音信號(hào)的線性預(yù)測(cè)分析—方程組求解線性預(yù)測(cè)方程組的求解:算法過程:通過對(duì)上式進(jìn)行遞推求解,可獲得最終解為:
其中確保Ep隨著迭代而縮小4.5語音信號(hào)的線性預(yù)測(cè)分析—LPC譜估計(jì)LPC譜估計(jì):當(dāng)求出一組預(yù)測(cè)器系數(shù)后,就可以得到語音產(chǎn)生模型的頻率響應(yīng):用表示模型H(z)的頻率響應(yīng),表示語音信號(hào)s(n)的傅里葉變換,則
為語音信號(hào)s(n)的功率譜。如果s(n)是一個(gè)嚴(yán)格的p階AR模型,則實(shí)際中,語音信號(hào)用ARMA模型表示更為精確,可用一個(gè)無限長(zhǎng)的AR模型逼近(p的值要選的很大,實(shí)際中p一般在8~14之間)。LPC譜估計(jì)的特點(diǎn):在信號(hào)能量較大的區(qū)域(接近譜的峰值處),LPC譜和信號(hào)譜很接近;而在信號(hào)能量較低的區(qū)域(接近譜的谷底處),相差比較大。原因:由最小均方誤差引起。4.5語音信號(hào)的線性預(yù)測(cè)分析—LPC譜估計(jì)LPC復(fù)倒譜(另一種表示方法)設(shè)表示為h(n)的復(fù)倒譜,則有將H(z)表達(dá)式代入,并對(duì)求導(dǎo),令上式左右兩邊的常數(shù)項(xiàng)和各冪次的系數(shù)分別相等,從而可由ak求出4.5語音信號(hào)的線性預(yù)測(cè)分析—LPC復(fù)倒譜LPC復(fù)倒譜(另一種表示方法)優(yōu)點(diǎn):(1)由于利用了線性預(yù)測(cè)中聲道系統(tǒng)函數(shù)H(z)的最小相位特性,避免了相位卷繞;(2)LPC復(fù)倒譜的運(yùn)算量??;(3)由于當(dāng)p趨近于無窮大時(shí),語音信號(hào)的短時(shí)復(fù)頻譜滿足因而可以認(rèn)為包含了語音信號(hào)頻譜的包絡(luò)信息,可以近似把當(dāng)作s(n)的短時(shí)復(fù)倒譜來估計(jì)語音短時(shí)譜包絡(luò)和聲門激勵(lì)參數(shù)。(4)在實(shí)時(shí)語音識(shí)別中也經(jīng)常采用LPC復(fù)倒譜作為特征矢量。4.5語音信號(hào)的線性預(yù)測(cè)分析—LPC
Mel倒譜系數(shù)LPCCMCC求得復(fù)倒譜之后,可以求得倒譜c(n);可根據(jù)人類聽覺特性,把倒譜系數(shù)進(jìn)行非線性變換,求出LPCMel倒譜系數(shù):采用迭代求解法,最后求得的LPCCMCC可作為后續(xù)語音信號(hào)處理任務(wù)的特征。4.5語音信號(hào)的線性預(yù)測(cè)分析—線譜對(duì)分析線譜對(duì)(LSP)求解的模型參數(shù)是線譜對(duì)(頻域參數(shù)),與語音信號(hào)譜包絡(luò)聯(lián)系更緊密。推導(dǎo)過程:令A(yù)(z)為(1)由萊文遜—杜賓算法可得:(2)兩邊同乘以得(3)分別將kp+1=1和kp+1=-1時(shí)的用P(z)和Q(z)表示,可得4.5語音信號(hào)的線性預(yù)測(cè)分析—線譜對(duì)分析線譜對(duì)(LSP)(4)根據(jù)A(z)的表達(dá)式,P(z)和Q(z)可寫成:(5)對(duì)P(z)和Q(z)進(jìn)行因式分解其中成對(duì)出現(xiàn),反映了譜的特性,稱為線譜對(duì)??偨Y(jié):線譜對(duì)分析將A(z)的p個(gè)零點(diǎn)通過P(z)和Q(z)映射到單位圓上,使得這些零點(diǎn)可以直接用頻率w來反映,并且P(z)和Q(z)各提供p/2零點(diǎn)頻率。從物理意義上說,P(z)和Q(z)對(duì)應(yīng)著聲門全開或全閉時(shí)的全反射情況。
南京郵電大學(xué)
通信與信息工程學(xué)院
第5章語音信號(hào)特征提取技術(shù)端點(diǎn)檢測(cè)基音周期估計(jì)共振峰估計(jì)5.1端點(diǎn)檢測(cè)—概述端點(diǎn)檢測(cè):從一段語音信號(hào)中準(zhǔn)確找出語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。目的:為了使有效的語音信號(hào)和無用的噪聲信號(hào)得以分離,在語音識(shí)別、語音增強(qiáng)、語音編碼等系統(tǒng)中得到了廣泛應(yīng)用。主要方法:(1)基于閾值的方法:根據(jù)語音信號(hào)和噪聲信號(hào)的不同特征,提取每一段語音信號(hào)的特征,然后把這些特征值和設(shè)定的閾值進(jìn)行比較,已到達(dá)檢測(cè)目的。(2)基于模式識(shí)別的方法:需要估計(jì)語音信號(hào)和噪聲信號(hào)的模型參數(shù)來檢測(cè)。本章主要探討基于閾值的方法。5.1端點(diǎn)檢測(cè)—雙門限法復(fù)習(xí):短時(shí)能量與短時(shí)過零率雙門限法的基本思想:根據(jù)語音的統(tǒng)計(jì)特性,可以把語音段分為清音、濁音、靜音(包括背景噪聲);短時(shí)能量可以較好地區(qū)分濁音和清音。對(duì)于清音,由于其能量較小,在短時(shí)能量檢測(cè)中會(huì)因?yàn)榈陀谀芰块T限而被誤判為靜音;短時(shí)過零率則可以從語音中區(qū)分靜音和清音。將兩者結(jié)合起來,就可以檢測(cè)出語音段(清音和濁音)及靜音段。首先為短時(shí)能量和過零率分別確定兩個(gè)門限,一個(gè)為較低門限,對(duì)信號(hào)的變化比較敏感,另一個(gè)是較高門限。當(dāng)?shù)烷T限被超過時(shí),很可能是由于很小的噪聲引起的,未必是語音的開始,當(dāng)高門限被超過并且在接下來的時(shí)間段內(nèi)一直超過低門限時(shí),則意味著語音信號(hào)的開始。5.1端點(diǎn)檢測(cè)—雙門限法雙門限法的步驟:(1)計(jì)算信號(hào)的短時(shí)能量和短時(shí)平均過零率;(2)根據(jù)語音能量的輪廓選取一個(gè)較高的門限T2,語音信號(hào)的能量大部分都在此門限之上,可進(jìn)行一次初判。語音起止點(diǎn)位于該門限與短時(shí)能量包絡(luò)交點(diǎn)N3和N4所對(duì)應(yīng)的時(shí)間間隔之外。5.1端點(diǎn)檢測(cè)—雙門限法雙門限法的步驟:(3)根據(jù)背景噪聲的能量確定一個(gè)較低的門限T1,并從初判起點(diǎn)往左,從初判終點(diǎn)往右搜索,分別找到語音輪廓與門限T1相交的兩個(gè)點(diǎn)N2和N5;(4)以短時(shí)平均過零率為準(zhǔn),從N2點(diǎn)往左和N5點(diǎn)往右搜索,找到短時(shí)平均過零率低于某個(gè)閾值T3的兩個(gè)點(diǎn)N1和N6
,作為語音段的起止點(diǎn)。需要注意門限的選取方法5.1端點(diǎn)檢測(cè)—自相關(guān)法自相關(guān)的步驟:(1)計(jì)算語音信號(hào)的短時(shí)自相關(guān)函數(shù)(2)將自相關(guān)函數(shù)進(jìn)行歸一化處理:(3)由于語音和噪聲兩種信號(hào)的自相關(guān)函數(shù)存在極大差異,可以利用這種差異來提取語音端點(diǎn):根據(jù)噪聲的情況,設(shè)置閾值T1和T2,當(dāng)相關(guān)函數(shù)最大值大于T2時(shí),判斷為語音;當(dāng)相關(guān)函數(shù)最大值大于或小于T1時(shí),判定為語音信號(hào)端點(diǎn)。噪聲信號(hào)及其自相關(guān)函數(shù)含噪語音及其自相關(guān)函數(shù)5.1端點(diǎn)檢測(cè)—譜熵法熵:衡量信息的有序程度。一個(gè)信息源發(fā)出的信號(hào)以信息熵來作為信息選擇和不確定性的度量。語音的熵和噪聲的熵存在較大差異,二者在整個(gè)信號(hào)段中的分布概率不同。譜熵法端點(diǎn)檢測(cè)就是通過檢測(cè)譜的平坦程度,達(dá)到語音端點(diǎn)檢測(cè)的目的。譜熵的特點(diǎn):(1)語音與噪聲的譜熵不同;(2)語音譜熵隨語音隨機(jī)性而變化,與能量特征相比,譜熵變化較??;(3)譜熵對(duì)噪聲具有一定的穩(wěn)健性。同一語音信號(hào)當(dāng)信噪比降低時(shí),語音信號(hào)的譜熵值的形狀大體保持不變;(4)語音譜熵只與語音信號(hào)隨機(jī)性有關(guān),而與語音信號(hào)的幅度無關(guān)。5.1端點(diǎn)檢測(cè)—譜熵法譜熵的定義:設(shè)加窗分幀處理后的第n幀語音信號(hào)為xn(m),其FFT表示為Xn(k),其中k表示為第k條譜線。該語音幀在頻域中的短時(shí)能量為:而對(duì)于某一譜線k的能量譜為,則每個(gè)頻率分量的歸一化譜概率密度函數(shù)定義為:該語音幀的短時(shí)譜熵定義為5.1端點(diǎn)檢測(cè)—譜熵法譜熵法的步驟:(1)對(duì)語音信號(hào)進(jìn)行分幀加窗,取FFT點(diǎn)數(shù);(2)計(jì)算每一幀的譜的能量;(3)計(jì)算每一幀中每個(gè)樣本點(diǎn)的概率密度函數(shù);(4)計(jì)算每一幀的譜熵值;(5)設(shè)置判決門限;(6)根據(jù)各幀的譜熵值進(jìn)行端點(diǎn)檢測(cè)。每一幀的譜熵值為:H(i)計(jì)算是基于譜的能量變化而不是譜的能量。端點(diǎn)檢測(cè)基音周期估計(jì)共振峰估計(jì)5.2基音周期估計(jì)概述:基音:發(fā)濁音時(shí)聲帶振動(dòng)所引起的周期性;基音周期:聲帶振動(dòng)頻率的倒數(shù);聲調(diào):基音的變化模式,攜帶具有辨意作用的信息;人的聲道易變性及其聲道特征因人而異,基音周期的范圍寬,同一個(gè)人在不同情態(tài)下發(fā)音的基音周期也不同,基音周期受單詞發(fā)音音調(diào)影響?;糁芷诘奶崛〈嬖诶щy:(1)聲門激勵(lì)信號(hào)不是一個(gè)完全周期的序列,有些清音和濁音的過渡幀很難判斷其周期性;(2)聲道共振峰會(huì)嚴(yán)重影響激勵(lì)信號(hào)的諧波結(jié)構(gòu),因而從語音中直接取出僅和聲帶振動(dòng)有關(guān)的激勵(lì)信號(hào)并不容易;(3)語音信號(hào)本身是準(zhǔn)周期性的(音調(diào)有變化),其波形的峰值點(diǎn)或過零點(diǎn)受共振峰的結(jié)構(gòu)、噪聲等影響;(4)基音周期變化范圍大,從老年男性的50Hz到兒童和女性的450Hz。5.2基音周期估計(jì)—自相關(guān)法自相關(guān):其部位0的范圍為k=(-N+1)~(N-1),且為偶函數(shù)。自相關(guān)法的基本思想:濁音信號(hào)的自相關(guān)函數(shù)在基音周期的整數(shù)倍位置上出現(xiàn)峰值;而清音的自相關(guān)函數(shù)沒有明顯的峰值出現(xiàn)。因此,檢測(cè)是否有峰值就可以判斷是清音還是濁音,檢測(cè)峰值的位置就可以提取基音周期值。利用自相關(guān)函數(shù)估計(jì)基音周期時(shí)需要考慮的兩個(gè)問題:(1)窗函數(shù)的選取問題:窗的類型,窗的長(zhǎng)度(至少大于兩個(gè)基音周期)(2)共振峰的影響問題:與聲道特性相關(guān)。當(dāng)基音周期與共振峰的周期性混疊在一起時(shí),被檢測(cè)出來的峰值會(huì)偏離原來峰值的真實(shí)位置(共振峰對(duì)基音周期造成“干擾”);此外,某些濁音的第一共振峰頻率可能會(huì)等于或低于基音頻率,會(huì)給基音周期檢測(cè)帶來誤差。5.2基音周期估計(jì)—自相關(guān)法克服共振峰干擾問題的方法:(1)用帶寬為60~900Hz的帶通濾波器對(duì)語音信號(hào)進(jìn)行濾波,去除共振峰影響,并利用濾波后的信號(hào)的自相關(guān)函數(shù)進(jìn)行基音估計(jì)(因?yàn)楣舱穹孱l率相對(duì)較高)。--頻域方法(2)對(duì)語音信號(hào)進(jìn)行非線性變換后再求自相關(guān)函數(shù)。中心削波:消去語音信號(hào)的低幅度部分(含有大量的共振峰信息),保留高幅度部分(包含大量的基音信息)--時(shí)域方法5.2基音周期估計(jì)—自相關(guān)法克服共振峰干擾問題的方法:三電平削波由于削波后信號(hào)取值只有-1,0,1三種情況,不需要作乘法只需簡(jiǎn)單的組合邏輯,解決了中心削波的計(jì)算量大的問題。5.2基音周期估計(jì)—平均幅度差函數(shù)法平均幅度差函數(shù)法:短時(shí)平均幅度差函數(shù)(AMDF)的定義:對(duì)于周期性的濁音,F(xiàn)n(k)呈現(xiàn)與濁音語音周期相一致的周期特性,在周期的各個(gè)整數(shù)倍點(diǎn)上具有谷值特性。對(duì)于清音信號(hào),F(xiàn)n(k)無周期特性。利用該特性可以判斷一段語音是濁音還是清音,并估計(jì)出濁音的基音周期。利用AMDF法估計(jì)基音周期,同樣面臨窗函數(shù)和共振峰影響兩個(gè)問題。(1)要求窗長(zhǎng)足夠長(zhǎng);(2)可采用LPC逆濾波和中心削波等方法減少輸入語音中的聲道特性或共振峰的影響。5.2基音周期估計(jì)—平均幅度差函數(shù)法平均幅度差函數(shù)法:修正處理方法(P89)5.2基音周期估計(jì)—倒譜法倒譜法原理:利用語音信號(hào)的倒譜特征,檢測(cè)出表征聲門激勵(lì)周期的基音信息。語音是由聲門脈沖激勵(lì)e(n)經(jīng)聲道v(n)濾波得到,,則三者倒譜之間的關(guān)系為因此,含有基音信息的聲脈沖倒譜可與聲道響應(yīng)倒譜分類,因此從倒譜域分離
后恢復(fù)出e(n),可從中求出基音周期。實(shí)際中的問題:(1)反映基音信息的倒譜峰,在過渡音和含噪語音中將會(huì)變得不清晰甚至完全消失(過渡音中的周期激勵(lì)信號(hào)能量降低,含噪語音中的噪聲干擾);(2)對(duì)于濁音的倒譜,其倒譜域中的基音信息與聲道信息并非完全分離,在周期激勵(lì)信號(hào)能量較低時(shí),聲道響應(yīng)(特別是共振峰)對(duì)基音倒譜峰的影響不能忽略。解決方法:(1)去除語音中的聲道響應(yīng)信息,對(duì)類噪激勵(lì)和噪聲加以抑制。5.2基音周期估計(jì)—倒譜法去除語音信號(hào)中的聲道響應(yīng)的方法:采用線性預(yù)測(cè)方法(LPC),步驟如下:(1)在LPC中,語音信號(hào)s(n)可以表示為:(2)對(duì)輸入語音進(jìn)行LPC分析獲得預(yù)測(cè)系數(shù)ai,并由此構(gòu)成逆濾波器A(z)(3)再將原始語音通過A(z)進(jìn)行逆濾波,則可以獲得預(yù)測(cè)余量信號(hào)該余量信號(hào)不包含聲道響應(yīng)信息,但包含完整的激勵(lì)信息。(4)對(duì)余量信號(hào)進(jìn)行倒譜分析,可獲得更為清晰準(zhǔn)確的基音信息。5.2基音周期估計(jì)—倒譜法抑制噪聲干擾的方法:由于語音基音頻率低于500Hz,一般對(duì)原始語音或預(yù)測(cè)余量信號(hào)進(jìn)行低通濾波處理。在倒譜分析中,可以直接將傅里葉逆變換之前的頻域信號(hào)高頻分量置0。這樣既可以實(shí)現(xiàn)類似低通濾波的處理,又可以濾去噪聲和激勵(lì)源中的高頻分量,降噪。5.2基音周期估計(jì)—簡(jiǎn)化逆濾波法&后處理簡(jiǎn)化逆濾波法的基本思想:先對(duì)語音信號(hào)進(jìn)行LPC分析和逆濾波,獲得語音信號(hào)的預(yù)測(cè)殘差,然后將殘差信號(hào)通過自相關(guān)濾波器濾波,再做峰值檢測(cè),進(jìn)而獲得基音周期。步驟如下:基音檢測(cè)的后處理:原因:求得的基音周期軌跡中有偏離正常軌跡的基音周期估計(jì)值。方法:中值平滑、線性平滑、組合平滑。端點(diǎn)檢測(cè)基音周期估計(jì)共振峰估計(jì)5.3共振峰估計(jì)共振峰的定義:當(dāng)準(zhǔn)周期脈沖激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生的一組共振頻率。共振峰參數(shù):共振峰頻率和頻帶寬度;共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音的頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。精準(zhǔn)的共振峰估計(jì)遇到的困難:(1)虛假峰值:非線性預(yù)測(cè)分析方法的頻譜包絡(luò)估計(jì)器中容易出現(xiàn);(2)共振峰合并:相鄰共振峰的頻率可能靠的太近難以分辨;(3)高音調(diào)語音:容易離開真實(shí)位置。5.3共振峰估計(jì)—帶通濾波器組法帶通濾波器組法:濾波器中心頻率的選?。海?)等間距的分布在分析頻段上,即,所有帶通濾波器帶寬相同,保證各通道的群時(shí)延相同;(2)非均勻分布,低頻端間距小,高頻端間距大,帶寬也隨之增加。5.3共振峰估計(jì)—倒譜法倒譜法的原理:為了消除基頻諧波對(duì)于共振峰測(cè)定的影響,可采用同態(tài)解卷技術(shù),將基音的各次諧波和聲道的頻譜包絡(luò)分離開來。(1)對(duì)語音加窗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基建科工程施工范本合同
- 三農(nóng)村人居環(huán)境整治實(shí)施方案
- 公務(wù)車輛定點(diǎn)維修合同
- 法人向公司借款合同
- 經(jīng)典房地產(chǎn)開發(fā)的合同
- 編程語言高級(jí)應(yīng)用作業(yè)指導(dǎo)書
- 養(yǎng)殖業(yè)專業(yè)作業(yè)指導(dǎo)書
- 企業(yè)智能核能技術(shù)與應(yīng)用作業(yè)指導(dǎo)書
- 軟件技術(shù)開發(fā)與測(cè)試作業(yè)指導(dǎo)書
- 高港區(qū)二手房買賣合同
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)《簡(jiǎn)便計(jì)算》練習(xí)題(310題-附答案)
- 青海省西寧市海湖中學(xué)2025屆中考生物仿真試卷含解析
- 2024年河南省《輔警招聘考試必刷500題》考試題庫及答案【全優(yōu)】
- 2024年中國(guó)養(yǎng)老產(chǎn)業(yè)商學(xué)研究報(bào)告-銀發(fā)經(jīng)濟(jì)專題
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊(cè)教案全冊(cè)
- 人教版英語七年級(jí)上冊(cè)閱讀理解專項(xiàng)訓(xùn)練16篇(含答案)
- 幼小銜接學(xué)拼音
- 有限空間辨識(shí)參考目錄圖片對(duì)照版
- 成本會(huì)計(jì)第一章總論
- 橋式起重機(jī)試驗(yàn)項(xiàng)目及其內(nèi)容方法和要求
- GA∕T 1193-2014 人身損害誤工期、護(hù)理期、營(yíng)養(yǎng)期評(píng)定
評(píng)論
0/150
提交評(píng)論