版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第三章第三章 語言信號壓縮編碼語言信號壓縮編碼3.1 語言信號壓縮編碼的基本概念3.2 自適應(yīng)差值脈沖編碼調(diào)制3.3 參量編碼3.4 混合編碼3.5 低速率語言壓縮編碼的應(yīng)用一.壓縮編碼原因語音信號的壓縮編碼是研究如何降低語音信號編碼速率的問題。以語音信號為例,模擬形式下帶寬一般不到以語音信號為例,模擬形式下帶寬一般不到4KHz4KHz,經(jīng)過調(diào)制后,所需傳輸帶寬不會超過經(jīng)過調(diào)制后,所需傳輸帶寬不會超過8KHz8KHz。 但是以但是以8KHz8KHz抽樣,并且每個樣值用抽樣,并且每個樣值用8 8位二進制代碼表位二進制代碼表示時,即采用示時,即采用A A率率1313折線折線PCMPCM數(shù)字語音信號
2、時,信息速率數(shù)字語音信號時,信息速率為為64Kbit/s64Kbit/s。利用二進制理想基帶傳輸系統(tǒng)傳輸利用二進制理想基帶傳輸系統(tǒng)傳輸一路這樣的數(shù)字語音信號。所占一路這樣的數(shù)字語音信號。所占系統(tǒng)的最小頻帶寬度為系統(tǒng)的最小頻帶寬度為32KHz32KHz。頻帶利用率頻帶利用率=傳輸速率傳輸速率/帶寬帶寬二.什么是語音壓縮編碼? 把數(shù)碼率低于64Kbit/s64Kbit/s的語音編碼方法稱為語音壓縮編碼技術(shù)三. .語音編碼分類根據(jù)編碼器的實現(xiàn)機理,分成三大類波形編碼波形編碼參數(shù)編碼參數(shù)編碼混合編碼混合編碼了解語音信號數(shù)字化的目的和要求;理解語音信號的波形編碼、參數(shù)編碼、混合編碼的定義;掌握對語音編碼
3、信號性能的評價方法。理解標(biāo)量量化和矢量量化的原理及異同點。了解語音信號的參數(shù)模型;掌握線性預(yù)測的概念、線性預(yù)測聲碼器的工作原理。掌握參數(shù)編碼中合成分析算法的基本原理和優(yōu)缺點;了解常用的語音信號的混合編碼方法。 要求語音編碼方法的分類:波形編碼參數(shù)編碼混合編碼一、語音編碼的方法1. 語音信號的波形編碼原理: 從語音信號波形的特點出發(fā),在時間軸上對模擬語音按一定的速率抽樣,對波形的采樣值,或其預(yù)測值,或其預(yù)測的誤差值進行量化并編碼,編碼后的信號為二進制數(shù)字序列。解碼是其反過程,將收到的數(shù)字序列經(jīng)過解碼和濾波恢復(fù)成模擬信號。一、語音編碼的方法特點:以重構(gòu)語音波形為目的,力圖使重建語音波形保持原語音信
4、號的波形形狀。適應(yīng)能力強、語音質(zhì)量好。編碼速率高。在16至64kbit/s的速率上獲得較高的編碼質(zhì)量,當(dāng)速率進一步下降時,其性能會下降較快。一、語音編碼的方法常見的波形編碼方式:脈沖編碼調(diào)制(PCM)、增量調(diào)制(M)自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)預(yù)測編碼(APC)、自適應(yīng)差分編碼(ADPCM)子帶編碼(SBC)一、語音編碼的方法2. 語音信號的參量編碼原理:從語音信號的產(chǎn)生機理出發(fā),構(gòu)造語音信號的模型,提取描述語音信號的特征參數(shù),對模型參數(shù)或其預(yù)測值進行編碼。在收端,根據(jù)特征參數(shù)通過模型重構(gòu)語音信號。 一、語音編碼的方法特點:編碼速率低,可壓縮到2kbit/s-800bit/s;合成的話音質(zhì)
5、量差,只能達到中等,自然度較低;不以重構(gòu)語音波形為目的,在解碼端重構(gòu)一個新的有相似聲音但波形不盡相同的語音信號。常見的方式: 線性預(yù)測編碼(LPC),及其各種改進型,如MBE等。一、語音編碼的方法3. 語音信號的混合編碼原理: 混合編碼將波形編碼和參量編碼組合起來,克服了原有波形編碼和參量編碼的弱點,結(jié)合各自的長處,力圖保持波形編碼的高質(zhì)量和參量編碼的低速率,目前在1.2-16Kbit/s速率上能夠得到高質(zhì)量的合成語音。特點: 低速率、高質(zhì)量一、語音編碼的方法常見混合編碼方式: 多脈沖激勵線性預(yù)測編碼(MPLPC) 規(guī)則脈沖激勵線性預(yù)測編碼(RPELPC) 碼本激勵線性預(yù)測編碼(CELP) 矢
6、量和激勵線性預(yù)測編碼(VSELP) 多帶激勵(MBE)及改進型IMBE(Improved MBE)和AMBE(Advanced MBE) 混合激勵線性預(yù)測(MELP)一、語音編碼的方法說明上述語音編碼器的分類方法只是一種較通用的方法,并非十分嚴(yán)格。除了傳統(tǒng)的波形編碼器和參數(shù)編碼器以外,許多新型的語音編碼技術(shù)都比較復(fù)雜,很難嚴(yán)格分類。基于分析合成技術(shù)的線性預(yù)測編碼器則既可以視為參量編碼,也可以視為混合編碼。一、語音編碼的方法 1、語音編碼質(zhì)量、語音編碼質(zhì)量 2、編碼速率、編碼速率 3、編解碼的復(fù)雜度、編解碼的復(fù)雜度 4、編解碼延時、編解碼延時 在給定編碼速率的條件下,用盡量小的編解碼延時和在給定
7、編碼速率的條件下,用盡量小的編解碼延時和復(fù)雜度,得到盡量好的重建語音質(zhì)量復(fù)雜度,得到盡量好的重建語音質(zhì)量。二、語音編碼性能的評價1 1、語音編碼質(zhì)量、語音編碼質(zhì)量 語音編碼質(zhì)量是衡量語音編碼算法優(yōu)劣的關(guān)鍵性能語音編碼質(zhì)量是衡量語音編碼算法優(yōu)劣的關(guān)鍵性能之一,在數(shù)字通信中常把語音質(zhì)量分為四級:之一,在數(shù)字通信中常把語音質(zhì)量分為四級: 廣播級質(zhì)量廣播級質(zhì)量 長途電話質(zhì)量長途電話質(zhì)量 通信質(zhì)量通信質(zhì)量 合成語音質(zhì)量合成語音質(zhì)量二、語音編碼性能的評價語音編碼質(zhì)量用質(zhì)量評估指標(biāo)衡量,分為以客觀評定語音編碼質(zhì)量用質(zhì)量評估指標(biāo)衡量,分為以客觀評定方法和主觀評定方法兩大類。方法和主觀評定方法兩大類。 是以人類
8、聽話時對語音質(zhì)量的感覺來評是以人類聽話時對語音質(zhì)量的感覺來評定。國際上常用的主觀評定標(biāo)準(zhǔn)主要有:定。國際上常用的主觀評定標(biāo)準(zhǔn)主要有: 平均意見得分平均意見得分MOSMOS(Mean Opinion ScoreMean Opinion Score) 判斷韻字測試判斷韻字測試DRTDRT(Diagnostic Rhyme TestDiagnostic Rhyme Test) 判斷滿意度測量判斷滿意度測量DAMDAM(Diagnostic Acceptability Diagnostic Acceptability MeasureMeasure) 可懂度指數(shù)可懂度指數(shù)AI (Articulation
9、 Index)AI (Articulation Index)二、語音編碼性能的評價 由于語音質(zhì)量高低的直接感受者是聽眾的主觀感覺,由于語音質(zhì)量高低的直接感受者是聽眾的主觀感覺,因此目前廣泛采用的評定方法是因此目前廣泛采用的評定方法是MOS。獲取。獲取MOS的方法是,的方法是,由數(shù)十名試聽者在不同的信道環(huán)境中試聽并給予評分,然由數(shù)十名試聽者在不同的信道環(huán)境中試聽并給予評分,然后求出統(tǒng)計平均分。后求出統(tǒng)計平均分。 采用采用5級分制:級分制:5分為優(yōu),分為優(yōu),4分為良,分為良,3分為中,分為中,2分為差,分為差,1分為不可接受。分為不可接受。4分以及分以及4分以上為高質(zhì)量語音編碼,達到分以上為高質(zhì)量
10、語音編碼,達到長途電話質(zhì)量,長途電話質(zhì)量, 3.5分左右為通信級質(zhì)量,分左右為通信級質(zhì)量,3分以及分以及3分以下分以下為合成語音質(zhì)量。為合成語音質(zhì)量。二、語音編碼性能的評價對應(yīng)于主觀評定等級,還有一個收聽注意力等級對應(yīng)于主觀評定等級,還有一個收聽注意力等級(Listening Effort ScaleListening Effort Scale)。表)。表2.12.1給出了主觀評定等級制給出了主觀評定等級制的質(zhì)量等級、分數(shù)和相應(yīng)的收聽注意力等級。的質(zhì)量等級、分數(shù)和相應(yīng)的收聽注意力等級。二、語音編碼性能的評價時域:信噪比、加權(quán)信噪比、平均分段信噪比等時域:信噪比、加權(quán)信噪比、平均分段信噪比等頻域
11、:譜失真測度、頻域:譜失真測度、LPC倒譜距離測度等倒譜距離測度等 以上方法都建立在度量均方誤差的基礎(chǔ)上,其特點是以上方法都建立在度量均方誤差的基礎(chǔ)上,其特點是計算簡單,但不能完全反映人對語音質(zhì)量的感覺,對于計算簡單,但不能完全反映人對語音質(zhì)量的感覺,對于速率為速率為16kb/s以下的中低速率語音編碼尤為突出。主要以下的中低速率語音編碼尤為突出。主要適用于速率較高的波形編碼的質(zhì)量測量。適用于速率較高的波形編碼的質(zhì)量測量。二、語音編碼性能的評價2. 編碼速率 語言編碼后的速率用“比特/秒”度量或用“比特/樣點”度量。后者表示平均每個樣點所需的編碼比特數(shù)。 通常編碼速率高,則編碼后的語音質(zhì)量高,但
12、所需的傳輸帶寬就寬。 二、語音編碼性能的評價好的語音編碼方法,是在保持語音質(zhì)量的前提下好的語音編碼方法,是在保持語音質(zhì)量的前提下降低速率。降低速率。3. 編解碼的復(fù)雜程度 編解碼的復(fù)雜度與算法有關(guān)。 通常算法復(fù)雜,則話音質(zhì)量好,編碼速率低,但實現(xiàn)復(fù)雜,且體積大、功耗高、成本高,甚至編解碼延時大。二、語音編碼性能的評價二、語音編碼性能的評價4. 編解碼延時編解碼延時也與算法有關(guān)。 通常算法復(fù)雜,則編解碼延時大。也有專為減小延時的短延時算法。不過,質(zhì)量好、延時短的算法,相應(yīng)的編碼速率也高。5. 5. 對語音編碼的要求對語音編碼的要求在滿足用戶對語音質(zhì)量要求的前提下,編碼速率在滿足用戶對語音質(zhì)量要求
13、的前提下,編碼速率盡可能低。盡可能低。 在強噪聲環(huán)境中,算法應(yīng)有較好的抗誤碼性在強噪聲環(huán)境中,算法應(yīng)有較好的抗誤碼性能,也就是說,當(dāng)誤碼率較低時(例如為能,也就是說,當(dāng)誤碼率較低時(例如為10-2)仍能保持良好的話音質(zhì)量。仍能保持良好的話音質(zhì)量。 編、解碼延遲應(yīng)控制在幾十毫秒之內(nèi),越短越編、解碼延遲應(yīng)控制在幾十毫秒之內(nèi),越短越好。好。 復(fù)雜性要適度,以便于使用大規(guī)模集成器件。復(fù)雜性要適度,以便于使用大規(guī)模集成器件。二、語音編碼性能的評價二、語音編碼性能的評價6. 6. 幾種語音編碼的質(zhì)量比較幾種語音編碼的質(zhì)量比較LD-CELP:低時延:低時延-碼激勵線性預(yù)測碼激勵線性預(yù)測MP-MLQ:多脈沖最
14、大似然量化:多脈沖最大似然量化ACELP:代數(shù)碼激勵線性預(yù)測:代數(shù)碼激勵線性預(yù)測CS-ACELP:共軛結(jié)構(gòu):共軛結(jié)構(gòu)-代數(shù)碼激勵線性預(yù)測代數(shù)碼激勵線性預(yù)測三、語音編碼的標(biāo)準(zhǔn)ETSI:歐洲電信標(biāo)準(zhǔn)協(xié)會:歐洲電信標(biāo)準(zhǔn)協(xié)會TIA:(北美)電信工業(yè)協(xié)會:(北美)電信工業(yè)協(xié)會RCR:(日本)無線通信系統(tǒng)研究發(fā)展中心:(日本)無線通信系統(tǒng)研究發(fā)展中心DVSI:數(shù)字聲音系統(tǒng)公司:數(shù)字聲音系統(tǒng)公司三、語音編碼的標(biāo)準(zhǔn)保密電話語音編碼標(biāo)準(zhǔn)保密電話語音編碼標(biāo)準(zhǔn)三、語音編碼的標(biāo)準(zhǔn) 窄帶保密電話應(yīng)用于帶寬受限信道,目前只有美國公窄帶保密電話應(yīng)用于帶寬受限信道,目前只有美國公布了所用保密電話的標(biāo)準(zhǔn)。布了所用保密電話的標(biāo)準(zhǔn)
15、。 FS-1015FS-1015標(biāo)準(zhǔn):標(biāo)準(zhǔn):2.4kb/s2.4kb/s的的LPCLPC聲碼器,聲碼器,DRTDRT為為90%90% FS-1016 FS-1016標(biāo)準(zhǔn):標(biāo)準(zhǔn):4.8kb/s4.8kb/s的的CELPCELP聲碼器,比聲碼器,比FS-1015FS-1015具具有好得多的自然度及環(huán)境噪聲能力。有好得多的自然度及環(huán)境噪聲能力。 混合激勵線性預(yù)測(混合激勵線性預(yù)測(MELPMELP)標(biāo)準(zhǔn):編碼速率為)標(biāo)準(zhǔn):編碼速率為2.4kb/s2.4kb/s,語音質(zhì)量優(yōu)于,語音質(zhì)量優(yōu)于FS-1016FS-1016。各種語音編碼標(biāo)準(zhǔn)的相對效果各種語音編碼標(biāo)準(zhǔn)的相對效果三、語音編碼的標(biāo)準(zhǔn)第三章第三章
16、語言信號壓縮編碼語言信號壓縮編碼3.1 語言信號壓縮編碼的基本概念3.2 自適應(yīng)差值脈沖編碼調(diào)制3.3 參量編碼3.4 混合編碼3.5 低速率語言壓縮編碼的應(yīng)用自適應(yīng)差值脈沖編碼調(diào)制原理(ADPCMADPCM)3.1.1差值脈沖編碼(DPCM)v1.編碼思想編碼思想提高通信質(zhì)量提高通信質(zhì)量必須必須減小量化誤差減小量化誤差減小量化級減小量化級當(dāng)抽樣值范圍確定時當(dāng)抽樣值范圍確定時增加編碼增加編碼位數(shù)位數(shù)N增加編碼位數(shù)可獲得大的信噪比在編碼位數(shù)固定時,減小抽樣值的變化在編碼位數(shù)固定時,減小抽樣值的變化范圍,也同樣可以提高信噪比范圍,也同樣可以提高信噪比即:若縮小抽樣值(被編碼信號)的即:若縮小抽樣值
17、(被編碼信號)的變化范圍,就可以在保證信噪比不變變化范圍,就可以在保證信噪比不變的情況下,減小編碼的位數(shù)。這就是的情況下,減小編碼的位數(shù)。這就是差值編碼的中心思想差值編碼的中心思想 二、差值編碼模型圖在原來的抽樣值中減去某一個值,然后在原來的抽樣值中減去某一個值,然后對兩者之差進行編碼。在接收端將解碼對兩者之差進行編碼。在接收端將解碼值再加上發(fā)送端所減去的值便可恢復(fù)出值再加上發(fā)送端所減去的值便可恢復(fù)出原始值。原始值。 x(n) + d(n) c(n) d(n) x(n) - x(n) x(n) 差值編碼模型譯碼譯碼+編碼編碼+圖中:x(n)是原始樣值(n時刻的抽樣值)x(n)為減去量d(n)=
18、x(n)-x(n) 為差值可以看出:可以看出:(1)、)、d(n)越小,在相同的編碼位數(shù)時越小,在相同的編碼位數(shù)時信噪比越大信噪比越大(2)、收發(fā)端必須有相同的減去量)、收發(fā)端必須有相同的減去量x(n)根據(jù)前些時刻的樣值來預(yù)測現(xiàn)時刻的樣值,只要傳遞預(yù)測值和實際值之差,而不需要每個樣值的編碼都傳。這種方法就稱為DPCMDPCM編碼。三、DPCM系統(tǒng)1、DPCM系統(tǒng)的概念:系統(tǒng)的概念:舉例來說,設(shè)以1/Ts1/Ts的速率對信號S S(t t)抽樣,在 時刻前可得到 , 等一組樣值.以前面N N個樣值作為基礎(chǔ)對 的預(yù)測值是snTt sSTnTSsSTnTS2sSNTnTSSnTSSSNiiSiTnT
19、SWnTS1不同時刻樣值的加權(quán)系數(shù):根據(jù)相關(guān)性情況,可設(shè)根據(jù)相關(guān)性情況,可設(shè) 為常量或變量為常量或變量iWiW2 2、實現(xiàn)預(yù)測的橫向濾波器(NN階預(yù)測器)在每個抽樣時刻到來時,濾波器輸出將會給出下一個樣值的預(yù)測值。SnTS一般來說,在抽樣時刻一般來說,在抽樣時刻 t=nTs 時所得的預(yù)測時所得的預(yù)測值值 與真正的樣值與真正的樣值 并不相同。并不相同。SnTSSSNiiSiTnTSWnTS1N階預(yù)測器輸出:階預(yù)測器輸出:差值脈沖編碼就是對真正的樣值 與過去的樣值為基礎(chǔ)得到的估值 之間的差值進行量化和編碼。SnTSSnTS3 3、DPCMDPCM系統(tǒng)模型框圖量化器量化器預(yù)測器預(yù)測器預(yù)測器預(yù)測器下張
20、圖中:x(n)為抽樣信號的實際值d(n)=x(n)-x(n)圖x(n)=x(n)+d(n)該系統(tǒng)的量化誤差可以表示為:e(n)=x(n)-x(n) =d(n)+x(n)-x(n)+d(n) =d(n)-d(n)上式表明:系統(tǒng)的傳輸誤差就是差值()的量化誤差4 4、DPCMDPCM系統(tǒng)的抗噪聲性能分析系統(tǒng)信噪比定義為:)()(22neEnxE=)()()()(2222neEndEndEnxE=qPSNRG 預(yù)測器增益預(yù)測器增益量化器的量化量化器的量化信噪比信噪比GP1預(yù)測器有預(yù)測器有增益增益加預(yù)測器后加預(yù)測器后反而不利反而不利2x2d2eGP : DPCM系統(tǒng)相對于PCM系統(tǒng)而言的信噪比增益。量
21、化器產(chǎn)生的信噪比qSNR即非預(yù)測的PCM系統(tǒng)的量化信噪比提高系統(tǒng)信噪比采取的措施)()()()(2222neEndEndEnxE)(2ndE)(2neE減小 x(n)精確)(2ndEd(n)d(n)=x(n)-x(n)最佳預(yù)測)(2neE量化誤差最佳量化小結(jié)一.壓縮編碼的原因二.什么是語音壓縮編碼三.語音編碼分類3.1ADPCM系統(tǒng)3.3.1DPCM一.差值編碼思想二.差值編碼系統(tǒng)模型圖三.DPCM系統(tǒng)1.概念2.預(yù)測器模型圖3.DPCM系統(tǒng)模型4.DPCM系統(tǒng)的抗噪聲性能分析自適應(yīng)差值脈沖編碼調(diào)制(ADPCMADPCM)1、實質(zhì):DPCM+自適應(yīng)量化和自適應(yīng)預(yù)測固定預(yù)測固定預(yù)測 固定量化固定
22、量化2 2、定義能夠?qū)崿F(xiàn)自適應(yīng)預(yù)測功能,或者自適應(yīng)量化功能或者同時實現(xiàn)兩種自適應(yīng)功能的DPCMDPCM系統(tǒng)稱為ADPCMADPCM系統(tǒng)。3.3.設(shè)計的目的ADPCM充分利用了語音波形的統(tǒng)計特征和人耳聽覺特性,其設(shè)計思路主要瞄準(zhǔn)了兩個目標(biāo):a: 盡可能去掉語音信號中的冗余信號b:以有效的方式將可用比特分配給語音信號對消除冗余后的信號對消除冗余后的信號,從自適應(yīng)角度從自適應(yīng)角度進行最佳編碼進行最佳編碼1.11.1預(yù)測的自適應(yīng)(1).極點預(yù)測器1.預(yù)測器的結(jié)構(gòu)(用重建信號x(n)進行的預(yù)測)+量化器量化器預(yù)測器預(yù)測器+X(n)X(n)d(n)d(n)編碼編碼X(n)P(Z)X(n)a:極點預(yù)測器的方
23、框圖極點預(yù)測器的方框圖b:b:預(yù)測器傳遞函數(shù)P(z)P(z) )()()(ZXZXZPN階預(yù)測器公式:X(n)=)(1jnxaNjj進行Z變換后得:jNjjzzxazx)()(1則預(yù)測器的傳遞函數(shù)為:)()()(ZXZXZPjNjjza1為預(yù)測系數(shù)為預(yù)測系數(shù)jac:c:重建濾波器+預(yù)測器預(yù)測器x(n)x(n)X(n)d(n)H(Z)重建濾波器重建濾波器=)1 ( 2 12Px2d2x=E x(n)+Ex(n-1)-2Ex(n)x(n-1)22=2E x(n)-2Ex(n)x(n-1)2分析:分析:)()(22ndEnxEPG=)1 ( 211p()一階()一階最佳最佳線性預(yù)測線性預(yù)測求最佳預(yù)測
24、系數(shù)求最佳預(yù)測系數(shù)h1N=1時;時;X(n)=h1x(n-1)則差值信號為:則差值信號為:d(n)=x(n)-h1x(n-1)+ +Ed (n)=2d2=Ex(n)- h1x(n-1) 2=E x(n)+h1Ex(n-1)-2h1Ex(n)x(n-1)22=2x2d21xh2- -2112xPh=)21 (1112Phhx2求使求使最小的最小的h1的值的值2012hdmin2)(d221)1 (xp令令得最佳預(yù)測系數(shù)得最佳預(yù)測系數(shù)h1opt=p1當(dāng)當(dāng)N=1時的最大預(yù)測增益為:時的最大預(yù)測增益為:)1 (121maxpGpb.b.二階線性預(yù)測(N=2N=2)d(n)=x(n)-h1x(n-1)-
25、h2x(n-2)2d=Ed (n)2=Ex(n)- h1x(n-1)-h2(n-2) 2令令012hd022hd得最佳得最佳h1,h2212111)1 (ppphopt2121221 ppphopt2212222121min21)(1 )(xdpppp大于或者大于或者等于零等于零故二階預(yù)測器總是優(yōu)于一階預(yù)測器第三章第三章 語言信號壓縮編碼語言信號壓縮編碼3.1 語言信號壓縮編碼的基本概念3.2 自適應(yīng)差值脈沖編碼調(diào)制3.3 參量編碼3.4 混合編碼3.5 低速率語言壓縮編碼的應(yīng)用波形編碼的語音質(zhì)量較高,實現(xiàn)簡單,但速率較高占頻帶較寬,因而將影響通信系統(tǒng)的容量。尋求低速高質(zhì)的語音編碼方法一直是數(shù)
26、字通信領(lǐng)域的一個重要研究課題。一個重要概念:對反映語音信號特征的參量進行編碼與傳輸而不是對信號的時域波形本身,即所謂參量編碼。可大大降低編碼信號的速率。參量編碼的基礎(chǔ)是語音信號特征參數(shù)的提取與語音信號的恢復(fù),這將涉及到語音產(chǎn)生的物理模型。一、語音信號產(chǎn)生模型及其特征參數(shù) 人的發(fā)音系統(tǒng)由聲帶、聲道及次聲門系統(tǒng)構(gòu)成。聲道從聲帶的開口即聲門處開始,直至嘴唇,包括咽喉、口、舌等。聲道的截面積是可變化的,它取決于舌、唇等器官的位置。次聲門系統(tǒng)由肺、氣管等級聯(lián),是產(chǎn)生語音的能量來源。簡化的發(fā)音系統(tǒng)如圖所示。 濁音與清音濁音又稱為有聲音:氣流通過聲門時,如果聲帶振動并產(chǎn)生一個準(zhǔn)周期的空氣脈沖激勵聲道,就得到
27、濁音。典型的濁音波形如圖所示,其中(a)為聲門處的氣流速度,(b)為通過聲道后在唇口處形成的聲壓波形,濁音波形具有明顯準(zhǔn)周期性。聲帶振動的頻率稱為基音頻率fb,周期為基音周期Tp,基音頻率fb一般在70300 Hz的范圍內(nèi),相當(dāng)于Tp為315 ms?;糁芷赥p是語音信號的主要特征之一。清音又稱無聲音:聲道在某處發(fā)生收縮,同時迫使空氣以高速沖過一收縮部位而產(chǎn)生湍流,就得到清音。發(fā)清音時聲帶不振動,此時是由湍流建立的寬帶噪聲源激勵著聲道。清音波形類似于噪聲,如圖(c)所示。 聲道的無損聲管模型聲道包括口腔和鼻腔,相當(dāng)于一個非均勻截面的管道。當(dāng)產(chǎn)生聲音的氣流順著這個管道傳播時,其頻譜特征就由管道的
28、選擇性所改變聲道的諧振頻率稱為共振峰頻率,簡稱共振峰,其中第一共振峰就是上面提到的基音頻率fb。聲道截面面積與聲道長度方向之間的依賴關(guān)系稱為聲道的面積函數(shù),聲道諧振特性主要取決于其面積函數(shù)。實際聲道可以用一個級聯(lián)的無損聲管來表示。當(dāng)選用較多數(shù)量的短管級聯(lián),使得各管的截面積逼近聲道的面積函數(shù)時,就可以期望級聯(lián)聲管的諧振頻率接近于聲道的諧振頻率。 由N個等長無損聲管級聯(lián)的系統(tǒng)的傳遞函數(shù)為: 1( )1NkkkGV zz70一、語音信號的基本特性語音信號的基本特性語音信號是非穩(wěn)態(tài)信號,特征隨時間變化;但在一個很短的時間段內(nèi)(約5ms-50ms)具有相對穩(wěn)定的特征,稱為準(zhǔn)平穩(wěn)信號。語音信號通??梢苑譃?/p>
29、濁音、清音和混合音。濁音在時域上具有準(zhǔn)周期性,在頻域上,精細譜具有周期性起伏的諧波特性,譜包絡(luò)具有共振峰結(jié)構(gòu)。清音類似于隨機噪聲,其頻帶較寬。濁音段的信號能量要比清音段的能量高,這一特點可用于判斷區(qū)分清、濁音。語音產(chǎn)生模型無損聲管模型等效為時變線性數(shù)字濾波器,濾波器極點對應(yīng)聲道振峰頻率,增益參數(shù)G和濾波器系數(shù)都隨時間而變化,且依賴于面積函數(shù)。終端等效的概念:當(dāng)線性系統(tǒng)的一組參數(shù)被控制之后其輸出就具有所希望的語音特征,而這組參量是和實際語音產(chǎn)生過程有關(guān)的。語音信號具有慢變化特征:其激勵和聲道的特征在1020 ms時間內(nèi)保持不變。語音產(chǎn)生模型包括激勵源、聲道和反映嘴唇處聲輻射影響的部分,如圖所示。
30、 語音特征參數(shù)激勵源分為濁音激勵和清音激勵,用濁音/清音開關(guān)進行控制。在濁音段,激勵由沖激序列發(fā)生器和聲門脈沖模型G(z)級聯(lián)構(gòu)成,前者產(chǎn)生周期為Tp的單位沖激響應(yīng),后者為波形成形系統(tǒng)。在清音段,激勵模型為一個隨機噪聲源及控制清音激勵強度的增益參數(shù)。聲道模型為一個時變線性系統(tǒng),輻射模型為R(z)。語音特征參數(shù)有:基音周期、共振峰頻率、語音強度、清音/濁音判決及時變?yōu)V波器參數(shù)等。 特征參量的提取提取方法是基于數(shù)字信號處理的理論和技術(shù)。語音信號的準(zhǔn)平穩(wěn)特性,即在1020 ms的短時間內(nèi)認為語音的特征參數(shù)不變。這樣,可將實際語音信號分成短的時間段,在各個段內(nèi)分別進行參量提取。簡單介紹一下基音提取問題
31、:包括兩個方面:首先進行濁音/清音判決,然后再確定濁音段語音波形的周期Tp。濁音/清音判決或稱基音檢測,就是判決一個時間段是濁音段還是清音段,這就要利用濁音和清音在時域和頻域上的差別。濁音信號具有準(zhǔn)周期性,頻譜有峰值,即基音及其諧波。濁音信號有較強的相關(guān)性。清音信號的波形近似于噪聲,沒有準(zhǔn)周期性,其頻譜沒有明顯的峰值,時域中也不存在相關(guān)性。基音提取的方法很多,可分為三類。 利用語音信號的時域特征,如自相關(guān)函數(shù)法; 利用語音信號的頻域特征,主要是利用濁音頻譜的峰值特征; 綜合利用語音信號頻域與時域特征,如線性預(yù)測技術(shù)等。 76一、語音信號的基本特性語音信號的基本特性語音信號是非穩(wěn)態(tài)信號,特征隨時
32、間變化;但在一個很短的時間段內(nèi)(約5ms-50ms)具有相對穩(wěn)定的特征,稱為準(zhǔn)平穩(wěn)信號。語音信號通??梢苑譃闈嵋?、清音和混合音。濁音在時域上具有準(zhǔn)周期性,在頻域上,精細譜具有周期性起伏的諧波特性,譜包絡(luò)具有共振峰結(jié)構(gòu)。清音類似于隨機噪聲,其頻帶較寬。濁音段的信號能量要比清音段的能量高,這一特點可用于判斷區(qū)分清、濁音。77pjjjzaGzH11)(全極點數(shù)字濾波器時變數(shù)字濾波器-線性預(yù)測(LP)綜合濾波器pjjjnsanGxns1)()()(全極點數(shù)字濾波器的輸出(LPC差分方程) 輸出值s(n)可以用當(dāng)前的輸入值Gx(n)和過去輸出樣值的加權(quán)和來表示二、語音信號的產(chǎn)生模型78 清/濁音類型;
33、基音周期TP; 代表聲道的時變?yōu)V波器的系數(shù)aj及濾波器階數(shù)p; 增益系數(shù)G;說明:根據(jù)語音信號慢變化的特點,可以每隔10-30ms左右預(yù)測一次上述各參數(shù)的值。即以每10-30ms為一幀傳送一次參數(shù)樣值的編碼,并不傳送話音樣值的編碼,因此比特速率低得多。二、語音信號的產(chǎn)生模型79清濁音判決濾 波 器參 數(shù) 分析Ga1ap量 化 編 碼 器U/V解 碼 器Ga1apTPU/V激 勵 信號產(chǎn)生合 成 濾波器信道基 音 周期提取TPs(n)預(yù)加重加窗s(n)LPC聲碼器的原理框圖三、LPCLPC聲碼器的工作原理801、全極點數(shù)字濾波器參數(shù)的確定 模型階數(shù)P的選擇,應(yīng)該從頻譜估計精度、計算量、存儲量等多
34、方面綜合進行考慮。 P取很大值時,可以獲得很好的信號譜估計,但增加的計算量和存儲量代價太大。語音譜估計時主要關(guān)心的是聲道的諧振特性,P值過大,估計的譜中保留許多信號譜細節(jié),反而使共振峰分析效果變壞。階數(shù)P的經(jīng)驗值在8-12之間。通常采用10個極點的濾波器,模型就能正確描述共振峰特性和譜的基本形狀。三、LPCLPC聲碼器的工作原理81三、LPCLPC聲碼器的工作原理 )()()(212pjjjnsansEneEE 設(shè)計的濾波器系數(shù) aj就是使得誤差e(n)在某個預(yù)定的準(zhǔn)則下最小,通常是根據(jù)最小均方誤差準(zhǔn)則求解ajpjjjnsansne1)()()(在LPC模型中,信號s(n)的估計誤差e(n)
35、為:82三、LPCLPC聲碼器的工作原理 在語音信號保持平穩(wěn)的短時段內(nèi),令E對aj的偏導(dǎo)數(shù)為零,得到:piinsjnsansEpjj, 10)( )()(1即:piijianpjnj, 1)0 ,(),(1其中:)()(),(jnsinsEjin 根據(jù)最小均方誤差準(zhǔn)則通過求解P個方程來得到P個未知數(shù)aj83三、LPCLPC聲碼器的工作原理2、 基音檢測根據(jù)語音信號的特性檢測基音周期的方法有: 利用時域特性檢測; 利用頻域特性檢測; 同時利用時域和頻域特性檢測; 這里只介紹利用時域特性檢測84 基本原理:利用語音信號的時域波形的相似性,通過比較原始信號和它的移位信號的相似程度來尋找基音周期。如果
36、移位的距離等于基音周期,則兩個信號之間將具有最大的相似性。 常用方法:短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)AMDF。三、LPCLPC聲碼器的工作原理85 設(shè)sw(n)是一段加窗的語音信號,它的非零區(qū)域為:n = 0N-1。 )()()(nwnsnsw s(n)語音輸入信號,w(n)是加權(quán)窗,一般取矩形窗或哈明窗。三、LPCLPC聲碼器的工作原理86三、LPCLPC聲碼器的工作原理 sw(n)的自相關(guān)函數(shù)稱為語音信號s(n)的短時自相關(guān)函數(shù),用Rw(l)表示。)()()()()(10lnslslnslslRwlNnwwnww 如果s(n)是濁音,其短時自相關(guān)函數(shù)Rw(l)呈現(xiàn)出明顯的周期性,其周期
37、等于s(n)的基音周期?;糁芷诰褪堑谝粋€峰值點到零點之間的距離。87其它值哈明窗其它值矩形窗nNnNnnwnNnnw0) 1(012cos46. 054. 0)(0) 1(01)(三、LPCLPC聲碼器的工作原理88 設(shè)sw(n)是一段加窗的語音信號,它的非零區(qū)域為:n = 0 N-1。 sw(n)的短時平均幅度差函數(shù)rw(l)定義為:10)()()()()(lNnwwnwwwnslnsnslnslr三、LPCLPC聲碼器的工作原理89三、LPCLPC聲碼器的工作原理如果s(n)是濁音,其AMDF也呈現(xiàn)出明顯的周期性,其周期等于s(n)的基音周期。與Rw(l)不同的是在基音周期的各個整數(shù)倍點
38、上,rw(l)具有谷值而非峰值,要通過尋找最深谷值點的位置來確定基音周期。 90周期性語音信號短時自相關(guān)函數(shù)和AMDF示例三、LPCLPC聲碼器的工作原理91AMDF方法計算簡單,只需減法和取幅度運算,不需要乘法運算。AMDF的動態(tài)范圍較小,易于算法的定點實現(xiàn)。AMDF在基音周期點上,它的谷點銳度較之短時自相關(guān)函數(shù)的峰點銳度更尖銳,估值精度更高、更穩(wěn)健。但信號不夠平穩(wěn)時,這個特點不明顯。短時自相關(guān)函數(shù)法的特點是對相位不敏感,在信號有相位失真時能較好地檢測基音。三、LPCLPC聲碼器的工作原理92 窗長 為了使較好地反映sw(n)的周期性,窗長 N 至少應(yīng)大于兩個基音周期,一般取長度為10-30
39、ms。 克服共振峰特性造成的干擾 由于共振峰的干擾,會出現(xiàn)Rw(l)的第一最大峰值點或rw(l)的第一最深谷值點與基音周期不一致的情況,當(dāng)基音周期性和共振峰周期性混在一起時,檢測出來的周期可能是NpNf(Np是基音周期, Nf是第一共振峰的周期)。 三、LPCLPC聲碼器的工作原理93a. 用低通濾波器(60Hz900Hz)對語音信號進行濾波,去除大部分共振峰的影響,基音頻率最高約450Hz,濾波后可以保留其一、二次諧波。b. 先對語音信號進行非線性變換(例如“中心削波”),然后再求Rw(l)或rw(l),這樣可以明顯地改善基音估計的效果,基音周期點上,峰值點或深谷值點比削波前得到的要尖銳、突
40、出。 三、LPCLPC聲碼器的工作原理94 清/濁音類型; 基音周期TP; 代表聲道的時變?yōu)V波器的系數(shù)aj及濾波器階數(shù)p; 增益系數(shù)G;說明:根據(jù)語音信號慢變化的特點,可以每隔10-30ms左右預(yù)測一次上述各參數(shù)的值。即以每10-30ms為一幀傳送一次參數(shù)樣值的編碼,并不傳送話音樣值的編碼,因此比特速率低得多。二、語音信號的產(chǎn)生模型95清濁音判決濾 波 器參 數(shù) 分析Ga1ap量 化 編 碼 器U/V解 碼 器Ga1apTPU/V激 勵 信號產(chǎn)生合 成 濾波器信道基 音 周期提取TPs(n)預(yù)加重加窗s(n)LPC聲碼器的原理框圖三、LPCLPC聲碼器的工作原理96 對于加窗的語音信號sw(n
41、),當(dāng)窗的起點 n = 0 時,語音信號sw(n)的短時能量用E 表示,短時平均幅度用M 表示,計算公式如下:102)(NnwnsE10)(NnnsM三、LPCLPC聲碼器的工作原理 3、濁音、清音及無聲的判別 根據(jù)語音信號的短時能量、短時平均幅度和短時過零率來判斷當(dāng)前幀的語音信號是濁音、清音,還是無聲。97 語音信號的過零率用Z 表示,它表示一幀語音信號中波形穿過橫軸(零電平)的次數(shù)。它可以用相鄰兩個取樣改變符號的次數(shù)來計算:10)1(sgn)(sgn21NnwwnsnsZ三、LPCLPC聲碼器的工作原理98 濁音(V)的M 最大而Z 最低,當(dāng)采樣率為8kHz,幀長為 20ms 時, Z 的
42、平均值約為20; 清音(U)的M 居中而Z 最高,當(dāng)采樣率為8kHz,幀長為20ms時, Z 的平均值約為70; 無聲(S)的M 最低而Z 居中。三、LPCLPC聲碼器的工作原理99三、LPCLPC聲碼器的工作原理 在S、U、V三種情況下,短時平均幅度M 和短時過零率Z 的條件概率密度函數(shù)示意圖通道聲碼器通道聲碼器發(fā)送端通過若干個并聯(lián)的通道對語音信號進行粗略的頻譜估計接收端產(chǎn)生的信號其頻譜與發(fā)送端所規(guī)定的頻譜相匹配。濾波器組隊頻帶的劃分不均勻,低頻帶的帶寬窄,高頻段的帶寬寬主要缺點:需要進行基音檢查和清濁音的判決,精確性較差。通道數(shù)量有限,造成信號頻譜畸變共振峰聲碼器共振峰聲碼器對整體的語音信
43、號進行分析,提取信號中的共振峰的位置、幅度、帶寬等參數(shù),構(gòu)成對應(yīng)清音和濁音的兩個聲道濾波器。與通道聲碼器相比,共振峰聲碼器合成的語音質(zhì)量較好,而且比特率可以壓縮的更低104四、LPC10LPC10聲碼器清濁音判決濾波器參數(shù)分析Ga1ap量 化 編 碼 器U/V解 碼 器Ga1apTPU/V激 勵 信號產(chǎn)生合成濾波器信道基音周期提取TPs(n)預(yù)加重加窗s(n)1051、LPC10聲碼器概況 LPC-10聲碼器采用10階線性預(yù)測分析濾波器,編碼速率為2.4kb/s,被美國在1981年作為聯(lián)邦標(biāo)準(zhǔn)FS-1015用于窄帶保密通信。其語音質(zhì)量清晰可懂,但抗噪聲的能力和自然度尚有欠缺。 四、LPC10L
44、PC10聲碼器106四、LPC10LPC10聲碼器2、 LPC10編碼器低通濾波A/D變換預(yù)加重計算分析相位基音分析存儲器低通濾波器清/濁檢測基音及清/濁校正2階逆濾波AMDF基音提取V/UV數(shù)字語音出并變串及同步產(chǎn)生誤差校正的映射參數(shù)編碼基音周期預(yù)測器分析存儲器計算RMS計算預(yù)測參數(shù)2幀參數(shù)存儲器2幀參數(shù)存儲器RMSRC107 采樣率8kHz,每個樣本量化為12bit得到數(shù)字化語音,每180個樣點分為一幀(22.5ms ),以幀為處理單元。四、LPC10LPC10聲碼器預(yù)加重的目的是加強語音譜中的高頻共振峰,使語音短時譜以及線性預(yù)測分析中的余數(shù)(殘差)頻譜變得更為平坦,從而提高了譜參數(shù)估值的
45、精確性。19375. 01)(zzHpw 在提取聲道參數(shù)之前,先進行預(yù)加重(高頻提升)處理,預(yù)加重濾波器的傳輸函數(shù)Hpw(z)為:108傳輸函數(shù)Hpw(z)的幅頻和相頻特性四、LPC10LPC10聲碼器010002000300040005000600070008000-100-50050100Frequency (Hertz)Phase (degrees)010002000300040005000600070008000-30-20-10010Frequency (Hertz)Magnitude Response (dB)109 該編碼方案中采用協(xié)方差法計算預(yù)測系數(shù)ai,i = 1, , P,
46、P=10。預(yù)測系數(shù)不適于直接量化,因為它的微小變化會導(dǎo)致LP綜合濾波器極點位置很大的變化,很可能造成濾波器不穩(wěn)定,為了保證濾波器的穩(wěn)定性,要求有相當(dāng)高的量化精度(每個系數(shù)需要810bits )。 四、LPC10LPC10聲碼器110四、LPC10LPC10聲碼器 為了降低量化比特數(shù),采用了在數(shù)學(xué)上完全等價的P個反射系數(shù)(RC:Reflection Coefficient) ki, i = 1, , P代替預(yù)測系數(shù)進行量化編碼。濾波器穩(wěn)定的條件是參數(shù)ki滿足下式:1ik 此條件在量化時容易保證。可以通過Levinson-Durbin算法求得部分相關(guān)系數(shù)(Partial Correlation),
47、部分相關(guān)系數(shù)與RC在理論上是互為相反數(shù)。111 增益RMS由下式計算:21121NiiSNRMSSi是經(jīng)過預(yù)加重后的數(shù)字語音信號樣本,N是分析幀長度。對于濁音幀,其分析幀長取為130個樣本以內(nèi)的基音周 期整數(shù)倍值;對于清音幀,其分析幀長取為長度為22.5ms的整個幀的中點為中心的130個樣點。四、LPC10LPC10聲碼器112 清/濁音判決是利用模式匹配技術(shù),基于低帶能量、AMDF函數(shù)的最大值與最小值之比、過零率三個因素判別。最后對基音值、清濁音判決結(jié)果用動態(tài)規(guī)劃算法,在三幀范圍內(nèi)進行平滑和錯誤校正,從而給出當(dāng)前幀的基音周期、清濁音判決參數(shù)V/U。 采用基于短時平均幅度差函數(shù)(AMDF)法提
48、取基音周期。四、LPC10LPC10聲碼器113 對10個反射系數(shù)RC、增益RMS、基音周期、U/V判決標(biāo)志以及同步信號共編碼成每幀54bits,幀長22.5ms,因此編碼速率為2.4kb/s。各比特分配如下表:四、LPC10LPC10聲碼器114四、LPC10LPC10聲碼器濁音清音濁音清音基音周期/清濁音77K(6)4RMS55K(7)4同步11K(8)4K(1)55K(9)3K(2)55K(10)2K(3)555433K(4)55誤差校正020K(5)4115四、LPC10LPC10聲碼器3、 LPC10譯碼器串/并變換同步檢測誤差檢測校正編碼參數(shù)解碼幀塊到基音塊轉(zhuǎn)換與插值輸出存儲器計算
49、增益綜合器清/濁音開關(guān)去加重D/A低通濾波合成語音出RMSRC基音周期V/UV反射系數(shù)轉(zhuǎn)換成預(yù)測系數(shù)基音產(chǎn)生噪音產(chǎn)生116(1)采用過分簡化的二元激勵,合成的語音自然度較低;(2)穩(wěn)健性(Robustness)差。(3)LPC-10的語音譜共振峰的位置以及帶寬估值有時會產(chǎn)生很大的失真,從而影響語音的質(zhì)量。當(dāng)濁音的基音頻率接近譜包絡(luò)中的第一共振峰時,LPC譜估計在共振峰位置上出現(xiàn)極其尖銳的峰值(估計失真),使得相應(yīng)得在合成語音中會出現(xiàn)尖峰或較大的毛刺,影響語音質(zhì)量。四、LPC10LPC10聲碼器117 采用混合激勵代替簡單的二元激勵,使合成語音的質(zhì)量得到改善。激勵脈沖加抖動:對每個基音周期的長度
50、乘上一個0.751.25之間均勻分布的隨機數(shù)以改善語音的自然度。4、 LPC-10e聲碼器 LPC-10e聲碼器采用針對LPC-10聲碼器的缺點加以改進的算法,并能與LPC-10聲碼器兼容,用于美國第三代保密電話。四、LPC10LPC10聲碼器118LPC-10提取基音采用的是AMDF,它的顯著特點是不需要乘法,計算較小。 LPC-10e中采用LPC的殘差信號或語音信號的短時自相關(guān)函數(shù),利用動態(tài)規(guī)劃的平滑算法來更準(zhǔn)確地提取基音周期。四、LPC10LPC10聲碼器119 線譜頻率LSF(Line Spectrum Frequency),或稱為線譜對(Line Spectrum Pair)是數(shù)學(xué)上
51、與線性預(yù)測系數(shù)ai(i = 1, , P)和反射系數(shù)ki(i = 1, , P)完全等價的另一種表示方式。LSF參數(shù)集i(i = 1, , P)都在單位圓上,它們在頻域描述全極點濾波器H(Z)。LSF在數(shù)學(xué)上有良好的量化特性。 四、LPC10LPC10聲碼器120四、LPC10LPC10聲碼器在求取LSF參數(shù)及量化過程中,如果保持LSF參數(shù)的有序有界性質(zhì),即:就可以保證全極點濾波器H(Z)是穩(wěn)定的。pp 1210a.LSF參數(shù)有序有界性121b. LSF誤差相對獨立性某個頻率點的LSF偏差只對該頻率附近的語音頻譜產(chǎn)生影響,而對其它LSF頻率上的語音頻譜影響不大,這有利于LSF的參數(shù)量化和插值。
52、四、LPC10LPC10聲碼器122c. LSF參數(shù)的量化 在標(biāo)量量化時,通過設(shè)計最佳的LSF參數(shù)的非均勻標(biāo)量量化器,可以用較少的量化比特達到較高的量化精度。例如:對10個LSF參數(shù),根據(jù)每個參數(shù)所起的作用,分配的量化比特數(shù)為:3、4、4、4、4、3、3、3、3、3,共34bits。所得的合成語音質(zhì)量與用41bits對反射系數(shù)k參數(shù)量化得到的合成語音質(zhì)量相比較,在聽覺上沒有任何差別,兩者的波形完全吻合,計算量化畸變約為1dB。四、LPC10LPC10聲碼器123四、LPC10LPC10聲碼器c. LSF參數(shù)的量化(續(xù))在矢量量化時,將10個LSF合并成(4,6)兩個矢量,每個矢量量化為12bi
53、ts,共24bits,可以得到平均譜畸變?yōu)?dB的“透明”矢量量化。第三章第三章 語言信號壓縮編碼語言信號壓縮編碼3.1 語言信號壓縮編碼的基本概念3.2 自適應(yīng)差值脈沖編碼調(diào)制3.3 參量編碼3.4 混合編碼3.5 低速率語言壓縮編碼的應(yīng)用3.4.1 3.4.1 混合編碼混合編碼結(jié)合了波形編碼和參量編碼的優(yōu)點,采用線性技術(shù)構(gòu)成聲道模型。不止傳輸預(yù)測參數(shù)和清濁音信息,而且也同時傳輸預(yù)測誤差信息。實現(xiàn)混合編碼基本方法是以參量編碼特別是線性預(yù)測編碼LPC為基礎(chǔ)的, (AbSAbS,Analysis-By-SynthesisAnalysis-By-Synthesis)的基本)的基本思想:用合成來指導(dǎo)
54、分析。思想:用合成來指導(dǎo)分析。 將合成器引入編碼系統(tǒng),使之與分析器相結(jié)合,在編碼將合成器引入編碼系統(tǒng),使之與分析器相結(jié)合,在編碼器中產(chǎn)生與譯碼器完全一致的合成語音,將此合成語音與原器中產(chǎn)生與譯碼器完全一致的合成語音,將此合成語音與原始語音相比較,根據(jù)一定的誤差準(zhǔn)則調(diào)整計算分析器的各個始語音相比較,根據(jù)一定的誤差準(zhǔn)則調(diào)整計算分析器的各個參數(shù),使兩者之間的誤差達到最小。然后將誤差最小時的語參數(shù),使兩者之間的誤差達到最小。然后將誤差最小時的語音參數(shù)傳送到接收端,得到高質(zhì)量的合成語音。音參數(shù)傳送到接收端,得到高質(zhì)量的合成語音。合成分析法在在LPCLPC基礎(chǔ)上采用基礎(chǔ)上采用AbSAbS的編碼方法。的編碼
55、方法。AbS-LPCAbS-LPC編碼器包編碼器包括三個基本部分:括三個基本部分: 時變?yōu)V波器(包括時變?yōu)V波器(包括LPCLPC和基音濾波器)和基音濾波器) 基于感知的最小化處理;基于感知的最小化處理; 激勵信號;激勵信號; AbS-LPCAbS-LPC編碼器AbS-LPC編碼器與譯碼器編碼器與譯碼器AbS-LPCAbS-LPC編碼器激勵信號激勵信號產(chǎn)生產(chǎn)生編碼端編碼端基音合成基音合成濾波器濾波器LPCLPC合成合成濾波器濾波器解碼端解碼端輸出輸出語音語音誤差最小誤差最小優(yōu)化的優(yōu)化的激勵激勵基音合成基音合成濾波器濾波器LPCLPC合成合成濾波器濾波器( )e n誤差誤差- -+ +原始原始語音
56、語音( )s n( )s n( )s nAbS-LPCAbS-LPC編碼器合成分析編碼方法的特點:合成分析編碼方法的特點: 發(fā)端是一個閉環(huán)系統(tǒng);發(fā)端是一個閉環(huán)系統(tǒng); 對激勵信號沒有明顯的分類,由閉環(huán)系統(tǒng)選擇與對激勵信號沒有明顯的分類,由閉環(huán)系統(tǒng)選擇與原始語音誤差最小的激勵信號,使得合成語音質(zhì)量原始語音誤差最小的激勵信號,使得合成語音質(zhì)量比傳統(tǒng)的比傳統(tǒng)的LPCLPC聲碼器好得多。聲碼器好得多。1 1、 時變?yōu)V波器時變?yōu)V波器時變?yōu)V波器由時變?yōu)V波器由LPCLPC合成濾波器和基音合成濾波器合成濾波器和基音合成濾波器級連組成。級連組成。 LPCLPC合成濾波器實現(xiàn)語音的短時預(yù)測;合成濾波器實現(xiàn)語音的短時
57、預(yù)測; 基音合成濾波器實現(xiàn)語音的長時預(yù)測?;艉铣蔀V波器實現(xiàn)語音的長時預(yù)測。AbS-LPCAbS-LPC編碼器 在語音譜中,能量較高的頻段(如共振峰處)的噪聲相在語音譜中,能量較高的頻段(如共振峰處)的噪聲相對于能量較低頻段的噪聲不易被感知,在度量原始語音與合對于能量較低頻段的噪聲不易被感知,在度量原始語音與合成語音之間的誤差時可以計入這一因素,在語音能量高的頻成語音之間的誤差時可以計入這一因素,在語音能量高的頻段,允許二者的誤差大一些,反之則小一些,為此在計算二段,允許二者的誤差大一些,反之則小一些,為此在計算二者誤差時,引入頻域感覺加權(quán)濾波器者誤差時,引入頻域感覺加權(quán)濾波器W W(f)(f
58、)。 2 2、感覺加權(quán)濾波器、感覺加權(quán)濾波器是根據(jù)人的聽覺特性對預(yù)測殘差信是根據(jù)人的聽覺特性對預(yù)測殘差信號進行處理,以產(chǎn)生較好的主觀聽覺效果。號進行處理,以產(chǎn)生較好的主觀聽覺效果。AbS-LPCAbS-LPC編碼器3 3、激勵信號源、激勵信號源 激勵信號是激勵信號是AbS-LPCAbS-LPC模型的輸入,包含不能由時變?yōu)V模型的輸入,包含不能由時變?yōu)V波器譜模型表征的殘差結(jié)構(gòu),如超出長時線性預(yù)測范圍波器譜模型表征的殘差結(jié)構(gòu),如超出長時線性預(yù)測范圍的相關(guān)性就不能由長時線性預(yù)測包含,激勵信號還包括的相關(guān)性就不能由長時線性預(yù)測包含,激勵信號還包括不能用確定方法有效表征的隨機結(jié)構(gòu)。采用不能用確定方法有效表
59、征的隨機結(jié)構(gòu)。采用AbSAbS方法的聲方法的聲碼器都用激勵信號源的種類命名。例如:碼器都用激勵信號源的種類命名。例如: (1 1)多脈沖線性預(yù)測編碼()多脈沖線性預(yù)測編碼(MP-LPCMP-LPC) (2 2)規(guī)則脈沖激勵)規(guī)則脈沖激勵長時預(yù)測編碼(長時預(yù)測編碼(RPE-LTP-LPCRPE-LTP-LPC) (3 3)碼本激勵線性預(yù)測編碼()碼本激勵線性預(yù)測編碼(CELPCELP) AbS-LPCAbS-LPC編碼器 語音的合成分析編碼語音的合成分析編碼 合成分析法(合成分析法(ABSABS)的基本思想是用合成來指導(dǎo)分)的基本思想是用合成來指導(dǎo)分析。析。將合成器引入編碼瑞,使之與分析器相結(jié)臺
60、,在編將合成器引入編碼瑞,使之與分析器相結(jié)臺,在編碼器中產(chǎn)生與譯碼器端完全一致的合成語音,將此碼器中產(chǎn)生與譯碼器端完全一致的合成語音,將此合成語音與原始語音相比較,根據(jù)一定的誤差準(zhǔn)則合成語音與原始語音相比較,根據(jù)一定的誤差準(zhǔn)則調(diào)整計算各個參數(shù),使得二者之間的誤差達到最小。調(diào)整計算各個參數(shù),使得二者之間的誤差達到最小。將誤差最小時的系統(tǒng)參數(shù)傳送到接收端,可以合成將誤差最小時的系統(tǒng)參數(shù)傳送到接收端,可以合成較高質(zhì)量的語音。較高質(zhì)量的語音。 AbSLPCAbSLPC編碼方法編碼方法(1)(1)緩存一幀語音采樣值通道緩存一幀語音采樣值通道LPCLPC分析得到一組分析得到一組LPCLPC系數(shù)。系數(shù)。(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 半電動堆高機行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025標(biāo)準(zhǔn)私人房產(chǎn)合同
- 2024年素質(zhì)教育培訓(xùn)行業(yè)市場調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報告
- 寧夏吸塑托盤項目資金申請報告
- 2024-2027年中國軟件建模行業(yè)市場調(diào)研及未來發(fā)展趨勢預(yù)測報告
- 湖北省2024年初中學(xué)業(yè)水平考試模擬訓(xùn)練語文試卷含答案
- 2020-2025年中國安全防護服行業(yè)市場運營現(xiàn)狀及投資戰(zhàn)略咨詢報告
- 年產(chǎn)噸無氧光亮銅桿項目可行性研究報告
- 2024-2027年中國UWB定位市場競爭態(tài)勢及行業(yè)投資潛力預(yù)測報告
- 2025年全球核燃料行業(yè)市場調(diào)研與發(fā)展前景預(yù)測分析報告
- 2024年03月中國農(nóng)業(yè)發(fā)展銀行內(nèi)蒙古分行校園招考擬招錄人員筆試歷年參考題庫附帶答案詳解
- 2024年盾構(gòu)操作工職業(yè)技能競賽理論考試題庫(含答案)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之8:“5領(lǐng)導(dǎo)作用-5.2創(chuàng)新方針”(雷澤佳編制-2025B0)
- (西北卷)名校教研聯(lián)盟2025屆高三12月聯(lián)考英語試卷(含答案解析)
- 金科新未來大聯(lián)考2025屆高三12月質(zhì)量檢測語文試題(含答案解析)
- 江蘇省2025年高中學(xué)業(yè)水平合格考歷史試卷試題(含答案詳解)
- 《地下水環(huán)境背景值統(tǒng)計表征技術(shù)指南(試行)》
- 大學(xué)試卷(示范)
- 高職院校智能制造實驗室實訓(xùn)中心建設(shè)方案
- 房產(chǎn)交易管理平臺行業(yè)發(fā)展預(yù)測分析
- 檔案工作人員分工及崗位責(zé)任制(4篇)
評論
0/150
提交評論