第13章語音壓縮編碼_第1頁
第13章語音壓縮編碼_第2頁
第13章語音壓縮編碼_第3頁
第13章語音壓縮編碼_第4頁
第13章語音壓縮編碼_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第13章語音壓縮編碼內(nèi)容一、引言二、數(shù)字語音的波形編碼三、數(shù)字語音的參數(shù)編碼四、數(shù)字語音的混合編碼一、引言數(shù)字語音壓縮編碼的可能性聲音信號中包含有大量的冗余信息鄰近樣本之間有很大的相關性周期之間的相關性基音之間的相關性長時(幾十秒)自相關性話音間歇(靜音)可以利用人的聽覺感知特性進行壓縮,可以利用語音信號的生成機理進行數(shù)據(jù)壓縮。語音壓縮編碼方法分類波形編碼(Perceptionmodel-basedcompression)優(yōu)點:通用、音頻質(zhì)量較高缺點:很難獲得較大的壓縮比示例:PCM,ADPCM,SBC參數(shù)編碼,源編碼(Productionmodel-basedcompression)優(yōu)點:壓縮比較大缺點:信號源必須已知示例:LPC混合編碼(Hybridcompression)示例:CELP三類語音編碼器性能比較極低低中碼率(kb/s)1248163264優(yōu)良中差壞語音質(zhì)量模型編碼(源編碼)參數(shù)編譯碼器(sourcecodecs)混合編碼混合編譯碼器(hybridcodecs)波形編碼

波形編譯碼器(waveformcodecs)數(shù)字語音編碼標準標準 方法 比特率 質(zhì)量 時間 應用G.711 PCM 64 4.4 1972 PSTNANSI1015 LPC-10 2.4 2.7 1976 保密通信G.721 ADPCM 32 4.1 1984 PSTNGSM(歐洲蜂窩通信) RPE-CELP 13 3.6 1991 ANSI1016 CELP 4.8 3.2 1991 G.728 低延時CD-CELP 16 4.0 1992 IS54(北美TDMA) VSELP 8 3.5 1992 IS96(北美CDMA) QCELP 1-8 3.4 1993 日本蜂窩通信 VSELP 6.8 3.3 1993 G.729A CS-ACELP 8 4.2 1995 IPG.723.1(H.323,H.324) ACELP 6.3 3.98 1995 IP半速率GSM(歐洲蜂窩通信) AMR 5-6 3.4 1995 新的低速率ANSI標準 MELP 2.4 3.3 1996 二、數(shù)字語音的波形編碼波形編譯碼器算法比較簡單,容易實現(xiàn),低延遲,壓縮效率不高,數(shù)據(jù)速率在16kbps以上,聲音質(zhì)量相當好,通用性好,適用于任意類型的數(shù)字聲音,很成熟,有一系列國際標準:CCITTG.711PCM64kb/sCCITTG.721ADPCM32Kb/sCCITTG.726ADPCM48,32,24,16Kb/s已廣泛應用于語音的中繼線傳輸CCITTG.711(脈沖編碼調(diào)制)

PulseCodeModulation(PCM)ofVoiceFrequency編碼過程:對數(shù)變換(壓縮編碼)F(n)低通濾波

(LPF)Xa(t)x(n)A/D(13位)取樣(8kHz)X(n)分析:方法簡單,易實時處理,語音質(zhì)量好,壓縮效率不高,碼率為64kbps。碼率=104kbps碼率=8位x8k=64kbps對數(shù)變換F=ln(x)目的:適應聽覺的非線性特性;壓縮數(shù)據(jù)。北美和日本等地區(qū)(μ律壓擴算法)當0=<|x|=<1/A當1/A<|x|=<1歐洲和中國大陸等地區(qū)(A律壓擴算法)壓擴算法的實現(xiàn)x(n):線性碼(1+12位)F(n):PCM碼(1+7位)0000000WXYZa000WXYZ0000001WXYZa001WXYZ000001WXYZab010WXYZ00001WXYZabc011WXYZ0001WXYZabcd100WXYZ001WXYZabcde101WXYZ01WXYZabcdef110WXYZ1WXYZabcdefg111WXYZXa(t)取樣(8kHz)A/D(13位)x(n)A律/u律壓縮編碼8位x8kHzF(n)PCM的應用應用于數(shù)字聲音的編輯處理(多媒體計算機)應用于聲音的傳輸(通信):長途(8KHzx8bitx1),時分多路復用TDM(time-divisionmultiplexing)應用于全頻帶數(shù)字聲音的表示/存儲:CD-DA(CD唱片),DAT(44.1KHzx16bitx2)ADPCM自適應差分脈沖編碼調(diào)制

(AdaptiveDifferentialPCM)原理:聲音信號具有很強的相關性,可從已知信號來預測未知信號,即使用前面的樣本預測當前的樣本,實際樣本值與預測值之間的誤差往往很小。利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,效果:量化位數(shù)可以顯著減少,從而降低了總的碼率。增量調(diào)制(DM)量化器Q(m階線性預測,A1,A2,...,Am可自動修正。)實際樣本值線性預測公式:Xn=A1*Xn-1+A2*Xn-2+...+Am*Xn-m_線性預測器逆量化器Q-1+預測值差值重建信號DPCM編碼輸出利用樣本與樣本之間存在的相關性進行編碼,即根據(jù)前面的樣本估算當前樣本的大小,然后對預測誤差進行量化編碼。差分脈沖編碼調(diào)制DPCME量化結(jié)果-255~-240-239~-224:-31~-16-15~01~1617~32:225~240241~255-248-232:-24-8824:232248130,150,140,200,230f’=130,130,142,144,167e

=0,20,-2,56,63e’=0,24,-8,56,56f’’=130,154,134,200,223舉例自適應脈沖編碼調(diào)制(APCM)根據(jù)輸入樣本幅度的大小來改變量化階大小??梢允撬矔r自適應,即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應,即量化階的大小在較長時間周期里發(fā)生變化。量化器Q樣本值量化階適配器自適應APCM編碼輸出量化器Q13位自然碼的數(shù)字語音樣本_線性預測器逆量化器Q-1+預測值差值重建信號DPCM編碼輸出CCITTG.721ADPCM編碼器A量化階適配器自適應(4位)6階自適應線性預測,

4位的自適應量化器,輸出碼率:8kx4=32kbpsADPCM小結(jié)PCM話音質(zhì)量4.5級ADPCM話音質(zhì)量4.34級,碼率降低一倍(32kbps)。ADPCM應用:數(shù)字語音通信多媒體應用中的語音(解說詞)Sub-bandcoding(子帶編碼)基本原理:利用帶通濾波器(BPF)把聲音信號按頻率范圍劃分成幾個組成部分(子頻帶,子帶)低頻部分能量較集中,量化精度要高,取樣頻率可稍低。高頻部分是摩擦音、噪音,量化精度可低些,但取樣頻率要稍高。不同子頻帶作不同的ADPCM編碼處理,然后再復合在一起。MUX64kbpsSBC數(shù)據(jù)插入部件輔助數(shù)據(jù)輸入16kHz,14bits,數(shù)字聲音傳輸正交鏡象濾波器(TQMF)4-8kHz0-4kHzXHXL

高頻帶ADPCM編碼器8000,2bits16kbps

低頻帶ADPCM編碼器8000,6bits48kbps模式1:聲音—64kbps;輔助數(shù)據(jù)—0模式2:聲音—56kbps;輔助數(shù)據(jù)—8kbps模式3:聲音—48kbps;輔助數(shù)據(jù)—16kbpsG.722:64kbps的聲音子帶編碼二、數(shù)字語音的參數(shù)編碼參數(shù)編碼(源編碼)的設計思想分析人的發(fā)聲器官的結(jié)構(gòu)及語音生成的原理,建立語音生成的物理(數(shù)學)模型,編碼時:從話音波形信號中提取生成該話音的參數(shù);解碼時:根據(jù)語音生成模型,使用這些參數(shù)合成原始話音。提取語音生成參數(shù)語音生成模型(編碼器)語音參數(shù)數(shù)字語音使用參數(shù)合成語音語音生成模型(解碼器)重建的語音語音生成過程(1)空氣由肺部呼出,經(jīng)過聲帶,送入聲道,最后從嘴唇呼出,產(chǎn)生聲音。聲音信號具有短期相關性(持續(xù)時間1ms左右)聲道是一個諧振腔,說話時,聲道形狀不斷變化,引起諧振頻率改變,大約10~100ms改變一次;聲道可以看作為具有共振特性的一個濾波器,由于聲道形狀變化比較慢,因此該濾波器的轉(zhuǎn)移函數(shù)(transferfunction)只需要每20ms左右時間修改一次。

聲道聲帶空氣語音語音生成過程(2)聲道濾波器由肺部空氣經(jīng)過聲帶而激勵,根據(jù)激勵的模式,語音可分成2類:濁音(時間域)濁音Voicedsounds(聲帶震動,產(chǎn)生準周期的空氣脈沖激勵信號,送入聲道)清音(時間域)清音Unvoicedsounds(聲帶不振動,聲門始終處于“開”狀態(tài),送入聲道的空氣激勵信號是一種無周期性的噪音信號)語音生成的聲道濾波器模型(1)語音生成的聲道濾波器模型(2)LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)脈沖序列發(fā)生器隨機噪聲發(fā)生器基音周期T(聲帶振動)(聲帶不振動)UV(清音)V(濁音)H(z)聲道參數(shù)a1a2a3a10...語音(聲道濾波器)s(n)增益Gu(n)激勵信號語音是一個近似的短時(10~30ms)平穩(wěn)隨機過程,LPC模型的參數(shù)A=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)變化比較慢,大約每20ms變化一次;假設語音信號的取樣頻率為8kHz,將每秒鐘分成50幀,每幀20ms(其中有20x8=160個樣本),每一幀的所有信號近似地滿足同一模型,即每一幀語音可以使用同一組參數(shù)來表示:濁音還是清音(1位)濁音的基頻T(6位)音源的幅度G(5位)線性濾波器的參數(shù)(10個參數(shù),每個參數(shù)6位,共60位)語音的參數(shù)編碼(LPC分析)

——從已知的數(shù)字語音信號中提取參數(shù)所以,每秒總碼率為:50x72bits=3600bps=3.6kbps如何確定LPC的系數(shù)(1)對聲音波形的編碼實際就轉(zhuǎn)化為如何提取語音生成模型的參數(shù),經(jīng)典的方法是線性預測編碼LPC。每一個樣本都用過去10個樣本的線性組合來預測:

spre(n)=-[a1s(n-1)+a2s(n-2)+…+a10s(n-10)]樣本s(n)的預測誤差為:e(n)=s(n)-spre(n)=s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)10個樣本s(n-10)s(n-2)s(n-1)s(n)問題:對給定的一幀信號s(n),n=[0..159],怎樣選擇系數(shù)ai使得預測誤差e(n)的平方和為最???即

E=∑[s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)]2最小為此,上式對a1,a2,…,a10

分別求偏導數(shù)得到一組差分方程

dE/da1=0,∑[s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)]s(n-1)=0dE/da2=0,∑[s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)]s(n-2)=0…..,

dE/da10=0,∑[s(n)+a1s(n-1)+a2s(n-2)+…+a10s(n-10)]s(n-10)=0如何確定LPC的系數(shù)(2)求解系數(shù)ai的線性方程組R(1,1)R(1,2)R(1,3)…..R(1,10)a1-R(0,1)R(2,1)R(2,2)R(2,3)…..R(2,10)a2-R(0,2)R(3,1)R(3,2)R(3,3)…..R(3,10)a3-R(0,3). . .. . . . . .R(10,1)R(10,2)R(10,3)…..R(10,10) a10-R(0,10)=其中R(i,j)=∑s(n-i)·s(n-j),是信號s(n)的自相關性n=0159-k如何確定LPC的系數(shù)(3)

—如何確定其他3個參數(shù)(V/UV,G,T)濁音/清音的判定比較困難,不正確的分類會大大降低語音質(zhì)量使用語音信號過零點的數(shù)目來判定;

i∈[12,140]基音周期T的估計是生成高品質(zhì)、高清晰語音的關鍵常用方法:SIFT基音檢測法,AMDF基音檢測法激勵信號的增益G例12.4kb/sLPC語音編碼器20ms作為1幀,按幀進行編碼LPC系數(shù)的比特分配為:34bit增益G:7bit濁音/清音及濁音的基音周期T:7bit碼率:48x50=2.4kb/s例LPC-10編碼器(ANSI1015,2.4kb/s)22.5ms作為1幀,以幀為單位進行編碼,LPC系數(shù)共10位,采用協(xié)方差方法計算,濁音的基音周期T采用平均幅值差分函數(shù)(AMDF)計算,共60個值,范圍51.3-400Hz,半對數(shù)表示,激勵信號:濁音采用標準化的存儲波形碼率:54x1000/22.5=2.4kb/s

參數(shù)濁音清音

a155a255a355a455a54-a64-a74-a84-a93-a102-V/UV11T66G55

同步11

誤差保護-21

總計5454波形編碼與參數(shù)編碼的比較

波形編碼

參數(shù)編碼

1碼率高碼率低

2音質(zhì)好音質(zhì)差

3算法簡單算法復雜

4可處理任何聲音信號僅處理語音信號參數(shù)編碼的數(shù)據(jù)率在2-4kbps左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠遠低于波形編碼。盡管它的音質(zhì)比較低,但它的保密性能好,因此這種編譯碼器一直用在軍事上.三、數(shù)字語音的混合編碼參數(shù)編碼的不足參數(shù)編碼在降低碼率方面有很大突破,但語音質(zhì)量尚不理想;原因是語音生成模型中的激勵信號的處理過于簡單:不是清音就是濁音;實際上有些是濁音、清音的混合;濁音的激勵信號是周期性的,實際上是準周期性的;脈沖序列發(fā)生器隨機噪聲發(fā)生器基音周期(聲帶振動)(聲帶不振動)音源幅度音源幅度濁音清音線性濾波器聲道參數(shù)...語音(聲道模型)激勵信號改進思路:設計更好的激勵信號。混合編碼的原理思路:使用合成-分析法AbS(Analysis-by-Synthesis)來改進參數(shù)編碼,其中聲道濾波器模型仍與LPC編碼器中的相同,但不使用兩個狀態(tài)(有聲/無聲)的模型作為濾波器的輸入激勵信號,而是增加反饋,調(diào)節(jié)激勵信號u(n),使語音輸入信號s(n)與重建的語音信號誤差e(n)為最小。誤差信號按感知加權誤差最小?原始語音s(n)e(n)線性濾波器濾波器參數(shù)...合成語音激勵信號的生成或選擇激勵信號u(n)s(n)^

編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號,所以稱為“合成-分析編碼器”。)激勵信號生成的方法:多脈沖線性預測編碼MPLPC(multiplepulseLPC)

等間隔脈沖激勵RPE(regular-pulseexcited)

碼激勵線性預測CELP(codeexcitedlinearpredictive)最佳激勵信號u(n)的生成方法多脈沖線性預測編碼

--MPLPC

將原始語音分為20ms長度的幀,對每一幀計算出LPC的系數(shù);假設激勵信號由k個脈沖組成,每個脈沖的幅度和位置待定;從第1個脈沖開始,確定其幅度和位置;若1,···,i-1個脈沖的幅度和位置已經(jīng)確定,則確定第i個脈沖的幅度與位置;上述過程重復k次,結(jié)束。決定第i個脈沖的幅度與位置多脈沖激勵發(fā)生器LPC合成器感知權重i=1..k

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論