L11-1語音壓縮編碼_第1頁
L11-1語音壓縮編碼_第2頁
L11-1語音壓縮編碼_第3頁
L11-1語音壓縮編碼_第4頁
L11-1語音壓縮編碼_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第十一講

聲音壓縮技術(shù)及標(biāo)準(zhǔn)一、音頻壓縮概述聲音壓縮編碼技術(shù)分類多媒體計算機處理的數(shù)字化聲音有以下幾種,其處理方法有所不同,數(shù)字語音(窄帶聲音)包括:電話語音、調(diào)幅廣播聲音,其頻率范圍比較窄,普通語音為200-3400Hz,AM廣播為50-7000Hz,典型采樣頻率為8KHz、16KHz,量化精度為8bit或16bit。常采用波形編碼、參數(shù)編碼和混合編碼方法來壓縮。(如下圖所示)典型壓縮編碼標(biāo)準(zhǔn)有:G.711、G.721、G.722、G.723、G.726、G.727、G.728、G.729等。聲音壓縮編碼技術(shù)分類無失真壓縮音頻壓縮方法有失真壓縮Huffman編碼行程編碼波形編碼參數(shù)編碼混合編碼全頻帶編碼PCMDPCMADPCM子帶編碼自適應(yīng)變換編碼ATC

心理聲學(xué)模型矢量量化線性預(yù)測LPC矢量和激勵線性預(yù)測VSELP多脈沖線性預(yù)測MP-LPC碼本激勵線性預(yù)測CELP聲音壓縮編碼技術(shù)分類自然界聲音(寬帶音頻)即高保真立體聲音,這種聲音質(zhì)量最好。頻帶寬,覆蓋了人的聽覺范圍(20-20000Hz),采樣頻率高,典型為11.025KHz、22.05KHz、44.1KHz及其它值,數(shù)據(jù)量極大。壓縮時應(yīng)充分利用人的聽覺特性,建立起心理聲學(xué)模型,采用以變換編碼和子帶編碼為主的感知音頻編碼技術(shù)。典型壓縮編碼標(biāo)準(zhǔn)有:AC-3、MPEG音頻編碼。符號化聲音(合成聲音)MIDI合成音樂、TTS合成語音本講主要內(nèi)容語音壓縮技術(shù)語音(包括AM廣播音頻)壓縮標(biāo)準(zhǔn)MPEG-1音頻編碼標(biāo)準(zhǔn)(第1-3層)MPEG-2AAC高級音頻編碼標(biāo)準(zhǔn)MPEG-4音頻編碼標(biāo)準(zhǔn)二、語音壓縮技術(shù)2.1波形編碼波形編碼:是典型的建立在聲音采樣數(shù)據(jù)的統(tǒng)計特性和人體聽覺特性基礎(chǔ)上的,目標(biāo)是使重建語音波形保持原波形的形狀。其編碼特點是:適應(yīng)性強、壓縮比小、音質(zhì)好。主要算法包括:PCM(脈沖編碼調(diào)制)、DPCM(差值量化)、APCM(自適應(yīng)量化)、ADPCM(自適應(yīng)預(yù)測編碼)、ATC(自適應(yīng)變換編碼)、等。2.1波形編碼脈沖編碼調(diào)制(PCM)采樣、量化、編碼標(biāo)量量化:均勻量化非均勻量化(u-law或A-law對數(shù)壓擴)增量調(diào)制(DM)與自適應(yīng)增量調(diào)制(ADM)差分脈碼調(diào)制(DPCM)增加預(yù)測器2.1波形編碼圖1DPCM的基本工作原理

2.1波形編碼(續(xù))自適應(yīng)差分脈碼調(diào)制(ADPCM)自適應(yīng)量化自適應(yīng)預(yù)測量化器量化階距調(diào)節(jié)逆量化器預(yù)測器+-++PCM樣本預(yù)測樣本差分信號2.2參數(shù)編碼參數(shù)編碼:建立在音頻產(chǎn)生模型的基礎(chǔ)上,通過提取聲學(xué)特征參數(shù)和激勵信號,并編碼,解碼后根據(jù)相同模型合成音頻信號。其目標(biāo)是使重建的音頻信號盡量保持原有的音頻特性。參數(shù)編碼的特點是:壓縮率大、數(shù)據(jù)率低、計算量大、保真度差,自然度低,適用于語音信號的編碼。典型編碼算法:LPC

(線性預(yù)測編碼),該編碼可將語音數(shù)據(jù)比特率壓縮到2~4.8Kbit/s,甚至更低。2.2參數(shù)編碼語音生成機構(gòu)的模型:聲源:濁音(元音)、清音(摩擦音)、爆破音聲道:用可變參數(shù)的數(shù)字濾波器來模擬。語音基本參數(shù):基音周期、共振蜂、語音譜、聲強等。參數(shù)估計:LPC(線性預(yù)測編碼)聲源共鳴機構(gòu)放射機構(gòu)語音聲道2.2參數(shù)編碼(續(xù))脈沖序列發(fā)生器隨機噪聲發(fā)生器數(shù)字濾波器…基因周期增益控制增益控制濁音清音聲道參數(shù)語音信號語音生成機構(gòu)的模型2.3混合編碼混合編碼:集合了波形編碼和參數(shù)編碼的優(yōu)點,可以在較低的碼率下獲得較高音質(zhì)。一種被普遍使用的非常成功的混合編解碼器就是“分析-合成”編解碼器

(

AbS–AnalysisbySynthesis)。2.3混合編碼AbS

編解碼器:其激勵信號波形盡可能接近于原始話音的波形;它把輸入話音信號分成許多幀(frames),一般幀長為20ms。編碼器一幀一幀地“分析”,得到語音信號參數(shù);解碼器根據(jù)參數(shù),一幀一幀地“合成”,恢復(fù)出原始語音信號的近似值。2.3混合編碼(續(xù))激勵生成合成濾波器-誤差最小化聽覺加權(quán)語音輸入s(n)u(n)s’(n)e(n)ew(n)…形狀增益參數(shù)激勵生成合成濾波器u(n)s’(n)…形狀增益參數(shù)重構(gòu)語音AbS編碼器AbS

解碼器2.3混合編碼(續(xù))典型的混合編碼技術(shù)有:矢量和激勵

線性預(yù)測(VSELP)多脈沖-線性預(yù)測編碼(MP-LPC)碼本激勵線性預(yù)測(CELP),包括:短時延-碼本激勵線性預(yù)測(LD-CELP)規(guī)則脈沖激勵-長時線性預(yù)測(RPE-LTP)三、語音壓縮標(biāo)準(zhǔn)3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)電話質(zhì)量的聲音頻率范圍為:200–3400Hz。ITU–TS(原CCITT)建議的語音壓縮的標(biāo)準(zhǔn):

G.711:采用PCM

編碼,采樣速率為8kHz,量化位數(shù)為8bit,推薦使用A律或律量化,對應(yīng)的比特流速率為64kbit/s。

G.721:ITU建議的G.721將64Kbps的比特流轉(zhuǎn)換為32Kbps的流,它是基于ADPCM

技術(shù)。每個數(shù)值差分用4位編碼,其采樣率為8kHz。3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)G.728:它的比特率為16Kbps,帶寬限于3.4kHz。其音質(zhì)(MOS=3.7-4.0)比G.711或G.722差得多。它基于一種稱為低延遲代碼激勵線性預(yù)測(LD—CELP)的向量量化技術(shù)。

CELP(碼本激勵線性預(yù)測)已被采納為美國聯(lián)邦通信標(biāo)準(zhǔn)1016,可將語音壓縮至4.8Kbps,其音質(zhì)與普通電話差不多(MOS=3.7–4.0),常用于

移動通信領(lǐng)域。3.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)而美國聯(lián)邦通信標(biāo)準(zhǔn)1015使用CELP的一個簡化版本,稱為線性預(yù)測編碼(LPC)。LPC–10E標(biāo)準(zhǔn)采用一種向量量化方法,數(shù)據(jù)速率只有2.4Kbps,可用于保密話音的傳輸;但聲音質(zhì)量較差(MOS=2.5–3.5),聽起來有點象機器在說話。語音編碼標(biāo)準(zhǔn)一覽表標(biāo)準(zhǔn)編碼類型比特率(kbps)MOS復(fù)雜性時延(ms)G.711PCM644.310.125G.721ADPCM324.0100.125G.728LD-CELP164.0500.625GSMRPE_LTP133.7520G.729、G.729ACSA-CELP84.030、1515G.723.1MP-LPC

6.33.82537.5G.723.1ACELP5.3

USDod

LPC-102.4合成語音1022.53.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)上表說明:MOS(長話質(zhì)量的語音平均意見得分)復(fù)雜性(以G.711為基準(zhǔn))時延(幀大小,即語音流量的時間長度)在選擇語音壓縮標(biāo)準(zhǔn)時,應(yīng)綜合考慮帶寬、時延、算法復(fù)雜度等各種因素。3.1.1移動電話語音壓縮標(biāo)準(zhǔn)GSM編碼標(biāo)準(zhǔn)是1983年歐洲數(shù)字移動特別工作組(GSM)制定的一種移動電話的壓縮標(biāo)準(zhǔn),它壓縮的音質(zhì)不如G.711系統(tǒng)。在GSM-6.10標(biāo)準(zhǔn)中,采用RPE-LTP算法,壓縮后的一路話音數(shù)碼率為13Kbps。1989年美國公布的數(shù)字移動通信標(biāo)準(zhǔn)(CTIA)速率為8kbit/s,具有較高的壓縮率和較高的語音質(zhì)量。USDod標(biāo)準(zhǔn)是美國國家安全局(NSA)分別于1982年和1989年制定了基于LPC速率為2.4kbit/s的編碼方案和基于速率為4.8kbit/s的編碼方案。G.729標(biāo)準(zhǔn)3.2調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn)調(diào)幅(AM)廣播質(zhì)量的聲音頻率范圍:50Hz-7kHz,稱為“7kHz音頻信號”。其中,50-200Hz的低頻頻段使語音更加自然,因此AM廣播聲音比傳統(tǒng)的窄帶話音(200-3.4kHz)有更好的主觀質(zhì)量。ITU于1986年通過G.722標(biāo)準(zhǔn)。

G.722:基于SB–ADPCM(子帶-自適應(yīng)差分脈碼調(diào)制)技術(shù),它將50Hz到7kHz的信號帶寬分成兩個獨立的子帶信道,而每個子帶又可以繼續(xù)分割;然后分別采用ADPCM算法編碼。壓縮后的數(shù)碼率分64、56、48kbps三種,可分別插入0、8、16kbps的數(shù)據(jù)與語音信號一起傳輸。3.2.1

G.722.1標(biāo)準(zhǔn)G.722.1標(biāo)準(zhǔn)主要采用SB-ADPCM編碼算法,輸入聲音采樣頻率為16kHz和16bit量化時,能夠在24或32kbps速率下提供7kHz的音頻帶寬,是普通電話呼叫質(zhì)量的兩倍多,所用速率僅為先前標(biāo)準(zhǔn)的一半,并可提供近于FM廣播的音頻質(zhì)量。G.722.1標(biāo)準(zhǔn)適合于一些重要應(yīng)用領(lǐng)域,包括:

IP電話、第三代移動通信、PSTN高品質(zhì)電話會議和商務(wù)應(yīng)用(包括點到點和多點)、語音流、ISDN寬帶技術(shù)、ISDN可視電話和會議電視等。3.2.2G.722.2標(biāo)準(zhǔn)G.722.2主要采用代數(shù)編碼激勵線性預(yù)測技術(shù),符合此標(biāo)準(zhǔn)的編解碼器也被稱為AMR-WB編解碼器,已被3GPP采用,作為應(yīng)用于GSM和第三代無線W-CDMA的寬帶編解碼器。這標(biāo)志著無線與有線業(yè)務(wù)首次得以采用同一編解碼器。AMR-WB編解碼器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論