《語(yǔ)音與音頻編碼》課件第6章_第1頁(yè)
《語(yǔ)音與音頻編碼》課件第6章_第2頁(yè)
《語(yǔ)音與音頻編碼》課件第6章_第3頁(yè)
《語(yǔ)音與音頻編碼》課件第6章_第4頁(yè)
《語(yǔ)音與音頻編碼》課件第6章_第5頁(yè)
已閱讀5頁(yè),還剩104頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

6.1音頻壓縮編碼的原理

6.2MPEG音頻壓縮編碼標(biāo)準(zhǔn)概述

6.3MPEG-1音頻壓縮編碼的基本原理

6.4MPEG-2音頻編碼原理

6.5MPEG-4音頻編碼標(biāo)準(zhǔn)

6.6小結(jié)

習(xí)題六第六章MPEG音頻壓縮編碼6.1.1音頻壓縮編碼的必要性和可能性

音頻文件的大小可以用下式來(lái)計(jì)算:

文件大小(B)=采樣頻率(Hz)×錄音時(shí)間(s)×

×通道數(shù)(單聲道為1,立體聲為2)6.1音頻壓縮編碼的原理6.1.2感知音頻編碼原理

一旦涉及音頻壓縮,就必須涉及感知音頻編碼原理,任何數(shù)據(jù)壓縮系統(tǒng)的目的都是降低數(shù)據(jù)傳輸速率,那么,降低采樣頻率和量化比特?cái)?shù)就成了行之有效的方法。6.1.3頻域編/解碼器原理

頻域編碼器的工作機(jī)理如下:

(1)采用濾波和FFT變換,可在頻域內(nèi)將其能量較小的分量忽略,從而實(shí)現(xiàn)降低比特率。

(2)利用人耳聽(tīng)覺(jué)的掩蔽效應(yīng),在滿足一定量化噪聲的前提下壓縮數(shù)碼率。數(shù)字音頻編碼以感知音頻編碼原理為基礎(chǔ),采用了兩種頻率編碼器,即子帶編碼器和變換編碼器。其中,子帶編碼器采用為數(shù)不多的子帶,處理時(shí)間上相鄰的取樣值,而變換編碼器使用很多頻率上相鄰的取樣值。因?yàn)榫幋a器性能的差別主要在算法,在編碼器中用到的所有變換都可以看做濾波器組,這樣,子帶編碼和變換編碼都可以采用如圖6.1所示的原理框圖。圖6.1頻率解碼器的基本結(jié)構(gòu)

1.子帶編碼

圖6.2是子帶編碼器的原理圖。圖6.2子帶編碼器的原理圖為了對(duì)子帶編碼有更進(jìn)一步的理解,圖6.3給出了一個(gè)子帶編碼器的編碼實(shí)例圖。圖6.3子帶編碼的編碼實(shí)例圖最后,必須給每個(gè)子帶分配足夠的位數(shù)來(lái)保證量化的噪聲處于掩蔽閾值以下。在每一個(gè)子帶的量化噪聲低于掩蔽閾值的條件下,由信號(hào)掩蔽比(SignalMaskingRatio,SMR),即信號(hào)最大值與掩蔽閾值之間的差值,決定分配給子帶的比特位數(shù)。比特分配實(shí)例如圖6.4所示。圖6.4比特分配實(shí)例圖通過(guò)以上的分析總結(jié)出使用子帶編碼具有以下優(yōu)點(diǎn):

(1)對(duì)信號(hào)進(jìn)行分帶可以去除信號(hào)之間的相關(guān)性,得到一組互不相關(guān)的信號(hào),從而可以獨(dú)立地進(jìn)行量化編碼。

(2)由于音頻和語(yǔ)音信號(hào)的頻譜為非平坦的,通過(guò)對(duì)語(yǔ)音的不同子帶分配不同的比特?cái)?shù),就可以控制各個(gè)子帶相應(yīng)的量化電平和量化誤差,從而使編碼速率與信號(hào)的信源統(tǒng)計(jì)分布實(shí)現(xiàn)更精確的匹配。誤差譜的形狀更加適合人耳的聽(tīng)覺(jué)特性,所以得到了更好的主觀聽(tīng)覺(jué)質(zhì)量。對(duì)低頻段用較多的比特?cái)?shù)來(lái)表示樣值,而對(duì)高頻段則用較少的比特?cái)?shù)來(lái)表示。

(3)子帶編碼中各個(gè)子帶內(nèi)的量化噪聲相互獨(dú)立,從而避免了輸入電平較低的子帶信號(hào)被其他子帶的量化噪聲所淹沒(méi)。

2.變換編碼

變換編碼對(duì)頻率系數(shù)編碼,時(shí)域取樣變化到頻域產(chǎn)生頻譜系數(shù),對(duì)頻譜系數(shù)進(jìn)行量化,來(lái)實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)的有效壓縮。在變換編碼中,時(shí)域窗口長(zhǎng)度的選擇要考慮兩個(gè)因素:

一個(gè)是時(shí)間分辨率;另一個(gè)是頻率分辨率。例如對(duì)采樣頻率為44.1kHz的PCM樣值進(jìn)行離散余弦變換,每512個(gè)樣值為一塊,則計(jì)算如下:

采樣頻率為44.1kHz,樣值的周期為0.0227ms,窗口長(zhǎng)度為512×0.0227=11.62ms;頻率分辨率Δf對(duì)應(yīng)的頻率為44100÷2÷512=

43.07Hz,Δf越小,頻率分辨率越大;

時(shí)間分辨率Δt對(duì)應(yīng)的時(shí)間為1÷43.07=23.22ms,Δt越小,頻率分辨率越大;

如果采用每256個(gè)樣值為一塊,則采樣頻率為44.1kHz,樣值的周期為0.0227ms,

窗口長(zhǎng)度為256×0.0227=5.81ms;

頻率分辨率為

時(shí)間分辨率為自適應(yīng)變換編碼原理框圖如圖6.5所示。圖6.5自適應(yīng)變換編碼

1.MPEG-1標(biāo)準(zhǔn)

1)MPEG-1標(biāo)準(zhǔn)規(guī)定

MPEG-1的全稱為CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5Mb/s,即達(dá)到1.5Mb/s的數(shù)字存儲(chǔ)媒體所用的運(yùn)動(dòng)圖像及其相關(guān)聲音編碼。MPEG-1分為五部分,其中,系統(tǒng)、圖像和聲音三部分于1993年通過(guò)并成為標(biāo)準(zhǔn),一致性測(cè)試部分于1995年通過(guò),第五部分軟件仿真為技術(shù)報(bào)告。6.2MPEG音頻壓縮編碼標(biāo)準(zhǔn)概述

2)MPEG-1音頻編碼標(biāo)準(zhǔn)的特點(diǎn)和應(yīng)用

MPEG-1音頻編碼標(biāo)準(zhǔn)提供了3個(gè)壓縮層次,分別描述如下:

第一層(LayerⅠ),它是一種聽(tīng)覺(jué)心理聲學(xué)模型下的亞抽樣編碼,算法簡(jiǎn)單,應(yīng)用于數(shù)字小型盒式磁帶(DigitalCompactCassette,DCC)記錄系統(tǒng);

第二層(LayerⅡ),比第一層加入了更高的精度,編碼器的復(fù)雜程度中等,應(yīng)用于數(shù)字音頻廣播、CD-ROM、CD-I和VCD等;

第三層(LayerⅢ),是現(xiàn)在流行的MP3音樂(lè)格式,加入了非線性量化、霍夫曼編碼和其他實(shí)現(xiàn)低速率高保真音質(zhì)的先進(jìn)技術(shù),它可以把一個(gè)1.4Mb/s的立體聲雙通道數(shù)據(jù)流壓縮為32~384kb/s且保持高保真的音質(zhì)。依次下去的等級(jí)提供更高的質(zhì)量和越來(lái)越高的壓縮率,但要求計(jì)算機(jī)有越來(lái)越高的壓縮計(jì)算能力。

2.MPEG-2標(biāo)準(zhǔn)

1)MPEG-2標(biāo)準(zhǔn)規(guī)定

MPEG-2音頻是在1994年11月為數(shù)字電視而提出的,其發(fā)展分為三個(gè)階段:

第一階段是對(duì)MPEG-1增加了低采樣頻率,有16kHz、22.05kHz及24kHz。

第二階段是對(duì)MPEG-1實(shí)施了向后兼容的多聲道擴(kuò)展,將其稱為MPEG-2BC(ISO/IEC13818-3BackwardCompatible)。支持單聲道、雙聲道和多聲道編碼,并附加“低頻加重”擴(kuò)展聲道,從而達(dá)到5聲道編碼。

第三階段是后向不兼容,即不能被MPEG-1音頻解碼器譯碼,將其稱為MPEG-2AAC先進(jìn)音頻編碼。采樣頻率可低至8kHz,而高至96kHz范圍內(nèi)的1~48個(gè)通道可選高音質(zhì)音頻編碼。

2)MPEG-2的特點(diǎn)和應(yīng)用

(1)MPEG-2BC分為三層,相應(yīng)能達(dá)到的比特率分別為:LayerⅠ為32~256kb/s,LayerⅡ和LayerⅢ為8~160kb/s,主要適用于數(shù)據(jù)比特率從8kb/s的單聲道電話的音

質(zhì)到160kb/s的多聲道高質(zhì)量的音質(zhì)。

(2)兼容性強(qiáng)。

(3)MPEG-2AAC采用了與MPEG-1LayerⅢ同樣的基本編碼模式,僅在一些細(xì)節(jié)上增加了新的編碼工具。

3.MPEG-4標(biāo)準(zhǔn)

MPEG-4標(biāo)準(zhǔn)力求做到兩個(gè)目標(biāo):低比特率下的多媒體通信;它是多工業(yè)的多媒體通信的綜合。

MPEG-4標(biāo)準(zhǔn)的側(cè)重點(diǎn)主要有以下幾種:

(1)同先前的標(biāo)準(zhǔn)不同,MPEG-4將靜止圖像、視頻、音頻等都看做“媒體對(duì)象”,并將它們作為編碼的對(duì)象。對(duì)音頻對(duì)象來(lái)說(shuō),編碼的形式包括文本、合成語(yǔ)音等。

(2)在對(duì)音頻對(duì)象的組合上,MPEG-4允許控制音頻對(duì)象的聲調(diào),增加回音、加重、動(dòng)態(tài)范圍控制等效果。由于將不同的音頻來(lái)源看做不同的音頻對(duì)象,MPEG-4可以制造出原先標(biāo)準(zhǔn)中都難以制造出的音頻效果。比如,在某些電影畫面中,可以將人物對(duì)話、背景聲、舞臺(tái)噪聲看做不同的音頻對(duì)象,甚至可以將不同人物的說(shuō)話看做不同的對(duì)象,這樣可以根據(jù)實(shí)際需要修改人物對(duì)話,甚至情節(jié)。

(3)在碼流的發(fā)布上,MPEG-4提出了一個(gè)類似于FTP(FileTransferProtocol)的發(fā)布體系——多媒體發(fā)送綜合架構(gòu)(DeliveryMultimediaIntegrationFramework,DMIF)。這個(gè)體系架構(gòu)也采用了協(xié)議分層的思想,將多個(gè)基本碼流分接、復(fù)接,并根據(jù)實(shí)際的帶寬情況,實(shí)現(xiàn)QoS(QualityofService)。

(4)除此以外,MPEG-4還增加了對(duì)象描述符,用來(lái)描述對(duì)象的配置信息以及版權(quán)信息。

4.MPEG-7標(biāo)準(zhǔn)

MPEG-7的全稱是多媒體內(nèi)容描述接口(MultimediaContentDescriptionInterface,MCDI),主要是描述多媒體素材內(nèi)容的通用接口的標(biāo)準(zhǔn)化,用于促進(jìn)數(shù)據(jù)元的互操作性、通用性和數(shù)據(jù)管理的靈活性。為了適應(yīng)人們?cè)谝蛱鼐W(wǎng)上快速搜索到所需的內(nèi)容,MPEG-7多媒體接口應(yīng)能支持:

(1)完成人耳聽(tīng)覺(jué)感知需要的內(nèi)容,頻率輪廓線、音色、和聲、頻率特征(音調(diào)、音域)、振幅包絡(luò)、時(shí)間結(jié)構(gòu),即聲音特性(音頭持續(xù)時(shí)間及音尾)、文本內(nèi)容。

(2)數(shù)據(jù)音頻,如CD唱片和MPEG-1音頻格式;模型音頻,如磁帶介質(zhì)、MPEG-4的結(jié)構(gòu)化音頻樂(lè)隊(duì)語(yǔ)言SAOL(StructureAudioOrchestralLanguage)和電子樂(lè)器數(shù)字接口MIDI(MusicInstrumentsDigitalInterface)。

5.MPEG-21標(biāo)準(zhǔn)

MPEG-21的主要研究目標(biāo)是:分析是否需要協(xié)議、標(biāo)準(zhǔn)、技術(shù)等不同的技術(shù)元素有機(jī)地結(jié)合在一起;分析是否需要新的規(guī)范;分析如果具備前面的兩個(gè)條件,如何將不同的標(biāo)準(zhǔn)集成在一起。MPEG-21的范圍可以描述成一些關(guān)鍵技術(shù)的集成,其功能包括:內(nèi)容表示、創(chuàng)建、發(fā)布、消費(fèi)、識(shí)別和描述,知識(shí)產(chǎn)權(quán)管理和保護(hù),財(cái)政管理,用戶的隱私權(quán),中段和網(wǎng)絡(luò)資源的內(nèi)容提取、事件報(bào)告等。用這些技術(shù)可以實(shí)現(xiàn)多媒體資源通過(guò)和訪問(wèn)極大范圍的網(wǎng)絡(luò)和設(shè)備。

1.MPEG-1LayerⅠ

MPEG-1LayerⅠ音頻壓縮編碼器的原理框圖如圖6.6所示。6.3MPEG-1音頻壓縮編碼的基本原理圖6.6MPEG-1LayerⅠ音頻壓縮編碼器的原理框圖

1) 子帶分析濾波器組

子帶分析濾波器采用的是多相濾波器組,它將輸入的數(shù)字音頻信號(hào)均勻地分成32個(gè)子帶。子帶的頻率寬度Δf為

式中,fs為PCM樣本值的采樣頻率。

當(dāng)fs=48kHz時(shí),

當(dāng)fs=32kHz時(shí),

(6-1)

2)組塊

如果將子帶信號(hào)直接原樣量化,則量化噪聲電平由量化步長(zhǎng)決定,當(dāng)輸入信號(hào)電平低時(shí),噪聲就會(huì)顯現(xiàn)出來(lái),當(dāng)輸入信號(hào)電平高時(shí),量化又過(guò)于緩慢,這對(duì)于提高信噪比沒(méi)有大的幫助??紤]到人耳聽(tīng)覺(jué)的時(shí)域掩蔽效應(yīng),將每個(gè)子帶內(nèi)連續(xù)的12個(gè)采樣值歸并成一個(gè)塊,在采樣頻率為48kHz時(shí),這個(gè)塊相當(dāng)于8ms,即12×32÷48=8ms。這樣,在每一個(gè)子帶內(nèi),以8ms為一個(gè)時(shí)間段,對(duì)12個(gè)采樣值并成的塊一起計(jì)算,在每一個(gè)塊中,由于掩蔽效應(yīng)的作用,在后面的比例因子的作用下,可以把量化噪聲限制到有用信號(hào)之下,起到壓縮的目的。

3)確定比例因子

比例因子表如表6.1所示,后面的MPEG-1LayerⅡ中的比例因子的選擇也用此表。另外,在編碼過(guò)程中,比例因子標(biāo)號(hào)用6bit編碼后作為比例因子信息傳送,對(duì)應(yīng)關(guān)系見(jiàn)表6.2。表6.1MPEG-1LayerⅠ、Ⅱ比例因子表6.2MPEG-1LayerⅠ、Ⅱ比例因子6比特編碼碼序

4)FFT分析

由于分析子帶濾波器具有256個(gè)樣點(diǎn)延遲,為了保證用于比特分配的信號(hào)掩蔽比和相應(yīng)子帶樣點(diǎn)在時(shí)間上相符合,進(jìn)入FFT的PCM樣點(diǎn)必須延遲256個(gè)樣點(diǎn),進(jìn)行FFT分析的幀長(zhǎng)為512點(diǎn),且將經(jīng)過(guò)延遲處理的384個(gè)樣點(diǎn)放在中間位置并在左右擴(kuò)展64個(gè)相鄰樣點(diǎn)構(gòu)成一個(gè)FFT幀,其中,Hanning窗為

功率譜x(k)為(6-2)(6-3)

5)心理聲學(xué)模型

心理聲學(xué)模型的輸入是原始的音頻信號(hào),輸出則是各個(gè)子帶的信號(hào)掩蔽比,配合信噪比來(lái)確定量化比特分配,以此來(lái)控制量化過(guò)程。MPEG-1標(biāo)準(zhǔn)建議了兩種決定掩蔽比的心理聲學(xué)模型,即模型1和模型2。

主要包括以下9個(gè)步驟:

(1)進(jìn)行時(shí)域到頻域的映射。采用512點(diǎn)或1024點(diǎn)的快速傅里葉變換(FFT),并加Hanning窗來(lái)減少邊界效應(yīng),利用FFT將時(shí)域數(shù)據(jù)轉(zhuǎn)換到頻域,這樣可以計(jì)算精確的掩蔽閾值。前面已經(jīng)講過(guò),這里不再贅述。

(2)確定最大聲壓級(jí)。在每個(gè)子帶內(nèi)根據(jù)比例因子和頻譜數(shù)據(jù)進(jìn)行計(jì)算。在確定掩蔽閾值時(shí)采用取最大值的方法。對(duì)于每個(gè)子帶計(jì)算相應(yīng)的聲壓級(jí),子帶n中聲壓級(jí)SPL(n)用式(6-4)計(jì)算:

SPL(n)=max[x(k),20lg(scfmax(n)×32768)-10](6-4)

(3)確定安靜閾值。安靜閾值也叫絕對(duì)閾值,也就是人們?cè)诎察o環(huán)境下剛能聽(tīng)到的聲音,形成了最低掩蔽邊界。安靜閾值是根據(jù)大量心理聲學(xué)試驗(yàn)得出的,MPEG-1標(biāo)準(zhǔn)根據(jù)輸入PCM信號(hào)的采樣率不同,制定了“頻率、臨界頻帶比率和絕對(duì)閾值”表,從表中可以查出頻譜的絕對(duì)閾值LTq(k)。當(dāng)比特率大于96kb/s時(shí),還要對(duì)絕對(duì)閾值補(bǔ)償,補(bǔ)償值為-12dB。絕對(duì)域值按下式計(jì)算:

(6-5)

(4)識(shí)別音調(diào)和非音調(diào)成分。由于信號(hào)中的音調(diào)和非音調(diào)成分的掩蔽域值不同,首先要識(shí)別音調(diào)和非音調(diào)成分,然后分別來(lái)進(jìn)行處理。要列出譜線x(k)的有調(diào)和無(wú)調(diào),需執(zhí)行下面三個(gè)步驟:

第一步:標(biāo)明局部最大。若x(k)>x(k-1),且x(k)>x(k+1),則x(k)為局部最大值。

第二步:列出有調(diào)成分和計(jì)算聲壓級(jí)。如果x(k)-x(k+j)≥7dB,則x(k)列為有調(diào)成分。其中j按下面的規(guī)則進(jìn)行選擇:

其中,x(k)列為有調(diào)成分,則還要列出譜線的標(biāo)記k、聲壓級(jí)(6-7)(6-6)第三步:列出無(wú)調(diào)成分,計(jì)算功率。無(wú)調(diào)成分從余留譜線計(jì)算,在每個(gè)臨界頻帶內(nèi)將所有譜線的功率加起來(lái)形成臨界頻帶內(nèi)無(wú)調(diào)成分的聲壓級(jí)xnm(k),并列出下面的參數(shù):最接近臨界頻帶幾何平均值的譜線標(biāo)記k,聲壓級(jí)xnm(k)以及無(wú)調(diào)指示。

(5)掩蔽器抽取。不是所有有調(diào)和無(wú)調(diào)成分都用于掩蔽閾值的計(jì)算,只有在xtm(k)≥LTq(k)或xnm(k)≥LTq(k)時(shí),掩蔽閾值計(jì)算才要考慮有調(diào)或無(wú)調(diào)成分,因此所有不滿足條件的有調(diào)和無(wú)調(diào)指示必須移去。另外在剩下的有調(diào)成分中還需要判斷任意兩個(gè)有調(diào)成分之間距離是否小于0.5Bark,如果是則移去這兩個(gè)有調(diào)成分中較小的一個(gè),這是為了保證在每個(gè)子頻帶內(nèi)頻率響應(yīng)平坦度0.5dB內(nèi)僅有一個(gè)純音信號(hào)。

(6)計(jì)算掩蔽閾值。

計(jì)算樣點(diǎn)掩蔽閾值不是對(duì)所有頻帶內(nèi)頻譜樣點(diǎn)進(jìn)行,而是對(duì)一組樣點(diǎn)進(jìn)行。該組樣點(diǎn)的組成為:對(duì)頭6個(gè)子帶覆蓋的頻域內(nèi)譜線不變;對(duì)接著6個(gè)子帶覆蓋的頻域,每次抽取第2條譜線;對(duì)余留譜線每次抽取第4條譜線,其中對(duì)

32kHz采樣率抽取到15kHz結(jié)束,對(duì)44.1kHz和48kHz抽取到20kHz為止。音調(diào)和非音調(diào)各自的掩蔽閾值由下列表達(dá)式求出:

LTtm[Z(j),Z(i)]=Xtm[Z(j)]+AVtm[Z(j)]+VF[Z(j),Z(i)]

(6-8)

LTnm[Z(j),Z(i)]=Xnm[Z(j)]+AVnm[Z(j)]+VF[Z(j),Z(i)]

(6-9)

AV值為

對(duì)于有調(diào)掩蔽器

AVtm[Z(j)]=-1.525-0.275×Z(j)-4.5dB(6-10)

對(duì)于無(wú)調(diào)掩蔽器

AVnm[Z(j)]=-1.525-0.175×Z(j)-0.5dB(6-11)掩蔽器的掩蔽函數(shù)VF對(duì)有調(diào)和無(wú)調(diào)掩蔽器是相同的,它具有不同的上、下端斜率,隨著到掩蔽器的距離dz=z(i)-z(j)變化,掩蔽函數(shù)值為

VF=17×(dz+1)-(0.4×X[z(j)]+6)(-3≤dz<-1)(6-12)

VF=(0.4×X[z(j)]+6)×dz(-1≤dz<0)

(6-13)VF=17×dz(0≤dz<1)

(6-14)VF=-(dz-1)×(17-0.15×X[z(j)])-17(1≤dz<8)

(6-15)

(7)計(jì)算總掩蔽閾值。第i個(gè)頻率樣點(diǎn)的總掩蔽閾值LTg(i)等于所有有調(diào)和無(wú)調(diào)成分在該樣點(diǎn)上單獨(dú)掩蔽閾值的功率總和加上安靜閾值功率得到。公式描述如下:

(6-16)

(8)確定最小掩蔽域值。子帶n中最小掩蔽閾值LTmin(n)由下式?jīng)Q定:

LTmin(n)=min(LTg(i))dB(6-17)

(9)計(jì)算信號(hào)掩蔽比(SignalMaskingRatio,SMR)。子帶信號(hào)中的聲壓級(jí)和最小掩蔽閾值之間的差異決定了每個(gè)子帶的SMR值(見(jiàn)下式),這個(gè)值將用于比特分配。

SMR(n)=SPL(n)-LTmin(n)dB(6-18)

6)比特分配

為了同時(shí)滿足數(shù)碼率和掩蔽特性的要求,比特分配器應(yīng)同時(shí)考慮來(lái)自分析濾波器組的輸出樣值以及來(lái)自心理聲學(xué)模型的信號(hào)掩蔽比,來(lái)決定分配給各個(gè)子帶信號(hào)的量化比特?cái)?shù),使量化噪聲低于掩蔽閾值,以便于在規(guī)定比特率下盡可能滿足心理聲學(xué)要求,即計(jì)算每個(gè)子帶的SMR,以決定分配給每個(gè)子帶的比特?cái)?shù)n,使得它滿足下式:

(6-19)在調(diào)整比特率之前要先確定用于一幀子帶樣點(diǎn)和比例因子編碼的比特?cái)?shù)用adb來(lái)表示,可以由下式來(lái)確定:

adb=bt-(bhdr+bcrc+bbal+banc)(6-20)分配過(guò)程是一個(gè)迭代過(guò)程,其中每迭代一步子帶樣點(diǎn)的級(jí)數(shù)相應(yīng)增加。首先計(jì)算各個(gè)子帶的掩蔽噪聲比(MNR),它是信號(hào)噪聲比(SignalNoiseRatio,SNR)減去信號(hào)掩蔽比,即

MNR=SNR-SMR(6-21)

SNR可以由以下公式計(jì)算得到:

SNR=6.02n+1.76(6-22)其中,n為量化所需的比特?cái)?shù),SMR為心理聲學(xué)模型輸出,并置各子帶樣點(diǎn)比特?cái)?shù)bsp1和比例因子比特?cái)?shù)為零。其次開(kāi)始進(jìn)行如下迭代過(guò)程:

(1)對(duì)所有子帶定出最小MNR。

(2)對(duì)最小MNR的子帶,其量化比特?cái)?shù)增加一級(jí)。

(3)計(jì)算該子帶新的MNR。

(4)樣點(diǎn)比特?cái)?shù)bsp1隨之更新。開(kāi)始時(shí),如果一個(gè)非零比特?cái)?shù)分配給子帶,其相應(yīng)比例因子比特?cái)?shù)bscf必須增加6bit,然后用下面的公式計(jì)算剩下的adb,即

adb=bt-(bhdr+bcrc+bbal+banc+bscf+bsp1)(6-23)

(5)重復(fù)該循環(huán),直到adb不小于bscf和bsp1的任何可能增加。

7)線性量化編碼

子帶樣點(diǎn)的量化采用具有中平型的線性量化器,以防止圍繞零變化的微小值量化為不同級(jí)。各個(gè)子帶樣點(diǎn)先歸一化,將其除以比例因子得到X,然后根據(jù)下面的步驟進(jìn)行量化:

(1)計(jì)算AX+B,其中A、B值從“量化系數(shù)”表(即表6.3)中查尋。

(2)取該值最有效的N位,N表示用于該樣點(diǎn)的編碼比特?cái)?shù)。

(3)最高位取反,以避免出現(xiàn)全“1”代碼。表6.3層1量化系數(shù)

8)幀結(jié)構(gòu)

將量化后的采樣值和格式標(biāo)記以及其他附加輔助數(shù)據(jù)按照規(guī)定的幀格式組裝成比特?cái)?shù)據(jù)流。MPEG-1LayerⅠ的音頻碼流的數(shù)據(jù)幀格式如圖6.7所示。圖6.7MPEG-1LayerⅠ音頻流的數(shù)據(jù)幀結(jié)構(gòu)圖

2.MPEG-1LayerⅡ編碼的基本原理

從本質(zhì)上來(lái)說(shuō),MPEG-1LayerⅡ的編碼與原始的MUSICAM標(biāo)準(zhǔn)是相同的,但是在設(shè)計(jì)上要復(fù)雜一些。它是以稍高的代價(jià)、在合適的數(shù)據(jù)傳輸速率下得到很高的保真度為目的的。

MPEG-1LayerⅡ?qū)拥木幋a原理框圖如圖6.8所示,編碼算法的流程圖如圖6.9所示。圖6.8MPEG-1LayerⅡ音頻壓縮編碼器的原理框圖圖6.9MPEG-1LayerⅡ編碼算法的流程圖從原理框圖可以看出,MPEG-1LayerⅡ和MPEG-1LayerⅠ有如下不同:

(1)MPEG-1LayerⅡ使用1024點(diǎn)的FFT運(yùn)算,提高了頻率的分辨率,可以實(shí)現(xiàn)盡可能低的數(shù)碼率,得到原信號(hào)更準(zhǔn)確的瞬時(shí)頻譜特性,以便更好地計(jì)算心理聲學(xué)模型。

(2)MPEG-1LayerⅡ中有塊形成,與LayerⅠ對(duì)每個(gè)子帶由12個(gè)采樣值組成一塊的編碼不同,LayerⅡ?qū)σ粋€(gè)子帶的3個(gè)塊進(jìn)行編碼,其中每塊有12個(gè)采樣值,每幀包含1152個(gè)采樣值的碼字。

(3)描述比特分配的字段長(zhǎng)度隨子帶的不同而不同。低頻段子帶用4bit來(lái)描述,中頻段子帶用3bit來(lái)描述,高頻段子帶用2bit來(lái)描述。這種因頻率不同而比特率不一樣的做法也是臨界頻帶的應(yīng)用。

(4)最大的不同是MPEG-1LayerⅡ有比例因子的選擇信息(ScaleFactorSelectionInformation,SCFSI)。具體傳送比例因子的情況見(jiàn)表6.4。表6.4比例因子的傳送情況所以,MPEG-1LayerⅡ的音頻碼流的數(shù)據(jù)幀格式如圖6.10所示。圖6.10MPEG-1LayerⅡ音頻碼流的數(shù)據(jù)幀格式圖另外,在子帶樣值量化和編碼中的A、B值可從“量化系數(shù)”表中查得,MPEG-1LayerⅡ和MPEG-1LayerⅠ的量化系數(shù)表不同。

MPEG-1LayerⅡ的量化系數(shù)表如表6.5所示。表6.5MPEG-1LayerⅡ的量化系數(shù)表

3.MPEG-1LayerⅢ編碼器

1)MPEG-1LayerⅢ編碼器原理

MPEG-1LayerⅢ也就是大家所熟悉的MP3,數(shù)字音頻經(jīng)過(guò)MP3壓縮方式的處理,能增加更多的存儲(chǔ)空間。MPEG-1LayerⅢ的音頻編碼基本原理框圖如圖6.11所示。圖6.11MPEG1-LayerⅢ音頻壓縮編碼器的原理框圖輸入的數(shù)字音頻信號(hào)即PCM采樣信號(hào)進(jìn)入子帶濾波器組后,被分成32個(gè)子帶信號(hào),每個(gè)子帶含有3個(gè)塊,每個(gè)塊具有12個(gè)樣本值,共1152個(gè)采樣點(diǎn),改進(jìn)的離散余弦變換(ModifiedDiscreteCosineTransform,MDCT)把子帶的輸出在頻率里進(jìn)一步地分成18個(gè)頻線,這樣共產(chǎn)生576個(gè)頻線,然后利用心理聲學(xué)模型計(jì)算出子帶信號(hào)的掩蔽比,根據(jù)這些掩蔽比決定分配給576個(gè)頻線的比特?cái)?shù),分別對(duì)它們進(jìn)行比特分配和可變步長(zhǎng)量化,量化后的樣值再經(jīng)過(guò)無(wú)失真的霍夫曼編碼,以提高編碼效率,并與比特分配和量化產(chǎn)生的邊信息一起組成一幀數(shù)據(jù)。

MP3編碼的一幀數(shù)據(jù)包括兩個(gè)組,每組有576個(gè)頻線和與它們相關(guān)的邊信息,邊信息被存儲(chǔ)在每一幀的幀頭中,對(duì)這樣一幀一幀組成的比特流,MP3解碼器可以獨(dú)立進(jìn)行解碼,而不需要額外的信息。表6.6MPEG-3LayerⅢ在各種音質(zhì)下的性能

2)MPEG-1LayerⅢ中所涉及的關(guān)鍵技術(shù)

(1)多相/MDCT混合濾波器組。

(2)自適應(yīng)窗口選擇技術(shù)。

下面解釋各窗口類型的功能:

①長(zhǎng)窗:用于穩(wěn)定信號(hào)的正常窗口類型,表達(dá)式如式(6-15)所示,則

②短窗:短窗基本上和長(zhǎng)窗具有相同的形狀,只是長(zhǎng)度是長(zhǎng)窗的1/3。它跟隨著一個(gè)1/3的MDCT,即

③開(kāi)始窗:為了在長(zhǎng)窗和短窗之間進(jìn)行切換,使用混合窗,即它的左邊和長(zhǎng)窗類型的左邊具有相同的形狀;右邊的1/3長(zhǎng)度的幅度是1,1/3和短窗的右邊具有相同的形狀,剩余的1/3是0。因此,與后面的短窗部分重疊可保證混疊抵消。則

④結(jié)束窗:這種類型窗把短窗切換回正常窗,其形狀與開(kāi)始窗鏡像,即

用Matlab實(shí)現(xiàn)幾種不同的窗口類型,其窗函數(shù)圖如圖6.12所示。圖6.12各種類型的窗函數(shù)圖采用自適應(yīng)窗口切換技術(shù)可以很好地在編碼效率和編碼質(zhì)量之間取得折中,其代價(jià)是增加算法的復(fù)雜度。MP3編碼標(biāo)準(zhǔn)中采用這種技術(shù),只在需要抑制前回聲時(shí)才使用短窗,而在平時(shí)則使用長(zhǎng)窗。由長(zhǎng)窗切換到短窗時(shí),必須插入一個(gè)起始窗;由短窗切換到長(zhǎng)窗時(shí),必須插入一個(gè)終止窗,其切換規(guī)則如圖6.13所示。圖6.13各種類型的窗函數(shù)切換圖

(3)霍夫曼編碼?;舴蚵幋a是統(tǒng)計(jì)編碼的一種,可以在不降低信號(hào)質(zhì)量的前提下,將傳輸每個(gè)樣值所需要的平均碼長(zhǎng)降到最低,具體方式是先把聲音信號(hào)的幅值按出現(xiàn)概率由大到小的順序排列,然后按相反的順序分配碼字的長(zhǎng)度。碼字是按以下步驟形成的:

①將消息按其概率由大到小排列;

②把兩個(gè)最小的概率概括出來(lái),并分別配給“0”和“1”;

③將兩個(gè)最小概率相加變成一個(gè)概率,再和其他概率一起由大到小排列;④重復(fù)步驟(2)、(3),直到所有概率都被相加處理完為止;

⑤對(duì)于每個(gè)消息都沿其處理的路徑,按照從右到左的順序,將所配給的符號(hào)序列作為其代碼。

例:聲音信號(hào)幅度符號(hào)xi出現(xiàn)的概率為Pi,出現(xiàn)的概率從大到小的順序?yàn)閺纳鲜鼍幋a結(jié)果可看出nL是可變字長(zhǎng),則平均字長(zhǎng)N為

N=∑PinL

=0.3×2+0.22×2+0.20×2+0.1×3+0.08×4+0.05×5

+0.03×6+0.02×6

=2.61bit/碼長(zhǎng)

(4)比特池技術(shù)。采用了彈性比特存儲(chǔ)技術(shù)之后,MP3的幀結(jié)構(gòu)就不同于一般數(shù)據(jù)流的幀結(jié)構(gòu)了。彈性比特存儲(chǔ)技術(shù)實(shí)際上就是在每幀的主數(shù)據(jù)中以固定的間隔插入同步碼和邊信息,從而以固定比特率的格式實(shí)現(xiàn)可變比特率的編碼。也就是說(shuō),在一般的幀中,每幀的數(shù)據(jù)都是緊接于幀同步碼之后,而MP3幀的主數(shù)據(jù)則有可能先于該幀的同步碼出現(xiàn)。它的幀結(jié)構(gòu)如圖6.14所示。圖6.14MPEG-1LayerⅢ音頻碼流的數(shù)據(jù)幀格式圖

MPEG-2的聲音編碼標(biāo)準(zhǔn)是在MPEG-1的基礎(chǔ)上發(fā)展起來(lái)的多聲道編碼系統(tǒng)。與MPEG-1標(biāo)準(zhǔn)相比,MPEG-2作了如下擴(kuò)充:

(1)增加了16kHz、22.05kHz和24kHz采樣頻率;

(2)擴(kuò)展了編碼器的輸出速率范圍,由32~384kb/s擴(kuò)展到了8~640kb/s;

(3)增加了聲道數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲;

(4)支持線性PCM和DolbyAC-3編碼。6.4MPEG-2音頻編碼原理

1.MPEG-2AAC音頻編碼的基本原理

MPEG-2AAC編碼原理框圖如圖6.15所示,這是一個(gè)AAC編碼的完整框圖,開(kāi)發(fā)MPEG-2AAC標(biāo)準(zhǔn)采用的方法與開(kāi)發(fā)MPEG-1音頻標(biāo)準(zhǔn)采用的方法不同。MPEG-1Audio采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化,而MPEG-2AAC采用的方法是模塊化的方法,把整個(gè)AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC工具對(duì)模塊進(jìn)行定義,但是在實(shí)際應(yīng)用中,并不是所有的功能模塊都是必需的。為了允許在質(zhì)量、存儲(chǔ)器和處理能力需求之間進(jìn)行折中,AAC系統(tǒng)提供了三層框架:主框架、低復(fù)雜度(LC)框架和分級(jí)采樣率(SSR)框架。圖6.15MPEG-2AAC編碼原理框圖2.MPEG-2AAC音頻編碼器模塊的功能

1)心理聲學(xué)模型2

2)增益控制(GainControl)

3)濾波器組(FilterBank)

4)瞬時(shí)噪聲整形TNS(TemporalNoiseShapping)

5)聯(lián)合立體聲編碼

聯(lián)合立體聲編碼(JointStereoCoding)是一種空間編碼技術(shù),其目的是去掉空間的冗余信息。MPEG-2AAC系統(tǒng)包含兩種空間編碼技術(shù):M/S編碼(Middle/SideEncoding)和聲強(qiáng)/耦合(Intensity/Coupling)。M/S編碼使用矩陣運(yùn)算,因此把M/S編碼稱為矩陣立體聲編碼(MatrixedStereoCoding)。由于左右聲道具有相關(guān)性,M/S編碼不傳送左右聲道信號(hào),而是使用標(biāo)準(zhǔn)化的“和”信號(hào)和“差”信號(hào),前者用于中央M(Middle)聲道,后者用于邊S(Side)聲道,來(lái)代替原來(lái)的左、右聲道,因此M/S編碼也叫做“和/差編碼”(Sum-differenceCoding)。在編碼時(shí),不是每個(gè)頻帶都需要用M/S編碼,只是左右聲道相關(guān)性較強(qiáng)的子帶采用M/S編碼。標(biāo)準(zhǔn)對(duì)每個(gè)子帶分別使用M/S編碼和L/R編碼兩種方法進(jìn)行了量化和編碼,再根據(jù)兩者中使用比特?cái)?shù)較小的方法來(lái)決定是否使用M/S編碼。聲強(qiáng)/耦合編碼的名稱也很多,如聲強(qiáng)立體聲編碼(IntensityStereoCoding)、聲道耦合編碼(ChannelCouplingCoding)等,它們探索的基本問(wèn)題是聲道間的不相關(guān)性(Irrelevance)。人耳聽(tīng)覺(jué)系統(tǒng)在聽(tīng)4kHz以上的信號(hào)時(shí),雙耳的定位對(duì)左右聲道的強(qiáng)度差比較敏感,而對(duì)相位差不敏感。聲強(qiáng)/耦合就利用這一原理,在某個(gè)頻帶以上的各子帶使用左聲道代表兩個(gè)聲道的聯(lián)合強(qiáng)度,右聲道的譜線置為零,不再參與量化和編碼。做法為:將左右聲道之頻譜值相加,再乘上一個(gè)調(diào)整因子,最后將新的頻譜系數(shù)送出。如下式所示:

6)預(yù)測(cè)(Predication)

在信號(hào)較平穩(wěn)的情況下,利用時(shí)域預(yù)測(cè)可進(jìn)一步減小信號(hào)的冗余度,在AAC編碼器中預(yù)測(cè)是利用前面兩幀的頻譜來(lái)預(yù)測(cè)當(dāng)前幀的頻譜,再求預(yù)測(cè)的殘差,然后對(duì)殘差進(jìn)行編碼。預(yù)測(cè)使用經(jīng)過(guò)量化后重建的頻譜信號(hào),具體步驟如下:

(1)使用前兩幀的重建頻譜信號(hào)預(yù)測(cè)當(dāng)前幀的頻譜。

(2)將當(dāng)前頻譜與預(yù)測(cè)頻譜相減得到殘差信號(hào)。

(3)對(duì)殘差信號(hào)量化。

(4)對(duì)殘差信號(hào)反量化,利用預(yù)測(cè)殘差和預(yù)測(cè)值重建當(dāng)前幀頻譜信號(hào)。

(5)更新預(yù)測(cè)器。

7)量化器(Quantizer)

上述5個(gè)模塊都可以達(dá)到數(shù)據(jù)壓縮的目的,然而主要壓縮工作是在量化與編碼階段完成的。

8)無(wú)噪聲編碼(NoiselessCoding)

無(wú)噪聲動(dòng)態(tài)范圍壓縮應(yīng)用在Huffman編碼前。在量化系數(shù)矩陣前可以放置±1作為基值偏差,標(biāo)示頻率位置,僅應(yīng)用于有足夠存儲(chǔ)空間時(shí)。此編碼最多有4種系數(shù)輸入。

9)多比特轉(zhuǎn)換(BitstreamMultiplexing)

AAC可以單純地傳送原始數(shù)據(jù),也可利用先進(jìn)的聲音轉(zhuǎn)換邏輯傳送。

3.MPEG-2AAC解碼流程

MPEG-2AAC(MainProfile)的解碼流程如圖6.16所示。解包模塊從原始AAC碼流中分離出數(shù)據(jù)和控制信息提供給各個(gè)相關(guān)工具;無(wú)噪聲解碼模塊利用霍夫曼碼本將頻譜的編碼數(shù)據(jù)變換成量化數(shù)據(jù);編碼端把每幀1024條譜線分成若干區(qū),每個(gè)區(qū)由一種碼本編碼,解碼端所需的碼本和分區(qū)信息從控制信息中的編碼分區(qū)數(shù)據(jù)中獲得。圖6.16MPEG-2AAC(MainProfile)解碼器

AAC是個(gè)大家族,目前已經(jīng)制定了如表6.7所示的幾種規(guī)格,以適應(yīng)不同場(chǎng)合的需要。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論