《語(yǔ)音與音頻編碼》課件第6章

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-07-18 格式：PPT 頁(yè)數(shù)：109 大小：2.61MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩104頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

6.1音頻壓縮編碼的原理

6.2MPEG音頻壓縮編碼標(biāo)準(zhǔn)概述

6.3MPEG-1音頻壓縮編碼的基本原理

6.4MPEG-2音頻編碼原理

6.5MPEG-4音頻編碼標(biāo)準(zhǔn)

6.6小結(jié)

習(xí)題六第六章MPEG音頻壓縮編碼6.1.1音頻壓縮編碼的必要性和可能性

音頻文件的大小可以用下式來(lái)計(jì)算：

文件大小(B)=采樣頻率(Hz)×錄音時(shí)間(s)×

×通道數(shù)(單聲道為1，立體聲為2)6.1音頻壓縮編碼的原理6.1.2感知音頻編碼原理

一旦涉及音頻壓縮，就必須涉及感知音頻編碼原理，任何數(shù)據(jù)壓縮系統(tǒng)的目的都是降低數(shù)據(jù)傳輸速率，那么，降低采樣頻率和量化比特?cái)?shù)就成了行之有效的方法。6.1.3頻域編/解碼器原理

頻域編碼器的工作機(jī)理如下：

(1)采用濾波和FFT變換，可在頻域內(nèi)將其能量較小的分量忽略，從而實(shí)現(xiàn)降低比特率。

(2)利用人耳聽(tīng)覺(jué)的掩蔽效應(yīng)，在滿足一定量化噪聲的前提下壓縮數(shù)碼率。數(shù)字音頻編碼以感知音頻編碼原理為基礎(chǔ)，采用了兩種頻率編碼器，即子帶編碼器和變換編碼器。其中，子帶編碼器采用為數(shù)不多的子帶，處理時(shí)間上相鄰的取樣值，而變換編碼器使用很多頻率上相鄰的取樣值。因?yàn)榫幋a器性能的差別主要在算法，在編碼器中用到的所有變換都可以看做濾波器組，這樣，子帶編碼和變換編碼都可以采用如圖6.1所示的原理框圖。圖6.1頻率解碼器的基本結(jié)構(gòu)

1.子帶編碼

圖6.2是子帶編碼器的原理圖。圖6.2子帶編碼器的原理圖為了對(duì)子帶編碼有更進(jìn)一步的理解，圖6.3給出了一個(gè)子帶編碼器的編碼實(shí)例圖。圖6.3子帶編碼的編碼實(shí)例圖最后，必須給每個(gè)子帶分配足夠的位數(shù)來(lái)保證量化的噪聲處于掩蔽閾值以下。在每一個(gè)子帶的量化噪聲低于掩蔽閾值的條件下，由信號(hào)掩蔽比(SignalMaskingRatio，SMR)，即信號(hào)最大值與掩蔽閾值之間的差值，決定分配給子帶的比特位數(shù)。比特分配實(shí)例如圖6.4所示。圖6.4比特分配實(shí)例圖通過(guò)以上的分析總結(jié)出使用子帶編碼具有以下優(yōu)點(diǎn)：

(1)對(duì)信號(hào)進(jìn)行分帶可以去除信號(hào)之間的相關(guān)性，得到一組互不相關(guān)的信號(hào)，從而可以獨(dú)立地進(jìn)行量化編碼。

(2)由于音頻和語(yǔ)音信號(hào)的頻譜為非平坦的，通過(guò)對(duì)語(yǔ)音的不同子帶分配不同的比特?cái)?shù)，就可以控制各個(gè)子帶相應(yīng)的量化電平和量化誤差，從而使編碼速率與信號(hào)的信源統(tǒng)計(jì)分布實(shí)現(xiàn)更精確的匹配。誤差譜的形狀更加適合人耳的聽(tīng)覺(jué)特性，所以得到了更好的主觀聽(tīng)覺(jué)質(zhì)量。對(duì)低頻段用較多的比特?cái)?shù)來(lái)表示樣值，而對(duì)高頻段則用較少的比特?cái)?shù)來(lái)表示。

(3)子帶編碼中各個(gè)子帶內(nèi)的量化噪聲相互獨(dú)立，從而避免了輸入電平較低的子帶信號(hào)被其他子帶的量化噪聲所淹沒(méi)。

2.變換編碼

變換編碼對(duì)頻率系數(shù)編碼，時(shí)域取樣變化到頻域產(chǎn)生頻譜系數(shù)，對(duì)頻譜系數(shù)進(jìn)行量化，來(lái)實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)的有效壓縮。在變換編碼中，時(shí)域窗口長(zhǎng)度的選擇要考慮兩個(gè)因素：

一個(gè)是時(shí)間分辨率；另一個(gè)是頻率分辨率。例如對(duì)采樣頻率為44.1kHz的PCM樣值進(jìn)行離散余弦變換，每512個(gè)樣值為一塊，則計(jì)算如下：

采樣頻率為44.1kHz，樣值的周期為0.0227ms，窗口長(zhǎng)度為512×0.0227＝11.62ms；頻率分辨率Δf對(duì)應(yīng)的頻率為44100÷2÷512=

43.07Hz，Δf越小，頻率分辨率越大；

時(shí)間分辨率Δt對(duì)應(yīng)的時(shí)間為1÷43.07＝23.22ms，Δt越小，頻率分辨率越大；

如果采用每256個(gè)樣值為一塊，則采樣頻率為44.1kHz，樣值的周期為0.0227ms，

窗口長(zhǎng)度為256×0.0227＝5.81ms；

頻率分辨率為

時(shí)間分辨率為自適應(yīng)變換編碼原理框圖如圖6.5所示。圖6.5自適應(yīng)變換編碼

1.MPEG-1標(biāo)準(zhǔn)

1)MPEG-1標(biāo)準(zhǔn)規(guī)定

MPEG-1的全稱為CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5Mb/s，即達(dá)到1.5Mb/s的數(shù)字存儲(chǔ)媒體所用的運(yùn)動(dòng)圖像及其相關(guān)聲音編碼。MPEG-1分為五部分，其中，系統(tǒng)、圖像和聲音三部分于1993年通過(guò)并成為標(biāo)準(zhǔn)，一致性測(cè)試部分于1995年通過(guò)，第五部分軟件仿真為技術(shù)報(bào)告。6.2MPEG音頻壓縮編碼標(biāo)準(zhǔn)概述

2)MPEG-1音頻編碼標(biāo)準(zhǔn)的特點(diǎn)和應(yīng)用

MPEG-1音頻編碼標(biāo)準(zhǔn)提供了3個(gè)壓縮層次，分別描述如下：

第一層(LayerⅠ)，它是一種聽(tīng)覺(jué)心理聲學(xué)模型下的亞抽樣編碼，算法簡(jiǎn)單，應(yīng)用于數(shù)字小型盒式磁帶(DigitalCompactCassette，DCC)記錄系統(tǒng)；

第二層(LayerⅡ)，比第一層加入了更高的精度，編碼器的復(fù)雜程度中等，應(yīng)用于數(shù)字音頻廣播、CD-ROM、CD-I和VCD等；

第三層(LayerⅢ)，是現(xiàn)在流行的MP3音樂(lè)格式，加入了非線性量化、霍夫曼編碼和其他實(shí)現(xiàn)低速率高保真音質(zhì)的先進(jìn)技術(shù)，它可以把一個(gè)1.4Mb/s的立體聲雙通道數(shù)據(jù)流壓縮為32～384kb/s且保持高保真的音質(zhì)。依次下去的等級(jí)提供更高的質(zhì)量和越來(lái)越高的壓縮率，但要求計(jì)算機(jī)有越來(lái)越高的壓縮計(jì)算能力。

2.MPEG-2標(biāo)準(zhǔn)

1)MPEG-2標(biāo)準(zhǔn)規(guī)定

MPEG-2音頻是在1994年11月為數(shù)字電視而提出的，其發(fā)展分為三個(gè)階段：

第一階段是對(duì)MPEG-1增加了低采樣頻率，有16kHz、22.05kHz及24kHz。

第二階段是對(duì)MPEG-1實(shí)施了向后兼容的多聲道擴(kuò)展，將其稱為MPEG-2BC(ISO/IEC13818-3BackwardCompatible)。支持單聲道、雙聲道和多聲道編碼，并附加“低頻加重”擴(kuò)展聲道，從而達(dá)到5聲道編碼。

第三階段是后向不兼容，即不能被MPEG-1音頻解碼器譯碼，將其稱為MPEG-2AAC先進(jìn)音頻編碼。采樣頻率可低至8kHz，而高至96kHz范圍內(nèi)的1～48個(gè)通道可選高音質(zhì)音頻編碼。

2)MPEG-2的特點(diǎn)和應(yīng)用

(1)MPEG-2BC分為三層，相應(yīng)能達(dá)到的比特率分別為：LayerⅠ為32～256kb/s，LayerⅡ和LayerⅢ為8～160kb/s，主要適用于數(shù)據(jù)比特率從8kb/s的單聲道電話的音

質(zhì)到160kb/s的多聲道高質(zhì)量的音質(zhì)。

(2)兼容性強(qiáng)。

(3)MPEG-2AAC采用了與MPEG-1LayerⅢ同樣的基本編碼模式，僅在一些細(xì)節(jié)上增加了新的編碼工具。

3.MPEG-4標(biāo)準(zhǔn)

MPEG-4標(biāo)準(zhǔn)力求做到兩個(gè)目標(biāo)：低比特率下的多媒體通信；它是多工業(yè)的多媒體通信的綜合。

MPEG-4標(biāo)準(zhǔn)的側(cè)重點(diǎn)主要有以下幾種：

(1)同先前的標(biāo)準(zhǔn)不同，MPEG-4將靜止圖像、視頻、音頻等都看做“媒體對(duì)象”，并將它們作為編碼的對(duì)象。對(duì)音頻對(duì)象來(lái)說(shuō)，編碼的形式包括文本、合成語(yǔ)音等。

(2)在對(duì)音頻對(duì)象的組合上，MPEG-4允許控制音頻對(duì)象的聲調(diào)，增加回音、加重、動(dòng)態(tài)范圍控制等效果。由于將不同的音頻來(lái)源看做不同的音頻對(duì)象，MPEG-4可以制造出原先標(biāo)準(zhǔn)中都難以制造出的音頻效果。比如，在某些電影畫面中，可以將人物對(duì)話、背景聲、舞臺(tái)噪聲看做不同的音頻對(duì)象，甚至可以將不同人物的說(shuō)話看做不同的對(duì)象，這樣可以根據(jù)實(shí)際需要修改人物對(duì)話，甚至情節(jié)。

(3)在碼流的發(fā)布上，MPEG-4提出了一個(gè)類似于FTP(FileTransferProtocol)的發(fā)布體系——多媒體發(fā)送綜合架構(gòu)(DeliveryMultimediaIntegrationFramework，DMIF)。這個(gè)體系架構(gòu)也采用了協(xié)議分層的思想，將多個(gè)基本碼流分接、復(fù)接，并根據(jù)實(shí)際的帶寬情況，實(shí)現(xiàn)QoS(QualityofService)。

(4)除此以外，MPEG-4還增加了對(duì)象描述符，用來(lái)描述對(duì)象的配置信息以及版權(quán)信息。

4.MPEG-7標(biāo)準(zhǔn)

MPEG-7的全稱是多媒體內(nèi)容描述接口(MultimediaContentDescriptionInterface，MCDI)，主要是描述多媒體素材內(nèi)容的通用接口的標(biāo)準(zhǔn)化，用于促進(jìn)數(shù)據(jù)元的互操作性、通用性和數(shù)據(jù)管理的靈活性。為了適應(yīng)人們?cè)谝蛱鼐W(wǎng)上快速搜索到所需的內(nèi)容，MPEG-7多媒體接口應(yīng)能支持：

(1)完成人耳聽(tīng)覺(jué)感知需要的內(nèi)容，頻率輪廓線、音色、和聲、頻率特征(音調(diào)、音域)、振幅包絡(luò)、時(shí)間結(jié)構(gòu)，即聲音特性(音頭持續(xù)時(shí)間及音尾)、文本內(nèi)容。

(2)數(shù)據(jù)音頻，如CD唱片和MPEG-1音頻格式；模型音頻，如磁帶介質(zhì)、MPEG-4的結(jié)構(gòu)化音頻樂(lè)隊(duì)語(yǔ)言SAOL(StructureAudioOrchestralLanguage)和電子樂(lè)器數(shù)字接口MIDI(MusicInstrumentsDigitalInterface)。

5.MPEG-21標(biāo)準(zhǔn)

MPEG-21的主要研究目標(biāo)是：分析是否需要協(xié)議、標(biāo)準(zhǔn)、技術(shù)等不同的技術(shù)元素有機(jī)地結(jié)合在一起；分析是否需要新的規(guī)范；分析如果具備前面的兩個(gè)條件，如何將不同的標(biāo)準(zhǔn)集成在一起。MPEG-21的范圍可以描述成一些關(guān)鍵技術(shù)的集成，其功能包括：內(nèi)容表示、創(chuàng)建、發(fā)布、消費(fèi)、識(shí)別和描述，知識(shí)產(chǎn)權(quán)管理和保護(hù)，財(cái)政管理，用戶的隱私權(quán)，中段和網(wǎng)絡(luò)資源的內(nèi)容提取、事件報(bào)告等。用這些技術(shù)可以實(shí)現(xiàn)多媒體資源通過(guò)和訪問(wèn)極大范圍的網(wǎng)絡(luò)和設(shè)備。

1.MPEG-1LayerⅠ

MPEG-1LayerⅠ音頻壓縮編碼器的原理框圖如圖6.6所示。6.3MPEG-1音頻壓縮編碼的基本原理圖6.6MPEG-1LayerⅠ音頻壓縮編碼器的原理框圖

1) 子帶分析濾波器組

子帶分析濾波器采用的是多相濾波器組，它將輸入的數(shù)字音頻信號(hào)均勻地分成32個(gè)子帶。子帶的頻率寬度Δf為

式中，fs為PCM樣本值的采樣頻率。

當(dāng)fs=48kHz時(shí)，

當(dāng)fs=32kHz時(shí)，

(6-1)

2)組塊

如果將子帶信號(hào)直接原樣量化，則量化噪聲電平由量化步長(zhǎng)決定，當(dāng)輸入信號(hào)電平低時(shí)，噪聲就會(huì)顯現(xiàn)出來(lái)，當(dāng)輸入信號(hào)電平高時(shí)，量化又過(guò)于緩慢，這對(duì)于提高信噪比沒(méi)有大的幫助?？紤]到人耳聽(tīng)覺(jué)的時(shí)域掩蔽效應(yīng)，將每個(gè)子帶內(nèi)連續(xù)的12個(gè)采樣值歸并成一個(gè)塊，在采樣頻率為48kHz時(shí)，這個(gè)塊相當(dāng)于8ms，即12×32÷48＝8ms。這樣，在每一個(gè)子帶內(nèi)，以8ms為一個(gè)時(shí)間段，對(duì)12個(gè)采樣值并成的塊一起計(jì)算，在每一個(gè)塊中，由于掩蔽效應(yīng)的作用，在后面的比例因子的作用下，可以把量化噪聲限制到有用信號(hào)之下，起到壓縮的目的。

3)確定比例因子

比例因子表如表6.1所示，后面的MPEG-1LayerⅡ中的比例因子的選擇也用此表。另外，在編碼過(guò)程中，比例因子標(biāo)號(hào)用6bit編碼后作為比例因子信息傳送，對(duì)應(yīng)關(guān)系見(jiàn)表6.2。表6.1MPEG-1LayerⅠ、Ⅱ比例因子表6.2MPEG-1LayerⅠ、Ⅱ比例因子6比特編碼碼序

4)FFT分析

由于分析子帶濾波器具有256個(gè)樣點(diǎn)延遲，為了保證用于比特分配的信號(hào)掩蔽比和相應(yīng)子帶樣點(diǎn)在時(shí)間上相符合，進(jìn)入FFT的PCM樣點(diǎn)必須延遲256個(gè)樣點(diǎn)，進(jìn)行FFT分析的幀長(zhǎng)為512點(diǎn)，且將經(jīng)過(guò)延遲處理的384個(gè)樣點(diǎn)放在中間位置并在左右擴(kuò)展64個(gè)相鄰樣點(diǎn)構(gòu)成一個(gè)FFT幀，其中，Hanning窗為

功率譜x(k)為(6-2)(6-3)

5)心理聲學(xué)模型

心理聲學(xué)模型的輸入是原始的音頻信號(hào)，輸出則是各個(gè)子帶的信號(hào)掩蔽比，配合信噪比來(lái)確定量化比特分配，以此來(lái)控制量化過(guò)程。MPEG-1標(biāo)準(zhǔn)建議了兩種決定掩蔽比的心理聲學(xué)模型，即模型1和模型2。

主要包括以下9個(gè)步驟：

(1)進(jìn)行時(shí)域到頻域的映射。采用512點(diǎn)或1024點(diǎn)的快速傅里葉變換(FFT)，并加Hanning窗來(lái)減少邊界效應(yīng)，利用FFT將時(shí)域數(shù)據(jù)轉(zhuǎn)換到頻域，這樣可以計(jì)算精確的掩蔽閾值。前面已經(jīng)講過(guò)，這里不再贅述。

(2)確定最大聲壓級(jí)。在每個(gè)子帶內(nèi)根據(jù)比例因子和頻譜數(shù)據(jù)進(jìn)行計(jì)算。在確定掩蔽閾值時(shí)采用取最大值的方法。對(duì)于每個(gè)子帶計(jì)算相應(yīng)的聲壓級(jí)，子帶n中聲壓級(jí)SPL(n)用式(6-4)計(jì)算：

SPL(n)=max［x(k),20lg(scfmax(n)×32768)－10］(6-4)

(3)確定安靜閾值。安靜閾值也叫絕對(duì)閾值，也就是人們?cè)诎察o環(huán)境下剛能聽(tīng)到的聲音，形成了最低掩蔽邊界。安靜閾值是根據(jù)大量心理聲學(xué)試驗(yàn)得出的，MPEG-1標(biāo)準(zhǔn)根據(jù)輸入PCM信號(hào)的采樣率不同，制定了“頻率、臨界頻帶比率和絕對(duì)閾值”表，從表中可以查出頻譜的絕對(duì)閾值LTq(k)。當(dāng)比特率大于96kb/s時(shí)，還要對(duì)絕對(duì)閾值補(bǔ)償，補(bǔ)償值為－12dB。絕對(duì)域值按下式計(jì)算：

(6-5)

(4)識(shí)別音調(diào)和非音調(diào)成分。由于信號(hào)中的音調(diào)和非音調(diào)成分的掩蔽域值不同，首先要識(shí)別音調(diào)和非音調(diào)成分，然后分別來(lái)進(jìn)行處理。要列出譜線x(k)的有調(diào)和無(wú)調(diào)，需執(zhí)行下面三個(gè)步驟：

第一步：標(biāo)明局部最大。若x(k)>x(k－1)，且x(k)>x(k+1)，則x(k)為局部最大值。

第二步：列出有調(diào)成分和計(jì)算聲壓級(jí)。如果x(k)－x(k+j)≥7dB，則x(k)列為有調(diào)成分。其中j按下面的規(guī)則進(jìn)行選擇：

其中，x(k)列為有調(diào)成分，則還要列出譜線的標(biāo)記k、聲壓級(jí)(6-7)(6-6)第三步：列出無(wú)調(diào)成分，計(jì)算功率。無(wú)調(diào)成分從余留譜線計(jì)算，在每個(gè)臨界頻帶內(nèi)將所有譜線的功率加起來(lái)形成臨界頻帶內(nèi)無(wú)調(diào)成分的聲壓級(jí)xnm(k)，并列出下面的參數(shù)：最接近臨界頻帶幾何平均值的譜線標(biāo)記k，聲壓級(jí)xnm(k)以及無(wú)調(diào)指示。

(5)掩蔽器抽取。不是所有有調(diào)和無(wú)調(diào)成分都用于掩蔽閾值的計(jì)算，只有在xtm(k)≥LTq(k)或xnm(k)≥LTq(k)時(shí)，掩蔽閾值計(jì)算才要考慮有調(diào)或無(wú)調(diào)成分，因此所有不滿足條件的有調(diào)和無(wú)調(diào)指示必須移去。另外在剩下的有調(diào)成分中還需要判斷任意兩個(gè)有調(diào)成分之間距離是否小于0.5Bark，如果是則移去這兩個(gè)有調(diào)成分中較小的一個(gè)，這是為了保證在每個(gè)子頻帶內(nèi)頻率響應(yīng)平坦度0.5dB內(nèi)僅有一個(gè)純音信號(hào)。

(6)計(jì)算掩蔽閾值。

計(jì)算樣點(diǎn)掩蔽閾值不是對(duì)所有頻帶內(nèi)頻譜樣點(diǎn)進(jìn)行，而是對(duì)一組樣點(diǎn)進(jìn)行。該組樣點(diǎn)的組成為：對(duì)頭6個(gè)子帶覆蓋的頻域內(nèi)譜線不變；對(duì)接著6個(gè)子帶覆蓋的頻域，每次抽取第2條譜線；對(duì)余留譜線每次抽取第4條譜線，其中對(duì)

32kHz采樣率抽取到15kHz結(jié)束，對(duì)44.1kHz和48kHz抽取到20kHz為止。音調(diào)和非音調(diào)各自的掩蔽閾值由下列表達(dá)式求出：

LTtm[Z(j)，Z(i)]=Xtm[Z(j)]+AVtm[Z(j)]+VF[Z(j)，Z(i)]

(6-8)

LTnm[Z(j)，Z(i)]=Xnm[Z(j)]+AVnm[Z(j)]+VF[Z(j)，Z(i)]

(6-9)

AV值為

對(duì)于有調(diào)掩蔽器

AVtm［Z(j)］=－1.525－0.275×Z(j)－4.5dB(6-10)

對(duì)于無(wú)調(diào)掩蔽器

AVnm［Z(j)］=－1.525－0.175×Z(j)－0.5dB(6-11)掩蔽器的掩蔽函數(shù)VF對(duì)有調(diào)和無(wú)調(diào)掩蔽器是相同的，它具有不同的上、下端斜率，隨著到掩蔽器的距離dz=z(i)－z(j)變化，掩蔽函數(shù)值為

VF=17×(dz+1)－(0.4×X［z(j)］+6)(－3≤dz<－1)(6-12)

VF=(0.4×X［z(j)］+6)×dz(－1≤dz<0)

(6-13)VF=17×dz(0≤dz<1)

(6-14)VF=－(dz－1)×(17－0.15×X［z(j)］)－17(1≤dz<8)

(6-15)

(7)計(jì)算總掩蔽閾值。第i個(gè)頻率樣點(diǎn)的總掩蔽閾值LTg(i)等于所有有調(diào)和無(wú)調(diào)成分在該樣點(diǎn)上單獨(dú)掩蔽閾值的功率總和加上安靜閾值功率得到。公式描述如下：

(6-16)

(8)確定最小掩蔽域值。子帶n中最小掩蔽閾值LTmin(n)由下式?jīng)Q定：

LTmin(n)=min(LTg(i))dB(6-17)

(9)計(jì)算信號(hào)掩蔽比(SignalMaskingRatio，SMR)。子帶信號(hào)中的聲壓級(jí)和最小掩蔽閾值之間的差異決定了每個(gè)子帶的SMR值(見(jiàn)下式)，這個(gè)值將用于比特分配。

SMR(n)=SPL(n)－LTmin(n)dB(6-18)

6)比特分配

為了同時(shí)滿足數(shù)碼率和掩蔽特性的要求，比特分配器應(yīng)同時(shí)考慮來(lái)自分析濾波器組的輸出樣值以及來(lái)自心理聲學(xué)模型的信號(hào)掩蔽比，來(lái)決定分配給各個(gè)子帶信號(hào)的量化比特?cái)?shù)，使量化噪聲低于掩蔽閾值，以便于在規(guī)定比特率下盡可能滿足心理聲學(xué)要求，即計(jì)算每個(gè)子帶的SMR，以決定分配給每個(gè)子帶的比特?cái)?shù)n，使得它滿足下式：

(6-19)在調(diào)整比特率之前要先確定用于一幀子帶樣點(diǎn)和比例因子編碼的比特?cái)?shù)用adb來(lái)表示，可以由下式來(lái)確定：

adb=bt－(bhdr+bcrc+bbal+banc)(6-20)分配過(guò)程是一個(gè)迭代過(guò)程，其中每迭代一步子帶樣點(diǎn)的級(jí)數(shù)相應(yīng)增加。首先計(jì)算各個(gè)子帶的掩蔽噪聲比(MNR)，它是信號(hào)噪聲比(SignalNoiseRatio，SNR)減去信號(hào)掩蔽比，即

MNR=SNR－SMR(6-21)

SNR可以由以下公式計(jì)算得到：

SNR=6.02n+1.76(6-22)其中,n為量化所需的比特?cái)?shù)，SMR為心理聲學(xué)模型輸出，并置各子帶樣點(diǎn)比特?cái)?shù)bsp1和比例因子比特?cái)?shù)為零。其次開(kāi)始進(jìn)行如下迭代過(guò)程：

(1)對(duì)所有子帶定出最小MNR。

(2)對(duì)最小MNR的子帶，其量化比特?cái)?shù)增加一級(jí)。

(3)計(jì)算該子帶新的MNR。

(4)樣點(diǎn)比特?cái)?shù)bsp1隨之更新。開(kāi)始時(shí)，如果一個(gè)非零比特?cái)?shù)分配給子帶，其相應(yīng)比例因子比特?cái)?shù)bscf必須增加6bit，然后用下面的公式計(jì)算剩下的adb，即

adb=bt－(bhdr+bcrc+bbal+banc+bscf+bsp1)(6-23)

(5)重復(fù)該循環(huán),直到adb不小于bscf和bsp1的任何可能增加。

7)線性量化編碼

子帶樣點(diǎn)的量化采用具有中平型的線性量化器，以防止圍繞零變化的微小值量化為不同級(jí)。各個(gè)子帶樣點(diǎn)先歸一化，將其除以比例因子得到X，然后根據(jù)下面的步驟進(jìn)行量化：

(1)計(jì)算AX+B，其中A、B值從“量化系數(shù)”表(即表6.3)中查尋。

(2)取該值最有效的N位，N表示用于該樣點(diǎn)的編碼比特?cái)?shù)。

(3)最高位取反，以避免出現(xiàn)全“1”代碼。表6.3層1量化系數(shù)

8)幀結(jié)構(gòu)

將量化后的采樣值和格式標(biāo)記以及其他附加輔助數(shù)據(jù)按照規(guī)定的幀格式組裝成比特?cái)?shù)據(jù)流。MPEG-1LayerⅠ的音頻碼流的數(shù)據(jù)幀格式如圖6.7所示。圖6.7MPEG-1LayerⅠ音頻流的數(shù)據(jù)幀結(jié)構(gòu)圖

2.MPEG-1LayerⅡ編碼的基本原理

從本質(zhì)上來(lái)說(shuō)，MPEG-1LayerⅡ的編碼與原始的MUSICAM標(biāo)準(zhǔn)是相同的，但是在設(shè)計(jì)上要復(fù)雜一些。它是以稍高的代價(jià)、在合適的數(shù)據(jù)傳輸速率下得到很高的保真度為目的的。

MPEG-1LayerⅡ?qū)拥木幋a原理框圖如圖6.8所示，編碼算法的流程圖如圖6.9所示。圖6.8MPEG-1LayerⅡ音頻壓縮編碼器的原理框圖圖6.9MPEG-1LayerⅡ編碼算法的流程圖從原理框圖可以看出，MPEG-1LayerⅡ和MPEG-1LayerⅠ有如下不同：

(1)MPEG-1LayerⅡ使用1024點(diǎn)的FFT運(yùn)算，提高了頻率的分辨率，可以實(shí)現(xiàn)盡可能低的數(shù)碼率，得到原信號(hào)更準(zhǔn)確的瞬時(shí)頻譜特性，以便更好地計(jì)算心理聲學(xué)模型。

(2)MPEG-1LayerⅡ中有塊形成，與LayerⅠ對(duì)每個(gè)子帶由12個(gè)采樣值組成一塊的編碼不同，LayerⅡ?qū)σ粋€(gè)子帶的3個(gè)塊進(jìn)行編碼，其中每塊有12個(gè)采樣值，每幀包含1152個(gè)采樣值的碼字。

(3)描述比特分配的字段長(zhǎng)度隨子帶的不同而不同。低頻段子帶用4bit來(lái)描述，中頻段子帶用3bit來(lái)描述，高頻段子帶用2bit來(lái)描述。這種因頻率不同而比特率不一樣的做法也是臨界頻帶的應(yīng)用。

(4)最大的不同是MPEG-1LayerⅡ有比例因子的選擇信息(ScaleFactorSelectionInformation，SCFSI)。具體傳送比例因子的情況見(jiàn)表6.4。表6.4比例因子的傳送情況所以，MPEG-1LayerⅡ的音頻碼流的數(shù)據(jù)幀格式如圖6.10所示。圖6.10MPEG-1LayerⅡ音頻碼流的數(shù)據(jù)幀格式圖另外，在子帶樣值量化和編碼中的A、B值可從“量化系數(shù)”表中查得，MPEG-1LayerⅡ和MPEG-1LayerⅠ的量化系數(shù)表不同。

MPEG-1LayerⅡ的量化系數(shù)表如表6.5所示。表6.5MPEG-1LayerⅡ的量化系數(shù)表

3.MPEG-1LayerⅢ編碼器

1)MPEG-1LayerⅢ編碼器原理

MPEG-1LayerⅢ也就是大家所熟悉的MP3，數(shù)字音頻經(jīng)過(guò)MP3壓縮方式的處理，能增加更多的存儲(chǔ)空間。MPEG-1LayerⅢ的音頻編碼基本原理框圖如圖6.11所示。圖6.11MPEG1-LayerⅢ音頻壓縮編碼器的原理框圖輸入的數(shù)字音頻信號(hào)即PCM采樣信號(hào)進(jìn)入子帶濾波器組后，被分成32個(gè)子帶信號(hào)，每個(gè)子帶含有3個(gè)塊，每個(gè)塊具有12個(gè)樣本值，共1152個(gè)采樣點(diǎn)，改進(jìn)的離散余弦變換(ModifiedDiscreteCosineTransform，MDCT)把子帶的輸出在頻率里進(jìn)一步地分成18個(gè)頻線，這樣共產(chǎn)生576個(gè)頻線，然后利用心理聲學(xué)模型計(jì)算出子帶信號(hào)的掩蔽比，根據(jù)這些掩蔽比決定分配給576個(gè)頻線的比特?cái)?shù)，分別對(duì)它們進(jìn)行比特分配和可變步長(zhǎng)量化，量化后的樣值再經(jīng)過(guò)無(wú)失真的霍夫曼編碼，以提高編碼效率，并與比特分配和量化產(chǎn)生的邊信息一起組成一幀數(shù)據(jù)。

MP3編碼的一幀數(shù)據(jù)包括兩個(gè)組，每組有576個(gè)頻線和與它們相關(guān)的邊信息，邊信息被存儲(chǔ)在每一幀的幀頭中，對(duì)這樣一幀一幀組成的比特流，MP3解碼器可以獨(dú)立進(jìn)行解碼，而不需要額外的信息。表6.6MPEG-3LayerⅢ在各種音質(zhì)下的性能

2)MPEG-1LayerⅢ中所涉及的關(guān)鍵技術(shù)

(1)多相/MDCT混合濾波器組。

(2)自適應(yīng)窗口選擇技術(shù)。

下面解釋各窗口類型的功能：

①長(zhǎng)窗：用于穩(wěn)定信號(hào)的正常窗口類型，表達(dá)式如式(6-15)所示，則

②短窗：短窗基本上和長(zhǎng)窗具有相同的形狀，只是長(zhǎng)度是長(zhǎng)窗的1/3。它跟隨著一個(gè)1/3的MDCT,即

③開(kāi)始窗：為了在長(zhǎng)窗和短窗之間進(jìn)行切換，使用混合窗，即它的左邊和長(zhǎng)窗類型的左邊具有相同的形狀;右邊的1/3長(zhǎng)度的幅度是1，1/3和短窗的右邊具有相同的形狀，剩余的1/3是0。因此，與后面的短窗部分重疊可保證混疊抵消。則

④結(jié)束窗：這種類型窗把短窗切換回正常窗，其形狀與開(kāi)始窗鏡像，即

用Matlab實(shí)現(xiàn)幾種不同的窗口類型，其窗函數(shù)圖如圖6.12所示。圖6.12各種類型的窗函數(shù)圖采用自適應(yīng)窗口切換技術(shù)可以很好地在編碼效率和編碼質(zhì)量之間取得折中，其代價(jià)是增加算法的復(fù)雜度。MP3編碼標(biāo)準(zhǔn)中采用這種技術(shù)，只在需要抑制前回聲時(shí)才使用短窗，而在平時(shí)則使用長(zhǎng)窗。由長(zhǎng)窗切換到短窗時(shí)，必須插入一個(gè)起始窗；由短窗切換到長(zhǎng)窗時(shí)，必須插入一個(gè)終止窗，其切換規(guī)則如圖6.13所示。圖6.13各種類型的窗函數(shù)切換圖

(3)霍夫曼編碼?；舴蚵幋a是統(tǒng)計(jì)編碼的一種，可以在不降低信號(hào)質(zhì)量的前提下，將傳輸每個(gè)樣值所需要的平均碼長(zhǎng)降到最低，具體方式是先把聲音信號(hào)的幅值按出現(xiàn)概率由大到小的順序排列，然后按相反的順序分配碼字的長(zhǎng)度。碼字是按以下步驟形成的：

①將消息按其概率由大到小排列；

②把兩個(gè)最小的概率概括出來(lái)，并分別配給“0”和“1”；

③將兩個(gè)最小概率相加變成一個(gè)概率，再和其他概率一起由大到小排列；④重復(fù)步驟(2)、(3)，直到所有概率都被相加處理完為止；

⑤對(duì)于每個(gè)消息都沿其處理的路徑，按照從右到左的順序，將所配給的符號(hào)序列作為其代碼。

例：聲音信號(hào)幅度符號(hào)xi出現(xiàn)的概率為Pi，出現(xiàn)的概率從大到小的順序?yàn)閺纳鲜鼍幋a結(jié)果可看出nL是可變字長(zhǎng)，則平均字長(zhǎng)N為

N=∑PinL

=0.3×2+0.22×2+0.20×2+0.1×3+0.08×4+0.05×5

+0.03×6+0.02×6

=2.61bit/碼長(zhǎng)

(4)比特池技術(shù)。采用了彈性比特存儲(chǔ)技術(shù)之后，MP3的幀結(jié)構(gòu)就不同于一般數(shù)據(jù)流的幀結(jié)構(gòu)了。彈性比特存儲(chǔ)技術(shù)實(shí)際上就是在每幀的主數(shù)據(jù)中以固定的間隔插入同步碼和邊信息，從而以固定比特率的格式實(shí)現(xiàn)可變比特率的編碼。也就是說(shuō)，在一般的幀中，每幀的數(shù)據(jù)都是緊接于幀同步碼之后，而MP3幀的主數(shù)據(jù)則有可能先于該幀的同步碼出現(xiàn)。它的幀結(jié)構(gòu)如圖6.14所示。圖6.14MPEG-1LayerⅢ音頻碼流的數(shù)據(jù)幀格式圖

MPEG-2的聲音編碼標(biāo)準(zhǔn)是在MPEG-1的基礎(chǔ)上發(fā)展起來(lái)的多聲道編碼系統(tǒng)。與MPEG-1標(biāo)準(zhǔn)相比，MPEG-2作了如下擴(kuò)充：

(1)增加了16kHz、22.05kHz和24kHz采樣頻率；

(2)擴(kuò)展了編碼器的輸出速率范圍，由32～384kb/s擴(kuò)展到了8～640kb/s；

(3)增加了聲道數(shù)，支持5.1聲道和7.1聲道的環(huán)繞聲；

(4)支持線性PCM和DolbyAC-3編碼。6.4MPEG-2音頻編碼原理

1.MPEG-2AAC音頻編碼的基本原理

MPEG-2AAC編碼原理框圖如圖6.15所示，這是一個(gè)AAC編碼的完整框圖，開(kāi)發(fā)MPEG-2AAC標(biāo)準(zhǔn)采用的方法與開(kāi)發(fā)MPEG-1音頻標(biāo)準(zhǔn)采用的方法不同。MPEG-1Audio采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化，而MPEG-2AAC采用的方法是模塊化的方法，把整個(gè)AAC系統(tǒng)分解成一系列模塊，用標(biāo)準(zhǔn)化的AAC工具對(duì)模塊進(jìn)行定義，但是在實(shí)際應(yīng)用中，并不是所有的功能模塊都是必需的。為了允許在質(zhì)量、存儲(chǔ)器和處理能力需求之間進(jìn)行折中，AAC系統(tǒng)提供了三層框架：主框架、低復(fù)雜度(LC)框架和分級(jí)采樣率(SSR)框架。圖6.15MPEG-2AAC編碼原理框圖2.MPEG-2AAC音頻編碼器模塊的功能

1)心理聲學(xué)模型2

2)增益控制(GainControl)

3)濾波器組(FilterBank)

4)瞬時(shí)噪聲整形TNS(TemporalNoiseShapping)

5)聯(lián)合立體聲編碼

聯(lián)合立體聲編碼(JointStereoCoding)是一種空間編碼技術(shù)，其目的是去掉空間的冗余信息。MPEG-2AAC系統(tǒng)包含兩種空間編碼技術(shù)：M/S編碼(Middle/SideEncoding)和聲強(qiáng)/耦合(Intensity/Coupling)。M/S編碼使用矩陣運(yùn)算，因此把M/S編碼稱為矩陣立體聲編碼(MatrixedStereoCoding)。由于左右聲道具有相關(guān)性，M/S編碼不傳送左右聲道信號(hào)，而是使用標(biāo)準(zhǔn)化的“和”信號(hào)和“差”信號(hào)，前者用于中央M(Middle)聲道，后者用于邊S(Side)聲道，來(lái)代替原來(lái)的左、右聲道，因此M/S編碼也叫做“和/差編碼”(Sum-differenceCoding)。在編碼時(shí)，不是每個(gè)頻帶都需要用M/S編碼，只是左右聲道相關(guān)性較強(qiáng)的子帶采用M/S編碼。標(biāo)準(zhǔn)對(duì)每個(gè)子帶分別使用M/S編碼和L/R編碼兩種方法進(jìn)行了量化和編碼，再根據(jù)兩者中使用比特?cái)?shù)較小的方法來(lái)決定是否使用M/S編碼。聲強(qiáng)/耦合編碼的名稱也很多，如聲強(qiáng)立體聲編碼(IntensityStereoCoding)、聲道耦合編碼(ChannelCouplingCoding)等，它們探索的基本問(wèn)題是聲道間的不相關(guān)性(Irrelevance)。人耳聽(tīng)覺(jué)系統(tǒng)在聽(tīng)4kHz以上的信號(hào)時(shí)，雙耳的定位對(duì)左右聲道的強(qiáng)度差比較敏感，而對(duì)相位差不敏感。聲強(qiáng)/耦合就利用這一原理，在某個(gè)頻帶以上的各子帶使用左聲道代表兩個(gè)聲道的聯(lián)合強(qiáng)度，右聲道的譜線置為零，不再參與量化和編碼。做法為：將左右聲道之頻譜值相加，再乘上一個(gè)調(diào)整因子，最后將新的頻譜系數(shù)送出。如下式所示：

6)預(yù)測(cè)(Predication)

在信號(hào)較平穩(wěn)的情況下，利用時(shí)域預(yù)測(cè)可進(jìn)一步減小信號(hào)的冗余度，在AAC編碼器中預(yù)測(cè)是利用前面兩幀的頻譜來(lái)預(yù)測(cè)當(dāng)前幀的頻譜，再求預(yù)測(cè)的殘差，然后對(duì)殘差進(jìn)行編碼。預(yù)測(cè)使用經(jīng)過(guò)量化后重建的頻譜信號(hào)，具體步驟如下：

(1)使用前兩幀的重建頻譜信號(hào)預(yù)測(cè)當(dāng)前幀的頻譜。

(2)將當(dāng)前頻譜與預(yù)測(cè)頻譜相減得到殘差信號(hào)。

(3)對(duì)殘差信號(hào)量化。

(4)對(duì)殘差信號(hào)反量化，利用預(yù)測(cè)殘差和預(yù)測(cè)值重建當(dāng)前幀頻譜信號(hào)。

(5)更新預(yù)測(cè)器。

7)量化器(Quantizer)

上述5個(gè)模塊都可以達(dá)到數(shù)據(jù)壓縮的目的，然而主要壓縮工作是在量化與編碼階段完成的。

8)無(wú)噪聲編碼(NoiselessCoding)

無(wú)噪聲動(dòng)態(tài)范圍壓縮應(yīng)用在Huffman編碼前。在量化系數(shù)矩陣前可以放置±1作為基值偏差，標(biāo)示頻率位置，僅應(yīng)用于有足夠存儲(chǔ)空間時(shí)。此編碼最多有4種系數(shù)輸入。

9)多比特轉(zhuǎn)換(BitstreamMultiplexing)

AAC可以單純地傳送原始數(shù)據(jù)，也可利用先進(jìn)的聲音轉(zhuǎn)換邏輯傳送。

3.MPEG-2AAC解碼流程

MPEG-2AAC(MainProfile)的解碼流程如圖6.16所示。解包模塊從原始AAC碼流中分離出數(shù)據(jù)和控制信息提供給各個(gè)相關(guān)工具；無(wú)噪聲解碼模塊利用霍夫曼碼本將頻譜的編碼數(shù)據(jù)變換成量化數(shù)據(jù)；編碼端把每幀1024條譜線分成若干區(qū)，每個(gè)區(qū)由一種碼本編碼，解碼端所需的碼本和分區(qū)信息從控制信息中的編碼分區(qū)數(shù)據(jù)中獲得。圖6.16MPEG-2AAC(MainProfile)解碼器

AAC是個(gè)大家族，目前已經(jīng)制定了如表6.7所示的幾種規(guī)格，以適應(yīng)不同場(chǎng)合的需要。

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《語(yǔ)音與音頻編碼》課件第6章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《語(yǔ)音與音頻編碼》課件第6章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔