數(shù)字音頻技術(shù)綜述_第1頁
數(shù)字音頻技術(shù)綜述_第2頁
數(shù)字音頻技術(shù)綜述_第3頁
數(shù)字音頻技術(shù)綜述_第4頁
數(shù)字音頻技術(shù)綜述_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)字音頻編碼技術(shù)綜述摘要:本文介紹了常用的數(shù)字音頻編碼方式,包括MPEG系列伴音標準及Dolby Digital標準的原理,并對這幾種重要的音頻編碼技術(shù)的多方面性能進行了比較,最后,對數(shù)字音頻壓縮編碼技術(shù)進行了展望。 關(guān)鍵詞:數(shù)字音頻編碼;MPEG;Dolby DigitalOverview of Digital Audio Coding Technology 【Abstract】 In this paper, some usual digital audio coding methods are discussed, including MPEG standard and Dolby Dig

2、ital standard. And comparisons in many aspects are made between these audio coding methods. Finally, it discussed the prospect of digital audio compression.【Key Words】digital audio coding;MPEG;Dolby Digital1 引言 數(shù)字音頻是多媒體業(yè)務(wù)的重要組成部分,數(shù)字音頻編碼技術(shù)已經(jīng)成為多媒體的一個重要研究領(lǐng)域,并已被廣泛地應(yīng)用于數(shù)字音頻廣播(DAB)、高清晰度電視(HDTV)、多媒體網(wǎng)絡(luò)通信等領(lǐng)域中。

3、數(shù)字音頻編碼技術(shù)按數(shù)據(jù)量的壓縮性能可分為非壓縮音頻(如波形音頻、MIMI音頻和CD音頻)和壓縮音頻(如MEPG音頻、杜比AC-3等)兩類。而在網(wǎng)絡(luò)應(yīng)用中,為了提高帶寬的利用率,增強數(shù)據(jù)的安全性和傳輸?shù)目煽啃?,往往需要對?shù)字音頻進行壓縮處理。一般地,根據(jù)壓縮后的音頻能否完全重構(gòu)出原始聲音可將音頻壓縮技術(shù)分為無損壓縮及有損壓縮兩大類。而按壓縮方案的不同,又可講其劃分為時域壓縮、變換壓縮、自帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。數(shù)字音頻的發(fā)展最初是從無損壓縮開始的,如70年代開始采用的類似PCM的瞬時壓擴技術(shù)和塊壓擴技術(shù),這種技術(shù)的編碼效率低。80年代末至90年代初,研究者利用人耳的掩蔽效應(yīng)和

4、臨界頻帶的特性來進行子帶編碼和變換編碼,出現(xiàn)的系統(tǒng)有:MUSUCAM系統(tǒng)、128kps的AC-2系統(tǒng)、AC-3系統(tǒng)等。90年代至今,有損壓縮把音頻數(shù)據(jù)的壓縮率提高到12:1,也帶來了音頻質(zhì)量的下降。比較著名的是:MP3,AAC,RM等。2 MPEG數(shù)字音頻編碼標準ISO/IEC的MPEG音頻編碼的標準采用了2種編碼算法:MUSICAM和ASPEC。以這兩種算法為基礎(chǔ)形成了三個不同層次的音頻壓縮算法,三種算法對應(yīng)不同的應(yīng)用要求并具有不同的編碼復(fù)雜度。子代掩蔽編碼標準MUSICAM的編碼器框圖如圖1所示。MUSICAM采用了多項濾波器,將信號分割成帶寬統(tǒng)一的32個子帶。它增強了心理聲學模型分析,1

5、024點FFT是心理聲學模型時域分析工具。由于MUSICAM的音質(zhì)好、合理的算法復(fù)雜度和適中的時延等有點,使得它被ISO/IEC選用為MPEG音頻編碼的主要算法。圖1 MUSICAM編碼器原理圖 2.1 MPEG-1在MPEG-1的音頻編碼標準中,按照復(fù)雜度規(guī)定了三種模式(層I,層II,層III)。層I是MUSICAM編碼方法的簡單型(MP1),VCD的音頻壓縮方案即為層1。層II為MUSICAM標準型(MP2),典型碼流128kps。廣泛應(yīng)用與數(shù)字音頻廣播、數(shù)字演播室等數(shù)字音頻專業(yè)的制作、交流、存儲和傳送。層III是綜合了層II和ASPEC的有點提出的混合壓縮技術(shù)(MP3),它的復(fù)雜度相對較

6、高,編碼不利于實時,它是MUSUCAM和ASPEC兩個算法的結(jié)合,典型碼流是64kbps。低碼率仍有高品質(zhì)的音質(zhì),因此成為廣泛應(yīng)用于網(wǎng)絡(luò)音頻。MP3編碼器的框圖如圖2所示。圖2 MP3編碼器的框圖2.2 MPEG-2 MPEG-2的音頻編碼標準,是在MPEG-1音頻編碼標準的基礎(chǔ)上由雙聲通道擴展到多通道。聲道數(shù)擴展到5.1,即左中右三個主聲道,左環(huán)、右環(huán)兩個環(huán)繞聲道和一個重低音(LEF)聲道。為了與MPEG-1后向兼容(BC),MPEG-2幀基本結(jié)構(gòu)對應(yīng)于在MPEG-1中的規(guī)定,多聲道擴展是插入到MPEG-1音頻幀,用于傳送附加數(shù)據(jù)的區(qū)域中,信號兼容利用多聲道信號的矩陣組合來實現(xiàn),如果需要更高

7、比特率,則產(chǎn)生一個附加的第二個擴展比特流,為了降低整體比特流,MPEG-2 采用了自適應(yīng)預(yù)測、限制中心聲道頻率等措施。MPEG-2有一種AAC(Advanced Audio Coding)模式,它不后向兼容MPEG-1。在MPEG-2的正式聽音測試中,數(shù)據(jù)流速率為320kbps的AAC可以提供比數(shù)據(jù)流速率為640kbps的MPEG-2BC更好的音質(zhì)。因此,AAC是一種比MPEG-2BC編碼算法更好的音頻壓縮算法,而且可以使用于各種環(huán)境下,如可以做電視信號的伴音等。AAC的編碼器框圖如圖2所示。 圖2 AAC的編碼器框圖2.3 MPEG-4MPEG-4音頻編碼對音頻的低比特率編碼進行了大幅度的強

8、化。相對于MPEG-1,MPEG-2而言,MPEG-4增加了通信用途并設(shè)想應(yīng)用與各種信息壓縮率、各種傳輸線路形式(包括記錄媒體)以及聯(lián)系連接形式(1對1,N對1,1對N等)。3 杜比數(shù)碼 Dolby DigitalDolby Digital是一種多路數(shù)字音頻格式,由Dolby公司研制開發(fā)。它可將音頻與元數(shù)據(jù)以盡可能的數(shù)據(jù)率送至接收機,從而為視頻數(shù)據(jù)與其他DTV服務(wù)項目保存寶貴的空中頻譜。其中,AC-1用于衛(wèi)星通信和數(shù)碼有線廣播,AC-2用于專業(yè)音頻的傳輸和存儲。AC-3是在AC-1和AC-2基礎(chǔ)上發(fā)展起來的多通道編碼技術(shù),保留了原AC-2中如窗函數(shù)處理、指數(shù)變換編碼、自適應(yīng)比特分配等許多特點,

9、還新增了運用立體聲多聲道的編碼技術(shù)策略的coupling和rematrix算法。一般而言,立體聲的左聲道和右聲道的信號在聽覺上十分相似,存在著許多重復(fù)的冗余信息,將這兩個聲道的信號聯(lián)合起來加以編碼,便可除去冗余的信號且不會影響原來的音質(zhì)。 其編碼器框圖如圖3所示。圖3 AC-3編碼器原理圖AC-3又被稱為感覺編碼系統(tǒng),它將每一聲道的音頻根據(jù)人耳聽覺特性劃分為許多最優(yōu)的狹窄頻段,利用音響心理學“聽覺掩蔽效應(yīng)”,刪除人耳所聽不到或可忽略的部分,并采用數(shù)字信號壓縮編碼。同時,利用狹窄頻段的劃分使部分頻段噪聲在編碼時可被幾乎全部濾除,使其余噪聲的頻譜靠近在信號頻譜附近,而這些噪聲可被信號所抑制。因此杜

10、比AC-3系統(tǒng)實際上是一種具選擇性及強抑噪的系統(tǒng),以較低的碼率支持全音頻多聲道,并具優(yōu)良的回放音質(zhì)和效果。AC-3采用全音域5.1聲道運行方式,即左、右、中置、左環(huán)繞、右環(huán)繞,再加上一個超重低音的聲道,故又稱作5.1聲道。其中前5個聲道的頻響范圍都是音頻全頻帶即3HZ-20kHz,而LEF聲道的頻響范圍是3-120Hz,僅占整個頻譜的十分之一,因此又稱為5.1聲道環(huán)繞聲系統(tǒng)。AC-3傳輸速率為32-640kbit/s,動態(tài)范圍為20bit,采樣頻率支持32kHz,44.1kHz和48kHz,輸出聲道數(shù)目可變。AC-3的壓縮比可以達到1:12,能夠以384kbit/s的速率播放5.1聲道聲音???/p>

11、見,AC-3確是一種完善而又靈活的編碼方案。3 總結(jié) 隨著人類聽覺特性理論的深入發(fā)展和數(shù)字化技術(shù)的廣泛應(yīng)用,以及市場對消費類音樂質(zhì)量的趨高要求,數(shù)字音頻編碼技術(shù)已經(jīng)成為多媒體的一個重要研究領(lǐng)域,并已被廣泛地應(yīng)用于數(shù)字音頻廣播(DAB)、高清晰度電視(HDTV)、多媒體網(wǎng)絡(luò)通信等領(lǐng)域中。 數(shù)字音頻壓縮算法種類繁多,從上文的分析中可以看出,根據(jù)不同的應(yīng)用場合和對傳輸速率及音質(zhì)的特殊要求,可以組合出不同的標準或規(guī)范。未來,一方面繼續(xù)研究新的音頻壓縮算法,另一方面,根據(jù)不同的應(yīng)用要求改進現(xiàn)行規(guī)范或提出新的技術(shù)方案。參考文獻1 Peter Noll. MPEG Digital Audio CodingJ. IEEE Signal Processing Magazine, 1997,(9).2 Stephen L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論