L11-2)寬帶音頻壓縮編碼_第1頁
L11-2)寬帶音頻壓縮編碼_第2頁
L11-2)寬帶音頻壓縮編碼_第3頁
L11-2)寬帶音頻壓縮編碼_第4頁
L11-2)寬帶音頻壓縮編碼_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多媒體技術(shù)公共課程中南大學(xué)信息科學(xué)與工程學(xué)院第十一講 (續(xù)) 寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)多媒體技術(shù)公共課程中南大學(xué)信息科學(xué)與工程學(xué)院一、概 述多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文1.1 寬帶音頻編碼特點寬帶音頻編碼特點 寬帶音頻覆蓋了人類聽力所能接受的頻率范圍: 20Hz20 k Hz ; 并且通常具有環(huán)繞立體聲效果,這種高質(zhì)量聲音信號能給人一種身處其境的真實感覺。 為了能夠比較真實地再現(xiàn)自然界的各種聲音,在對寬帶音頻數(shù)據(jù)進(jìn)行壓縮時,必須研究和利用人的聽覺系統(tǒng)的特性,建立心理聲學(xué)模型 ( psycho-acoustic model ),即采用所謂的“感知聲音編碼”(perceptual aud

2、io coding )技術(shù)。 自 20世紀(jì) 80 年代以來,人們在這方面已取得了很大進(jìn)展,先后制定了一系列寬帶音頻壓縮編碼標(biāo)準(zhǔn)。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文1.2 寬帶音頻編碼標(biāo)準(zhǔn)寬帶音頻編碼標(biāo)準(zhǔn) 目前國際上比較成熟的高質(zhì)量聲音壓縮標(biāo)準(zhǔn)為 MPEG 音頻,此外,還有美國杜比(Dolby)公司制定的高保真立體聲音頻壓縮系列標(biāo)準(zhǔn),如AC-3。 MPEG 音頻編碼標(biāo)準(zhǔn)主要包括: MPEG 1 Audio 、 MPEG 2 Audio 、 MPEG 2 AAC、MPEG-4 Audio等,它們處理 10 20000Hz 范圍內(nèi)的聲音數(shù)據(jù),并且根據(jù)人耳的聽覺特性,使用“心理聲學(xué)模型”(psy

3、cho acoustic model)來達(dá)到壓縮聲音數(shù)據(jù)的目的。 多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文1.3 MPEG 音頻編碼音頻編碼MPEG Audio 采納了兩種感知編碼:1. 感知子帶編碼 (perceptual subband coding)2. Dolby AC 3 編碼感知子帶編碼基于心理聲學(xué)模型,該模型涉及到兩個基本概念:聽覺閾值電平聽覺掩蔽特性多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文1.4 杜比杜比 AC-3 編碼編碼分析濾波器組譜包絡(luò)編碼尾數(shù)量化位分配AC-3幀格式封裝 PCM樣本指數(shù)尾數(shù)編碼比特流Dolby AC 3 壓縮編碼算法的原理圖壓縮編碼算法的原理圖T F多媒

4、體技術(shù)公共課程中南大學(xué)信息科學(xué)與工程學(xué)院二、MPEG 1 音頻編碼多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.1 簡介簡介 MPEGl Audio 簡介簡介 MPEGl Audio ( ISO/IEC 111723 )壓縮算法是世界上第一個高保真聲音壓縮國際標(biāo)準(zhǔn)。 MPEG編碼器輸入為 線性 PCM 信號、采樣率為32、44.1 或 48 kHz;輸出速率為 32 384 kbps。 MPEGl Audio標(biāo)準(zhǔn)不是一種壓縮算法,而是包含 3 種音頻壓縮編碼方案,分為:層1、層2、層3。 多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.2 編碼層次編碼層次MPEG-1的三種編碼方案:隨著層數(shù)的增加,

5、算法的復(fù)雜度也增大。各層性能不同:壓縮率不同,解壓縮恢復(fù)后的音質(zhì)也有差別。注:注:MP3 就是指采用 MPEG-1音頻編碼的第3層方案進(jìn)行壓縮的數(shù)字化寬帶波形音頻,其壓縮率大、而音質(zhì)又好。所有3層都分級兼容;最復(fù)雜的層3 音頻解碼器也可對 層l或?qū)?的碼流進(jìn)行解碼。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.2 編碼層次編碼層次MPEG 1 音頻編碼層次:音頻編碼層次:層 1: 每幀 12 x 32 = 384 樣本, 壓縮率為 4:1, 輸出數(shù)據(jù)率為 384 kbps,主要用于小型數(shù)字盒式磁帶。層 2: 每幀 36 x 32 = 1152 樣本, 壓縮率為 8-6:1, 輸出數(shù)據(jù)率為 256

6、 - 192 kbps,主要用于數(shù)字音樂、數(shù)字聲音廣播、CD-I 和 VCD 等。層 3: 每幀 36 x 32 = 1152 樣本, 壓縮率為 12-10:1, 輸出數(shù)據(jù)率為 128 - 112 kbps,甚至更低; 其中,64kb/s可用于在 ISDN 上 傳輸聲音。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3 MPEG-1音頻編碼原理音頻編碼原理 MPEGl Audio 編碼原理編碼原理 所有3層都運(yùn)用同一原理:變換編碼變換編碼和子帶編子帶編碼。碼。 輸入聲音信號由時域變換到頻域; 聲音頻譜被分為 32 個子帶; 用心理聲學(xué)模型確定各子帶樣本的量化精度。 子帶編碼 (SBC) 的理論依

7、據(jù)是:聽覺系統(tǒng)的掩蔽特性 (主要是頻域掩蔽特性)。層 l、2 和 3主要在子帶分割與量化方式上有所區(qū)別,各層的算法復(fù)雜度不同。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.1 編解碼基本原理編解碼基本原理PCM聲音樣本 32、44.1、48k Hz多相分析濾波器組( TF )量化編碼心理聲學(xué)模型( 計算掩蔽特性 )數(shù)據(jù)流幀包裝輔助數(shù)據(jù)位數(shù)據(jù)流編碼器編碼器PCM聲音樣本 32、44.1、48k Hz多相合成濾波器組( T- F )逆量化、聲音重構(gòu)數(shù)據(jù)流幀拆包輔助數(shù)據(jù)位數(shù)據(jù)流解碼器解碼器多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.2 子帶分割方法子帶分割方法子帶分割:有兩種方法(線性 / 非

8、線性); 用多相濾波器來劃分(線性): 層1、層2 以“臨界頻帶”來劃分 (非線性) : 層3多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.3 心理聲學(xué)模型心理聲學(xué)模型心理聲學(xué)模型心理聲學(xué)模型: 計算以頻率為自變量的噪聲掩蔽閾值; 查看輸入信號和各子帶信號,以確定每個子帶中的信號能量與掩蔽閾值的比率,簡稱信掩比(SMR) 再由SMR決定分配給各子帶信號的量化位數(shù),使量化噪聲低于掩蔽閾值。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.3 心理聲學(xué)模型心理聲學(xué)模型多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.3 心理聲學(xué)模型心理聲學(xué)模型多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.4 層層

9、1/2編解碼原理編解碼原理 分析濾波器組FFT掩蔽閾值縮放因子和量化位數(shù)分配器與編碼器縮放器 /量化器PCM輸入復(fù)合SMR合成濾波器組縮放因子和量化位數(shù)解碼器與分配器反縮放 /逆量化器分解PCM輸出數(shù) 字 信 道MPEG 1 Audio 層層1、層、層2編碼器和解碼器的結(jié)構(gòu)編碼器和解碼器的結(jié)構(gòu)多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.3.5 層層3編解碼原理編解碼原理速率和失真控制環(huán)分析濾波器組FFT掩蔽閾值附加信息編碼器縮放 /量化器PCM輸入復(fù)合SMR合成濾波器組附加信息解碼器反縮放 /逆量化器分解PCM輸出數(shù) 字 信 道MPEG 1 Audio 層層3編碼器和解碼器的結(jié)構(gòu)編碼器和解碼器

10、的結(jié)構(gòu)動態(tài)窗口MDCT霍夫曼編碼器霍夫曼解碼器動態(tài)窗口逆MDCT多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文2.4 數(shù)據(jù)流格式數(shù)據(jù)流格式MPEG 1 音頻編碼數(shù)據(jù)流格式音頻編碼數(shù)據(jù)流格式 (略略)多媒體技術(shù)公共課程中南大學(xué)信息科學(xué)與工程學(xué)院三、MPEG 2 音頻編碼多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文3.1 簡介簡介一、一、MPEG 2 音頻標(biāo)準(zhǔn)簡介音頻標(biāo)準(zhǔn)簡介 MPEG 2 定義了兩種聲音壓縮格式: MPEG 2 Audio ( ISO/IEC 13818 3 ), 與 MPEG 1 Audio 兼容,兩者都使用同類編解碼器,層1、層2和層3的結(jié)構(gòu)也相同; MPEG 2 AAC ( Adva

11、nced Audio Coding, ISO/IEC 13818 7 ), 包含非后向兼容的標(biāo)準(zhǔn)。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文3.1 簡介簡介二、二、MPEG 2 Audio (后向兼容 BC) 與 MPEG 1 Audio 標(biāo)準(zhǔn)相比,MPEG 2 Audio 作了如下擴(kuò)充:1.增加了三種采樣率 (16、22.05、24 kHz);2.擴(kuò)展了編碼器輸出速率范圍 ( 8 640 kbps);3.增加了聲道數(shù) ( 5.1或 7.1 聲道);4.支持 Linear PCM 和 Dolby AC3 編碼。 三、MPEG 2 Audio 編碼數(shù)據(jù)流格式 (略)多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)

12、準(zhǔn)陳科文3.1 簡介簡介多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文3.2 AAC一、一、MPEG 2 AAC 簡介簡介主要使用聽覺系統(tǒng)的掩蔽特性來壓縮聲音數(shù)據(jù);把整個AAC系統(tǒng)分解成一系列模塊,提供了多種標(biāo)準(zhǔn)化的編碼工具供選擇。定義了三種編解碼器的配置: (1)基本配置、(2) 低復(fù)雜度配置、(3)可變采樣率配置。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文3.2 AAC二、AAC 主要性能: 采樣頻率:8 96 kHz ; 單聲道、立體聲、多聲道 ( 可支持 48個主聲道、16 個LFE加強(qiáng)聲道、16個配音聲道和16個數(shù)據(jù)流) 壓縮率高、音質(zhì)好(在壓縮比為11:1時, 還原后的5聲道的聲音與原始聲

13、音之間的差別很難區(qū)分。)多媒體技術(shù)公共課程中南大學(xué)信息科學(xué)與工程學(xué)院四、MPEG 4 音頻編碼多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文4.1 簡介簡介 MPEG 4 Audio 標(biāo)準(zhǔn)引入了“聲音對象”(AO)的概念,可集成各種聲音(從話音到高保真多聲道立體聲,從自然聲音到合成聲音)和多種編碼方法。自然聲音編碼: MPEG 4 Audio 定義了三種類型的編碼器,分別用于不同類型的聲音,輸出數(shù)據(jù)速率介于2 64 kbps 之間。合成聲音:包括 MIDI合成音樂 和 TTS 合成話音。多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文4.1 簡介簡介多媒體技術(shù):寬帶音頻壓縮技術(shù)及標(biāo)準(zhǔn)陳科文4.2 TTSTTS( 文-語轉(zhuǎn)換,Text To Speech ) TTS 系統(tǒng)的最根本問題在于它的語音自然度。 為了提高合成語音的自然度,文語轉(zhuǎn)換技術(shù)的研究將涉及到語言學(xué)、語音學(xué)、信號處理、人工智能、等許多學(xué)科, 因此,TTS 是一個十分復(fù)雜的系統(tǒng) 。 一個比較完整的 TTS 系統(tǒng)模型如下:多媒體技術(shù):寬帶音頻壓縮技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論