第三講音頻壓縮編碼_第1頁
第三講音頻壓縮編碼_第2頁
第三講音頻壓縮編碼_第3頁
第三講音頻壓縮編碼_第4頁
第三講音頻壓縮編碼_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 音頻壓縮編碼基本原理 MPEG-1音頻壓縮算法及標(biāo)準(zhǔn)MPEG-2 Audio MPEG-4 Audio AC-3首頻編碼第三講音頻壓縮編碼 、音頻壓縮編碼基本原理1、什么是音撅信號(hào)? 通常將人耳可以聽到的頻率在20Hz到20KHz的聲波稱為聲音信號(hào),聲音振動(dòng)被拾音器轉(zhuǎn)換成電信號(hào)稱為音頻信號(hào)。 人的發(fā)音器官發(fā)出的聲音頻段在80Hz到3400Hz之間; 人說話的信號(hào)頻率在300Hz到3000Hz ,將該頻段的信號(hào)稱為語音信號(hào)。一、音頻壓縮編碼基本原理2、音頻壓縮的可能性(1)聲音信號(hào)中的“冗余”頻域:非均勻功率密度譜,低頻能量高,高頻能量低。時(shí)域:信息冗余度主要表 現(xiàn)在幅度非均勻分布,即不同幅度

2、的樣值出現(xiàn)的概率不同,小幅度的樣值比大幅度 樣值出現(xiàn)的概率高。一、音頻壓縮編碼基本原理2、音頻壓縮的可能性(2)人耳的聽覺特性,聲音中存在與聽覺無關(guān)的“不相關(guān)”部分。對(duì)于人耳感覺不到的不相關(guān)部分不編碼、不傳送,以達(dá)到數(shù)據(jù)壓縮的目的。利用了人耳聽覺的心理聲學(xué)特性。聲音主觀感受響度、音調(diào)、音色; 聲音客觀特性振幅、頻率、頻譜特性;二、人類聽覺系統(tǒng)的感知特性示例視頻二、人類聽覺系統(tǒng)的感知特性聽閾-頻率曲線 兩個(gè)聲音響度級(jí) 相同,但強(qiáng)度不 一定相同,還與 頻率有關(guān); 聲壓級(jí)越高,等響度曲線趨于平坦;人耳對(duì)34KHz的聲首感覺最靈敏;人耳的掩蔽效應(yīng)一個(gè)較弱的聲音的聽覺感受被另一個(gè)較強(qiáng)的聲音影響的現(xiàn)象稱為

3、人耳的聽覺 掩蔽效應(yīng)。聽不到叫被掩蔽聲.起掩蔽作用的叫掩蔽聲。被掩蔽音單獨(dú)存在時(shí)的聽閾分貝值,為絕對(duì)聽閾。即安靜環(huán)境中能被人耳聽 到的純音最小值。也稱靜聽域。頻域掩蔽/時(shí)域掩蔽。掩蔽效應(yīng)演示Snnultaneous maskmg.mp41、頻域掩蔽(純音間的掩蔽)一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱 同時(shí)掩蔽。80同聽闕1000-Hz純音不能聽到 的聲音_ _ _ _ _ o o O 4 2 BP 一 聲級(jí)靜聽閾Effect on tlueshold fbr 1 kHz masking toneLi & Drew10頻域掩蔽域隨頻率變化曲線音調(diào)音的掩蔽閾的寬度隨

4、頻率而變化;掩蔽曲線不對(duì)稱,高頻段一側(cè)的曲線斜率緩些;低頻音容易對(duì)高頻音產(chǎn)生掩 蔽。頻域掩蔽域隨聲壓級(jí)變化曲線聲壓級(jí)I(dB)110io(r 90-2、人耳模型How ear works 視頻演示2、人耳模型Cochelai aiiunation演示2、人耳模型 聲音頻率發(fā)生轉(zhuǎn)換-聲波沖擊耳鼓(Eaidrum和連著的耳骨; 耳鼓和耳骨將機(jī)械振動(dòng)傳遞給耳蝸(Cochlea )-耳蝸薄膜的橢圓窗沿基底膜長(zhǎng)度方向引導(dǎo)行波; 行波在薄膜的特定頻率感應(yīng)位置產(chǎn)生峰值響應(yīng); 薄膜的特定頻率感應(yīng)位置為特定頻帶提供峰值響應(yīng); 可以把耳蝸當(dāng)成一組高度重疊的帶通濾波器人耳相當(dāng)于一個(gè)濾波器組 人類聽覺系統(tǒng)大致等效于一

5、個(gè)在0Hz到20KHz頻率范圍內(nèi)由25個(gè)重疊的帶 通濾波器組成的濾波器組。-人耳不能區(qū)分同一頻帶內(nèi)同時(shí)發(fā)生的不同聲音;-人耳 頻帶被稱為臨界頻帶(critical band);-500Hz以下每個(gè)臨界頻帶的帶寬大約是100Hz ,從500Hz起,臨界頻帶帶寬 線性增加。 一個(gè)臨界頻帶的帶寬單位為1巴克(baik。0Hz500Hz20000Hz f臨界頻帶單位巴克(Baik) 對(duì)于任何掩蔽頻率,巴克被定義為一個(gè)臨界頻帶的寬度; 巴克單位的意義:用巴克來衡量每個(gè)臨界頻帶的寬度大致都是相同的。80 250 IIz 500 IIz 1 kHz 2 kllz 4kIIz 8 kHz用巴克單位表示的聲音掩

6、蔽效應(yīng)噪聲對(duì)純音的3、臨界頻帶掩蔽3、臨界頻帶噪聲對(duì)純音的掩蔽 臨界頻帶是指當(dāng)某個(gè)純音被以它為中心頻率、且具有一定帶寬的連續(xù)噪聲所 掩蔽時(shí),如果該純音剛好被聽到時(shí)的功率等于這一須帶內(nèi)的噪聲功率,這個(gè)帶寬為 臨界頻帶寬度。 掩蔽效應(yīng)在一定頻率范圍內(nèi)不隨帶寬增大而改變,直至超過某個(gè)須率值。 通常認(rèn)為從20Hz到16kHz有25個(gè)臨界須帶,單位為bark。 lbark=一個(gè)臨界頻帶的寬度長(zhǎng)500Hz時(shí)Ibaik約為f7100;f500Hz 時(shí) Ibatk 約為 9十410g2 (f71000) ;臨界頻帶(Hz)約為24.7x(4.37F+lF為中心頻率(KHz)臨界頻率(Hz臨界頻率(Hz頻帶低端

7、高端寬度頻帶低端高端寬度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044007005510630120184400530090066307701 401953006400110077709201502064007700130089201080160217700950018009108012 7019022950012000250010127014802102312000155003500111480172024024155002

8、205065501217202000280在時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象。時(shí)域掩蔽又分為超前掩蔽和滯后掩 蔽。超前掩蔽很短,只有大約520ms,而滯后掩蔽可以持續(xù)50 200 ms。4、時(shí)域掩蔽t后掩蔽前掩蔽同期掩蔽強(qiáng)音時(shí)間掩蔽利用基于時(shí)間掩蔽效應(yīng)的編碼策略是,編碼時(shí)將時(shí)間上相繼的一些樣值歸并成 塊.并計(jì)算每塊內(nèi)最大樣值的比例因子;據(jù)心理聲學(xué)的掩蔽模型,對(duì)同一子帶內(nèi)相鄰三個(gè)比例因子,可丟棄較小的因 子.以減少傳輸比例因子的比特?cái)?shù)。Effect of temporal and fiequency masknigdepending on both tune and closeness in f

9、iequency.Li & Drew2324正弦波幅度0值允許的最大正弦波峰值正弦波負(fù)峰值位置圖6 16比特有效位編碼的二進(jìn)制、十六進(jìn)制編碼、量化級(jí)和相對(duì)滿度電平的 對(duì)應(yīng)關(guān)系基準(zhǔn)電平位置SMPTERP155標(biāo)準(zhǔn)基準(zhǔn)電平位置數(shù)字峰值表顯示的是準(zhǔn)峰值,因此正弦波基準(zhǔn)電平的實(shí)際峰值還將高3dB數(shù)字峰值表顯示的是準(zhǔn)峰值,因此如保證正弦波的峰值信號(hào)不過載,儀表應(yīng)保持不超過-3dBFS時(shí)為宜音頻信號(hào)幅度與編碼的關(guān)系25正弦波幅度。值允許的最大正弦波峰值正弦波負(fù)峰值位置圖6 16比特有效位編碼的二進(jìn)制、十六進(jìn)制編碼、量化級(jí)和相對(duì)滿度電平的 對(duì)應(yīng)關(guān)系基準(zhǔn)電平位置SMPTERP155標(biāo)準(zhǔn)基準(zhǔn)電平位置數(shù)字峰值表顯

10、示的是準(zhǔn)峰值,因此正弦波基準(zhǔn)電平的實(shí)際峰值還將高3dB數(shù)字峰值表顯示的是準(zhǔn)峰值,因此如保證正弦波的峰值信號(hào)不過載,儀表應(yīng)保持不超過-3dBFS時(shí)為宜得到音頻信號(hào)幅度與編碼的關(guān)系音頻壓縮處理相關(guān)的術(shù)語信噪比(SNR=信號(hào)峰值一噪聲有效值信號(hào)掩蔽比(SMR=信號(hào)峰值一最小掩蔽閾值掩蔽噪聲比(MNR=最小掩蔽閾值一量化噪聲MNR (dB =SNR(dBSMR(dB信噪比(SNR=201gL/N信噪比(SNR=6.02n+L76N:量化噪聲電平,ii:量化比特?cái)?shù)重要結(jié)論:量化比特?cái)?shù)增加1.量化信噪比提高6dB5、感知編碼器原理放棄物理上的同一性得到感知上的同一性降低數(shù)據(jù)率掩蔽的用途q去除會(huì)被掩蔽的信號(hào)

11、分量v因?yàn)榧词箓鬏斄艘膊粫?huì)被聽見同聽閾以下的信號(hào)部分不能被人耳聽到(稱 不相關(guān)部分),不必傳送。(去除不相關(guān)部分)q不理會(huì)可能被掩蔽的量化噪聲v因?yàn)闀?huì)被信號(hào)淹沒按同聽閾以上的信號(hào)值計(jì)算量化比特?cái)?shù),對(duì)信號(hào)重新量化,使量化噪聲在同 聽閾以下即可。Maskuig cuiveNoiseSignalExample mm-1m+16、音頻信號(hào)壓縮編碼方法(1 )波形編碼直接對(duì)時(shí)域或頻域波形編碼PCM , DPCM, ADPCM,子帶編碼,自適應(yīng)變換編碼(2 )參數(shù)編譯碼器從語音波形信號(hào)中提取語音生成模型的參數(shù),使用這些參數(shù)通過語音生成模型 重構(gòu)出語音。(3 )混合編碼(4)子帶編碼(sub-band co

12、ding, SBC基本思想:使用一組帶通濾波器(band-pass filg BPF把輸入音頻信號(hào)的頻帶 分成若干個(gè)連續(xù)的頻段.每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的音頻信號(hào)采用單獨(dú)的 編碼方案去編碼。在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合起來。在接收端解碼 時(shí).將每個(gè)子帶的代碼單獨(dú)解碼,然后把它們組合起來,還原出原來的音頻信號(hào)。三、子帶編碼1、感知子帶壓縮算法以心理聲學(xué)模型為基礎(chǔ),主要利用了聽覺閾值和聽覺掩蔽特性。譯碼器輸入輸出編碼器1、感知子帶壓縮算法0用多相濾波器組,將寬帶聲音信號(hào)分割為多個(gè)子撅帶,對(duì)各子帶的音撅樣值 分別進(jìn)行壓縮編碼。0理想的頻帶的分割應(yīng)模仿臨界頻帶,各子帶的寬度不一致, 隨著

13、頻率的升高.子帶的帶寬也增加。0每個(gè)子帶內(nèi)根據(jù)信號(hào)掩蔽比確定樣值的量 化級(jí)數(shù),量化噪聲的高度與帶內(nèi)同聽閾值越接近,數(shù)據(jù)率壓縮越充分。0子帶越多(越窄),在相同音質(zhì)下編碼所得數(shù)據(jù)率越低;傳輸中的比特差錯(cuò) 僅限制在很窄的子頻帶內(nèi),影響越小。窄子帶能改善聲音質(zhì)量2、子帶編碼的好處S/M=17dB706050 卅級(jí)dB)第一,對(duì)每個(gè)子帶信號(hào)分別進(jìn)行自適應(yīng)控制,量化階的大小可以按照每個(gè)子帶 的能量電平加以調(diào)節(jié)。第二,可根據(jù)每個(gè)子帶信號(hào)在感覺上的重要性,對(duì)每個(gè)子帶 分配不同的位數(shù).用來表示每個(gè)樣本值。例如,在低頻子帶中,為了保護(hù)音調(diào)和共 振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級(jí)數(shù),即分配較多的位數(shù)來

14、表示 樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對(duì)它分配 較少的位數(shù)。3、MUSICAM 編碼0MUSICAM (Masking pattern adapted Umveisal Subband Integrated Coding AndMultiplexing掩蔽型自適應(yīng)通用子帶綜合編碼與復(fù)用。編碼將寬帶的音頻信號(hào)撅譜分為寬 度為750Hz的32個(gè)子帶,利用人耳聽覺的心理聲學(xué)現(xiàn)象和音頻信號(hào)統(tǒng)計(jì)的內(nèi)在聯(lián) 系.確定音頻信號(hào)中的不相關(guān)部分和去除冗余,實(shí)現(xiàn)數(shù)據(jù)壓縮。0一套CD立體聲數(shù)據(jù)率為1411.2kbps , MUSICAM編碼后數(shù)據(jù)率為 2x96kbps ,重放仍有CD質(zhì)

15、量.3、MUSICAM 編碼0MUSICAM 與 MPEG-1 的 Layei II一致;Layer I 是 MUSICAM 的簡(jiǎn)化版本;LayeiTII是MUSICAM與ASPEC (自適應(yīng)譜感知嫡編碼)變換編碼的結(jié)合, 低比特率時(shí)質(zhì)量最好,時(shí)域到撅域的濾波器組提供了高頻譜分辨率。在低碼率(64 kbit/s時(shí),ASPEC表現(xiàn)出更為出色的音質(zhì),而MUSICAM則在編碼解碼的復(fù)雜度 和延時(shí)上略勝一籌。MUSICAM編碼器PCM 收一 取樣軟率48KHz塊形成g線性比例因f比例因f提取un城科匚四、音頻壓縮的國(guó)際標(biāo)準(zhǔn)MPEG-1 ISOEC-11172-3 1993年標(biāo)準(zhǔn)化 MPEG-2 ISO

16、/IEC13818-31994年11月標(biāo)準(zhǔn)化,是對(duì)MPEG1的發(fā)展與擴(kuò)展ISO/IEC MPEG-2 AACQSO/IEC 13818-7 1997 年 4 月公布MPEG-4 ISO/IEC 14496-31999年標(biāo)準(zhǔn)化美國(guó)Dolby實(shí)驗(yàn)室的Dolby (AC-3)1990年提出MPEG-1輸入、輸出指標(biāo):MPEG音頻編碼器32kHz. 44.1kHz, 48kHz16位PCM 32kb/s384kb/s層次壓縮率數(shù)據(jù)速率kb/s延遲(ms ) 14 : 138419/5026:1 8:1192 25635/100310:1 12:111212859/150 (一)、MPEG-1音頻壓縮算

17、法(一)、MPEG-1音頻壓縮算法MPEG-lAudio層1和層2編解碼器的結(jié)MPEG-1 Audio 層 1Is濾波器組將時(shí)域信號(hào)變?yōu)?2個(gè)等寬子帶。 G (fs/2) /32=750Hz最低頻的子帶濾波器為低通濾波器,其它為帶通濾波器。窄的子帶能提高壓縮比,改善聲音質(zhì)量.MPEG/AudE淺波器組頻帶111111111111111111II111111111111MPEG-1 Audio 層2、快速傅利葉變(FFT)作用:為滿足掩蔽閾計(jì)算所需的精確的頻譜分析,主要提高低頻率范圍的頻率 分辨率,與聽覺特性相適應(yīng)。FFT的變換長(zhǎng)度N=512,取樣頻率fs =48kHz時(shí),通過FFT得到的頻率分

18、 辨率為 fs/512=93.75Hz模擬人耳聽覺掩蔽特性的數(shù)學(xué)模型。輸入量:FFT的輸出X(KO任務(wù):計(jì)算信號(hào)掩蔽比SMR (每8ms計(jì)算1次)。目的:根據(jù)SMR給各個(gè) 子帶分配量化級(jí)數(shù)。3、心理聲學(xué)模型計(jì)算步驟:(1確定各子帶的最大聲級(jí)L(n(由12個(gè)連續(xù)抽樣值的最大者確定。(2確定靜聽閾LTg。(3確定音頻信號(hào)中的音調(diào)(類似正弦信號(hào))成分和非音調(diào)(類似噪聲)成 分。(4抽選掩蔽音,求出相關(guān)的掩蔽音。(5計(jì)算相關(guān)掩蔽音各自的掩蔽閾(同聽閾。(6計(jì)算總的掩蔽閾(同聽閾)。(7確定各子帶中的最小掩蔽閾值(最小同聽閾)LT min (11 o(8計(jì)算各子帶的信號(hào)掩蔽比SMR(n=L(n-LTmiii (no信噪比(SNR=信號(hào)峰值-噪聲有效值(dB)0信號(hào)掩蔽比(SMR=信噪比-掩蔽噪聲比(dB)NMR4、比例因子(SCF為了提高小信號(hào)的量化精度,不丟失小信號(hào),對(duì)濾波器組輸出的樣值先進(jìn)行歸 一化(如60dB

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論