




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音與音頻編碼課程論文 題目:MP3編碼原理與實(shí)現(xiàn) 院(系) 信息科學(xué)與工程學(xué)院 班 級 11級通信工程2班 學(xué) 號(hào) 1115107007 姓 名 指導(dǎo)老師 目錄MP3編碼原理與實(shí)現(xiàn)11、摘 要32、MP3簡介32.1 MP3音頻格式32.2 MP3壓縮編碼原理43、人體聽覺心理學(xué)模型53.1 最小聽覺門檻判定53.2 人耳的遮蔽效應(yīng)53.3 人耳的空間響應(yīng)54、 VBR技術(shù)65、編碼器工作原理65.1 濾波器段65.2 人體聽覺心理模型75.3 量化與編碼86、總結(jié)與心得97、參考文獻(xiàn)101、摘要:在目前的信息社會(huì),需要應(yīng)用和傳輸大量的語音信息,這些信息中存在著大量的冗余,如果不去除掉這些冗
2、余,在其傳輸和存儲(chǔ)的過程中,將會(huì)占用大量的資源,因此,語音壓縮技術(shù)受到了人們的普遍關(guān)注。在此基礎(chǔ)上,對MP3編碼器的基本原理和基本結(jié)構(gòu)進(jìn)行了研究,并對其中幾個(gè)關(guān)鍵模塊包括心理聲學(xué)模型,VBR技術(shù)等進(jìn)行了分析,結(jié)果表明MP3要具有良好的編碼質(zhì)量,需要對其算法進(jìn)行改進(jìn)和優(yōu)化。關(guān)鍵詞:MP3編碼器、音頻、算法 2、MP3簡介 MP3是今天一種常見的音樂格式,但恐怕除了工作要求之外,有興趣對此進(jìn)行研究的人恐怕不多。所以,當(dāng)我打算寫MP3編碼方面的論文時(shí),在找資料時(shí)也頗費(fèi)了一番周折,同時(shí)也覺得很有趣。 MP3是MPEG-1 Audio Layer 3的簡稱,是當(dāng)今比較流行的一種數(shù)字音頻編碼和有損壓縮格式
3、(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文討論范圍之內(nèi))。MP3技術(shù)的應(yīng)該可以用來大幅度的降低音頻文件存儲(chǔ)所需要的空間。它丟掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對人類聽覺不重要得數(shù)據(jù),從而達(dá)到了較高的壓縮比(高達(dá)12:110:1)。簡單地說,MP3在編碼時(shí)先對音頻文件進(jìn)行頻譜分析,然后用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最后形成有較高壓縮比的MP3文件,并使壓縮后的文件在回放時(shí)也能夠達(dá)到比較接近原音源的效果。 MP3的音頻質(zhì)量取決于它的Bitrate和Sampling frequency,以及編碼器質(zhì)量。MP3的典型速度介
4、于每秒128到320kb之間。采樣頻率也有44.1,48和32 kHz三種頻率,比較常見的是采用CD采樣頻率44.1kHz。常用的編碼器是LAME,它完全遵循LGPL的MP3編碼器,有著良好的速度和音質(zhì)。2.1 MP3音頻格式 MP3(MPEG Audio Layer)音頻格式誕生于20世紀(jì)80年代,是伴隨著MPEG-1而開發(fā)的。在MPEG-1標(biāo)準(zhǔn)中,音頻壓縮標(biāo)準(zhǔn)按復(fù)雜性和壓縮質(zhì)量分為三個(gè)獨(dú)立層次:(1)MPEG Audio Layer,它最為簡單,碼流為每通道384kb/s,主要用于數(shù)字卡座(Digital Compact Cassette,DCC)。(2)MPEG Audio Layer
5、,它具有中等復(fù)雜度,碼流為每通道192kb/s,主要用于數(shù)字音頻廣播、數(shù)字演播室和VCD等方面數(shù)字音頻的制作、交流、存儲(chǔ)和傳送。(3)MPEG Audio Layer ,它最為復(fù)雜,是綜合了MPEG Audio Layer和ASPEC優(yōu)點(diǎn)的一種混合壓縮技術(shù),其音頻質(zhì)量最好,主要用于MP3音頻壓縮,碼流為每通道64kb/s。MP3編碼雖不適用于實(shí)時(shí)傳送,但能在低編碼速率下提供較高的音質(zhì),所以成為網(wǎng)上音樂的寵兒。2.2 MP3壓縮編碼原理音頻壓縮由編碼和解碼兩個(gè)部分組成。把波形文件里的數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換為高度壓縮的形式(稱為比特流)即為編碼;要解碼則把比特流重建為波形文件。 在MPEG-1的音頻壓縮
6、中,采樣頻率可為32kHz、44.1kHz和48kHz,可支持單聲道(Monophonic)、雙單聲道 (DualMonophonic)、立體聲模式(Stereo Mode)、聯(lián)合立體聲(JointStereo)等。常見的MP3大多采用聯(lián)合立體聲模式。音頻壓縮可以分為無損(lossless)壓縮和有損壓縮。無損壓縮就是盡量降低音頻數(shù)據(jù)的冗余度,以減小其體積。音頻信號(hào)經(jīng)過編碼和解碼之后,必須要和原來的信號(hào)一致。無損壓縮的壓縮率是比較有限的;有損壓縮就是用盡一切手段,包括無損壓縮用到的方法,丟掉一切能丟掉的數(shù)據(jù),以減小體積。而音頻壓縮后解碼聽起來起碼是要跟原來差不多的,有損壓縮的壓縮比能大幅提高,
7、MP3就是屬于有損壓縮,壓縮比是12:1(128kbps)。 實(shí)驗(yàn)表明,人類能聽到的聲音頻率范圍(音頻)是20Hz20kHz,但人耳對整個(gè)音頻頻段聲音的反應(yīng)不是平直的,25kHz是人耳最靈敏的頻段。依其特性將整個(gè)音頻頻段分成多個(gè)臨界頻帶,因?yàn)槿祟惵犛X系統(tǒng)是依據(jù)頻率來分辨聲音能量的,任何頻率的細(xì)小聲音都會(huì)因掩蔽效應(yīng)而被臨界頻帶內(nèi)音量較高的聲音所覆蓋。MP3對其不作量化處理,從而去掉那些人類聽覺系統(tǒng)所無法察覺的聲音,達(dá)到壓縮的目的。MP3文件是由幀(frame)構(gòu)成的,幀是MP3文件最小的組成單位。什么是幀?還記得最初的動(dòng)畫是怎么做的嗎?不同的連續(xù)畫面切換以達(dá)到動(dòng)態(tài)效果,每幅畫面就是一個(gè)“幀”,不
8、同的是MP3里面的幀記錄的是音頻數(shù)據(jù)而不是圖形數(shù)據(jù)。MP3的幀速度大概是30幀/秒。每個(gè)幀又由幀頭和幀數(shù)據(jù)組成,幀頭記錄著該幀的基本信息,包括位率索引和采樣率索引(這對理解ABR和VBR編碼方式很重要)。幀數(shù)據(jù),顧名思義就是記錄著主體音頻數(shù)據(jù)。上面說的都是MP3編碼的基礎(chǔ),但事實(shí)上,早期的編碼器都非常不完善,壓縮算法近于粗暴,音質(zhì)很不理想。MP3的音質(zhì)達(dá)到現(xiàn)在的水平有兩次飛躍:人體聽覺心理學(xué)模型(Perceptual Model)的導(dǎo)入和VBR技術(shù)的應(yīng)用。3、人體聽覺心理學(xué)模型下面將簡要介紹一下幾個(gè)重要原理:3.1 最小聽覺門檻判定 (The minimal audition threshol
9、d)人耳的聽力范圍是20Hz-20k Hz的頻率范圍,但是人耳對不同的頻率聲音的靈敏度是不同的,不同頻率的聲音要達(dá)到能被人耳聽到的水平所需要的強(qiáng)度是不一樣。那么通過計(jì)算,可以把音樂文件中存在但不能被人耳聽到的聲音去掉。 通過這原理,我們還可以建立模型,把大部分?jǐn)?shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍,其余頻率分配比較少的空間;3.2 人耳的遮蔽效應(yīng) (The Masking effect)蔽效應(yīng)表現(xiàn)在強(qiáng)信號(hào)會(huì)遮蔽鄰近頻率的弱信號(hào)。用生活經(jīng)驗(yàn)來說,在安靜的房間中,一根針掉到地上都能聽見,可到了大街上,就算手機(jī)音量調(diào)到最大,來電時(shí)也未必能聽見,而手機(jī)的聲音確確實(shí)實(shí)是存在的,原因就是被周圍更
10、大的聲音遮蔽了。有了對遮蔽效應(yīng)的研究成果,編碼器就能根據(jù)已建立的數(shù)學(xué)模型,計(jì)算強(qiáng)信號(hào)對附近弱信號(hào)的遮蔽,把能引起人們注意的聲音才保留。人耳還有前遮蔽效應(yīng)和后遮蔽效應(yīng):因?yàn)槿诵枰欢ǖ臅r(shí)間來處理聲音信號(hào),在強(qiáng)信號(hào)之前或之后的弱信號(hào),會(huì)被遮蔽掉。前遮蔽效應(yīng)的時(shí)間約只有2-5ms,而后遮蔽的時(shí)間比較長,大約有100ms。利用這,我們能減小強(qiáng)信號(hào)之前和之后的分辨率;3.3 人耳的空間響應(yīng): 人耳對某些高頻的聲音的空間感很差,辨別不了聲源的方向。聯(lián)合立體聲(Joint Stereo)應(yīng)運(yùn)而生:在某些頻率上采用“單聲道”(事實(shí)上并非真正意義上的單聲道),以減小流量。4、VBR技術(shù)正如上面所說,MP3是由幀
11、構(gòu)成的,MP3能象動(dòng)畫那樣讀到哪放到哪, 播放器不必預(yù)讀整個(gè)文件的內(nèi)容,即使部分?jǐn)?shù)據(jù)損壞也不會(huì)對播放效果有太大影響(實(shí)際上這就是流媒體所具有的特性)。而每個(gè)幀的幀頭里都包含這該幀的碼率(bitrate,單位是kbps)等信息,所以,我們可以對每一段音樂甚至每一個(gè)幀定義獨(dú)立的碼率,這就是VBR(Variable bitrate,動(dòng)態(tài)碼率)技術(shù)。與VBR向?qū)?yīng)的是CBR(Constant bitrate)。一支交響曲,合奏大動(dòng)態(tài)部分的數(shù)據(jù)量顯然大于引子部分,如果用128kbps的CBR編碼方式來編碼,在引子部分可能有多余的數(shù)據(jù)流量,而在合奏部分卻又不夠,VBR就是解決這個(gè)問題的。把在不影響音質(zhì)的情
12、況下,對流量需求小的部分分配較小的碼率,把冗余字節(jié)緩存起來留給有需要的部分,在短時(shí)間內(nèi)提供更高的碼率,以保證音樂的質(zhì)量。所以說,VBR的作用是更合理的分配流量,在不增大文件體積的條件下提高聲音的質(zhì)量。不過VBR在應(yīng)用初期帶給過MP3隨生聽不少麻煩。因?yàn)樵缙诖蠖鄶?shù)MP3播放器都是針對CBR設(shè)計(jì)的,其根據(jù)文件大小來獲得時(shí)長的算法對VBR失效了,因?yàn)閂BR MP3的bitrate可能每時(shí)每刻都在變化。不過現(xiàn)在這個(gè)問題基本上不用擔(dān)心了,市場上的播放器基本上都解決這問題了。除了上面說的兩方面,MP3編碼還有很重要的一招:Huffman編碼(Huffman是個(gè)科學(xué)家的名字),Huffman編碼廣泛應(yīng)用于無
13、損壓縮領(lǐng)域,比如我們常用的WINZIP,WINRAR等壓縮軟件就是以此為基礎(chǔ)的(只能說是基礎(chǔ),因?yàn)檫@些用到的編碼方法不只是Huffman編碼)。Huffman編碼用途就是降低數(shù)據(jù)的冗余度,可節(jié)省大約20%的空間。用WINZIP來再壓縮MP3文件每什么效果就因?yàn)镸P3編碼的時(shí)候已經(jīng)應(yīng)用到采用Huffman編碼。5、編碼器工作原理5.1 濾波器段 (filterbank)數(shù)字音頻信號(hào)以脈沖的形式送進(jìn)編碼器,首先會(huì)經(jīng)過一濾波器段(filterbank),它由兩個(gè)串聯(lián)的濾波器段組成:一個(gè)多相分析濾波器段和一個(gè)MDCT(Modified Discrete Cosine Transform,經(jīng)改良的離散余
14、弦轉(zhuǎn)換),前者也應(yīng)用到layer-1和layer-2中,后者是MP3獨(dú)有的。輸入的音頻信號(hào)在20Hz-20k Hz的頻率范圍內(nèi),通過第一個(gè)濾波器段后,把信號(hào)按頻率分成32個(gè)小頻帶,稱為子帶(Subband)。20000Hz/32=625Hz,那么每個(gè)子帶的寬度就是625Hz。人耳對不同頻段的靈敏度是不同的,編碼器可對不同的子帶進(jìn)行不同的量化分層。不過等寬的子帶并沒有準(zhǔn)確反映人耳的聽覺特性,這樣進(jìn)行等寬劃分并沒有考慮到不同信號(hào)的臨界寬度,也就是該信號(hào)的影響范圍,以及不同信號(hào)的相互影響,所以這樣會(huì)產(chǎn)生大量的信號(hào)重疊。MDCT轉(zhuǎn)換就是為了解決這問題,它能對子帶進(jìn)行細(xì)分,清楚重疊部分,得到更高的頻譜解
15、析度。5.2 人體聽覺心理學(xué)模型 (Perceptual Model)上面已經(jīng)談到過人體聽覺心理學(xué)模型,心理學(xué)模型可以說是感受編碼的重中之中,它決定著編碼器的編碼質(zhì)量(后面談到的LAME就擁有著大量優(yōu)秀的人體精神聽覺模型和數(shù)學(xué)模型)。下面將深入分析兩個(gè)重要原理: 最小聽覺門檻判定和遮蔽效應(yīng)。最小聽覺門檻判定聲音其實(shí)是傳播在介質(zhì)中的能量波,人耳對聲音能量強(qiáng)弱的直接感受就是聽到音量的大小,也就是響度,單位是分貝(dB)。下面是人耳可聽最小響度曲線:0dB是聽覺靈敏度的極限,而120dB是痛苦靈敏度的極限。人耳在2000Hz到5000Hz范圍內(nèi)的靈敏度最高,兩端就迅速下降。所以人耳對中頻的靈敏度遠(yuǎn)高
16、于高低頻。遮蔽效應(yīng)不同頻率的聲音有不同的遮蔽寬度,這叫臨界寬度??梢韵胂?,弱信號(hào)越接近強(qiáng)信號(hào)的中心,遮蔽效應(yīng)會(huì)越嚴(yán)重。臨界寬度跟聲音頻率成正比。下面是臨界寬度列表:頻率(Hz)臨界帶寬(Hz)頻率(Hz)臨界帶寬(Hz)50801850280150100215032035010025003804501103400550570120400070070014048009008401505800110010001607000130011701908500180013702101050025001600240135003500感受編碼機(jī)制可以分為兩個(gè)部分:知覺噪音成型(perceptual noise
17、 shaping)和知覺邊帶/變換編碼(perceptual subband / transform coding)。編碼器通過分析濾波器段(filterbank)分析音頻信號(hào)的頻譜組成并應(yīng)用聽覺心理學(xué)模型來估計(jì)僅僅可以注意得到的噪音電平。在后面的量化和編碼階段,編碼器會(huì)提高強(qiáng)信號(hào)附近的噪音電平,也就是減少量化位數(shù),這樣就能達(dá)到節(jié)省流量,壓縮數(shù)據(jù)的目的。如果所有量化噪音都能控制在屏蔽臨界曲線以下,那么處理后人耳就區(qū)別不出哪個(gè)才是原音。5.3 量化和編碼 (Quantization and Coding)當(dāng)PCM訊號(hào)被分成好幾個(gè)頻段并經(jīng)過一系列的處理后,最后經(jīng)過MDCT,將波型轉(zhuǎn)換為一連串的系數(shù)
18、。這些系數(shù)就由Huffman編碼器會(huì)選擇最合適的Huffman表來做最后的壓縮。 Huffman編碼一般是雙路工作的,但是在某些需要精密編碼的情況下,它會(huì)進(jìn)行四路工作。編碼器一般會(huì)有很多的Huffman編碼表,很多時(shí)候?yàn)榱烁玫穆曇糍|(zhì)量和更有效屏蔽量化噪音,編碼器甚至能為每一個(gè)頻段選擇最合適的Huffman編碼表。不過編碼不是一次就能成功的,要采取Try and Error的方式循環(huán)進(jìn)行。因?yàn)榫幋a器一方面要削減量化噪音,讓它在人耳遮蔽曲線以下;另一方面要保證bitrate滿足要求。實(shí)際上這里就是要確定兩個(gè)數(shù)值:一個(gè)是確定bitrate的步進(jìn)值(gain value),另一個(gè)是削減量化噪音的增益
19、因子(ScaleFactor),這兩個(gè)系數(shù)會(huì)在正式編碼之前確定下來,確定過程由兩個(gè)嵌套的迭代回路完成:失真控制回路(Distortion Control Loop)和量化速率控制回路(Nonuniform Quantization Rate Control Loop)內(nèi)部迭代回路 (Rate Loop )量化以后的數(shù)據(jù)送進(jìn)Huffman編碼器,當(dāng)發(fā)現(xiàn)比特?cái)?shù)大于可用流量時(shí),編碼器會(huì)返回信息,讓Rate Loop調(diào)整步進(jìn)值以增大量化步長,從而讓數(shù)據(jù)流量減小。循環(huán)會(huì)一直進(jìn)行,嘗試不同的量化步長,直到Huffman編碼以后的數(shù)據(jù)流量足夠小。因?yàn)檫@個(gè)回路是用來控制碼率的,所以叫做Rate Loop。外部迭代回路 (noise control loop)顯然,這個(gè)回路的作用就是控制量化噪音(quantization noise),讓其保持在聽覺心理學(xué)提供的屏蔽臨界線(masking threshold)以下。每一個(gè)頻段都會(huì)有一個(gè)增益因子,一開始編碼器以1.0作為默認(rèn)因子,如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 誠意金協(xié)議模板(2025年度):新能源汽車訂購預(yù)付款合同
- 2025年度網(wǎng)絡(luò)安全合伙經(jīng)營股權(quán)協(xié)議書
- 二零二五年度道路施工臨時(shí)施工保險(xiǎn)合同
- 二零二五年度農(nóng)村個(gè)人房屋買賣合同附太陽能設(shè)備安裝合同
- 2025年度海外房產(chǎn)購房定金合同
- 2025年風(fēng)投項(xiàng)目優(yōu)先股投資合作協(xié)議中的投資合作區(qū)域與行業(yè)限制合同
- 二零二五年度橋梁施工場地借用安全管理責(zé)任書
- Unit 6 Whose dress is this?單元素養(yǎng)練習(xí)(含答案含聽力原文無聽力音頻)
- Unit 5 Old toys 閱讀綜合能力訓(xùn)練(含答案)
- 2025年河源道路運(yùn)輸從業(yè)資格證模擬考試年新版
- 2024年廣東省公務(wù)員考試《行測》真題及答案解析
- 皮牽引骨牽引護(hù)理
- 花城版音樂七年級下冊全冊教案
- 《游園》課件統(tǒng)編版高中語文必修下冊
- 2024至2030年中國蝴蝶蘭周轉(zhuǎn)盤數(shù)據(jù)監(jiān)測研究報(bào)告
- 家用電器產(chǎn)品使用手冊編寫指南
- 河南省瓶裝液化石油氣管理辦法(試行)
- 紅茶市場洞察報(bào)告
- 外國來華留學(xué)生經(jīng)費(fèi)管理辦法
- 蝴蝶蘭栽培技術(shù)規(guī)程
- 投標(biāo)管理制度完整版
評論
0/150
提交評論