




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、上海大學(xué)(shn hi d xu)20142015學(xué)年(xunin)秋季學(xué)期研究生課程考試文獻(xiàn)(wnxin)閱讀報(bào)告課程名稱: DSP技術(shù)及其應(yīng)用 課程編號(hào): 071000907 題目: 單通道16位、采樣頻率44.1K音頻信號(hào)壓縮,實(shí)現(xiàn)*.MP3格式的數(shù)據(jù)結(jié)構(gòu) 研究生姓名: 學(xué) 號(hào): 評(píng)語:成 績(jī): 任課教師: 評(píng)閱日期: 單通道16位、采樣率為44.1K音頻(ynpn)信號(hào)進(jìn)行壓縮,實(shí)現(xiàn)*.mp3格式的數(shù)據(jù)結(jié)構(gòu)2015/1/15摘要(zhiyo):在目前的信息社會(huì),需要應(yīng)用和傳輸大量的語音信息,這些信息中存在著大量的冗余,如果不去除掉這些冗余,在其傳輸和存儲(chǔ)的過程中,將會(huì)占用大量的資源,因
2、此,語音壓縮技術(shù)受到了人們的普遍關(guān)注。在此基礎(chǔ)上,對(duì)MP3編碼器的基本原理和基本結(jié)構(gòu)(jigu)進(jìn)行了研究,并對(duì)其幾個(gè)關(guān)鍵模塊包括心里聲學(xué)模型、子帶濾波、量化編碼等進(jìn)行了深入的研究。研究結(jié)果表明MP3要具有良好的編碼質(zhì)量,本文著重于如何將音頻信號(hào)壓縮為MP3格式。關(guān)鍵詞:MP3編解碼;音頻;算法原理;算法16-channel sampling rate of 44.1K audio signal compression, implement data structures mp3 formatAbstract:In the current information society,there i
3、s much voice information which contains mass of redundancyIt will take up vast resources in transmission and storage processes if the redundant is not removedTherefore,voice compression technology has been paid widely attentionBased on all of these,the basic principle and structure of MPEG-1 layer3
4、audio code is investigatedEspecially,several key modules such as psychoacoustic model,sub-band filtering and quantization coding are carried on further studyThe research results show that the MP3 encoding quality to have,This article focuses on how to get the audio signal compression to MP3 format 。
5、Key words:MP3 coding and decoding;audio frequency;algorithm principle;algorithm近年來,MP3(MPEG一1 layer3)播放器倍受人們的喜愛,主要因?yàn)镸P3播放器既具有出色的音質(zhì)又有大的存儲(chǔ)容量,對(duì)于數(shù)字音頻的存儲(chǔ)、處理和傳輸都提出了很高的要求,所以在保證一定質(zhì)量的基礎(chǔ)上,應(yīng)該采用一定的方法來壓縮音頻數(shù)據(jù),以達(dá)到降低碼率的目的8。MPEG一1音頻壓縮標(biāo)準(zhǔn)提供了一種高保真度,高壓縮比的壓縮算法。根據(jù)編碼計(jì)算復(fù)雜度及編碼效率的不同,分為層I、層和層 3種標(biāo)準(zhǔn),層次越高編碼后的音質(zhì)就越好,壓縮率也越高,其編碼的算法也就
6、越復(fù)雜,對(duì)計(jì)算機(jī)的能力要求也就越高。層就是應(yīng)用最為流行的MP3音樂格式,也是目前音頻領(lǐng)域中最流行的2。1 音頻壓縮基本理論1.1 數(shù)字音頻信號(hào)模擬音頻信號(hào)經(jīng)過采樣、量化、編碼得到數(shù)字化的音頻信號(hào)。其中涉及幾個(gè)重要的參數(shù)采樣頻率、采樣位數(shù)、聲道數(shù)等。1.1.1 采樣頻率即取樣頻率, 指每秒鐘取得聲音樣本的次數(shù)。采樣頻率越高,聲音的質(zhì)量也就越好,聲音的還原(hun yun)也就越真實(shí),但同時(shí)它占的資源比較多。1.1.2 采樣(ci yn)位數(shù)就是將采樣樣本幅度量化的量化位數(shù)。它是用來衡量聲音(shngyn)波動(dòng)變化的一個(gè)參數(shù),也可以說是聲卡的分辨率。它的數(shù)值越大,分辨力也就越高,所發(fā)出聲音的能力越
7、強(qiáng)。1.1.3 聲道數(shù)指所使用的聲音通道的個(gè)數(shù)。聲道有單聲道和雙聲道之分,單聲道的聲音只能使用一個(gè)聲道發(fā)聲,雙聲道的PCM可以使兩個(gè)聲道發(fā)聲(一般左右聲道有分工),更能感受到空間效果。1.1.4 比特率表示單位時(shí)間(1秒)內(nèi)傳送的比特?cái)?shù)bps(bit per second,位/秒)的速度。作為一種數(shù)字音樂壓縮效率的參考性指標(biāo),通常使用kbps(通俗地講就是每秒鐘1024比特)作為單位。1.1.5 音頻文件儲(chǔ)存量存儲(chǔ)量=(采樣頻率*采樣位數(shù)*聲道)*時(shí)間/8(單位:字節(jié)數(shù))1.2 PCM數(shù)據(jù)格式PCM編碼是Pulse Code Modulation的縮寫,又叫脈沖編碼調(diào)制,它是數(shù)字通信的編碼方式
8、之一,其編碼主要過程是將話音、圖像等模擬信號(hào)每隔一定時(shí)間進(jìn)行取樣,使其離散化,同時(shí)將抽樣值按分層單位四舍五入取整量化,同時(shí)將抽樣值按一組二進(jìn)制碼來表示抽樣脈沖的幅值。PCM中的聲音數(shù)據(jù)沒有被壓縮,PCM編碼的最大的優(yōu)點(diǎn)就是音質(zhì)好,最大的缺點(diǎn)就是體積大3。1.2.1 PCM數(shù)據(jù)的存放方式: 1.3 MP3文件格式MP3的全稱應(yīng)為MPEG1 Layer-3音頻文件。MP3文件是由幀(frame)構(gòu)成的,幀是MP3文件最小的組成單位。MP3的壓縮率則高達(dá)10:1-12:14,也就是說,一分鐘CD音質(zhì)的音樂,未經(jīng)壓縮需要10MB的存儲(chǔ)空間,而經(jīng)過MP3壓縮編碼后只有 1MB左右。1.3.1 MP3 文
9、件結(jié)構(gòu):MP3文件大體分為三部分:ID3V2,音頻數(shù)據(jù),ID3V1。其中(qzhng)ID3V2、ID3V1包含了作者,作曲,專輯等信息。音頻數(shù)據(jù)由一系列的幀構(gòu)成,用來記錄mp3 的位率,采樣率,版本等信息,每個(gè)幀又分為幀頭和數(shù)據(jù)實(shí)體兩部分,而幀的長(zhǎng)度可能不固定,也可能固定,由位率bitrate 決定。 1.3.2 MP3的數(shù)據(jù)(shj)幀格式:每一幀由幀頭和數(shù)據(jù)體構(gòu)成。數(shù)據(jù)體包括CRC校驗(yàn)位、邊信息(xnx)、主數(shù)據(jù)和附加數(shù)據(jù)構(gòu)成。1.3.3 幀長(zhǎng)度LayerIII使用公式:幀長(zhǎng)度(字節(jié))=(每幀采樣數(shù)/8*比特率)/采樣頻率)+附加數(shù)據(jù)1.3.4 每幀的持續(xù)時(shí)間每幀持續(xù)時(shí)間(毫秒)=每幀采
10、樣數(shù)/采樣頻率*10001.3.5 主數(shù)據(jù)(MAIN_DATA)主數(shù)據(jù)是音頻文件中的主要信息部分,壓縮率越大,則主數(shù)據(jù)的數(shù)據(jù)量越少。主數(shù)據(jù)部分長(zhǎng)度是否變化決定于幀頭的位率是否變化,一首MP3歌曲,kbps(比特率)表明了音樂每秒的數(shù)據(jù)量,Kbps 值越高,音質(zhì)越好,文件也越大,MP3標(biāo)準(zhǔn)規(guī)定,不變的bitrate的MP3文件稱作CBR,大多數(shù)MP3文件都是 CBR的,而變化的bitrate的MP3文件稱作VBR,每個(gè)FRAME的長(zhǎng)度都可能是變化的。1.4 MP3編碼流程圖原始的PCM樣值信號(hào)首先通過分析多相濾波器組,該濾波器將輸入信號(hào)分為32個(gè)等頻寬的子頻帶信號(hào)。然后通過改進(jìn)的離散余弦變換(M
11、DCT,Modified Discrete Cosine Transform),將每個(gè)子帶的時(shí)域信號(hào)映像到頻域。同時(shí),輸入信號(hào)經(jīng)過FFT后通過心理聲學(xué)模型,以確定每一子帶的信掩比SMR。最后將編碼后的數(shù)據(jù)、邊信息及其它所有數(shù)據(jù)按照MP3所規(guī)定的格式封裝成比特流輸出。1.4.1 分析多相濾波器組MPEG-1/Audio使用了32通道的偽標(biāo)準(zhǔn)正交鏡像濾波器組(PQMF)技術(shù),把輸入的音頻信號(hào)分解為32個(gè)等頻寬的子頻帶信號(hào),每個(gè)子帶的分析濾波器均是由同一個(gè)原型低通濾波器h(n)通過不同頻率和相位的調(diào)制而得。在MP3編碼中采用了分節(jié)處理的方法,即將每一幀數(shù)據(jù)分為兩節(jié)來處理,每節(jié)的樣本數(shù)為576,兩節(jié)數(shù)
12、據(jù)的處理方法基本相同,都是將他們分成32個(gè)子帶分別量化。采用對(duì)每個(gè)子帶分別編碼來處理音頻信號(hào),主要有兩個(gè)優(yōu)點(diǎn)。第一,可根據(jù)每個(gè)子帶信號(hào)在感覺上的重要性,對(duì)每個(gè)子帶合理的分配比特?cái)?shù),就可能分別控制各子帶的量化電平數(shù)目以及相應(yīng)的重建信號(hào)的量化誤差(wch)方差值,獲得更好的主觀聽音質(zhì)量。例如,音頻信號(hào)主要集中在低頻,對(duì)低頻帶的子帶可以用較多的比特?cái)?shù)來表示其樣值;而噪聲通常出現(xiàn)高頻段,對(duì)于高頻帶的子帶我們可以分配比較少的比特。第二,對(duì)各子帶分別進(jìn)行量化編碼,各子帶內(nèi)的量化嗓音相互間獨(dú)立,被束縛在自己的子帶內(nèi),這樣就避免(bmin)輸入電平較低的子帶信號(hào)被其它子帶的量化噪音所淹沒。1.4.2 MDCT
13、這一過程中,32個(gè)子帶的信號(hào)經(jīng)加窗截取后進(jìn)行(jnxng)修正的離散余弦變換,實(shí)現(xiàn)了時(shí)域到頻域的轉(zhuǎn)換7。在頻域中比在時(shí)域中處理音頻信號(hào)的好處要多。相鄰音頻信號(hào)間在時(shí)域內(nèi)存在著較強(qiáng)的相關(guān)性,通過信號(hào)由時(shí)域到頻域的轉(zhuǎn)換,可以消除信號(hào)問的相關(guān)性,且頻域信號(hào)依頻譜由低到高,對(duì)人的聽覺系統(tǒng)的影響從強(qiáng)到弱。頻域內(nèi)的音頻信號(hào)具有能量的集中性(低頻分量的能量較高頻強(qiáng))和影響力的有序性的特點(diǎn),因而一般的音頻處理都會(huì)轉(zhuǎn)換到頻域處理。1.4.3 心理聲學(xué)模型人耳的聽力范圍是20Hz-20k Hz的頻率范圍,但是人耳對(duì)不同的頻率聲音的靈敏度是不同的,不同頻率的聲音要達(dá)到能被人耳聽到的水平所需要的強(qiáng)度是不一樣。那么通過
14、計(jì)算,可以把音樂文件中存在但不能被人耳聽到的聲音去掉。通過這原理,我們還可以建立模型,把大部分?jǐn)?shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍,其余頻率分配比較少的空間9。遮蔽效應(yīng)表現(xiàn)在強(qiáng)信號(hào)會(huì)遮蔽鄰近頻率的弱信號(hào)6。用生活經(jīng)驗(yàn)來說,在安靜的房間中,一根針掉到地上都能聽見,可到了大街上,就算手機(jī)音量調(diào)到最大,來電時(shí)也未必能聽見,而手機(jī)的聲音確確實(shí)實(shí)是存在的,原因就是被周圍更大的聲音遮蔽了。有了對(duì)遮蔽效應(yīng)的研究成果,編碼器就能根據(jù)已建立的數(shù)學(xué)模型,計(jì)算強(qiáng)信號(hào)對(duì)附近弱信號(hào)的遮蔽,把能引起人們注意的聲音才保留。1.4.4 非線性量化量化是為了用有限的二進(jìn)制數(shù)表示離散化的音頻信號(hào)樣值,必須將連續(xù)的樣值
15、進(jìn)行離散化處理,這個(gè)過程就是量化過程。量化按照它的量階的關(guān)系可以分為線性量化和非線性量化,線性量化可以適當(dāng)?shù)谋硎据^大的聲音,但是對(duì)于大部分的輕聲,我們將得到相同的二進(jìn)制的值,這樣就無法把輕聲分頻,會(huì)大大的損害語音的音質(zhì);為了解決這個(gè)問題,我們采取不同的步階,就是根據(jù)信號(hào)的振幅而采取不同的步階大小(step size),這樣就可以在信號(hào)的振幅時(shí)的到較多的二進(jìn)制值,能夠很好的把低聲分頻,從而可以得到較好的音質(zhì)。1.4.5 Huffman編碼Huffman編碼是一種比較常用的變長(zhǎng)編碼方法,其主導(dǎo)思想是根據(jù)數(shù)據(jù)符號(hào)發(fā)生(fshng)的概率進(jìn)行編碼7。在數(shù)據(jù)中出現(xiàn)概率(gil)越高的符號(hào),相應(yīng)的碼長(zhǎng)越短
16、:出現(xiàn)概率越低的符號(hào),其碼長(zhǎng)越長(zhǎng),從而達(dá)到用盡可能少的碼符號(hào)表示源數(shù)據(jù)。Huffman編碼需對(duì)原始數(shù)據(jù)進(jìn)行兩遍掃描,第一遍統(tǒng)計(jì)原始數(shù)據(jù)中各字符出現(xiàn)的頻率,由此創(chuàng)建Huffman樹并將其有關(guān)信息保存起來,以便解壓時(shí)使用:第二遍則根據(jù)所得到的Huffman樹對(duì)原始數(shù)據(jù)進(jìn)行編碼,并將編碼信息保存起來。根據(jù)源數(shù)據(jù)符號(hào)出現(xiàn)(chxin)的概率,求出各個(gè)符號(hào)出現(xiàn)的權(quán)值W1,W2,Wn構(gòu)成n棵二叉樹的集合F=T1,T2,Tn,其中每棵二叉樹Ti中只有一個(gè)帶權(quán)為Wi的根結(jié)點(diǎn),其左右子數(shù)為空。 在F中選取兩棵根結(jié)點(diǎn)的權(quán)值最小的樹作為左右子樹構(gòu)造一新的二叉樹,設(shè)置新二叉樹的根結(jié)點(diǎn)的權(quán)值為左、右子樹上根結(jié)點(diǎn)權(quán)值之和
17、。 在F中刪除所選取的兩棵子樹,同時(shí)將構(gòu)成得到新二叉樹加入到F中。重復(fù) 、 直到F中只包含一個(gè)二叉樹為止,這棵樹便是Huffman樹。2 MATLAB實(shí)現(xiàn)及代碼2.1 lame編碼器LAME是最好的MP3編碼器,編碼高品質(zhì)MP3的最好也是唯一的選擇。LAME本身是DOS下的文件,需要加外殼程序才比較容易使用,也可以在別的軟件(比如EAC)中間調(diào)用。是一款出色的MP3壓縮程序,它使用了獨(dú)創(chuàng)的人體聽音心理學(xué)模型和聲學(xué)模型,改變了人們對(duì)MP3高音發(fā)啞、低音發(fā)破的音質(zhì)的印象。LAME分DLL和EXE兩種版本,DLL版本做為一個(gè)方便的接口程序在大多數(shù)抓軌軟件中都能看到,但由于可控性差,與具備豐富調(diào)節(jié)參數(shù)
18、的EXE版相比,其壓縮出來的MP3效果稍遜一籌。2.2 MATLAB代碼function mp3write(Y,FS,NBITS,ENCODING,MP3FILE)s = which(mp3write.m);ww = findstr(mp3write.m,s);lame = s(1:ww-2);wavwrite(Y,FS,NBITS,strcat(lame,temp.wav);tmpfile = strcat(lame,temp.wav);MP3FILE = strcat(pwd,MP3FILE);ENCODING = num2str(ENCODING);switch ENCODING cas
19、e 1 cmd = lame,lame, -quiet, , tmpfile, ,MP3FILE; case 2 cmd = lame,lame, -quiet, -b 128 , tmpfile, ,MP3FILE; case 3 cmd = lame,lame, -quiet, -abr 112 , tmpfile, ,MP3FILE; case 4 cmd = lame,lame, -quiet, -f , tmpfile, ,MP3FILE; case 5 cmd = lame,lame, -quiet, -h , -V , tmpfile, ,MP3FILE; otherwise e
20、rror(Encoding parameters not suported) enddos(cmd);delete(tmpfile);mp3write函數(shù)通過cmd設(shè)置lame的不同的MP3壓縮格式(g shi),再利用dos調(diào)用cmd的壓縮命令,從而實(shí)現(xiàn)了不同的壓縮效果。3 結(jié)束語本文理論部分首先音頻壓縮相關(guān)的基本音頻知識(shí)以及相關(guān)的音頻信號(hào)格式的介紹。并且從MPEG一1標(biāo)準(zhǔn)的角度,詳細(xì)分析了MP3編碼算法壓縮標(biāo)準(zhǔn)的原理以及編碼的主要流程。深入的學(xué)習(xí)(xux)了MP3編碼的基礎(chǔ)知識(shí),掌握了MP3的編碼算法理論。實(shí)驗(yàn)部分通過對(duì)錄制好的wave音頻文件格式壓縮為MP3音頻文件,再保證音質(zhì)基本不變的
21、情況,實(shí)現(xiàn)了壓縮比約為10:1的效果,極大改善了在音頻信號(hào)在傳輸過程中便捷。通過研究發(fā)現(xiàn),如果對(duì)主要的心理聲學(xué)模型、量化模塊和分析濾波器組的算法進(jìn)行創(chuàng)新的改進(jìn),最終MP3的編碼速度和質(zhì)量會(huì)有較大的提高M(jìn)P3編碼器算法的改進(jìn)和優(yōu)化將成為計(jì)算機(jī)科學(xué)領(lǐng)域中一個(gè)重要的研究方向。參考文獻(xiàn):1張琦MPEG標(biāo)準(zhǔn)的發(fā)展(fzhn)J現(xiàn)代電聲技術(shù),2003(3):124-1292謙君3G移動(dòng)語音編碼標(biāo)準(zhǔn)介紹J無線技術(shù),2006(9):97-98QIAN JunMobile 3G speech coding standard introductionJWireless Technology ,2006(9):97
22、-983李昌立,吳善培數(shù)字語音-語音編碼實(shí)用教程M.北京:人民郵電出版社20044Michael Mc Candless,The MP3 revolutionJIEEE Intelligent Systems Archive,1999,14(3):8-95豐帆MP3數(shù)字音頻編解碼算法的研究及實(shí)現(xiàn)J西安電子科技大學(xué),2008(1):3-5FENG FanMP3 digital audio code algorithm research and RealizationJXian Electronic and Science University,2008(1):3-56張力光,王讓定心理聲學(xué)模型及
23、其在MP3編碼(bin m)中的應(yīng)用J寧波大學(xué)學(xué)報(bào):理工版,2010,23(3):27-30ZHANG Li-guang,WANG Rang-dingPsychoacoustic model and its application in MP3 codingJJournal of Ningbo University:Science and Technology,2010,23(3):27-307HUANG Li-qun,WANG Yu-liang,GONG PingAn improved construction method of Qc-LDPC codes based on the PEG
24、 algorithm C/Circuits, Communications and System(PACCS),2011:1-48Fossorier M P CQuasi-cyclic low-density parity-check codes from circulant permutation matricesJIEEE Transactions on Information Theory,2004,50(8):178817939Sullivan M E OAlgebraic construction of sparse matrices with large girthJIEEE Transactions on Information Theory,F(xiàn)ebruary 2006,52(2):719-72710LI Li-xin,CHEN Zheng-kang,F(xiàn)AN Jie,et a1Implementation of LDPC codes decoding based on maximum average mutual information quantizationJ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- (二模)晉中市2025年高三高考二模 語文試卷(含A+B卷答案詳解)
- 2.2聲音的特性說課稿2025年初中人教版物理八年級(jí)上冊(cè)
- 微整顧客協(xié)議書
- 需求導(dǎo)向性干預(yù)下行無縫隙護(hù)理在腹腔鏡子宮肌瘤剔除術(shù)圍術(shù)期的干預(yù)效果分析
- 住宅裝修設(shè)計(jì)協(xié)議
- 文化創(chuàng)意產(chǎn)業(yè)內(nèi)容創(chuàng)新與市場(chǎng)推廣方案
- 商業(yè)房產(chǎn)交易居間合同范本
- 提升客戶滿意度服務(wù)質(zhì)量方案
- 提高客戶服務(wù)質(zhì)量與滿意度的實(shí)施方案
- 產(chǎn)品設(shè)計(jì)與生產(chǎn)制造委托協(xié)議
- 2025年兒科常見面試題及答案
- (一模)贛州市2025年高三年級(jí)摸底考試物理試卷(含標(biāo)準(zhǔn)答案)
- 數(shù)學(xué)-湖北省武漢市2025屆高中畢業(yè)生二月調(diào)研考試(武漢二調(diào))試題和解析
- 【公開課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級(jí)下冊(cè)+
- 學(xué)術(shù)英語智慧樹知到答案2024年南開大學(xué)
- 【部編版道德與法治六年級(jí)下冊(cè)】全冊(cè)測(cè)試卷(含答案)
- GB/T 10752-2005船用鋼管對(duì)焊接頭
- 現(xiàn)代商業(yè)空間展示設(shè)計(jì)ppt
- 高家堡副井井筒壁座施工安全技術(shù)措施
- 世界貿(mào)易組織(WTO課件(25頁(yè)P(yáng)PT)
- FMEA第五版表格(實(shí)例)
評(píng)論
0/150
提交評(píng)論