第一章多媒體數(shù)據(jù)壓縮簡介_第1頁
第一章多媒體數(shù)據(jù)壓縮簡介_第2頁
第一章多媒體數(shù)據(jù)壓縮簡介_第3頁
第一章多媒體數(shù)據(jù)壓縮簡介_第4頁
第一章多媒體數(shù)據(jù)壓縮簡介_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

多媒體數(shù)據(jù)壓縮華南理工大學(xué)計算機科學(xué)與工程學(xué)院沃焱woyan@基本內(nèi)容第一篇數(shù)據(jù)編碼基礎(chǔ)概論信源的數(shù)字化與壓縮系統(tǒng)評價信息理論基礎(chǔ)與無損編碼預(yù)測編碼和變換編碼第二篇靜態(tài)圖像壓縮技術(shù)圖象信號的基本知識JPEG壓縮標(biāo)準(zhǔn)小波變換編碼的基本方法JPEG2000壓縮標(biāo)準(zhǔn)第三篇視頻圖象編碼標(biāo)準(zhǔn)概要MPEG簡介MPEG-2標(biāo)準(zhǔn)的視頻部分MPEG-4、MPEG-7標(biāo)準(zhǔn)簡介參考書籍:視頻壓縮與音頻編碼技術(shù)精英科技編著中國電力出版社2001圖像編碼基礎(chǔ)和小波壓縮技術(shù)——原理、算法和標(biāo)準(zhǔn)張旭東等編著清華大學(xué)出版社2004數(shù)據(jù)壓縮原理與應(yīng)用(第二版)DavidSalomon著電子工業(yè)出版社2003數(shù)據(jù)壓縮(第二版),吳樂南,電子工業(yè)出版社,2005網(wǎng)站:/參考文獻根據(jù)各章所列多媒體數(shù)據(jù)壓縮簡介第一章概論1.1什么是數(shù)據(jù)壓縮?1.2多媒體數(shù)據(jù)壓縮的必要性及基本途徑1.3數(shù)據(jù)壓縮編碼的分類1.4多媒體數(shù)據(jù)壓縮的應(yīng)用和標(biāo)準(zhǔn)1.1什么是數(shù)據(jù)壓縮?信源編碼:主要解決有效性問題。通過壓縮、擾亂、加密處理,力求用最少的數(shù)碼傳遞最大的信息量,使信號更適宜傳輸。數(shù)字傳輸系統(tǒng)模型:信源

信源編碼

信道編碼

調(diào)制

傳輸通道

解調(diào)

信宿

信源解碼

信道解碼

信道編碼:主要解決可靠性問題。即盡量使處理過的信號在傳輸過程中不出錯,并能自動檢錯和糾錯。數(shù)據(jù)壓縮的定義

信號空間的幾種形式是相互關(guān)聯(lián)的:物理空間=F(時間*帶寬)只要采用某種方法來減少某一種信號空間都能壓縮。

所謂的數(shù)據(jù)壓縮就是以最少的數(shù)碼表示信源所發(fā)的信號,減少容納給定消息集合或數(shù)據(jù)采樣集合的信號空間。

所謂的信號空間即被壓縮的對象,它是指:1)物理空間,如存儲器和光盤等數(shù)據(jù)存儲介質(zhì)。2)時間區(qū)間,如傳輸給定消息集合所需的時間;3)頻帶區(qū)域:如傳輸給定消息集合所要求的帶寬等。例如視頻信號:*有效尺寸為320×240的窗口中,以25幀/秒的速度播放1分鐘的視頻信號(顏色數(shù)為24bit),其數(shù)據(jù)量為:320×240×24×25×60÷8=345,600,000B*一張600MB的光盤最多能存儲不超過2分鐘的視頻。1.2多媒體數(shù)據(jù)壓縮的必要性及基本途徑1.2.1多媒體數(shù)據(jù)壓縮的必要性多媒體技術(shù)所處理的對象包括圖像、視頻和聲音等多種媒體。它們的數(shù)據(jù)量非常大。分鐘數(shù)字音頻信號需要的存儲空間1多媒體信源引起了“數(shù)據(jù)爆炸”。如果不進行數(shù)據(jù)壓縮傳輸和存儲都難以實用化。對多媒體數(shù)據(jù)進行壓縮是非常必要的!1.2.2數(shù)據(jù)壓縮的條件與途徑數(shù)據(jù)壓縮“歷史悠久”,已經(jīng)發(fā)展了近70年,但直到20世紀(jì)80年代以后才不斷涌現(xiàn)出適合各種應(yīng)用場合的編碼和壓縮算法。數(shù)據(jù)能夠進行壓縮的兩個原因:(1)數(shù)據(jù)冗余度

音頻信號和視頻信號等原始數(shù)據(jù)通常存在很多用處不大的空間,空間越多,數(shù)據(jù)的“冗余度”也越大。通過數(shù)據(jù)的壓縮,將把這些不用的空間去掉。

(2)人類不敏感因素

人耳對某些頻率的音頻信號不敏感,有無這些頻率的音頻,在聽覺上影響不大,在數(shù)據(jù)壓縮時,就可去掉這些不敏感的成分,以使減少數(shù)據(jù)量。人眼也存在“視覺掩蓋效應(yīng)”,即對亮度比較敏感,而對邊緣的強烈變化不敏感;并且對彩色細(xì)節(jié)的分辨能力遠(yuǎn)比亮度細(xì)節(jié)的分辨能力低。數(shù)據(jù)壓縮途徑——消除冗余數(shù)據(jù)的冗余性

數(shù)據(jù)之所以能夠壓縮是基本原始信源的數(shù)據(jù)存在著很大的冗余度。一般來說,多媒體數(shù)據(jù)中存在以下種類的數(shù)據(jù)冗余。1.空間冗余空間冗余是靜態(tài)圖像中存在的最主要的一種數(shù)據(jù)冗余。同一景物表面上采樣點的顏色之間往往存在著空間連貫性,但是基于離散像素采樣來表示物體顏色的方式通常沒有利用這種連貫性。例如:圖像中有一片連續(xù)的區(qū)域,其像素為相同的顏色,空間冗余產(chǎn)生。2.時間冗余這是序列圖像(電視圖像、動畫)和言語數(shù)據(jù)中所經(jīng)常包含的冗余。圖像序列中的兩幅相鄰的圖像,后一幅圖像與前一幅圖像之間有較大的相關(guān)性,這反映為時間冗余。同理,在言語中,由于人在說話時發(fā)音的音頻是一連續(xù)的漸變過程,而不是一個完全在時間上獨立的過程,因而存在時間冗余。3.信息熵冗余信息熵是信息論中用于度量信息量的一個概念。指一組數(shù)據(jù)所攜帶的信息量。解除不確定性的多少,可以作為信息的度量。不確定性——概率一個系統(tǒng)越是有序,信息熵就越??;反之,一個系統(tǒng)越是混亂,信息熵就越大。信息熵可以說是系統(tǒng)有序化程度的一個度量。信息熵冗余是數(shù)據(jù)所攜帶信息量少于數(shù)據(jù)本身而反映出的數(shù)據(jù)冗余。

第一種編碼方式第二種編碼方式平均編碼長度平均編碼長度存在熵冗余4.結(jié)構(gòu)冗余5.知識冗余有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖像有固定的結(jié)構(gòu),嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正面圖像的中線上等等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到,我們稱此類冗余為知識冗余。6.認(rèn)知(視覺聽覺)冗余人類視覺系統(tǒng)對于圖像場的任何變化,并不是都能感知的。例如,對于圖像的編碼和解碼處理時,由于壓縮或量化截斷引入了噪聲而使圖像發(fā)生了一些變化,如果這些變化不能為視覺所感知,則仍認(rèn)為圖像足夠好。事實上人類視覺系統(tǒng)一般的分辨能力約為26灰度等級,而一般圖像量化采用28灰度等級,這類冗余我們稱為視覺冗余。對于聽覺,也存在類似的冗余。數(shù)據(jù)壓縮的途徑——消除冗余數(shù)據(jù)壓縮就是去掉信號數(shù)據(jù)的冗余性。數(shù)據(jù)壓縮常常又稱為數(shù)據(jù)信源編碼,或簡稱為數(shù)據(jù)編碼。與此對應(yīng),數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮,也稱為數(shù)據(jù)信源解碼,或簡稱為數(shù)據(jù)解碼。1.3數(shù)據(jù)壓縮編碼的分類1.3.1壓縮和解壓縮過程

數(shù)據(jù)壓縮的典型操作包括預(yù)準(zhǔn)備、處理、量化和編碼等過程,圖給出了它們的操作序列。數(shù)據(jù)可以是靜止圖像、視頻和音頻數(shù)據(jù)等。數(shù)據(jù)壓縮的主要步驟

(1)預(yù)準(zhǔn)備包括模數(shù)轉(zhuǎn)換和生成適當(dāng)?shù)臄?shù)據(jù)表達(dá)信息。一幅圖像分割成8x8像素的塊,每一像素以固定的數(shù)據(jù)位表達(dá)。(2)處理實際上是使用復(fù)雜算法壓縮處理的第一個步驟。從時域到頻域的變換可以用離散余弦變換(DCT,DiscreteCosineTransform)。在活動視頻壓縮中,對幀間每個8x8塊采用運動矢量編碼。(3)量化量化過程對上一步驟產(chǎn)生的結(jié)果進行處理,該過程定義了從實數(shù)到整數(shù)映射方法。這一處理過程導(dǎo)致精度的降低。(4)熵編碼熵編碼通常是最后一步。它對序列數(shù)據(jù)流進行無損壓縮。例如,數(shù)據(jù)流中一零值序列可以通過定義零值本身和后面的重復(fù)個數(shù)來進行壓縮?!疤幚怼焙汀傲炕笨梢栽诜答伃h(huán)中交互地重復(fù)多次。解壓縮是壓縮的逆過程,特定的編碼器和解碼器以不同的方法構(gòu)成。在對稱應(yīng)用中(如對話應(yīng)用),編碼和解碼代價應(yīng)基本相同;在非對稱應(yīng)用中,解碼過程比編碼過程耗費的代價要小,這種技術(shù)用于以下情形:(1)壓縮的過程僅一次,采樣的時間不限;(2)解壓縮經(jīng)常用到并需要迅速完成。例如,一個音頻-視頻電子教材僅需要生成一次,但它可以被許多學(xué)生使用。因此,它需要多次被解碼。在這種情況中,實時解碼成為基本要求,而編碼則不需要實時完成。這種非對稱處理可以用來提高多媒體的質(zhì)量。1.3.2數(shù)據(jù)壓縮技術(shù)的分類按壓縮過程的可逆性進行分類,可分無損壓縮和有損壓縮。無損壓縮是指使用壓縮后的數(shù)據(jù)進行重構(gòu)(或者叫做還原,解壓縮),重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同;無損壓縮用于要求重構(gòu)的信號與原始信號完全一致的場合。

有損壓縮是指使用壓縮后的數(shù)據(jù)進行重構(gòu),重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)有所不同,但不影響人對原始資料表達(dá)的信息造成誤解。有損壓縮適用于重構(gòu)信號不一定非要和原始信號完全相同的場合。根據(jù)壓縮的原理可以分類:預(yù)測編碼利用空間中相鄰數(shù)據(jù)的相關(guān)性來預(yù)測未來點的數(shù)據(jù)。差分脈沖編碼調(diào)制和自適應(yīng)差分脈沖編碼調(diào)制。變換編碼將圖象時域信號變換到頻域空間上處理。時域空間有強相關(guān)的信號,反映在頻域上是某些特定的區(qū)域內(nèi)能量常被集中在一起,從而實現(xiàn)壓縮。如正交變換、離散余弦變換、離散付立葉變換和Walsh-Hadamard變換。量化和矢量量化編碼為了使整體量化失真最小,就必須依照統(tǒng)計的概率分布設(shè)計最優(yōu)的量化器。信息熵編碼根據(jù)信息熵原理,讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長的碼字表示。最常見的方法有Huffman編碼、Shannon編碼以及算術(shù)編碼。子帶編碼使用帶通濾波器組將信號頻帶分割成若干個子頻帶,然后分別處理。模型編碼編碼時首先將圖像中邊界、輪廓、紋理等結(jié)構(gòu)特征找出來,保存這些參數(shù)信息。解碼時根據(jù)結(jié)構(gòu)和參數(shù)信息進行合成,恢復(fù)出原圖像。具體方法有輪廓編碼、域分割編碼、分析合成編碼、識別合成編碼、基于知識的編碼、分形編碼等。

壓縮比高恢復(fù)后的失真小壓縮算法要簡單、速度快壓縮能否用硬件實現(xiàn)1.3.3數(shù)據(jù)壓縮技術(shù)實現(xiàn)的衡量標(biāo)準(zhǔn)1.4多媒體數(shù)據(jù)壓縮的應(yīng)用及標(biāo)準(zhǔn)數(shù)據(jù)壓縮技術(shù)的研究已有六十多年,可分為兩類:1)基于冗余度的壓縮技術(shù),第一代壓縮方法

基于信息論的理論,它采用一般信號方法來消除數(shù)據(jù)中的冗余。它著眼于信源的統(tǒng)計特性,而不關(guān)心數(shù)據(jù)的具體內(nèi)容,也很少考慮人類的特性;

80年成熟,有國際標(biāo)準(zhǔn),有應(yīng)用。國際標(biāo)準(zhǔn)有:JPEGMPEG1H.261H.262(MPEG2)H.2632)基于人類視覺特性技術(shù),第二代壓縮方法

該方法依賴人的聽覺和視覺特性來研究。用物體的集合來表示圖象,而不是用像素。有國際標(biāo)準(zhǔn),但少應(yīng)用。如MPEG4,JPEG200等1.4.1壓縮編碼研究史1938年里夫斯(Reeves)、1946年德勞雷恩(E.m.Delorain)以及貝爾公司的卡特勒(C.C.Cutler)分別發(fā)明了脈沖編碼調(diào)制(PulseCodeModulation,PCM)、增量調(diào)制(DeltaModulation,?М)以及差分脈沖編碼調(diào)制(DifferentialPCM,DPCM)。1948年提出電視信號數(shù)字化后,就開始了圖像壓縮編碼的研究工作。1948年香農(nóng)(C.E.Shannon)在其經(jīng)典論文“通信的數(shù)學(xué)原理”中首次提到信息率失真函數(shù)概念,1959年又進一步確立了率失真理論,從而奠定了信源編碼的理論基礎(chǔ)。

1952年霍夫曼(D.A.Huffman)給出最優(yōu)變長碼的構(gòu)造方法。同年貝爾實驗室的奧利弗(B.M.Oliver)等人開始研究線性預(yù)測編碼理論;1958年格雷哈姆(Graham)用計算機模擬法研究圖像的DPCM編碼方法;1966年奧尼爾(J.B.O’Neal)對比分析了DPCM和PCM,對電視信號傳輸進行了理論分析和計算機模擬,并提出了用于電視的實驗數(shù)據(jù),又于1969年進行了線性預(yù)測的實驗。20世紀(jì)60年代,科學(xué)家們也開始探索比預(yù)測編碼效率更高的編碼方法。人們首先討論了包括KL變換、傅立葉變換等正交變換。1968年安德魯斯(H.C.Andrews)等人采用二維離散傅立葉變換(2D-DFT)提出了變換編碼。此后相繼出現(xiàn)了沃爾什-哈達(dá)瑪(Walsh-Hadamard)變換、斜變換(Slant變換,由Enomoto和Shibata引入)、K-L變換、離散余弦變換(DCT)等。1976年美國貝爾系統(tǒng)的克勞切(R.E.Crochjiere)等人引入了語音的子帶編碼,1985年奧尼爾(S.D.O’Neil)將子帶編碼推廣到對圖像的編碼。1983年瑞典的Forchheimer和Fahlander提出了基于模型圖像編碼(Model-BasedCoding)。1986年,Meyer在理論上證明了一維小波函數(shù)的存在,創(chuàng)造性地構(gòu)造出具有一定衰減特性的小波函數(shù)。1987年Mallat提出了多尺度分析的思想及多分辨率分析的概念,成功地統(tǒng)一了在此之前各種具體小波的構(gòu)造方法,提出了相應(yīng)的快速小波算法——Mallat算法,并把它有效地應(yīng)用于圖像分解和重構(gòu);1989年,小波變換開始用于多分辨率圖像描述。與小波變換的提出幾乎同時,另外一些科學(xué)家探討了使用分?jǐn)?shù)維理論進行數(shù)據(jù)壓縮。1988年美國Georgia理工學(xué)院的M.F.Barnsley在BYTE上發(fā)表了分形壓縮方法,1992年A.Jacquin實現(xiàn)分塊迭代函數(shù)系統(tǒng)(PIFS),完善了分形編碼壓縮方法。1988年在圖像壓縮編碼的發(fā)展歷史中是極為重要的一年。幾十年研究的成果集中表現(xiàn)在確定了H.261和JPEG兩個建議的原理框架,奠定了20世紀(jì)90年初相繼提出的MPEG-1、MPEG-2、H.263等標(biāo)準(zhǔn)的基礎(chǔ)。1991年3月,“聯(lián)合圖片專家組”(JPEG,JointPhotographicExpertGroup)提出JPEG標(biāo)準(zhǔn)草案,1994年正式通過(ISO10918)。1991年為二值圖像編碼制訂了JBIG標(biāo)準(zhǔn)(ISO11544)。新的JPEG版本是JPEG-LS(ISO/IEC14495,1999),和JPEG2000(ISO/IEC15444,等同的ITU-T編號T.800),于1999年3月形成工作草案,2000年正式頒布的。JPEG的這些標(biāo)準(zhǔn)主要應(yīng)用于靜止圖像處理。1992年,“運動圖片專家組”(MPEG,MovingPictureExpertGroup)提出了“用于數(shù)字存儲媒體運動圖像及其伴音率為1.5Mbit/s的壓縮編碼”,簡稱為MPE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論