第8講多媒體數(shù)據(jù)壓縮

上傳人：q*** IP屬地：湖北上傳時間：2022-06-25 格式：PPTX 頁數(shù)：67 大小：553.40KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、8.1 多媒體數(shù)據(jù)壓縮概述8.2 多媒體數(shù)據(jù)壓縮方法8.3 多媒體數(shù)據(jù)壓縮編碼的標(biāo)準(zhǔn)多媒體數(shù)據(jù)量很大，需要進(jìn)行壓縮處理，而多媒體數(shù)據(jù)本身存在很大的冗余度，使其可以被壓縮。8.1.1 多媒體數(shù)據(jù)壓縮的必要性8.1.2 多媒體數(shù)據(jù)壓縮的可能性8.1.3 多媒體數(shù)據(jù)壓縮的相關(guān)問題多媒體應(yīng)用中涉及到的媒體有文字、圖形、圖像、音頻、動畫、視頻等。其中文字的數(shù)據(jù)量較小，一本書的文本文件大概只要幾百字節(jié)；圖形文件的數(shù)據(jù)量和其表達(dá)內(nèi)容以及文件格式等相關(guān)，數(shù)據(jù)量通常大于文字媒體；計算機(jī)制作的動畫通常是基于兩種格式，一種是基于矢量格式的，一種是基于點陣格式，基于矢量格式的動畫的數(shù)據(jù)量小于基于點陣格式的動畫；絕大部

2、分的媒體如圖像、音頻及視頻的數(shù)據(jù)量都非常大，表8-1列舉了一些多媒體數(shù)據(jù)的數(shù)據(jù)量。以多媒體視頻為例，如果圖像的分辨率為640像素 480像素，每個像素使用三個字節(jié)（即24位）來存儲，采用PAL制傳輸，即幀頻為25幀/秒，那么一秒的數(shù)據(jù)量大約是176MB，普通的容量為650MB左右的CD-ROM光盤，只能存儲不到30秒的數(shù)據(jù)，而且傳輸速率為176Mbit/s，普通網(wǎng)絡(luò)的帶寬很難承受。由此可見，多媒體應(yīng)用中面對著存儲和傳輸兩個問題，對于這兩個問題，可以從硬件和軟件兩個方面來解決。在硬件方面，隨著計算機(jī)技術(shù)的發(fā)展，存儲介質(zhì)的容量、傳輸速率以及系統(tǒng)和網(wǎng)絡(luò)的傳輸速度都在不斷提高，但硬件在發(fā)展，多媒體應(yīng)用

3、的需求也在發(fā)展，現(xiàn)在硬件發(fā)展的速度和程度仍然不能和當(dāng)前多媒體應(yīng)用的需求相匹配。所以，面對數(shù)字化了的音頻、視頻信號巨大的數(shù)據(jù)量，單靠硬件技術(shù)的提高是不夠的，對媒體數(shù)據(jù)的壓縮才是最終的解決方案。所謂壓縮就是把媒體的數(shù)據(jù)量變小，然后再進(jìn)行存儲和傳輸，當(dāng)應(yīng)用時再從數(shù)據(jù)量小的文件中恢復(fù)回原來的媒體表達(dá)。多媒體數(shù)據(jù)必須進(jìn)行壓縮才可以解決多媒體數(shù)據(jù)的存儲和傳輸問題，才可以有效地利用有限資源，節(jié)省存儲空間，提高傳輸效率。多媒體數(shù)據(jù)之所以能夠被壓縮，主要基于兩個原因，一是由于人的視覺和聽覺的生理局限性；二是由于音頻、圖像、視頻等數(shù)據(jù)的冗余度很大，具有很大的壓縮潛力。下面分別討論。1感官的生理局限性2多媒體數(shù)據(jù)的

4、冗余人類的聽覺和視覺等感覺器官受人體機(jī)能的限制，具有一定的局限性。（1）聽覺局限性：主要表現(xiàn)在三個方面，一是人的聽覺具有掩蔽效應(yīng)，強(qiáng)弱不同的聲音同時存在時，強(qiáng)聲會使弱聲難以被聽見；二是人耳對不同頻段的聲音敏感程度不同，通常對低頻信號更敏感些；三是人耳對語音信號相位變化不敏感。（2）視覺局限性：主要表現(xiàn)在兩個方面，一是人類視覺的掩蓋效應(yīng)，對圖像場的某些變化感覺不靈敏；二是視覺系統(tǒng)的色彩分辨能力有限，一般只有6位灰度級，一個真彩系統(tǒng)可以表達(dá)16777216種不同顏色，而一個專家能識別的顏色也就只有幾百種，通常說來人類對圖像色彩的感知能力遠(yuǎn)不如對亮度的感知能力。音頻、圖像、視頻這些多媒體數(shù)據(jù)最終是

5、要由人類的感覺器官來感知的，因此對多媒體數(shù)據(jù)的記錄和存儲要充分利用聽覺系統(tǒng)和視覺系統(tǒng)的特點，對于人的感官感覺不到的信息或不敏感的信息可以進(jìn)行必要的舍棄，避免做無用功。除了人的感官方面的局限性之外，實際上圖像、音頻和視頻數(shù)據(jù)本身也具有很大的冗余性。（1）空間冗余（2）時間冗余（3）統(tǒng)計冗余（4）結(jié)構(gòu)冗余（5）知識冗余（1）空間冗余：一幅靜態(tài)圖像中，物體和背景的表面顏色常常具有空間連貫性，如一堵白墻的圖像，盡管上面可能掛著其他東西需要存儲，但是整個墻的背景顏色都是白色，如果存儲每一個白點，就會造成極大的浪費(fèi)。即使像素塊不是由同一種顏色構(gòu)成的，但一個點的顏色值和周圍點的平均值離得較遠(yuǎn)的概率比靠得較近

6、的概率小得多。這些相關(guān)性在數(shù)字化圖像中就表現(xiàn)為空間冗余?？臻g冗余是靜態(tài)圖像存在的最主要的數(shù)據(jù)冗余形式。（2）時間冗余：音頻和視頻數(shù)據(jù)是一連續(xù)的漸變過程，而不是一個完全在時間上獨(dú)立的過程，因而存在時間冗余。音頻相鄰采樣點數(shù)據(jù)的幅度值很相近，視頻圖像序列中的兩幅相鄰的圖像中，后一幅圖像與前一幅圖像之間往往有較大的相關(guān)性，動畫中的相鄰兩幀有時幾乎相同，這都是一種時間冗余。（3）統(tǒng)計冗余：數(shù)據(jù)中進(jìn)行編碼中各種符號的出現(xiàn)頻率不同，如果給每一種符號相同的存儲位數(shù)，這樣也會產(chǎn)生冗余，叫統(tǒng)計冗余。（4）結(jié)構(gòu)冗余：有些圖像中一些區(qū)域的“條紋”較密，沒有“通?！钡目臻g冗余，但從大的區(qū)域上看存在著非常強(qiáng)的紋理結(jié)構(gòu)，

7、例如布紋圖像和草席圖像等。（5）知識冗余：有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如，人臉的圖像有固定的結(jié)構(gòu)，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正面圖像的中線上等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到，此類冗余被稱為知識冗余。1壓縮的本質(zhì)2壓縮和解壓縮3壓縮的衡量標(biāo)準(zhǔn)通過對多媒體數(shù)據(jù)壓縮的必要性和可能性的討論可知，數(shù)字多媒體信息對數(shù)據(jù)傳輸和數(shù)據(jù)存儲構(gòu)成了巨大的壓力，因此必須進(jìn)行壓縮，而由于多媒體數(shù)據(jù)本身具有冗余的數(shù)據(jù)，因此多媒體數(shù)據(jù)有可能被壓縮。數(shù)據(jù)壓縮就是按照某種方法從給定的數(shù)字信號（如音頻、圖像、視頻）中推出簡化的數(shù)據(jù)表述，從而降低數(shù)據(jù)量的過程，這個過程也被稱為數(shù)據(jù)

8、編碼。多媒體數(shù)據(jù)壓縮的目的是為了最有效地利用有限的存儲器資源、信道資源和計算資源等。數(shù)據(jù)壓縮的本質(zhì)就是去掉數(shù)字信號數(shù)據(jù)中的冗余數(shù)據(jù)，減小數(shù)據(jù)量。當(dāng)然，這種數(shù)據(jù)的壓縮并不是無限度地減小數(shù)據(jù)量，因為壓縮文件在應(yīng)用時還要恢復(fù)原始數(shù)據(jù)，所以必須保證壓縮的文件能被恢復(fù)。在多媒體技術(shù)中，不需要把信號完全無損地恢復(fù)，但要能保存原來數(shù)據(jù)的關(guān)鍵信息。因此，多媒體技術(shù)中壓縮的任務(wù)是保持源信號在一個可以接受的前提下把需要的比特數(shù)減到最少程度，即用盡可能少的比特數(shù)來表示源信號并能將其還原。數(shù)據(jù)壓縮就是去掉信號數(shù)據(jù)的冗余性，也稱為數(shù)據(jù)編碼。與此對應(yīng)，數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮，簡稱為數(shù)據(jù)解碼。壓縮的多媒體數(shù)據(jù)需要解

9、壓縮才能使用，圖8-1表達(dá)了多媒體數(shù)據(jù)壓縮和解壓縮的過程。按壓縮和解壓縮算法耗費(fèi)代價的不同，可以把多媒體應(yīng)用分為對稱應(yīng)用和非對稱應(yīng)用。在對稱應(yīng)用中編碼和解碼代價應(yīng)基本相同，如視頻會議系統(tǒng)，數(shù)據(jù)在各個終端被壓縮和解壓縮，此時要求壓縮和解壓縮所耗費(fèi)的時間和資源基本相當(dāng)；在非對稱應(yīng)用中，解碼過程比編碼過程耗費(fèi)的代價要小，例如網(wǎng)絡(luò)視頻系統(tǒng)，它的數(shù)據(jù)壓縮的過程僅一次，采樣的時間不限，而解壓縮經(jīng)常用到并需要迅速完成，因此實時解碼成為基本要求，而編碼所需的時間則不限。衡量一個壓縮技術(shù)的好壞，有如下四個標(biāo)準(zhǔn)。（1）壓縮比要大，即壓縮前后所需的信息存儲量之比要大，使數(shù)據(jù)盡可能地被壓縮。（2）恢復(fù)效果要好。要盡

10、可能地恢復(fù)原始數(shù)據(jù)。（3）壓縮、解壓速度快，即實現(xiàn)壓縮的算法要簡單，盡可能地做到實時壓縮、解壓。在不對稱應(yīng)用中，解壓速度的提高顯得更為重要。（4）壓縮及解壓的成本盡可能小，即實現(xiàn)壓縮和解壓縮的軟硬件開銷要盡可能小。事實上，一種壓縮算法或壓縮標(biāo)準(zhǔn)，不可能同時達(dá)到以上四個要求，因此常常根據(jù)應(yīng)用的不同選擇盡可能適用的壓縮方法，即在壓縮能力、實現(xiàn)復(fù)雜性與成本等方面進(jìn)行平衡與折中。8.2.1 壓縮方法分類8.2.2 RLE編碼8.2.3 統(tǒng)計編碼8.2.4 預(yù)測編碼8.2.5 變換編碼多媒體數(shù)據(jù)壓縮方法根據(jù)不同的標(biāo)準(zhǔn)有多種分類方法，例如從壓縮算法的原理上可以分為統(tǒng)計壓縮編碼、變換壓縮編碼、預(yù)測壓縮

11、編碼、模型壓縮編碼等；從壓縮面向的對象上可以分為針對音頻的壓縮編碼（如波形編碼、參數(shù)編碼）和針對視頻的壓縮編碼（如幀內(nèi)壓縮編碼技術(shù)、幀間壓縮編碼技術(shù)）等，根據(jù)算法是否自適應(yīng)分為自適應(yīng)壓縮編碼和非適應(yīng)性壓縮編碼等；根據(jù)數(shù)據(jù)質(zhì)量有無損失分為有損壓縮編碼和無損壓縮編碼。在實際應(yīng)用中往往是采用多種不同方法對原始數(shù)據(jù)進(jìn)行綜合壓縮編碼，反復(fù)壓縮，以取得較高的壓縮率，這種綜合壓縮編碼方式統(tǒng)稱為混合編碼。根據(jù)質(zhì)量有無損失分類方式涵蓋了所有的多媒體壓縮方法，即所有的壓縮方法必然可以歸入這兩種類型中的一種。從信息論的觀點看，描述信源的數(shù)據(jù)是信息量和信息冗余量之和。在壓縮過程中，去掉冗余數(shù)據(jù)，減少數(shù)據(jù)量但并不減少信

12、息量，解壓縮時仍可原樣恢復(fù)數(shù)據(jù)，這樣的壓縮就是無損壓縮，也被稱為冗余壓縮法。因為無損壓縮是可逆的，因此也被稱為可逆壓縮法。如果在壓縮過程中不但減少了數(shù)據(jù)量，同時數(shù)據(jù)的信息量也減少了，此時解壓縮后數(shù)據(jù)則不能完全恢復(fù)，只能近似地恢復(fù)，這種壓縮方法被稱為有損壓縮或不可逆壓縮法。在信息論中，平均信息量定義為熵，因此無損壓縮方法也被稱為熵編碼法，而有損壓縮方法也被稱為熵壓縮法。無損的壓縮常用于原始數(shù)據(jù)的存檔、應(yīng)用軟件壓縮以及專業(yè)數(shù)據(jù)的精密處理，例如醫(yī)療圖像讀取和解析、衛(wèi)星數(shù)據(jù)判讀等。而有損壓縮通常用于普通音頻和視頻的壓縮，人類的視覺和聽覺器官對音頻和視頻中某些信息不大敏感，有損壓縮以犧牲這部分信息為代價

13、，換取了較高的壓縮比。實驗證明，一般情況下?lián)p失的部分信息對理解原圖像或聲音基本沒有影響，即有損壓縮丟失的信息對用戶來說并不重要，用戶感覺不到，因此這部分信息可以忽略。常用的無損壓縮方法有RLE編碼、統(tǒng)計編碼（如Huffman編碼、算術(shù)編碼）和LZW編碼等。常用的有損壓縮方法有PCM（脈沖編碼調(diào)制）、預(yù)測編碼、變換編碼、矢量量化和子帶編碼等。RLE（Run Length Encoding）編碼也被稱為行程編碼。RLE壓縮編碼主要適用于圖像，對減少圖像文件的存儲空間非常有效，在圖像中具有相同顏色并且是連續(xù)的像素數(shù)目被稱為行程長度。一幅圖像中往往具有許多顏色相同的圖塊。在這些圖塊中，許多行上都具有相

14、同的顏色，或者在一行上有許多連續(xù)的像素都具有相同的顏色值。RLE編碼在這種情況下存儲的不是每一個像素的顏色值，而僅僅存儲一個像素的顏色值以及具有相同顏色的像素數(shù)目就可以，或者存儲一個像素的顏色值以及具有相同顏色值的行數(shù)。RLE編碼解碼時按照與編碼時采用的相同規(guī)則進(jìn)行，還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同。因此，RLE編碼屬于無損壓縮技術(shù)。RLE編碼的優(yōu)點在于技術(shù)直觀算法簡單。然而，RLE對顏色豐富的自然圖像不太適用，顏色豐富的自然圖像在同一行上具有相同顏色的連續(xù)像素往往很少，而連續(xù)幾行都具有相同顏色值的連續(xù)行數(shù)就更少，此時如果仍然使用RLE編碼方法，不僅不能壓縮圖像數(shù)據(jù)，反而可能使原來的圖像

15、數(shù)據(jù)變得更大。RLE所能獲得的壓縮比有多大，這主要是取決于圖像本身的特點。如果圖像中具有相同顏色的圖像塊越大，圖像塊數(shù)目越少，獲得的壓縮比就越高，反之，壓縮比就越小。通常RLE編碼和其他的壓縮編碼技術(shù)聯(lián)合應(yīng)用。統(tǒng)計編碼是根據(jù)信源符號出現(xiàn)概率的分布特性而進(jìn)行的壓縮編碼，使用一種變長碼，將出現(xiàn)次數(shù)較多的符號用較短的碼字表示，以便使平均碼長或碼率盡量小。哈夫曼編碼是由Huffman在1952年提出的一種典型的統(tǒng)計編碼，它的基本原理是按信源符號出現(xiàn)的概率大小進(jìn)行排序，出現(xiàn)概率大的分配短碼，出現(xiàn)概率小的則分配長碼。下面來看一個實際的例子。假設(shè)有一個系統(tǒng)只對7段文字進(jìn)行編碼，這7段文字內(nèi)容分別為“i am

16、 a baby”、“i am a boy”、“i am a girl”、“i am a man”、“i am a woman”、“i am an old man”、“i am an old woman”，7段文字總長度為86，共涉及到了13種不同字符，一個系統(tǒng)用二進(jìn)制表達(dá)13種字符，如果采用定長碼，則每個字符至少需要4位，每一段文字需要的編碼長度見表8-2。但這13種字符出現(xiàn)的頻率不同（如表8-3所示），對每一種字符都用同樣的碼長有些浪費(fèi)，所以希望讓出現(xiàn)頻繁的字符碼長短一些，較少出現(xiàn)的字符碼長長一些。哈夫曼編碼就是針對信源符號出現(xiàn)的概率不同的情況進(jìn)行的編碼。哈夫曼編碼過程如下：（1）首先把待編

17、碼的每一個符號看成一個節(jié)點，所有待編碼字符看做原始節(jié)點序列。（2）從節(jié)點序列中選擇概率最小的兩個節(jié)點。（3）構(gòu)造一個新節(jié)點，新節(jié)點的概率等于剛才兩個節(jié)點概率之和，新節(jié)點的兩個分支分別是剛才的兩個節(jié)點。（4）將第（2）步選擇的兩個節(jié)點從節(jié)點序列中刪除，將第（3）步構(gòu)造的新節(jié)點加入到節(jié)點序列中。（5）重復(fù)第（2）步到第（4）步，直到節(jié)點序列只有一個節(jié)點為止。（6）這樣得到一棵編碼樹，對編碼樹的每一下分支賦值為1，上分支賦值為0，從編碼樹的根開始回溯到原始的符號，記錄經(jīng)過分支的值，即得到哈夫曼編碼。針對前面的系統(tǒng)，采用哈夫曼編碼對系統(tǒng)中的13個字符進(jìn)行編碼，編碼過程如圖8-2所示。該例中用字符出現(xiàn)

18、的次數(shù)代替出現(xiàn)的概率，最后根節(jié)點的值為86，恰好是整個系統(tǒng)涉及的字符的個數(shù)。單個字符的編碼如表8-3所示，系統(tǒng)中每段文字編碼如表8-2所示。從表8-2可知，采用哈夫曼編碼，平均每個字符的碼長為3.08，大大少于定長碼編碼。從哈夫曼編碼的過程可知，哈夫曼編碼并不唯一，當(dāng)幾個節(jié)點的概率值相同時，選擇方式的不同和構(gòu)造新節(jié)點的兩個子節(jié)點位置關(guān)系不同都可以導(dǎo)致不同的編碼，但不同的編碼方案平均碼長基本一致。預(yù)測編碼（Predictive Coding）是根據(jù)離散信號之間存在著一定關(guān)聯(lián)性的特點，利用前面一個或多個信號預(yù)測下一個信號進(jìn)行，然后對實際值和預(yù)測值的差（預(yù)測誤差）進(jìn)行編碼。1預(yù)測編碼的原理2預(yù)測編碼

19、算法原始的編碼系統(tǒng)通常被稱作脈沖編碼調(diào)制（Pulse Code Modulation），簡稱為PCM編碼，實際上它就是通過采樣和量化，將模擬量變換得到二進(jìn)制編碼的過程。注意：量化的方法有多種，量化時采用的量化方法和量化位數(shù)不同，量化后的數(shù)據(jù)量也就不同。因此，可以說量化也是一種壓縮數(shù)據(jù)的方法。直接采用PCM編碼獲得的音頻數(shù)據(jù)和視頻數(shù)據(jù)的數(shù)據(jù)量很大，如高保真聲音和BMP格式的真彩色圖像，因此需要對數(shù)據(jù)進(jìn)行壓縮，此時一般首先要使用預(yù)測編碼。預(yù)測編碼的原理是利用相鄰數(shù)據(jù)的相關(guān)性，如果頻數(shù)據(jù)中相鄰的樣本差別很小，圖像的相鄰像素間差別也較小，所以當(dāng)前樣本或當(dāng)前像素的值可以通過前一個樣本和前一個像素值進(jìn)行

20、預(yù)測，然后對預(yù)測值和實際值求差，如果預(yù)測比較準(zhǔn)確，誤差就會很小。誤差信號的幅度一般遠(yuǎn)遠(yuǎn)小于原始信號，量化這個差值所需的比特數(shù)就能比量化原始信號所需的比特數(shù)少，從而實現(xiàn)數(shù)據(jù)的壓縮。預(yù)測編碼的步驟如下：（1）建立一個供預(yù)測用的數(shù)學(xué)模型。（2）利用以往的樣本數(shù)據(jù)對新樣本值進(jìn)行預(yù)測。（3）將預(yù)測值與實際值相減，對其差值進(jìn)行編碼。預(yù)測編碼主要是減少了數(shù)據(jù)時間和空間上的相關(guān)性，即針對時間冗余和空間冗余。尤其對于時間序列數(shù)據(jù)有著廣泛的應(yīng)用價值。預(yù)測編碼的優(yōu)點是直觀、簡捷、易于實現(xiàn)，特別是用于硬件實現(xiàn)，但壓縮能力非常有限，例如DPCM只能壓縮到24bit/像素。常見的預(yù)測編碼方法根據(jù)使用的預(yù)測模型不同分為線性

21、預(yù)測編碼方法和非線性預(yù)測編碼方法。線性預(yù)測編碼方法中主要有差分脈沖編碼調(diào)制（Differential Pulse Code Modulation，DPCM）和自適應(yīng)差分脈沖編碼調(diào)制（Adaptive Differential Pulse Code Modulation，ADPCM）。面向的壓縮對象不同，預(yù)測編碼的技術(shù)也不盡相同，其中比較典型的有針對運(yùn)動圖像編碼的幀間編碼技術(shù)。下面主要以DPCM編碼為例介紹預(yù)測編碼算法。DPCM在編碼器和解碼器中各設(shè)置一個使用相同數(shù)學(xué)模型的預(yù)測器對信號進(jìn)行預(yù)測，編碼時對預(yù)測值與信號實際值的差進(jìn)行編碼，解碼時將碼值加上預(yù)測值，然后進(jìn)行恢復(fù)從而得到原始數(shù)據(jù)。DPCM

22、系統(tǒng)原理框圖如圖8-3所示。對于一些復(fù)雜的圖像而言，空間相關(guān)性并不十分明顯，這時采用RLE編碼和預(yù)測編碼得到的壓縮效果不是很好。如果采用某種數(shù)學(xué)變換，能使圖像數(shù)據(jù)在變換域中變得簡單或具有更好的統(tǒng)計特性，然后在變換域中使用RLE編碼或預(yù)測編碼，可以使數(shù)據(jù)壓縮比率變大。解壓縮時，需要根據(jù)最后采用的壓縮規(guī)則，將變換域的數(shù)據(jù)恢復(fù)，然后再用所使用變換的反變換，將數(shù)據(jù)恢復(fù)回空間域。這種使用一種符合源數(shù)據(jù)本身內(nèi)在特性的數(shù)學(xué)變換將空間域中的復(fù)雜圖像變換，使數(shù)據(jù)在變換域呈現(xiàn)更好的特性，以便于進(jìn)行壓縮編碼的方法被稱為變換編碼。變換編碼是先對信號進(jìn)行某種函數(shù)變換，從一種域信號變換到另一種域信號，然后再對信號進(jìn)行編碼

23、。變換編碼壓縮數(shù)據(jù)要經(jīng)過變換、變換域采樣和量化或壓縮三個步驟，如圖8-4所示。變換本身并不進(jìn)行數(shù)據(jù)壓縮，它只把信號映射到另一個域，使信號在變換域里容易進(jìn)行壓縮，變換后的樣值更獨(dú)立和有序。變換編碼基于兩個原因，一是聲音、圖像大部分信號都是低頻信號，在頻域中信號的能量較集中，重新進(jìn)行采樣、編碼，可以獲得比原來的數(shù)據(jù)比特數(shù)少的壓縮數(shù)據(jù)；二是對于一些復(fù)雜的、空間相關(guān)性并不明顯的圖像，卻在頻率域中表現(xiàn)了很強(qiáng)的相關(guān)性，而且這種相關(guān)性又與圖像的復(fù)雜程度無關(guān)，因此可以利用這樣的特點，設(shè)計出各種不同的壓縮算法，以求得從不同角度（域中）獲得較徹底的去除圖像信號相關(guān)性的方法。變換編碼比較經(jīng)常使用的有離散余弦變換、小

24、波變換等，著名的圖像壓縮算法JPEG即使用了變換編碼。為了使多媒體信息具有互操作性，并且確保未來的兼容性，各國際技術(shù)組織的一個重要任務(wù)是綜合各種編碼技術(shù)，制定統(tǒng)一的國際或區(qū)域的標(biāo)準(zhǔn)。8.3.1 數(shù)字音頻壓縮標(biāo)準(zhǔn)8.3.2 數(shù)字圖像壓縮標(biāo)準(zhǔn)8.3.3 數(shù)字視頻壓縮標(biāo)準(zhǔn)在多媒體音頻數(shù)據(jù)的存儲和傳輸中，數(shù)據(jù)壓縮是必需的。通常數(shù)據(jù)的壓縮造成音頻質(zhì)量的下降、計算量的增加，因此在數(shù)字音頻的壓縮標(biāo)準(zhǔn)制定時需要考慮質(zhì)量、數(shù)據(jù)量、計算復(fù)雜度三個方面。音頻信號的壓縮方法有多種，其中包括基于音頻數(shù)據(jù)的統(tǒng)計特性進(jìn)行的編碼，例如波形編碼和熵編碼；基于音頻的聲學(xué)參數(shù)進(jìn)行的編碼，如參數(shù)編碼和感知編碼；基于人的聽覺特性進(jìn)行的

25、編碼；還有集中了不同方法的優(yōu)點的混合編碼。按照帶寬，音頻信號可分為電話質(zhì)量級的信號、調(diào)幅廣播質(zhì)量級的信號和高保真立體聲信號。國際電報電話咨詢委員會（CCITT目前已被ITU取代）和國際標(biāo)準(zhǔn)化組織（ISO）針對不同類型的音頻信號先后提出了一系列音頻編碼的建議。（1）電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標(biāo)準(zhǔn)（2）高保真立體聲音頻壓縮標(biāo)準(zhǔn)（1）電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標(biāo)準(zhǔn)電話質(zhì)量級的音頻信號的頻率范圍為200Hz3.4kHz，調(diào)幅廣播質(zhì)量音頻信號的頻率范圍為50Hz7kHz，它們的壓縮編碼國際標(biāo)準(zhǔn)主要為G系列標(biāo)準(zhǔn)。G.711標(biāo)準(zhǔn)：1972年制定，面向電話質(zhì)量級語音信號。采用PCM編碼，采

26、樣頻率為8kHz，每個樣本采用8位二進(jìn)制編碼，非線性量化。數(shù)據(jù)傳輸速率為64kbit/s。G.721標(biāo)準(zhǔn)：1984年制定，面向電話質(zhì)量級語音信號。采用自適應(yīng)差分編碼調(diào)制ADPCM算法，數(shù)據(jù)傳輸速率32kbit/s。ADPCM是一種對中等介質(zhì)音頻信號進(jìn)行高效編碼的有效方法。G.722標(biāo)準(zhǔn)：1984年制定，既適用于電話質(zhì)量級語音信號又適用于調(diào)幅廣播級音頻信號。該標(biāo)準(zhǔn)寬帶音頻壓縮仍采用波形編碼技術(shù)，采用高低兩個子帶內(nèi)的ADPCM方案，高低子帶的劃分以4kHz為界，然后再對每個子帶內(nèi)采用類似G.721標(biāo)準(zhǔn)的ADPCM編碼。G.728標(biāo)準(zhǔn)：1992年制定，面向電話質(zhì)量級語音信號。采用基于短延時碼本激勵預(yù)

27、測編碼LD-CELP算法，數(shù)據(jù)傳輸速率為16kbit/s，信號質(zhì)量與32kbit/s的G.721相當(dāng)。（2）高保真立體聲音頻壓縮標(biāo)準(zhǔn)高保真立體聲音頻信號的頻率范圍為20Hz20 kHz，數(shù)據(jù)量很大。國際標(biāo)準(zhǔn)化組織國際電工委員會為音頻壓縮制定了MPEG標(biāo)準(zhǔn)。其中ISO /IEC11172-3作為MPEG音頻標(biāo)準(zhǔn)，成為國際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)，一般稱為“MPEG-1音頻”。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32448kbit/s，適合于CD-DA光盤應(yīng)用。MPEG音頻根據(jù)算法不同分為三層。第一層次和第二層次編碼是將輸入音頻信號進(jìn)行采樣頻率為48kHz、44.1kHz、32kHz的采

28、樣，經(jīng)濾波器組將其分為32個子帶，同時利用人耳屏蔽效應(yīng)，根據(jù)音頻信號的性質(zhì)計算各頻率分量的人耳屏蔽門限，選擇各子帶的量化參數(shù)，獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶、非均勻量化和熵編碼技術(shù)，再進(jìn)一步提高壓縮比。MPEG-1音頻編碼標(biāo)準(zhǔn)包括三部分，分別對應(yīng)第1、2和3層（Layer 1/2/3）。層次越高，其性能和復(fù)雜度也越高。用戶可在復(fù)雜性和聲音質(zhì)量之間權(quán)衡對層次作出選擇。層1包括將數(shù)字音頻變成32個子帶的基本映射，將數(shù)據(jù)格式化成塊的固定分段，決定自適應(yīng)位分配的心理聲學(xué)模型，層1標(biāo)準(zhǔn)理論上解碼的最小延時為19ms；層2提供了位分配、縮放因子和抽樣的附加編碼，使用了不同的幀

29、格式，層2理論上解碼的最小延時為35ms；層3采用混合帶通濾波器來提高頻率分辨率，它增加了差值量化、自適應(yīng)分段和量化值的熵編碼，層3理論上解碼的最小延時為59ms。MPEG音頻標(biāo)準(zhǔn)中編碼的算法并沒有標(biāo)準(zhǔn)化，可以使用多種算法，只要編碼器輸出的數(shù)據(jù)能符合本標(biāo)準(zhǔn)的解碼器解出適用的音頻流。MPEG-1音頻有四種不同的編碼模式，分別是單聲道模式、雙聲道模式、立體聲模式和聯(lián)合立體聲模式。MPEG音頻解碼時對位數(shù)據(jù)流進(jìn)行解碼，恢復(fù)被量化的子帶樣本值以重建聲音信號。由于解碼時無需心理聲學(xué)模型，只需拆包、重構(gòu)子帶樣本和把它們變換回聲音信號，因此解碼器的構(gòu)造相應(yīng)比編碼器簡單。在多媒體應(yīng)用中，圖像媒體占了很大的比

30、重，通常說來圖像信息存在著大量的冗余，因而在多媒體技術(shù)中，圖像壓縮技術(shù)非常重要。圖像壓縮方法有多種，屬于無損壓縮的有RLE游程編碼、統(tǒng)計編碼等，屬于有損壓縮的有預(yù)測編碼、交換編碼、模型編碼等，這些方法并不是單獨(dú)使用，而是聯(lián)合起來共同實現(xiàn)圖像的壓縮。1JPEG概述2JPEG的壓縮流程JPEG標(biāo)準(zhǔn)是國際上通用的靜態(tài)圖像壓縮標(biāo)準(zhǔn)。JPEG（Joint Photographic Experts Group）是一個由ISO和IEC兩個組織機(jī)構(gòu)聯(lián)合組成的一個專家組，專門負(fù)責(zé)制定靜態(tài)的數(shù)字圖像數(shù)據(jù)壓縮編碼標(biāo)準(zhǔn)，該組織在1991年首次提出了JPEG算法。JPEG標(biāo)準(zhǔn)適用于靜態(tài)灰度圖像、靜態(tài)彩色圖像和動態(tài)圖像的

31、幀內(nèi)壓縮。JPEG標(biāo)準(zhǔn)定義了兩種相互獨(dú)立的基本壓縮算法，一種是以預(yù)測技術(shù)（即DPCM）為基礎(chǔ)的無損壓縮算法；另一種是以離散余弦變換（Discrete Cosine Transform，DCT）為基礎(chǔ)的有損壓縮算法。后一種算法的壓縮比遠(yuǎn)遠(yuǎn)大于第一種算法，但壓縮后的圖像的效果仍然很好。使用有損壓縮算法時，在壓縮比為25:1的情況下，壓縮后還原得到的圖像與原始圖像相比較，非圖像專家難于找出它們之間的區(qū)別，因此基于DCT技術(shù)的有損壓縮JPEG算法得到了廣泛的應(yīng)用?；贒CT技術(shù)的JPEG有損壓縮算法又有三種工作模式，分別是順序（Sequential DCT-based）模式、累進(jìn)（Progressiv

32、e DCT-based）模式和分層（Hierarchical）模式。（1）基于DCT的順序模式：從左到右，從上到下掃描信號，為每個圖像編碼，編碼過程在一次掃描中完成。（2）基于DCT的累進(jìn)模式：圖像編碼在多次掃描中完成。第一次掃描只進(jìn)行一次粗糙的壓縮，壓縮后的數(shù)據(jù)量很小，重建后得到的是質(zhì)量較低的圖像。接著再次對圖像進(jìn)行比上次細(xì)致的掃描，重建后得到的圖像好于上一次。這樣不斷重復(fù)下去，直到滿意為止。累進(jìn)模式編碼傳輸時間長，接收端收到的圖像是多次掃描由粗糙到清晰的累進(jìn)過程。（3）基于DCT的分層模式：這個模式下首先將圖像變換為一系列低分辨率的圖像，如一幅1024像素 1024像素的圖像可以被變換成5

33、12像素 512像素的圖像，這個過程要繼續(xù)進(jìn)行直到圖像分辨率不能再降低。然后進(jìn)行下面的工作。第1步：壓縮最低分辨率的圖像。第2步：對前一步的結(jié)果解碼，然后內(nèi)插生成下一幅較高分辨率的圖像。第3步：用第2步的結(jié)果作為這一分辨率的實際圖像的預(yù)測，并且生成一個誤差矩陣。壓縮該矩陣。第4步：重復(fù)第2步和第3步，直到全部分辨率圖像已經(jīng)被編碼。該模式下圖像在多個空間分辨率進(jìn)行編碼。如果在信道傳送速率慢，接收端顯示器分辨率也不高的情況下，只需做低分辨率圖像解碼即可。在JPEG標(biāo)準(zhǔn)的基礎(chǔ)上，2000年3月JPEG專家組提出了JPEG 2000標(biāo)準(zhǔn)，JPEG 2000是一種使用離散小波變換（Digital Wa

34、velet Transform， DWT）的分辨率編碼技術(shù)，和以前的JPEG相比，在大致相同的圖像質(zhì)量下，JPEG 2000的壓縮比提高了20%40%。JPEG 2000除了提高了壓縮比外，還有以下幾個優(yōu)點。（1）將無損壓縮的成熟方法集成到標(biāo)準(zhǔn)中，擴(kuò)大了JPEG文件的應(yīng)用領(lǐng)域。（2）加強(qiáng)了對漸進(jìn)傳輸?shù)闹С?，JPEG 2000在傳輸圖像時可以先傳輸圖像的輪廓數(shù)據(jù)，然后再傳輸其他數(shù)據(jù)。（3）提出了感興趣區(qū)域概念，在壓縮時允許指定圖像上感興趣的區(qū)域的壓縮質(zhì)量，還允許選擇指定的部分先解壓縮。JPEG標(biāo)準(zhǔn)和JPEG 2000標(biāo)準(zhǔn)對圖像的壓縮都需要四步，分別是圖像數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、對變換系數(shù)進(jìn)行量化，最后進(jìn)行熵編碼，如圖8-5所示。（1）數(shù)據(jù)預(yù)處理：標(biāo)準(zhǔn)中規(guī)定了對圖像預(yù)處理的方式，JPEG標(biāo)準(zhǔn)將源圖像分成8 8的數(shù)據(jù)塊，而JPEG 2000支持把圖像分成多種成分，首先圖像被分解成分量（components），然后圖像和圖像分量又被分解成矩形片（tiles）。片分量（tile-component）是JPEG 2000原始或重建圖像的基本單位。（2）數(shù)據(jù)變換：JPEG標(biāo)準(zhǔn)使用DCT變換，JPEG 2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第8講多媒體數(shù)據(jù)壓縮

文檔簡介

溫馨提示

最新文檔

評論

第8講多媒體數(shù)據(jù)壓縮

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔