版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、8.1 多媒體數(shù)據(jù)壓縮概述8.2 多媒體數(shù)據(jù)壓縮方法8.3 多媒體數(shù)據(jù)壓縮編碼的標(biāo)準(zhǔn)多媒體數(shù)據(jù)量很大,需要進(jìn)行壓縮處理,而多媒體數(shù)據(jù)本身存在很大的冗余度,使其可以被壓縮。8.1.1 多媒體數(shù)據(jù)壓縮的必要性8.1.2 多媒體數(shù)據(jù)壓縮的可能性8.1.3 多媒體數(shù)據(jù)壓縮的相關(guān)問題多媒體應(yīng)用中涉及到的媒體有文字、圖形、圖像、音頻、動畫、視頻等。其中文字的數(shù)據(jù)量較小,一本書的文本文件大概只要幾百字節(jié);圖形文件的數(shù)據(jù)量和其表達(dá)內(nèi)容以及文件格式等相關(guān),數(shù)據(jù)量通常大于文字媒體;計算機(jī)制作的動畫通常是基于兩種格式,一種是基于矢量格式的,一種是基于點陣格式,基于矢量格式的動畫的數(shù)據(jù)量小于基于點陣格式的動畫;絕大部
2、分的媒體如圖像、音頻及視頻的數(shù)據(jù)量都非常大,表8-1列舉了一些多媒體數(shù)據(jù)的數(shù)據(jù)量。以多媒體視頻為例,如果圖像的分辨率為640像素 480像素,每個像素使用三個字節(jié)(即24位)來存儲,采用PAL制傳輸,即幀頻為25幀/秒,那么一秒的數(shù)據(jù)量大約是176MB,普通的容量為650MB左右的CD-ROM光盤,只能存儲不到30秒的數(shù)據(jù),而且傳輸速率為176Mbit/s,普通網(wǎng)絡(luò)的帶寬很難承受。由此可見,多媒體應(yīng)用中面對著存儲和傳輸兩個問題,對于這兩個問題,可以從硬件和軟件兩個方面來解決。在硬件方面,隨著計算機(jī)技術(shù)的發(fā)展,存儲介質(zhì)的容量、傳輸速率以及系統(tǒng)和網(wǎng)絡(luò)的傳輸速度都在不斷提高,但硬件在發(fā)展,多媒體應(yīng)用
3、的需求也在發(fā)展,現(xiàn)在硬件發(fā)展的速度和程度仍然不能和當(dāng)前多媒體應(yīng)用的需求相匹配。所以,面對數(shù)字化了的音頻、視頻信號巨大的數(shù)據(jù)量,單靠硬件技術(shù)的提高是不夠的,對媒體數(shù)據(jù)的壓縮才是最終的解決方案。所謂壓縮就是把媒體的數(shù)據(jù)量變小,然后再進(jìn)行存儲和傳輸,當(dāng)應(yīng)用時再從數(shù)據(jù)量小的文件中恢復(fù)回原來的媒體表達(dá)。多媒體數(shù)據(jù)必須進(jìn)行壓縮才可以解決多媒體數(shù)據(jù)的存儲和傳輸問題,才可以有效地利用有限資源,節(jié)省存儲空間,提高傳輸效率。多媒體數(shù)據(jù)之所以能夠被壓縮,主要基于兩個原因,一是由于人的視覺和聽覺的生理局限性;二是由于音頻、圖像、視頻等數(shù)據(jù)的冗余度很大,具有很大的壓縮潛力。下面分別討論。1感官的生理局限性2多媒體數(shù)據(jù)的
4、冗余人類的聽覺和視覺等感覺器官受人體機(jī)能的限制,具有一定的局限性。(1)聽覺局限性:主要表現(xiàn)在三個方面,一是人的聽覺具有掩蔽效應(yīng),強(qiáng)弱不同的聲音同時存在時,強(qiáng)聲會使弱聲難以被聽見;二是人耳對不同頻段的聲音敏感程度不同,通常對低頻信號更敏感些;三是人耳對語音信號相位變化不敏感。(2)視覺局限性:主要表現(xiàn)在兩個方面,一是人類視覺的掩蓋效應(yīng),對圖像場的某些變化感覺不靈敏;二是視覺系統(tǒng)的色彩分辨能力有限,一般只有6位灰度級,一個真彩系統(tǒng)可以表達(dá)16777216種不同顏色,而一個專家能識別的顏色也就只有幾百種,通常說來人類對圖像色彩的感知能力遠(yuǎn)不如對亮度的感知能力。 音頻、圖像、視頻這些多媒體數(shù)據(jù)最終是
5、要由人類的感覺器官來感知的,因此對多媒體數(shù)據(jù)的記錄和存儲要充分利用聽覺系統(tǒng)和視覺系統(tǒng)的特點,對于人的感官感覺不到的信息或不敏感的信息可以進(jìn)行必要的舍棄,避免做無用功。除了人的感官方面的局限性之外,實際上圖像、音頻和視頻數(shù)據(jù)本身也具有很大的冗余性。(1)空間冗余(2)時間冗余(3)統(tǒng)計冗余(4)結(jié)構(gòu)冗余(5)知識冗余(1)空間冗余:一幅靜態(tài)圖像中,物體和背景的表面顏色常常具有空間連貫性,如一堵白墻的圖像,盡管上面可能掛著其他東西需要存儲,但是整個墻的背景顏色都是白色,如果存儲每一個白點,就會造成極大的浪費(fèi)。即使像素塊不是由同一種顏色構(gòu)成的,但一個點的顏色值和周圍點的平均值離得較遠(yuǎn)的概率比靠得較近
6、的概率小得多。這些相關(guān)性在數(shù)字化圖像中就表現(xiàn)為空間冗余??臻g冗余是靜態(tài)圖像存在的最主要的數(shù)據(jù)冗余形式。(2)時間冗余:音頻和視頻數(shù)據(jù)是一連續(xù)的漸變過程,而不是一個完全在時間上獨(dú)立的過程,因而存在時間冗余。音頻相鄰采樣點數(shù)據(jù)的幅度值很相近,視頻圖像序列中的兩幅相鄰的圖像中,后一幅圖像與前一幅圖像之間往往有較大的相關(guān)性,動畫中的相鄰兩幀有時幾乎相同,這都是一種時間冗余。(3)統(tǒng)計冗余:數(shù)據(jù)中進(jìn)行編碼中各種符號的出現(xiàn)頻率不同,如果給每一種符號相同的存儲位數(shù),這樣也會產(chǎn)生冗余,叫統(tǒng)計冗余。(4)結(jié)構(gòu)冗余:有些圖像中一些區(qū)域的“條紋”較密,沒有“通?!钡目臻g冗余,但從大的區(qū)域上看存在著非常強(qiáng)的紋理結(jié)構(gòu),
7、例如布紋圖像和草席圖像等。(5)知識冗余:有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖像有固定的結(jié)構(gòu),嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正面圖像的中線上等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到,此類冗余被稱為知識冗余。1壓縮的本質(zhì)2壓縮和解壓縮3壓縮的衡量標(biāo)準(zhǔn)通過對多媒體數(shù)據(jù)壓縮的必要性和可能性的討論可知,數(shù)字多媒體信息對數(shù)據(jù)傳輸和數(shù)據(jù)存儲構(gòu)成了巨大的壓力,因此必須進(jìn)行壓縮,而由于多媒體數(shù)據(jù)本身具有冗余的數(shù)據(jù),因此多媒體數(shù)據(jù)有可能被壓縮。數(shù)據(jù)壓縮就是按照某種方法從給定的數(shù)字信號(如音頻、圖像、視頻)中推出簡化的數(shù)據(jù)表述,從而降低數(shù)據(jù)量的過程,這個過程也被稱為數(shù)據(jù)
8、編碼。多媒體數(shù)據(jù)壓縮的目的是為了最有效地利用有限的存儲器資源、信道資源和計算資源等。數(shù)據(jù)壓縮的本質(zhì)就是去掉數(shù)字信號數(shù)據(jù)中的冗余數(shù)據(jù),減小數(shù)據(jù)量。當(dāng)然,這種數(shù)據(jù)的壓縮并不是無限度地減小數(shù)據(jù)量,因為壓縮文件在應(yīng)用時還要恢復(fù)原始數(shù)據(jù),所以必須保證壓縮的文件能被恢復(fù)。在多媒體技術(shù)中,不需要把信號完全無損地恢復(fù),但要能保存原來數(shù)據(jù)的關(guān)鍵信息。因此,多媒體技術(shù)中壓縮的任務(wù)是保持源信號在一個可以接受的前提下把需要的比特數(shù)減到最少程度,即用盡可能少的比特數(shù)來表示源信號并能將其還原。數(shù)據(jù)壓縮就是去掉信號數(shù)據(jù)的冗余性,也稱為數(shù)據(jù)編碼。與此對應(yīng),數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮,簡稱為數(shù)據(jù)解碼。壓縮的多媒體數(shù)據(jù)需要解
9、壓縮才能使用,圖8-1表達(dá)了多媒體數(shù)據(jù)壓縮和解壓縮的過程。按壓縮和解壓縮算法耗費(fèi)代價的不同,可以把多媒體應(yīng)用分為對稱應(yīng)用和非對稱應(yīng)用。在對稱應(yīng)用中編碼和解碼代價應(yīng)基本相同,如視頻會議系統(tǒng),數(shù)據(jù)在各個終端被壓縮和解壓縮,此時要求壓縮和解壓縮所耗費(fèi)的時間和資源基本相當(dāng);在非對稱應(yīng)用中,解碼過程比編碼過程耗費(fèi)的代價要小,例如網(wǎng)絡(luò)視頻系統(tǒng),它的數(shù)據(jù)壓縮的過程僅一次,采樣的時間不限,而解壓縮經(jīng)常用到并需要迅速完成,因此實時解碼成為基本要求,而編碼所需的時間則不限。衡量一個壓縮技術(shù)的好壞,有如下四個標(biāo)準(zhǔn)。(1)壓縮比要大,即壓縮前后所需的信息存儲量之比要大,使數(shù)據(jù)盡可能地被壓縮。 (2)恢復(fù)效果要好。要盡
10、可能地恢復(fù)原始數(shù)據(jù)。 (3)壓縮、解壓速度快,即實現(xiàn)壓縮的算法要簡單,盡可能地做到實時壓縮、解壓。在不對稱應(yīng)用中,解壓速度的提高顯得更為重要。 (4)壓縮及解壓的成本盡可能小,即實現(xiàn)壓縮和解壓縮的軟硬件開銷要盡可能小。事實上,一種壓縮算法或壓縮標(biāo)準(zhǔn),不可能同時達(dá)到以上四個要求,因此常常根據(jù)應(yīng)用的不同選擇盡可能適用的壓縮方法,即在壓縮能力、實現(xiàn)復(fù)雜性與成本等方面進(jìn)行平衡與 折中。8.2.1 壓縮方法分類8.2.2 RLE編碼8.2.3 統(tǒng)計編碼8.2.4 預(yù)測編碼8.2.5 變換編碼多媒體數(shù)據(jù)壓縮方法根據(jù)不同的標(biāo)準(zhǔn)有多種分類方法,例如從壓縮算法的原理上可以分為統(tǒng)計壓縮編碼、變換壓縮編碼、預(yù)測壓縮
11、編碼、模型壓縮編碼等;從壓縮面向的對象上可以分為針對音頻的壓縮編碼(如波形編碼、參數(shù)編碼)和針對視頻的壓縮編碼(如幀內(nèi)壓縮編碼技術(shù)、幀間壓縮編碼技術(shù))等,根據(jù)算法是否自適應(yīng)分為自適應(yīng)壓縮編碼和非適應(yīng)性壓縮編碼等;根據(jù)數(shù)據(jù)質(zhì)量有無損失分為有損壓縮編碼和無損壓縮編碼。在實際應(yīng)用中往往是采用多種不同方法對原始數(shù)據(jù)進(jìn)行綜合壓縮編碼,反復(fù)壓縮,以取得較高的壓縮率,這種綜合壓縮編碼方式統(tǒng)稱為混合編碼。根據(jù)質(zhì)量有無損失分類方式涵蓋了所有的多媒體壓縮方法,即所有的壓縮方法必然可以歸入這兩種類型中的一種。從信息論的觀點看,描述信源的數(shù)據(jù)是信息量和信息冗余量之和。在壓縮過程中,去掉冗余數(shù)據(jù),減少數(shù)據(jù)量但并不減少信
12、息量,解壓縮時仍可原樣恢復(fù)數(shù)據(jù),這樣的壓縮就是無損壓縮,也被稱為冗余壓縮法。因為無損壓縮是可逆的,因此也被稱為可逆壓縮法。如果在壓縮過程中不但減少了數(shù)據(jù)量,同時數(shù)據(jù)的信息量也減少了,此時解壓縮后數(shù)據(jù)則不能完全恢復(fù),只能近似地恢復(fù),這種壓縮方法被稱為有損壓縮或不可逆壓縮法。在信息論中,平均信息量定義為熵,因此無損壓縮方法也被稱為熵編碼法,而有損壓縮方法也被稱為熵壓縮法。無損的壓縮常用于原始數(shù)據(jù)的存檔、應(yīng)用軟件壓縮以及專業(yè)數(shù)據(jù)的精密處理,例如醫(yī)療圖像讀取和解析、衛(wèi)星數(shù)據(jù)判讀等。而有損壓縮通常用于普通音頻和視頻的壓縮,人類的視覺和聽覺器官對音頻和視頻中某些信息不大敏感,有損壓縮以犧牲這部分信息為代價
13、,換取了較高的壓縮比。實驗證明,一般情況下?lián)p失的部分信息對理解原圖像或聲音基本沒有影響,即有損壓縮丟失的信息對用戶來說并不重要,用戶感覺不到,因此這部分信息可以忽略。常用的無損壓縮方法有RLE編碼、統(tǒng)計編碼(如Huffman編碼、算術(shù)編碼)和LZW編碼等。常用的有損壓縮方法有PCM(脈沖編碼調(diào)制)、預(yù)測編碼、變換編碼、矢量量化和子帶編碼等。RLE(Run Length Encoding)編碼也被稱為行程編碼。RLE壓縮編碼主要適用于圖像,對減少圖像文件的存儲空間非常有效,在圖像中具有相同顏色并且是連續(xù)的像素數(shù)目被稱為行程長度。一幅圖像中往往具有許多顏色相同的圖塊。在這些圖塊中,許多行上都具有相
14、同的顏色,或者在一行上有許多連續(xù)的像素都具有相同的顏色值。RLE編碼在這種情況下存儲的不是每一個像素的顏色值,而僅僅存儲一個像素的顏色值以及具有相同顏色的像素數(shù)目就可以,或者存儲一個像素的顏色值以及具有相同顏色值的行數(shù)。RLE編碼解碼時按照與編碼時采用的相同規(guī)則進(jìn)行,還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同。因此,RLE編碼屬于無損壓縮技術(shù)。RLE編碼的優(yōu)點在于技術(shù)直觀算法簡單。然而,RLE對顏色豐富的自然圖像不太適用,顏色豐富的自然圖像在同一行上具有相同顏色的連續(xù)像素往往很少,而連續(xù)幾行都具有相同顏色值的連續(xù)行數(shù)就更少,此時如果仍然使用RLE編碼方法,不僅不能壓縮圖像數(shù)據(jù),反而可能使原來的圖像
15、數(shù)據(jù)變得更大。RLE所能獲得的壓縮比有多大,這主要是取決于圖像本身的特點。如果圖像中具有相同顏色的圖像塊越大,圖像塊數(shù)目越少,獲得的壓縮比就越高,反之,壓縮比就越小。通常RLE編碼和其他的壓縮編碼技術(shù)聯(lián)合應(yīng)用。統(tǒng)計編碼是根據(jù)信源符號出現(xiàn)概率的分布特性而進(jìn)行的壓縮編碼,使用一種變長碼,將出現(xiàn)次數(shù)較多的符號用較短的碼字表示,以便使平均碼長或碼率盡量小。哈夫曼編碼是由Huffman在1952年提出的一種典型的統(tǒng)計編碼,它的基本原理是按信源符號出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)概率大的分配短碼,出現(xiàn)概率小的則分配長碼。下面來看一個實際的例子。假設(shè)有一個系統(tǒng)只對7段文字進(jìn)行編碼,這7段文字內(nèi)容分別為“i am
16、 a baby”、“i am a boy”、“i am a girl”、“i am a man”、“i am a woman”、“i am an old man”、“i am an old woman”,7段文字總長度為86,共涉及到了13種不同字符,一個系統(tǒng)用二進(jìn)制表達(dá)13種字符,如果采用定長碼,則每個字符至少需要4位,每一段文字需要的編碼長度見表8-2。但這13種字符出現(xiàn)的頻率不同(如表8-3所示),對每一種字符都用同樣的碼長有些浪費(fèi),所以希望讓出現(xiàn)頻繁的字符碼長短一些,較少出現(xiàn)的字符碼長長一些。哈夫曼編碼就是針對信源符號出現(xiàn)的概率不同的情況進(jìn)行的編碼。哈夫曼編碼過程如下:(1)首先把待編
17、碼的每一個符號看成一個節(jié)點,所有待編碼字符看做原始節(jié)點序列。(2)從節(jié)點序列中選擇概率最小的兩個節(jié)點。(3)構(gòu)造一個新節(jié)點,新節(jié)點的概率等于剛才兩個節(jié)點概率之和,新節(jié)點的兩個分支分別是剛才的兩個節(jié)點。(4)將第(2)步選擇的兩個節(jié)點從節(jié)點序列中刪除,將第(3)步構(gòu)造的新節(jié)點加入到節(jié)點序列中。(5)重復(fù)第(2)步到第(4)步,直到節(jié)點序列只有一個節(jié)點為止。(6)這樣得到一棵編碼樹,對編碼樹的每一下分支賦值為1,上分支賦值為0,從編碼樹的根開始回溯到原始的符號,記錄經(jīng)過分支的值,即得到哈夫曼編碼。 針對前面的系統(tǒng),采用哈夫曼編碼對系統(tǒng)中的13個字符進(jìn)行編碼,編碼過程如圖8-2所示。該例中用字符出現(xiàn)
18、的次數(shù)代替出現(xiàn)的概率,最后根節(jié)點的值為86,恰好是整個系統(tǒng)涉及的字符的個數(shù)。單個字符的編碼如表8-3所示,系統(tǒng)中每段文字編碼如表8-2所示。從表8-2可知,采用哈夫曼編碼,平均每個字符的碼長為3.08,大大少于定長碼編碼。從哈夫曼編碼的過程可知,哈夫曼編碼并不唯一,當(dāng)幾個節(jié)點的概率值相同時,選擇方式的不同和構(gòu)造新節(jié)點的兩個子節(jié)點位置關(guān)系不同都可以導(dǎo)致不同的編碼,但不同的編碼方案平均碼長基本一致。預(yù)測編碼(Predictive Coding)是根據(jù)離散信號之間存在著一定關(guān)聯(lián)性的特點,利用前面一個或多個信號預(yù)測下一個信號進(jìn)行,然后對實際值和預(yù)測值的差(預(yù)測誤差)進(jìn)行編碼。1預(yù)測編碼的原理2預(yù)測編碼
19、算法原始的編碼系統(tǒng)通常被稱作脈沖編碼調(diào)制(Pulse Code Modulation),簡稱為PCM編碼,實際上它就是通過采樣和量化,將模擬量變換得到二進(jìn)制編碼的過程。 注意:量化的方法有多種,量化時采用的量化方法和量化位數(shù)不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。直接采用PCM編碼獲得的音頻數(shù)據(jù)和視頻數(shù)據(jù)的數(shù)據(jù)量很大,如高保真聲音和BMP格式的真彩色圖像,因此需要對數(shù)據(jù)進(jìn)行壓縮,此時一般首先要使用預(yù)測編碼。預(yù)測編碼的原理是利用相鄰數(shù)據(jù)的相關(guān)性,如果頻數(shù)據(jù)中相鄰的樣本差別很小,圖像的相鄰像素間差別也較小,所以當(dāng)前樣本或當(dāng)前像素的值可以通過前一個樣本和前一個像素值進(jìn)行
20、預(yù)測,然后對預(yù)測值和實際值求差,如果預(yù)測比較準(zhǔn)確,誤差就會很小。誤差信號的幅度一般遠(yuǎn)遠(yuǎn)小于原始信號,量化這個差值所需的比特數(shù)就能比量化原始信號所需的比特數(shù)少,從而實現(xiàn)數(shù)據(jù)的壓縮。預(yù)測編碼的步驟如下:(1)建立一個供預(yù)測用的數(shù)學(xué)模型。(2)利用以往的樣本數(shù)據(jù)對新樣本值進(jìn)行預(yù)測。(3)將預(yù)測值與實際值相減,對其差值進(jìn)行編碼。預(yù)測編碼主要是減少了數(shù)據(jù)時間和空間上的相關(guān)性,即針對時間冗余和空間冗余。尤其對于時間序列數(shù)據(jù)有著廣泛的應(yīng)用價值。預(yù)測編碼的優(yōu)點是直觀、簡捷、易于實現(xiàn),特別是用于硬件實現(xiàn),但壓縮能力非常有限,例如DPCM只能壓縮到24bit/像素。常見的預(yù)測編碼方法根據(jù)使用的預(yù)測模型不同分為線性
21、預(yù)測編碼方法和非線性預(yù)測編碼方法。線性預(yù)測編碼方法中主要有差分脈沖編碼調(diào)制(Differential Pulse Code Modulation,DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(Adaptive Differential Pulse Code Modulation,ADPCM)。面向的壓縮對象不同,預(yù)測編碼的技術(shù)也不盡相同,其中比較典型的有針對運(yùn)動圖像編碼的幀間編碼技術(shù)。下面主要以DPCM編碼為例介紹預(yù)測編碼算法。DPCM在編碼器和解碼器中各設(shè)置一個使用相同數(shù)學(xué)模型的預(yù)測器對信號進(jìn)行預(yù)測,編碼時對預(yù)測值與信號實際值的差進(jìn)行編碼,解碼時將碼值加上預(yù)測值,然后進(jìn)行恢復(fù)從而得到原始數(shù)據(jù)。DPCM
22、系統(tǒng)原理框圖如圖8-3所示。對于一些復(fù)雜的圖像而言,空間相關(guān)性并不十分明顯,這時采用RLE編碼和預(yù)測編碼得到的壓縮效果不是很好。如果采用某種數(shù)學(xué)變換,能使圖像數(shù)據(jù)在變換域中變得簡單或具有更好的統(tǒng)計特性,然后在變換域中使用RLE編碼或預(yù)測編碼,可以使數(shù)據(jù)壓縮比率變大。解壓縮時,需要根據(jù)最后采用的壓縮規(guī)則,將變換域的數(shù)據(jù)恢復(fù),然后再用所使用變換的反變換,將數(shù)據(jù)恢復(fù)回空間域。這種使用一種符合源數(shù)據(jù)本身內(nèi)在特性的數(shù)學(xué)變換將空間域中的復(fù)雜圖像變換,使數(shù)據(jù)在變換域呈現(xiàn)更好的特性,以便于進(jìn)行壓縮編碼的方法被稱為變換編碼。變換編碼是先對信號進(jìn)行某種函數(shù)變換,從一種域信號變換到另一種域信號,然后再對信號進(jìn)行編碼
23、。變換編碼壓縮數(shù)據(jù)要經(jīng)過變換、變換域采樣和量化或壓縮三個步驟,如圖8-4所示。變換本身并不進(jìn)行數(shù)據(jù)壓縮,它只把信號映射到另一個域,使信號在變換域里容易進(jìn)行壓縮,變換后的樣值更獨(dú)立和有序。變換編碼基于兩個原因,一是聲音、圖像大部分信號都是低頻信號,在頻域中信號的能量較集中,重新進(jìn)行采樣、編碼,可以獲得比原來的數(shù)據(jù)比特數(shù)少的壓縮數(shù)據(jù);二是對于一些復(fù)雜的、空間相關(guān)性并不明顯的圖像,卻在頻率域中表現(xiàn)了很強(qiáng)的相關(guān)性,而且這種相關(guān)性又與圖像的復(fù)雜程度無關(guān),因此可以利用這樣的特點,設(shè)計出各種不同的壓縮算法,以求得從不同角度(域中)獲得較徹底的去除圖像信號相關(guān)性的方法。變換編碼比較經(jīng)常使用的有離散余弦變換、小
24、波變換等,著名的圖像壓縮算法JPEG即使用了變換編碼。為了使多媒體信息具有互操作性,并且確保未來的兼容性,各國際技術(shù)組織的一個重要任務(wù)是綜合各種編碼技術(shù),制定統(tǒng)一的國際或區(qū)域的標(biāo)準(zhǔn)。8.3.1 數(shù)字音頻壓縮標(biāo)準(zhǔn)8.3.2 數(shù)字圖像壓縮標(biāo)準(zhǔn)8.3.3 數(shù)字視頻壓縮標(biāo)準(zhǔn)在多媒體音頻數(shù)據(jù)的存儲和傳輸中,數(shù)據(jù)壓縮是必需的。通常數(shù)據(jù)的壓縮造成音頻質(zhì)量的下降、計算量的增加,因此在數(shù)字音頻的壓縮標(biāo)準(zhǔn)制定時需要考慮質(zhì)量、數(shù)據(jù)量、計算復(fù)雜度三個方面。音頻信號的壓縮方法有多種,其中包括基于音頻數(shù)據(jù)的統(tǒng)計特性進(jìn)行的編碼,例如波形編碼和熵編碼;基于音頻的聲學(xué)參數(shù)進(jìn)行的編碼,如參數(shù)編碼和感知編碼;基于人的聽覺特性進(jìn)行的
25、編碼;還有集中了不同方法的優(yōu)點的混合編碼。按照帶寬,音頻信號可分為電話質(zhì)量級的信號、調(diào)幅廣播質(zhì)量級的信號和高保真立體聲信號。國際電報電話咨詢委員會(CCITT目前已被ITU取代)和國際標(biāo)準(zhǔn)化組織(ISO)針對不同類型的音頻信號先后提出了一系列音頻編碼的建議。(1)電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標(biāo)準(zhǔn)(2)高保真立體聲音頻壓縮標(biāo)準(zhǔn)(1)電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標(biāo)準(zhǔn)電話質(zhì)量級的音頻信號的頻率范圍為200Hz3.4kHz,調(diào)幅廣播質(zhì)量音頻信號的頻率范圍為50Hz7kHz,它們的壓縮編碼國際標(biāo)準(zhǔn)主要為G系列標(biāo)準(zhǔn)。G.711標(biāo)準(zhǔn):1972年制定,面向電話質(zhì)量級語音信號。采用PCM編碼,采
26、樣頻率為8kHz,每個樣本采用8位二進(jìn)制編碼,非線性量化。數(shù)據(jù)傳輸速率為64kbit/s。G.721標(biāo)準(zhǔn):1984年制定,面向電話質(zhì)量級語音信號。采用自適應(yīng)差分編碼調(diào)制ADPCM算法,數(shù)據(jù)傳輸速率32kbit/s。ADPCM是一種對中等介質(zhì)音頻信號進(jìn)行高效編碼的有效方法。G.722標(biāo)準(zhǔn):1984年制定,既適用于電話質(zhì)量級語音信號又適用于調(diào)幅廣播級音頻信號。該標(biāo)準(zhǔn)寬帶音頻壓縮仍采用波形編碼技術(shù),采用高低兩個子帶內(nèi)的ADPCM方案,高低子帶的劃分以4kHz為界,然后再對每個子帶內(nèi)采用類似G.721標(biāo)準(zhǔn)的ADPCM編碼。G.728標(biāo)準(zhǔn):1992年制定,面向電話質(zhì)量級語音信號。采用基于短延時碼本激勵預(yù)
27、測編碼LD-CELP算法,數(shù)據(jù)傳輸速率為16kbit/s,信號質(zhì)量與32kbit/s的G.721相當(dāng)。(2)高保真立體聲音頻壓縮標(biāo)準(zhǔn)高保真立體聲音頻信號的頻率范圍為20Hz20 kHz,數(shù)據(jù)量很大。國際標(biāo)準(zhǔn)化組織國際電工委員會為音頻壓縮制定了MPEG標(biāo)準(zhǔn)。其中ISO /IEC11172-3作為MPEG音頻標(biāo)準(zhǔn),成為國際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn),一般稱為“MPEG-1音頻”。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32448kbit/s,適合于CD-DA光盤應(yīng)用。MPEG音頻根據(jù)算法不同分為三層。第一層次和第二層次編碼是將輸入音頻信號進(jìn)行采樣頻率為48kHz、44.1kHz、32kHz的采
28、樣,經(jīng)濾波器組將其分為32個子帶,同時利用人耳屏蔽效應(yīng),根據(jù)音頻信號的性質(zhì)計算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數(shù),獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶、非均勻量化和熵編碼技術(shù),再進(jìn)一步提高壓縮比。MPEG-1音頻編碼標(biāo)準(zhǔn)包括三部分,分別對應(yīng)第1、2和3層(Layer 1/2/3)。層次越高,其性能和復(fù)雜度也越高。用戶可在復(fù)雜性和聲音質(zhì)量之間權(quán)衡對層次作出選擇。層1包括將數(shù)字音頻變成32個子帶的基本映射,將數(shù)據(jù)格式化成塊的固定分段,決定自適應(yīng)位分配的心理聲學(xué)模型,層1標(biāo)準(zhǔn)理論上解碼的最小延時為19ms;層2提供了位分配、縮放因子和抽樣的附加編碼,使用了不同的幀
29、格式,層2理論上解碼的最小延時為35ms;層3采用混合帶通濾波器來提高頻率分辨率,它增加了差值量化、自適應(yīng)分段和量化值的熵編碼,層3理論上解碼的最小延時為59ms。MPEG音頻標(biāo)準(zhǔn)中編碼的算法并沒有標(biāo)準(zhǔn)化,可以使用多種算法,只要編碼器輸出的數(shù)據(jù)能符合本標(biāo)準(zhǔn)的解碼器解出適用的音頻流。MPEG-1音頻有四種不同的編碼模式,分別是單聲道模式、雙聲道模式、立體聲模式和聯(lián)合立體聲模式。MPEG音頻解碼時對位數(shù)據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重建聲音信號。由于解碼時無需心理聲學(xué)模型,只需拆包、重構(gòu)子帶樣本和把它們變換回聲音信號,因此解碼器的構(gòu)造相應(yīng)比編碼器簡單。 在多媒體應(yīng)用中,圖像媒體占了很大的比
30、重,通常說來圖像信息存在著大量的冗余,因而在多媒體技術(shù)中,圖像壓縮技術(shù)非常重要。圖像壓縮方法有多種,屬于無損壓縮的有RLE游程編碼、統(tǒng)計編碼等,屬于有損壓縮的有預(yù)測編碼、交換編碼、模型編碼等,這些方法并不是單獨(dú)使用,而是聯(lián)合起來共同實現(xiàn)圖像的壓縮。1JPEG概述2JPEG的壓縮流程JPEG標(biāo)準(zhǔn)是國際上通用的靜態(tài)圖像壓縮標(biāo)準(zhǔn)。JPEG(Joint Photographic Experts Group)是一個由ISO和IEC兩個組織機(jī)構(gòu)聯(lián)合組成的一個專家組,專門負(fù)責(zé)制定靜態(tài)的數(shù)字圖像數(shù)據(jù)壓縮編碼標(biāo)準(zhǔn),該組織在1991年首次提出了JPEG算法。JPEG標(biāo)準(zhǔn)適用于靜態(tài)灰度圖像、靜態(tài)彩色圖像和動態(tài)圖像的
31、幀內(nèi)壓縮。JPEG標(biāo)準(zhǔn)定義了兩種相互獨(dú)立的基本壓縮算法,一種是以預(yù)測技術(shù)(即DPCM)為基礎(chǔ)的無損壓縮算法;另一種是以離散余弦變換(Discrete Cosine Transform,DCT)為基礎(chǔ)的有損壓縮算法。后一種算法的壓縮比遠(yuǎn)遠(yuǎn)大于第一種算法,但壓縮后的圖像的效果仍然很好。使用有損壓縮算法時,在壓縮比為25:1的情況下,壓縮后還原得到的圖像與原始圖像相比較,非圖像專家難于找出它們之間的區(qū)別,因此基于DCT技術(shù)的有損壓縮JPEG算法得到了廣泛的應(yīng)用?;贒CT技術(shù)的JPEG有損壓縮算法又有三種工作模式,分別是順序(Sequential DCT-based)模式、累進(jìn)(Progressiv
32、e DCT-based)模式和分層(Hierarchical)模式。(1)基于DCT的順序模式:從左到右,從上到下掃描信號,為每個圖像編碼,編碼過程在一次掃描中完成。(2)基于DCT的累進(jìn)模式:圖像編碼在多次掃描中完成。第一次掃描只進(jìn)行一次粗糙的壓縮,壓縮后的數(shù)據(jù)量很小,重建后得到的是質(zhì)量較低的圖像。接著再次對圖像進(jìn)行比上次細(xì)致的掃描,重建后得到的圖像好于上一次。這樣不斷重復(fù)下去,直到滿意為止。累進(jìn)模式編碼傳輸時間長,接收端收到的圖像是多次掃描由粗糙到清晰的累進(jìn)過程。(3)基于DCT的分層模式:這個模式下首先將圖像變換為一系列低分辨率的圖像,如一幅1024像素 1024像素的圖像可以被變換成5
33、12像素 512像素的圖像,這個過程要繼續(xù)進(jìn)行直到圖像分辨率不能再降低。然后進(jìn)行下面的工作。第1步:壓縮最低分辨率的圖像。第2步:對前一步的結(jié)果解碼,然后內(nèi)插生成下一幅較高分辨率的圖像。第3步:用第2步的結(jié)果作為這一分辨率的實際圖像的預(yù)測,并且生成一個誤差矩陣。壓縮該矩陣。第4步:重復(fù)第2步和第3步,直到全部分辨率圖像已經(jīng)被編碼。該模式下圖像在多個空間分辨率進(jìn)行編碼。如果在信道傳送速率慢,接收端顯示器分辨率也不高的情況下,只需做低分辨率圖像解碼即可。 在JPEG標(biāo)準(zhǔn)的基礎(chǔ)上,2000年3月JPEG專家組提出了JPEG 2000標(biāo)準(zhǔn),JPEG 2000是一種使用離散小波變換(Digital Wa
34、velet Transform, DWT)的分辨率編碼技術(shù),和以前的JPEG相比,在大致相同的圖像質(zhì)量下,JPEG 2000的壓縮比提高了20%40%。JPEG 2000除了提高了壓縮比外,還有以下幾個優(yōu)點。(1)將無損壓縮的成熟方法集成到標(biāo)準(zhǔn)中,擴(kuò)大了JPEG文件的應(yīng)用領(lǐng)域。(2)加強(qiáng)了對漸進(jìn)傳輸?shù)闹С?,JPEG 2000在傳輸圖像時可以先傳輸圖像的輪廓數(shù)據(jù),然后再傳輸其他數(shù)據(jù)。(3)提出了感興趣區(qū)域概念,在壓縮時允許指定圖像上感興趣的區(qū)域的壓縮質(zhì)量,還允許選擇指定的部分先解壓縮。JPEG標(biāo)準(zhǔn)和JPEG 2000標(biāo)準(zhǔn)對圖像的壓縮都需要四步,分別是圖像數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、對變換系數(shù)進(jìn)行量化,最后進(jìn)行熵編碼,如圖8-5所示。(1)數(shù)據(jù)預(yù)處理:標(biāo)準(zhǔn)中規(guī)定了對圖像預(yù)處理的方式,JPEG標(biāo)準(zhǔn)將源圖像分成8 8的數(shù)據(jù)塊,而JPEG 2000支持把圖像分成多種成分,首先圖像被分解成分量(components),然后圖像和圖像分量又被分解成矩形片(tiles)。片分量(tile-component)是JPEG 2000原始或重建圖像的基本單位。(2)數(shù)據(jù)變換:JPEG標(biāo)準(zhǔn)使用DCT變換,JPEG 2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年版模具鋼材原材料追溯與供應(yīng)鏈追溯合同3篇
- 2025年度個人二手房交易貸款擔(dān)保合同樣本4篇
- 二零二五年度互聯(lián)網(wǎng)廣告發(fā)布合同樣本4篇
- 2025年度汽車短期租賃合同模板4篇
- 工廠保安協(xié)議書(2篇)
- 2025年度個人房屋租賃定金協(xié)議及租賃雙方權(quán)利義務(wù)2篇
- 二零二五年度苗木種植與森林防火合作協(xié)議4篇
- 2025年度二手車買賣雙方責(zé)任界定協(xié)議3篇
- 2025年度個人房產(chǎn)抵押貸款合同風(fēng)險評估報告4篇
- 2024年中級經(jīng)濟(jì)師考試題庫含解析答案
- 2024版?zhèn)€人私有房屋購買合同
- 2025年山東光明電力服務(wù)公司招聘筆試參考題庫含答案解析
- 2024爆炸物運(yùn)輸安全保障協(xié)議版B版
- 《神經(jīng)發(fā)展障礙 兒童社交溝通障礙康復(fù)規(guī)范》
- 2025年中建六局二級子企業(yè)總經(jīng)理崗位公開招聘高頻重點提升(共500題)附帶答案詳解
- 2024年5月江蘇省事業(yè)單位招聘考試【綜合知識與能力素質(zhì)】真題及答案解析(管理類和其他類)
- 注漿工安全技術(shù)措施
- 《食品與食品》課件
- 2024年世界職業(yè)院校技能大賽“食品安全與質(zhì)量檢測組”參考試題庫(含答案)
- 讀書分享會《白夜行》
- 2023上海高考英語詞匯手冊單詞背誦默寫表格(復(fù)習(xí)必背)
評論
0/150
提交評論