![多媒體數(shù)據(jù)壓縮技術(shù)_第1頁](http://file4.renrendoc.com/view/20520b38e4f346dfa8a338deef8c1d58/20520b38e4f346dfa8a338deef8c1d581.gif)
![多媒體數(shù)據(jù)壓縮技術(shù)_第2頁](http://file4.renrendoc.com/view/20520b38e4f346dfa8a338deef8c1d58/20520b38e4f346dfa8a338deef8c1d582.gif)
![多媒體數(shù)據(jù)壓縮技術(shù)_第3頁](http://file4.renrendoc.com/view/20520b38e4f346dfa8a338deef8c1d58/20520b38e4f346dfa8a338deef8c1d583.gif)
![多媒體數(shù)據(jù)壓縮技術(shù)_第4頁](http://file4.renrendoc.com/view/20520b38e4f346dfa8a338deef8c1d58/20520b38e4f346dfa8a338deef8c1d584.gif)
![多媒體數(shù)據(jù)壓縮技術(shù)_第5頁](http://file4.renrendoc.com/view/20520b38e4f346dfa8a338deef8c1d58/20520b38e4f346dfa8a338deef8c1d585.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第6章多媒體數(shù)據(jù)壓縮技術(shù)【教學(xué)內(nèi)容】1.多媒體數(shù)據(jù)壓縮編碼的必要性、可能性和壓縮方法的分類;2.量化;3.統(tǒng)計編碼;4.變換編碼;5.多媒體數(shù)據(jù)壓縮編碼國際標(biāo)準(zhǔn)。【教學(xué)目的與要求】數(shù)字化后的音頻和視頻等媒體信息具有數(shù)據(jù)海量特性,與當(dāng)前硬件技術(shù)所能提供的計算機(jī)存儲資源和網(wǎng)絡(luò)帶寬之間有很大差距(雖然現(xiàn)在的存儲器的容量越來越大),解決這一問題的關(guān)鍵技術(shù)就是數(shù)據(jù)壓縮技術(shù),即多媒體數(shù)據(jù)壓縮編碼的必要性。由于數(shù)據(jù)中存在著大量的冗余,所以多媒體數(shù)據(jù)壓縮才是可行的。介紹常用的編碼方法,數(shù)據(jù)壓縮編碼的國際標(biāo)準(zhǔn):JPEG、MPEG等。1.熟練掌握:多媒體數(shù)據(jù)壓縮編碼的必要性、可能性;哈夫曼編碼;JPEG壓縮編碼。2.掌握:量化;統(tǒng)計編碼;變換編碼。一般了解:壓縮編碼的分類;多媒體數(shù)據(jù)壓縮編碼的其他國際標(biāo)準(zhǔn),如MPEG-1,MPEG-2,MPEG-4,MPEG-7等;【考核知識點】多媒體數(shù)據(jù)壓縮編碼的必要性;多媒體數(shù)據(jù)壓縮的可行性;哈夫曼編碼、算術(shù)編碼的基本原理;數(shù)據(jù)壓縮編碼的國際標(biāo)準(zhǔn):JPEG、MPEG的基本原理。隨著通信、計算機(jī)和大眾傳播這三大技術(shù)更緊密的融合,計算機(jī)已不局限于數(shù)值計算、文字處理的范疇,同時成為處理圖形、圖像、文字和聲音等多媒體等多種信息的工具。數(shù)字化后的視頻和音頻等媒體信息具有數(shù)據(jù)海量性,與當(dāng)前硬件技術(shù)所能提供的計算機(jī)存儲資源和網(wǎng)絡(luò)帶寬之間有很大差距,可以通過數(shù)據(jù)壓縮技術(shù)解決該關(guān)鍵問題。在多媒體計算機(jī)技術(shù)的發(fā)展與進(jìn)步的進(jìn)程中,數(shù)據(jù)壓縮技術(shù)扮演著舉足輕重的角色。本章重點介紹一些重要的壓縮編碼方法,也介紹現(xiàn)有的多媒體數(shù)據(jù)壓縮的國際標(biāo)準(zhǔn):JPEG、MPEG、H.21、H.23可視通信的國際標(biāo)準(zhǔn)。這些壓縮算法和國際標(biāo)準(zhǔn)可以廣泛地應(yīng)用于多媒體計算機(jī)、多媒體數(shù)據(jù)庫、常規(guī)電視數(shù)字化、高清電視(HDTV)以及交互式電視(InteractiveTV)系統(tǒng)中。目前,正在開展應(yīng)用的項目有:可視電話、視頻會議、多媒體電子郵件、音頻、視頻點播和IP電話等。6.1多媒體數(shù)據(jù)壓縮技術(shù)概述6.1.1多媒體數(shù)據(jù)壓縮編碼的必要性由于媒體元素種類繁多、構(gòu)成復(fù)雜,即數(shù)字計算機(jī)所要處理、傳輸和存儲等對象為數(shù)值、文字、語言、音樂、圖形、動畫、靜態(tài)圖像和電視視頻圖像等多種媒體元素,并且使他們在模擬量和數(shù)字量之間進(jìn)行自由轉(zhuǎn)換、信息吞吐、存儲和傳輸。目前,虛擬現(xiàn)實技術(shù)要實現(xiàn)逼真的三維空間、3D立體聲效果和在實境中進(jìn)行仿真交互,帶來的突出的問題是媒體元素數(shù)字化后數(shù)據(jù)量大得驚人。在前幾章中曾介紹過諸如聲音、圖像等信號的海量表現(xiàn),下面不妨再舉幾個例子說明:(1)陸地衛(wèi)星的水平、垂直分辨率分別為3240和2340,4波段、采樣精度為7位,那么一幅圖像的數(shù)據(jù)量為2340×3240×7×4/8=26.5MB,按每天30幅計算,每天的數(shù)據(jù)量就有26.5×30=795MB,每年的數(shù)據(jù)量高達(dá)283GB。(2)高保真立體聲音頻信號的采樣頻率為44.1kHz、16位采樣精度,一分鐘存儲量為10.34MB。一片CD-ROM(存儲量為650MB)可存放約63分鐘的音樂。如果使用48kHz采樣頻率的話,需要的存儲量就更大了。(3)數(shù)字電視圖像(InternationalConsultativeCommitteeForRadio,ICCR)格式,PAL制式、8:8:8采樣,每幀數(shù)據(jù)量為720×576×3=1.19MB;每秒的數(shù)據(jù)量為1.19×25=29.75MB;一片CD-ROM只能存放650÷1.19=546幀圖像,或一片CD-ROM可存儲節(jié)目的時間為650÷29.75=21.85秒。從以上的例子可以看出,數(shù)字化信息的數(shù)據(jù)量十分龐大,無疑給存儲器的存儲量、通信干線的信道傳輸率以及計算機(jī)的速度都增加了極大的壓力。如果單純靠擴(kuò)大存儲器容量、增加通信干線傳輸率的辦法來解決問題是不現(xiàn)實的。通過數(shù)據(jù)壓縮技術(shù)可以大大降低數(shù)據(jù)量,以壓縮的形式存儲和傳輸,既節(jié)約了存儲空間,又提高了通信干線的傳輸效率,同時也使計算機(jī)得以實時處理音頻、視頻信息,保證播放出高質(zhì)量的視頻和音頻節(jié)目。6.1.2多媒體數(shù)據(jù)壓縮的可能性(可行性)經(jīng)研究發(fā)現(xiàn),與音頻數(shù)據(jù)一樣,圖像數(shù)據(jù)中存在著大量的冗余。通過去除那些冗余數(shù)據(jù)可以極大地降低原始圖像數(shù)據(jù)量,從而解決圖像數(shù)據(jù)量巨大的問題。圖像數(shù)據(jù)壓縮技術(shù)就是研究如何利用圖像數(shù)據(jù)的冗余性來減少圖像數(shù)據(jù)量的方法。因此,進(jìn)行圖像壓縮研究的起點是研究圖像數(shù)據(jù)的冗余性。(1)空間冗余。在靜態(tài)圖像中有一塊表面顏色均勻的區(qū)域,在這個區(qū)域中所有點的光強(qiáng)和色彩以及色飽和度都相同,具有很大的空間冗余。這是由于基于離散像素采樣的方法不能表示物體顏色之間的空間連貫性導(dǎo)致的。(2)時間冗余。電視圖像、動畫等序列圖片,當(dāng)其中物體有位移時,后一幀的數(shù)據(jù)與前一幀的數(shù)據(jù)有許多共同的地方,如背景等位置不變,只有部分相鄰幀改變的畫面,顯然是一種冗余,這種冗余稱為時間冗余。(3)結(jié)構(gòu)冗余。在有些圖像的紋理區(qū),圖像的像素值存在著明顯的分布模式。例如,方格狀的地板圖案等,稱此為結(jié)構(gòu)冗余。如果已知分布模式,就可以通過某一過程生成圖像。(4)知識冗余。對于圖像中重復(fù)出現(xiàn)的部分,我們可以構(gòu)造出基本模型,并創(chuàng)建對應(yīng)各種特征的圖像庫,進(jìn)而使圖像的存儲只需要保存一些特征參數(shù),從而可以大大減少數(shù)據(jù)量。知識冗余是模型編碼主要利用的特性。(5)視覺冗余。事實表明,人的視覺系統(tǒng)對圖像的敏感性是非均勻性和非線性的。在記錄原始的圖像數(shù)據(jù)時,對人眼看不見或不能分辨的部分進(jìn)行記錄顯然是不必要的。因此,大可利用人的視覺的非均勻性和非線性,降低視覺冗余。(6)圖像區(qū)域的相同性冗余。它是指在圖像中的兩個或多個區(qū)域所對應(yīng)的所有像素值相同或相近,從而產(chǎn)生的數(shù)據(jù)重復(fù)性存儲,這就是圖像區(qū)域的相似性冗余。在以上的情況下,當(dāng)記錄了一個區(qū)域中各像素的顏色值,則與其相同或相近的其他區(qū)域就不需要記錄其中各像素的值。采用向量量化(Vectorquantization)方法就是針對這種冗余性的圖像壓縮編碼方法。隨著對人的視覺系統(tǒng)和圖像模型的進(jìn)一步研究,人們可能會發(fā)現(xiàn)圖像中存在著更多的冗余性,使圖像數(shù)據(jù)壓縮編碼的可能性越來越大,從而推動圖像壓縮技術(shù)的進(jìn)一步發(fā)展。6.1.3多媒體數(shù)據(jù)壓縮方法的分類多媒體數(shù)據(jù)壓縮方法根據(jù)不同的依據(jù)可產(chǎn)生不同的分類。1.第一種分類方法是根據(jù)解碼后數(shù)據(jù)是否能夠完全無丟失地恢復(fù)原始數(shù)據(jù),可分為兩種:(1)無損壓縮:也稱為可逆壓縮、無失真編碼、熵編碼等。工作原理為去除或減少冗余值,但這些被去除或減少的冗余值可以在解壓縮時重新插入到數(shù)據(jù)中以恢復(fù)原始數(shù)據(jù)。它大多使用在對文本和數(shù)據(jù)的壓縮上,壓縮比較低,大致在2:1~5:1之間。典型算法有:哈夫曼編碼、香農(nóng)-費(fèi)諾編碼、算術(shù)編碼、游程編碼和Lenpel-Ziv編碼等。(2)有損壓縮:也稱不可逆壓縮和熵壓縮等。這種方法在壓縮時減少了數(shù)據(jù)信息是不能恢復(fù)的。在語音、圖像和動態(tài)視頻的壓縮中,經(jīng)常采用這類方法。它對自然景物的彩色圖像壓縮,壓縮比可達(dá)到幾十倍甚至上百倍。什么是熵?數(shù)據(jù)壓縮不僅起源于20世紀(jì)40年代由ClaudeShannon首創(chuàng)的信息論,而且其基本原理即信息究竟能被壓縮到多小,至今依然遵循信息論中的一條定理,這條定理借用了熱力學(xué)中的名詞“熵”(Entropy)來表示一條信息中真正需要編碼的信息量:考慮用0和1組成的二進(jìn)制數(shù)碼為含有n個符號的某條信息編碼,假設(shè)符號Fn在整條信息中重復(fù)出現(xiàn)的概率為Pn,則該符號的熵也即表示該符號所需的位數(shù)位為:En=-log2(Pn)整條信息的熵也即表示整條信息所需的位數(shù)為:E=∑En舉個例子,對下面這條只出現(xiàn)了a、b、c三個字符的字符串:Aabbaccbaa字符串長度為10,字符a、b、c分別出現(xiàn)了5、3、2次,則a、b、c在信息中出現(xiàn)的概率分別為0.5、0.3、0.2,他們的熵分別為:Ea=-log2(0.5)=1Eb=-log2(0.3)=1.737Ec=-log2(0.2)=2.322整條信息的熵也即表達(dá)整個字符串需要的位數(shù)為:E=Ea*5+Eb*3+Ec*2=14.855位回想一下如果用計算機(jī)中常用的ASCII編碼,表示上面的字符串我們需要整整80位呢!現(xiàn)在知道信息為什么能被壓縮而不丟失原有的信息內(nèi)容了吧。簡單地講,用較少的位數(shù)表示較頻繁出現(xiàn)的符號,這就是數(shù)據(jù)壓縮的基本準(zhǔn)則。我們該怎樣用0、1這樣的二進(jìn)制數(shù)碼表示零點幾個二進(jìn)制位呢?確實很困難,但不是沒有辦法。一旦我們找到了準(zhǔn)確表示零點幾個二進(jìn)制位的方法,我們就有權(quán)利向無損壓縮的極限挑戰(zhàn)了。第二種分類方法是按照壓縮技術(shù)所采用的方法來分的,如P111表6-1所示:表6-1多媒體數(shù)據(jù)編碼算法分類PCM自適應(yīng)式、固定式多媒體數(shù)據(jù)編碼算法預(yù)測編碼自適應(yīng)式、固定式(DPCM、ΔM)混合編碼變換編碼傅里葉、離散余弦、離散正統(tǒng)、哈爾、斜變換、沃爾-哈達(dá)馬、卡胡南-勞夫(K-L)、小波統(tǒng)計編碼(熵編碼)哈夫曼編碼、算術(shù)編碼、費(fèi)諾編碼、香農(nóng)編碼、游程編碼(RLE)、LZW靜態(tài)圖像編碼方塊、逐漸浮現(xiàn)、逐層內(nèi)插、比特平面、抖動電視編碼幀內(nèi)預(yù)測幀間編碼運(yùn)動估計、運(yùn)動補(bǔ)償、條件補(bǔ)充、內(nèi)插、幀間預(yù)測其他編碼矢量量化、子帶編碼、輪廓編碼、二值圖像實際上連續(xù)模擬信號進(jìn)行數(shù)字采樣表示時,通常采用奈斯特采樣速率。若量化器為N級,即N=2b,則每一個采樣的樣本用b位的二進(jìn)制代碼表示。在信號的量化中,每一色彩分量一般用8位表示。PCM編碼器和解碼器位于一個圖像編碼系統(tǒng)的起點和終點,它們實際上分別是A/D轉(zhuǎn)換器和D/A轉(zhuǎn)換器,以下所討論的壓縮技術(shù)編碼方法都是在多媒體數(shù)據(jù)模擬信號經(jīng)過編碼后再進(jìn)行的。2.第二種分類方法是按具體編碼算法來分:(1)預(yù)測編碼(PredictiveCoding,PC):這種編碼器記錄與傳輸?shù)牟皇菢颖镜恼鎸嵵?,而是真實值與預(yù)測值之差。對于語音,就是通過預(yù)測去除語音信號時間上的相關(guān)性;對于圖像來講,幀內(nèi)的預(yù)測去除空間冗余、幀間預(yù)測去除時間上的冗余。預(yù)測值由預(yù)編碼圖像信號的過去信息決定。由于時間、空間相關(guān)性,真實值與預(yù)測值的差值變化范圍遠(yuǎn)遠(yuǎn)小于真實值的變化范圍,因而可以采用較少的位數(shù)來表示。另外,若利用人的視覺特性對差值進(jìn)行非均勻量化,則可獲得更高壓縮比。(2)變換編碼(TransformCoding,TC):在變換編碼中,由于對整幅圖像進(jìn)行變換的計算量太大,所以一般把原始圖像分成許多個矩形區(qū)域,對子圖像獨(dú)立進(jìn)行變換。變換編碼的主要思想是利用圖像塊內(nèi)像素值之間的相關(guān)性,把圖像變換到一組新的“基”上,使得能量集中到少數(shù)幾個變換系數(shù)上,通過存儲這些系數(shù)而達(dá)到壓縮的目的。采用離散余弦編碼DCT變換消除相關(guān)性的效果非常好,而且算法快速,被普遍接受。(3)統(tǒng)計編碼:最常用的統(tǒng)計編碼是哈夫曼編碼,出現(xiàn)頻率大的符號用較少的位數(shù)表示,而出現(xiàn)頻率小的符號則用較多位數(shù)表示,編碼效率主要取決于需要編碼的符號出現(xiàn)的概率分布,越集中則壓縮比越高。哈夫曼編碼可以實現(xiàn)熵保持編碼,所以是一種無損壓縮技術(shù),在語音和圖像編碼中常常和其他方法結(jié)合使用。6.2量化通常量化是指模擬信號到數(shù)字信號的映射,它是模擬量轉(zhuǎn)化為數(shù)字量必不可少的步驟。由于模擬量是連續(xù)的,而數(shù)字量是離散量,因此量化操作實質(zhì)上是用有限的離散量代替無限的連續(xù)模擬量的多對一映射操作。6.2.1比特率比特率是采樣率和量化過程中使用的比特數(shù)的產(chǎn)物。用例子說明更容易理解,電話通信中,語音信號的帶寬約3kHz,根據(jù)奈奎斯特定理,意味著采樣頻率應(yīng)不低于6kHz。為了留下一定余量可選擇標(biāo)準(zhǔn)采樣頻率為8kHz,使用一個8位的量化器,那么該電話通信所要求的比特率為:8K×8=64Kb/s。比特率是數(shù)據(jù)通信的一個重要參數(shù)。公用數(shù)據(jù)網(wǎng)的信道傳輸能力常常是以每秒傳送多少Kb或多少Gb信息量來衡量的。P112表6-2列出了電話通信、遠(yuǎn)程會議通信(高音質(zhì))、數(shù)字音頻光盤(CD)和數(shù)字音頻帶(DAT)等幾類應(yīng)用中比特率的相關(guān)比較。表6-2數(shù)字音頻格式比較應(yīng)用類型采樣頻率(kHz)帶寬(kHz)頻帶(Hz)比特率(kb/s)電話8.03.0200~320064遠(yuǎn)程會議16.07.050~7000256數(shù)字音頻光盤44.120.020~200001410數(shù)字音頻帶48.020.020~200001536信息量與數(shù)據(jù)量的關(guān)系:I=D-duI:信息量;D:數(shù)據(jù)量;du:冗余量6.2.2量化原理量化處理是使數(shù)據(jù)比特率下降的一個強(qiáng)有力的措施。脈沖編碼調(diào)制(PCM)的量化處理在采樣之后進(jìn)行,從原理分析的角度看,圖像灰度值是連續(xù)的數(shù)值,而我們實際看到的是用0~255的整數(shù)表示的圖像灰度,這是經(jīng)過A/D轉(zhuǎn)換后的以256級灰度分層量化處理了的離散數(shù)值,這樣就可以用㏒2256=8位表示一個圖像像素的灰度值?;蛏钚盘栔?,假設(shè)是彩色圖像。我們所討論的多媒體數(shù)據(jù)壓縮編碼中的量化,是指以PCM碼作為輸入,經(jīng)正交變換、差分或預(yù)測處理后,在熵編碼之前,對正交變換系數(shù)、差值或預(yù)測誤差的量化處理。量化輸入值的動態(tài)范圍很大,需要以多的比特數(shù)表示一個數(shù)值,量化輸出只能取有限個整數(shù),稱作量化級,一般希望量化后的數(shù)值用較少的比特數(shù)就可以表示。每個量化輸入被強(qiáng)行歸一到與其接近的某個輸出,即量化到某個級。量化處理總是把一批輸入量化到一個輸出級上,所以量化處理是一個多對一的處理過程,一般是個不可逆過程,量化處理中有信息丟失,即會引起量化誤差或量化噪聲。6.2.3標(biāo)量量化器的設(shè)計1.量化器的設(shè)計要求通常設(shè)計量化器有下述兩種情況:(1)給定量化分層級數(shù),滿足量化誤差最小。(2)限定量化誤差,確定分層級數(shù),滿足用盡量小的平均比特數(shù)表示量化輸出的要求。顯然,這是一對相互矛盾的要求,設(shè)計量化器只能折衷處理。2.量化方法和量化特性量化方法有標(biāo)量量化和矢量量化之分,標(biāo)量量化又可分為均勻量化、非均勻量化和自適應(yīng)量化。P113圖6-1畫出了一個標(biāo)量量化過程的示意圖。圖6-1中的a區(qū)是待量化的函數(shù),是一幅圖像的灰度差值圖。設(shè)其灰度值范圍為0~255,從而使灰度差的范圍為-255~255,需要㏒2512=9位表示一個輸入,當(dāng)限定量化輸出級m=8時,那么量化輸出僅用㏒28=3位表示就可以了,這時出現(xiàn)大量化級到小量化級的對應(yīng)問題。圖6-1中的b區(qū)畫出了“均勻量化”處理的量化箱示意圖。當(dāng)m=8,共有W1,W2,W3,……,W8,8個等寬的量化箱,量化箱的寬度和等于輸入的動態(tài)范圍-255~255,也就是說把-255~255數(shù)分成8等份。每一等份對應(yīng)一個量化箱,第k等份的量化值以該量化箱的中心值為準(zhǔn),在該量化箱內(nèi)所有的輸入均被定義為k級。圖6-1中的c區(qū)的量化箱不等寬,中間大概率處的箱窄,兩邊小概率處的箱寬,表示不均勻量化。同樣被量化為8級,c區(qū)的量化誤差小于b區(qū)。量化器的量化特性曲線,有多種多樣,P114圖6-2給出一個8級均勻量化特性曲線,圖6-3給出一個非均勻量化特性曲線。數(shù)據(jù)壓縮技術(shù)中一個關(guān)鍵問題是量化器的設(shè)計和量化特性的選擇。因為量化是一個有信息丟失的不可逆過程。量化器的好壞,不僅直接影響數(shù)據(jù)壓縮率,而且量化誤差對解壓縮后的恢復(fù)圖像的質(zhì)量有很大影響。比如,斜率過載、顆粒噪聲、邊緣繁忙、假輪廓等現(xiàn)象都會使圖像產(chǎn)生不愉快的視覺效果。自適應(yīng)量化器,可以彌補(bǔ)上述缺點。6.2.4矢量量化矢量量化編碼是近年來圖像和語音信號編碼技術(shù)中頗為流行的一種新型量化編碼方法,一般是有失真的編碼方法。矢量量化的名字是相對于標(biāo)量量化而提出的。對于PCM數(shù)據(jù),一個數(shù)一個數(shù)進(jìn)行量化叫標(biāo)量量化。若對這些數(shù)據(jù)分組,每組K個數(shù)構(gòu)成一個K維矢量,然后以矢量為單元,逐個矢量進(jìn)行量化,稱矢量量化。矢量量化可以更有效地提高壓縮比。以P114圖6-4矢量量化編碼、解碼原理框圖說明矢量量化的優(yōu)越性。圖中輸入量是一個待編碼的K維矢量,即先將輸入圖像分割成m個方塊,每個塊的尺寸為n2,然后把每一個方塊以列(行)堆疊成K(K=n2)維矢量,作為編碼輸入矢量。碼本C是一個具有N個K維矢量的集合,C={yi},i=1,2,……,N。碼本C實際是一個長度為N查找表,這個查找表的每一個分量就是一個K維矢量yi,稱為碼字。在接收端和發(fā)送端各有完全相同的碼本C。矢量量化編碼過程就是從碼本C中搜索一個與輸入矢量最接近的碼字yi的過程。想在碼本C中找到一個完全一致的碼字的概率是很小的,一般在可接受的誤差范圍內(nèi)就可以算匹配成功,即用該碼字yi代表輸入矢量。傳輸時并不傳送碼字yi本身,而只傳其下標(biāo)號“i”。當(dāng)碼本長度為N,為傳送下標(biāo)所需要的比特數(shù)為㏒2N。傳送一個像素所需的平均比特數(shù)為·㏒2N??梢姡噶苛炕年P(guān)鍵問題是設(shè)計一個良好的碼本。6.3統(tǒng)計編碼數(shù)據(jù)壓縮技術(shù)的理論基礎(chǔ)是信息論。根據(jù)信息論的原理,可以找到最佳數(shù)據(jù)壓縮編碼方法,數(shù)據(jù)壓縮的理論極限是信息熵。如果要求在編碼過程中不丟失信息量,即要求保存信息熵,這種信息保持編碼又稱作熵保存編碼,或者叫熵編碼。熵編碼是無失真數(shù)據(jù)壓縮,用這種編碼結(jié)果經(jīng)解碼后無失真地恢復(fù)出原圖像。當(dāng)考慮到人眼對失真不易覺察的生理特征時,有些圖像編碼不嚴(yán)格要求熵保存,信息可允許部分損失以換取高的數(shù)據(jù)壓縮比,這種編碼是有失真數(shù)據(jù)壓縮,通常運(yùn)動圖像的數(shù)據(jù)壓縮是有失真編碼,這就是著名的香農(nóng)(Shannon)率失真理論,即信息編碼率與允許的失真關(guān)系的理論。信息量和信息熵信息是用不確定性的量度定義的。一個消息的可能性越小,其信息越多;消息的可能性越大,其信息越少。在數(shù)學(xué)上,所傳輸?shù)南⑹瞧涑霈F(xiàn)概率的單調(diào)下降函數(shù)。所謂信息量是指從N個相等可能事件中選出一個事件所需要的信息度量或含量,也就是在辨認(rèn)N個事件中特定的一個事件的過程中所需要提問“是或否”的最少次數(shù)。例如,要從64個數(shù)中選定某一個數(shù),可以先提問“是否大于32”,不論回答是或否都消去了半數(shù)的可能事件,這樣繼續(xù)部下去,只要提問6次這類問題,就能從64個數(shù)中選定某一個數(shù)。這是因為每提問一次都會得到1比特的信息量。因此在64個數(shù)中選定某個數(shù)所需要的信息量是:lb64=6(b)信息論把一個事件(字符xi)所攜帶的信息量定義為:I(xi)=-log2P(xi)i=1,2,…,n其中P(xi)為事件發(fā)生(字符出現(xiàn))概率,I(xi)即信源X發(fā)出xi時所攜帶的信息量。信源X發(fā)出的xi(i=1,2,…,n),共n個隨機(jī)事件的自信息統(tǒng)計平均(求數(shù)學(xué)期望),即H(X)=E{I(xi)}=·I(xi)=-·log2P(xi)H(X)在信息論中稱為信源X的熵(Entropy),它的含義是信源X發(fā)出任一個隨機(jī)變量的平均信息量。熵的大小與信源的概率模型有著密切的關(guān)系。6.3.1哈夫曼編碼香農(nóng)的信息保持編碼只是指出存在一種無失真的編碼,使得編碼平均碼長逼近熵值這個下限,但它并沒有給出具體的編碼方法。信息論中介紹了幾種典型的熵編碼方法,如Shannon編碼法、Fano編碼法和Huffman編碼法,其中尤其以哈夫曼編碼法為最佳,在多媒體編碼系統(tǒng)中常用這種方法作熵保持編碼。哈夫曼編碼方法于1952年問世。迄今為止,仍經(jīng)久不衰,廣泛應(yīng)用于各種數(shù)據(jù)壓縮技術(shù)中,且仍不失為熵編碼中的最佳編碼方法。Huffman編碼法利用了最佳編碼定理:在變字長碼中,對于出現(xiàn)概率大的信息符號以短字長編碼,對于出現(xiàn)概率小的信息符號以長字長編碼。如果碼字長度嚴(yán)格按照符號概率的大小的相反順序排列,則平均碼字長度一定小于按任何其他符號順序排列方式得到的碼字長度。哈夫曼編碼方法的具體步驟歸納如下:(1)概率統(tǒng)計(如對一幅圖像,或m幅同種類型圖像作灰度信號統(tǒng)計),得到n個不同概率的信源信息符號。(2)將信源信息符號的n個概率,按概率大小排序。(3)將n個概率中的最后兩個小概率相加,這時概率個數(shù)減為n-1個。(4)將n-1個概率按大小重新排序。(5)重復(fù)步驟(3),將新排序后的最后兩個小概率再相加,相加所得到的和與其余概率再排序。(6)如此反復(fù)重復(fù)n-2次,最后只剩下兩個概率序列。(7)以二進(jìn)制碼元(0,1)賦值(如大概率用“0”表示,小概率用“1”表示),構(gòu)成哈夫曼字,至此編碼結(jié)束。例:設(shè)有7個符號的信源X={x1,x2,x3,…,x7},概率分布為P=P(xi){0.35,0.20,0.15,0.10,0.10,0.06,0.04},做出哈夫曼編碼。碼字的平均碼長用下面公式計算===(0.35+0.20)×2+(0.15+0.10+0.10)×3+(0.06+0.04)×4=2.55bits/pel哈夫曼碼字長度和信息符號出現(xiàn)概率大小次序正好相反,即大概率信息符號分配碼字長度短,小概率信息符號分配碼字長度長。6.3.2算術(shù)編碼*(???1.算術(shù)編碼基本原理算術(shù)編碼方法比哈夫曼編碼、游程編碼等熵編碼方法都復(fù)雜,但是它無需傳送像哈夫曼編碼的哈夫曼碼表,同時算術(shù)編碼還有自適應(yīng)能力的優(yōu)點,所以算術(shù)編碼是實現(xiàn)高效壓縮數(shù)據(jù)中很有前途的編碼方法。算術(shù)編碼從全序列出發(fā),采用遞推形式的連續(xù)編碼。它不是將單個信源符號映射成一個碼字,而是將整個輸入符號序列映射為實數(shù)軸上的[0,1]區(qū)間內(nèi)的一個間隔,其長度就等于該序列的概率,并在該間隔內(nèi)選擇一個代表性的二進(jìn)制小數(shù),作為實際的編碼輸出,使其平均碼長逼近信源的熵,從而達(dá)到高效編碼的目的。2.例子由于算術(shù)編碼復(fù)雜且原理不是上面講得那么簡單,所以用一個具體例子加以說明。設(shè)輸入數(shù)據(jù)為eaiou,其出現(xiàn)概率和所設(shè)定的取值范圍如下:字符:aeiou概率:0.20.30.10.20.2范圍:[0,0.2][0.2,0.5][0.5,0.6][0.6,0.8][0.8,1.0]“范圍”給出了字符的賦值區(qū)間,該區(qū)間是根據(jù)字符發(fā)生的概率劃分的。至于把某個具體字符分配在哪個區(qū)間范圍,對編碼本身沒有影響,只要保證編碼器和譯碼器對字符的概率區(qū)間相同即可。設(shè)high為編碼間隔的高端,顯然high=1;low為編碼間隔的低端,low=0;range為編碼間隔的長度,range=high-low;rangelow為編碼字符分配的間隔低端;rangehigh為編碼字符分配的間隔高端。于是一個字符編碼后,新的low和high按下式計算:Low=low+range×rangelowhigh=low+range×rangehigh(1)在第一個字符e被編碼時,e的rangelow=0.2,rangehigh=0.5,因此按照以上介紹的公式:Low=low+range×rangelow=0+1×0.2=0.2high=low+range×rangehigh=0+1×0.5=0.5range=high-Low=0.5-0.2=0.3此時分配給字符e的范圍為[0.2,0.5]。(2)第二個字符a編碼時使用新生成范圍[0.2,0.5],a的rangelow=0,rangehigh=0.2。則Low=low+range×rangelow=0.2+0.3×0=0.2High=low+range×rangehigh=0.2+0.3×0.2=0.26range=high-Low=0.26-0.2=0.06此時分配給a的范圍為[0.2,0.26]。(3)第三個字符i編碼時用新生成的范圍,i的rangelow=0.5,rangehigh=0.6,則:Low=low+range×rangelow=0.2+0.06×0.5=0.23High=low+range×rangehigh=0.2+0.06×0.6=0.236range=high-Low=0.236-0.23=0.006(4)第四個字符o編碼,o的rangelow=0.6,rangehigh=0.8,則:Low=0.23+0.006×0.6=0.2336High=0.23+0.006×0.8=0.2348range=high-Low=0.2348-0.2336=0.0012此時分配給o的范圍為[0.2336,0.2348]。(5)第五個字符u編碼時,u的rangelow=0.8,rangehigh=1.0,,則:Low=0.2336+0.0012×0.8=0.23396High=0.2336+0.0012×1.0=0.2342此時分配給u的范圍為[0.23396,0.2342]。編碼結(jié)果如P117表6-3。表6-3輸入字符的算術(shù)編碼結(jié)果輸入lowhighrangee0.20.50.3a0.20.260.06i0.230.2360.006o0.23360.23480.0012u0.233960.2342隨著字符的輸入,代碼的取值范圍越來越小,當(dāng)字符串eaiou被全部編碼后,其范圍在[0.23396,0.2342]內(nèi),即在此范圍內(nèi)的數(shù)值代碼都唯一地對應(yīng)于字符串eaiou。我們可以取這個區(qū)間的下限0.23396作為對源數(shù)據(jù)流eaiou進(jìn)行壓縮編碼后的輸出代碼。于是,可以用一個浮點數(shù)表示一個字符串,達(dá)到少占存儲空間的目的。(6)譯碼的時候又是如何處理呢?譯碼過程的實現(xiàn)比較簡單。以上例為例,根據(jù)上面給定字符的概率和取值范圍,對代碼0.23396進(jìn)行譯碼,步驟如下:=1\*GB3①根據(jù)代碼所在范圍確定當(dāng)前代碼的第一個字符,并輸出。由于0.23396在[0.2,0.5]的范圍內(nèi),所以,代碼對應(yīng)的第一個字符是e。輸出字符e。=2\*GB3②用0.23396減去e發(fā)生在概率取值的下限0.2,使代碼變?yōu)?.03396,再除以e范圍的寬度0.5-0.2=0.3,得到0.1132,落入?yún)^(qū)間[0,0.2],所以對應(yīng)后續(xù)字符為a。=3\*GB3③轉(zhuǎn)到=2\*GB3②,將0.1132作為代碼繼續(xù)確定下一個譯碼字符的范圍。重復(fù)上述步驟直到整個字符串處理完畢為止。所以,有人說算術(shù)編碼是“向極限挑戰(zhàn)”。6.3.3游程編碼在一幅圖像中具有許多顏色相同的圖塊,如:一行上有許多連續(xù)的像素都具有相同的顏色,甚至許多行上的顏色都相同。所以在存儲彩色時,只需存儲一個像素的顏色,然后再存儲具有相同顏色的像素數(shù)目或者相同顏色的行數(shù),這樣勢必可以大大壓縮數(shù)據(jù)量。這種壓縮編碼稱為游程編碼(RunLengthEncoding,RLE)。簡單的說RLE壓縮就是將一串連續(xù)的相同數(shù)據(jù)轉(zhuǎn)化為特定的格式達(dá)到壓縮數(shù)據(jù)量的目的。例如,有一幅灰度圖像,第n行的像素值如P118圖6-6所示。用RLE編碼方法得到的代碼為:80315084180。代碼中加下劃線表示的數(shù)字是行程長度,其后面不加下劃線的數(shù)字代表像素的顏色值。如,有下劃線的50表示有連續(xù)50個像素具有相同顏色值8。上例中,用游程編碼的11個代碼表示原來的73個代碼,壓縮比達(dá)到了7:1。可見RLE確實是一種實現(xiàn)起來簡單、還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同的無損壓縮技術(shù)。但是RLE所能獲得的壓縮比有多大,主要取決于圖像本身的特點。如果圖像中具有相同顏色的圖像塊越大,圖像塊數(shù)目越少,獲得的壓縮比就越高;反之,壓縮比就越小。對于重復(fù)色彩特別少的圖像,如果仍然使用RLE編碼方法,不僅不能壓縮圖像數(shù)據(jù),反而可能使原來的圖像數(shù)據(jù)變得更大。不過RLE編碼技術(shù)仍可以和其他編碼技術(shù)聯(lián)合應(yīng)用。6.4變換編碼預(yù)測編碼是一種較好地去除音頻、圖像信號相關(guān)性的編碼技術(shù),而變換編碼也可以有效地去除圖像信號的相關(guān)性,而且其性能還往往優(yōu)于預(yù)測編碼。6.4.1變換編碼的基本原理變換編碼不是直接對空域圖像信號編碼,而是首先在數(shù)據(jù)壓縮前對原始輸入數(shù)據(jù)作某種正交變換,把圖像信號映射變換到另外一個正交向量空間,產(chǎn)生一批變換系數(shù),然后再對這些變換系數(shù)進(jìn)行編碼處理。它首先在發(fā)送端將原始圖像分割成n個子圖像塊,每個子圖像塊經(jīng)過正交變換、濾波、量化和編碼后經(jīng)信道傳輸?shù)竭_(dá)接收端,接收端做解碼、逆變換、綜合拼接,恢復(fù)出空域圖像。P119圖6-7給出了過程示意圖。數(shù)字圖像信號經(jīng)過正交變換為什么能壓縮數(shù)據(jù)量呢?舉一個簡單例子說明:一時域三角函數(shù)y(t)=Asin2πft,當(dāng)t從-∞到+∞變化時,y(t)是一個正弦波。假如將其變換到頻域表示,只需幅值A(chǔ)和頻率f兩個參數(shù)就足夠了,可見y(t)在時域描述,數(shù)據(jù)之間的相關(guān)性大,數(shù)據(jù)冗余度大;而轉(zhuǎn)到頻域描述,數(shù)據(jù)相關(guān)性大大減少,數(shù)據(jù)冗余量減少,參數(shù)獨(dú)立,數(shù)據(jù)量減少。再如,有兩個相鄰的數(shù)據(jù)樣本x1與x2,每個樣本采用3位編碼,因此各有23=8個幅度等級。而兩個樣本的聯(lián)合事件,共有8×8=64種可能,可用P120圖6-8(a)的二維平面坐標(biāo)表示。其中x1軸與x2軸分別表示相鄰兩樣本可能的幅度等級。對于慢變信號,相鄰兩樣本x1與x2同時出現(xiàn)相近幅度等級的可能性較大。因此,如圖6-8(a)陰影區(qū)內(nèi)450斜線附近的聯(lián)合事件的出現(xiàn)概率也就越大,將陰影區(qū)之邊界稱為相關(guān)圈,信源的相關(guān)性越強(qiáng),則相關(guān)圈越扁;反之,圈越圓。為了對圈內(nèi)各點的位置進(jìn)行編碼,就要對兩個差不多大的坐標(biāo)值分別進(jìn)行編碼。當(dāng)相關(guān)性越弱時,此相關(guān)圈就越顯圓形狀,說明x1處于某一幅度等級時,x2可能出現(xiàn)在不相同的任意幅度等級上。現(xiàn)在對該數(shù)據(jù)對進(jìn)行正交變換,從幾何上相當(dāng)于坐標(biāo)系逆時針轉(zhuǎn)過450,變成y1、y2坐標(biāo)系,如P120圖6-8(b)所示,此時相關(guān)圈正好y1坐標(biāo)軸下。且該圈越扁長,它在y1上的投影就越大,面在y2上的投影就越小。因而從y1、y2坐標(biāo)來看,任憑y1在較大范圍內(nèi)變化,而y2卻可以“巋然不動”或只有“微動”。這就意味著變量y1、y2之間在統(tǒng)計上更加相互獨(dú)立。因此,通過這種坐標(biāo)系旋轉(zhuǎn)變換,就能得到一組去掉大部分甚至全部統(tǒng)計相關(guān)性的另一種輸出樣本。由此可知,正交變換實現(xiàn)數(shù)據(jù)壓縮的本質(zhì)在于:經(jīng)過坐標(biāo)系適當(dāng)?shù)男D(zhuǎn)和變換,能夠把散布在各個坐標(biāo)軸上的原始數(shù)據(jù),在新的、適當(dāng)?shù)淖鴺?biāo)系中集中到少數(shù)坐標(biāo)軸上,因而可用較少的編碼位數(shù)來表示一組信號樣本,實現(xiàn)高效率的壓縮編碼。變換編碼技術(shù)已有近30年的歷史,理論較完備,技術(shù)上比較成熟,廣泛應(yīng)用各種圖像數(shù)據(jù)壓縮,諸如單色圖像、彩色圖像、靜止圖像、運(yùn)動圖像,以及多媒體計算機(jī)技術(shù)中的電視幀內(nèi)圖像壓縮和幀間圖像壓縮等。正交變換的種類很多,如傅里葉(Fouries)變換、沃爾什(Walsh)變換、哈爾(Haar)變換、斜(slant)變換、余弦變換、正弦變換、K-L(Karhunen-Loeve)變換等。6.4.2最佳的正交變換——K-L變換離散Karhunen-Loeve(K-L)變換是以圖像的統(tǒng)計特性為基礎(chǔ)的一種正交變換,也稱為特征向量變換或主分量變換。主分量變換技術(shù)早在1933年就被霍特林(Hotelling)發(fā)現(xiàn),他曾對這種正交變換作深入的分析。當(dāng)今在圖像處理書中提到的霍特林變換、K-L變換,其實所指的是同一種正交變換方法——主分量法。K-L變換從圖像統(tǒng)計特性出發(fā)用一組不相關(guān)的系數(shù)來表示連續(xù)信號,實現(xiàn)正交變換。K-L變換使向量信號的各個分量互不相關(guān),因而在均方誤差準(zhǔn)則下,它是失真最小的一種變換,故稱為最佳變換。雖然K-L變換是最佳正交變換方法,但是由于它沒有通用的變換矩陣,因此,對于每一個圖像數(shù)據(jù)都要計算相應(yīng)的變換矩陣,計算量相當(dāng)大,很難滿足實時處理的要求,所以在實際應(yīng)用中很少用K-L變換對圖像數(shù)據(jù)進(jìn)行壓縮。由于它的“最佳”特性,所以常作為對其他變換技術(shù)性能的評價標(biāo)準(zhǔn)。K-L變換的壓縮性能是:對語音而言,用K-L變換在13.5Kb/s下得到的語音質(zhì)量可與56Kb/s的PCM編碼相比擬;對圖像來講,2位/pixel的質(zhì)量可與7位/pixel的PCM編碼相當(dāng)。6.4.3離散余弦變換余弦變換是傅里葉變換的一種特殊情況。在傅里葉級數(shù)展開式中,如果被展開的函數(shù)是實偶函數(shù),那么,其傅里葉級數(shù)只包含余弦項,再將其離散化,由此可導(dǎo)出余弦變換,或稱之為離散余弦變換(discretecosinetransform,DCT)。將眾多的正交變換技術(shù)比較后,人們發(fā)現(xiàn)離散余弦變換編碼DCT與K-L變換性能最接近,而該算法的計算復(fù)雜度適中,又具有算法快速的特點,所以近來的圖像數(shù)據(jù)壓縮中采用離散余弦變換編碼方法受到重視,特別是20世紀(jì)90年代迅速崛起的計算機(jī)多媒體技術(shù)中,JPEG、MPEG、H.261等壓縮標(biāo)準(zhǔn),都用到離散余弦變換編碼進(jìn)行數(shù)據(jù)壓縮。DCT變換原理:DCT是一種正交變換,它將信號從空間域變換到頻率域。在頻率域中,大部分的能量集中在少數(shù)幾個低頻系數(shù)上,而且代表不同空間頻率分量的系數(shù)間的相關(guān)性大為減弱,只利用幾個能量較大的低頻系數(shù)就可以很好地恢復(fù)原始圖像,見附圖1。對于其余的那些低能量系數(shù),可允許其有較大的失真,甚至可以將其設(shè)置為0,這是DCT能夠進(jìn)行圖像數(shù)據(jù)壓縮的本質(zhì)所在。DCT可分為一維離散余弦變換、二維離散余弦變換、借助傅里葉變換(FFT)實現(xiàn)離散余弦變換、二維快速離散余弦變換等。6.4.4變換后的壓縮經(jīng)過正交變換后,進(jìn)一步的數(shù)據(jù)壓縮依靠區(qū)域濾波,匹配主觀視覺特性的量化和變字長編碼。1.區(qū)域濾波和量化區(qū)域濾波是一個簡單的數(shù)據(jù)壓縮方法,它將經(jīng)過某種正交變換所得的系數(shù)矩陣分成幾個區(qū)域,對每一區(qū)域按照空間頻率的權(quán)重取一種量化級數(shù),然后根據(jù)這個量化級數(shù)進(jìn)行量化。另一種更細(xì)致的量化方法是根據(jù)視覺對圖形的敏感程度(通過主觀實驗確定),對于變換系數(shù)矩陣中的每個變換系數(shù)分別乘以一個視覺加權(quán)系數(shù),由這一系數(shù)決定分配編碼量的多少。例如,MPEG-2采用8×8個DCT,則對應(yīng)于64個變換系數(shù),有一個8×8視覺加權(quán)矩陣。在對每個變換系數(shù)加權(quán)處理后,再統(tǒng)一采用一個通用的量化器進(jìn)行量化。這一過程實際上相當(dāng)于對不同的變換系數(shù)采用粗、細(xì)不同的量化。2.“0”的游程編碼如P122圖6-9所示,DCT變換后,變換系數(shù)矩陣中除主對角線外的元素很多是0,或接近于0,再加上視覺加權(quán)處理和量化,會產(chǎn)生更多的0。對于同一數(shù)據(jù)的成串出現(xiàn)最好使用游程編碼。如果一行編碼,0在對角線附近,編碼過程就會斷掉,一個游程就會結(jié)束,可以采用zig-zag掃描讀取方式,如P122圖6-9所示。6.5數(shù)據(jù)壓縮編碼國際標(biāo)準(zhǔn)從20世紀(jì)80年代開始,世界上已有幾十家公司紛紛投入到多媒體計算機(jī)系統(tǒng)的研制和開發(fā)工作。20世紀(jì)90年代已有不少精彩的多媒體產(chǎn)品問世,諸如荷蘭菲利浦和日本索尼聯(lián)合推出的CD-I,蘋果公司Macintosh為基礎(chǔ)的多媒體功能的計算機(jī)系統(tǒng),Intel和IBM公司聯(lián)合推出的DVI。此外,還有Microsoft公司的MPC及蘋果的QuickTime等,這些多媒體計算機(jī)系統(tǒng)各具特色,豐富多彩,競爭異常激烈。具有人機(jī)交互特色的多媒體技術(shù),使計算機(jī)進(jìn)入普通家庭,進(jìn)入人們的生活、學(xué)習(xí)、娛樂及人們的精神生活領(lǐng)域。人們像使用家用電器一樣地使用計算機(jī)。計算機(jī)能聽懂人的話語;計算機(jī)成為能講話的實用型產(chǎn)品進(jìn)入市場,也為時不遠(yuǎn)了。Internet技術(shù)的迅猛發(fā)展與普及,推動了世界范圍的信息傳輸和信息交流。在色彩繽紛、變幻無窮的多媒體世界中,用戶如何選擇產(chǎn)品,如何自由地組合、裝配來自不同廠家的產(chǎn)品部件,構(gòu)成自己滿意的系統(tǒng),這就涉及一個不同廠家產(chǎn)品的兼容性問題,因此需要一個全球性的統(tǒng)一的國際技術(shù)標(biāo)準(zhǔn)。國際標(biāo)準(zhǔn)化協(xié)會(InternationalStandardizationOrganization,ISO)、國際電子學(xué)委員會(InternationalElectronicsCommittee,IEC)、國際電信協(xié)會(InternationalTelecommunicationUnion,ITU)等國際組織及CCITT,于20世紀(jì)90年代領(lǐng)導(dǎo)制定了多個重要的多媒體國際標(biāo)準(zhǔn)。如H.261、H.263、JPEG和MPEG等標(biāo)準(zhǔn)。H.261是被可視電話、電視會議中采用的視頻、圖像壓縮編碼標(biāo)準(zhǔn),由CCITT制定,1990年12月正式批準(zhǔn)通過;JPEG是由ISO與CCITT成立的“聯(lián)合圖片專家組(JointPhotographicExpertsGroup,JPEG)”制定的,用于灰度圖、彩色圖的連續(xù)變化的靜止圖像編碼標(biāo)準(zhǔn),于1992年正式通過;MPEG是以H.261標(biāo)準(zhǔn)為基礎(chǔ)發(fā)展而來的。它是由IEC和ISO成立的“運(yùn)動圖像專家組(MovingPictureExpertsGroup,MPEG)”制定的,于1992年通過了MPEG-1,并在后來的幾年中,陸續(xù)推出了MPEG-2、MPEG-4、MPEG-7等標(biāo)準(zhǔn)。6.5.1JPEG國際通用的標(biāo)準(zhǔn)JPEG采用的算法稱為JPEG算法,它是一個適用范圍很廣的靜態(tài)圖像數(shù)據(jù)壓縮標(biāo)準(zhǔn),既可用于灰度圖像,也可以用于彩色圖像。其目的是為了給出一個適用于連續(xù)色調(diào)圖像的壓縮方法,使之滿足以下要求:=1\*GB3①達(dá)到或接近當(dāng)前壓縮比與圖像保真度的技術(shù)水平,能覆蓋一個較寬的圖像質(zhì)量等級范圍,能達(dá)到“很好”到“極好”的評估,與原始圖像相比,人的視覺難以區(qū)分。=2\*GB3②能適用于任何種類的連續(xù)色調(diào)的圖像,且長寬比都不受限制,同時也不受限于景物內(nèi)容、圖像的復(fù)雜程度和統(tǒng)計特性等。=3\*GB3③計算的復(fù)雜性是可以控制的,其軟件可在各種CPU上完成,算法也可用硬件實現(xiàn)。=4\*GB3④JPEG算法具有以下4種操作方式:第一,順序編碼每一個圖像分量按從左到右,從上到下掃描,一次掃描完成編碼;第二,累進(jìn)編碼圖像編碼在多次掃描中完成。累進(jìn)編碼傳輸時間長,接收端收到的圖像是多次掃描由粗糙到清晰的累進(jìn)過程;第三,無失真編碼無失真編碼方法,保證解碼后,完全精確地恢復(fù)源圖像采樣值,其壓縮比低于有失真壓縮編碼方法;第四,分層編碼圖像按多個空間分辨率進(jìn)行編碼。在信道傳輸速率慢或接收端顯示器分辨率不高的情況下,只需做低分辨率圖像解碼,也就是說,接收端可以按顯示分辨率有選擇地解碼。JPEG壓縮是有損壓縮,它利用了人的視覺系統(tǒng)的特性,去掉了視覺冗余信息和數(shù)據(jù)本身的冗余信息。在壓縮比為25:1的情況下,壓縮后的圖像與原始圖像相比較,非圖像專家難辨“真?zhèn)巍?。JPEG算法框圖如P123圖6-10所示。JPEG壓縮編碼全過程可分成7個步驟(以基于離散余弦變換DCT的有失真編解碼為例):1.使用正向離散余弦變換(FDCT)把圖像的空間域表示轉(zhuǎn)換成頻率域表示對每個單獨(dú)的彩色圖像分量,把整個分量圖像分成8×8圖像塊,如圖6-10所示,并作為二維離散余弦變換DCT的輸入。通過DCT變換,把能量集中在少數(shù)幾個頻率系數(shù)上,頻率系數(shù)可表示為F(u,v)。計算方法可參見相關(guān)文獻(xiàn)資料,基本上使用傅里葉變換。2.使用加權(quán)函數(shù)對FDCT系數(shù)進(jìn)行量化這種量化是對經(jīng)過FDCT變換后的頻率系數(shù)進(jìn)行加權(quán)量化,這個加權(quán)函數(shù)對于人的視覺系統(tǒng)是最佳的。量化的目的是減小非0系數(shù)的幅度,以及增加0值系數(shù)的數(shù)目,量化處理是一個多到一的映射,它是圖像質(zhì)量下降的最主要原因。在JPEG標(biāo)準(zhǔn)中采用線性均勻量化器,量化定義為64個DCT系數(shù)除以量化步長,4舍5入取整。對于有損壓縮算法,JPEG算法使用如圖6-10(a)所示的均勻量化器進(jìn)行量化,量化步距是按照系數(shù)所在的位置和每種顏色分量的色調(diào)值來確定。因為人眼對亮度信號比對色差信號更敏感,因此使用了兩種量化表:一種是色度量化值,另一種是亮度量化值。3.Z字形編排量化后的DCT系數(shù)要重新編排,這樣做可以增加連續(xù)的0系數(shù)的個數(shù),也就是說盡量增加0游程長度,最好的辦法是采用“Z字蛇形”矩陣,如P124表6-6所示。這樣可把8×8的矩陣變成一個1×64的矢量。表6-6Z字型排列順序01561415272824713162629423812172530414391118243140445310192332394552542022333846515560213437475056596135364849575862634.使用差分脈沖編碼調(diào)制(DPCM)對直流系數(shù)(DC)進(jìn)行編碼8×8的圖像塊經(jīng)過前幾步的變換之后得到的“直流系數(shù)”有兩個可利用的特點:其一,是系數(shù)的數(shù)值比較大;其二,相鄰圖像塊系數(shù)數(shù)值變化不大。5.使用游程編碼(RLE)對交流系數(shù)(AC)進(jìn)行編碼量化的“交流系數(shù)”特點是1×64矢量中包含有許多0,并且0是連續(xù)的,因此使用游程編碼方法最能解決問題了。JPEG使用了1個字節(jié)的高4位表示連續(xù)0的個數(shù),而使用低4位表示編碼0后面緊跟的非0系數(shù)所需占用的位數(shù),跟在它后面的就是量化AC的數(shù)值。6.熵編碼可變長度的哈夫曼碼表在這兒得到了應(yīng)用。它在壓縮數(shù)據(jù)符號時,對出現(xiàn)頻度比較高的符號分配比較短的代碼,而對出現(xiàn)頻度較低的符號則分配比較長的代碼。這樣就達(dá)到對DPCM編碼后的DC和RLE編碼后的AC作了進(jìn)一步的壓縮。在JPEG有損壓縮算法中,使用哈夫曼編碼器來減少熵。使用哈夫曼編碼器的理由是可以使用很簡單的查表(LookupTable)方法進(jìn)行編碼。7.組成位數(shù)據(jù)流JPEG編碼的最后一個步驟是把各種標(biāo)記代碼和編碼后的圖像數(shù)據(jù)組成一幀一幀的數(shù)據(jù),便于傳輸、存儲和譯碼器進(jìn)行譯碼。MPEGISO和CCITT于1988年成立了“運(yùn)動圖像專家組(MPEG)”,研究制定了視頻及其伴音國際編碼標(biāo)準(zhǔn)。MPEG闡明了聲音電視編碼和解碼過程,嚴(yán)格規(guī)定聲音和圖像數(shù)據(jù)編碼后組成位數(shù)據(jù)流的句法,提供了解碼器的測試方法等。其最初標(biāo)準(zhǔn)解決了如何在650MB光盤上存儲音頻和視頻信息的問題,但是,它又保留了充分的可發(fā)展的余地,使得人們可以不斷地改進(jìn)編、解碼算法,以提高聲音和電視圖像的質(zhì)量以及編碼效率。目前為止,已經(jīng)開發(fā)的MPEG標(biāo)準(zhǔn)有以下幾種:MPEG-1:1992年正式發(fā)布的數(shù)字電視標(biāo)準(zhǔn);MPEG-2:數(shù)字電視標(biāo)準(zhǔn);MPEG-3:于是1996年合并到高清晰度電視(HDTV)工作組;MPEG-4:1999年發(fā)布的多媒體應(yīng)用標(biāo)準(zhǔn);MPEG-7:多媒體內(nèi)容描述接口標(biāo)準(zhǔn),目前還在研究中。1.MPEG-1的視頻壓縮標(biāo)準(zhǔn)運(yùn)動圖像專家組在1991年11月提出了“用于數(shù)據(jù)速率大約高達(dá)1.5Mb/s的數(shù)字存儲媒體的電視圖像和伴音編碼”,作為ISO11172號建議,于1992年通過,習(xí)慣上通稱MPEG-1標(biāo)準(zhǔn)。這個標(biāo)準(zhǔn)主要是針對當(dāng)時具有這種數(shù)據(jù)速率的CD-ROM開發(fā)的,用于在CD-ROM上存儲數(shù)字影視和傳輸數(shù)字影視,PAL制為352×288pixel/frame×25frame/s,NTSC制為352×240pixel/frame×30frame/s。MPEG-1主要用于活動圖像的數(shù)字存儲,它包括MPEG-1系統(tǒng)、MPEG-1視頻、MPEG-1音頻、一致性測試和軟件模擬等5個部分。以下重點放在MPEG視頻和音頻壓縮技術(shù)上。(1)MPEG-1系統(tǒng):將視頻信號及其伴音可以接收的重建質(zhì)量壓縮到約1.5Mb/s的碼率,并復(fù)合成一個單一的MPEG位流,同時保證視頻和音頻的同步。因此,在MPEG系統(tǒng)中定義了時間標(biāo)志,解決了接收端圖像與聲音由于時延不同造成的“不同步”現(xiàn)象。(2)MPEG-1視頻:用于滿足日益增長的多媒體存儲與表現(xiàn)的需求,即以一種通用格式在不同的數(shù)字存儲介質(zhì)如VCD、CD、DAT、硬盤和其他光盤中表示壓縮的視頻。該壓縮算法采用3個基本技術(shù):運(yùn)動補(bǔ)償預(yù)測編碼、DCT技術(shù)和變字長編碼技術(shù)。其中最獨(dú)樹一幟的是運(yùn)動補(bǔ)償內(nèi)插技術(shù),使編碼效率顯著提高,可把數(shù)據(jù)壓縮到25~200倍。1)MPEG-1視頻壓縮的特點MPEG視頻壓縮技術(shù),為滿足應(yīng)用需要,須具有以下特點:=1\*GB3①隨機(jī)存取隨機(jī)存取是存儲媒體上視頻信息必不可少的特性。隨機(jī)存取要求能在被壓縮的視頻位流中間進(jìn)行存取,并且能在限定的時間內(nèi)對視頻的任一幀進(jìn)行解碼。隨機(jī)存取意味著存在可隨機(jī)存取的單元,即某段信息編碼的結(jié)果僅與該段自身的信息有關(guān)。在質(zhì)量不下降的前提下,隨機(jī)存取時間大約可達(dá)0.5s。=2\*GB3②快速正向/逆向搜索根據(jù)存儲媒體的特點,對壓縮數(shù)據(jù)流可進(jìn)行掃描(可借助于應(yīng)用規(guī)定的目錄結(jié)構(gòu))和利用合適的存取點來顯示所選擇的圖像,以實現(xiàn)正向快速搜索和逆向快速搜索。=3\*GB3③逆向重播交互式的應(yīng)用有時需要視頻信號能夠逆向重播,但是并非所有的應(yīng)用都需要在逆向重播時保持完好的畫面質(zhì)量。=4\*GB3④視聽同步視頻信號應(yīng)該準(zhǔn)確地與相關(guān)的音頻信號同步。如果音頻和視頻信號分別由兩個存在稍大差別的時鐘產(chǎn)生,那么就會不同步,此時應(yīng)該提供一個機(jī)制,使這兩個信號能持久地重新同步。同步特性是由MPEG小組提出的。MPEG小組定義一個用于多音頻、視頻信號同步和合成的工具或手段。=5\*GB3⑤容錯性大多數(shù)數(shù)字存儲介質(zhì)和通信并非都不產(chǎn)生錯誤,所以希望有一個合適的信道編碼方案能適用于多種應(yīng)用,并且要求這種編碼方案對殘缺的未被校正的誤差有強(qiáng)的魯棒性(robustness。健壯性,穩(wěn)健性,堅固性,穩(wěn)定性),即使在有誤差的情況下,也能避免編碼失敗。=6\*GB3⑥編/解碼延遲在視頻電話的應(yīng)用中,必須能夠保證系統(tǒng)的延遲時間低于150ms,以保證這種面對面進(jìn)行對話的應(yīng)用質(zhì)量要求。在出版應(yīng)用中,可以允許一個較長的延遲,這種情況要求編、解碼延時不超過1s。傳輸質(zhì)量和延遲在一個相當(dāng)?shù)姆秶鷥?nèi)是可以折中考慮的,因此壓縮算法應(yīng)在可接受的延遲范圍內(nèi)可充分地被執(zhí)行。所以延遲時間被看作是一個閾值參數(shù)來設(shè)定。除以上所述的特點之外,還要求視頻壓縮技術(shù)具有可編輯性和靈活格式,運(yùn)用計算機(jī)視頻窗口技術(shù),以支持各種格式,允許各種光柵尺寸(視頻屏幕的寬、高)和幀速率等。同時要求編碼方案的實時完成,解碼器盡可能地用少量的芯片來實現(xiàn),以控制生產(chǎn)成本不致過高。2)MPEG-1視頻壓縮策略MPEG-1視頻壓縮技術(shù)是針對運(yùn)動圖像的數(shù)據(jù)壓縮技術(shù)。為了提高壓縮比,幀內(nèi)圖像數(shù)據(jù)壓縮和幀間圖像數(shù)據(jù)壓縮技術(shù)必須同時使用。幀內(nèi)壓縮算法與JPEG壓縮算法大致相同,采用基于DCT的變換編碼技術(shù),用以減少空域冗余信息。幀間壓縮算法采用預(yù)測和插補(bǔ)法,預(yù)測法有因果預(yù)測器(純粹的預(yù)測編碼)和非因果預(yù)測,即插補(bǔ)編碼。預(yù)測誤差可再通過DCT變換編碼處理,進(jìn)一步壓縮。幀間編碼技術(shù)可減少時間軸方向的冗余信息。=1\*GB3①去時域冗余由于MPEG對視頻信號作隨機(jī)存取的重要要求,以及通過幀間運(yùn)動補(bǔ)償可有效地壓縮數(shù)據(jù)比特數(shù),MPEG采用了3種類型的圖像:幀內(nèi)圖(intrapictures,I),預(yù)測圖(predictedpictures,P)和插補(bǔ)圖,即雙向預(yù)測圖(bidirectionalprediction,B)。幀內(nèi)圖可以提供隨機(jī)存取的存取位置,但壓縮比不大;幀內(nèi)插補(bǔ)可減少時域的冗余信息。幀間預(yù)測編碼時,要用到先前(過去)的圖(幀內(nèi)圖或預(yù)測圖),當(dāng)前的預(yù)測圖通常又作為后面(將來)的預(yù)測圖的參考值;雙向預(yù)測圖的數(shù)據(jù)壓縮效果最顯著,但是它在預(yù)測時需要先前和后續(xù)的信息,另外,雙向預(yù)測圖不能作為其他圖的預(yù)測參考圖。幀內(nèi)圖(I)和預(yù)測圖(P)及雙向預(yù)測圖(B)沿時間軸上的順序排列如下圖所示:IBBPBBPBBPBBPBBIBBPBBPBBPBBPBB附圖I、P、B排列順序MPEG中這些圖的組織結(jié)構(gòu)是十分靈活的,它們的組合可由應(yīng)用規(guī)定的參數(shù)決定,如隨機(jī)存取和編碼延遲等。A、運(yùn)動補(bǔ)償運(yùn)動補(bǔ)償是減少幀序列冗余信息的有效辦法。運(yùn)動補(bǔ)償是基于16×16子塊的算法,每個子塊可作為一個二維的運(yùn)動矢量處理。運(yùn)動補(bǔ)償實際是一種廣義上的預(yù)測技術(shù),它適用于單純性預(yù)測(因果預(yù)測)和非因果預(yù)測(插補(bǔ))。運(yùn)動補(bǔ)償預(yù)測是以子塊(16×16)為預(yù)測單元,把當(dāng)前子塊認(rèn)為是先前某一時刻圖像子塊的位移,位移的內(nèi)容包括運(yùn)動方向和運(yùn)動幅度。所以運(yùn)動補(bǔ)償預(yù)測是用先前(過去)的局部圖像來預(yù)測當(dāng)前的局部圖像,16×16的運(yùn)動矢量塊是預(yù)測誤差,它必須進(jìn)行編碼、傳送,供解碼時恢復(fù)圖像用。運(yùn)動補(bǔ)償中的非因果性預(yù)測,即插補(bǔ)編碼是基于時間軸上的多分辨率技術(shù),是對時間軸(幀序列方向)方向上低分辨率的子信號進(jìn)行編碼。比如NTSC制式,通常僅對幀率為1/2(15幀/秒)或幀率為1/3(10幀/秒)的低分辨率圖像進(jìn)行編碼,然后作圖像插值及附加校正,最后得到滿分辨率的圖像信號。插值法重建滿分辨率圖像信號的方法是,把校正信息加到前面和后面參考圖像組合而成的。運(yùn)動補(bǔ)償插補(bǔ)編碼,也稱為雙向預(yù)測編碼。通過雙向預(yù)測編碼,可以獲得一個高的壓縮比。一個電視圖像的幀序列中,不能全部是插補(bǔ)圖B。B圖必須由參考圖進(jìn)行插補(bǔ),參考圖可以是幀內(nèi)圖(I)或預(yù)測圖(P),B圖不能作為參考圖。在兩個參考圖之間出現(xiàn)雙向預(yù)測圖B的頻度是可選擇的。當(dāng)增加參考圖之間B圖的數(shù)目時,將會減少B圖與參考圖之間的相關(guān)性。B圖數(shù)目的選擇與被編碼的圖像景物有依賴性,對大多數(shù)景物來說,參考圖以大約1/10秒的間隔隔開較為合適。由于I圖、P圖、B圖三者之間存在因果關(guān)系,如第4幀的P圖是由第1幀的I圖預(yù)測;第1幀I圖和第4幀P圖共同預(yù)測出它們之間的雙向預(yù)測B圖,所以接受端解碼器的輸入(發(fā)送端編碼器的輸出),不能按照時間的順序,而是按照以下的排列順序:IPBBPBBPBBPBBIBB…這種幀圖排列順序完全符合解碼需要。解碼器的輸出,又恢復(fù)為附圖所示編碼器輸入順序顯示。B、運(yùn)動表示MPEG標(biāo)準(zhǔn)中,運(yùn)動補(bǔ)償估算是基于16×16的塊為單元表示的。這樣的補(bǔ)償單元稱為宏塊。宏塊有不同的類型。比如在雙向預(yù)測圖(B)的每個16×16的宏塊,可以是幀內(nèi)型的、前向預(yù)測型的、后向預(yù)測型的或者是平均型的。對于一個給定的宏塊,其預(yù)測器的表達(dá)式取決于參考圖(前向和后向)和運(yùn)動矢量。不同區(qū)域宏塊的運(yùn)動矢量可有不同的選擇,運(yùn)動矢量的范圍是基于幀間圖像的時間分辨率和塊內(nèi)圖像的時間分辨率,以及幀序列圖像的性質(zhì)而選定。當(dāng)兩個16×16宏塊所包含的畫面內(nèi)容在待送中完全靜止不動,那么宏塊的運(yùn)動矢量為零(宏塊坐標(biāo)沒有改變)。對于每個16×16宏塊的運(yùn)動信息與其相鄰塊之間可作不同的編碼處理。采用宏塊運(yùn)動補(bǔ)償方法,可減少電視圖像幀間完整圖像傳送幀數(shù),去除冗余信息,獲取高壓縮比和重建良好圖像質(zhì)量的壓縮效果。C、運(yùn)動估算運(yùn)動的估算涉及從視頻序列中抽取運(yùn)動信息所使用的一整套技術(shù)。MPEG標(biāo)準(zhǔn)說明了怎樣表示運(yùn)動信息,根據(jù)運(yùn)動補(bǔ)償?shù)念愋停呵跋蝾A(yù)測、后向預(yù)測和前后向預(yù)測,每個16×16的宏塊中可包含有一個或兩個運(yùn)動矢量,然而MPEG標(biāo)準(zhǔn)并沒有說明運(yùn)動矢量的求取方法。但是由于基于塊的運(yùn)動表示算法,按照盡量減小匹配誤差的方法來獲得運(yùn)動矢量。這個匹配誤差可由一個表示該塊與每個預(yù)測的候選塊之間的不匹配程度的代價函數(shù)來測量。=2\*GB3②去空域冗余電視圖像的幀內(nèi)圖像和預(yù)測誤差信號都有很高的空域冗余信息。可用于減少空域冗余信息的技術(shù)很多,MPEG優(yōu)先考慮了基于塊的技術(shù)。在基于塊的空間冗余技術(shù)領(lǐng)域中,變換編碼技術(shù)和矢量量化編碼技術(shù)是兩種可選用的方法。離散余弦變換(DCT)編碼有明確的優(yōu)點和相對簡單的實現(xiàn)方法,由DCT技術(shù)與視覺加權(quán)標(biāo)量量化及行程編碼和熵編碼技術(shù),是被優(yōu)先考慮的變換編碼技術(shù)。MPEG標(biāo)準(zhǔn)用DCT技術(shù)進(jìn)行幀內(nèi)圖像的數(shù)據(jù)壓縮編碼,與JPEG標(biāo)準(zhǔn)對靜止圖像的壓縮編碼和CCITT的H.261標(biāo)準(zhǔn)中,可視電話壓縮編碼處理方法是相同的。關(guān)于離散余弦變換(DCT)等雖然在6.5.1中曾簡單介紹過,但由于它在MPEG中意義重大,所在這里進(jìn)行較為詳細(xì)的介紹。A、離散余弦變換(DCT)離散余弦變換是把一個8×8空間窗口(塊)的圖像采樣數(shù)據(jù),或者是預(yù)測誤差數(shù)據(jù),作離散余弦正交變換,得出64個變換系數(shù)。B、DCT系數(shù)的量化是一步關(guān)鍵的操作,因為量化器結(jié)合游程編碼使大部分?jǐn)?shù)據(jù)得以壓縮。通過量化器的量化操作,使編碼器的輸出與給定的位速率相匹配。a、視覺加權(quán)量化量化誤差的主觀感覺隨DCT系數(shù)的頻率可有很大的變化,利用這一特性可對高頻系數(shù)作比較粗的量化。精確的量化矩陣依賴于許多外部參數(shù),諸如圖像的顯示特性,觀察距離和源圖像中的噪聲數(shù)量,因此對某種應(yīng)用或者甚至對一個單獨(dú)的序列設(shè)計一個專用的量化矩陣是合理的。一個特別的矩陣可作為編碼環(huán)境和壓縮的視頻數(shù)據(jù)一起存儲。b、幀內(nèi)塊和非幀內(nèi)塊量化的比較對于來自幀內(nèi)塊的信號系統(tǒng)的量化,應(yīng)不同于由預(yù)測或插補(bǔ)得來的信號的是化。幀內(nèi)編碼的塊包括所有頻率的能量,如果量化太粗的話,很有可能產(chǎn)生塊效應(yīng)。另外,預(yù)測誤差類型的塊主要包含高頻,可作更粗的量化處理。假設(shè)編碼過程可以精確地預(yù)測低頻,那么預(yù)測誤差信號的低頻分量一定很小。假如不是這樣,在編碼時就要采用幀內(nèi)塊類型,幀內(nèi)塊類型與差分編碼塊類型的差別導(dǎo)致使用兩種不同的量化器結(jié)構(gòu),雖然兩種量化器都是接近均勻的量化器(有一個固定的步長),但它們在零附近的特性是不同的。幀內(nèi)塊量化器沒有死區(qū)(即量化為零值的區(qū)域的步長要小,而幀外量化器有一個大的死區(qū))。c、可調(diào)量化器并非所有的空間信息都能使人眼視覺系統(tǒng)產(chǎn)生同等的感覺,特別是對于那些信號變化梯度平穩(wěn)的塊,如果有一個非常小的誤差,人眼就會覺察到塊的邊界(稱為塊效應(yīng)或稱為假輪廓),而對信號變化劇烈(包含邊界)的塊,視覺對誤差的敏感察覺被掩蓋。為了適應(yīng)塊之間信號的不均勻性,可在塊與塊的基礎(chǔ)上對量化器的步長進(jìn)行調(diào)節(jié)。這個機(jī)制也可用于對特定的位率提供非常平滑的自適應(yīng)調(diào)整(稱為速率控制)。C、熵編碼為了進(jìn)一步提高DCT固有的壓縮性和減小運(yùn)動信息對整個位率的影響,使用可變長度的碼字進(jìn)行編碼(即變長碼)。對DCT系數(shù),使用一個類似哈夫曼的表,對相應(yīng)于數(shù)對{行程,幅值}的符號進(jìn)行編碼。為了避免出現(xiàn)太長的符號,使用一個換碼符后面跟隨一個固定長度的碼字。=3\*GB3③MPEG-1視頻的分層結(jié)構(gòu)MPEG-1視頻圖像數(shù)據(jù)流是一個分層結(jié)構(gòu),目的是把位流中邏輯上獨(dú)立的實體分開,防止語意模糊,并減輕解碼過程的負(fù)擔(dān)。對分層的要求是支持通用性靈活性和有效性。MPEG標(biāo)準(zhǔn)的通用性可以用MPEG位流更好地說明。通用性的含義是使MPEG標(biāo)準(zhǔn)的語法規(guī)定可以滿足不同的應(yīng)用要求。比如存儲在計算機(jī)硬盤上的視頻信號的隨機(jī)存取和可編輯性,隨機(jī)存取和可編輯性需要許多存儲點,具有一定時間間隔的圖像組(例如6幀圖,1/5s);并以固定數(shù)量的比特數(shù)進(jìn)行編碼,使可編輯性成為可能。編碼單元是一組圖,它的編碼只用組內(nèi)的參考圖數(shù)據(jù)。對于有噪聲信道上的傳送,在信道上殘留未校正的誤差,為了提高魯棒性(robustness。健壯性,穩(wěn)健性,堅固性,穩(wěn)定性),預(yù)測器經(jīng)常復(fù)位,幀內(nèi)和預(yù)測圖像被分割成許多片段,另外為了支持在位流蹭中間的“調(diào)準(zhǔn)”,要經(jīng)常對視頻序列的編碼內(nèi)容進(jìn)行重復(fù)。MPEG標(biāo)準(zhǔn)的靈活性可通過視頻序列頭上所定義的許多參數(shù)來說明。雖然MPEG標(biāo)準(zhǔn)是針對位率約為1.5Mb/s、分辨率約為360像素/行,但更高的分辨率和更高的位率也是可行的。MPEG標(biāo)準(zhǔn)的有效性是MPEG壓縮編碼需要對附加信息,如位移域、量化器步長、預(yù)測器或插值類型等,提供有效的管理。MPEG視頻位流分層結(jié)構(gòu)共包括6層,每一層支持一個確定的函數(shù),或者是一個信號處理函數(shù)(DCT,運(yùn)動補(bǔ)償),或者是一個邏輯函數(shù)(同步,隨機(jī)存取點)等:圖像序列層(隨機(jī)存取單元:上下文)圖像組層(隨機(jī)存取單元:視頻編碼)圖像層(基本編碼單元)宏塊片層(重同步單元)宏塊層(運(yùn)動補(bǔ)償單元)塊層(DCT單元)MPEG語法把MPEG位流定義為一個符合語法的二進(jìn)制數(shù)字序列。另外,位流必須滿足用一個合適大小的緩沖區(qū)來進(jìn)行解碼的要求。在解碼器的輸入端,設(shè)置一個尺寸適當(dāng)?shù)木彌_區(qū),不能要求緩沖區(qū)的尺寸過分龐大,只要使位率和緩沖區(qū)大小匹配(既不溢出,又不浪費(fèi))便可。保證緩沖區(qū)大小給出了在視頻緩沖區(qū)校驗器環(huán)境內(nèi)對位流進(jìn)行解碼必需的最小緩沖區(qū)的尺寸。(3)MPEG-1音頻:規(guī)定聲音數(shù)據(jù)的編碼和解碼。MPEG-1音頻編碼過程如下:輸入的音頻抽樣被讀入編碼器;映射器建立經(jīng)濾波的輸入音頻數(shù)據(jù)流的子帶抽樣表示,如在層1或?qū)?是子帶抽樣,在3層則是經(jīng)變換的子帶抽樣;心理聲學(xué)模型建立一組控制量化和編碼的數(shù)據(jù);各子帶系數(shù)經(jīng)過量化和編碼,再加上其他一些附加信息;最后形成已編碼的數(shù)據(jù)流。有4種不同的編碼模式:單聲道、雙聲道、立體聲和聯(lián)合立體聲。根據(jù)應(yīng)用需求,可以使用不同層次的編碼系統(tǒng),編碼器的復(fù)雜性和性能也隨之變化。=1\*GB3①層1包括將數(shù)字音頻變成32個子帶的基本映射。將數(shù)據(jù)格式化成固定分段的塊。決定自適應(yīng)位分配的心理聲學(xué)模型。利用塊壓擴(kuò)和格式化的量化器。理論上,層1編/解碼最小延遲為19ms。=2\*GB3②層2提供了位分配、縮放因子和抽樣的附加編碼,使用了不同的幀格式。這一層的最小編/解碼延遲為35ms。=3\*GB3③層3采用混合帶通濾波器來提高頻率分辨率。它增加了差值量化(非均勻)、自適應(yīng)分段和量化值的熵編碼。這一層最小的編/解碼的延遲為59ms。符合MPEG-1標(biāo)準(zhǔn)的編碼器,是產(chǎn)生一個合乎MPEG-1標(biāo)準(zhǔn)的語法結(jié)構(gòu)的MPEG-1位流的編碼器。在多媒體存儲介質(zhì)上MPEG-1標(biāo)準(zhǔn)為視頻信號規(guī)定了一個語法,以及與這個語法相關(guān)的含義,一個解碼器能夠?qū)PEG-1位流進(jìn)行解碼,產(chǎn)生的結(jié)果在解碼過程所規(guī)定的可接受的范圍內(nèi)的解碼器稱為MPEG-1解碼器。MPEG-1標(biāo)準(zhǔn)只規(guī)定了位流語法和解碼過程,用戶可很好地利用這個語法的靈活性來設(shè)計非常高質(zhì)量的編碼器和成本非常低的解碼器。編碼器的設(shè)計中有一些重要參數(shù),如運(yùn)動估算、自適應(yīng)量化和位速率控制等可以由用戶自由確定。當(dāng)速率約為1.2Mb/s的用MPEG-1算法壓縮的視頻圖像的質(zhì)量相當(dāng)于VHS(家用視頻系統(tǒng)如大1/2標(biāo)準(zhǔn))記錄質(zhì)量??臻g分辨率限制為每視頻掃描行有360個像素,并且在源編碼器端的視頻信號為30幀/秒,逐行掃描。對大多數(shù)原始圖像內(nèi)容,可得到無人工痕跡的圖像質(zhì)量。MPEG-1中視頻序列參數(shù)的靈活性使之產(chǎn)生了許多特性,諸如支持很寬范圍的空間和時間分辨率,能使用很大范圍的位率。但是保證使用MPEG-1標(biāo)準(zhǔn)的設(shè)備之間的相互操作性更為重要,不能強(qiáng)迫設(shè)備廠商再建造一個額外設(shè)計的系統(tǒng)。由于這個原因,MPEG-1定義了參數(shù)空間的一個特殊的子集,它給出了MPEG-1標(biāo)準(zhǔn)主要目標(biāo)內(nèi)的一個較為合理的折中。MPEG-1標(biāo)準(zhǔn)的主要目標(biāo)是要使編碼的視頻信號位率約為1.5Mb/s。MPEG-1標(biāo)準(zhǔn)是VCD工業(yè)標(biāo)準(zhǔn)的核心,現(xiàn)在已經(jīng)進(jìn)入千家萬戶,利用MPEG-1音頻第3層的MP3音樂格式也備受青睞。(4)MPEG-1一致性測試:這一標(biāo)準(zhǔn)詳細(xì)說明如何測試位數(shù)據(jù)流和解碼器是否滿足MPEG-1前3個部分中所規(guī)定的要求。這些測試可由廠商和用戶實施。(5)MPEG-1性軟件模擬:這一部分不是標(biāo)準(zhǔn),而是技術(shù)報告,給出了軟件執(zhí)行MPEG-1標(biāo)準(zhǔn)前3部分的結(jié)果。2.MPEG-2數(shù)字電視標(biāo)準(zhǔn)MPEG-2的標(biāo)準(zhǔn)號為ISO/IEC13818,標(biāo)準(zhǔn)名稱為“信息技術(shù)——電視圖像和伴音信息通用編碼”。MPEG-2于1994年11月正式被確定為國際標(biāo)準(zhǔn)。它是聲音和圖像信號數(shù)字化的基礎(chǔ)標(biāo)準(zhǔn),將廣泛用于數(shù)字電視(包括高清晰度電視HDTV)及數(shù)字聲音廣播、數(shù)字圖像與聲音信號的傳輸,多媒體等領(lǐng)域。因而MPEG-2是十分重要的,也是非常成功的世界統(tǒng)一標(biāo)準(zhǔn)。MPEG-2標(biāo)準(zhǔn)是一個直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像和聲音編碼標(biāo)準(zhǔn),MPEG-2視頻利用網(wǎng)絡(luò)提供的更高的帶寬(1.5Mb/s以上)來支持具有更高分辨率圖像的壓縮和更高的圖像質(zhì)量。MPEG-2可以說是MPEG-1的擴(kuò)充,這是因為它們的基本編碼和算法都相同。與MPEG-1視頻比較,MPEG-2可支持隔行掃描電視的編碼,還提供了位速率的可變功能等,因而取得更好的壓縮效率和圖像質(zhì)量。MPEG-2要達(dá)到的基本目標(biāo)是:位速率為4Mb/s~9Mb/s,最高達(dá)15Mb/s。同MPEG-1標(biāo)準(zhǔn)一樣,MPEG-2標(biāo)準(zhǔn)也包括系統(tǒng)、視頻和音頻等部分內(nèi)容,具體說有:系統(tǒng)、視頻、音頻、一致性測試、軟件模擬、數(shù)字存儲體命令和控制擴(kuò)展協(xié)議、先進(jìn)聲音編碼、系統(tǒng)解碼器實時接口擴(kuò)展標(biāo)準(zhǔn)等10個部分。它克服并解決了MPEG-1不能滿足日益增長的多媒體技術(shù)、數(shù)字電視技術(shù)對分辨率和傳輸率等方面的技術(shù)要求的缺陷。(1)MPEG-2系統(tǒng):規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步性。其系統(tǒng)結(jié)構(gòu)如P127圖6-11所示。(2)MPEG-2視頻:定義了不同的功能檔次,每個檔次又分為幾個等級,用來適應(yīng)不同應(yīng)用的要求,并保證數(shù)據(jù)的可交換性。目前共有5個檔次,依功能增強(qiáng)逐次為:簡單型、基本型、信噪比可調(diào)型、空間可調(diào)型、增強(qiáng)型。4個等級為:=1\*GB3①低級(352×288×29.79,面向VCR并與MPEG-1兼容);=2\*GB3②基本級(720×460×29.79或720×576×25,面向NTSC或PAL制式的視頻廣播信號);=3\*GB3③高1440級(1440×1080×30或1440×1152×25,面向HDTV);=4\*GB3④高級(1920×1080×30或1920×1152×25,面向HDTV)。(3)MPEG-2音頻:MPEG-2音頻的基本特性之一是與MPEG-1音頻向后(下)兼容,并且支持5.1或7.1聲道的環(huán)繞立體聲。5.1通道采用左、右聲道、中置和后面兩個環(huán)繞聲通道,總共5個通道?!?1”是指LFE(LowFrequencyEffect)是低頻音效的加強(qiáng)通道,也就是通常所說的加個“低音炮”。7.1通道環(huán)繞立體聲比5.1還多出中左、中右2個喇叭通道。MPEG-2標(biāo)準(zhǔn)的功能是將一個或更多的音頻、視頻或其他的基本數(shù)據(jù)流合成單個或多個數(shù)據(jù)流,以適應(yīng)存儲和傳送。符合MPEG-2標(biāo)準(zhǔn)的編碼數(shù)據(jù)流,可以在一個很寬的恢復(fù)和接收條件下進(jìn)行同步解碼。MPEG-2系統(tǒng)支持5項基本功能:=1\*GB3①解碼時多壓縮流的同步;=2\*GB3②將多個壓縮流交織成單個的數(shù)據(jù)流;=3\*GB3③解碼時緩沖器初始化;=4\*GB3④緩沖區(qū)管理;=5\*GB3⑤時間識別。MPEG-2標(biāo)準(zhǔn)的壓縮編碼系統(tǒng)是將視頻和音頻編碼算法結(jié)合起來而開發(fā)的。系統(tǒng)編碼可有兩種方法,其編碼輸出包括程序流和傳送流兩種定義流。程序流和MPEG-1系統(tǒng)定義的流相似;而傳送流是一種用來傳送和保存程序的編碼數(shù)據(jù)或其數(shù)據(jù)的數(shù)據(jù)流。3.MPEG-4多媒體應(yīng)用標(biāo)準(zhǔn)MPEG-2視頻體系要求必須保證與MPEG-1視頻體系向下兼容,并同時力求滿足數(shù)字存儲媒體、電視會議/可視電話、數(shù)字電視、高清晰度電視(HDTV)、廣播、通信、網(wǎng)絡(luò)等應(yīng)用領(lǐng)域,對多媒體視頻、音頻通用編碼方法日益增長的新需求。如分辨率要求有不同檔次;壓縮編碼方法也要求對應(yīng)于從簡單到復(fù)雜有不同的等級。MPEG-4于1994年開始工作,它是為視聽數(shù)據(jù)的編碼和交互播放開發(fā)算法和工具,是一個數(shù)據(jù)速率很低的多媒體通信標(biāo)準(zhǔn)。MPEG-4的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作,并且具有很強(qiáng)的交互功能。為了達(dá)到這個目標(biāo),MPEG-4引入了對象基表達(dá)的要領(lǐng),用來表達(dá)視聽對象(AVO)。MPEG-4擴(kuò)充了編碼的數(shù)據(jù)類型,由自然數(shù)據(jù)對象擴(kuò)展到計算機(jī)生成的合成數(shù)據(jù)對象,采用合成對象、自然對象混合編碼算法。在實現(xiàn)交互功能和重用對象中引入了組合,合成和編排等重要要領(lǐng)。MPEG-4系統(tǒng)的構(gòu)造如P127圖6-12所示,接收端的構(gòu)造部件如P128圖6-13所示。MPEG-4由于適合在低數(shù)據(jù)傳輸速率場合下應(yīng)用,所以它的應(yīng)用領(lǐng)域主要在公用電話交換網(wǎng)、可視電話、電視郵件和電子報紙等。MPEG-4在擴(kuò)展性上具有很好的靈活性,可進(jìn)行時域和空域的擴(kuò)展??筛鶕?jù)現(xiàn)場帶寬和誤碼率的客觀條件,在時域或空域進(jìn)行擴(kuò)展,時域擴(kuò)展是在帶寬允許時在基本層之上的增強(qiáng)層中增加幀率,在帶寬窄的時候可以在基本層中減少幀頻,以達(dá)到充分利用帶寬,使圖像質(zhì)量更好;在空域擴(kuò)展時是指對基本層中的圖進(jìn)行采樣插值,增加或減少空間分辨率。4.MPEG-7多媒體內(nèi)容描述接口如今,越來越多的聲像信息以數(shù)字形式存儲和傳輸,這為人們更靈活地使用這些信息提供了可能性。但隨之而來的問題是,隨著網(wǎng)絡(luò)上信息爆炸性的增長,獲取所感興趣的信息的難度卻越來越大。傳統(tǒng)的基于關(guān)鍵字或文件名的檢索方法顯然不適于數(shù)據(jù)量龐大、又不具有天然結(jié)構(gòu)特征的聲像數(shù)據(jù),因此近年來多媒體研究的一個熱點是聲像數(shù)據(jù)的基于內(nèi)容的檢索,例如“從這段新聞片中找出有克林頓的鏡頭”這種形式的檢索。實現(xiàn)這種基于內(nèi)容檢索的一個關(guān)鍵性的步驟是要定義一種描述聲像信息內(nèi)容的格式,而這與聲像信息的存儲形式(編碼)又是密切相關(guān)的。國際標(biāo)準(zhǔn)化組織ISO/IEC下轄的運(yùn)動圖像專家組MPEG注意到了這方面的需求和潛在的應(yīng)用市場,在推出影響極大的MPEG-1、MPEG-2之后,尚未完成MPEG-4的最后定稿,便開始著手制定專門支持多媒體信息基于內(nèi)容檢索的編碼方案:MPEG-7。MPEG-7作為MPEG家族中的一個新成員,正式名稱叫做“多媒體內(nèi)容描述接口(multimediacontentdescriptioninterface)”,還是以MPEG-1、MPEG-2、MPEG-4等標(biāo)準(zhǔn)為基礎(chǔ)的,它將為各種類型的多媒體信息規(guī)定一種標(biāo)準(zhǔn)化的描述,這種描述與多媒體信息的內(nèi)容本身一起,支持用戶對其感興趣的各種“資料”的快速、有效地檢索。各種“資料”包括:靜止圖像、圖形、音頻、動態(tài)視頻,以及如何將這些元素組合在一起的合成信息。這種標(biāo)準(zhǔn)化的描述可以加到任何類型的多媒
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 還建房房屋買賣合同
- 智能交通系統(tǒng)建設(shè)項目合同
- 太陽能光伏發(fā)電設(shè)備生產(chǎn)銷售合同
- 甲乙雙方商鋪租賃合同
- 二手奢侈品交易保障合同
- 中國制漿和造紙專用設(shè)備制造市場前景及投資研究報告
- 平蓋串珠珠寶盒行業(yè)深度研究報告
- 中國無線導(dǎo)覽系統(tǒng)行業(yè)市場深度分析及發(fā)展前景預(yù)測報告
- 二零二四年度農(nóng)產(chǎn)品深加工原料采購合同書3篇
- 二零二四年度醫(yī)療器械質(zhì)保與用戶反饋響應(yīng)合同3篇
- 人教版五年級上冊小數(shù)除法豎式計算練習(xí)練習(xí)300題及答案
- 綜合素質(zhì)提升培訓(xùn)全面提升個人綜合素質(zhì)
- 如何克服高中生的社交恐懼癥
- 聚焦任務(wù)的學(xué)習(xí)設(shè)計作業(yè)改革新視角
- 《監(jiān)理安全培訓(xùn)》課件
- 2024高二語文期末試卷(選必上、中)及詳細(xì)答案
- 淋巴瘤患者的護(hù)理
- 水利工程建設(shè)管理概述課件
- 人美版初中美術(shù)知識點匯總九年級全冊
- 2022中和北美腰椎間盤突出癥診療指南的對比(全文)
- 乳房整形知情同意書
評論
0/150
提交評論