格式參考論文(按照該論文的格式修改)_第1頁
格式參考論文(按照該論文的格式修改)_第2頁
格式參考論文(按照該論文的格式修改)_第3頁
格式參考論文(按照該論文的格式修改)_第4頁
格式參考論文(按照該論文的格式修改)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、MPEG-4標準視頻壓縮算法研究摘要隨著計算機技術(shù)和通信技術(shù)的發(fā)展,多媒體壓縮技術(shù)有了廣泛的應(yīng)用。本課題的目的是對多媒體壓縮技術(shù)中的視頻的壓縮問題進行研究。論文首先介紹了MPEG-1/2標準視頻壓縮和解壓的理論基礎(chǔ),主要包括幀內(nèi)編碼開發(fā)同一幀內(nèi)存在的空間相關(guān)性;幀間編碼開發(fā)相鄰幀之間存在的時間相關(guān)性:以及與之有關(guān)的I,P,B幀和運動圖像序列、幀、宏塊、塊等概念。其次介紹了MPEG-4標準對于MPEG-1/2標準的兼容性:視頻對象VOP的概念;VOP編碼的主要組成部分;MPEG-4每個VOP編碼使用的壓縮算法是在MPEG-1/2標準的基礎(chǔ)上開發(fā)的。再次,在VC環(huán)境下對XVID進行編譯,并實現(xiàn)編碼

2、和解碼。最后文章針對XVID部分源碼對MPEG-4的視頻壓縮編碼部分主要源碼進行重點的分析。關(guān)鍵詞: 幀;MPEG -4;VOP;XVID;壓縮;解壓目 錄第一章緒論11.1課題的背景和意義11.2課題完成的工作1第二章數(shù)字圖像壓縮理論基礎(chǔ)22.1數(shù)字圖像壓縮的必要性22.2數(shù)字化信息壓縮的可能性22.3圖像壓縮的基礎(chǔ)22.3.1無損壓縮32.3.2有損壓縮32.4圖像壓縮的關(guān)鍵技術(shù)52.4.1圖像分塊62.4.2DCT變換62.4.3量化62.4.4熵編碼72.4.5運動估計和運動補償82.4.6解碼過程92.4.7混合編碼92.4.8I,P,B幀編碼模式112.5常用圖像的數(shù)據(jù)結(jié)構(gòu)12第三

3、章MPEG-4標準143.1MPEG-4標準簡述143.1.1MPEG-4標準的特點143.1.2MPEG-4標準的構(gòu)成153.1.3MPEG-4的框架和級別153.2視頻編碼的基本內(nèi)容163.2.1從矩形幀到VOP,視頻編碼的基本結(jié)構(gòu)163.2.2MPEG-4的數(shù)據(jù)結(jié)構(gòu)183.3VOP編碼實現(xiàn)183.3.1形狀編碼193.3.2運動信息編碼203.3.3紋理編碼213.4VOP分割223.5Sprite技術(shù)背景全景圖編碼223.6分級編碼22第四章基于XVID的主要視頻算法分析244.1XVID的技術(shù)特性244.1.1多種編碼模式244.1.2XVID的量化方式254.1.3運動偵測(Mot

4、ion Search)和曲線平衡分配284.1.4動態(tài)關(guān)鍵幀距(I-frame interval)294.1.5全局運動補償304.2XVID中B幀技術(shù)的實現(xiàn)30第五章XVID編譯、編碼、解碼的實現(xiàn)365.1XVID源碼的編譯環(huán)境365.2編碼,解碼的實現(xiàn)375.2.1編碼實現(xiàn)375.2.2解碼實現(xiàn)39第六章總結(jié)與展望42謝 辭43參考文獻4444第一章 緒論1.1 課題的背景和意義近年來,多媒體技術(shù)飛速發(fā)展,在工商企業(yè)、公共場所和社會生活中的應(yīng)用也越來越廣泛,己經(jīng)成為當今社會密不可分的組成部份。到現(xiàn)在為止已經(jīng)發(fā)布的幾個通用的壓縮編碼標準有:用于64K會議電視及可視電話的H.261,用于靜止圖

5、像壓縮的JPEG,面向1.5M數(shù)字視頻和音頻傳輸和存儲的MPEG-1,面向高清晰度數(shù)字電視和音頻傳輸和存儲的MPEG-2和適用于低碼率視頻編碼的H.263。這些標準越來越成熟,覆蓋的應(yīng)用領(lǐng)域越來越廣。但是這些標準應(yīng)用單一,主要目標是提高壓縮比,并改善音頻、視頻質(zhì)量,采用的技術(shù)是傳統(tǒng)的波形編碼理論。與以上標準不同,MPEG-4并不僅僅著眼于定義不同碼流下的壓縮編碼標準,而是更多的強調(diào)多媒體通信的交互性和靈活性。MPEG-4是一個包括了未來編碼技術(shù)發(fā)展的開放式標準,它能夠與H.263和MPEG-1/2標準兼容,并提出了新的基于內(nèi)容的存取概念。它提供的碼率,低端可低于64Kbps,高端可高于8Mbp

6、s。MPEG-4標準提供對多種圖像分辨率的支持,不但可以對自然視頻進行高效率的編碼,還具有對合成音視頻對象、臉部模型、網(wǎng)絡(luò)對象的編碼能力;增加了對網(wǎng)絡(luò)交互環(huán)境的支持,與計算機信息處理6的結(jié)合更加密切。在編碼方式上的重大改進是提出對象的概念,強調(diào)人與媒體對象的交互能力。及時跟蹤MPEG-4發(fā)展動態(tài),掌握其核心技術(shù),并結(jié)合實際應(yīng)用在某些關(guān)鍵方向上有所創(chuàng)新和發(fā)展,這是一項很有意義的工作。本課題介紹了MPEG-1/2標準的主要壓縮方法,然后討論了MPEG-4引入的新的壓縮方法。進一步結(jié)合基于MPEG-4標準的XVID技術(shù)的實現(xiàn)代碼,對MPEG-4壓縮編碼的關(guān)鍵技術(shù)進行了分析和研究。并在此基礎(chǔ)上,對PG

7、M格式的視頻文件進行了壓縮和解壓,初步掌握了MPEG-4標準的理論基礎(chǔ)和開發(fā)應(yīng)用。1.2 課題完成的工作課題主要完成了以下幾方面的工作:了解多媒體視頻壓縮的理論基礎(chǔ)、視頻壓縮技術(shù)的發(fā)展歷史,以及多媒體視頻壓縮的主要技術(shù)。了解MPEG-4標準的主要內(nèi)容,并對不同于以往的新技術(shù)進行深入分析。對XVID源碼的部分視頻壓縮算法進行深入分析。在WINDOWS XP SP2 環(huán)境下使用Visual C+6.0對XVID源碼進行編譯,調(diào)試;對PGM格式的視頻文件進行壓縮和解壓工作,初步了解XVID源碼對視頻文件的壓縮解壓原理。第二章 數(shù)字圖像壓縮理論基礎(chǔ)2.1 數(shù)字圖像壓縮的必要性數(shù)字圖像具有很多優(yōu)點,但也

8、存在著數(shù)據(jù)量太大的問題。一幅640×480像素中等分辨率的彩色圖像(24bit/像素),其數(shù)據(jù)量約為1.31Mbit/s,播放一秒鐘運動圖像通常要30幀,則視頻信號傳輸速率為220Mbit/s,一張650M的光盤只能播放20多秒鐘,可見對數(shù)字化信息進行壓縮非常必要。要用盡可能少的數(shù)據(jù)來表達信息,節(jié)省傳輸和存儲的開銷。2.2 數(shù)字化信息壓縮的可能性能對數(shù)字化信息進行壓縮,主要存在以下兩點原因:第一、圖像信號存在大量的冗余度并且可在編解碼后無失真的恢復(fù)。第二、可以利用人的視覺特性,在圖像變化不被覺察的條件下以一定的失真換取數(shù)據(jù)壓縮。圖像信號的冗余度,主要表現(xiàn)為空間(幀內(nèi))和時間(幀間)相

9、關(guān)性。所謂相關(guān)性,就是能夠根據(jù)給出的一部分數(shù)據(jù)判斷出其相鄰的數(shù)據(jù)。一幀圖像內(nèi)的任何一個場景都是又若干像素點構(gòu)成的,因此一個像素通常與它周圍的某些像素在亮度和色度上存在一定的關(guān)系,這種關(guān)系即空間相關(guān)性;一個節(jié)目中的一個情節(jié)常常由若干幀連續(xù)圖像組成的圖像序列構(gòu)成,一個圖像序列中前后幀圖像間也存在一定的關(guān)系,這種關(guān)系即時間相關(guān)性。這兩種相關(guān)性使得圖像中存在大量的冗余信息。如果出去冗余信息,而只保留少量非相關(guān)信息進行傳輸,就可以大大降低信息存儲容量和傳輸速率。與此同時,由于人眼對圖像的細節(jié)分辨率、運動分辨率和對比度分辨率的感覺有一定的界限,只要在圖像處理時引入的失真不是很大,就不易察覺,仍會認為圖像時

10、完好的或是足夠好的。因此可以在滿足對圖像質(zhì)量一定要求的前提下,通過壓縮編碼方法,實現(xiàn)數(shù)據(jù)壓縮。上述思想既是MPEG-1/2的主要理論基礎(chǔ),也是MPEG-4的理論基礎(chǔ)。2.3 圖像壓縮的基礎(chǔ)壓縮機制通常分為兩種無損壓縮和有損壓縮。無損壓縮是指可以精確重建數(shù)據(jù),沒有信息丟失;有損壓縮是指數(shù)據(jù)不能無失真的重建,有一定的信息丟失。對于有損壓縮,我們允許壓縮后產(chǎn)生質(zhì)量上的誤差,可以讓壓縮后的數(shù)據(jù)代替原始數(shù)據(jù)。任何壓縮機制的根本思想都是去除數(shù)據(jù)中存在的相關(guān)性。一個好的壓縮編碼方案,要能夠最大限度地去除圖像中的冗余信息。對空間相關(guān)性,可以根據(jù)圖像中某一點的像素值推斷出其相鄰點的像素值;對時間相關(guān)性,通過運動

11、預(yù)測,參考前一幀圖像與這一幀圖像的相似情況,去掉與前一幀相似的冗余數(shù)據(jù),而只記錄這一幀與上一幀不同的數(shù)據(jù)。以下介紹圖像壓縮編碼中的基本編碼方法。2.3.1 無損壓縮常用無損壓縮編碼技術(shù)有以下幾種:行程編碼技術(shù)行程編碼(Run-length Coding)是一種相對簡單的編碼技術(shù),主要思想是將一個相同值的連續(xù)串用一個代表串長和值的組合碼字(Run,Level)來代替。其中行程(Run)表示系數(shù)系列中連零系數(shù)的長度;量化電平(Level)表示連零系數(shù)之后第一個非零系數(shù)的值。行程編碼適用于二值圖像。行程編碼的效率不如Huffman編碼方法高,但它的碼字結(jié)構(gòu)相對簡單,故在許多情況下也被采用。為達到較好

12、的壓縮效果,行程編碼經(jīng)常和其他一些編碼方法混合使用。Huffman編碼壓縮變字長編碼的最佳編碼定理:在變字長編碼中,對于出現(xiàn)概率大的信息符號編以短字長的碼,對于概率小的符號編以長字長的碼。Huffman編碼是根據(jù)可變長度最佳編碼定理,應(yīng)用Huffman算法得到的一種編碼方法。它是整數(shù)編碼的一種最佳碼,即它的平均碼長在具有相同輸入概率的前提下,比其它任何一種唯一譯碼都短,是圖像壓縮中的重要編碼方法。算術(shù)編碼算術(shù)編碼是另一種利用信源編碼概率分布特性,能夠趨近熵極限的編碼方法。盡管它也是對出現(xiàn)概率大的符號采用短碼,對出現(xiàn)概率小的符號采用長碼,但其編碼原理與Huffman編碼并不相同,它和Huffma

13、n編碼的最大區(qū)別在于它不是使用整數(shù)碼。算術(shù)編碼的方法是將被編碼的每一個信源消息按其概率大小表示成實數(shù)軸01之間的一個區(qū)域(或稱之區(qū)間),概率越大,所占間隔越大,表示這一間隔所需的二進制分數(shù)值位數(shù)就越??;反之就越大。算術(shù)編碼所產(chǎn)生的碼字實際上就是一個二進制分數(shù)值的指針,該指針指向所編符號對應(yīng)的概率區(qū)間,該區(qū)間為半開區(qū)間,包括左端點,不包括右端點。2.3.2 有損壓縮率失真理論指出,在給定信號允許失真度的條件下,為了減少圖像傳輸?shù)谋忍芈?,?yīng)盡量減小傳輸信號的方差。預(yù)測編碼和變換編碼正是根據(jù)這一理論對原始圖像進行壓縮,使處理后的圖像信號的方差減小,最終達到壓縮編碼的目的。常用有損壓縮編碼方法有:預(yù)測

14、編碼方法對于絕大多數(shù)圖像來說,在局部空間和時間上是高度相關(guān)的,因而可以在己知像素的基礎(chǔ)上,通過對當前像素預(yù)測來減少圖像的數(shù)據(jù)量。即可以利用xi-1,xi-2xi-m來預(yù)測xi,的值,由于差值di的方差比原始圖像系列的方差要小,因此,傳輸其差值只需比較少的比特數(shù)。幀內(nèi)預(yù)測編碼二維圖像中像素間存在很強的相關(guān)性,因此可用已知的前面幾個像素值來預(yù)測當前像素值。這些像素可以是前幾行的或前幾幀的,分別稱為一維、二維和三維預(yù)測,然后對實際值與預(yù)測值的差值(預(yù)測誤差)進行量化和編碼。幀間預(yù)測編碼視頻信號的相鄰核間存在極強的相關(guān)性,利用這種時間相關(guān)性進行幀間編碼,可獲得比幀內(nèi)DPCM高得多的壓縮比。采用的預(yù)測方

15、法有:幀重復(fù)、閉值法、幀內(nèi)插、運動補償預(yù)測。幀重復(fù),對于靜止或活動很慢的視頻信號,可以少傳一些幀;閾值法,即只傳送像素亮度的幀間差值超過某一閾值的像素;幀內(nèi)插,對活動緩慢的圖像,可以使用前后兩幀圖像進行內(nèi)插以得到實際圖像的預(yù)測圖像,然后對實際幀與預(yù)測的差值信號進行編碼。正交變換編碼圖像經(jīng)過正交變換后能夠?qū)崿F(xiàn)圖像數(shù)據(jù)壓縮的物理本質(zhì)在于:經(jīng)過多維坐標系中的適當?shù)淖鴺诵D(zhuǎn)和變換,能夠把散布在各個坐標軸上的原始圖像數(shù)據(jù),在新的適當?shù)淖鴺讼抵屑械缴贁?shù)坐標軸上,因而有可能用較少的編碼比特數(shù)來表示一幅圖像,實現(xiàn)圖像的壓縮編碼。絕大部分圖像信號在空間域中像素之間的相關(guān)性是很大的。它們經(jīng)過正交變換后,其能量主

16、要集中在低頻部分,而且經(jīng)過正交變換后相關(guān)性大大降低。變換編碼的基本思路就是利用上述特點,在編碼時略去某些能量很小的高頻分量,或在量化時對方差較小的分量分配以較少的比特數(shù)。另外,變換編碼還可以根據(jù)人眼對不同頻率分量的敏感程度而對不同系數(shù)采用不同的量化臺階,以進一步提高壓縮比。經(jīng)過變換其頻譜系數(shù)將被量化(可采用標量或矢量量化)。量化過程將在重建圖像中引入量化噪聲而導(dǎo)致圖像的損傷。接下來要對量化的結(jié)果進行無損熵編碼,此時可采用哈夫曼碼或算術(shù)碼。熵編碼的目的是進一步去除符號的冗余度。在圖像壓縮中,最常用的變換方法是DCT。DCT變換矩陣的大小可以從去除相關(guān)程度和實現(xiàn)難易程度等方面來綜合考慮,8

17、5;8通常被認為是一種較好的選擇。其二維DCT及IDCT變換如下: (2-1) (2-2)其中:f(i,j)表示輸入圖像的樣點值F(u,v)表示DCT變換后的變換系數(shù)在各種圖像編碼標準(H.261/263,MPEG)中均使用了8×8DCT變換編碼。二維DCT及IDCT的實現(xiàn)有多種算法,其快速算法的基本思想一般是先將二維DCT轉(zhuǎn)化為一維DCT,利用DCT與DFT的聯(lián)系,使用蝶形結(jié)構(gòu)的DFT計算。變換編碼在當前的軟件水平上易于實現(xiàn),且具有良好的壓縮性能,通常在10倍壓縮比的情況下提供優(yōu)良的圖像質(zhì)量。但另一方面,變換編碼也有其固有的缺點:變換編碼是一種塊結(jié)構(gòu)編碼方法,因此若處理不當,很容易

18、出現(xiàn)所謂的“塊效應(yīng)”,即塊與塊之間的不連續(xù)性。圖像中的邊界、紋理處理出現(xiàn)較明顯的損傷。因為圖像的邊界、紋理部分有較豐富的高頻成分,在高壓縮比條件下,高頻系數(shù)常常被粗糙的量化,甚至被丟棄,導(dǎo)致高頻信息的損失,這使得在這些區(qū)域的圖像變得模糊,影像圖像質(zhì)量。子帶編碼子帶編碼先將原圖像用若干數(shù)字濾波器(分解濾波器)分解成不同頻率成分的分量,再對這些分量進行亞抽樣,形成子帶圖像,最后對不同的子帶圖像分別用與其相匹配的方法進行編碼,在接收端,將解碼后的子帶圖像補零、放大,并經(jīng)合成濾波器的內(nèi)插,將各子帶信號相加,進行圖像復(fù)原。與DCT編碼相比,子帶編碼的最大優(yōu)點是復(fù)原圖像無方塊效應(yīng),因此得到廣泛的研究,是一

19、種有潛力的圖像編碼方法。2.4 圖像壓縮的關(guān)鍵技術(shù)基于DCT的圖像壓縮主要包括以下幾個步驟:圖像分塊、DCT變換、量化、熵編碼、運動估計與運動補償以及速率控制等主要幾個步驟。2.4.1 圖像分塊在基于DCT的壓縮編碼過程中,變換是對一個一個的圖像塊進行的,所以在進行DCT變換之前需要將圖像分為互不重疊的圖像塊。假設(shè)一幀圖像的大小為M×N,我們將其分為尺寸為L×L要求彼此沒有重疊的子圖像。M、N必須為L的整數(shù)倍。2.4.2 DCT變換對于8×8的二維圖像塊,離散余弦變換的定義見(2-1)、(2-2)在對圖像進行二維DCT時,處理對象為N×N且不與其他子塊重

20、疊的方形子圖像。一般說來,尺寸越大越能利用圖像的空間相關(guān)性,壓縮效果會好一些。但研究表明,當尺寸大到一定程度時,由于圖像像素之間的相關(guān)性減弱,使得壓縮效果的改善不明顯,而且導(dǎo)致運算復(fù)雜性增加。實驗表明,在具有相同圖像質(zhì)量的情況下,壓縮比與選取的尺寸有如下圖2.1關(guān)系:圖2.1壓縮比與圖像塊尺寸的關(guān)系由圖可知,當子塊尺寸超過8×8時,壓縮效果的改善不是很大,所以一般選擇8×8的尺寸為DCT的處理單元?,F(xiàn)在的VLSI(very large scale integrated circuits,超大規(guī)模集成電路)技術(shù)很容易地實現(xiàn)8×8的DCT運算功能。需要說明:DCT變換

21、是無損變換,即對得到的變換系數(shù)進行反變換,從理論上應(yīng)該得到原始的輸入圖像塊。但由于在計算機中進行DCT變換需要進行浮點計算存在字長效應(yīng),因此反變換得到的信號與原始信號會有很小的差別。2.4.3 量化DCT變換將時間域圖像變換到頻率域,其中有關(guān)系數(shù)分別對應(yīng)于圖像的低頻信息和高頻信息。由于人的眼睛對圖像低頻特性(如物體的總體亮度)之類的信息敏感,而對圖像中高頻信息不敏感,因此在傳送過程中可以少傳或不傳送高頻信息,而只傳送低頻的信息。圖像壓縮編碼正是利用人眼的這種特性來進行圖像壓縮的?;贒CT的圖像壓縮編碼算法通過量化過程來判斷是否要傳送某一個頻率分量。量化的目的是去除人眼視覺不敏感的信息,從而降

22、低信息傳送速率。量化的過程用以下公式表示: (2-3)其中:FQ(u,v)表示經(jīng)過量化后的DCT系數(shù)F(u,v)表示量化前的DCT系數(shù)Q(u,v)表示量化加權(quán)矩陣q表示量化步長round表示歸整,即將輸出的值取為與之最接近的整數(shù)值。類似地可以寫出反量化的表達式:F'(u,v)=FQ(u,v)Q(u,v)q (2-4)由于量化過程是一個非線性過程,信號F(u,v)經(jīng)過量化和反量化后得到的值F'(u,v)與F(u,v)本身是不同的,即存在一定的誤差。由于人眼對不同的頻率分量具有不同敏感度,因此在量化過程中可以對不同的系數(shù)采用不同的加權(quán)系數(shù),使得在量化步長為9時,不同的系數(shù)具有不同的

23、誤差。量化加權(quán)矩陣是很多的國際性組織和研究者經(jīng)過對多種圖像綜合統(tǒng)計后給出的。在實際應(yīng)用中的量化方法還要復(fù)雜一些,并且可能有多個量化加權(quán)矩陣,但最終的目的是相同的,那就是更好地利用人眼的特性,以最低的信息速率獲得最好的圖像質(zhì)量。量化過程的另一個重要參數(shù)是量化步長9。它的作用是控制量化誤差的大小。調(diào)整9的值可以改變編碼后所需要的比特數(shù)目,實際上是犧牲圖像質(zhì)量來換取較低的傳送速率或用寬的帶寬來換取較高的圖像質(zhì)量。事實上目前的圖像編碼器的輸出速率之所以能在較大的范圍內(nèi)變化,最主要的原因就是它可以調(diào)節(jié)量化器的量化步長。2.4.4 熵編碼在圖像壓縮編碼中經(jīng)常采用的熵編碼有行程編碼(RLC)及變字長編碼(V

24、LC)等,這兩個編碼方法常結(jié)合使用。行程編碼一般用于在數(shù)字信號中經(jīng)常有相同碼字連續(xù)出現(xiàn)的場合。在圖像壓縮編碼時,數(shù)據(jù)經(jīng)DCT等變換編碼后,其系數(shù)按照一定的方式排列后,高頻系數(shù)經(jīng)常會出現(xiàn)連0的情況。此時如果對0的長度(游程)進行編碼,則可以有效地對這些系數(shù)進行壓縮。行程編碼與變字長編碼相結(jié)合,可獲得更高的壓縮比。當對M個字長為B比特的碼字進行編碼時,如果碼字出現(xiàn)的概率不是均勻分布,則由信息論的理論可知,一定存在一種編碼方法,能夠以每樣值的平均碼長少于B比特的碼字對該數(shù)據(jù)進行編碼。在變字長編碼中,Huffman編碼方法得到的碼字平均碼長最短。由以上討論可得出如下結(jié)論:對于圖像序列的壓縮,不僅要考慮

25、到圖像空間方向的相關(guān)性,而且還要考慮序列在時間軸上的相關(guān)性,同時還要利用無損編碼來達到可觀的壓縮性能。這三者結(jié)合起來能更有效地對圖像數(shù)據(jù)進行壓縮。2.4.5 運動估計和運動補償運動估計與補償是活動圖像壓縮的關(guān)鍵技術(shù)之一。目前己成為重要的圖像壓縮算法,從H.261,H.263,MPEG-1,MPEG-2到MPEG-4等國際標準,都使用了運動補償(簡稱MC)技術(shù)。運動補償?shù)幕驹砗喪鋈缦?,當編碼器對圖像序列中的第N幀進行處理時,利用運動估值技術(shù)得到第N幀的預(yù)測幀N'。在實際編碼傳輸時,并不總是傳輸?shù)贜幀,而是第N幀和其預(yù)測幀N'的差值。如果運動估計十分有效,中的概率基本上分布在零

26、的附近,從而導(dǎo)致比原始圖像第N幀的能量小的多,編碼傳輸所需的比特數(shù)也就少的多,這就是運動補償技術(shù)能夠去除信源中時間冗余度的本質(zhì)所在。圖 2.2 運動估值原理運動補償(MC)是消除圖像序列時間方向冗余度的有效手段,它常常和各種其它技術(shù)組合在一起實現(xiàn)完整的編碼器。運動估值技術(shù)(如上圖2.2所示)一般將輸入圖像分割成若干彼此不相重疊的方塊(通常為16×16大小的塊),然后為每一個塊尋找一個運動矢量,尋找運動矢量的過程是一個優(yōu)化過程,即按照某種匹配準則(如MSE,最小均方誤差準則)為當前塊在參考圖像中尋找一個誤差最小的塊,圖像塊這兩個圖像塊的相對位移便是運動矢量。運動補償是將運動矢量所指的“

27、粘貼”到當前塊所在位置,作為當前塊的預(yù)測值,如圖2.3所示。圖 2.3 運動補償原理圖像分割是運動補償預(yù)測的基礎(chǔ),但實際上要把圖像分割成不同運動的物體是比較困難的。通常采用兩種比較簡單的方法:一是把圖像劃分成矩形子塊,適當選擇子塊大小,把子塊分為靜止和運動兩類,估計出運動子塊的位移,進行預(yù)測編碼,這種方法稱之為塊匹配法(BMA)。另一種方法是對每個像素的位移都進行遞歸估計,因此稱之為像素遞歸法(PRA)。這兩種算法各有其特點,通常像素遞歸法較塊匹配法精度商,對運動畫面的適應(yīng)能力也強,但只能跟蹤較小的位移,且實現(xiàn)復(fù)雜。塊匹配法雖然精度低于像素遞歸法,但由于其位移跟蹤能力強,且實現(xiàn)簡單,因此在實際

28、中得到了廣泛的應(yīng)用。得到運動物體的位移估計值后,即可送入MC預(yù)測器和一切預(yù)測編碼一樣,輸入到預(yù)測器的數(shù)據(jù)都要用圖像恢復(fù)數(shù)據(jù),即原始輸入為N,預(yù)測值為N',二者之差經(jīng)過量化后為',圖像恢復(fù)數(shù)據(jù)為S0=N'+',與原始數(shù)據(jù)S0相比含有量化誤差q0='。把恢復(fù)數(shù)存進幀存儲器存儲后,即為前一幀的數(shù)據(jù),把前一數(shù)據(jù)和當前數(shù)據(jù)送進運動參數(shù)估值器后就得到運動位移的估值,有了運動位移參數(shù)和前幀復(fù)原數(shù)據(jù),就可以做出當前像素的預(yù)測值。2.4.6 解碼過程接收端首先要根據(jù)接收到的碼流解出不同的二維事件,然后根據(jù)事件中的游程和數(shù)據(jù)值恢復(fù)出量化后的系數(shù)矩陣。接下來進行反量化,即用與

29、量化過程相反的計算公式來推算DCT系數(shù)。在DCT系數(shù)矩陣的基礎(chǔ)上可以進行IDCT變換,最終得到原始的在時間域圖像的像素值。2.4.7 混合編碼現(xiàn)在的國際標準(H.261/263,MPEG1/2和MPEG-4)都同時采用上面敘述的編碼算法,即變換編碼+運動補償+熵編碼的混合編碼方案來實現(xiàn)圖像序列(圖像)的壓縮。即用DCT變換消除圖像幀內(nèi)相關(guān)性,用運動估計和運動補償去除圖像的幀間相關(guān)性,用熵編碼進一步提高壓縮的效率等。圖2.4給出了混合編碼的模型。圖2.4 基于DCT的圖像壓縮編碼系統(tǒng)由圖可看出,對當前輸入的圖像首先要進行分塊。分塊得到的小圖像再與經(jīng)過運動補償?shù)念A(yù)測圖像塊相減得到差值圖像塊X(m,

30、n),然后對該差值圖像塊進行DCT變換和量化。量化的輸出有兩個不同應(yīng)用:一是送給熵編碼器進行編碼,編碼后的比特流輸出到一個緩沖器中保存,等待信號的傳輸部分將其讀出送到線路上去;另一應(yīng)用是進行反量化和反變換后得到信號x'(m,n),該信號將與運動補償輸出的圖像塊相加得到新的預(yù)測圖像信號,并將新的預(yù)測圖像塊送幀存儲器。幀存儲器的作用是保存前面一幀圖像的值以便用于運動估計和運動補償。從圖中可以看到每輸入一個圖像塊,運動估計均要根據(jù)當前輸入的圖像塊和保存在幀存儲器中的參考圖像來確定運動矢量,輸入的運動矢量要送給運動補償模塊,運動補償將根據(jù)運動矢量從幀存儲器中保存的參考圖像中取出一個小塊的圖像作

31、為當前輸入圖像塊的預(yù)測值,并將該值送給減法器以便得到X(m,n)。另外還可看出:信息經(jīng)過熵編碼送入緩沖器。通常情況下緩沖器的大小是固定的,如果某個時刻輸入圖像很復(fù)雜,編碼后輸出的比特數(shù)比較多,而此時后續(xù)的電路還沒有將緩沖器中已經(jīng)編碼的圖像數(shù)據(jù)取出,那么當前編碼的數(shù)據(jù)就沒有地方可以保存,從而造成緩沖器的上溢出;相反,如果當前編碼的圖像很簡單,編碼后輸出的比特數(shù)很少,而此時后續(xù)電路讀取信息的速率很快,那么就可能出現(xiàn)緩沖器中無數(shù)據(jù)可讀的狀態(tài),即緩沖器出現(xiàn)下溢出。為了避免這兩種情況,通常從緩沖器到量化器上會有一條反饋通路,用以控制編碼器輸出的比特數(shù)。當發(fā)現(xiàn)緩沖器快出現(xiàn)上溢出時,控制電路會要求量化器提高

32、量化步長,更多的DCT系數(shù)在量化后變成了0,這樣經(jīng)過熵編碼后輸出的比特數(shù)就很少,從而使緩沖器不會出現(xiàn)上溢出的現(xiàn)象。反之,如果發(fā)現(xiàn)緩沖器快出現(xiàn)下溢出時,控制電路會要求量化器減小量化步長,更多的DCT系數(shù)在量化后不為0,這樣經(jīng)過熵編碼后輸出的比特數(shù)就比較多,從而使緩沖器不會出現(xiàn)下溢出的現(xiàn)象,即速率控制,它使得同樣一個編碼器能在多種不同輸出速率的環(huán)境中正常工作。解碼的過程比編碼的過程相對要簡單。圖2.5給出了解碼的系統(tǒng)框圖。接收端接收到的信息首先要經(jīng)過熵解碼,還原為量化系數(shù),然后送給量化器進行反量化,得到DCT系數(shù),最后通過DCT的反變換恢復(fù)原始的圖像數(shù)據(jù)。由于在編碼端編碼的只是當前圖像和參考圖像的

33、差值,所以在接收端必須要將解碼獲得的差值圖像和參考圖像相加,以恢復(fù)最原始圖像。在解碼過程中需要利用運動矢量等邊信息以確定參考圖像塊在前面圖像中的位置。圖2.5解碼系統(tǒng)框圖2.4.8 I,P,B幀編碼模式在基于DCT的圖像壓縮編碼中常常采用I,B,P幀的編碼模式。在編碼過程中,編碼算法將輸入到編碼器的每一幀圖像分為I(Intra)幀、B(Bi-direction prediction)和P(Prediction)幀三種不同的類型,并且具有一定的排列順序。如圖2.6所示的I,B,P幀的組織結(jié)構(gòu)是一種典型的組織結(jié)構(gòu)。圖2.6 典型的I,B,P幀結(jié)構(gòu)順序不同類型的幀在編碼過程中有不同的處理方法。對于I

34、圖像(幀內(nèi)圖像)來說,它利用圖像自身的相關(guān)性進行壓縮,提供壓縮數(shù)據(jù)流中的隨機存取的點,采用基于DCT的編碼技術(shù),編碼不需要其它幀的圖像作參考,這些幀圖像為譯碼器提供隨機存取的點,是預(yù)測圖像(P)幀和雙向預(yù)測圖像(B)幀的參考圖像,所以壓縮率不高。P圖像(預(yù)測圖像)是參考過去的幀內(nèi)圖像或者過去預(yù)測得到的圖像用運動補償預(yù)測技術(shù)進行編碼,編碼實際上是對當前圖像與運動補償圖像的差值進行編碼。這些預(yù)測圖像通常作為進一步預(yù)測的參考,預(yù)測圖像的編碼效率較高。B圖像(差補圖或雙向預(yù)測圖像)的編碼方式與P圖像相似,唯一不同的地方是在編碼過程中它要利用在當前位置前面的I或P圖像和后面的I或P圖像進行預(yù)測,并從中選

35、出一個最佳的運動矢量,它的編碼效率最高,但它不能作為預(yù)測的參考圖像。圖2.7給出了I,B,P幀圖像在編碼時使用參考圖像的情況。從圖中可以看出在對第4幀的P圖像進行編碼時需要使用第1幀的I圖像作為預(yù)測幀,而對位于第2幀的B圖像進行編碼時需要使用位于第1幀的I圖像和位于第4幀的P圖像作為參考幀。圖2.7 B、P幀編碼時使用的參考幀從圖中可以看出編碼端在進行圖像編碼時需要對圖像編碼的順序進行調(diào)整,通常需要在編碼器中有一個大的輸入緩沖器將當前輸入的圖像進行緩存。解碼過程與編碼過程相似。解碼后的圖像也要先寫入緩沖器,然后再按照顯示順序從緩沖器中讀出要顯示的圖像幀,利用這樣的方法就可以保證輸入圖像和輸出圖

36、像在時間順序上的一致性。在解碼過程中只有I幀圖像才能獨立的解碼,B和P圖像均需要利用參考圖像并結(jié)合運動矢量完成解碼過程。2.5 常用圖像的數(shù)據(jù)結(jié)構(gòu)視頻序列:編碼比特流中最高語法結(jié)構(gòu)是視頻序列。一個視頻序列以一個序列頭開始,后面可選地跟著一組圖像的頭和一個或更多的編碼幀。圖:有三種圖:內(nèi)部編碼圖(I)、預(yù)測編碼圖(P)和雙向編碼圖(B)。一個編碼圖由一個圖像頭、緊跟后面的可選擴展項以及數(shù)據(jù)組成。組塊:一個組塊是一系列任意數(shù)目的宏塊。一個組塊至少要包含一個宏塊。組塊之間不能重疊。宏塊:宏塊包含一部分亮度分量和相關(guān)色差分量。一個宏塊可以有幾種色差格式。對于每種不同的色差格式,宏塊中的塊的順序會有不同

37、。塊:術(shù)語“塊”既可以指源圖像數(shù)據(jù)和重構(gòu)數(shù)據(jù),也可以指DCT系數(shù)或相應(yīng)的編碼數(shù)據(jù)單元。當“塊”指源圖像數(shù)據(jù)或重構(gòu)數(shù)據(jù)時,它指的時亮度分量或色差分量的正交部分。在塊中有8行,每行8個樣點。第三章 MPEG-4標準本章將討論MPEG-4標準的主要內(nèi)容。3.1 MPEG-4標準簡述MPEG-4標準的制定有兩個目標:低比特率的多媒體通信和多工業(yè)的多媒體通信的綜合。MPEG-4遵循靈活的編碼工具框架體系,設(shè)計了一個開放的編碼系統(tǒng),對于不同的應(yīng)用采用不同的編碼算法,以達到低比特率通信的目標。3.1.1 MPEG-4標準的特點MPEG-4解碼器是可編程的,相應(yīng)的解碼信息可與內(nèi)容本身一起傳輸下載。采用了基于對

38、象(object-based)的編碼是MPEG-4的主要特征,所謂的對象是在一個場景中能夠訪問和操縱的實體。與現(xiàn)有的MPEG-1和MPEG-2視頻壓縮相比,MPEG-4視頻有一些重要改進:基于內(nèi)容的交互功能。MPEG-4提供了全新的交互方式,可實現(xiàn)對多媒體視頻對象(VO)的時域隨機存取,改變場景的視角,改變場景中物體的位置、大小和形狀,或?qū)υ搶ο筮M行置換甚至清除。支持自然及合成信息的混合編碼(NHC:Synthetic and Natural Hybrid Coding)??蓪铣傻腣O及其活動信息進行參數(shù)化描述。高效編碼。包括VO的高效編碼和多個并發(fā)數(shù)據(jù)的有效同步編碼?;趦?nèi)容的伸縮性。是指

39、分級編碼后,紋理、圖像和視頻基于內(nèi)容的伸縮性,視頻序列中時域、空間及質(zhì)量的伸縮性,表現(xiàn)為時域?qū)崟r或非實時、數(shù)據(jù)率大小及重建的圖像質(zhì)量上。可變的最終輸出。不同的碼率意味著支持不同的功能集。功能集的底層是VLBV(VLBV:Very Low Bit Rate Video)核心,它為564kbits/s視頻操作與應(yīng)用提供算法與工具,支持較低的空間分辨率(低于352×288像素)和較低的幀頻(低于15Hz)。VLBV核心功能包括:矩形圖像序列的有效編碼、多媒體數(shù)據(jù)庫的搜索和隨機存取。MPEG-4的HBV(HBV:High Bit Rate Video,范圍在64kbits/s-4Mbits/

40、s之間)同樣支持上述功能,但它同時還支持較高的空間與時間分辨率。其輸入可以是ITU-R601的標準信號,因此其典型應(yīng)用為數(shù)字電視廣播與交互式檢索。MPEG-4應(yīng)用領(lǐng)域主要有:因特網(wǎng)應(yīng)用、交互式視頻游戲、實時可視通信、廣播電視、虛擬會議、移動通信條件下的多媒體應(yīng)用、遠程視頻監(jiān)控等。3.1.2 MPEG-4標準的構(gòu)成MPEG-4標準包括以下部分。DMIF(Delivery Multimedia Integration Framework)。多媒體傳送整體框架協(xié)議。MPEG-4標準將眾多多媒體應(yīng)用集成于一個完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供靈活的算法及工具,用于實現(xiàn)音視頻數(shù)據(jù)的有效編碼及更

41、為靈活的存取。它重點解決了多領(lǐng)域中多媒體應(yīng)用個性化交互操作的問題。解碼器。定義了MPEG-4系統(tǒng)特殊的解碼模式,要求特殊的緩沖區(qū)和實時模式。音頻編碼。支持自然聲音和合成聲音,支持音頻的對象特征。視頻編碼。支持自然和合成的視覺對象,合成的視覺對象包括2D,3D動畫和人面部表情動畫等。場景描述BIFS(Binary Format for Scene description)。關(guān)于一組VO的時空結(jié)構(gòu)關(guān)系的參數(shù)信息,主要描述了各VO在具體背景下的相互關(guān)系與同步等問題,以及VO及其背景的知識產(chǎn)權(quán)保護等問題。BIFS與VO對象特征信息的編碼、傳輸是相對獨立的。場景描述信息編碼及其的獨立傳輸是實現(xiàn)用戶端編輯

42、操作的關(guān)鍵:在解碼之后和場景合成之前,用戶可以通過對BIFS參數(shù)的重新設(shè)置來對VO進行多種編輯操作,如增減、縮放、平移,甚至一些特技效果。3.1.3 MPEG-4的框架和級別MPEG-4提供了大量的音視頻對象的編碼工具,能夠滿足多種需要。對于某一特定需要,只有一部分系統(tǒng)、視頻和音頻對象的編碼工具被采用??蚣?profile)就是針對特定的應(yīng)用確定要采用的編碼工具,它是MPEG-4提供的工具集的一個子集。每一個框架又有一個或多個級別(level)來限制計算的復(fù)雜度。MPEG-4共有四類框架:視頻框架、音頻框架、圖形框架和場景描述框架。其中視頻框架又有5個級別,分別如下:Simple Visual

43、 Profile。提供矩形視頻對象高效有容錯能力的編碼工具,適合應(yīng)用于移動網(wǎng)絡(luò)。Simple Scalable Visual Profile。在Simple Profile基礎(chǔ)上增加了對象時域和空域擴展編碼功能,應(yīng)用于提供多級服務(wù)質(zhì)量的應(yīng)用,如internet。Core Visual Profile。在Simple Profile基礎(chǔ)上增加了任意形狀對象編碼和時域擴展功能,適用于相對簡單的內(nèi)容交互應(yīng)用,如internet應(yīng)用。Main Visual Profile。在Core Profile基礎(chǔ)上增加了Sprite對象編碼功能,適用于DVD應(yīng)用等。N-Bit Visual Profile。在C

44、ore Profile基礎(chǔ)上增加了具有不同像素深度視頻對象編碼功能,適用于監(jiān)控應(yīng)用。3.2 視頻編碼的基本內(nèi)容3.2.1 從矩形幀到VOP,視頻編碼的基本結(jié)構(gòu)傳統(tǒng)圖像編碼方法依據(jù)信源編碼理論的框架,將圖像作為隨機信號,利用其隨機特性來達到壓縮的目的。無論是JPEG還是MPEG-1/2,都是以DCT矩形變換塊為變換編碼單元,對DCT塊內(nèi)圖像的亮度和色度進行特征取樣和提取像素;采用幀間編碼、運動估測技術(shù),在參考幀幀內(nèi)DCT編碼的基礎(chǔ)上,對DCT塊內(nèi)圖像的像素特征進行差值預(yù)測編碼?;诰匦蜠CT編碼的視頻編碼,在設(shè)計思想上只考慮到對信號數(shù)據(jù)進行處理的需要(比如小的比特率以利于傳輸、高的比特率以保證質(zhì)

45、量),但未考慮視頻信息即圖像內(nèi)容本身的含義和重要性,以及視頻信息應(yīng)用者的主觀需求(比如部分內(nèi)容的提取功能)。另外,這種基于塊的壓縮算法在低碼率時容易產(chǎn)生“方塊效應(yīng)”,大大縮小了視頻信息的應(yīng)用領(lǐng)域。但正是由于信源編碼理論的限定,使傳統(tǒng)的編碼具有較高的概括性和綜合性,基于矩形幀編碼的傳統(tǒng)編碼標準如H.261、MPEG-1/2在實際應(yīng)用中也獲得了巨大成功。而MPEG-4采用現(xiàn)代圖像編碼方法,利用人眼的視覺特性,抓住圖像信息傳輸?shù)谋举|(zhì),從輪廓紋理的思路出發(fā),支持基于視覺內(nèi)容的交互功能。實現(xiàn)居于內(nèi)容交互功能的關(guān)鍵在于基于視頻對象的編碼,為此MPEG-4引入了視頻對象平面VOP(Video Object

46、Plane)的概念。在這一概念中,根據(jù)人眼感興趣的一些特性如形狀、運動、紋理等,將圖像序列中每一幀中的場景,看成是有不同視頻對象平面VOP所組成,而同一對象連續(xù)的VOP稱為視頻對象VO(Video Object),VOP是VO在某個時間的存在。VO可以是視頻序列中的人物或具體的景物,例如電視新聞中的播音員;也可以是計算機圖形技術(shù)生成的二維或三維圖形。圖3.1表示MPEG-4對電視圖像序列進行編碼的一個例子。左上角的圖是全景圖,右上角的圖是一個沒有背景的子圖像,可以把網(wǎng)球運動員當作是一個視頻對象。在編碼之前把這個視頻對象從全景圖序列中抽出來,然后分別對它們進行編碼、傳送和解碼,最后再合成。圖3.

47、1 MPEG-4電視圖像編碼舉例MPEG-4采用基于內(nèi)容編碼方法的一個重要優(yōu)點是:使用合適的和專門的對象基于移動預(yù)測工具可以明顯提高場景中某些視頻對象的壓縮效率。圖3.2為MPEG-4基于內(nèi)容圖像編碼方法的簡化原理圖。InputVOP定義VOP0編碼VOP1編碼VOP2編碼復(fù)合Bitstream圖3.2 MPEG-4基于內(nèi)容圖像編碼方法的簡化原理圖第一步是VO的形成,先要從原始視頻流中分割出VO,之后由編碼控制機制為不同的VO以及各個VO的三類信息分配碼率。之后對各個VO分別獨立編碼,最后將各個VO的碼流復(fù)合成一個位流。其中,在編碼控制機制和復(fù)合階段可以加入用戶的交互控制或由智能化的算法進行控

48、制。解碼則相反。3.2.2 MPEG-4的數(shù)據(jù)結(jié)構(gòu)MPEG-4可以認為有四個層次的數(shù)據(jù)結(jié)構(gòu),他們都以類的形式定義。數(shù)據(jù)結(jié)構(gòu)類分級圖的形象描述見圖3.3。VS(Video Session):是包含其他三個類的一個類,一個完整的視頻序列可以由幾個VS組成。VO(Video Object):是場景中的某個物體,它由時間連續(xù)的多個幀構(gòu)成。VOL(Video Object Layer):VO的三種屬性信息編碼于這個類中,這個類的引入主要用來擴展VO的時域或空域分辨率。VOP:可以看作是VO在某一時刻的表象,即某一幀VO。圖3.3 MPEG-4中的數(shù)據(jù)結(jié)構(gòu)類分級圖總之,每個VS(即一段完整的視頻)由一個或

49、多個VO構(gòu)成,而每個VO可能由一個或多個VOL層次,如基本層、增強層。每個層就是VO的某一分辨率的表示。在每個層中,都有時間上連續(xù)的一系列VOP。3.3 VOP編碼實現(xiàn)視頻編碼器包括形狀編碼(對于任意形狀)、運動信息編碼和紋理編碼。基本編碼方法為:首先對輸入的原圖像序列進行場景分析和對象分割,以劃分不同的VOP,得到各個VOP的形狀和位置信息,它可以用平面來表示。對平面進行壓縮編碼和傳送,在接收端就可以恢復(fù)平面。提取的形狀和位置信息又用來控制VOP的運動和紋理編碼。對運動和紋理信息編碼仍然采用經(jīng)典的運動預(yù)測補償法。輸入第N幀的VOP與幀存儲器中存儲的第N-1幀的VOP進行比較,找到運動矢量,然

50、后對兩幀VOP的差值進行量化、編碼。編碼后得到的紋理信息,與運動編碼器和形狀編碼器輸出的運動信息和形狀信息復(fù)合形成改VOP的比特流層。不同視頻對象的VOP序列分別進行編碼,形成各自的比特流層,經(jīng)過復(fù)合后在信道上傳送。傳送的順序依次為形狀信息、運動信息和紋理信息。圖3.4是MPEG-4 Video編碼的基本框圖,可對任意形狀的輸入圖像序列進行編碼。圖3.4 MPEG-4視頻編碼器的算法框圖在某一時刻,VO以VOP的形式出現(xiàn),編碼也主要針對這個時刻該VO的形狀、運動、紋理這三類信息來進行。3.3.1 形狀編碼圖3.5 MPEG-4中的VOP形狀編碼VOP形狀編碼見圖3.5。VO的形狀信息有兩類:二

51、值形狀信息和灰度形狀信息。二值形狀信息用0、1表示VOP的形狀,0表示非VOP區(qū)域,1表示VOP區(qū)域。二值形狀信息的編碼采用基于運動補償塊的技術(shù),可以是無損或有損編碼?;叶刃螤钚畔⒂?255之間的數(shù)值來表示VOP的透明度,其中0表示完全透明(相當于二值形狀信息中的0),255表示完全不透明(相當于二值形狀信息中的1)。灰度形狀信息是二值形狀信息的擴展,它可以用來表示透視的物體,并降低混迭的現(xiàn)象?;叶刃螤钚畔⒕幋a采用基于塊的運動補償DCT方法(同紋理編碼相似),屬于有損編碼。目前標準中采用矩陣的形式來表示二值或灰度形狀信息,稱之為位圖(或平面)。對于模糊邊緣部分,可將其視為灰度信息從周圍已知VO

52、P區(qū)域的灰度值向0值的過渡區(qū)域,采用內(nèi)插法確定其形狀信息。MPEG-4中采用位圖法來表示這兩類形狀信息。VOP被限定在一個矩形窗口內(nèi),稱之為VOP窗口,窗口的長、寬均為16的整數(shù)倍,同時保證VOP窗口中非VOP的宏塊數(shù)目最少。位圖法實際上是一個邊框矩陣,取值為0255(后0、1),編碼變?yōu)閷@個矩陣的編碼。矩陣被分成16×16的“形狀塊”,允許進行有損編碼,這通過對邊界信息進行子采樣實現(xiàn),同時允許使用宏塊的運動向量來做形狀塊的運動補償。實驗表明,位圖表示法具有較高的編碼效率和較低的運算復(fù)雜度。形狀編碼在輸入VOP是一個矩形幀時倍屏蔽掉,以便與現(xiàn)有編碼系統(tǒng)相兼容,如圖3.6所示。其中的

53、上圖表示在MPEG-4中,矩形幀被認為是VOP的一個特例,這時編碼系統(tǒng)不用處理形狀信息,退化為類似于MPEG-1/2的傳統(tǒng)編碼系統(tǒng),實現(xiàn)了與現(xiàn)有標準的兼容。其中的下圖表示MPEG-4的甚低速率圖像的核心編碼器。Video ObjectPlaneMotion(MV)Texture(DCT)Generic MPEG-4 CoderbitstreamMPEG-4 VLBV Core CoderVideo ObjectPlaneShapeMotion(MV)Texture(DCT)Bitstream圖3.6 普通MPEG-4編碼器和MPEG-4 VLBV核心編碼器3.3.2 運動信息編碼類似于現(xiàn)有的視

54、頻編碼標準,MPEG-4采用運動預(yù)測和運動補償技術(shù)來去除圖像信息中的時間冗余成分,而這些運動信息的編碼技術(shù)可視為現(xiàn)有標準向任意形狀的VOP的延伸。VOP的編碼有三種模式,即幀內(nèi)(Intra-frame)編碼模式(I-VOP),幀間(Inter-frame)預(yù)測編碼模式(P-VOP),幀間雙向(Bidirectionally)預(yù)測編碼模式(B-VOP)。VOP如形狀編碼一樣,外加了邊框,邊框分成16×16的宏塊,宏塊內(nèi)是8×8的塊。在MPEG-4中運動預(yù)測和運動補償可以是基于16×16像素宏塊的,也可以是基于8×8像素宏塊的。為了適應(yīng)任意形狀的VOP,MP

55、EG-4引入了圖像填充技術(shù)和多邊形匹配技術(shù)。圖像填充技術(shù)利用VOP內(nèi)部的像素值來外推VOP外的像素值,以此獲得運動預(yù)測的參考值。多邊形匹配技術(shù)則將VOP的輪廓宏塊的活躍部分包含在多邊形之內(nèi),以此來增加運動估值的有效性。3.3.3 紋理編碼紋理信息有兩種??赡苁莾?nèi)部編碼的I-VOP的像素值,也可能是幀間編碼的P-VOP、B-VOP的運動估計殘差值。為了達到簡單、高性能、容錯性好的目的,仍采用基于分塊的紋理編碼。VOP邊框仍被分成16×16的宏塊。圖3.7 MPEG-4中任意形狀VOP的基于宏塊的紋理編碼在已得到實際應(yīng)用的MPEG-4中,VOP的紋理編碼基本上仍采用基于8×8像

56、素塊的DCT方法,有3種情況,如圖3.7所示。一是VOP外、邊框內(nèi)的塊,不編碼;二是VOP內(nèi)的塊,采用經(jīng)典的DCT方法;三是部分在VOP內(nèi),部分在VOP外的塊則首先采用圖像填充技術(shù)來獲取VOP之外的像素值,之后再進行DCT編碼。這是為了增加塊內(nèi)數(shù)據(jù)的空域相關(guān)性,從而有利于DCT變換和量化去塊內(nèi)的空域冗余。DCT系數(shù)要經(jīng)量化、Z掃描、行程及哈夫曼熵編碼。量化有兩種類型:類似于H.263那樣用一個量化參數(shù)針對塊內(nèi)所有AC系數(shù),這個值可以根據(jù)要求質(zhì)量和目標碼率變化;或類似于MPEG-2那樣使用量化矩陣。紋理編碼主要采用傳統(tǒng)算法,MPEG-4中只是有一些改進。在intra方式下主要為DCT變換,由于在

57、VOP邊緣處宏塊內(nèi)有些點不是VOP內(nèi)的點,為了減少編碼系數(shù),對于非VOP內(nèi)的點不必變換編碼,MPEG-4中提出形狀自適應(yīng)DCT(SA-DCT)變換,主要步驟為:首先進行一維的列變換(不等長),然后進行一維的行變換。對于intra方式編碼的DC和AC系數(shù)進行預(yù)測。DC系數(shù)用鄰近塊DC系數(shù)預(yù)測,AC系數(shù)用同塊內(nèi)臨近的其它AC系數(shù)來預(yù)測。紋理編碼最重要,它將在最大程度上決定圖像質(zhì)量和壓縮比。對于甚低碼率(<6.4kbits/s)下的應(yīng)用,由于方塊效應(yīng)較明顯,所以需用除方塊濾波器進行相應(yīng)處理,3.4 VOP分割基于紋理的分割基于紋理的分割主要是應(yīng)用模式識別的技術(shù)來聚類,但要注意分割結(jié)果適度。分割的太粗,不能有效的壓縮;而分割的太細,就有可能是物體的各個部分,這樣對于壓縮和基于內(nèi)容的操作都不利?;谶\動的分割將具有同一運動參數(shù)模型的區(qū)域聚類,從而達到分割的目的。這種方法可以分割出運動的物體,但會使得基于運動一致性的分割實現(xiàn)起來非常困難,效果也不太理想。紋理和運動結(jié)合的分割在運動一致性表現(xiàn)的非常明顯的區(qū)域用運動分割,在一些細節(jié)或運動復(fù)雜區(qū)域仍采用紋理分割?;蛘卟捎糜纱值郊毜姆謱哟畏指畈呗?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論