第5章 圖像編碼課件_第1頁
第5章 圖像編碼課件_第2頁
第5章 圖像編碼課件_第3頁
第5章 圖像編碼課件_第4頁
第5章 圖像編碼課件_第5頁
已閱讀5頁,還剩194頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五章圖像編碼數(shù)字圖像處理學王素玉suyuwang@

內(nèi)容提要圖像編碼概述5.1PCM編碼5.2統(tǒng)計編碼5.3預測編碼5.4變換編碼5.5矢量量化編碼5.6圖像視頻壓縮標準簡介5.65.7圖像編碼屬于信源編碼范疇。其特點是利用圖像信號的統(tǒng)計特性及人眼睛的生理和心理特性對圖像進行高效編碼。信源信源編碼信道編碼調(diào)制傳輸信道噪聲解調(diào)信道解碼信源解碼信宿數(shù)字通信系統(tǒng)模型5.1圖像編碼概述信源編碼的主要任務是解決有效性問題,也就是對信源實現(xiàn)壓縮處理,使處理后的信號更適宜數(shù)字通信系統(tǒng)。

信道編碼的任務是解決可靠性問題。也就是盡量使處理過的信號在傳輸過程中不出錯或少出錯,既使出了錯也要有能力盡量糾正錯誤。圖像編碼主要是要研究壓縮數(shù)碼率,即高效編碼問題。信源編碼的目的是提高編碼效率。是否能提高編碼效率?

回答是肯定的。從信息論的角度看,各種信源都存在大量的冗余成分。如果去掉這些冗余成分,就能提高編碼效率。所以,所謂第一代編碼就是圍繞著去除冗余度這一中心思想實現(xiàn)數(shù)據(jù)壓縮的。冗余度主要存在于兩個主要方面:1)、存在于信源的相關性之中;2)、存在于圖像信源各個元素出現(xiàn)概率的不均等之中。

去掉了冗余成分的信源固然精練了,但是,也變得脆弱了??垢蓴_性能也變差了。因此,在傳輸過程中,還要加入一些冗余成分以增加抗干擾能力。這就是信道編碼的任務了。

目的:使用最節(jié)儉的方式進行信息的表達。最初的思想:為出現(xiàn)概率高的字母賦予較短的編碼,概率低的賦予較長的編碼……Morse電碼壓縮的可行性:數(shù)據(jù)之間存在相關性數(shù)據(jù)壓縮:在一定的數(shù)據(jù)存儲空間要求下,將相對龐大原始數(shù)據(jù)重組為滿足前述空間要求的數(shù)據(jù)集合,使得從數(shù)據(jù)集合恢復出的數(shù)據(jù)能夠與原數(shù)據(jù)保持一致,或者能夠獲得與原始數(shù)據(jù)一樣的使用品質(zhì)。

5.1.1數(shù)據(jù)壓縮的產(chǎn)生壓縮時去掉冗余部分,即確定的或可推知的部分,用一種更接近信息本質(zhì)的描述來代替原來冗余的描述。信息能夠被壓縮的原因在于其本身存在大量的冗余。這些冗余主要是由信息之間的相似性和可推知性產(chǎn)生的。人的感官對信息之間的某些相似性不敏感,去掉這些冗余仍然不影響人們對信息的感知和理解。5.1.2數(shù)據(jù)壓縮原理同一景物表面上各像素點的顏色之間往往存在著空間連貫性,從而產(chǎn)生空間冗余。1.空間冗余運動圖像連續(xù)各幀間的相似性。2.時間冗余3.結構冗余紋理結構的規(guī)律性4.知識冗余可由先驗知識或背景知識得到的規(guī)律性的信息。5.信息熵冗余信息熵:信息論中用來度量信息量的概念。系統(tǒng)越有規(guī)律,信息熵越?。环粗?,信息熵越大。圖像中平均每個像素使用的比特數(shù)大于該圖像的信息熵,則圖像中存在冗余,稱為信息熵冗余。6.感官冗余人的視覺和聽覺等感官對某些信息并不敏感。如人類可分辨的顏色只有1670萬種,高于24位真彩色的數(shù)據(jù)是沒有意義的。有些信息在通常的視覺過程中與另外一些信息相比并不那么重要,這些信息被認為是心理視覺冗余的,去除這些信息并不會明顯降低圖像質(zhì)量。感光冗余示例33K15K5.1.3圖像壓縮的分類圖像壓縮編碼有損壓縮無損壓縮行程編碼LZW編碼霍夫曼編碼算術編碼無損預測編碼位平面編碼有損預測編碼分形編碼模型編碼子帶編碼神經(jīng)網(wǎng)絡編碼變換編碼K.L變換Haar變換Walsh.Hadamard變換離散余弦變換離散傅立葉變換斜變換小波變換第二代編碼1.無損壓縮也稱為冗余度壓縮,所壓縮的為原始信息中存在的冗余信息,對壓縮后的數(shù)據(jù)進行解碼,能夠完全恢復原始數(shù)據(jù),不損失任何信息。壓縮比通常為2-4倍。(1)無損壓縮的必要性一些重要的歸檔文件數(shù)據(jù),需要精確保留原始信息;衛(wèi)星成像數(shù)據(jù),考慮數(shù)據(jù)采集的成本和未來的用途,不希望有任何數(shù)據(jù)損失;醫(yī)學圖像,信息的丟失會影響診斷結果……(2)無損壓縮技術減少像素間冗余;減少編碼冗余;(3)無損壓縮的產(chǎn)生貝爾實驗室的ClaudeShannon(1948)和MIT的R.M.Fano(1949)分別提出了最早的對符號進行有效編碼從而實現(xiàn)數(shù)據(jù)壓縮的Shannon-Fano編碼方法。1952年D.A.Huffman,最小冗余代碼的構造方法。20世紀從60年代到80年代早期,數(shù)據(jù)壓縮領域一直被Huffman編碼所壟斷。1977年,LZ77,LZ78。1984年,LZW,字典編碼->winzip。(4)無損壓縮算法常見的無損壓縮技術包括:基于統(tǒng)計概率的方法和基于字典的技術?;诮y(tǒng)計概率的方法是依據(jù)信息論中的變長編碼定理和信息熵有關知識,用較短代碼代表出現(xiàn)概率大的符號,用較長代碼代表出現(xiàn)概率小的符號,從而實現(xiàn)數(shù)據(jù)壓縮。統(tǒng)計編碼方法中具有代表性的是利用概率分布特性的著名的霍夫曼(Huffman)編碼方法,另一種是算術編碼。字典編碼:用符號代替一串字符;這一串字符可以是有意義的,也可以是無意義的。在編碼中僅僅把字符串看成是一個號碼,而不去管它來表示什么意義。以牛津詞典為例,若編碼“datacompression”這兩個英文單詞,查字典后發(fā)現(xiàn)“data”出現(xiàn)在地271頁的第13個字,“compression”出現(xiàn)在第213頁的第8個字。因此可以用(271,13)(213,8)這兩個記號來表示“datacompression”。(5)無損壓縮定理:顯示一幅圖像需要多大的數(shù)據(jù)量?有沒有描述一幅圖像且沒有信息損失的最小數(shù)據(jù)量?信息量對于一個隨機事件x,如果它的出現(xiàn)概率是p(x),那么它包含的信息:I(x)稱為x的自信息。如果p(x)=1(即事件總發(fā)生),那么I(x)=0。I(x)的單位為bit。一個具有隨機離散輸出的信源,這個信源從一個有限集合中產(chǎn)生一個隨機符號序列,這樣信源符號集B={b1,b2,…bJ},其中每個元素bj稱為信源符號,信源產(chǎn)生符號bj這個事件的概率是P(bj)。信源產(chǎn)生單個符號bj時的自信息是:I(bj)=-logP(bj)。如將每個信源輸出的平均信息記為H(u),則:信息論中,H(u)定義為信息源的信息熵。H(u)定義了觀察到單個信源符號輸出時所獲得的平均信息。信息源的信息熵百度新聞截圖一幅圖像可以看作一個具有隨機離散輸出的信源,假設區(qū)間[0,L-1]內(nèi)的一個離散隨機變量rk

表示圖像的灰度級,并且每個rk出現(xiàn)的概率為pr(rk)。這里L是灰度級數(shù),nk是第k個灰度級在圖像中出現(xiàn)的次數(shù),n是圖像中的像素總數(shù)。則圖像的信息熵為:圖像信息熵無失真編碼定理(香農(nóng)定理)設一幅圖像有M×N個像素,每個像素占B比特,則整個圖像需要M×N×B比特。像素的平均比特數(shù)可以通過對不同的灰度級賦予不同的比特長度來減少。當我們把出現(xiàn)概率大的灰度級用短碼表示,出現(xiàn)概率小的用長碼表示,則表達每個像素所需的平均比特數(shù)為:香農(nóng)定理:存在一種無失真編碼方法,使編碼的平均長度與圖像的熵任意地接近,熵是編碼所需比特數(shù)的下限,即編碼時,一定要用不比熵少的比特數(shù)編碼才能保持原始圖像信息,即熵是無損圖像壓縮的下限。2.有損壓縮無損壓縮的設計思想都是基于對信息表述方法的改變。雖然無損壓縮可以保證接收方獲得的信息與發(fā)送方相同,但是其壓縮率一定有極限。因此,采用忽略視覺不敏感的部分進行有損壓縮是提高壓縮率的一條好的途徑。

有損壓縮是以丟失部分信息為代價來換取高壓縮比。解碼圖像與原始圖像會有差異,因此,需要評價壓縮后圖像的質(zhì)量。描述解碼圖像相對原始圖像偏離程度的測度一般稱為保真度(逼真度)準則。常用的準則可分為兩大類:客觀保真度準則和主觀保真度準則。5.2PCM編碼脈沖編碼調(diào)制(PulsecodingModulation—PCM)是將模擬圖像信號變?yōu)閿?shù)字信號的基本手段。圖像信號的數(shù)據(jù)量大,在實時處理中要求響應快,因此在電路設計與實現(xiàn)上有較大的難度。模擬圖像低通濾波取樣保持編碼傳輸信道解碼低通濾波解碼圖像量化(1)PCM編、譯碼原理限制頻帶,防止折疊誤差時間離散化幅度離散化多值變多比特多比特變多值內(nèi)插及平滑(2)PCM編碼的量化噪聲量化是對時間離散的模擬信號進行幅度離散化的過程,這個過程是去零取整的過程。量化后的樣值與原信號相比大部分是近似關系。把連續(xù)的數(shù)值限制在固定的臺階式的變化之下必然會帶來畸變。這種畸變在接收端是無法克服的,只能使其盡量減小。量化噪聲與過載噪聲的形成

(a)輸入信號超過編碼范圍時的量化噪聲和過載噪聲的形成;

(b)信號未超過編碼范圍,只有量化噪聲。在PCM編碼中,量化噪聲主要取決于碼的位數(shù),碼位數(shù)越多(即量化階數(shù)多)量化噪聲的功率越小。一個量化階的電壓可由下式表示:式中:V為輸入信號電壓;n為樣值用二進制數(shù)表示的比特數(shù)。均勻量化:在整個輸入幅度內(nèi)量化階是一個常數(shù);非均勻量化:在輸入幅度范圍內(nèi),量化階是變化的。線性PCM編碼中均采用均勻量化法。在均勻量化中,設量化階為△,量化噪聲在內(nèi)可看成是均勻分布的。值得注意的是量化噪聲不同于其他噪聲,它的顯著特點是僅在有信號輸入時才出現(xiàn),所以它是數(shù)字化中特有的噪聲。一般情況下,直接測量比較困難。(3)編碼器、譯碼器

編碼器的任務是把一個多值的數(shù)字量用多比特的二進制量來表示。如果量化器輸出M個值,那么,對應于M個值中的任何一個值編碼器將給定一個二進制碼字。這個碼字將由m個二進制數(shù)組成。通常情況下M=2m

。編碼器的輸入與輸出關系是一一對應的,其過程是可逆的,因此,不會引入任何誤差。

線性PCM編碼一般采用等長碼,也就是說每一個碼字都有相同的比特數(shù)。其中用得最為普遍的是自然二進碼,也有用格雷碼的。輸入自然二進碼格雷碼000000001001010011011010100110101111110101111100M=8的自然二進碼和格雷碼5.3統(tǒng)計編碼高效編碼的主要方法是盡可能去除信源中的冗余成份,從而以最少的數(shù)碼率傳遞最大的信息量。冗余度存在于像素間的相關性及像素值出現(xiàn)概率的不均等性之中。對于有記憶性信源來說首先要去除像素間的相關性,從而達到壓縮數(shù)碼率的目的。對于無記憶性信源來說,像素間沒有相關性,可以利用像素灰度值出現(xiàn)概率的不均等性,采用某種編碼方法,也可以達到壓縮數(shù)碼率的目的。根據(jù)像素灰度值出現(xiàn)概率的分布特性而進行的壓縮編碼叫統(tǒng)計編碼。(1)編碼效率與冗余度

衡量編碼方法優(yōu)劣的準則:編碼效率、冗余度設某個無記憶信源共有M個消息,記作。其中各消息出現(xiàn)的概率分別為??砂堰@個信源用下式表示根據(jù)該信源的消息集合,在字母集中選取符號進行編碼

。一般情況下取二元字母集A{1,0}。通常,這一離散信源中的各個消息出現(xiàn)的概率并不相等。根據(jù)信息論中熵的定義,可計算出該信源的熵如下式:式中H(X)代表熵,Pi

代表第i個消息出現(xiàn)的概率。

例如,設一離散信源如下

可算出該信源的熵比特/消息設對應于每個消息的碼字由Ni

個符號組成。也就是說每個消息所對應的碼字長度各為Ni

。那么,每個消息的平均碼長可用下式表示式中代表平均碼長,M為信源中包含的消息的個數(shù),Pi

為第i個消息出現(xiàn)的概率,Ni

為第i個消息對應的碼長。就平均而言,每個符號所含有的熵為編碼符號是在字母集

A中選取的。如果編碼后形成一個新的等概率的無記憶信源,字母數(shù)為n,那么,它的最大熵應為logan比特/符號,因此,這是極限值。編碼效率定義為:式中代表編碼效率,H(X)為信源的熵,為平均碼長,n為字母集合中的字母數(shù)。如果,則可認為編碼效率已達到100%,若

則可認為編碼效率較低。由上述概念,編碼效率如下式表示:式中代表編碼效率,H(X)為信源的熵,為平均碼長,n為字母集合中的字母數(shù)。如果以比特(bit)作單位,loga的底為2,根據(jù)上述定義,則

顯然,如果,就說明還有冗余度。因此,冗余度如下式表示

統(tǒng)計編碼要研究的問題就在于設法減小

,使η

盡量趨近于1,趨近于0。顯然值有一個理論最低限,當η=1時,的最低限就是H(X)/log2n

??梢愿鶕?jù)這一準則來衡量編碼方法的優(yōu)劣。例:一個信源X和一個字母集合A如下平均碼長bit/消息可求得信源X的熵所以顯然,編碼后還有bit的冗余度,沒有達到最低限。如果取此時

那么可以編成如下等長碼的冗余度。同樣有上例中的兩種編碼方法,其特點是碼字長度均相等,這種碼叫等長碼。顯然此例中的兩種等長碼均沒有達到最低限。怎樣才能使信源編碼達到最低限呢?再看下例的編碼方法選作為編碼字符集。在這種編碼中,不用等長碼,而是采用下面的原則來編碼,即Pi

大的消息編短碼,Pi

小的消息編長碼。例:可計算出平均碼長其效率冗余度

由此可見,這種編碼法的碼字平均長度達到了最低限。這說明用變長編碼法可達到較高的效率。采用這種編碼方法,信源中的消息與碼字是一一對應的,因而譯碼時也是準確無誤的。在編、譯碼過程中并不損失任何信息。它是一種信息保持編碼法。幾種常用的統(tǒng)計編碼法變長編碼是統(tǒng)計編碼中最為主要的一種方法。變長編碼的目標就是使平均碼長達到低限,也就是使最優(yōu),但是,這種最優(yōu)必須在一定的限制下進行。

編碼的基本限制就是碼字要有單義性和非續(xù)長性。單義性代碼是指任意一個有限長的碼字序列只能被分割成一個一個的碼字,而任何其他分割方法都會產(chǎn)生一些不屬于碼字集合中的碼字。

非續(xù)長代碼是指任意一個碼字都不是其他碼字的續(xù)長。換句話說,就是碼字集合中的任意一個碼字都不是由其中一個碼字在后面添上一些碼元構成的。非續(xù)長代碼一定是單義的,但是,單義代碼卻不一定是非續(xù)長的。信源概率碼Ⅰ碼Ⅱ碼Ⅲ碼Ⅳ000001100110011001110111110111從上面的例子可知,使最短的碼只是在單義可譯性和非續(xù)長性的約束下才有意義。至于變長碼的存在定理以及的最低限是否存在等問題,在信息論中都有詳細的定理加以證明及討論。最為常用的變長編碼方法是霍夫曼(Huffman)碼香農(nóng)-費諾(Shannon-Fano)碼。例:求下述信源的霍夫曼碼(2)霍夫曼碼0.450.300.55碼字消息概率0110110000010000501000

10.300.2501010.150.45消息概率碼字1碼字2u10.250110u20.251001u30.201100u40.15000111u50.1000101101u60.0500111100如對合并的消息賦以1,0值,則會得到如下表所示的另外一組碼。下面計算一下信源的熵,平均碼長,效率及冗余度。所以,對于信源X的霍夫曼碼的編碼效率為98%,尚有2%的冗余度。設原始信源有M個消息,即:1)把信源X中的消息按出現(xiàn)的概率從大到小的順序排列,即:

編碼步驟:2)把最后兩個出現(xiàn)概率最小的消息合并成一個消息,從而使信源的消息數(shù)減少一個,并同時再次將信源中的消息的概率從大到小排列一次,得3)重復上述步驟,直到信源最后為如下所示的形式為止。4)將被合并的消息分別賦以1和0或0和1。對最后X0也對和對應地賦以1和0或0和1。(3)香農(nóng)-費諾碼另外一種常用的變長編碼是香農(nóng)-費諾碼。這種碼有時也可以得到最優(yōu)編碼性能。它的編碼準則要符合非續(xù)長條件,在碼字中1和0是獨立的,而且是(或差不多是)等概率的。這樣的準則一方面可保證無需用間隔來區(qū)分碼字,同時又保證每傳輸1位碼就有1bit的信息量。第一步:設信源X有非遞增的概率分布其中。把X分成兩個子集合,得編碼步驟成立。并且保證

第二步:給兩個子集中的消息分賦值1或0。

第三步:重復第一步驟,將兩個子集、再細分為2個子集,并且也同樣使兩個小子集里消息的概率之和相等或近似相等。然后,重復第二步驟賦值。以這樣的步驟重復下去,直到每個子集內(nèi)只包含一個消息為止。對每個消息所賦過的值依次排列出來就可以構成香農(nóng)-費諾碼。例:設有信源其編碼流程如下圖所示。碼字消息概率00011001011100110111101111香農(nóng)-費諾碼編碼流程圖??1/81/81/161/161/161/1601010101010101消息概率碼字碼字0011011010001110101011000011110100101110000111110000香農(nóng)-費諾碼的平均碼長,效率及冗余度。信源的熵可計算于下:比特/消息平均碼長顯然編碼效率已達到100%。對于香農(nóng)-費諾碼來說,如果滿足下式且就會使編碼效率達到100%。式中的P(ui)為消息ui

出現(xiàn)的概率,Ni

是碼字的長度。如果不滿足上述條件就不會有100%的效率。例:設有一信源編碼流程及形成的碼字如圖所示。對其進行香農(nóng)-費諾編碼:編碼消息概率0100101110011011110111101111101111110.470.070.040.020.020.010101010101010101

由此例可見,由于信源不滿足上述的條件,編碼效率不能達到100%。然而從結果上看,它仍然是一種相當好的編碼。冗余度

效率

平均碼長信源的熵在ITU-T建議的彩色圖像編碼標準中的編碼表游程/尺寸亮度AC系數(shù)色度AC系數(shù)碼長碼字碼長碼字0/00/10/20/30/40/50/60/70/80/90/A1/142234578101616410100001100101111010111100011111000111111011011111111100000101111111110000011110022345567910124000110010101100011001111000111100011111010011111101101111111101001011AC系數(shù)Huffman碼表(續(xù))游程/尺寸亮度AC系數(shù)色度AC系數(shù)碼長碼字碼長碼字1/21/31/41/51/61/71/81/91/A2/12/22/3579111616161616581011011111100111111011011111110110111111111000010011111111100001011111111110000110111111111000011111111111100000001110011111001111111011168911121616161658101110011111011011111010111111110110111111110101111111111000100011111111100010011111111110001010111111111000101111010111101111111110111特點:Huffman碼和Shannon–Fano碼不是唯一的;Huffman碼和Shannon–Fano碼缺乏構造性,即:不能用數(shù)學方法建立一一對應關系,只能通過查表的方法構成對應關系。如果消息數(shù)目很大,所需的存儲器就大,設備就復雜。非等長碼在傳輸、譯碼、存儲都不方便。(4)算術編碼(Arithmeticcoding)算術編碼的概念最早由J.Rissaner在1976年以后入先出的編碼形式引入,1979年他和G.G.Langdom一起將其系統(tǒng)化。由于省去了乘法,因此,處理比較簡單。1981年又將其推廣用于二值圖像編碼。對于二元平穩(wěn)馬爾可夫信源,效率可高于95%。在國際編碼標準中,JPEG2000、H.264都有算術編碼的應用。與Huffman碼不同,算術編碼是一種非分組編碼方法,或叫非塊碼。正因為算術編碼不是分組編碼。因此,其譯碼也是一個字符一個字符的譯碼。符號概率(十進制)1/81/41/21/8概率(二進制)0.0010.010.10.001累積概率00.0010.0110.111設:有一4符號的信源,其分為,其概率如下表和下圖所示。

算術編碼的基本原理圖中符號出現(xiàn)的概率表示在概率區(qū)間之中,區(qū)間寬度表示概率值大小,圖中子區(qū)間的邊界值實際上是從下到上符號的累積概率,在算術編碼中通常用二進制小數(shù)來表示概率。其中的概率值在表中。概率區(qū)間表示概率大小累積概率這里請注意二進制數(shù)的計算規(guī)律:1)逢二進一;2)二進制數(shù)的表示3)二進制數(shù)乘上2倍小數(shù)點向右移一位,二進制數(shù)除上2倍小數(shù)點向左移一位。如:在算術編碼中,每個符號對應的概率區(qū)間都是半開區(qū)間,

即:該區(qū)間包括下端點,而不包括上端點。如:對應[0,0.001)對應[0.001,0.011)等。現(xiàn)在以符號序列為例解釋一下編碼過程。a3a3a2a4注意:1)算術編碼產(chǎn)生的碼字實際上是一個二進制小數(shù)的指針,該指針指向所編碼符號對應的概率空間;2)按照上述原則,序列的第一個符號是我們就用第3個子區(qū)間的指針來代表這個符號;3)原理上講,指針指向區(qū)間[0.011,0.111]內(nèi)的任何部位都可以代表a3;但為方便起見,通常規(guī)定指向區(qū)間的下端點。因此,得碼字0.011。上述遞歸過程,可將算術編碼的基本原理總結如下:(1)初始狀態(tài)編碼原點(指針所指之處)C0=0區(qū)間寬度為A0=1.0(2)新編碼點Ci=編碼原點Ci-1+上一級區(qū)間寬度Ai-1×累積概率Pi新區(qū)間Ai=上一級區(qū)間寬度Ai-1×pi其中pi

為所編符號ai

對應的概率,Pi

為ai的累積概率。因此,a3a3a2a4的編碼過程如下:第一個符號:a3原編碼點原區(qū)間寬度符號累積概率原區(qū)間寬度符號概率區(qū)間寬度編碼第二個符號:a3a3

的累積概率原編碼點區(qū)間寬度區(qū)間寬度原區(qū)間寬度符號概率編碼第三個符號:a2a2的累積概率編碼原編碼點區(qū)間寬度區(qū)間寬度原區(qū)間寬度符號概率第四個符號:a4以上是編碼過程。編碼原編碼點區(qū)間寬度a4的累積概率區(qū)間寬度原區(qū)間寬度符號概率解碼過程是:((收到的碼字串)

-(已解符號子區(qū)間的下端點))÷(字符概率)例:0.1010011解碼在解碼過程中,當收到碼字串0.1010011時,由于這個碼字串指向子區(qū)間[0.011,0.111],因此,解出的第一個符號應為a3

,然后用相反的步驟,從碼字串中減去已解符號子區(qū)間下端點的數(shù)值(累積概率),并將差值除以該子區(qū)間的寬度(概率值)則得到碼字串,即:由上圖所示,該字串仍然落在[0.011,0.111]區(qū)間內(nèi),因此,解出的第二個字符為a3收到碼字串a(chǎn)3累積概率a3字符概率第三個字符:a3的累積概率

a3的子區(qū)間寬度(概率)字符落在[0.001,0.011]之間因此是a2收到碼字串第四個字符a2的區(qū)間下端點數(shù)值a2的概率收到碼字串字符落在[0.111,1.0]之間因此是a4在算術編碼中,值得注意的問題是進位問題。在Huffman碼中沒有這類問題。如上述的例子,編完第3個符號之后得到的碼字是0.10011,對第四個符號編碼時前3位0.100就變成0.101。(a20.10011,a40.1010011)這就是相加過程中的進位引起的。

在20世紀40年代,Weiner提出了最佳線性預測理論,1952年Oliver和Harrison等人認識到了線性預測在通信中的作用,并建議把它用于降低冗余度。

預測編碼法是一種設備簡單質(zhì)量較佳的高效編碼法。預測編碼方法主要有二種。(Deltamodulation)或DM編碼法DPCM(DifferentialPulseCodeModulation)5.4

預測編碼(PredictiveCoding)5.4.1預測編碼的基本原理預測編碼的基本原理如下圖所示。假設有一個平均值為零,均方根值為的平穩(wěn)信號在時刻被取樣,而且其相應的樣值為。

編碼

譯碼

編碼原理圖中,xi

是下一個樣值。根據(jù)前面出現(xiàn)的n個樣值,可以得到xi

的預測值。式中是的前n個樣值。

是預測參數(shù)。設為與之間的誤差值,則預測編碼就是要對誤差進行編碼,而不是對樣值直接編碼。那么,對誤差編碼果真可以壓縮數(shù)據(jù)率嗎?假如直接對樣值x編碼,那么正如前面談到的那樣,代碼平均長度有一個下限,這個下限就是信源的熵,即同樣道理,如果對誤差信號進行編碼,那么,它也應該有一個下限,設為。顯然,預測編碼可以壓縮數(shù)碼率的條件是熵是概率分布的函數(shù),分布越均勻熵越大。熵值大,則其平均碼長之下限必然會加大,碼率就會增高。反之,分布越集中熵值越小,其平均碼長之下限就會越短,碼率就會降低。如果預測比較準確,那么誤差就會集中于不大的數(shù)值內(nèi),從而使H(E)小于H(X)。由于圖像信號中樣值的高度相關性,使得相鄰樣值之間的差別總是十分微小的,所以其差值分布十分集中。樣值差值0預測前后的概率密度分布示意圖(a)為圖像信號概率密度分布(b)為差值信號概率密度分布

對于視頻信號性質(zhì)來說,幀內(nèi)像素相關系數(shù)在0.85左右,幀間相關系數(shù)在0.95左右。由此可見,圖像像素間的相關性是很大的,其壓縮潛力也是很大的。由上面的定性分析可知,預測編碼是可以壓縮碼率的。一般情況,使用線性預測器,預測值與前面的n個已出現(xiàn)樣值的關系線性關系,即線性預測的關鍵一步在于預測系數(shù)的求解。預測誤差信號是一個隨機變量,它的均方誤差為。這里E[]表示數(shù)學期望。通常把均方誤差最小的預測稱為最佳預測。通過最小均方誤差準則可求解預測系數(shù),即

對于圖像編碼,特別是電視信號編碼,如果利用同一行的前r個樣值進行預測,叫一維預測。如果同時利用前面幾行的樣值預測就叫二維預測。電視圖像一般是一幀一幀連續(xù)發(fā)送的,那么可以利用前面若干幀進行預測,這時就是三維預測了。5.4.2△M(DM)編碼

CP△M編碼、譯碼原理方框圖放大限幅定時判決本地譯碼低通濾波譯碼M編碼器實際上就是1bit編碼的預測編碼器。它用一位碼字來表示式中f(t)為輸入視頻信號,是f(t)的預測值。當差值e(t)為一個正的增量時用“1”碼來表示,當差值e(t)為一個負的增量時用“0”碼來表示。由上述原理看,DM中增量脈沖攜帶的是斜率信息。發(fā)“1”碼。發(fā)“0”碼。交替出現(xiàn)“0”“1”碼。在接收端:當譯碼器收到“1”時,信號則產(chǎn)生一個正跳變收到“0”時,則信號電壓產(chǎn)生一個負的跳變。由此即可實現(xiàn)譯碼。譯碼器應具有下述三個功能:(1)收到“1”時,產(chǎn)生一個正斜變電壓,當連續(xù)收到“1”時,則連續(xù)上升;(2)收到“0”時,產(chǎn)生一個負斜變電壓,當連續(xù)收到“0”時,則連續(xù)下降;(3)正、負斜率相等,且具有記憶功能。DM譯碼原理5.4.3DPCM編碼

預測編碼的另一種有用的形式是DPCM編碼(DifferentialPulseCodeModulation)。這實際上是△M和PCM兩種技術相結合的編碼方法。DPCM編、譯碼原理框圖量化器編碼器預測器解碼器預測器(a)(b)

圖中(a)是編碼器原理框圖。輸入信號f(t)經(jīng)采樣后將樣值送入比較器,使得f(t)與預測值相減得出誤差信號,即:。然后,將e(t)送入量化器量化為M個電平之一。

量化后的樣值再送入PCM編碼器中編碼,以便傳輸。另外一路是將e(t)送入相加器,在這里e(t)與相加后再送入預測器,以便預測下一個樣值。譯碼器的原理框圖如圖(b)所示。譯碼器收到碼字后首先經(jīng)PCM譯碼,得到e(t)后再送入相加器與預測值相加得到f(t)。另外,f(t)又送到預測器以便預測下一個樣值。由上面的原理可知,DPCM實際上是綜合了△M和PCM兩種編碼技術的一種編碼方法,△M實際上是一位二進制碼的差分脈碼調(diào)制,也就是用1bit碼來表示增量值,而DPCM是N位二進碼來表示e(t)值的編碼法。5.4.4圖像的預測編碼+-符號編碼壓縮圖像輸入圖像e(i,j)f(i,j)預測器

霍夫曼編碼算術編碼++符號解碼解壓縮圖像壓縮圖像e(i,j)f(i,j)預測器無損預測利用圖像/視頻在空間或時間上的相關性,通過鄰近像素值預測當前像素值,對預測殘差進行編碼。預測幀當前幀幀內(nèi)預測利用圖像的空間相關性,利用相鄰已編碼像素(圖像塊),預測當前編碼像素(圖像塊)的值;算法簡單,易于硬件實現(xiàn);容易產(chǎn)生誤碼擴散;壓縮比低,很少獨立使用;幀間預測利用視頻序列相鄰幀間的相關性,可以獲得比幀內(nèi)預測高得多的壓縮比;一般以圖像塊為單位進行預測;視頻編碼中的預測技術(H.261)5.5變換編碼(TransformCoding)將空間域相關的像素點經(jīng)過正交變換映射到另一個變換域,使變換后的系數(shù)之間相關性降低。變換域上應滿足:所有系數(shù)相互獨立能量集中于少數(shù)幾個系數(shù)上;這些系數(shù)集中于一個最小的區(qū)域內(nèi)保留少數(shù)重要系數(shù)就能很好的恢復出圖像,人眼幾乎覺察不出那些損失的系數(shù)。圖像正交變換實現(xiàn)數(shù)據(jù)壓縮的本質(zhì)在于:經(jīng)過多維坐標系中的適當?shù)淖鴺诵D(zhuǎn)和變換,能夠把散布在各個坐標軸上的原始圖像數(shù)據(jù),在新的坐標系中,集中到少數(shù)坐標軸上,這樣可以采用較少的編碼比特來表示一幅子圖像,實現(xiàn)壓縮編碼。用一個可逆的、線性的變換(如傅立葉變換離散余弦變換等等),把圖像映射到變換系數(shù)集合;然后對該系數(shù)集合進行量化和編碼;對于大多數(shù)自然圖像,重要系數(shù)的數(shù)量是比較少的,因而可以用量化(或完全拋棄),且僅以較小的圖像失真為代價。變換編碼的基本思想變換編碼的原理正向變換量化器編碼器輸入圖像壓縮圖像解碼器合成nxn的子圖壓縮的圖像解壓圖像逆向變換圖像分塊圖像數(shù)據(jù)經(jīng)過正交變換后,空域中的總能量在變換域中得到保持,但像素之間的相關性下降,能量將會重新分布,并集中在變換域中少數(shù)的變換系數(shù)上,因此,選擇少數(shù)F(u,v)來重建圖像就可以達到壓縮數(shù)據(jù)的目的,并且重建圖像僅引入較小誤差。變換多采用正交函數(shù)為基礎的變換。K-L變換

--最優(yōu)變換,去相關效率高

--基函數(shù)不固定,計算復雜度高DCT變換

--基函數(shù)固定,速度較快

--去相關效率較K-L低離散小波變換(DWT)

--編碼效率高

--適用于可擴展編碼經(jīng)典的正交變換方法(1)基于DCT變換的壓縮算法(JPEG)8×8DCT變換

u、v分別表示圖像子塊的水平、垂直頻率。8×8DCT變換基圖像PCA主成分截取快速矢量量化碼流組織LOCO-I矢量量化碼書矢量量化碼字索引輸出碼流將變換矩陣寫入碼流(2)基于PCA的壓縮算法框架第1主成分第3主成分第9主成分第15主成分第30主成分第60主成分第90主成分第150主成分第224主成分一組224波段的高光譜圖像K-L變換結果K-L變換的特征值曲線算法壓縮性能(3)基于小波變換的圖像壓縮示例小波分解LL子帶編碼LH1子帶編碼HL1子帶編碼HL3子帶編碼…..輸出碼流基于率失真特性的碼率最優(yōu)截斷算法輸入矢量失真測度d(X,Y)碼書Y1…YN碼書Y1…YN計算dmin(X,Y),置尋找YiiiYi5.6矢量量化編碼(VectorQuantization)利用相鄰數(shù)據(jù)間的相關性,將輸入的數(shù)據(jù)分組,每組m個數(shù)據(jù)被描述成一個有m個元素的矢量進行整體量化。5.7圖像/視頻壓縮標準簡介靜止圖像壓縮精確地保留所有信息壓縮比較低損失不重要信息壓縮比較高無損壓縮有損壓縮運動圖像壓縮圖像壓縮技術2002音視頻編碼標準我國自主的視頻編碼標準2006年獲頒為國家標準H.JPEGMPEGAVS1992ISO與CCITT通過JEPG2000ISO與CCITT通過JEPG20001991ISO/TEC通過MPEG-11994ISO/TEC通過MPEG-21998ISO/TEC通過MPEG-41988CCITT通過H.2611995ITU-T通過H.2632003.3ITU-T與ISO/IEC通過H.264數(shù)字圖像編碼的發(fā)展HEVC也被稱為H.2655.7.1靜止圖像壓縮標準

JPEG:(ISO10918-1)無損壓縮,基于預測的方法有損壓縮,基于DCT的分塊編碼技術

JPEG-2000:(ISO15444)基于DWT的多分辨率編碼技術支持無損和有損壓縮,誤碼魯棒性好,支持漸進傳輸,支持感興趣區(qū)編碼

JPEG-LS:(ISO14495-1/ITU-T.87)無損/近無損壓縮算法算法復雜度低,壓縮比高,不支持可分級編碼,無抗誤碼能力(1)JPEG標準JPEG標準的由來1991年,聯(lián)合專家組提出了ISOCD建議草案,后經(jīng)過國際電子技術委員會ISO/IEC的批準,正式成為第10918號標準,并正式命名為“JPEG高質(zhì)量靜止圖像壓縮編碼標準”,簡稱“JPEG標準”。JPEG的四種模式:DCT順序編碼模式——基本操作模式,也稱基本系統(tǒng),所有JPEG編碼解碼器(有損)都必須支持基本系統(tǒng),采用二維余弦變換的編碼方案。

DCT遞增模式,該模式又叫累進模式。無失真編碼模式。分層編碼模式。

適用于連續(xù)色調(diào)、多級灰度、彩色或黑白圖像的數(shù)據(jù)壓縮。無損壓縮比:大約為4:1。有損壓縮比:在10:1~100:1之間。不大于40:1時,還原的圖像在色彩、清晰度、顏色分布等方面與原始圖像相比,誤差不大,基本上保持了原始圖像的風貌。

特點1)對圖像進行幀內(nèi)編碼,每幀色調(diào)連續(xù),隨機存取。2)在寬范圍內(nèi)調(diào)節(jié)圖像的壓縮比和保真度,解碼器可參數(shù)化。3)對圖像進行壓縮時,可隨意選擇期望的壓縮比值。4)對于硬件環(huán)境要求不高,只要有一般的CPU運算速度即可。5)可運行四種編碼模式:DCT順序編碼模式、DCT遞增模式、無失真編碼模式和分層編碼模式。

JPEG有損壓縮算法框圖1.DCT變換 輸入端把原始圖像分成8×8像素塊(Block)之后送入DCT變換器,目的是去除圖像數(shù)據(jù)的空間冗余。2.量化 利用人眼的視覺特性設計量化表。3.之字形掃描 在編碼之前,需要把二維的變換系數(shù)矩陣轉(zhuǎn)換為一維序列。

4.可變長熵編碼 為了消除碼字中的統(tǒng)計冗余,采用可變長熵編碼。在解碼器的輸出端經(jīng)離散余弦逆變換(IDCT)后,得到一系列8×8的圖像數(shù)據(jù)塊,需將其數(shù)值范圍由[-2P-1

,2P-1-1]再變回到[0,2P]范圍內(nèi)的無符號整數(shù),來獲得重構圖像。以JPEG圖像編碼壓縮為例介紹壓縮變換過程[0,255][-128,127]Lena圖像的一個平坦區(qū)域(8×8子塊)它的DCT變換系數(shù),可以看到能量集中在少數(shù)低頻系數(shù):JPEG的亮度量化矩陣Q=用量化矩陣式對每個系數(shù)進行均勻量化,量化器輸出為:FQ=之字形掃描和熵編碼通常是霍夫曼編碼編碼解碼圖像重建過程反量化反量化后,進行DCT反變換,得到的解碼圖像為:解壓縮圖像原圖像解壓縮圖像(2)JPEG2000簡介1.高壓縮率JPEG2000格式的圖片壓縮比可在JPEG基礎上再提高10%~30%,而且壓縮后的圖像顯得更加細膩平滑。

JPEGJPEG20002.同時支持有損和無損壓縮可以同時支持有損和無損兩種壓縮模式,其無損壓縮性能常作為無損壓縮算法的對比算法。3.漸進傳輸能實現(xiàn)漸進傳輸(ProgressiveTransmission)。它可先傳輸?shù)头直媛实膱D像或者圖像的輪廓,然后逐步傳輸其他數(shù)據(jù),不斷提高圖像質(zhì)量,以滿足用戶的需要。4.可對感興趣區(qū)域指定壓縮參數(shù)感興趣區(qū)(RegionOfInterest,ROI)編碼是JPEG2000的最大特色所在。用戶利用這個特性可指定感興趣的圖像區(qū)域,在壓縮時對這些圖像區(qū)域指定特定的壓縮質(zhì)量,或在恢復時選擇指定的部分先解壓縮,從而使重點突出。

JPEG2000ROI編碼JPEG2000與JPEG壓縮性能對比(a)原圖像Windows位圖格式640×427(像素)819894B

(b)由原圖像向JPEG2000轉(zhuǎn)換JPEG2000格式640×427(像素)5047B(c)由原圖像向JPEG轉(zhuǎn)換JPEG格式640×427(像素)8227B2000年以前制定的標準主要是數(shù)據(jù)壓縮2000年開始制定的標準主要是針對內(nèi)容管理MPEG-4既含數(shù)據(jù)壓縮又含內(nèi)容管理5.7.2視頻編碼標準MPEG是什么MovingPictureExpertGroup的縮寫1988年5月由國際標準化組織(ISO)和國際電工委員會(IEC)聯(lián)合成立的專家組ISO/IEC聯(lián)合成立的MPEG專家組MPEG系列標準簡介MPEG-1:1992年發(fā)布的數(shù)字電視標準,主要用在VideoCD(VCD),MP3(MPEG-1Layer3)等產(chǎn)品;MPEG-2:1994年發(fā)布的數(shù)字電視標準,主要用在DVD,ATSC,DVB,ISDB等數(shù)字電視標準以及數(shù)字電視機頂盒等產(chǎn)品;MPEG-3:最初設想是開發(fā)HDTV標準,后來發(fā)現(xiàn)MPEG-2可滿足HDTV的要求,于1992年7月終止;

MPEG-4:1999年發(fā)布的多媒體應用標準,主要應用在多媒體通信、數(shù)字電視和人機互動系統(tǒng)等產(chǎn)品中?,F(xiàn)改稱為“視聽對象編碼”標準。MPEG標準MPEG-7:2001年發(fā)布的多媒體內(nèi)容描述接口標準,用于描述和搜索視聽內(nèi)容

MPEG-21:2000年啟動的多媒體框架標準

MPEG-A:多媒體應用格式標準,集成多種MPEG技術以提供專用的格式

MPEG-B:為專用系統(tǒng)提供系統(tǒng)技術標準

MPEG-C:為專用電視提供電視技術標準

MPEG-D:為專用聲音提供聲音技術標準

MPEG-E:為應用程序提供下載和執(zhí)行功能的多媒體中間件標準MPEG-1標準(ISO/IEC11172)的組成部分Codingofmovingpicturesandassociatedaudiofordigitalstoragemediaatuptoabout1.5Mb/s

由五個部分組成Part1(MPEG-1System):視像數(shù)據(jù)、聲音數(shù)據(jù)及其他相關數(shù)據(jù)的同步Part2(MPEG-1Video):視頻部分Part3(MPEG-1Audio):音頻部分Part4(MPEG-1ConformanceTesting):依從性測試部分Part5(MPEG-1SoftwareSimulation):軟件仿真部分MPEG-1系統(tǒng)模型MPEG-1的應用最成功的應用——VCD,99%以上的VCD都是用MPEG-1格式壓縮的,可以把一部120分鐘長的電影壓縮到1.2GB左右。文件格式:mpg,mlv,mpe,mpeg,datADSL上的視頻傳輸,VOD等。MPEG-1的缺陷壓縮比還不夠高,所需存儲空間仍比較大;圖像清晰度還不夠高;幀數(shù)固定為25幀/秒,不能丟幀錄像,使用靈活性差。MPEG-2數(shù)字電視標準1990年開始于1994年完成的數(shù)字電視編碼標準(ISO/IEC13818),與數(shù)字電視廣播和有線數(shù)字電視有直接關系基本編碼算法與MPEG?1的相同,增加了許多MPEG?1所沒有的功能,如支持高分辨率的視像、大范圍的數(shù)據(jù)速率、多聲道的環(huán)繞聲、多種視像分辨率、位速率可變(scalability)、隔行掃描等特性。要達到的目標是電視數(shù)據(jù)壓縮后的數(shù)據(jù)位速率最低為4Mb/s,最高可達100Mb/s典型應用是DVD影視和廣播級質(zhì)量的數(shù)字電視,包括美國的ATSCDTV、歐洲的DVB以及日本的ISDB。MPEG-2也是在因特網(wǎng)上傳輸數(shù)字電視的標準。MPEG-2標準的構成MPEG-2視頻編碼系統(tǒng)中的級(Level)和類(Profile)MPEG-2的系統(tǒng)模型編碼系統(tǒng)解碼系統(tǒng)MPEG-2Video規(guī)范支持的典型視像格式來自NTSC制彩色電視數(shù)字化后的標準格式,它的分辨率為720像素/行×480行/幀×30幀/秒來自PAL制彩色電視數(shù)字化后的標準格式,它的分辨率為720像素/行×576行/幀×25幀/秒。MPEG-2Audio規(guī)范支持的聲音MPEG-1聲音規(guī)范高質(zhì)量的環(huán)繞聲,如5.1聲道的環(huán)繞聲MPEG-2的系統(tǒng)模型視、音頻資料的存儲-DVD電視節(jié)目的非線性編輯系統(tǒng)及其網(wǎng)絡信息傳輸:DVB-S電視節(jié)目的播出——數(shù)字電視MPEG-2的實際應用MPEG-4視聽對象編碼視聽對象編碼(Codingofaudio-visualobjects)標準(ISO/IEC14496),始于1993年的多媒體應用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論