無(wú)損數(shù)據(jù)壓縮_第1頁(yè)
無(wú)損數(shù)據(jù)壓縮_第2頁(yè)
無(wú)損數(shù)據(jù)壓縮_第3頁(yè)
無(wú)損數(shù)據(jù)壓縮_第4頁(yè)
無(wú)損數(shù)據(jù)壓縮_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章無(wú)損壓縮技術(shù)主要內(nèi)容數(shù)據(jù)壓縮的基本原理和方法數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)數(shù)據(jù)冗余的類型與壓縮方法分類常用數(shù)據(jù)壓縮方法1.信息的含義在信息理論中,經(jīng)常用到消息和信息的概念。1)消息消息是由符號(hào)、文字、數(shù)字或語(yǔ)音組成的表達(dá)一定含義的一個(gè)序列,如一份電報(bào)和報(bào)紙上的一段文字。消息是信息的載體,是表達(dá)信息的工具。2)信息信息是消息的內(nèi)涵,是消息中的不確定性內(nèi)容。2.1數(shù)據(jù)壓縮的基本原理和方法消息中事件發(fā)生的不確定性小,即可能性大,則事件的信息量就?。环粗?,一個(gè)發(fā)生可能性很小的事件,攜帶的信息量就很大。2.1數(shù)據(jù)壓縮的基本原理和方法2.信息的量度1)信息量及熵

(1)信息量定義設(shè)信源x由屬于集合Am={a1,a2,…,am}的m個(gè)可能的符號(hào)產(chǎn)生,若信源事件aj的概率為P(aj),則定義事件aj的信息量I(aj) I(aj)=-logP(aj)(2.1)作為事件aj所包含的信息量的量度,稱為自信息。 單位:取2為底的對(duì)數(shù),則單位為比特(bit); 取e為底的對(duì)數(shù),則單位為奈特。2.1數(shù)據(jù)壓縮的基本原理和方法 從信息量的定義可以看出,信息是事件aj的不確定因素的度量。事件發(fā)生的概率越大,事件的信息量越?。环粗粋€(gè)發(fā)生可能性很小的事件,攜帶的信息量就很大,甚至使人們“震驚”。 例如:在32個(gè)數(shù)碼中任選1個(gè)數(shù)碼時(shí),設(shè)每個(gè)數(shù)碼選中的概率是相等的,則

那么,任一數(shù)碼的信息量為

2.1數(shù)據(jù)壓縮的基本原理和方法

(2)信源的熵一個(gè)通信系統(tǒng)并非只傳送1個(gè)符號(hào),而是多個(gè)符號(hào),這就需要定義整個(gè)信源符號(hào)的平均信息量的大小。 我們把自信息的統(tǒng)計(jì)平均值——數(shù)學(xué)期望

(2.2)

即信源x中每個(gè)符號(hào)的平均信息量,稱為信源x的熵。 當(dāng)信源x中的每個(gè)符號(hào)是等概率的且是獨(dú)立的時(shí)候,平均信息量最大,此時(shí),j=1,2,…,m

代入式(2.2)得(2.3)2.1數(shù)據(jù)壓縮的基本原理和方法 例如:若信號(hào)x{a1,a2}的概率分別為P(a1)=0.9,P(a2)=0.1,則符號(hào)的平均信息量,即信源x的熵為

H(x)=-(0.9×lb0.9+0.1×lb0.1)=0.467bit

若a1,a2等概率,P(a1)=P(a2)=0.5,則信源x的平均信息量達(dá)到最大,即

所以二進(jìn)制1位數(shù)據(jù)(0/1)的每1位的信息量即為1比特。數(shù)據(jù)無(wú)損壓縮的理論——信息論(InformationTheory)1948年創(chuàng)建的數(shù)學(xué)理論的一個(gè)分支學(xué)科,研究信息的編碼、傳輸和存儲(chǔ);該術(shù)語(yǔ)源于ClaudeShannon(香農(nóng))發(fā)表的“AMathematicalTheoryofCommunication”論文題目,提議用二進(jìn)制數(shù)據(jù)對(duì)信息進(jìn)行編碼;最初只應(yīng)用于通信工程領(lǐng)域,后來(lái)擴(kuò)展到包括計(jì)算在內(nèi)的其他多個(gè)領(lǐng)域,如信息的存儲(chǔ)、信息的檢索等。在通信方面,主要研究數(shù)據(jù)量、傳輸速率、信道容量、傳輸正確率等問(wèn)題。2.1數(shù)據(jù)壓縮的基本原理和方法TheFatherofInformationTheory——

ClaudeElwoodShannonBorn:30April1916inGaylord,Michigan,USADied:24Feb2001inMedford,Massachusetts,USA/news/2001/february/26/1.html信息論之父2.1數(shù)據(jù)壓縮的基本原理和方法返回2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)

1)壓縮的必要性音頻、視頻的數(shù)據(jù)量很大,如果不進(jìn)行處理,計(jì)算機(jī)系統(tǒng)幾乎無(wú)法對(duì)它進(jìn)行存取和交換。例如:一幅中等分辨率(640*480)的真彩色圖像(24b/像素),它的數(shù)據(jù)量約為0.9MB/幀,若要達(dá)到每秒25幀的全動(dòng)態(tài)顯示要求,每秒所需的數(shù)據(jù)量約為22MB。對(duì)于聲音也是如此,CD音質(zhì)的聲音每秒將有約為172KB的數(shù)據(jù)量。2)數(shù)據(jù)可被壓縮的依據(jù)數(shù)據(jù)本身存在冗余聽(tīng)覺(jué)系統(tǒng)的敏感度有限視覺(jué)系統(tǒng)的敏感度有限2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)

3)從哪些方面評(píng)價(jià)一個(gè)壓縮系統(tǒng)2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)●壓縮比●圖像質(zhì)量●壓縮解壓速度●硬件和軟件壓縮比

輸入數(shù)據(jù)和輸出數(shù)據(jù)之比。例如:圖像512×480,24位輸入=(512×480×24)/8=737280B若輸出=15000B

則壓縮比=737280/15000=492.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)圖像質(zhì)量壓縮方法:無(wú)損壓縮有損壓縮有損壓縮:失真情況很難量化,只能對(duì)測(cè)試的圖像進(jìn)行估計(jì)。

2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)壓縮解壓速度在許多應(yīng)用中,壓縮和解壓可能不同時(shí)用,在不同的位置不同的系統(tǒng)中。所以,壓縮、解壓速度分別估計(jì)。靜態(tài)圖像中,壓縮速度沒(méi)有解壓速度嚴(yán)格;動(dòng)態(tài)圖像中,壓縮、解壓速度都有要求,因?yàn)樾鑼?shí)時(shí)地從攝像機(jī)或其他設(shè)備中抓取動(dòng)態(tài)視頻。2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)硬軟件系統(tǒng)

有些壓縮解壓工作可用軟件實(shí)現(xiàn)。設(shè)計(jì)系統(tǒng)時(shí)必須充分考慮:算法復(fù)雜——壓縮解壓過(guò)程長(zhǎng)算法簡(jiǎn)單——壓縮效果差目前有些特殊硬件可用于加速壓縮/解壓。硬件系統(tǒng)速度快,但各種選擇在初始設(shè)計(jì)時(shí)已確定,一般不能更改。因此在設(shè)計(jì)硬接線壓縮/解壓系統(tǒng)時(shí)必須先將算法標(biāo)準(zhǔn)化。2.2數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)冗余的基本概念

指信息存在的各種性質(zhì)的多余度。舉例:(1)廣播員讀文稿時(shí)每分鐘約讀180字,一個(gè)漢字占兩個(gè)字節(jié);文本數(shù)據(jù)量為360B;(2)如果對(duì)語(yǔ)音錄音,由于人說(shuō)話的音頻范圍為20Hz到4kHz,即語(yǔ)音的帶寬為4kHz,若設(shè)量化位數(shù)為8bits,則一秒鐘的數(shù)據(jù)量為:4k×8×2=64kbit/s=8KB/s則一分鐘的數(shù)據(jù)是480KB。

2.3數(shù)據(jù)冗余的類型與壓縮方法分類360B

480KB 設(shè)一幅圖片有4個(gè)灰度級(jí)S={A,B,C,D},這4個(gè)灰度級(jí)所出現(xiàn)的概率分別為P(aj)={0.6,0.2,0.06,0.14},則

H(x)=-(0.6×lb0.6+0.2×lb0.2+0.06×lb0.06+0.14×lb0.14)=1.547bit

即其平均信息熵為1.547bit。這說(shuō)明表示這4個(gè)灰度級(jí)所使用的最少平均位數(shù)為1.547bit。 平均信息熵是一種理論上的最佳編碼的平均碼長(zhǎng)。我們平常使用的一般為自然碼編碼,表示每一事件的位數(shù)是相同的。如果對(duì)A、B、C、D4個(gè)灰度級(jí)采用自然碼進(jìn)行編碼,即2.3數(shù)據(jù)冗余的類型與壓縮方法分類A 00B 01C 10D 11

每一個(gè)灰度級(jí)用兩位二進(jìn)制表示,則4個(gè)灰度級(jí)的平均碼長(zhǎng)為2,而平均信息熵是理論上的最佳編碼的平均碼長(zhǎng),為1.547位。顯然,自然碼編碼和理論上的最佳編碼存在一定的差距,這一差距常用冗余度

來(lái)表示。2.3數(shù)據(jù)冗余的類型與壓縮方法分類 冗余度表示原始圖像編碼中所包含冗余信息的多少,應(yīng)越小越好。在本例中,灰度級(jí)的自然碼編碼長(zhǎng)度為2bit,平均信息熵是理論上的最佳編碼碼長(zhǎng),為1.547bit,顯然,在自然碼編碼中包含有冗余信息。如何找出一種編碼方法,使其平均碼長(zhǎng)盡量接近信息熵,是圖像編碼所追求的目標(biāo)。 另外,如果4個(gè)灰度級(jí)是等概率出現(xiàn)的,均為0.25,則信源的平均信息熵為

即在等概率的情況下,自然碼編碼的冗余度為0。2.3數(shù)據(jù)冗余的類型與壓縮方法分類數(shù)據(jù)冗余的類別空間冗余時(shí)間冗余統(tǒng)計(jì)冗余信息熵冗余結(jié)構(gòu)冗余知識(shí)冗余視覺(jué)冗余聽(tīng)覺(jué)冗余2.3數(shù)據(jù)冗余的類型與壓縮方法分類●空間冗余2.3數(shù)據(jù)冗余的類型與壓縮方法分類同一景物表面上采樣點(diǎn)的顏色之間往往存在著空間連貫性,但是基于離散像素采樣來(lái)表示物體顏色的方式通常沒(méi)有利用這種連貫性。例如:圖像中有一片連續(xù)的區(qū)域,其像素為相同的顏色,空間冗余產(chǎn)生?!駮r(shí)間冗余序列圖像(如電視圖像和運(yùn)動(dòng)圖像)和語(yǔ)音數(shù)據(jù)的前后有著很強(qiáng)的相關(guān)性,經(jīng)常包含著冗余。在播出該序列圖像時(shí),時(shí)間發(fā)生了推移,但若干幅畫(huà)面的同一部位沒(méi)有變化,變化的只是其中某些地方,這就形成了時(shí)間冗余??臻g冗余和時(shí)間冗余是把圖像信號(hào)看作概率信號(hào)時(shí)反應(yīng)出的統(tǒng)計(jì)特性,因此,這兩種冗余也被稱為統(tǒng)計(jì)冗余。2.3數(shù)據(jù)冗余的類型與壓縮方法分類●統(tǒng)計(jì)冗余●結(jié)構(gòu)冗余在某些場(chǎng)景中,存在著明顯的圖像分布模式,這種分布模式稱作結(jié)構(gòu)。圖像中重復(fù)出現(xiàn)或相近的紋理結(jié)構(gòu),結(jié)構(gòu)可以通過(guò)特定的過(guò)程來(lái)生成。例如:方格狀的地板,蜂窩,磚墻,草席等圖結(jié)構(gòu)上存在冗余。已知分布模式,可以通過(guò)某一過(guò)程生成圖像。2.3數(shù)據(jù)冗余的類型與壓縮方法分類●信息熵冗余信息熵實(shí)際情況又稱編碼冗余。信息熵是指一組數(shù)所攜帶的信息量。由圖像的記錄方式與人對(duì)圖像的知識(shí)差異所產(chǎn)生的冗余稱為知識(shí)冗余。●知識(shí)冗余

人類的視覺(jué)系統(tǒng)對(duì)于圖像場(chǎng)的注意在非均勻和非線性的,視覺(jué)系統(tǒng)并不是對(duì)圖像的任何變化都能感知?!褚曈X(jué)冗余●聽(tīng)覺(jué)冗余人耳對(duì)不同頻率的聲音的敏感性是不同的,并不能察覺(jué)所有頻率的變化,對(duì)某些頻率不必特別關(guān)注,因此存在聽(tīng)覺(jué)冗余。2.3數(shù)據(jù)冗余的類型與壓縮方法分類數(shù)據(jù)壓縮技術(shù)分類指使壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)(或者叫做還原,解壓縮),重構(gòu)后的數(shù)據(jù)與原來(lái)的數(shù)據(jù)完全相同;無(wú)損壓縮用于要求重構(gòu)的信號(hào)與原始信號(hào)完全一致的場(chǎng)合。

典型的算法有:Huffman編碼,算術(shù)編碼,行程編碼等。特點(diǎn):壓縮比較低,為2:1——5:1,一般用來(lái)壓縮文本,數(shù)據(jù)。2.3數(shù)據(jù)冗余的類型與壓縮方法分類●無(wú)損壓縮是指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu),重構(gòu)后的數(shù)據(jù)與原來(lái)的數(shù)據(jù)有所不同,但不影響人對(duì)原始資料表達(dá)的信息造成誤解。典型的算法有:混合編碼的JPEG標(biāo)準(zhǔn),預(yù)測(cè)編碼,變換編碼等。特點(diǎn):壓縮比高,為幾十到幾百倍一般用于圖像,聲音,視頻壓縮。2.3數(shù)據(jù)冗余的類型與壓縮方法分類●有損壓縮數(shù)據(jù)壓縮的方法統(tǒng)計(jì)編碼預(yù)測(cè)編碼變換編碼混合編碼

分析合成編碼2.4常用數(shù)據(jù)壓縮方法的基本原理

根據(jù)消息出現(xiàn)概率的分布特性而進(jìn)行的壓縮編碼。

Huffman編碼

算術(shù)編碼

行程編碼

詞典編碼2.4常用數(shù)據(jù)壓縮方法的基本原理●統(tǒng)計(jì)編碼Huffman編碼統(tǒng)計(jì)獨(dú)立信源,能達(dá)到最小平均碼長(zhǎng)的編碼方法。編碼效率高?;舴蚵?D.A.Huffman)在1952年提出和描述的“從下到上”的熵編碼方法。根據(jù)給定數(shù)據(jù)集中各元素所出現(xiàn)的頻率來(lái)壓縮數(shù)據(jù)的一種統(tǒng)計(jì)壓縮編碼方法。這些元素(如字母)出現(xiàn)的次數(shù)越多,其編碼的位數(shù)就越少。廣泛用在JPEG,MPEG,H.26X等各種信息編碼標(biāo)準(zhǔn)中。統(tǒng)計(jì)編碼一Huffman編碼編碼步驟:

(1)初始化,根據(jù)符號(hào)概率的大小按由大到小順序?qū)Ψ?hào)進(jìn)行排序。

(2)把概率最小的兩個(gè)符號(hào)組成一個(gè)節(jié)點(diǎn)。

(3)重復(fù)步驟(2)。

(4)從根節(jié)點(diǎn)開(kāi)始到相應(yīng)于每個(gè)符號(hào)的“樹(shù)葉”,從上到下標(biāo)上“0”(上枝)或者“1”(下枝),至于哪個(gè)為“1”哪個(gè)為“0”則無(wú)關(guān)緊要,最后的結(jié)果僅僅是分配的代碼不同,而代碼的平均長(zhǎng)度是相同的。

(5)從根節(jié)點(diǎn)開(kāi)始順著樹(shù)枝到每個(gè)葉子分別寫出每個(gè)符號(hào)的代碼。統(tǒng)計(jì)編碼一霍夫曼編碼舉例現(xiàn)有一個(gè)由5個(gè)不同符號(hào)組成的30個(gè)符號(hào)的字符串:BABACACADADABBCBABEBEDDABEEEBB計(jì)算(1)該字符串的霍夫曼碼(2)該字符串的熵(3)該字符串的平均碼長(zhǎng)(4)編碼前后的壓縮比統(tǒng)計(jì)編碼一符號(hào)出現(xiàn)的次數(shù)log2(1/pi)分配的代碼需要的位數(shù)B101.585?A81.907?C33.322?D42.907?E52.585?合計(jì)30符號(hào)出現(xiàn)的概率統(tǒng)計(jì)編碼一(1)計(jì)算該字符串的霍夫曼碼步驟①:按照符號(hào)出現(xiàn)概率大小的順序?qū)Ψ?hào)進(jìn)行排序步驟②:把概率最小的兩個(gè)符號(hào)組成一個(gè)節(jié)點(diǎn)P1步驟③:重復(fù)步驟②,得到節(jié)點(diǎn)P2,P3,P4,……,

PN,形成一棵樹(shù),其中的PN稱為根節(jié)點(diǎn)步驟④:從根節(jié)點(diǎn)PN開(kāi)始到每個(gè)符號(hào)的樹(shù)葉,從上到下

標(biāo)上0(上枝)和1(下枝),至于哪個(gè)為1哪個(gè)為0則

無(wú)關(guān)緊要,但通常把概率大的標(biāo)成1,概率小的

標(biāo)成0步驟⑤:從根節(jié)點(diǎn)PN開(kāi)始順著樹(shù)枝到每個(gè)葉子分別寫出

每個(gè)符號(hào)的代碼統(tǒng)計(jì)編碼一符號(hào)B(10)A(8)E(5)D(4)C(3)P1(7)P2(12)P3(18)P4(30)01101010編碼B(11)A(10)E(00)D(011)C(010)統(tǒng)計(jì)編碼一符號(hào)出現(xiàn)的次數(shù)lb(1/pi)分配的代碼需要的位數(shù)B101.5851120A81.9071016C33.3220109D42.90701112E52.5850010合計(jì)301.0675個(gè)符號(hào)的代碼統(tǒng)計(jì)編碼一

(2)計(jì)算該字符串的熵

其中,是事件的集合,并滿足H(S)=(8/30)×log2(30/8)+(10/30)×log2(30/10)+

(3/30)×log2(30/3)+(4/30)×log2(30/4)+

(5/30)×log2(30/5)

=[30lg30–(8×lg8+10×lg10+3×lg3+4

×lg4+5lg5)]/(30×log22)

=(44.3136-24.5592)/9.0308=2.1874(Sh)統(tǒng)計(jì)編碼一(3)計(jì)算該字符串的平均碼長(zhǎng)平均碼長(zhǎng):

=(2×8+2×10+3×3+3×4+2×5)/30

=67/30=2.233位/符號(hào)(4)計(jì)算編碼前后的壓縮比編碼前(等長(zhǎng)):5個(gè)符號(hào)需3位,30個(gè)字符,90位編碼后:共67位 壓縮比:90/67=1.34:1統(tǒng)計(jì)編碼一霍夫曼編碼舉例2編碼前N=8symbols:{a,b,c,d,e,f,g,h},3bitspersymbol(N=23=8)P(a)=0.01,P(b)=0.02,P(c)=0.05,P(d)=0.09,P(e)=0.18,P(f)=0.2,P(g)=0.2,

P(h)=0.25計(jì)算(1)該字符串的霍夫曼碼(2)該字符串的熵(3)該字符串的平均碼長(zhǎng)(4)編碼效率統(tǒng)計(jì)編碼一該字符串的霍夫曼碼(2)該字符串的熵(3)該字符串的平均碼長(zhǎng)(4)編碼效率統(tǒng)計(jì)編碼一Huffman編碼的注意點(diǎn)Huffman編碼沒(méi)有錯(cuò)誤保護(hù)功能,如果碼中有錯(cuò)誤,則可能引起接下來(lái)的一連串譯碼錯(cuò)誤。Huffman編碼是可變長(zhǎng)編碼,因此很難隨意查找或調(diào)用中的文件內(nèi)容。Huffman依賴于信源的統(tǒng)計(jì)特性。Huffman編碼的每個(gè)碼字都是整數(shù),因此實(shí)際上平均碼長(zhǎng)很難達(dá)到信息熵的大小。Huffman編碼解碼必須要有碼表,如果消息數(shù)目很多,那么所需要存儲(chǔ)的碼表也很大,這將影響系統(tǒng)的存儲(chǔ)量及編、譯碼速度。統(tǒng)計(jì)編碼一010.11010.2600.3510.611101000.391.00碼字碼長(zhǎng)01200233344平均碼長(zhǎng):2.72Huffman編碼過(guò)程a10.20a20.19a30.18a40.17a50.15a60.10a70.01算術(shù)編碼算術(shù)編碼把一個(gè)信源集合表示為實(shí)數(shù)線上的0到1之間的一個(gè)區(qū)間。這個(gè)集合中的每個(gè)元素都要用來(lái)縮短這個(gè)區(qū)間。信源集合的元素越多,所得到的區(qū)間就越小,當(dāng)區(qū)間變小時(shí),就需要一些更多的數(shù)位來(lái)表示這個(gè)區(qū)間,這就是區(qū)間作為代碼的原理。算術(shù)編碼首先假設(shè)一個(gè)信源的概率模型,然后用這些概率來(lái)縮小表示信源集的區(qū)間。統(tǒng)計(jì)編碼二算術(shù)編碼新子區(qū)間的起始位置=前子區(qū)間的起始位置+當(dāng)前符號(hào)的區(qū)間左端×前子區(qū)間長(zhǎng)度新子區(qū)間的長(zhǎng)度=前子區(qū)間的長(zhǎng)度×當(dāng)前符號(hào)的概率(等價(jià)于范圍長(zhǎng)度)

最后得到的子區(qū)間的長(zhǎng)度決定了表示該區(qū)域內(nèi)的某一個(gè)數(shù)所需的位數(shù)。統(tǒng)計(jì)編碼二算術(shù)編碼[例]假設(shè)信源符號(hào)為{00,01,10,11},這些符號(hào)的概率分別為{0.1,0.4,0.2,0.3},根據(jù)這些概率可把間隔[0,1)分成4個(gè)子間隔:[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1),其中[x,y)表示半開(kāi)放間隔,即包含x不包含y。上面的信息可綜合在下表中。符號(hào)00011011概率0.3初始編碼間隔[0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1)統(tǒng)計(jì)編碼二算術(shù)編碼統(tǒng)計(jì)編碼二算術(shù)編碼要注意的幾個(gè)問(wèn)題:由于實(shí)際的計(jì)算機(jī)的精度不可能無(wú)限長(zhǎng),運(yùn)算中出現(xiàn)溢出是一個(gè)明顯的問(wèn)題,但多數(shù)機(jī)器都有16位、32位或者64位的精度,因此這個(gè)問(wèn)題可使用比例縮放方法解決。算術(shù)編碼器對(duì)整個(gè)消息只產(chǎn)生一個(gè)碼字,這個(gè)碼字是在間隔[0,1)中的一個(gè)實(shí)數(shù),因此譯碼器在接受到表示這個(gè)實(shí)數(shù)的所有位之前不能進(jìn)行譯碼。算術(shù)編碼也是一種對(duì)錯(cuò)誤很敏感的編碼方法,如果有一位發(fā)生錯(cuò)誤就會(huì)導(dǎo)致整個(gè)消息譯錯(cuò)。統(tǒng)計(jì)編碼二行程編碼是最簡(jiǎn)單、最古老的壓縮技術(shù)之一,主要技術(shù)是檢測(cè)重復(fù)的比特或字符序列,并用它們的出現(xiàn)次數(shù)取而代之。該方法有兩大模式:一是消零(消空白),二是行(游)程(runlength)編碼。

消零(或消空白)法

將數(shù)字中連續(xù)的“0”或文本中連續(xù)的空白用一個(gè)標(biāo)識(shí)符(或特殊字符)后跟數(shù)字N(連續(xù)“0”的個(gè)數(shù))來(lái)代替。

如數(shù)字序列:742300000000000000000055編碼為:7423Z1855統(tǒng)計(jì)編碼三行程編碼法

任何重復(fù)的字符序列可被一個(gè)短格式取代。該算法適合于任何重復(fù)的字符。一組n個(gè)連續(xù)的字符c將被

c和一個(gè)特殊的字符取代。當(dāng)然,若給定字符僅重復(fù)兩次就不要用此方法。 任何重復(fù)的字符由“該字符+記號(hào)(M)+重復(fù)次數(shù)”代替。例如字符序列:Name:..........CR

編碼為:Name:

.M10CR統(tǒng)計(jì)編碼三詞典編碼詞典編碼(dictionaryencoding)根據(jù)數(shù)據(jù)本身包含有重復(fù)代碼這個(gè)特性。例如文本文件和光柵圖像。兩類統(tǒng)計(jì)編碼四第一類: 查找正在壓縮的字符序列是否在以前輸入的數(shù)據(jù)中出現(xiàn)過(guò),然后用已經(jīng)出現(xiàn)過(guò)的字符串替代重復(fù)的部分,它的輸出僅僅是指向早期出現(xiàn)過(guò)的字符串的“指針”。

統(tǒng)計(jì)編碼四第二類:從輸入的數(shù)據(jù)中創(chuàng)建一個(gè)“短語(yǔ)詞典(dictionaryofthephrases)”,編碼數(shù)據(jù)過(guò)程中當(dāng)遇到已經(jīng)在詞典中出現(xiàn)的“短語(yǔ)”時(shí),編碼器就輸出這個(gè)詞典中的短語(yǔ)的“索引號(hào)”,而不是短語(yǔ)本身。統(tǒng)計(jì)編碼四統(tǒng)計(jì)編碼四LZW編碼簡(jiǎn)介L(zhǎng)ZW通過(guò)建立一個(gè)字符串表,用較短的代碼來(lái)表示較長(zhǎng)的字符串來(lái)實(shí)現(xiàn)壓縮(第二類)。字符串和編碼的對(duì)應(yīng)關(guān)系是在壓縮過(guò)程中動(dòng)態(tài)生成的,并且隱含在壓縮數(shù)據(jù)中,解壓的時(shí)候根據(jù)表來(lái)進(jìn)行恢復(fù),是一種無(wú)損壓縮。全稱Lempel-Ziv-WelchEncoding,簡(jiǎn)稱LZW的壓縮算法。統(tǒng)計(jì)編碼四LZW壓縮有三個(gè)重要的對(duì)象數(shù)據(jù)流(CharStream)編碼流(CodeStream)編譯表(StringTable)。在編碼時(shí),數(shù)據(jù)流是輸入對(duì)象(文本文件的數(shù)據(jù)序列),編碼流就是輸出對(duì)象(經(jīng)過(guò)壓縮運(yùn)算的編碼數(shù)據(jù));在解碼時(shí),編碼流則是輸入對(duì)象,數(shù)據(jù)流是輸出對(duì)象;而編譯表是在編碼和解碼時(shí)都須要用借助的對(duì)象。統(tǒng)計(jì)編碼四LZW編碼基本原理提取原始文本文件數(shù)據(jù)中的不同字符,基于這些字符創(chuàng)建一個(gè)編譯表,然后用編譯表中的字符的索引來(lái)替代原始文本文件數(shù)據(jù)中的相應(yīng)字符,減少原始數(shù)據(jù)大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論