第3章 多媒體數(shù)據(jù)壓縮-2010_第1頁
第3章 多媒體數(shù)據(jù)壓縮-2010_第2頁
第3章 多媒體數(shù)據(jù)壓縮-2010_第3頁
第3章 多媒體數(shù)據(jù)壓縮-2010_第4頁
第3章 多媒體數(shù)據(jù)壓縮-2010_第5頁
已閱讀5頁,還剩163頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1第3章多媒體數(shù)據(jù)壓縮3.1數(shù)據(jù)壓縮的基本原理和方法3.2音頻壓縮標(biāo)準(zhǔn)3.3圖像壓縮標(biāo)準(zhǔn)3.4視頻壓縮標(biāo)準(zhǔn)23.1數(shù)據(jù)壓縮的基本原理和方法所謂“數(shù)據(jù)”,通常是指信源所發(fā)信號的數(shù)字化表示或記錄所謂數(shù)據(jù)壓縮,就是以最少的數(shù)碼表示信源所發(fā)出的信號,減少容納給定消息集合或數(shù)據(jù)采樣集合的信息空間。信息空間亦即被壓縮對象是指:物理空間:如儲存器、磁盤、光盤等數(shù)據(jù)存儲介質(zhì)時間區(qū)間:如傳輸給定消息集合所需的時間電磁頻譜區(qū)域:如傳輸給定消息集合所需的帶寬等。壓縮的必要性音頻、視頻的數(shù)據(jù)量很大,如果不進行處理,計算機系統(tǒng)幾乎無法對它進行存取和交換。33.1數(shù)據(jù)壓縮的基本原理和方法1950年在計算機普及之前,世界范圍內(nèi)信息量的增長速度是每150年翻一番;隨著計算機的廣泛應(yīng)用,1950-1960年間信息量的增長達到每10年翻一番;1960-1992年間縮短為每5年翻一番。人們預(yù)計2020年以后信息量每73天就要翻一番。幾個未經(jīng)壓縮的數(shù)字化信息的例子:B5(180x255mm)、300dpi(12像素點/mm)-------6.61MB/頁----CD-ROM98頁雙聲道立體聲激光唱盤(CD-DA):

44.1x103x16x2=1.41Mb/s,650M:----約一小時數(shù)字音頻磁帶(DAT):48x103x16=768kb/s43.1數(shù)據(jù)壓縮的基本原理和方法SIF(SourceInputFormat)格式,NTSC制式,4:4:4采樣每幀數(shù)據(jù):352x240x3=253KB每秒數(shù)據(jù):253x30=7.603MB/sCCIR(InternationalConsultativeCommitteeforRadio)格式,PAL制式,4:4:4采樣每幀數(shù)據(jù):720x576x3=1.24MB每秒數(shù)據(jù):1.24x25=31.3MB/s實驗表明,176×144的YUV原始視頻在10Mbps的LAN上傳送速率是3幀/秒左右。陸地衛(wèi)星遙感圖片的水平和垂直分辨率分別為2340及3240,四波段、采樣精度為7bit的一幅圖像的數(shù)據(jù)量為212Mb,按每天30幅計算,其數(shù)據(jù)量為6.36Gb,而每年的數(shù)據(jù)量則高達2300Gb。53.1數(shù)據(jù)壓縮的基本原理和方法壓縮的可行性信息論認(rèn)為:若信源編碼的熵大于信源的實際熵,該信源中一定存在冗余度??臻g冗余、時間冗余、視覺冗余、聽覺冗余等63.1.1數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)有三個關(guān)鍵參數(shù)評價一個壓縮系統(tǒng)壓縮比壓縮性能常常用壓縮比定義(輸入數(shù)據(jù)和輸出數(shù)據(jù)比)圖象質(zhì)量無損壓縮(圖象質(zhì)量不變)有損壓縮,失真情況很難量化,只能對測試的圖象進行估計。壓縮和解壓的速度壓縮和解壓可能不同時用,壓縮、解壓速度分別估計。73.1.2數(shù)據(jù)冗余的類型與壓縮方法分類數(shù)據(jù)冗余的類型空間冗余時間冗余信息熵冗余視覺冗余聽覺冗余其它冗余結(jié)構(gòu)冗余知識冗余83.1.2數(shù)據(jù)冗余的類型與壓縮方法分類空間冗余這是圖像數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖像中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成像結(jié)構(gòu)在數(shù)字化圖像中就表現(xiàn)為數(shù)據(jù)冗余。A93.1.2數(shù)據(jù)冗余的類型與壓縮方法分類時間冗余這是序列圖像(電視圖像、運動圖像)和語音數(shù)據(jù)中經(jīng)常出現(xiàn)的冗余。T103.1.2數(shù)據(jù)冗余的類型與壓縮方法分類信息熵冗余(編碼冗余)信息熵(entropy)是指一組數(shù)據(jù)所攜帶的信息量H=-Pilog2Pi(i=0~k-1)k為數(shù)據(jù)類數(shù)或碼元個數(shù)Pi為第i個數(shù)據(jù)類數(shù)或碼元發(fā)生的概率d=Pib(yi)(i=0~k-1)b(yi)是分配給碼元yi的比特數(shù),理論上應(yīng)該是b(yi)=-log2Pi

,實際中很難估計出碼元的的概率,當(dāng)選用等概率時,d則大于H113.1.2數(shù)據(jù)冗余的類型與壓縮方法分類視覺冗余人類視覺系統(tǒng)對于圖像場的任何變化,并不是都能感知的。人類視覺系統(tǒng)一般的分辨能力約為26灰度級一般圖像量化采用28灰度級聽覺冗余人耳對不同頻率的聲音的敏感性是不同的,并不能察覺所有頻率的變化,對某些頻率不必特別關(guān)注,存在聽覺冗余。知識冗余有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如人臉的圖像有固定的結(jié)構(gòu)。123.1.2數(shù)據(jù)冗余的類型與壓縮方法分類結(jié)構(gòu)冗余133.1.2數(shù)據(jù)冗余的類型與壓縮方法分類根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致可以分為兩大類:一類是熵編碼、冗余壓縮法,也稱無損壓縮法、無失真壓縮法、可逆編碼等多用于文本、數(shù)據(jù)的壓縮,非線性編輯系統(tǒng)為了保證視頻質(zhì)量,有些高檔系統(tǒng)采用的是無失真壓縮方法。二是熵壓縮法,也稱有損壓縮法、有失真壓縮法。圖像、聲音、動態(tài)視頻根據(jù)編碼原理預(yù)測編碼,變換編碼,統(tǒng)計編碼,分析-合成編碼,混合編碼等143.1.3常用數(shù)據(jù)壓縮方法的基本原理統(tǒng)計編碼識別一個給定的數(shù)據(jù)流中出現(xiàn)頻率最高的比特或字節(jié)模式,并用比原始比特更少的比特數(shù)來對其編碼。頻率越低的模式,其編碼的位數(shù)越多,頻率越高的模式編碼位數(shù)越少。若碼流中所有模式出現(xiàn)的概率相等,則平均信息量最大,信源就沒有冗余。(1)香農(nóng)-范諾編碼(2)行程編碼(3)LZW編碼(4)霍夫曼編碼(5)算術(shù)編碼153.1.3常用數(shù)據(jù)壓縮方法的基本原理(1)香農(nóng)-范諾編碼香農(nóng)-范諾編碼算法需要用到下面兩個基本概念:①Entropy(熵)的概念:熵是信息量的度量方法,它表示某一事件出現(xiàn)的消息越多,事件發(fā)生的可能性就越小,數(shù)學(xué)上就是概率越小。某個事件的信息量用:Ii=-pi*log2pi表示,其中pi為第i個事件的概率0<pi<1②信源S的熵的定義:按照香農(nóng)(Shannon)的理論,信源S的熵定義為H(S)=E{Ii}=pi*log2(1/pi)i:1~n其中pi是符號Si在S中出現(xiàn)的概率;log2(1/pi)表示包含在Si中的信息量,也就是編碼Si所需要的位數(shù)。163.1.3常用數(shù)據(jù)壓縮方法的基本原理例如,一幅用256級灰度表示的圖象,如果每一個象素點灰度的概率均為pi=1/256,編碼每一個象素點就需要

比特。有一幅40個象素組成的灰度圖象,灰度共有5級,分別用符號A、B、C、D和E表示,40個象素中出現(xiàn)灰度A的象素數(shù)有15個,出現(xiàn)灰度B的象素數(shù)有7個,出現(xiàn)灰度C的象素數(shù)有7個等等,如表3-01所示。如果用3個比特表示5個等級的灰度值,也就是每個象素用3比特表示,編碼這幅圖象總共需要120比特。按照香農(nóng)理論,這幅圖象的熵為:H(S)=(15/40)*log2(40/15)+(7/40)*log2(40/7)+...+(5/40)*log2(40/5)=2.196這就是說每個符號用2.196比特表示可以,40個象素需用87.84比特。8表3-01173.1.3常用數(shù)據(jù)壓縮方法的基本原理最早闡述和實現(xiàn)這種編碼的是香農(nóng)(1948年)和范諾(1949年)。它采用從上到下的方法進行編碼。首先按照符號出現(xiàn)的頻度或概率排序,例如A、B、C、D、E,如表3-02所示,然后使用遞歸方法分成兩個部分,每一部分具有近似相同的次數(shù),如圖3-01所示。按照這種方法進行編碼得到的總比特數(shù)為91。壓縮比約為1.3:1。表3-02Shannon-Fano算法舉例表183.1.3常用數(shù)據(jù)壓縮方法的基本原理Shannon-Fano算法編碼過程:符號ABCDE概率15/407/407/406/405/4001000111碼字000110110111193.1.3常用數(shù)據(jù)壓縮方法的基本原理(2)行程編碼基本原理:文字、圖象、聲音等數(shù)據(jù)中,會出現(xiàn)大量重復(fù)的字符或數(shù)值。重復(fù)的數(shù)據(jù)可以用該值以及重復(fù)的次數(shù)來代替。將一個相同值的連續(xù)串用其值和串長來代替。比如在傳真通信中,所傳的文件多數(shù)為二值(黑、白)圖像…

…。連續(xù)出現(xiàn)的像素點數(shù)稱為行程長度,簡稱長度。適合:如文字輸入的二值圖像、黑白或彩色圖像(它們的分布都屬于平穩(wěn)的隨機分布,在同一行或相鄰行的像素之間具有較強的相關(guān)性)--效果好;純隨機的“沙丘型”圖像---效果差203.1.3常用數(shù)據(jù)壓縮方法的基本原理主要技術(shù)是檢測重復(fù)的比特或字符序列,并用它們的出現(xiàn)次數(shù)取而代之。該方法有兩大模式:一是消零(消空白),將數(shù)字中連續(xù)的“0”或文本中連續(xù)的空白用一個標(biāo)識符(或特殊字符)后跟數(shù)字N(連續(xù)“0”的個數(shù))來代替。如數(shù)字序列:742300000000000000000055編碼為:7423Z1855213.1.3常用數(shù)據(jù)壓縮方法的基本原理二是行(游)程(runlength)編碼。任何重復(fù)的字符序列可被一個短格式取代。任何重復(fù)4次或4次以上的字符由“該字符+記號(M)+重復(fù)次數(shù)”代替。例如數(shù)字序列:Name:..........CR

編碼為:Name:.M10CR用RLE編碼方法得到的代碼為:80315084180。223.1.3常用數(shù)據(jù)壓縮方法的基本原理AAAAAAAAAAAAAAA15A壓縮率15bytes/2bytes=7.5AAAABBBBBCCCCCCCCDEEEE4A5B8C1D4E壓縮率22bytes/10bytes=2.2MyDogHasFleas1M1y1D1o1g1H1a1s1F1l1e1a1s壓縮率13bytes/26bytes=0.523RLE編碼方式24RLE編碼流程圖253.1.3常用數(shù)據(jù)壓縮方法的基本原理RLE編碼模式由于所針對的編碼類型的不同,RLE算法也有很大的區(qū)別對位圖圖像編碼時,根據(jù)所編碼的元素的類型,RLE編碼模式可以分為:位模式對Bit進行編碼,而忽略Byte和Word的界限單色圖像(monochrome)字節(jié)模式對Byte進行編碼,而忽略Bit和Word的界限2字節(jié)的數(shù)據(jù)包,適用于1Byte/Pixel像素模式對Pixel進行編碼,一個Pixel用多個Byte表示一個Pixel包含多少個Byte的信息保存的圖像的Header部分26RLE編碼模式273.1.3常用數(shù)據(jù)壓縮方法的基本原理RLE中的負(fù)壓縮MyDogHasFleas經(jīng)過RLE編碼之后,長度被壓縮了0.5倍(即膨脹了1倍)如何解決?隨之而來的問題壓縮數(shù)據(jù)的行程由3個字符變成了4個,影響了壓縮效率控制字符的引入涉及到了控制字符的選擇,并且要把出現(xiàn)在數(shù)據(jù)中的控制字符編碼成3個283.1.3常用數(shù)據(jù)壓縮方法的基本原理RLE的三字節(jié)編碼模式293.1.3常用數(shù)據(jù)壓縮方法的基本原理RLE圖片格式選用RLE作為壓縮編碼算法的圖片文件格式有:MacPaintBMPPDFPCXTIFFRLE(CompuServe,Utah以及Microsoft)以RLE(CompuServe)格式為例進行說明觀看2個RLE圖片使用PMView軟件303.1.3常用數(shù)據(jù)壓縮方法的基本原理RLE(CompuServe)CompuServeRLE文件格式形成于80年代,是為1-bit圖像制定的標(biāo)準(zhǔn)文件頭包含3個字符ASCIIESC(HEX1B)ASCIIG(HEX47)ASCIIH(HEX48)或者M(HEX4D)<ESC><G><H>表示高分辨率圖像模式,分辨率為256×192<ESC><G><M>表示中分辨率圖像模式,分辨率為128×96313.1.3常用數(shù)據(jù)壓縮方法的基本原理文件體文件體位于文件頭之后由一對ASCII碼表示,第一位ASCII碼表示背景像素(黑)的值,第二位ASCII碼表示前景像素(白)的值。ASCII值=相應(yīng)的像素個數(shù)+32如HEX(207E)表示0個背景象素,94個前景像素文件尾<ESC><G><N>再次瀏覽RLE圖片用16進制編輯器打開RLE文件,找到其中的文件頭,文件體以及文件尾323.1.3常用數(shù)據(jù)壓縮方法的基本原理(3)LZW編碼詞典編碼的思想:數(shù)據(jù)本身包含有重復(fù)代碼這個特性。例如文本文件就具有這種特性。詞典編碼法的種類很多,歸納起來大致有兩類。第一類詞典法的想法是企圖查找正在壓縮的字符序列是否在以前輸入的數(shù)據(jù)中出現(xiàn)過,然后用已經(jīng)出現(xiàn)過的字符串替代重復(fù)的部分,它的輸出僅僅是指向早期出現(xiàn)過的字符串的“指針”。這里所指的“詞典”:是指用以前處理過的數(shù)據(jù)來表示編碼過程中遇到的重復(fù)部分。第二類算法的想法是企圖從輸入的數(shù)據(jù)中創(chuàng)建一個“短語詞典(dictionaryofthephrases)”,短語可以是任意字符的組合。編碼數(shù)據(jù)過程中當(dāng)遇到已經(jīng)在詞典中出現(xiàn)的“短語”時,編碼器就輸出這個詞典中的短語的“索引號”,而不是短語本身。333.1.3常用數(shù)據(jù)壓縮方法的基本原理343.1.3常用數(shù)據(jù)壓縮方法的基本原理J.Ziv和A.Lempel在1978年首次發(fā)表了介紹這種編碼方法的文章。在他們的研究基礎(chǔ)上,TerryA.Weltch在1984年發(fā)表了改進這種編碼算法的文章,因此把這種編碼方法稱為LZW(Lempel-ZivWalch)壓縮編碼。LZW算法得到普遍采用,對LZW算法進一步的改進是增加可變的碼字長度,以及在詞典中刪除老的綴-符串。在GIF圖象格式和UNIX的壓縮程序中已經(jīng)采用了這些改進措施之后的LZW算法。參考《多媒體技術(shù)基礎(chǔ)》,林福宗,清華大學(xué)出版社353.1.3常用數(shù)據(jù)壓縮方法的基本原理LZW編碼LZW編碼時,首先將原始的數(shù)據(jù)分成多個條紋,每個條紋都單獨進行壓縮。LZW算法基于一個轉(zhuǎn)換表或字串表,它將輸入字符映象到編碼中,使用可變長代碼,最大代碼長度為12位。LZW算法中的字串表對于每個條紋都不同,并且不必保留給解壓縮程序,因為解壓縮過程中能自動建立完全相同的字串表。實際上,它是通過查找冗余字符串并將此字符串用較短的符號標(biāo)記替代的壓縮技術(shù)。363.1.3常用數(shù)據(jù)壓縮方法的基本原理LZW的實現(xiàn)有很多的技巧性,但是算法本身卻是非常簡單的。用字符串表中的一個索引代碼來替代相應(yīng)的字符串在具體實現(xiàn)時,大多都使用12位的索引代碼來代替8位的輸入字符。字符串表有4096個存儲空間,正好可以采用12位的代碼來定位.前256個空間用來存儲單個字符(location0stores0,location1stores1,等).<256>專門用于清零代碼,<257>專門用于信息結(jié)束代碼當(dāng)從輸入字符串中發(fā)現(xiàn)一個新串時,將其添加到字符串表中,其存儲空間從258到4095,數(shù)據(jù)解析器一直解析新輸入的字符,只要新生成的字符串位于字符串表中。一旦新的字符產(chǎn)生了一個新的字符串,把這個新的字符串添加到字符串表中,并輸出上次已知的字符串的索引代碼373.1.3常用數(shù)據(jù)壓縮方法的基本原理LZW壓縮算法用單個字符初始化字符串表

STRING=第一個輸入字符WHILE輸入流中還有字符CHARACTER=下一個輸入字符IFSTRING+CHARACTER在字符串表中

STRING=STRING+CHARACTERELSE輸出STRING的索引代碼把STRING+CHARACTER添加到字符串表中STRING=CHARACTERENDWHILE

輸出string的索引代碼383.1.3常用數(shù)據(jù)壓縮方法的基本原理BABAABAAAENCODEROUTPUTSTRINGTABLEoutputcodeRepresentingcodewordstring66B258BA65A259AB258BA260BAA259AB261ABA65A262AA262257AA393.1.3常用數(shù)據(jù)壓縮方法的基本原理LZW解壓算法用單個字符初始化字符串表OLD_CODE=第一個輸入代碼輸出OLD_CODE所代表的字符WHILE輸入流中還有代碼NEW_CODE=下一個輸入代碼IFNEW_CODE不在字符串表中STRING=得到OLD_CODE所對應(yīng)的字符(串)STRING=STRING+CHARACTERELSE STRING=得到NEW_CODE所對應(yīng)的字符(串)輸出STRINGCHARACTER=STRING的第一個字符把OLD_CODE+CHARACTER添加到字符串表中OLD_CODE=NEW_CODEENDWHILE403.1.3常用數(shù)據(jù)壓縮方法的基本原理<66><65><258><259><65><262><257>OutputOldcodeNewcodeStringcharStringTablecodestringB66A6565AA258BABA258258BAB259ABAB259259ABA260BAAA6565AA261ABAAA262262AAA262AAEOL257413.1.3常用數(shù)據(jù)壓縮方法的基本原理(4)霍夫曼編碼1952年Huffman提出了對統(tǒng)計獨立信源能達到最小平均碼長的編碼方法,也即最佳碼。最佳性可從理論上證明。這種碼具有即時性和唯一可譯性。原理:對出現(xiàn)概率大的信源符號賦予短碼字,而對于出現(xiàn)概率小的信源符號賦予長碼字。如果碼字長度嚴(yán)格按照所對應(yīng)符號出現(xiàn)概率大小的逆序排列,則編碼結(jié)果平均碼字長度一定小于任何其他排列方式。Morse碼:用較少的點和線表示出現(xiàn)頻率較大的字母E(.)T(-)Q(--.-)423.1.3常用數(shù)據(jù)壓縮方法的基本原理現(xiàn)仍以一個具體的例子說明它的編碼步驟1、初始化,根據(jù)符號概率的大小按由大到小順序?qū)Ψ栠M行排序,如表3-03和圖3-02所示。2、把概率最小的兩個符號組成一個節(jié)點,如圖3-02中的D和E組成節(jié)點P1。3、重復(fù)步驟2,得到節(jié)點P2、P3和P4,形成一棵“樹”,其中的P4稱為根節(jié)點。4、從根節(jié)點P4開始到相應(yīng)于每個符號的“樹葉”,從上到下標(biāo)上“0”(上枝)或者“1”(下枝),至于哪個為“1”哪個為“0”則無關(guān)緊要,最后的結(jié)果僅僅是分配的代碼不同,而代碼的平均長度是相同的。5、從根節(jié)點P4開始順著樹枝到每個葉子分別寫出每個符號的代碼,如表3-03所示。電信-伍衛(wèi)國433.1.3常用數(shù)據(jù)壓縮方法的基本原理按照Shannon理論,這幅圖象的熵為H(S)=(15/40)*log2(40/15)+(7/40)*log2(40/7)+…

…+(5/40)*log2(40/5)=2.196壓縮比1.37:1。表3-03443.1.3常用數(shù)據(jù)壓縮方法的基本原理圖3-02霍夫曼編碼方法霍夫曼碼的碼長雖然是可變的,但卻不需要另外附加同步代碼。例如,碼串中的第1位為0,那末肯定是符號A,因為表示其它符號的代碼沒有一個是以0開始的,因此下一位就表示下一個符號代碼的第1位。同樣,如果出現(xiàn)“110”,那么它就代表符號D。如果事先編寫出一本解釋各種代碼意義的“詞典”,即碼簿,那么就可以根據(jù)碼簿一個碼一個碼地依次進行譯碼。A(15/40)B(7/40)C(7/40)D(6/40)E(5/40)00001111P2(14/40)P1(11/40)P3(25/40)P4(40/40)0100101110111453.1.3常用數(shù)據(jù)壓縮方法的基本原理Huffman編碼舉例463.1.3常用數(shù)據(jù)壓縮方法的基本原理概率分布為2的負(fù)數(shù)冪473.1.3常用數(shù)據(jù)壓縮方法的基本原理Huffman---雙字長編碼舉例483.1.3常用數(shù)據(jù)壓縮方法的基本原理Huffman編碼小結(jié)Huffman方法的構(gòu)造程序是明確的,但構(gòu)造出來的碼字并不是唯一的。為什么?編碼碼字字長參差不齊,硬件實現(xiàn)不方便。碼字在存儲或傳輸過程中,如果出現(xiàn)誤碼時,可能引起誤碼的連續(xù)傳播。為什么?變化的碼距對不同的信源其編碼效率是不同的什么情況下最高?什么情況下最低?解碼時必須參照Huffman編碼表Huffman編碼表的缺省使用:減少了編碼時間,便于硬件實現(xiàn)493.1.3常用數(shù)據(jù)壓縮方法的基本原理(5)算術(shù)編碼算術(shù)編碼把一個信源集合表示為實數(shù)線上的0到1之間的一個開閉區(qū)間。這個集合中的每個元素都要用來縮短這個區(qū)間。信源集合的元素越多,所得到的區(qū)間間隔就越小,當(dāng)區(qū)間變小時,就需要更多的數(shù)位來表示這個區(qū)間,這就是區(qū)間作為代碼的原理。方法:首先假設(shè)一個信源的概率模型,然后用這些概率來縮小表示信源集的區(qū)間間隔。對二進制編碼來說,信源符號只有兩個。因此在編碼初始階段可預(yù)置一個大概率Pe和一個小概率Qe,然后對被編碼比特流符號進行判斷。503.1.3常用數(shù)據(jù)壓縮方法的基本原理編碼過程描述:初始化子區(qū)間為[0,1),0的概率:Qe,1的概率:Pe=1-Qe新子區(qū)間的起始位置=前子區(qū)間的起始位置+當(dāng)前符號的區(qū)間左端×前子區(qū)間長度新子區(qū)間的長度=前子區(qū)間的長度×當(dāng)前符號的概率最后得到的子區(qū)間的長度決定了表示該區(qū)域內(nèi)的某一個數(shù)所需的二進制位數(shù)。513.1.3常用數(shù)據(jù)壓縮方法的基本原理例1

已知信源:,按以上規(guī)則,對1011進行算術(shù)編碼:011/43/4X=

設(shè)C表示子區(qū)間的起始位置,A表示子區(qū)間的長度。Qe=1/4,Pe=3/4,所以符號“0”的區(qū)間左端為0,“1”的區(qū)間左端為1/4,初始子區(qū)間為[0,1),初始值為C=0,A=1。編碼過程如下:523.1.3常用數(shù)據(jù)壓縮方法的基本原理最后的子區(qū)間的起始位置=(85/256)d=0.33203125=(0.01010101)b子區(qū)間的長度=(27/256)d=0.10546875(0.00011011)b

子區(qū)間尾=(7/16)d=0.4375d=(0.0111)b編碼結(jié)果為子區(qū)間頭尾間的取值,其值為“0.011”,可編碼為”011“。解碼是編碼的逆過程。533.1.3常用數(shù)據(jù)壓縮方法的基本原理例2:假設(shè)信源符號為{00,01,10,11},這些符號的概率為{0.1,0.4,0.2,0.3},根據(jù)概率可把間隔[0,1)分成4個子間隔:[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1),其中[x,y)表示半開放間隔,即包含x不包含y。上面的信息可綜合在表3-04中。表3-04543.1.3常用數(shù)據(jù)壓縮方法的基本原理如果二進制消息序列的輸入為:10001100101101。編碼時首先輸入的符號是10,找到它的編碼范圍是[0.5,0.7)。由于消息中第2個符號00的編碼范圍是[0,0.1),因此它的間隔就取[0.5,0.7)的第一個十分之一作為新間隔[0.5,0.52)。依此類推,編碼第3個符號11時取新間隔為[0.514,0.52),編碼第4個符號00時,取新間隔為[0.514,0.5146),…

。消息的編碼輸出可以是最后一個間隔中的任意數(shù)。整個編碼過程如圖3-03所示。553.1.3常用數(shù)據(jù)壓縮方法的基本原理圖3-03整個編碼過程563.1.3常用數(shù)據(jù)壓縮方法的基本原理從[0.5143836,0.514402中選擇一個數(shù)作為輸出:0.51439573.1.3常用數(shù)據(jù)壓縮方法的基本原理譯碼的消息:10001100101101583.1.3常用數(shù)據(jù)壓縮方法的基本原理在算術(shù)編碼中有幾個問題需要注意:由于實際的計算機的精度不可能無限長,運算中出現(xiàn)溢出是一個明顯的問題,但多數(shù)機器都有16-,32-或者64位的精度,因此這個問題可使用比例縮放的方法來解決。算術(shù)編碼器對整個消息只產(chǎn)生一個碼字,這個碼字是在間隔[0,1)中的一個實數(shù),因此譯碼器在接受到表示這個實數(shù)的所有位之前不能進行譯碼。算術(shù)編碼也是一種對錯誤很敏感的編碼方法,如果有一位發(fā)生錯誤就會導(dǎo)致整個消息譯錯。593.1.3常用數(shù)據(jù)壓縮方法的基本原理算術(shù)編碼總結(jié):算術(shù)編碼可以是靜態(tài)的或者自適應(yīng)的。在靜態(tài)算術(shù)編碼中,信源符號的概率是固定的。在自適應(yīng)算術(shù)編碼中,信源符號的概率根據(jù)編碼時符號出現(xiàn)的頻繁程度動態(tài)地進行修改。在編碼期間估算信源符號概率的過程叫做建模。需要開發(fā)動態(tài)算術(shù)編碼的原因是因為事先知道精確的信源概率是很難的,而且是不切實際的。當(dāng)壓縮消息時,我們不能期待一個算術(shù)編碼器獲得最大的效率,所能做的最有效的方法是在編碼過程中估算概率。因此動態(tài)建模就成為確定編碼器壓縮效率的關(guān)鍵。603.1.3常用數(shù)據(jù)壓縮方法的基本原理-有損壓縮預(yù)測編碼是數(shù)據(jù)壓縮理論的一個重要分支預(yù)測編碼是指利用前面的一個或多個信號對下一個信號進行預(yù)測,然后對實際值和預(yù)測值的差進行編碼。DPCM與ADPCM是兩種典型的預(yù)測編碼。線性預(yù)測、非線性預(yù)測理論基礎(chǔ):現(xiàn)代統(tǒng)計學(xué)和控制論目標(biāo):減少數(shù)據(jù)在時間和空間上的相關(guān)性應(yīng)用:時間序列數(shù)據(jù),如語音的分析與合成圖像的編碼與解碼關(guān)鍵技術(shù):預(yù)測器的設(shè)計--線性預(yù)測函數(shù)613.1.3常用數(shù)據(jù)壓縮方法的基本原理差分脈沖編碼調(diào)制DPCM(DifferentialPulseCodeModulation)原理

預(yù)測器

量化器編碼器解碼器

預(yù)測器信道接收端輸出XN’+++XNe’NXNeNe’NXN’++輸入^XN^發(fā)送端+-623.1.3常用數(shù)據(jù)壓縮方法的基本原理符號說明:XN

:為采樣的圖像或聲音數(shù)據(jù)XN

:是XN的預(yù)測值eN:是實際值與預(yù)測值的差值(XN-XN

)eN’

:是eN的量化值XN’

:是引入了量化誤差的XN

。^^633.1.3常用數(shù)據(jù)壓縮方法的基本原理例子:假設(shè)預(yù)測器的預(yù)測值為前一個樣值(即預(yù)測器為單位延遲),量化器不進行量化,系統(tǒng)的輸入為:0、1、2、1、1、2、3、3、4、4、…

…XN

:0、1、2、1、1、2、3、3、4、4…

…XN

:0、0、1、2、1、1、2、3、3、4…

…eN

:0、1、1、-1、0、1、1、0、1、0…

…^量化器預(yù)測器輸入輸出+++-XNeNXN’eN’XN^643.1.3常用數(shù)據(jù)壓縮方法的基本原理預(yù)測器的設(shè)計:預(yù)測器通常設(shè)計成用前面幾個樣值來預(yù)測新樣值,而不是利用整個數(shù)據(jù)信源模型,這是因為模型太復(fù)雜,且是時變的,在大多數(shù)情況下預(yù)測幾乎不能夠?qū)崿F(xiàn)。科爾莫戈羅夫(1941年)、維納(1942年)進行了關(guān)于線性預(yù)測的開創(chuàng)性工作。最小均方預(yù)測誤差為最優(yōu)預(yù)測,即:通常采用的誤差函數(shù)是均方誤差(mse)mse=E[(S0

–S0)2]E:數(shù)學(xué)期望,S0:實際值,S0:預(yù)測值。DPCM的改進ADPCM^^653.1.3常用數(shù)據(jù)壓縮方法的基本原理預(yù)測器的設(shè)計(續(xù)):若線性預(yù)測器用前面的樣值s1、s2、…

…、sn來預(yù)測S0,則預(yù)測值為:S0=a1s1+a2s2+…

…+ansn

(3.1)令E0=S0-S0S0的最佳估計值是能使平方誤差E0的期望值最小的S0。為求出這一最小值,需計算偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)為零,并由協(xié)方差的定義可等到一組聯(lián)立方程。預(yù)測系數(shù)依賴與原始數(shù)據(jù)的統(tǒng)計特性,這對實際使用是不方便的。^^^663.1.3常用數(shù)據(jù)壓縮方法的基本原理

預(yù)測器的設(shè)計(續(xù)):為了簡化預(yù)測器,使DPCM系統(tǒng)能做到實時壓縮,在實際中常常用固定的預(yù)測參數(shù)來代替最佳系數(shù)。如JPEG:選用前一樣值作為下一樣值的預(yù)測值。圖像處理中采用四點預(yù)測:a1=0.702,a2=-0.200,a3=0.437,a4=0.061a1=0.75,a2=-0.5,a3=0.5,a4=0.25(日本人)考慮到硬件實現(xiàn)方便、人的主觀因素673.1.3常用數(shù)據(jù)壓縮方法的基本原理ADPCM:進一步改善量化性能或壓縮數(shù)據(jù)率的方法分類:線性自適應(yīng)預(yù)測、非線性自適應(yīng)預(yù)測自適應(yīng)量化根據(jù)信號分布不均勻的特點,系統(tǒng)具有隨輸入信號的變化而改變量化區(qū)間大小以保持輸入量化器的信號基本均勻的能力。自適應(yīng)預(yù)測預(yù)測參數(shù)仍采用固定的;但此時有多組預(yù)測參數(shù)可供選擇。編碼時具體采用哪組預(yù)測參數(shù)根據(jù)信源的特征來自適應(yīng)的確定。通常將信源數(shù)據(jù)分區(qū)間編碼,編碼時自動地選擇一組預(yù)測參數(shù),使該區(qū)間實際值與預(yù)測值的均方誤差最小。683.1.3常用數(shù)據(jù)壓縮方法的基本原理DPCM和ADPCM通常把樣值壓縮到3~4比特,比PCM用8比特或16比特可減少一半以上空間。MSADPCM預(yù)測系數(shù)表693.1.3常用數(shù)據(jù)壓縮方法的基本原理變換編碼定義:是指先對信號進行某種函數(shù)變換,從一種信號(空間)變換到另一種信號(空間),然后對變換后的信號進行編碼。例如:將時域信號變換到頻域,因為聲音、圖像大部分信號都是低頻信號,在頻域中,信號的能量集中,再進行采樣、編碼可以進一步壓縮數(shù)據(jù)。如傅氏變換:將時間函數(shù)變換成頻率函數(shù)703.1.3常用數(shù)據(jù)壓縮方法的基本原理變換編碼的原理框圖:數(shù)據(jù)壓縮三步驟:變換、變換域采樣、量化采樣量化編碼變換解碼器反變換信道或存儲輸入輸出-GAUA’填零G’U`713.1.3常用數(shù)據(jù)壓縮方法的基本原理離散變換:可以用矩陣表示。設(shè)信源序列為一個n行k列矩陣X(例如圖像掃描結(jié)果);假設(shè)采用一維變換,變換后輸出序列為Y;變換矩陣為T。則有:Y=TX(信源端)如果取正交變換,則有:X=T-1Y(接收端)T:的尋找,協(xié)方差矩陣!723.1.3常用數(shù)據(jù)壓縮方法的基本原理最佳的正交變換:當(dāng)經(jīng)過正交變換后的協(xié)方差矩陣為一對角矩陣,且具有最小均方誤差時,該變換稱最佳變換,也稱Karhunen-Loeve變換。變換編碼的關(guān)鍵在于:在已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使變換后的協(xié)方差矩陣滿足或接近為一對角矩陣。K-L(Karhunen-Loeve)變換是最佳變換,在數(shù)據(jù)壓縮技術(shù)中占有重要的地位。采用這種變換,對圖像信號而言,變換后2b/樣值的質(zhì)量可與7b/樣值的質(zhì)量相比擬。變換矩陣由信源特征確定,不是恒定形式。計算量大、實用性不太高733.1.3常用數(shù)據(jù)壓縮方法的基本原理次最佳的正交變換:DFT變換:變換后的協(xié)方差矩陣接近對角矩陣。對不同信源有固定的正交變換矩陣。簡便、易于實現(xiàn)運算次數(shù)太多,為了加快速度可使用快速傅立葉變換(FFT),但它需要復(fù)數(shù)運算。所以使用不方便,速度不理想。DCT:是DFT取實部,有快速算法,對于平穩(wěn)過度的信源來說,DCT的性能十分接近KLT,所以DCT在圖像壓縮中得到廣泛應(yīng)用743.1.3常用數(shù)據(jù)壓縮方法的基本原理

分析-合成編碼通過對原始數(shù)據(jù)的分析,將其分解為一系列更適合于表示的基元或者從中提取出更有本質(zhì)意義的參數(shù),編碼僅對這些基本單元或者特征參數(shù)進行,而解碼時則借助于一定的規(guī)則或者模型,按照一定的算法將這些基元或者參數(shù)再綜合成原始數(shù)據(jù)的一個逼近。(1)矢量量化(2)小波變換編碼(3)分形圖像編碼(4)子帶編碼753.1.3常用數(shù)據(jù)壓縮方法的基本原理(1)矢量量化量化編碼按照一次量化的碼元個數(shù),可分為標(biāo)量量化和矢量量化兩種。對數(shù)字化后的數(shù)據(jù)或PCM數(shù)據(jù)(樣本值)一個一個地進行量化,稱為標(biāo)量量化。標(biāo)量量化中可在隨機變量X出現(xiàn)概率比較高的間隔內(nèi),選擇較小的判決間隔,而在其他區(qū)域內(nèi)選擇較大的間隔,這樣可以以較小的量化均方誤差進行量化。將這些數(shù)據(jù)分組,每組K維矢量,再以矢量為單元逐個進行量化,稱其為矢量量化?;谡Z義編碼,其基本思想是采用非線性量化器,即對空間頻率及能量分布較大的系數(shù)分配較多比特數(shù);反之分配較少的比特數(shù),從而達到壓縮的目的。763.1.3常用數(shù)據(jù)壓縮方法的基本原理(2)小波變換編碼小波變換是一個線性變換,能夠?qū)⒁粋€信號分解成對空間和時間、頻率的獨立貢獻,同時又不失原信號所包含的信息。經(jīng)過小波變換后的圖像能量很集中,便于對不同的分量作不同的處理,達到較高的壓縮比。(3)分形圖像編碼分形編碼是一種模型編碼,它利用模型的方法,對需要傳輸?shù)膱D像進行參數(shù)估測。(4)子帶編碼利用帶通濾波器組把信號頻帶分割成若干子頻帶,然后分別處理。773.1.4音頻壓縮編碼的基本方法通常把已有的話音編譯碼器分成三種類型:波形編譯碼器(waveformcodecs),音源編譯碼器(sourcecodecs)和混合編譯碼器(hybridcodecs)。一般來說:波形編譯碼器的話音質(zhì)量高,但數(shù)據(jù)率也很高;音源編譯碼器的數(shù)據(jù)率很低,產(chǎn)生的合成話音的音質(zhì)有待提高;混合編譯碼器使用音源編譯碼技術(shù)和波形編譯碼技術(shù),數(shù)據(jù)率和音質(zhì)介于它們之間。78圖三種編譯碼器的話音質(zhì)量和數(shù)據(jù)率的關(guān)系793.1.4音頻壓縮編碼的基本方法無失真壓縮音頻壓縮方法有失真壓縮Huffman編碼行程編碼波形編碼參數(shù)編碼混合編碼全頻帶編碼PCMDPCMADPCM子帶編碼自適應(yīng)變換編碼ATC

心理學(xué)模型矢量量化線性預(yù)測LPC矢量和激勵線性預(yù)測VSELP多脈沖線性預(yù)測MP-LPC碼本激勵線性預(yù)測CELP803.1.4音頻壓縮編碼的基本方法波形編譯碼波形編譯碼的想法是,不利用生成話音信號的任何知識而企圖產(chǎn)生一種重構(gòu)信號,它的波形與原始話音波形盡可能地一致。這種編譯碼器的復(fù)雜程度比較低,數(shù)據(jù)速率在16kbps以上,質(zhì)量相當(dāng)高。低于這個數(shù)據(jù)速率時,音質(zhì)急劇下降。813.1.4音頻壓縮編碼的基本方法聲音數(shù)字化有兩個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。823.1.4音頻壓縮編碼的基本方法均勻量化如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。833.1.4音頻壓縮編碼的基本方法非均勻量化對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。這樣就可以在滿足精度要求的情況下用較少的位數(shù)來表示。聲音數(shù)據(jù)還原時,采用相同的規(guī)則。843.1.4音頻壓縮編碼的基本方法子帶編碼SBC(subbandcoding)

:首先使用一組帶通濾波器BPF(band-passfilter)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案編碼。在信道上傳送時,將每個子帶的代碼復(fù)合起來。在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。853.1.4音頻壓縮編碼的基本方法采用對每個子帶分別編碼的好處有:第一,對每個子帶信號分別進行自適應(yīng)控制,量化階的大小(quantizationstep)可以按照每個子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的子帶用大的量化階去量化,以減少總的量化噪聲。第二,可根據(jù)每個子帶信號在感覺上的重要性,對每個子帶分配不同的比特數(shù),用來表示每個樣本值。例如,在低頻子帶中,為了保護音調(diào)和共振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級數(shù),即分配較多的比特數(shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對它分配較少的比特數(shù)。863.1.4音頻壓縮編碼的基本方法音源編譯碼的思想是:企圖從話音波形信號中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。針對話音的音源編譯碼器叫做聲碼器(vocoder)。在話音生成模型中,聲道被等效成一個時變?yōu)V波器(time-varyingfilter),它由白噪聲—無聲話音段激勵,或者由脈沖串——有聲話音段激勵。因此需要傳送給解碼器的信息就是濾波器的規(guī)格、發(fā)聲或者不發(fā)聲的標(biāo)志和有聲話音的音節(jié)周期,并且每隔10~20ms更新一次。這種聲碼器的數(shù)據(jù)率在2.4kbps左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠(yuǎn)遠(yuǎn)低于自然話音。增加數(shù)據(jù)率對提高合成話音的質(zhì)量無濟于事,這是因為受到話音生成模型的限制。盡管它的音質(zhì)比較低,但它的保密性能好,因此這種編譯碼器一直用在軍事上。873.1.4音頻壓縮編碼的基本方法線性預(yù)測編碼LPC(linearpredictivecoding)是一種非常重要的編碼方法。從原理上講,LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼,這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù),通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型。時變線性濾波器既當(dāng)作預(yù)測器使用,又當(dāng)作合成器使用。分析話音波形時,主要是當(dāng)作預(yù)測器使用,合成話音時當(dāng)作話音生成模型使用。隨著話音波形的變化,周期性地使模型的參數(shù)和激勵條件適合新的要求。883.1.4音頻壓縮編碼的基本方法線性預(yù)測器是使用過去的P個樣本值來預(yù)測當(dāng)前時刻的采樣值x(n)。預(yù)測值可以用過去P個樣本值的線性組合來表示:線性預(yù)測誤差為在給定的時間范圍里,如[n0,n1],使e(n)的平方和即β=[e(n)]2為最小,這樣可使預(yù)測得到的樣本值更精確。通過求解偏微分方程,可找到系數(shù)ai的值。899091923.1.4音頻壓縮編碼的基本方法混合編譯碼企圖填補波形編譯碼和音源編譯碼之間的間隔。波形編譯碼器雖然可提供高質(zhì)量的話音,但數(shù)據(jù)率低于16kbps的情況下,在技術(shù)上還沒有很好地解決音質(zhì)的問題;聲碼器的數(shù)據(jù)率雖然可降到2.4kbps甚至更低,但它的音質(zhì)根本不能與自然話音相提并論。為了得到音質(zhì)高而數(shù)據(jù)率又低的編譯碼器,歷史上出現(xiàn)過很多形式的混合編譯碼器,但最成功并且普遍使用的編譯碼器是時域合成-分析器。933.1.4音頻壓縮編碼的基本方法思想:這種編譯碼器使用的聲道線性預(yù)測濾波器模型與線性預(yù)測編碼LPC(linearpredictivecoding)使用的模型相同,不使用兩個狀態(tài)(有聲/無聲)的模型來尋找濾波器的輸入激勵信號,而是企圖尋找這樣一種激勵信號,使用這種信號激勵產(chǎn)生的波形盡可能接近于原始話音的波形。AbS編譯碼器由Atal和Remde在1982年提出,并命名為多脈沖激勵MPE(multi-pulseexcited)編譯碼器,在此基礎(chǔ)上隨后出現(xiàn)的是等間隔脈沖激勵RPE(regular-pulseexcited)編譯碼器、碼激勵線性預(yù)測CELP(codeexcitedlinearpredictive)編譯碼器和混合激勵線性預(yù)測MELP(mixedexcitationlinearprediction)等編譯碼器。94圖Abs編碼器(上)和譯碼器(下)953.1.4音頻壓縮編碼的基本方法AbS編譯碼器把輸入話音信號分成許多幀(frames),一般來說,每幀的長度為20ms。合成濾波器的參數(shù)按幀計算,然后確定濾波器的激勵參數(shù)。AbS編碼器是一個負(fù)反饋系統(tǒng),通過調(diào)節(jié)激勵信號u(n)可使話音輸入信號s(n)與重構(gòu)的話音信號之差為最小,也就是重構(gòu)的話音與實際的話音最接近。這就是說,編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號,這也是“合成-分析編碼器”名稱的來由。MPE,RPE和CELP編譯碼器之間的差別在于所使用的激勵信號的表示方法。963.1.4音頻壓縮編碼的基本方法在MPE中,對每幀話音所用的激勵信號u(n)是固定數(shù)目的脈沖,在一幀中脈沖的位置和幅度必須由編碼器來確定,這在理論上可以找到很好的值,但實際上不太可能,因為計算太復(fù)雜。因此在實際上就使用次佳方法,一般來說,每5ms使用4個脈沖,在數(shù)據(jù)率為10kbps時可以獲得好的重構(gòu)話音。RPE像MPE那樣,編譯碼器使用固定間隔的脈沖,于是編碼器就只需要確定第一個激勵脈沖的位置和所有其他脈沖的幅度,所需要的脈沖位置信息也就可以減少,而脈沖的數(shù)目則比MPE使用的數(shù)目多。數(shù)據(jù)率在10kbps左右時,每5ms可使用10個脈沖,比MPE多6個,產(chǎn)生比MPE音質(zhì)高一些的重構(gòu)話音。973.1.4音頻壓縮編碼的基本方法然而RPE仍然顯得比較復(fù)雜,因此歐洲的GSM移動電話系統(tǒng)使用了一個帶長期預(yù)測的簡化了的RPE編譯碼器,數(shù)據(jù)率為13kbps。雖然MPE和RPE編譯碼器在10kbps左右的數(shù)據(jù)率下可提供好的音質(zhì),但數(shù)據(jù)率低于10kbps情況下提提供的音質(zhì)還不能接受,這是因為它們需要提供大量有關(guān)激勵脈沖的位置和幅度信息。對要求音質(zhì)好而數(shù)據(jù)率又低于10kbps的編譯碼器,現(xiàn)在普遍使用的算法是1985年由Schroeder和Atal提出的CELP算法。與MPE和RPE的不同之處是,CELP使用的激勵信號是量化矢量。激勵信號由一個矢量量化大碼簿的表項給出,還有一個增益項用來擴展它的功率。983.1.4音頻壓縮編碼的基本方法典型的碼簿索引有10位,就是有1024個表項的碼簿,增益用5位表示。因此激勵信號的位數(shù)可以減少到15位,這與GSMRPE編譯碼器中使用的47位相比減少了32位。原始CELP編譯碼器的計算量太大,難以實時執(zhí)行。1985年開始,在簡化碼簿結(jié)構(gòu)方面做了大量的工作,用芯片提高執(zhí)行速度方面也取得了很大的進展,因此現(xiàn)在在低成本的DSP上實時執(zhí)行CELP算法相對容易了,在CELP基礎(chǔ)上制定了好幾個重要的話音編碼標(biāo)準(zhǔn),例如美國的“DepartmentofDefence(DoD)4.8kbpscodec”標(biāo)準(zhǔn)和CCITT的“l(fā)ow-delay16kbpscodec”標(biāo)準(zhǔn)。CELP編譯碼器在話音通信中取得了很大成功,話音的速率介于4.8kbps和16kbps之間。993.1.5圖像和視頻壓縮編碼的基本方法圖像和視頻壓縮方法無失真壓縮有失真壓縮Huffman編碼行程編碼算術(shù)編碼LZW編碼預(yù)測編碼運動補償變換編碼DCT變換小波變換子帶編碼模型編碼分形編碼基于重要性濾波子采樣矢量量化混合編碼JPEGMPEGH.2611003.2音頻壓縮標(biāo)準(zhǔn)1013.2音頻壓縮標(biāo)準(zhǔn)音頻頻率范圍低頻聲音(Infra-sound):0Hz-20Hz人類聽覺頻率范圍的聲音:20Hz-20kHz高頻(Ultrasound):20kHz-1GHz超聲波(Hypersound):1GHz-10THz不同音頻的帶寬電話語音:200Hz-3.4kHz調(diào)幅廣播:50Hz-7kHz調(diào)頻廣播:20Hz-15kHz寬帶音響:20Hz-20kHz1023.2.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)ITU-TS建議的語音壓縮的標(biāo)準(zhǔn)G.711:采用PCM編碼,采樣速率為8kHz,量化位數(shù)為8bit,對應(yīng)的比特流速率為64kbit/s。對于采樣頻率為8kHz,樣本精度為13比特、14比特或者16比特的輸入信號,使用率壓擴編碼或者使用A率壓擴編碼,經(jīng)過PCM編碼器之后每個樣本的精度為8比特,輸出的數(shù)據(jù)率為64kbps。這個數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)G.721:ITU建議的G.721將64Kbps的比特流轉(zhuǎn)換為32Kbps的流,它是基于ADPCM技術(shù)。每個數(shù)值差分用4位編碼,其采樣率為8kHz。G.721ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出,該輸出是用4位表示的差分信號,它的采樣率仍然是8kHz,它的數(shù)據(jù)率為32kbps1033.2.1電話質(zhì)量的語音壓縮標(biāo)準(zhǔn)G.723:G.723是一種以24Kbps運行的基于ADPCM的有損耗壓縮標(biāo)準(zhǔn)。其音質(zhì)不如非壓縮的G.711PCM標(biāo)準(zhǔn)以及基于SB—ADPCM的G.722標(biāo)準(zhǔn)。G.723.1和G.723.2用于H.324標(biāo)準(zhǔn)。G.728:它的比特率為16Kbps,帶寬限于3.4kHz。其音質(zhì)比G.711或G.722差得多。它基于一種稱為低延遲代碼激勵線性預(yù)測(LD—CELP)的向量量化技術(shù)。1043.2.2調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量:50Hz-7kHz,稱“7kHz音頻信號”。G.722:G.722基于子帶ADPCM技術(shù)(SB—ADPCM),它是將現(xiàn)有的帶寬分成兩個獨立的子帶信道分別采用差分脈碼調(diào)制算法。G.722壓縮信號的帶寬范圍為50Hz到7kHz,而G.711僅限于3.4kHz。其比特率為48、56、64Kbps,在標(biāo)準(zhǔn)模式下,采樣速率是16KHz,幅度深度為14比特。低頻帶寬略大于常規(guī)的電話話音帶寬。對高子帶分配2位表示每個樣本值,而低子帶分配6位。因為64kbps的G.722標(biāo)準(zhǔn)主要還是針對寬帶話音,其次才是音樂。105圖G.7227kHz音頻信號64kbps數(shù)據(jù)率的編譯碼方塊圖1063.2.3高保真立體聲音頻壓縮標(biāo)準(zhǔn)高質(zhì)量的聲音信號頻率范圍:50Hz-20kHz目前國際上比較成熟的高質(zhì)量聲音壓縮標(biāo)準(zhǔn)為MPEG音頻。MPEG聲音編碼分為:層-l、層-2、層-3。隨著層數(shù)的增加算法的復(fù)雜度也增大。所有3層都分級兼容。層-3工作的譯碼器也可對層-2或?qū)樱璴的碼流進行譯碼。所有3層都運用同一原理:變換編碼和子帶編碼。頻譜被分為32個子帶。應(yīng)用快速博里葉變換來表示高頻域中的信號。應(yīng)用心理聲學(xué)模式來變換信號以估計剛能引起注意的噪音級。1073.3圖像壓縮標(biāo)準(zhǔn)1083.3.1JPEG壓縮標(biāo)準(zhǔn)JPEG(JointPhotographicExpertsGroup)是一個由ISO和IEC兩個組織機構(gòu)聯(lián)合組成的一個專家組,負(fù)責(zé)制定靜態(tài)的數(shù)字圖象數(shù)據(jù)壓縮編碼標(biāo)準(zhǔn),因此又稱為JPEG標(biāo)準(zhǔn)。JPEG是一個適用范圍很廣的靜態(tài)圖象數(shù)據(jù)壓縮標(biāo)準(zhǔn),既可用于灰度圖象又可用于彩色圖象。JPEG專家組開發(fā)了兩種基本的壓縮算法,一種是采用以DCT(DiscreteCosineTransform)為基礎(chǔ)的有損壓縮算法;另一種是采用以預(yù)測技術(shù)為基礎(chǔ)的無損壓縮算法。使用有損壓縮算法時,在壓縮比為25:1的情況下,壓縮后還原得到的圖象與原始圖象相比較,非圖象專家難于找出它們之間的區(qū)別,因此得到了廣泛的應(yīng)用。為了在保證圖象質(zhì)量的前提下進一步提高壓縮比,JPEG專家組制定了JPEG2000(簡稱JP2000)標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)中將采用小波變換(wavelet)算法。1093.3.1JPEG壓縮標(biāo)準(zhǔn)JPEG是一種混合編碼標(biāo)準(zhǔn)編碼步驟:DCT,量化,行程編碼,霍夫曼編碼等四種工作模式無損預(yù)測編碼算法無損模式的壓縮比為2:1基于DCT的有損編碼算法有損模式的壓縮比為20:1或25:1基于DCT的增強系統(tǒng)基于DCT的分層操作方式1103.3.1JPEG壓縮標(biāo)準(zhǔn)無損預(yù)測編碼算法1113.3.1JPEG壓縮標(biāo)準(zhǔn)JPEG有損壓縮利用了人的視覺特性,使用量化和無損壓縮編碼相結(jié)合來去掉視覺的冗余信息和數(shù)據(jù)本身的冗余信息。壓縮編碼大致分成三個步驟:使用正向離散余弦變換FDCT(forwarddiscretecosinetransform)把空間域表示的圖變換頻率域表示的圖。使用加權(quán)函數(shù)對DCT系數(shù)進行量化,這個加權(quán)函數(shù)對于人的視覺系統(tǒng)是最佳的。使用霍夫曼可變字長編碼器對量化系數(shù)進行編碼。解壓縮的過程與壓縮編碼過程正好相反。JPEG算法與彩色空間無關(guān)。因此“RGB到Y(jié)UV變換”和“YUV到RGB變換”不包含在JPEG算法中。JPEG算法處理的彩色圖象是單獨的彩色分量圖象,因此它可以壓縮來自不同彩色空間的數(shù)據(jù),如RGB,YCbCr和CMYK。1123.3.1JPEG壓縮標(biāo)準(zhǔn)色度抽樣在數(shù)字圖像處理領(lǐng)域中,色度抽樣是指在表示圖像時使用較亮度信息低的分辨率來表示色彩(色度)信息。當(dāng)對模擬分量視頻或者YUV信號進行數(shù)字抽樣時,一般會用到色度抽樣。由于人眼對色度的敏感度不及對亮度的敏感度,圖像的色度分量不需要有和亮度分量相同的清晰度,所以許多視頻系統(tǒng)在色差通道上進行較低(相對亮度通道)清晰度(例如,抽樣頻率)的抽樣。這樣在不明顯降低畫面質(zhì)量的同時降低了視頻信號的總帶寬。因抽樣而丟失的色度值用內(nèi)插值,或者前一色度值來替代。113視頻系統(tǒng)的抽樣率通常用一個三分比值表示。第一個值是亮度(Y)分量樣本的數(shù)量,后兩個值是兩個色彩(“色度”)分量樣本的數(shù)量:U/Cb分量在前,V/Cr分量在后。在比較圖像質(zhì)量時,這三個值之間的比值才是重要的,所以4:4:4可以簡化為1:1:1;但是習(xí)慣上亮度樣本的數(shù)量值總為4,其他兩個值依此類推。有時抽樣率為四分比值,如4:2:2:4。這時第四個值”4”是調(diào)制通道的抽樣頻率比值。事實上,因為在調(diào)制應(yīng)用中非常需要高質(zhì)量圖像,所以這個值在任何情況下都為4。3.3.1JPEG壓縮標(biāo)準(zhǔn)1143.3.1JPEG壓縮標(biāo)準(zhǔn)4:4:4三個通道的抽樣率相同,因此在生成的圖像里,每個象素的三個分量信息完整(每個分量通常8比特或10比特),經(jīng)過8比特量化之后,未經(jīng)壓縮的每個象素3個字節(jié)。碼流Y0U0V0Y1U1V1Y2U2V2Y3U3V3將被映射為下面的四個像素:[Y0U0V0][Y1U1V1][Y2U2V2][Y3U3V3]這是最好的色度抽樣比率(實際上它完整的表示了原先的色度信息),作為一種中間格式,它被用在高端的底片掃描儀和影片后期處理上。1153.3.1JPEG壓縮標(biāo)準(zhǔn)4:2:2每個色差通道的抽樣率是亮度通道的一半,所以水平方向的色度抽樣率只是4:4:4的一半。對非壓縮的8比特量化的視頻來說,每個由兩個水平方向相鄰的像素組成的宏像素需要占用4字節(jié)內(nèi)存。碼流Y0U0Y1V1Y2U2Y3V3將被映射為下面的四個像素:[Y0U0V1][Y1U0V1][Y2U2V3][Y3U2V3]4:2:2仍舊是質(zhì)量相當(dāng)高的色度抽樣方法,大多數(shù)高端數(shù)字視頻格式采用這一比率。1163.3.1JPEG壓縮標(biāo)準(zhǔn)4:1:14:1:1的色度抽樣,是在水平方向上對色度進行4:1抽樣。對于低端用戶和消費類產(chǎn)品這仍然是可以接受的。對非壓縮的8比特量化的視頻來說,每個由4個水平方向相鄰的像素組成的宏像素需要占用6字節(jié)內(nèi)存。碼流Y0U0Y1Y2V2Y3將被映射為下面的四個像素:[Y0U0V2][Y1U0V2][Y2U0V2][Y3U0V2]1173.3.1JPEG壓縮標(biāo)準(zhǔn)4:2:04:2:0并不意味著只有Y,Cb而沒有Cr分量。它指的是對每行掃描線來說,只有一種色度分量以2:1的抽樣率存儲。相鄰的掃描行存儲不同的色度分量,也就是說,如果一行是4:2:0的話,下一行就是4:0:2,再下一行是4:2:0...以此類推。對每個色度分量來說,水平方向和豎直方向的抽樣率都是2:1,所以可以說色度的抽樣率是4:1。PAL制式和SECAM制式的色彩系統(tǒng)特別適合于用這種方式來存儲。絕大多數(shù)視頻編解碼器都采用這種格式作為標(biāo)準(zhǔn)的輸入格式。對非壓縮的8比特量化的視頻來說,每個由2x2個2行2列相鄰的像素組成的宏像素需要占用6字節(jié)內(nèi)存。1184:2:0碼流Yo0Uo0Yo1Yo2Uo2Yo3Ye0Ve0Ye1Ye2Ve2Ye3將被映射為下面的兩行各四個像素:[Yo0Uo0Ve0][Yo1Uo0Ve0][Yo2Uo2Ve2][Yo3Uo2Ve2][Ye0Uo0Ve0][Ye1Uo0Ve0][Ye2Uo2Ve2][Ye3Uo2Ve2]使用這種方法的質(zhì)量很接近于4:1:11193.3.1JPEG壓縮標(biāo)準(zhǔn)(a)基于DCT的JPEG壓縮編碼步驟(b)基于DCT的JPEG解壓縮步驟1203.3.1JPEG壓縮標(biāo)準(zhǔn)JPEG壓縮編碼算法的主要計算步驟如下:FDCT變換。量化(quantization)。使用差分脈沖編碼調(diào)制DPCM(differentialpulsecodemodulation)對直流系數(shù)(DC)進行編碼。使用行程長度編碼RLE(run-lengthencoding)對交流系數(shù)(AC)進行編碼。熵編碼(entropycoding)。1213.3.1JPEG壓縮標(biāo)準(zhǔn)塊準(zhǔn)備將一幀幀圖像分成8×8的數(shù)據(jù)塊。假設(shè)彩色圖像由Y、U和V三種分量組成,且色度分解為4:2:0(4:1:1)對于640×480的一副圖像,亮度分量Y是一個640×480的數(shù)值矩陣;色差分量是一個320×240的數(shù)值矩陣為了滿足DCT過程的要求,塊準(zhǔn)備必須劃分出4800個亮度塊和兩份1200個色差塊。將原始數(shù)據(jù)從無符號整數(shù)變成有符號整數(shù)。若采樣精度為P位,采樣數(shù)據(jù)范圍在[0,2p-1]內(nèi),則變成在范圍[-2p-1,2p-1-1]內(nèi)。1223.3.1JPEG壓縮標(biāo)準(zhǔn)離散余弦變換DCT對每個單獨的彩色圖象分量,把整個分量圖象分成8×8的圖象塊DCT變換使用下式計算逆變換上面兩式中(u,v=0,1,…,7)

經(jīng)DCT變換之后,是直流系數(shù),其他為交流系數(shù)。當(dāng)其他1233.3.1JPEG壓縮標(biāo)準(zhǔn)量化是對經(jīng)過FDCT變換后的頻率系數(shù)進行量化。量化的目的是減小非“0”系數(shù)的幅度以及增加“0”值系數(shù)的數(shù)目。量化是圖象質(zhì)量下降的最主要原因。JPEG算法使用均勻量化器進行量化。因為人眼對亮度信號比對色差信號更敏感,因此使用了兩種量化表。量化步距是按照系數(shù)所在的位置和每種顏色分量的色調(diào)值來確定。1243.3.1JPEG壓縮標(biāo)準(zhǔn)JPEG色度參考量化表JPEG亮度參考量化表1253.3.1JPEG壓縮標(biāo)準(zhǔn)源圖像數(shù)據(jù)FDCT系數(shù)1263.3.1JPEG壓縮標(biāo)準(zhǔn)亮度量化表量化后的系數(shù)1273.3.1JPEG壓縮標(biāo)準(zhǔn)逆量化后的系數(shù)重構(gòu)圖像數(shù)據(jù)1283.3.1JPEG壓縮標(biāo)準(zhǔn)FDCT系數(shù)逆量化后的系數(shù)1293.3.1JPEG壓縮標(biāo)準(zhǔn)源圖像數(shù)據(jù)重構(gòu)圖像數(shù)據(jù)1303.3.1JPEG壓縮標(biāo)準(zhǔn)重構(gòu)圖像與源圖像數(shù)據(jù)絕對誤差重構(gòu)圖像與源圖像數(shù)據(jù)相對誤差最大正誤差最大負(fù)誤差平均誤差1.17%1313.3.1JPEG壓縮標(biāo)準(zhǔn)DCT系數(shù)的編碼直流系數(shù)相鄰的8×8塊之間的DC系數(shù)有強相關(guān)性,JPEG對量化后的DC系數(shù)采用DPCM編碼,即對DIFF=DCi–DCi-1編碼。交流系數(shù)對于剩下的63個交流系數(shù)采用行程編碼(RLE)。從左上方AC01開始沿對角線方向“Z”字形掃描直到AC77掃描結(jié)束,這樣可增加行程中連續(xù)0的個數(shù)。1323.3.1JPEG壓縮標(biāo)準(zhǔn)AC系數(shù)行程編碼碼字1333.3.1JPEG壓縮標(biāo)準(zhǔn)熵編碼為了進一步壓縮數(shù)據(jù),需要對DC碼和AC行程編碼的碼字再作基于統(tǒng)計特性的熵編碼。Huffman編碼自適應(yīng)二進制算術(shù)編碼熵編碼分兩步進行把DC碼和AC行程碼字轉(zhuǎn)換成中間符號序列給這些符號序列賦以變長碼字熵編碼的中間格式表示由兩個符號組成符號1 (行程,尺寸)符號2 (幅值)1343.3.1JPEG壓縮標(biāo)準(zhǔn)熵編碼的中間格式表示符號1的第一個信息參數(shù)“行程”,表示前后兩個非零AC系數(shù)之間連續(xù)零的個數(shù);第二個信息參數(shù)“尺寸”是后一個非零AC系數(shù)幅值編碼所需的比特數(shù)。一個基本符號1可表示的行程范圍為1——15,當(dāng)兩個非零AC系數(shù)之間連續(xù)零的個數(shù)超過15時,用增加擴展符號1,“(15,0)”的個數(shù)來擴充。符號2中的幅值用以表示非零AC系數(shù)的數(shù)值,其范圍為[-210,210-1]對于DC系數(shù)而言,符號1只代表尺寸信息,即DC差值的幅值編碼所需的比特數(shù),符號2表示差值的幅值,其動態(tài)范圍為[-211,211-1]1353.3.1JPEG壓縮標(biāo)準(zhǔn)對DC系數(shù)和AC系數(shù)中的符號1采用Huffman表中的變長碼(VLC)進行編碼。Huffman變長碼表必須作為JPEG編碼器的輸入。數(shù)據(jù)流中的Huffman表的表示格式是一個間接的說明,在解碼時,解碼器利用這一間接說明重構(gòu)真正的Huffman表。JPEG解碼器能夠同時存儲最多4套不同的熵編碼表。亮度DC系數(shù)表色度DC系數(shù)表亮度AC系數(shù)表色度AC系數(shù)表1363.3.1JPEG壓縮標(biāo)準(zhǔn)亮度DC系數(shù)表用16個字節(jié)說明亮度DC系數(shù)表的碼字長度表:00010501010101010100000000000000緊接著的一組值(說明亮度表的分類):000102030405060708090A0B1373.3.1JPEG壓縮標(biāo)準(zhǔn)基于DCT的增強系統(tǒng)在量化器的輸出與熵編碼的輸入之間,增加一個足以存儲量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論