多媒體數(shù)據(jù)壓縮編碼技術(shù)_第1頁
多媒體數(shù)據(jù)壓縮編碼技術(shù)_第2頁
多媒體數(shù)據(jù)壓縮編碼技術(shù)_第3頁
多媒體數(shù)據(jù)壓縮編碼技術(shù)_第4頁
多媒體數(shù)據(jù)壓縮編碼技術(shù)_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多媒體數(shù)據(jù)壓縮編碼技術(shù)第1頁,課件共81頁,創(chuàng)作于2023年2月多媒體數(shù)據(jù)壓縮編碼的重要性隨著計算機技術(shù)的高度發(fā)展以及通信、計算機和大眾傳媒三大技術(shù)的相互融合,計算機已經(jīng)不再局限于數(shù)值計算、文字處理的范疇,而成為處理圖形、圖像、視頻、音頻等多種信息的工具。但數(shù)字化后的聲音、圖像、視頻和音頻等多媒體數(shù)據(jù)是非常龐大的。例如:一頁在A4(216mm×300mm)紙上的照片,以300dpi(12像素/mm)采樣,每個像素用24位真彩色信號表示,其數(shù)據(jù)量約為25MB/頁,650MB的CD-ROM只可放14頁;雙聲道立體聲光盤,采樣率是44.1kHz,采樣精度16位,一秒鐘數(shù)據(jù)量是44.1×16×2/8=176KB/s,一張CD只能存放約1小時的聲音。

第2頁,課件共81頁,創(chuàng)作于2023年2月多媒體數(shù)據(jù)壓縮編碼的重要性對于如此巨大的多媒體數(shù)據(jù),如果不經(jīng)過壓縮,不僅超出了計算機的存儲和處理能力,而且在現(xiàn)在的通信信道的傳輸速率下,是無法完成大量多媒體信息的傳輸?shù)?,多媒體數(shù)據(jù)的高速傳輸和儲藏所需要的巨大容量已經(jīng)成為多媒體數(shù)據(jù)通信技術(shù)的最大障礙。因此,為了存儲、處理和傳輸這些數(shù)據(jù),必須進行壓縮。第3頁,課件共81頁,創(chuàng)作于2023年2月多媒體數(shù)據(jù)壓縮編碼的重要性多媒體數(shù)據(jù)之所以能夠進行壓縮是因為原始數(shù)據(jù)是高度相關(guān)的,存在很大的數(shù)據(jù)冗余。多媒體數(shù)據(jù)所包含的冗余信息一般有以下幾種:(1)統(tǒng)計冗余。(2)信息熵冗余。(3)結(jié)構(gòu)冗余。

(4)知識冗余。

(5)視覺冗余。

第4頁,課件共81頁,創(chuàng)作于2023年2月統(tǒng)計冗余圖像數(shù)據(jù)存在大量的統(tǒng)計特征的重復,這種重復包括靜態(tài)單幀圖像數(shù)據(jù)在空間上的冗余和音頻、視頻數(shù)據(jù)在時間上的冗余。

在動態(tài)圖像序列中,前后兩幀圖像之間具有較大的相關(guān)性,表現(xiàn)出幀與幀之間的重復,因而存在時間冗余。

第5頁,課件共81頁,創(chuàng)作于2023年2月信息熵冗余

信息熵定義為一組數(shù)據(jù)所表示的信息量,即

式中,E為信息熵,N為數(shù)據(jù)的種類(或稱碼元)個數(shù),為第i個碼元出現(xiàn)的概率。一組數(shù)據(jù)的數(shù)據(jù)量顯然等于各記錄碼元的二進制位數(shù)(即編碼長度)與該碼元出現(xiàn)的概率乘積之和,即

式中,D為數(shù)據(jù)量,為第i個碼元的二進制位數(shù)。一般取(如ASCII編碼把所有碼元都編碼為7比特),這樣得到的D必然大于E。這種因碼元編碼長度的不經(jīng)濟帶來的冗余稱為信息熵冗余或編碼冗余。

第6頁,課件共81頁,創(chuàng)作于2023年2月信息熵冗余圖26個英文字母相對頻率第7頁,課件共81頁,創(chuàng)作于2023年2月結(jié)構(gòu)冗余

有些圖像從大面積上或整體上看存在著重復出現(xiàn)的相同或詳盡的紋理結(jié)構(gòu),例如布紋圖像和草席圖像,被稱為結(jié)構(gòu)冗余。

第8頁,課件共81頁,創(chuàng)作于2023年2月知識冗余許多圖像的理解與圖像所表現(xiàn)內(nèi)容的基礎(chǔ)知識(鮮艷或背景知識)有相當大的相關(guān)性,從這種知識出發(fā)可以歸納出圖像的某種規(guī)律性變化,這類冗余稱為知識冗余。知識冗余的一個典型例子是對人像的理解,如鼻子上方有眼睛、鼻子又在嘴的上方等。第9頁,課件共81頁,創(chuàng)作于2023年2月視覺冗余人類的視覺系統(tǒng)實際上只在一定程度上對圖像的變化產(chǎn)生敏感,即圖像數(shù)據(jù)中存在著大量人類視覺覺察不到的細節(jié)。事實上,人類視覺系統(tǒng)的一般分辨率為64灰度級,而一般圖像量化采用的是256灰度級,這類冗余稱為視覺冗余。第10頁,課件共81頁,創(chuàng)作于2023年2月多媒體數(shù)據(jù)壓縮方法的分類多媒體數(shù)據(jù)壓縮方法有許多種,從不同的角度出發(fā)有不同的分類方法。1.從信息論角度出發(fā)可分為兩大類

(1)冗余度壓縮方法。也稱無損壓縮、信息保持編碼或熵編碼。(2)信息量壓縮方法。也稱有損壓縮、失真度編碼或熵壓縮編碼。

2.按壓縮算法分類現(xiàn)有多媒體數(shù)據(jù)的壓縮編碼方案可分為統(tǒng)計編碼、預測編碼、脈沖編碼調(diào)制、變換編碼、子帶編碼、分形編碼和小波編碼等。第11頁,課件共81頁,創(chuàng)作于2023年2月評價多媒體數(shù)據(jù)壓縮方法的指標評價多媒體數(shù)據(jù)壓縮方法有3個主要指標:1.壓縮比2.壓縮質(zhì)量(失真度)3.壓縮與解壓的速度

第12頁,課件共81頁,創(chuàng)作于2023年2月壓縮比并不是一個絕對的指標將16M色的真彩圖像(圖A)轉(zhuǎn)變?yōu)?56色(圖B),數(shù)據(jù)量減少了約3倍,壓縮比為1:3.當然這時產(chǎn)生了色彩失真,但如果選擇原圖的色彩范圍定義調(diào)色板,色彩失真較小,人眼一般都還能接受.如果把圖像深度從8位再壓縮到4位,即從256色再壓到16色(圖C),雖然數(shù)據(jù)量只減少了2倍,壓縮比為1:2,但這時的人眼所看到的色彩失真比第一次大得多,效果很差圖像效果

圖像類型圖A真彩色圖像圖B256色圖像圖C16色圖像壓縮比8/24=1/34/24=1/6第13頁,課件共81頁,創(chuàng)作于2023年2月常用的編碼方法根據(jù)壓縮算法的原理,可以將壓縮算法分為如下幾類:信息熵編碼(主要有行程長度編碼、哈夫曼編碼和算術(shù)編碼)、通用編碼、預測編碼、模型法編碼、矢量量化編碼、子帶編碼和混合編碼等。第14頁,課件共81頁,創(chuàng)作于2023年2月信息熵編碼1.行程長度編碼行程長度編碼(Run-LengthEncoding,RLE)又叫游程編碼,是壓縮文件最簡單的方法之一。把一系列的重復值(例如圖像象素的灰度值)用一個單獨的值再加上一個計數(shù)值來取代。

比如有這樣一個字母序列aabbbccccccccdddddd它的行程長度編碼就是2a3b8c6d。

很多位圖文件格式都用行程長度編碼,例如TIFF,PCX、GEM等。第15頁,課件共81頁,創(chuàng)作于2023年2月行程長度編碼例有一線狀圖像,其灰度隨長度坐標的關(guān)系如圖3.1所示。描述這個一維圖像可以用順序的七個3bit的二進制數(shù)表示:011,011,011,011,101,101,101,共21比特。

如果用行程編碼方法對其編碼,其編碼就變成了100,011;011,101,共用了12比特,比前一種編碼節(jié)約了9個比特。

第16頁,課件共81頁,創(chuàng)作于2023年2月哈夫曼編碼編碼步驟如下:統(tǒng)計信源符號出現(xiàn)的概率;將信源符號按概率遞減順序排列;

把兩個最小的概率值加起來,作為一個新組合符號的概率;重復步驟(2)、(3),直到概率和達到1為止;在每次合并信源時,將合并的信源分別標記“1”和“0”(例如,概率小的標記為“1”,概率大的標記為“0”);尋找從每一信源符號到概率為1的路徑,記錄下路徑上的“1”和“0”;對每一符號寫出“1”和“0”序列;

第17頁,課件共81頁,創(chuàng)作于2023年2月哈夫曼編碼的例子考慮信源進行哈夫曼編碼的過程如下:

信源符號X1X2X3X4X5X6

概率0.250.250.200.150.10.05第18頁,課件共81頁,創(chuàng)作于2023年2月哈夫曼編碼的不足

它必須精確地統(tǒng)計出原始文件中每個值的出現(xiàn)頻率,如果沒有這個精確統(tǒng)計,壓縮的效果就會大打折扣,甚至根本達不到壓縮的效果。因此哈夫曼編碼通常要經(jīng)過兩遍操作,第一遍進行統(tǒng)計,第二遍產(chǎn)生編碼,所以編碼的過程是比較慢的。另外由于各種長度的編碼的譯碼過程也比較復雜,因此解壓縮的過程也比較慢。它對于位的增刪比較敏感。

第19頁,課件共81頁,創(chuàng)作于2023年2月算術(shù)編碼算術(shù)編碼在圖像數(shù)據(jù)壓縮標準(如JPEG,JBIG)中扮演了重要的角色。在算術(shù)編碼中,消息用0到1之間的實數(shù)進行編碼,算術(shù)編碼用到兩個基本的參數(shù):符號的概率和它的編碼間隔。信源符號的概率決定壓縮編碼的效率,也決定編碼過程中信源符號的間隔,而這些間隔包含在0到1之間。編碼過程中的間隔決定了符號壓縮后的輸出。算法舉例假設(shè)信源符號為{00,01,10,11},這些符號的概率分別為{0.1,0.4,0.2,0.3},根據(jù)這些概率可把間隔[0,1)分成4個子間隔:[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1),二進制消息序列的輸入為:10001100101101第20頁,課件共81頁,創(chuàng)作于2023年2月算術(shù)編碼第21頁,課件共81頁,創(chuàng)作于2023年2月算術(shù)編碼的主要特點(1)信源符號的出現(xiàn)概率比較接近時,算術(shù)編碼的效率比哈夫曼編碼高。(2)算術(shù)編碼的實現(xiàn)比哈夫曼編碼復雜。算術(shù)編碼是一種相對比較新的編碼,它在許多方面比哈夫曼編碼優(yōu)越;算術(shù)編碼是按照分數(shù)比特逼近熵,而哈夫曼編碼是按照整數(shù)比特逼近熵;算術(shù)編碼可以有效地從模型中分離出來,而哈夫曼編碼是與統(tǒng)計模型強相關(guān)的。第22頁,課件共81頁,創(chuàng)作于2023年2月算術(shù)編碼需要注意的幾個問題1.由于實際計算機精度不可能無限長,運算中溢出是明顯的問題,但多數(shù)機器都有16位、32位或者64位的精度,因此可使用比例縮放法解決。2.算術(shù)編碼器對消息只產(chǎn)生一個碼字,這個碼字是在[0,1)中的一個實數(shù),因此譯碼器在接受到表示這個實數(shù)的所有位之前不能進行譯碼。3.算術(shù)編碼也是一種對錯誤很敏感的編碼方法,如果有一位發(fā)生錯誤就會導致整個消息譯錯。算術(shù)編碼可以是靜態(tài)的或者自適應(yīng)的。在靜態(tài)算術(shù)編碼中,信源符號的概率是固定的。在自適應(yīng)算術(shù)編碼中,信源符號的概率根據(jù)編碼時符號出現(xiàn)的頻繁程度動態(tài)地進行修改,在編碼期間估算信源符號概率的過程叫做建模。需要開發(fā)動態(tài)算術(shù)編碼的原因是因為事先知道精確的信源概率是很難的,而且是不切實際的。當壓縮消息時,我們不能期待一個算術(shù)編碼器獲得最大的效率,所能做的最有效方法是在編碼過程中估算概率。因此動態(tài)建模成為確定編碼器壓縮效率的關(guān)鍵。第23頁,課件共81頁,創(chuàng)作于2023年2月詞典編碼詞典編碼的思想第一類詞典法的想法是企圖查找正在壓縮的字符序列是否在以前輸入的數(shù)據(jù)中出現(xiàn)過,然后用已經(jīng)出現(xiàn)過的字符串替代重復的部分,它的輸出僅僅是指向早期出現(xiàn)過的字符串的“指針”。第24頁,課件共81頁,創(chuàng)作于2023年2月第二類詞典編碼第二類算法的想法是企圖從輸入的數(shù)據(jù)中創(chuàng)建一個“短語詞典(dictionaryofthephrases)”,這種短語可以是任意字符的組合。編碼數(shù)據(jù)過程中當遇到已經(jīng)在詞典中出現(xiàn)的“短語”時,編碼器就輸出這個詞典中的短語的“索引號”,而不是短語本身。第25頁,課件共81頁,創(chuàng)作于2023年2月LZW算法的壓縮過程

LZW算法在壓縮過程中主要處理3種數(shù)據(jù):輸入流、輸出流和一張字符串表。輸入流就是原始的字符流(對圖像處理而言就是圖像數(shù)據(jù)),輸出流則是壓縮生成的代碼流。LZW壓縮程序的任務(wù)就是把輸入的原始數(shù)據(jù)轉(zhuǎn)換成比原來短的代碼串。第26頁,課件共81頁,創(chuàng)作于2023年2月字符串表是整個算法的核心。LZW算法和其他一些壓縮技術(shù)的不同之處在于它是動態(tài)地標記數(shù)據(jù)流中出現(xiàn)的重復串。它把壓縮過程中遇到的字符串記錄在這張龐大的表中,在下一次又碰到這一字符串的時候,就用一個代碼來表示它,通過用短代碼來表示相對較長的字符串來壓縮數(shù)據(jù)量。其具體壓縮流程如右圖所示。第27頁,課件共81頁,創(chuàng)作于2023年2月LZW算法的解壓縮過程

解開一個GIF圖像實際上剛好是壓縮的一個逆過程。字符流變成了輸出流,而代碼流變成了輸入流。同樣,解壓縮程序也要生成并維護與壓縮時所用的一模一樣的串表。解壓縮程序從串表中查到輸入代碼對應(yīng)的字符串,再將此字符串輸出。右圖給出了解壓縮過程的流程。第28頁,課件共81頁,創(chuàng)作于2023年2月預測編碼通常,圖像中局部區(qū)域的像素是高度相關(guān)的,因此可以用先前像素的有關(guān)灰度知識來對當前像素的灰度進行估計,這就是預測。如果預測是正確的,則不必對每一個像素的灰度都進行壓縮,而是把預測值與實際像素值之間的差值經(jīng)過熵編碼后發(fā)送到接收端,接收端通過預測值+差值信號來重建原像素。預測編碼可分為線性預測編碼和非線性預測編碼。前者常被稱為差分脈沖編碼調(diào)制,即DPCM(DifferentialPulseCodeModulation)。第29頁,課件共81頁,創(chuàng)作于2023年2月DPCM的原理框圖(a)DPCM編碼框圖(b)DPCM譯碼框圖第30頁,課件共81頁,創(chuàng)作于2023年2月DPCM編碼示例DPCM系統(tǒng)如圖所示,預測器的預測值為前一個樣值(圖中D表示單位延遲)。假設(shè)輸入信號已經(jīng)量化,差值不再進行量化。若DPCM系統(tǒng)的輸入為{0,1,2,1,1,2,3,3,4,4,…},則編碼過程如下:第31頁,課件共81頁,創(chuàng)作于2023年2月變換編碼變換編碼是進行一種可逆的函數(shù)變換(例如離散傅里葉變換),映射變換從一個信號域變換到另一個信號域。在變換到另一個信號域的過程中,只要適當處理,就可以大大減少需要編碼的信息,從而達到減化編碼過程,實現(xiàn)數(shù)據(jù)壓縮的目的,通常壓縮效果很好。第32頁,課件共81頁,創(chuàng)作于2023年2月變換編碼原理圖第33頁,課件共81頁,創(chuàng)作于2023年2月模型編碼模型編碼將圖像信號看成三維世界中的目標和景物投影到二維平面的產(chǎn)物,而對這一產(chǎn)物的評價是由人類視覺系統(tǒng)的特性決定的。模型編碼的關(guān)鍵是對特定的圖像建立模型,并根據(jù)這個模型確定圖像中景物的特征參數(shù),如運動參數(shù)、形狀參數(shù)等。解碼時根據(jù)參數(shù)和已知模型用圖像合成技術(shù)重建圖像。由于編碼的對象是特征參數(shù),而不是原始圖原像,因此有可能實現(xiàn)比較大的壓縮比。模型編碼引入的誤差主要是人眼視覺不太敏感的幾何失真,因此重建圖像非常自然和逼真。1988年召開的首屆“64kb/s活動圖像編碼工作會議”確定了模型編碼為新一代的編碼方法。第34頁,課件共81頁,創(chuàng)作于2023年2月混合編碼

以兩種或兩種以上的方法對圖像進行編碼稱為混合編碼,本章后面介紹的JPEG和MPEG都屬于混合編碼。第35頁,課件共81頁,創(chuàng)作于2023年2月多媒體數(shù)據(jù)壓縮的國際標準音頻壓縮標準音頻信號是多媒體信息的重要組成部分。目前,業(yè)界公認的聲音質(zhì)量標準分為4級,即數(shù)字激光唱盤CD-DA質(zhì)量,其信號帶寬為10Hz~20kHz;調(diào)頻廣播FM質(zhì)量,其信號帶寬為20Hz~l5kHz;調(diào)幅廣播AM質(zhì)量,其信號帶寬為50Hz~7kHz;電話的話音質(zhì)量,其信號帶寬為200Hz~3.4kHz。可見,數(shù)字激光唱盤的聲音質(zhì)量最高,電話的話音質(zhì)量最低。數(shù)字音頻壓縮技術(shù)標準分為電話語音壓縮、調(diào)幅廣播語音壓縮、高保真立體聲音頻壓縮三種。第36頁,課件共81頁,創(chuàng)作于2023年2月ITU-T的G系列聲音壓縮標準ITU-T是國際電信聯(lián)盟電信標準化部門,它研究和制定除無線電以外的所有電信領(lǐng)域標準。對于不同的音頻信號,ITU-T制定了不同的音頻標準。(1)用于電話質(zhì)量的語音壓縮標準。(2)用于調(diào)幅廣播質(zhì)量的音頻壓縮標準。第37頁,課件共81頁,創(chuàng)作于2023年2月G.7xx標準G.7xx是一組ITU-T標準,用于音頻壓縮和解壓縮,主要用于電話方面。在電話技術(shù)中,有兩個主要的算法標準,分別定義在mu-law算法(美國使用)和a-law算法(歐洲及世界其他國家使用)中。兩者都是基于對數(shù)關(guān)系的,但對于計算機的處理來說,后者更為簡單。第38頁,課件共81頁,創(chuàng)作于2023年2月G.7xx協(xié)議組的組成G.711:64kb/s信道上的語音頻率脈沖編碼調(diào)制(PCM)。量化位數(shù)為8bit,采樣頻率為8kHz。G.721:32kb/s自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。量化位數(shù)為4bit,采樣頻率為8kHz。G.722:64kb/s下的7kHz音頻編碼,采樣頻率為16kHz。采用子帶編碼,即將16kHz的頻帶分為兩個子帶,通過ADPCM分別進行編碼。G.722.1:帶有低幀損耗的具有免提操作的系統(tǒng)在24kb/s和32kb/s上的編碼。G.722.2:利用自適應(yīng)多頻率寬帶(AMR-WB)以16kb/s多頻率語音編碼。第39頁,課件共81頁,創(chuàng)作于2023年2月G.7xx協(xié)議組的組成G.723:24kb/s自適應(yīng)差分脈沖編碼調(diào)制。采樣頻率為8kHz。G.726:40、32、24、16kb/s自適應(yīng)差分脈沖編碼調(diào)制。采樣頻率為8kHz。G.727:采用嵌入式自適應(yīng)差分脈沖編碼調(diào)制。G.728:利用短時延碼本激勵線性預測(LD-CELP)算法,比特率為16kb/s,采樣頻率為8kHz。G.729:利用共軛結(jié)構(gòu)—代數(shù)激勵編碼線性預測(CS-ACELP),比特率為8kb/s。第40頁,課件共81頁,創(chuàng)作于2023年2月高保真立體聲音頻壓縮標準高保真立體聲音頻信號的頻率范圍為50Hz~20kHz,在44.1kHz采樣頻率下用16bit量化,信號速率為每聲道705kb/s。目前國際上比較成熟的高保真立體聲音頻壓縮標準為MPEG音頻。MPEG是由音頻和視頻兩部分組成的,可以分別進行壓縮。第41頁,課件共81頁,創(chuàng)作于2023年2月MPEG

MPEG音頻根據(jù)不同的算法分為三個層次。Layer1與Layer2具有大致相同的算法。輸入音頻信號的采樣頻率為48kHz、44.1kHz或32kHz,經(jīng)過濾波器組分成32個子帶。同時編碼器利用人耳的掩蔽效應(yīng),根據(jù)音頻信號的性質(zhì)計算各個頻率分量的掩蔽門限,以控制每一個子帶的量化參數(shù),達到數(shù)據(jù)壓縮的目的。MPEG音頻的Layer3進一步引入了輔助子帶、非均勻量化和熵編碼等技術(shù),可以進一步壓縮碼率,目前在因特網(wǎng)CD光盤中廣泛使用的MP3音樂就屬于這一層次。立體聲信號的編碼也可以在MPEG音頻中作為附加功能實現(xiàn)。MPEG音頻壓縮技術(shù)的傳輸速率為每聲道32~448kb/s。第42頁,課件共81頁,創(chuàng)作于2023年2月MPEG音頻編碼器和解碼器的原理框圖

MPEG音頻編碼器原理框圖

MPEG音頻解碼器原理框圖

第43頁,課件共81頁,創(chuàng)作于2023年2月靜止圖像的壓縮標準對于靜止圖像來說,目前有很多壓縮標準,如ISO制定的JPEG標準、JBIG標準、ITU-T制訂的G3和G4標準等。JPEG標準適用于黑白及彩色照片、彩色傳真和印刷圖片,可以支持很高的圖像分辨率和量化精度。第44頁,課件共81頁,創(chuàng)作于2023年2月JPEG聯(lián)合圖像專家組(JointPhotographicCodingExpertsGroup,JPEG)是由國際標準化組織ISO和國際電報電話咨詢委員會CCITT組織于1986年底成立的,負責制定一種用于連續(xù)色調(diào)的(黑白的或真彩色的)靜止圖像壓縮編碼的通用算法的國際標準。該組織于1991年3月公布了他們提出的壓縮標準的草案,1992年JPEG成為ISO國際標準。第45頁,課件共81頁,創(chuàng)作于2023年2月JPEGJPEG專家組開發(fā)了兩種基本的壓縮算法:一種是以空間線性預測技術(shù)(DPCM)為基礎(chǔ)的無損壓縮算法,不會產(chǎn)生失真,但壓縮比很小;另一種是采用以離散余弦變換(DiscreteCosineTransform,DCT)為基礎(chǔ)的有損壓縮算法,它利用了人們視覺系統(tǒng)的特性,去掉視覺冗余信息和數(shù)據(jù)本身的冗余信息,包含基本系統(tǒng)(必須保證的功能)和擴展系統(tǒng)(擴充功能),這種算法進行圖像壓縮時信息雖有損失,但壓縮比可以很大,例如當壓縮比達到25:1左右時,人眼基本上無法察覺失真?,F(xiàn)在應(yīng)用較多的是有損壓縮算法。第46頁,課件共81頁,創(chuàng)作于2023年2月JPEGJPEG定義了3種編碼系統(tǒng)。無損預測編碼系統(tǒng):用于無失真的應(yīng)用場合?;贒CT的有損編碼基本系統(tǒng):可用于絕大多數(shù)壓縮應(yīng)用場合基于DCT的有損編碼增強系統(tǒng):用于高壓縮比、高精確度或漸進重建應(yīng)用等場合。第47頁,課件共81頁,創(chuàng)作于2023年2月JPEGJPEG規(guī)定了4種運行模式,以滿足不同需要。無損預測編碼模式:壓縮比可以達到2:1?;贒CT的有損順序編碼模式:壓縮比可以達到10:1以上?;贒CT的漸進編碼模式?;贒CT的分層編碼模式。第48頁,課件共81頁,創(chuàng)作于2023年2月JPEG的無損預測編碼PEG采用了基于預測編碼的壓縮算法,其框圖如下圖所示。該算法采用一個簡單的預測器,其工作原理是從X中減去預測值,得到差值,然后不進行量化,直接進行無失真的熵編碼(哈夫曼編碼或算術(shù)編碼),從而滿足無失真壓縮圖像數(shù)據(jù)的要求。

JPEG的無損預測編碼框圖JPEG的無損預測編碼的優(yōu)點是硬件易實現(xiàn),重建圖像質(zhì)量好。缺點是壓縮比太低,大約為2:1。第49頁,課件共81頁,創(chuàng)作于2023年2月基于OCT的有損壓縮編碼基于OCT的壓縮編碼算法包括兩種不同層次的系統(tǒng),即基本系統(tǒng)和增強系統(tǒng)。增強系統(tǒng)是基本系統(tǒng)的擴充。JPEG還定義了兩種工作方式,即順序方式和漸進方式?;鞠到y(tǒng)只能采用順序工作方式,熵編碼只能采用哈夫曼編碼,而且只能存儲兩套碼表。第50頁,課件共81頁,創(chuàng)作于2023年2月基于OCT的有損順序編碼框圖及解碼框圖

基于DCT的有損順序編碼框圖

基于DCT的有損順序編碼的解碼框圖

第51頁,課件共81頁,創(chuàng)作于2023年2月JPEG算法的不同壓縮比及其壓縮效果實例第52頁,課件共81頁,創(chuàng)作于2023年2月JPEG2000放棄了JPEG所采用的以離散余弦變換算法(DCT)為主的區(qū)塊編碼方式,而改用以離散小波變換算法(DWT)為主的多解析編碼方式。

JPEG2000還將彩色靜態(tài)畫面采用的JPEG編碼方式、2值圖像采用的JBIG(JointBinaryImageGroup)編碼方式及低壓縮率采用JPEGLS統(tǒng)一起來,成為對應(yīng)各種圖像的通用編碼方式。第53頁,課件共81頁,創(chuàng)作于2023年2月DCT和DWT變換圖

(a)采用DCT變換得到的圖像圖

(b)采用DWT變換得到的圖像第54頁,課件共81頁,創(chuàng)作于2023年2月JPEG2000的優(yōu)勢高壓縮率無損壓縮漸進傳輸感興趣區(qū)域壓縮第55頁,課件共81頁,創(chuàng)作于2023年2月JPEG2000的應(yīng)用目前,支持JPEG2000的軟件已經(jīng)出現(xiàn),如LuraWaveSmartCompressFreewareforWindows為ACDSee3.0提供JPEG2000LWF格式的外掛插件,這樣只要安置了這個插件就可以觀看和制作采用JPEG2000編碼的LWF格式文件。在不久的將來,JPEG2000無論是在傳統(tǒng)的JPEG市場(如數(shù)碼相機、掃描儀等)還是在新興應(yīng)用領(lǐng)域(如網(wǎng)路傳輸、無線通訊、醫(yī)療影像等)都將大有用武之地。第56頁,課件共81頁,創(chuàng)作于2023年2月MPEG壓縮標準MPEG標準是面向運動圖像壓縮的一個系列標準。ISO和CCITT于1988年成立運動圖像專家組(MovingPictureExpertsGroup,MPEG),研究制定了用于數(shù)字存儲媒介中活動圖像及其伴音的編碼的國際標準。最初MPEG專家組的工作項目是三個,即分別1.5Mb/s、10Mb/s、40Mb/s傳輸速率下對圖像編碼,分別命名為MPEG-1、MPEG-2、MPEG-3,MPEG-3于1992年被合并到高清晰度電視(HDTV)工作組。為了滿足不同應(yīng)用的要求,MPEG又陸續(xù)增加了其他一些標準MPEG-4、MPEG-7、MPEG-21。MPEG-l壓縮標準為VCD所采納,MPEG-2壓縮標準為DVD采納,MPEG-4是為交互式多媒體通信制定的壓縮標準,MPEG-7是為因特網(wǎng)視頻檢索制定的壓縮標準。第57頁,課件共81頁,創(chuàng)作于2023年2月MPEG標準MPEG標準一般包括4個部分:MPEG視頻(ISO/IECl1172-2)。MPEG音頻(ISO/IECl1172-3)。MPEG系統(tǒng)(ISO/IECl1172-1)。MPEG測試與驗證(ISO/IEC11172-4)。

已經(jīng)開發(fā)的MPEG標準有:MPEG-1:1992年正式發(fā)布的數(shù)字電視標準。MPEG-2:數(shù)字電視標準。MPEG-4:1999年發(fā)布的多媒體應(yīng)用標準。MPEG-7:多媒體內(nèi)容描述接口標準。MPEG-21:有關(guān)多媒體框架的協(xié)議標準。第58頁,課件共81頁,創(chuàng)作于2023年2月MPEG-1壓縮標準用于數(shù)字存儲媒體運動圖像及其伴音速率為1.5Mb/s的壓縮編碼簡稱MPEG-1,于1992年正式發(fā)布,標準的編號為ISO/IEC1172。它針對標準分辨率(NTSC制為352×240,PAL制為352×288)的圖像進行壓縮,每秒30幀畫面,具備CD音質(zhì)。它還用于數(shù)字電話網(wǎng)絡(luò)上的視頻傳輸,如視頻點播、教育網(wǎng)絡(luò)等。使用MPEG-1的壓縮算法,可將一部120min長的電影壓縮到1.2GB左右。因此,它被廣泛地應(yīng)用于VCD制作。第59頁,課件共81頁,創(chuàng)作于2023年2月MPEG-1壓縮標準MPEG-1分為5個部分:MPEG系統(tǒng)(11172-1):定義音頻、視頻及有關(guān)數(shù)據(jù)的同步。MPEG視頻(11172-2):定義視頻數(shù)據(jù)的編碼和重建圖像所需的解碼過程。MPEG音頻(11172-3):定義音頻數(shù)據(jù)的編碼和解碼。一致性測試(11172-4)。軟件模擬(11172-5)。第60頁,課件共81頁,創(chuàng)作于2023年2月MPEG-1壓縮標準MPEG-1的主要任務(wù)是將視頻信號及其伴音以可接收和重建質(zhì)量壓縮到1.5Mb/s的碼率,并復合成一個單一的MPEG位流,同時保證視頻和音頻的同步。第61頁,課件共81頁,創(chuàng)作于2023年2月MPEG-l編碼解碼器框圖

第62頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2壓縮標準

MPEG-2標準于1994年公布,包括編號為13818-1的系統(tǒng)部分、編號為13818-2的視頻部分、編號為13818-3的音頻部分及編號為13818-4的符合性測試部分。它能適用于更廣的領(lǐng)域,主要包括數(shù)字存儲媒體、廣播電視和通信。MPEG-2適合高于2Mb/s的視頻壓縮。第63頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2壓縮標準MPEG-2利用網(wǎng)絡(luò)提供的3~100Mb/s的數(shù)據(jù)傳輸率支持具有更高分辨率圖像的壓縮和更高的圖像質(zhì)量??芍С纸化B圖像序列、可調(diào)節(jié)性編碼,多種運動估計方式,提供一個較廣的范圍改變壓縮比,以適應(yīng)不同畫面質(zhì)量、存儲容量和帶寬的要求。它在與MPEG-1兼容的基礎(chǔ)上實現(xiàn)了低碼率和多聲道擴展:MPEG-2可以將一部120min長的電影壓縮到4~8GB(DVD質(zhì)量),其音頻編碼可提供左、右、中及兩個環(huán)繞聲道、一個加重低音聲道和多達7個伴音聲道。MPEG-2分為系統(tǒng)、視頻、音頻、一致性測試、軟件模擬、數(shù)字存儲媒體命令和控制擴展協(xié)議、先進聲音編碼、系統(tǒng)解碼器和實時接口擴展標準10個部分。第64頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2系統(tǒng)MPEG-2系統(tǒng)規(guī)定電視圖像數(shù)據(jù)、音頻數(shù)據(jù)和其他相關(guān)數(shù)據(jù)的同步性。MPEG-2標準的壓縮編碼系統(tǒng)是將視頻和音頻編碼算法結(jié)合起來開發(fā)的。系統(tǒng)編碼可有兩種方法,其編碼輸出包括傳送流和程序流兩種定義流。傳送流和協(xié)議ISO/IECl1172-1系統(tǒng)定義的流相似;程序流是一種用來傳送和保存一道程序的數(shù)據(jù)或其數(shù)據(jù)的數(shù)據(jù)流。第65頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2視頻MPEG-2視頻規(guī)定視頻數(shù)據(jù)的編碼和解碼。MPEG-2按壓縮比大小的不同分成5個檔次(Profile),每一個檔次又按圖像清晰度的不同分成四種圖像格式,或稱為級別(Level)。5個檔次4種級別共有20種組合,但實際應(yīng)用中有些組合不太可能出現(xiàn),較常用的是11種組合。第66頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2視頻MPEG-2的5個檔次按功能增強逐次為:簡單型(Simple)?;拘停∕ain)。信噪比可調(diào)型(SNRScalable)。空間可調(diào)型(SpatialScalable)。增強型(High)。MPEG-2的4個等級為:低級(Low):352×288×30,面向VCR并與MPEG-1兼容?;炯墸∕ain):70×460×30或720×576×25,面向視頻廣播信號。高1440級(High-1440):440×1080×30或1440×l152×25,面向HDTV。高級(High):1930×1080×30或1920×l152×25,面向HDTV。第67頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2視頻較常用的是11種組合:高級的基本型,MP@HL。高級的增強型,HP@HL。高-1440級的基本型,MP@H1440。高-1440級的空間可調(diào)型,SSP@H1440。高-1440級的增強型,HP@H1440?;炯壍暮唵涡?,SP@ML?;炯壍幕拘?,MP@ML?;炯壍男旁氡瓤烧{(diào)型,SNP@ML。基本級的增強型,HP@ML。低級的基本型,MP@LL。低級的信噪比可調(diào)型,SNP@LL。第68頁,課件共81頁,創(chuàng)作于2023年2月MPEG-2音頻MPEG-2音頻的基本特性之一是與MPEG-l音頻兼容,并且支持5.1或7.1通道的環(huán)繞立體聲。5.1通道采用左、右聲道,中置和后面兩個環(huán)繞聲通道,總共5個通道?!?”是指LFE(LowFrequencyEffect),是低頻音效的加強通道,也就是通常所說的“低音炮”。7.1通道環(huán)繞立體聲比5.1還多中左、中右兩個喇叭通道。MPEG-2技術(shù)就是實現(xiàn)DVD的標準技術(shù),現(xiàn)在DVD播放器在家庭中已經(jīng)普及了。除了作為DVD的指定標準外,MPEG-2還可用于為廣播、有線電視網(wǎng)、電纜網(wǎng)絡(luò)以及衛(wèi)星直播提供廣播級的數(shù)字視頻。第69頁,課件共81頁,創(chuàng)作于2023年2月MPEG-4MPEG-4于1988年11月公布。它是為視聽數(shù)據(jù)的編碼和交互播放而開發(fā)的算法。其目標是極低碼率的音頻/視頻壓縮編碼。它所涉及的應(yīng)用范疇包括有線、無線、移動通信和Internet等領(lǐng)域。MPEG-4可使用戶實現(xiàn)音頻、視頻內(nèi)容交互性的多種形式,以及以一種整體的方式將人工和自然的音頻和視頻信息融合在一起。MPEG-4具有高速壓縮,基于內(nèi)容交互和內(nèi)容分級擴展等特點,并且具有基于內(nèi)容方式表示的視頻數(shù)據(jù)。MPEG-4在信息描述中引入了對象(Object)的概念,用來表達視頻對象(VideoObject,VO)和音頻對象(AudioObject,AO)。第70頁,課件共81頁,創(chuàng)作于2023年2月MPEG-4對AV對象的操作MPEG-4對AV對象的操作主要有:采用AV對象來表示聽覺、視覺或者視聽組合內(nèi)容。組合己有AV對象來生成復合的AV對象,并生成AV場景。對AV對象的數(shù)據(jù)靈活地多路合成與同步,以選擇合適的網(wǎng)絡(luò)來傳輸AV對象數(shù)據(jù)。允許接收端用戶在AV場景中對AV對象進行交互操作等。第71頁,課件共81頁,創(chuàng)作于2023年2月基于內(nèi)容的視頻編碼過程基于內(nèi)容的視頻編碼過程可由三步完成:1)VO的形成:先從原始視頻流中分割出VO。2)編碼:對各VO分別獨立編碼,即對不同VO和運動信息、形狀信息和紋理信息分別編碼,分配不同的碼字。3)復合:將各個VO的碼流復合成一個符合MPEG-4標準的位流。第72頁,課件共81頁,創(chuàng)作于2023年2月MPEG-7壓縮標準MPEG-7標準于2001年11月正式推出。MPEG-7的正式名稱為多媒體內(nèi)容描述接口(MultimediaContentDescriptionInterface),它為各種類型的多媒體信息規(guī)定一種標準化的描述。這種描述以提取待描述對象的各種特征為基礎(chǔ),便于人們對多媒體信息進行快速有效的檢索。這種描述與多媒體信息的內(nèi)容一起,支持對用戶感興趣的圖形、圖像、3D模型、視頻、音頻等信息以及它們的組合的快速有效的查詢,滿足實時、非實時以及推—拉應(yīng)用的要求。MPEG-7可應(yīng)用于數(shù)字圖書館、各種多媒體目錄服務(wù)、廣播媒體的選擇以及多媒體編輯等領(lǐng)域。第73頁,課件共81頁,創(chuàng)作于2023年2月MPEG-7MPEG-7的研究重點是多媒體對象的特征提取、數(shù)據(jù)庫類層次劃分、不同數(shù)據(jù)類型的有機聯(lián)系等。MPEG-7采取的描述方案和方法與被描述內(nèi)容是否編碼或如何存儲無關(guān),例如視覺信號仍可以用已有的各種編碼方案(如JPEG、MPEG-l、MPEG-2、MPEG-4等)進行編碼。MPEG-7將擴展現(xiàn)有標識內(nèi)容的專用方案及有限的能力,包含更多的多媒體數(shù)據(jù)類型。MPEG-7的功能與其他MPEG標準互為補充。MPEG-l、MPEG-2和MPEG-4是內(nèi)容本身的表示,而MPEG-7是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論