《網(wǎng)絡(luò)多媒體技術(shù)》課件第3章_第1頁
《網(wǎng)絡(luò)多媒體技術(shù)》課件第3章_第2頁
《網(wǎng)絡(luò)多媒體技術(shù)》課件第3章_第3頁
《網(wǎng)絡(luò)多媒體技術(shù)》課件第3章_第4頁
《網(wǎng)絡(luò)多媒體技術(shù)》課件第3章_第5頁
已閱讀5頁,還剩159頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第3章多媒體數(shù)據(jù)壓縮編碼標準3.1音頻壓縮編碼標準3.2圖像壓縮編碼標準3.3視頻壓縮編碼標準3.4本章小結(jié)思考練習(xí)題在多媒體系統(tǒng)中,多媒體數(shù)據(jù)編碼標準是系統(tǒng)設(shè)計、開發(fā)和應(yīng)用的基礎(chǔ)。本章介紹音頻、圖像及視頻壓縮編碼標準。

3.1.1音頻信息的編碼分類

在實際應(yīng)用中,音頻壓縮技術(shù)的選擇需要綜合考慮音頻質(zhì)量、壓縮比、計算復(fù)雜度等因素。常用的音頻壓縮編碼可分為波形編碼、參數(shù)編碼、混合編碼和感知編碼等。3.1音頻壓縮編碼標準

1.波形編碼

波形編碼是基于信號統(tǒng)計特性進行音頻壓縮的編碼方法,是直接對音頻樣值進行的編碼,它在時域上進行處理,保留了信號的各種過渡特征,力圖使重建的音頻波形盡可能與原波形一致。波形編碼的技術(shù)主要有非線性量化技術(shù)、時域自適應(yīng)差分編碼和量化技術(shù)。非線性量化技術(shù)利用小幅度語音信號出現(xiàn)的概率大而大幅度語音信號出現(xiàn)的概率小的特點,通過為小信號分配小的量化階,為大信號分配大的量化階來減少總量化誤差。自適應(yīng)差分編碼和量化技術(shù)是利用過去的語音來預(yù)測當(dāng)前的語音,只對它們的差值進行編碼,從而大大降低了數(shù)據(jù)率;根據(jù)量化數(shù)據(jù)的動態(tài)范圍來動態(tài)調(diào)整量化階,即采用自適應(yīng)量化技術(shù),使得量化階與量化數(shù)據(jù)相匹配。

波形編碼是最簡單也是應(yīng)用最早的音頻編碼方法,具有實施簡單、適應(yīng)性強、音頻質(zhì)量好等特點,其不足之處是壓縮比不高,數(shù)據(jù)率較大。

典型的波形編碼包括脈沖編碼調(diào)制(PCM)、差值量化(DPCM)、自適應(yīng)量化(APCM)和自適應(yīng)差值量化(ADPCM)編碼等。

2.參數(shù)編碼

參數(shù)編碼是基于聲學(xué)參數(shù)進行音頻數(shù)據(jù)壓縮的編碼方法。人類的發(fā)聲器官產(chǎn)生聲音的過程可以用一個數(shù)學(xué)模型來逼近,參數(shù)編碼就是通過計算表征這個發(fā)聲模型的參數(shù)并對其進行編碼來進一步降低數(shù)據(jù)率的。常用的音頻參數(shù)有共振峰、線性預(yù)測系數(shù)、濾波器組等。

參數(shù)編碼的優(yōu)點是壓縮比高,語音編碼速率較低,基本上在2~9.6kb/s之間。其缺點首先是合成語音質(zhì)量較差,往往清晰度滿足要求而自然度不好,難于辨認說話人是誰;其次是電路實現(xiàn)的復(fù)雜度比較高。目前,編碼速率小于16kb/s的低比特語音編碼大都采用參數(shù)編碼。參數(shù)編碼在移動通信、多媒體通信和IP網(wǎng)絡(luò)電話應(yīng)用中都起到了重要的作用。

參數(shù)編碼的典型代表是線性預(yù)測編碼(LPC)。

3.混合編碼

混合編碼是將波形編碼的高質(zhì)量與參數(shù)編碼的低數(shù)據(jù)率結(jié)合起來的編碼方法,以求能在較低數(shù)據(jù)率下獲得較高的音質(zhì)。其基本原理是合成分析方法,即將綜合濾波器引入編碼器,與分析器相結(jié)合,在編碼器中將激勵輸入綜合濾波器,產(chǎn)生與譯碼器端完全一致的合成語音,然后將合成語音與原始語音相比較(波形編碼思想),根據(jù)均方誤差最小原則,求得最佳的激勵信號,然后把激勵信號以及分析出來的綜合濾波器編碼送給解碼端。這種得到綜合濾波器和最佳激勵的過程稱為分析(得到語音參數(shù)),用激勵和綜合濾波器合成語音的過程稱為綜合。由此可見,混合編碼把參數(shù)編碼和波形編碼的優(yōu)點結(jié)合在了一起,使得用較低碼率產(chǎn)生較好的音質(zhì)成為可能。

常見的混合編碼包括碼本激勵線性預(yù)測編碼(CELP)、多脈沖激勵線性預(yù)測編碼(MPLPC)、多脈沖最大似然量化編碼(MP-MLQ)以及G.728、GSM標準等。

4.感知編碼

感知編碼是基于人耳的聽覺特性,通過消除不被感知的冗余信息來實現(xiàn)對音頻數(shù)據(jù)壓縮的編碼方法。它基于心理聲學(xué)模型,利用人的聽覺閾值特性和掩蔽效應(yīng),通過給不同頻率處的信號數(shù)據(jù)分量分配以不同量化比特的方法來控制量化噪聲,使得噪聲能量低于掩蔽閾值,即把壓縮帶來的失真控制在聽閾以下,使人耳覺察不到失真的存在,從而實現(xiàn)更高效率的音頻壓縮。目前,在高質(zhì)量音頻編碼標準中,心理聲學(xué)模型是一個最為有效的算法模型。

在此類編碼中,以MPEG音頻編碼(MPEGLayer-1、2、3和AAC標準)和DolbyDigital的應(yīng)用最為廣泛。3.1.2音頻壓縮編碼標準

音頻信號的壓縮編碼主要包括ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列標準。

1.G.7XX系列中的波形編碼標準

采用波形編碼的編碼標準有G.711標準、G.721標準和G.722標準。

1) G.711標準

G.711標準是在1972年提出的,它是為脈沖編碼調(diào)制(PCM)制定的標準。從壓縮編碼的評價來看,這種編碼方法的語音質(zhì)量好,算法延時幾乎可以忽略不計,但缺點是壓縮率很有限。G.711針對的是電話質(zhì)量的窄帶語音信號,頻率范圍是0.3~3.4kHz,采樣頻率采用8kHz,每個采樣樣值用8位二進制碼編碼,其速率為64kb/s。G.711標準推薦采用非線性壓縮擴張技術(shù),壓縮方式有A律和μ律兩種。由于使用了壓縮擴張技術(shù),其編碼方式為非線性編碼,而其編碼質(zhì)量卻與11比特線性量化編碼質(zhì)量相當(dāng)。在5級的MOS評價等級中,其評分等級達到4.3,語音質(zhì)量很好;編/解碼延時只有0.125ms,可以忽略不計;算法的復(fù)雜度是最低的,定為1,其他編碼方法的復(fù)雜度都與此作對比。

2) G.721標準

G.721標準用于速率是64kb/s(A律或μ律壓縮擴張技術(shù))的PCM語音信號與速率是32kb/s的ADPCM語音信號之間的轉(zhuǎn)換,由ITU-T在1984年制定。利用G.721可以實現(xiàn)對已有PCM信道的擴容,即把兩個2048kb/s(30路)PCM基群信號轉(zhuǎn)換成一個2048kb/s(60路)ADPCM信號。此標準采用自適應(yīng)脈沖編碼調(diào)制技術(shù),語音信號的采樣頻率為8kHz,對樣值與其預(yù)測值的差值進行4bit編碼,其速率為32kb/s;語音評價等級達到4.0(MOS),質(zhì)量也很好;系統(tǒng)延時為0.125ms,可忽略不計;復(fù)雜度達到10。

3) G.722標準

G.722標準是針對調(diào)幅廣播質(zhì)量的音頻信號制定的壓縮標準,音頻信號質(zhì)量高于G.711和G.721標準。調(diào)幅廣播質(zhì)量的音頻信號的頻率范圍是50Hz~7kHz。此標準是在1988年由CCITT制定的,采用的編碼方法是子帶自適應(yīng)差分脈沖編碼調(diào)制SB-ADPCM編碼方法,即將語音頻帶劃分為高和低兩個子帶,高、低子帶間以4kHz頻率為界限,在每個子帶內(nèi)采用自適應(yīng)差值脈沖編碼調(diào)制方式。其采樣頻率為16kHz,編碼比特數(shù)為14bit,編碼后的信號速率為224kb/s。G.722標準能將224kb/s的調(diào)幅廣播質(zhì)量信號速率壓縮為64kb/s,而質(zhì)量又保持一致,可以在多媒體和視頻會議方面得到應(yīng)用。G.722編碼器所引入的延時時間限制在4ms之內(nèi)。

2.G.7XX系列中的混合編碼標準

采用混和編碼方法的編碼標準有G.728標準、G.729標準和G.723.1標準。

1) G.728標準

CCITT于1992年制定了G.728標準,該標準所涉及的音頻信息主要應(yīng)用于公共電話網(wǎng)中。G.728是LPAS聲碼器,編碼速率為16kb/s,質(zhì)量與速率是32kb/s的G.721標準相當(dāng)。該標準采用的壓縮算法是低延時碼激勵線性預(yù)測(LDCELP)方式。線性預(yù)測器使用的是反饋型后向自適應(yīng)技術(shù),預(yù)測器系數(shù)是根據(jù)上一幀的語音量化數(shù)據(jù)進行更新的,因此算法延時較短,只有625μm,即5個抽樣點的時間,此即為G.728聲碼器碼流的幀長。由于使用反饋型自適應(yīng)方法,因此預(yù)測器不需要傳送預(yù)測系數(shù),唯一需要傳送的就是激勵信號的量化值。此編碼方案是對所有取樣值以矢量為單位進行處理的,并且采用了線性預(yù)測和增益自適應(yīng)方法。G.728的碼本總共有1024個矢量,即量化值需要10個比特,因此其比特率為10/625=16kb/s。

G.728也是低速率的ISDN可視電話的推薦語音編碼器標準,速率是56~128kb/s。由于這一標準具有反向自適應(yīng)的特性,因此它可以實現(xiàn)低的延時,但其復(fù)雜度較高。

2) G.729標準G.729是ITU-T為低碼率應(yīng)用而制定的語音壓縮標準。G.729標準的碼率只有8kb/s,其壓縮算法相比其他算法來說比較復(fù)雜,采用的基本算法仍然是碼激勵線性預(yù)測(CodeExcitationLinearPrediction,CELP)技術(shù)。為了使合成語音的質(zhì)量有所提高,在此算法中也采取了一些新措施,所以其具體算法也比CELP方法復(fù)雜。G.729標準采用的算法稱為共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測(ConjugateStructureAlgebraicCodeExcitedLinearPrediction,CSACELP)。G.729標準的主要應(yīng)用目標是第一代數(shù)字蜂窩移動電話,對不同的應(yīng)用系統(tǒng),其速率也有所不同。日本和美國的系統(tǒng)速率為8kb/s左右,GSM系統(tǒng)的速率為13kb/s。由于應(yīng)用在移動系統(tǒng),因此其復(fù)雜程度要比G.728低,為中等復(fù)雜程度的算法。由于其幀長時間加大了,故所需的RAM容量比G.728多一半。

3) G.723.1標準

G.723.1音頻壓縮標準是已頒布的音頻編碼標準中碼率較低的。G.723.1語音壓縮編碼是一種用于各種網(wǎng)絡(luò)環(huán)境下的多媒體通信標準,編碼速率根據(jù)實際的需要有兩種,分別為5.3kb/s和6.3kb/s。G.723.1標準是國際電信聯(lián)盟(ITU-T)于1996年制定的多媒體通信標準中的一個組成部分,可以應(yīng)用于IP電話、H.263視頻會議系統(tǒng)等通信系統(tǒng)中。其中,5.3kb/s碼率的編碼器采用多脈沖最大似然量化技術(shù)(MPMLQ),6.3kb/s碼率的編碼器采用代數(shù)碼激勵線性預(yù)測技術(shù)(ACELP)。G.723.1標準的編碼流程比較復(fù)雜,但基本概念仍基于CELP編碼器,并結(jié)合了分析/合成(A/S)的編碼原理,使其在高壓縮率情況下仍能保持良好的音質(zhì)。

3.MPEG音頻編碼標準

1) MPEG-1

MPEG-1Audio(ISO/IEC11172-3)壓縮算法是世界上第一個高保真聲音數(shù)據(jù)壓縮國際標準,并得到了極其廣泛的應(yīng)用。聲音壓縮標準只是MPEG標準的一部分,但可以獨立地應(yīng)用。MPEG-1聲音編碼標準規(guī)定其音頻信號采樣頻率可以有32kHz、44.1kHz和48kHz三種,音頻信號的帶寬可以選擇15kHz和20kHz。其音頻編碼分為3層:Layer-1、Layer-2和Layer-3。Layer-1的壓縮比為1∶4,編碼速率為384kb/s;Layer-2的壓縮比為1∶6~1∶8,編碼速率為192~256kb/s;Layer-3的壓縮比為1∶10~1∶12,壓縮速率可以達到64kb/s。MPEG-1標準1992年完成。

MPEG音頻編碼采用了子帶編碼,共分為32個子帶。MPEG編碼的音頻數(shù)據(jù)是按幀安排的。Layer-1的每幀包含32×12=384個樣本數(shù)據(jù),Layer-2和Layer-3的每幀包含32×3×12=1152個樣本數(shù)據(jù),是Layer-1的3倍。

(1)Layer-1編碼。Layer-1的子帶采用等帶寬劃分,分為32個子帶,每個子帶有12個樣本,心理聲學(xué)模型只使用頻域掩蔽特性。Layer-1的幀結(jié)構(gòu)如圖3-1所示。

圖3-1Layer-1的幀結(jié)構(gòu)圖在圖3-1所示的幀結(jié)構(gòu)中,各個部分的內(nèi)容如下:

幀頭。由每幀開始的前32個比特組成,這32個比特包含同步碼和狀態(tài)信息。同步碼由12個全1碼組成。Layer-1、Layer-2、Layer-3的這部分都是一樣的。

幀校驗碼。幀校驗碼占16bit,用來檢測傳輸后比特流的差錯。Layer-1、Layer-2、Layer-3的這部分也都是相同的。

音頻數(shù)據(jù)。由位分配、比例因子和子帶樣本組成。其中子帶樣本是音頻數(shù)據(jù)的最大部分,不同層的音頻數(shù)據(jù)是不同的。

附加數(shù)據(jù)。用來傳輸相關(guān)的輔助信息。

幀是音頻數(shù)據(jù)的組織單位,是MPEG-1音頻處理的最小信息單元。

(2)Layer-2編碼。Layer-2編碼在Layer-1的基礎(chǔ)上進行了改進。32個子帶的劃分是不等寬劃分,其劃分依據(jù)是臨界頻段。每個子帶分為3個12樣本組,這樣,每幀共有1152個樣本。在掩蔽特性方面除保留原有的頻域掩蔽外,Layer-2還增加了時域掩蔽。另外,在低頻段、中頻段和高頻段對位分配作了重新安排,低頻段使用4位,中頻段使用3位,高頻段使用2位。其幀格式如圖3-2所示??紤]到人耳對聲音的低頻段最為敏感,所以對低頻段劃分得更細,分配了較多的比特數(shù),高頻段分配了較少的比特數(shù)。為此,就需要較復(fù)雜的濾波器組。心理聲學(xué)模型使用1024點的FFT,提高了頻率分辨率,可以得到原信號更加準確的瞬時頻譜特性。圖3-2Layer-2的幀結(jié)構(gòu)圖

(3)Layer-3編碼(MP3)。Layer-3仍然使用不等長子帶劃分。心理聲學(xué)模型在使用頻域掩蔽和時域掩蔽特性之外又考慮到了立體聲信息數(shù)據(jù)的冗余,還增加了哈夫曼編碼器。濾波器組在原有的基礎(chǔ)上增加了改進離散余弦(MDCT)特性,可以部分地消除由多相濾波器組引入的混疊效應(yīng)。其編/解碼結(jié)構(gòu)如圖3-3所示。圖3-3Layer-3編碼器和解碼器結(jié)構(gòu)

MDCT采用了兩種塊長:18個樣本組成的長塊長和6個樣本組成的短塊長。3個短塊長正好等于1個長塊長。對于一幀樣本信號,可以全部使用長塊、全部使用短塊或長短塊混合使用。對于平穩(wěn)信號,使用長塊可以獲得更好的頻域分辨率;對于跳變信號,使用短塊可以獲得更好的時域分辨率。

MPEG音頻Layer-3就是現(xiàn)在廣為流傳的MP3,是MPEG音頻系列中性能最好的一個。實際上,MP3是MUSICAM方案和ASPEC方案的結(jié)合。MP3最大的好處在于它可以大幅度降低數(shù)字聲音文件的體積容量,而人耳不會感覺到有什么失真,音質(zhì)的主觀感覺很令人滿意。經(jīng)過MP3的壓縮編碼處理后,音頻文件可以被壓縮到原來的1/10,甚至1/12。1分鐘CD音質(zhì)的音樂,未經(jīng)壓縮時需要10MB的存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右。

2) MPEG-2

MPEG-2保持了對MPEG-1音頻的兼容并進行了擴充,提高了低采樣率下的聲音質(zhì)量,支持多通道環(huán)繞立體聲和多語言技術(shù)。MPEG-2標準定義了兩種音頻壓縮算法:MPEG-2BC和MPEG-2AAC。

MPEG-2BC是MPEG-2向后兼容多聲道音頻編碼標準。它保持了對MPEG-1音頻的兼容,增加了聲道數(shù),支持多聲道環(huán)繞立體聲,并為適應(yīng)某些低碼率應(yīng)用需求(如體育比賽解說)增加了16kHz、22.05kHz、24kHz三種較低的采樣頻率。此外為了在低碼率下進一步提高聲音質(zhì)量,MPEG-2BC還采用了許多新技術(shù),如動態(tài)傳輸聲道切換、動態(tài)串音、自適應(yīng)多聲道預(yù)測、中央聲道部分編碼等。但它為了與MPEG-1兼容,不得不以犧牲碼率的代價來換取較高的音質(zhì)。這一缺憾制約了它在世界范圍內(nèi)的推廣和應(yīng)用。

MPEG-2AAC則是真正的第二代通用音頻編碼,它放棄了對MPEG-1音頻的兼容性,擴大了編碼范圍,支持1~48個通道和8~96kHz采樣率的編碼,每個通道可以獲得8~160kb/s高質(zhì)量的聲音,能夠?qū)崿F(xiàn)多通道、多語種、多節(jié)目編碼。AAC即先進音頻編碼,是一種靈活的聲音感知編碼,是MPEG-2和MPEG-4的重要組成部分。在AAC中使用了強度編碼和MS編碼兩種立體聲編碼技術(shù),可根據(jù)信號頻譜選擇使用,也可混合使用。

MPEG-2可提供較大的可變壓縮比,以適應(yīng)不同畫面質(zhì)量、存儲容量以及帶寬的應(yīng)用要求。MPEG-2特別適用于廣播級的數(shù)字電視編碼和傳送,被認定為SDTV和HDTV的編碼標準。MPEG-2音頻在數(shù)字音頻廣播、多聲道數(shù)字電視聲音以及ISDN傳輸?shù)认到y(tǒng)被廣泛使用。

3) MPEG-4

MPEG-4是第一個真正的多媒體內(nèi)容表示標準,其音頻標準允許采用音頻對象(AO)對真實世界對象進行語義級描述。MPEG-4音頻對象可以描述自然或合成的聲音。與前兩個音頻標準不同,MPEG-4音頻的設(shè)計并非面向單一應(yīng)用,因此它不再單純追求高壓縮比,而是力圖盡量多地覆蓋現(xiàn)存的音頻應(yīng)用并充分考慮到可擴展性需求。

MPEG-4聲音編碼標準包括語音的編碼、高質(zhì)量聲音編碼、合成聲音編碼以及自然語音編碼。MPEG-4音頻按照工具箱的方法建立,包括自然語音、通用音頻、結(jié)構(gòu)化音頻、音頻合成等工具,分別為自然音頻、合成音頻等提供了極低比特率的編碼合成方法。不同的MPEG-4終端可針對具體應(yīng)用環(huán)境選擇實現(xiàn)一個子集。

結(jié)構(gòu)化音頻(SA)這一概念可作為研究聲音合成、音頻編碼和聲音識別的途徑。在SA中,每個參數(shù)化的聲音表示可看做對聲音進行理解、傳輸和渲染的工具,不僅包括頻率、幅值等常用參數(shù),也包括其他更復(fù)雜的感知編碼等參數(shù)。MPEG-4結(jié)構(gòu)化音頻是第一個將算術(shù)結(jié)構(gòu)化音頻應(yīng)用于多媒體環(huán)境中的聲音傳輸?shù)臉藴剩浠舅枷胧鞘褂猛ㄓ密浖铣烧Z言和用該語言編寫的程序來表示聲音并進行傳輸。

為了保證比特率間的平滑過渡以及比特率和帶寬的分級性,MPEG-4定義了一個通用框架,從低碼率的編碼器開始,通過增加增強部分,使編碼質(zhì)量和帶寬都有了提高,支持從可懂語音到高質(zhì)量的多聲道音樂編碼。所有增強在單一編碼器內(nèi)或者通過組合各種不同技術(shù)實現(xiàn),額外的功能也可在單獨的編碼器內(nèi)或通過在編碼器周圍添加其他工具實現(xiàn)。對普通用戶來說,目前MPEG-4最有吸引力的地方還在于它能在普通CD-ROM上基本實現(xiàn)DVD的質(zhì)量。MPEG-4音頻的比特率低,能將相互分離的高質(zhì)量音頻編碼、計算機音樂及合成語音等合成在一起,可在Internet和其他網(wǎng)絡(luò)上進行交互操作,因而廣泛應(yīng)用于Internet上的交互式多媒體應(yīng)用、移動通信、HDTV上的聯(lián)合廣播等領(lǐng)域。

圖像編碼技術(shù)的發(fā)展給圖像信息的處理、存儲、傳輸和廣泛應(yīng)用提供了可能性,但要使這種可能性變?yōu)楝F(xiàn)實,還需要做很多工作。因為圖像壓縮編碼只是一種基本技術(shù),所以它只能把待加工的數(shù)據(jù)速率和數(shù)字圖像聯(lián)系起來。但是數(shù)字圖像存儲和傳輸在壓縮格式上需要國際廣泛接受的標準,以使不同廠家的各種產(chǎn)品能夠兼容和互通。目前,圖像壓縮標準化工作主要由國際標準化組織(ISO)、國際電工委員會(IEC)和國際電信聯(lián)盟(ITU-T)進行,在它們的主持下形成的專家組征求一些大的計算機及通信設(shè)備公司、大學(xué)和研究機構(gòu)所提出的建議,

3.2圖像壓縮編碼標準然后以圖像質(zhì)量、壓縮性能和實際約束條件為依據(jù),從中選出最好的建議,并在此基礎(chǔ)上作出一些適應(yīng)國際上原有的不同制式的修改,最后形成相應(yīng)的國際標準。

JPEG是聯(lián)合圖像專家組(JointPhotographicExpertsGroup)的縮寫,該專家組隸屬于ISO/IEC的聯(lián)合技術(shù)第1委員會第29研究委員會的第1工作組(ISO/IECJTC1/SC29/WG1)。WG1已經(jīng)制定了幾種圖像壓縮編碼的國際標準,其中包括JPEG和JPEG2000。

3.2.1JPEG

JPEG成立于1986年,其標準于1992年正式通過,它的正式名稱為“信息技術(shù)連續(xù)色調(diào)靜止圖像的數(shù)字壓縮編碼”。在JPEG算法中,共包含四種運行模式,其中一種是基于DPCM的無損壓縮算法,另外三種是基于DCT的有損壓縮算法。其要點如下:

無損壓縮編碼模式。采用預(yù)測法和哈夫曼編碼(或算術(shù)編碼),以保證重建圖像與原圖像完全相同(設(shè)均方誤差為零),可見無失真。

基于DCT的順序編碼模式。根據(jù)DCT的變換原理,按從上到下、從左到右的順序?qū)D像數(shù)據(jù)進行壓縮編碼。當(dāng)信息傳送到接收端時,首先按照上述規(guī)律進行解碼,從而還原圖像。在此過程中存在信息丟失,因此這是一種有損圖像壓縮編碼。

基于DCT的累進編碼模式。它也是以DCT變換為基礎(chǔ)的,但是其掃描過程不同。它通過多次掃描的方法來對一幅圖像進行數(shù)據(jù)壓縮。其描述過程采取由粗到細逐步累加的方式進行。圖像還原時,在屏幕上首先看到的是圖像的大致情況,而后逐步地細化,直到全部還原出來為止。

基于DCT的分層編碼模式。這種模式是以圖像分辨率為基準進行圖像編碼的。它首先從低分辯率開始,然后逐步提高分辨率,直至與原圖像的分辨率相同為止。圖像重建時也是如此??梢娖湫Чc基于DCT累進編碼模式相似,但其處理起來更復(fù)雜,所獲得的壓縮比也更高一些。

1.無損壓縮編碼模式

在傳真機、靜止畫面的電話電視會議應(yīng)用中,JPEG采用DPCM(差分脈沖編碼調(diào)制)無損壓縮編碼方案,其編碼過程如圖3-4所示。

圖中,原圖像數(shù)據(jù)是按如圖3-5所示的預(yù)測模型求出預(yù)測誤差,然后對其進行無失真熵編碼的。編碼方法可以采用哈夫曼編碼,也可以采用算術(shù)編碼。

圖3-5給出了鄰域預(yù)測模型,其中A、B、C分別表示與當(dāng)前取樣點X相鄰的三個相鄰點的取樣值,其預(yù)測規(guī)律如下:圖3-4JPEG無損編碼器圖3-5預(yù)測值區(qū)域

(3-1)

在實際應(yīng)用中,可根據(jù)圖像的統(tǒng)計規(guī)律,選擇適當(dāng)?shù)臏y試方式。

2.基于DCT的順序編碼模式

圖3-6表示了一種基于DCT的順序編碼與解碼過程的系統(tǒng)框圖。

圖中原圖像采用8×8子塊DCT變換算法,從而獲得F(u,v)變換系數(shù)矩陣,這樣便實現(xiàn)了空間域到頻率域的變換,然后經(jīng)過根據(jù)視覺特性而設(shè)計的自適應(yīng)量化器,對DCT系數(shù)矩陣進行量化,并進行差分編碼和游程長度編碼,最后再進行熵編碼。解碼過程是編碼的逆過程。這里需要說明的是,圖3-6表示的是單一分量的壓縮編碼與解碼的過程。對于彩色圖像系統(tǒng)而言,所傳輸?shù)氖荵、U、V三個分量,因此它是一個多分量系統(tǒng)。單一分量系統(tǒng)和多分量系統(tǒng)的壓縮與解壓縮編碼的原理相同。圖3-6基于DCT的順序編/解碼過程整個壓縮編碼的處理過程大體分成以下幾個步驟:

(1)DCT變換。JPEG采用8×8大小的子圖像塊進行二維的離散余弦變換。在變換之前,除了要對原始圖像進行分割(一般是從上到下、從左到右)之外,還要將數(shù)字圖像采樣數(shù)據(jù)從無符號整數(shù)轉(zhuǎn)換為帶正負號的整數(shù),即把范圍為[0,28-1]的整數(shù)映射為[-28-1,28-1-1]范圍內(nèi)的整數(shù)。這時的子圖像采樣精度為8位,以這些數(shù)據(jù)作為DCT的輸入,在解碼器的輸出端經(jīng)IDCT后,得到一系列8×8圖像數(shù)據(jù)塊,再將其位數(shù)范圍由[-28-1,28-1-1]變回到[0,28-1]范圍內(nèi)的無符號整數(shù),才能重構(gòu)圖像。DCT變換可以看做把8×8的子圖像塊分解為64個正交的基信號,變換后輸出的64個系數(shù)就是這64個基信號的幅值,其中第1個F(0,0)是直流系數(shù),其他63個都是交流系數(shù)。圖3-7表示了8×8大小的子圖像在DCT變換時空域像素和頻域變換系數(shù)的對應(yīng)關(guān)系。

圖3-7DCT變換的空域像素和頻域變換系數(shù)的對應(yīng)關(guān)系(2) 量化。對DCT變換輸出的數(shù)據(jù)F(u,v)還必須進行量化處理。這里所說的量化是指從一個數(shù)值到另一個數(shù)值范圍的映射,其目的是減少DCT系數(shù)的幅值,增加零值,壓縮數(shù)據(jù)。JPEG采用線性均勻量化器,將64個DCT系數(shù)分別除以它們各自相應(yīng)的量化步長(量化步長范圍是1~255),然后四舍五入取整數(shù)。64個量化步長構(gòu)成一張量化步長表,供用戶選用。

量化的作用是在圖像質(zhì)量達到一定保真度的前提下,忽略一些次要信息。由于不同頻率的基信號(余弦函數(shù))對人眼視覺的作用不同,因此可以根據(jù)不同頻率的視覺范圍值來選擇不同的量化步長。通常人眼總是對低頻成分比較敏感,所以低頻部分的量化步長較小;對高頻成分人眼不太敏感,所以高頻部分的量化步長較大。量化處理的結(jié)果一般都是低頻成分的系數(shù)比較大,高頻成分的系數(shù)比較小,甚至大多數(shù)是0。圖3-8給出了JPEG推薦的亮度和色度量化步長表。量化處理是壓縮編碼過程中圖像信息產(chǎn)生失真的主要原因。圖3-8JPEG推薦的亮度和色度量化步長表

(3)編碼。JPEG壓縮算法的最后部分是對量化后的圖像進行編碼。這一部分由以下三步組成:

①直流(DC)系數(shù)編碼。經(jīng)過DCT變換后,低頻分量集中在左上角,其中F(0,0)(即第一行第一列元素)代表了DC系數(shù),即8×8子塊的平均值。由于DC系數(shù)的數(shù)值比較大,兩個相鄰的8×8子塊的DC系數(shù)相差很小,因此JPEG算法使用差分脈沖調(diào)制編碼(DPCM)技術(shù),對相鄰圖像塊之間的量化DC系數(shù)的差值進行編碼。②交流(AC)系數(shù)編碼。DCT變換矩陣中有63個元素是AC系數(shù),它們包含有許多“0”系數(shù),并且許多“0”是連續(xù)的,可采用行程編碼進行壓縮。對這63個元素采用了“之”字形(Zig-Zag)的掃描方法,稱為Z形掃描。

Z形掃描算法能夠?qū)崿F(xiàn)高效壓縮的原因之一是經(jīng)過量化后,大量的DCT矩陣元素被截成0,而且這些0值元素通常是從左上角開始沿對角線方向分布的。采用行程編碼算法(RLE)沿Z形路徑可有效地累積圖像中的0的個數(shù),所以這種編碼的壓縮效率非常高。8×8子塊的DC值及Z形掃描的過程如圖3-9所示。圖3-98×8子塊的DC值及Z形掃描的過程③ 熵編碼。為了進一步達到壓縮數(shù)據(jù)的目的,需要對DPCM編碼后的直流系數(shù)(DC)和行程編碼后的交流系數(shù)(AC)再做基于統(tǒng)計特性的熵編碼(EntropyCoding)。這里使用哈夫曼(Huffman)編碼。哈夫曼編碼可以使用很簡單的查表(LookupTable)方法進行編碼。在壓縮數(shù)據(jù)符號時,哈夫曼編碼對出現(xiàn)頻度比較高的符號分配比較短的代碼,而對出現(xiàn)頻度較低的符號分配比較長的代碼。最后,JPEG將各種標記代碼和編碼后的圖像數(shù)據(jù)按幀組成數(shù)據(jù)流,用于保存、傳輸和應(yīng)用。

需要說明的是,圖3-6表示單一分量的編/解碼過程,而彩色圖像是一個多分量系統(tǒng),其壓縮與解壓縮原理相同。

3.基于DCT的累進編碼模式

前面已經(jīng)介紹了按順序掃描方式,即按從左到右、從上到下的掃描方式可以一次完成整個一幅圖像的編碼。而累進編碼模式與順序編碼模式不同,它要經(jīng)過多次掃描才能完成每個圖像分量的編碼,每次掃描都僅傳輸其中部分DCT系數(shù)。這樣,第一次掃描后,所編碼傳輸?shù)膱D像只是一個粗糙的圖像,接收端據(jù)此所重建的圖像質(zhì)量很低,但尚可識別;而在第二次的掃描中,則對圖像的進一步細節(jié)信息進行壓縮編碼傳輸,這時接收端將根據(jù)所接收的信息,在首次重建圖像的基礎(chǔ)上添加所接收的細節(jié)信息,此時重建圖像的質(zhì)量得到提高。這樣逐步累進,重建的圖像質(zhì)量也隨之逐步提高,直至完整地接收一幅圖像(若忽略量化的影響,則接收圖像質(zhì)量與發(fā)送的原圖像質(zhì)量相同)。

根據(jù)上述分析,采用累進編碼的操作模式的系統(tǒng)結(jié)構(gòu)與圖3-6(a)基本相同,只是在量化器與熵編碼之間應(yīng)增加一個緩沖存儲器,以便存放一幅圖像數(shù)字化后的全部DCT系數(shù)。這樣,系統(tǒng)便可以多次對緩沖器中存儲的DCT系數(shù)進行掃描,并分批進行熵編碼。

4.基于DCT的分層編碼模式

在分層編碼模式中,一幅原始圖像被分成多個低分辨率的圖像,然后分別針對每個低分辨率的圖像進行編碼,具體過程如下:首先把一幅圖像分成若干低分辨率的圖像,然后對單獨的一個低分辨率的圖像進行壓縮編碼,其編碼方法可以選用無失真編碼,也可以采用基于DCT的順序編碼或基于DCT的累進編碼??筛鶕?jù)不同的用戶要求,采用不同的編碼方法。當(dāng)接收端接收到上述發(fā)送信息后,進行解碼,進而重建圖像,然后將恢復(fù)的下一層低分辨率的圖像插入已重建圖像之中,以此來提高圖像的分辨率,直至圖像分辨率達到原圖像的質(zhì)量水平。必須說明的是,基于DCT的JPEG壓縮算法,其壓縮效果與圖像的內(nèi)容有關(guān),一般高頻分量少的圖像可以獲得較高的壓縮比。3.2.2JPEG2000

JPEG標準自1992年通過以來,其優(yōu)良的特性使得它在短短的幾年內(nèi)就獲得極大的成功。然而,隨著多媒體應(yīng)用領(lǐng)域的不斷擴展,傳統(tǒng)JPEG壓縮技術(shù)已無法滿足人們對多媒體影像資料的要求。傳統(tǒng)離散余弦變換將圖像壓縮為8×8的小塊,然后依次放入文件中,這種算法靠丟棄頻率信息實現(xiàn)壓縮,因而圖像的壓縮率越高,頻率信息被丟棄的越多。在極端情況下,JFEG圖像只保留了反映圖貌的基本信息,精細的圖像細節(jié)都損失了。為此,JPEG制定了新一代靜止圖像壓縮標準JPEG2000。

JPEG2000與傳統(tǒng)JPEG最大的不同在于,它放棄了JPEG所采用的以離散余弦變換(DCT)為主的區(qū)塊編碼方式,而采用以小波變換為主的多解析編碼方式,其主要目的是要將影像的頻率成分抽取出來。小波變換將一幅圖像作為一個整行變換和編碼,很好地保存了圖像信息中的相關(guān)性,達到了更好的壓縮編碼效果。下面說明JPEG2000的特點。

(1)高壓縮率。由于在離散小波變換算法中,圖像可以轉(zhuǎn)換成一系列可更加有效存儲像素模塊的“小波”,因此,JPEG2000格式的圖片壓縮比可在現(xiàn)在的JPEG基礎(chǔ)上再提高10%~30%,而且壓縮后的圖像顯得更加細膩平滑,這一特征在互聯(lián)網(wǎng)和遙感等圖像傳輸領(lǐng)域有著廣泛的應(yīng)用。圖3-10所示就是JPEG和JPEG2000分別采用同樣壓縮率(27∶1)下的對比效果。可以很明顯地看到,用JPEG壓縮的圖像有方塊效應(yīng),而用JPEG2000壓縮的圖像則更加平滑、逼真。圖3-10JPEG和JPEG2000對比效果

(2)無損壓縮和有損壓縮。JPEG2000提供無損和有損兩種壓縮方式。無損壓縮在許多領(lǐng)域是必需的,例如醫(yī)學(xué)圖像和檔案圖像等對圖像質(zhì)量要求比較高的情況。同時JPEG2000提供的是嵌入式碼流,允許從有損到無損的漸進解壓。

(3)漸進傳輸?,F(xiàn)在網(wǎng)絡(luò)上的JPEG圖像下載時是按“塊”傳輸?shù)模虼酥荒芤恍幸恍械仫@示,而采用JPEG2000格式的圖像支持漸進傳輸。所謂漸進傳輸,就是先傳輸圖像輪廓數(shù)據(jù),然后再逐步傳輸其他數(shù)據(jù)來不斷提高圖像質(zhì)量?;ヂ?lián)網(wǎng)、打印機和圖像文檔是這一特性的主要應(yīng)用場合。

(4)感興趣區(qū)域壓縮。這一特征可以指定圖片上的感興趣區(qū)域,然后在壓縮時對這些區(qū)域指定壓縮質(zhì)量,或在恢復(fù)時指定某些區(qū)域的解壓縮要求。這是由于小波變換在空間和頻率域上具有局域性,要完全恢復(fù)圖像中的某個局部,并不需要所有編碼都被精確保留,只要對應(yīng)它的一部分編碼沒有誤差就可以了。這樣我們就可以很方便地突出重點。

(5)碼流的隨機訪問和處理。這一特征允許用戶在圖像中隨機地定義感興趣區(qū)域,使得這一區(qū)域的圖像質(zhì)量高于其他圖像區(qū)域。碼流的隨機處理允許用戶進行旋轉(zhuǎn)、移動、濾波和特征提取等操作。

(6)容錯性。JPEG2000在碼流中提供了容錯措施。在無線等傳輸誤碼很高的通信信道中傳輸圖像時,必須采取容錯措施才能達到一定的重建圖像質(zhì)量。

(7)開放的框架結(jié)構(gòu)。為了在不同的圖像類型和應(yīng)用領(lǐng)域優(yōu)化編碼系統(tǒng),JPEG2000提供了一個開放的框架結(jié)構(gòu),在這種開放的結(jié)構(gòu)中編碼器只實現(xiàn)核心的工具算法和碼流的解析。如果解碼器需要,可以要求數(shù)據(jù)源發(fā)送未知的工具算法。

(8)基于內(nèi)容的描述?;趦?nèi)容的描述是JPEG2000的特性之一。通過對圖像進行基于內(nèi)容的描述,便于對其進行索引和搜索。MPEG-7就是支持用戶對其感興趣的各種“描述”進行快速、有效檢索的一個國際標準。

視頻信號的壓縮編碼主要包括國際標準化組織(ISO)和國際電工委員會(IEC)制定的關(guān)于活動圖像的編碼標準MPEG-X系列標準和國際電信聯(lián)盟ITU-T關(guān)于電視電話視頻會議的H.26X系列標準等,如表3-1所示。3.3視頻壓縮編碼標準

表3-1視頻壓縮編碼標準3.3.1H.26X系列視頻壓縮編碼標準

H.26X是ITU-T(國際電信聯(lián)盟)及其前身CCITT(國際電報電話咨詢委員會)研究和制定的一系列視頻編碼的國際標準。其中最為廣泛的就是H.261、H.262、H.263和H.264這4個協(xié)議。H.26X與MPEG-X有著緊密的聯(lián)系。在一些MPEG標準中,H.26X就是MPEG-X視頻部分的重要組成。H.261產(chǎn)生于20世紀90年代,可以說是視頻編碼的老前輩,如今已經(jīng)逐漸退出歷史舞臺。H.262是MPEG-2的視頻部分,由于MPEG-2的應(yīng)用十分廣泛,因此H.262目前仍然是最重要的視頻編碼之一。H.263是目前視頻會議所采用的主流編碼,在視頻會議領(lǐng)域占有絕對的市場優(yōu)勢。H.264是最近幾年才出現(xiàn)的新的視頻壓縮標準,屬于MPEG-4的第10部分。在相同圖像質(zhì)量的情況下,H.264有更高的壓縮率,是一種很有市場潛力的視頻壓縮標準。

1.H.261

1) 視頻編碼系統(tǒng)

H.261是ITU-T制定的視頻壓縮編碼標準,也是世界上第一個得到廣泛承認的、針對動態(tài)圖像的視頻壓縮標準。其后出現(xiàn)的MPEG系列標準、H.262以及H.263等數(shù)字視頻壓縮標準的核心都是H.261。可見,在圖像數(shù)據(jù)壓縮方面該標準占據(jù)非常重要的地位,它主要應(yīng)用于視頻會議和可視電話等方面,其系統(tǒng)結(jié)構(gòu)如圖3-11所示。

圖3-11H.261標準的視頻編/解碼系統(tǒng)結(jié)構(gòu)

2)視頻編碼器原理

H.261標準的視頻信源編碼器原理如圖3-12所示,而解碼器的工作原理與編碼器完全相同,這里著重介紹視頻編碼器。

從圖3-12中可以看出,視頻編碼器是由幀內(nèi)編碼、幀間預(yù)測編碼、DCT變換和量化器組成的。圖3-12H.261標準的視頻信源編碼器原理

(1)采用幀內(nèi)編碼。在圖3-12中,兩個雙向選擇開關(guān)由編碼控制器控制。當(dāng)圖中的雙向選擇開關(guān)同時接上支路時,輸入信號直接進行DCT變換,在該變換過程中采用了8×8子塊來完成運算,然后各DCT系數(shù)經(jīng)過Z形掃描展開成一維數(shù)據(jù)序列,再經(jīng)游程編碼后送至量化器。系統(tǒng)中所采用的量化器工作于線性工作狀態(tài),其量化步長由編碼控制。量化輸出信號就是一幅圖像的輸出數(shù)據(jù)流,此時編碼器處于幀內(nèi)編碼模式。

(2)采用幀間預(yù)測編碼。當(dāng)雙向選擇開關(guān)同時接下支路時,輸入信號將與預(yù)測信號相減,從而獲得預(yù)測誤差,然后對預(yù)測誤差進行DCT變換,再對DCT變換系數(shù)進行量化輸出,此時編碼器工作于幀間編碼模式。其中的預(yù)測信號是經(jīng)過如下路徑獲得的:首先量化輸出經(jīng)反量化和反離散余弦變換(IDCT)后,直接送至帶有運動估值和運動補償?shù)膸鎯ζ髦?,其輸出為帶運動補償?shù)念A(yù)測值,該值經(jīng)過環(huán)路濾波器再與輸入數(shù)據(jù)信號相減,由此得到預(yù)測誤差。

應(yīng)注意的是,濾波器開關(guān)在此起到濾除高頻噪聲的作用,可達到提高圖像質(zhì)量的目的。

(3)工作狀態(tài)的確定。除將量化器輸出數(shù)據(jù)流傳至接收端之外,還要傳送一些輔助信息,其中包括運動估值、幀內(nèi)/幀間編碼標志、量化器指示、傳送與否的標志和濾波器開關(guān)指示等,這樣可以清楚地說明編碼器所處的工作狀態(tài),即是采用幀內(nèi)編碼還是采用幀間編碼,是否需要傳送運動矢量,是否要改變量化器的量化步長等。這里需要作如下說明:

· 在編碼過程中應(yīng)盡可能多地消除時間上的冗余度,因而必須將最佳運動矢量與數(shù)據(jù)碼流一起傳輸,這樣接收端才能準確地根據(jù)此矢量重建圖像。

· 在H.261編碼器中,并不總是對帶運動補償?shù)膸g預(yù)測DCT進行編碼,而是根據(jù)一定的判斷標準來決定是否傳送DCT8×8像素塊信息。例如當(dāng)運動補償?shù)膸g誤差很小,使得DCT系數(shù)量化后全為零時,可不傳此信息。對于傳送塊而言,它又可分為幀間編碼傳送塊和幀內(nèi)編碼傳送塊兩種。為了減少誤碼擴散給系統(tǒng)帶來的影響,最多只能連續(xù)進行132次幀間編碼,其后必須進行一次幀內(nèi)編碼。

· 由于在經(jīng)過線性量化、變長編碼后,數(shù)據(jù)將被存放在緩沖器中,因此通常根據(jù)緩沖器的空度來調(diào)節(jié)量化器的步長,以控制視頻編碼數(shù)據(jù)流,使其與信道速率相匹配。

H.261標準采用的混合編碼方法,同時利用圖像在空間和時間上的冗余度進行壓縮,可以獲得較高的壓縮率。這個視頻編碼方案對以后各種視頻編碼標準都產(chǎn)生了深遠影響,其影響直至現(xiàn)在。

3) H.261標準的數(shù)據(jù)結(jié)構(gòu)

在H.261標準中采用層次化的數(shù)據(jù)結(jié)構(gòu),它包括圖像(P)層、塊組(GOB)層、宏塊(MB)層和像素塊(B)層這四層,如圖3-13所示。

編碼的最小單元為8×8的像素塊;4個亮度塊和對應(yīng)的兩個色度塊構(gòu)成一個宏塊;一定數(shù)量的宏塊(33塊)構(gòu)成一個塊組;若干塊組(對于CIF格式為12個塊組)構(gòu)成一幀圖像。每一個層次都有說明該層次信息的頭,編碼后的數(shù)據(jù)和頭信息逐層復(fù)用就構(gòu)成了H.261的碼流。圖3-13H.261數(shù)據(jù)結(jié)構(gòu)

2.H.263

1) H.263與H.261的區(qū)別

H.263標準是一種以甚低碼率通信的視頻編碼方案。所謂甚低碼率視頻編碼技術(shù),是指壓縮編碼后的碼率低于64kb/s的各種壓縮編碼方案。H.263以H.261為基礎(chǔ),其編碼原理和數(shù)據(jù)結(jié)構(gòu)都與H.261相似,但存在下列區(qū)別:

(1)H.263能夠支持更多圖像格式。H.263不僅可以支持CIF和QCIF標準數(shù)據(jù)格式,還可以支持更多原始圖像數(shù)據(jù)格式,如Sub-QCIF、4CIF和16CIF等。

(2)H.263建議有兩種運動估值。H.261標準要求對16×16像素的宏塊進行運動估值,而在H.263標準中,不僅可以16×16像素宏塊為單位進行運動估值,同時還可根據(jù)需要采用8×8像素子塊進行運動估值。

(3)H.263采用半精度像素的預(yù)測值和高效的編碼。在H.261中,運動估值精度范圍為(-16,15);而在H.263中,運動估值精度范圍為(-16.0,+15.5),可見H.263采用了半精度像素。半精度像素預(yù)測采用雙線性內(nèi)插技術(shù),所獲得的結(jié)果如圖3-14所示。

圖3-14雙線性內(nèi)插預(yù)測半精度像素在H.261中對運動矢量采用一維預(yù)測與VLC相結(jié)合的編碼,而在H.263中則采用更復(fù)雜的二維預(yù)測與VLC相結(jié)合的編碼方式。

(4)H.263提高了數(shù)據(jù)壓縮效率。H.263標準中沒有對每秒幀數(shù)進行限制,這樣可以通過減小幀數(shù)來達到數(shù)據(jù)壓縮的目的。另外,在H.263中取消了H.261中的環(huán)路濾波器,并且改進了運動估值的方法,從而提高了預(yù)測質(zhì)量;同時還精減了部分附加信息以提高編碼效率,采用哈夫曼編碼、算術(shù)編碼來進一步提高壓縮比。

在編碼方法上,H.263標準提供了四種可選的編碼模式,即無約束運動矢量算法、基于語法的算術(shù)編碼、高級預(yù)測模式和PB幀模式,從而進一步提高了編碼效率。

2) 四種有效的壓縮編碼方法

(1)無約束運動矢量算法。通常運動矢量的范圍被限制在參考幀內(nèi),而在無約束運動矢量算法中取消了這種限制,運動矢量可以指向圖像之外。這樣,當(dāng)某運動矢量所指的參考像素位于圖像之外時,可以用邊緣圖像值代替這個“不存在的像素”。這種方法能夠幫助改善邊緣有運動物體的圖像質(zhì)量。

(2)基于語法的算術(shù)編碼。在H.261中建議采用哈夫曼編碼,但在H.263中所有的變長編/解碼過程均采用算術(shù)編碼,這樣便克服了H.261中每一個符號必須用固定長度整比特數(shù)編碼的缺點,編碼效率得以進一步提高。

(3)高級預(yù)測模式。通常運動估值是以16×16像素的宏塊為基本單位進行的,而在H.263中的預(yù)測模式下,編碼器既可以一個宏塊使用一個運動矢量,也可以讓宏塊中的4個8×8子塊各自使用一個運動矢量。

盡管使用4個運動矢量需占用較多的比特數(shù),但能夠獲得較好的預(yù)測精度,特別是在此模式下對P幀的亮度數(shù)據(jù)采用交疊塊運動補償(OBMC)方法(即某一個8×8子塊的運動補償不僅與本塊的運動矢量有關(guān),而且還與其周圍的運動矢量有關(guān)),可以大大提高重建圖像的質(zhì)量。

(4)PB幀模式。H.263是ITU-T于1995年公布的低碼率的視頻編碼建議。此建議也吸取了部分MPEG(活動圖像專家組)系列標準的優(yōu)點,PB幀的名稱正是出自MPEG標準。在H.263中的一個PB幀單元包含了兩幀。其中的P幀是經(jīng)前一個P幀預(yù)測所得的結(jié)果,而B幀則是經(jīng)前一個P幀和本PB幀單元中的P幀通過雙向預(yù)測所得的結(jié)果。由此可見,P幀的運動估值與一般的P幀的運動估值相同,但B幀則有所不同,它需要利用雙向運動矢量來計算B幀的前后向預(yù)測值,通常是以它們的平均值作為該B幀的預(yù)測值。

3.H.264

ISOMPEG和ITU-T的視頻編碼專家組VCEG于2003年聯(lián)合制定了比MPEG和H.263性能更好的視頻壓縮編碼標準,這個標準被稱為ITU-TH.264建議或MPEG-4的第10部分標準,簡稱H.264/AVC(AdvancedVideoCoding)。H.264不僅具有高壓縮比(其壓縮性能約比MPEG-4和H.263提高一倍),而且在惡劣的網(wǎng)絡(luò)傳輸條件下還具有較高的抗誤碼性能。H.264支持表3-2所示的三個范疇。

表3-2H.264的幾種應(yīng)用

H.264采用“網(wǎng)絡(luò)友好(NetworkFriendliness)”的結(jié)構(gòu)和語法,以提高網(wǎng)絡(luò)適應(yīng)能力,適應(yīng)IP網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的應(yīng)用。H.264的編碼結(jié)構(gòu)在算法概念上分為兩層:視頻編碼層(VideoCodingLayer,VCL),負責(zé)高效率的視頻壓縮能力;網(wǎng)絡(luò)抽象層(NetworkAbstractionLayer,NAL),負責(zé)以網(wǎng)絡(luò)所要求的恰當(dāng)方式對數(shù)據(jù)進行打包和傳送。H.264的編碼結(jié)構(gòu)框圖如圖3-15所示。VCL和NAL之間定義了基于分組方式的接口,它們分別提供高效編碼和良好的網(wǎng)絡(luò)適應(yīng)性。

圖3-15H.264的編碼結(jié)構(gòu)框圖與H.263和MPEG-4相比,H.264主要在以下方面作了改進:

(1)幀內(nèi)預(yù)測。H.264采用幀內(nèi)預(yù)測模式。幀內(nèi)預(yù)測編碼具有運算速度快、壓縮效率高的優(yōu)點。幀內(nèi)預(yù)測編碼就是用周圍鄰近的像素值來預(yù)測當(dāng)前的像素值,然后對預(yù)測誤差進行編碼。對于亮度分量,幀內(nèi)預(yù)測可以用于4×4子塊和16×16宏塊。4×4子塊的預(yù)測模式有9種(模式0到模式8,其中模式2是DC預(yù)測),16×16宏塊的預(yù)測模式有4種(Vertical、Horizontal、DC和Plane)。對于色度分量,預(yù)測是對整個8×8塊進行的,有4種預(yù)測模式(Vertical、Horizontal、DC和Plane)。除了DC預(yù)測外,其他每種預(yù)測模式對應(yīng)不同方向上的預(yù)測。此外還有一種幀內(nèi)編碼模式,稱為IPCM編碼模式。在該模式中,編碼器直接傳輸圖像的像素值,而不經(jīng)過預(yù)測和變換。在一些特殊的情況下,特別是圖像內(nèi)容不規(guī)則或者量化參數(shù)非常低時,該模式的編碼效率更高。

(2)幀間預(yù)測。H.264采用7種樹狀宏塊結(jié)構(gòu)作為幀間預(yù)測的基本單元,每種結(jié)構(gòu)模式下塊的大小和形狀都不相同,這樣更有利于貼近實際,實現(xiàn)最佳的塊匹配,提高運動補償精度。

在H.264中,亮度分量的運動矢量使用1/4像素精度,色度分量的運動矢量使用1/8像素精度,并詳細定義了相應(yīng)更小分數(shù)像素的插值實現(xiàn)算法。因此,H.264中幀間運動矢量估值精度的提高,使搜索到的最佳匹配點(塊或宏塊中心)盡可能接近原圖,減小了運動估計的殘差,提高了運動視頻的時域壓縮效率。

H.264支持多參考幀預(yù)測,即通過在當(dāng)前幀之前解碼的多個參考幀中進行運動搜索,尋找出當(dāng)前編碼塊或宏塊的最佳匹配。在出現(xiàn)復(fù)雜形狀和紋理的物體、快速變化的景物、物體互相遮擋或攝像機快速地進行場景切換等一些特定情況下,多參考幀的使用會體現(xiàn)更好的時域壓縮效果。

(3)SP/SI幀技術(shù)。視頻編碼標準主要包括三種幀類型:I幀、P幀和B幀。H.264為了順應(yīng)視頻流的帶寬自適應(yīng)性和抗誤碼性能的需求,定義了兩種新的幀類型:SP幀和SI幀。

SP幀編碼的基本原理同P幀相似,仍是基于幀間預(yù)測的運動補償預(yù)測編碼,兩者之間的區(qū)別在于SP幀能夠參照不同參考幀重構(gòu)出相同的圖像幀。利用這一特性,SP幀可取代I幀,廣泛應(yīng)用于流間切換、拼接、隨機接入、快進、快退和錯誤恢復(fù)等功能中,同時可大大降低碼率的開銷。與SP幀相對應(yīng),SI幀是基于幀內(nèi)預(yù)測的編碼技術(shù),其重構(gòu)圖像的方法與SP幀完全相同。

SP幀的編碼效率略低于P幀,但遠遠高于I幀,使得H.264可支持靈活的流媒體應(yīng)用,具有很強的抗誤碼能力,適用于無線信道中的通信。

SP幀分為主SP幀(PrimarySPFrame)和輔SP幀(SecondarySPFrame)。其中,前者的參考幀和當(dāng)前幀屬于同一個碼流,而后者不屬于同一個碼流。主SP幀作為切換插入點,不切換時,碼流進行正常的編碼傳輸;切換時,輔SP幀取代主SP幀進行傳輸。

(4)整數(shù)變換與量化。H.264對幀內(nèi)或幀間預(yù)測的殘差進行DCT變換編碼。為了克服浮點運算帶來的復(fù)雜的硬件設(shè)計,新標準對DCT定義作了修改,使變換時僅使用整數(shù)加減法和移位操作即可實現(xiàn)。這樣,在不考慮量化影響的情況下,解碼端的輸出可以準確地恢復(fù)編碼端的輸入。該變換是針對4×4塊進行的,有助于減少方塊效應(yīng)。

為了進一步利用圖像的空間相關(guān)性,在對色度的預(yù)測殘差和16×16幀內(nèi)預(yù)測的預(yù)測殘差進行整數(shù)DCT變換后,H.264標準還將每個4×4變換系數(shù)塊中的DC系數(shù)組成2×2或4×4大小的塊,進一步做哈達碼(Hadamard)變換。與H.263中8×8的DCT相比,H.264的整數(shù)DCT有以下幾個優(yōu)點:

①減少了方塊效應(yīng)。

②用整數(shù)運算實現(xiàn)變換和量化。整個過程使用了16比特的整數(shù)運算和移位運算,避免了復(fù)雜的浮點數(shù)運算和除法運算。

③提高了壓縮效率。H.264中對色度信號的DC分量進行了2×2的哈達碼變換,對16×16幀內(nèi)編碼宏塊的DC分量采用4×4的哈達碼變換,這樣就進一步壓縮了圖像的冗余度。

(5)熵編碼。H.264標準采用兩種高性能的熵編碼方式:基于上下文的自適應(yīng)可變長編碼(ContextbasedAdaptiveVariableLengthCoding,CAVLC)和基于上下文的自適應(yīng)二進制算術(shù)編碼(ContextbasedAdaptiveBinaryArithmeticCoding,CABAC)。

CAVLC用于亮度和色度殘差數(shù)據(jù)的編碼。經(jīng)過變換量化后的殘差數(shù)據(jù)有如下特性:4×4塊數(shù)據(jù)經(jīng)過預(yù)測、變換和量化后,非零系數(shù)主要集中在低頻部分,而高頻系數(shù)大部分是零;量化后的數(shù)據(jù)經(jīng)過ZigZag掃描后,DC系數(shù)附近的非零系數(shù)值較大,而高頻位置的非零系數(shù)值大部分是1或-1,且相鄰的4×4塊的非零系數(shù)之間是相關(guān)的。CAVLC采用了若干碼表,不同的碼表對應(yīng)不同的概率模型。編碼器能夠根據(jù)上下文,如周圍塊的非零系數(shù)或系數(shù)的絕對值大小,在這些碼表中自動地選擇,盡可能地與當(dāng)前數(shù)據(jù)的概率模型匹配,從而實現(xiàn)上下文自適應(yīng)的功能。

CABAC根據(jù)過去的觀測內(nèi)容,選擇適當(dāng)?shù)纳舷挛哪P?,提供?shù)據(jù)符號的條件概率的估計,并根據(jù)編碼時數(shù)據(jù)符號的比特數(shù)出現(xiàn)的頻率動態(tài)地修改概率模型。數(shù)據(jù)符號可以近似熵率進行編碼,以提高編碼效率。CABAC主要是通過三個方面來實現(xiàn)的,即上下文建模、自適應(yīng)概率估計和二進制算術(shù)編碼。

(6)對傳輸錯誤的魯棒性和對不同網(wǎng)絡(luò)的適應(yīng)性。H.264在視頻編碼和網(wǎng)絡(luò)傳輸層之間定義了一個網(wǎng)絡(luò)抽象層(NetworkAbstractLayer,NAL),將視頻碼流封裝進NAL單元,可以靈活地與不同的網(wǎng)絡(luò)相適配。同時,H.264支持靈活宏塊排序(FlexibleMacroblockOrdering,F(xiàn)MO)、任意條帶排序和數(shù)據(jù)分割等方式,增強了碼流抵抗誤碼和丟包的魯棒性。

近兩年,H.264在技術(shù)實現(xiàn)方面有著突飛猛進的進步,其優(yōu)越的編碼壓縮效率正在逐步表現(xiàn)出來。在2006年初,采用H.264編碼的HDTV信號的碼率為10MB/s,而僅在一年之后,傳輸一路HDTV信號的碼率只需要6MB/s,H.264編碼技術(shù)真正進入了大規(guī)模商業(yè)應(yīng)用階段。目前,H.264的優(yōu)越編碼效率使其在許多環(huán)境中得到應(yīng)用。其中,由于電信線路帶寬的限制,在開展IPTV和手機電視業(yè)務(wù)時,無法采用MPEG-2/H.263編碼標準,需要H.264這樣的更高效的編碼技術(shù)。世界各國計劃在2010年到2015年之間停止模擬電視廣播,全部采用數(shù)字電視廣播,到時HDTV必然會獲得迅猛發(fā)展,所以必須降低成本,而采用H.264可使傳輸費用降低為原來的1/4,這是個十分誘人的前景。我們相信隨著H.264編碼效率的進一步提高,相關(guān)解碼產(chǎn)品的成本將進一步降低。在今后視頻編碼的各個應(yīng)用領(lǐng)域,H.264必將成為視頻的主流編碼標準。

H.264標準的推出,是視頻編碼標準的一次重要進步,它與先前的標準相比具有明顯的優(yōu)越性,特別是編碼效率的提高,使之能應(yīng)用于許多新的領(lǐng)域。盡管H.264的算法復(fù)雜度是編碼壓縮標準的四倍還要多,但隨著半導(dǎo)體技術(shù)的發(fā)展,芯片的處理能力和存儲器的容量都將會有很大的提高,所以H.264今后必然煥發(fā)出蓬勃的生命力,逐漸成為市場的主角。

3.3.2MPEG-X系列視頻壓縮編碼標準

MPEG是活動圖像專家組(MovingPictureExpertsGroup)的縮寫。MPEG-X是一組由IEC和ISO制定發(fā)布的視頻、音頻、數(shù)據(jù)的壓縮標準。它采用的是一種減少圖像冗余信息的壓縮算法,提供的壓縮比可以高達200∶1,同時圖像的質(zhì)量也非常高。MPEG系列標準已成為國際上影響最大的多媒體技術(shù)標準,對數(shù)字電視、視聽消費電子、多媒體通信等信息產(chǎn)業(yè)的發(fā)展產(chǎn)生了巨大而深遠的影響。它具有三方面優(yōu)勢:第一,作為國際標準,MPEG具有很好的兼容性;第二,MPEG能夠比其他壓縮編碼算法提供更高的壓縮比;第三,MPEG能夠保證在提供高壓縮比的同時,使數(shù)據(jù)損失很小?,F(xiàn)在通常用的版本是MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21,它們能夠適用于不同信道帶寬和對數(shù)字影像質(zhì)量有不同要求的場合。

1.MPEG-1

MPEG-1標準由三部分構(gòu)成:第一部分是系統(tǒng)部分,編號為11172-1,它描述了幾種伴音和圖像壓縮數(shù)據(jù)的復(fù)用以及加入同步信號后的整個系統(tǒng);第二部分為視頻部分,主要規(guī)定了圖像壓縮編碼方法,編號為11172-2;第三部分為音頻部分,主要規(guī)定了數(shù)字伴音壓縮編碼,編號為11172-3。MPEG-1標準的基本任務(wù)就是將視頻與其伴音統(tǒng)一起來進行數(shù)據(jù)壓縮,使其碼率可以壓縮到1.5MB/s左右,同時具有可接收的視頻效果并保持視音頻的同步關(guān)系。由于在前面介紹音頻壓縮編碼標準時對音頻編碼進行了介紹,在此僅介紹前兩個部分。

(1)系統(tǒng)部分。MPEG-1標準的系統(tǒng)部分主要按定時信息的指示,將視頻和音頻數(shù)據(jù)流同步復(fù)合成一個完整的MPEG-1比特流,從而便于信息的存儲與傳輸。在此過程中將向數(shù)據(jù)流中加入相關(guān)的識別與同步信息,這樣,在接收端可以根據(jù)這些信息從接收數(shù)據(jù)流中分離出視頻與音頻數(shù)據(jù)流,并分別送往各自的視頻、音頻解碼器進行同步解碼和播放。

(2)視頻部分。與H.261標準相似,MPEG-1標準也采用帶運動補償?shù)膸g預(yù)測DCT變換和VLC技術(shù)相結(jié)合的混合編碼方式。但MPEG-1在H.261的基礎(chǔ)上進行了重大的改進,具體如下:

①輸入視頻格式。MPEG-1視頻編碼器要求其輸入的視頻信號應(yīng)為逐行掃描的SIF格式,如果輸入的視頻信號采用了其他格式,如ITU-RBT601,則必須轉(zhuǎn)換成SIF格式才能作為MPEG-1的輸入。②預(yù)測與運動補償。與H.261標準相同,MPEG-1也采用幀間預(yù)測和幀內(nèi)預(yù)測相結(jié)合的壓縮編碼方案,以此來滿足高壓縮比和隨機存取的要求。為此在MPEG-1標準中定義了三種類型的幀,即I圖像幀、P圖像幀和B圖像幀。

I圖像幀是一種幀內(nèi)編碼圖像幀。它利用一幀圖像中的像素信息,通過去除其空間冗余度來達到數(shù)據(jù)壓縮的目的。

P圖像幀是一種預(yù)測編碼圖像幀。它利用前一個I圖像幀或P圖像幀,采用帶運動補償?shù)膸g預(yù)測的方法進行編碼。該圖像幀可以為后續(xù)的P幀或B幀進行圖像編碼提供參考。

B圖像幀是一種雙向預(yù)測編碼圖像幀。它利用其前后圖像幀(I幀或P幀)進行帶運動補償?shù)碾p向預(yù)測編碼而得到,如圖3-16所示。它本身不為其他幀提供參考,所以不需要進行傳送,但需傳送運動補償信息。

在MPEG-1中是以宏塊16×16像素為單位進行雙向估值的。假設(shè)一個活動圖像中有三個彼此相鄰的宏塊I0、I1和I2,如果已知宏塊I1相對于宏塊I0的運動矢量為mv01,則前向預(yù)測I'1(x)=I0(x+mv01),其中x代表像素坐標;同理,若已知宏塊I1相對于宏塊I2的運動矢量為mv21,那么后向預(yù)測I1(x)=I2(x+mv21),這樣便可獲得雙向預(yù)測公式圖3-16MPEG-1圖像組及其幀間編碼方式

(3-2)

這里需要說明的是,在MPEG中,對于P幀和B幀的使用并未加任何的限制。一個典型的實驗序列的結(jié)果表明:對SIF分辨率,在采用IPBBPBBPBBPBBPBBP結(jié)構(gòu)、速率為1.15MB/s的MPEG-1視頻序列中,其I幀、P幀和B幀的平均碼率大小分別為156kb/s、62kb/s和15kb/s??梢夿幀的速率要遠小于I幀和P幀的速率。然而僅通過增加I幀和P幀之間的B幀數(shù)量并不能獲得更好的壓縮比,這是因為盡管增加了B幀的數(shù)量,但致使B幀與相應(yīng)的I幀和P幀的時間距離增加,從而導(dǎo)致它們之間的時間相關(guān)性下降,也就使得運動補償預(yù)測能力下降。

③視頻碼流的分層結(jié)構(gòu)。MPEG-1數(shù)據(jù)碼流也同樣采用層次結(jié)構(gòu),其結(jié)構(gòu)如圖3-17所示,可見其最基本單元是塊,下面分別進行介紹。

圖3-17MPEG-1碼流分層結(jié)構(gòu)

· 塊。一個塊是由8×8像素構(gòu)成的。亮度信號、色差信號都采用這種結(jié)構(gòu)。它是DCT變換的最基本單元。

· 宏塊。一個宏塊是由附加數(shù)據(jù)與4個8×8亮度塊和2個8×8色差塊組成的。其中附加數(shù)據(jù)包含宏塊的編碼類型、量化參數(shù)、運動矢量等。宏塊是進行運動補償運算的基本單元。

· 片。由附加數(shù)據(jù)與若干個宏塊組成。附加數(shù)據(jù)包括該片在整個圖像中的位置、默認的全局量化參數(shù)等。片是進行圖像同步的基本單元。應(yīng)該說明的是,在一幀圖像中,片越多,其編碼效率越低,但處理誤碼的操作更容易,只需跳過出現(xiàn)誤碼的片即可。

· 圖像。一幅圖像是由數(shù)據(jù)頭和若干片構(gòu)成的。其中數(shù)據(jù)頭包含該圖像的編碼類型及碼表選擇信息等。圖像是最基本的顯示單元,通常被稱為幀。

· 圖像組。一個圖像組是由數(shù)據(jù)頭和若干圖像構(gòu)成的。數(shù)據(jù)頭中包含時間代碼等信息。圖像組中的每一幅圖像既可以是I幀,也可以是P幀或B幀。但需說明的是,GOP中第一幅圖像必須是I幀,這樣便于提供圖像接入點。

· 圖像序列。圖像序列是由數(shù)據(jù)頭和若干圖像組構(gòu)成的。數(shù)據(jù)頭中包含圖像的大小、量化矩陣等信息。④MPEG-1視頻編/解碼原理。MPEG-1視頻編/解碼器的原理如圖3-18所示。從圖中可以看出,其功能包含幀內(nèi)編碼、幀間預(yù)測、量化和VLC編碼等。

· 幀內(nèi)編碼。由于輸入圖像序列的第一幀一定是I幀,因而無需對其進行運動估值和補償,只需要將輸入圖像塊信號進行8×8變換,然后對DCT變換系數(shù)進行量化,再對量化系數(shù)進行VLC編碼和多路復(fù)用,最后存放在幀緩沖器之中即可,其輸出便形成編碼比特流。解碼過程是編碼的逆過程。

· 幀間預(yù)測。從輸入圖像序列的第二幀開始進行幀間預(yù)測編碼,因而由量化器輸出的數(shù)據(jù)序列在被送往VLC及多路復(fù)用器的同時,還被送往反量化器和IDCT變換(DCT反變換),從而獲得重建圖像,以此作為預(yù)測器的參考幀。該過程與接收端的解碼過程相同。

此時首先求出預(yù)測圖像與輸入圖像之間的預(yù)測誤差,當(dāng)預(yù)測誤差大于閾值時,則對預(yù)測誤差進行量化和VLC編碼,否則不傳輸該塊信息,但需將前向和后向運動矢量信息傳輸?shù)浇邮斩?。在實際的信道中傳輸?shù)闹挥袃煞N幀,即I幀和P幀,這樣,在接收端便可以重建I幀和P幀,同時根據(jù)所接收的運動矢量采用雙向預(yù)測的方式恢復(fù)B幀。圖3-18MPEG-1視頻編/解碼器的原理值得注意的是,對于B幀的運動估計過程要進行兩次,一次用過去幀來進行預(yù)測,另一次則要用將來幀進行預(yù)測,因此可求得兩個運動矢量。同時,在編碼器中可以利用這兩個宏塊(過去幀和將來幀)中的任何一個或兩者的平均值和當(dāng)前輸入圖像的宏塊相減,從而得到預(yù)測差。這種編碼方式就是前面介紹的幀間內(nèi)插編碼。

2.MPEG-2

1995年出臺的MPEG-2(ISO/IEC13818)標準所追求的是CCIR601標準的圖像質(zhì)量,即為DVB、HDTV和DVD等制定的3~10MB/s的運動圖像及其伴音的編碼標準。MPEG-2在NTSC制式下的分辨率可達720×486。MPEG-2還可提供廣播級的視頻和CD級的音質(zhì)。MPEG-2的音頻編碼可提供左、右、中聲道及兩個環(huán)繞聲道,以及一個重低音聲道和多達7個伴音聲道(這就是DVD可有8種語言配音的原因)。同時,由于MPEG-2的出色性能表現(xiàn)已能適用于HDTV,使得原打算為HDTV設(shè)計的MPEG-3還未出世就被拋棄了。

MPEG-2的另一特點是,可提供一個范圍較廣的可變壓縮比,以適應(yīng)不同的畫面質(zhì)量、存儲容量以及帶寬的要求。除了作為DVD的指定標準外,MPEG-2還可為廣播、有線電視網(wǎng)、電纜網(wǎng)絡(luò)以及衛(wèi)星直播提供廣播級的數(shù)字視頻。目前,歐洲多國和美、日等國在視頻方面采用MPEG-2標準,而在音頻方面則采用AC-3標準,數(shù)字視頻廣播(Digital

VideoBroadcasting,DVB)標準中的視頻壓縮標準也確定采用MPEG-2,音頻壓縮標準采用MPEG音頻。

MPEG-2標準分為九個部分。第一部分為MPEG-2系統(tǒng),描述多個視頻流和音頻流合成節(jié)目流或傳輸流的方法。第二部分是MPEG-2視頻,描述視頻編碼方法。第三部分為MPEG-2音頻,描述音頻編碼方法。第四部分是一致性,描述測試一個編碼碼流是否符合MPEG-2碼流的方法。第五部分為參考軟件,描述第一、二和三部分的軟件實現(xiàn)方法。第六部分是數(shù)字存儲媒體的命令和控制DSM-CC,描述交互式多媒體網(wǎng)絡(luò)中服務(wù)器和用戶之間的會話信令集。第七部分是高級音頻編碼AAC,規(guī)定了不兼容MPEG-1音頻的多通道音頻編碼。第八部分是一致性DSM-CC。第九部分為實時接口,描述傳送碼流的實時接口規(guī)范。與MPEG-1相比,MPEG-2增加了許多新的特征,主要體現(xiàn)在以下五個方面:

(1)MPEG-2標準的圖像規(guī)范。MPEG-2要求具有向下兼容性(和MPEG-1兼容)和處理各種視頻信號的能力。為了達到這個目的,在MPEG-2中,視頻圖像編碼是既分“檔次”又分“等級”的。按照編碼技術(shù)的難易程度,可將各類應(yīng)用分為不同“檔次”,其中每個檔次都是MPEG-2語法的一個子集。按照圖像格式的難易程度,每個檔次又劃分為不同“等級”,每種等級都是對有關(guān)參數(shù)規(guī)定的約束條件。其中主要檔次/主要等級(MP@ML)涉及的正是數(shù)字常規(guī)電視,其使用價值最大。具體的分檔、分級情況見表3-3,表中給出的速率值僅是上限值。大體上說,低等級相當(dāng)于ITU-TH.261的CIF或MPEG-1的SIF;主要等級與常規(guī)電視對應(yīng);高1440等級粗略地與每掃描行1440樣點的HDTV對應(yīng);高等級大體上與每掃描行1920的HDTV對應(yīng)。從表3-3中也可以看出MPEG-2視頻編碼覆蓋范圍之廣。

表3-3MPEG-2的圖像規(guī)范

(2)場和幀的區(qū)分。在MPEG-2編碼中為了更好地處理隔行掃描的電視信號,分別設(shè)置了“按幀編碼”和“按場編碼”兩種模式,并相應(yīng)地對運動補償作了擴展。這樣,常規(guī)隔行掃描的電視圖像的壓縮編碼與單純的按幀編碼相比,其效率顯著提高。例如,在某些場合中,場間運動補償可能比幀間運動補償好,而在另外一些場合則相反。類似地,在某些情況下,用于場數(shù)據(jù)的DCT的質(zhì)量比用于幀數(shù)據(jù)的DCT的質(zhì)量可能有所改進。由此可見,在MPEG-2中,對于場/幀運動補償和場/幀DCT進行選擇(自適應(yīng)或非自適應(yīng))就成為改進圖像質(zhì)量的一個關(guān)鍵措施之一。

(3)MPEG-2的分級編碼。在表3-3中,同一檔次不同等級間的圖像分辨率和視頻碼率相差很大,例如主要型這一檔次的四個等級對應(yīng)的速率分別為80MB/s、60MB/s、15MB/s和4MB/s。為了保持解碼器的向上兼容性,MPEG-2采用了分級編碼。表3-3中的兩種可分級類型即為兩類不同的分級編碼方法。

信噪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論