版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章信源編碼與數(shù)據(jù)壓縮
數(shù)字通信系統(tǒng)具有許多優(yōu)點(diǎn)而成為當(dāng)今通信的發(fā)展方向。然而自然界的許多信息經(jīng)各種傳感器感知后都是模擬信號,例如語音信號、視頻信號等都是模擬信號。若要利用數(shù)字通信系統(tǒng)傳輸模擬信號,首先需要將模擬信號轉(zhuǎn)換成數(shù)字信號。對于語音信號實(shí)現(xiàn)這種變換就稱為語音編碼。模擬信號實(shí)現(xiàn)數(shù)字化通信一般需要三個(gè)步驟:(1)把模擬信號數(shù)字化,即模數(shù)轉(zhuǎn)換(A/D);(2)進(jìn)行數(shù)字方式傳輸;(3)把數(shù)字信號還原為模擬信號,即數(shù)模轉(zhuǎn)換(D/A)。由于A/D或D/A變換的過程通常由信源編(譯)碼器實(shí)現(xiàn),所以我們把發(fā)端的A/D變換稱為信源編碼,而收端的D/A變換稱為信源譯碼。語音的編碼技術(shù)通常分為三類:波形編碼、參量編碼和混合編碼。語音編碼的分類如圖2-3所示。其中,波形編碼和參量編碼是兩種基本類型。(1)波形編碼波形編碼是將時(shí)間域信號直接變換為數(shù)字代碼,力圖使重建語音波形保持原語音信號的波形形狀。波形編碼比較簡單,先根據(jù)采樣定理對模擬語音信號進(jìn)行采樣,然后進(jìn)行幅度量化,再進(jìn)行二進(jìn)制編碼。譯碼是其反過程,將收到的數(shù)字序列經(jīng)過譯碼和低通濾波恢復(fù)出發(fā)送的語音信號,這就是最簡單的脈沖編碼調(diào)制(PCM)。波形編碼的目標(biāo)是讓譯碼器恢復(fù)出的模擬信號在波形上盡量與編碼前原始波形相一致,也即失真要最小。
波形編碼的方法簡單,具有適應(yīng)能力強(qiáng)、語音質(zhì)量好等優(yōu)點(diǎn),但所用的編碼速率高,在對信號帶寬要求不太嚴(yán)格的通信中得到應(yīng)用,而對頻率資源相對緊張的移動通信來說,這種編碼方式顯然不合適。脈沖編碼調(diào)制(PCM)和增量調(diào)制(△M),以及它們的各種改進(jìn)型自適應(yīng)增量調(diào)制(ADM),自適應(yīng)差分編碼(ADPCM)、子帶編碼(SB)、自適應(yīng)變換編碼(ATC)等,都屬于波形編碼技術(shù)。它們分別在64以及16Kbit/s的速率上,能給出較高的編碼質(zhì)量,當(dāng)速率進(jìn)一步下降時(shí),其性能下降較快。(2)參量編碼參量編碼又稱聲源編碼,是以發(fā)音模型作為基礎(chǔ),在頻率域或其它正交變換域提取模擬話音信號特征參量,并將其變換成數(shù)字代碼進(jìn)行傳輸。解碼為其反過程,將收到的數(shù)字序列經(jīng)變換恢復(fù)特征參量,再根據(jù)特征參量重建語音信號。具體說,參量編碼是通過對語音信號特征參數(shù)的提取和編碼,力圖使重建語音信號具有盡可能高的可靠性,即保持原語音的語意,但重建信號的波形同原語音信號的波形可能會有相當(dāng)大的差別。這種編碼技術(shù)可實(shí)現(xiàn)低速率語音編碼,比特率可壓縮到2kbit/s-4.8kbit/s,甚至更低,但語音質(zhì)量只能達(dá)到中等,特別是自然度較低。線性預(yù)測編碼(LPC)及其它各種改進(jìn)型都屬于參量編碼。(3)混合編碼混合編碼是將波形編碼和參量編碼組合起來,克服了原有波形編碼和參量編碼的弱點(diǎn),結(jié)合各自的長處,力圖保持波形編碼的高質(zhì)量和參量編碼的低速率,在4-16Kbit/s速率上能夠得到高質(zhì)量的合成語音。多脈沖激勵(lì)線性預(yù)測編碼(MPLPC),規(guī)則脈沖激勵(lì)線性預(yù)測編碼(KPELPC),碼本激勵(lì)線性預(yù)測編碼(CELP)等都是屬于混合編碼技術(shù)?;旌暇幋a是適合于數(shù)字移動通信的語音編碼技術(shù)。
2.1波形編碼抽樣定理
抽樣是把時(shí)間上連續(xù)的模擬信號變成一系列時(shí)間上離散的抽樣值的過程。能否由此樣值序列恢復(fù)原信號,是抽樣定理要回答的問題。抽樣定理的原理是,如果對一個(gè)頻帶有限的時(shí)間連續(xù)的模擬信號抽樣,當(dāng)抽樣速率達(dá)到一定數(shù)值時(shí),那么根據(jù)它的抽樣值就能恢復(fù)原信號。也就是說,若要傳輸模擬信號,不一定要傳輸模擬信號本身,只需傳輸按抽樣定理得到的抽樣值即可。因此,抽樣定理是模擬信號數(shù)字化的理論依據(jù)。
1抽樣定理:一個(gè)頻帶限制在(0,fH)赫內(nèi)的時(shí)間連續(xù)信號,如果以Ts=1/fH秒的間隔對它進(jìn)行等間隔(均勻)抽樣,則該信號將被所得到的抽樣值完全確定。抽樣定理告訴我們:若m(t)的頻譜在某一頻率以上為零,則m(t)中的全部信息完全包含在其間隔不大于Ts秒的均勻抽樣序列里。
2量化原理
利用預(yù)先規(guī)定的有限個(gè)電平來表示模擬信號抽樣值的過程稱為量化。時(shí)間連續(xù)的模擬信號經(jīng)抽樣后的樣值序列,雖然在時(shí)間上離散,但在幅度上仍然是連續(xù)的,即抽樣值可以取無窮多個(gè)可能值,因此仍屬模擬信號。如果用N位二進(jìn)制碼組來表示該樣值的大小,以便利用數(shù)字傳輸系統(tǒng)來傳輸?shù)脑?,那么N位二進(jìn)制碼組只能同M個(gè)電平樣值相對應(yīng),而不能同無窮多個(gè)可能取值相對應(yīng)。這就需要把取值無限的抽樣值劃分成有限的M個(gè)離散電平,此電平被稱為量化電平。
均勻量化:把輸入信號的取值域按等距離分割的量化稱為均勻量化。非均勻量化:非均勻量化是一種在整個(gè)動態(tài)范圍內(nèi)量化間隔不相等的量化。
A律壓擴(kuò)特性
律壓擴(kuò)特性
3脈沖編碼調(diào)制(PCM)
脈沖編碼調(diào)制(PCM)簡稱脈碼調(diào)制,它是一種用一組二進(jìn)制數(shù)字代碼來代替連續(xù)信號的抽樣值,從而實(shí)現(xiàn)通信的方式。由于這種通信方式抗干擾能力強(qiáng),它在光纖通信、數(shù)字微波通信、衛(wèi)星通信中均獲得了極為廣泛的應(yīng)用。PCM是一種最典型的語音信號數(shù)字化的波形編碼方式。首先,在發(fā)送端進(jìn)行波形編碼,主要包括抽樣、量化和編碼三個(gè)過程,把模擬信號變換為二進(jìn)制碼組。編碼后的PCM碼組的數(shù)字傳輸方式,可以是直接的基帶傳輸,也可以是對微波、光波等載波調(diào)制后的調(diào)制傳輸。在接收端,二進(jìn)制碼組經(jīng)譯碼后還原為量化后的樣值脈沖序列,然后經(jīng)低通濾波器濾除高頻分量,便可得到恢復(fù)信號。
A律13折線編碼A律13折線的產(chǎn)生是從非均勻量化的基點(diǎn)出發(fā),設(shè)法用13段折線逼近A=87.6的A律壓縮特性。具體方法是:把輸入x軸和輸出y軸用兩種不同的方法劃分。對x軸在0~1(歸一化)范圍內(nèi)不均勻分成8段,分段的規(guī)律是每次以二分之一對分。第一次在0到1之間的1/2處對分,1/2到1之間稱為第8段;第二次在0到1/2之間的1/4處對分,1/4到1/2之間稱為第7段;其余類推。第三次在0到1/4之間在1/8處對分,其余類推。
0到1/128之間為第1段,1/128到1/64之間為第2段。對y軸在0~1(歸一化)范圍內(nèi)采用等分法,均勻分成8段,每段間隔均為1/8。然后把x,y各對應(yīng)段的交點(diǎn)連接起來構(gòu)成8段直線,得到折線壓擴(kuò)特性,其中第1、2段斜率相同(均為16),因此可視為一條直線段,故實(shí)際上只有7根斜率不同的折線。
在13折線編碼中,采用8位二進(jìn)制碼編碼,這8位碼的安排如下:極性碼段落碼段內(nèi)碼
編碼原理
實(shí)現(xiàn)編碼的具體方法和電路很多,如有低速編碼和高速編碼、線性編碼和非線性編碼;逐次比較型、級聯(lián)型和混合型編碼器。目前常用的逐次比較型編碼器原理。
PCM信號的碼元速率和帶寬由于PCM要用N位二進(jìn)制代碼表示一個(gè)抽樣值,即一個(gè)抽樣周期內(nèi)要編N位碼,因此碼位越多,碼元寬度越小,占用帶寬越大。顯然,傳輸PCM信號所需要的帶寬要比模擬基帶信號的帶寬大得多。對于語音信號,則碼元傳輸速率為
4自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制(adaptivepulsecodemodulation,APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長時(shí)間周期里發(fā)生變化。
改變量化階大小的方法有兩種:一種稱為前向自適應(yīng)(forwardadaptation),另一種稱為后向自適應(yīng)(backwardadaptation)。前者是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。
5差分脈沖編碼調(diào)制(DPCM)編碼原理在PCM中,每個(gè)波形樣值都獨(dú)立編碼,與其他樣值無關(guān),這樣,樣值的整個(gè)幅值編碼需要較多位數(shù),比特率較高,造成數(shù)字化的信號帶寬大大增加。然而,大多數(shù)以奈奎斯特或更高速率抽樣的信源信號在相鄰抽樣間表現(xiàn)出很強(qiáng)的相關(guān)性,有很大的冗余度。利用信源的這種相關(guān)性,一種比較簡單的解決方法是對相鄰樣值的差值而不是樣值本身進(jìn)行編碼。由于相鄰樣值的差值比樣值本身小,可以用較少的比特?cái)?shù)表示差值。這樣,用樣點(diǎn)之間差值的編碼來代替樣值本身的編碼,可以在量化臺階不變的情況下(即量化噪聲不變),編碼位數(shù)可以顯著減少,信號帶寬大大壓縮。這種,利用差值的PCM編碼稱為差分PCM(DPCM)。
DPCM系統(tǒng)的組成方框圖
6自適應(yīng)差分脈沖編碼調(diào)制
值得注意的是,DPCM系統(tǒng)性能的改善是以最佳的預(yù)測和量化為前提的。但對語音信號進(jìn)行預(yù)測和量化是復(fù)雜的技術(shù)問題,這是因?yàn)檎Z音信號在較大的動態(tài)范圍內(nèi)變化,為了能在相當(dāng)寬的變化范圍內(nèi)獲得最佳的性能,需要在DPCM基礎(chǔ)上引入自適應(yīng)系統(tǒng)。有自適應(yīng)系統(tǒng)的DPCM稱為自適應(yīng)差分脈沖編碼調(diào)制(AdaptiveDifferencePulseCodeModulation),簡稱ADPCM。
ADPCM的主要特點(diǎn)是用自適應(yīng)量化器取代固定量化器,用自適應(yīng)預(yù)測器取代固定預(yù)測器。自適應(yīng)量化器和自適應(yīng)預(yù)測器的參數(shù)能根據(jù)輸入信號的統(tǒng)計(jì)特性自適應(yīng)于最佳或接近于最佳參數(shù)狀態(tài)。在維持相同的語音質(zhì)量下,ADPCM允許用32kbit/s比特率編碼,這是標(biāo)準(zhǔn)64kbit/sPCM的一半。目前CCITT標(biāo)準(zhǔn)G.721ADPCM廣泛應(yīng)用于無繩電話系統(tǒng),如CT2和DECT等。
ADPCM編碼器的原理圖如上圖所示。對于編碼器,為了便于電路進(jìn)行算術(shù)運(yùn)算,要將A律或μ律八位非線性PCM碼轉(zhuǎn)換為12位線性碼。輸入信號減去預(yù)測信號便得到差分信號。4bit自適應(yīng)量化器將差分信號自適應(yīng)量化為15個(gè)電平,用4個(gè)二進(jìn)制碼表示。這4個(gè)二進(jìn)制碼表示一個(gè)差值信號樣點(diǎn),既為ADPCM編碼器輸出,其傳輸速率為32kb/s。同時(shí),這4個(gè)二進(jìn)制碼送入自適應(yīng)逆量化器,產(chǎn)生一個(gè)量化的差分信號,它再與預(yù)測信號相加產(chǎn)生重構(gòu)信號。重建信號和量化差分信號經(jīng)自適應(yīng)預(yù)測器運(yùn)算,產(chǎn)生輸入信號估值(預(yù)測信號),從而完成反饋。
譯碼器是編碼器的逆變換過程,它包括一個(gè)與編碼器反饋部分相同的結(jié)構(gòu)以及線性PCM碼到A律或μ律的轉(zhuǎn)換器和同步編碼調(diào)整單元。同步編碼調(diào)整單元解決在某些情況下同步級聯(lián)編碼中所發(fā)生的累計(jì)失真。
7增量調(diào)制增量調(diào)制(DeltaModulation)簡稱DM,它是繼PCM后出現(xiàn)的又一種模擬信號數(shù)字傳輸?shù)姆椒?,他可以看成是DPCM的一個(gè)重要特例。其目的在于簡化語音編碼方法。
一個(gè)語音信號,如果抽樣速率很高(遠(yuǎn)大于奈奎斯特速率),則抽樣間隔很小,那么相鄰樣點(diǎn)之間的幅度變化不會很大,相鄰抽樣值的相對大小(差值)同樣能反映模擬信號的變化規(guī)律。
若將這些差值編碼傳輸,同樣可傳輸模擬信號所含的信息。此差值又稱“增量”,其值可正可負(fù)。這種用差值編碼進(jìn)行通信的方式,就稱為“增量調(diào)制”。簡單增量調(diào)制原理波形圖。DM(ΔM)編碼器原理圖
2.2聲碼器
聲碼器是一類語音編碼系統(tǒng)。在發(fā)送端,聲碼器分析語音信號參數(shù),在信道中傳輸分析得到的參數(shù)。在接收端,聲碼器根據(jù)這些參數(shù)合成語音信號。聲碼器系統(tǒng)在語音生成過程中,將語音信號建模為動態(tài)系統(tǒng),并將系統(tǒng)中的某些物理約束量化,這些物理約束是語音信息的有限的描述。
2.2.1語音信號的數(shù)字模型
利用數(shù)字技術(shù)來模擬語音信號的產(chǎn)生稱為語音信號的數(shù)字模型。根據(jù)發(fā)音器官構(gòu)成的數(shù)字模型能產(chǎn)生與發(fā)音器官產(chǎn)生的聲波相對應(yīng)的信號。這種模型是一種線性系統(tǒng),它的一組參數(shù)選定之后,系統(tǒng)的輸出就具有所希望的語音性質(zhì)。發(fā)音系統(tǒng)可以由激勵(lì)源(聲源)和聲道濾波器來描述,其激勵(lì)和聲道形狀都是隨時(shí)間慢變化的。通常認(rèn)為激勵(lì)和聲道的面積函數(shù)在一個(gè)音節(jié)(10~20ms)時(shí)間范圍內(nèi)是近似不變的。
聲道系統(tǒng)可以用全極點(diǎn)模型來描述,其系統(tǒng)函數(shù)為(2.2-1)
系統(tǒng)函數(shù)H(Z)的分子G反映的是語音強(qiáng)度,H(Z)的極點(diǎn)對應(yīng)于語音的共振峰。對大多數(shù)語音來說,全極點(diǎn)模型能很好地模擬聲道的功能。
濁音激勵(lì)信號產(chǎn)生的原理圖如下圖所示。沖激串產(chǎn)生器輸出單位沖激序列,沖激序列之間的間隔即為所要求的基音周期。用單位沖激序列去激勵(lì)傳輸函數(shù)為U(Z)的線性系統(tǒng),經(jīng)過幅度控制后的輸出u(n)即為所要求的濁音激勵(lì)。
清音是由氣流通過一個(gè)物理約束摩擦產(chǎn)生的,因此可以用白噪聲作為清音激勵(lì)。通常采用均值為零、方差為1并在幅度和時(shí)間都為白色分布的序列。將聲道系統(tǒng)、濁音激勵(lì)和清音激勵(lì)綜合在一起構(gòu)成的語音信號產(chǎn)生數(shù)字模型如下圖所示。
該模型采用濁音激勵(lì)和清音激勵(lì)交替對聲道系統(tǒng)進(jìn)行激勵(lì),因此稱為二元激勵(lì)。該模型的相關(guān)參數(shù)包括基音、聲道系統(tǒng)濾波器的極點(diǎn)頻率、幅度參數(shù)等。多數(shù)人語音的基音頻率低于300Hz,成人語音的共振峰集中在500Hz、1500Hz、2500Hz、3500Hz。通過仔細(xì)調(diào)整語音信號數(shù)字模型中的參數(shù),就可以合成高質(zhì)量的語音信號。
2.2.2線性預(yù)測編碼聲碼器
線性預(yù)測編碼聲碼器(LPC)屬于時(shí)域編碼聲碼器,這類聲碼器從時(shí)間波形中提取語音信號的重要特征參數(shù),再將特征參數(shù)編碼、傳輸、解碼,實(shí)現(xiàn)語音合成。
線性預(yù)測編碼系統(tǒng)原理圖
線性預(yù)測編碼系統(tǒng)用全極點(diǎn)線性濾波器模擬聲道系統(tǒng),可以采用線性預(yù)測技術(shù)在時(shí)域得到全極點(diǎn)濾波器的參數(shù)。合成器的激勵(lì)根據(jù)是濁音還是清音選擇基音頻率上的沖激序列或白噪聲序列。發(fā)端編碼器原理圖
收端譯碼器原理圖
2.3數(shù)字移動通信中的語音編碼2.4IS-96CDMA語音編碼2.5用于第三代移動通信系統(tǒng)的自適應(yīng)多速率(AMR)語音編碼2.5.1AMR語音編碼器原理2.5.2AMR語音編碼器的算法及實(shí)現(xiàn)2.5.3采用AMR的實(shí)際系統(tǒng)模型基于電路交換的多媒體3GPP系統(tǒng)說明2.6圖象壓縮編碼
人類感覺器官所接受的各類信息中,約有70%來自視覺。圖像能給人們以直觀而具體的立體彩色形象。而且,通過視頻獲得的視頻圖像信息往往比通過聽覺獲得的音頻信息具有更大的信息量。同時(shí),視頻圖像還具有很多的特點(diǎn),例如直觀、確切、具體、生動等等。所以視頻技術(shù)被廣泛的應(yīng)用于廣播電視,通信,軍事等諸多領(lǐng)域。
2.6.1圖像壓縮編碼的基本概念
圖像的信息量比起語音,文本等的信息量要大的多。例如:一幅512×512象素的圖像,若其灰度為8bit(相當(dāng)于256個(gè)灰度),則其總比特?cái)?shù)為。
如果要在一秒中傳輸完成的話,則數(shù)碼率不應(yīng)低于2.09Mbit/s。
在現(xiàn)實(shí)生活中,數(shù)字圖像信息無論是存儲還是傳輸,都必須經(jīng)過極大的壓縮,否則很難在實(shí)際中應(yīng)用,這就是為什么數(shù)字視頻信號要采用視頻壓縮技術(shù)進(jìn)行壓縮的關(guān)鍵所在。
圖像壓縮編碼的研究對象是數(shù)字編碼。它的目的是完成對圖像的壓縮。圖像信號的固有的統(tǒng)計(jì)特性表明,其相鄰象素之間,相鄰行之間或者相鄰幀之間,都存在著較強(qiáng)的相關(guān)特性。利用某種編碼方式在一定程度上消除這些相關(guān)性,便可實(shí)現(xiàn)圖像信息的壓縮,這就是圖像編碼的核心思想。通過減少圖像序列間的相關(guān)性,減少圖像內(nèi)容之間的冗余,用較少的比特?cái)?shù)來表示圖像,從而實(shí)現(xiàn)圖像的壓縮。
要對圖像進(jìn)行壓縮,就要對圖像的冗余進(jìn)行分析,一般來說,主要將冗余分為以下幾種:
(1)統(tǒng)計(jì)冗余統(tǒng)計(jì)冗余又分為三類,一類叫空間冗余,是指在同一幀畫面中,相鄰的象素間存在的相關(guān)性。它取決于圖像中圖案粗細(xì)程度,例如,規(guī)則的條紋圖像和平坦圖像,它們的空間冗余就很大。另一類叫做時(shí)間冗余,通常對視頻序列而言,除非場景發(fā)生變化,否則相繼幀在時(shí)間上都是連續(xù)的。在前后兩幀中往往包含與當(dāng)前幀相同的背景和對象。只是由于鏡頭的轉(zhuǎn)動或?qū)ο蟮囊苿邮沟每臻g位置變化,運(yùn)動越緩慢,位置額變化越小,因此視頻序列在時(shí)間上具有很強(qiáng)的相關(guān)性。第三類叫做信息熵冗余,對于編碼符號,其平均碼長高于所表示的信息熵,這個(gè)差值就形成了信息熵冗余。它也叫作編碼冗余??臻g冗余,時(shí)間冗余,信息熵冗余都依賴于圖像數(shù)據(jù)的統(tǒng)計(jì)特性。
(2)視覺冗余通常來說,往往是人的眼睛來接受圖像的信息。人眼視覺所感知的事物是非均勻的。所以人眼視覺對空間的某些頻率感覺比較遲鈍。因此對于人眼系統(tǒng)而言,存在頻域冗余。所以可以根據(jù)人類視覺系統(tǒng)的這個(gè)特點(diǎn)來達(dá)到較高的壓縮比。換言之,視頻中不同頻率內(nèi)容的重要性是不一樣的。例如:人眼視覺系統(tǒng)對亮度信號變化相對于色度信號變化的要更敏感一些,所以對色度分量可以進(jìn)行降采樣,同時(shí)保持主觀視覺質(zhì)量不變。YUV4:2:2的色差格式就是對色差分量在水平和垂直兩個(gè)方向上進(jìn)行2:1的降采樣。此外,對信號頻域的各個(gè)分量可以采取不同的量化步長,將人眼視覺不敏感的分量去除,而不會引起主觀質(zhì)量的下降。
(3)結(jié)構(gòu)和知識冗余在某些圖像的某些區(qū)域存在非常強(qiáng)的紋理結(jié)構(gòu),圖像象素值有明顯的分布形式,形成結(jié)構(gòu)冗余,例如自相似性等?;蛘邎D像中包含的信息與某些先驗(yàn)知識有關(guān),例如人的五官位置對于人臉而言就是一種先驗(yàn)知識,這種冗余構(gòu)成知識冗余。
2.6.2圖像編碼方法分類
(1)按圖像壓縮后是否能恢復(fù)為原來圖像,分為有損壓縮(Lossless)和無損壓縮(Lossy)。無損壓縮又叫做無失真編碼或者可逆編碼。有損壓縮又叫做限失真編碼或不可逆編碼。對于無損壓縮,一方面它可以精確的恢復(fù)出原有數(shù)據(jù),但是從另一方面來說,它的壓縮率通常都很低,約在2:1左右,很難達(dá)到實(shí)際應(yīng)用的要求。所以在實(shí)際生活中,都是采用有損壓縮的方法。它用一定的失真來換取壓縮比的增加,現(xiàn)在所有的視頻壓縮標(biāo)準(zhǔn)均采用有損壓縮。
(2)按壓縮算法分類,可以分為預(yù)測編碼、變換編碼、矢量量化、分層編碼、頻帶分割編碼、結(jié)構(gòu)抽取編碼、熵編碼等?,F(xiàn)在的主流算法是預(yù)測編碼(包括運(yùn)動補(bǔ)償)和變換編碼(特別是二維DCT編碼)。在低速的情況下,矢量量化也是有效的手段之一。此外,分層編碼的思路在精致圖像編碼中已成為必須考慮的方法。結(jié)構(gòu)抽取編碼和智能編碼(分析綜合編碼)雖然尚未達(dá)到實(shí)用化,但其研究已經(jīng)非?;钴S。
2.6.3圖像編碼技術(shù)的發(fā)展和國際標(biāo)準(zhǔn)
圖像壓縮編碼技術(shù)自從上個(gè)世紀(jì)40年代研究以來,已經(jīng)有60年的發(fā)展歷史。圖像壓縮編碼技術(shù)可以追溯到1948年提出的電視信號數(shù)字化,已有50多年的歷史。20世紀(jì)50年代的圖像壓縮編碼技術(shù)由于受到電路技術(shù)的制約,僅僅停留在預(yù)測編碼、亞采樣以及內(nèi)插復(fù)原等技術(shù)的研究,還很不成熟。
1969年在美國召開的第一屆“圖像編碼會議”標(biāo)志著圖像編碼作為一門獨(dú)立學(xué)科的誕生。到了七八十年代,圖像壓縮技術(shù)的主要成果體現(xiàn)在變換編碼技術(shù)上,矢量量化編碼技術(shù)也有較大的發(fā)展。80年代末,小波變換理論、分形理論、人工神經(jīng)網(wǎng)絡(luò)理論、視覺仿真理論建立,人們開始突破傳統(tǒng)的信源編碼理論,圖像壓縮編碼向著更高的壓縮率和更好的壓縮質(zhì)量的方向發(fā)展,進(jìn)入了一個(gè)嶄新的發(fā)展時(shí)期。隨著CCITT,ISO,ITU等國際組織開始積極致力于圖像處理的標(biāo)準(zhǔn)化工作以來,圖像壓縮標(biāo)準(zhǔn)已經(jīng)日益成熟,
(1)H.261標(biāo)準(zhǔn)H.261標(biāo)準(zhǔn)是由國際電報(bào)電話咨詢委員會CCITT的一個(gè)專家組1990年12月制定。它是最早出現(xiàn)的視頻編碼建議,它的輸出碼率是p×64Kbit/s(p為1到30的整數(shù),當(dāng)時(shí),只能傳清晰度不太高的圖像,適合于面對面的電視電話;當(dāng)可以傳輸清晰度較好的圖像時(shí),適用于電視會議)。H.261主要是應(yīng)用于ISDN的會議電視和可視電話,采用的算法結(jié)合了可減少時(shí)間冗余的幀間預(yù)測和可減少空間冗余的DCT(離散余弦變換)的混合編碼方法。
(2)H.263標(biāo)準(zhǔn)
1995年,ITU在總結(jié)當(dāng)時(shí)視頻編碼技術(shù)的最新進(jìn)展的基礎(chǔ)上,針對低比特率視頻應(yīng)用制定了H.263標(biāo)準(zhǔn),標(biāo)準(zhǔn)的設(shè)計(jì)目標(biāo)定義為在低比特率的條件下提供中高質(zhì)量運(yùn)動圖像質(zhì)量。隨后的幾年中,ITU進(jìn)行了多次補(bǔ)充以提高其編碼效率,增強(qiáng)編碼功能,進(jìn)一步的補(bǔ)充修訂的版本有1998年的H.263+,2000年的H.263++。H.263系列標(biāo)準(zhǔn)特別適用于在PSTN網(wǎng)絡(luò)、無線網(wǎng)絡(luò)和因特網(wǎng)等環(huán)境下提供視頻業(yè)務(wù),并已經(jīng)被多種可視電話系統(tǒng)采納為終端標(biāo)準(zhǔn)。
(3)MPEG-1和MPEG-2標(biāo)準(zhǔn)MPEG標(biāo)準(zhǔn)是由國際標(biāo)準(zhǔn)化組織的MPEG專家組制定的。MPEG1標(biāo)準(zhǔn)的碼率為1.2Mbit/s左右,可提供30幀CIF(352×288)質(zhì)量的圖像,是為CD—ROM光盤的視頻存儲和播放所制定的。MPEG-1標(biāo)準(zhǔn)視頻編碼部分的基本算法與H.261/H.263相似,采用運(yùn)動補(bǔ)償技術(shù)減少幀間冗余度,二維DCT變換去除空間相關(guān)性,量化后的DCT系數(shù)進(jìn)行VLC(變長編碼)的游程編碼,每個(gè)數(shù)據(jù)塊的直流分量(DC)進(jìn)行預(yù)測差分編碼。MPEG-1中的圖像類型共分四種:幀內(nèi)幀(I)、預(yù)測幀(P)、雙向預(yù)測幀(B)和直流幀(D)。D幀圖像中只含直流分量,是為播出中的“快放”等功能而設(shè)計(jì)的。
MPEG2標(biāo)準(zhǔn)在提高圖像分辨率、兼容數(shù)字電視等方面做了一些改進(jìn),例如它的運(yùn)動矢量的精度為半像素;在編碼運(yùn)算中(如運(yùn)動估計(jì)和DCT)區(qū)分“幀”和“場”;引入了編碼的可分級性技術(shù),如空間可分級性、時(shí)間可分級性和信噪比可分級性等。
(4)MPEG-4標(biāo)準(zhǔn)1992底,國際標(biāo)準(zhǔn)化組織的MPEG專家組決定開發(fā)新的適應(yīng)極低比特率(即小于64kb/s)環(huán)境的音頻/視頻(AV,audio-video)編碼的國際標(biāo)準(zhǔn),即MPEG-4。但由于隨后的H.263系列標(biāo)準(zhǔn)的成功,并考慮到AV領(lǐng)域中消費(fèi)電子、通信和計(jì)算機(jī)(3C)在數(shù)字化的基礎(chǔ)上交叉融合的趨勢后,最終MPEG專家組將MPEG-4標(biāo)準(zhǔn)定位為多媒體的多領(lǐng)域應(yīng)用的一般性框架,而不僅僅針對極低比特率的多媒體通信。MPEG-4的第一個(gè)版本在1999年推出,即國際標(biāo)準(zhǔn)ISO/IEC14496,相比于先前制定的MPEG標(biāo)準(zhǔn),MPEG-4標(biāo)準(zhǔn)的目標(biāo)定義為支持低比特率的多媒體通信和多產(chǎn)業(yè)的多媒體通信的綜合。
在視頻編碼方面,MPEG-4采用了不同以往的編碼技術(shù)——基于視頻內(nèi)容(Content-based)的面向視頻對象VO(VideoObjects)的編碼技術(shù)。定義在一定的視角下,VO的n個(gè)形狀規(guī)則的、具有一定紋理剖面的組合的連續(xù)運(yùn)動序列為視頻對象面VOP(VideoObjectProfile)。VOP描述了VO在一定視角條件下的表面特性。MPEG-4將VOP作為基本的編碼單元,VOP的編碼主要由兩部分組成:一個(gè)是形狀編碼,另一個(gè)是紋理和運(yùn)動信息編碼。
總之,MPEG-4作為新一代視頻編碼標(biāo)準(zhǔn),實(shí)現(xiàn)了基于像素的傳統(tǒng)編碼技術(shù)向基于內(nèi)容的先進(jìn)編碼技術(shù)的轉(zhuǎn)變。其中提出的新的視頻編碼理論和技術(shù)也是現(xiàn)在視頻編碼研究的熱點(diǎn)。需要指出的是,當(dāng)前實(shí)現(xiàn)MPEG-4的編碼方案仍是基于子塊的混合編碼方案,完全實(shí)現(xiàn)MPEG-4提出的目標(biāo)還有大量的工作需要完成。
(5)H.264標(biāo)準(zhǔn)1998年,國際標(biāo)準(zhǔn)化組織(ISO)的活動圖像專家組(MPEG)認(rèn)識到H.26L的潛在優(yōu)點(diǎn),隨之便成立了聯(lián)合視頻組(JVT)。他們一起制定了H.264標(biāo)準(zhǔn)。由于H.264標(biāo)準(zhǔn)采用了許多不同于以往標(biāo)準(zhǔn)中使用的先進(jìn)技術(shù),所以相對于以往的標(biāo)準(zhǔn),在相同的碼率下用H.264標(biāo)準(zhǔn)編碼能夠獲得更高的主客觀質(zhì)量。但該標(biāo)準(zhǔn)也具有較高的復(fù)雜度,針對標(biāo)準(zhǔn)中現(xiàn)有的技術(shù),可以進(jìn)行算法上的優(yōu)化,在主客觀質(zhì)量損傷很小的情況下降低復(fù)雜度,以達(dá)到處理器的實(shí)時(shí)編解碼。同時(shí)H.264的巨大成功也表明視頻編解碼技術(shù)仍然具有較廣闊的研究空間。
2.6.4靜止圖象壓縮編碼及其標(biāo)準(zhǔn)JPEG
靜態(tài)圖象是指單幀圖象進(jìn)行壓縮編碼后的圖象,與前后幀無關(guān),它完全使用本幀的信息進(jìn)行編碼處理,所以又稱幀內(nèi)編碼。位圖方式的圖象不是一種有效的存儲方式,在這種形式的圖象數(shù)據(jù)中,像素和像素之間無論在行還是列方向上都具有很大的相關(guān)性,整體數(shù)據(jù)的冗余度大。在允許一定限度的失真的情況下,可以對圖象數(shù)據(jù)進(jìn)行很大程度的壓縮。
1.JPEG靜態(tài)圖象壓縮標(biāo)準(zhǔn)是由聯(lián)合攝影專家組(JointPhotographicExpertsGroup)制定的。其標(biāo)準(zhǔn)定義了2種基本壓縮編碼方案。(1)變換編碼法(非可逆編碼,有損編碼),它是基于DCT(離散余弦變換)壓縮的編碼方案,可以用較少的bit數(shù)得到較好品質(zhì)的恢復(fù)圖象,作為JPEG標(biāo)準(zhǔn)的基礎(chǔ);(2)預(yù)測編碼法(可逆編碼),是以二維空間的差分脈沖編碼調(diào)制(DPCM)為基礎(chǔ)。這種壓縮標(biāo)準(zhǔn)雖然壓縮率低,但屬于可以完全復(fù)原的可逆編碼無損壓縮。2.基于DCT壓縮的編碼方案
原理:單幀圖象的變換法壓縮是基于圖象的高度相關(guān)性,即在圖象的一個(gè)局部小區(qū)域內(nèi),它們的像素變化不大,利用余弦變換可使能量集中在少數(shù)系數(shù)的特點(diǎn),使該小區(qū)域在變換后大部分系數(shù)等于或接近于0,這樣達(dá)到了用少數(shù)小值范圍的系數(shù)來表示區(qū)域里全部像素的目的。然后進(jìn)行進(jìn)一步壓縮處理,從而取得較高的壓縮比,這就是基于DCT壓縮編碼的原理?;贒CT壓縮編碼的算法包括基本系統(tǒng)和增強(qiáng)系統(tǒng),并且規(guī)定了2種不同類型的工作方式:順序型和累進(jìn)型。基本系統(tǒng)采用順序工作方式,編碼過程中只采用huffman編碼,解碼器只存儲兩張huffman表。增強(qiáng)系統(tǒng)是在基本系統(tǒng)的基礎(chǔ)上擴(kuò)充或增強(qiáng),因此增強(qiáng)系統(tǒng)必須包含基本系統(tǒng)。增強(qiáng)系統(tǒng)采用累進(jìn)的工作方式,編碼過程可采用自適應(yīng)能力的算術(shù)編碼。
基本系統(tǒng)
離散余弦變換(DCT)DCT可是看成是一個(gè)諧波分析儀,它將光強(qiáng)度數(shù)組轉(zhuǎn)換成頻率數(shù)組,該頻率數(shù)組體現(xiàn)了光強(qiáng)度變化的快慢,而DCT逆變換可看成是一個(gè)諧波合成器。假設(shè)原始圖象的尺寸為M×M像素,若對整個(gè)M×M大的數(shù)據(jù)塊做一次DCT,則所需的存儲空間和運(yùn)算時(shí)間都很大,所以將M×M分為若干個(gè)N×N的小塊,當(dāng)N小到一定程度時(shí),若采用變換處理,可能使塊與塊之間邊界上存在著被稱為“邊界效應(yīng)”的不連續(xù)的點(diǎn)。當(dāng)N<8時(shí),邊界效應(yīng)比較明顯,所以JPEG確定DCT用8*8的像素矩陣。
FDCT(ForwardDCT離散余弦正變換)把8*8個(gè)像素變換成64個(gè)空間頻率分量的系數(shù),這些空間頻率系數(shù)組成了輸入信號的頻譜。FDCT輸出64個(gè)基信號的幅值稱作DCT系數(shù),即DCT變換系數(shù)值,64個(gè)變換系數(shù)中包括一個(gè)代表直流分量的DC系數(shù)和63個(gè)代表交流分量的AC系數(shù)。原始的圖像塊經(jīng)DCT變換后,相應(yīng)頻域的系數(shù)組成的圖像塊具有如下特點(diǎn),即圖像的均值(直流系數(shù))位于頻域圖像塊的左上角,離直流分量的距離越遠(yuǎn),系數(shù)代表的圖像交流成分的頻率越高,更具體地說,頻率圖像塊中元素的行值越大,則代表原始圖像塊中在列方向上的交流頻率越高。頻率圖像塊中元素的列值越大,則代表原始圖像塊中在行方向上的交流頻率越高。
IDCT(InverseDCT離散余弦逆變換)是FDCT的逆過程。把64個(gè)DCT變換系數(shù)經(jīng)逆變換運(yùn)算,重建一個(gè)64點(diǎn)的輸出圖像,如果FDCT和IDCT變換計(jì)算所使用的設(shè)備的計(jì)算精度足夠高,且系統(tǒng)未經(jīng)過量化,那么原始的64點(diǎn)信號就能精確地恢復(fù)。由于圖像的相關(guān)性,這63個(gè)AC系數(shù)值大多數(shù)都很小或趨于0值。
量化在JPEG圖像壓縮標(biāo)準(zhǔn)中,采用的線形均勻量化器,量化公式如下:公式中的A(u,v)是量化器的步長,它與(u,v)值有關(guān),就是說隨DCT系數(shù)位置的不同會有不同的值。它們組成了量化表,量化表的尺寸為8*8,與64個(gè)變換系數(shù)一一對應(yīng)。這個(gè)量化表由用戶規(guī)定,并作為編碼器的一個(gè)輸入。量化表中的每個(gè)元素值為1~255之間的任意整數(shù),其值規(guī)定了它所對應(yīng)DCT系數(shù)的量化器步長。
3.差分編碼和行程編碼
8*8子塊的64個(gè)變換系數(shù)經(jīng)量化后需進(jìn)一步做編碼處理。自然景物的特點(diǎn)是圖像的灰度變化比較平穩(wěn),所以相鄰直流項(xiàng)系數(shù)DC的數(shù)值差別一般都不大,相鄰子塊之間的直流分量系數(shù)值DC有很強(qiáng)的相關(guān)性,JPEG對DC系數(shù)采用DPCM編碼或差分編碼。DPCM編碼的做法是將整幅圖像中每一個(gè)8*8的變換塊,按從左到右,從上至下的光柵掃描順序抽取其中的直流項(xiàng)系數(shù)進(jìn)行差分編碼。DPCM編碼方式的基本思想是在相鄰數(shù)據(jù)幅度變化不大的情況下,首先存儲第一個(gè)數(shù)據(jù),以后陸續(xù)存儲后一個(gè)數(shù)據(jù)與當(dāng)前數(shù)據(jù)的差值。解碼時(shí),有了第一個(gè)數(shù)據(jù),通過把當(dāng)前數(shù)據(jù)與接收到的數(shù)據(jù)相加,就可以陸續(xù)恢復(fù)原來的數(shù)據(jù)。
即采用下面的方法進(jìn)行編碼和解碼:DPCM編碼公式:DPCM解碼公式:
JPEG對交流系數(shù)AC矩陣用一維編碼方法進(jìn)行處理,并使其按照頻率的次序排列,可以將量化后的AC系數(shù)矩陣,通過Z形掃描(ZigzagSequence)方法展開,將塊的所有交流項(xiàng)系數(shù)連成一個(gè)一維的數(shù)據(jù)串,這樣就使代表相同或相近頻率分量的系數(shù)在一維數(shù)據(jù)中相鄰或相近的位置,之后用行程編碼進(jìn)行編碼。
經(jīng)過DPCM編碼的直流項(xiàng)系數(shù)和經(jīng)過行程編碼的交流項(xiàng)系數(shù),仍然能進(jìn)一步壓縮,做熵編碼。在JPEG算法中一般采用huffman編碼。
4.熵編碼熵編碼是DCT編碼系統(tǒng)的最后一個(gè)處理步驟,熵編碼按DCT系數(shù)(AC和DC系數(shù))的統(tǒng)計(jì)特性進(jìn)一步編碼,實(shí)現(xiàn)無損壓縮。JPEG規(guī)定兩種熵編碼方法:Huffman編碼和算術(shù)編碼,Huffman編碼需要一套或多套Huffman表。
5.JPEG算法的解碼過程
在以上的解碼過程中,如果熵編碼方法是Huffman編碼方法,則熵解碼過程是信息保持不變的,因而是無失真的,即解碼器的輸出能完全恢復(fù)編碼前的數(shù)據(jù)。因?yàn)榱炕^程會帶來失真,因此反量化過程不能精確恢復(fù)量化前的系數(shù)值,正是因?yàn)檫@樣才使我們獲得了較高的壓縮比,所以量化器的設(shè)計(jì)是整個(gè)壓縮算法的關(guān)鍵環(huán)節(jié)。JPEG解碼過程的最后一個(gè)環(huán)節(jié)是反向離散余弦變換IDCT,最終得到原始光柵格式的圖像數(shù)據(jù)。
JPEG算法的編解碼過程中,在離散余弦變換、量化、編碼模型和熵編碼4部分中,只有量化過程是不可逆的,但結(jié)合人眼特性,有目的地設(shè)計(jì)量化器,就能獲得較高的壓縮比而能很好地保持原有圖像的質(zhì)量。JPEG算法可以用軟件實(shí)現(xiàn)也可以用硬件實(shí)現(xiàn)。
2.6.5動態(tài)圖像壓縮編碼標(biāo)準(zhǔn)1.動態(tài)圖像的一般特征動態(tài)圖像是指隨時(shí)間變化的一系列圖像,又稱圖像序列。每秒25-30幀圖像序列就可表示動態(tài)圖像,人的眼睛感覺不到幀間物體的跳躍變化。但動態(tài)圖像的數(shù)據(jù)量將是非常大,僅靠JPEG技術(shù)對每一幀圖像壓縮是不夠的。
2.動態(tài)圖像的壓縮原理壓縮原理一(運(yùn)動補(bǔ)償):在動態(tài)圖像序列中,幀與幀之間存在高度的相關(guān)性,即2個(gè)相鄰圖像的變化是十分相似的,那么可以對兩幀圖像的運(yùn)動變化部分用一定的方法描述,例如運(yùn)動矢量,則第二幀圖像可以看成它的前幀圖像補(bǔ)償該運(yùn)動的結(jié)果,也就是若知道運(yùn)動補(bǔ)償,就可以根據(jù)前幀圖像大致確定本幀圖像。壓縮原理二(插補(bǔ)法):若已知存在一定時(shí)間間隔的2幀圖像,只要該時(shí)間間隔不是很長,假設(shè)為1/5seconds,那么它們中間幀圖像的變化基本上是該2幀圖像的平均變化,即利用該2幀圖像進(jìn)行插補(bǔ),就大致得到第3幀圖像。
3.MPEG標(biāo)準(zhǔn)MPEG(MotionPhotographicExpertsGroup)標(biāo)準(zhǔn)不僅涉及視頻壓縮、視頻伴音還涉及到二者的系統(tǒng)同步問題,分為三個(gè)部分:視頻MPEG-Video、音頻Mpeg-Audio和系統(tǒng)Mpeg-system。
大多數(shù)MPEG標(biāo)準(zhǔn)的產(chǎn)品都是對SIF(SourceInputFormat)格式(352*240*30幀或352*288*25幀)的運(yùn)動圖像進(jìn)行壓縮,能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建師范大學(xué)《文化遺產(chǎn)創(chuàng)新創(chuàng)業(yè)》2021-2022學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)《教育見習(xí)》2021-2022學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)《勞動教育》2023-2024學(xué)年第一學(xué)期期末試卷
- 第二章 數(shù)控系統(tǒng)常見故障與分析課件
- 生產(chǎn)安全事故快報(bào)模板
- 微笑教育課件教學(xué)課件
- 12 荷花課件教學(xué)課件
- 2024年巴彥淖爾道路旅客運(yùn)輸資格證從業(yè)考試
- 2024年拉薩客運(yùn)資格證摸擬考試試題答案解析
- 2024年天津客運(yùn)資格證模擬考試試題
- 分布式光伏發(fā)電項(xiàng)目并網(wǎng)驗(yàn)收調(diào)試報(bào)告
- 企業(yè)發(fā)展規(guī)劃部工作總結(jié)
- 道路開口施工方案
- 咖啡廳室內(nèi)設(shè)計(jì)PPT
- 北師大一年級數(shù)學(xué)上冊期中測試卷及答案
- 小學(xué)二年級上冊美術(shù)課件-5.17漂亮的鐘-嶺南版(14張)ppt課件
- 蘇教版六年級上冊音樂教案全冊
- 江蘇某市政道路地下通道工程深基坑支護(hù)及土方開挖施工專項(xiàng)方案(附圖)
- 生物校本教材—生活中的生物科學(xué)
- 北京市建筑施工起重機(jī)械設(shè)備管理的若干規(guī)定
- 新建時(shí)速200公里客貨共線鐵路設(shè)計(jì)暫行規(guī)定
評論
0/150
提交評論