版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
視音頻壓縮編碼技術(shù)的發(fā)展北京廣播學(xué)院信息工程學(xué)院電視工程系張琦視音頻壓縮編碼技術(shù)的發(fā)展北京廣播學(xué)院信息工程學(xué)院電視工程系張1主要內(nèi)容
一、數(shù)碼率壓縮編碼基本技術(shù)
二、現(xiàn)在應(yīng)用的國際壓縮標(biāo)準(zhǔn)
三、MPEG編碼標(biāo)準(zhǔn)的比較
(一)MPEG-1(二)MPEG-2(三)MPEG-4(四)MPEG-7(五)MPEG-21主要內(nèi)容一、數(shù)碼率壓縮編碼基本技術(shù)二、現(xiàn)在應(yīng)用的國際壓2一、碼率壓縮編碼基本技術(shù)1、信源的數(shù)碼率和壓縮的必要性數(shù)字電視信號要求大容量存儲器,傳輸數(shù)據(jù)率高。4:2:2采樣,8bit量化時,為:216Mb/s,1GB硬盤存:1GB/27MB=37s的節(jié)目。結(jié)論:要使數(shù)字電視信號適合于實際存儲和傳輸,必須壓縮數(shù)據(jù)量,降低傳輸數(shù)據(jù)碼率。前提:壓縮后圖象質(zhì)量要滿足視覺要求。一、碼率壓縮編碼基本技術(shù)1、信源的數(shù)碼率和壓縮的必要性32、信源碼率壓縮的可能性信源數(shù)據(jù)存在各種冗余信息1)空間冗余:相鄰象素、相鄰行信號的相關(guān)性;2)時間相關(guān)冗余:相鄰幀信號的相關(guān)性;可壓縮內(nèi)容:冗余量信息論表述:信息量=數(shù)據(jù)量-冗余量;注:冗余—多余的、重復(fù)的。
2、信源碼率壓縮的可能性信源數(shù)據(jù)存在各種冗余信息4信息已經(jīng)成為經(jīng)濟(jì)的戰(zhàn)略資源,而數(shù)據(jù)壓縮成為多媒體信息處理的關(guān)鍵技術(shù)。在多媒體的傳輸和處理中還有許多問題需要進(jìn)一步解決。例如,如何提高網(wǎng)上傳輸圖像和視頻的質(zhì)量,如何通過網(wǎng)絡(luò)在世界范圍進(jìn)行信息交換?解決這些問題仍需要提高壓縮編碼效率、分級和實用的轉(zhuǎn)碼方法。
3、壓縮編碼的意義信息已經(jīng)成為經(jīng)濟(jì)的戰(zhàn)略資源,而數(shù)據(jù)壓縮成為多媒體信息處理的關(guān)54、MPEG碼率壓縮編碼方式預(yù)測編碼,變換編碼,熵編碼。(1)熵編碼:是無損編碼。熵編碼要預(yù)先知道或估測不同事件出現(xiàn)的概率。熵編碼對出現(xiàn)概率大的事件用短碼字編碼,反之用長碼字編碼,使事件的平均碼長縮短,實現(xiàn)碼率壓縮。
4、MPEG碼率壓縮編碼方式預(yù)測編碼,變64、碼率壓縮編碼方式(2)預(yù)測編碼1)幀內(nèi)預(yù)測編碼
將當(dāng)前像素實際值與其預(yù)測值的差值進(jìn)行量化編碼稱為預(yù)測編碼。預(yù)測值由同一行前面的相臨像素和上面相臨行的相關(guān)像素來產(chǎn)生時,稱為二維預(yù)測。二維預(yù)測可去除空間冗余。預(yù)測精度越高,編碼效率越高。4、碼率壓縮編碼方式(2)預(yù)測編碼1)幀內(nèi)預(yù)測編碼將74、碼率壓縮編碼方式預(yù)測編解碼系統(tǒng)框圖解碼器編碼器
輸入Xe0e0′
e0′QD1DNIQD1DNIQ4、碼率壓縮編碼方式預(yù)測編解碼系統(tǒng)框圖解碼器編碼器輸入X84、碼率壓縮編碼方式2)幀間預(yù)測編碼幀間預(yù)測可去除空間冗余,差值概率分布更集中在0附近,可獲更大壓縮比。幀差信號幀間預(yù)測框圖運(yùn)動估計運(yùn)動補(bǔ)償幀存量化器反量化運(yùn)動矢量,去接收端預(yù)測幀—鏈圖4、碼率壓縮編碼方式2)幀間預(yù)測編碼幀差信號幀間預(yù)測框圖運(yùn)94、碼率壓縮編碼方式3)預(yù)測編碼的意義:畫面上大部分是亮度變化緩慢的平坦部分和慢運(yùn)動部分,空間和時間相關(guān)性強(qiáng),差值信號很??;大部分差值集中在0附近,傳送差值信號減小了原數(shù)據(jù)幅值范圍。原圖像信號的幅值分布概率均勻,而且差值的概率分布很不均勻,這就為后面的熵編碼創(chuàng)造條件。
4、碼率壓縮編碼方式3)預(yù)測編碼的意義:10差值與原圖象的概率分布4、碼率壓縮編碼方式差值與原圖象的概率分布4、碼率壓縮編碼方式114、碼率壓縮編碼方式(3)變換編碼變換編碼,把空間域描寫的圖象變換到一個正交的變換域。空域的一個N×N個象素像塊變成變換域的N×N變換系數(shù)塊。
變換僅是表示方法的變換。原象塊中的象素之間相關(guān)性很強(qiáng);而變換系數(shù)能量集中在直流和少數(shù)低頻系數(shù)上,降低了冗余度。例,二維傅立葉變換,將空間域變換到頻域,在水平和垂直方向上進(jìn)行頻譜展開。下圖表示4、碼率壓縮編碼方式(3)變換編碼12
水平方向8個像素數(shù)據(jù)從時域到頻域的變換:圖像信號被分解成為直流、低頻到高頻各種余弦成分;
DCT系數(shù)表示各頻率幅度的大??;
水平方向8個像素數(shù)據(jù)從時域到頻域的變換:圖像信號被分解成13
變換編碼的基本系統(tǒng):在存儲器中將圖象分成8×8的塊,將塊從空域變換到頻域得8×8個系數(shù)F(u,v)。
量化:對DCT系數(shù)進(jìn)行量化,低頻系數(shù)細(xì)量化,高頻系數(shù)粗量化,并4舍5入,忽略接近或等于0的高頻系數(shù)。將64個量化后系數(shù)進(jìn)行游程編碼,再VLC編碼。接收端經(jīng)解碼、反量化和反變換恢復(fù)圖像塊。4、碼率壓縮編碼方式變換編碼的基本系統(tǒng):4、碼率壓縮編碼方式14變換編碼系統(tǒng)框圖分塊DCT變換量化編碼解碼反量化反DCT變換塊組合輸入數(shù)據(jù)接收輸出信道4、碼率壓縮編碼方式變換編碼系統(tǒng)框圖分塊DCT量化編碼解碼反量化反DCT變換塊輸15圖像內(nèi)容
DCT變換例返回922-150-25-5-6-12-6-1-208-10624133-29312-32-1-20-191-3-633320-5-4212000-4651421-11-24-1143010230-3-1DCTDCT52100000000000000000000000000000000000000000000000000000000-158-4-100100圖像內(nèi)容DCT變換例返回922-150-25-5-6-116DCT分塊90blocks(720pixels)72blocks(576pixels)8pixels1DCTblockYsignalinoneframe8pixelsDCT分塊90blocks(720pixels)17C(u),C(v)=1/u,v=0C(u),C(v)=1u,v≠0f(x,y):變換前像素數(shù)據(jù)F(u,v):變換后的系數(shù)空域數(shù)據(jù)頻域數(shù)據(jù)LeftRightUpperLowerLowHighLowHighxyuvTransformF(u,v)=(2/8)C(u)C(v)ΣΣ[f(x,y)COS{πu(2x+1)/16}COS{πv(2y+1)/16}]DCT(DiscreteCosineTransform)x=0y=077
每個系數(shù)都由原64個像素算出C(u),C(v)=1/u,v=0C18二維DCT的反變換(IDCT)
x,y=0,1,…,N-1每個重建像素幅值都由64個DCT系數(shù)算出二維DCT的反變換(IDCT)x,y=0,1,…,N198×8亮度塊的DCT變換、量化例
0i70u7j7dav7v7量化
DCT變換
0u70u7v798929580758268509791947974816749958992777279654793879075707763459185887368756143898386716673594187818469647157398579826762695537591106-1828-3414183350000000-1000000030000000-1000000000000000-10000000000000004010-22–1000300000000000000000000000000000000000000000000000000000001611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478871031211201017292959811210010399bc量化表8×8亮度塊的DCT變換、量化例0i20二維DCT變換的基圖象二維DCT變換的基圖象21去空間相關(guān)性去空間相關(guān)性228×8亮度塊的DCT反變換、反量化處理例
e反量化后的DCT系數(shù)f反DCT,重建像素樣值g重建樣值與原始值之差
591110–2032–24000360000000000000000000000000000000000000000000000000000000
98979081807967509796898079786649959487787777644793928576757462459089827472725943888780717069574086857870686855398584776967675438
0–55–1–53100–55–1–53100–55–1–52100–55–1–53101–46–1–43201–460-44211–46–1–43200–55–2–521-1e
f
g8×8亮度塊的DCT反變換、反量化處理例5911123DCT系數(shù)的量化
DCT本身并不能進(jìn)行碼率壓縮,DCT只是降低相關(guān)性(冗余度)。數(shù)據(jù)壓縮從量化開始。量化對每個系數(shù)分別用大于1的數(shù)去除,對除得到的系數(shù)取整數(shù),人眼對低頻敏感,對高頻不太敏感,對低頻分量采取細(xì)量化,對高頻分量采取粗量化,高頻分量會多數(shù)變0。丟棄低能量高頻系數(shù)不影響重建圖像的主觀質(zhì)量。改變量化系數(shù)可改變壓縮比。量化是有損壓縮,產(chǎn)生塊效應(yīng)DCT系數(shù)的量化DCT本身并不能進(jìn)行碼率壓縮,DCT24塊效應(yīng)塊效應(yīng)25ACcomponentsaredividedby2DC2222222222222222222222444444444444444444444ACcomponentsaredividedby4LowHighLowHigh自適應(yīng)量化例SensitiveforhumaneyesLesssensitiveforhumaneyes2、4:量化系數(shù)ACcomponentsaredividedby226自適應(yīng)量化結(jié)果AdaptiveQuantization自適應(yīng)量化結(jié)果AdaptiveQuantization27量化系數(shù)的實際確定方法量化系數(shù)的獲得過程:根據(jù)對大量能代表電視節(jié)目素材的各種圖像序列進(jìn)行主觀評價的結(jié)果,對大量的量化系數(shù)進(jìn)行優(yōu)化,使圖像的主觀損傷最小,最后確定一系列具有代表性的量化系數(shù)。量化系數(shù)選擇:根據(jù)應(yīng)用目的、性能、低延時、復(fù)雜度和價位等要求,在一些系數(shù)中選擇。量化系數(shù)的實際確定方法量化系數(shù)的獲得過程:28231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000Zig-zag掃描之字形掃描231-74-12-1-1-2-10-102-510100029231-74-12-1-1-2-10-102-5101000-137000000-400-100000-1-1000000-11000000000000000000000EOB(EndOfBlock)EOBEOBistransmittedinsteadofzeros231-74-12-1-1-2-10-102-510100030游程長度編碼(RLC)為解決連0的表達(dá)方式采用游程編碼。在量化的DCT交流(AC)系數(shù)中,將每一串連0系數(shù)與其后面的一個非0系數(shù)組成一個數(shù)組,并用一對符號表示:
符號1符號2
(游程長度Run,位長)(幅值)游程長度:非零系數(shù)前連0的個數(shù);
幅值:非零系數(shù)值。
例如,下圖
其游程長度編碼結(jié)果:
(25),(0,4)(10),(0,2)(3),(2,2)(-2),(0,2)(2),(7,1)(-1),(0,0)
第一個數(shù)是直流(DC)系數(shù)。游程編碼使64個系數(shù)只需7對符號,用7個碼字表示即可。
游程長度編碼(RLC)為解決連0的表達(dá)方式采用游程編碼31游程長度編碼(RLC)圖返回游程長度編碼(RLC)圖返回32
信息:反映客觀事物的存在狀態(tài)或變化規(guī)律。信息量:香農(nóng)信息論:信息量=數(shù)據(jù)量-冗余量,與事件出現(xiàn)的概率有關(guān)。從N個概率相等的事件中選出一個事件所得的信息量信息熵:若N個事件(符號)中的每個事件之概率不相等,則每個事件所含的信息量不等,并由其概率決定,概率小者信息量大。每一個事件所攜帶的平均信息量稱為熵(H)。熵編碼,是可變長編碼。通過合理的比特數(shù)分配使信號字長與概率相匹配,對概率大的符號給短碼,對概率小的給長碼,以縮短平均字長。(5)熵編碼比特信息:反映客觀事物的存在狀態(tài)或變化規(guī)律。(5)33霍夫曼編碼游程編碼后的熵編碼多用霍夫曼編碼(VLC)。編碼標(biāo)準(zhǔn)提供霍夫曼碼表,根據(jù)游程編碼得到的符號直接查表,得到相應(yīng)的碼字。
碼表是根據(jù)概率分布并對大量典型圖像素材進(jìn)行統(tǒng)計制成的霍夫曼編碼游程編碼后的熵編碼多用霍夫曼編碼(VLC)。34游程編碼后的熵編碼對符號1中的數(shù)據(jù),從亮度和色度的系數(shù)碼表查出霍夫曼碼;符號2中的數(shù)據(jù)仍用自然二進(jìn)數(shù)編碼,也稱可變長整數(shù)(VLI)編碼,碼字長度也是可變的;直流系數(shù)DC采用與相鄰像塊DC的差值編碼;對前面圖中的游程編碼結(jié)果進(jìn)行熵編碼,結(jié)果是:11011001101110100111111110010101101111101001010圖游程編碼后的熵編碼對符號1中的數(shù)據(jù),從亮度和色度的系數(shù)碼表查35壓縮比計算
以上由64個像點(diǎn)樣值編碼所得數(shù)據(jù)的總位數(shù)是47??捎贸闃游宦时硎緣嚎s程度,即用平均每個像點(diǎn)占用多少位來表示。對于此8×8像塊的抽樣位率計算如下:也可以用壓縮比CR來度量壓縮程度。本例按原圖象用8比特量化的8×8像塊計算,可得壓縮比為:壓縮比計算以上由64個像點(diǎn)樣值編碼所得數(shù)據(jù)的總位數(shù)是47。36視頻緩沖校驗器
一個編碼器輸出的數(shù)據(jù)流碼率不是恒定的,輸出碼率高低取決于:量化步長、原圖象的復(fù)雜度。向通道饋送的碼率必須是恒定的。視頻緩沖校驗器作用:編碼器輸出必須有一個視頻緩沖校驗器VBV,暫存碼率不恒定的輸入數(shù)據(jù)流,受控以恒定碼率向通道輸出壓縮數(shù)據(jù)流,起緩存數(shù)據(jù)和平滑碼率的作用。碼率控制:用緩存狀態(tài)控制量化器,調(diào)整量化步長,防止緩存溢出。視頻緩沖校驗器一個編碼器輸出的數(shù)據(jù)流碼率不是恒定的,輸出37TM5SRC碼率控制TM5SRC碼率控制38DCT壓縮編碼簡圖DCT壓縮編碼簡圖39多媒體數(shù)據(jù)能被壓縮多少?估計圖形:100000:1?視頻10000:1?(據(jù)人的視覺系統(tǒng)輸入輸出比)圖像:2500:1?一畫含千音(3MB:2KB)語音:1000:1?(據(jù)抽樣頻率40K和每秒說的字?jǐn)?shù)比)文字:3:1?(據(jù)信息論統(tǒng)計)現(xiàn)實VCD:51:1(61:1.2)DVD:50:1(249:5)HDTV:75:1(1493:20)可視電話:78:1(4977:64)多媒體數(shù)據(jù)能被壓縮多少?估計40二、現(xiàn)在應(yīng)用的國際壓縮標(biāo)準(zhǔn)1、ITU-T制定的:
H.261,用于ISDN環(huán)境,電視會議、可視電話等;
H.263,瞄準(zhǔn)極低碼率;
H.263+是H.263的擴(kuò)展,提高了壓縮效率,增強(qiáng)了功能;
H.263++和新近制定的H.26L,提高壓縮效率的同時,還提高了容錯能力,數(shù)據(jù)率可低到28~128kbps,用于無線通訊、互聯(lián)網(wǎng)視頻會議、遠(yuǎn)程監(jiān)控等。(CIForQCIF)2、ISO/IEC制定的:
JPEG,連續(xù)色調(diào)靜態(tài)圖像壓縮編碼標(biāo)準(zhǔn);
MJPEG
,用于連續(xù)的靜止圖像序列壓縮編碼;二、現(xiàn)在應(yīng)用的國際壓縮標(biāo)準(zhǔn)1、ITU-T制定的:41JPEG-2000(JPEG-2),用于
數(shù)碼相機(jī)、網(wǎng)絡(luò)傳輸、
醫(yī)療、
傳真、掃描和打印等靜止圖像編碼標(biāo)準(zhǔn);
MotionJPEG2000,低比特率視頻編碼,基于小波變換;
壓縮率比JPEG高約30%。
JPEG2000(1:137)JPEG(1:137)JPEG-2000(JPEG-2),用于數(shù)碼相機(jī)、網(wǎng)絡(luò)傳42視頻圖像格式一覽表視頻圖像格式一覽表43二、現(xiàn)在應(yīng)用的國際壓縮標(biāo)準(zhǔn)MPEG-1,用于數(shù)字存儲媒體的活動圖象和伴隨音頻的壓縮編碼標(biāo)準(zhǔn)。MPEG-2,活動圖象及其伴音的通用編碼標(biāo)準(zhǔn)MPEG-4,基于音視頻對象的編碼標(biāo)準(zhǔn)H.26L,ITU-T稱H.264,IEC14496-10AVC
MPEG-4的新視頻編碼標(biāo)準(zhǔn),ITU-T和MPEG聯(lián)手制定。MPEG-7,多媒體內(nèi)容描述接口。對多媒體信息檢索制定的標(biāo)準(zhǔn)。MPEG-21,將不同的協(xié)議、標(biāo)準(zhǔn)、技術(shù)等集成在一起,稱為集成的統(tǒng)一多媒體框架。目標(biāo)是建立一個交互的多媒體框架二、現(xiàn)在應(yīng)用的國際壓縮標(biāo)準(zhǔn)MPEG-1,用于數(shù)字存儲媒體的活441992年11月形成國際標(biāo)準(zhǔn),用于數(shù)字存儲媒體的活動圖象和伴隨音頻的壓縮編碼。
輸入圖像標(biāo)準(zhǔn)是SIF:25幀,360×288(PAL);30幀,360×240(NTSC);4:2:0抽樣。只規(guī)定了逐行掃描的句法,不能用于隔行掃描。碼率可達(dá)1.5Mbps。MPEG-1不能提供分級編碼,也不適合在傳輸條件差的環(huán)境中應(yīng)用。解碼后的SIF分辨率圖像擴(kuò)展到全屏幕,得到的圖像質(zhì)量和VHS相當(dāng)。應(yīng)用于CD-ROM交互,VCD立體聲的編碼達(dá)到CD質(zhì)量。標(biāo)準(zhǔn)分五個部分:系統(tǒng),視頻,音頻,一致性測試,參考軟件三、MPEG編碼標(biāo)準(zhǔn)的比較
(一)MPEG-1標(biāo)準(zhǔn)
1992年11月形成國際標(biāo)準(zhǔn),用于數(shù)字存儲媒體的活動圖象和伴45MPEG-1音頻編碼標(biāo)準(zhǔn)
音頻部分只允許單聲道和立體聲;定義了48kHz、44.1kHz、32kHz三種采樣頻率;三層編碼(LayerⅠ,Ⅱ和Ⅲ)數(shù)據(jù)率分別為192、128、96kbps,MPEG-1的音頻LayerⅢ簡稱MP3。MPEG-1標(biāo)準(zhǔn)的應(yīng)用情況:VCD、CD-ROM;PC的音視頻格式;Windows95/98/NT的MPEG-1軟件解碼器;
在歐洲和加拿大數(shù)字音頻廣播(DAB);網(wǎng)絡(luò)交換音樂的編碼廣泛應(yīng)用MP3文件。MPEG-1音頻編碼標(biāo)準(zhǔn)
音頻部分只允許單聲道和立體聲;定46分塊:視頻采用基于塊的混合編碼;時間預(yù)測:對活動圖像序列進(jìn)行幀間預(yù)測;運(yùn)動估計和運(yùn)動補(bǔ)償:減小預(yù)測誤差;DCT變換:對預(yù)測差值進(jìn)行DCT變換;空間預(yù)測:去空間冗余;量化:對DCT系數(shù)進(jìn)行非線性量化。編碼:游程編碼和VLC編碼。三種編碼圖象:幀內(nèi)編碼I幀,前向預(yù)測P幀,雙向預(yù)測B幀MPEG編碼的基本算法分塊:視頻采用基于塊的混合編碼;MPEG編碼的基本算法47
(1)運(yùn)動估計:以宏塊為單位,用塊匹配法找出運(yùn)動矢量(搜索,判據(jù))(2)運(yùn)動補(bǔ)償:據(jù)運(yùn)動矢量在重建幀中讀出預(yù)測塊,(3)計算預(yù)測誤差,(4)對預(yù)測誤差進(jìn)行DCT,(5)對DCT量化;(6)RLC和VLC編碼;(7)對運(yùn)動矢量編碼并與圖象數(shù)據(jù)復(fù)用;(8)經(jīng)緩存控制輸出。
1幀間預(yù)測編碼步驟
(1)運(yùn)動估計:以宏塊為單位,用塊匹配法找出運(yùn)動矢量(搜索48
MPEG-1視頻編碼器MPEG-1視頻編碼器492運(yùn)動矢量:運(yùn)動物體的位移矢量dx,dy若第K-1幀的運(yùn)動物體位置中心點(diǎn)為(x1,y1),在第K幀中移動到(x1+dx,y1+dy)。須將第K幀(x1+dx,y1+dy)點(diǎn)的運(yùn)動物體與第(K-1)幀的(x1,y1)點(diǎn)相減。
3運(yùn)動估計:求運(yùn)動矢量的過程去接收機(jī)
差值
當(dāng)前幀-
運(yùn)動補(bǔ)償
過去幀
運(yùn)動估計去后級預(yù)測值運(yùn)動矢量幀內(nèi)
幀間2運(yùn)動矢量:運(yùn)動物體的位移矢量dx,dy若第K-1幀50
4運(yùn)動補(bǔ)償運(yùn)動補(bǔ)償:利用運(yùn)動矢量從前一幀內(nèi)讀出預(yù)測象塊,形成當(dāng)前幀運(yùn)動物體的預(yù)測值。預(yù)測編碼:對預(yù)測獲得的差值及運(yùn)動矢量進(jìn)行編碼。
5塊匹配:對視頻圖象分成宏塊(常用16×16的宏塊),以宏塊為單位在前一幀搜索與當(dāng)前宏塊內(nèi)容最相近的宏塊,稱塊匹配。塊匹配的目的是求運(yùn)動矢量。4運(yùn)動補(bǔ)償51運(yùn)動補(bǔ)償?shù)谋匾祷剡\(yùn)動補(bǔ)償?shù)谋匾祷?2運(yùn)動估計圖解
abc當(dāng)前幀后一幀運(yùn)動矢量MV運(yùn)動估值,找到匹配塊將匹配塊與當(dāng)前宏塊的差值以及運(yùn)動矢量進(jìn)行編碼前一幀運(yùn)動估計圖解a53塊匹配搜索塊匹配搜索54塊匹配是一個搜索過程,采用均方誤差準(zhǔn)則或絕對誤差準(zhǔn)則作為塊匹配準(zhǔn)則。匹配的過程就是求這些誤差最小值的過程。均方誤差(MSE)定義為絕對誤差(MAD)定義為
Sk(m,n)當(dāng)前的圖像塊;
Sk-1(m+i,n+j)在前一幀搜索窗內(nèi)搜索的塊。
塊匹配準(zhǔn)則塊匹配是一個搜索過程,采用均方誤差準(zhǔn)則或絕對誤差準(zhǔn)則塊55運(yùn)動補(bǔ)償圖解4:2:0亮度和色度宏塊運(yùn)動補(bǔ)償圖解4:2:0亮度和色度宏塊56雙向預(yù)測B幀雙向預(yù)測B幀57MPEG-1標(biāo)準(zhǔn)的視頻解碼器VLC解碼器先解出圖像頭信息,確定圖像類型,提供預(yù)測方式和運(yùn)動矢量等信息,解出量化的DCT系數(shù)。反量化還原DCT系數(shù),反DCT還原出像塊的預(yù)測差值,預(yù)測差值再與當(dāng)前的預(yù)測值相加,恢復(fù)像素值。經(jīng)過運(yùn)動補(bǔ)償,得到相應(yīng)的預(yù)測值。還原的圖像數(shù)據(jù)存儲在緩沖器里,經(jīng)重新排序后,按圖像顯示順序輸出。MPEG-1標(biāo)準(zhǔn)的視頻解碼器VLC解碼器先解出圖像頭信息,確58輸入緩沖解碼VLDIQIDCT前向運(yùn)動補(bǔ)償緩沖器內(nèi)插運(yùn)動補(bǔ)償后向運(yùn)動補(bǔ)償前面幀存后面幀存輸出輸入量化表
MPEG-1解碼器簡圖重建幀輸入緩沖解碼VLDIQIDCT前向運(yùn)動補(bǔ)償緩沖器內(nèi)插運(yùn)動補(bǔ)償59MPEG的視頻數(shù)據(jù)流結(jié)構(gòu)MPEG對運(yùn)動圖像序列的編碼數(shù)據(jù)用6層結(jié)構(gòu)表示:圖像序列層:由連續(xù)圖像組成,用序列終止符結(jié)束。圖像組層:圖像組(GOP)由幾幀連續(xù)圖像組成,是隨機(jī)存取單元,其第一幀總是I幀。圖像層:圖像(幀)編碼的基本單元,獨(dú)立的顯示單元。宏塊條層:重新同步單元。宏塊層:MB運(yùn)動估計的基本單元。塊層:塊(B)DCT的單元。塊數(shù)據(jù)由圖像數(shù)據(jù)加塊結(jié)束符(EOB)組成。MPEG的視頻數(shù)據(jù)流結(jié)構(gòu)MPEG對運(yùn)動圖像序列的編碼數(shù)據(jù)用60數(shù)據(jù)流結(jié)構(gòu)圖像組8×8圖像組宏塊條宏塊塊圖像組圖像圖像序列數(shù)據(jù)流結(jié)構(gòu)圖像組8×8圖像組61GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖像SC圖像頭條1條2條3…條m條SC條頭宏塊1宏塊2宏塊3…宏塊nY1宏塊編碼信息Y2Y3Y4C1C28×8系數(shù)塊序列層GOP層圖像層宏塊層像塊層序列SC序列擴(kuò)展序列頭GOP2…序列EC0x000001B3GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖62宏塊結(jié)構(gòu)
(a)4:4:4(b)4:2:2
YCBCRYCB
CR
5
6
123(c)4:2:0YCBCR4宏塊結(jié)構(gòu)(a)4:4:463
MPEG的圖像組I幀:幀內(nèi)編碼,提供進(jìn)入壓縮圖像數(shù)據(jù)的隨機(jī)存取點(diǎn),是圖像組(GOP)的第一幀。幀間編碼:P幀和B幀P幀,用前面最靠近的I幀或P幀進(jìn)行預(yù)測,稱正向預(yù)測。B幀,稱為雙向幀或內(nèi)插幀,它既用前面P幀和I幀又用它后面的P幀作為參考幀,進(jìn)行雙向預(yù)測,通過內(nèi)插得到重建幀。大的圖像組包含10~15幀圖像。小圖像組只有2~3幀圖像。MPEG的圖像組I幀:幀內(nèi)編碼,提供進(jìn)入壓縮圖像數(shù)64視音頻壓縮編碼技術(shù)的發(fā)展課件65
(1)“開放性”的視頻碼流:
I幀在碼流中出現(xiàn)的位置和頻率,可根據(jù)圖像序列中隨機(jī)存取和景物切換的需要進(jìn)行選擇。相鄰最近的I與P幀或P幀之間的B幀數(shù)目可以選擇。(2)I,P,B三種圖象的數(shù)據(jù)壓縮比:
2~5:1,5~10:1,20~30:1
(3)圖象的編碼順序和顯示順序不相同視頻碼流的特征顯示次序
(原始圖像次序)
14237561089131112……IPBBPBBPBBPBB……編碼次序(1)“開放性”的視頻碼流:視頻碼流的特征66視音頻壓縮編碼技術(shù)的發(fā)展課件67(二)MPEG-2標(biāo)準(zhǔn)(ISO/IEC13818)“活動圖象及其伴音的通用編碼”,94年11月公布;用于DVB,HDTV,DVD。
MPEG-2和MPEG-1的圖像結(jié)構(gòu)相同。
MPEG-2通用性較強(qiáng),滿足對圖像質(zhì)量和傳輸速率的多層次要求,技術(shù)成熟。圖像格式:704×576(PAL)和704×480(NTSC),碼率為3~15Mbps;9Mbps模擬分量質(zhì)量;能處理逐行掃描和隔行掃描圖像,包括16:9寬高比圖像格式;(二)MPEG-2標(biāo)準(zhǔn)(ISO/IEC13818)“68MPEG-2標(biāo)準(zhǔn)解決了通用性和特殊要求,定義了不同的類和級考慮到和MPEG-1兼容;有可分級性、靈活性和廣泛的適應(yīng)性,系統(tǒng)和傳送規(guī)定更詳細(xì)和完善,規(guī)定了多路節(jié)目復(fù)用方式,兼顧與ATM信元適配;支持多聲道的音頻編碼;先進(jìn)音頻編碼(AAC)MPEG-2標(biāo)準(zhǔn)解決了通用性和特殊要求,定義了不同的類和級69
1MPEG-2的類(Profile)和級(Level)類:針對不同的應(yīng)用規(guī)定了若干個語法子集,這就是“類”?!邦悺币?guī)定可用那些語法元素,怎么用。共六類:高類(HP),主類(MP),空間可分級類(SSP),信雜比可分級類(SNRSP),簡單類(SP),4:2:2類。它們基于一個共同的語法準(zhǔn)則。級:每個類中按參數(shù)不同又分四個級。“級”規(guī)定語法元素的值可怎樣取。1MPEG-2的類(Profile)和級(Lev70MPEG-2類和級的組合352×288,30幀720×576,30幀1440×1152,60幀1920×1152,60幀4/316/9MPEG-2類和級的組合352×288,30幀720×5771
MPEG-2級和類的最大約束參數(shù)MPEG-2級和類的最大約束參數(shù)72MPEG-2視頻編碼的分級MPEG-2的分級擴(kuò)展:空間分級、時間分級、SNR分級和數(shù)據(jù)分流。分級作用:對傳輸通道和復(fù)雜性不同的客戶端提供不同質(zhì)量的服務(wù)??沼蚍旨墸捍笮〔煌瑘D像的兼容傳送,時域分級:用于不同幀頻圖像的兼容傳送;SNR分級實現(xiàn)不同質(zhì)量的視頻服務(wù)兼容;數(shù)據(jù)分流:解碼的重要信息放在一起,用部分頻帶以較高的信噪比發(fā)射,保證接收。相對次要數(shù)據(jù)以較低能量發(fā)射。MPEG-2視頻編碼的分級MPEG-2的分級擴(kuò)展:空間分級、73視音頻壓縮編碼技術(shù)的發(fā)展課件74MPEG-2解碼重建像塊差值每個GOP的頭部送一個量化矩陣用兩個碼表解碼運(yùn)動矢量重建像塊數(shù)據(jù)提取各種參數(shù)MPEG-2解碼重建像塊差值每個GOP的頭部送一個量化矩陣用75
MPEG-2系統(tǒng)部分規(guī)定:如何將視頻和音頻以及數(shù)據(jù)的基本碼流組成一個或多個適合于存儲和傳輸?shù)膯我淮a流;如何加時間(同步)信息。基本碼流ES:編碼器輸出的視頻和音頻數(shù)據(jù)流。打包的基本流(PES):ES打包形成,長度可變,一般是一個存取單元(一個視頻幀或音頻幀的長度)。節(jié)目碼流(PS):幾個具有公共的時間基準(zhǔn)的PES經(jīng)節(jié)目復(fù)用形成的單一碼流。適合交互式多媒體應(yīng)用。傳輸碼流(TS):傳輸復(fù)用器輸出。輸入的PES可以具有公共時間基準(zhǔn)(可先節(jié)目復(fù)再TS復(fù)用),也可是各自獨(dú)立的時間基準(zhǔn)(直接TS復(fù)用)。
TS小包長度固定為188個字節(jié)。TS適合于有噪聲或介質(zhì)損耗的環(huán)境中存儲或傳輸。2系統(tǒng)傳輸層的作用和結(jié)構(gòu)MPEG-2系統(tǒng)部分規(guī)定:2系統(tǒng)傳輸層的作用和結(jié)構(gòu)76
系統(tǒng)復(fù)用的結(jié)構(gòu)框圖視頻編碼器音頻編碼器打包器打包器PS復(fù)用TS碼流PS碼流PESES視頻音頻數(shù)據(jù)編碼器數(shù)據(jù)TS復(fù)用系統(tǒng)復(fù)用的結(jié)構(gòu)框圖視頻編碼器音頻編碼器打包器打包器PST773PES的結(jié)構(gòu)3Byte1Byte2Byte2bit14bit1Byte
PacketStartStreamPESPacket10PESHeaderPESHeaderPESHeaderPESPacketCodePrefixIDLengthFlagsLengthFieldsDateBlock
SCPRDACROCPDESCRRATETMACCRCEXTVariableLength起始碼;包識別ID;PES長度表示;PES頭部標(biāo)志包含:SC,加擾指示;PR,優(yōu)先級指示;DA,相配合的數(shù)據(jù);CR,有無版權(quán);OC,原版或拷貝;PD,有無PTS(顯示時間標(biāo)志)或DTS(解碼時間標(biāo)志);ESCR,表示是否有基本碼流的時鐘基準(zhǔn)信息;
RATE,是否有基本流速率信息;TM,是否有8比特字段說明數(shù)字存儲媒體(DSM)的模式;AC,未定義;CRC,是否有CRC字段;EXT,是否有擴(kuò)展標(biāo)志。
3PES的結(jié)構(gòu)3Byte1Byte784傳輸碼流(TS)和節(jié)目碼流(PS)結(jié)構(gòu)4傳輸碼流(TS)和節(jié)目碼流(PS)結(jié)構(gòu)79包頭PS包1PS碼流由一個或多個具有公共時間基準(zhǔn)的PES包組成;PS包的長度可變PS碼流構(gòu)成:包頭PS包2…包頭PS包n包SC01SCR節(jié)目復(fù)用速率包填充長度包填充字節(jié)PES1PES2…PESn
PS結(jié)構(gòu)包頭PS包1PS碼流由一個或多個具有公共時間基準(zhǔn)的PES包組80TS碼流由一個或多個PES包組成,這些PES包可以是有一個公共的時間基準(zhǔn),也可以是幾個獨(dú)立的時間基準(zhǔn)。PES包被分割成一個個傳輸包,PES包頭數(shù)據(jù)總是開始一個新的傳輸小包,若PES包在一個傳輸包的中間結(jié)束,余下的長度放入填充字節(jié)TS碼流由TS包組成,TS包的長度固定,為188字節(jié)每個TS包由包頭和凈荷組成。傳輸小包的組成TS碼流由一個或多個PES包組成,這些PES包可以是有一個公81傳輸小包的包頭組成(1)鏈接頭作用1)包同步:用于建立包同步;2)包識別PID:復(fù)用和解復(fù)用的識別信息,靠PID提取基本碼流;3)誤碼處理:發(fā)端對包作0~15的重復(fù)計數(shù),接收端發(fā)現(xiàn)連續(xù)計數(shù)中斷,就會判斷丟失數(shù)據(jù);3)有條件接收:傳輸格式允許包的數(shù)據(jù)作加擾處理,各基本流可獨(dú)立擾亂,傳輸包的連接投要說明是否擾亂,標(biāo)志出解擾密鑰。頭部信息不允許擾亂。
鏈接頭可變長適配頭凈負(fù)荷數(shù)據(jù)
188字節(jié)
4字節(jié)傳輸小包的包頭組成(1)鏈接頭作用鏈接頭可變長適82(2)適配的作用1)定時:一些包的適配頭傳時間信息,即在(PCR)字段傳27MHz時鐘,指出解碼器從碼流中讀完該字段的期望時間。解碼器的時鐘與PCR比較,調(diào)整本時鐘頻率,進(jìn)行同步。2)可隨機(jī)進(jìn)入壓縮碼流在節(jié)目調(diào)節(jié)或更換時應(yīng)該隨機(jī)進(jìn)入音頻和視頻的I幀,在I幀前的視頻序列的頭部應(yīng)該有一個隨機(jī)進(jìn)入點(diǎn)。3)可插入本地節(jié)目。(2)適配的作用1)定時:一些包的適配頭傳時間信息,即在(P83188字節(jié)包頭凈荷包頭凈荷…包頭凈荷適應(yīng)字段81113包同步誤碼指示開始指示傳送優(yōu)先級PID加擾控制適應(yīng)字段控制連續(xù)性計數(shù)器1224可變長可選字段8115適應(yīng)字段長度不連續(xù)性指示隨機(jī)進(jìn)入指示ES優(yōu)先級指示5個標(biāo)志填充字節(jié)14848PCR拼接點(diǎn)倒計時傳送私有數(shù)據(jù)8OPCR適應(yīng)字段擴(kuò)展TS包格式188字節(jié)包頭凈荷包頭凈荷…包頭凈荷適應(yīng)字段81113包誤碼84
5多路節(jié)目雙層復(fù)用TS流系統(tǒng)傳輸復(fù)用器節(jié)目復(fù)用器視頻1ES音頻1ES輔助數(shù)據(jù)節(jié)目1TS流節(jié)目2TS流節(jié)目3TS流節(jié)目nTS流業(yè)務(wù)信息SI::多節(jié)目TS流信道編碼調(diào)制器服務(wù)信息5多路節(jié)目雙層復(fù)用TS流系統(tǒng)傳輸復(fù)用器節(jié)目復(fù)用器視頻185雙層復(fù)用
第1層節(jié)目復(fù)用(ProgramMultiplex):PES有共同的時間基準(zhǔn)。第2層傳輸復(fù)用(TrasportMultIplex):PES可各有獨(dú)立的時間基準(zhǔn)
每個節(jié)目經(jīng)壓縮編碼產(chǎn)生基本流(視頻、音頻、數(shù)據(jù)),打包成PES流,送節(jié)目復(fù)用器。各節(jié)目復(fù)用器輸出的PS和服務(wù)信息經(jīng)傳輸復(fù)用器組合成一個單一的碼流。雙層復(fù)用第1層節(jié)目復(fù)用(ProgramM86ES:ElementarystreamEsmap:programmaptableES1videoES2audioES3AudioESn-1DataESnDataESmap(1)節(jié)目復(fù)用PID1PID2PID3PIDn-1PIDnPIDn+1進(jìn)入節(jié)目復(fù)用器的每個基本碼流都有個包識別符PID
復(fù)用時加一個基本碼流表Elementarystremmap,稱節(jié)目映射表Programmaptable。它包含組成本節(jié)目傳輸流(ProgramTransportStream)各基本碼流的PID、數(shù)據(jù)性質(zhì)與碼流彼此間的關(guān)系等。該基本碼流表的識別符為PIDn+1。經(jīng)“節(jié)目復(fù)用”的碼流稱為“節(jié)目傳輸碼流”。節(jié)目傳輸流節(jié)目復(fù)用ES:Elementarystream(1)節(jié)目復(fù)用進(jìn)入87(2)傳輸復(fù)用傳輸碼流傳輸復(fù)用PTS=PS:Programtranspotstream,
PSmap:programassociationtablePS1PS2PS3
PS4PS5PSmapPID=0對各個節(jié)目的PS流進(jìn)行復(fù)用。加個節(jié)目碼流表ProgramStreammap,或稱節(jié)目組合表Programassociationtable,它包含各節(jié)目復(fù)用的節(jié)目映射表PIDn+1。它本身的識別符PID=0。節(jié)目的傳輸解復(fù)用過程如下:(2)傳輸復(fù)用傳輸碼流傳輸對各個節(jié)目的PS流進(jìn)行復(fù)用。節(jié)目的88
識別一個節(jié)目及其內(nèi)容需二個步驟:a.利用PID=0的碼流中的節(jié)目組合表找出有該節(jié)目映射表的碼流PIDn+1;b.從節(jié)目映射表中找到該節(jié)目的各個基本流的PID;解復(fù)用濾波器即被設(shè)置到所找節(jié)目的基本流上。
識別一個節(jié)目及其內(nèi)容需二個步驟:895統(tǒng)計復(fù)用定義:傳輸信道帶寬恒定,傳送總碼率須恒定。信道中復(fù)用的各節(jié)目的傳輸碼率是不恒定的,可在各VBR節(jié)目之間實行按圖象復(fù)雜度分配碼率的原則,即統(tǒng)計復(fù)用。復(fù)雜度:快速運(yùn)動、細(xì)節(jié)多的圖象所需壓縮碼率比靜止的、細(xì)節(jié)少的圖象高的多。若各節(jié)目都以恒定比特率CBR傳輸,借助緩沖器反饋控制量化步長,使復(fù)雜圖象質(zhì)量降低;若各節(jié)目用可變碼率VBR傳輸,按圖象內(nèi)容分配碼率,可保證圖象質(zhì)量均衡。如,DVD、SVCD采用VBR提高圖像質(zhì)量。關(guān)鍵問題:對圖象序列隨時進(jìn)行復(fù)雜度估計;實時對視頻業(yè)務(wù)動態(tài)分配帶寬。在CBR信道上傳送VBR視頻壓縮圖象,需有信道緩存器進(jìn)行平滑;采取碼率控制,緩存器的占有率反饋到控制器,調(diào)節(jié)各編碼器的量化步長。5統(tǒng)計復(fù)用定義:傳輸信道帶寬恒定,傳送總碼率須恒定。信90控制器節(jié)目編碼節(jié)目編碼節(jié)目編碼節(jié)目編碼復(fù)用圖像復(fù)雜度分析碼率分配恒定的總碼率視頻輸入統(tǒng)計復(fù)用系統(tǒng)
91SanghooLee提出的動態(tài)分配帶寬的算法根據(jù)每個視頻圖像源所需傳輸碼率、在一個GOP種可提供的傳輸碼率和虛擬緩存器狀態(tài),計算每個圖像源的參考帶寬之間的關(guān)系,決定分配給視頻源的帶寬。1據(jù)信道提供的傳輸總碼率、圖像編碼類型、每個源的GOP結(jié)構(gòu)和總的虛擬緩存器的當(dāng)前狀態(tài),決定給每個視頻源的帶寬;據(jù)帶寬的最佳分布函數(shù)估計一下視頻源的GOP所需的帶寬;據(jù)每個視頻源的參考帶寬和估計帶寬,給每個視頻源分配帶寬;
SanghooLee提出的動態(tài)分配帶寬的算法根據(jù)每個視頻圖92空間復(fù)雜度(spatialinformation-SI)和時間復(fù)雜度(temporalinformation-TI
)的計算,基于Sobelfilters(1)
i,j
:horizontalandverticalpositionsofthepixels;Sobelh,Sobelv:horizontalandverticalFIRvaluesofthefilter.
STD:標(biāo)準(zhǔn)偏離算子(2)
n,n–1:currentframeandthepreviousone.
TheoverallSIandTIconcerningthepicturesequencecanbegiveneitherbytheiraveragevaluesorbytheirmaximumvaluesineachframe.空間復(fù)雜度(spatialinformation-SI)936解碼與編碼的同步和時間標(biāo)志編解碼的同步、圖象和聲音的同步:顯示前重建壓縮前的圖象次序;音頻和視頻同步顯示。原因:I、P、B幀數(shù)據(jù)量不同;解碼輸入圖像次序不同;視音頻ES交錯傳送。插入時間標(biāo)志(timestamp):系統(tǒng)時鐘:STC,90kHz,系統(tǒng)時鐘基準(zhǔn):SCR,從STC抽樣得到,33bit,插在每個大包頭部第5到第9字節(jié),指明SCR的最后一個字節(jié)離開編碼器的時間,在解碼器的輸入端提取這個時間。顯示時間戳PTS,出現(xiàn)顯示單元的時間;解碼時間戳DTS,從基本碼流解碼緩存移走存取單元全部字節(jié)的時間。返回6解碼與編碼的同步和時間標(biāo)志編解碼的同步、圖象和聲音的同94MPEG系統(tǒng)延時模型音頻輸出視頻輸出固定延時解碼器編碼器緩存器編碼器解碼器緩存器緩存器緩存器系統(tǒng)編碼和復(fù)用系統(tǒng)編碼和復(fù)用存儲和傳送視頻輸入音頻輸入可變延時可變延時固定延時MPEG系統(tǒng)延時模型音頻輸出視頻輸出固定延時解碼器編碼器緩存95時間標(biāo)志系統(tǒng)
STC緩沖解碼顯示
STC視頻出采集圖象對STC抽樣得PTC采集音頻幀對STC抽樣得PTC編碼編碼復(fù)接系統(tǒng)編碼和緩沖對STC抽樣得SCR數(shù)字存儲媒介緩沖解碼顯示比較PTS比較PTS音頻出音頻入視頻入幻燈片89時間標(biāo)志系統(tǒng)STC緩沖解碼顯示STC視頻出采集圖象對ST96(三)MPEG-4標(biāo)準(zhǔn)ISO/IEC14496“基于音視頻對象的編碼”
MPEG-4是一個龐大的有關(guān)交互多媒體編碼與通信的標(biāo)準(zhǔn),當(dāng)前使用的視音頻編碼系統(tǒng)和標(biāo)準(zhǔn)不能全部滿足通信、計算機(jī)和廣播業(yè)的迅速融合所提出的要求。稱第2帶編碼:基于內(nèi)容去冗余(事件本身含義),基于內(nèi)容的交互(接收者的意愿)。
MPEG-4把一個視聽場景定義成了一系列可再現(xiàn)的“視聽對象”。
MPEG-4還具有對不同來源對象進(jìn)行合成的功能。
MPEG-4標(biāo)準(zhǔn)旨在將各種多媒體應(yīng)用集成于一個完整的框架內(nèi)。
MPEG-4標(biāo)準(zhǔn)支持各種掃描標(biāo)準(zhǔn)和圖象格式??芍С值谋忍厮俾实退俾士傻偷?~64kb/s,高速率高達(dá)5Mb/s。MPEG-4具有廣闊的應(yīng)用前景。(三)MPEG-4標(biāo)準(zhǔn)MPEG-4是一個龐大的971、MPEG-4標(biāo)準(zhǔn)的目標(biāo)1999年5月形成國際標(biāo)準(zhǔn),是基于對象的視、音頻編碼標(biāo)準(zhǔn),本是甚低比特率的視音頻壓縮編碼標(biāo)準(zhǔn),現(xiàn)滿足數(shù)字視聽材料交換需要;不是單純的視音頻編解碼標(biāo)準(zhǔn),它更多的是定義一種格式、一種框架,而不是具體算法,為多媒體數(shù)據(jù)壓縮提供更為廣闊的平臺,允許加入新算法,方便計算機(jī)軟件編解碼;視頻碼率覆蓋范圍5kbitps~5Mbitps;
音頻碼率覆蓋范圍2kbitps~64kbitps。1、MPEG-4標(biāo)準(zhǔn)的目標(biāo)982、MPEG-4標(biāo)準(zhǔn)的主要特征
(1)基于對象和基于模型的編碼在音視頻景物中可分出若干個“對象”,見下圖。MPEG-4支持對場景中的物理對象單獨(dú)進(jìn)行編碼和解碼,并支持矩形及任意形狀對象的編解碼MPEG-4的視頻對象編碼技術(shù)包括了MPEG-1與MPEG-2編碼,但多了形狀編碼,要將形狀信息傳送給解碼器,見圖。標(biāo)準(zhǔn)分6個部分系統(tǒng),視頻,音頻,一致性測試,參考軟件,DMIF2、MPEG-4標(biāo)準(zhǔn)的主要特征
(1)基于對象和基于模型的編99圖8一個面向?qū)ο蟮碾娨暻榫癝portsresults:Portugal-Brazil
Sportsresults:Portugal-Brazil圖8一個面向?qū)ο蟮碾娨暻榫癝portsresul100SPRITE對象分割活動對象幻燈片160SPRITE對象分割活動對象幻燈片160101具有外加對象的合成場景具有外加對象的合成場景102場景描述圖場景描述圖103對象的二值形狀信息News一幀圖像前景對象的二值形狀信息MPEG標(biāo)準(zhǔn)返回對象的二值形狀信息News一幀圖像104MPEG-4的編碼器增加了形狀編碼
視頻對象編碼器
MPEG-4的編碼器增加了形狀編碼
視頻對象105ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscriptObjectDecoderShapeTextureShapeInformationD106MPEG-4編解碼系統(tǒng)視頻對象合成解解解MPEG-4編解碼系統(tǒng)視頻對象合成解解解107Theobject-basedarchitectureofanMPEG-4system.
Theobject-basedarchitecture108ScalableCoding基本層增強(qiáng)層分級預(yù)處理分級后處理ScalableCoding基109
ScalabilityofObjects視頻演示編/解碼器ScalabilityofObjects視頻演示110MPEG-4標(biāo)準(zhǔn)的主要特征
(2)自然與合成音視頻數(shù)據(jù)的混合編碼MPEG-4編碼支持自然音與合成音視頻,在解碼端能合成不同來源的自然對象與合成對象。
(3)提供基于對象的交互功能不同的數(shù)據(jù)源可視為不同的對象,數(shù)據(jù)接收者可以對不同的對象進(jìn)行操作:刪除、添加、移動、改變尺寸等屬性。(4)基于對象的分級功能空間、時間和混合分級,適應(yīng)互聯(lián)網(wǎng)等窄帶視頻通信、多質(zhì)量視頻服務(wù),精細(xì)分級使MPEG-4碼流能通過各種不同通路,克服數(shù)字信號懸崖效應(yīng)。合成對象互動演示MPEG-4標(biāo)準(zhǔn)的主要特征
(2)自然與合成音視頻數(shù)據(jù)的混合111MPEG-4標(biāo)準(zhǔn)的主要特征(5)場景描述用BIFS描述語言描述場景的結(jié)構(gòu)和視音頻對象的位置變化、尺寸、彩色、聲音響度等屬性。場景描述的核心是對多媒體對象的安排布置,用戶通過場景描述可以操作對象的顯示狀態(tài),實現(xiàn)交互操作。場景描述用單獨(dú)的數(shù)據(jù)流傳輸,單獨(dú)編解碼,可在壓縮的數(shù)據(jù)流域?qū)崿F(xiàn)對象控制。場景描述結(jié)構(gòu)例:顯示的圖像序列、聲音、音樂、語言,投影屏幕,背景墻,動畫合成女解說員,講由解說詞產(chǎn)生的語言,還有合成的繪圖—桌子和地球儀。MPEG-4標(biāo)準(zhǔn)的主要特征(5)場景描述112
BIFS場景描述例BIFS場景描述例113MPEG-4標(biāo)準(zhǔn)的主要特征(6)差錯魯棒性和差錯回避MPEG-4數(shù)據(jù)流允許在各種環(huán)境下傳輸,移動通訊鏈路的比特率低達(dá)10kbps,提供差錯魯棒性和差錯回避技術(shù)。(7)音頻編碼音頻部分專門為音樂、語言及人工合成聲音定義了許多有效的編碼方法,還能使音樂隨著已經(jīng)注釋的場景演奏,并產(chǎn)生空間聲音效果。合成音頻編碼方法包括結(jié)構(gòu)音頻和文語轉(zhuǎn)換(TextToSpeech)。有音頻對象空間化特征,用不同的空間定位可決定音源的空間位置,可用人工和自然音源來構(gòu)造人工聲音環(huán)境。
MPEG-4標(biāo)準(zhǔn)的主要特征(6)差錯魯棒性和差錯回避114高編碼效率,與H.263+或MPEG-4簡單類相比,H.26L在多數(shù)碼率下可節(jié)省碼率達(dá)50%,在各種碼率下都能持續(xù)提供較高的視頻質(zhì)量,適用于視頻會議、視頻存儲和以服務(wù)器為基礎(chǔ)的視頻流業(yè)務(wù)。系統(tǒng)框架見下圖,圖像分解為像條,各像條單獨(dú)編碼,編碼輸出復(fù)用;接收端解復(fù)、解碼,合成原視頻信號。像條編碼像條編碼像條編碼像條分隔像條解碼像條解碼像條解碼像條合成解復(fù)用復(fù)用(8)MPEG-4的新視頻編碼技術(shù)特點(diǎn)
H.26L,ITU-T稱H.2642001.1月ITU-T和MPEG聯(lián)手制定高編碼效率,與H.263+或MPEG-4簡單類相比,H.26115
1)對任何像塊可在前面多個參考幀(最多5幀)中尋找匹配像塊,給出相應(yīng)的運(yùn)動矢量,能夠?qū)崿F(xiàn)更好的碼流誤碼恢復(fù);
2)在運(yùn)動估值和運(yùn)動補(bǔ)償方面,H.26L采用了不同大小和形狀的宏塊分割方法、更高的亞像素(1/4,1/8)運(yùn)動估值精度,在預(yù)測環(huán)中增加了去除塊效應(yīng)的濾波器;
3)使用了類似于DCT,但以整數(shù)為基礎(chǔ)的空間變換,采用獨(dú)特的整數(shù)算法,所有的運(yùn)算可以只通過加法和位移實現(xiàn),變換和量化的全過程可以用16位比特的整數(shù)運(yùn)算進(jìn)行,消除乘法運(yùn)算帶來的精度損失;
避免了因4舍5入引起的反變換誤差問題。
4)在熵編碼方面,使用兩種碼表,通用的變字長編碼表(UVLC)和基于內(nèi)容的自適應(yīng)二進(jìn)制算術(shù)編碼(CABAC)。
(9)新增標(biāo)準(zhǔn)與以前的編碼方法不同之處
1)對任何像塊可在前面多個參考幀(最多5幀)中尋找匹配像塊116CABAC(Context-basedAdaptiveBinaryArithmeticCoding)基于內(nèi)容的自適應(yīng)二進(jìn)制算術(shù)編碼:(a)根據(jù)語法元素的內(nèi)容選擇概率模型(b)基于當(dāng)前統(tǒng)計調(diào)整概率的估計5)采用幀內(nèi)預(yù)測編碼:a.4×4亮度預(yù)測模式;b.6×16亮度預(yù)測模式;c.8×8色度預(yù)測模式;
有6種4×4亮度像塊的幀內(nèi)預(yù)測模式,用相鄰像素做預(yù)測;支持塊大小由16×16到4×4的亮度分量的運(yùn)動補(bǔ)償,
1/4像素預(yù)測精度;6)H.26L增加了幀間預(yù)測模式的類型和精度。有7種不同的宏塊分割方法,形成7種不同幀間預(yù)測模式。CABAC(Context-basedAdaptive1177)除了支持I-、P-和B-幀外,還支持碼流間可轉(zhuǎn)換幀,稱為SP-幀,能在有類似內(nèi)容但有不同碼率的碼流之間快速切換,并同時支持隨機(jī)接入和快速回放模式。
8)變換系數(shù)的掃描有之字形(Zigzag)掃描和雙掃描兩種方式。提高編碼效率。9)H.26L支持以往標(biāo)準(zhǔn)的大部分處理方法,但通過增強(qiáng)功能和靈活性提高效率:用7種不同大小和形狀的幀間預(yù)測節(jié)省碼率約15%;使用亞像素搜索精度與整數(shù)像素搜索精度相比能節(jié)省碼率20%;使用5個參考幀預(yù)測與只用一個參考幀相比能節(jié)省碼率(5~10)%;使用基于內(nèi)容的二進(jìn)制自適應(yīng)算術(shù)編碼能節(jié)省碼率10%。使用去方塊效應(yīng)濾波還能獲得非??捎^的主觀質(zhì)量改進(jìn)。8)變換系數(shù)的掃描有之字形(Zigzag)掃描和雙掃描兩種方11810)增加了演播室類(Profile)工具(2001年1月)
基于對象的視頻創(chuàng)作技術(shù)、用于演播室存儲的高效編碼工具,支持高達(dá)2048個像素的分解力、1.2Gbps的比特率和12比特量化。這可用于演播室和后期制作、演播室之間的節(jié)目傳送等。對場景描述進(jìn)行補(bǔ)充,支持手動和自動生成場景;增加了高級的精細(xì)分級(FGS)將使MPEG-4碼流能通過各種不同帶寬通路,克服數(shù)字信號的懸崖效應(yīng)。已制定的MPEG-4的傳輸協(xié)議:MPEG-4的內(nèi)容在MPEG-2的TS流內(nèi)傳送;MPEG-4內(nèi)容通過IP傳送。目前在管理工具、接口和知識產(chǎn)權(quán)保護(hù)方面正在加緊工作。10)增加了演播室類(Profile)工具(2001年1月)1191)傳輸層:流復(fù)用,傳輸協(xié)議描述,定義應(yīng)用接口。2)同步層:基本流經(jīng)同步層打包,打包時插入了定時和同步信息、分段和隨機(jī)存取信息。
3)壓縮層包括:各種解碼器;對象描述框架:利用對象描述子OD識別各種基本流知識產(chǎn)權(quán)管理和保護(hù)(IPMP)
對象內(nèi)容信息:傳送視聽對象的描述信息場景描述流:傳輸場景描述信息對象合成視聽流上行通道流:接收端到發(fā)送端的上行信息
3、MPEG-4系統(tǒng)1)傳輸層:流復(fù)用,傳輸協(xié)議描述,定義應(yīng)用接口。3、MPE120
MPEG-4系統(tǒng)體系結(jié)構(gòu)
MPEG-4系統(tǒng)體系結(jié)構(gòu)121(四)MPEG-7(ISO/IEC15938)
基于內(nèi)容的檢索基于內(nèi)容的檢索:查詢時針對對象本身,需要從媒體數(shù)據(jù)中提取特征(如顏色、紋理、形狀等),根據(jù)這些特征從媒體數(shù)據(jù)庫中檢索出相似的圖像或者視頻內(nèi)容?;趦?nèi)容檢索的類型:圖像檢索:視頻序列的表示方法含基于關(guān)鍵幀、基于運(yùn)動的檢索音頻檢索:含音樂、話音及其它自然聲響等圖形檢索:含點(diǎn)、線、區(qū)域和關(guān)聯(lián)檢索
文本檢索:含字、詞以及它們的邏輯集合(四)MPEG-7(ISO/IEC15938)
基于122基于內(nèi)容檢索系統(tǒng)的簡單結(jié)構(gòu)
媒體庫特征庫特征抽取檢索引擎管理端用戶端數(shù)據(jù)庫數(shù)據(jù)庫生成子系統(tǒng)數(shù)據(jù)查詢子系統(tǒng)知識庫基于內(nèi)容檢索系統(tǒng)的簡單結(jié)構(gòu)
媒體庫特征庫特征抽取檢索引擎管理123按MPEG-7描述標(biāo)準(zhǔn)建立的
管理系統(tǒng)工作流程圖例
讀入視頻資料鏡頭分割提取視頻資料及其關(guān)鍵幀的特征值將特征值按照MPEG-7標(biāo)準(zhǔn)進(jìn)行描述將視頻資料及其描述信息存儲到視頻數(shù)據(jù)庫
提取關(guān)鍵幀按MPEG-7描述標(biāo)準(zhǔn)建立的
管理系統(tǒng)工作流程圖例
讀入124
1、MPEG-7標(biāo)準(zhǔn)的目標(biāo)
MPEG-7標(biāo)準(zhǔn)稱為“多媒體內(nèi)容描述接口”。多媒體內(nèi)容描述標(biāo)準(zhǔn),定義了描述符、描述語言和描述方案,對多媒體信息進(jìn)行標(biāo)準(zhǔn)化的描述,實現(xiàn)快速有效的搜索。MPEG-1,-2,-4是對信息進(jìn)行有效的表示,MPEG-7則對信息表示方法進(jìn)行描述,為各種表示法的適當(dāng)部分提供索引。前三種編碼方法使得信息的內(nèi)容變得容易獲取,MPEG-7則使在需要時能找到它。MPEG-7確立各種類型多媒體信息的標(biāo)準(zhǔn)描述方法,方法是描述符和描述方案的組合,并與所描述的內(nèi)容緊密相關(guān)。1、MPEG-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 17817-2024飼料中維生素A的測定高效液相色譜法
- 2025年度環(huán)保二零二五版環(huán)保產(chǎn)業(yè)園區(qū)入駐協(xié)議書3篇
- 電影院地下停車場建設(shè)招標(biāo)
- 2025年度白酒企業(yè)市場拓展與品牌合作合同3篇
- 住宅小區(qū)照明工程安裝協(xié)議
- 漁業(yè)項目招標(biāo)困境與解決方案
- 2025年度基站建設(shè)場地使用權(quán)及通信設(shè)備租賃與維護(hù)合同3篇
- 書店門頭安裝工程合同
- 食品安全召回程序指南
- 礦山采掘設(shè)備電路鋪設(shè)合同
- 侵入性器械操作醫(yī)院感染預(yù)防與控制考試試題及答案
- 四川省達(dá)州市2023年八年級上學(xué)期期末數(shù)學(xué)試題 附答案
- 消化內(nèi)鏡室(中心)的布局和配置
- 2023家居日用品市場洞察報告分析
- 微習(xí)慣:自我管理法則
- 臨床合理用藥的持續(xù)改進(jìn)措施
- 修理廠自查自糾報告 自查自糾報告
- 中學(xué)推優(yōu)入團(tuán)方案
- 粉末涂料有限公司除塵系統(tǒng)安全風(fēng)險分級清單
- 招投標(biāo)專員績效考核表
- SL631-637-2012-水利水電工程單元工程施工質(zhì)量驗收評定標(biāo)準(zhǔn)
評論
0/150
提交評論