《數字視頻處理及應用》課件第3章_第1頁
《數字視頻處理及應用》課件第3章_第2頁
《數字視頻處理及應用》課件第3章_第3頁
《數字視頻處理及應用》課件第3章_第4頁
《數字視頻處理及應用》課件第3章_第5頁
已閱讀5頁,還剩109頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第3章視頻對象分割3.1視頻對象分割概述3.2視頻對象分割技術基礎3.3基于時/空域聯合分割3.4交互式視頻對象分割3.5壓縮域視頻對象分割3.6視頻對象分割的應用3.7本章小結

3.1視頻對象分割概述

3.1.1基本概念

傳統的視頻編碼標準,例如MPEG-1、MPEG-2、H.261、H.263等,采用基于塊的編碼方式進行視頻編碼,這些編碼方法不僅編碼效率低,容易造成視覺上的方塊效應,而且其最大缺點是僅僅把數字圖像看作數值矩陣,把視頻看作幀流,而沒有考慮視頻場景的按內容的真實構成。隨著多媒體應用和服務的增加,特別是基于內容操作和具有交互式特性的多媒體應用的增加,傳統的編碼方法已不能滿足新的多媒體應用的需求,因此有必要采取一種編碼方式按內容對視頻信息進行編碼?;谶@種情況,國際運動圖像專家小組制定了視頻編碼標準MPEG-4,MPEG-4除了能提供高效的壓縮編碼效率外,還能提供基于對象的交互功能,使用戶能夠訪問(搜索、瀏覽)和操作(剪貼、移動)場景中的各個對象,可更廣泛地延拓應用范圍,因此也被稱為第二代編碼標準。在MPEG-4標準中,視頻對象被定義為在景物中的一個單元,允許用戶存取(搜索、瀏覽)和操作(剪切、粘貼)。即視頻對象是區(qū)域的聚類,且至少有一個共同的特征一致地出現在視頻對象中。這個概念較為抽象,在實際的視頻場景中,視頻對象是指具有一定高層“語義”的區(qū)域,更符合現實生活中人們視覺上對事物認知的抽象表達。現實世界中的任何一個有語義意義的實體,比如行使的汽車、人等,都可以被視為語義視頻對象。在MPEG-4中,視頻序列的每一幀圖像都被分解成若干個任意形狀的對象,視頻對象在某一時刻(某一幀中)的表象稱為視頻對象平面(VodeoObjectPlane,VOP)。基于對象的編碼和交互功能首先需要將場景或視頻序列中的各類對象(如運動的汽車、人等前景對象和靜止的房屋、樹木等背景對象)分割提取出來,但MPEG-4并沒有規(guī)定從視頻序列中分割出此類具有語義意義的視頻對象(videoobject,VO)的方法,而是對用戶開放,其目的是便于用戶針對具體應用來設計特定的視頻對象分割算法。然而,語義視頻對象分割與早期的圖像分割相比更是一項挑戰(zhàn)性的難題,為此自MPEG-4標準誕生后的10多年來,國內外包括各大公司、高校和各類研究機構在內的學者和研究人員已進行深入、廣泛地研究。目前,盡管還不很完善,但已進入應用階段,而且應用領域已遠遠超越了原先僅作為便于高效編碼和對象交互功能的范圍。3.1.2視頻對象分割方法分類

常見的視頻對象分割方法可有下面四種分類。

1.按照應用目標的不同分類

按照應用目標的不同來分類可分為兩類:一類是要求得到準確的視頻對象輪廓,但不追求實時應用;另一類是要求能實時處理、在線應用,但對所分割得到的對象輪廓的準確性要求并不很嚴格。

2.按照是否需要人工參與或人機交互分類

按照是否需要人工參與或人機交互來分類可分為兩類:一類是無需人工參與或人機交互的自動分割,包括對初始幀視頻對象分割和對后續(xù)幀的對象跟蹤都可以自動進行;另一類是需借助人機交互的半自動分割,即借助人工參與或人機交互來定義語義視頻對象的輪廓形狀和位置,進而來分割初始幀的視頻對象,后續(xù)幀的對象跟蹤則自動地進行(有時需對跟蹤對象的區(qū)域邊界按預先定義的語義特征稍做修正,以減少跟蹤誤差)。

3.按照分割過程中所用信息的不同分類

按照分割過程中所用信息的不同來分類可分為空間分割、時間分割和時空分割三類??臻g分割先按傳統的圖像分割將該幀圖像劃分為區(qū)域,其中某些區(qū)域具有相似特征而與其他區(qū)域明顯不同,然后將這些具有相似特征的一致性區(qū)域,按照一定的空間信息(顏色、灰度、邊緣、紋理)、變換域信息(DCT系數)、統計信息和先驗知識進行分割和聚類成語義視頻對象;時間分割通常是利用前后幀之間視頻對象的運動信息進行分割,也可結合顏色、紋理和邊緣等特征;時空分割一般先通過時間分割標識出運動對象,然后與空間分割得到的對象邊界融合在一起,以得到更精確的分割結果,這是目前的主流分割方法。

4.按照視頻形式分類

根據視頻是否以壓縮形式提供,視頻對象分割算法可分為壓縮域分割和非壓縮域分割。在壓縮域分割時,視頻是以壓縮的形式提供,分割過程一般不要求將視頻序列解壓縮,以節(jié)省處理時間。目前,大多數壓縮域對象分割算法主要針對MPEG視頻,在MPEG視頻中,宏塊的運動矢量提供了視頻的運動信息,I幀的DCT系數在一定程度上描述了圖像的紋理信息,基于MPEG視頻的壓縮域對象分割主要利用這兩類特征實現對象分割。由于壓縮視頻中的宏塊運動矢量存在著比較大的噪聲,并且不能準確計算圖像的紋理特征,因此,壓縮視頻對象分割只能在宏塊一級進行,形成塊一級的視頻對象分割。

在非壓縮分割時,視頻直接以原始視頻序列提供或通過攝像機直接捕獲得到。目前視頻對象分割算法的研究大都集中于非壓縮域。3.1.3視頻對象分割性能評價

近年來,視頻對象分割得到了越來越廣泛的重視。目前,已經提出了各種各樣的視頻對象分割算法。然而,視頻對象分割算法性能評價的研究并未受到應有的重視,目前,仍然缺乏一種被廣泛認可的評價方法。

為了評價視頻分割算法的分割結果,在MPEG-4核心實驗中,Wollborn提出了一種存在參考對象模板的評價方法,認為分割誤差的產生有錯分和漏分兩種情況,如果事先已知一個準確的參考模板,可定義分割結果的空間誤差為

(3-1)該指標反映了分割結果中不屬于實際對象的面積占整個實際對象面積的百分比。該指標越小表明分割結果的質量越好。以圖3-1為例,圖(a)是原始圖像,圖(b)是手工分割的結果,圖(c)是計算機分割的結果。按照式(3-1)計算值為0.0975,可認為其分割結果較好。圖3-1視頻對象分割示例視頻分割算法評價的另一方面是時間一致性(TemporalCoherency),這實際上是衡量視頻序列每一幀的空間準確度的變化程度,因此,可以通過計算連續(xù)幀間的空間準確度來評價。其定義如下:

η(t)=d(Ot,Ot-1)

(3-2)

其中,Ot和Ot-1分別為第t幀和t-1幀的分割對象模板。

3.2視頻對象分割技術基礎

3.2.1圖像分割

圖像分割是按選定的一致性屬性準則,將圖像正確劃分為互不交疊的區(qū)域集的過程,可以形式化地定義如下:假設X是所有像素點組成的集合,P是一個定義在一組相互連通的像素點上的一致性屬性準則,那么圖像分割就是將集合X劃分成一組連通子集{S1,S2,…,Sn},并且這一劃分必須滿足下述四個條件:

(1)

(2)Si∩Sj=Φ

對所有i≠j

(3)P(Si)=1對所有i

(4)P(Si∩Sj)=0對所有i≠j;Si與Sj相鄰

1.基于閾值的分割技術

這類方法簡單實用,在過去的幾十年間備受重視,其分類也不一而足。根據使用的是圖像的整體信息還是局部信息,可以分為上下文相關(contextual)方法和上下文無關(non-contextual)方法;根據對全圖使用統一閾值還是對不同區(qū)域使用不同閾值,可以分為全局閾值方法(globalthresholding)和局部閾值方法(localthresholding),也叫做自適應閾值方法(adaptivethresholding);另外,還可以分為單閾值方法和多閾值方法。閾值分割的核心問題是如何選擇合適的閾值。其中,最簡單和常用的方法是從圖像的灰度直方圖出發(fā),先得到各個灰度級的概率分布密度,再依據某一準則選取一個或多個合適的閾值,以確定每個像素點的歸屬。選擇的準則不同,得到的閾值化算法就不同。

2.基于邊緣的分割技術

這類方法主要基于圖像灰度級的不連續(xù)性,它通過檢測不同均勻區(qū)域之間的邊界來實現對圖像的分割,這與人的視覺過程有些相似。依據執(zhí)行方式的不同,這類方法通常又分為串行邊緣檢測技術和并行邊緣檢測技術。

串行邊緣檢測技術首先要檢測出一個邊緣起始點,然后根據某種相似性準則尋找與前一點同類的邊緣點,這種確定后繼相似點的方法稱為跟蹤。根據跟蹤方法的不同,這類方法又可分為輪廓跟蹤、光柵跟蹤和全向跟蹤三種方法。全向跟蹤可以克服由于跟蹤的方向性可能造成的邊界丟失,但其搜索過程會付出更大的時間代價。串行邊緣檢測技術的優(yōu)點在于可以得到連續(xù)的單像素邊緣,但是它的效果嚴重依賴于初始邊緣點,由不恰當的初始邊緣點可能得到虛假邊緣,較少的初始邊緣點可能導致邊緣漏檢。并行邊緣檢測技術通常借助空域微分算子,通過其模板與圖像卷積完成,因而可以在各個像素上同時進行,從而大大降低了時間復雜度。常見的并行邊緣檢測方法有如下幾種:

·Roberts算子

·Laplacian算子

·Sobel算子

·Prewitt算子

·Kirsh算子

·Wallis算子

·LOG算子

·Canny算子

3.基于區(qū)域特性的分割技術

基于區(qū)域特征的分割技術有兩種基本形式:區(qū)域生長和分裂合并。前者是從單個像素出發(fā),逐漸合并以形成所需的分割結果;后者是從整個圖像出發(fā),逐漸分裂或合并以形成所需要的分割結果。與閾值方法不同,這類方法不但考慮了像素的相似性,還考慮了空間上的鄰接性,因此可以有效消除孤立噪聲的干擾,具有很強的魯棒性。而且,無論是合并還是分裂,都能夠將分割深入到像素級,因此可以保證較高的分割精度。區(qū)域生長算法先對每個要分割的區(qū)域找一個種子像素作為生長的起點,然后將種子像素鄰域內與種子像素有相似性的像素合并到種子像素集合。如此往復,直到再沒有像素可以被合并,一個區(qū)域就形成了。顯然,種子像素、生長準則和終止條件是算法的關鍵。然而,種子點的選擇并不容易,有人試圖通過邊緣檢測來確定種子點,但是,由于邊緣檢測算法本身的不足,并不能避免遺漏重要的種子點。

分裂合并算法則是先從整個圖像開始不斷的分裂得到各個區(qū)域,再將相鄰的具有相似性的區(qū)域合并以得到分割結果。這種方法雖然沒有選擇種子點的麻煩,但也有自身的不足。一方面,分裂如果不能深達像素級就會降低分割精度;另一方面,深達像素級的分裂會增加合并的工作量,從而大大提高其時間復雜度。分水嶺算法是一種較新的基于區(qū)域特性的圖像分割方法。該算法的思想來源于洼地積水的過程:首先,求取梯度圖像;然后,將梯度圖像視為一個高低起伏的地形圖,原圖上較平坦的區(qū)域梯度值較小,構成盆地,原圖上的邊界區(qū)域梯度值較大,構成分割盆地的山脊;接著,水從盆地內最低洼的地方滲入,隨著水位不斷長高,有的洼地將被連通,為了防止兩塊洼地被連通,就在分割兩者的山脊上筑起水壩,水位越漲越高,水壩也越筑越高;最后,當水壩達到最高的山脊的高度時,算法結束,每一個孤立的積水盆地對應一個分割區(qū)域。分水嶺算法有著較好的魯棒性,但是往往會形成過分割。

4.基于統計模式分類的分割技術

模式可以定義為對圖像中的目標或其他感興趣部分的定量或結構化的描述,圖像分割可以被視為以像素為基元的模式分類過程,這一過程主要包括兩個步驟:特征提取和模式分類。閾值分割就相當于在一維(灰度)或二維(共生矩陣)特征空間進行的模式分類,它所使用的特征并沒有充分反映像素的空間信息和其鄰域像素的相關信息。為了改善分割的效果,我們自然地想到使用能夠充分利用圖像信息的高維特征來描述每一個像素。這類方法,對于無法由灰度區(qū)分的復雜的紋理圖像顯得尤為有效。由于模式分類可以借鑒模式識別技術中的成熟算法(如FCM算法和SOM算法),所以這類分割技術的主要差別在于特征提取的方法。常用的特征有:

·基于共生矩陣的特征

·基于自相關的特征

·基于邊界頻率的特征

·基于Law’s模板的特征

·行程長度特征(run-lengthfeatures)

·基于二值棧方法(binarystackmethod)的特征

·基于紋理操作符(textureoperators)的特征

·紋理譜特征

·結構特征

·空間域濾波特征

·傅立葉域濾波特征

·小波域濾波特征

·矩特征

·基于Gabor濾波器的特征

·基于隨機場模型的特征

·分形特征

圖3-2列出了對lena圖像使用幾種典型的分割算法進行分割的實驗結果。圖(a)為原始圖像,圖(b)為閾值分割,圖(c)為Sobel邊緣分割,圖(d)為分裂合并算法的分割結果,圖(e)為提取Garbor特征后模糊C-均值(FCM)聚類的分割結果,圖(f)為改進的分水嶺算法的分割結果。圖3-2幾種典型的分割算法的實驗結果3.2.2數學形態(tài)學處理

1.二值形態(tài)學

二值數學形態(tài)學的基本運算有四個:膨脹(或擴張)、腐蝕(或侵蝕)、開啟和閉合。形態(tài)學的運算對象是集合。設用A表示圖像,B表示結構元素(A和B均為集合),形態(tài)學運算就是用B對A進行操作。

腐蝕是數學形態(tài)學的基本運算,集合A被集合B腐蝕,表示為AΘB,定義為

(3-3)

AΘB由將B平移x但仍然包含在A內的所有點x組成。如果將B看做是模板,那么AΘB則由在平移模板的過程中,所有可以填入A內部的模板的原點組成。膨脹是腐蝕運算的對偶運算,可以通過對補集的腐蝕來定義。A被B膨脹表示為A⊕B,定義為

A⊕B=[AcΘ(-B)]c

(3-4)

其中,Ac表示A的補集。含義為利用B膨脹A,可將B相對原點旋轉180°得到-B,再利用-B對Ac進行腐蝕,腐蝕結果的補集就是所求的結果。

利用腐蝕和膨脹運算對圖像做處理,結果如圖3-3所示,采用的結構元素為半徑為8的圓。圖3-3腐蝕、膨脹運算的結果可見,膨脹操作可以擴充圖像區(qū)域,而腐蝕操作則會縮小圖像區(qū)域。

因為膨脹和腐蝕并不互為逆運算,所以它們可以級連結合使用。例如,可以使用同一結構元素先對圖像進行腐蝕運算,然后膨脹其結果;也可以對圖像先進行膨脹運算再腐蝕其結果。前者通常稱為開啟(open)運算,后者則稱為閉合(close)運算。

開啟運算符為。,A用B來開啟記為A。B,其定義為

(3-5)閉合運算符為·,A用B來閉合記為A·B,其定義為

A·B=(A⊕B)ΘA

(3-6)利用開啟和閉合運算對圖像做處理,結果如圖3-4所示??梢姡M管開運算和閉運算都是由膨脹和腐蝕運算組成的,二者由于順序的不同對圖像處理后的結果明顯不同。圖3-4開啟、閉合運算的結果

2.灰度形態(tài)學

數學形態(tài)學首先是在二值形態(tài)學的基礎上發(fā)展起來的,然后推廣到了灰度數學形態(tài)學。在二值形態(tài)學中,集合的交運算和并運算起著關鍵作用。在灰度形態(tài)學中,其對應的運算為極小和極大。與二值形態(tài)學類似,灰度腐蝕和灰度膨脹是其最基本的運算,下面給出灰度腐蝕和灰度膨脹的定義。

利用結構元素g(也是一個信號)對信號f的腐蝕定義為

(fΘg)(x)=max{y:gx+y<<f}

(3-7)從幾何角度講,為了求出信號被結構元素在點x腐蝕的結果,先在空間滑動結構元素,使其原點與x點重合,然后向上推結構元素,結構元素仍處在信號下方所能達到的最大值,即為該點的腐蝕結果。由于結構元素必須在信號的下方,故空間平移結構元素的定義域必為信號定義域的子集。否則,腐蝕就在該點沒有定義。

與二值情況一樣,灰度膨脹也可以用灰度腐蝕的對偶運算來定義。在定義灰度腐蝕時,采取求最大值的方法,即在位于信號下方的條件下,求上推結構所能達到的最大值。利用結構元素的反射,求將信號限制在結構元素的定義域內時,上推結構元素使其超過信號時的最小值來定義灰度膨脹。f被g膨脹可逐點地定義為

(3-8)圖3-5列出了灰度形態(tài)學的實驗結果,圖(a)為原圖,圖(b)為灰度腐蝕的結果,圖(c)為灰度膨脹的結果??梢钥闯?,圖(b)和(c)較好地保持了圖(a)的重要細節(jié),因此,灰度形態(tài)學膨脹和腐蝕操作可以視為圖像濾波操作。圖3-5灰度形態(tài)學的實驗結果

3.形態(tài)學圖像處理

數學形態(tài)學的思想和方法適用于與圖像處理有關的各個方面。這是因為數學形態(tài)學既有堅實的理論基礎,又有簡潔、統一的基本思想?;谝陨咸峒暗幕具\算還可以推導和組合成各種數學形態(tài)學實用算法。

1)形態(tài)學濾波

利用形態(tài)學操作可以濾除圖像中存在的噪聲,這里因為圖像中的噪聲一般呈散亂分布或者正態(tài)分布。通過選擇合適的結構元素,只要結構元素的尺寸大于噪聲時,就可以濾除圖像中存在的噪聲。對某些強噪聲圖像,基于數學形態(tài)學的算法有可能取得較好的效果。形態(tài)學的操作都可以在某種程度上視為對圖像進行濾波操作。圖3-6顯示了利用形態(tài)學開運算進行噪聲濾除的結果。圖3-6形態(tài)學濾波的結果

2)形態(tài)學邊緣檢測

許多常用的邊緣檢測算子(如Canny、Sobel等)通過計算圖像中局部小區(qū)域的差分來工作。這類邊緣檢測器或算子對噪聲都比較敏感并且常常會在檢測邊緣的同時加強噪聲。而形態(tài)邊緣檢測器主要用到形態(tài)梯度的概念,雖也對噪聲較敏感,但不會加強或放大噪聲。

形態(tài)學梯度定義為

Grad[f(x)]=(f⊕g)-(fΘg)

(3-9)其中,f為原始圖像,g為結構元素。形態(tài)學梯度算子的性能取決于結構元素g的大小。大的結構元素會造成邊緣間嚴重的相互影響,這將導致梯度極大值與邊緣的不一致。然而,若結構元素過小,則梯度算子雖有高的分辨率,但對斜坡邊緣會產生一個很小的輸出結果。

圖3-7為圖像利用形態(tài)學梯度進行邊緣檢測的結果,圖(a)為原圖,圖(b)為利用形態(tài)學梯度檢測的邊緣。圖3-7利用形態(tài)學梯度進行邊緣檢測的結果

3)形態(tài)學后處理

在分割的后處理中,為了連接本來相關的區(qū)域或邊界段,或者分離本來不接觸的區(qū)域,常利用數學形態(tài)學的方法。在對視頻序列中運動對象的分割過程中,由于信息不夠完全,得到的對象輪廓往往存在空洞,這時往往需要進行形態(tài)學的后處理,以得到完整的視頻對象。

此外,形態(tài)學在圖像處理方面還有許多其他的應用,如基于擊中擊不中變換的目標識別、基于腐蝕和開運算的骨架提取等。3.2.3變化檢測技術

變化檢測作為一個重要的工具,廣泛地應用于計算機視覺領域,如多媒體、視頻監(jiān)控、遙感等。通常,變化檢測將視頻圖像劃分為變化區(qū)域和未變化區(qū)域,它可以有效地檢測圖像序列或圖像組中不同時刻的變化。由于對象的運動,使得不同時刻的圖像灰度值或者彩色值發(fā)生了變化,因此,變化檢測技術可以用于分割運動視頻對象。

用f(x,y,k)表示視頻序列中的第k幀圖像,(x,y)表示圖像中像素的坐標。變化檢測的任務就是將兩幀圖像f(x,y,k)與f(x,y,r)進行比較,將特征值發(fā)生變化的像素標記為1,沒有發(fā)生變化的像素標記為0,從而得到二進制掩膜圖像c(x,y,k)。其中,f(x,y,r)表示參考幀,例如當使用前一幀作為參考幀時,r=k-1,參考幀為f(x,y,k-1)。不同的變化檢測方法采用不同的策略M,作為f(x,y,k)和f(x,y,r)的函數計算c(x,y,k),記為

c(x,y,k)=M(f(x,y,k),f(x,y,r))

(3-10)

策略M分解為四個主要步驟:特征提取、特征分析、分類和后處理。

特征提取步驟通過變換F將輸入圖像f(x,y,k)變換到最合適的特征空間,特征空間的選擇依賴于具體的應用。f(x,y,k)經過變換F得到序列g(x,y,k)。特征提取步驟記為

g(x,y,k)=F(f(x,y,k))

(3-11)

特征分析步驟記為T,通過比較g(x,y,k)和g(x,y,r),計算表征像素值變化程度的活動索引值,該步驟的輸出結果是序列t(x,y,k),記為

t(x,y,k)=T(g(x,y,k),g(x,y,r))

(3-12)特征分析之后進行分類,將視頻圖像的活動索引t(x,y,k)根據門限值進行二進制分類,每一個像素被標記為變化或者未變化,從而得到二進制掩膜圖像c(x,y,k)。為了得到分類結果,判決根據下面的閾值化檢驗進行:(3-13)門限值τ可以根據經驗值確定或者自適應計算。分類步驟的結果受各種因素的影響,為了提高檢測結果的準確性,通常需要一個后處理步驟。

1.檢測的特征選取

為了更好地檢測不同時刻圖像的變化,需要選取合適的特征,將f(x,y,k)變換到合適的特征空間,輸出的結果是序列g(x,y,k)。g(x,y,k)可以表示圖像像素的亮度值、彩色分量,或者使用基于區(qū)域模型的參數作為檢測的特征。

1)強度特征

強度特征是變化檢測中普遍使用的特征,它包括亮度值和彩色分量。在單色相機情況下,不需要任何特征變換直接得到g(x,y,k)。在彩色相機情況下,典型的視頻圖像包含三個彩色分量:

f(x,y,k)=(R(x,y,k),G(x,y,k),B(x,y,k))(3-14)其中,R(x,y,k)、G(x,y,k)和B(x,y,k)分別表示視頻圖像的紅色分量、綠色分量和藍色分量。亮度值通過加權彩色分量得到:

g(x,y,k)=Y(x,y,k)=ω1R(x,y,k)+ω2G(x,y,k)+ω3B(x,y,k)

(3-15)

ωi(i=1,2,3)表示人類視覺系統對不同彩色分量的敏感程度。

除了使用亮度值作為強度特征外,有些文獻[33,34]使用彩色值作為強度特征。可以直接使用相機傳感器得到的彩色信息(通常是RGB),或者將彩色信息變換到其他彩色空間,彩色空間的選擇依賴于具體的應用。

2)光照不變特征

由于光照變化使得圖像的強度值發(fā)生變化,因此當光照條件變化時,需要選擇一些光照不變特征,例如邊緣特征、圖像反射分量等,以克服光照變化對變化檢測結果的影響?;趫D像邊緣特征的變化檢測方法,依據是全局光變不改變圖像的邊緣形狀,而且由于邊緣圖是二值圖像,因此便于計算和存儲。另一個光照不變特征是反射分量。反射圖用于表示圖像的反射分量,包含物理對象信息,與光照變化無關。

3)二階統計特征

通過建模信號f(x,y,k)的強度分布,可以提取特征g(x,y,k)用于變化檢測。模型通常利用基于區(qū)域的統計表示,采用二階統計模型,例如區(qū)域的方差和均值、建模區(qū)域的二次函數或者偏微分描述圖像的局部強度分布。區(qū)域的形狀通常選擇以像素(x,y,k)為中心的N×N區(qū)域窗W(x,y,k),窗內像素的均值和方差計算公式為(3-16)(3-17)

2.變化檢測的特征分析

當圖像變換到合適的特征空間后,對特征進行分析。特征分析步驟通過變換T比較g(x,y,k)和g(x,y,r),該步驟的輸出結果是反映視頻圖像特征值變化程度的活動索引t(x,y,k)。下面討論執(zhí)行特征分析時如何選取鄰域窗、參考幀和變換T。

1)特征分析時鄰域窗的選取

理想情況下,變換T分別作用于每一個像素。但是由于實際圖像受噪聲的影響,因此需要一個更穩(wěn)健的方法處理噪聲,為此,變換T作用于每個像素的鄰域窗,在鄰域窗內比較當前圖像和參考圖像的特征,以降低變化檢測過程中噪聲的影響。

鄰域窗可以選擇具有不規(guī)則形狀的區(qū)域或者矩形窗。矩形窗是最常用的形狀,當沒有場景的先驗知識可以利用時,通常選擇矩形窗。鄰域窗的面積越大,對噪聲越不敏感,然而,檢測的準確性降低。在鄰域窗得到的信息可以作用于不同的范圍。如果從像素鄰域窗內得到的信息作用于窗內的所有像素,則檢測過程使用的鄰域窗是非交叉空域窗,稱為非重疊窗;如果從像素鄰域窗得到的信息只是作用于中心像素,則檢測過程使用的鄰域窗是交叉空域窗,稱為重疊窗。采用重疊窗時,可以提供較好的準確性,但是計算復雜度較高;采用非重疊窗時,計算復雜度降低,但是準確性也降低。

2)參考幀的選擇

在特征分析步驟,需要將當前幀的特征g(x,y,k)與參考幀的特征g(x,y,r)進行比較??梢赃x擇前一幀圖像或者背景圖像作為參考幀。許多變化檢測技術使用前一幀圖像作為參考幀,此時特征分析步驟表示為

t(x,y,k)=T(g(x,y,k),g(x,y,k-1))

(3-18)

該方法的優(yōu)點是降低了陰影區(qū)域的影響,不足之處是因語義視頻對象運動而暴露出的背景區(qū)域也會檢測為變化,而且當語義視頻對象內部的紋理細節(jié)不豐富時,無法檢測出語義視頻對象平面的內部區(qū)域。另一種方法是使用背景圖像作為參考幀,一種簡單的情況是若視頻序列的初始幀中不包含對象,可選擇視頻序列的第一幀作為參考幀,此時特征分析步驟表示為

t(x,y,k)=T(g(x,y,k),g(x,y,1))

(3-19)

由于使用背景圖像作為參考幀,即使對象停止運動,也可以檢測出來。這種方法的不足之處是由于參考幀固定,因此不能自適應于環(huán)境光照的慢變化,不適合處理較長的室外視頻序列。而且在許多應用中,視頻序列的第一幀包含語義視頻對象,不能用作參考幀。為此,需要利用視頻序列中多幀圖像的背景信息構造背景幀。一般情況下,綜合連續(xù)多幀圖像的信息,預測當前的背景幀圖像,然后利用構造的背景圖像作為參考幀進行變化檢測。背景圖像g(x,y,r)采用視頻序列先前幀背景圖像的加權值與當前幀進行構造時為

g(x,y,r)=(1-α)(g(x,y,k)+αg(x,y,k-1)

(3-20)

g(x,y,1)=g(x,y,1),0<α<1。這樣即使所有的視頻圖像都包含語義視頻對象,也可以生成背景圖像。而且通過與當前幀進行加權,可以補償光照條件的慢變化,使得構造的背景圖像不受光照慢變化的影響。不足之處是只有當語義視頻對象持續(xù)運動,背景像素在大部分時間暴露時,該背景圖像的構造方法才有效,而當語義視頻對象運動速度很慢時,這種方法的效果不好。~~~~

3)活動索引的計算

將視頻圖像和參考幀變換到合適的特征空間后,接著根據g(x,y,k)和g(x,y,r)計算反映特征值變化程度的活動索引。將變換T分解為距離算子Td和一個函數Tl,因此方程(3-12)可以表示為

t(x,y,k)=Tl(Td(g(x,y,k),g(x,y,r)))

(3-21)

距離算子提供像素級的特征距離,可以通過對應像素的差值、特征矢量差值或者二階統計量的差值實現。對應像素的差值表示為

td(x,y,k)=Td(g(x,y,k),g(x,y,r))=g(x,y,k)-g(x,y,r)

(3-22)

距離算子可以應用到亮度或者彩色分量表示的強度圖像、二進制邊緣圖像。特征矢量差值用于對特征矢量進行運算,特征矢量可以是彩色特征或者區(qū)域特征。進行距離算子Td運算后,需要進一步變換td(x,y,k)得到用于變化檢測的活動索引。在一些情況下,距離算子的結果td(x,y,k)可以直接用作活動索引,此時不需要經過函數Tl運算。Tl變換可以是絕對值、平方值、二階矩、四階矩或者是邊緣運算。如果使用的特征是邊緣,則在圖像差分距離算子之后取絕對值或者平方值:

t(x,y,k)=||tdg(x,y,k)||p

(3-23)

其中,p={1,2}分別表示絕對值和平方值。當使用圖像強度特征(亮度或者彩色分量)時,在矩形窗W(x,y,k)內計算矩。在這種情況下,活動索引表示為下面的形式:(3-24)其中,td(i,j,k)是差分圖像,s是矩的階數,均值μ為(3-25)計算活動索引時,可以使用不同的td(i,j,k)和s的組合。當td(i,j,k)是圖像亮度差分結果,并且s=4時,得到的t(i,j,k)是四階矩。當td(i,j,k)是圖像亮度值的比率,并且s=2時,得到的t(i,j,k)是二階矩。計算的活動索引可以作用于W(x,y,k)內的所有像素(非重疊窗)或者只是作用于W(x,y,k)的中心像素(重疊窗),后者提供了較好的空域準確性。

3.變化檢測的分類步驟

分類步驟根據活動索引t(i,j,k),將圖像中的像素分為變化或者未變化兩類。為了得到分類結果,需要根據方程(3-13)對t(i,j,k)進行閾值化判決?;顒铀饕齮(i,j,k)的范圍依賴于特征空間的選擇和特征分析采用的距離算子,例如,在采用邊緣特征時,t(i,j,k)值的范圍是{-1,0,1};在對圖像強度特征取差分絕對值的情況下,t(i,j,k)的值為正整數。

式(3-13)中的門限值τ是經驗值或者自適應計算。經驗門限值對于視頻序列中所有視頻圖像都是固定的,通?;诤艽蟮臄祿?,根據實驗確定。自適應門限值根據某些規(guī)則動態(tài)確定。下面介紹一些選擇門限值的方法。

1)經驗門限值的選取

當變化檢測過程中選擇強度特征時,門限值的選取依賴于場景、相機噪聲和時空光照條件。

當變化檢測過程中使用邊緣特征時,活動索引t(i,j,k)通過邊緣圖差分的絕對值計算,這種情況下門限值為0。

經驗門限值τ根據測試序列的不同而手工調節(jié),不足之處是需要根據場景的特征交互式改變門限值,因此不適合自動分割和較長的視頻序列。為了得到最優(yōu)的檢測,門限值需要自適應于場景內容和不同類型的噪聲。

2)自適應門限值的選取

自適應門限值需要根據相機噪聲方差δc自動確定。如果相機噪聲的概率密度函數已知,使用區(qū)域統計分析計算自適應局部門限。統計分析方法基于建模噪聲的密度函數,比較差分圖像中每個像素點的鄰域窗內的統計行為,基于顯著性檢驗技術判決像素值是否發(fā)生了變化。噪聲模型的定義基于下面的假設:鄰域窗內所有像素值的變化都是由于噪聲引起(假設H0);序列中的每一幀都受特定均值和方差的加性高斯噪聲的影響。在這些假設下,噪聲模型通過χ2分布描述,它的屬性依賴于鄰域窗內像素的數目和噪聲的方差。給定χ2分布和顯著性水平α,自適應門限值τα通過下式確定:

α=P{δ>τα|H0}

(3-26)

其中,顯著性水平α是一個固定的參數,不需要手工調節(jié)。

4.變化檢測的后處理

分類結果c(x,y,k)受各種因素的影響,這將在c(x,y,k)中引起虛警。這些虛警主要包括:閾值分割和統計分析存在一定的虛警,因對象運動暴露的背景區(qū)域,對象的陰影區(qū)域。這些虛警影響了對象檢測結果的準確性,需要通過后處理步驟進行消除。

1)使用二進制掩膜圖像的后處理

后處理步驟要求在保持輪廓的同時消除不規(guī)則性,可以使用當前的二進制掩膜圖像或者一組二進制掩膜圖像進行處理。在只使用當前二進制掩膜圖像的情況下,后處理步驟表示為

p(x,y,k)=P(c(x,y,k))

(3-27)P表示后處理步驟采用的方法,它基于一些先驗假定調整二進制掩膜圖像c(x,y,k),典型的假定是語義視頻對象的緊湊性。在這種假定下,變化區(qū)域必須是連通的,而且具有一定的幾何規(guī)則性。通常使用形態(tài)學濾波器、形態(tài)學開運算或者更為復雜的形態(tài)學組合濾波器進行處理。其優(yōu)點是計算復雜度低,不足之處是先驗假定(緊湊性和規(guī)則輪廓)并不總是成立的。

聯合基于背景圖像的變化檢測結果和幀間變化檢測結果進行處理,后處理步驟表示為

p(x,y,k)=P(c(x,y,k-1),c(x,y,k),c′(x,y,k),c(x,y,k+1))

(3-28)

2)使用二進制掩膜圖像和原始圖像的后處理

可以通過分析當前幀圖像和二進制掩膜圖像改進分類結果,表示為

p(x,y,k)=P(c(x,y,k),f(x,y,k))

(3-29)

或者通過分析當前幀圖像、參考幀圖像、以及二進制掩膜圖像改進分類結果:

p(x,y,k)=P(c(x,y,k),f(x,y,k),f(x,y,r))

(3-30)

參考幀f(x,y,r)是背景幀或者前一幀。后處理步驟通常采用運動、顏色和邊緣信息。根據(3-30)式進行后處理的典型例子是陰影檢測。陰影區(qū)域通常被檢測為運動區(qū)域的一部分,通過消除陰影區(qū)域,可以改善變化檢測結果。

3.3基于時/空域聯合分割

在視頻對象分割算法中,空間域分割和時間域分割分別依賴于幀內和幀間的信息。由于場景中存在噪聲以及運動估計所固有的遮擋和孔徑問題,往往不能獲得精確的運動估計。同時,基于運動的分割方法一般對有較大運動的目標分割效果不好,影響到運動分割的精度,不能準確地逼近運動物體的邊緣。因此,要準確地實現分割,還需要在運動分割算法的基礎上聯合物體的顏色、亮度、邊緣等空間信息進行視頻分割。這種視頻對象分割方法稱為基于時/空域聯合分割。時/空域聯合的分割方法是綜合利用時間域的幀間運動信息和空間的亮度、顏色信息,同時進行空間分割和時間分割的方法,其目的是為了提取足夠準確的邊緣。通過空間分割將圖像分割為具有準確語義邊界的初始分割區(qū)域,時域分割則定位圖像中的運動區(qū)域,最后結合空間分割和時域分割的結果,獲得邊緣定位較精確的分割對象。本節(jié)介紹一種靜止背景視頻序列的時/空聯合分割算法,分割框圖如圖3-8所示。圖3-8時/空聯合分割框圖3.3.1時間分割

時間分割可以判斷出哪些像素發(fā)生了變化或者屬于哪個對象,并通過標記或掩模的方式表現出來。時間分割的方法主要有變化檢測、運動估計、光流法、對象跟蹤等。這些方法各有不同的特點,適應不同特征的視頻序列。本節(jié)采用簡單的幀間變化檢測算法進行時間分割,得到空域模板。

變化檢測把當前視頻幀分割成相對于參考幀“變化的”和“未變化的”區(qū)域。未變化的部分表示靜止的背景,變化的部分代表運動和遮擋區(qū)域。假設fk(x,y)表示第k幀的原始圖像,fk+1(x,y)表示第k+1的原始圖像,則前、后幀之間的偏移幀差(displacedframedifference)為

dk,k+1(x,y)=|fk+1(x,y)-fk(x,y)|

(3-31)

在理想情況下,不等于零的點的位置代表“變化”區(qū)域,然而由于噪聲的存在,這種情況很少存在,為此,可以用以下方式計算變化檢測模板(changedetectionmask):

(3-32)

其中,T為閾值。顯然,上述變化檢測模板反映運動對象位置變化的性能存在閾值依賴性,即閾值的選取是至關重要的一步。借助一些數學工具,目前已提出了許多自動判斷并計算閾值的方法,如直方圖法、高階統計量法、置信度法等,都取得了較好的效果。圖3-9為用置信度法計算得到閾值的變化檢測實驗圖,圖(a)是Trevor序列第7幀圖像,圖(b)是Trevor序列第8幀圖像,圖(c)為第7幀和第8幀用幀差法得到的時間閾變化檢測圖像,可以看出,時間分割掩?;痉从沉藢ο蟮倪\動區(qū)域,但還需要經過一些后處理技術,才能得到相對較為準確的分割掩模。后處理通常采用連同組件分析和形態(tài)學濾波。圖3-9變化檢測實驗圖3.3.2空間分割

由于運動信息的復雜性,時間分割往往只能得到大致準確的對象邊界。空間分割則可以得到準確的對象邊界,但很難自動得到語義對象區(qū)域。閾值法、聚類法以及分水嶺變換等都可實現空間分割,其中,分水嶺算法就是一種常用的基于區(qū)域的分割方法,可以得到一致性很好的均勻區(qū)域,本文將采用分水嶺算法作為空域分割方法。

1.分水嶺算法的基本思想

分水嶺算法主要利用圖像梯度值的不同,形成不同高度的堤壩,然后仿照流水的過程,分配各像素值到不同的“流域”內,形成不同的分割區(qū)域。為了便于處理,在實際中,梯度值一般用形態(tài)學梯度計算。圖3-10是分水嶺算法的原理示意圖。圖3-10分水嶺算法的原理示意圖假設待分割對象是由不連續(xù)的物體組成的,則形態(tài)學梯度將由“深度”不同的區(qū)域組成。圖中的不同深度區(qū)域對應不同的圖像梯度。分水線就是明顯不同的梯度的交匯線,注水盆地則對應著梯度的極小值。對于一個給定的極小區(qū)域,水珠則會滾入該區(qū)域的所有點構成的集合,可以稱之為該極小區(qū)域的集水域或流域。對流域變換也可以換一個角度看,即不從水珠流入區(qū)域的角度而從水溢出的角度看。假沒注水盆的底部有一個小孔,水從這個小孔注入時不同流域的水面都將不斷提高而將要匯合在一起。為防止不同流域的水相互混合,需要筑起一條壩,堤壩即對應著流域的分界線。

2.分水嶺算法的計算方法

Beucher和Lanturjoul最先提出了基于“浸沒”模型的分水嶺算法,在已知區(qū)域最小的前提下,在每個區(qū)域最小值影響的區(qū)域(InfluenceZones)內,通過形態(tài)學厚化運算,逐步擴展所影響的區(qū)域范圍,最后得到分水嶺線。但是該算法在計算的過程中,當同一區(qū)域呈環(huán)形時,就可能產生錯誤的分水嶺線,并且因為在每一次二值厚化的過程中,都必須將所有的像素掃描一次,所以這種算法的效率是非常低的。

Friedlander提出了一種有序算法。這類算法按照預先規(guī)定的順序對圖像進行掃描,在掃描的過程中每個像素的新的值可能會對下一個像素的新的值的計算產生影響。整個算法必須有一個初始化的步驟,生成“主要蓄水盆地(BroadCatchmentBasin)”。擁有區(qū)域最小值M的主要蓄水盆地是一些像素的集合,從像素M開始,經過一個非降的浸沒過程可以到達這些像素。圖像中的任何一個像素都至少屬于一個主要蓄水盆地,而兩個或兩個以上的主要蓄水盆地重疊的區(qū)域就稱為“分水嶺區(qū)域”,這些區(qū)域組成了“受限蓄水盆地(RestrictedCatchmentBasin)”。最后,可以通過SKIZ(受影響區(qū)域的骨架提取,SkeletonbyInfluenceZones)得到分水嶺線。整個過程是相當快的,因為每一個步驟都是有序進行的。另外,在算法中對每個蓄水盆地都進行了標記編號,所以可以避免Beucher和Lanturjoul算法中同一區(qū)域呈環(huán)形時產生的分水線錯誤,但該算法獲取的分水嶺線位置可能會不正確,有時甚至不在圖像的脊線(Crest-lines)上。

LucVincent考慮到在運算過程中的每一步都只有少量的像素發(fā)生變化的特點,將算法分為兩個步驟:排序和浸水淹沒。排序是按照圖像中像素的灰度值進行從小到大的分類,具有相同灰度值的像素被存儲在一個鏈表中,以方便對同一灰度級像素的隨機訪問,這樣為接下來的浸水淹沒過程提供了方便。浸水淹沒過程是當水由區(qū)域最小值逐漸進入由圖像表示的地形曲面時,計算當前灰度級的測地影響區(qū)。假設高度小于等于h的像素所屬的盆地已經標記出來,則處理高度為h+1的像素時,將這一層中與已標記的匯水盆地相鄰的像素放入一個先進先出的存儲隊列。再由這些像素開始,根據測地距離將已經標記的匯水盆地擴展至h+1層。這樣,只剩下高度為h+1的區(qū)域最小值沒有被標記,它們與己經標記出來的匯水盆地均不鄰接。最后,再通過一次二維掃描,將h+1層中可能存在的區(qū)域最小值標記為新的標號。在最終的分割結果中,具有同一標號的像素屬于同一個匯水盆地,而距離不同匯水盆地相等的像素就構成分水線。使用這種方法計算一幅256×256大小圖像的分水嶺大約只需要幾秒鐘,相比前面介紹的算法而言,效率很高。這種算法對于4-連通、6-連通或是8-連通的圖像來說是通用的,甚至可以推廣到任意一種網格。使用這種算法計算分水嶺可以推廣到N維的圖像。并且因為給每個蓄水盆地進行了標記,這種算法計算的精確度也是相當高的。分水嶺算法盡管可得到較為一致的平滑區(qū)域,但卻容易出現“過分割”現象,這會造成出現較多的小區(qū)域。通常分水嶺算法執(zhí)行在梯度圖像上,如果要減輕過分割現象,一個直接簡單的方法就是需要對一些極小點進行抑制,從而減小區(qū)域的數量。對于所期望的目標區(qū)域,也需要利用一些知識對其進行強調,從而使分水嶺算法能夠得到較好的分割結果。

對Tennis第1幀圖像用分水嶺分割,結果如圖3-11所示。圖3-11Tennis第1幀圖像分水嶺分割結果3.3.3時/空融合分割

常見的時間分割信息和空間分割信息融合方法之一是對多個特征采用馬爾可夫建模,然后進行優(yōu)化求解,但存在計算量大的缺點。

由于前面已通過時間分割得到了視頻對象的大致區(qū)域,又通過空間分割得到了視頻對象的一致區(qū)域的準確邊界,因此可采用比重法進行時空分割信息融合,即將空間分割后得到的區(qū)域向時間分割得到的視頻對象區(qū)域進行投影,如果其像素數與屬于時間分割所標識的區(qū)域像素之比高于某一預設置閾值Th,則可認為此區(qū)域屬于視頻對象,然后合并所有的此類區(qū)域,即可得到視頻對象。這種方法的實質是時間分割提供了語義對象的大致范圍,而通過空間分割得到語義對象的準確邊界。通常,閾值Th的選取與具體的圖像序列中包含的陰影、噪聲等有關,還與空間區(qū)域的閾值有關。經過比重法判斷后,仍然會出現部分視頻運動對象區(qū)域丟失以及把背景區(qū)域誤判為運動區(qū)域的情況,因此還需要后處理。使用小區(qū)域去除的方法把誤判的背景區(qū)域去除掉,再使用形態(tài)結構的閉運算及填充運算得到完整的視頻運動對象。

使用時空聯合分割方法對Akyio序列進行分割,實驗結果如圖3-12所示。圖3-12Akyio序列分割實驗結果

Akyio序列是一種典型的頭肩序列,背景較復雜但基本不動,而僅僅人有較小的運動,從圖中可以看出時域檢測的運動區(qū)域準確,空間也得到了較準確的分割,所以得到了較好的分割結果。

3.4交互式視頻對象分割

通常,自動分割算法只適合較簡單的場景以及特定的視頻序列。它的分割速度雖然較快,但分割結果的質量不一定能達到滿意的要求。這主要有兩個原因:一方面,視頻對象很難由低級特性(如顏色、直方圖及運動特性)來描述,而自動分割算法依據視頻內容的時空一致性,不能真正理解視頻序列中有語義意義的視頻內容;另一方面,現有大多數自動分割算法對運動對象輪廓的獲取是通過區(qū)域的分裂與合并實現的,這樣會使運動對象輪廓多出或丟失一些小的區(qū)域,而人眼的視覺對視頻對象的輪廓極其敏感,所以通過自動分割獲得的運動對象輪廓精度有時候不一定能夠滿足MPEG-4的交互式應用的要求。引入人機交互的半自動視頻分割(以下簡稱為半自動分割)由于可借助人機交互來協助定義視頻對象的輪廓及位置、所選擇的跟蹤對象是剛性還是柔性等,往往可以取得較好的效果。在一些沒有實時性要求的系統中,如多媒體制作和基于內容的視頻檢索等,半自動分割更為合適。因此,半自動的分割算法近年來得到了越來越多的重視。

交互式語義對象分割一般包括相互關聯的兩個步驟,即在某些關鍵幀(通常為初始幀或者需要進行對象修正的幀)通過簡單的用戶交互分割出用戶感興趣的任意對象,而在其他幀則利用對象的幀間相關性,依靠對象跟蹤算法來完成對象的分割。3.4.1初始對象輪廓提取

關鍵幀中的感興趣對象分割,可以使用靜態(tài)圖像的交互式分割工具來完成。目前流行的圖像編輯軟件(如PhotoShop)中提供了MagicWand和MagicLasso(也稱為IntelligentScissors),兩種成熟的交互式分割工具,但它們都需要用戶在對象內部或者對象輪廓附近選擇多個種子點,而且需要用戶自始至終參與整個分割過程。此外,前者在對象和背景的顏色分布有重疊的情況下很難分割出滿意的對象;而后者對于紋理豐富的區(qū)域需要用戶提供較多的種子點來不斷修正對象輪廓。近年來的交互式對象分割研究中,用戶交互方式一般是由用戶勾勒出對象的大致輪廓或者用矩形和多邊形圈定對象的大致區(qū)域,生成一幅三值圖(Trimap)以區(qū)分對象區(qū)域、背景區(qū)域和界于對象和背景之間的不確定區(qū)域。一種直接的分割策略就是根據顏色或紋理的相似性將不確定區(qū)域依次合并到對象或背景區(qū)域中,一般采取種子區(qū)域生長算法,雖然計算簡單,但用戶交互的工作量較大,對于復雜圖像的分割精度較低,而且用戶無法控制最終的分割結果。另一種間接的分割策略就是分別建立對象和背景的顏色分布模型,通過概率估計來決定不確定區(qū)域內像素的歸屬。BayesMatting方法通過計算出不確定區(qū)域內像素的alpha值(透明度)來表示其屬于對象或者背景的概率,適合于不確定區(qū)域相對較小且具有較大差異的兩類顏色分布模型。GraphCut方法將對象分割問題轉換為有向加權圖的切割問題,采用圖的最大流(Max-flow)算法完成圖的切割,將原始圖像分割成對象和背景。GrabGut方法則將對象分割問題轉化為一個能量最小化問題加以解決,并允許用戶可自由地對對象的局部邊界進行修正和平滑,以任意精度接近用戶期望的分割結果。3.4.2對象跟蹤

對于視頻序列,其余幀的對象分割可通過對上述交互式分割得到的對象進行跟蹤來完成。對象跟蹤可以基于對象區(qū)域的投影來進行,首先對對象區(qū)域進行運動估計或者利用更復雜的參數運動模型進行投影以得到對象在當前幀的投影區(qū)域,然后修正投影區(qū)域的輪廓以獲得具有準確邊界的視頻對象。利用上述對象投影策略同樣可以獲得對象的種子區(qū)域,然后對種子區(qū)域進行生長以得到完整的對象區(qū)域,或者同時考慮對背景區(qū)域進行投影,以兩個投影區(qū)域作為種子區(qū)域進行生長和分裂來得到最終的對象。上述的區(qū)域投影可以看作是前向投影,即將已有的對象或者其分割區(qū)域向當前幀投影,也可將當前幀的分割區(qū)域進行后向投影,根據每個投影區(qū)域與前一幀對象相交面積的多少來判斷它是否屬于當前幀對象,還能夠結合前向投影和在像素級上的后向投影以提高分割的精度和效率。對象跟蹤同樣可以利用對象的邊緣特征或輪廓特征來實現,如對對象的邊緣模型在當前幀進行投影和距離變換得到其膨脹后的區(qū)域,然后對膨脹區(qū)域的彩色直方圖進行反向映射后得到當前幀對象;也可在投影對象的邊界區(qū)域上通過模板匹配使對象輪廓精確化;一些文獻則引入了分割質量的反饋來自適應地調整對象的每段輪廓;采用基于水平集的曲線演化方法也能保證分割遮擋對象輪廓的可靠性。為了增強分割的對象在整個序列上時空域的一致性和連貫性,對象分割可以在Bayesian框架下轉變?yōu)橐粋€最大化后驗概率(MAP)的問題。首先以空域分割的各個區(qū)域為結點構造滿足區(qū)域鄰接關系的馬爾可夫模型,以時空分割結果和其他約束條件作為能量函數項,通過最小化能量函數(即最大化后驗概率)來標記每個分割區(qū)域,最后將具有相同標記的區(qū)域組合成一個個對象。能量函數項可以采用不同對象的參數運動模型之間的誤差、對象在空域的顏色一致性和時域的運動一致性或者鄰接像素或區(qū)域標記的一致性。

圖3-13顯示了Trevor序列交互式分割結果,圖(a)是交互式提取的運動對象輪廓,圖(b)和(c)給出了采用區(qū)域投影和輪廓修正得到的分割結果。Trevor序列是典型的頭肩序列,背景相對靜止,前景變化小,從實驗結果可看出,提取的對象輪廓以及分割結果都較準確。圖3-13Trevor序列交互式分割結果

3.5壓縮域視頻對象分割

在壓縮域內進行視頻對象分割,與像素域內的分割方法相比更適合實際應用的需要。鑒于實際應用中的大多數視頻序列已經壓縮為某種格式,直接在壓縮域內進行視頻對象分割,可免除對壓縮視頻進行完全解碼;而且,從壓縮視頻中僅通過熵解碼提取出的運動矢量(motionvector)和DCT系數,可直接用作對象分割所需的運動特征和紋理特征,這些在宏塊(macroblock)或塊(block)級別上提取的特征使得所需處理的數據量要比像素域少很多,從而顯著降低了分割算法的計算量。因此,從壓縮域分割視頻對象具有快速的特點,適合具有實時性要求的應用場合,可解決像素域分割方法難以滿足實時分割的要求,但想要達到像素級的分割精度,通常還需要將對象中的邊界塊完全解碼后在像素域內進行邊緣細化等后處理工作。3.5.1MPEG壓縮域的視頻對象分割

MPEG視頻壓縮的基本思想是消除幀內的空間冗余和幀間的時間冗余。MPEG壓縮方案分別對I(幀內)、P(前向預測)和B(雙向預測)幀的比特流進行轉換。I幀作為單獨的圖像進行編碼,不需要參考幀,在初始幀保存DCT信息,而P幀和B幀存儲運動信息和運動補償后的殘差。編碼時先用DCT將塊由空間域轉換成頻域,把信號分離到獨立的頻帶,信號能量一般集中在DCT的低頻部分,反映紋理的平穩(wěn)變化;DCT的高頻部分反映紋理的劇烈變化。直流系數DC顯示宏塊的平均顏色;運動矢量(MV)通過測量參考塊與當前塊匹配程度,然后取其cost最小的來獲得。從MPEG的編碼原理可以看出,MV和DCT系數兩個特征參量是視頻序列被壓縮后的主要信息載體,因此自然成為MPEG壓縮域進行視頻對象分割的主要依據。圍繞是否使用和如何使用這兩個特征參量實現MPEG壓縮域視頻對象分割,將其分為基于MV分割、基于DCT系數分割和結合兩者的3種算法。

1.基于MV的分割算法

MV可看作MPEG壓縮域中對光流場的粗糙近似。由于運動矢量場(MVF)中常會存在一些因量化造成的噪聲或偽矢量,因此對MVF要先進行預處理,盡可能抑制其中的偽矢量后再用各種對MV的聚類算法提取運動一致性區(qū)域。在一些早期的算法中,聚類只是簡單憑借MV的大小和夾角完成對噪聲濾除和區(qū)域合并。在對后續(xù)幀跟蹤時,利用前后幀的MV相似性,并用計算前后幀中被標定對象的宏塊數量與整體的比例上是否過大,來判斷是同一對象還是出現新的對象。這些方法簡單易行,但效果欠佳。有些方法在預處理時,使用基于標準矢量中值濾波(SVM)的噪聲自適應軟轉換中值濾波(NASM)方法,可有效消除噪聲干擾和保存正確的運動矢量。這種方法按照運動矢量的角度、大小及與周圍運動矢量的聯系,把運動矢量分為真實運動矢量、獨立不規(guī)則運動矢量、非獨立不規(guī)則運動矢量和邊緣運動矢量4種,以便有效去除偽矢量。之后用“無偏模糊聚類算法”給出視頻對象在空間的大致位置,再用“雙向運動跟蹤”修正上一步驟中出現的過分割、欠分割、不完全分割和錯分割等問題。其結果雖標定出視頻對象的大致位置,但提取出的運動對象輪廓仍不夠準確。有些算法用基于雙線性運動模型的迭代拒絕方法來進行前景/背景的分割,通過檢測迭代拒絕輸出的時域一致性將得到的前景宏塊聚類成連通區(qū)域,最終進行區(qū)域跟蹤,構成有意義的前景時空對象。還用一些算法將經典的EM迭代算法引入MPEG域視頻對象分割領域,提出一種能自動估計對象數量并獨立提取運動對象的方法。先經若干幀累積運動矢量并通過空間插值得到稠密的運動矢量,再用K-means聚類處理來確定運動模型的數量,然后用EM算法完成分割,并在時域上跟蹤已分割的對象得到視頻對象。最后,為得到視頻對象較好的邊緣,對其中經過對象邊緣的塊及其8個鄰接塊進行解碼,以使邊緣塊內的像素被分類給正確的對象。

2.基于DCT系數的分割算法

DCT系數包含了變換后的空間信息,大多使用I幀DCT系數分割的都用它的DC圖像和AC能量分布的變化來定位運動物體,以及檢測其紋理和邊緣。早在1997年,就提出一種從MPEG壓縮碼流中快速確定人臉的算法,用皮膚色度的統計數據以及形狀和亮度DCT系數的能量分布確定人臉區(qū)域。但它不能實現輪廓提取和人臉識別,僅用于快速人臉檢測。有些文獻采用自適應K均值算法將色彩信息進行空間聚類為多個不同的勻質區(qū)域,之后按區(qū)域間時空信息的相似程度進行區(qū)域合并,再按照區(qū)域的平均變化量分為運動區(qū)域或背景區(qū)域。其中,區(qū)域合并時,綜合了“強時空相似性”和“區(qū)域內的平均時間變化量”這兩個合并參考量,而空間相似性主要依據亮度信息,AC能量的熵的大小、時間變化則由3DSobelFilter檢測時間梯度得到。最后對運動區(qū)域的邊緣塊進行部分解碼,以使前景視頻對象邊緣精確到像素級。但該算法因沒有利用P幀間運動矢量,在上述過程中分割各個對象需要預設大量的閾值。

3.結合MV與DCT系數的分割算法

該方法將DCT系數的使用作為在對分割精度有進一步要求時對基于MV分割的一種補充。在沿用MV的分割算法中去除偽矢量、獲得正確MV的基礎上,在聚類時提出一種新的“最大熵模糊聚類算法”將不同的塊聚類成勻質區(qū)域。當進一步要求提取精確輪廓時,采用DCT系數中的顏色信息和DC系數來進行分割。先用一個二狀態(tài)運動學模型確定要精確輪廓的“感興趣區(qū)域”,然后依據上一步MV的標定結果,仍用最大熵模糊聚類算法對DC系數進行分割,找出最適合的塊數目。由于引入DC系數信息彌補基于稀疏的MV運動分割的不足,分割效果有了較大改善。但因未解決以8×8塊作為一個運動矢量而使MV過于稀疏的問題,在分割精度上的改善有限。為此,提出了改進方法進一步將運動和頻率信息融合。先將MPEG流解析成DCT系數和運動矢量,構造三維的頻率-時間的數據結構(該結構使用包含幀切換的I幀、P幀的多圖像組),每個GOP由符合I幀中塊的矢量層表示。每個矢量由一些選定的DCT系數和一組運動矢量集組成。提出了積的概念,當視頻的鄰接區(qū)域DCT系數和運動參量一致時積增大,對鄰近區(qū)域有最小的紋理和梯度的塊賦值,以提高產生連貫積的可能性。之后為每個積建立合適的運動模型,最后用描述符把相似的積融合起來(由粗到精的分層聚類迭代算法),得到分層的對象分割樹。并在累積MV的過程中使用“后向迭代投影算法”,以有效去除噪聲干擾。上述將運動信息和頻率信息融合的思想也體現在構建統一的時空掩模上,再如一些算法采用MV形成運動掩模,用DC圖像形成空間掩模,然后通過一個閾值判決將兩個掩模統一起來描述運動對象。還可用中值濾波對MV進行預處理,之后對MV進行閾值分割形成運動掩模,用低分辨率DC圖像進行閾值分割形成背景掩模,再將兩掩模的矩陣相乘作為分割的最終掩模。此算法還可在沒有運動跟蹤的情況下解決遮擋問題。

上述3類方法的優(yōu)缺點列于表3-1中。3.5.2H.264壓縮域的視頻對象分割

目前,在H.264壓縮域進行運動對象分割的研究還很少。基于MPEG壓縮域中的視頻分割主要基于從壓縮視頻流中提取的DCT系數和運動場。但是對于H.264視頻來說,由于其DCT系數采用了幀內預測的模式,所以每個塊的DCT系數實際上是殘差DCT系數。這與MPEG視頻不同,MPEG視頻中的DCT系數是基于原始塊作變換得到的。因此原有的基于MPEG壓縮域DCT系數的分割方法不能在H.264壓縮域中使用,若確實要使用的話,必須首先進行幀內補償,這樣不僅增加了處理開銷,而且破壞了數據的壓縮格式。正是因為如此,在H.264壓縮域中進行分割所能使用的信息非常有限。另一方面,在像素域中進行分割由于可以使用灰度、顏色、紋理等豐富的信息,因此在分割方法的選擇上有很大的余地,而H.264壓縮域中的分割由于是基于矢量場,很多像素域中的分割方法都不能應用,這增加了研究的難度。此外,由于壓縮域的運動場是基于宏塊最佳匹配的規(guī)則生成的,不能完全反映物體的真實運動,即這個運動場不是完全可靠的矢量場,它包含許多噪聲運動矢量,這給提高最后的分割質量造成了很大的困難。但是,直接在H.264壓縮域中分割能夠有效地避免將壓縮視頻完全解碼,減少處理時間,有利于滿足實時處理的要求?;贖.264壓縮域的視頻對象分割目前的主要方法有:

1.基于熵模型

該方法首先建立運動對象在空間和時間上的一致性模型,然后采用最大熵方法自適應獲得閾值,從而將運動對象檢測出來。

2.基于MRF模型

該方法利用基于塊的MRF模型從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論