《數(shù)字視頻處理及應(yīng)用》課件第3章

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-12-03 格式：PPT 頁數(shù)：114 大?。?04KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩109頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章視頻對象分割3.1視頻對象分割概述3.2視頻對象分割技術(shù)基礎(chǔ)3.3基于時(shí)/空域聯(lián)合分割3.4交互式視頻對象分割3.5壓縮域視頻對象分割3.6視頻對象分割的應(yīng)用3.7本章小結(jié)

3.1視頻對象分割概述

3.1.1基本概念

傳統(tǒng)的視頻編碼標(biāo)準(zhǔn)，例如MPEG-1、MPEG-2、H.261、H.263等，采用基于塊的編碼方式進(jìn)行視頻編碼，這些編碼方法不僅編碼效率低，容易造成視覺上的方塊效應(yīng)，而且其最大缺點(diǎn)是僅僅把數(shù)字圖像看作數(shù)值矩陣，把視頻看作幀流，而沒有考慮視頻場景的按內(nèi)容的真實(shí)構(gòu)成。隨著多媒體應(yīng)用和服務(wù)的增加，特別是基于內(nèi)容操作和具有交互式特性的多媒體應(yīng)用的增加，傳統(tǒng)的編碼方法已不能滿足新的多媒體應(yīng)用的需求，因此有必要采取一種編碼方式按內(nèi)容對視頻信息進(jìn)行編碼。基于這種情況，國際運(yùn)動(dòng)圖像專家小組制定了視頻編碼標(biāo)準(zhǔn)MPEG-4，MPEG-4除了能提供高效的壓縮編碼效率外，還能提供基于對象的交互功能，使用戶能夠訪問(搜索、瀏覽)和操作(剪貼、移動(dòng))場景中的各個(gè)對象，可更廣泛地延拓應(yīng)用范圍，因此也被稱為第二代編碼標(biāo)準(zhǔn)。在MPEG-4標(biāo)準(zhǔn)中，視頻對象被定義為在景物中的一個(gè)單元，允許用戶存取(搜索、瀏覽)和操作(剪切、粘貼)。即視頻對象是區(qū)域的聚類，且至少有一個(gè)共同的特征一致地出現(xiàn)在視頻對象中。這個(gè)概念較為抽象，在實(shí)際的視頻場景中，視頻對象是指具有一定高層“語義”的區(qū)域，更符合現(xiàn)實(shí)生活中人們視覺上對事物認(rèn)知的抽象表達(dá)。現(xiàn)實(shí)世界中的任何一個(gè)有語義意義的實(shí)體，比如行使的汽車、人等，都可以被視為語義視頻對象。在MPEG-4中，視頻序列的每一幀圖像都被分解成若干個(gè)任意形狀的對象，視頻對象在某一時(shí)刻(某一幀中)的表象稱為視頻對象平面(VodeoObjectPlane，VOP)?；趯ο蟮木幋a和交互功能首先需要將場景或視頻序列中的各類對象(如運(yùn)動(dòng)的汽車、人等前景對象和靜止的房屋、樹木等背景對象)分割提取出來，但MPEG-4并沒有規(guī)定從視頻序列中分割出此類具有語義意義的視頻對象(videoobject，VO)的方法，而是對用戶開放，其目的是便于用戶針對具體應(yīng)用來設(shè)計(jì)特定的視頻對象分割算法。然而，語義視頻對象分割與早期的圖像分割相比更是一項(xiàng)挑戰(zhàn)性的難題，為此自MPEG-4標(biāo)準(zhǔn)誕生后的10多年來，國內(nèi)外包括各大公司、高校和各類研究機(jī)構(gòu)在內(nèi)的學(xué)者和研究人員已進(jìn)行深入、廣泛地研究。目前，盡管還不很完善，但已進(jìn)入應(yīng)用階段，而且應(yīng)用領(lǐng)域已遠(yuǎn)遠(yuǎn)超越了原先僅作為便于高效編碼和對象交互功能的范圍。3.1.2視頻對象分割方法分類

常見的視頻對象分割方法可有下面四種分類。

1.按照應(yīng)用目標(biāo)的不同分類

按照應(yīng)用目標(biāo)的不同來分類可分為兩類：一類是要求得到準(zhǔn)確的視頻對象輪廓，但不追求實(shí)時(shí)應(yīng)用；另一類是要求能實(shí)時(shí)處理、在線應(yīng)用，但對所分割得到的對象輪廓的準(zhǔn)確性要求并不很嚴(yán)格。

2.按照是否需要人工參與或人機(jī)交互分類

按照是否需要人工參與或人機(jī)交互來分類可分為兩類：一類是無需人工參與或人機(jī)交互的自動(dòng)分割，包括對初始幀視頻對象分割和對后續(xù)幀的對象跟蹤都可以自動(dòng)進(jìn)行；另一類是需借助人機(jī)交互的半自動(dòng)分割，即借助人工參與或人機(jī)交互來定義語義視頻對象的輪廓形狀和位置，進(jìn)而來分割初始幀的視頻對象，后續(xù)幀的對象跟蹤則自動(dòng)地進(jìn)行(有時(shí)需對跟蹤對象的區(qū)域邊界按預(yù)先定義的語義特征稍做修正，以減少跟蹤誤差)。

3.按照分割過程中所用信息的不同分類

按照分割過程中所用信息的不同來分類可分為空間分割、時(shí)間分割和時(shí)空分割三類。空間分割先按傳統(tǒng)的圖像分割將該幀圖像劃分為區(qū)域，其中某些區(qū)域具有相似特征而與其他區(qū)域明顯不同，然后將這些具有相似特征的一致性區(qū)域，按照一定的空間信息(顏色、灰度、邊緣、紋理)、變換域信息(DCT系數(shù))、統(tǒng)計(jì)信息和先驗(yàn)知識(shí)進(jìn)行分割和聚類成語義視頻對象；時(shí)間分割通常是利用前后幀之間視頻對象的運(yùn)動(dòng)信息進(jìn)行分割，也可結(jié)合顏色、紋理和邊緣等特征；時(shí)空分割一般先通過時(shí)間分割標(biāo)識(shí)出運(yùn)動(dòng)對象，然后與空間分割得到的對象邊界融合在一起，以得到更精確的分割結(jié)果，這是目前的主流分割方法。

4.按照視頻形式分類

根據(jù)視頻是否以壓縮形式提供，視頻對象分割算法可分為壓縮域分割和非壓縮域分割。在壓縮域分割時(shí)，視頻是以壓縮的形式提供，分割過程一般不要求將視頻序列解壓縮，以節(jié)省處理時(shí)間。目前，大多數(shù)壓縮域?qū)ο蠓指钏惴ㄖ饕槍PEG視頻，在MPEG視頻中，宏塊的運(yùn)動(dòng)矢量提供了視頻的運(yùn)動(dòng)信息，I幀的DCT系數(shù)在一定程度上描述了圖像的紋理信息，基于MPEG視頻的壓縮域?qū)ο蠓指钪饕眠@兩類特征實(shí)現(xiàn)對象分割。由于壓縮視頻中的宏塊運(yùn)動(dòng)矢量存在著比較大的噪聲，并且不能準(zhǔn)確計(jì)算圖像的紋理特征，因此，壓縮視頻對象分割只能在宏塊一級進(jìn)行，形成塊一級的視頻對象分割。

在非壓縮分割時(shí)，視頻直接以原始視頻序列提供或通過攝像機(jī)直接捕獲得到。目前視頻對象分割算法的研究大都集中于非壓縮域。3.1.3視頻對象分割性能評價(jià)

近年來，視頻對象分割得到了越來越廣泛的重視。目前，已經(jīng)提出了各種各樣的視頻對象分割算法。然而，視頻對象分割算法性能評價(jià)的研究并未受到應(yīng)有的重視，目前，仍然缺乏一種被廣泛認(rèn)可的評價(jià)方法。

為了評價(jià)視頻分割算法的分割結(jié)果，在MPEG-4核心實(shí)驗(yàn)中，Wollborn提出了一種存在參考對象模板的評價(jià)方法，認(rèn)為分割誤差的產(chǎn)生有錯(cuò)分和漏分兩種情況，如果事先已知一個(gè)準(zhǔn)確的參考模板，可定義分割結(jié)果的空間誤差為

(3-1)該指標(biāo)反映了分割結(jié)果中不屬于實(shí)際對象的面積占整個(gè)實(shí)際對象面積的百分比。該指標(biāo)越小表明分割結(jié)果的質(zhì)量越好。以圖3-1為例，圖(a)是原始圖像，圖(b)是手工分割的結(jié)果，圖(c)是計(jì)算機(jī)分割的結(jié)果。按照式(3-1)計(jì)算值為0.0975，可認(rèn)為其分割結(jié)果較好。圖3-1視頻對象分割示例視頻分割算法評價(jià)的另一方面是時(shí)間一致性(TemporalCoherency)，這實(shí)際上是衡量視頻序列每一幀的空間準(zhǔn)確度的變化程度，因此，可以通過計(jì)算連續(xù)幀間的空間準(zhǔn)確度來評價(jià)。其定義如下：

η(t)=d(Ot，Ot－1)

(3-2)

其中，Ot和Ot－1分別為第t幀和t－1幀的分割對象模板。

3.2視頻對象分割技術(shù)基礎(chǔ)

3.2.1圖像分割

圖像分割是按選定的一致性屬性準(zhǔn)則，將圖像正確劃分為互不交疊的區(qū)域集的過程，可以形式化地定義如下：假設(shè)X是所有像素點(diǎn)組成的集合，P是一個(gè)定義在一組相互連通的像素點(diǎn)上的一致性屬性準(zhǔn)則，那么圖像分割就是將集合X劃分成一組連通子集{S1，S2，…，Sn}，并且這一劃分必須滿足下述四個(gè)條件：

(1)

(2)Si∩Sj=Φ

對所有i≠j

(3)P(Si)=1對所有i

(4)P(Si∩Sj)=0對所有i≠j；Si與Sj相鄰

1.基于閾值的分割技術(shù)

這類方法簡單實(shí)用，在過去的幾十年間備受重視，其分類也不一而足。根據(jù)使用的是圖像的整體信息還是局部信息，可以分為上下文相關(guān)(contextual)方法和上下文無關(guān)(non-contextual)方法；根據(jù)對全圖使用統(tǒng)一閾值還是對不同區(qū)域使用不同閾值，可以分為全局閾值方法(globalthresholding)和局部閾值方法(localthresholding)，也叫做自適應(yīng)閾值方法(adaptivethresholding)；另外，還可以分為單閾值方法和多閾值方法。閾值分割的核心問題是如何選擇合適的閾值。其中，最簡單和常用的方法是從圖像的灰度直方圖出發(fā)，先得到各個(gè)灰度級的概率分布密度，再依據(jù)某一準(zhǔn)則選取一個(gè)或多個(gè)合適的閾值，以確定每個(gè)像素點(diǎn)的歸屬。選擇的準(zhǔn)則不同，得到的閾值化算法就不同。

2.基于邊緣的分割技術(shù)

這類方法主要基于圖像灰度級的不連續(xù)性，它通過檢測不同均勻區(qū)域之間的邊界來實(shí)現(xiàn)對圖像的分割，這與人的視覺過程有些相似。依據(jù)執(zhí)行方式的不同，這類方法通常又分為串行邊緣檢測技術(shù)和并行邊緣檢測技術(shù)。

串行邊緣檢測技術(shù)首先要檢測出一個(gè)邊緣起始點(diǎn)，然后根據(jù)某種相似性準(zhǔn)則尋找與前一點(diǎn)同類的邊緣點(diǎn)，這種確定后繼相似點(diǎn)的方法稱為跟蹤。根據(jù)跟蹤方法的不同，這類方法又可分為輪廓跟蹤、光柵跟蹤和全向跟蹤三種方法。全向跟蹤可以克服由于跟蹤的方向性可能造成的邊界丟失，但其搜索過程會(huì)付出更大的時(shí)間代價(jià)。串行邊緣檢測技術(shù)的優(yōu)點(diǎn)在于可以得到連續(xù)的單像素邊緣，但是它的效果嚴(yán)重依賴于初始邊緣點(diǎn)，由不恰當(dāng)?shù)某跏歼吘夵c(diǎn)可能得到虛假邊緣，較少的初始邊緣點(diǎn)可能導(dǎo)致邊緣漏檢。并行邊緣檢測技術(shù)通常借助空域微分算子，通過其模板與圖像卷積完成，因而可以在各個(gè)像素上同時(shí)進(jìn)行，從而大大降低了時(shí)間復(fù)雜度。常見的并行邊緣檢測方法有如下幾種：

·Roberts算子

·Laplacian算子

·Sobel算子

·Prewitt算子

·Kirsh算子

·Wallis算子

·LOG算子

·Canny算子

3.基于區(qū)域特性的分割技術(shù)

基于區(qū)域特征的分割技術(shù)有兩種基本形式：區(qū)域生長和分裂合并。前者是從單個(gè)像素出發(fā)，逐漸合并以形成所需的分割結(jié)果；后者是從整個(gè)圖像出發(fā)，逐漸分裂或合并以形成所需要的分割結(jié)果。與閾值方法不同，這類方法不但考慮了像素的相似性，還考慮了空間上的鄰接性，因此可以有效消除孤立噪聲的干擾，具有很強(qiáng)的魯棒性。而且，無論是合并還是分裂，都能夠?qū)⒎指钌钊氲较袼丶墸虼丝梢员ＷC較高的分割精度。區(qū)域生長算法先對每個(gè)要分割的區(qū)域找一個(gè)種子像素作為生長的起點(diǎn)，然后將種子像素鄰域內(nèi)與種子像素有相似性的像素合并到種子像素集合。如此往復(fù)，直到再?zèng)]有像素可以被合并，一個(gè)區(qū)域就形成了。顯然，種子像素、生長準(zhǔn)則和終止條件是算法的關(guān)鍵。然而，種子點(diǎn)的選擇并不容易，有人試圖通過邊緣檢測來確定種子點(diǎn)，但是，由于邊緣檢測算法本身的不足，并不能避免遺漏重要的種子點(diǎn)。

分裂合并算法則是先從整個(gè)圖像開始不斷的分裂得到各個(gè)區(qū)域，再將相鄰的具有相似性的區(qū)域合并以得到分割結(jié)果。這種方法雖然沒有選擇種子點(diǎn)的麻煩，但也有自身的不足。一方面，分裂如果不能深達(dá)像素級就會(huì)降低分割精度；另一方面，深達(dá)像素級的分裂會(huì)增加合并的工作量，從而大大提高其時(shí)間復(fù)雜度。分水嶺算法是一種較新的基于區(qū)域特性的圖像分割方法。該算法的思想來源于洼地積水的過程：首先，求取梯度圖像；然后，將梯度圖像視為一個(gè)高低起伏的地形圖，原圖上較平坦的區(qū)域梯度值較小，構(gòu)成盆地，原圖上的邊界區(qū)域梯度值較大，構(gòu)成分割盆地的山脊；接著，水從盆地內(nèi)最低洼的地方滲入，隨著水位不斷長高，有的洼地將被連通，為了防止兩塊洼地被連通，就在分割兩者的山脊上筑起水壩，水位越漲越高，水壩也越筑越高；最后，當(dāng)水壩達(dá)到最高的山脊的高度時(shí)，算法結(jié)束，每一個(gè)孤立的積水盆地對應(yīng)一個(gè)分割區(qū)域。分水嶺算法有著較好的魯棒性，但是往往會(huì)形成過分割。

4.基于統(tǒng)計(jì)模式分類的分割技術(shù)

模式可以定義為對圖像中的目標(biāo)或其他感興趣部分的定量或結(jié)構(gòu)化的描述，圖像分割可以被視為以像素為基元的模式分類過程，這一過程主要包括兩個(gè)步驟：特征提取和模式分類。閾值分割就相當(dāng)于在一維(灰度)或二維(共生矩陣)特征空間進(jìn)行的模式分類，它所使用的特征并沒有充分反映像素的空間信息和其鄰域像素的相關(guān)信息。為了改善分割的效果，我們自然地想到使用能夠充分利用圖像信息的高維特征來描述每一個(gè)像素。這類方法，對于無法由灰度區(qū)分的復(fù)雜的紋理圖像顯得尤為有效。由于模式分類可以借鑒模式識(shí)別技術(shù)中的成熟算法(如FCM算法和SOM算法)，所以這類分割技術(shù)的主要差別在于特征提取的方法。常用的特征有：

·基于共生矩陣的特征

·基于自相關(guān)的特征

·基于邊界頻率的特征

·基于Law’s模板的特征

·行程長度特征(run-lengthfeatures)

·基于二值棧方法(binarystackmethod)的特征

·基于紋理操作符(textureoperators)的特征

·紋理譜特征

·結(jié)構(gòu)特征

·空間域?yàn)V波特征

·傅立葉域?yàn)V波特征

·小波域?yàn)V波特征

·矩特征

·基于Gabor濾波器的特征

·基于隨機(jī)場模型的特征

·分形特征

圖3-2列出了對lena圖像使用幾種典型的分割算法進(jìn)行分割的實(shí)驗(yàn)結(jié)果。圖(a)為原始圖像，圖(b)為閾值分割，圖(c)為Sobel邊緣分割，圖(d)為分裂合并算法的分割結(jié)果，圖(e)為提取Garbor特征后模糊C-均值(FCM)聚類的分割結(jié)果，圖(f)為改進(jìn)的分水嶺算法的分割結(jié)果。圖3-2幾種典型的分割算法的實(shí)驗(yàn)結(jié)果3.2.2數(shù)學(xué)形態(tài)學(xué)處理

1.二值形態(tài)學(xué)

二值數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算有四個(gè)：膨脹(或擴(kuò)張)、腐蝕(或侵蝕)、開啟和閉合。形態(tài)學(xué)的運(yùn)算對象是集合。設(shè)用A表示圖像，B表示結(jié)構(gòu)元素(A和B均為集合)，形態(tài)學(xué)運(yùn)算就是用B對A進(jìn)行操作。

腐蝕是數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算，集合A被集合B腐蝕，表示為AΘB，定義為

(3-3)

AΘB由將B平移x但仍然包含在A內(nèi)的所有點(diǎn)x組成。如果將B看做是模板，那么AΘB則由在平移模板的過程中，所有可以填入A內(nèi)部的模板的原點(diǎn)組成。膨脹是腐蝕運(yùn)算的對偶運(yùn)算，可以通過對補(bǔ)集的腐蝕來定義。A被B膨脹表示為A⊕B，定義為

A⊕B=[AcΘ(－B)]c

(3-4)

其中，Ac表示A的補(bǔ)集。含義為利用B膨脹A，可將B相對原點(diǎn)旋轉(zhuǎn)180°得到－B，再利用－B對Ac進(jìn)行腐蝕，腐蝕結(jié)果的補(bǔ)集就是所求的結(jié)果。

利用腐蝕和膨脹運(yùn)算對圖像做處理，結(jié)果如圖3-3所示，采用的結(jié)構(gòu)元素為半徑為8的圓。圖3-3腐蝕、膨脹運(yùn)算的結(jié)果可見，膨脹操作可以擴(kuò)充圖像區(qū)域，而腐蝕操作則會(huì)縮小圖像區(qū)域。

因?yàn)榕蛎浐透g并不互為逆運(yùn)算，所以它們可以級連結(jié)合使用。例如，可以使用同一結(jié)構(gòu)元素先對圖像進(jìn)行腐蝕運(yùn)算，然后膨脹其結(jié)果；也可以對圖像先進(jìn)行膨脹運(yùn)算再腐蝕其結(jié)果。前者通常稱為開啟(open)運(yùn)算，后者則稱為閉合(close)運(yùn)算。

開啟運(yùn)算符為。，A用B來開啟記為A。B，其定義為

(3-5)閉合運(yùn)算符為·，A用B來閉合記為A·B，其定義為

A·B=(A⊕B)ΘA

(3-6)利用開啟和閉合運(yùn)算對圖像做處理，結(jié)果如圖3-4所示。可見，盡管開運(yùn)算和閉運(yùn)算都是由膨脹和腐蝕運(yùn)算組成的，二者由于順序的不同對圖像處理后的結(jié)果明顯不同。圖3-4開啟、閉合運(yùn)算的結(jié)果

2.灰度形態(tài)學(xué)

數(shù)學(xué)形態(tài)學(xué)首先是在二值形態(tài)學(xué)的基礎(chǔ)上發(fā)展起來的，然后推廣到了灰度數(shù)學(xué)形態(tài)學(xué)。在二值形態(tài)學(xué)中，集合的交運(yùn)算和并運(yùn)算起著關(guān)鍵作用。在灰度形態(tài)學(xué)中，其對應(yīng)的運(yùn)算為極小和極大。與二值形態(tài)學(xué)類似，灰度腐蝕和灰度膨脹是其最基本的運(yùn)算，下面給出灰度腐蝕和灰度膨脹的定義。

利用結(jié)構(gòu)元素g(也是一個(gè)信號(hào))對信號(hào)f的腐蝕定義為

(fΘg)(x)=max{y：gx+y<<f}

(3-7)從幾何角度講，為了求出信號(hào)被結(jié)構(gòu)元素在點(diǎn)x腐蝕的結(jié)果，先在空間滑動(dòng)結(jié)構(gòu)元素，使其原點(diǎn)與x點(diǎn)重合，然后向上推結(jié)構(gòu)元素，結(jié)構(gòu)元素仍處在信號(hào)下方所能達(dá)到的最大值，即為該點(diǎn)的腐蝕結(jié)果。由于結(jié)構(gòu)元素必須在信號(hào)的下方，故空間平移結(jié)構(gòu)元素的定義域必為信號(hào)定義域的子集。否則，腐蝕就在該點(diǎn)沒有定義。

與二值情況一樣，灰度膨脹也可以用灰度腐蝕的對偶運(yùn)算來定義。在定義灰度腐蝕時(shí)，采取求最大值的方法，即在位于信號(hào)下方的條件下，求上推結(jié)構(gòu)所能達(dá)到的最大值。利用結(jié)構(gòu)元素的反射，求將信號(hào)限制在結(jié)構(gòu)元素的定義域內(nèi)時(shí)，上推結(jié)構(gòu)元素使其超過信號(hào)時(shí)的最小值來定義灰度膨脹。f被g膨脹可逐點(diǎn)地定義為

(3-8)圖3-5列出了灰度形態(tài)學(xué)的實(shí)驗(yàn)結(jié)果，圖(a)為原圖，圖(b)為灰度腐蝕的結(jié)果，圖(c)為灰度膨脹的結(jié)果。可以看出，圖(b)和(c)較好地保持了圖(a)的重要細(xì)節(jié)，因此，灰度形態(tài)學(xué)膨脹和腐蝕操作可以視為圖像濾波操作。圖3-5灰度形態(tài)學(xué)的實(shí)驗(yàn)結(jié)果

3.形態(tài)學(xué)圖像處理

數(shù)學(xué)形態(tài)學(xué)的思想和方法適用于與圖像處理有關(guān)的各個(gè)方面。這是因?yàn)閿?shù)學(xué)形態(tài)學(xué)既有堅(jiān)實(shí)的理論基礎(chǔ)，又有簡潔、統(tǒng)一的基本思想。基于以上提及的基本運(yùn)算還可以推導(dǎo)和組合成各種數(shù)學(xué)形態(tài)學(xué)實(shí)用算法。

1)形態(tài)學(xué)濾波

利用形態(tài)學(xué)操作可以濾除圖像中存在的噪聲，這里因?yàn)閳D像中的噪聲一般呈散亂分布或者正態(tài)分布。通過選擇合適的結(jié)構(gòu)元素，只要結(jié)構(gòu)元素的尺寸大于噪聲時(shí)，就可以濾除圖像中存在的噪聲。對某些強(qiáng)噪聲圖像，基于數(shù)學(xué)形態(tài)學(xué)的算法有可能取得較好的效果。形態(tài)學(xué)的操作都可以在某種程度上視為對圖像進(jìn)行濾波操作。圖3-6顯示了利用形態(tài)學(xué)開運(yùn)算進(jìn)行噪聲濾除的結(jié)果。圖3-6形態(tài)學(xué)濾波的結(jié)果

2)形態(tài)學(xué)邊緣檢測

許多常用的邊緣檢測算子(如Canny、Sobel等)通過計(jì)算圖像中局部小區(qū)域的差分來工作。這類邊緣檢測器或算子對噪聲都比較敏感并且常常會(huì)在檢測邊緣的同時(shí)加強(qiáng)噪聲。而形態(tài)邊緣檢測器主要用到形態(tài)梯度的概念，雖也對噪聲較敏感，但不會(huì)加強(qiáng)或放大噪聲。

形態(tài)學(xué)梯度定義為

Grad［f(x)］=(f⊕g)－(fΘg)

(3-9)其中，f為原始圖像，g為結(jié)構(gòu)元素。形態(tài)學(xué)梯度算子的性能取決于結(jié)構(gòu)元素g的大小。大的結(jié)構(gòu)元素會(huì)造成邊緣間嚴(yán)重的相互影響，這將導(dǎo)致梯度極大值與邊緣的不一致。然而，若結(jié)構(gòu)元素過小，則梯度算子雖有高的分辨率，但對斜坡邊緣會(huì)產(chǎn)生一個(gè)很小的輸出結(jié)果。

圖3-7為圖像利用形態(tài)學(xué)梯度進(jìn)行邊緣檢測的結(jié)果，圖(a)為原圖，圖(b)為利用形態(tài)學(xué)梯度檢測的邊緣。圖3-7利用形態(tài)學(xué)梯度進(jìn)行邊緣檢測的結(jié)果

3)形態(tài)學(xué)后處理

在分割的后處理中，為了連接本來相關(guān)的區(qū)域或邊界段，或者分離本來不接觸的區(qū)域，常利用數(shù)學(xué)形態(tài)學(xué)的方法。在對視頻序列中運(yùn)動(dòng)對象的分割過程中，由于信息不夠完全，得到的對象輪廓往往存在空洞，這時(shí)往往需要進(jìn)行形態(tài)學(xué)的后處理，以得到完整的視頻對象。

此外，形態(tài)學(xué)在圖像處理方面還有許多其他的應(yīng)用，如基于擊中擊不中變換的目標(biāo)識(shí)別、基于腐蝕和開運(yùn)算的骨架提取等。3.2.3變化檢測技術(shù)

變化檢測作為一個(gè)重要的工具，廣泛地應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域，如多媒體、視頻監(jiān)控、遙感等。通常，變化檢測將視頻圖像劃分為變化區(qū)域和未變化區(qū)域，它可以有效地檢測圖像序列或圖像組中不同時(shí)刻的變化。由于對象的運(yùn)動(dòng)，使得不同時(shí)刻的圖像灰度值或者彩色值發(fā)生了變化，因此，變化檢測技術(shù)可以用于分割運(yùn)動(dòng)視頻對象。

用f(x，y，k)表示視頻序列中的第k幀圖像，(x，y)表示圖像中像素的坐標(biāo)。變化檢測的任務(wù)就是將兩幀圖像f(x，y，k)與f(x，y，r)進(jìn)行比較，將特征值發(fā)生變化的像素標(biāo)記為1，沒有發(fā)生變化的像素標(biāo)記為0，從而得到二進(jìn)制掩膜圖像c(x，y，k)。其中，f(x，y，r)表示參考幀，例如當(dāng)使用前一幀作為參考幀時(shí)，r=k－1，參考幀為f(x，y，k－1)。不同的變化檢測方法采用不同的策略M，作為f(x，y，k)和f(x，y，r)的函數(shù)計(jì)算c(x，y，k)，記為

c(x，y，k)=M(f(x，y，k)，f(x，y，r))

(3-10)

策略M分解為四個(gè)主要步驟：特征提取、特征分析、分類和后處理。

特征提取步驟通過變換F將輸入圖像f(x，y，k)變換到最合適的特征空間，特征空間的選擇依賴于具體的應(yīng)用。f(x，y，k)經(jīng)過變換F得到序列g(shù)(x，y，k)。特征提取步驟記為

g(x，y，k)=F(f(x，y，k))

(3-11)

特征分析步驟記為T，通過比較g(x，y，k)和g(x，y，r)，計(jì)算表征像素值變化程度的活動(dòng)索引值，該步驟的輸出結(jié)果是序列t(x，y，k)，記為

t(x，y，k)=T(g(x，y，k)，g(x，y，r))

(3-12)特征分析之后進(jìn)行分類，將視頻圖像的活動(dòng)索引t(x，y，k)根據(jù)門限值進(jìn)行二進(jìn)制分類，每一個(gè)像素被標(biāo)記為變化或者未變化，從而得到二進(jìn)制掩膜圖像c(x，y，k)。為了得到分類結(jié)果，判決根據(jù)下面的閾值化檢驗(yàn)進(jìn)行:(3-13)門限值τ可以根據(jù)經(jīng)驗(yàn)值確定或者自適應(yīng)計(jì)算。分類步驟的結(jié)果受各種因素的影響，為了提高檢測結(jié)果的準(zhǔn)確性，通常需要一個(gè)后處理步驟。

1.檢測的特征選取

為了更好地檢測不同時(shí)刻圖像的變化，需要選取合適的特征，將f(x，y，k)變換到合適的特征空間，輸出的結(jié)果是序列g(shù)(x，y，k)。g(x，y，k)可以表示圖像像素的亮度值、彩色分量，或者使用基于區(qū)域模型的參數(shù)作為檢測的特征。

1)強(qiáng)度特征

強(qiáng)度特征是變化檢測中普遍使用的特征，它包括亮度值和彩色分量。在單色相機(jī)情況下，不需要任何特征變換直接得到g(x，y，k)。在彩色相機(jī)情況下，典型的視頻圖像包含三個(gè)彩色分量：

f(x，y，k)=(R(x，y，k)，G(x，y，k)，B(x，y，k))(3-14)其中，R(x，y，k)、G(x，y，k)和B(x，y，k)分別表示視頻圖像的紅色分量、綠色分量和藍(lán)色分量。亮度值通過加權(quán)彩色分量得到：

g(x,y,k)=Y(x,y,k)=ω1R(x,y,k)+ω2G(x,y,k)+ω3B(x,y,k)

(3-15)

ωi(i=1,2,3)表示人類視覺系統(tǒng)對不同彩色分量的敏感程度。

除了使用亮度值作為強(qiáng)度特征外，有些文獻(xiàn)［33，34］使用彩色值作為強(qiáng)度特征?？梢灾苯邮褂孟鄼C(jī)傳感器得到的彩色信息(通常是RGB)，或者將彩色信息變換到其他彩色空間，彩色空間的選擇依賴于具體的應(yīng)用。

2)光照不變特征

由于光照變化使得圖像的強(qiáng)度值發(fā)生變化，因此當(dāng)光照條件變化時(shí)，需要選擇一些光照不變特征，例如邊緣特征、圖像反射分量等，以克服光照變化對變化檢測結(jié)果的影響?；趫D像邊緣特征的變化檢測方法，依據(jù)是全局光變不改變圖像的邊緣形狀，而且由于邊緣圖是二值圖像，因此便于計(jì)算和存儲(chǔ)。另一個(gè)光照不變特征是反射分量。反射圖用于表示圖像的反射分量，包含物理對象信息，與光照變化無關(guān)。

3)二階統(tǒng)計(jì)特征

通過建模信號(hào)f(x，y，k)的強(qiáng)度分布，可以提取特征g(x，y，k)用于變化檢測。模型通常利用基于區(qū)域的統(tǒng)計(jì)表示，采用二階統(tǒng)計(jì)模型，例如區(qū)域的方差和均值、建模區(qū)域的二次函數(shù)或者偏微分描述圖像的局部強(qiáng)度分布。區(qū)域的形狀通常選擇以像素(x，y，k)為中心的N×N區(qū)域窗W(x，y，k)，窗內(nèi)像素的均值和方差計(jì)算公式為(3-16)(3-17)

2.變化檢測的特征分析

當(dāng)圖像變換到合適的特征空間后，對特征進(jìn)行分析。特征分析步驟通過變換T比較g(x，y，k)和g(x，y，r)，該步驟的輸出結(jié)果是反映視頻圖像特征值變化程度的活動(dòng)索引t(x，y，k)。下面討論執(zhí)行特征分析時(shí)如何選取鄰域窗、參考幀和變換T。

1)特征分析時(shí)鄰域窗的選取

理想情況下，變換T分別作用于每一個(gè)像素。但是由于實(shí)際圖像受噪聲的影響，因此需要一個(gè)更穩(wěn)健的方法處理噪聲，為此，變換T作用于每個(gè)像素的鄰域窗，在鄰域窗內(nèi)比較當(dāng)前圖像和參考圖像的特征，以降低變化檢測過程中噪聲的影響。

鄰域窗可以選擇具有不規(guī)則形狀的區(qū)域或者矩形窗。矩形窗是最常用的形狀，當(dāng)沒有場景的先驗(yàn)知識(shí)可以利用時(shí)，通常選擇矩形窗。鄰域窗的面積越大，對噪聲越不敏感，然而，檢測的準(zhǔn)確性降低。在鄰域窗得到的信息可以作用于不同的范圍。如果從像素鄰域窗內(nèi)得到的信息作用于窗內(nèi)的所有像素，則檢測過程使用的鄰域窗是非交叉空域窗，稱為非重疊窗；如果從像素鄰域窗得到的信息只是作用于中心像素，則檢測過程使用的鄰域窗是交叉空域窗，稱為重疊窗。采用重疊窗時(shí)，可以提供較好的準(zhǔn)確性，但是計(jì)算復(fù)雜度較高；采用非重疊窗時(shí)，計(jì)算復(fù)雜度降低，但是準(zhǔn)確性也降低。

2)參考幀的選擇

在特征分析步驟，需要將當(dāng)前幀的特征g(x，y，k)與參考幀的特征g(x，y，r)進(jìn)行比較。可以選擇前一幀圖像或者背景圖像作為參考幀。許多變化檢測技術(shù)使用前一幀圖像作為參考幀，此時(shí)特征分析步驟表示為

t(x，y，k)=T(g(x，y，k)，g(x，y，k－1))

(3-18)

該方法的優(yōu)點(diǎn)是降低了陰影區(qū)域的影響，不足之處是因語義視頻對象運(yùn)動(dòng)而暴露出的背景區(qū)域也會(huì)檢測為變化，而且當(dāng)語義視頻對象內(nèi)部的紋理細(xì)節(jié)不豐富時(shí)，無法檢測出語義視頻對象平面的內(nèi)部區(qū)域。另一種方法是使用背景圖像作為參考幀，一種簡單的情況是若視頻序列的初始幀中不包含對象，可選擇視頻序列的第一幀作為參考幀，此時(shí)特征分析步驟表示為

t(x，y，k)=T(g(x，y，k)，g(x，y，1))

(3-19)

由于使用背景圖像作為參考幀，即使對象停止運(yùn)動(dòng)，也可以檢測出來。這種方法的不足之處是由于參考幀固定，因此不能自適應(yīng)于環(huán)境光照的慢變化，不適合處理較長的室外視頻序列。而且在許多應(yīng)用中，視頻序列的第一幀包含語義視頻對象，不能用作參考幀。為此，需要利用視頻序列中多幀圖像的背景信息構(gòu)造背景幀。一般情況下，綜合連續(xù)多幀圖像的信息，預(yù)測當(dāng)前的背景幀圖像，然后利用構(gòu)造的背景圖像作為參考幀進(jìn)行變化檢測。背景圖像g(x，y，r)采用視頻序列先前幀背景圖像的加權(quán)值與當(dāng)前幀進(jìn)行構(gòu)造時(shí)為

g(x，y，r)=(1－α)(g(x，y，k)+αg(x，y，k－1)

(3-20)

g(x，y，1)=g(x，y，1)，0<α<1。這樣即使所有的視頻圖像都包含語義視頻對象，也可以生成背景圖像。而且通過與當(dāng)前幀進(jìn)行加權(quán)，可以補(bǔ)償光照條件的慢變化，使得構(gòu)造的背景圖像不受光照慢變化的影響。不足之處是只有當(dāng)語義視頻對象持續(xù)運(yùn)動(dòng)，背景像素在大部分時(shí)間暴露時(shí)，該背景圖像的構(gòu)造方法才有效，而當(dāng)語義視頻對象運(yùn)動(dòng)速度很慢時(shí)，這種方法的效果不好。~~~~

3)活動(dòng)索引的計(jì)算

將視頻圖像和參考幀變換到合適的特征空間后，接著根據(jù)g(x，y，k)和g(x，y，r)計(jì)算反映特征值變化程度的活動(dòng)索引。將變換T分解為距離算子Td和一個(gè)函數(shù)Tl，因此方程(3-12)可以表示為

t(x，y，k)=Tl(Td(g(x，y，k)，g(x，y，r)))

(3-21)

距離算子提供像素級的特征距離，可以通過對應(yīng)像素的差值、特征矢量差值或者二階統(tǒng)計(jì)量的差值實(shí)現(xiàn)。對應(yīng)像素的差值表示為

td(x，y，k)=Td(g(x，y，k)，g(x，y，r))=g(x，y，k)－g(x，y，r)

(3-22)

距離算子可以應(yīng)用到亮度或者彩色分量表示的強(qiáng)度圖像、二進(jìn)制邊緣圖像。特征矢量差值用于對特征矢量進(jìn)行運(yùn)算，特征矢量可以是彩色特征或者區(qū)域特征。進(jìn)行距離算子Td運(yùn)算后，需要進(jìn)一步變換td(x，y，k)得到用于變化檢測的活動(dòng)索引。在一些情況下，距離算子的結(jié)果td(x，y，k)可以直接用作活動(dòng)索引，此時(shí)不需要經(jīng)過函數(shù)Tl運(yùn)算。Tl變換可以是絕對值、平方值、二階矩、四階矩或者是邊緣運(yùn)算。如果使用的特征是邊緣，則在圖像差分距離算子之后取絕對值或者平方值：

t(x，y，k)=||tdg(x，y，k)||p

(3-23)

其中，p={1，2}分別表示絕對值和平方值。當(dāng)使用圖像強(qiáng)度特征(亮度或者彩色分量)時(shí)，在矩形窗W(x，y，k)內(nèi)計(jì)算矩。在這種情況下，活動(dòng)索引表示為下面的形式：(3-24)其中，td(i，j，k)是差分圖像，s是矩的階數(shù)，均值μ為(3-25)計(jì)算活動(dòng)索引時(shí)，可以使用不同的td(i，j，k)和s的組合。當(dāng)td(i，j，k)是圖像亮度差分結(jié)果，并且s=4時(shí)，得到的t(i，j，k)是四階矩。當(dāng)td(i，j，k)是圖像亮度值的比率，并且s=2時(shí)，得到的t(i，j，k)是二階矩。計(jì)算的活動(dòng)索引可以作用于W(x，y，k)內(nèi)的所有像素(非重疊窗)或者只是作用于W(x，y，k)的中心像素(重疊窗)，后者提供了較好的空域準(zhǔn)確性。

3.變化檢測的分類步驟

分類步驟根據(jù)活動(dòng)索引t(i，j，k)，將圖像中的像素分為變化或者未變化兩類。為了得到分類結(jié)果，需要根據(jù)方程(3-13)對t(i，j，k)進(jìn)行閾值化判決。活動(dòng)索引t(i，j，k)的范圍依賴于特征空間的選擇和特征分析采用的距離算子，例如，在采用邊緣特征時(shí)，t(i，j，k)值的范圍是{-1，0，1}；在對圖像強(qiáng)度特征取差分絕對值的情況下，t(i，j，k)的值為正整數(shù)。

式(3-13)中的門限值τ是經(jīng)驗(yàn)值或者自適應(yīng)計(jì)算。經(jīng)驗(yàn)門限值對于視頻序列中所有視頻圖像都是固定的，通?；诤艽蟮臄?shù)據(jù)庫，根據(jù)實(shí)驗(yàn)確定。自適應(yīng)門限值根據(jù)某些規(guī)則動(dòng)態(tài)確定。下面介紹一些選擇門限值的方法。

1)經(jīng)驗(yàn)門限值的選取

當(dāng)變化檢測過程中選擇強(qiáng)度特征時(shí)，門限值的選取依賴于場景、相機(jī)噪聲和時(shí)空光照條件。

當(dāng)變化檢測過程中使用邊緣特征時(shí)，活動(dòng)索引t(i，j，k)通過邊緣圖差分的絕對值計(jì)算，這種情況下門限值為0。

經(jīng)驗(yàn)門限值τ根據(jù)測試序列的不同而手工調(diào)節(jié)，不足之處是需要根據(jù)場景的特征交互式改變門限值，因此不適合自動(dòng)分割和較長的視頻序列。為了得到最優(yōu)的檢測，門限值需要自適應(yīng)于場景內(nèi)容和不同類型的噪聲。

2)自適應(yīng)門限值的選取

自適應(yīng)門限值需要根據(jù)相機(jī)噪聲方差δc自動(dòng)確定。如果相機(jī)噪聲的概率密度函數(shù)已知，使用區(qū)域統(tǒng)計(jì)分析計(jì)算自適應(yīng)局部門限。統(tǒng)計(jì)分析方法基于建模噪聲的密度函數(shù)，比較差分圖像中每個(gè)像素點(diǎn)的鄰域窗內(nèi)的統(tǒng)計(jì)行為，基于顯著性檢驗(yàn)技術(shù)判決像素值是否發(fā)生了變化。噪聲模型的定義基于下面的假設(shè)：鄰域窗內(nèi)所有像素值的變化都是由于噪聲引起(假設(shè)H0)；序列中的每一幀都受特定均值和方差的加性高斯噪聲的影響。在這些假設(shè)下，噪聲模型通過χ2分布描述，它的屬性依賴于鄰域窗內(nèi)像素的數(shù)目和噪聲的方差。給定χ2分布和顯著性水平α，自適應(yīng)門限值τα通過下式確定：

α=P{δ>τα|H0}

(3-26)

其中，顯著性水平α是一個(gè)固定的參數(shù)，不需要手工調(diào)節(jié)。

4.變化檢測的后處理

分類結(jié)果c(x，y，k)受各種因素的影響，這將在c(x，y，k)中引起虛警。這些虛警主要包括：閾值分割和統(tǒng)計(jì)分析存在一定的虛警，因?qū)ο筮\(yùn)動(dòng)暴露的背景區(qū)域，對象的陰影區(qū)域。這些虛警影響了對象檢測結(jié)果的準(zhǔn)確性，需要通過后處理步驟進(jìn)行消除。

1)使用二進(jìn)制掩膜圖像的后處理

后處理步驟要求在保持輪廓的同時(shí)消除不規(guī)則性，可以使用當(dāng)前的二進(jìn)制掩膜圖像或者一組二進(jìn)制掩膜圖像進(jìn)行處理。在只使用當(dāng)前二進(jìn)制掩膜圖像的情況下，后處理步驟表示為

p(x，y，k)=P(c(x，y，k))

(3-27)P表示后處理步驟采用的方法，它基于一些先驗(yàn)假定調(diào)整二進(jìn)制掩膜圖像c(x，y，k)，典型的假定是語義視頻對象的緊湊性。在這種假定下，變化區(qū)域必須是連通的，而且具有一定的幾何規(guī)則性。通常使用形態(tài)學(xué)濾波器、形態(tài)學(xué)開運(yùn)算或者更為復(fù)雜的形態(tài)學(xué)組合濾波器進(jìn)行處理。其優(yōu)點(diǎn)是計(jì)算復(fù)雜度低，不足之處是先驗(yàn)假定(緊湊性和規(guī)則輪廓)并不總是成立的。

聯(lián)合基于背景圖像的變化檢測結(jié)果和幀間變化檢測結(jié)果進(jìn)行處理，后處理步驟表示為

p(x,y,k)=P(c(x,y,k－1)，c(x,y,k)，c′(x,y,k)，c(x,y,k+1))

(3-28)

2)使用二進(jìn)制掩膜圖像和原始圖像的后處理

可以通過分析當(dāng)前幀圖像和二進(jìn)制掩膜圖像改進(jìn)分類結(jié)果，表示為

p(x，y，k)=P(c(x，y，k)，f(x，y，k))

(3-29)

或者通過分析當(dāng)前幀圖像、參考幀圖像、以及二進(jìn)制掩膜圖像改進(jìn)分類結(jié)果：

p(x，y，k)=P(c(x，y，k)，f(x，y，k)，f(x，y，r))

(3-30)

參考幀f(x，y，r)是背景幀或者前一幀。后處理步驟通常采用運(yùn)動(dòng)、顏色和邊緣信息。根據(jù)(3-30)式進(jìn)行后處理的典型例子是陰影檢測。陰影區(qū)域通常被檢測為運(yùn)動(dòng)區(qū)域的一部分，通過消除陰影區(qū)域，可以改善變化檢測結(jié)果。

3.3基于時(shí)/空域聯(lián)合分割

在視頻對象分割算法中，空間域分割和時(shí)間域分割分別依賴于幀內(nèi)和幀間的信息。由于場景中存在噪聲以及運(yùn)動(dòng)估計(jì)所固有的遮擋和孔徑問題，往往不能獲得精確的運(yùn)動(dòng)估計(jì)。同時(shí)，基于運(yùn)動(dòng)的分割方法一般對有較大運(yùn)動(dòng)的目標(biāo)分割效果不好，影響到運(yùn)動(dòng)分割的精度，不能準(zhǔn)確地逼近運(yùn)動(dòng)物體的邊緣。因此，要準(zhǔn)確地實(shí)現(xiàn)分割，還需要在運(yùn)動(dòng)分割算法的基礎(chǔ)上聯(lián)合物體的顏色、亮度、邊緣等空間信息進(jìn)行視頻分割。這種視頻對象分割方法稱為基于時(shí)/空域聯(lián)合分割。時(shí)/空域聯(lián)合的分割方法是綜合利用時(shí)間域的幀間運(yùn)動(dòng)信息和空間的亮度、顏色信息，同時(shí)進(jìn)行空間分割和時(shí)間分割的方法，其目的是為了提取足夠準(zhǔn)確的邊緣。通過空間分割將圖像分割為具有準(zhǔn)確語義邊界的初始分割區(qū)域，時(shí)域分割則定位圖像中的運(yùn)動(dòng)區(qū)域，最后結(jié)合空間分割和時(shí)域分割的結(jié)果，獲得邊緣定位較精確的分割對象。本節(jié)介紹一種靜止背景視頻序列的時(shí)/空聯(lián)合分割算法，分割框圖如圖3-8所示。圖3-8時(shí)/空聯(lián)合分割框圖3.3.1時(shí)間分割

時(shí)間分割可以判斷出哪些像素發(fā)生了變化或者屬于哪個(gè)對象，并通過標(biāo)記或掩模的方式表現(xiàn)出來。時(shí)間分割的方法主要有變化檢測、運(yùn)動(dòng)估計(jì)、光流法、對象跟蹤等。這些方法各有不同的特點(diǎn)，適應(yīng)不同特征的視頻序列。本節(jié)采用簡單的幀間變化檢測算法進(jìn)行時(shí)間分割，得到空域模板。

變化檢測把當(dāng)前視頻幀分割成相對于參考幀“變化的”和“未變化的”區(qū)域。未變化的部分表示靜止的背景，變化的部分代表運(yùn)動(dòng)和遮擋區(qū)域。假設(shè)fk(x，y)表示第k幀的原始圖像，fk+1(x，y)表示第k+1的原始圖像，則前、后幀之間的偏移幀差(displacedframedifference)為

dk，k+1(x，y)=|fk+1(x，y)－fk(x，y)|

(3-31)

在理想情況下，不等于零的點(diǎn)的位置代表“變化”區(qū)域，然而由于噪聲的存在，這種情況很少存在，為此，可以用以下方式計(jì)算變化檢測模板(changedetectionmask):

(3-32)

其中，T為閾值。顯然，上述變化檢測模板反映運(yùn)動(dòng)對象位置變化的性能存在閾值依賴性，即閾值的選取是至關(guān)重要的一步。借助一些數(shù)學(xué)工具，目前已提出了許多自動(dòng)判斷并計(jì)算閾值的方法，如直方圖法、高階統(tǒng)計(jì)量法、置信度法等，都取得了較好的效果。圖3-9為用置信度法計(jì)算得到閾值的變化檢測實(shí)驗(yàn)圖，圖(a)是Trevor序列第7幀圖像，圖(b)是Trevor序列第8幀圖像，圖(c)為第7幀和第8幀用幀差法得到的時(shí)間閾變化檢測圖像，可以看出，時(shí)間分割掩?；痉从沉藢ο蟮倪\(yùn)動(dòng)區(qū)域，但還需要經(jīng)過一些后處理技術(shù)，才能得到相對較為準(zhǔn)確的分割掩模。后處理通常采用連同組件分析和形態(tài)學(xué)濾波。圖3-9變化檢測實(shí)驗(yàn)圖3.3.2空間分割

由于運(yùn)動(dòng)信息的復(fù)雜性，時(shí)間分割往往只能得到大致準(zhǔn)確的對象邊界?？臻g分割則可以得到準(zhǔn)確的對象邊界，但很難自動(dòng)得到語義對象區(qū)域。閾值法、聚類法以及分水嶺變換等都可實(shí)現(xiàn)空間分割，其中，分水嶺算法就是一種常用的基于區(qū)域的分割方法，可以得到一致性很好的均勻區(qū)域，本文將采用分水嶺算法作為空域分割方法。

1.分水嶺算法的基本思想

分水嶺算法主要利用圖像梯度值的不同，形成不同高度的堤壩，然后仿照流水的過程，分配各像素值到不同的“流域”內(nèi)，形成不同的分割區(qū)域。為了便于處理，在實(shí)際中，梯度值一般用形態(tài)學(xué)梯度計(jì)算。圖3-10是分水嶺算法的原理示意圖。圖3-10分水嶺算法的原理示意圖假設(shè)待分割對象是由不連續(xù)的物體組成的，則形態(tài)學(xué)梯度將由“深度”不同的區(qū)域組成。圖中的不同深度區(qū)域?qū)?yīng)不同的圖像梯度。分水線就是明顯不同的梯度的交匯線，注水盆地則對應(yīng)著梯度的極小值。對于一個(gè)給定的極小區(qū)域，水珠則會(huì)滾入該區(qū)域的所有點(diǎn)構(gòu)成的集合，可以稱之為該極小區(qū)域的集水域或流域。對流域變換也可以換一個(gè)角度看，即不從水珠流入?yún)^(qū)域的角度而從水溢出的角度看。假?zèng)]注水盆的底部有一個(gè)小孔，水從這個(gè)小孔注入時(shí)不同流域的水面都將不斷提高而將要匯合在一起。為防止不同流域的水相互混合，需要筑起一條壩，堤壩即對應(yīng)著流域的分界線。

2.分水嶺算法的計(jì)算方法

Beucher和Lanturjoul最先提出了基于“浸沒”模型的分水嶺算法，在已知區(qū)域最小的前提下，在每個(gè)區(qū)域最小值影響的區(qū)域(InfluenceZones)內(nèi)，通過形態(tài)學(xué)厚化運(yùn)算，逐步擴(kuò)展所影響的區(qū)域范圍，最后得到分水嶺線。但是該算法在計(jì)算的過程中，當(dāng)同一區(qū)域呈環(huán)形時(shí)，就可能產(chǎn)生錯(cuò)誤的分水嶺線，并且因?yàn)樵诿恳淮味岛窕倪^程中，都必須將所有的像素掃描一次，所以這種算法的效率是非常低的。

Friedlander提出了一種有序算法。這類算法按照預(yù)先規(guī)定的順序?qū)D像進(jìn)行掃描，在掃描的過程中每個(gè)像素的新的值可能會(huì)對下一個(gè)像素的新的值的計(jì)算產(chǎn)生影響。整個(gè)算法必須有一個(gè)初始化的步驟，生成“主要蓄水盆地(BroadCatchmentBasin)”。擁有區(qū)域最小值M的主要蓄水盆地是一些像素的集合，從像素M開始，經(jīng)過一個(gè)非降的浸沒過程可以到達(dá)這些像素。圖像中的任何一個(gè)像素都至少屬于一個(gè)主要蓄水盆地，而兩個(gè)或兩個(gè)以上的主要蓄水盆地重疊的區(qū)域就稱為“分水嶺區(qū)域”，這些區(qū)域組成了“受限蓄水盆地(RestrictedCatchmentBasin)”。最后，可以通過SKIZ(受影響區(qū)域的骨架提取，SkeletonbyInfluenceZones)得到分水嶺線。整個(gè)過程是相當(dāng)快的，因?yàn)槊恳粋€(gè)步驟都是有序進(jìn)行的。另外，在算法中對每個(gè)蓄水盆地都進(jìn)行了標(biāo)記編號(hào)，所以可以避免Beucher和Lanturjoul算法中同一區(qū)域呈環(huán)形時(shí)產(chǎn)生的分水線錯(cuò)誤，但該算法獲取的分水嶺線位置可能會(huì)不正確，有時(shí)甚至不在圖像的脊線(Crest-lines)上。

LucVincent考慮到在運(yùn)算過程中的每一步都只有少量的像素發(fā)生變化的特點(diǎn)，將算法分為兩個(gè)步驟：排序和浸水淹沒。排序是按照圖像中像素的灰度值進(jìn)行從小到大的分類，具有相同灰度值的像素被存儲(chǔ)在一個(gè)鏈表中，以方便對同一灰度級像素的隨機(jī)訪問，這樣為接下來的浸水淹沒過程提供了方便。浸水淹沒過程是當(dāng)水由區(qū)域最小值逐漸進(jìn)入由圖像表示的地形曲面時(shí)，計(jì)算當(dāng)前灰度級的測地影響區(qū)。假設(shè)高度小于等于h的像素所屬的盆地已經(jīng)標(biāo)記出來，則處理高度為h+1的像素時(shí)，將這一層中與已標(biāo)記的匯水盆地相鄰的像素放入一個(gè)先進(jìn)先出的存儲(chǔ)隊(duì)列。再由這些像素開始，根據(jù)測地距離將已經(jīng)標(biāo)記的匯水盆地?cái)U(kuò)展至h+1層。這樣，只剩下高度為h+1的區(qū)域最小值沒有被標(biāo)記，它們與己經(jīng)標(biāo)記出來的匯水盆地均不鄰接。最后，再通過一次二維掃描，將h+1層中可能存在的區(qū)域最小值標(biāo)記為新的標(biāo)號(hào)。在最終的分割結(jié)果中，具有同一標(biāo)號(hào)的像素屬于同一個(gè)匯水盆地，而距離不同匯水盆地相等的像素就構(gòu)成分水線。使用這種方法計(jì)算一幅256×256大小圖像的分水嶺大約只需要幾秒鐘，相比前面介紹的算法而言，效率很高。這種算法對于4-連通、6-連通或是8-連通的圖像來說是通用的，甚至可以推廣到任意一種網(wǎng)格。使用這種算法計(jì)算分水嶺可以推廣到N維的圖像。并且因?yàn)榻o每個(gè)蓄水盆地進(jìn)行了標(biāo)記，這種算法計(jì)算的精確度也是相當(dāng)高的。分水嶺算法盡管可得到較為一致的平滑區(qū)域，但卻容易出現(xiàn)“過分割”現(xiàn)象，這會(huì)造成出現(xiàn)較多的小區(qū)域。通常分水嶺算法執(zhí)行在梯度圖像上，如果要減輕過分割現(xiàn)象，一個(gè)直接簡單的方法就是需要對一些極小點(diǎn)進(jìn)行抑制，從而減小區(qū)域的數(shù)量。對于所期望的目標(biāo)區(qū)域，也需要利用一些知識(shí)對其進(jìn)行強(qiáng)調(diào)，從而使分水嶺算法能夠得到較好的分割結(jié)果。

對Tennis第1幀圖像用分水嶺分割，結(jié)果如圖3-11所示。圖3-11Tennis第1幀圖像分水嶺分割結(jié)果3.3.3時(shí)/空融合分割

常見的時(shí)間分割信息和空間分割信息融合方法之一是對多個(gè)特征采用馬爾可夫建模，然后進(jìn)行優(yōu)化求解，但存在計(jì)算量大的缺點(diǎn)。

由于前面已通過時(shí)間分割得到了視頻對象的大致區(qū)域，又通過空間分割得到了視頻對象的一致區(qū)域的準(zhǔn)確邊界，因此可采用比重法進(jìn)行時(shí)空分割信息融合，即將空間分割后得到的區(qū)域向時(shí)間分割得到的視頻對象區(qū)域進(jìn)行投影，如果其像素?cái)?shù)與屬于時(shí)間分割所標(biāo)識(shí)的區(qū)域像素之比高于某一預(yù)設(shè)置閾值Th，則可認(rèn)為此區(qū)域?qū)儆谝曨l對象，然后合并所有的此類區(qū)域，即可得到視頻對象。這種方法的實(shí)質(zhì)是時(shí)間分割提供了語義對象的大致范圍，而通過空間分割得到語義對象的準(zhǔn)確邊界。通常，閾值Th的選取與具體的圖像序列中包含的陰影、噪聲等有關(guān)，還與空間區(qū)域的閾值有關(guān)。經(jīng)過比重法判斷后，仍然會(huì)出現(xiàn)部分視頻運(yùn)動(dòng)對象區(qū)域丟失以及把背景區(qū)域誤判為運(yùn)動(dòng)區(qū)域的情況，因此還需要后處理。使用小區(qū)域去除的方法把誤判的背景區(qū)域去除掉，再使用形態(tài)結(jié)構(gòu)的閉運(yùn)算及填充運(yùn)算得到完整的視頻運(yùn)動(dòng)對象。

使用時(shí)空聯(lián)合分割方法對Akyio序列進(jìn)行分割，實(shí)驗(yàn)結(jié)果如圖3-12所示。圖3-12Akyio序列分割實(shí)驗(yàn)結(jié)果

Akyio序列是一種典型的頭肩序列，背景較復(fù)雜但基本不動(dòng)，而僅僅人有較小的運(yùn)動(dòng)，從圖中可以看出時(shí)域檢測的運(yùn)動(dòng)區(qū)域準(zhǔn)確，空間也得到了較準(zhǔn)確的分割，所以得到了較好的分割結(jié)果。

3.4交互式視頻對象分割

通常，自動(dòng)分割算法只適合較簡單的場景以及特定的視頻序列。它的分割速度雖然較快，但分割結(jié)果的質(zhì)量不一定能達(dá)到滿意的要求。這主要有兩個(gè)原因：一方面，視頻對象很難由低級特性(如顏色、直方圖及運(yùn)動(dòng)特性)來描述，而自動(dòng)分割算法依據(jù)視頻內(nèi)容的時(shí)空一致性，不能真正理解視頻序列中有語義意義的視頻內(nèi)容；另一方面，現(xiàn)有大多數(shù)自動(dòng)分割算法對運(yùn)動(dòng)對象輪廓的獲取是通過區(qū)域的分裂與合并實(shí)現(xiàn)的，這樣會(huì)使運(yùn)動(dòng)對象輪廓多出或丟失一些小的區(qū)域，而人眼的視覺對視頻對象的輪廓極其敏感，所以通過自動(dòng)分割獲得的運(yùn)動(dòng)對象輪廓精度有時(shí)候不一定能夠滿足MPEG-4的交互式應(yīng)用的要求。引入人機(jī)交互的半自動(dòng)視頻分割(以下簡稱為半自動(dòng)分割)由于可借助人機(jī)交互來協(xié)助定義視頻對象的輪廓及位置、所選擇的跟蹤對象是剛性還是柔性等，往往可以取得較好的效果。在一些沒有實(shí)時(shí)性要求的系統(tǒng)中，如多媒體制作和基于內(nèi)容的視頻檢索等，半自動(dòng)分割更為合適。因此，半自動(dòng)的分割算法近年來得到了越來越多的重視。

交互式語義對象分割一般包括相互關(guān)聯(lián)的兩個(gè)步驟，即在某些關(guān)鍵幀(通常為初始幀或者需要進(jìn)行對象修正的幀)通過簡單的用戶交互分割出用戶感興趣的任意對象，而在其他幀則利用對象的幀間相關(guān)性，依靠對象跟蹤算法來完成對象的分割。3.4.1初始對象輪廓提取

關(guān)鍵幀中的感興趣對象分割，可以使用靜態(tài)圖像的交互式分割工具來完成。目前流行的圖像編輯軟件(如PhotoShop)中提供了MagicWand和MagicLasso(也稱為IntelligentScissors)，兩種成熟的交互式分割工具，但它們都需要用戶在對象內(nèi)部或者對象輪廓附近選擇多個(gè)種子點(diǎn)，而且需要用戶自始至終參與整個(gè)分割過程。此外，前者在對象和背景的顏色分布有重疊的情況下很難分割出滿意的對象；而后者對于紋理豐富的區(qū)域需要用戶提供較多的種子點(diǎn)來不斷修正對象輪廓。近年來的交互式對象分割研究中，用戶交互方式一般是由用戶勾勒出對象的大致輪廓或者用矩形和多邊形圈定對象的大致區(qū)域，生成一幅三值圖(Trimap)以區(qū)分對象區(qū)域、背景區(qū)域和界于對象和背景之間的不確定區(qū)域。一種直接的分割策略就是根據(jù)顏色或紋理的相似性將不確定區(qū)域依次合并到對象或背景區(qū)域中，一般采取種子區(qū)域生長算法，雖然計(jì)算簡單，但用戶交互的工作量較大，對于復(fù)雜圖像的分割精度較低，而且用戶無法控制最終的分割結(jié)果。另一種間接的分割策略就是分別建立對象和背景的顏色分布模型，通過概率估計(jì)來決定不確定區(qū)域內(nèi)像素的歸屬。BayesMatting方法通過計(jì)算出不確定區(qū)域內(nèi)像素的alpha值(透明度)來表示其屬于對象或者背景的概率，適合于不確定區(qū)域相對較小且具有較大差異的兩類顏色分布模型。GraphCut方法將對象分割問題轉(zhuǎn)換為有向加權(quán)圖的切割問題，采用圖的最大流(Max-flow)算法完成圖的切割，將原始圖像分割成對象和背景。GrabGut方法則將對象分割問題轉(zhuǎn)化為一個(gè)能量最小化問題加以解決，并允許用戶可自由地對對象的局部邊界進(jìn)行修正和平滑，以任意精度接近用戶期望的分割結(jié)果。3.4.2對象跟蹤

對于視頻序列，其余幀的對象分割可通過對上述交互式分割得到的對象進(jìn)行跟蹤來完成。對象跟蹤可以基于對象區(qū)域的投影來進(jìn)行，首先對對象區(qū)域進(jìn)行運(yùn)動(dòng)估計(jì)或者利用更復(fù)雜的參數(shù)運(yùn)動(dòng)模型進(jìn)行投影以得到對象在當(dāng)前幀的投影區(qū)域，然后修正投影區(qū)域的輪廓以獲得具有準(zhǔn)確邊界的視頻對象。利用上述對象投影策略同樣可以獲得對象的種子區(qū)域，然后對種子區(qū)域進(jìn)行生長以得到完整的對象區(qū)域，或者同時(shí)考慮對背景區(qū)域進(jìn)行投影，以兩個(gè)投影區(qū)域作為種子區(qū)域進(jìn)行生長和分裂來得到最終的對象。上述的區(qū)域投影可以看作是前向投影，即將已有的對象或者其分割區(qū)域向當(dāng)前幀投影，也可將當(dāng)前幀的分割區(qū)域進(jìn)行后向投影，根據(jù)每個(gè)投影區(qū)域與前一幀對象相交面積的多少來判斷它是否屬于當(dāng)前幀對象，還能夠結(jié)合前向投影和在像素級上的后向投影以提高分割的精度和效率。對象跟蹤同樣可以利用對象的邊緣特征或輪廓特征來實(shí)現(xiàn)，如對對象的邊緣模型在當(dāng)前幀進(jìn)行投影和距離變換得到其膨脹后的區(qū)域，然后對膨脹區(qū)域的彩色直方圖進(jìn)行反向映射后得到當(dāng)前幀對象；也可在投影對象的邊界區(qū)域上通過模板匹配使對象輪廓精確化；一些文獻(xiàn)則引入了分割質(zhì)量的反饋來自適應(yīng)地調(diào)整對象的每段輪廓；采用基于水平集的曲線演化方法也能保證分割遮擋對象輪廓的可靠性。為了增強(qiáng)分割的對象在整個(gè)序列上時(shí)空域的一致性和連貫性，對象分割可以在Bayesian框架下轉(zhuǎn)變?yōu)橐粋€(gè)最大化后驗(yàn)概率(MAP)的問題。首先以空域分割的各個(gè)區(qū)域?yàn)榻Y(jié)點(diǎn)構(gòu)造滿足區(qū)域鄰接關(guān)系的馬爾可夫模型，以時(shí)空分割結(jié)果和其他約束條件作為能量函數(shù)項(xiàng)，通過最小化能量函數(shù)(即最大化后驗(yàn)概率)來標(biāo)記每個(gè)分割區(qū)域，最后將具有相同標(biāo)記的區(qū)域組合成一個(gè)個(gè)對象。能量函數(shù)項(xiàng)可以采用不同對象的參數(shù)運(yùn)動(dòng)模型之間的誤差、對象在空域的顏色一致性和時(shí)域的運(yùn)動(dòng)一致性或者鄰接像素或區(qū)域標(biāo)記的一致性。

圖3-13顯示了Trevor序列交互式分割結(jié)果，圖(a)是交互式提取的運(yùn)動(dòng)對象輪廓，圖(b)和(c)給出了采用區(qū)域投影和輪廓修正得到的分割結(jié)果。Trevor序列是典型的頭肩序列，背景相對靜止，前景變化小，從實(shí)驗(yàn)結(jié)果可看出，提取的對象輪廓以及分割結(jié)果都較準(zhǔn)確。圖3-13Trevor序列交互式分割結(jié)果

3.5壓縮域視頻對象分割

在壓縮域內(nèi)進(jìn)行視頻對象分割，與像素域內(nèi)的分割方法相比更適合實(shí)際應(yīng)用的需要。鑒于實(shí)際應(yīng)用中的大多數(shù)視頻序列已經(jīng)壓縮為某種格式，直接在壓縮域內(nèi)進(jìn)行視頻對象分割，可免除對壓縮視頻進(jìn)行完全解碼；而且，從壓縮視頻中僅通過熵解碼提取出的運(yùn)動(dòng)矢量(motionvector)和DCT系數(shù)，可直接用作對象分割所需的運(yùn)動(dòng)特征和紋理特征，這些在宏塊(macroblock)或塊(block)級別上提取的特征使得所需處理的數(shù)據(jù)量要比像素域少很多，從而顯著降低了分割算法的計(jì)算量。因此，從壓縮域分割視頻對象具有快速的特點(diǎn)，適合具有實(shí)時(shí)性要求的應(yīng)用場合，可解決像素域分割方法難以滿足實(shí)時(shí)分割的要求，但想要達(dá)到像素級的分割精度，通常還需要將對象中的邊界塊完全解碼后在像素域內(nèi)進(jìn)行邊緣細(xì)化等后處理工作。3.5.1MPEG壓縮域的視頻對象分割

MPEG視頻壓縮的基本思想是消除幀內(nèi)的空間冗余和幀間的時(shí)間冗余。MPEG壓縮方案分別對I(幀內(nèi))、P(前向預(yù)測)和B(雙向預(yù)測)幀的比特流進(jìn)行轉(zhuǎn)換。I幀作為單獨(dú)的圖像進(jìn)行編碼，不需要參考幀，在初始幀保存DCT信息，而P幀和B幀存儲(chǔ)運(yùn)動(dòng)信息和運(yùn)動(dòng)補(bǔ)償后的殘差。編碼時(shí)先用DCT將塊由空間域轉(zhuǎn)換成頻域，把信號(hào)分離到獨(dú)立的頻帶，信號(hào)能量一般集中在DCT的低頻部分，反映紋理的平穩(wěn)變化；DCT的高頻部分反映紋理的劇烈變化。直流系數(shù)DC顯示宏塊的平均顏色；運(yùn)動(dòng)矢量(MV)通過測量參考塊與當(dāng)前塊匹配程度，然后取其cost最小的來獲得。從MPEG的編碼原理可以看出，MV和DCT系數(shù)兩個(gè)特征參量是視頻序列被壓縮后的主要信息載體，因此自然成為MPEG壓縮域進(jìn)行視頻對象分割的主要依據(jù)。圍繞是否使用和如何使用這兩個(gè)特征參量實(shí)現(xiàn)MPEG壓縮域視頻對象分割，將其分為基于MV分割、基于DCT系數(shù)分割和結(jié)合兩者的3種算法。

1.基于MV的分割算法

MV可看作MPEG壓縮域中對光流場的粗糙近似。由于運(yùn)動(dòng)矢量場(MVF)中常會(huì)存在一些因量化造成的噪聲或偽矢量，因此對MVF要先進(jìn)行預(yù)處理，盡可能抑制其中的偽矢量后再用各種對MV的聚類算法提取運(yùn)動(dòng)一致性區(qū)域。在一些早期的算法中，聚類只是簡單憑借MV的大小和夾角完成對噪聲濾除和區(qū)域合并。在對后續(xù)幀跟蹤時(shí)，利用前后幀的MV相似性，并用計(jì)算前后幀中被標(biāo)定對象的宏塊數(shù)量與整體的比例上是否過大，來判斷是同一對象還是出現(xiàn)新的對象。這些方法簡單易行，但效果欠佳。有些方法在預(yù)處理時(shí)，使用基于標(biāo)準(zhǔn)矢量中值濾波(SVM)的噪聲自適應(yīng)軟轉(zhuǎn)換中值濾波(NASM)方法，可有效消除噪聲干擾和保存正確的運(yùn)動(dòng)矢量。這種方法按照運(yùn)動(dòng)矢量的角度、大小及與周圍運(yùn)動(dòng)矢量的聯(lián)系，把運(yùn)動(dòng)矢量分為真實(shí)運(yùn)動(dòng)矢量、獨(dú)立不規(guī)則運(yùn)動(dòng)矢量、非獨(dú)立不規(guī)則運(yùn)動(dòng)矢量和邊緣運(yùn)動(dòng)矢量4種，以便有效去除偽矢量。之后用“無偏模糊聚類算法”給出視頻對象在空間的大致位置，再用“雙向運(yùn)動(dòng)跟蹤”修正上一步驟中出現(xiàn)的過分割、欠分割、不完全分割和錯(cuò)分割等問題。其結(jié)果雖標(biāo)定出視頻對象的大致位置，但提取出的運(yùn)動(dòng)對象輪廓仍不夠準(zhǔn)確。有些算法用基于雙線性運(yùn)動(dòng)模型的迭代拒絕方法來進(jìn)行前景/背景的分割，通過檢測迭代拒絕輸出的時(shí)域一致性將得到的前景宏塊聚類成連通區(qū)域，最終進(jìn)行區(qū)域跟蹤，構(gòu)成有意義的前景時(shí)空對象。還用一些算法將經(jīng)典的EM迭代算法引入MPEG域視頻對象分割領(lǐng)域，提出一種能自動(dòng)估計(jì)對象數(shù)量并獨(dú)立提取運(yùn)動(dòng)對象的方法。先經(jīng)若干幀累積運(yùn)動(dòng)矢量并通過空間插值得到稠密的運(yùn)動(dòng)矢量，再用K-means聚類處理來確定運(yùn)動(dòng)模型的數(shù)量，然后用EM算法完成分割，并在時(shí)域上跟蹤已分割的對象得到視頻對象。最后，為得到視頻對象較好的邊緣，對其中經(jīng)過對象邊緣的塊及其8個(gè)鄰接塊進(jìn)行解碼，以使邊緣塊內(nèi)的像素被分類給正確的對象。

2.基于DCT系數(shù)的分割算法

DCT系數(shù)包含了變換后的空間信息，大多使用I幀DCT系數(shù)分割的都用它的DC圖像和AC能量分布的變化來定位運(yùn)動(dòng)物體，以及檢測其紋理和邊緣。早在1997年，就提出一種從MPEG壓縮碼流中快速確定人臉的算法，用皮膚色度的統(tǒng)計(jì)數(shù)據(jù)以及形狀和亮度DCT系數(shù)的能量分布確定人臉區(qū)域。但它不能實(shí)現(xiàn)輪廓提取和人臉識(shí)別，僅用于快速人臉檢測。有些文獻(xiàn)采用自適應(yīng)K均值算法將色彩信息進(jìn)行空間聚類為多個(gè)不同的勻質(zhì)區(qū)域，之后按區(qū)域間時(shí)空信息的相似程度進(jìn)行區(qū)域合并，再按照區(qū)域的平均變化量分為運(yùn)動(dòng)區(qū)域或背景區(qū)域。其中，區(qū)域合并時(shí)，綜合了“強(qiáng)時(shí)空相似性”和“區(qū)域內(nèi)的平均時(shí)間變化量”這兩個(gè)合并參考量，而空間相似性主要依據(jù)亮度信息，AC能量的熵的大小、時(shí)間變化則由3DSobelFilter檢測時(shí)間梯度得到。最后對運(yùn)動(dòng)區(qū)域的邊緣塊進(jìn)行部分解碼，以使前景視頻對象邊緣精確到像素級。但該算法因沒有利用P幀間運(yùn)動(dòng)矢量，在上述過程中分割各個(gè)對象需要預(yù)設(shè)大量的閾值。

3.結(jié)合MV與DCT系數(shù)的分割算法

該方法將DCT系數(shù)的使用作為在對分割精度有進(jìn)一步要求時(shí)對基于MV分割的一種補(bǔ)充。在沿用MV的分割算法中去除偽矢量、獲得正確MV的基礎(chǔ)上，在聚類時(shí)提出一種新的“最大熵模糊聚類算法”將不同的塊聚類成勻質(zhì)區(qū)域。當(dāng)進(jìn)一步要求提取精確輪廓時(shí)，采用DCT系數(shù)中的顏色信息和DC系數(shù)來進(jìn)行分割。先用一個(gè)二狀態(tài)運(yùn)動(dòng)學(xué)模型確定要精確輪廓的“感興趣區(qū)域”，然后依據(jù)上一步MV的標(biāo)定結(jié)果，仍用最大熵模糊聚類算法對DC系數(shù)進(jìn)行分割，找出最適合的塊數(shù)目。由于引入DC系數(shù)信息彌補(bǔ)基于稀疏的MV運(yùn)動(dòng)分割的不足，分割效果有了較大改善。但因未解決以8×8塊作為一個(gè)運(yùn)動(dòng)矢量而使MV過于稀疏的問題，在分割精度上的改善有限。為此，提出了改進(jìn)方法進(jìn)一步將運(yùn)動(dòng)和頻率信息融合。先將MPEG流解析成DCT系數(shù)和運(yùn)動(dòng)矢量，構(gòu)造三維的頻率-時(shí)間的數(shù)據(jù)結(jié)構(gòu)(該結(jié)構(gòu)使用包含幀切換的I幀、P幀的多圖像組)，每個(gè)GOP由符合I幀中塊的矢量層表示。每個(gè)矢量由一些選定的DCT系數(shù)和一組運(yùn)動(dòng)矢量集組成。提出了積的概念，當(dāng)視頻的鄰接區(qū)域DCT系數(shù)和運(yùn)動(dòng)參量一致時(shí)積增大，對鄰近區(qū)域有最小的紋理和梯度的塊賦值，以提高產(chǎn)生連貫積的可能性。之后為每個(gè)積建立合適的運(yùn)動(dòng)模型，最后用描述符把相似的積融合起來(由粗到精的分層聚類迭代算法)，得到分層的對象分割樹。并在累積MV的過程中使用“后向迭代投影算法”，以有效去除噪聲干擾。上述將運(yùn)動(dòng)信息和頻率信息融合的思想也體現(xiàn)在構(gòu)建統(tǒng)一的時(shí)空掩模上，再如一些算法采用MV形成運(yùn)動(dòng)掩模，用DC圖像形成空間掩模，然后通過一個(gè)閾值判決將兩個(gè)掩模統(tǒng)一起來描述運(yùn)動(dòng)對象。還可用中值濾波對MV進(jìn)行預(yù)處理，之后對MV進(jìn)行閾值分割形成運(yùn)動(dòng)掩模，用低分辨率DC圖像進(jìn)行閾值分割形成背景掩模，再將兩掩模的矩陣相乘作為分割的最終掩模。此算法還可在沒有運(yùn)動(dòng)跟蹤的情況下解決遮擋問題。

上述3類方法的優(yōu)缺點(diǎn)列于表3-1中。3.5.2H.264壓縮域的視頻對象分割

目前，在H.264壓縮域進(jìn)行運(yùn)動(dòng)對象分割的研究還很少。基于MPEG壓縮域中的視頻分割主要基于從壓縮視頻流中提取的DCT系數(shù)和運(yùn)動(dòng)場。但是對于H.264視頻來說，由于其DCT系數(shù)采用了幀內(nèi)預(yù)測的模式，所以每個(gè)塊的DCT系數(shù)實(shí)際上是殘差DCT系數(shù)。這與MPEG視頻不同，MPEG視頻中的DCT系數(shù)是基于原始塊作變換得到的。因此原有的基于MPEG壓縮域DCT系數(shù)的分割方法不能在H.264壓縮域中使用，若確實(shí)要使用的話，必須首先進(jìn)行幀內(nèi)補(bǔ)償，這樣不僅增加了處理開銷，而且破壞了數(shù)據(jù)的壓縮格式。正是因?yàn)槿绱耍贖.264壓縮域中進(jìn)行分割所能使用的信息非常有限。另一方面，在像素域中進(jìn)行分割由于可以使用灰度、顏色、紋理等豐富的信息，因此在分割方法的選擇上有很大的余地，而H.264壓縮域中的分割由于是基于矢量場，很多像素域中的分割方法都不能應(yīng)用，這增加了研究的難度。此外，由于壓縮域的運(yùn)動(dòng)場是基于宏塊最佳匹配的規(guī)則生成的，不能完全反映物體的真實(shí)運(yùn)動(dòng)，即這個(gè)運(yùn)動(dòng)場不是完全可靠的矢量場，它包含許多噪聲運(yùn)動(dòng)矢量，這給提高最后的分割質(zhì)量造成了很大的困難。但是，直接在H.264壓縮域中分割能夠有效地避免將壓縮視頻完全解碼，減少處理時(shí)間，有利于滿足實(shí)時(shí)處理的要求。基于H.264壓縮域的視頻對象分割目前的主要方法有：

1.基于熵模型

該方法首先建立運(yùn)動(dòng)對象在空間和時(shí)間上的一致性模型，然后采用最大熵方法自適應(yīng)獲得閾值，從而將運(yùn)動(dòng)對象檢測出來。

2.基于MRF模型

該方法利用基于塊的MRF模型從

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《數(shù)字視頻處理及應(yīng)用》課件第3章

文檔簡介

溫馨提示

最新文檔

評論

《數(shù)字視頻處理及應(yīng)用》課件第3章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔