檢測和跟蹤視頻監(jiān)控中的運動目標_第1頁
檢測和跟蹤視頻監(jiān)控中的運動目標_第2頁
檢測和跟蹤視頻監(jiān)控中的運動目標_第3頁
檢測和跟蹤視頻監(jiān)控中的運動目標_第4頁
檢測和跟蹤視頻監(jiān)控中的運動目標_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、檢測和跟蹤視頻監(jiān)控中的運動目標Isaac Cohen G´ erard Medioni南加州大學機器人與智能系統(tǒng)研究所洛杉磯CA 90089 - 0273icohen 摘要:我們通過在一個移動的機載平臺獲得的視頻流來解決關于運動目標的檢測和跟蹤的問題。該方法依賴于一個圖表示可以獲得和維持一個動態(tài)的運動目標,每個運動目標要強制他們的連貫性。這個推斷的模板,以及在我們的方法中使用的圖形表示,使我們能夠判斷運動目標的軌跡,找出在圖中的最優(yōu)路徑。建議的跟蹤器允許處理部分遮擋,以及在非常具有挑戰(zhàn)性的情況下的停止和運動。我們展示了一些不同的真實序列的結果。然

2、后我們定義量化我們的結果和如何克服錯誤跟蹤檢測評估方法。1. 引言視頻傳感器(伴隨云臺和變焦能力或安裝在監(jiān)控應用中的移動平臺)的使用增加,增加了研究人員對處理任意視頻流的關注度。對于感興趣的事件的視頻流的處理依賴于檢測,在每個幀中,所涉及的對象,和基于幀的信息的時間整合到模型簡單和復雜的行為。這種高層次的視頻流的描述依賴于準確的運動目標的檢測與跟蹤,并與它們軌跡之間的關系相關。在本文中,我們是在視頻監(jiān)控的背景下解決檢測和跟蹤運動目標的問題。大多數(shù)用于這個問題的技術使用一個固定的相機 4,3 或封閉的世界表示 6,8 并且這些都依賴于一個固定的背景或特定的知識的行動發(fā)生的類型?,F(xiàn)在,我們處理一個

3、更具挑戰(zhàn)性的類型的視頻流:這個視頻流是從一個移動的機載平臺獲得的。這種更一般的情況下,使我們能夠在現(xiàn)實世界的視頻監(jiān)控的情況下,在處理視頻流的建議的方法進行評估。我們提出了一個基于圖形表示的檢測得到粗略的跟蹤運動區(qū)域的方法。檢測階段進行流量補償后的圖像,是由觀測平臺運動引起的,它產(chǎn)生了大量的區(qū)域。事實上,使用剩余的流場和它的正常成分,即正常流量,定位移動區(qū)域同時檢測同步誤差,由于當?shù)氐淖兓荒苷_處理的穩(wěn)定以及3D structuresi E.視差。定義一個屬性圖中的每個節(jié)點是一個檢測區(qū)域,并且每個邊是可能的兩個區(qū)域在不同幀之間檢測匹配,提供所有詳盡表示檢測到的運動目標。此圖表示方法,使我們能夠

4、保持對一個動態(tài)模板的所有運動目標進行跟蹤。此外,該圖是通過優(yōu)化搜索路徑沿每個圖的連通分量,用來描述物體的運動軌跡的。這篇論文的組織如下:首先,我們描述介紹了在第2節(jié)所使用的檢測技術。在第3節(jié)和第4節(jié)分別闡述了動態(tài)模板圖形表示和推理。在第5節(jié)提出用于從關聯(lián)圖中派生對象的軌跡的方法。最后,我們在第6節(jié)描述用于量化在處理視頻的設置結果的評價技術。2.運動目標檢測大多數(shù)用于檢測移動物體的技術已經(jīng)被設計為一個固定的攝像頭獲取的場景。這些方法允許將每個圖像分割成一組使用背景差分算法的運動目標區(qū)域 6,4 。最近, 3 提出了一種局部建模的背景下使用K-高斯允許隨時間變化的背景視頻流混合過程。這些方法給出了

5、令人滿意的結果,可以在沒有專用的硬件的情況下實現(xiàn)實時處理。視頻傳感器的可用性,成本低,與云臺和變焦能力或視頻流通過移動平臺得到了研究者的關注,主要集中在視頻流采集的運動物體檢測。在這種情況下,不能使用背景差分技術。他們必須依靠一個穩(wěn)定的算法來取消相機運動。這樣的兩步法,即穩(wěn)定、檢測、不完美的表現(xiàn),是因為基于背景差法檢測技術假設了一個完美的穩(wěn)定。事實上,穩(wěn)定的算法使用仿射或視角的運動補償和賠償?shù)馁|(zhì)量取決于所觀察到的場景和對采集的類型模型(即泛傾斜變焦,任意運動)。因此,運動補償并不是沒有錯誤的,它導致了錯誤的檢測。然而,我們可以使用檢測區(qū)域的時間相干性,以提高運動目標檢測的準確性 10 。而不是

6、使用這兩個步驟的方法,我們建議在剩余運動發(fā)生的地方通過定位區(qū)域的圖像將檢測算法集成到穩(wěn)定算法中。這些區(qū)域被檢測到使用的時光流場的正常成分。正常流動是來自圖像序列穩(wěn)定的圖像的時空梯度。事實上,通過映射到選定的參考幀的原始幀獲得的此圖像序列的每一幀, ij表示成像變形的參考框架J.映射函數(shù)由以下公式定義:穩(wěn)定的圖像序列被定義為:映射函數(shù)的估計量估計的自我運動,根據(jù)相機模型,它涉及到三維點在圖像平面上的投影。我們使用的方法,是以圖像引起的流量為模型,而不是一般的角度變換的三維參數(shù) 7 。模型的參數(shù)估計通過在序列中跟蹤一個小的特征點集。給一個參考圖I0和圖I1, 圖像的穩(wěn)定由寄存的兩張圖和變形圖像I1

7、計算幾何變換,與參考圖像I0的對齊組成。幾何變換的參數(shù)估計是通過最大限度地減少最小二乘準則:異常值的檢測和通過一個迭代過程中去除。我們選擇一個仿射模型,從而逼近的透視投影,同時具有較低的計算復雜度。此外,空間層次,在金字塔的形式,用于跟蹤選定的特征點。金字塔由至少三的水平,一個迭代的仿射參數(shù)估計產(chǎn)生準確的結果。參考幀和扭曲的人不要在創(chuàng)艾萊依,有相同的度量,因為,在大多數(shù)情況下,映射函數(shù)并不是翻譯而是一個真正的仿射變換,從而影響運動目標檢測的圖像梯度的計算。這個變化的度量可以被納入到相關的圖像序列的光流方程為了更準確地檢測移動物體。事實上,與圖像序列相關聯(lián)的光流是:其中是光流。推廣已有的公式,得

8、到因此,正常流動的表達式為:雖然并不總是描述圖像的運動,但是由于孔徑問題,它可準確地檢測移動點。寬近移動區(qū)域的振幅,并成為空附近的固定區(qū)域。圖1說明了在一個從機載平臺獲取的視頻流的移動車輛的檢測。我們鼓勵讀者從/home/iris/icohen/publichtml/tracking.htm查看說明了在原始視頻序列和投影拼接中的檢測的電影文件。圖1:在一個由記載平臺獲取的視頻流中檢測到的幾種車輛。圖2:檢測區(qū)域及相關圖。圖3:圖中每個節(jié)點關聯(lián)的屬性描述。每個顏色代表一個移動區(qū)域。圖4:節(jié)點的傳播以恢復未被發(fā)現(xiàn)的對象的描述。在左邊,我們顯示在每個幀的檢測區(qū)域,

9、并在右邊,相關聯(lián)的圖,紅色節(jié)點代表一個節(jié)點推斷的模板的中位數(shù)形狀。3.運動物體的圖表示圖像序列中的運動目標檢測給我們檢測到的地區(qū)為代表的位置而運動。由方程(5)給出的正常組件允許,給定一對幀,來檢測運動發(fā)生的圖像的點。這些要點,然后匯總到區(qū)域考慮閾值值的光流的正常成分,然后標注使用4連接方案。這些連接成分代表圖像在運動檢測區(qū)域。 在視頻流中檢測運動目標的目的是能夠跟蹤這些對象隨著時間的推移,從他們的軌跡,如他們的行為,得到一組屬性。常用的跟蹤方法是基于令牌的,當一個幾何描述的對象是可用的 2 ,或基于強度的(光流,相關性)。這些技術不適合斑點斑點跟蹤自可靠的幾何描述無法推斷。另一方面,基于強度

10、的技術忽略的二進制大對象的幾何描述。我們的方法結合了這兩種技術,將在移動的對象的代表性的空間和時間信息。這樣的表示是通過圖形結構中的節(jié)點代表檢測運動區(qū)域和邊緣提供代表關系的兩個運動區(qū)域在兩個單獨的幀之間檢測。每一個新處理的幀會產(chǎn)生一組對應于檢測到的移動物體的區(qū)域。我們尋找新發(fā)現(xiàn)的對象和以前的相似性。建立這樣的連接可以通過不同的方法,如模板匹配 5 或相關 11 。然而,在視頻監(jiān)控,移動對象的信息是可用的,因為所觀察到的對象是不同類型的。此外,小尺寸的物體(在空氣中的圖像的人)或大的物體大小的變化是頻繁的,因此不適合模板匹配的方法。每對幀給我們一組殘留運動被檢測的區(qū)域(見圖2)。這些區(qū)域可以通過

11、測量灰度相似性之間的區(qū)域在時間和一套位于其附近的區(qū)域在時間到之前檢測到一個相關的。一個區(qū)域可能有多個匹配,這個鄰域的大小是從對象的運動幅度得到的。我們在圖2中顯示的紅色斑點的檢測相關的圖表示。每個節(jié)點是一個地區(qū)的一個橢球從二進制大對象的主方向和相關的特征值表示。此外,一組屬性關聯(lián)到每個節(jié)點如圖3所示。我們分配給每個邊緣的成本,這是該地區(qū)對應于相同的對象的可能性。在我們的例子中,似然函數(shù)是一個對區(qū)域的圖像灰度級相關。4.動態(tài)模板推理圖表示給出了一個詳盡的描述的運動被檢測到的區(qū)域,以及這些區(qū)域的方式與另一個。這種描述是適當?shù)奶幚砬闆r下,一個單一的移動對象被檢測為一組的小區(qū)域。這樣的情況發(fā)生時,在本

12、地,正常的光學組件的組件是空的(光圈的問題),因此,而不是檢測一個區(qū)域,我們有一組小的區(qū)域。通常,聚類技術應用融合檢測斑點為了恢復對應的區(qū)域移動對象。這些圖像技術 6,9 依靠對圖像中的斑點的接近和頻繁的合并,屬于獨立的目標區(qū)域。在檢測到的區(qū)域中,一些小的區(qū)域應該合并成一個較大的區(qū)域,或有一個自己的軌跡。在這兩種情況下,基于圖形表示,這些區(qū)域?qū)儆趫D的連通分量。在我們的方法中,我們在圖中的檢測區(qū)域,而不是在一個單一的圖像中所使用的在以前的作品 9,6 。事實上,通過圖形聚類阻止我們兼并地區(qū)屬于具有不同軌跡的物體,由于基于圖像接近,在連接部分的圖做的。聚類技術的粗略性,也提高了維護的動態(tài)模板的移動

13、對象的每個連接的組件,因此,為每個移動的對象在場景中。提出了若干技術自動更新的移動物體的模板描述,加權形狀描述 9 或累積運動圖像 1 提出。這些方法的主要缺點是形狀描述中的錯誤(即邊界)的傳播,因此這些技術不適合移動攝像機。我們提出了一種基于中值形狀模板,這是更穩(wěn)定,并產(chǎn)生一個強大的描述模板。采用中值濾波計算模板(調(diào)整后的質(zhì)心和每個blob的方向)在過去的五檢測到幀的區(qū)域。動態(tài)模板可以完成圖形描述。在視頻監(jiān)控應用中,物體常常停下來,然后繼續(xù)他們的運動,這樣一個對象將被描述通過多個連接的組件圖中。這些連接的組件,通過使用動態(tài)模板合并,被跟蹤的對象:我們傳播的每一個節(jié)點沒有繼承人,在一個給定的幀

14、和匹配的地區(qū)這些地區(qū)的搜索數(shù)量。這罰款一組可能的匹配,這是合并在圖結構中,通過定義新的邊緣連接的匹配區(qū)域。這一步如圖4所示,在圖104中未檢測到的對象,在圖中的紅色節(jié)點表示。5.物體運動軌跡的提取作為新的幀被獲取和處理,我們逐步構造運動對象的圖形表示。從圖中導出對象的運動軌跡,并從新發(fā)現(xiàn)的區(qū)域中提取一條沿每個圖的連通分量的路徑。我們提出了一種方法,通過搜索一個最佳路徑代表對象的軌跡,自動提取所有移動的物體的運動軌跡。此外,起始節(jié)點(源),以及目標節(jié)點(目標)是事先不知道。因此,我們認為每個圖節(jié)點沒有父節(jié)點作為一個潛在的源節(jié)點,和每個節(jié)點沒有一個作為一個潛在的目標節(jié)點的繼任者。定義一個最優(yōu)的標準

15、來描述一個最佳路徑是等價的關聯(lián)到每個邊的圖形的成本。圖中的每一個邊對應于一個區(qū)域之間的匹配,并且具有成本,這是連接節(jié)點之間的相似性度量。因此,一套給每個節(jié)點如灰度分布的相關性質(zhì),質(zhì)心和對象的動態(tài)模板的使用是為了推斷一個強大的路徑。這些屬性被合并在下面的成本相關聯(lián)的圖的每個邊緣。其中,是灰度和形狀區(qū)域i和j之間的相關性,代表他們之間的距離質(zhì)心。通過方程(6)的邊緣成本可以提取局部最優(yōu)路徑。事實上,基于圖形搜索算法的邊緣成本的基礎上,將提供一個次優(yōu)的解決方案,因為有沒有約束的目標或目標節(jié)點,必須達到。在不同的實驗中,我們已經(jīng)觀察到,這一標準產(chǎn)生的一部分的軌跡。的目標源被選中的基礎上的成本的最高值,

16、無論屬于相同的連接組件的其他節(jié)點。在圖中所用的每一個連接的組件,該圖表示一個移動的對象在場景中的每個節(jié)點的位置,并允許表征多遠這個節(jié)點是從一個潛在的目標節(jié)點:一個新發(fā)現(xiàn)的區(qū)域。這樣的特性是通過分配給每個節(jié)點的最大長度的圖的路徑開始在這個節(jié)點。該節(jié)點的長度的計算是從底部的圖進行非常有效,即節(jié)點無繼承人,分配每個父節(jié)點接班人加一最大長度。一個節(jié)點的長度,i是由以下公式給出:其中,初步估計成本函數(shù)(6)和每個節(jié)點的長度的組合,使我們能夠為每個節(jié)點定義一個新的成本函數(shù)。相關聯(lián)的邊緣連接節(jié)點i到節(jié)點j的成本函數(shù),然后定義:其中,被定義為(6)和是由方程(7)定義的節(jié)點的長度j。這個成本功能恢復的最優(yōu)路徑

17、的路徑從節(jié)點擴展中。最優(yōu)路徑的提取是通過從圖的節(jié)點沒有父節(jié)點和拓展的最大值。該方法是如圖5所示,在一輛卡車和一輛汽車的運動軌跡顯示。處理后的視頻流的AVI文件可在/home/iris/icohen/ pub-lichtml/tracking.htm.查找。圖5:卡車和汽車的軌跡圖在所生成的拼接圖上。6評價和量化我們的方法是基于在一定數(shù)量的幀,我們稱之為系統(tǒng)的延遲時間(設置在這里到五幀)的移動物體的時間整合。這種延遲時間,或延遲,有助于我們選擇的運動區(qū)域,并區(qū)分這些斑點從錯誤由于補償攝像機的運動。此外,在提取的運動區(qū)域的信心增加,在處理幀中檢測到的對象的新出現(xiàn)

18、的。事實上,長度(見表7)每個圖的節(jié)點(即運動區(qū))代表幀的數(shù)量,目標檢測。這讓我們拋棄標量值檢測斑點是由于誤讀的運動補償算法,因為這些地區(qū)沒有時間連貫性,由一個小的長度。表1給出了對視頻流的捕食者無人機獲得了幾組取得了一些成果(無人飛行器)和VSAM(視頻監(jiān)控和活動監(jiān)控)平臺。這些視頻流代表了各種場景,涉及人類活動,并被用來評估我們的系統(tǒng)的性能。數(shù)值代表在不同的加工階段獲得的輸出。“移動對象”列表示在視頻流中移動的對象的真實數(shù)目,并由用戶提供。接下來的兩列代表檢測的輸出和跟蹤模塊分別。正如我們所看到的,檢測到的區(qū)域的數(shù)目與移動物體的數(shù)目相當大。這些數(shù)字對應的區(qū)域的正常流場的數(shù)目大于給定的閾值(

19、105,在所有的實驗)。檢測列給出了這些區(qū)域的分布圖,這些區(qū)域在處理序列上。此外,相關的均值和方差給出的指示值。這些地區(qū)的時間整合,超過了一組幀,使我們能夠減少這個數(shù)量的地區(qū)(在第四列)和丟棄假檢測,由于區(qū)域由于噪音是不時間一致的。然而,一些不準確的運動模型,或一個視差的存在可以引起某些區(qū)域有一個連貫的時間簽名。最后,列“路徑”,代表軌跡視為有效數(shù),即相干時間重新檢測超過10幀代表區(qū)域,用于跟蹤的延遲時間。在某些情況下,軌跡的數(shù)目是大于在流中的移動對象的數(shù)目。這是由于對象的軌跡被分散成多個路徑,并在匹配類似的區(qū)域,表示相同的對象的故障。剩余的軌跡是由于區(qū)域具有良好的時間相干性,不對應于移動的物

20、體,并且是,主要是由于強烈的視差。最后,我們定義了兩指標表征的檢出率(DR)和誤警率(FAR)的系統(tǒng)。這些比率,用于量化我們的系統(tǒng)的輸出,是基于:TP(真陽性):檢測到對應于運動物體的區(qū)域;FP(假陽性):檢測區(qū)域沒有對應于一個移動的物體;FN(假陰性):運動目標檢測不到。這些方法的組合來定義以下指標:這些指標在表1。由于移動的物體的數(shù)目是小的,這些測量可能有很大的差異。該表顯示了通過跟蹤來減少檢測所產(chǎn)生的移動物體的大量,導致所有的例子中的完美的檢測率。在過去的2個實驗中的很大一個是由于三維結構。在這種情況下,需要進一步的處理,以區(qū)分運動從視差。 表1:檢測/跟蹤模塊的定量分析7.總結我們已經(jīng)

21、解決了幾個問題相關的視頻流的分析。提出的框架是基于一個移動的平臺上提取的移動區(qū)域的圖形表示的基礎上。在這個圖形表示的檢測和跟蹤的整合允許動態(tài)推斷出一個模板的所有移動的對象,以獲得一個強大的跟蹤的情況下,如停止和去的和部分遮擋。最后,量化的結果通過定義的指標,DR和FAR提供了一個置信度特征的每個提取軌跡的可靠性。所獲得的結果將被進一步處理的假警報,以放棄的軌跡,由于區(qū)域與良好的時間相干性,不對應于移動的物體,這些都是,通常情況下,由于強烈的視差。參考文獻:1 J. W. Davis and A. F. Bobick. The representation and recognition of

22、human movement using temporal tem-plates. InCVPR, pages 928934, Puerto-Rico, June 1997. IEEE.2 O. Faugeras.Three-Dimensional Computer Vision.The MIT Press, 1993.3 W.E.L. Grimson, L. Lee, R. Romano, and C. Stauffer.Using adaptive tracking to classify and monitor activi-ties in a site. InCVPR98, pages

23、 2231, 1998.4 I. Haritaoglu, D. Harwood, and L.S. Davis. W4S: A real-time system for detecting and tracking people in 2 1/2-d. InECCV98, 1998.5 D.P. Huttenlocher, J.J. Noh, and W.J. Rucklidge. Tracking non-rigid objects in complex scenes. In ICCV, pages 93101, Berlin, Germany, May 1993.6 S.S. Intille, J.W. Davis, and A.F. Bobick. Real time closed world tracking. InCVPR97,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論