VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告_第1頁
VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告_第2頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告深度學(xué)習(xí)大講堂是由中科視拓運(yùn)營的高質(zhì)量原創(chuàng)內(nèi)容平臺,邀請學(xué)術(shù)界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動信息!編者按:目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個熱門研究方向,同時在產(chǎn)業(yè)界也具有廣闊的應(yīng)用前景。過去幾十年來,目標(biāo)跟蹤方法經(jīng)歷了從卡爾曼濾波等經(jīng)典跟蹤方法,到基于檢測或相關(guān)濾波的方法,再到深度學(xué)習(xí)相關(guān)方法的演變歷程。作為目前廣泛使用的目標(biāo)跟蹤基準(zhǔn)研究平臺(TrackingBenchmark)的創(chuàng)建者,來自南京審計(jì)大學(xué)的吳毅老師將帶著大家回顧目標(biāo)跟蹤領(lǐng)域近幾年的研究進(jìn)展。大講堂特別在文末提供文中提到的所有文章以及該研究平臺的下載地址。目標(biāo)跟蹤就是在連續(xù)的視頻序列中,建立所要跟蹤物體的位置關(guān)系,得到物體完整的運(yùn)動軌跡。在計(jì)算機(jī)視覺領(lǐng)域中,視覺跟蹤(VisualTracking)—般是指對單目標(biāo)進(jìn)行跟蹤:在第一幀圖像給定目標(biāo)的狀態(tài),一般是目標(biāo)的boundingbox信息,然后預(yù)測之后每幀圖像中目標(biāo)的狀態(tài),對應(yīng)的也是目標(biāo)的boundingbox信息。本文將從三個方面介紹視覺跟蹤領(lǐng)域最近的進(jìn)展:基于深度學(xué)習(xí)的目標(biāo)跟蹤研究進(jìn)展、基于相關(guān)濾波器的目標(biāo)跟蹤研究進(jìn)展、以及其他的方法介紹?;谏疃葘W(xué)習(xí)的目標(biāo)跟蹤較早運(yùn)用深度學(xué)習(xí)方法進(jìn)行目標(biāo)跟蹤的是王乃巖在NIPS2013的工作。當(dāng)時卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域還沒有完全開展起來,當(dāng)時他們使用一種自動編碼器,在100萬張的32*32的圖像上離線訓(xùn)練目標(biāo)的表示,然后運(yùn)用到目標(biāo)跟蹤任務(wù)上。在2015年,王乃巖繼續(xù)將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到目標(biāo)跟蹤任務(wù)中,采用卷積神經(jīng)網(wǎng)絡(luò)輸出50*50的heatmap來表示每個像素是否處于目標(biāo)之內(nèi)的概率。卷積神經(jīng)網(wǎng)絡(luò)模型運(yùn)用的是ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的模型,然后在線進(jìn)行更新,跟蹤時運(yùn)用兩個卷積神經(jīng)網(wǎng)絡(luò),采用不同的更新策略。在OTB50數(shù)據(jù)集上,與傳統(tǒng)采用手工設(shè)計(jì)的方法相比較,該方法性能有了極大的提升。隨著深度學(xué)習(xí)的火熱,從2015年開始,利用深度學(xué)習(xí)進(jìn)行目標(biāo)跟蹤的研究工作越來越多。馬超在ICCV2015的工作是將卷積神經(jīng)網(wǎng)絡(luò)中不同層的特征圖結(jié)合起來,在相關(guān)濾波框架下進(jìn)行跟蹤。在淺層的網(wǎng)絡(luò)中,空間的分辨率較高,但是特征的語義信息比較少;隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,從深層網(wǎng)絡(luò)提取的特征語義信息越來越豐富,但是空間的分辨率就會越低,不利于對目標(biāo)的定位。所以融合不同層的特征,有利于提高目標(biāo)跟蹤的精度。這是大連理工大學(xué)盧湖川老師在ICCV2015的工作,將全卷積網(wǎng)絡(luò)用在目標(biāo)跟蹤上,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)不同層之間的特性,對網(wǎng)絡(luò)中不同層的特征進(jìn)行融合,提高了目標(biāo)跟蹤的性能該網(wǎng)絡(luò)在OTB50上取得了不錯的結(jié)果。CVPR2016上提出的MDNet方法在多個數(shù)據(jù)集上都取得了非常好的結(jié)果,該網(wǎng)絡(luò)具備如下特點(diǎn):MDNet通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能很強(qiáng)的分類器,將目標(biāo)和背景分開。其網(wǎng)絡(luò)結(jié)構(gòu)輸出K個全連接層,對應(yīng)K個用來訓(xùn)練的序列。訓(xùn)練的時候每次選出一個序列,更新對應(yīng)的分支全連接層和內(nèi)部共享的隱含層。為了提高分類性能,該模型挖掘有難度的負(fù)樣本來構(gòu)造訓(xùn)練的minibatch。在跟蹤時,采用邊框回歸來提高網(wǎng)絡(luò)的精度,定位時通過在上一幀采樣N個候選,然后將分類結(jié)果最好的一個候選作為目標(biāo)位置。該網(wǎng)絡(luò)的缺點(diǎn)是速度慢,在NVIDIATeslaK20GPU上速度是1幀/秒。雖然運(yùn)行時間慢,但是該網(wǎng)絡(luò)的精度非常高,在OTB50和OTB100上都取得了非常好的結(jié)果。近期美國天普大學(xué)凌海濱老師對MDNet模型進(jìn)行了改進(jìn),在網(wǎng)絡(luò)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)對目標(biāo)自身結(jié)構(gòu)進(jìn)行建模。該網(wǎng)絡(luò)在OTB100上取得了不錯的跟蹤結(jié)果。孿生網(wǎng)絡(luò)CVPR2016上提出了一種通過相似性學(xué)習(xí)的方式進(jìn)行目標(biāo)跟蹤的孿生網(wǎng)絡(luò)。其最大的特點(diǎn)是,該方式訓(xùn)練好的網(wǎng)絡(luò)直接在跟蹤上使用,不需要更新。網(wǎng)絡(luò)同樣采用了不同層的特征融合和邊框回歸來提升目標(biāo)跟蹤的性能。該網(wǎng)絡(luò)也是取得了不錯的結(jié)果。在ECCV2016上也有一篇采用孿生網(wǎng)絡(luò)的工作,與上一篇不同之處在于,這篇采用全卷積網(wǎng)絡(luò)。其優(yōu)勢在于:只需要一次前向操作,通過cross-correlationlayer就可以得到所有卷積區(qū)域的得分;對于搜索圖像也不要求必須和目標(biāo)的圖像大小一致。該網(wǎng)絡(luò)在VOT2015數(shù)據(jù)集上取得了不錯的結(jié)果,由于采用了全卷積網(wǎng)絡(luò)的結(jié)構(gòu),和其他基于深度學(xué)習(xí)的方法相比,速度具有很大的優(yōu)勢。在ECCV2016上還有一個采用深度回歸網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤的工作,與目標(biāo)檢測中基于回歸方法的卷積網(wǎng)絡(luò)有些類似,這個方法直接對目標(biāo)位置進(jìn)行回歸。與其他基于深度學(xué)習(xí)方法的目標(biāo)跟蹤相比,該方法具有如下特點(diǎn):由于直接對目標(biāo)位置進(jìn)行回歸,其速度上會有更大的優(yōu)勢。改變了其他方法提取第一幀的作為參考模型方式,而在前一幀的目標(biāo)位置提取參考模型,提取的目標(biāo)patch里還含有一定的背景context信息在線跟蹤的時候網(wǎng)絡(luò)模型不用進(jìn)行更新在訓(xùn)練的時候不僅采用了視頻輸入,同時還采用了靜態(tài)圖像輸入,圖像采用的是ImageNet檢測挑戰(zhàn)的數(shù)據(jù)集來進(jìn)行訓(xùn)練,因此特征提取更加細(xì)膩。與其他基于深度學(xué)習(xí)的方法相比,該模型主要的優(yōu)勢是速度快,在GTXTitanXGPU上運(yùn)行超過100幀/秒。最近發(fā)表的另外一些基于深度學(xué)習(xí)的目標(biāo)跟蹤工作,最下面的一篇是采用CNN和LSTM進(jìn)行結(jié)合的方式。這篇CVPR2010的工作最早將相關(guān)濾波器運(yùn)用在目標(biāo)跟蹤任務(wù)上,這個方法是從信號處理的角度來進(jìn)行推導(dǎo)的,叫誤差最小平方和濾波器(MOSSE)該方法最大的優(yōu)勢是可以采用快速傅里葉變換進(jìn)行計(jì)算,在目前主流的CPU上運(yùn)行速度應(yīng)該可以超過1000幀/秒。在ECCV2012的這篇論文是從機(jī)器學(xué)習(xí)的角度,利用循環(huán)矩陣進(jìn)行分析推導(dǎo),利用快速傅里葉變換進(jìn)行快速求解分類。從機(jī)器學(xué)習(xí)角度進(jìn)行分析的好處是可以采用kerneltrick來提高性能:kernel可以選擇不同的類型,比如高斯kernel、線性kernel等等。當(dāng)使用線性kernel的時候,就得到了前文提到的MOSSE。這是在CVPR2013benchmark工作上給出的性能分析,當(dāng)時就已經(jīng)發(fā)現(xiàn)基于相關(guān)濾波的目標(biāo)跟蹤很有潛力,速度非??欤阅芤膊诲e。在性能最好的十個跟蹤方法中該方法最快,在速度上具有一個數(shù)量級的優(yōu)勢。從2014年開始,基于相關(guān)濾波的跟蹤研究方法成為目標(biāo)跟蹤的一個熱點(diǎn)。其中,來自瑞典的Martin做出一系列不錯的工作。這里簡要介紹一下Martin在ECCV2016和CVPR2017的兩個工作。傳統(tǒng)的相關(guān)濾波訓(xùn)練的時候,需要特征圖具有相同的分辨率。Martin在ECCV2016提岀了將不同空間分辨率特征進(jìn)行有效融合的方法,通過采用連續(xù)卷積操作,來進(jìn)行隱式的特征圖的插值計(jì)算,從而解決了針對不同分辨率特征圖的訓(xùn)練問題。該方法在OTB100和Temple-Color都取得了非常好的結(jié)果。ECO是Martin最新的工作,該方法的創(chuàng)新點(diǎn)如下:之前方法學(xué)習(xí)到的濾波器往往比較稀疏、能量值低,針對深度卷積神經(jīng)網(wǎng)絡(luò)輸出的特征,這些能量值低的濾波器對于目標(biāo)定位的作用不大。于是作者提出了一種降維的方法,使用較少的濾波器就可以獲得目標(biāo)跟蹤結(jié)果,這樣可以大大提高運(yùn)行速度。同時在訓(xùn)練樣本上,該模型也采用了一個更好的策略,保證了樣本的多樣性。該模型在OTB100上取得非常好的結(jié)果,相比MDnet而言,無論是精度還是速度都有了很大的提高。即使只采用傳統(tǒng)的視覺特征,也可以達(dá)到很好的性能。最后是另外的一些相關(guān)工作。我們知道一個好的數(shù)據(jù)集對某個方向上的研究具有極大的提升,比如ImageNet數(shù)據(jù)集對目標(biāo)分類、檢測任務(wù)有很大的貢獻(xiàn)。最近,目標(biāo)跟蹤領(lǐng)域又發(fā)表了一些數(shù)據(jù)集。比如說在ECCV2016上的無人機(jī)航拍的數(shù)據(jù)集。這是吳毅老師最近和顏水成老師合作的NUS-PRO數(shù)據(jù)集。以及Google發(fā)布的YouTube-BoundingBoxes數(shù)據(jù)集,該數(shù)據(jù)集適用于在視頻的目標(biāo)檢測任務(wù)、以及目標(biāo)跟蹤算法的訓(xùn)練和測試。整個數(shù)據(jù)集有24萬個視頻標(biāo)注了560萬個boundingboxes。由于該數(shù)據(jù)集規(guī)模很大,將有利于目標(biāo)跟蹤的深度學(xué)習(xí)模型的訓(xùn)練。上圖為AAAI最佳論文,在目標(biāo)跟蹤上進(jìn)行了方法的驗(yàn)證。該工作用一個先驗(yàn)?zāi)P图s束神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),以減少對樣本量的需求。上圖列出了一些最近的其他目標(biāo)跟蹤工作,比如人眼跟蹤、人臉跟蹤以及行人跟蹤等等。最后,大講堂喜大普奔地告知各位小伙伴:吳老師的目標(biāo)跟蹤基準(zhǔn)研究平臺已經(jīng)開源,該研究平臺包含跟蹤測試數(shù)據(jù)集、一些經(jīng)典跟蹤方法的代碼以及跟蹤結(jié)果評測和可視化的代碼。歡迎訪問:(需要翻墻哦)翻不了墻的小伙伴們,請嘗試如下鏈接:http://cvlab.hanyang.ac.kr/tracker_benchmark/文中提到的所有引用文章下載鏈接為:/s/1pKAJOtP致謝:本文主編袁基睿,誠摯感謝志愿者寧方鑫、賀嬌瑜、李珊如對本文進(jìn)行了細(xì)致的整理工作。該文章屬于“深度學(xué)習(xí)大講堂”原創(chuàng),如需要轉(zhuǎn)載,請聯(lián)系astaryst。作者介紹:吳毅博士,南京審計(jì)大學(xué)“潤澤學(xué)者”。2004年至2009年在中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室學(xué)習(xí),獲模式識別與智能系統(tǒng)專業(yè)博士學(xué)位。2006年11月至2008年1月曾在Intel中國研究中心進(jìn)行訪問研究。2009年7月到南京信息工程大學(xué)參加工作。2010年5月至2012年6月曾在美國天普大學(xué)(TempleUniversity)進(jìn)行博士后研究。2012年7月至2014年4月曾在美國加州大學(xué)默塞德分校(UniversityofCalifornia,Merced)進(jìn)行博士后研究。目前主要從事計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等方面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論