一種時空特征聚合的水下珊瑚礁魚檢測方法

上傳人：文*** IP屬地：四川上傳時間：2022-10-16 格式：DOCX 頁數(shù)：9 大?。?06.94KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、一種時空特征聚合的水下珊瑚礁魚檢測方法摘要：水下監(jiān)控視頻中的珊瑚礁魚檢測面臨著視頻成像質(zhì)量不高、水下環(huán)境復雜、珊瑚礁魚視覺多樣性高等困難，是一個極具挑戰(zhàn)的視覺目標檢測問題，如何提取高辨識度的特征成為制約檢測精度提升的關(guān)鍵。提出了一種時空特征聚合的水下珊瑚礁魚檢測方法，通過設計視覺特征聚合和時序特征聚合2個模塊，融合多個維度的特征以實現(xiàn)這一目標。前者設計了自頂向下的切分和自底向上的歸并方案，可實現(xiàn)不同分辨率多層卷積特征圖的有效聚合；后者給出了一種幀差引導的相鄰幀特征圖融合方案，可通過融合多幀特征圖強化運動目標及其周邊區(qū)域的特征表示。公開數(shù)據(jù)集上的實驗表明：基于以上2個模塊設計的時空

2、特征聚合網(wǎng) 絡可以實現(xiàn)對水下珊瑚礁魚的有效檢測，相比于多個主流方法和模型取得了更高的檢測精度。關(guān)鍵詞：珊瑚礁魚；卷積神經(jīng)網(wǎng)絡；時空聯(lián)合特征；目標檢測；特征融合珊瑚礁魚泛指生活在熱帶海洋珊瑚叢中的各種魚,它們種類繁多、形態(tài)各異、色彩斑斕,是最富活力和觀賞性的海洋生物群體之一。研究表明，珊瑚礁魚的種類、數(shù)量和活動痕跡是否豐富，直接反映了珊瑚礁生態(tài)系統(tǒng)的健康狀態(tài)和海洋生物多樣性豐富程度。珊瑚礁魚活動的顯著變化，則往往與溫度劇變、水域污染和過度人類活動等事件緊密聯(lián)系。通過監(jiān)測分析珊瑚礁魚的活動, 可以快速、準確、精細地掌握海洋生態(tài)系統(tǒng)的健康狀況。此外,珊瑚礁魚的分析研究還將有助于幫助

3、海洋生物學家研究不同海洋動物的行為及其之間的相互作用。目前，隨著全球大多數(shù)珊瑚礁生態(tài)系統(tǒng)呈退化趨勢，這一研究已經(jīng)得到了廣泛重視。在海洋科學領域，最初人們主要采取人工撒網(wǎng)法和潛水調(diào)查法開展珊瑚礁魚活動調(diào)查。人工撒網(wǎng)法先由人在珊瑚礁水域撒網(wǎng)撈魚，再經(jīng) 過海洋生物學家整理得到分析結(jié)果。潛水調(diào)查法由專業(yè)潛水員手持水下攝像機穿越珊瑚礁水域, 通過對所拍攝影像進行事后分析,得到調(diào)查范圍內(nèi)的珊瑚和珊瑚礁魚情況。雖然已被沿用很多年，它們的缺點也很明顯:執(zhí)行一次調(diào)查不僅消耗大量人力物力，而且會對魚類活動產(chǎn)生一定影響, 此外還難以獲得大面積連續(xù)的監(jiān)測數(shù)據(jù)。隨著水下成像技術(shù)的發(fā)展,在珊瑚礁水域特

4、定位置安裝水下攝像機,采集珊瑚礁魚活動影像并進行分析正在成為一種普遍接受的做法。相比于傳統(tǒng)調(diào)查方法，水下攝像既不影響珊瑚礁魚行為,同時也為后續(xù)分析提供了大量素材。目前,全球多個國家和地區(qū)的珊瑚礁水域都部署了水下攝像系統(tǒng)并產(chǎn) 生了大量珊瑚礁魚監(jiān)控影像。對這些影像的分析催生了跨學科交叉研究需求:海洋生物學家手動分析每天產(chǎn)生的大量影像數(shù)據(jù)是不切實際的，迫切需要智能化的珊瑚礁魚分析技術(shù)，能夠從真實水下環(huán)境采集的影像中，自動得到珊瑚礁魚的出現(xiàn)位置、種類、數(shù)量等信息。在信息科學領域，視頻大數(shù)據(jù)智能分析是一個廣受關(guān)注的研究課題。特別是近年來，基于深度學習的視頻分析與理解取得了顯著突破

5、，在大規(guī)模視頻分類與檢測、細粒度圖像分類mm 等任務上，深度學習相比于傳統(tǒng)方法性能取得了大幅提升。但是，目前多以消費類視頻圖像及安防、交通等領域的監(jiān)控視頻為研究對象，對水下影像的分析相對較少。水下影像具有成像質(zhì)量不高、水下環(huán)境復雜等分析難點，此外具體到珊瑚礁魚檢測上,還存在視覺多樣性高、標注數(shù)據(jù)有限等挑戰(zhàn),這些困難決定了直接應用其他領域成熟的分析方法并不是最優(yōu)方案,需要專門研究珊瑚礁魚的有效檢測方法。目前，已經(jīng)有一些針對珊瑚礁魚檢測分析的研究工作。早期研究多在受限情況下開展。例如，文獻13:提出了一種基于輪廓匹配的魚識別方法，文獻14提出了一種基于特征變換和支持向量機

6、的羅非魚自動分類方法，他們的實驗都是在已捕撈、拍照時擺放較規(guī)則的魚的圖像上開展。針對水下自然環(huán)境中生活的魚，文獻15-16從不同角度提出了聯(lián)合形狀和紋理特征的魚分類方法，結(jié)果表明,水下環(huán)境魚檢測分類的難度明顯大于之前的受限環(huán)境。面對水下珊瑚礁魚成像分辨率低的問題,Wei等17提出了一種利用互聯(lián)網(wǎng)高分辨率魚圖像進行數(shù)據(jù)增強的珊瑚礁魚分類方法。圍繞真實水下監(jiān)控視頻珊瑚礁魚檢測的Sea- CLEF系列國際競賽倒，來自韓國首爾大學紂、德國耶拿大學邸的團隊采用了運動前景提取與基于深度學習分類相結(jié)合的解決方案，取得了較好成績。近期相關(guān)工作更傾向于利用深度學習目標檢測模型來解決珊瑚礁

7、魚檢測問題。例如，文獻21 提出了一個相鄰層特征融合的全卷積網(wǎng) 絡進行珊瑚礁魚檢測。為更好應對水下復雜環(huán) 境,Zhuang等22提出了先用SSD模型23檢測珊瑚礁魚，再用ResNet網(wǎng)絡對檢測前景進行分類的方法。印度韋洛爾技術(shù)大學的研究團隊25 評估了不同主干網(wǎng)Faster R-CNN模型26在該競賽上的檢測性能。德國杜塞爾多夫大學的學者27提出了一種基于YOLO模型散的改進方法，取得了較好的檢測效果。上述研究雖然顯著推動了珊瑚礁魚自動檢測技術(shù)的發(fā)展，但仍存在一些不足:將珊瑚礁魚檢測視為一個前景提取及分類的任務,或?qū)⑵湟暈橐?個圖像目標檢測加上時序后處理的任務。前者雖然前景提

8、取時能一定程度利用視頻時序信息抑制水下復雜環(huán)境造成的負面影響，但其將檢測過程切分成了前景提取和分類2個獨立的子任務，二者無法相互促進和增強，檢測性能受到限制。對于后者，由于檢測時忽視了時序維度，且受目標大小有限、環(huán)境復雜等的影響，深度模型難以提取高質(zhì)量檢測特征,易造成誤檢和漏檢,雖然時序后處理可消除一部分錯誤，但這也很難稱之為視頻時序信息的深入利用。認識到特征辨識力不足是制約當前檢測精度提升的關(guān)鍵因素，本文提出了一種時空特征聚合的水下珊瑚礁魚檢測方法。具體地，設計了一個新穎的卷積網(wǎng)絡結(jié)構(gòu)以提取更具辨識力的時空聯(lián) 合特征。該網(wǎng)絡從SSD模型發(fā)展而來。同時，其包含一個多層視

9、覺特征聚合模塊，以提取更豐富的視覺特征,以及一個時序特征聚合模塊，可結(jié)合運動目標生成時序強化的特征表示。通過以上 2個模塊實現(xiàn)對空間和時間2個維度特征的聚合，得到了可有效表征水下視覺目標的時空聯(lián)合特征。公開數(shù)據(jù)集上的實驗表明，本文方法可提升真實水下環(huán)境珊瑚礁魚檢測的精度。本文的主要貢獻如下：提出了一個多層視覺特征聚合的深度網(wǎng) 絡模塊，設計了自頂向下的切分和自底向上的歸并,可實現(xiàn)不同分辨率多層卷積特征圖的聚合。提出了一個時序特征聚合的深度網(wǎng)絡模塊,可結(jié)合運動目標融合相鄰幀的卷積特征圖，從時序維度強化所提取特征。通過集成以上2個模塊，提出了一個時空特征聚合的深度目標檢測網(wǎng)絡，可實

10、現(xiàn)對視頻目標特征的有效提取及檢測。4 ) 公開數(shù)據(jù)集的實驗表明，本文方法可以有效檢測真實水下環(huán)境中的珊瑚礁魚，相比于傳統(tǒng) 方法和模型取得了更好的檢測精度。1相關(guān)技術(shù)本節(jié)對珊瑚礁魚檢測方法中涉及或相關(guān)的技術(shù)進行簡要介紹，具體包括前景提取及分類、圖像目標檢測和視頻目標檢測3個方面。1.1前景提取及分類前景提取及分類方法將珊瑚礁魚檢測視為一個前景目標提取及分類問題。由于當前水下攝像采集的都是固定場景視頻，借鑒安防、交通監(jiān)控等領域的分析經(jīng)驗，利用多幀圖像平均、高斯混合模型納等方法可以對這類視頻進行背景建模，進而可以通過背景差減和適當后處理，提取當前幀中的運動區(qū)域。將這些區(qū)域視為前景

11、目標從圖像中截取出來并歸一化到特定大小，即可作為深度神經(jīng)網(wǎng) 絡或其他機器學習模型的輸入，構(gòu)建相應分類模型實現(xiàn)珊瑚礁魚檢測。AlexNet網(wǎng)、GoogleNet、 ResNet都是現(xiàn)有文獻中用到的分類網(wǎng)絡。前景提取的效果是這類方法能否取得好的結(jié) 果的關(guān)鍵。由于珊瑚礁魚在圖像中通常只是一小部分,且受到影像分辨率低，以及水流、背景目標運動(如珊瑚擺動)等的影響，所提取的前景通常會有較多噪聲。分類網(wǎng)絡雖然可以濾除其中一部分，但因前景目標提取不完整、提取冗余等因素，不可避免會對分類精度造成一定影響。1.2圖像目標檢測圖像目標檢測方法將珊瑚礁魚檢測視為一個基于單幀圖像的目標檢測問題。圖像目

12、標檢測是隨著深度學習技術(shù)發(fā)展性能得到顯著提升的領域之一。根據(jù)檢測原理的不同，現(xiàn)有檢測方法主要分為兩階段方法和一階段方法兩大類。兩階段方法一般包含2個網(wǎng)絡:候選區(qū)域生成網(wǎng)絡和檢測網(wǎng)絡。首先,使用候選區(qū)域生成網(wǎng) 絡在圖像特征圖上生成目標候選框;然后,使用檢測網(wǎng)絡對生成的目標候選框進行中心位置和長寬的回歸，并進行分類。典型的兩階段方法包括 Faster R-CNN26 Cascade R-CNN32等。一階段方法通過對目標位置、大小和長寬比進行密集的采樣來檢測目標。這類方法先在特征圖的每個位置根據(jù)不同的大小和長寬比預定義固定數(shù)量的默認框，再對默認框的中心位置和長寬進行回歸,并對其

13、包含的物體進行分類判別。典型的一階段方法有YOLO散、SSD2#等。除以上方法，近年來也有一些考慮目標定位損失國和無需預定義默認框國的方法被提出來并取得良好檢測性能。此外，強化網(wǎng)絡所提取特征的辨識力也是提升目標檢測性能的重要方向。這方面代表性工作有特征金字塔網(wǎng)絡FPN弟、默認框可適配學習的RefineDet36等。具體到珊瑚礁魚檢測方面，目前有文獻用到 Faster R_CNN26、SSD藥和 YOLO咨。因視頻幀分辨率低、水下環(huán)境復雜、魚體態(tài)呈多維變化等特點,所提取特征質(zhì)量不可避免受到影響，制約了以上方法的精度。為此，文獻22,27 提出利用額外分類器來強化檢測結(jié)果,這

14、一做法的效果主要體現(xiàn)在減少誤判上,對漏判則作用不大。1.3視頻目標檢測視頻目標檢測泛指同時利用圖像靜態(tài)特征和視頻運動信息實現(xiàn)檢測的各種方法。目前，主要有2類視頻目標檢測方法:第1類是圖像目標檢測及后處理。先在多幀圖像上進行目標檢測，再采取適當后處理，得到視頻級檢測結(jié)果。這類方法是圖像目標檢測方法的簡單延伸，其存在難以充分利用檢測結(jié)果的時序相關(guān)性等不足。第2類方法利用可同時接受視覺和時序信息作為輸入的深度模型進行檢測。目前，已經(jīng)有一些相關(guān)的網(wǎng) 絡結(jié)構(gòu)被提出來。例如，利用2個卷積神經(jīng)網(wǎng)絡分別處理視覺和運動信息的雙流神經(jīng)網(wǎng)絡，利用卷積神經(jīng)網(wǎng)絡提取單幀圖像視覺特征,進而用長短時

15、記憶神經(jīng)網(wǎng)絡建模相鄰幀之間相關(guān)性的 CNN-LSTM結(jié)構(gòu)刃，利用3D卷積提取時空聯(lián)合特征的三維卷積神經(jīng)網(wǎng)絡I)。這些方法統(tǒng)籌考慮了時空域，因而可以提取到更為強大的特征，從而提升行為識別、視頻分類等多個視頻任務的分析精度。由于珊瑚礁魚通常只占視頻幀的一小塊區(qū) 域,且其位置隨著時間變化,構(gòu)建有效的局部視覺和時序特征表示是視頻目標檢測的關(guān)鍵。這方面典型工作有光流引導特征聚合網(wǎng)絡，依據(jù)光流方向聚合相鄰幀特征圖以強化對當前幀目標的表示,可適當緩解目標因運動模糊、面積過小、罕見姿態(tài)等問題導致的檢測困難。此外，也有學者研究了同時進行目標檢測和跟蹤的網(wǎng)絡閔，通過二者的互補提升檢測性能。2

16、本文方法2.1整體網(wǎng)絡結(jié)構(gòu)本節(jié)介紹提出的時空特征聚合水下珊瑚礁魚檢測方法。圖1給出了時空特征聚合神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)?？梢钥吹?，該網(wǎng)絡接受當前視頻幀及前后相鄰幀作為輸入。當前幀通過圖中c1cf 組成的視覺特征聚合模塊(Visual Feature Aggregation, VFA)，生成一個融合了多層卷積特征圖、信息更豐富的新視覺特征圖。同時，對于其中參與目標預測的特征圖(cf,c15c19)，通過圖中實線框表示的時序特征聚合模塊(Temporal Feature Aggregation, TFA)對當前幀及相鄰幀特征圖予以聚合,從而生成具備更強表示能力的時空聚合特征(Visua

17、l-Temporal Feature Aggregation, VTFA) $ 珊瑚礁魚檢測將在空間分辨率逐步降低的多個聚合特征圖上進行。圖1本文時空特征聚合神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)Fig. 1 Overall architecture of the proposed spatio-temporal features aggregation neural network本文網(wǎng)絡可視為一種從SSD模型23發(fā)展而來的復合結(jié)構(gòu)，在其單幀圖像處理通道中(見圖1 中虛線框)，類似于SSD利用卷積神經(jīng)網(wǎng)絡 VGG16耶作為特征提取主干網(wǎng)，其中基本卷積層 cl - c13與VGG16 一致，最后2個全連接層和

18、分類層被截斷,予以替換的是6個空間分辨率逐步降低的新增卷積層(c14 c19) $在SSD中，目標檢測將在c10、c15 c19這圖1本文時空特征聚合神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)Fig. 1 Overall architecture of the proposed spatio-temporal features aggregation neural network損失函數(shù)方面，本文網(wǎng)絡與SSD的形式相同,整個網(wǎng)絡的損失函數(shù)定義為 L(X,C,l,g) = 4( *conf(，C)+ a*ioc(,Z,g)(1) 式中:X為記錄預測框和標注框匹配情況的矩陣； C為當前樣本的預測置信度向量;和g分

19、別為預測框和標注框的坐標信息;N為當前幀預測框數(shù) 量;Lconf和Lioc分別為類別損失和定位損失;Q為一個用于平衡2類損失的參數(shù)，本文設置為1以上損失項的計算公式可參見文獻23 。不同于SSD,本文網(wǎng)絡的目標預測是在經(jīng)過單幀圖像多層特征圖聚合與/或相鄰幀同層特征圖聚合后生成的時空強化特征圖上進行，這2個聚合模塊正是本文的創(chuàng)新之處2.2視覺特征聚合模塊源自VGG16的基本卷積層中，SSD僅用c10 進行預測,忽視了其他層信息水下監(jiān)控視頻由于質(zhì)量低、成像環(huán)境復雜且珊瑚礁魚目標通常較小，基本卷積層特征圖上的信息對于檢測來說尤其重要基于此，本文設計了一個視覺特征聚合模塊對基本卷積

20、層進行更有效的利用，以提高水下復雜環(huán)境中的珊瑚礁魚檢測性能視覺特征聚合模塊由一個自頂向下的切分和一個自底向上的歸并操作組成切分過程迭代地將卷積層分成不同的組，形成了一個自頂向下的切分結(jié)構(gòu)在這個結(jié)構(gòu)的最頂層，所有卷積層都在同一組當卷積層數(shù)量&是偶數(shù)時，在下一層它們將從中間切分，分成2個各含有&/2個層的組;當卷積層的數(shù)量&是奇數(shù)時，在下一層最中間的卷積層將被視為一個單獨的組，其左右兩邊的卷積層被分為另外2個組,各含有(& -1) /2個層基于這一原則，卷積層可以不斷被切分，直至每個組中卷積層的數(shù)量小于等于2,此時切分過程停止圖2( a)的上半部分給出了一個切分的例子基于以

21、上切分結(jié)果，自底向上的歸并從下往上不斷合并每個組中的特征圖，最終形成了一個聚合了所有卷積特征圖的特征具體地，卷積層歸并時涉及對2個或3個分辨率和通道數(shù)可能不同的特征圖融合由于卷積神經(jīng)網(wǎng)絡特征圖從淺層到深層滿足分辨率不變或遞減的規(guī)律，對于 2個特征圖融合的情況:若分辨率不同，將低分辨率特征圖上采樣到與高分辨率特征圖具有相同大小，再進行融合;若分辨率相同則直接融合對于 3個特征圖融合的情況，先保持中間層特征圖的分辨率不變，若其淺層方向特征圖分辨率大于中間層，則通過下采樣將其降采樣到與中間層特征圖相同分辨率再融合;若其深層方向特征圖分辨率小于中間層，則將其上采樣到與中間層特征圖

22、(a)視覺特征聚合模塊特征圖融合(b)時序特征聚合模塊(a)視覺特征聚合模塊特征圖融合(b)時序特征聚合模塊卷積將其他層特征圖的通道數(shù)予以對齊。注意到,該特征聚合模塊不僅適用于VGG16主干網(wǎng)，也可以推廣到其他卷積主干網(wǎng)。相比于僅利用 clO進行預測，以及文獻21僅融合相鄰預測層的方案，本文視覺特征聚合模塊以一種合理且可擴展的方式聚合了多個基本卷積層的特征圖，提供了更豐富的局部細節(jié)和上下文信息，有利于更好刻畫視頻幀中的珊瑚礁魚目標。2.3時序特征聚合模塊珊瑚礁魚在水下游動時體態(tài)呈多維變化，當其部分遮擋或以罕見體態(tài)出現(xiàn)時,不可避免會帶來檢測困難。融合相鄰幀特征顯然有利于緩解該問

23、題?；诖耍疚脑O計了時序特征聚合模塊在相鄰幀上融合運動目標相關(guān)的特征圖，以生成更強化的特征表示。時序特征聚合模塊的示意圖如圖2( b)所示。對于輸入到網(wǎng)絡的當前視頻幀及其前后相鄰幀，利用圖1所示的主干網(wǎng)結(jié)構(gòu)提取每幀圖像各個卷積層的特征圖，這些特征圖記錄了目標在當前圖像上的卷積響應值?；诖耍谔卣鲌D上計算當前幀與每個相鄰幀的幀差圖，對幀差圖進行灰度化和二值化并結(jié)合適當后處理，如圖2( b)所示,記錄了當前幀與其相鄰幀之間運動信息的二值幀差圖。對于網(wǎng)絡中參與目標預測的特征圖，通過以下公式對其進行時序聚合：fZ = $ U+ Z，&( 2)式中：命為視頻幀&聚合前的第&層特征

24、圖; f-,n為視頻幀&聚合后的第&層特征圖;為& 與&的二值幀差圖，當$ j時,為值全為1的矩陣%為對應相乘操作;7, = (&, _ (,& _ ( *1， & *()為&及其相鄰幀集合,(為鄰域邊界;u為& 對應的權(quán)重，即r25/ j . ,2申3/ j ,圖2本文提出的視覺特征聚合模塊和時序特征聚合模塊Fig. 2 The proposed visual feature aggregation module andtemporal feature aggregation module一樣大小再進行融合;若淺層和/或深層方向特征圖分辨率與中間層的一致,則直接融合。通過迭代進行融合操

25、作，最終所有特征圖將會被融合成一個具有適中分辨率的聚合特征圖，如圖2( a)下半部分所示，該特征圖將會替換clO進行預測。對于融合過程中的特征圖通道數(shù)可能不一致的情況，以(三層融合的)中間層或(兩層融合中) 淺層方向的特征圖為基準,融合前先通過l xl的其中:為歸一化因子，以確保所有權(quán)重之和為1。=$2$ +2( 4), = 1式(2)以線性加權(quán)的方式，將相鄰幀特征圖中對應幀差運動區(qū)域的特征融合到當前幀同層特征圖中。這一做法可以生成一個以當前幀運動目標為中心，適當囊括其周邊區(qū)域，時序強化的特征。由于珊瑚礁魚是視頻中的運動主體，這一做法可有效緩解當前幀珊瑚礁魚目標因運動模糊、

26、罕見姿態(tài)等帶來的特征表示困難。以上時序融合在所有6個參與目標預測的卷積特征圖上都將進行，其中包括了一個通過視覺特征聚合模塊生成的預測層。因此，網(wǎng)絡可提取到時空聯(lián)合的強化特征更好地進行目標檢測。注意到，文獻10也提出了一種光流引導的相鄰幀特征圖融合方法。本文與其有2點區(qū)別:在融合區(qū)域確定上，文獻10先計算兩幀之間的光流，再依此將每幀光流前景對應的特征圖位移后再與當前幀相應位置疊加融合。與之對應，本文采用了計算代價顯著降低的幀差運算，融合區(qū)域也是相對更寬泛的幀差前景區(qū)域。采用這一做法主要是考慮到低質(zhì)量視頻中光流計算誤差較大, 容易導致位移估計不準確。此外,認為魚周邊區(qū) 域的特征

27、也有助于檢測。在相鄰幀融合的權(quán)重上，文獻10用余弦相似度動態(tài)計算當前幀與相鄰幀的權(quán)重，而本文采用的是一個以當前幀為中心的類高斯分布權(quán)重，直接賦予與當前幀更鄰近的相鄰幀更大權(quán)重。這一做法在降低計算量的同時，也一定程度避免了相似度計算對噪聲敏感的影響。上述融合中，時序聚合的鄰域（是一個重要參數(shù)。大的（值融合的相鄰幀多,但網(wǎng)絡結(jié)構(gòu)更復雜，計算代價更高;小的（值則有時序信息融合不充分的隱患。此外，選定（值后,鄰域中圖像分析的采樣間隔也是一個需要明確的細節(jié)。將在消融實驗中論證不同做法的區(qū)別。2.4后處理基于幀級檢測結(jié)果及置信度，本文先利用非極大值抑制消除單幀圖像上的冗余檢測框，再提

28、出了一個時序后處理以提升珊瑚礁魚檢測精度。該后處理旨在改善部分情況下珊瑚礁魚檢測得分置信度過低,易造成漏檢和誤檢的現(xiàn)象。具體地, 在得到單幀檢測結(jié)果后，先將相鄰幀中滿足檢測類別相同且IoU 0. 5的檢測框標記成檢測對，再將檢測對中檢測框得分統(tǒng)一為置信度高的得分。通過這種方式，一定程度利用了目標的時序互補性強化了檢測得分,使檢測結(jié)果更穩(wěn)定。上述非極大值抑制和時序后處理如圖3所示。圖3非極大值抑制和本文提出的時序后處理Fig. 3 Nonnaximum suppression and the proposed temporal post-processing本文網(wǎng)絡實現(xiàn)時，由于當

29、前幀預測需要利用前后相鄰幀特征圖，為避免重復提取圖像特征，在確定鄰域參數(shù)（及其采樣間隔后,將申請一個公共緩存空間存儲以當前幀為中心,鄰域內(nèi)所有采樣圖像參與預測的卷積特征圖。這樣，每幀檢測時，只需計算當前幀的時空聯(lián)合聚合特征圖以開展以當前幀為中心的目標檢測。對一個視頻幀序列,則只需按時序?qū)λ胁蓸訋貜鸵陨线^程,相應調(diào)整緩存空間內(nèi)容，即可依次計算所有采樣幀上的檢測結(jié)果。3實驗與結(jié)果3.1數(shù)據(jù)集用SeaCLEF國際競賽倒數(shù)據(jù)作為本文實驗數(shù)據(jù)集。該數(shù)據(jù)集提供了 5個不同場景和日期的 93個水下監(jiān)控視頻，給出了其中出現(xiàn)的15種珊瑚礁魚的逐幀標注,包括魚的類別和矩形框形式的位置信

30、息，共有21 396個標注樣例。該數(shù)據(jù)集涵蓋了圖像分辨率低、水下環(huán)境復雜、魚體態(tài)變化大等一系列真實水下監(jiān)控視頻包含的檢測難點。競賽將數(shù)據(jù)集分成了訓練集和測試集，分別包含20個和73個視頻的13 882個和7 514個標注實例。訓練集和測試集都涵蓋了全部的5個場景。但是，不同魚在數(shù)據(jù)集中的分布并不均勻，出現(xiàn)次數(shù)最多的網(wǎng)紋宅泥魚在訓練集和測試集上分別出現(xiàn)了 3165和5 046次,15種魚中黑緣單鰭魚在測試集中僅出現(xiàn)了 8次,甚至鏡斑蝴蝶魚和黑鰭粗唇魚在測試集沒有出現(xiàn)。因此參考文獻21 ,本文將上述3類魚從檢測任務中去除, 構(gòu)成了一個包含12種珊瑚礁魚的目標檢測任務。表1給出

31、了這些魚的名稱，以及它們在訓練集和測試集中的數(shù)量分布情況。表1 SeaCLEF數(shù)據(jù)集中不同類別魚的數(shù)量Table 1 Numbers of different fish species onSeaCLEF dataset編號珊瑚礁魚名稱訓練集樣例數(shù)測試集樣例數(shù)1五帶豆娘魚132932褐斑刺尾鯛2941293克氏雙鋸魚3635164月斑蝴蝶魚1 2171 8965川紋蝴蝶魚33513176短身光腮雀鯛275247宅泥魚8941 9858網(wǎng)紋宅泥魚3 1655 0469康德鋸鱗魚24211810黃新雀鯛851 59311迪克氏固齒鯛73770012寶石高鰭刺尾魚721873.2實驗設置及評價指標

32、本文采用一個兩步訓練過程來訓練網(wǎng)絡。第 1步基于單幀圖像訓練一個僅包含視覺特征聚合模塊的目標檢測網(wǎng)絡:先讀取ImageNet數(shù)據(jù)集的預訓練參數(shù),再采用批量隨機梯度下降方法進行訓練，批的大小為32張圖像。設置網(wǎng)絡總共迭代訓練120000次。先將學習率設置為0.0001進行 1000次迭代的熱身訓練，完成熱身訓練以后將學習率升至0.001，迭代訓練40 000次和80 000次之后,分別將學習率降低為0. 000 1和0.000 01，以使網(wǎng)絡更好地收斂。梯度更新動量值為0. 9。第2步訓練基于第1步得到的參數(shù)訓練整個網(wǎng)絡結(jié)構(gòu)。由于特征圖相加操作的可導性，整個網(wǎng)絡是端到端可訓練

33、的。第2步同樣采用批量隨機梯度下降的精調(diào)訓練，批的大小為1張圖像，迭代輪數(shù)設置為60000次,其中前40 000次與后20 000次的學習率分別為0. 000 1和0.00001。采用了隨機剪裁和調(diào)整圖像對比度的數(shù)據(jù)增強方式。圖像在輸入網(wǎng)絡之前先將大小調(diào)整為300 x400。全部訓練在一個GTX Titan X GPU上完成，基于 TensorFlow平臺完成整個模型訓練需要約34 h。推理階段，本文網(wǎng)絡接受當前幀及其前后多個相鄰幀作為輸入，輸出當前幀的檢測結(jié)果。檢測結(jié)果經(jīng)過2.4節(jié)的后處理，可得到視頻級檢測結(jié)果。評價指標上,本文用目標檢測領域廣泛使用的平均精度均值mAP,

34、其定義為$ AP,mAP =三（5）&式中:AP,為第$個目標類別通過改變閾值得到的不同召回率下的平均精度;&為目標類別個數(shù)。3.3消融實驗通過消融實驗來驗證視覺特征聚合模塊和時序特征聚合模塊中特征圖的具體融合方式，以及時序融合時當前幀的鄰域及采樣間隔。融合方式方面,驗證視覺特征聚合模塊時,將網(wǎng)絡結(jié)構(gòu)設置為僅輸入當前幀的情況，此時網(wǎng) 絡僅包含圖1中虛線框的部分。對比了對應相加、取最大值和取平均值3種特征圖融合策略。表2給出了相應的mAP值?？梢钥吹?，對應相加取得了更好的性能。驗證不同融合方式對時序特征聚合模塊的影響。先將網(wǎng)絡固定為輸入 &$_4+4） 3幀圖像的情況。為簡化起

35、見，去除了網(wǎng)絡中的視覺特征聚合模塊。表2給出了上述3種情況下的mAP 值。結(jié)果表明，取最大值進行融合更有利于進行珊瑚礁魚檢測。分析采樣鄰域及間隔對結(jié)果的影響。受限于計算資源,僅考慮了輸入不超過5個視頻幀的情況。結(jié)合不同采樣間隔，將其分成了如表3和表4所示的11種情況，其中2表示考慮 &,_2+2 3幀圖像的情況,46表示考慮 &, _6,+4，& +6 5幀圖像的情況，其余依此類推。實驗中網(wǎng)絡都未包括視覺特征聚合模塊?？梢钥吹?，輸入5幀圖像可以取得比3幀圖像更好的檢測結(jié)果。這一點是符合預期的，因為聚合更多相鄰幀有利于提取更具辨識力的特征。此外，注意到與當前幀間隔為6（ 3幀情

36、況），以及 4和8（ 5幀情況）時,相比于其他間隔情況下取得了更好的結(jié)果。幀數(shù)間隔大一般關(guān)聯(lián)著更大的運動區(qū)域，對應到本文網(wǎng)絡則是更大范圍的特征融合。當間隔相對適中時，可使得相鄰特征圖中目表2不同融合方式及性能Table 2 Different fusion methods and their performance融合方式mAP視覺特征聚合模塊時序特征聚合模塊對應相加0.63450.6002取最大值0.63280. 601 2取平均值0.62960. 598 6表3輸入為3幀圖像時不同參數(shù)下的網(wǎng)絡性能Table 3 Network performance under different

37、 parameters when three-frame images are input采樣鄰域及間隔 2468 mAP0.5990.6010.6020.602表4輸入為5幀圖像時不同參數(shù)下的網(wǎng)絡性能Table 4 Network performance under different parameters when five-frame images are input采樣鄰域及間隔242628464868mAP0. 6120. 6140. 6170. 6180. 6220. 621標及合適范圍的周邊上下文得到更強化的刻畫，但若間隔過大，則容易融合到更多的噪聲而起到負面作用?；谝陨?/p>

38、結(jié)果，本文網(wǎng)絡結(jié)構(gòu)最終確定為接受 & _*，&_4，&，& +!，& +* 5幀圖像作為輸入，并將對應相加和取最大值分別作為視覺特征聚合和時序特征聚合中多個特征圖的融合方式。3.4實驗結(jié)果及對比分析為評估檢測性能，將本文網(wǎng)絡及其衍生結(jié)構(gòu) 和幾種主流方法與模型進行了實驗比較。BS + GoogleNet20:德國耶拿大學提出的基于前景提取及分類的珊瑚礁魚檢測方法。Faster R-CNN26 #Y0L0v3 況和 SSD23：采用這3個主流目標檢測模型進行珊瑚礁魚檢測。FFDet:基于相鄰卷積層特征融合的珊瑚礁魚檢測方法。FGFA :光流引導的相鄰幀特征圖融合的檢測方法。0urs-

39、VTFA# 0urs-VFA 和 0urs-TFA：本文網(wǎng) 絡，以及本文網(wǎng)絡分別去除時序特征聚合模塊和視覺特征聚合模塊后對應的珊瑚礁魚檢測方法。表5給出了以上方法的圖像級和視頻級實驗結(jié)果及時間消耗。可以看到，0ursVTFA方法相比于傳統(tǒng)基于前景提取及分類、主流目標檢測模型取得了8. 8% -16.8%的相對性能提升,表明本文時空特征聚合網(wǎng)絡能更好地檢測水下珊瑚礁魚。同時，該方法也取得了比僅考慮其中一種模態(tài) 聚合的0urs-VFA和0urs-TFA更好的效果,說明從時間和空間2個維度強化特征提取的互補性和必要性。視覺特征聚合方面，對比于沒有特征融合的 SSD和采用相鄰層視覺特征

40、融合的FFDet，0urs- VFA方法取得了更好的檢測性能，說明基本卷積層聚合生成的特征圖可以更好地描述珊瑚礁魚的類別和位置信息，挖掘利用基本卷積層特征對低表5不同方法的檢測性能Table 5 Detection performance of different methods模型-mAP檢測時間/s圖像級視頻級BS + GoogleNet200.5970. 603Faster R-CNN260.5710. 5810. 153Y0L0v3 280. 5530. 5620. 022SSD230. 5760. 5860. 050FFDet210.6140.6280. 065FGFA100.

41、6430. 6470. 3840urs-VFA0. 6240. 6350. 0670urs-TFA0. 6190. 6220. 1130urs-VTFA0. 6520. 6560. 121質(zhì)量水下視頻中珊瑚礁魚檢測具有重要價值。此外,注意到0urs-VFA方法的檢測速度顯著快于 FGFA等高精度方法，僅略遜于精度不如它的SSD 和FFDet。0urs-VFA方法不失為一種速度和精度得到較好折中的檢測方案。時序特征聚合方面,0urs-TFA方法與SSD的區(qū)別在于:前者在網(wǎng)絡中聚合了相鄰幀對應運動區(qū)域的特征圖，即獲得了 6.3%的mAP相對提升，驗證了時序維度的挖掘利用有助于提升檢測性能。本文基于幀差的相鄰幀聚合方法可以融合相鄰幀目標周邊的上下文區(qū)域，有助于提取更加有效的特征。該方法雖然檢測性能低于FGFA，但時間消耗減少了 2倍以上，主要

人人文庫> 全部分類> 專業(yè)文獻 > 學術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種時空特征聚合的水下珊瑚礁魚檢測方法

文檔簡介

溫馨提示

最新文檔

評論

一種時空特征聚合的水下珊瑚礁魚檢測方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔