




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、一種時空特征聚合的水下珊瑚礁魚檢測方法摘 要:水下監(jiān)控視頻中的珊瑚礁魚檢測面臨著視頻成像質(zhì)量不高、水下環(huán)境復雜、 珊瑚礁魚視覺多樣性高等困難,是一個極具挑戰(zhàn)的視覺目標檢測問題,如何提取高辨識度的特 征成為制約檢測精度提升的關(guān)鍵。提出了一種時空特征聚合的水下珊瑚礁魚檢測方法,通過 設計視覺特征聚合和時序特征聚合2個模塊,融合多個維度的特征以實現(xiàn)這一目標。前者設 計了自頂向下的切分和自底向上的歸并方案,可實現(xiàn)不同分辨率多層卷積特征圖的有效聚合; 后者給出了一種幀差引導的相鄰幀特征圖融合方案,可通過融合多幀特征圖強化運動目標及 其周邊區(qū)域的特征表示。公開數(shù)據(jù)集上的實驗表明:基于以上2個模塊設計的時空
2、特征聚合網(wǎng) 絡可以實現(xiàn)對水下珊瑚礁魚的有效檢測,相比于多個主流方法和模型取得了更高的檢測精度。關(guān)鍵詞:珊瑚礁魚;卷積神經(jīng)網(wǎng)絡;時空聯(lián)合特征;目標檢測;特征融合珊瑚礁魚泛指生活在熱帶海洋珊瑚叢中的各 種魚,它們種類繁多、形態(tài)各異、色彩斑斕,是最富 活力和觀賞性的海洋生物群體之一。研究表明, 珊瑚礁魚的種類、數(shù)量和活動痕跡是否豐富,直接 反映了珊瑚礁生態(tài)系統(tǒng)的健康狀態(tài)和海洋生物多 樣性豐富程度。珊瑚礁魚活動的顯著變化,則 往往與溫度劇變、水域污染和過度人類活動等事 件緊密聯(lián)系。通過監(jiān)測分析珊瑚礁魚的活動, 可以快速、準確、精細地掌握海洋生態(tài)系統(tǒng)的健康 狀況。此外,珊瑚礁魚的分析研究還將有助于幫 助
3、海洋生物學家研究不同海洋動物的行為及其之 間的相互作用。目前,隨著全球大多數(shù)珊瑚礁 生態(tài)系統(tǒng)呈退化趨勢,這一研究已經(jīng)得到了廣泛 重視。在海洋科學領域,最初人們主要采取人工撒 網(wǎng)法和潛水調(diào)查法開展珊瑚礁魚活動調(diào)查。 人工撒網(wǎng)法先由人在珊瑚礁水域撒網(wǎng)撈魚,再經(jīng) 過海洋生物學家整理得到分析結(jié)果。潛水調(diào)查法 由專業(yè)潛水員手持水下攝像機穿越珊瑚礁水域, 通過對所拍攝影像進行事后分析,得到調(diào)查范圍 內(nèi)的珊瑚和珊瑚礁魚情況。雖然已被沿用很多 年,它們的缺點也很明顯:執(zhí)行一次調(diào)查不僅消耗 大量人力物力,而且會對魚類活動產(chǎn)生一定影響, 此外還難以獲得大面積連續(xù)的監(jiān)測數(shù)據(jù)。隨著水 下成像技術(shù)的發(fā)展,在珊瑚礁水域特
4、定位置安裝 水下攝像機,采集珊瑚礁魚活動影像并進行分析 正在成為一種普遍接受的做法。相比于傳統(tǒng)調(diào)查 方法,水下攝像既不影響珊瑚礁魚行為,同時也為 后續(xù)分析提供了大量素材。目前,全球多個國家 和地區(qū)的珊瑚礁水域都部署了水下攝像系統(tǒng)并產(chǎn) 生了大量珊瑚礁魚監(jiān)控影像。對這些影像的分析 催生了跨學科交叉研究需求:海洋生物學家手動 分析每天產(chǎn)生的大量影像數(shù)據(jù)是不切實際的,迫 切需要智能化的珊瑚礁魚分析技術(shù),能夠從真實 水下環(huán)境采集的影像中,自動得到珊瑚礁魚的出 現(xiàn)位置、種類、數(shù)量等信息。在信息科學領域,視頻大數(shù)據(jù)智能分析是一 個廣受關(guān)注的研究課題。特別是近年來,基于深 度學習的視頻分析與理解取得了顯著突破
5、,在大 規(guī)模視頻分類與檢測、細粒度圖像分類mm 等任務上,深度學習相比于傳統(tǒng)方法性能取得了 大幅提升。但是,目前多以消費類視頻圖像及安 防、交通等領域的監(jiān)控視頻為研究對象,對水下影 像的分析相對較少。水下影像具有成像質(zhì)量不 高、水下環(huán)境復雜等分析難點,此外具體到珊瑚礁 魚檢測上,還存在視覺多樣性高、標注數(shù)據(jù)有限等 挑戰(zhàn),這些困難決定了直接應用其他領域成熟的 分析方法并不是最優(yōu)方案,需要專門研究珊瑚礁 魚的有效檢測方法。目前,已經(jīng)有一些針對珊瑚礁魚檢測分析的 研究工作。早期研究多在受限情況下開展。例 如,文獻13:提出了一種基于輪廓匹配的魚識別 方法,文獻14提出了一種基于特征變換和支持 向量機
6、的羅非魚自動分類方法,他們的實驗都是 在已捕撈、拍照時擺放較規(guī)則的魚的圖像上開展。 針對水下自然環(huán)境中生活的魚,文獻15-16從不 同角度提出了聯(lián)合形狀和紋理特征的魚分類方 法,結(jié)果表明,水下環(huán)境魚檢測分類的難度明顯大 于之前的受限環(huán)境。面對水下珊瑚礁魚成像分辨 率低的問題,Wei等17提出了一種利用互聯(lián)網(wǎng)高 分辨率魚圖像進行數(shù)據(jù)增強的珊瑚礁魚分類方 法。圍繞真實水下監(jiān)控視頻珊瑚礁魚檢測的Sea- CLEF系列國際競賽倒,來自韓國首爾大學紂、 德國耶拿大學邸的團隊采用了運動前景提取與 基于深度學習分類相結(jié)合的解決方案,取得了較 好成績。近期相關(guān)工作更傾向于利用深度學習目 標檢測模型來解決珊瑚礁
7、魚檢測問題。例如,文 獻21 提出了一個相鄰層特征融合的全卷積網(wǎng) 絡進行珊瑚礁魚檢測。為更好應對水下復雜環(huán) 境,Zhuang等22提出了先用SSD模型23檢測珊 瑚礁魚,再用ResNet網(wǎng)絡對檢測前景進行分 類的方法。印度韋洛爾技術(shù)大學的研究團隊25 評估了不同主干網(wǎng)Faster R-CNN模型26在該競 賽上的檢測性能。德國杜塞爾多夫大學的學 者27提出了一種基于YOLO模型散的改進方 法,取得了較好的檢測效果。上述研究雖然顯著推動了珊瑚礁魚自動檢測 技術(shù)的發(fā)展,但仍存在一些不足:將珊瑚礁魚檢測 視為一個前景提取及分類的任務,或?qū)⑵湟暈橐?個圖像目標檢測加上時序后處理的任務。前者雖 然前景提
8、取時能一定程度利用視頻時序信息抑制 水下復雜環(huán)境造成的負面影響,但其將檢測過程 切分成了前景提取和分類2個獨立的子任務,二 者無法相互促進和增強,檢測性能受到限制。對 于后者,由于檢測時忽視了時序維度,且受目標大 小有限、環(huán)境復雜等的影響,深度模型難以提取高 質(zhì)量檢測特征,易造成誤檢和漏檢,雖然時序后處 理可消除一部分錯誤,但這也很難稱之為視頻時 序信息的深入利用。認識到特征辨識力不足是制約當前檢測精度 提升的關(guān)鍵因素,本文提出了一種時空特征聚合 的水下珊瑚礁魚檢測方法。具體地,設計了一個 新穎的卷積網(wǎng)絡結(jié)構(gòu)以提取更具辨識力的時空聯(lián) 合特征。該網(wǎng)絡從SSD模型發(fā)展而來。同時,其 包含一個多層視
9、覺特征聚合模塊,以提取更豐富 的視覺特征,以及一個時序特征聚合模塊,可結(jié)合 運動目標生成時序強化的特征表示。通過以上 2個模塊實現(xiàn)對空間和時間2個維度特征的聚 合,得到了可有效表征水下視覺目標的時空聯(lián)合 特征。公開數(shù)據(jù)集上的實驗表明,本文方法可提 升真實水下環(huán)境珊瑚礁魚檢測的精度。本文的主要貢獻如下:提出了一個多層視覺特征聚合的深度網(wǎng) 絡模塊,設計了自頂向下的切分和自底向上的歸 并,可實現(xiàn)不同分辨率多層卷積特征圖的聚合。提出了一個時序特征聚合的深度網(wǎng)絡模 塊,可結(jié)合運動目標融合相鄰幀的卷積特征圖,從 時序維度強化所提取特征。通過集成以上2個模塊,提出了一個時空 特征聚合的深度目標檢測網(wǎng)絡,可實
10、現(xiàn)對視頻目 標特征的有效提取及檢測。4 ) 公開數(shù)據(jù)集的實驗表明,本文方法可以有 效檢測真實水下環(huán)境中的珊瑚礁魚,相比于傳統(tǒng) 方法和模型取得了更好的檢測精度。1相關(guān)技術(shù)本節(jié)對珊瑚礁魚檢測方法中涉及或相關(guān)的技 術(shù)進行簡要介紹,具體包括前景提取及分類、圖像 目標檢測和視頻目標檢測3個方面。1.1前景提取及分類前景提取及分類方法將珊瑚礁魚檢測視為一 個前景目標提取及分類問題。由于當前水下攝像 采集的都是固定場景視頻,借鑒安防、交通監(jiān)控等 領域的分析經(jīng)驗,利用多幀圖像平均、高斯混合模 型納等方法可以對這類視頻進行背景建模,進而 可以通過背景差減和適當后處理,提取當前幀中的 運動區(qū)域。將這些區(qū)域視為前景
11、目標從圖像中截 取出來并歸一化到特定大小,即可作為深度神經(jīng)網(wǎng) 絡或其他機器學習模型的輸入,構(gòu)建相應分類模型 實現(xiàn)珊瑚礁魚檢測。AlexNet網(wǎng)、GoogleNet、 ResNet都是現(xiàn)有文獻中用到的分類網(wǎng)絡。前景提取的效果是這類方法能否取得好的結(jié) 果的關(guān)鍵。由于珊瑚礁魚在圖像中通常只是一小 部分,且受到影像分辨率低,以及水流、背景目標 運動(如珊瑚擺動)等的影響,所提取的前景通常 會有較多噪聲。分類網(wǎng)絡雖然可以濾除其中一部 分,但因前景目標提取不完整、提取冗余等因素, 不可避免會對分類精度造成一定影響。1.2圖像目標檢測圖像目標檢測方法將珊瑚礁魚檢測視為一個 基于單幀圖像的目標檢測問題。圖像目
12、標檢測是 隨著深度學習技術(shù)發(fā)展性能得到顯著提升的領域 之一。根據(jù)檢測原理的不同,現(xiàn)有檢測方法主要 分為兩階段方法和一階段方法兩大類。兩階段方法一般包含2個網(wǎng)絡:候選區(qū)域生 成網(wǎng)絡和檢測網(wǎng)絡。首先,使用候選區(qū)域生成網(wǎng) 絡在圖像特征圖上生成目標候選框;然后,使用檢 測網(wǎng)絡對生成的目標候選框進行中心位置和長寬 的回歸,并進行分類。典型的兩階段方法包括 Faster R-CNN26 Cascade R-CNN32等。一階段方法通過對目標位置、大小和長寬比 進行密集的采樣來檢測目標。這類方法先在特征 圖的每個位置根據(jù)不同的大小和長寬比預定義固 定數(shù)量的默認框,再對默認框的中心位置和長寬 進行回歸,并對其
13、包含的物體進行分類判別。典 型的一階段方法有YOLO散、SSD2#等。除以上方法,近年來也有一些考慮目標定位 損失國和無需預定義默認框國的方法被提出來 并取得良好檢測性能。此外,強化網(wǎng)絡所提取特 征的辨識力也是提升目標檢測性能的重要方向。 這方面代表性工作有特征金字塔網(wǎng)絡FPN弟、默 認框可適配學習的RefineDet36等。具體到珊瑚礁魚檢測方面,目前有文獻用到 Faster R_CNN26、SSD藥 和 YOLO咨。因視頻幀 分辨率低、水下環(huán)境復雜、魚體態(tài)呈多維變化等特 點,所提取特征質(zhì)量不可避免受到影響,制約了以 上方法的精度。為此,文獻22,27 提出利用額 外分類器來強化檢測結(jié)果,這
14、一做法的效果主要 體現(xiàn)在減少誤判上,對漏判則作用不大。1.3視頻目標檢測視頻目標檢測泛指同時利用圖像靜態(tài)特征和 視頻運動信息實現(xiàn)檢測的各種方法。目前,主要 有2類視頻目標檢測方法:第1類是圖像目標檢 測及后處理。先在多幀圖像上進行目標檢測,再 采取適當后處理,得到視頻級檢測結(jié)果。這類方 法是圖像目標檢測方法的簡單延伸,其存在難以 充分利用檢測結(jié)果的時序相關(guān)性等不足。第2類 方法利用可同時接受視覺和時序信息作為輸入的 深度模型進行檢測。目前,已經(jīng)有一些相關(guān)的網(wǎng) 絡結(jié)構(gòu)被提出來。例如,利用2個卷積神經(jīng)網(wǎng)絡 分別處理視覺和運動信息的雙流神經(jīng)網(wǎng)絡,利 用卷積神經(jīng)網(wǎng)絡提取單幀圖像視覺特征,進而用 長短時
15、記憶神經(jīng)網(wǎng)絡建模相鄰幀之間相關(guān)性的 CNN-LSTM結(jié)構(gòu)刃,利用3D卷積提取時空聯(lián)合 特征的三維卷積神經(jīng)網(wǎng)絡I)。這些方法統(tǒng)籌考 慮了時空域,因而可以提取到更為強大的特征,從 而提升行為識別、視頻分類等多個視頻任務的分 析精度。由于珊瑚礁魚通常只占視頻幀的一小塊區(qū) 域,且其位置隨著時間變化,構(gòu)建有效的局部視覺 和時序特征表示是視頻目標檢測的關(guān)鍵。這方面 典型工作有光流引導特征聚合網(wǎng)絡,依據(jù)光流 方向聚合相鄰幀特征圖以強化對當前幀目標的表 示,可適當緩解目標因運動模糊、面積過小、罕見 姿態(tài)等問題導致的檢測困難。此外,也有學者研 究了同時進行目標檢測和跟蹤的網(wǎng)絡閔,通過二 者的互補提升檢測性能。2
16、本文方法2.1整體網(wǎng)絡結(jié)構(gòu)本節(jié)介紹提出的時空特征聚合水下珊瑚礁魚 檢測方法。圖1給出了時空特征聚合神經(jīng)網(wǎng)絡的 整體結(jié)構(gòu)??梢钥吹?,該網(wǎng)絡接受當前視頻幀及 前后相鄰幀作為輸入。當前幀通過圖中c1cf 組成的視覺特征聚合模塊(Visual Feature Aggregation, VFA),生成一個融合了多層卷積特征圖、 信息更豐富的新視覺特征圖。同時,對于其中參 與目標預測的特征圖(cf,c15c19),通過圖中實 線框表示的時序特征聚合模塊(Temporal Feature Aggregation, TFA)對當前幀及相鄰幀特征圖予以 聚合,從而生成具備更強表示能力的時空聚合特 征(Visua
17、l-Temporal Feature Aggregation, VTFA) $ 珊瑚礁魚檢測將在空間分辨率逐步降低的多個聚 合特征圖上進行。圖1本文時空特征聚合神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)Fig. 1 Overall architecture of the proposed spatio-temporal features aggregation neural network本文網(wǎng)絡可視為一種從SSD模型23發(fā)展而 來的復合結(jié)構(gòu),在其單幀圖像處理通道中(見圖1 中虛線框),類似于SSD利用卷積神經(jīng)網(wǎng)絡 VGG16耶作為特征提取主干網(wǎng),其中基本卷積層 cl - c13與VGG16 一致,最后2個全連接層和
18、分 類層被截斷,予以替換的是6個空間分辨率逐步 降低的新增卷積層(c14 c19) $在SSD中,目標 檢測將在c10、c15 c19這圖1本文時空特征聚合神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)Fig. 1 Overall architecture of the proposed spatio-temporal features aggregation neural network損失函數(shù)方面,本文網(wǎng)絡與SSD的形式相 同,整個網(wǎng)絡的損失函數(shù)定義為 L(X,C,l,g) = 4( *conf(,C)+ a*ioc(,Z,g)(1) 式中:X為記錄預測框和標注框匹配情況的矩陣; C為當前樣本的預測置信度向量;和g分
19、別為預 測框和標注框的坐標信息;N為當前幀預測框數(shù) 量;Lconf和Lioc分別為類別損失和定位損失;Q為一 個用于平衡2類損失的參數(shù),本文設置為1以 上損失項的計算公式可參見文獻23 。不同于SSD,本文網(wǎng)絡的目標預測是在經(jīng)過 單幀圖像多層特征圖聚合與/或相鄰幀同層特征 圖聚合后生成的時空強化特征圖上進行,這2個 聚合模塊正是本文的創(chuàng)新之處2.2視覺特征聚合模塊源自VGG16的基本卷積層中,SSD僅用c10 進行預測,忽視了其他層信息水下監(jiān)控視頻由 于質(zhì)量低、成像環(huán)境復雜且珊瑚礁魚目標通常較 小,基本卷積層特征圖上的信息對于檢測來說尤 其重要基于此,本文設計了一個視覺特征聚合 模塊對基本卷積
20、層進行更有效的利用,以提高水 下復雜環(huán)境中的珊瑚礁魚檢測性能視覺特征聚合模塊由一個自頂向下的切分和 一個自底向上的歸并操作組成切分過程迭代地 將卷積層分成不同的組,形成了一個自頂向下的 切分結(jié)構(gòu)在這個結(jié)構(gòu)的最頂層,所有卷積層都 在同一組當卷積層數(shù)量&是偶數(shù)時,在下一層 它們將從中間切分,分成2個各含有&/2個層的 組;當卷積層的數(shù)量&是奇數(shù)時,在下一層最中間 的卷積層將被視為一個單獨的組,其左右兩邊的卷 積層被分為另外2個組,各含有(& -1) /2個層 基于這一原則,卷積層可以不斷被切分,直至每個 組中卷積層的數(shù)量小于等于2,此時切分過程停 止圖2( a)的上半部分給出了一個切分的例子基于以
21、上切分結(jié)果,自底向上的歸并從下往 上不斷合并每個組中的特征圖,最終形成了一個 聚合了所有卷積特征圖的特征具體地,卷積層 歸并時涉及對2個或3個分辨率和通道數(shù)可能不 同的特征圖融合由于卷積神經(jīng)網(wǎng)絡特征圖從淺 層到深層滿足分辨率不變或遞減的規(guī)律,對于 2個特征圖融合的情況:若分辨率不同,將低分辨 率特征圖上采樣到與高分辨率特征圖具有相同大 小,再進行融合;若分辨率相同則直接融合對于 3個特征圖融合的情況,先保持中間層特征圖的 分辨率不變,若其淺層方向特征圖分辨率大于中 間層,則通過下采樣將其降采樣到與中間層特征 圖相同分辨率再融合;若其深層方向特征圖分辨 率小于中間層,則將其上采樣到與中間層特征圖
22、(a)視覺特征聚合模塊特征圖融合(b)時序特征聚合模塊(a)視覺特征聚合模塊特征圖融合(b)時序特征聚合模塊卷積將其他層特征圖的通道數(shù)予以對齊。注意 到,該特征聚合模塊不僅適用于VGG16主干網(wǎng), 也可以推廣到其他卷積主干網(wǎng)。相比于僅利用 clO進行預測,以及文獻21僅融合相鄰預測層 的方案,本文視覺特征聚合模塊以一種合理且可 擴展的方式聚合了多個基本卷積層的特征圖,提 供了更豐富的局部細節(jié)和上下文信息,有利于更 好刻畫視頻幀中的珊瑚礁魚目標。2.3時序特征聚合模塊珊瑚礁魚在水下游動時體態(tài)呈多維變化,當 其部分遮擋或以罕見體態(tài)出現(xiàn)時,不可避免會帶 來檢測困難。融合相鄰幀特征顯然有利于緩解該 問
23、題?;诖耍疚脑O計了時序特征聚合模塊在 相鄰幀上融合運動目標相關(guān)的特征圖,以生成更 強化的特征表示。時序特征聚合模塊的示意圖如圖2( b)所示。 對于輸入到網(wǎng)絡的當前視頻幀及其前后相鄰幀, 利用圖1所示的主干網(wǎng)結(jié)構(gòu)提取每幀圖像各個卷 積層的特征圖,這些特征圖記錄了目標在當前圖 像上的卷積響應值?;诖耍谔卣鲌D上計算當前 幀與每個相鄰幀的幀差圖,對幀差圖進行灰度化和 二值化并結(jié)合適當后處理,如圖2( b)所示,記錄了 當前幀與其相鄰幀之間運動信息的二值幀差圖。對于網(wǎng)絡中參與目標預測的特征圖,通過以 下公式對其進行時序聚合:fZ = $ U+ Z,&( 2)式中:命為視頻幀&聚合前的第&層特征
24、圖; f-,n為視頻幀&聚合后的第&層特征圖;為& 與&的二值幀差圖,當$ j時,為值全為1的 矩陣%為對應相乘操作;7, = (&, _ (,& _ ( *1, & *()為&及其相鄰幀集合,(為鄰域邊界;u為& 對應的權(quán)重,即r25/ j . ,2申3/ j ,圖2本文提出的視覺特征聚合模塊和時序特征聚合模塊Fig. 2 The proposed visual feature aggregation module andtemporal feature aggregation module一樣大小再進行融合;若淺層和/或深層方向特征 圖分辨率與中間層的一致,則直接融合。通過迭 代進行融合操
25、作,最終所有特征圖將會被融合成 一個具有適中分辨率的聚合特征圖,如圖2( a)下 半部分所示,該特征圖將會替換clO進行預測。對于融合過程中的特征圖通道數(shù)可能不一致 的情況,以(三層融合的)中間層或(兩層融合中) 淺層方向的特征圖為基準,融合前先通過l xl的 其中:為歸一化因子,以確保所有權(quán)重之和為1。=$2$ +2( 4), = 1式(2)以線性加權(quán)的方式,將相鄰幀特征圖 中對應幀差運動區(qū)域的特征融合到當前幀同層特 征圖中。這一做法可以生成一個以當前幀運動目 標為中心,適當囊括其周邊區(qū)域,時序強化的特 征。由于珊瑚礁魚是視頻中的運動主體,這一做 法可有效緩解當前幀珊瑚礁魚目標因運動模糊、
26、罕見姿態(tài)等帶來的特征表示困難。以上時序融合在所有6個參與目標預測的卷積特征圖上都將進行,其中包括了一個通過視覺 特征聚合模塊生成的預測層。因此,網(wǎng)絡可提取 到時空聯(lián)合的強化特征更好地進行目標檢測。注 意到,文獻10也提出了一種光流引導的相鄰幀 特征圖融合方法。本文與其有2點區(qū)別:在融 合區(qū)域確定上,文獻10先計算兩幀之間的光 流,再依此將每幀光流前景對應的特征圖位移后 再與當前幀相應位置疊加融合。與之對應,本文 采用了計算代價顯著降低的幀差運算,融合區(qū)域 也是相對更寬泛的幀差前景區(qū)域。采用這一做法 主要是考慮到低質(zhì)量視頻中光流計算誤差較大, 容易導致位移估計不準確。此外,認為魚周邊區(qū) 域的特征
27、也有助于檢測。在相鄰幀融合的權(quán)重 上,文獻10用余弦相似度動態(tài)計算當前幀與相鄰 幀的權(quán)重,而本文采用的是一個以當前幀為中心的 類高斯分布權(quán)重,直接賦予與當前幀更鄰近的相鄰 幀更大權(quán)重。這一做法在降低計算量的同時,也一 定程度避免了相似度計算對噪聲敏感的影響。上述融合中,時序聚合的鄰域(是一個重要 參數(shù)。大的(值融合的相鄰幀多,但網(wǎng)絡結(jié)構(gòu)更 復雜,計算代價更高;小的(值則有時序信息融合 不充分的隱患。此外,選定(值后,鄰域中圖像分 析的采樣間隔也是一個需要明確的細節(jié)。將在消 融實驗中論證不同做法的區(qū)別。2.4后處理基于幀級檢測結(jié)果及置信度,本文先利用非 極大值抑制消除單幀圖像上的冗余檢測框,再提
28、 出了一個時序后處理以提升珊瑚礁魚檢測精度。 該后處理旨在改善部分情況下珊瑚礁魚檢測得分 置信度過低,易造成漏檢和誤檢的現(xiàn)象。具體地, 在得到單幀檢測結(jié)果后,先將相鄰幀中滿足檢測 類別相同且IoU 0. 5的檢測框標記成檢測對,再 將檢測對中檢測框得分統(tǒng)一為置信度高的得分。 通過這種方式,一定程度利用了目標的時序互補 性強化了檢測得分,使檢測結(jié)果更穩(wěn)定。上述非 極大值抑制和時序后處理如圖3所示。圖3非極大值抑制和本文提出的時序后處理Fig. 3 Nonnaximum suppression and the proposed temporal post-processing本文網(wǎng)絡實現(xiàn)時,由于當
29、前幀預測需要利用 前后相鄰幀特征圖,為避免重復提取圖像特征,在 確定鄰域參數(shù)(及其采樣間隔后,將申請一個公 共緩存空間存儲以當前幀為中心,鄰域內(nèi)所有采 樣圖像參與預測的卷積特征圖。這樣,每幀檢測 時,只需計算當前幀的時空聯(lián)合聚合特征圖以開 展以當前幀為中心的目標檢測。對一個視頻幀序 列,則只需按時序?qū)λ胁蓸訋貜鸵陨线^程,相 應調(diào)整緩存空間內(nèi)容,即可依次計算所有采樣幀 上的檢測結(jié)果。3實驗與結(jié)果3.1數(shù)據(jù)集用SeaCLEF國際競賽倒數(shù)據(jù)作為本文實驗 數(shù)據(jù)集。該數(shù)據(jù)集提供了 5個不同場景和日期的 93個水下監(jiān)控視頻,給出了其中出現(xiàn)的15種珊 瑚礁魚的逐幀標注,包括魚的類別和矩形框形式 的位置信
30、息,共有21 396個標注樣例。該數(shù)據(jù)集 涵蓋了圖像分辨率低、水下環(huán)境復雜、魚體態(tài)變化 大等一系列真實水下監(jiān)控視頻包含的檢測難點。競賽將數(shù)據(jù)集分成了訓練集和測試集,分別 包含20個和73個視頻的13 882個和7 514個標 注實例。訓練集和測試集都涵蓋了全部的5個場 景。但是,不同魚在數(shù)據(jù)集中的分布并不均勻,出 現(xiàn)次數(shù)最多的網(wǎng)紋宅泥魚在訓練集和測試集上分 別出現(xiàn)了 3165和5 046次,15種魚中黑緣單鰭魚 在測試集中僅出現(xiàn)了 8次,甚至鏡斑蝴蝶魚和黑 鰭粗唇魚在測試集沒有出現(xiàn)。因此參考文 獻21 ,本文將上述3類魚從檢測任務中去除, 構(gòu)成了一個包含12種珊瑚礁魚的目標檢測任務。 表1給出
31、了這些魚的名稱,以及它們在訓練集和 測試集中的數(shù)量分布情況。表1 SeaCLEF數(shù)據(jù)集中不同類別魚的數(shù)量Table 1 Numbers of different fish species onSeaCLEF dataset編號珊瑚礁魚名稱訓練集樣例數(shù)測試集樣例數(shù)1五帶豆娘魚132932褐斑刺尾鯛2941293克氏雙鋸魚3635164月斑蝴蝶魚1 2171 8965川紋蝴蝶魚33513176短身光腮雀鯛275247宅泥魚8941 9858網(wǎng)紋宅泥魚3 1655 0469康德鋸鱗魚24211810黃新雀鯛851 59311迪克氏固齒鯛73770012寶石高鰭刺尾魚721873.2實驗設置及評價指標
32、本文采用一個兩步訓練過程來訓練網(wǎng)絡。第 1步基于單幀圖像訓練一個僅包含視覺特征聚合 模塊的目標檢測網(wǎng)絡:先讀取ImageNet數(shù)據(jù)集的 預訓練參數(shù),再采用批量隨機梯度下降方法進行 訓練,批的大小為32張圖像。設置網(wǎng)絡總共迭代 訓練120000次。先將學習率設置為0.0001進行 1000次迭代的熱身訓練,完成熱身訓練以后將學 習率升至0.001,迭代訓練40 000次和80 000次之 后,分別將學習率降低為0. 000 1和0.000 01,以 使網(wǎng)絡更好地收斂。梯度更新動量值為0. 9。 第2步訓練基于第1步得到的參數(shù)訓練整個網(wǎng)絡 結(jié)構(gòu)。由于特征圖相加操作的可導性,整個網(wǎng)絡 是端到端可訓練
33、的。第2步同樣采用批量隨機梯 度下降的精調(diào)訓練,批的大小為1張圖像,迭代輪 數(shù)設置為60000次,其中前40 000次與后20 000次 的學習率分別為0. 000 1和0.00001。采用了隨 機剪裁和調(diào)整圖像對比度的數(shù)據(jù)增強方式。圖像 在輸入網(wǎng)絡之前先將大小調(diào)整為300 x400。全 部訓練在一個GTX Titan X GPU上完成,基于 TensorFlow平臺完成整個模型訓練需要約34 h。推理階段,本文網(wǎng)絡接受當前幀及其前后多 個相鄰幀作為輸入,輸出當前幀的檢測結(jié)果。檢 測結(jié)果經(jīng)過2.4節(jié)的后處理,可得到視頻級檢測 結(jié)果。評價指標上,本文用目標檢測領域廣泛使 用的平均精度均值mAP,
34、其定義為$ AP,mAP =三(5)&式中:AP,為第$個目標類別通過改變閾值得到的 不同召回率下的平均精度;&為目標類別個數(shù)。3.3消融實驗通過消融實驗來驗證視覺特征聚合模塊和時 序特征聚合模塊中特征圖的具體融合方式,以及 時序融合時當前幀的鄰域及采樣間隔。融合方式方面,驗證視覺特征聚合模塊時,將 網(wǎng)絡結(jié)構(gòu)設置為僅輸入當前幀的情況,此時網(wǎng) 絡僅包含圖1中虛線框的部分。對比了對應相 加、取最大值和取平均值3種特征圖融合策略。 表2給出了相應的mAP值??梢钥吹?,對應相加 取得了更好的性能。驗證不同融合方式對時序特征聚合模塊的影 響。先將網(wǎng)絡固定為輸入 &$_4+4) 3幀圖像 的情況。為簡化起
35、見,去除了網(wǎng)絡中的視覺特征 聚合模塊。表2給出了上述3種情況下的mAP 值。結(jié)果表明,取最大值進行融合更有利于進行 珊瑚礁魚檢測。分析采樣鄰域及間隔對結(jié)果的影響。受限于 計算資源,僅考慮了輸入不超過5個視頻幀的情 況。結(jié)合不同采樣間隔,將其分成了如表3和 表4所示的11種情況,其中2表示考慮 &,_2+2 3幀圖像的情況,46表示考慮 &, _6,+4,& +6 5幀圖像的情況,其余依此類推。實驗 中網(wǎng)絡都未包括視覺特征聚合模塊??梢钥吹?,輸入5幀圖像可以取得比3幀圖 像更好的檢測結(jié)果。這一點是符合預期的,因為 聚合更多相鄰幀有利于提取更具辨識力的特征。 此外,注意到與當前幀間隔為6( 3幀情
36、況),以及 4和8( 5幀情況)時,相比于其他間隔情況下取得 了更好的結(jié)果。幀數(shù)間隔大一般關(guān)聯(lián)著更大的運 動區(qū)域,對應到本文網(wǎng)絡則是更大范圍的特征融 合。當間隔相對適中時,可使得相鄰特征圖中目 表2不同融合方式及性能Table 2 Different fusion methods and their performance融合方式mAP視覺特征聚合模塊時序特征聚合模塊對應相加0.63450.6002取最大值0.63280. 601 2取平均值0.62960. 598 6表3輸入為3幀圖像時不同參數(shù)下的網(wǎng)絡性能Table 3 Network performance under different
37、 parameters when three-frame images are input采樣鄰域及間隔 2468 mAP0.5990.6010.6020.602表4輸入為5幀圖像時不同參數(shù)下的網(wǎng)絡性能Table 4 Network performance under different parameters when five-frame images are input采樣鄰域 及間隔242628464868mAP0. 6120. 6140. 6170. 6180. 6220. 621標及合適范圍的周邊上下文得到更強化的刻畫, 但若間隔過大,則容易融合到更多的噪聲而起到 負面作用?;谝陨?/p>
38、結(jié)果,本文網(wǎng)絡結(jié)構(gòu)最終確 定為接受 & _*,&_4,&,& +!,& +* 5幀圖像作為輸 入,并將對應相加和取最大值分別作為視覺特征 聚合和時序特征聚合中多個特征圖的融合方式。3.4實驗結(jié)果及對比分析為評估檢測性能,將本文網(wǎng)絡及其衍生結(jié)構(gòu) 和幾種主流方法與模型進行了實驗比較。BS + GoogleNet20:德國耶拿大學提出的基于 前景提取及分類的珊瑚礁魚檢測方法。Faster R-CNN26 #Y0L0v3 況和 SSD23:采用 這3個主流目標檢測模型進行珊瑚礁魚檢測。FFDet:基于相鄰卷積層特征融合的珊瑚 礁魚檢測方法。FGFA :光流引導的相鄰幀特征圖融合的 檢測方法。0urs-
39、VTFA# 0urs-VFA 和 0urs-TFA:本文網(wǎng) 絡,以及本文網(wǎng)絡分別去除時序特征聚合模塊和 視覺特征聚合模塊后對應的珊瑚礁魚檢測方法。表5給出了以上方法的圖像級和視頻級實驗 結(jié)果及時間消耗。可以看到,0ursVTFA方法相 比于傳統(tǒng)基于前景提取及分類、主流目標檢測模 型取得了8. 8% -16.8%的相對性能提升,表明本 文時空特征聚合網(wǎng)絡能更好地檢測水下珊瑚礁 魚。同時,該方法也取得了比僅考慮其中一種模態(tài) 聚合的0urs-VFA和0urs-TFA更好的效果,說明從 時間和空間2個維度強化特征提取的互補性和必 要性。視覺特征聚合方面,對比于沒有特征融合的 SSD和采用相鄰層視覺特征
40、融合的FFDet,0urs- VFA方法取得了更好的檢測性能,說明基本卷積 層聚合生成的特征圖可以更好地描述珊瑚礁魚的 類別和位置信息,挖掘利用基本卷積層特征對低 表5不同方法的檢測性能Table 5 Detection performance of different methods模型-mAP檢測時間/s圖像級視頻級BS + GoogleNet200.5970. 603Faster R-CNN260.5710. 5810. 153Y0L0v3 280. 5530. 5620. 022SSD230. 5760. 5860. 050FFDet210.6140.6280. 065FGFA100.
41、6430. 6470. 3840urs-VFA0. 6240. 6350. 0670urs-TFA0. 6190. 6220. 1130urs-VTFA0. 6520. 6560. 121質(zhì)量水下視頻中珊瑚礁魚檢測具有重要價值。此 外,注意到0urs-VFA方法的檢測速度顯著快于 FGFA等高精度方法,僅略遜于精度不如它的SSD 和FFDet。0urs-VFA方法不失為一種速度和精度 得到較好折中的檢測方案。時序特征聚合方面,0urs-TFA方法與SSD的 區(qū)別在于:前者在網(wǎng)絡中聚合了相鄰幀對應運動 區(qū)域的特征圖,即獲得了 6.3%的mAP相對提 升,驗證了時序維度的挖掘利用有助于提升檢測 性能。本文基于幀差的相鄰幀聚合方法可以融合 相鄰幀目標周邊的上下文區(qū)域,有助于提取更加 有效的特征。該方法雖然檢測性能低于FGFA, 但時間消耗減少了 2倍以上,主要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《Unit 5 Welcome》(教學設計)-2024-2025學年北師大版(一起)英語二年級上冊
- 河北工業(yè)職業(yè)技術(shù)大學《數(shù)據(jù)結(jié)構(gòu)實驗》2023-2024學年第二學期期末試卷
- Unit 7 Outdoor fun Pronunciation 教學設計-2024-2025學年譯林版英語七年級下冊
- 廣東水利電力職業(yè)技術(shù)學院《建筑力學與結(jié)構(gòu)選型》2023-2024學年第二學期期末試卷
- 湖北財稅職業(yè)學院《智慧物流技術(shù)與裝備》2023-2024學年第二學期期末試卷
- 黔南民族幼兒師范高等專科學?!峨娐穼嶒灐?023-2024學年第二學期期末試卷
- 內(nèi)蒙古民族幼兒師范高等專科學?!端姽こ淌┕ぁ?023-2024學年第二學期期末試卷
- 濟南2025年山東濟南市歷城區(qū)所屬事業(yè)單位招聘初級綜合類崗位50人筆試歷年參考題庫附帶答案詳解-1
- 焦作工貿(mào)職業(yè)學院《無人機行業(yè)應用》2023-2024學年第二學期期末試卷
- 海南經(jīng)貿(mào)職業(yè)技術(shù)學院《化學教學設計研究》2023-2024學年第二學期期末試卷
- 白城2025年吉林大安市事業(yè)單位面向上半年應征入伍高校畢業(yè)生招聘5人筆試歷年參考題庫附帶答案詳解
- 2025年市婦聯(lián)執(zhí)委會議上的工作報告
- 安全生產(chǎn)事故調(diào)查與案例分析(第3版)課件 呂淑然 第5、6章 事故案例評析、相關(guān)法律法規(guī)
- 2024-2025學年人教版數(shù)學六年級下冊第二單元百分數(shù)(二)(含答案)
- 2024年湖南鐵路科技職業(yè)技術(shù)學院高職單招語文歷年參考題庫含答案解析
- 祖沖之的平生與貢獻
- 2025年版護理法律法規(guī)
- 房屋市政工程生產(chǎn)安全重大事故隱患排查表(2024版)
- 統(tǒng)編版(2024新版)七年級下冊道德與法治期末復習背誦知識點提綱
- 口服降糖藥物分類詳解
- 健康體檢報告解讀頁課件
評論
0/150
提交評論