小樣本目標檢測研究綜述_第1頁
小樣本目標檢測研究綜述_第2頁
小樣本目標檢測研究綜述_第3頁
小樣本目標檢測研究綜述_第4頁
小樣本目標檢測研究綜述_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

計算機科學(xué)與探索JournalofFrontiersofComputerScienceandTechnology167計算機科學(xué)與探索JournalofFrontiersofComputerScienceandTechnology小樣本目標檢測研究綜述開放科學(xué)(OSID)1.廣西大學(xué)計算機與電子信息學(xué)院,南寧5300042.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京1000973.國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京100097+通信作者E-mail:chend@摘要:目標檢測是計算機視覺方向的熱點領(lǐng)域,其通常需要大量的標注圖像用于模型訓(xùn)練,這將花費大量的人力和物力來實現(xiàn)。同時,由于真實世界中的數(shù)據(jù)存在固有的長尾分布,大部分對象的樣本數(shù)量都比較稀少,比如眾多非常見疾病等,很難獲得大量的標注圖像。小樣本目標檢測只需要提供少量的標注信息,就能夠檢測出感興趣的對象,對小樣本目標檢測方法做了詳細綜述。首先回顧了通用目標檢測的發(fā)展及其存在的問題,從而引出小樣本目標檢測的概念,對同小樣本目標檢測相關(guān)的其他任務(wù)做了區(qū)分闡述。之后介紹了現(xiàn)有小樣本目標檢測基于遷移學(xué)習(xí)和基于元學(xué)習(xí)的兩種經(jīng)典范式。根據(jù)不同方法的改進策略,將小樣本目標檢測分為基于注意力機制、圖卷積神經(jīng)網(wǎng)絡(luò)、度量學(xué)習(xí)和數(shù)據(jù)增強四種類型,對這些方法中使用到的公開數(shù)據(jù)集和評估指標進行了說明,對比分析了不同方法的優(yōu)缺點、適用場景以及在不同數(shù)據(jù)集上的性能表現(xiàn)。最后討論了小樣本目標檢測的實際應(yīng)用領(lǐng)域和未來的研究趨勢。TPSurveyofFew-ShotObjectDetection 1.SchoolofComputer,ElectronicsandInformation,GuangxiUniversity,Nanning530004,China2.ResearchCenterofInformationTechnology,BeijingAcademyofAgricultureandForestrySciences,Beijing100097,China3.NationalEngineeringResearchCenterforInformationTechnologyinAgriculture,Beijing100097,ChinaAbstract:Objectdetectionasahotfieldincomputervision,usuallyrequiresalargenumberoflabeledimagesformodeltraining,whichwillcostalotofmanpowerandmaterialresources.Atthesametime,duetotheinherentlong-taileddistributionofdataintherealworld,thenumberofsamplesofmostobjectsisrelativelysmall,suchasmanyuncommondiseases,etc.,anditisdifficulttoobtainalargenumberoflabeledimages.Inthisregard,few-shotobjectdetectiononlyneedstoprovideasmallamountofannotationinformationtodetectobjectsofinterest.Thispapermakesadetailedreviewoffew-shotobjectdetectionmethods.Firstly,thedevelopmentofgeneraltargetdetectionanditsexistingproblemsarereviewed,theconceptoffew-shotobjectdetectionisintroduced,andothertasksrelatedtofew-shotobjectdetectionaredifferentiatedandexplained.Then,twoclassicalparadigmsbasedontransferlearningandmeta-learningforexistingfew-shotobjectdetectionareintroduced.Accordingtotheimprovementstrategies基金項目:北京市科技計劃項目(Z191100004019007);云南省煙草公司科技計劃項目(2020530000241027)。ThisworkwassupportedbytheScienceandTechnologyProjectofBeijing(Z191100004019007),andtheTobaccoCompanyScienceandTechnologyProjectofYunnanProvince(2020530000241027).收稿日期:2022-06-06修回日期:2022-08-08劉春磊等:小樣本目標檢測研究綜述55即Cb?Cn=?。小樣本目標檢測方法的目標是通過在基類和新類數(shù)據(jù)集上訓(xùn)練得到一個模型,期待該模型可以檢測出任意給定測試圖像中的新類和基類標檢測定義如圖1所示。圖1小樣本目標檢測示意圖Fig.1Schematicdiagramoffew-shotobjectdetection小樣本目標檢測算法的訓(xùn)練過程一般分為兩個階段:第一階段使用大量的基類數(shù)據(jù)Dbase進行模型se基訓(xùn)練階段;第二階段使用由少量的基類數(shù)據(jù)Dbase和新類數(shù)據(jù)Dnovel組成的平衡數(shù)據(jù)集Dfinetune對基模型Mbase進行模型微調(diào),得到最終模型Mf,稱之為微調(diào)階段。整個訓(xùn)練過程如圖2所示。1.2小樣本目標檢測的相關(guān)領(lǐng)域研究在通用目標檢測的基礎(chǔ)上,有一些其他新穎的研究方向,這些研究方向與小樣本目標檢測有相似之處,容易造成混淆,本節(jié)對這些研究方向進行簡易的區(qū)分解釋。零樣本目標檢測[18]在算法模型的訓(xùn)練階段只使用可見類別,不可見類別的視覺信息不會被使用到,而用其語義等輔助信息參與訓(xùn)練,這些輔助信息正是零樣本目標檢測的研究重點。小樣本目標檢測可以使用少量的新類圖像作為視覺方面的信息,同時借鑒零樣本中不可見類別中輔助信息的使用;單例目標檢測[19]是小樣本目標檢測的一個特例,其中每個新類只有一個標注對象信息;任意樣本目標檢測[20]將零樣本或者小樣本的情況同時考慮,即一個算法模型既可以解決零樣本問題又可以處理小樣本問題。還有一些其他的研究在小樣本目標檢測的基礎(chǔ)上,新增加一些新的領(lǐng)域限定條件。為了避免災(zāi)難性遺忘,同時可以持續(xù)檢測不斷增加的新類別,提出了類增量小樣本目標檢測[21];半監(jiān)督小樣本目標檢測[22]在不增加新類標注的情況下,將基類數(shù)據(jù)的來源修改為有標注的圖像和沒有標注的圖像;弱監(jiān)督小樣本目標檢測[23]相對于小樣本目標檢測的區(qū)別在于其數(shù)據(jù)集中新類標注不是實例級的,而是由圖像級標注構(gòu)成的。圖2模型訓(xùn)練過程Fig.2Modeltrainingprocess圖2模型訓(xùn)練過程Fig.2Modeltrainingprocess圖3小樣本目標檢測及其相似任務(wù)的區(qū)別與聯(lián)系Fig.3Differencesandconnectionsbetweenfew-shotobjectdetectionanditssimilartasks2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索圖圖5元學(xué)習(xí)基線方法FSRW算法架構(gòu)圖加明確本綜述的研究范圍,本文對這些相似概念做了簡單的區(qū)分說明。同時,可以從這些領(lǐng)域?qū)ふ覇栴}解靈感,將其應(yīng)用到小樣本目標檢測方法。2小樣本目標檢測的兩類經(jīng)典范式目前的小樣本目標檢測方法可以概括為兩種范式,基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式。基于遷移學(xué)習(xí)的范式是將從已知類中學(xué)習(xí)到的知識遷移到未知類的檢測任務(wù)中?;谠獙W(xué)習(xí)的范式是利用元學(xué)習(xí)器從不同的任務(wù)中學(xué)習(xí)元知識,然后對包含有新類的任務(wù)通過元知識的調(diào)整完成對新類的檢測。本章將對這兩種范式的典型方法進行簡述。2.1基于遷移學(xué)習(xí)的范式兩階段微調(diào)方法(two-stagefine-tuningapproach,TFA)[24]是遷移學(xué)習(xí)范式的基線方法,基于FasterR-CNN算法進行改進。TFA認為FasterR-CNN主干網(wǎng)絡(luò)是類無關(guān)的,特征信息可以很自然地從基類遷移到新類上,僅僅只需要微調(diào)檢測器的最后一層(包含類別分類和邊界框回歸),就可以達到遠遠超過之前方法的性能表現(xiàn)。整個方法分為基訓(xùn)練和微調(diào)兩個階段,如圖4所示。在基訓(xùn)練階段,整個模型在有著大量標注的基類上訓(xùn)練;在微調(diào)階段,凍結(jié)網(wǎng)絡(luò)前期的參數(shù)權(quán)重,由基類和新類組成的平衡子集對頂層的分類器和回歸器進行微調(diào)。另外,TFA在微調(diào)階段的分類器上采用余弦相似性測量候選框和真實類別邊界框之間的相似性。由于小樣本中每個新類別的樣本量非常少,其高方差可能會導(dǎo)致檢測結(jié)果的不可靠,TFA通過抽樣多組訓(xùn)練樣本進行評估,并且在不同組進行多次實驗得到平均值。由于統(tǒng)計上的偏差,之前的評估標準無法完成不同算法的統(tǒng)一比較,TFA修改了原先的上建立了新的基準,檢測基類、新類和全部數(shù)據(jù)集上的性能表現(xiàn),提出了廣義小樣本目標檢測基準。2.2基于元學(xué)習(xí)的范式一張圖像中可能存在多個感興趣對象,在小樣本模型訓(xùn)練中只需要標注支持集中基類的邊界框即可,元學(xué)習(xí)范式有兩種標注方法,一種是將支持集裁剪為只包含目標實例的圖像,另一種是在表示圖像的RGB三通道外,再添加一個掩碼通道組成四通道,第四通道使用數(shù)字1標注出感興趣對象的邊界框,其etectionviafeaturereweighting)[28]是小樣本目標檢測基于元學(xué)習(xí)的基線方法,架構(gòu)圖如圖5,使用了上述第二種圖圖4遷移學(xué)習(xí)基線方法TFA算法架構(gòu)圖Fig.4ModelarchitecturediagramoftransferlearningbaselinemethodTFAFig.5Modelarchitecturediagramofmeta-learningbaselinemethodFSRW劉春磊等:小樣本目標檢測研究綜述57③元學(xué)習(xí)范式除了通用目標檢測模型外,還有一個需要獲得類別級元知識的元學(xué)習(xí)器,而遷移學(xué)習(xí)范式只需要在通用目標檢測模型上改進即可。③元學(xué)習(xí)范式除了通用目標檢測模型外,還有一個需要獲得類別級元知識的元學(xué)習(xí)器,而遷移學(xué)習(xí)范式只需要在通用目標檢測模型上改進即可。3小樣本目標檢測算法研究現(xiàn)狀上一章中,將小樣本目標檢測分為基于元學(xué)習(xí)和基于遷移學(xué)習(xí)兩種范式,在這兩種范式中,存在著一些共性的解決方法,依據(jù)這些方法改進策略的不同,將小樣本目標檢測分類為基于注意力機制、基于圖卷積神經(jīng)網(wǎng)絡(luò)、基于度量學(xué)習(xí)和基于數(shù)據(jù)增強四種實現(xiàn)方式,分類概況如圖6所示。在本章中,將對這些分類方法進行詳細分析和總結(jié)。jI像,Q表示查詢集圖像,I表示輸入圖像,M表示圖像的標注信息,可見,一個任務(wù)應(yīng)當(dāng)包含N個屬于不同類別的支持圖像和帶注釋的查詢圖像,每個支持集的類別需要包含K個邊界框,即一個任務(wù)的支持集N×K個標注對象,這也被稱為N-WayK-shot問題。RWYOLOv2[9]進行改進的,在一階段網(wǎng)絡(luò)中新增了元特征學(xué)習(xí)器和元學(xué)習(xí)器模塊,元特征學(xué)習(xí)器以查詢圖像為輸入,使用YOLOv2的骨干實現(xiàn),從有充足樣本的基類圖像中提取具有泛化性的元特征,用于之后檢測新類。元學(xué)習(xí)器模塊以支持集為輸入,將新類的某一類別實例轉(zhuǎn)換為一個全局向量,該向量用來檢測特定類別的對象實例。網(wǎng)絡(luò)的訓(xùn)練過程同樣分兩階段完成,首先使用基類數(shù)據(jù)訓(xùn)練連同元學(xué)習(xí)器模塊在內(nèi)的整個網(wǎng)絡(luò)模型,然后由少量標注的新類和基類組成的平衡數(shù)據(jù)集微調(diào)模型以適應(yīng)新類。2.3兩種范式的對比分析 (1)遷移學(xué)習(xí)和元學(xué)習(xí)的相同點:①兩種范式都是為了解決小樣本目標檢測任務(wù)而提出的,都希望通過少量的新類圖像就可以完成對新類別的檢測。②兩種范式的數(shù)據(jù)集都分為有大量標注的基類數(shù)據(jù)和只有少量標注的新類數(shù)據(jù)。Fig.6Classificationgraph3.1基于注意力機制對于小樣本目標檢測來說,難以從少量的新類樣本中準確學(xué)習(xí)到感興趣對象的特征信息,而通過注意力機制可以較為準確地找到圖像中的感興趣區(qū)域,目前已有一些關(guān)于注意力機制的研究[30],注意力機制可以看作一個動態(tài)選擇的過程,通過輸入的重要性對特征進行自適應(yīng)特征加權(quán)。本節(jié)將其分為通道注意力、空間注意力和Transformer自注意力方法。3.1.1通道注意力2018年Hu等[31]首次提出了使用SENet的通道注意力,如圖7所示,不同特征圖的不同通道可能代表著不同的對象,當(dāng)需要選擇什么對象時,通道注意力使用自適應(yīng)的方法重新校準每個通道的權(quán)重來關(guān)注該對象。別是基訓(xùn)練階段和微調(diào)階段,算法模型在基訓(xùn)練階段學(xué)習(xí)到基類數(shù)據(jù)具有泛化性的知識,然后在新類數(shù)據(jù)上對模型進行微調(diào),達到檢測新類的目的。④兩種范式的評價指標相同,不論是VOC數(shù)據(jù)評價指標都是相同的。 (2)遷移學(xué)習(xí)和元學(xué)習(xí)的不同點:①數(shù)據(jù)的輸入方式不同,元學(xué)習(xí)范式是以任務(wù) (episode)為輸入單元,每個任務(wù)由支持集圖像和查詢集圖像組成,目的是找到查詢集圖像中屬于支持集類別的目標對象,而遷移學(xué)習(xí)范式通常不需要分為支持集和查詢集兩部分。②元學(xué)習(xí)范式隨著支持集中類別數(shù)量的增加,內(nèi)存利用率會降低,而遷移學(xué)習(xí)范式不會隨著類別數(shù)量的增加而使內(nèi)存利用率降低。2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索Fig.7SEblock在遷移學(xué)習(xí)范式上,Zhang等[32]使用二階池化和冪正則化計算支持特征和查詢特征之間的互相關(guān)性,二階池化提取支持特征數(shù)據(jù)的二階統(tǒng)計,形成注意力調(diào)制圖,通過添加冪正則化可以減少二階池化帶來的可變性。Wu等[33]提出了FSOD-UP(universal-prototypeaugmentationforfew-shotobjectdetection)方法,使用了通用原型的知識,在條件性通用原型和候選框上施加通道注意力機制,提高了候選框的生成質(zhì)量,以此提高方法對新類的檢測性能。在元學(xué)習(xí)范式上,Yan等[34]針對一張圖像有多個目標的問題提出了MetaR-CNN方法,該方法不是對MetaR-CNN新增加了預(yù)測頭重塑網(wǎng)絡(luò)分支,該分支用有標注的支持圖像獲取每個類別的注意向量,對模型生成的感興趣區(qū)域特征應(yīng)用該向量進行通道注意力關(guān)注,以檢測出查詢圖像中與這些向量表示的類別相同的對象。Wu等[35]在Meta-RCNN中將由支持集得到的類原型與查詢集的特征圖通過類別注意力結(jié)合起來,獲得每個特定類的特征圖,然后將這些特征圖結(jié)合起來使用隨后的區(qū)域候選網(wǎng)絡(luò)和檢測頭Attention-RPN方法前期階段使用深度互相關(guān)注意力區(qū)域候選網(wǎng)絡(luò),通過通道注意力機制利用支持集和查詢集之間的關(guān)系提高候選框的生成質(zhì)量。Liu等[36]認為檢測中分類和定位子任務(wù)對特征嵌入的喜好不同,提出了AFD-Net(adaptivefully-dualnetwork)方法,分開處理分類和定位問題,對支持集分支使用注意力機制產(chǎn)生分類和回歸兩個通道注意力分支,之后將這兩個分支與查詢集的感興趣區(qū)域的分類和定位特征進行聚合處理,最終得到增強的特征表示。3.1.2空間注意力當(dāng)人們看到一張圖像時,他們總是會將視線聚焦于圖像中的某一區(qū)域,空間注意力受此啟發(fā),對特征圖上的每個位置進行注意力調(diào)整,可以自適應(yīng)地關(guān)注圖像中的某重點區(qū)域,這些重點區(qū)域往往是人們所感興趣的對象。Chen等[37]基于遷移學(xué)習(xí)范式提出了AttFDNet方法,將自底向上的空間注意力和自頂向下的通道注意力結(jié)合起來,自底向上注意力由顯著性注意(sa-liencyattentivemodel,SAM)模塊實現(xiàn),由于其類別無關(guān)性,能夠自然檢測圖像中的顯著區(qū)域。Yang等[38]為解決訓(xùn)練集數(shù)據(jù)多樣性少的問題,提出了CTNet方法,使用親和矩陣在不同尺度、位置和空間關(guān)系三方面識別每個候選框上下文字段的重要性,再用上下文聚合將這些關(guān)系與候選框聚合起來,利于新類別分類的同時,避免了大量的誤分類。Li等[39]提出了LSCN(low-shotclassificationcorrectionnetwork)方法,用從基類檢測器中得到的誤檢候選框作為方法校正網(wǎng)絡(luò)分支的輸入,使用空間注意力機制通過跨通道的任意兩個位置間的成對關(guān)系獲得全局感受野,通過捕捉整張圖像的信息,解決候選框復(fù)雜的對象外觀問題。Xu等[40]在FSSP(few-shotobjectdetec-tionviasampleprocessing)方法中使用了自我注意力模塊(self-attentionmodule,SAM),該空間注意力模塊可以突出顯示目標對象的物理特征而忽略其他的噪聲信息,更好地提取復(fù)雜樣本的特征信息。Agar-wal等[41]提出了AGCM(attentionguidedcosinemar-gin)方法解決小樣本下的災(zāi)難性遺忘和類別混淆問題,構(gòu)建了注意力候選框融合模塊,通過空間注意力關(guān)注不同候選框之間的相似性,用于減少類內(nèi)的方差,從而在檢測器的分類頭中創(chuàng)建類內(nèi)更加緊密、類間良好分離的特征簇?;谠獙W(xué)習(xí)范式,Chen等[42]為解決小樣本任務(wù)中的空間錯位和特征表示模糊問題,提出了包含跨圖像空間注意的DAnA(dual-awarenessattention)方法,通過跨圖像空間注意自適應(yīng)地將支持圖像轉(zhuǎn)化為查詢位置感知向量,通過測量該感知向量和查詢區(qū)域的相關(guān)性,確定查詢區(qū)域是否為想要的目標對象。MetaFasterR-CNN[43]將檢測頭分為基類檢測和新類檢測兩種,基類檢測沿用原有的FasterR-CNN部分,新類檢測頭提出了Meta-Classifier模塊,使用注意力機制進行特征對齊,解決空間錯位問題,在查詢圖像的候選框特征和支持集類原型的每個空間位置通過親和矩陣計算對應(yīng)關(guān)系,基于對應(yīng)關(guān)系,獲得想要的前景對象。Quan等[44]認為在支持集中使用互相關(guān)技術(shù)會給查詢特征引入噪聲,提出了CAReD(crossattentionredistribution)方法,專注挖掘有助于候選框生成的支持特征,去除有害的支持噪聲。不再對支持集特征作平均處理,而是通過空間注意力計算同劉春磊等:小樣本目標檢測研究綜述59一類別不同實例之間的相關(guān)性,對每個支持特征重加權(quán),從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強化了特定尺度物體的線索,可以提高小目標的SODkernelizedfew-shotobjectdetector)方法,針對PNSD(powernor-malizingsecond-orderdetector)中核化仍然是線性相關(guān)的問題,使用核化自相關(guān)單元從支持圖像中提取特征形成線性、多項式和RBF(radialbasisfunction)核化表示。然后將這些特征表示與查詢圖像的特征進行交叉相關(guān)以獲得注意力權(quán)重,并通過注意力區(qū)域提議網(wǎng)絡(luò)生成查詢提議區(qū)域。3.1.3Transformer自注意力機制Transformer注意力機制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR成功地將其應(yīng)用到目標檢測領(lǐng)域,將檢測問題看作集合預(yù)測問題。其中的核心內(nèi)容是多頭注意力機制,其將模型分為多個頭,形成多個特征子空間,可以讓模型關(guān)注圖像不同方面的信息,通過圖像的內(nèi)在關(guān)系來獲取圖像中重要的中提取支持類原型,解碼分支將帶有支持類原型的查詢特征聚合為特定類的特征,然后應(yīng)用與類別無關(guān)的Transformer解碼器預(yù)測該支持類的檢測結(jié)果。Hu等[49]提出了DCNet方法,提出稠密關(guān)系蒸餾解決外觀改變和遮擋問題,稠密關(guān)系蒸餾模塊通過編碼器將支持集和查詢集提取出的特征信息編碼成原生Transformer注意力機制關(guān)注查詢集和支持集之間的像素級關(guān)系,用以增強查詢集的特征表示。APSPNet (attendingtoper-sample-prototypenetworks)[50]在經(jīng)典的元學(xué)習(xí)方法Attention-RPN和FsDetView(few-shot一類別不同實例之間的相關(guān)性,對每個支持特征重加權(quán),從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強化了特定尺度物體的線索,可以提高小目標的SODkernelizedfew-shotobjectdetector)方法,針對PNSD(powernor-malizingsecond-orderdetector)中核化仍然是線性相關(guān)的問題,使用核化自相關(guān)單元從支持圖像中提取特征形成線性、多項式和RBF(radialbasisfunction)核化表示。然后將這些特征表示與查詢圖像的特征進行交叉相關(guān)以獲得注意力權(quán)重,并通過注意力區(qū)域提議網(wǎng)絡(luò)生成查詢提議區(qū)域。3.1.3Transformer自注意力機制Transformer注意力機制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR成功地將其應(yīng)用到目標檢測領(lǐng)域,將檢測問題看作集合預(yù)測問題。其中的核心內(nèi)容是多頭注意力機制,其將模型分為多個頭,形成多個特征子空間,可以讓模型關(guān)注圖像不同方面的信息,通過圖像的內(nèi)在關(guān)系來獲取圖像中重要的用來聚合兩分支的關(guān)鍵信息,用聚合到的關(guān)鍵信息Cross-Transformer的感興趣區(qū)特征提取器,兩分支聯(lián)合提取查詢建議框和支持圖像感興趣區(qū),進行多級交互處理。圖8多頭注意力模塊Fig.8Multi-headattentionblockZhang等[48]借鑒DETR的思想,提出了Meta-DETR方法,去除了在小樣本中表現(xiàn)不佳的候選框預(yù)測,改為直接的端到端檢測。Meta-DETR由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分圖8多頭注意力模塊Fig.8Multi-headattentionblockZhang等[48]借鑒DETR的思想,提出了Meta-DETR方法,去除了在小樣本中表現(xiàn)不佳的候選框預(yù)測,改為直接的端到端檢測。Meta-DETR由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分支以查詢圖像為輸入,通過特征提取器和Transformer編碼器生成其查詢特征,支持編碼分支從支持圖像3.2基于圖卷積神經(jīng)網(wǎng)絡(luò)小樣本條件下的新類樣本數(shù)量少,可以通過深入挖掘不同類別之間的內(nèi)在關(guān)系來實現(xiàn)對新類的檢測,卷積神經(jīng)網(wǎng)絡(luò)存在平移不變性,即一張圖像可以2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索共享卷積算子的參數(shù),圖結(jié)構(gòu)則沒有這種平移不變性,每一個圖節(jié)點的周圍結(jié)構(gòu)都可能是不同的,因此,圖可以處理實體之間的復(fù)雜關(guān)系。圖由節(jié)點和邊組成,每個節(jié)點都有自己的特征,節(jié)點與節(jié)點之間通過邊進行關(guān)聯(lián),圖卷積就是利用節(jié)點間的邊關(guān)系示。Kim等[53]認為圖像中各種物體的存在有所關(guān)聯(lián),比如一張圖像中某個對象周圍有鍵盤和顯示器,那它更可能是鼠標而不是球,基于此提出了基于遷移學(xué)習(xí)范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通過圖卷積技術(shù)考慮圖像中對象共享卷積算子的參數(shù),圖結(jié)構(gòu)則沒有這種平移不變性,每一個圖節(jié)點的周圍結(jié)構(gòu)都可能是不同的,因此,圖可以處理實體之間的復(fù)雜關(guān)系。圖由節(jié)點和邊組成,每個節(jié)點都有自己的特征,節(jié)點與節(jié)點之間通過邊進行關(guān)聯(lián),圖卷積就是利用節(jié)點間的邊關(guān)系示。Kim等[53]認為圖像中各種物體的存在有所關(guān)聯(lián),比如一張圖像中某個對象周圍有鍵盤和顯示器,那它更可能是鼠標而不是球,基于此提出了基于遷移學(xué)習(xí)范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通過圖卷積技術(shù)考慮圖像中對象間的全局上下文關(guān)系,而不僅是通過單個感興趣區(qū)域特征預(yù)測新類,將感興趣區(qū)域特征作為圖節(jié)點,邊的構(gòu)成由感興趣區(qū)域特征表示的視覺信息和幾何坐標信息兩者結(jié)合得到,如圖9所示。Zhu等[54]提出SRR-FSD(semanticrelationreasoningforfew-shotobjectdetection)方法,利用基類與新類之間存在的恒定語義關(guān)系,由所有的詞嵌入特征組成嵌入語義空間,應(yīng)用圖卷積進行顯式關(guān)系推理,將從大量文本中學(xué)習(xí)到的語義信息嵌入到每個類概念中,并與分類的視覺特征進行結(jié)合。綜上所述,基于圖卷積神經(jīng)網(wǎng)絡(luò)的小樣本目標檢測方法大多選擇將候選框作為圖的節(jié)點,通過圖卷積來自動推理不同候選框之間的關(guān)系,以此學(xué)習(xí)到新類同基類間的內(nèi)在聯(lián)系,達到對新類對象的檢測。但是當(dāng)圖節(jié)點過多時,節(jié)點之間的邊關(guān)系也會變得異常復(fù)雜,可能會面臨模型過擬合的問題。同時,新類的樣本量較少也可能導(dǎo)致模型在新類檢測上產(chǎn)生過擬合現(xiàn)象。3.3基于度量學(xué)習(xí)通過度量基類和小樣本的新類之間的相似性,使得不同類別彼此遠離,相同類別之間靠近,可以很好地區(qū)分出新類數(shù)據(jù)。度量學(xué)習(xí)又可分為改進度量損失函數(shù)、原型學(xué)習(xí)和對比學(xué)習(xí)。度量損失函數(shù)在不同類別之間設(shè)計距離公式;原型學(xué)習(xí)為每個類別生成線性分類器,衡量類別與原型之間的距離;對比學(xué)習(xí)是將目標圖像與某幾個圖像對比進行檢測。3.3.1改進度量損失函數(shù)圖9FSOD-SR架構(gòu)圖Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用圖卷積技術(shù)對查詢圖像感興趣區(qū)的特征向量進行特征增強。圖的頂點為每個類的原型,圖的邊關(guān)系使用類別之間的文本相似性度量(由GloVe[56]計算),通過圖卷積神經(jīng)網(wǎng)絡(luò)使這些類原型間產(chǎn)生關(guān)聯(lián),然后通過增強后的原型對查詢圖像的感興趣區(qū)域特征進行度量,檢測出與該原型一致的類圖9FSOD-SR架構(gòu)圖Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用圖卷積技術(shù)對查詢圖像感興趣區(qū)的特征向量進行特征增強。圖的頂點為每個類的原型,圖的邊關(guān)系使用類別之間的文本相似性度量(由GloVe[56]計算),通過圖卷積神經(jīng)網(wǎng)絡(luò)使這些類原型間產(chǎn)生關(guān)聯(lián),然后通過增強后的原型對查詢圖像的感興趣區(qū)域特征進行度量,檢測出與該原型一致的類orFSOD (dynamicrelevancelearningforfew-shotobjectdetec- tion)方法,考慮到不同類之間存在著聯(lián)系,將支持集可能地區(qū)分開。劉春磊等:小樣本目標檢測研究綜述61在元學(xué)習(xí)范式上,Karlinsky等[61]在RepMet(rep-resentative-basedmetriclearning)方法中提出一個距離度量學(xué)習(xí)(distancemetriclearning,DML)模塊,代替了FasterR-CNN中的檢測頭,假定特征嵌入空間中每個類有K個模型,DML計算感興趣區(qū)域在每個類別中每個模型的概率,新增加了嵌入損失函數(shù),減小嵌入向量E和最接近表征的距離,擴大嵌入向量E和一個錯誤類的最接近表征的距離。Li等[62]為了減輕新類的特征表示和分類之間存在的矛盾,提出了CME(classmarginequilibrium)方法。為了準確實現(xiàn)新類的類別分類,任意兩個基類應(yīng)該彼此遠離,為了準確表示新類特征,基類的分布應(yīng)該彼此接近。CME首先通過解耦定位分支將檢測轉(zhuǎn)換為分類問題,在特征學(xué)習(xí)過程中,通過類邊際損失為新類保留充足的邊界距離,在追求類邊界平衡中保證新類的檢測性能。Zhang等[63]提出了PNPDet(plug-and-playdetector)方法,將基類和新類檢測分開,防止在學(xué)習(xí)新概念的時候影響基類的檢測性能,以CenterNet[64]為基礎(chǔ)架構(gòu),新增了一個用于新類別檢測的熱圖預(yù)測并行分支,將最后一層熱圖子網(wǎng)絡(luò)替換為余弦相似對比頭和自適應(yīng)余弦相似對比頭,將距離度量學(xué)習(xí)的損失函數(shù)引入類別預(yù)測中,極大提升了新類的檢測性能。彭豪等[45]在隱藏層的特征空間上應(yīng)用正交損失函數(shù),使得模型在分類過程中保持不同類別彼此分離,相同類別彼此聚合。3.3.2對比學(xué)習(xí)對比學(xué)習(xí)是將目標圖像與某幾個圖像進行對比檢測,在最小化類內(nèi)距離的同時最大化類間距離,提高相同或相似類之間的緊湊性和加大不同類之間的差異性,可以有效提高邊界框的分類精度。在遷移學(xué)習(xí)范式上,Sun等[65]在原有分類和定位分支外,新增加一個對比分支,通過對比候選框編碼損失函數(shù),利用余弦相似性函數(shù)度量感興趣區(qū)域特征和特定類權(quán)重的語義相似性。在元學(xué)習(xí)范式上,F(xiàn)an等[29]在Attention-RPN方法中采用了三元組對比訓(xùn)練策略,即一張支持集圖像與查詢集相同類別的一個正例和不同類別的一個負InfoNCE[66]的啟發(fā)下,將無監(jiān)督的對比學(xué)習(xí)轉(zhuǎn)換為有監(jiān)督的對比學(xué)習(xí),對支持和查詢兩分支的最終特征施加對比學(xué)習(xí)策略。3.3.3原型學(xué)習(xí)框,Pc代表類別c的原型,原型代表每個類別的總體特征表示,可以通過衡量某個未知類別與原型間的距離對未知類進行分類?;谶w移學(xué)習(xí)范式,Qiao等[67]提出了一個解耦的通過在分類分支中使用原型校準模塊解決多任務(wù)的耦合。使用一個離線的原型與感興趣區(qū)特征計算相似度,然后用得到的相似度微調(diào)模型進行類別預(yù)測,可以分類出與原型相似的感興趣區(qū)域特征。Wu等[33]提出了通用原型的方法FSOD-UP,通用原型是在所有的對象類別中學(xué)習(xí)的,而不是某一個特定類。不同類別間存在著內(nèi)在不變的特征,可以利用這點來增強新類對象特征。基于元學(xué)習(xí)范式,Li等[68]提出了基于元學(xué)習(xí)和度量學(xué)習(xí)的MM-FSOD(metaandmetricintegratedfew-shotobjectdetection)方法,將元學(xué)習(xí)訓(xùn)練方法從分類轉(zhuǎn)移到特征重構(gòu)。新的元表示方法對類內(nèi)平均原型進行分類,區(qū)分不同類別的聚類中心,然后重建低級特征。Han等[43]針對候選框生成提出了MetaFasterR-CNN方法,采用基于輕量化度量學(xué)習(xí)的原型匹配網(wǎng)絡(luò)。MetaFasterR-CNN中Meta-RPN是一個錨框級輕量化粗粒度原型匹配網(wǎng)絡(luò),Meta-Classifier是一個像素級細粒度原型匹配網(wǎng)絡(luò),整個檢測網(wǎng)絡(luò)是從粗粒度到細粒度優(yōu)化的過程,用來產(chǎn)生特定新類的候選框??紤]到FSRW[28]方法只是簡單地平均支持樣本信息生成每個類別的原型,這樣的做法泛化性較差,APSPNet[50]將每個支持樣本看作一個原型,稱之為逐樣本原型,這樣可以更好地將不同的支持信息與查詢圖像結(jié)合。綜上所述,度量學(xué)習(xí)主要通過令相同類別之間彼此靠近、不同類別之間彼此遠離來完成。其思路簡單好用,被大量應(yīng)用到小樣本目標檢測中,但度量學(xué)習(xí)過于依賴于采樣的策略,如果采集的樣本過于復(fù)雜,可能會發(fā)生不收斂、過擬合的問題;如果采集的樣本過于簡單,又可能不會學(xué)習(xí)對類別檢測有用的信息。3.4基于數(shù)據(jù)增強小樣本的核心問題是其數(shù)據(jù)量少,最簡單直接的想法就是擴充數(shù)據(jù)樣本。郭永坤等[69]就圖像在空頻域上的圖像增強方法作了研究綜述,數(shù)據(jù)增強技術(shù)可以通過直接增加訓(xùn)練的圖像數(shù)量或者間接對特征進2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索加模型能夠處理的圖像信息,減少模型的過擬合。3.4.1多特征融合在遷移學(xué)習(xí)范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到細節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡(luò)生成候選框,經(jīng)過相似網(wǎng)絡(luò)的全局、局部和塊狀關(guān)系頭三種關(guān)系進行分類和定位。Vu等[70]對通過主干網(wǎng)絡(luò)得到的特征圖使用了多感受野的嬰兒學(xué)習(xí),使用多感受野可以得到該對象的更多空間信息,通過微調(diào)多感受野模塊有效地將先驗空間知識轉(zhuǎn)移到新域。法,將查詢圖像的候選框和支持集特征進行三種方式特征融合,三種融合方式分別是通道連接、簡單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關(guān)系。Fan等[29]在提出的Attention-RPN方法中使用了多關(guān)系檢測器,通過支持集的候選框和查詢集感興趣區(qū)域特征進行全局、局部和塊狀的關(guān)系結(jié)合,避免了背景中的錯檢。Hu等[49]認為當(dāng)對象發(fā)生遮擋時,局部的細節(jié)信息往往起絕對性作用,提出了DCNet方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠好于單一池化的效果。彭豪等[45]對感興趣區(qū)域分別施加最大池化和平均池化技術(shù),進行多種特征融合,可以提升模型對新類參數(shù)的敏感度。3.4.2增加樣本數(shù)量的方法在遷移學(xué)習(xí)范式上,Wu等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scalepositivesamplerefinement)方法,將對象金字塔作為一個輔助分支加加模型能夠處理的圖像信息,減少模型的過擬合。3.4.1多特征融合在遷移學(xué)習(xí)范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到細節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡(luò)生成候選框,經(jīng)過相似網(wǎng)絡(luò)的全局、局部和塊狀關(guān)系頭三種關(guān)系進行分類和定位。Vu等[70]對通過主干網(wǎng)絡(luò)得到的特征圖使用了多感受野的嬰兒學(xué)習(xí),使用多感受野可以得到該對象的更多空間信息,通過微調(diào)多感受野模塊有效地將先驗空間知識轉(zhuǎn)移到新域。法,將查詢圖像的候選框和支持集特征進行三種方式特征融合,三種融合方式分別是通道連接、簡單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關(guān)系。Fan等[29]在提出的Attention-RPN方法中使用了多關(guān)系檢測器,通過支持集的候選框和查詢集感興趣區(qū)域特征進行全局、局部和塊狀的關(guān)系結(jié)合,避免了背景中的錯檢。Hu等[49]認為當(dāng)對象發(fā)生遮擋時,局部的細節(jié)信息往往起絕對性作用,提出了DCNet方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠好于單一池化的效果。彭豪等[45]對感興趣區(qū)域分別施加最大池化和平均池化技術(shù),進行多種特征融合,可以提升模型對新類參數(shù)的敏感度。3.4.2增加樣本數(shù)量的方法在遷移學(xué)習(xí)范式上,Wu等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scalepositivesamplerefinement)方法,將對象金字塔作為一個輔助分支加turepyramidnetworks,F(xiàn)PN),手動地將處理過的不同尺度對象方形框與FPN的不同級別進行對應(yīng),使模型捕捉到不同尺度的對象。為解決訓(xùn)練數(shù)據(jù)變化的缺乏,Zhang等[73]在感興趣區(qū)域特征空間上通過幻覺網(wǎng)絡(luò)(hallucination)產(chǎn)生額外的訓(xùn)練樣本,將從基類中學(xué)習(xí)到的類內(nèi)樣本變化轉(zhuǎn)移到新類上。Kim等[53]為了不破壞圖像中的空間關(guān)系,選擇在圖像中隨機調(diào)整每個對象的尺寸若干次,這樣既增加了感興趣認為具有不同交并比(intersectionoverunion,IoU)分圖10多尺度正樣本特征提取Fig.10Multi-scalepositivesamplefeatureextraction在元學(xué)習(xí)范式上,Yang等[77]以RepMet為基礎(chǔ),提出了NP-RepMet方法,將其他方法丟棄的負樣本納入模型訓(xùn)練中,可以得到更加魯棒的嵌入空間。Li等[22]除了使用簡單的數(shù)據(jù)增強技術(shù)外,還將變換不變性(transformationinvariantprinciple,TIP)引入到小樣本檢測中。具體地,在查詢分支上,用從查詢變換圖像中得到的候選框檢測原始查詢圖像對象邊界框,在支持分支上,在原始支持圖像和支持變換圖像理。Zhang等[78]認為不應(yīng)該對支持樣本只進行簡單劉春磊等:小樣本目標檢測研究綜述63的平均操作,提出了SQMG(support-querymutualguidance)方法。在基訓(xùn)練階段,支持引導(dǎo)的查詢增強通過核生成器對查詢特征進行增強,通過支持查詢相互引導(dǎo)模塊生成更多與支持相關(guān)的候選框。另外,候選框和聚合支持特征之間進行多種特征比較,得到更高質(zhì)量的候選框。3.4.3增加候選框數(shù)量的方法基于遷移學(xué)習(xí)范式,Zhang等[79]提出了同時使用多個區(qū)域候選網(wǎng)絡(luò)結(jié)構(gòu)的CoRPNs方法,用以解決因為樣本少而產(chǎn)生較少的候選框的問題,如果某一個區(qū)域候選網(wǎng)絡(luò)遺漏了具有高IoU值的候選框,那么其他的區(qū)域候選網(wǎng)絡(luò)能夠檢出該候選框。在模型訓(xùn)練時,只有最確定的那個區(qū)域候選網(wǎng)絡(luò)模塊才能獲得梯度,在測試時,也只從最確定的那個區(qū)域候選網(wǎng)絡(luò)中獲取候選框。為了解決模型不遺忘的問題,F(xiàn)an等[80]提出了基于元學(xué)習(xí)范式的RetentiveR-CNN模型,新增了Bias-BalancedRPN和Re-Detector模塊。區(qū)域候選網(wǎng)絡(luò)不是完全的類無關(guān)的,而更偏向于可見類別的檢測,因此,基類檢測器不能很好檢測出新類,產(chǎn)生了很多誤報。在Bias-BalancedRPN中引入了新的分支,同時檢測新類和基類對象,原有的檢測頭只用來檢測基同時檢測基類和新類,在兩個分支基類檢測上施加一致性損失可以更好地完成檢測。綜上所述,可以直接或間接的多種方式完成對新類別數(shù)據(jù)樣本的擴充,增加新類別樣本數(shù)據(jù)的方法是最直接有效的解決類別樣本數(shù)量不足的方法,同時也能帶來更加豐富的樣本特征,減少模型過擬合的產(chǎn)生,但如果使用了過多的數(shù)據(jù)增強策略,可能4算法數(shù)據(jù)集、評估指標和性能分析PascalVOCMSCOCO和FSOD[29]數(shù)據(jù)集,在個tImageNet-Loc[82]等。數(shù)據(jù)集的概況如表1所示。4.1小樣本目標檢測公開數(shù)據(jù)集介紹4.1.1PascalVOC數(shù)據(jù)集小樣本目標檢測實驗使用的PascalVOC數(shù)據(jù)集由PascalVOC2007[25]和PascalVOC2012[83]共同組成,CVOC12的train和val集合數(shù)據(jù)用模型訓(xùn)練,VOC07的test集合數(shù)據(jù)用于模型測試。VOC數(shù)據(jù)集一共有類作為基類,為了盡量減少由隨機性帶來的影響,分成多組不同的數(shù)據(jù)進行訓(xùn)練,常見的做法是分為3組類別均不同,關(guān)于3組劃分的具體細節(jié)如下:分組1類的對象都應(yīng)當(dāng)有K個標注邊界框,VOC數(shù)據(jù)集中K少,其選擇會非常影響模型的性能表現(xiàn),采用多次實驗來消除隨機性的影響,TFA提出通過30次重復(fù)實驗并取平均值得到公平的實驗結(jié)果,之后的一些論文提出只進行10次實驗也可以公平比較實驗結(jié)果。4.1.2MicrosoftCOCO數(shù)據(jù)集COCO2014[26]數(shù)據(jù)集相比VOC數(shù)據(jù)集有更多的數(shù)據(jù)集的train和val集合中選取5000張圖像用作測試數(shù)據(jù)集,其余的圖像用于訓(xùn)練階段。選取COCO數(shù)據(jù)集中與VOC重疊的20個類別作為新類,剩余的一個類別選擇10個或者30個目標樣本用來訓(xùn)練。4.1.3FSOD數(shù)據(jù)集FSOD數(shù)據(jù)集[29]是專門針對小樣本目標檢測而設(shè)計的數(shù)據(jù)集,對于小樣本目標檢測任務(wù)來說,類別數(shù)量越多檢測效果越好。FSOD數(shù)據(jù)集的類別數(shù)很90%類別的圖像數(shù)量在22~108張之間,即使最常見表1小樣本目標檢測常用數(shù)據(jù)集及其劃分方式Table1Typicaldatasetsforfew-shotobjectdetectionandtheirdivisions數(shù)據(jù)集圖像數(shù)量類別劃分新類樣本數(shù)量K備注VOC07+VOC1221503基類15/新類5類別劃分隨機3組COCO14123287基類60/新類2020個新類類別與VOC重合FSOD660005—2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為負例的實例數(shù)。小樣本目標檢測的評估指標和通用目標檢測有一些細微的差別,VOC數(shù)據(jù)集根據(jù)所選新類類別的不同分為3組實驗,在每組中,新類樣本數(shù)量K的取AP值(novelAP,nAP)即可,一些算法也會關(guān)注模型體現(xiàn)在基類上的不遺忘特性,測試所得模型在基類的性能,指標為bAP(baseAP),這里所提到的AP值都是在交并比值為0.5的mAP值。在COCO數(shù)據(jù)集中,新類樣本數(shù)量K的取值為10和30,模型會檢測在新類數(shù)據(jù)集上的不同IoU閾值、不同對象尺度的AP值以及不同的AR值。采用COCO風(fēng)格的評價指標,具體指標項有mAP、AP50、P APm和APl表示在不同的標注邊界框面積的指標,APs是面積小于32像素×32像素,APm是面積在32像素×32像素到96像素×96像素之間,APl是面積大×96像素。AR有AR1、AR10和AR100 (AR1是指每張圖片中,在給定1個檢測結(jié)果中的指標,其他同理)。由于隨機性的影響,以上檢測值都會通過多次實驗取平均值當(dāng)作最后的結(jié)果。一般地,VOC的重復(fù)實驗次數(shù)為10次或者30次,COCO數(shù)據(jù)集的重復(fù)次數(shù)為10次。另外,F(xiàn)SOD數(shù)據(jù)集中K的取值常為跨數(shù)據(jù)集問題:從COCO到VOC,使用VOC和COCO重合的20個類別作為新類,使用COCO中剩余的60類作為基類數(shù)據(jù),K的取值為10,具體評估指標項為mAP。4.3算法性能分析表2根據(jù)不同的改進策略,對現(xiàn)有方法分類的機制、優(yōu)勢、局限性和適用場景這四方面進行了詳細比VOC、COCO和FSOD數(shù)據(jù)集上對各個方法進行性能評估,而像iNaturaList、ImageNet-LOC等數(shù)據(jù)集由于被使用次數(shù)較少,說服力差,不具有可比性,故不做性能對比分析,具體結(jié)果可見表3~表7,表中加粗為最優(yōu)性能結(jié)果,下劃線為次優(yōu)性能結(jié)果。多。FSOD數(shù)據(jù)集包含大約66000張圖像和1820001類來自ImageNet數(shù)據(jù)集,有469類來自O(shè)penImage數(shù)據(jù)集。此外,F(xiàn)SOD數(shù)據(jù)集還合并了有相同語義的類別,移除了標注質(zhì)量差的數(shù)據(jù)。4.1.4其他數(shù)據(jù)集中使用,固定地使用500個隨機的任務(wù),每個類別的iNatureList數(shù)據(jù)集[81]是一個長尾分布的物種數(shù)據(jù)集,包含2854個類別,可以檢測在所有類上的AP指標(具體有AP、AP50和AP75)和AR指標(AR1和AR10)。LVIS據(jù)集[27]在TFA中有被使用,其有著天然的長尾分布,整個數(shù)據(jù)集的類別分布為類別圖像數(shù)量小于10個的稀有類、圖像數(shù)量為10~100的普通類和圖像數(shù)量大于100的頻繁類。將頻繁類和普通類看作基類,稀有類看作新類進行訓(xùn)練。在模型的微調(diào)階段,手動創(chuàng)建一個平衡的數(shù)據(jù)子集,其中每個類別擁有10個實例。Zhu等[54]提出了一個更加現(xiàn)實的FSOD數(shù)據(jù)集基準,即刪除預(yù)訓(xùn)練分類模型中有關(guān)的新類圖像的隱式樣本(implicitshot)。在CoRPNs[79]中,也提到了移除預(yù)訓(xùn)練數(shù)據(jù)集中有關(guān)的基類和新類數(shù)據(jù),包含275ng可能會使預(yù)訓(xùn)練模型得不到最優(yōu)解。因此,只刪除對應(yīng)VOC數(shù)據(jù)集中新類的數(shù)據(jù)即可,對于COCO數(shù)據(jù)集,它的新類類別是很常見的,應(yīng)該按照長尾分布,選取樣本量少的作為新類。4.2評估指標通用目標檢測方法常用的評估指標有平均準確率(averageprecision,AP)[85]和平均召回率(averageAP表示檢測所得正樣本數(shù)占所有檢測樣本的比式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為正例的實例數(shù)。AP表示類別的平均eanaverageprecisionAP值,是多個目標類別的檢測精度,即將每個類別的AP值取平均得到mAP值。AR表示檢測所得正樣本數(shù)占所有正樣本的比劉春磊等:小樣本目標檢測研究綜述65表2小樣本目標檢測方法優(yōu)缺點對比Table2Comparisonofadvantagesanddisadvantagesoffew-shotobjectdetectionmethods分類機制代表方法優(yōu)勢局限性適用場景通道注意力注意力空間注意力機制意力Transformer顯著區(qū)域,可以將其的過程,通過輸入的自適應(yīng)特征加權(quán)MetaR-CNN可以關(guān)注到模型中更為重要的特征通道捉不到感興趣對象可以處理一些有著背景復(fù)雜的圖像CTNet可以有效地找到圖像中的顯著區(qū)域,提取其中的重要特征只可以定位到感興趣區(qū)的大致位置,不能精確地進行特征提取FCT通過圖像中內(nèi)部的信息進行注意力的交互,減少外部模塊的干涉模型結(jié)構(gòu)較為復(fù)雜,訓(xùn)練時圖卷積神經(jīng)網(wǎng)絡(luò)圖卷積利用節(jié)點間的邊關(guān)系對節(jié)點信息進行推理更新,從而增強節(jié)點的特征表示FSOD-SR可以深入挖掘不同類別之間的復(fù)雜關(guān)系當(dāng)圖節(jié)點多時,圖網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,不利于計算適用于處理檢測類別之間具有較強邏輯相關(guān)性的情況度量學(xué)習(xí)原型學(xué)習(xí)對比學(xué)習(xí)改進損失函數(shù)類之間的相似性,使離,相同或相似類別之間靠近CME可以學(xué)習(xí)到類別的類信息,通過類信息檢測該類對像只采用原型學(xué)習(xí)的話,在樣本量少的情況下,容易發(fā)生類別混淆方便對圖像的不同目標的情況進行比較FSCE學(xué)習(xí)到的信息都是和當(dāng)前目標對象相關(guān)的內(nèi)容,相當(dāng)于間接的數(shù)據(jù)增強在對比樣本的選取中,可能會引入一些噪音信息MM-FSOD損失計算簡單,可操作性強不具備可學(xué)習(xí)性,泛化性差一些數(shù)據(jù)增強多特征融合增加樣本數(shù)量增加候選框數(shù)量擴充,對模型改動較小FsDetView可以聚合不同類型的特征信息,使得特征信息更豐富多特征融合會增加模型的復(fù)雜度數(shù)據(jù)量極少的情況MPSR最直接的增加樣本數(shù)據(jù)方法增加新的樣本數(shù)據(jù),可能會引入噪聲數(shù)據(jù)RetentiveR-CNN間接地通過增加候選框來達到增加樣本數(shù)量的目的可能會生成過多的候選框,容易引起混淆5小樣本目標檢測在各領(lǐng)域的應(yīng)用研究小樣本目標檢測算法由于只需要少量的新類標5小樣本目標檢測在各領(lǐng)域的應(yīng)用研究小樣本目標檢測算法由于只需要少量的新類標注就可以完成對目標類別的檢測,目前在自動駕駛、遙感圖像檢測、農(nóng)業(yè)病蟲害檢測等領(lǐng)域都有應(yīng)用。自動駕駛自動駕駛是目前計算機視覺應(yīng)用較為成功的一個領(lǐng)域,車輛行駛會面臨非常多的場景,遇見各種各樣的類別,不可能對全部的類別收集到大量標注的圖像,自動駕駛需要確保駕駛的絕對安全,在很短的時間里做出反應(yīng),這些特性通用目標檢測都無法滿TFA方法和FSRW方法在該數(shù)據(jù)集上的性能表現(xiàn);Agarwal等[41]提出了AGCM方法,有助于在檢測器的分類頭中創(chuàng)建更加緊密且良好分離的特征簇,在IDD自動駕駛數(shù)據(jù)集上取得了當(dāng)時的最好效果。5.2遙感目標檢測元學(xué)習(xí)范式在檢測性能上并沒有太大的差異,由前述對兩種范式的分析可選擇適合的范式進行改進增強。(2)隨著shot數(shù)的增多,檢測性能有較大的提升,說明圖像信息越多,學(xué)習(xí)到的特征信息越充分,樣本數(shù)據(jù)增強可能是小樣本問題解決的關(guān)鍵,最新的方法Pseudo-Labelling[74]和CFA-DeFRCN[76]都在探索數(shù)據(jù)增強的方法,也說明了數(shù)據(jù)增強的重要性。(3)在不同的數(shù)據(jù)集上檢測結(jié)果也不相同,VOC的檢測結(jié)果總體要大于COCO的檢測結(jié)果,在VOC和COCO數(shù)據(jù)集上表現(xiàn)最好的都是基于遷移學(xué)習(xí)范式的CFA-學(xué)習(xí)DeFRCN方法使用,得到了最優(yōu)秀的檢測結(jié)果。可見使用較為簡單直接的技術(shù)方法可以成功減少模型過擬合的程度,從而達到較優(yōu)的效果。(4)其他的使用注意力機制方法的Meta-DETR和AFD-Net以及另外一個常見的應(yīng)用領(lǐng)域是遙感目標檢測,遙使用數(shù)據(jù)增強的另外一個常見的應(yīng)用領(lǐng)域是遙感目標檢測,遙2023,17(1)計算機科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計算機科學(xué)與探索表3遷移學(xué)習(xí)方法在VOC數(shù)據(jù)集上的mAP對比Table3mAPcomparisonoftransferlearningmethodsonVOCdataset方法名稱骨干網(wǎng)絡(luò)NovelSet1123510NovelSet21235101NovelSet323510TFAw/cosFRCNR-10139.836.144.755.056.023.526.930.834.842.849.549.8AttFDNetSSDVGG-1629.634.935.1——16.020.722.1——22.629.132.0——MPSRFRCNR-10141.7—51.455.261.824.4—39.239.947.835.6—42.348.049.7CoRPNsFRCNR-10144.438.546.454.155.725.729.537.336.241.335.841.844.651.649.6Halluc.(CoRPN)FRCNR-10147.044.946.554.754.726.331.837.437.441.240.442.143.351.449.6RetentiveR-CNNFRCNR-10142.445.845.953.756.121.727.835.237.040.330.237.643.049.750.1FSSPYOLOv3-SPP41.6—49.154.256.530.5—39.541.445.136.7—45.349.451.3FSOD-UPFRCNR-10143.847.850.355.461.731.230.535.539.743.950.653.5SVD(FSCE)FRCNR-10146.143.548.960.061.725.629.944.847.548.239.545.448.953.956.9SRR-FSDFRCNR-10147.850.551.355.256.832.535.339.140.843.840.141.544.346.946.4FSCEFRCNR-10144.243.851.461.963.427.329.543.541.947.554.658.5FSOD-SRFRCNR-5050.154.456.260.062.429.539.943.544.648.143.646.653.453.459.5FADIDeFRCNFRCNR-10150.354.854.259.363.230.635.040.342.848.045.7FRCNR-10153.657.561.564.160.853.347.948.449.749.155.059.650.952.354.957.4AGCMFRCNR-10128.3——49.054.817.2——38.547.022.9——46.551.5LSCNFRCNR-5030.743.143.753.459.122.325.734.841.650.321.923.430.743.155.6Pseudo-LabellingCFA-DeFRCNFRCNR-10154.553.258.863.265.732.829.250.749.850.648.4FRCNR-10158.263.365.868.951.355.253.854.752.755.059.659.657.856.960.063.3表4元學(xué)習(xí)方法在VOC數(shù)據(jù)集上的mAP對比Table4mAPcomparisonofmeta-learningmethodsonVOCdataset方法名稱骨干網(wǎng)絡(luò)NovelSet1NovelSet2NovelSet3135135135FSRWYOLOv2RepMetFRCNR-101MetaR-CNNFRCNR-101FsDetViewFRCNR-101FSOD-KTFRCNR-101NP-RepMetFRCNR-101MM-FSODFRCNR-34AFD-NetFRCNR-101PNPDetCenterNetCME(MPSR)FRCNR-101TIPFRCNR-101DCNetFRCNR-101MetaFasterR-CNNFRCNR-101DRL-for-FSODFRCNR-101QA-FewDetFRCNR-101SQMGFRCNR-101Meta-DETRDef.DETRAPSPNetFRCNR-101FCTPVTv2-B2-Li彭豪等FRCNR-101KFSODEN14.89.924.227.837.850.031.741.527.733.941.828.042.448.640.624.338.536.244.615.532.925.535.341.440.3—41.4—47.536.537.446.740.551.951.436.549.647.2—26.734.435.055.949.527.350.443.343.752.749.455.752.058.044.953.552.454.433.938.645.755.247.357.954.6—58.250.259.649.962.653.759.252.059.855.660.947.241.351.557.456.849.460.960.341.060.959.659.662.359.463.454.363.659.264.362.865.85.721.619.841.637.323.216.627.222.723.222.925.941.637.020.525.928.437.815.324.627.943.0—31.3—30.224.833.633.437.845.436.627.534.234.2—22.723.429.631.938.743.445.738.426.541.433.830.643.836.446.645.843.736.528.334.837.038.947.446.541.9—42.540.936.747.848.946.349.140.944.940.535.845.445.741.548.246.936.446.846.946.652.748.054.647.452.750.421.327.514.321.229.533.335.627.48.934.321.732.335.628.035.246.14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論