目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述4700字_第1頁(yè)
目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述4700字_第2頁(yè)
目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述4700字_第3頁(yè)
目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述4700字_第4頁(yè)
目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述4700字_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1目標(biāo)檢測(cè)算法研究的國(guó)內(nèi)外文獻(xiàn)綜述 1 11.2兩階段目標(biāo)檢測(cè)方法 21.3單階段目標(biāo)檢測(cè)方法 4 6自從目標(biāo)檢測(cè)問(wèn)題出現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域以來(lái),也伴隨著人工智能領(lǐng)域的快速發(fā)展,眾多研究機(jī)構(gòu)和學(xué)者開(kāi)始不停地鉆研此問(wèn)題,并在目標(biāo)檢測(cè)領(lǐng)域取得了很多顯著性的成果。在目標(biāo)檢測(cè)的歷史長(zhǎng)河中,人們通常以2014年為界限將其分為兩個(gè)時(shí)期:2014年之前的傳統(tǒng)方法目標(biāo)檢測(cè)和2014年之后的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)。1.1傳統(tǒng)目標(biāo)檢測(cè)方法傳統(tǒng)的目標(biāo)檢測(cè)算法多數(shù)需要手工提取特征,主要包括DPM(Deformable傳統(tǒng)方法中以DPM即基于可變性部件的模型方法為巔峰,它利用了一種“分而治之”的思想對(duì)訓(xùn)練過(guò)程進(jìn)行拆分和組合,其中較具有代表性的DPM檢測(cè)器被設(shè)計(jì)為由兩種濾波器組成:根過(guò)濾器和零件濾波器,此模型使用一種弱監(jiān)督學(xué)習(xí)方法使所有零件濾波器的配置作為潛在變量自動(dòng)進(jìn)行學(xué)習(xí)。后續(xù)產(chǎn)生的目標(biāo)檢測(cè)方法雖然在精度方面已經(jīng)超出DPM許多,但仍然吸收了DPM中的一些觀點(diǎn)。尋找目21.2兩階段目標(biāo)檢測(cè)方法隨著傳統(tǒng)目標(biāo)檢測(cè)方法暴露出的魯棒性不好、檢測(cè)效率低、泛化性差等弊端,它已經(jīng)達(dá)不到人們對(duì)目標(biāo)檢測(cè)任務(wù)準(zhǔn)確高效的要求,所以在深度學(xué)習(xí)快速發(fā)展的階段,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法應(yīng)運(yùn)而生。而且人們發(fā)現(xiàn)使用深度神經(jīng)網(wǎng)絡(luò)提取的特征的表示能力遠(yuǎn)超出傳統(tǒng)方法中的手工特征,因此以卷積神經(jīng)網(wǎng)絡(luò)為代表的模型漸漸成為目標(biāo)檢測(cè)算法中的主流。2012年A.Krizhevsky等人提出深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)?,一經(jīng)提出,因?yàn)槠鋵W(xué)習(xí)圖像的魯棒性和高層次特征表示的能力,DCNN便被廣泛應(yīng)用于圖像分類中并取得了破紀(jì)錄的成績(jī)。由此,人們將目光由圖像分類轉(zhuǎn)移到目標(biāo)檢測(cè),嘗試DCNN是否可應(yīng)用于此領(lǐng)域。兩階段目標(biāo)檢測(cè)方法主要通過(guò)選擇性搜索(SelectiveSearch)或者邊界框(EdgeBoxes)?等算法提取輸入圖像中可能包含檢測(cè)目標(biāo)的候選區(qū)域(RegionProposal)?,然后對(duì)候選區(qū)域進(jìn)行分類和位置回歸從而得到檢測(cè)結(jié)果,其流程如圖1-2所示。2014年,R.Girshick等人創(chuàng)新性地提出使用一種具有CNN(卷積神經(jīng)網(wǎng)絡(luò))特征的區(qū)域的方法即R-CNN應(yīng)用于目標(biāo)檢測(cè):RCNN將AlexNet與選擇性搜索算法相結(jié)合,通過(guò)選擇性搜索提取可能包含目標(biāo)的對(duì)象候選框,然后裁剪為相同尺寸的區(qū)域作為輸入送進(jìn)CNN模型進(jìn)行訓(xùn)練提取特征,最后使用線性支持向量機(jī)分類器對(duì)目標(biāo)進(jìn)行預(yù)測(cè)并分類8。雖然R-CNN在精度方面得到大量提升,但候選框的數(shù)量之多造成的邊框重疊使CNN特征提取存在很大的冗余,進(jìn)而導(dǎo)致目標(biāo)檢測(cè)速度極慢。所以在R-CNN的基礎(chǔ)上,K.He等人設(shè)計(jì)了空間金字塔池化層(SPP),在此基礎(chǔ)上提出了空間金字塔池化網(wǎng)絡(luò)SPPNet(SpatialPyramidPoolingNetworks):此方法保證可以在不考慮圖像尺寸情況下產(chǎn)生固定大小的表示;在目標(biāo)檢測(cè)方面,SPPNet網(wǎng)絡(luò)僅僅需要在圖像中進(jìn)行一次特征計(jì)算,然后對(duì)任意尺寸的區(qū)域進(jìn)行特征池化即可產(chǎn)生固定尺寸的訓(xùn)練檢測(cè)器,從而避免了卷積特征的重復(fù)計(jì)算并獲得了顯著的加速[91。但3SPPNet的訓(xùn)練依然存在著訓(xùn)練步驟繁瑣周期長(zhǎng)、多階段的問(wèn)題,且需要存儲(chǔ)大量的特征從而導(dǎo)致大量的空間消耗。為解決此問(wèn)題R.Girshick等人于2015年提出了基于邊界框和多任務(wù)損失分類的FastR-CNN:該模型使用一個(gè)流線化的訓(xùn)練過(guò)程來(lái)實(shí)現(xiàn)檢測(cè)器的訓(xùn)練,在最后一層的卷積層和第一完全連接層之間添加感興趣區(qū)域匯聚層 邊界框回歸三個(gè)過(guò)程,且在減少計(jì)算量的同時(shí)也提高了檢測(cè)精度和速度,而且無(wú)需耗時(shí)看起來(lái)是可以被減少的,所以S.Ren等人介紹了區(qū)域建議網(wǎng)絡(luò)RPN(RegionProposalNetwork)來(lái)生成候選區(qū)域(RoI),并以此為基礎(chǔ)提出了FasterR-CN的輸入,RPN將生成候選區(qū)域并對(duì)其做第一次校用全連接層對(duì)候選框分類,通過(guò)softmax方法判斷錨框(anchors)所屬類別,最后再次通過(guò)邊框修正取得最終的候選區(qū)域11。RPN的設(shè)計(jì)使目標(biāo)檢測(cè)速度得到了極大的提高,但該模型在特征圖上采用的錨框機(jī)制不適用于所有目標(biāo),因?yàn)殄^框設(shè)定的尺度滿足范圍是有限的,所以在面對(duì)小目標(biāo)時(shí)檢測(cè)結(jié)果較差;僅使用VGG-16網(wǎng)絡(luò)的成的MaskR-CNN,其中RoIAlign放棄了RoIPooling的量化操作而使用了線性插值目標(biāo)檢測(cè)精度得到了提高;此模型可以靈活地添加各種分支來(lái)完成多種計(jì)算機(jī)視覺(jué)只在網(wǎng)絡(luò)頂層實(shí)行檢測(cè)任務(wù),于是在2017年T.-Y.Lin針對(duì)上述問(wèn)題進(jìn)行了研究,然后提出了特征金字塔網(wǎng)絡(luò)(FPN),在此之前的網(wǎng)絡(luò)一般都利用單個(gè)高層特征,但在小目標(biāo)本身所含像素信息較少的情況下,下采樣過(guò)程中會(huì)發(fā)生丟失信息的情況,所4的特征都有豐富的語(yǔ)義信息,即各層都可以提取到豐富的語(yǔ)義信息[13。FPN使多尺度目標(biāo)檢測(cè)方向獲得了極大的進(jìn)步。兩階段目標(biāo)檢測(cè)算法雖然在檢測(cè)精度上有很好的效果,但大多模型規(guī)模大、訓(xùn)練參數(shù)多、檢測(cè)速度慢的缺點(diǎn)逐漸成為研究者們解決的焦點(diǎn)問(wèn)題。對(duì)此研究者們換了一種思考方式,嘗試將目標(biāo)檢測(cè)問(wèn)題歸結(jié)到回歸問(wèn)題上,如此不僅可以簡(jiǎn)化模型也可以在提高檢測(cè)精度的同時(shí)提高檢測(cè)速度,單階段目標(biāo)檢測(cè)算法便滿足了上述的單階段檢測(cè)算法不需要產(chǎn)生候選框的階段,而是直接通過(guò)回歸過(guò)程輸出所屬類別和位置信息,其流程如圖1-3所示。2016年,JosephRedmon等人提出了速度非常快的基于深度學(xué)習(xí)的第一個(gè)單階段目標(biāo)檢測(cè)器YOLO(YouOnlyLookOnce)錯(cuò)誤!未找到引用源。,該模型使用一個(gè)CNN同時(shí)完成分類和回歸任務(wù)。YOLO架構(gòu)由24個(gè)卷積層和2個(gè)全連接層組成,使用最頂層的特征圖來(lái)預(yù)測(cè)邊界框,直接評(píng)估每個(gè)類別的概率。YOLO將每個(gè)圖像以網(wǎng)格單元為單位進(jìn)行劃分,每個(gè)網(wǎng)格單元僅承擔(dān)該網(wǎng)格中心所含目標(biāo)的邊界框和類別預(yù)測(cè)任務(wù)。該模型丟掉了候選框生成階段,經(jīng)過(guò)一次神經(jīng)網(wǎng)絡(luò)的運(yùn)算便可從輸入圖像中得到檢測(cè)結(jié)果,非常貼切地符合YOLO的含義“僅僅瀏覽一次”,而且這樣簡(jiǎn)化的網(wǎng)絡(luò)也對(duì)端到端的優(yōu)化十分有益。YOLO算法作為YOLO系列的第一個(gè)版本必然存在許多不足,例如目標(biāo)為小物體時(shí)表現(xiàn)一般、定位不準(zhǔn)確、召回率低等,所以在第二個(gè)版本YOLOv2使用了新的由19個(gè)卷積層和5個(gè)最大池化層組成的DarkNet-19網(wǎng)絡(luò)模型,并增加了批量歸一化對(duì)每一層的數(shù)據(jù)進(jìn)行預(yù)處理加工,設(shè)計(jì)使用高分辨率的分類器提升檢測(cè)精度,通過(guò)K-Means聚類的方法計(jì)算出較適用的錨框尺度,以達(dá)到目標(biāo)檢測(cè)多尺度訓(xùn)練的目的;它采用二進(jìn)制交叉熵?fù)p失函數(shù)替換Softmax損失函數(shù),如此可以使召回率和準(zhǔn)確性有很好的提升效果;JosephRedmon等人看到此模型有較好的實(shí)驗(yàn)效果后便將其應(yīng)用于訓(xùn)練檢測(cè)5超過(guò)9000個(gè)類別的目標(biāo)集,其中使用聯(lián)合訓(xùn)練方法來(lái)進(jìn)行分類任務(wù),進(jìn)而提出更好、更快、更強(qiáng)的YOLO9000模型錯(cuò)誤!未找到引用源。。YOLOv3中相比YOLOv2的DarkNet-19 使用了帶有殘差單元的DarkNet-53網(wǎng)絡(luò)模型,進(jìn)一步加深了網(wǎng)絡(luò)架構(gòu),另外使用特征金字塔結(jié)構(gòu)解決多尺度檢測(cè)的問(wèn)題和設(shè)定了3種尺度的特征圖進(jìn)行邊界框的預(yù)測(cè),并且增加了錨框的數(shù)量,它在小目標(biāo)檢測(cè)方面性能有顯著提升錯(cuò)誤!未找到引用源。。YOLOv4 在YOLOv3基礎(chǔ)上做出了一些調(diào)整改進(jìn),設(shè)計(jì)了一個(gè)能夠應(yīng)用于實(shí)際工作環(huán)境中且能夠被并行優(yōu)化快速目標(biāo)檢測(cè)系統(tǒng),并簡(jiǎn)化和優(yōu)化了一些最新提出的算法,它采用CSPDarkNet53骨干網(wǎng)絡(luò)代替DarkNet-53網(wǎng)絡(luò),用增加感受野和多通道特征融合組合模塊取代FPN來(lái)完成融合不同大小的特征圖的特征信息的功能,采用多種方式的數(shù)據(jù)增強(qiáng)和針對(duì)卷積層的DropBlock正則化方法,從而使YOLOv4能夠在一塊GPU上就可以訓(xùn)練起來(lái),同時(shí)能夠得到較好的結(jié)果錯(cuò)誤!未找到引用源。oR-CNN系列和YOLO在速度和準(zhǔn)確性上都有其自身的優(yōu)勢(shì),R-CNN系列雖具有較高的檢測(cè)精度,但速度較慢;YOLO雖然檢測(cè)速度快,對(duì)大維度變化目標(biāo)的檢測(cè)能力強(qiáng),但在小目標(biāo)的檢測(cè)上性能較差。在吸取了FasterR-CNN和YOLO各自的優(yōu)點(diǎn)后,2015年W.Liu等人希望在犧牲較少檢測(cè)精度的情況下能夠保持檢測(cè)速度,于是提出了SSD(SingleShotmulti-boxDetector骨干網(wǎng)絡(luò)進(jìn)行特征提取,用第6、第7卷積層代替全連接層6和全連接層7,并添加了4個(gè)卷積層;它在YOLO的基礎(chǔ)上結(jié)合了FasterR-CNN的錨框機(jī)制,并通過(guò)不同尺度的特征圖來(lái)預(yù)測(cè)每個(gè)位置上的目標(biāo),僅僅觀察一次圖像便可進(jìn)行多目標(biāo)的檢測(cè)識(shí)別,它的速度比YOLO快并且大大提高了單階段檢測(cè)器的檢測(cè)精度。單階段檢測(cè)器雖然速度快但檢測(cè)精度卻一直達(dá)不到兩級(jí)檢測(cè)器的精度,所以在2017年T.-Y.Lin等人設(shè)計(jì)訓(xùn)練出了RetinaNet單階段檢測(cè)方法中沒(méi)有區(qū)分前景和背景的比例,所以造成易分類樣本和難分類樣本數(shù)量的不均衡,為此該網(wǎng)絡(luò)結(jié)構(gòu)使用了一種新的名為焦損失(Focalloss)的損失函數(shù)來(lái)代替以往單階段檢測(cè)中使用的損失函數(shù),使檢測(cè)器在訓(xùn)練過(guò)程中對(duì)難分類樣本多加關(guān)注。RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)由ResNet骨干網(wǎng)絡(luò)和FPN網(wǎng)絡(luò)組成,骨干網(wǎng)絡(luò)承擔(dān)在圖像上計(jì)算卷積特征的任務(wù),回歸子網(wǎng)絡(luò)承擔(dān)在骨干網(wǎng)絡(luò)ResNet的輸出中執(zhí)行圖像分類的任務(wù),分類子網(wǎng)絡(luò)則進(jìn)行回歸卷積邊框的任務(wù)。FocalLoss是在交叉熵?fù)p失6函數(shù)上進(jìn)行修改的函數(shù),它提高了正例的分類概率,所以在訓(xùn)練階段避免了大量簡(jiǎn)單負(fù)例,更加關(guān)注于難訓(xùn)練樣本。此模型通過(guò)設(shè)定不同權(quán)重的方法來(lái)訓(xùn)練不平衡的正實(shí)例和負(fù)實(shí)例,很好地保持了單階段檢測(cè)器的速度,而且此單階段檢測(cè)器在保持較高速度同時(shí)也達(dá)到了兩階段檢測(cè)器的精度。處理目標(biāo)物體之間尺度變化且占用內(nèi)存、計(jì)算成本少的特征金字塔方法被廣泛應(yīng)用于兩階段和單階段目標(biāo)檢測(cè)算法中,但常用的特征金字塔方法由于僅僅簡(jiǎn)單地按照內(nèi)在多尺度構(gòu)造結(jié)構(gòu)會(huì)存在適用范圍的有限性,所以Zhao等提出了基于更加高效的多級(jí)特征金字塔網(wǎng)絡(luò)(Multi-LevelFeaturePyramidNetwork,ML-FPN)的M2Det以解決目標(biāo)之間尺度變化的問(wèn)題錯(cuò)誤!未找到引用源。,作者總結(jié)出特征金字塔方法性能不足的原因便是金字塔中每個(gè)特征圖主要由單級(jí)特征組成,所以設(shè)計(jì)融合了骨干網(wǎng)絡(luò)中的多尺度特征從而得到基礎(chǔ)特征,將基礎(chǔ)特征送入一組交替連接的簡(jiǎn)化U型模塊和特征融合模塊組中,得到的多尺度特征度輸出作為輸入送到下一層中進(jìn)行等尺度特征組合得到多層次特征金字塔。單階段目標(biāo)檢測(cè)算法雖然在起步時(shí)間上落后于兩階段目標(biāo)檢測(cè)算法,但是其模型結(jié)構(gòu)的簡(jiǎn)單以及計(jì)算檢測(cè)性能的高效吸引了很多學(xué)者和研究者的目光,無(wú)論是在現(xiàn)在還是未來(lái)其發(fā)展都是越來(lái)越好的。早期的單階段目標(biāo)檢測(cè)算法常常以檢測(cè)速度快為主要優(yōu)點(diǎn),但在檢測(cè)精度方面卻與兩階段檢測(cè)算法差距較大。隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的不斷發(fā)展進(jìn)步,如今的單階段目標(biāo)檢測(cè)模型的速度和精度性能都得到了很大[2]P.Felzenszwalb,D.McAllester,andD.Ramanan.Adiscriminativelytrained,multiscale,IEEE,2008.7InternationalConferenceonComputerVi[5]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationneuralnetworks,”inAdvancesinneuralinformationprocessingsystems,2012,pp.1097-1105.[6]ZITNICKCL,DOLLARP.Edgeboxes:LocatingobjectpConferenceonComputerVision.Springer,Cham,2014:391-405.[7]HUQ,ZHAIL.RGB-Dimagemulti-taR-CNN[J].InternationalJournalofPatternRecognitionandArtific2019,33(8):1954026.[8]R.Girshick,J.Donahue,T.Darrell,andJ.Malik,“Richfeaturehierarchiesforandpatternrecognition,2014,pp.580-587.Recognition[J]

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論