基礎(chǔ)目標(biāo)檢測(cè)算法介紹_第1頁(yè)
基礎(chǔ)目標(biāo)檢測(cè)算法介紹_第2頁(yè)
基礎(chǔ)目標(biāo)檢測(cè)算法介紹_第3頁(yè)
基礎(chǔ)目標(biāo)檢測(cè)算法介紹_第4頁(yè)
基礎(chǔ)目標(biāo)檢測(cè)算法介紹_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基礎(chǔ)目標(biāo)檢測(cè)算法介紹:CNN、RCNN、Fast RCNN和FasterRCNN解決目標(biāo)檢測(cè)任務(wù)的簡(jiǎn)單方法(利用深度學(xué)習(xí))一、CNN首先我們要說(shuō)的就是在圖像目標(biāo)檢測(cè)中用途最廣、最簡(jiǎn)單的深度學(xué)習(xí)方法卷 積神經(jīng)網(wǎng)絡(luò)(CNN)。我要講的是CNN的內(nèi)部工作原理,首先讓我們看看下面 這張圖片。outputP&dI2 hlddan4向網(wǎng)絡(luò)中輸入一張圖片,接著將它傳遞到多個(gè)卷積和池化層中。最后輸出目標(biāo)所 屬的類(lèi)別。1圖片的輸入2、將圖片分成多個(gè)區(qū)域?qū)⒚總€(gè)區(qū)域看作單獨(dú)的圖片。把這些區(qū)域照片傳遞給CNN,將它們分到不同類(lèi)別中。當(dāng)我們把每個(gè)區(qū)域都分到對(duì)應(yīng)的類(lèi)別后,再把它們結(jié)合在一起,完成對(duì)原始圖 像的目標(biāo)檢測(cè)使用

2、這一方法的問(wèn)題在于,圖片中的物體可能有不同的長(zhǎng)寬比和空間位置。例如, 在有些情況下,目標(biāo)物體可能占據(jù)了圖片的大部分,或者非常小。目標(biāo)物體的形 狀也可能不同。有了這些考慮因素,我們就需要分割很多個(gè)區(qū)域,需要大量計(jì)算力。所以為了解 決這一問(wèn)題,減少區(qū)域的分割,我們可以使用基于區(qū)域的CNN,它可以進(jìn)行區(qū)域 選擇?;趨^(qū)域的卷積神經(jīng)網(wǎng)絡(luò)介紹RCNN 簡(jiǎn)介和在大量區(qū)域上工作不同,RCNN算法提出在圖像中創(chuàng)建多個(gè)邊界框,檢查這些 邊框中是否含有目標(biāo)物體。RCNN使用選擇性搜索來(lái)從一張圖片中提取這些邊框。 首先,讓我們明確什么是選擇性搜索,以及它是如何辨別不同區(qū)域的。組成目標(biāo) 物體通常有四個(gè)要素:變化尺度、

3、顏色、結(jié)構(gòu)(材質(zhì))、所占面積。選擇性搜索 會(huì)確定物體在圖片中的這些特征,然后基于這些特征突出不同區(qū)域。下面是選擇 搜索的一個(gè)簡(jiǎn)單案例:首先將一張圖片作為輸入:之后,它會(huì)生成最初的sub-分割,將圖片分成多個(gè)區(qū)域:基于顏色、結(jié)構(gòu)、尺寸、形狀,將相似的區(qū)域合并成更大的區(qū)域:最后,生成最終的目標(biāo)物體位置(Region of Interest)。用RCNN檢測(cè)目標(biāo)物體的步驟如下:我們首先取一個(gè)預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。根據(jù)需要檢測(cè)的目標(biāo)類(lèi)別數(shù)量,訓(xùn)練網(wǎng)絡(luò)的最后一層。得到每張圖片的感興趣區(qū)域(Region of Interest),對(duì)這些區(qū)域重新改造,以 讓其符合CNN的輸入尺寸要求。得到這些區(qū)域后,我們訓(xùn)練

4、支持向量機(jī)(SVM)來(lái)辨別目標(biāo)物體和背景。對(duì)每個(gè) 類(lèi)別,我們都要訓(xùn)練一個(gè)二元SVM。最后,我們訓(xùn)練一個(gè)線性回歸模型,為每個(gè)辨識(shí)到的物體生成更精確的邊界框。下面我們就用具體的案例解釋一下。首先,將以下圖片作為輸入:之后,我們會(huì)用上文中的選擇性搜索得到感興趣區(qū)域:R已由oris of interest (Roi) from a proposal method (2k)Input ima ge將這些區(qū)域輸入到CNN中,并經(jīng)過(guò)卷積網(wǎng)絡(luò):ConvNetConvNetConvNetWarped image regionsInput ImageForward each region through Conv

5、NetRegions of Interest (Rol from a proposal methodCNN為每個(gè)區(qū)域提取特征,利用SVM將這些區(qū)域分成不同類(lèi)別:ConvN etConvNetConvNetSVMsClassify regions with SV MsSVMsForward each region through ConvNetWarped image regions Regions of Interest (Rof) frorn 日 proposal method3)SVMs最后,用邊界框回歸預(yù)測(cè)每個(gè)區(qū)域的邊界框位置:SV1W5SVMSConvNetConvNetConvNet

6、Apply boundtng-boK regresscnwa rped ima ge reg ionsInput ImageBbOK reg SVMsClassify regions with SV MsRegions of Interest (ftol) from a proposal method3)Forward each region thraeh ConvNet這就是RCNN檢測(cè)目標(biāo)物體的方法。RCNN的問(wèn)題現(xiàn)在,我們了解了 RCNN能如何幫助進(jìn)行目標(biāo)檢測(cè),但是這一技術(shù)有自己的局限性。訓(xùn)練一個(gè)RCNN模型非常昂貴,并且步驟較多:根據(jù)選擇性搜索,要對(duì)每張圖片提取2000個(gè)單獨(dú)區(qū)域;用C

7、NN提取每個(gè)區(qū)域的特征。假設(shè)我們有N張圖片,那么CNN特征就是N*2000;用RCNN進(jìn)行目標(biāo)檢測(cè)的整個(gè)過(guò)程有三個(gè)模型:用于特征提取的CNN用于目標(biāo)物體辨別的線性SVM分類(lèi)器調(diào)整邊界框的回歸模型。這些過(guò)程合并在一起,會(huì)讓RCNN的速度變慢,通常每個(gè)新圖片需要40-50秒的 時(shí)間進(jìn)行預(yù)測(cè),基本上無(wú)法處理大型數(shù)據(jù)集。所以,這里我們介紹另一種能突破這些限制的目標(biāo)檢測(cè)技術(shù)。Fast RCNN3.1 Fast RCNN 簡(jiǎn)介想要減少RCNN算法的計(jì)算時(shí)間,可以用什么方法?我們可不可以在每張圖片上 只使用一次CNN即可得到全部的重點(diǎn)關(guān)注區(qū)域呢,而不是運(yùn)行2000次。RCNN的作者RossGirshick提

8、出了一種想法,在每張照片上只運(yùn)行一次CNN,然 后找到一種方法在2000個(gè)區(qū)域中進(jìn)行計(jì)算。在Fast RCNN中,我們將圖片輸入 到CNN中,會(huì)相應(yīng)地生成傳統(tǒng)特征映射。利用這些映射,就能提取出感興趣區(qū)域。 之后,我們使用一個(gè)Rol池化層將所有提出的區(qū)域重新修正到合適的尺寸,以輸 入到完全連接的網(wǎng)絡(luò)中。簡(jiǎn)單地說(shuō),這一過(guò)程含有以下步驟:輸入圖片。輸入到卷積網(wǎng)絡(luò)中,它生成感興趣區(qū)域。利用Rol池化層對(duì)這些區(qū)域重新調(diào)整,將其輸入到完全連接網(wǎng)絡(luò)中。在網(wǎng)絡(luò)的頂層用softmax層輸出類(lèi)別。同樣使用一個(gè)線性回歸層,輸出相對(duì)應(yīng)的 邊界框。所以,和RCNN所需要的三個(gè)模型不同,F(xiàn)ast RCNN只用了一個(gè)模型就

9、同時(shí)實(shí)現(xiàn) 了區(qū)域的特征提取、分類(lèi)、邊界框生成。同樣,我們還用上面的圖像作為案例,進(jìn)行更直觀的講解。首先,輸入圖像:圖像被傳遞到卷積網(wǎng)絡(luò)中,返回感興趣區(qū)域:conwNet之后,在區(qū)域上應(yīng)用Rol池化層,保證每個(gè)區(qū)域的尺寸相同:Forward whale Imagie through CpnuNetinput tmageRegions of Interest (RoJs) from a proposal methodF七口nv5 feature map of ImageconvNetRegions of Intc resT(Rois| from a propofial methodForward

10、whole iiriagc through CpnvNeiffRol Pooling * (single-level SPP layerconv5p feature map of imageInput image最后,這些區(qū)域被傳遞到一個(gè)完全連接的網(wǎng)絡(luò)中進(jìn)行分類(lèi),并用softmax和線性 回歸層同時(shí)返回邊界框:ConvNetInput imageHounaing-bcx regressoFully-connected layerslol Pooling7 (single level SPP) layerRegions of interest (Rols) from a proposal met

11、hod“csvS feature ma p of imageForward whole image through CanvNet3.2 Fast RCNN 的問(wèn)題但是即使這樣,F(xiàn)ast RCNN也有某些局限性。它同樣用的是選擇性搜索作為尋找 感興趣區(qū)域的,這一過(guò)程通常較慢。與RCNN不同的是,F(xiàn)ast RCNN處理一張圖 片大約需要2秒。但是在大型真實(shí)數(shù)據(jù)集上,這種速度仍然不夠理想。Faster RCNN4.1 Faster RCNN 簡(jiǎn)介Faster RCNN是Fast RCNN的優(yōu)化版本,二者主要的不同在于感興趣區(qū)域的生成 方法,F(xiàn)ast RCNN使用的是選擇性搜索,而Faster RC

12、NN用的是Region Proposal 網(wǎng)絡(luò)(RPN)。RPN將圖像特征映射作為輸入,生成一系列object proposals, 每個(gè)都帶有相應(yīng)的分?jǐn)?shù)。下面是Faster RCNN工作的大致過(guò)程:輸入圖像到卷積網(wǎng)絡(luò)中,生成該圖像的特征映射。在特征映射上應(yīng)用Region Proposal Network,返回object proposals和相應(yīng) 分?jǐn)?shù)。應(yīng)用Rol池化層,將所有proposals修正到同樣尺寸。最后,將proposals傳遞到完全連接層,生成目標(biāo)物體的邊界框。classifier那么Region Proposal Network具體是如何工作的呢?首先,將CNN中得來(lái)的特征映

13、射輸入到Faster RCNN中,然后將其傳遞到Region Proposal Network中。RPN會(huì)在這些特征映射上使用一個(gè)滑動(dòng)窗口,每個(gè)窗口會(huì)生成具有不同形狀和尺寸的 k 個(gè) anchor box:conv feature mapsliding window4k ccordinatcscis layerZreg layerintermediate Myer256-d2k scoresk anchor boxesAnchor boxes是固定尺寸的邊界框,它們有不同的形狀和大小。對(duì)每個(gè)anchor, RPN都會(huì)預(yù)測(cè)兩點(diǎn):首先是anchor就是目標(biāo)物體的概率(不考慮類(lèi)別)第二個(gè)就是anchor經(jīng)過(guò)調(diào)整能更合適目標(biāo)物體的邊界框回歸量現(xiàn)在我們有了不同形狀、尺寸的邊界框,將它們傳遞到Rol池化層中。經(jīng)過(guò)RPN 的處理,proposals可能沒(méi)有所述的類(lèi)別。我們可以對(duì)每個(gè)proposal進(jìn)行切割, 讓它們都含有目標(biāo)物體。這

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論