深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記

上傳人：小*** IP屬地：臺灣上傳時(shí)間：2021-12-17 格式：DOC 頁數(shù)：17 大小：474KB 積分：19 舉報(bào) 版權(quán)申訴

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第2頁

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第3頁

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第4頁

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第5頁

已閱讀5頁，還剩12頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記https:/youtu.be/MPU2HistivI上面是一段實(shí)時(shí)目標(biāo)識別的演示，計(jì)算機(jī)在視頻流上標(biāo)注出物體的類別，包括人、汽車、自行車、狗、背包、領(lǐng)帶、椅子等。今天的計(jì)算機(jī)視覺技術(shù)已經(jīng)可以在圖片、視頻中識別出大量類別的物體，甚至可以初步理解圖片或者視頻中的內(nèi)容，在這方面，人工智能已經(jīng)達(dá)到了 3 歲兒童的智力水平。這是一個(gè)很了不起的成就，畢竟人工智能用了幾十年的時(shí)間，就走完了人類幾十萬年的進(jìn)化之路，并且還在加速發(fā)展。道路總是曲折的，也是有跡可循的。在嘗試了其它方法之后，計(jì)算機(jī)視覺在仿生學(xué)里找到了正確的道路（至少目前看是正確的）

2、。通過研究人類的視覺原理，計(jì)算機(jī)利用深度神經(jīng)網(wǎng)絡(luò)（ Deep Neural Network，NN ）實(shí)現(xiàn)了對圖片的識別，包括文字識別、物體分類、圖像理解等。在這個(gè)過程中，神經(jīng)元和神經(jīng)網(wǎng)絡(luò)模型、大數(shù)據(jù)技術(shù)的發(fā)展，以及處理器（尤其是 GPU）強(qiáng)大的算力，給人工智能技術(shù) 的發(fā)展提供了很大的支持。本文是一篇學(xué)習(xí)筆記，以深度優(yōu)先的思路，記錄了對深度學(xué)習(xí)（Deep Learning）的簡單梳理，主要針對計(jì)算機(jī)視覺應(yīng)用領(lǐng)域。一、神經(jīng)網(wǎng)絡(luò)1.1 神經(jīng)元和神經(jīng)網(wǎng)絡(luò)神經(jīng)元是生物學(xué)概念，用數(shù)學(xué)描述就是：對多個(gè)輸入進(jìn)行加權(quán)求和，并經(jīng)過激活函數(shù)進(jìn)行非線性輸出。由多個(gè)神經(jīng)元作為輸入節(jié)點(diǎn)，則構(gòu)成了簡單的單層

3、神經(jīng)網(wǎng)絡(luò)（感知器），可以進(jìn)行線性分類。兩層神經(jīng)網(wǎng)絡(luò)則可以完成復(fù)雜一些的工作，比如解決異或問題，而且具有非常好的非線性分類效果。而多層（兩層以上）神經(jīng)網(wǎng)絡(luò)，就是所謂的深度神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的工作原理就是神經(jīng)元的計(jì)算，一層一層的加權(quán)求和、激活，最終輸出結(jié)果。深度神經(jīng)網(wǎng)絡(luò)中的參數(shù)太多（可達(dá)億級），必須靠大量數(shù)據(jù)的訓(xùn)練來設(shè)置。訓(xùn)練的過程就好像是剛出生的嬰兒，在父母一遍遍的重復(fù)中學(xué)習(xí) “這是蘋果”、“那是汽車”。有人說，人工智能很傻嘛，到現(xiàn)在還不如三歲小孩。其實(shí)可以換個(gè)角度想：剛出生嬰兒就好像是一個(gè)裸機(jī)，這是經(jīng)過幾十萬年的進(jìn)化才形成的，然后經(jīng)過幾年的學(xué)習(xí)，就會認(rèn)識圖片和

4、文字了；而深度學(xué)習(xí)這個(gè)“裸機(jī)”用了幾十年就被設(shè)計(jì)出來，并且經(jīng)過幾個(gè)小時(shí)的 “學(xué)習(xí)”，就可以達(dá)到這個(gè)水平了。1.2 BP 算法神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就是它的參數(shù)不斷變化收斂的過程。像父母教嬰兒識圖認(rèn)字一樣，給神經(jīng)網(wǎng)絡(luò)看一張圖并告訴它這是蘋果，它就把所有參數(shù)做一些調(diào)整，使得它的計(jì)算結(jié)果比之前更接近“蘋果”這個(gè)結(jié)果。經(jīng)過上百萬張圖片的訓(xùn)練，它就可以達(dá)到和人差不多的識別能力，可以認(rèn)出一定種類的物體。這個(gè)過程是通過反向傳播(Back Propagation BP)算法來實(shí)現(xiàn)的。建議仔細(xì)看一下 BP 算法的計(jì)算原理，以及跟蹤一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)來體會訓(xùn)練的過程。1.3 小結(jié)人工神經(jīng)網(wǎng)絡(luò)就是根

5、據(jù)人的神經(jīng)元模型而構(gòu)建的一個(gè)感知算法，利用大量的神經(jīng)元組合對人的認(rèn)知行為進(jìn)行擬合。目前我們?nèi)匀粺o法精確的知道它為什么能工作、如何工作，如同我們?nèi)匀粺o法精確知道人的大腦是如何工作一樣。在摸索過程中，我們好像應(yīng)該更多地思考人類自己是怎么去“看”的，這會更有助于設(shè)計(jì)更好的算法。比如本文開頭的視頻識別算法，它很快，但是不夠精確，而有些可以“看清”細(xì)節(jié)的算法，就會非常慢。就像我們?nèi)祟愖约?，走馬觀花只能看到概貌，駐足觀賞才能看清細(xì)節(jié)。我們越了解自己，就越能做得更好。二、卷積神經(jīng)網(wǎng)絡(luò)2.1 簡介卷積神經(jīng)網(wǎng)絡(luò)(Convocational Neural Network, CNN)是一個(gè)特殊的深

6、層神經(jīng)網(wǎng)絡(luò)，目前在計(jì)算機(jī)視覺領(lǐng)域廣泛使用，可以認(rèn)為它是一個(gè)二維向量 (圖片就是一個(gè)二維向量)的感知器。CNN 算法的核心是對圖像(二維向量)進(jìn)行矩陣卷積運(yùn)算，這就相當(dāng)于是對圖像進(jìn)行加權(quán)求和。為了減小計(jì)算量， CNN 采用了局部感知和權(quán)值共享的方法。局部感知，就是用一個(gè)N X N (如N=3)的矩陣(稱為卷積核)去滑動掃描圖像，進(jìn)行卷積運(yùn)算。權(quán)值共享，就是掃描圖片的滑動矩陣的權(quán)值是共享的(相同的)。在實(shí)際運(yùn)算中，這個(gè)卷積核相當(dāng)于一個(gè)特征提取的過濾器( filter) 。舉例來說，假設(shè)一個(gè)10X 10的圖像，用一個(gè)3X 3的卷積核以步長1做一次卷積運(yùn)算，那么會得到一個(gè)8X 8的特

7、征圖(feature map)。為了使得到的feature map和原圖等大小，一般給原圖進(jìn)行擴(kuò)充為 12X 12，這樣卷積一次以后，得到的仍然是 10 X 10大小的圖像。在這個(gè)例子中，如果不采用權(quán)值共享，則一共需要100個(gè)權(quán)值參數(shù)，權(quán)值共享后，只需要 3X 3=9 個(gè)權(quán)值參數(shù)。在實(shí)際中，一個(gè) RGB 圖像是三個(gè)通道，而卷積核也可能有多個(gè)。這樣計(jì)算起來會比上面的例子復(fù)雜些，但基本原理是一樣的。2.2 CNN 計(jì)算流程一個(gè)典型的 CNN 算法的流程大概是這樣的：首先是輸入，然后是 n 個(gè)卷積和池化的組合，最后全連接層感知分類。在這個(gè)流程里，卷積運(yùn)算主要是用來提取特征。一個(gè)典型的卷積計(jì)

8、算如下圖所示。<卷積計(jì)算示意圖 >圖中 input 是同一個(gè)圖像的三個(gè)通道，周邊有填充 0；有兩個(gè)卷積核 Filter W0 和Filter W1，一個(gè)filter滑動到一個(gè)位置后計(jì)算三個(gè)通道的卷積，求和，加bias，得到這個(gè) filter 在該位置的最終結(jié)果；每個(gè) filter 的輸出是各個(gè)通道的匯總；輸出的個(gè)數(shù)與 filter 個(gè)數(shù)相同。在這里還要加上激活函數(shù)，對計(jì)算結(jié)果進(jìn)行非線性變換。常用的激活函數(shù)有 tanh、ReLU、sigmoid 等。激活函數(shù)的作用好像可以解釋為：過濾掉一些可以忽略的不重要因素，以避免其對決策產(chǎn)生過度影響。池化是為了降維，有最大池化(Ma

9、x Pooling)和平均池化(Average Pooling)。一個(gè) 2X 2 最大池化的示例如下圖。Single depth slice/I 1023X4668311012246834最后是全連接層，它將前面卷積層提取的特征映射到樣本標(biāo)記空間，它輸出一個(gè)分類的概率，也就是最終的結(jié)果。2.3典型的CNN模型LeNet，最早用于數(shù)字識別的 CNN，用5X 5卷積核，2X 2最大池化，識別輸入為28X 28的灰度點(diǎn)陣，網(wǎng)絡(luò)結(jié)構(gòu)是(CONV POOL CONV POOL CONV FC)。AlexNet，2012 ImageNet比賽第一名，準(zhǔn)確度超過第二名 10%。網(wǎng)絡(luò)結(jié)構(gòu)如下圖。5個(gè)CO

10、NV、3個(gè)POOL、2個(gè)LRN、3個(gè)FC,卷積核分別是11X 11、5 X 5、3X 3,采用ReLU作為激活函數(shù)。paramsAlexNetFLOPs4M '_FC 1000_21 4M16M 二FC4096/ReLU二| 16M37 M442K1.3M884KFC 4096/ReLU37MMax Pool 3x3s2 *Conv 3綽§1, 256 / ReLU |Conv 3x3s1t 384 I Re LUConv 3x3s1, 384 J Re LUMax Pool 3x3s274M112M149MLocal Response Norm307K223MCofw 5x

11、5閃，256 】FteLLT"!Max Poo! 3x3s2|Local Response Norm35K Conv 11x11s4, 96 1 ReLU 105MVGG，有跟多的卷積層（1619）,使用3X 3卷積核。GoogLeNet,采用Inception來減少參數(shù)（用1X1卷積核降維）。ResNe,很多很多層的網(wǎng)絡(luò)，從152層到據(jù)說上千層。采用殘差網(wǎng)絡(luò)來解決多層網(wǎng)絡(luò)難以訓(xùn)練的問題。以上網(wǎng)絡(luò)的對比如下表。AlexN«tVGGGoogleNetRetNet初人江期20122014201-q201519221152Top易惜溟16.47.課6.7%3 57%Aug me

12、n taiion4-*+Inceptian(NIN)i-5162115111,5.37.1.35亍i!站蚊I40 繩 40&4加00311卻加6曲 100010001000D rope mt+Local R#sponie Normal iz*tion<Batch Normalization一2.4訓(xùn)練集應(yīng)該可以感受到，人工智能也好，深度學(xué)習(xí)也好，算法的優(yōu)劣是一方面，而訓(xùn)練數(shù)據(jù)集的好壞，對最終的效果影響更大。而訓(xùn)練集又非常難做，需要大量的數(shù)據(jù)，且標(biāo)記這些數(shù)據(jù)需要巨大的工作量（過去的8年ImageNet就在做這個(gè)工作）。逐漸，一些數(shù)據(jù)集就慢慢出了名。很多算法的性能

13、數(shù)據(jù)都會指明是在哪個(gè) 數(shù)據(jù)集上訓(xùn)練的。一些有名的數(shù)據(jù)集如下。MNIST :深度學(xué)習(xí)領(lǐng)域的“ Hello World!”，一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)庫，有 60000 個(gè)訓(xùn)練樣本集和10000個(gè)測試樣本集，每個(gè)樣本圖像的寬高為 28*28。數(shù)據(jù)集以二進(jìn)制存儲，不能直接查看。數(shù)據(jù)集大小為 12M。ImageNet: MIT李飛飛團(tuán)隊(duì)過去幾年的成果，目前有1400多萬幅圖片，涵蓋2萬多個(gè)類別。數(shù)據(jù)集大小為1To ImageNet根據(jù)WordNet層次（目前只有名詞）組織的一個(gè)圖像數(shù)據(jù)庫，其中每個(gè)節(jié)點(diǎn)的層次結(jié)構(gòu)是由成千上萬的圖像描繪。目前，有平均每個(gè)節(jié)點(diǎn)超過五百的圖像。COCO: Com mon Obje

14、cts in Con text，是一個(gè)新的圖像識別、分割、和字幕數(shù)據(jù)集，由微軟贊助，具有上下文識別、語義描述等特點(diǎn)。數(shù)據(jù)集大小為40G。PASCAL VOC :圖片集包括20個(gè)目錄，數(shù)據(jù)集圖像質(zhì)量好，標(biāo)注完備，非常適合用來測試算法性能。數(shù)據(jù)集大小為 2G。由于數(shù)據(jù)集生成有一定難度且工作量巨大，兩年來GAN （ GenerativeAdversarial Nets，生成對抗網(wǎng)絡(luò)）快速發(fā)展，并在很多應(yīng)用場景的訓(xùn)練集生成產(chǎn) 生了巨大作用，比如車牌識別。三、物體檢測3.1 檢測流程在實(shí)際場景中，我們需要在一副圖像中找出有哪些物體，這是一個(gè)多對多的映射（所謂的回歸）。按照已有的 CNN 方法，

15、常規(guī)的檢測流程就是:先找到哪些區(qū)域有物體，然后再用 CNN 來對其分類。區(qū)域選擇最原始的辦法就是用不同大小的滑動窗口對整幅圖像進(jìn)行掃描。這樣不但計(jì)算量大，也容易造成誤判。一個(gè)改進(jìn)的方法是所謂 Region Proposa，l 即預(yù)先找出物體可能在的位置。這里需要提到以下幾個(gè)概念。loU: In tersectio n over Un io n, Regio n Proposal 與 Ground Truth 的窗口的交集比并集的比值，如果 IoU 低于 0.5，那么相當(dāng)于目標(biāo)還是沒有檢測到。 Ground Truth 就是實(shí)際物體真實(shí)的區(qū)域。mAP，mean Average Prec

16、ision平均精度均值。是對多個(gè)驗(yàn)證集求 PR曲線的均值。PR曲線是Precision和Recall作為橫縱坐標(biāo)軸的曲線，Precision是準(zhǔn)確率，即檢測出的樣本有多少是正確的， Recall 是召回率，即應(yīng)該被檢測出的樣本有多少被檢測出來。PR曲線越高，說明算法越好，即又多又準(zhǔn)。3.2 典型的算法從 2014年的 R-CNN（Region p ro posa l+C N N ）開始，出現(xiàn)了一系列目標(biāo)檢測算法，從 R-CNN 至U fast R-CNN 和 faster R-CNN，以及 SPP-NET，R-FCN，還有 YOLOv1v3 和 SSD、 DSSD。R-CNN :采用

17、 selective search 方法（一種 Region Proposal 方法，Region Proposal的方法有selective search edge box）進(jìn)行區(qū)域選擇，選出2000個(gè)左右。將每個(gè)區(qū)域縮放至227X 227,再送入CNN計(jì)算特征，最后由SVM （支持向量機(jī)）分類。很明顯， R-CNN 很慢SPP-NET：為了加快R-CNN的速度，采取對一副圖像的多個(gè) Region Proposal 一次提取特征。這就要求網(wǎng)絡(luò)必須適應(yīng)不同尺寸的圖像。方法是在全連接層之前加入一個(gè)網(wǎng)絡(luò)層，讓它對任意尺寸的輸入產(chǎn)生固定的輸出（將圖像分成16、4、1個(gè)塊）。SPP-NET訓(xùn)練

18、步驟繁瑣，并且仍然不夠快。fast R-CNN：與R-CNN相比，fast R-CNN在最后一個(gè)卷積層后加了一個(gè) ROI pooling layer，同時(shí)損失函數(shù)使用了多任務(wù)損失函數(shù)（multi-task loss），將邊框回歸直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練，最后用softmax替代SVM進(jìn)行分類。fast R-CNN 不是真正的端到端訓(xùn)練測試，還是需要 selective search來進(jìn)行Region Proposal, 所以還是不夠快，不能做實(shí)時(shí)的檢測。Faster R-CNN：采用 RPN （ Region Proposal Networks）用 Anchor 機(jī)制和邊框回歸直接得到多

19、尺度多長寬比的 Region Proposal。 Fast R-CNN 做到了真正的端到端，但可惜的是仍然不能達(dá)到實(shí)時(shí)檢測。 RPN需要詳細(xì)了解一下。R-FCN: Object Detection via Region-based Fully Convolutional Networks,基于區(qū)域的全卷積網(wǎng)絡(luò)物體檢測。嫁接 ResNet的卷積層，采用RPN獲取ROI，針對每個(gè)ROI，在POOL之前加入位置信息（通過 score map）。R-FCN的score map 計(jì)算有點(diǎn)繞，需要慢慢理解。YOLO :雖然精度不是最好，但確是目前實(shí)時(shí)性最好的算法，可以在視頻中實(shí)時(shí)檢測出很多物體。

20、倒也符合人類視覺的特點(diǎn)，一眼望去先看個(gè)大概，要想看細(xì)節(jié)，那就定格仔細(xì)看吧。 YOLO 系列的算法后面詳細(xì)總結(jié)。SSD: SSD結(jié)合了 YOLO中的回歸思想和 Faster R-CNN中的anchor機(jī)制，使用全圖各個(gè)位置的多尺度區(qū)域特征進(jìn)行回歸，既保持了 YOLO速度快的特性，也保證了窗口預(yù)測的跟 Faster R-CNN 一樣比較精準(zhǔn)。一般后續(xù)出現(xiàn)的算法都會與之前的算法做性能對比， SSD 和 YOLOv1 比， YOLOv2、v3又和SSD比，在不同的訓(xùn)練集上也有不同的 mAP，看起來真是眼花繚亂。因?yàn)闄C(jī)緣巧合，我先接觸到 YOLO 系列算法，在自己的電腦上運(yùn)行 DEMO，

21、也仔細(xì)看了 YOLO 的發(fā)展，于是給一個(gè)稍微詳細(xì)的總結(jié)。3.3 YOLO 系列算法YOLO 算法主要是針對以往物體檢測算法速度較慢的弊端，利用一個(gè)單獨(dú)的端到端網(wǎng)絡(luò)，將原始圖像輸入，直接輸出物體位置和類別。YOLO沒有顯式的求取 Region Proposal的過程（R-CNN 和 Fast R-CNN 采用 selective search獲取，F(xiàn)aster R-CNN和R-FCN則采用了 RPN）°YOLO的名字也來自于其核心特征：You Only Look Once，只看一次。從2015年到2018年3月，YOLO 共出了三個(gè)版本 v1、v2 （YOLO9000 ）、 v3，

22、性能逐漸提高，mAP與其它算法持平或略勝一籌。3.3.1 YOLOvIYOLO將對象檢測框架化為空間分離邊界框和相關(guān)類別概率的回歸問題。單個(gè)神經(jīng)網(wǎng)絡(luò)在一次評估中直接從完整圖像預(yù)測邊界框和類概率。由于整個(gè)檢測流水線是單個(gè)網(wǎng)絡(luò)，因此可以直接針對檢測性能端到端地進(jìn)行優(yōu)化，使得統(tǒng)一架構(gòu) 非?？臁；A(chǔ)YOLO模型以45幀/秒的速度實(shí)時(shí)處理圖像。較小版本的網(wǎng)絡(luò)FastYOLO每秒處理可達(dá)155幀，同時(shí)實(shí)現(xiàn)其他實(shí)時(shí)檢測器的 mAP的兩倍。與最先進(jìn)的檢測系統(tǒng)相比，YOLO產(chǎn)生更多的定位誤差，但不太可能預(yù)測背景上的誤報(bào)。最后，YOLO表現(xiàn)出對目標(biāo)識別很好的通用性。YOLO檢測網(wǎng)絡(luò)有24個(gè)卷積層，其

23、次是2個(gè)完全連接的層。交替的1X1 卷積層減少了來自前面層的特征空間。在分辨率的一半（224 * 224輸入圖像）上預(yù)分割I(lǐng)mageNet分類任務(wù)上的卷積圖層，然后將分辨率加倍以進(jìn)行檢測。Ccm*.Cofw. Layers Cotw. 古 Corw.3(31024I>clk3561x1x5923x3jcI3x31024310242ilAcLipwl Lay*!1 MjjpagJJxixBCufliY. LuyrYOLO將輸入圖像分成SX S個(gè)格子，若某個(gè)物體 Ground truth的中心位置的坐標(biāo)落入到某個(gè)格子，那么這個(gè)格子就負(fù)責(zé)檢測出這個(gè)物體。每個(gè)邊界框由5個(gè)預(yù)測組成：x，y，w

24、，h和置信度。（x, y）坐標(biāo)表示相對于網(wǎng)格單元邊界的框的中心。寬度和高度是相對于整個(gè)圖像預(yù)測的。最后，置信度預(yù)測表示預(yù)測框與任何 ground truth框之間的IOU。每個(gè)網(wǎng)格單元還預(yù)測 C條件類概率Pr (Classi|Object)。這些概率取決于包含對象的網(wǎng)格單元。僅預(yù)測每個(gè)網(wǎng)格單元的一組類概率，而不管箱B的數(shù)量。在測試時(shí)間，將條件類概率和單個(gè)盒子置信度預(yù)測相乘，ICbject) *(D這給出了每個(gè)盒子的類別特定置信度評分。這些分?jǐn)?shù)編碼該類出現(xiàn)在盒子中的概率以及預(yù)測盒子如何適合該對象。 YOLO的輸出維度為SX SX (B X 5+C)。檢測中采用了 S=7, B=2, C=

25、20。YOLO對占比較小的目標(biāo)檢測效果一般。雖然每個(gè)格子可以預(yù)測B個(gè)bounding box，但是最終只選擇IOU最高的bounding box作為物體檢測輸出，即每個(gè)格子最多只能預(yù)測出一個(gè)物體。當(dāng)物體占畫面比例較小，如圖像中包含鳥群時(shí)，每個(gè)格子包含多個(gè)物體，但卻只能檢測出其中一個(gè)。YOLO訓(xùn)練時(shí)的Loss函數(shù)如下A B刀52謂(啦一軌)"+ (城盹尸 7=0K - /i i + (21S2 B十入 w 52 52i =0 j =0滬 BuU j = 0s2+22 (Pi(c) -?i(c)氐二仃c classes其中?coorc=5， 2ooobj=0.5，是權(quán)重系數(shù)。公式包括三

26、部分，分別是坐標(biāo)誤差、IOU誤差和分類誤差3.3.2 YOLO9000Y0L0v2對之前的版本做了改進(jìn)。取消了 dropout,在卷積層全部使用BatchNormalization ；采用448X 448的分辨率訓(xùn)練檢測網(wǎng)絡(luò)；借鑒 Faster R-CNN的思想預(yù)測bbox的偏移，移除了全連接層，并且刪掉了一個(gè)POOL層使特征的分辨率更大。網(wǎng)絡(luò)結(jié)構(gòu)圖如下:layer0conv323X1旳日耳耳conv64X3xaxX4conv128X5ccnv641X6ccnv1283XFTimaxX8conv3Xgccnv1X10ccnv3X11maA9X12conv5123X13conv2561X14co

27、nv5123X15CODY2561X16conv5123X17max2X18ccnv10243X19conv5121X20conv10243X2Lconv5121X22ccnv10243X23conv10243X24ccnv10243X25route1626conv641X27reorg28route27 2429conv10243X30CORY4251XJ 1血1 ectionf iL t巴丄51 / 13 f 1 2/23 / 11 / 13 / 1° # 仃 £ f £3 f 11 / 13 / 11 / 13 / 19/73 / 11 / 13 / 11

28、/ 13 / 13 / 13 / 14164162082081041041041045252525226262626262613131313131313X 416x 416k 208x 208x 104x 104k 104X 104x 52x 52x 52x 52x 26x 26x 26x 26x 26x 26x 13x 13x 13x 13x 13x 13x 13injutx 3 k 32x 32x 64垃64x 128x 64x 128x 128x 256x 128x 256x 256x 512k 256x 512x 256x 512 a 512 X1024X 512K1O24x 512x

29、l024xl024->->->416 x208 x208 x104 a104 x104 x104 xoilLput416 x208 x208 x104 xJ04 x104 x1Q4 x323264641286412826262626k 512x 6413131313X1280xl02452X52x 128->52X52x 256->52X52x 128->52X52x 256->26X26x 256->26X26x 512->26X26x 256->26瓦26x 512->26X26x 2562B5t26x 512->L3

30、X13x 512->13X13X1024->13X13x 51213X13X1024->L3X13x 512->L3X13xl024L3X13X102413X13xl024->26X26x 64->L3X13x 256->13X13X1Q24->L3X13x 425YOLOv2的性能比v1有了提升，具體數(shù)據(jù)在v3部分進(jìn)行對比3.3.3 YOLOv3YOLOv3是2018年3月25號發(fā)布的，里面對當(dāng)前各種物體檢測算法做了性能對比Methodd 34B SSD321C DSSD321D R-FGN EJSSD513 FJDSSD513 G FPN F

31、RCN RetinaNet-50-500 RetinaNeM 01 *500 RetinaNet-101-800 VOLOv3-320 YOLOvS-416YQLOv3-eOS0092225482008 89 13624781 32 2 2333332 3315 56 0Q 81251501727390侃222951 YOILOV3 H- FtetinaTNet-50 -RetinahieMOI mAP time50100150200250inference time （ms）Figure 1. Wd adapt this figure from the Focal Loss paper .Y

32、OLO、：3 runs significantly faster than other detection methodswith comparable performance- Times from eitheran M40 or TitanX, they are basically the same GPU.在320 * 320分辨率下，YOLOv3達(dá)到28.2 mAP、22 ms,與SSD 樣精確，但速度提高了三倍。對舊的0.5 IOU mAP檢測指標(biāo)YOLOv3表現(xiàn)不俗。在Titan X 上，它達(dá)到了 51 ms、57.9 AP50,而 Ret in aNet 則是 198 ms、57.5 AP50,性能相似，但是快了 3.8倍。YOLOv3主要在多尺度預(yù)測、基礎(chǔ)分類網(wǎng)絡(luò)及分類器上做了改進(jìn)。采用多尺度預(yù)測，每種

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記

文檔簡介

溫馨提示

最新文檔

評論

深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔