深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第1頁
深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第2頁
深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第3頁
深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第4頁
深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、深度神經(jīng)網(wǎng)絡(luò)及目標(biāo)檢測學(xué)習(xí)筆記https:/youtu.be/MPU2HistivI上面是一段實(shí)時(shí)目標(biāo)識別的演示, 計(jì)算機(jī)在視頻流上標(biāo)注出物體的類別, 包 括人、汽車、自行車、狗、背包、領(lǐng)帶、椅子等。今天的計(jì)算機(jī)視覺技術(shù)已經(jīng)可以在圖片、 視頻中識別出大量類別的物體, 甚 至可以初步理解圖片或者視頻中的內(nèi)容, 在這方面,人工智能已經(jīng)達(dá)到了 3 歲兒 童的智力水平。 這是一個(gè)很了不起的成就, 畢竟人工智能用了幾十年的時(shí)間, 就 走完了人類幾十萬年的進(jìn)化之路,并且還在加速發(fā)展。道路總是曲折的, 也是有跡可循的。 在嘗試了其它方法之后, 計(jì)算機(jī)視覺在 仿生學(xué)里找到了正確的道路 (至少目前看是正確的)

2、。通過研究人類的視覺原理, 計(jì)算機(jī)利用深度神經(jīng)網(wǎng)絡(luò)( Deep Neural Network,NN )實(shí)現(xiàn)了對圖片的識別, 包括文字識別、物體分類、圖像理解等。在這個(gè)過程中,神經(jīng)元和神經(jīng)網(wǎng)絡(luò)模型、 大數(shù)據(jù)技術(shù)的發(fā)展,以及處理器(尤其是 GPU)強(qiáng)大的算力,給人工智能技術(shù) 的發(fā)展提供了很大的支持。本文是一篇學(xué)習(xí)筆記,以深度優(yōu)先的思路,記錄了對深度學(xué)習(xí)(Deep Learning) 的簡單梳理,主要針對計(jì)算機(jī)視覺應(yīng)用領(lǐng)域。一、神經(jīng)網(wǎng)絡(luò)1.1 神經(jīng)元和神經(jīng)網(wǎng)絡(luò)神經(jīng)元是生物學(xué)概念, 用數(shù)學(xué)描述就是: 對多個(gè)輸入進(jìn)行加權(quán)求和, 并經(jīng)過 激活函數(shù)進(jìn)行非線性輸出。由多個(gè)神經(jīng)元作為輸入節(jié)點(diǎn),則構(gòu)成了簡單的單層

3、神經(jīng)網(wǎng)絡(luò)(感知器) ,可 以進(jìn)行線性分類。兩層神經(jīng)網(wǎng)絡(luò)則可以完成復(fù)雜一些的工作, 比如解決異或問題, 而且具有非常好的非線性分類效果。而多層(兩層以上)神經(jīng)網(wǎng)絡(luò),就是所謂的 深度神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的工作原理就是神經(jīng)元的計(jì)算, 一層一層的加權(quán)求和、 激活, 最終 輸出結(jié)果。深度神經(jīng)網(wǎng)絡(luò)中的參數(shù)太多(可達(dá)億級) ,必須靠大量數(shù)據(jù)的訓(xùn)練來 設(shè)置。訓(xùn)練的過程就好像是剛出生的嬰兒, 在父母一遍遍的重復(fù)中學(xué)習(xí) “這是蘋 果”、“那是汽車”。有人說,人工智能很傻嘛,到現(xiàn)在還不如三歲小孩。其實(shí)可 以換個(gè)角度想: 剛出生嬰兒就好像是一個(gè)裸機(jī), 這是經(jīng)過幾十萬年的進(jìn)化才形成 的,然后經(jīng)過幾年的學(xué)習(xí),就會認(rèn)識圖片和

4、文字了;而深度學(xué)習(xí)這個(gè)“裸機(jī)”用 了幾十年就被設(shè)計(jì)出來, 并且經(jīng)過幾個(gè)小時(shí)的 “學(xué)習(xí)”,就可以達(dá)到這個(gè)水平了。1.2 BP 算法神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就是它的參數(shù)不斷變化收斂的過程。 像父母教嬰兒識圖認(rèn)字 一樣,給神經(jīng)網(wǎng)絡(luò)看一張圖并告訴它這是蘋果, 它就把所有參數(shù)做一些調(diào)整, 使 得它的計(jì)算結(jié)果比之前更接近“蘋果”這個(gè)結(jié)果。經(jīng)過上百萬張圖片的訓(xùn)練,它 就可以達(dá)到和人差不多的識別能力, 可以認(rèn)出一定種類的物體。 這個(gè)過程是通過 反向傳播(Back Propagation BP)算法來實(shí)現(xiàn)的。建議仔細(xì)看一下 BP 算法的計(jì)算原理,以及跟蹤一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)來體會 訓(xùn)練的過程。1.3 小結(jié)人工神經(jīng)網(wǎng)絡(luò)就是根

5、據(jù)人的神經(jīng)元模型而構(gòu)建的一個(gè)感知算法, 利用大量的 神經(jīng)元組合對人的認(rèn)知行為進(jìn)行擬合。 目前我們?nèi)匀粺o法精確的知道它為什么能 工作、如何工作,如同我們?nèi)匀粺o法精確知道人的大腦是如何工作一樣。在摸索過程中,我們好像應(yīng)該更多地思考人類自己是怎么去“看”的,這會 更有助于設(shè)計(jì)更好的算法。 比如本文開頭的視頻識別算法, 它很快,但是不夠精 確,而有些可以“看清”細(xì)節(jié)的算法,就會非常慢。就像我們?nèi)祟愖约?,走馬觀 花只能看到概貌,駐足觀賞才能看清細(xì)節(jié)。我們越了解自己,就越能做得更好。二、卷積神經(jīng)網(wǎng)絡(luò)2.1 簡介卷積神經(jīng)網(wǎng)絡(luò)(Convocational Neural Network, CNN)是一個(gè)特殊的深

6、層神 經(jīng)網(wǎng)絡(luò),目前在計(jì)算機(jī)視覺領(lǐng)域廣泛使用, 可以認(rèn)為它是一個(gè)二維向量 (圖片就 是一個(gè)二維向量)的感知器。CNN 算法的核心是對圖像(二維向量)進(jìn)行矩陣卷積運(yùn)算,這就相當(dāng)于是 對圖像進(jìn)行加權(quán)求和。為了減小計(jì)算量, CNN 采用了局部感知和權(quán)值共享的方 法。局部感知,就是用一個(gè)N X N (如N=3)的矩陣(稱為卷積核)去滑動掃描 圖像,進(jìn)行卷積運(yùn)算。權(quán)值共享,就是掃描圖片的滑動矩陣的權(quán)值是共享的(相 同的)。在實(shí)際運(yùn)算中,這個(gè)卷積核相當(dāng)于一個(gè)特征提取的過濾器( filter) 。舉例 來說,假設(shè)一個(gè)10X 10的圖像,用一個(gè)3X 3的卷積核以步長1做一次卷積運(yùn)算, 那么會得到一個(gè)8X 8的特

7、征圖(feature map)。為了使得到的feature map和原圖 等大小,一般給原圖進(jìn)行擴(kuò)充為 12X 12,這樣卷積一次以后,得到的仍然是 10 X 10大小的圖像。在這個(gè)例子中,如果不采用權(quán)值共享,則一共需要100個(gè)權(quán)值參數(shù),權(quán)值共享后,只需要 3X 3=9 個(gè)權(quán)值參數(shù)。在實(shí)際中,一個(gè) RGB 圖像是三個(gè)通道,而卷積核也可能有多個(gè)。這樣計(jì)算 起來會比上面的例子復(fù)雜些,但基本原理是一樣的。2.2 CNN 計(jì)算流程一個(gè)典型的 CNN 算法的流程大概是這樣的:首先是輸入,然后是 n 個(gè)卷積 和池化的組合,最后全連接層感知分類。在這個(gè)流程里, 卷積運(yùn)算主要是用來提取特征。 一個(gè)典型的卷積計(jì)

8、算如下圖 所示。<卷積計(jì)算示意圖 >圖中 input 是同一個(gè)圖像的三個(gè)通道, 周邊有填充 0;有兩個(gè)卷積核 Filter W0 和Filter W1,一個(gè)filter滑動到一個(gè)位置后計(jì)算三個(gè)通道的卷積,求和,加bias,得到這個(gè) filter 在該位置的最終結(jié)果; 每個(gè) filter 的輸出是各個(gè)通道的匯總; 輸出 的個(gè)數(shù)與 filter 個(gè)數(shù)相同。在這里還要加上激活函數(shù),對計(jì)算結(jié)果進(jìn)行非線性變 換。常用的激活函數(shù)有 tanh、ReLU、sigmoid 等。激活函數(shù)的作用好像可以解釋 為:過濾掉一些可以忽略的不重要因素,以避免其對決策產(chǎn)生過度影響。池化是為了降維,有最大池化(Ma

9、x Pooling)和平均池化(Average Pooling)。 一個(gè) 2X 2 最大池化的示例如下圖。Single depth slice/I 1023X4668311012246834最后是全連接層,它將前面卷積層提取的特征映射到樣本標(biāo)記空間,它輸出一個(gè)分類的概率,也就是最終的結(jié)果。2.3典型的CNN模型LeNet,最早用于數(shù)字識別的 CNN,用5X 5卷積核,2X 2最大池化,識別 輸入為28X 28的灰度點(diǎn)陣,網(wǎng)絡(luò)結(jié)構(gòu)是(CONV POOL CONV POOL CONV FC)。AlexNet,2012 ImageNet比賽第一名,準(zhǔn)確度超過第二名 10%。網(wǎng)絡(luò)結(jié)構(gòu)如 下圖。5個(gè)CO

10、NV、3個(gè)POOL、2個(gè)LRN、3個(gè)FC,卷積核分別是11X 11、5 X 5、3X 3,采用ReLU作為激活函數(shù)。paramsAlexNetFLOPs4M '_FC 1000_21 4M16M 二FC4096/ReLU二| 16M37 M442K1.3M884KFC 4096/ReLU37MMax Pool 3x3s2 *Conv 3綽§1, 256 / ReLU |Conv 3x3s1t 384 I Re LUConv 3x3s1, 384 J Re LUMax Pool 3x3s274M112M149MLocal Response Norm307K223MCofw 5x

11、5閃,256 】FteLLT"!Max Poo! 3x3s2|Local Response Norm35K Conv 11x11s4, 96 1 ReLU 105MVGG,有跟多的卷積層(1619),使用3X 3卷積核。GoogLeNet,采用Inception來減少參數(shù)(用1X1卷積核降維)。ResNe,很多很多層的網(wǎng)絡(luò),從152層到據(jù)說上千層。采用殘差網(wǎng)絡(luò)來解決 多層網(wǎng)絡(luò)難以訓(xùn)練的問題。以上網(wǎng)絡(luò)的對比如下表。AlexN«tVGGGoogleNetRetNet初人江期20122014201-q201519221152Top易惜溟16.47.課6.7%3 57%Aug me

12、n taiion4-*+Inceptian(NIN)i-5162115111,5.37.1.35亍i!站蚊I40 繩 40&4加00311卻加6曲 100010001000D rope mt+Local R#sponie Normal iz*tion<Batch Normalization一2.4訓(xùn)練集應(yīng)該可以感受到,人工智能也好,深度學(xué)習(xí)也好,算法的優(yōu)劣是一方面,而 訓(xùn)練數(shù)據(jù)集的好壞,對最終的效果影響更大。而訓(xùn)練集又非常難做,需要大量的 數(shù)據(jù),且標(biāo)記這些數(shù)據(jù)需要巨大的工作量(過去的8年ImageNet就在做這個(gè)工作)。逐漸,一些數(shù)據(jù)集就慢慢出了名。很多算法的性能

13、數(shù)據(jù)都會指明是在哪個(gè) 數(shù)據(jù)集上訓(xùn)練的。一些有名的數(shù)據(jù)集如下。MNIST :深度學(xué)習(xí)領(lǐng)域的“ Hello World!”,一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)庫,有 60000 個(gè)訓(xùn)練樣本集和10000個(gè)測試樣本集,每個(gè)樣本圖像的寬高為 28*28。數(shù)據(jù)集以 二進(jìn)制存儲,不能直接查看。數(shù)據(jù)集大小為 12M。ImageNet: MIT李飛飛團(tuán)隊(duì)過去幾年的成果,目前有1400多萬幅圖片,涵蓋2萬多個(gè)類別。數(shù)據(jù)集大小為1To ImageNet根據(jù)WordNet層次(目前只有名 詞)組織的一個(gè)圖像數(shù)據(jù)庫,其中每個(gè)節(jié)點(diǎn)的層次結(jié)構(gòu)是由成千上萬的圖像描繪。 目前,有平均每個(gè)節(jié)點(diǎn)超過五百的圖像。COCO: Com mon Obje

14、cts in Con text,是一個(gè)新的圖像識別、分割、和字幕 數(shù)據(jù)集,由微軟贊助,具有上下文識別、語義描述等特點(diǎn)。數(shù)據(jù)集大小為40G。PASCAL VOC :圖片集包括20個(gè)目錄,數(shù)據(jù)集圖像質(zhì)量好,標(biāo)注完備,非 常適合用來測試算法性能。數(shù)據(jù)集大小為 2G。由于數(shù)據(jù)集生成有一定難度且工作量巨大,兩年來GAN ( GenerativeAdversarial Nets,生成對抗網(wǎng)絡(luò))快速發(fā)展,并在很多應(yīng)用場景的訓(xùn)練集生成產(chǎn) 生了巨大作用,比如車牌識別。三、物體檢測3.1 檢測流程在實(shí)際場景中, 我們需要在一副圖像中找出有哪些物體, 這是一個(gè)多對多的 映射(所謂的回歸)。按照已有的 CNN 方法,

15、常規(guī)的檢測流程就是:先找到哪 些區(qū)域有物體,然后再用 CNN 來對其分類。區(qū)域選擇最原始的辦法就是用不同大小的滑動窗口對整幅圖像進(jìn)行掃描。 這 樣不但計(jì)算量大,也容易造成誤判。一個(gè)改進(jìn)的方法是所謂 Region Proposa,l 即 預(yù)先找出物體可能在的位置。這里需要提到以下幾個(gè)概念。loU: In tersectio n over Un io n, Regio n Proposal 與 Ground Truth 的窗口的交集 比并集的比值,如果 IoU 低于 0.5,那么相當(dāng)于目標(biāo)還是沒有檢測到。 Ground Truth 就是實(shí)際物體真實(shí)的區(qū)域。mAP,mean Average Prec

16、ision平均精度均值。是對多個(gè)驗(yàn)證集求 PR曲線 的均值。PR曲線是Precision和Recall作為橫縱坐標(biāo)軸的曲線,Precision是準(zhǔn)確 率,即檢測出的樣本有多少是正確的, Recall 是召回率,即應(yīng)該被檢測出的樣本 有多少被檢測出來。PR曲線越高,說明算法越好,即又多又準(zhǔn)。3.2 典型的算法從 2014年的 R-CNN(Region p ro posa l+C N N )開始,出現(xiàn)了一系列目標(biāo)檢 測算法,從 R-CNN 至U fast R-CNN 和 faster R-CNN,以及 SPP-NET,R-FCN,還 有 YOLOv1v3 和 SSD、 DSSD。R-CNN :采用

17、 selective search 方法(一種 Region Proposal 方法,Region Proposal的方法有selective search edge box)進(jìn)行區(qū)域選擇,選出2000個(gè)左右。 將每個(gè)區(qū)域縮放至227X 227,再送入CNN計(jì)算特征,最后由SVM (支持向量機(jī))分類。很明顯, R-CNN 很慢SPP-NET:為了加快R-CNN的速度,采取對一副圖像的多個(gè) Region Proposal 一次提取特征。 這就要求網(wǎng)絡(luò)必須適應(yīng)不同尺寸的圖像。 方法是在全連接層之前 加入一個(gè)網(wǎng)絡(luò)層,讓它對任意尺寸的輸入產(chǎn)生固定的輸出(將圖像分成16、4、1個(gè)塊)。SPP-NET訓(xùn)練

18、步驟繁瑣,并且仍然不夠快。fast R-CNN:與R-CNN相比,fast R-CNN在最后一個(gè)卷積層后加了一個(gè) ROI pooling layer,同時(shí)損失函數(shù)使用了多任務(wù)損失函數(shù)(multi-task loss),將邊框回歸 直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練,最后用softmax替代SVM進(jìn)行分類。fast R-CNN 不是真正的端到端訓(xùn)練測試,還是需要 selective search來進(jìn)行Region Proposal, 所以還是不夠快,不能做實(shí)時(shí)的檢測。Faster R-CNN:采用 RPN ( Region Proposal Networks)用 Anchor 機(jī)制和邊 框回歸直接得到多

19、尺度多長寬比的 Region Proposal。 Fast R-CNN 做到了真正的 端到端,但可惜的是仍然不能達(dá)到實(shí)時(shí)檢測。 RPN需要詳細(xì)了解一下。R-FCN: Object Detection via Region-based Fully Convolutional Networks,基于 區(qū)域的全卷積網(wǎng)絡(luò)物體檢測。嫁接 ResNet的卷積層,采用RPN獲取ROI,針對 每個(gè)ROI,在POOL之前加入位置信息(通過 score map)。R-FCN的score map 計(jì)算有點(diǎn)繞,需要慢慢理解。YOLO :雖然精度不是最好,但確是目前實(shí)時(shí)性最好的算法,可以在視頻中 實(shí)時(shí)檢測出很多物體。

20、倒也符合人類視覺的特點(diǎn), 一眼望去先看個(gè)大概, 要想看 細(xì)節(jié),那就定格仔細(xì)看吧。 YOLO 系列的算法后面詳細(xì)總結(jié)。SSD: SSD結(jié)合了 YOLO中的回歸思想和 Faster R-CNN中的anchor機(jī)制, 使用全圖各個(gè)位置的多尺度區(qū)域特征進(jìn)行回歸, 既保持了 YOLO速度快的特性, 也保證了窗口預(yù)測的跟 Faster R-CNN 一樣比較精準(zhǔn)。一般后續(xù)出現(xiàn)的算法都會與之前的算法做性能對比, SSD 和 YOLOv1 比, YOLOv2、v3又和SSD比,在不同的訓(xùn)練集上也有不同的 mAP,看起來真是眼 花繚亂。因?yàn)闄C(jī)緣巧合,我先接觸到 YOLO 系列算法,在自己的電腦上運(yùn)行 DEMO,

21、也仔細(xì)看了 YOLO 的發(fā)展,于是給一個(gè)稍微詳細(xì)的總結(jié)。3.3 YOLO 系列算法YOLO 算法主要是針對以往物體檢測算法速度較慢的弊端, 利用一個(gè)單獨(dú)的端到端網(wǎng)絡(luò),將原始圖像輸入,直接輸出物體位置和類別。YOLO沒有顯式的求 取 Region Proposal的過程(R-CNN 和 Fast R-CNN 采用 selective search獲取,F(xiàn)aster R-CNN和R-FCN則采用了 RPN)°YOLO的名字也來自于其核心特征:You Only Look Once,只看一次。從2015年到2018年3月,YOLO 共出了三個(gè)版本 v1、v2 (YOLO9000 )、 v3,

22、性能逐漸提高,mAP與其它算法持平或略勝一籌。3.3.1 YOLOvIYOLO將對象檢測框架化為空間分離邊界框和相關(guān)類別概率的回歸問題。 單 個(gè)神經(jīng)網(wǎng)絡(luò)在一次評估中直接從完整圖像預(yù)測邊界框和類概率。 由于整個(gè)檢測流 水線是單個(gè)網(wǎng)絡(luò),因此可以直接針對檢測性能端到端地進(jìn)行優(yōu)化, 使得統(tǒng)一架構(gòu) 非??臁;A(chǔ)YOLO模型以45幀/秒的速度實(shí)時(shí)處理圖像。較小版本的網(wǎng)絡(luò)FastYOLO每秒處理可達(dá)155幀,同時(shí)實(shí)現(xiàn)其他實(shí)時(shí)檢測器的 mAP的兩倍。與最先 進(jìn)的檢測系統(tǒng)相比,YOLO產(chǎn)生更多的定位誤差,但不太可能預(yù)測背景上的誤報(bào)。 最后,YOLO表現(xiàn)出對目標(biāo)識別很好的通用性。YOLO檢測網(wǎng)絡(luò)有24個(gè)卷積層,其

23、次是2個(gè)完全連接的層。 交替的1X1 卷積層減少了來自前面層的特征空間。在分辨率的一半(224 * 224輸入圖像)上預(yù)分割I(lǐng)mageNet分類任務(wù)上的卷積圖層,然后將分辨率加倍以進(jìn)行檢測。Ccm*.Cofw. Layers Cotw. 古 Corw.3(31024I>clk3561x1x5923x3jcI3x31024310242ilAcLipwl Lay*!1 MjjpagJJxixBCufliY. LuyrYOLO將輸入圖像分成SX S個(gè)格子,若某個(gè)物體 Ground truth的中心位置 的坐標(biāo)落入到某個(gè)格子,那么這個(gè)格子就負(fù)責(zé)檢測出這個(gè)物體。每個(gè)邊界框由5個(gè)預(yù)測組成:x,y,w

24、,h和置信度。(x, y)坐標(biāo)表示相對于網(wǎng)格單元邊界的框的中心。寬度和高度是相對于整個(gè)圖像預(yù)測的。最后,置信度預(yù)測表示預(yù)測框與任何 ground truth框之間的IOU。每個(gè)網(wǎng)格單元還預(yù)測 C條件類概率Pr (Classi|Object)。這些概率取決于包 含對象的網(wǎng)格單元。僅預(yù)測每個(gè)網(wǎng)格單元的一組類概率,而不管箱B的數(shù)量。在測試時(shí)間,將條件類概率和單個(gè)盒子置信度預(yù)測相乘,ICbject) *(D這給出了每個(gè)盒子的類別特定置信度評分。 這些分?jǐn)?shù)編碼該類出現(xiàn)在盒子中 的概率以及預(yù)測盒子如何適合該對象。 YOLO的輸出維度為SX SX (B X 5+C)。 檢測中采用了 S=7, B=2, C=

25、20。YOLO對占比較小的目標(biāo)檢測效果一般。雖然每個(gè)格子可以預(yù)測B個(gè)bounding box,但是最終只選擇IOU最高的bounding box作為物體檢測輸出,即 每個(gè)格子最多只能預(yù)測出一個(gè)物體。當(dāng)物體占畫面比例較小,如圖像中包含鳥群時(shí),每個(gè)格子包含多個(gè)物體,但卻只能檢測出其中一個(gè)。YOLO訓(xùn)練時(shí)的Loss函數(shù)如下A B刀52謂(啦一軌)"+ (城盹尸 7=0K - /i i + (21S2 B十入 w 52 52i =0 j =0滬 BuU j = 0s2+22 (Pi(c) -?i(c)氐二仃c classes其中?coorc=5, 2ooobj=0.5,是權(quán)重系數(shù)。公式包括三

26、部分,分別是坐標(biāo)誤差、IOU誤差和分類誤差3.3.2 YOLO9000Y0L0v2對之前的版本做了改進(jìn)。取消了 dropout,在卷積層全部使用BatchNormalization ;采用448X 448的分辨率訓(xùn)練檢測網(wǎng)絡(luò);借鑒 Faster R-CNN的思想預(yù)測bbox的偏移,移除了全連接層,并且刪掉了一個(gè)POOL層使特征的分辨率更大。網(wǎng)絡(luò)結(jié)構(gòu)圖如下:layer0conv323X1旳日耳耳conv64X3xaxX4conv128X5ccnv641X6ccnv1283XFTimaxX8conv3Xgccnv1X10ccnv3X11maA9X12conv5123X13conv2561X14co

27、nv5123X15CODY2561X16conv5123X17max2X18ccnv10243X19conv5121X20conv10243X2Lconv5121X22ccnv10243X23conv10243X24ccnv10243X25route1626conv641X27reorg28route27 2429conv10243X30CORY4251XJ 1血1 ectionf iL t巴丄51 / 13 f 1 2/23 / 11 / 13 / 1° # 仃 £ f £3 f 11 / 13 / 11 / 13 / 19/73 / 11 / 13 / 11

28、/ 13 / 13 / 13 / 14164162082081041041041045252525226262626262613131313131313X 416x 416k 208x 208x 104x 104k 104X 104x 52x 52x 52x 52x 26x 26x 26x 26x 26x 26x 13x 13x 13x 13x 13x 13x 13injutx 3 k 32x 32x 64垃64x 128x 64x 128x 128x 256x 128x 256x 256x 512k 256x 512x 256x 512 a 512 X1024X 512K1O24x 512x

29、l024xl024->->->416 x208 x208 x104 a104 x104 x104 xoilLput416 x208 x208 x104 xJ04 x104 x1Q4 x323264641286412826262626k 512x 6413131313X1280xl02452X52x 128->52X52x 256->52X52x 128->52X52x 256->26X26x 256->26X26x 512->26X26x 256->26瓦26x 512->26X26x 2562B5t26x 512->L3

30、X13x 512->13X13X1024->13X13x 51213X13X1024->L3X13x 512->L3X13xl024L3X13X102413X13xl024->26X26x 64->L3X13x 256->13X13X1Q24->L3X13x 425YOLOv2的性能比v1有了提升,具體數(shù)據(jù)在v3部分進(jìn)行對比3.3.3 YOLOv3YOLOv3是2018年3月25號發(fā)布的,里面對當(dāng)前各種物體檢測算法做了性能對比Methodd 34B SSD321C DSSD321D R-FGN EJSSD513 FJDSSD513 G FPN F

31、RCN RetinaNet-50-500 RetinaNeM 01 *500 RetinaNet-101-800 VOLOv3-320 YOLOvS-416YQLOv3-eOS0092225482008 89 13624781 32 2 2333332 3315 56 0Q 81251501727390侃222951 YOILOV3 H- FtetinaTNet-50 -RetinahieMOI mAP time50100150200250inference time (ms)Figure 1. Wd adapt this figure from the Focal Loss paper .Y

32、OLO、:3 runs significantly faster than other detection methodswith comparable performance- Times from eitheran M40 or TitanX, they are basically the same GPU.在320 * 320分辨率下,YOLOv3達(dá)到28.2 mAP、22 ms,與SSD 樣精確, 但速度提高了三倍。對舊的0.5 IOU mAP檢測指標(biāo)YOLOv3表現(xiàn)不俗。在Titan X 上,它達(dá)到了 51 ms、57.9 AP50,而 Ret in aNet 則是 198 ms、57.5 AP50,性能 相似,但是快了 3.8倍。YOLOv3主要在多尺度預(yù)測、基礎(chǔ)分類網(wǎng)絡(luò)及分類器上做了改進(jìn)。采用多尺度預(yù)測,每種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論