深度學(xué)習(xí)基礎(chǔ) (1)講解_第1頁
深度學(xué)習(xí)基礎(chǔ) (1)講解_第2頁
深度學(xué)習(xí)基礎(chǔ) (1)講解_第3頁
深度學(xué)習(xí)基礎(chǔ) (1)講解_第4頁
深度學(xué)習(xí)基礎(chǔ) (1)講解_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

123CONTENT深度學(xué)習(xí)簡介——深度學(xué)習(xí)概述?

自2006年,深度學(xué)習(xí)(Deep

Learning)已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個新興領(lǐng)域,通常也被叫做深層結(jié)構(gòu)學(xué)習(xí)或分層學(xué)習(xí)。其動機(jī)在于建立、模擬人腦進(jìn)行分析、學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)被引入,使得機(jī)器學(xué)習(xí)更接近于最初的目標(biāo)----人工智能(AI,Artificial

Intelligence)。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。?

深度學(xué)習(xí)就是一種包含多個隱藏層(越多即為越深)的感知機(jī),它通過組合底層特征,形成更為抽象的高層表示,用于描述被識別對象的高級屬性類別或特征。能自生成數(shù)據(jù)的中間表示(這個表示是人為不可理解的)是深度學(xué)習(xí)區(qū)別于其他機(jī)器學(xué)習(xí)算法的獨門絕技。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念回歸(Regression)

y是連續(xù)值(實數(shù)或連續(xù)整數(shù)),f

(x)

的輸出也是連續(xù)值。這種類型的問題就是回歸問題。對于所有已知或未知的

(x,y),使得

f(x,θ

)

y盡可能地一致。損函數(shù)通常定義為平方誤差。分類(Classification)

y是離散的類別標(biāo)記(符號),就是分類問題。損失函數(shù)有一般用

0-1

損失函數(shù)或負(fù)對數(shù)似然函數(shù)等。在分類問題中,通過學(xué)習(xí)得到的決策函數(shù)

f(x,θ

)也叫分類器。聚類(Clustering)

只有原始數(shù)據(jù)x,沒有確定的目標(biāo)f

(x),基于數(shù)據(jù)的內(nèi)部結(jié)構(gòu)尋找觀察樣本的自然族群(即集群)。聚類的特點是訓(xùn)練數(shù)據(jù)沒有標(biāo)注,通常使用數(shù)據(jù)可視化等方式評價結(jié)果。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念聚類回歸分類深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念過擬合、欠擬合深度學(xué)習(xí)簡介——深度學(xué)習(xí)與淺層學(xué)習(xí)?

淺層模型的一個共性是僅含單個將原始輸入信號轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)。典型的淺層學(xué)習(xí)結(jié)構(gòu)包括傳統(tǒng)隱馬爾科夫模型(HMM)、條件隨機(jī)場(CRFs)、最大熵模型(MaxEnt)、支持向量機(jī)(SVM)、核回歸及僅含單隱層的多層感知器(MLP)等。?

淺層結(jié)構(gòu)的局限性在于有限的樣本和計算單元情況下對復(fù)雜的函數(shù)表示能力有限,針對復(fù)雜分類問題其泛化能力受到一定的制約。?

受到大腦結(jié)構(gòu)分層的啟發(fā),神經(jīng)網(wǎng)絡(luò)的研究,發(fā)現(xiàn)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫。?

深度學(xué)習(xí)可以通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本中集中學(xué)習(xí)數(shù)據(jù)及本質(zhì)特征的能力。簡單的說,就是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。因此,“深度模型”是手段,“特征學(xué)習(xí)”是目的。?

強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;?

明確突出了特征學(xué)習(xí)的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息深度學(xué)習(xí)簡介——特征表示?

人工特征工程+分類器分類器(SVM、NB、MaximumEntropy、CRF)特征抽取(Segmentation、PCA、Shape)深度學(xué)習(xí)簡介——特征表示?

自動學(xué)習(xí)多尺度的特征表示Mid-levelFeaturesLow-levelFeaturesHigh-levelFeaturesClassifier深度學(xué)習(xí)簡介——應(yīng)用場景無人駕駛?cè)四樧R別?深度學(xué)習(xí)利用其深層的神經(jīng)網(wǎng)絡(luò),通過一定的算法能訓(xùn)練出一個識別率非常高的分類器,從而能夠使環(huán)境感知部分高精度的完成,為駕駛決策模塊提供正確的環(huán)境信息,保證無人駕駛正常的完成。?人臉信息的識別,是對人臉的信息加以提取然后進(jìn)行識別的辦法,一個最重要的目標(biāo)就是分辨不同人的信息,辨別身份,常用于安放領(lǐng)域,開戶審核,考勤簽到等。面部識別的主要方式有:幾何結(jié)構(gòu)、子空間局部特征以及深度學(xué)習(xí)。文字識別語音識別?基于深度學(xué)習(xí)的文字識別系統(tǒng)的實現(xiàn)方法,屬于圖像處理技術(shù)領(lǐng)域,將包含文字的圖片進(jìn)行預(yù)處理、切分、識別,重組成一段文本,從而實現(xiàn)圖片到文本的轉(zhuǎn)換。涉及到圖像預(yù)處理、圖片切分、圖片識別和文字重組。?一個完整的語音識別系統(tǒng)可大致分為3部分:語音特征提取、聲學(xué)模型與模式匹配和語言模型與語言處理。其中聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。深度學(xué)習(xí)簡介——常用的模型LeNet

YannLeCun在1998年設(shè)計并提出

7層

識別手寫數(shù)字的最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)簡介——常用的模型AlexNet

2012ILSVRCwinner

8層

錯誤率:Less

that40%error(top-1)andlessthan20%(top-5)深度學(xué)習(xí)簡介——常用的模型VGG16

2014牛津大學(xué)提出

16層

錯誤率:ILSVRC比賽中,VGG

在Top-5中錯誤了為7.7%深度學(xué)習(xí)簡介——常用的模型GoogleNet

2014ILSVRCwinner

22層

錯誤率:6.7%深度學(xué)習(xí)簡介——常用的模型ResNet

2015ILSVRCwinner

152層

錯誤率:3.57%前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)??前饋神經(jīng)網(wǎng)絡(luò)的定義前饋神經(jīng)網(wǎng)絡(luò)的理解感知機(jī)??感知機(jī)定義感知機(jī)的理解BP算法?BP算法的定義梯度下降.?前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks前饋神經(jīng)網(wǎng)絡(luò)是一種最簡單的神經(jīng)網(wǎng)絡(luò),各神經(jīng)元分層排列。每個神經(jīng)元只與前一層的神經(jīng)元相連。接收前一層的輸出,并輸出給下一層.各層間沒有反饋。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron感知器是對生物神經(jīng)細(xì)胞的簡單數(shù)學(xué)模擬,是最簡單的人工神經(jīng)網(wǎng)絡(luò),只有一個神經(jīng)元。

感知器也可以看出是線性分類器的一個經(jīng)典學(xué)習(xí)算法。細(xì)胞體(Soma)中的神經(jīng)細(xì)胞膜上有各種受體和離子通道,胞膜的受體可與相應(yīng)的化學(xué)物質(zhì)神經(jīng)遞質(zhì)結(jié)合,引起離子通透性及膜內(nèi)外電位差發(fā)生改變,產(chǎn)生相應(yīng)的生理活動:興奮或抑制。

細(xì)胞突起是由細(xì)胞體延伸出來的細(xì)長部分,又可分為樹突和軸突。?

樹突(Dendrite)可以接受刺激并將興奮傳入細(xì)胞體。每個神經(jīng)元可以有一或多個樹突。?

軸突

(Axons)

可以把興奮從胞體傳送到另一個神經(jīng)元或其他組織。

每個神經(jīng)元只有一個軸突。抑制與興奮神經(jīng)細(xì)胞的狀態(tài)取決于從其它的神經(jīng)細(xì)胞收到的輸入信號量,及突觸的強(qiáng)度(抑制或加強(qiáng))。當(dāng)信號量總和超過了某個閾值時,細(xì)胞體就會興奮,產(chǎn)生電脈沖。電脈沖沿著軸突并通過突觸傳遞到其它神經(jīng)元。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron給定輸入ì+1,x

30x

<0?y

=

f(x)=

sign(wix

+b)sign(x)

í=?

-1,?學(xué)習(xí)規(guī)則:前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptronwix

+b=0前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron感知機(jī)只有輸入層神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)元,其學(xué)習(xí)能力非常有限。事實上,類似與,或,非這樣二類模式且線性可分,即存在一個線性超平面能將它們分開,則感知機(jī)的學(xué)習(xí)過程一定會收斂,否則會發(fā)生振蕩,難以穩(wěn)定,甚至不能解決異或這樣簡單的非線性問題。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法誤差反向傳播信息向前傳播前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法基本原理:利用輸出后的誤差來估算輸出層的前一層的誤差,再用這個誤差估算更前一層的誤差,如此層一層地反傳下去,從而獲得所有其他各層的誤差估計前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法?

屬于監(jiān)督學(xué)習(xí)算法,通過調(diào)節(jié)各層的權(quán)重,使網(wǎng)絡(luò)學(xué)會有“輸入-輸出”組成的訓(xùn)練組?

BP算法的核心是梯度下降法?

權(quán)重從輸出層開始修正,再依次修正各層權(quán)重學(xué)習(xí)的本質(zhì)“對網(wǎng)絡(luò)去權(quán)重作動態(tài)的調(diào)整前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient

Descent)是最常采用的方法之一。梯度下降流程:①

用隨機(jī)值初始化權(quán)重和偏差;②

把輸入傳入網(wǎng)絡(luò),得到輸出值;③

計算預(yù)測值和真實值之間的誤差;④

對每一個產(chǎn)生誤差的神經(jīng)元,調(diào)整相應(yīng)的(權(quán)重)值以減小誤差;⑤

重復(fù)迭代,直至得到網(wǎng)絡(luò)權(quán)重的最佳值。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降例:目標(biāo)函數(shù):初始化,起點為:函數(shù)的微分:根據(jù)梯度下降的計算公式:學(xué)習(xí)率:迭代:θ0=0θ1=θ0-α*J’(θ0)=1-0.4*2=0.2θ2=θ1-α*J’(θ1)=0.04θ3=0.008θ4=0.0016前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降梯度下降,主要考慮兩個問題:一是方向(梯度),二是步長(學(xué)習(xí)率)。方向決定是否走在正確的道路上,而步長決定了要走多久才能都到達(dá)目的地。(圖中的最低處)。對于步長:步長太小,費時間,步長過大,則會出現(xiàn)振蕩現(xiàn)象。卷積神經(jīng)網(wǎng)絡(luò)CNNConvolutionalNeuralNetwork是一種前饋神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)上感受野(Receptive

Field)的機(jī)制而提出的。一個神經(jīng)元的感受野是指特定區(qū)域,只有這個區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。局部鏈接權(quán)值共享平移、縮放和扭曲不變性卷積神經(jīng)網(wǎng)絡(luò)CNN局部鏈接全連接CNNCNN的優(yōu)點參數(shù)減少與權(quán)值共享如下圖所示,如果我們有1000x1000像素的圖像,有1百萬個隱層神經(jīng)元,那么他們?nèi)B接的話(每個隱層神經(jīng)元都連接圖像的每一個像素點),就有

12

個連接,也就是10^12個權(quán)值參數(shù)。1000

1000

1000000=10局部連接網(wǎng)絡(luò),每一個節(jié)點與上層節(jié)點同位置附近10x10的窗口相連接,則1百萬個隱層神經(jīng)元就只有106

100

=

108,即10^8個參數(shù)。其權(quán)值連接個數(shù)比原來減少了四個數(shù)量級。CNN的Convolution過程如圖,原圖像是5*5大小,有25個神經(jīng)元,用一個3*3的卷積核對它進(jìn)行卷積,得到了如右圖所示的卷積后的Featuremap。該特征圖大小為3*3。假設(shè)一種卷積核只提取出圖像的一種特征,所以一般要多個卷積核來提取不同的特征,所以每一層一般都會有多張F(tuán)eaturemap。同一張F(tuán)eaturemap上的神經(jīng)元共用一個卷積核,這大大減少了網(wǎng)絡(luò)參數(shù)的個數(shù)。CNN的Pooling過程圖像具有一種“靜態(tài)性(stationarity)”的屬性,可以對圖像某一個區(qū)域上的特征取平均值

(或最大值)。這種聚合的操作就叫做池化

(pooling)。如果人們選擇圖像中的連續(xù)范圍作為池化區(qū)域,并且只是池化相同(重復(fù))的隱藏單元產(chǎn)生的特征,那么,這些池化單元就具有平移不變性

(translation

invariant)。這就意味著即使圖像經(jīng)歷了一個小的平移之后,依然會產(chǎn)生相同的

(池化的)特征。CNN的Pooling過程CNN的特征映射

Feature

Map為了增強(qiáng)卷積層的表示能力,我們可以使用

K

個不同的濾波器來得到K

組輸出。每一組輸出都共享一個濾波器。如果我們把濾波器看成一個特征提取器,每一組輸出都可以看成是輸入圖像經(jīng)過一個特征抽取后得到的特征。因此,在卷積神經(jīng)網(wǎng)絡(luò)中每一組輸出也叫作一組特征映射(Feature

Map)。目標(biāo)檢測與識別01.傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法定義???目標(biāo)特征提?。ㄕJ(rèn)為設(shè)計特征)目標(biāo)識別目標(biāo)定位目標(biāo)檢測與識別是將圖像或者視頻中目標(biāo)與其他不感興趣的部分進(jìn)行區(qū)分,判斷是否存在目標(biāo),確定目標(biāo)位置,識別目標(biāo)種類的一種計算機(jī)視覺任務(wù)。02.深度學(xué)習(xí)?

目標(biāo)的特征提取?

神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別與定位目標(biāo)的檢測與識別現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測與識別算法大致可以分為三類:基于區(qū)域建議的目標(biāo)檢測與識別算法(R-CNN、Fast

R-CNN、Faster

R-CNN);基于回歸的目標(biāo)檢測與識別算法(YOLO、SSD);基于搜索的目標(biāo)檢測與識別算法(基于視覺注意的AttentionNet、基于強(qiáng)化學(xué)習(xí))目標(biāo)的檢測與識別常用的數(shù)據(jù)集?

ImageNet:包含1400多萬的海量圖像數(shù)據(jù),有著1000個目標(biāo)類別,其中超過百萬的圖片有著明確的類別和位置信息的標(biāo)注,是目前世界上圖像識別最大的數(shù)據(jù)庫?

COCO:微軟公司贊助的一個用于圖像識別,圖像分割,語義標(biāo)注的數(shù)據(jù)集,圖像的標(biāo)注信息包括類別,位置和語義文本描述。有超過30萬幅自然環(huán)境下的日常場景,250萬個目標(biāo)標(biāo)記?

VOC:是一個用于圖像識別,分類,分割的數(shù)據(jù)集,有一萬多幅圖片,20個目標(biāo)類別,分別是人類,動物(鳥,貓,牛,狗,馬,羊),交通工具(飛機(jī),自行車,船,公共汽車,小轎車,摩托車,火車),室內(nèi)(瓶子,椅子,餐桌,盆栽,沙發(fā),電視)。目標(biāo)的檢測與識別常用的框架CaffetensorflowTorch7Keras-TheanoMxNet深度神經(jīng)網(wǎng)絡(luò)的多維數(shù)組流圖的計算平臺支持機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的科學(xué)計算框架輕量化分布式可移植的深度學(xué)習(xí)計算平臺卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)下的快速特征提取包含各種神經(jīng)網(wǎng)絡(luò)的模塊語言語言語言底層語言為C++開發(fā)語言使用python語言C++、Python、Julia、Matlab、R、Scala語言C++/Cuda架構(gòu)支持python和matlab接口CPU和GPUC++/Cuda架構(gòu)編寫開發(fā)使用Cython底層語言為C++腳本語言為LuaJTT支持在CPU和GPU上運行及并行化支持Cuda和云計支持在CPU和GPU支持在CPU和GPU支持在算以及多GPU,多上運行上運行和切換上運行機(jī)節(jié)點的計算典型的網(wǎng)絡(luò)自編碼器深度堆棧網(wǎng)絡(luò)DSN深度置信網(wǎng)絡(luò)DBN典型的網(wǎng)絡(luò)VGGNet、深度復(fù)卷積網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)典型的網(wǎng)絡(luò)LeNet、AlexNet、Detector典型的網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)GAN典型的網(wǎng)絡(luò)深度二值神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)目標(biāo)的檢測與識別R-CNN人?否車?是信號燈?否分類器卷積神經(jīng)網(wǎng)絡(luò)輸入圖像擴(kuò)展候選區(qū)優(yōu)點:利用的不在是人為設(shè)計的特征,而是通過深度學(xué)習(xí)得到的更具表達(dá)力的深度特征,提高了識別的精度采用區(qū)域建議的方式提取可能的目標(biāo),而不是用滑窗的方式去檢測目標(biāo),減少了很多不必要的識別過程加入了邊界回歸的策略來進(jìn)一步提高檢測精度缺點:用區(qū)域檢測的方法,對每個建議區(qū)域都要重新計算整個網(wǎng)絡(luò),運算效率不高沒把區(qū)域建議過程融合在整個深度學(xué)習(xí)模型中,無法做到端到端的處理任務(wù)目標(biāo)的檢測與識別FastR-CNNFastR-CNN在目標(biāo)生成方面沒有改變,但是采用ROIs策略將候選區(qū)映射到CNN模型的特征層上,直接在特征層上提取對應(yīng)區(qū)域的深層特征,避免了不斷輸入不同區(qū)域圖像的部分。然后將提取到的特征直接用Softmax預(yù)測區(qū)域類別,用網(wǎng)絡(luò)來學(xué)習(xí)一個邊界框回歸器。將整個特征提取,分類和邊界回歸都整理成一個部分,提高了整個模型的效率。但Fast

R-CNN仍然用到了候選區(qū)域生成算法,需要識別的區(qū)域仍然很多。目標(biāo)的檢測與識別FasterR-CNNFaster

R-CNN引入了一個新的概念—區(qū)域生成網(wǎng)絡(luò)(Region

ProposalNetworks,RPN)來進(jìn)行目標(biāo)候選區(qū)的提取。從某種意義上講,F(xiàn)aster

R-CNN可以看成是由生成目標(biāo)區(qū)域的RPN和利用這些候選區(qū)域的Fast

R-CNN檢測器組成的,這樣就將整個目標(biāo)候選區(qū)域,深度特征提取,目標(biāo)識別和檢測過程融入在一個深度網(wǎng)絡(luò)中,大大提高了整個網(wǎng)絡(luò)的檢測速度缺不降低檢測精度。RPN為全卷積神經(jīng)網(wǎng)絡(luò),其輸入為任意大小的特征圖,輸出為一系列的舉行目標(biāo)候選區(qū)。目標(biāo)的檢測與識別FasterR-CNN——RPNK個錨點2K分?jǐn)?shù)4K坐標(biāo)分類層回歸層256維中間層滑窗特征圖目標(biāo)的檢測與識別使用方法缺點備注1、SS提取RP;1、

訓(xùn)練步驟繁瑣(微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練bbox);2、

訓(xùn)練、測試均速度慢

;3、

訓(xùn)練占空間1、從DPM

HSC的34.3%直接提升到了66%(mAP);2、引入RP+CNN2、CNN提取特征;R-CNN3、SVM分類;4、BBox盒回歸。1、

依舊用SS提取RP(耗時2-3s,特征提取耗時0.32s);1、SS提取RP;FastR-CNN2、CNN提取特征;3、softmax分類;2、

無法滿足實時應(yīng)用,沒有真正

1、由66.9%提升到70%;實現(xiàn)端到端訓(xùn)練測試;3、

利用了GPU,但是區(qū)域建議方法是在CPU上實現(xiàn)的。2、每張圖像耗時約為3s。4、多任務(wù)損失函數(shù)邊框回歸。1、RPN提取RP;1、提高了檢測精度和速度;2、真正實現(xiàn)端到端的目標(biāo)檢測框架;1、

還是無法達(dá)到實時檢測目標(biāo);2、

獲取region

proposal,再對每個proposal分類計算量還是比較大。Faster

R-CNN2、CNN提取特征;3、softmax分類;4、多任務(wù)損失函數(shù)邊框回歸。3、生成建議框僅需約10ms。目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測將基于

Faster-rcnn的模型與

ZF小型網(wǎng)絡(luò)、VGG_CNN_M_1024中型網(wǎng)絡(luò)、

VGG-16大型網(wǎng)絡(luò)三種不同網(wǎng)絡(luò)層次結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行迭代訓(xùn)練。前方車輛檢測數(shù)據(jù)集方法準(zhǔn)確率1600016000Faster-rcnn+ZF0.8660.901Faster-rcnn+VGG_CNN_M_102416000Faster-rcnn+VGG160.921目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測城區(qū)道路岔口道路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測部分遮擋高速公路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測復(fù)雜場景強(qiáng)光照目標(biāo)的檢測與識別基于區(qū)域建議的目標(biāo)檢測與識別算法?由于存在候選區(qū)域的提取,使得算法會花費更多的時間,很難做到實時檢測和識別,而且檢測結(jié)果也受候選區(qū)域提取算法的影響基于回歸的目標(biāo)檢測與識別算法?由于沒有候選區(qū)提取步驟,且所有識別和檢測步驟都可以融合在一個深度神經(jīng)網(wǎng)絡(luò)中處理,因此很容易做到實時檢測和識別兩者比較?一般基于相同基礎(chǔ)深度學(xué)習(xí)模式,基于區(qū)域建議的模型會有更令人滿意的檢測和識別結(jié)果,而基于回歸的目標(biāo)檢測識別模型在時間效率上更好目標(biāo)的檢測與識別SSD(Single

ShotMultiBoxDetector)SSD是一種端到端的模型,所有的檢測和識別過程都可以由同一個網(wǎng)絡(luò)解決;SSD直接預(yù)測boundingbox的坐標(biāo)和類別的objectdetection,沒有生成proposal的過程,針對不同大小的物體檢測,ssd利用不同卷積層的featuremap進(jìn)行綜合。SSD的特點?

從YOLO中繼承了將detection轉(zhuǎn)化為regression的思路,一次完成目標(biāo)定位與分類?

基于FasterRCNN中的Anchor,提出了相似的Priorbox;這樣相當(dāng)在回歸的基礎(chǔ)上結(jié)合了一部分區(qū)域建議的功能,對比兩者所用的特征,SSD并沒有用圖像的全局特征,只用了每個目標(biāo)周圍的深層特征去檢測識別目標(biāo),而且在深度學(xué)習(xí)模型的特征提取上,SSD從深度神經(jīng)網(wǎng)絡(luò)不同層的特征圖上提取特征,然后分別用這些特征回歸預(yù)測目標(biāo),這樣自然的加入了多尺度信息,能夠?qū)σ粋€目標(biāo)做更多的判斷,從而不影響速度。目標(biāo)的檢測與識別SSD

(Single

ShotMultiBoxDetector)整個模型的輸入是整張圖片,經(jīng)過一個基礎(chǔ)的深度學(xué)習(xí)模型VGG16網(wǎng)絡(luò)來對整張圖片提取特征,在VGG16網(wǎng)絡(luò)后面又加入了新的CNN層,由于每個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論