版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
123CONTENT深度學(xué)習(xí)簡介——深度學(xué)習(xí)概述?
自2006年,深度學(xué)習(xí)(Deep
Learning)已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個新興領(lǐng)域,通常也被叫做深層結(jié)構(gòu)學(xué)習(xí)或分層學(xué)習(xí)。其動機(jī)在于建立、模擬人腦進(jìn)行分析、學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)被引入,使得機(jī)器學(xué)習(xí)更接近于最初的目標(biāo)----人工智能(AI,Artificial
Intelligence)。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。?
深度學(xué)習(xí)就是一種包含多個隱藏層(越多即為越深)的感知機(jī),它通過組合底層特征,形成更為抽象的高層表示,用于描述被識別對象的高級屬性類別或特征。能自生成數(shù)據(jù)的中間表示(這個表示是人為不可理解的)是深度學(xué)習(xí)區(qū)別于其他機(jī)器學(xué)習(xí)算法的獨門絕技。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念回歸(Regression)
y是連續(xù)值(實數(shù)或連續(xù)整數(shù)),f
(x)
的輸出也是連續(xù)值。這種類型的問題就是回歸問題。對于所有已知或未知的
(x,y),使得
f(x,θ
)
和
y盡可能地一致。損函數(shù)通常定義為平方誤差。分類(Classification)
y是離散的類別標(biāo)記(符號),就是分類問題。損失函數(shù)有一般用
0-1
損失函數(shù)或負(fù)對數(shù)似然函數(shù)等。在分類問題中,通過學(xué)習(xí)得到的決策函數(shù)
f(x,θ
)也叫分類器。聚類(Clustering)
只有原始數(shù)據(jù)x,沒有確定的目標(biāo)f
(x),基于數(shù)據(jù)的內(nèi)部結(jié)構(gòu)尋找觀察樣本的自然族群(即集群)。聚類的特點是訓(xùn)練數(shù)據(jù)沒有標(biāo)注,通常使用數(shù)據(jù)可視化等方式評價結(jié)果。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念聚類回歸分類深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念過擬合、欠擬合深度學(xué)習(xí)簡介——深度學(xué)習(xí)與淺層學(xué)習(xí)?
淺層模型的一個共性是僅含單個將原始輸入信號轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)。典型的淺層學(xué)習(xí)結(jié)構(gòu)包括傳統(tǒng)隱馬爾科夫模型(HMM)、條件隨機(jī)場(CRFs)、最大熵模型(MaxEnt)、支持向量機(jī)(SVM)、核回歸及僅含單隱層的多層感知器(MLP)等。?
淺層結(jié)構(gòu)的局限性在于有限的樣本和計算單元情況下對復(fù)雜的函數(shù)表示能力有限,針對復(fù)雜分類問題其泛化能力受到一定的制約。?
受到大腦結(jié)構(gòu)分層的啟發(fā),神經(jīng)網(wǎng)絡(luò)的研究,發(fā)現(xiàn)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫。?
深度學(xué)習(xí)可以通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本中集中學(xué)習(xí)數(shù)據(jù)及本質(zhì)特征的能力。簡單的說,就是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。因此,“深度模型”是手段,“特征學(xué)習(xí)”是目的。?
強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點;?
明確突出了特征學(xué)習(xí)的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息深度學(xué)習(xí)簡介——特征表示?
人工特征工程+分類器分類器(SVM、NB、MaximumEntropy、CRF)特征抽取(Segmentation、PCA、Shape)深度學(xué)習(xí)簡介——特征表示?
自動學(xué)習(xí)多尺度的特征表示Mid-levelFeaturesLow-levelFeaturesHigh-levelFeaturesClassifier深度學(xué)習(xí)簡介——應(yīng)用場景無人駕駛?cè)四樧R別?深度學(xué)習(xí)利用其深層的神經(jīng)網(wǎng)絡(luò),通過一定的算法能訓(xùn)練出一個識別率非常高的分類器,從而能夠使環(huán)境感知部分高精度的完成,為駕駛決策模塊提供正確的環(huán)境信息,保證無人駕駛正常的完成。?人臉信息的識別,是對人臉的信息加以提取然后進(jìn)行識別的辦法,一個最重要的目標(biāo)就是分辨不同人的信息,辨別身份,常用于安放領(lǐng)域,開戶審核,考勤簽到等。面部識別的主要方式有:幾何結(jié)構(gòu)、子空間局部特征以及深度學(xué)習(xí)。文字識別語音識別?基于深度學(xué)習(xí)的文字識別系統(tǒng)的實現(xiàn)方法,屬于圖像處理技術(shù)領(lǐng)域,將包含文字的圖片進(jìn)行預(yù)處理、切分、識別,重組成一段文本,從而實現(xiàn)圖片到文本的轉(zhuǎn)換。涉及到圖像預(yù)處理、圖片切分、圖片識別和文字重組。?一個完整的語音識別系統(tǒng)可大致分為3部分:語音特征提取、聲學(xué)模型與模式匹配和語言模型與語言處理。其中聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。深度學(xué)習(xí)簡介——常用的模型LeNet
YannLeCun在1998年設(shè)計并提出
7層
識別手寫數(shù)字的最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)簡介——常用的模型AlexNet
2012ILSVRCwinner
8層
錯誤率:Less
that40%error(top-1)andlessthan20%(top-5)深度學(xué)習(xí)簡介——常用的模型VGG16
2014牛津大學(xué)提出
16層
錯誤率:ILSVRC比賽中,VGG
在Top-5中錯誤了為7.7%深度學(xué)習(xí)簡介——常用的模型GoogleNet
2014ILSVRCwinner
22層
錯誤率:6.7%深度學(xué)習(xí)簡介——常用的模型ResNet
2015ILSVRCwinner
152層
錯誤率:3.57%前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)??前饋神經(jīng)網(wǎng)絡(luò)的定義前饋神經(jīng)網(wǎng)絡(luò)的理解感知機(jī)??感知機(jī)定義感知機(jī)的理解BP算法?BP算法的定義梯度下降.?前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks前饋神經(jīng)網(wǎng)絡(luò)是一種最簡單的神經(jīng)網(wǎng)絡(luò),各神經(jīng)元分層排列。每個神經(jīng)元只與前一層的神經(jīng)元相連。接收前一層的輸出,并輸出給下一層.各層間沒有反饋。前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks感知機(jī)
Perceptron感知器是對生物神經(jīng)細(xì)胞的簡單數(shù)學(xué)模擬,是最簡單的人工神經(jīng)網(wǎng)絡(luò),只有一個神經(jīng)元。
感知器也可以看出是線性分類器的一個經(jīng)典學(xué)習(xí)算法。細(xì)胞體(Soma)中的神經(jīng)細(xì)胞膜上有各種受體和離子通道,胞膜的受體可與相應(yīng)的化學(xué)物質(zhì)神經(jīng)遞質(zhì)結(jié)合,引起離子通透性及膜內(nèi)外電位差發(fā)生改變,產(chǎn)生相應(yīng)的生理活動:興奮或抑制。
細(xì)胞突起是由細(xì)胞體延伸出來的細(xì)長部分,又可分為樹突和軸突。?
樹突(Dendrite)可以接受刺激并將興奮傳入細(xì)胞體。每個神經(jīng)元可以有一或多個樹突。?
軸突
(Axons)
可以把興奮從胞體傳送到另一個神經(jīng)元或其他組織。
每個神經(jīng)元只有一個軸突。抑制與興奮神經(jīng)細(xì)胞的狀態(tài)取決于從其它的神經(jīng)細(xì)胞收到的輸入信號量,及突觸的強(qiáng)度(抑制或加強(qiáng))。當(dāng)信號量總和超過了某個閾值時,細(xì)胞體就會興奮,產(chǎn)生電脈沖。電脈沖沿著軸突并通過突觸傳遞到其它神經(jīng)元。前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks感知機(jī)
Perceptron前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks感知機(jī)
Perceptron給定輸入ì+1,x
30x
<0?y
=
f(x)=
sign(wix
+b)sign(x)
í=?
-1,?學(xué)習(xí)規(guī)則:前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks感知機(jī)
Perceptronwix
+b=0前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks感知機(jī)
Perceptron感知機(jī)只有輸入層神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)元,其學(xué)習(xí)能力非常有限。事實上,類似與,或,非這樣二類模式且線性可分,即存在一個線性超平面能將它們分開,則感知機(jī)的學(xué)習(xí)過程一定會收斂,否則會發(fā)生振蕩,難以穩(wěn)定,甚至不能解決異或這樣簡單的非線性問題。前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
NetworksBP算法誤差反向傳播信息向前傳播前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
NetworksBP算法基本原理:利用輸出后的誤差來估算輸出層的前一層的誤差,再用這個誤差估算更前一層的誤差,如此層一層地反傳下去,從而獲得所有其他各層的誤差估計前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
NetworksBP算法?
屬于監(jiān)督學(xué)習(xí)算法,通過調(diào)節(jié)各層的權(quán)重,使網(wǎng)絡(luò)學(xué)會有“輸入-輸出”組成的訓(xùn)練組?
BP算法的核心是梯度下降法?
權(quán)重從輸出層開始修正,再依次修正各層權(quán)重學(xué)習(xí)的本質(zhì)“對網(wǎng)絡(luò)去權(quán)重作動態(tài)的調(diào)整前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks梯度下降梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù),即無約束優(yōu)化問題時,梯度下降(Gradient
Descent)是最常采用的方法之一。梯度下降流程:①
用隨機(jī)值初始化權(quán)重和偏差;②
把輸入傳入網(wǎng)絡(luò),得到輸出值;③
計算預(yù)測值和真實值之間的誤差;④
對每一個產(chǎn)生誤差的神經(jīng)元,調(diào)整相應(yīng)的(權(quán)重)值以減小誤差;⑤
重復(fù)迭代,直至得到網(wǎng)絡(luò)權(quán)重的最佳值。前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks梯度下降例:目標(biāo)函數(shù):初始化,起點為:函數(shù)的微分:根據(jù)梯度下降的計算公式:學(xué)習(xí)率:迭代:θ0=0θ1=θ0-α*J’(θ0)=1-0.4*2=0.2θ2=θ1-α*J’(θ1)=0.04θ3=0.008θ4=0.0016前饋神經(jīng)網(wǎng)絡(luò)Feed
Forward
Neural
Networks梯度下降梯度下降,主要考慮兩個問題:一是方向(梯度),二是步長(學(xué)習(xí)率)。方向決定是否走在正確的道路上,而步長決定了要走多久才能都到達(dá)目的地。(圖中的最低處)。對于步長:步長太小,費時間,步長過大,則會出現(xiàn)振蕩現(xiàn)象。卷積神經(jīng)網(wǎng)絡(luò)CNNConvolutionalNeuralNetwork是一種前饋神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)上感受野(Receptive
Field)的機(jī)制而提出的。一個神經(jīng)元的感受野是指特定區(qū)域,只有這個區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。局部鏈接權(quán)值共享平移、縮放和扭曲不變性卷積神經(jīng)網(wǎng)絡(luò)CNN局部鏈接全連接CNNCNN的優(yōu)點參數(shù)減少與權(quán)值共享如下圖所示,如果我們有1000x1000像素的圖像,有1百萬個隱層神經(jīng)元,那么他們?nèi)B接的話(每個隱層神經(jīng)元都連接圖像的每一個像素點),就有
12
個連接,也就是10^12個權(quán)值參數(shù)。1000
1000
1000000=10局部連接網(wǎng)絡(luò),每一個節(jié)點與上層節(jié)點同位置附近10x10的窗口相連接,則1百萬個隱層神經(jīng)元就只有106
100
=
108,即10^8個參數(shù)。其權(quán)值連接個數(shù)比原來減少了四個數(shù)量級。CNN的Convolution過程如圖,原圖像是5*5大小,有25個神經(jīng)元,用一個3*3的卷積核對它進(jìn)行卷積,得到了如右圖所示的卷積后的Featuremap。該特征圖大小為3*3。假設(shè)一種卷積核只提取出圖像的一種特征,所以一般要多個卷積核來提取不同的特征,所以每一層一般都會有多張F(tuán)eaturemap。同一張F(tuán)eaturemap上的神經(jīng)元共用一個卷積核,這大大減少了網(wǎng)絡(luò)參數(shù)的個數(shù)。CNN的Pooling過程圖像具有一種“靜態(tài)性(stationarity)”的屬性,可以對圖像某一個區(qū)域上的特征取平均值
(或最大值)。這種聚合的操作就叫做池化
(pooling)。如果人們選擇圖像中的連續(xù)范圍作為池化區(qū)域,并且只是池化相同(重復(fù))的隱藏單元產(chǎn)生的特征,那么,這些池化單元就具有平移不變性
(translation
invariant)。這就意味著即使圖像經(jīng)歷了一個小的平移之后,依然會產(chǎn)生相同的
(池化的)特征。CNN的Pooling過程CNN的特征映射
Feature
Map為了增強(qiáng)卷積層的表示能力,我們可以使用
K
個不同的濾波器來得到K
組輸出。每一組輸出都共享一個濾波器。如果我們把濾波器看成一個特征提取器,每一組輸出都可以看成是輸入圖像經(jīng)過一個特征抽取后得到的特征。因此,在卷積神經(jīng)網(wǎng)絡(luò)中每一組輸出也叫作一組特征映射(Feature
Map)。目標(biāo)檢測與識別01.傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法定義???目標(biāo)特征提?。ㄕJ(rèn)為設(shè)計特征)目標(biāo)識別目標(biāo)定位目標(biāo)檢測與識別是將圖像或者視頻中目標(biāo)與其他不感興趣的部分進(jìn)行區(qū)分,判斷是否存在目標(biāo),確定目標(biāo)位置,識別目標(biāo)種類的一種計算機(jī)視覺任務(wù)。02.深度學(xué)習(xí)?
目標(biāo)的特征提取?
神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別與定位目標(biāo)的檢測與識別現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測與識別算法大致可以分為三類:基于區(qū)域建議的目標(biāo)檢測與識別算法(R-CNN、Fast
R-CNN、Faster
R-CNN);基于回歸的目標(biāo)檢測與識別算法(YOLO、SSD);基于搜索的目標(biāo)檢測與識別算法(基于視覺注意的AttentionNet、基于強(qiáng)化學(xué)習(xí))目標(biāo)的檢測與識別常用的數(shù)據(jù)集?
ImageNet:包含1400多萬的海量圖像數(shù)據(jù),有著1000個目標(biāo)類別,其中超過百萬的圖片有著明確的類別和位置信息的標(biāo)注,是目前世界上圖像識別最大的數(shù)據(jù)庫?
COCO:微軟公司贊助的一個用于圖像識別,圖像分割,語義標(biāo)注的數(shù)據(jù)集,圖像的標(biāo)注信息包括類別,位置和語義文本描述。有超過30萬幅自然環(huán)境下的日常場景,250萬個目標(biāo)標(biāo)記?
VOC:是一個用于圖像識別,分類,分割的數(shù)據(jù)集,有一萬多幅圖片,20個目標(biāo)類別,分別是人類,動物(鳥,貓,牛,狗,馬,羊),交通工具(飛機(jī),自行車,船,公共汽車,小轎車,摩托車,火車),室內(nèi)(瓶子,椅子,餐桌,盆栽,沙發(fā),電視)。目標(biāo)的檢測與識別常用的框架CaffetensorflowTorch7Keras-TheanoMxNet深度神經(jīng)網(wǎng)絡(luò)的多維數(shù)組流圖的計算平臺支持機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的科學(xué)計算框架輕量化分布式可移植的深度學(xué)習(xí)計算平臺卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)下的快速特征提取包含各種神經(jīng)網(wǎng)絡(luò)的模塊語言語言語言底層語言為C++開發(fā)語言使用python語言C++、Python、Julia、Matlab、R、Scala語言C++/Cuda架構(gòu)支持python和matlab接口CPU和GPUC++/Cuda架構(gòu)編寫開發(fā)使用Cython底層語言為C++腳本語言為LuaJTT支持在CPU和GPU上運行及并行化支持Cuda和云計支持在CPU和GPU支持在CPU和GPU支持在算以及多GPU,多上運行上運行和切換上運行機(jī)節(jié)點的計算典型的網(wǎng)絡(luò)自編碼器深度堆棧網(wǎng)絡(luò)DSN深度置信網(wǎng)絡(luò)DBN典型的網(wǎng)絡(luò)VGGNet、深度復(fù)卷積網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)典型的網(wǎng)絡(luò)LeNet、AlexNet、Detector典型的網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)GAN典型的網(wǎng)絡(luò)深度二值神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)目標(biāo)的檢測與識別R-CNN人?否車?是信號燈?否分類器卷積神經(jīng)網(wǎng)絡(luò)輸入圖像擴(kuò)展候選區(qū)優(yōu)點:利用的不在是人為設(shè)計的特征,而是通過深度學(xué)習(xí)得到的更具表達(dá)力的深度特征,提高了識別的精度采用區(qū)域建議的方式提取可能的目標(biāo),而不是用滑窗的方式去檢測目標(biāo),減少了很多不必要的識別過程加入了邊界回歸的策略來進(jìn)一步提高檢測精度缺點:用區(qū)域檢測的方法,對每個建議區(qū)域都要重新計算整個網(wǎng)絡(luò),運算效率不高沒把區(qū)域建議過程融合在整個深度學(xué)習(xí)模型中,無法做到端到端的處理任務(wù)目標(biāo)的檢測與識別FastR-CNNFastR-CNN在目標(biāo)生成方面沒有改變,但是采用ROIs策略將候選區(qū)映射到CNN模型的特征層上,直接在特征層上提取對應(yīng)區(qū)域的深層特征,避免了不斷輸入不同區(qū)域圖像的部分。然后將提取到的特征直接用Softmax預(yù)測區(qū)域類別,用網(wǎng)絡(luò)來學(xué)習(xí)一個邊界框回歸器。將整個特征提取,分類和邊界回歸都整理成一個部分,提高了整個模型的效率。但Fast
R-CNN仍然用到了候選區(qū)域生成算法,需要識別的區(qū)域仍然很多。目標(biāo)的檢測與識別FasterR-CNNFaster
R-CNN引入了一個新的概念—區(qū)域生成網(wǎng)絡(luò)(Region
ProposalNetworks,RPN)來進(jìn)行目標(biāo)候選區(qū)的提取。從某種意義上講,F(xiàn)aster
R-CNN可以看成是由生成目標(biāo)區(qū)域的RPN和利用這些候選區(qū)域的Fast
R-CNN檢測器組成的,這樣就將整個目標(biāo)候選區(qū)域,深度特征提取,目標(biāo)識別和檢測過程融入在一個深度網(wǎng)絡(luò)中,大大提高了整個網(wǎng)絡(luò)的檢測速度缺不降低檢測精度。RPN為全卷積神經(jīng)網(wǎng)絡(luò),其輸入為任意大小的特征圖,輸出為一系列的舉行目標(biāo)候選區(qū)。目標(biāo)的檢測與識別FasterR-CNN——RPNK個錨點2K分?jǐn)?shù)4K坐標(biāo)分類層回歸層256維中間層滑窗特征圖目標(biāo)的檢測與識別使用方法缺點備注1、SS提取RP;1、
訓(xùn)練步驟繁瑣(微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練bbox);2、
訓(xùn)練、測試均速度慢
;3、
訓(xùn)練占空間1、從DPM
HSC的34.3%直接提升到了66%(mAP);2、引入RP+CNN2、CNN提取特征;R-CNN3、SVM分類;4、BBox盒回歸。1、
依舊用SS提取RP(耗時2-3s,特征提取耗時0.32s);1、SS提取RP;FastR-CNN2、CNN提取特征;3、softmax分類;2、
無法滿足實時應(yīng)用,沒有真正
1、由66.9%提升到70%;實現(xiàn)端到端訓(xùn)練測試;3、
利用了GPU,但是區(qū)域建議方法是在CPU上實現(xiàn)的。2、每張圖像耗時約為3s。4、多任務(wù)損失函數(shù)邊框回歸。1、RPN提取RP;1、提高了檢測精度和速度;2、真正實現(xiàn)端到端的目標(biāo)檢測框架;1、
還是無法達(dá)到實時檢測目標(biāo);2、
獲取region
proposal,再對每個proposal分類計算量還是比較大。Faster
R-CNN2、CNN提取特征;3、softmax分類;4、多任務(wù)損失函數(shù)邊框回歸。3、生成建議框僅需約10ms。目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測將基于
Faster-rcnn的模型與
ZF小型網(wǎng)絡(luò)、VGG_CNN_M_1024中型網(wǎng)絡(luò)、
VGG-16大型網(wǎng)絡(luò)三種不同網(wǎng)絡(luò)層次結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行迭代訓(xùn)練。前方車輛檢測數(shù)據(jù)集方法準(zhǔn)確率1600016000Faster-rcnn+ZF0.8660.901Faster-rcnn+VGG_CNN_M_102416000Faster-rcnn+VGG160.921目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測城區(qū)道路岔口道路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測部分遮擋高速公路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測復(fù)雜場景強(qiáng)光照目標(biāo)的檢測與識別基于區(qū)域建議的目標(biāo)檢測與識別算法?由于存在候選區(qū)域的提取,使得算法會花費更多的時間,很難做到實時檢測和識別,而且檢測結(jié)果也受候選區(qū)域提取算法的影響基于回歸的目標(biāo)檢測與識別算法?由于沒有候選區(qū)提取步驟,且所有識別和檢測步驟都可以融合在一個深度神經(jīng)網(wǎng)絡(luò)中處理,因此很容易做到實時檢測和識別兩者比較?一般基于相同基礎(chǔ)深度學(xué)習(xí)模式,基于區(qū)域建議的模型會有更令人滿意的檢測和識別結(jié)果,而基于回歸的目標(biāo)檢測識別模型在時間效率上更好目標(biāo)的檢測與識別SSD(Single
ShotMultiBoxDetector)SSD是一種端到端的模型,所有的檢測和識別過程都可以由同一個網(wǎng)絡(luò)解決;SSD直接預(yù)測boundingbox的坐標(biāo)和類別的objectdetection,沒有生成proposal的過程,針對不同大小的物體檢測,ssd利用不同卷積層的featuremap進(jìn)行綜合。SSD的特點?
從YOLO中繼承了將detection轉(zhuǎn)化為regression的思路,一次完成目標(biāo)定位與分類?
基于FasterRCNN中的Anchor,提出了相似的Priorbox;這樣相當(dāng)在回歸的基礎(chǔ)上結(jié)合了一部分區(qū)域建議的功能,對比兩者所用的特征,SSD并沒有用圖像的全局特征,只用了每個目標(biāo)周圍的深層特征去檢測識別目標(biāo),而且在深度學(xué)習(xí)模型的特征提取上,SSD從深度神經(jīng)網(wǎng)絡(luò)不同層的特征圖上提取特征,然后分別用這些特征回歸預(yù)測目標(biāo),這樣自然的加入了多尺度信息,能夠?qū)σ粋€目標(biāo)做更多的判斷,從而不影響速度。目標(biāo)的檢測與識別SSD
(Single
ShotMultiBoxDetector)整個模型的輸入是整張圖片,經(jīng)過一個基礎(chǔ)的深度學(xué)習(xí)模型VGG16網(wǎng)絡(luò)來對整張圖片提取特征,在VGG16網(wǎng)絡(luò)后面又加入了新的CNN層,由于每個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年婚禮及大型活動責(zé)任保險
- 2025年度木材行業(yè)知識產(chǎn)權(quán)保護(hù)合同8篇
- 2025年度智慧城市建設(shè)大數(shù)據(jù)分析與應(yīng)用合同4篇
- 2025年度新型商業(yè)空間商鋪租賃及商業(yè)活動策劃合同3篇
- 2025年度交通事故免責(zé)與責(zé)任承擔(dān)協(xié)議
- 2025年淘寶模特肖像權(quán)使用與形象授權(quán)合同
- 2025年度戶外運動面料定制供應(yīng)合同
- 二零二五版清風(fēng)法意民商調(diào)研專欄:生物制藥研發(fā)與生產(chǎn)合同2篇
- 二零二五年度短視頻廣告創(chuàng)意設(shè)計與投放合同
- 2025年度智能道閘系統(tǒng)全面維護(hù)與升級合同
- 數(shù)學(xué)-山東省2025年1月濟(jì)南市高三期末學(xué)習(xí)質(zhì)量檢測濟(jì)南期末試題和答案
- 中儲糧黑龍江分公司社招2025年學(xué)習(xí)資料
- 湖南省長沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
- 船舶行業(yè)維修保養(yǎng)合同
- 2024年林地使用權(quán)轉(zhuǎn)讓協(xié)議書
- 春節(jié)期間化工企業(yè)安全生產(chǎn)注意安全生產(chǎn)
- 數(shù)字的秘密生活:最有趣的50個數(shù)學(xué)故事
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)一 移動商務(wù)內(nèi)容運營關(guān)鍵要素分解
- 基于ADAMS的汽車懸架系統(tǒng)建模與優(yōu)化
- 當(dāng)前中國個人極端暴力犯罪個案研究
- 中國象棋比賽規(guī)則
評論
0/150
提交評論