深度學(xué)習(xí)基礎(chǔ) (1)講解

上傳人：1*** IP屬地：陜西上傳時間：2024-08-06 格式：PPT 頁數(shù)：60 大小：7.61MB 積分：11.88 舉報 版權(quán)申訴

已閱讀5頁，還剩55頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

123CONTENT深度學(xué)習(xí)簡介——深度學(xué)習(xí)概述?

自2006年，深度學(xué)習(xí)（Deep

Learning）已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個新興領(lǐng)域，通常也被叫做深層結(jié)構(gòu)學(xué)習(xí)或分層學(xué)習(xí)。其動機(jī)在于建立、模擬人腦進(jìn)行分析、學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)被引入，使得機(jī)器學(xué)習(xí)更接近于最初的目標(biāo)----人工智能（AI，Artificial

Intelligence）。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次，這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力，能夠識別文字、圖像和聲音等數(shù)據(jù)。?

深度學(xué)習(xí)就是一種包含多個隱藏層(越多即為越深）的感知機(jī)，它通過組合底層特征，形成更為抽象的高層表示，用于描述被識別對象的高級屬性類別或特征。能自生成數(shù)據(jù)的中間表示（這個表示是人為不可理解的）是深度學(xué)習(xí)區(qū)別于其他機(jī)器學(xué)習(xí)算法的獨門絕技。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念回歸（Regression）

y是連續(xù)值（實數(shù)或連續(xù)整數(shù)），f

(x)

的輸出也是連續(xù)值。這種類型的問題就是回歸問題。對于所有已知或未知的

(x,y)，使得

f(x,θ

)

和

y盡可能地一致。損函數(shù)通常定義為平方誤差。分類（Classification）

y是離散的類別標(biāo)記（符號），就是分類問題。損失函數(shù)有一般用

0-1

損失函數(shù)或負(fù)對數(shù)似然函數(shù)等。在分類問題中，通過學(xué)習(xí)得到的決策函數(shù)

f(x,θ

)也叫分類器。聚類（Clustering)

只有原始數(shù)據(jù)x，沒有確定的目標(biāo)f

(x)，基于數(shù)據(jù)的內(nèi)部結(jié)構(gòu)尋找觀察樣本的自然族群（即集群）。聚類的特點是訓(xùn)練數(shù)據(jù)沒有標(biāo)注，通常使用數(shù)據(jù)可視化等方式評價結(jié)果。深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念聚類回歸分類深度學(xué)習(xí)簡介——深度學(xué)習(xí)的基本概念過擬合、欠擬合深度學(xué)習(xí)簡介——深度學(xué)習(xí)與淺層學(xué)習(xí)?

淺層模型的一個共性是僅含單個將原始輸入信號轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)。典型的淺層學(xué)習(xí)結(jié)構(gòu)包括傳統(tǒng)隱馬爾科夫模型(HMM)、條件隨機(jī)場(CRFs)、最大熵模型(MaxEnt)、支持向量機(jī)(SVM)、核回歸及僅含單隱層的多層感知器(MLP)等。?

淺層結(jié)構(gòu)的局限性在于有限的樣本和計算單元情況下對復(fù)雜的函數(shù)表示能力有限，針對復(fù)雜分類問題其泛化能力受到一定的制約。?

受到大腦結(jié)構(gòu)分層的啟發(fā)，神經(jīng)網(wǎng)絡(luò)的研究，發(fā)現(xiàn)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫。?

深度學(xué)習(xí)可以通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)，實現(xiàn)復(fù)雜函數(shù)逼近，表征輸入數(shù)據(jù)分布式表示，并展現(xiàn)了強(qiáng)大的從少數(shù)樣本中集中學(xué)習(xí)數(shù)據(jù)及本質(zhì)特征的能力。簡單的說，就是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)，來學(xué)習(xí)更有用的特征，從而最終提升分類或預(yù)測的準(zhǔn)確性。因此，“深度模型”是手段，“特征學(xué)習(xí)”是目的。?

強(qiáng)調(diào)了模型結(jié)構(gòu)的深度，通常有5-10多層的隱層節(jié)點；?

明確突出了特征學(xué)習(xí)的重要性，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比，利用大數(shù)據(jù)來學(xué)習(xí)特征，更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息深度學(xué)習(xí)簡介——特征表示?

人工特征工程+分類器分類器（SVM、NB、MaximumEntropy、CRF）特征抽取（Segmentation、PCA、Shape）深度學(xué)習(xí)簡介——特征表示?

自動學(xué)習(xí)多尺度的特征表示Mid-levelFeaturesLow-levelFeaturesHigh-levelFeaturesClassifier深度學(xué)習(xí)簡介——應(yīng)用場景無人駕駛?cè)四樧R別?深度學(xué)習(xí)利用其深層的神經(jīng)網(wǎng)絡(luò)，通過一定的算法能訓(xùn)練出一個識別率非常高的分類器，從而能夠使環(huán)境感知部分高精度的完成，為駕駛決策模塊提供正確的環(huán)境信息，保證無人駕駛正常的完成。?人臉信息的識別，是對人臉的信息加以提取然后進(jìn)行識別的辦法，一個最重要的目標(biāo)就是分辨不同人的信息，辨別身份，常用于安放領(lǐng)域，開戶審核，考勤簽到等。面部識別的主要方式有：幾何結(jié)構(gòu)、子空間局部特征以及深度學(xué)習(xí)。文字識別語音識別?基于深度學(xué)習(xí)的文字識別系統(tǒng)的實現(xiàn)方法，屬于圖像處理技術(shù)領(lǐng)域，將包含文字的圖片進(jìn)行預(yù)處理、切分、識別，重組成一段文本，從而實現(xiàn)圖片到文本的轉(zhuǎn)換。涉及到圖像預(yù)處理、圖片切分、圖片識別和文字重組。?一個完整的語音識別系統(tǒng)可大致分為3部分：語音特征提取、聲學(xué)模型與模式匹配和語言模型與語言處理。其中聲學(xué)模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。深度學(xué)習(xí)簡介——常用的模型LeNet

YannLeCun在1998年設(shè)計并提出

7層

識別手寫數(shù)字的最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)簡介——常用的模型AlexNet

2012ILSVRCwinner

8層

錯誤率：Less

that40%error(top-1)andlessthan20%(top-5)深度學(xué)習(xí)簡介——常用的模型VGG16

2014牛津大學(xué)提出

16層

錯誤率：ILSVRC比賽中，VGG

在Top-5中錯誤了為7.7%深度學(xué)習(xí)簡介——常用的模型GoogleNet

2014ILSVRCwinner

22層

錯誤率：6.7%深度學(xué)習(xí)簡介——常用的模型ResNet

2015ILSVRCwinner

152層

錯誤率：3.57%前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)??前饋神經(jīng)網(wǎng)絡(luò)的定義前饋神經(jīng)網(wǎng)絡(luò)的理解感知機(jī)??感知機(jī)定義感知機(jī)的理解BP算法?BP算法的定義梯度下降.?前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks前饋神經(jīng)網(wǎng)絡(luò)是一種最簡單的神經(jīng)網(wǎng)絡(luò)，各神經(jīng)元分層排列。每個神經(jīng)元只與前一層的神經(jīng)元相連。接收前一層的輸出，并輸出給下一層．各層間沒有反饋。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron感知器是對生物神經(jīng)細(xì)胞的簡單數(shù)學(xué)模擬,是最簡單的人工神經(jīng)網(wǎng)絡(luò),只有一個神經(jīng)元。

感知器也可以看出是線性分類器的一個經(jīng)典學(xué)習(xí)算法。細(xì)胞體(Soma)中的神經(jīng)細(xì)胞膜上有各種受體和離子通道,胞膜的受體可與相應(yīng)的化學(xué)物質(zhì)神經(jīng)遞質(zhì)結(jié)合,引起離子通透性及膜內(nèi)外電位差發(fā)生改變,產(chǎn)生相應(yīng)的生理活動:興奮或抑制。

細(xì)胞突起是由細(xì)胞體延伸出來的細(xì)長部分,又可分為樹突和軸突。?

樹突(Dendrite)可以接受刺激并將興奮傳入細(xì)胞體。每個神經(jīng)元可以有一或多個樹突。?

軸突

(Axons)

可以把興奮從胞體傳送到另一個神經(jīng)元或其他組織。

每個神經(jīng)元只有一個軸突。抑制與興奮神經(jīng)細(xì)胞的狀態(tài)取決于從其它的神經(jīng)細(xì)胞收到的輸入信號量,及突觸的強(qiáng)度(抑制或加強(qiáng))。當(dāng)信號量總和超過了某個閾值時,細(xì)胞體就會興奮,產(chǎn)生電脈沖。電脈沖沿著軸突并通過突觸傳遞到其它神經(jīng)元。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron給定輸入ì+1,x

30x

<0?y

f(x)=

sign(wix

+b)sign(x)

í=?

-1,?學(xué)習(xí)規(guī)則：前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptronwix

+b=0前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks感知機(jī)

Perceptron感知機(jī)只有輸入層神經(jīng)元進(jìn)行激活函數(shù)處理，即只擁有一層功能神經(jīng)元，其學(xué)習(xí)能力非常有限。事實上，類似與，或，非這樣二類模式且線性可分，即存在一個線性超平面能將它們分開，則感知機(jī)的學(xué)習(xí)過程一定會收斂，否則會發(fā)生振蕩，難以穩(wěn)定，甚至不能解決異或這樣簡單的非線性問題。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法誤差反向傳播信息向前傳播前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法基本原理：利用輸出后的誤差來估算輸出層的前一層的誤差，再用這個誤差估算更前一層的誤差，如此層一層地反傳下去，從而獲得所有其他各層的誤差估計前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

NetworksBP算法?

屬于監(jiān)督學(xué)習(xí)算法，通過調(diào)節(jié)各層的權(quán)重，使網(wǎng)絡(luò)學(xué)會有“輸入-輸出”組成的訓(xùn)練組?

BP算法的核心是梯度下降法?

權(quán)重從輸出層開始修正，再依次修正各層權(quán)重學(xué)習(xí)的本質(zhì)“對網(wǎng)絡(luò)去權(quán)重作動態(tài)的調(diào)整前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù)，即無約束優(yōu)化問題時，梯度下降（Gradient

Descent）是最常采用的方法之一。梯度下降流程：①

用隨機(jī)值初始化權(quán)重和偏差；②

把輸入傳入網(wǎng)絡(luò)，得到輸出值；③

計算預(yù)測值和真實值之間的誤差；④

對每一個產(chǎn)生誤差的神經(jīng)元，調(diào)整相應(yīng)的（權(quán)重）值以減小誤差；⑤

重復(fù)迭代，直至得到網(wǎng)絡(luò)權(quán)重的最佳值。前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降例：目標(biāo)函數(shù)：初始化，起點為：函數(shù)的微分：根據(jù)梯度下降的計算公式：學(xué)習(xí)率：迭代：θ0=0θ1=θ0-α*J’(θ0)=1-0.4*2=0.2θ2=θ1-α*J’(θ1)=0.04θ3=0.008θ4=0.0016前饋神經(jīng)網(wǎng)絡(luò)Feed

Forward

Neural

Networks梯度下降梯度下降，主要考慮兩個問題：一是方向（梯度），二是步長（學(xué)習(xí)率）。方向決定是否走在正確的道路上，而步長決定了要走多久才能都到達(dá)目的地。（圖中的最低處）。對于步長：步長太小，費時間，步長過大，則會出現(xiàn)振蕩現(xiàn)象。卷積神經(jīng)網(wǎng)絡(luò)CNNConvolutionalNeuralNetwork是一種前饋神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)上感受野(Receptive

Field)的機(jī)制而提出的。一個神經(jīng)元的感受野是指特定區(qū)域，只有這個區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。局部鏈接權(quán)值共享平移、縮放和扭曲不變性卷積神經(jīng)網(wǎng)絡(luò)CNN局部鏈接全連接CNNCNN的優(yōu)點參數(shù)減少與權(quán)值共享如下圖所示，如果我們有1000x1000像素的圖像，有1百萬個隱層神經(jīng)元，那么他們?nèi)B接的話（每個隱層神經(jīng)元都連接圖像的每一個像素點），就有

個連接，也就是10^12個權(quán)值參數(shù)。1000

1000

1000000=10局部連接網(wǎng)絡(luò)，每一個節(jié)點與上層節(jié)點同位置附近10x10的窗口相連接，則1百萬個隱層神經(jīng)元就只有106

100

108，即10^8個參數(shù)。其權(quán)值連接個數(shù)比原來減少了四個數(shù)量級。CNN的Convolution過程如圖，原圖像是5*5大小，有25個神經(jīng)元，用一個3*3的卷積核對它進(jìn)行卷積，得到了如右圖所示的卷積后的Featuremap。該特征圖大小為3*3。假設(shè)一種卷積核只提取出圖像的一種特征，所以一般要多個卷積核來提取不同的特征，所以每一層一般都會有多張F(tuán)eaturemap。同一張F(tuán)eaturemap上的神經(jīng)元共用一個卷積核，這大大減少了網(wǎng)絡(luò)參數(shù)的個數(shù)。CNN的Pooling過程圖像具有一種“靜態(tài)性（stationarity）”的屬性，可以對圖像某一個區(qū)域上的特征取平均值

(或最大值)。這種聚合的操作就叫做池化

(pooling)。如果人們選擇圖像中的連續(xù)范圍作為池化區(qū)域，并且只是池化相同(重復(fù))的隱藏單元產(chǎn)生的特征，那么，這些池化單元就具有平移不變性

(translation

invariant)。這就意味著即使圖像經(jīng)歷了一個小的平移之后，依然會產(chǎn)生相同的

(池化的)特征。CNN的Pooling過程CNN的特征映射

Feature

Map為了增強(qiáng)卷積層的表示能力，我們可以使用

個不同的濾波器來得到K

組輸出。每一組輸出都共享一個濾波器。如果我們把濾波器看成一個特征提取器，每一組輸出都可以看成是輸入圖像經(jīng)過一個特征抽取后得到的特征。因此，在卷積神經(jīng)網(wǎng)絡(luò)中每一組輸出也叫作一組特征映射（Feature

Map）。目標(biāo)檢測與識別01.傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法定義???目標(biāo)特征提?。ㄕJ(rèn)為設(shè)計特征）目標(biāo)識別目標(biāo)定位目標(biāo)檢測與識別是將圖像或者視頻中目標(biāo)與其他不感興趣的部分進(jìn)行區(qū)分，判斷是否存在目標(biāo)，確定目標(biāo)位置，識別目標(biāo)種類的一種計算機(jī)視覺任務(wù)。02.深度學(xué)習(xí)?

目標(biāo)的特征提取?

神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別與定位目標(biāo)的檢測與識別現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測與識別算法大致可以分為三類：基于區(qū)域建議的目標(biāo)檢測與識別算法（R-CNN、Fast

R-CNN、Faster

R-CNN）；基于回歸的目標(biāo)檢測與識別算法（YOLO、SSD）；基于搜索的目標(biāo)檢測與識別算法（基于視覺注意的AttentionNet、基于強(qiáng)化學(xué)習(xí)）目標(biāo)的檢測與識別常用的數(shù)據(jù)集?

ImageNet：包含1400多萬的海量圖像數(shù)據(jù)，有著1000個目標(biāo)類別，其中超過百萬的圖片有著明確的類別和位置信息的標(biāo)注，是目前世界上圖像識別最大的數(shù)據(jù)庫?

COCO：微軟公司贊助的一個用于圖像識別，圖像分割，語義標(biāo)注的數(shù)據(jù)集，圖像的標(biāo)注信息包括類別，位置和語義文本描述。有超過30萬幅自然環(huán)境下的日常場景，250萬個目標(biāo)標(biāo)記?

VOC：是一個用于圖像識別，分類，分割的數(shù)據(jù)集，有一萬多幅圖片，20個目標(biāo)類別，分別是人類，動物（鳥，貓，牛，狗，馬，羊），交通工具（飛機(jī)，自行車，船，公共汽車，小轎車，摩托車，火車），室內(nèi)（瓶子，椅子，餐桌，盆栽，沙發(fā)，電視）。目標(biāo)的檢測與識別常用的框架CaffetensorflowTorch7Keras-TheanoMxNet深度神經(jīng)網(wǎng)絡(luò)的多維數(shù)組流圖的計算平臺支持機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的科學(xué)計算框架輕量化分布式可移植的深度學(xué)習(xí)計算平臺卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)下的快速特征提取包含各種神經(jīng)網(wǎng)絡(luò)的模塊語言語言語言底層語言為C++開發(fā)語言使用python語言C++、Python、Julia、Matlab、R、Scala語言C++/Cuda架構(gòu)支持python和matlab接口CPU和GPUC++/Cuda架構(gòu)編寫開發(fā)使用Cython底層語言為C++腳本語言為LuaJTT支持在CPU和GPU上運行及并行化支持Cuda和云計支持在CPU和GPU支持在CPU和GPU支持在算以及多GPU，多上運行上運行和切換上運行機(jī)節(jié)點的計算典型的網(wǎng)絡(luò)自編碼器深度堆棧網(wǎng)絡(luò)DSN深度置信網(wǎng)絡(luò)DBN典型的網(wǎng)絡(luò)VGGNet、深度復(fù)卷積網(wǎng)絡(luò)，遞歸神經(jīng)網(wǎng)絡(luò)典型的網(wǎng)絡(luò)LeNet、AlexNet、Detector典型的網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)GAN典型的網(wǎng)絡(luò)深度二值神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)目標(biāo)的檢測與識別R-CNN人？否車？是信號燈？否分類器卷積神經(jīng)網(wǎng)絡(luò)輸入圖像擴(kuò)展候選區(qū)優(yōu)點：利用的不在是人為設(shè)計的特征，而是通過深度學(xué)習(xí)得到的更具表達(dá)力的深度特征，提高了識別的精度采用區(qū)域建議的方式提取可能的目標(biāo)，而不是用滑窗的方式去檢測目標(biāo)，減少了很多不必要的識別過程加入了邊界回歸的策略來進(jìn)一步提高檢測精度缺點：用區(qū)域檢測的方法，對每個建議區(qū)域都要重新計算整個網(wǎng)絡(luò)，運算效率不高沒把區(qū)域建議過程融合在整個深度學(xué)習(xí)模型中，無法做到端到端的處理任務(wù)目標(biāo)的檢測與識別FastR-CNNFastR-CNN在目標(biāo)生成方面沒有改變，但是采用ROIs策略將候選區(qū)映射到CNN模型的特征層上，直接在特征層上提取對應(yīng)區(qū)域的深層特征，避免了不斷輸入不同區(qū)域圖像的部分。然后將提取到的特征直接用Softmax預(yù)測區(qū)域類別，用網(wǎng)絡(luò)來學(xué)習(xí)一個邊界框回歸器。將整個特征提取，分類和邊界回歸都整理成一個部分，提高了整個模型的效率。但Fast

R-CNN仍然用到了候選區(qū)域生成算法，需要識別的區(qū)域仍然很多。目標(biāo)的檢測與識別FasterR-CNNFaster

R-CNN引入了一個新的概念—區(qū)域生成網(wǎng)絡(luò)（Region

ProposalNetworks,RPN)來進(jìn)行目標(biāo)候選區(qū)的提取。從某種意義上講，F(xiàn)aster

R-CNN可以看成是由生成目標(biāo)區(qū)域的RPN和利用這些候選區(qū)域的Fast

R-CNN檢測器組成的，這樣就將整個目標(biāo)候選區(qū)域，深度特征提取，目標(biāo)識別和檢測過程融入在一個深度網(wǎng)絡(luò)中，大大提高了整個網(wǎng)絡(luò)的檢測速度缺不降低檢測精度。RPN為全卷積神經(jīng)網(wǎng)絡(luò)，其輸入為任意大小的特征圖，輸出為一系列的舉行目標(biāo)候選區(qū)。目標(biāo)的檢測與識別FasterR-CNN——RPNK個錨點2K分?jǐn)?shù)4K坐標(biāo)分類層回歸層256維中間層滑窗特征圖目標(biāo)的檢測與識別使用方法缺點備注1、SS提取RP；1、

訓(xùn)練步驟繁瑣（微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練bbox）；2、

訓(xùn)練、測試均速度慢

；3、

訓(xùn)練占空間1、從DPM

HSC的34.3%直接提升到了66%（mAP）；2、引入RP+CNN2、CNN提取特征；R-CNN3、SVM分類；4、BBox盒回歸。1、

依舊用SS提取RP(耗時2-3s，特征提取耗時0.32s)；1、SS提取RP；FastR-CNN2、CNN提取特征；3、softmax分類；2、

無法滿足實時應(yīng)用，沒有真正

1、由66.9%提升到70%；實現(xiàn)端到端訓(xùn)練測試；3、

利用了GPU，但是區(qū)域建議方法是在CPU上實現(xiàn)的。2、每張圖像耗時約為3s。4、多任務(wù)損失函數(shù)邊框回歸。1、RPN提取RP；1、提高了檢測精度和速度；2、真正實現(xiàn)端到端的目標(biāo)檢測框架；1、

還是無法達(dá)到實時檢測目標(biāo)；2、

獲取region

proposal，再對每個proposal分類計算量還是比較大。Faster

R-CNN2、CNN提取特征；3、softmax分類；4、多任務(wù)損失函數(shù)邊框回歸。3、生成建議框僅需約10ms。目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測將基于

Faster-rcnn的模型與

ZF小型網(wǎng)絡(luò)、VGG_CNN_M_1024中型網(wǎng)絡(luò)、

VGG-16大型網(wǎng)絡(luò)三種不同網(wǎng)絡(luò)層次結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行迭代訓(xùn)練。前方車輛檢測數(shù)據(jù)集方法準(zhǔn)確率1600016000Faster-rcnn+ZF0.8660.901Faster-rcnn+VGG_CNN_M_102416000Faster-rcnn+VGG160.921目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測城區(qū)道路岔口道路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測部分遮擋高速公路目標(biāo)的檢測與識別FasterR-CNN前方車輛檢測復(fù)雜場景強(qiáng)光照目標(biāo)的檢測與識別基于區(qū)域建議的目標(biāo)檢測與識別算法?由于存在候選區(qū)域的提取，使得算法會花費更多的時間，很難做到實時檢測和識別，而且檢測結(jié)果也受候選區(qū)域提取算法的影響基于回歸的目標(biāo)檢測與識別算法?由于沒有候選區(qū)提取步驟，且所有識別和檢測步驟都可以融合在一個深度神經(jīng)網(wǎng)絡(luò)中處理，因此很容易做到實時檢測和識別兩者比較?一般基于相同基礎(chǔ)深度學(xué)習(xí)模式，基于區(qū)域建議的模型會有更令人滿意的檢測和識別結(jié)果，而基于回歸的目標(biāo)檢測識別模型在時間效率上更好目標(biāo)的檢測與識別SSD（Single

ShotMultiBoxDetector)SSD是一種端到端的模型，所有的檢測和識別過程都可以由同一個網(wǎng)絡(luò)解決；SSD直接預(yù)測boundingbox的坐標(biāo)和類別的objectdetection，沒有生成proposal的過程，針對不同大小的物體檢測，ssd利用不同卷積層的featuremap進(jìn)行綜合。SSD的特點?

從YOLO中繼承了將detection轉(zhuǎn)化為regression的思路，一次完成目標(biāo)定位與分類?

基于FasterRCNN中的Anchor，提出了相似的Priorbox；這樣相當(dāng)在回歸的基礎(chǔ)上結(jié)合了一部分區(qū)域建議的功能,對比兩者所用的特征，SSD并沒有用圖像的全局特征，只用了每個目標(biāo)周圍的深層特征去檢測識別目標(biāo)，而且在深度學(xué)習(xí)模型的特征提取上,SSD從深度神經(jīng)網(wǎng)絡(luò)不同層的特征圖上提取特征，然后分別用這些特征回歸預(yù)測目標(biāo)，這樣自然的加入了多尺度信息，能夠?qū)σ粋€目標(biāo)做更多的判斷，從而不影響速度。目標(biāo)的檢測與識別SSD

（Single

ShotMultiBoxDetector)整個模型的輸入是整張圖片，經(jīng)過一個基礎(chǔ)的深度學(xué)習(xí)模型VGG16網(wǎng)絡(luò)來對整張圖片提取特征，在VGG16網(wǎng)絡(luò)后面又加入了新的CNN層，由于每個

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)基礎(chǔ) (1)講解

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)基礎(chǔ) (1)講解

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔