智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第三章-深度學(xué)習(xí)應(yīng)用_第1頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第三章-深度學(xué)習(xí)應(yīng)用_第2頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第三章-深度學(xué)習(xí)應(yīng)用_第3頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第三章-深度學(xué)習(xí)應(yīng)用_第4頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第三章-深度學(xué)習(xí)應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩252頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智能計(jì)算系統(tǒng)

第三章深度學(xué)習(xí)應(yīng)用中國(guó)科學(xué)院軟件研究所李玲研究員liling@DrivingExample2輸入輸出建模實(shí)現(xiàn)運(yùn)行深度學(xué)習(xí)基礎(chǔ)深度學(xué)習(xí)應(yīng)用上一章學(xué)習(xí)了神經(jīng)網(wǎng)絡(luò)的基本知識(shí),多層感知機(jī)的正反向計(jì)算過(guò)程,以及基礎(chǔ)優(yōu)化方法。本章通過(guò)分析經(jīng)典深度學(xué)習(xí)算法,學(xué)習(xí)將基礎(chǔ)神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)際場(chǎng)景,并逐步優(yōu)化實(shí)現(xiàn)工業(yè)級(jí)應(yīng)用的過(guò)程。讓機(jī)器更好的理解和服務(wù)人類3人獲得的輸入是什么?圖像信息序列信息任務(wù):理解圖像內(nèi)容方法:卷積神經(jīng)網(wǎng)絡(luò)任務(wù):理解語(yǔ)音/文字/視頻方法:循環(huán)神經(jīng)網(wǎng)絡(luò)提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡(luò)適合語(yǔ)音/文本處理的循環(huán)神經(jīng)網(wǎng)絡(luò)從深度學(xué)習(xí)到大模型神經(jīng)網(wǎng)絡(luò)量化DrivingExample本章小結(jié)本章實(shí)驗(yàn)4提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化應(yīng)用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像生成的卷積神經(jīng)網(wǎng)絡(luò)5一個(gè)例子計(jì)算機(jī)視覺(jué)6輸入圖像輸入圖像大小為32x32,輸入數(shù)據(jù)量為32x32x3=3072隱層神經(jīng)元個(gè)數(shù)為100,第一層權(quán)重?cái)?shù)量為3072x100=307200一個(gè)例子實(shí)際場(chǎng)景中,往往需要更大的輸入圖像以及更深的網(wǎng)絡(luò)結(jié)構(gòu)。7輸入圖像大小為1024x1024,第一層隱層神經(jīng)元個(gè)數(shù)為1000第一層權(quán)重?cái)?shù)量級(jí)為10^9,過(guò)多的參數(shù)會(huì)導(dǎo)致過(guò)擬合卷積神經(jīng)網(wǎng)絡(luò)可以有效減少權(quán)重?cái)?shù)量輸入圖像卷積神經(jīng)網(wǎng)絡(luò)(CNN)8全連接卷積局部連接權(quán)重共享所有神經(jīng)元之間的連接都使用不同權(quán)重。輸出層神經(jīng)元共用同一組權(quán)重,進(jìn)一步減少權(quán)重?cái)?shù)量。權(quán)重?cái)?shù)量CNN組成VGG16卷積層(conv)池化層(max

pool)全連接層(FC)Softmax9卷積層10卷積層如何檢測(cè)特征檢測(cè)復(fù)雜邊緣w0w1w2w3w4w5w6w7w8filter/kernel將權(quán)重作為參數(shù),在訓(xùn)練中學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)重要特征:局部連接、權(quán)重共享

可有效減少權(quán)重參數(shù),避免過(guò)擬合,為增加卷積層數(shù)提供可能。卷積層數(shù)學(xué):11卷積運(yùn)算

神經(jīng)網(wǎng)絡(luò):實(shí)際為計(jì)算矩陣內(nèi)積(相關(guān)系數(shù))(“*”表示卷積)231523745231396042064712410806702163*1014-3230-1=321014-3230-1卷積層12231523745231396042064712410806702163*1014-3230-1=32401014-3230-1231523745231396042064712410806702163*1014-3230-1=324037751014-3230-1卷積層13多輸入特征圖單輸出特征圖的卷積運(yùn)算*輸入特征圖卷積核=輸出特征圖6x6x33x3x34x4卷積層14*=6x6x33x3x34x40000110020000020120000220121-1-1-1-10-1111-1-1-10-1-101-111-11-11-11C=0C=1C=2*=2-2-1+2+0-2+0+2+(-1)+0+0+2=2卷積層15卷積層16多輸入特征圖多輸出特征圖的卷積運(yùn)算*輸入特征圖卷積核1=output6x6x32x3x3x34x4x2不同的濾波器可檢測(cè)不同特征卷積核2輸出特征圖卷積層17卷積運(yùn)算可轉(zhuǎn)換為矩陣相乘卷積的相乘再相加過(guò)程可轉(zhuǎn)換為向量?jī)?nèi)積多輸入輸出通道卷積可轉(zhuǎn)換為矩陣相乘卷積層18卷積層如何檢測(cè)特征10-110-110-1101010000101010000101010000101010000101010000101010000030300030300030300030300*=11010-10-1-110101010100101010100010101000010100

0001000000

0000000

1030301030301030

30100301000*=檢測(cè)垂直邊緣檢測(cè)對(duì)角線邊緣卷積層19邊界擴(kuò)充(padding)擴(kuò)大輸入圖像/特征圖的尺寸并填充像素防止深度神經(jīng)網(wǎng)絡(luò)中特征圖被動(dòng)持續(xù)減小強(qiáng)化圖像邊緣信息卷積步長(zhǎng)(stride)滑動(dòng)卷積窗口時(shí)每次移動(dòng)的像素點(diǎn)個(gè)數(shù)與pad共同確定輸出特征圖尺寸

卷積層20總結(jié):卷積層參數(shù)*輸入特征圖卷積核1=output

卷積核2輸出特征圖+bias

卷積核:可訓(xùn)練bias:可訓(xùn)練,使分類器偏離激活函數(shù)原點(diǎn),更靈活

卷積層

21池化層22PoolingMaxPooling/AvgPooling/L2Pooling主動(dòng)減小圖片尺寸,從而減少參數(shù)的數(shù)量和計(jì)算量,控制過(guò)擬合不引入額外參數(shù)231523745231396042064712410806702163753974786Maxpooling

Maxpooling可保留特征最大值,提高提取特征的魯棒性。全連接層23FullyConnect卷積層和池化層構(gòu)成特征提取器,全連接層則為分類器將特征提取得到的高維特征圖映射成一維特征向量,該特征向量包含

所有特征信息,可轉(zhuǎn)化為各個(gè)類別的概率Softmax

各層如何排布組成一個(gè)網(wǎng)絡(luò)?24特征提取分類VGG16卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)25層排列規(guī)律Conv+ReLUpoolFC+ReLUFC/softmaxNMP…dog常見(jiàn)卷積神經(jīng)網(wǎng)絡(luò)由卷積層(激活)、池化層和全連接層構(gòu)成;各層的常見(jiàn)排列方式如圖所示,其中N、M、P為重復(fù)次數(shù);例如:N=3,M=1,P=2情況下的網(wǎng)絡(luò)結(jié)構(gòu)為:

其中卷積和池化部分可包含分支和連接結(jié)構(gòu),將在具體網(wǎng)絡(luò)分析中介紹。淺層學(xué)習(xí)局部特征,深層學(xué)習(xí)整體特征26神經(jīng)網(wǎng)絡(luò)可視化:conv6conv9Springenberg,J.T.;Dosovitskiy,A.;Brox,T.&Riedmiller,M.Strivingforsimplicity:theallconvolutinalnetICML,2015,1-12卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)27為何選擇“深”而非“廣”的網(wǎng)絡(luò)結(jié)構(gòu)即使只有一層隱層,只要有足夠的神經(jīng)元,神經(jīng)網(wǎng)絡(luò)理論上可以擬合任意連續(xù)函數(shù)。為什么還要使用深層網(wǎng)絡(luò)結(jié)構(gòu)?深度網(wǎng)絡(luò)可從局部到整體“理解圖像”學(xué)習(xí)復(fù)雜特征時(shí)(例如人臉識(shí)別),淺層的卷積層感受野小,學(xué)習(xí)到局部特征,深層的卷積層感受野大,學(xué)習(xí)到整體特征。以寬度換深度,用多個(gè)小卷積替代一個(gè)大卷積,在獲得更多樣特征的同時(shí)所需權(quán)重?cái)?shù)量也更少。深度網(wǎng)絡(luò)可減少權(quán)重?cái)?shù)量卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練28N=1,M=1,P=1情況下的網(wǎng)絡(luò)結(jié)構(gòu)為:Conv+ReLUpoolFC+ReLUFC/softmaxNMP…dog正向傳播L反向傳播y

29

反向傳播卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:Softmax

30

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:Softmax

31

反向傳播卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:ReLU

32

反向傳播

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:全連接層

33

反向傳播卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:池化層34

反向傳播

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:ReLU35

反向傳播

WinHin

CinCoutWoutHout……

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:卷積層

36WinHin

CinCoutWoutHout……

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練:卷積層

37WinHin

CinCoutWoutHout……

卷積

full卷積**Xavier初始化(1/3)

38Xavier初始化(2/3)

39Xavier初始化(3/3)實(shí)驗(yàn)結(jié)果:采用tanh(x)激活函數(shù)40激活值標(biāo)準(zhǔn)直方圖采用Xavier方法的網(wǎng)絡(luò),各層的激活值較為一致反向傳播梯度標(biāo)準(zhǔn)直方圖采用Xavier方法的網(wǎng)絡(luò),各層的梯度較為一致Kaiming初始化(1/2)

41Kaiming初始化(2/2)

42梯度下降法GD

方法更新梯度計(jì)算梯度的樣本特點(diǎn)Gradient

Descent

(GD)全部訓(xùn)練樣本計(jì)算復(fù)雜度高Stochastic

Gradient

Descent

(SGD)隨機(jī)抽取一個(gè)樣本隨機(jī)性過(guò)大,優(yōu)化效率低mini-batch

Stochastic

Gradient

Descent

隨機(jī)抽取的mini-batch樣本計(jì)算復(fù)雜度低,優(yōu)化效率高

Mini-batch隨機(jī)梯度下降法mini-batch隨機(jī)梯度下降法目前深度學(xué)習(xí)領(lǐng)域的SGD通常指mini-batch隨機(jī)梯度下降法每次迭代隨機(jī)選取一個(gè)mini-batch的樣本計(jì)算梯度并進(jìn)行參數(shù)更新SGD的缺點(diǎn)選擇合適的學(xué)習(xí)率十分困難SGD容易收斂到局部最優(yōu)點(diǎn),

且可能困在鞍點(diǎn)

動(dòng)量Momentum帶動(dòng)量的隨機(jī)梯度下降法目的:通過(guò)積累歷史梯度,減小梯度方向的改變,抑制梯度的震蕩,加快收斂速度

Rumelhart,DavidE.;Hinton,GeoffreyE.;Williams,RonaldJ.(8October1986)."Learningrepresentationsbyback-propagatingerrors".

Nature.

323

(6088):533–536.Nesterov

acceleratedgradient(NAG)NAG:添加矯正因子的Momentum原理:先用當(dāng)前的速度更新一遍參數(shù),再用更新的臨時(shí)參數(shù)計(jì)算梯度優(yōu)勢(shì):相比Momentum梯度方向更加穩(wěn)定,進(jìn)一步減少震蕩MomentumNAG

Sutskever,I.,Martens,J.,Dahl,G.,andHinton,G.(2013).Ontheimportanceofinitializationandmomentumindeeplearning.InICML學(xué)習(xí)率47From:https://cs231n.github.io/neural-networks-3/AdaGradAdaGrad:使每個(gè)參數(shù)獲得不同的學(xué)習(xí)率原理:設(shè)置全局學(xué)習(xí)率,每次通過(guò)全局學(xué)習(xí)率逐參數(shù)的除以歷史梯度平方和的平方根,使得每個(gè)參數(shù)的學(xué)習(xí)率不同效果:對(duì)更新頻率高的參數(shù)使用較小的學(xué)習(xí)率,對(duì)更新頻率低的參數(shù)使用較大的學(xué)習(xí)率優(yōu)勢(shì):對(duì)于稀疏梯度的效果較好,穩(wěn)定性高局限性:梯度的平方和使訓(xùn)練后期學(xué)習(xí)率會(huì)快速縮小,導(dǎo)致參數(shù)更新提前停止

Duchi,John;Hazan,Elad;Singer,Yoram(2011).

"Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization"

(PDF).

JMLR.

12:2121–2159.AdaDeltaAdaDelta:AdaGrad的改進(jìn)原理:不是累積所有過(guò)去的梯度,而是將累積的過(guò)去梯度的窗口限制在某個(gè)固定大小優(yōu)勢(shì):使用最近梯度的局部估計(jì),確保了在進(jìn)行了多次更新迭代之后,緩解學(xué)習(xí)率快速衰減的問(wèn)題

Zeiler,M.D.(2012).ADADELTA:AnAdaptiveLearningRateMethod.

/abs/1212.5701

RMSPropRMSProp:AdaGrad的改進(jìn)原理:增加了一個(gè)衰減系數(shù)控制歷史梯度的積累量,對(duì)梯度計(jì)算指數(shù)衰減的移動(dòng)平均,丟棄時(shí)間靠前的歷史梯度優(yōu)勢(shì):可以緩解AdaGrad訓(xùn)練后期學(xué)習(xí)率快速減小的問(wèn)題,善于處理非平穩(wěn)目標(biāo),目前常用在訓(xùn)練RNN相關(guān)的深度學(xué)習(xí)模型中

Hinton,G.(2012).Neuralnetworksformachinelearning.Coursera,videolecturesAdamAdam:帶有動(dòng)量項(xiàng)的RMSProp原理:利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率Adam結(jié)合了AdaGrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn),為不同的參數(shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率適用于大多非凸優(yōu)化,適用于大數(shù)據(jù)集和高維空間

Kingma,Diederik;Ba,Jimmy(2014)."Adam:AMethodforStochasticOptimization".

arXiv:1412.6980不同優(yōu)化方法的結(jié)果對(duì)比Imagecredit:AlecRadford應(yīng)用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)53對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究可追溯至日本學(xué)者福島邦彥提出的neocognition模型。在其1979和1980年發(fā)表的論文中,福島參照生物的視覺(jué)皮層(visualcortex)設(shè)計(jì)了以“neocognition”命名的神經(jīng)網(wǎng)絡(luò)。

AlexNet使用卷積神經(jīng)網(wǎng)絡(luò)解決圖像分類問(wèn)題,在ILSVRC2012中取得獲勝并大大提高了state-of-art的準(zhǔn)確率。自此卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域獲得快速發(fā)展。應(yīng)用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)54AlexNetVGGInception系列ResNet網(wǎng)絡(luò)深度參數(shù)量(Millions)AlexNet860VGG1616138VGG1919143GoogleNet227InceptionV34823.9ResNet181811.7ResNet15215260.2AlexNet55Paper:ImageNetClassificationwithDeepConvolutionalNeuralNetworks(NIPS’2012)Author:AlexKrizhevsky,IlyaSutskever,GeoffreyE.HintonTest:errorrateonImageNet,top5:15.3%論文中給出的網(wǎng)絡(luò)結(jié)構(gòu)(用兩臺(tái)GPU訓(xùn)練)AlexNet56What‘sNew?Dropout:隨機(jī)舍棄部分隱層節(jié)點(diǎn),避免過(guò)擬合LRN局部歸一化:提升較大響應(yīng),抑制較小響應(yīng)ReLU激活函數(shù):訓(xùn)練中收斂速度更快MaxPool:避免特征被平均池化模糊,提升特征魯棒性AlexNet57LocalResponseNormalization(LRN)局部響應(yīng)歸一化

對(duì)圖像的每個(gè)“位置”,提升高響應(yīng)特征,抑制低響應(yīng)特征減少高激活神經(jīng)元數(shù)量,提高訓(xùn)練速度,抑制過(guò)擬合被后來(lái)研究者發(fā)現(xiàn)無(wú)明顯效果,故現(xiàn)在很少使用。AlexNet58Dropout隨機(jī)丟棄部分神經(jīng)元在模型訓(xùn)練過(guò)程中,以一定概率隨機(jī)地舍棄某些隱層神經(jīng)元。在反向傳播更新權(quán)重時(shí),不更新與該神經(jīng)元相關(guān)的權(quán)重但是與被舍棄神經(jīng)元相關(guān)的權(quán)重得保留下來(lái)(只是暫時(shí)不更新),另一批樣本輸入時(shí)繼續(xù)使用與該神經(jīng)元相關(guān)的權(quán)重防止訓(xùn)練數(shù)據(jù)中復(fù)雜的co-adaptation,抑制過(guò)擬合AlexNet59AlexNet成功的原因使用多個(gè)卷積層,有效提取圖像特征ReLU幫助提高訓(xùn)練速度Dropout、數(shù)據(jù)增強(qiáng)擴(kuò)大訓(xùn)練集,防止過(guò)擬合使用更多卷積層是否能進(jìn)一步提升效果?VGG60Paper:VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition(ICLR2015)Author:K.Simonyan,

A.ZissermanTest:errorrateonImageNet,top1:24.7%,top5:7.5%VGG16VGG61由簡(jiǎn)單到復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練VGG11(A)訓(xùn)練更深神經(jīng)網(wǎng)絡(luò)收斂后的前4個(gè)卷積層和后3個(gè)全連接層的權(quán)重作為更深神經(jīng)網(wǎng)絡(luò)的前4個(gè)卷積層和后3個(gè)全連接層權(quán)重的初始值,其余層的權(quán)重隨機(jī)初始化;VGG62實(shí)驗(yàn)結(jié)果A/A-LRN:加LRN準(zhǔn)確率無(wú)明顯提升;A/B/D/E:層數(shù)越多準(zhǔn)確率越高;C/D:conv3x3比conv1x1得到的準(zhǔn)確率高VGG63規(guī)整的卷積-池化結(jié)構(gòu)

Conv所有卷積層kernel大小/stride/pad相同kernel=3*3,stride=1,pad=SAMEpad=SAME:補(bǔ)pad至輸出圖像大小等于輸入圖像大小pad=VALID:pad=0Maxpool所有池化層kernel大小/stride/pad相同kernel=2*2,stride=2,pad=0卷積層:負(fù)責(zé)數(shù)據(jù)體深度變換(控制特征圖數(shù)量)池化層:負(fù)責(zé)數(shù)據(jù)體長(zhǎng)寬變換

(控制特征圖大?。¬GG64規(guī)整的<卷積-池化>結(jié)構(gòu)多層小卷積比單層大卷積效果好實(shí)驗(yàn):對(duì)VGG13(上表B),使用5x5conv代替兩層3x3conv,進(jìn)行訓(xùn)練和測(cè)試原因:一個(gè)5x5conv和兩個(gè)3x3conv的感受野大小相同;每個(gè)卷積層加入ReLU,兩層3x3conv決策函數(shù)的區(qū)分能力更強(qiáng)結(jié)果:5x5conv網(wǎng)絡(luò)比兩個(gè)3x3conv網(wǎng)絡(luò)top-1準(zhǔn)確率低7%。Conv7x7

Conv3x3Conv3x3Conv3x3

65相同感受野,多層網(wǎng)絡(luò)權(quán)重更少VGG66VGG成功的原因更深的卷積神經(jīng)網(wǎng)絡(luò),更多的卷積層和非線性激活函數(shù),提升分類準(zhǔn)確率使用規(guī)則的多層小卷積替代大卷積,減少參數(shù)數(shù)量,提高訓(xùn)練收斂速度部分網(wǎng)絡(luò)層參數(shù)的預(yù)初始化,提高訓(xùn)練收斂速度卷積核還能不能更?。烤W(wǎng)絡(luò)還能不能更深?Inception67Inception-v1(GoogLeNet):SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions,CVPR2015:1-9.BN-Inception:IoffeS,SzegedyC.Batchnormalization:acceleratingdeepnetworktrainingbyreducinginternalcovariateshift.ICML,2015:448-456.Inception-v2,Inception-v3:SzegedyC,VanhouckeV,IoffeS,etal.RethinkingtheInceptionArchitectureforComputerVision[C]//CVPR,2016:2818-2826.Inception-v4:SzegedyC,IoffeS,VanhouckeV,etal.Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning,AAAI’2017.網(wǎng)絡(luò)主要?jiǎng)?chuàng)新Top5錯(cuò)誤率網(wǎng)絡(luò)層數(shù)GoogLeNet提出inception結(jié)構(gòu)6.67%22BN-Inception提出BatchNormalization,

用3x3代替5x54.82%—Inception-v3將一個(gè)二維卷積拆成兩個(gè)一維卷積,輔助分類器的全連接層做BN3.5%42Inception-v4inception模塊化,

結(jié)合ResNet的跳轉(zhuǎn)結(jié)構(gòu)3.08%—Inception-v168Inception模塊Na?veversion:疊加多種尺寸的卷積層和池化層,獲得不同尺度的特征,提高網(wǎng)絡(luò)對(duì)不同尺寸特征的適應(yīng)性Dimensionreductions:使用1x1的卷積層來(lái)縮減維度(減小channel),形成“瓶頸層”,減少參數(shù)Inception-v169作用:跨通道聚合,進(jìn)一步可以起到降維(或者升維)的作用,減少參數(shù)1x1卷積

*=

11…

相當(dāng)于在輸入和輸出之間做了一個(gè)特征上的全連接,提取得到非線性特征同時(shí),當(dāng)co<ci時(shí),維度降低,參數(shù)減少擴(kuò)展:NetworkinNetworkInception-v1701x1卷積使用1x1卷積,形成“瓶頸層”,可有效減少計(jì)算量和參數(shù)數(shù)量outputinput5x5conv

outputinput5x5conv1x1conv

乘加次數(shù):28×28×96×5×5×256≈4.8×10^8參數(shù)數(shù)量:96×5×5×256≈6.1×10^5乘加次數(shù):28×28×32×256+28×28×96×5×5×32≈6.7×10^7參數(shù)數(shù)量:32×256+96×5×5×32≈8.5×10^4Inception-v171GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)Inception-v172Softmax輔助分類網(wǎng)絡(luò)訓(xùn)練時(shí),讓中間某一層的輸出經(jīng)過(guò)softmax得到分類結(jié)果,并按較小的權(quán)重加到最終分類結(jié)果中,相當(dāng)于模型融合。防止多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中梯度消失。推斷時(shí),softmax輔助分類網(wǎng)絡(luò)會(huì)被去掉。BN-Inception73具體分析見(jiàn)VGG部分,不再贅述。學(xué)習(xí)VGG用兩個(gè)3x3卷積代替一個(gè)5x5卷積使用BatchNorm,并在每個(gè)卷積層之后、激活函數(shù)之前插入BN層BN-Inception74BatchNormnormalize將激活層的輸入調(diào)整為標(biāo)準(zhǔn)正態(tài)分布(均值為0,方差為1);激活層輸入分布在激活函數(shù)敏感部分,輸入有小變化就能是損失函數(shù)有較大的反應(yīng),避免梯度消失,加快訓(xùn)練速度。Scaleandshift標(biāo)準(zhǔn)化后的輸入使得網(wǎng)絡(luò)的表達(dá)能力下降;為保持網(wǎng)絡(luò)的表達(dá)能力,增加兩個(gè)可訓(xùn)練參數(shù)。BN-Inception75BN可替代LRN/Dropout/L2Normalization可提高收斂速度、訓(xùn)練速度可選擇更高的學(xué)習(xí)率,方便調(diào)參BatchNorm效果-x5表示學(xué)習(xí)率設(shè)為inception初始學(xué)習(xí)率的5倍。Inception-v376將3x3卷積拆分成1x3和3x1卷積;減少參數(shù)數(shù)量,同時(shí)通過(guò)非對(duì)稱的卷積結(jié)構(gòu)拆分增加特征多樣性;Factorization

思想Figure5Figure6Figure7Inception-v377將前面三種inception結(jié)構(gòu)組合起來(lái)GoogLeNet中7x7卷積拆分成3x3卷積卷積層和輔助分類器的全連接層做BN網(wǎng)絡(luò)結(jié)構(gòu)ResNet78Paper:DeepResidualLearningforImageRecognition,CVPR’2016

(Bestpaper).Authors:KaimingHe,XiangyuZhang,ShaoqingRen,JianSunTest:errorrateonImageNet,top5:3.57%(ResNet152)ResNet79問(wèn)題:卷積層堆積就能提升圖像分類準(zhǔn)確率嗎?實(shí)驗(yàn):分別用20層和56層卷積神經(jīng)網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,發(fā)現(xiàn)更深的網(wǎng)絡(luò)錯(cuò)誤率更高,在ImageNet數(shù)據(jù)集上也同樣如此。原因:梯度消失?No,使用BatchNorm可有效緩解梯度消失;

過(guò)擬合?No,更深的網(wǎng)絡(luò)在訓(xùn)練集上的誤差同樣更高;神經(jīng)網(wǎng)絡(luò)退化:收斂到極值點(diǎn)而非最值,誤差大。ResNet80Plainnetwork(普通網(wǎng)絡(luò)):直接用多項(xiàng)式擬合輸出;Residualnetwork(殘差網(wǎng)絡(luò)):建立在BN之上,用多項(xiàng)式擬合差值;優(yōu)點(diǎn):對(duì)數(shù)據(jù)波動(dòng)更靈敏,更容易學(xué)習(xí)獲得最優(yōu)解。什么是“殘差”inputCNNoutputplainnetworkinputCNNoutputresidualnetwork+(output–input)ResNet81殘差塊殘差網(wǎng)絡(luò)在訓(xùn)練時(shí)更容易收斂將殘差塊應(yīng)用到普通網(wǎng)絡(luò)改造VGG得到plain-networkplain-network:無(wú)跳轉(zhuǎn)連接的普通網(wǎng)絡(luò);基本全部由卷積層構(gòu)成:kernel=3*3,stride=1,pad=SAME;特征圖尺寸的減小由stride=2的卷積層完成;若特征圖的尺寸不變,則特征的數(shù)量也不變;若特征圖的尺寸減半,則特征圖的數(shù)量翻倍;增加跳轉(zhuǎn)連接得到ResNet實(shí)線:特征圖尺寸和特征數(shù)量不變,直接相連;虛線:特征圖尺寸減半,特征圖數(shù)量翻倍;特征圖數(shù)量翻倍的兩種方法:a.以stride=2直接取值,不夠的特征補(bǔ)0(不引入額外參數(shù))b.用stride=2,特征數(shù)量翻倍的1x1卷積做映射,卷積的權(quán)重經(jīng)過(guò)學(xué)習(xí)得到,會(huì)引入額外參數(shù);82圖像分類算法83圖像分類CNNAlexNetZF-NetVGG網(wǎng)絡(luò)中的網(wǎng)絡(luò)GoogLeNetInception-v2Inception-v3Inception-v4層與層的連接ResNetResNextDenseNet通道注意力SENet輕量化可分離卷積MobileNetEfficientNetTransformer注意力機(jī)制ViTSwinTransformerDeiT多模態(tài)對(duì)齊CLIPCoOpMLPMLP-Mixer分類定位+分類目標(biāo)檢測(cè)圖示輸入singleandbigobjectsingleandbigobjectmultiandsmallobject輸出labellabel&boundingboxmultilabel&boundingbox評(píng)價(jià)accuracy(top1/top5)IoU(交并比)mAP(MeanAveragePrecision)目標(biāo)檢測(cè)算法84評(píng)測(cè)指標(biāo)——IoUIoU(交并比)85用于衡量定位準(zhǔn)確度,一般IoU≥0.5可認(rèn)為定位成功(truedetection);boundingbox評(píng)測(cè)指標(biāo)——mAPmAP(meanAveragePrecision平均精度均值)86在計(jì)算機(jī)視覺(jué)領(lǐng)域,用于衡量模型在測(cè)試集上檢測(cè)精度的優(yōu)劣程度;綜合考慮檢測(cè)結(jié)果的召回率/查全率和精度/查準(zhǔn)率,mAP值越高表示檢測(cè)結(jié)果越好;召回率/查全率(recall):選的N個(gè)樣本里選對(duì)的k個(gè)正樣本占總的M個(gè)正樣本的比例k/M;精度/查準(zhǔn)率(precision):選的N個(gè)樣本里選對(duì)的k個(gè)正樣本比例k/N;選擇的樣本數(shù)N越多,召回率越高,查準(zhǔn)率越低;mAP計(jì)算原理召回率Recall=k/M=TP/(TP+FN)精度Precision=k/N=TP/(TP+FP)假設(shè)一個(gè)圖像檢測(cè)任務(wù),共有5種類別,有100張圖像作為測(cè)試集;假設(shè)對(duì)于類A,100張測(cè)試圖像中共有25個(gè)事先人為將類別標(biāo)記為A的框;假設(shè)算法對(duì)100張測(cè)試圖像共檢測(cè)出20個(gè)分類為A的候選框;評(píng)測(cè)指標(biāo)——mAP87例如:confidence_threshold=0.5時(shí):第3,7,11,20號(hào)框(score>0.5)被認(rèn)為是positive,實(shí)際只有3,7,20號(hào)框(label=1)是truepositive,那么此時(shí)precision=3/4,又因?yàn)榭偣矐?yīng)該有25個(gè)類別為A的框,那么recall=3/25confidence_threshold=0.2時(shí):共有12個(gè)框(score>0.2)被認(rèn)為是positive,實(shí)際只有5個(gè)框是truepositive,此時(shí)precision=5/12,recall=5/25閾值越小,選中樣本越多,精度越低,召回率越高評(píng)測(cè)指標(biāo)——mAP88類A的AP值計(jì)算方法(VOC2012):對(duì)每個(gè)recall值,取最大的precision求平均;例如:recall=4/25時(shí),取precision=6/13;recall=6/25時(shí),取precision=6/13;評(píng)測(cè)指標(biāo)——mAP89類A的AP值計(jì)算方法(VOC2012):對(duì)每個(gè)recall值,取最大的precision求平均;例如:recall=4/25時(shí),取precision=6/13;recall=6/25時(shí),取precision=6/13;AP(類A)=(1+1+3/4+6/13+6/13+6/13+7/17)/25=0.1819評(píng)測(cè)指標(biāo)——mAP90基于CNN的目標(biāo)檢測(cè)算法91R-CNN系列YOLOSSD目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法大致分為兩類:

1.兩階段(two-stage)算法:基于候選區(qū)域方法,先產(chǎn)生邊界框,再做CNN分類(R-CNN系列)

2.一階段(one-stage)算法:對(duì)輸入圖像直接處理,同時(shí)輸出定位及其類別(YOLO系列)

R-CNN系列92R-CNN:GirshickR,DonahueJ,DarrellT,etal.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation[C].CVPR’2014.FastR-CNN:GirshickR.FastR-CNN[C].ICCV’2015.FasterR-CNN:RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C],NeurIPS’2015.網(wǎng)絡(luò)主要特點(diǎn)mAP(VOC2012)單幀檢測(cè)時(shí)間R-CNN結(jié)合RegionProposal區(qū)域提取和CNN特征提??;SVM分類,BoundingBox回歸;53.3%50sFastR-CNN提出ROIPooling;softmax分類;65.7%2sFasterR-CNN使用RPN(RegionProposalNetwork)生成候選區(qū)域67.0%0.2sR-CNN93R-CNN的主要步驟:候選區(qū)域提?。菏褂肧electiveSearch從輸入圖片中提取2000個(gè)左右候選區(qū)域特征提取:首先將所有侯選區(qū)域裁切縮放為固定大小,再用AlexNet(5conv+2FC)提取圖像特征線性分類:用特定類別的線性SVMs對(duì)每個(gè)候選區(qū)域做分類邊界框回歸:用線性回歸修正邊界框的位置與大小,其中每個(gè)類別單獨(dú)訓(xùn)練一個(gè)邊界框回歸器R-CNN候選區(qū)域(RegionProposal)94UijlingsJRR,K.E.A.vandeSande….SelectiveSearchforObjectRecognition[J].InternationalJournalofComputerVision,2013,104(2):154-171.意義:經(jīng)典的目標(biāo)檢測(cè)算法使用滑動(dòng)窗法依次判斷所有可能的區(qū)域(窮舉),而R-CNN采用RegionProposal預(yù)先提取一系列較可能是物體的候選區(qū)域,之后僅在這些候選區(qū)域上提取特征,大大減少了計(jì)算量。方法:帶多樣性策略的選擇性搜索(SelectiveSearch)R-CNN95候選區(qū)域提取步驟層次化分組算法用基于圖的圖像分割方法創(chuàng)建初始區(qū)域計(jì)算所有相鄰區(qū)域間的相似度每次合并相似度最高的兩個(gè)相鄰圖像區(qū)域,并計(jì)算合并后的區(qū)域與其相鄰區(qū)域的相似度。重復(fù)該過(guò)程,直到所有圖像區(qū)域合并為一張完整圖像提取所有圖像區(qū)域的目標(biāo)位置框,并按層級(jí)排序(覆蓋整個(gè)圖像的區(qū)域的層級(jí)為1)在不同圖像分割閾值、不同色彩空間、以及不同的相似度(綜合考慮顏色、紋理、大小、重疊度)下,調(diào)用層次化分組算法,對(duì)所有合并策略下得到的位置框按層級(jí)*RND排序,去掉冗余框取一定個(gè)數(shù)的候選區(qū)域作為后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的輸入(R-CNN取2000個(gè))Uijlings,J.R.R.;vandeSande,K.E.A.;Gevers,T.&Smeulders,A.W.M.SelectiveSearchforObjectRecognition.InternationalJournalofComputerVision,2013,104,154-171.R-CNN分類與回歸961.SVM分類2.非極大值抑制3.BoundingBox回歸

每個(gè)類別一個(gè)SVM分類器21個(gè)分類(包括背景)NMS回歸

R-CNN非極大值抑制(Non-MaximumSuppression,NMS)97

R-CNN98R-CNN的缺點(diǎn):重復(fù)計(jì)算:需要對(duì)兩千個(gè)候選框做CNN,計(jì)算量很大,而且有很多重復(fù)計(jì)算SVM模型:在標(biāo)注數(shù)據(jù)足夠的時(shí)候不是最好的選擇多個(gè)步驟:候選區(qū)域提取、特征提取、分類、回歸都要單獨(dú)訓(xùn)練,大量中間數(shù)據(jù)需要保存檢測(cè)速度慢:GPU

K40上處理一張圖片需要13秒,CPU上則需要53秒能否避免候選框特征提取過(guò)程的重復(fù)計(jì)算?FastR-CNN99FastR-CNN的主要步驟:候選區(qū)域提?。和ㄟ^(guò)SelectiveSearch從原始圖片提取2000個(gè)左右區(qū)域候選框;特征提?。涸紙D像輸入CNN網(wǎng)絡(luò),得到特征圖;ROI-Pooling:根據(jù)映射關(guān)系,將不同尺寸的候選框在特征圖上的對(duì)應(yīng)區(qū)域池化為維度相同的特征圖(因?yàn)槿B接層要求輸入尺寸固定);全連接層:將維度相同的特征圖轉(zhuǎn)化為ROI特征向量(ROIfeaturevector);分類與回歸:經(jīng)過(guò)全連接層,再用softmax分類器進(jìn)行識(shí)別,用回歸器修正邊界框的位置與大小,最后對(duì)每個(gè)類別做NMS。FastR-CNNROIPooling100ROI:regionsofinterest,對(duì)應(yīng)前文中經(jīng)過(guò)regionproposal得到的候選框目的:將不同尺寸的ROI對(duì)應(yīng)的卷積特征圖轉(zhuǎn)換為固定大小的特征圖。一方面ROI可以復(fù)用卷積層提取的特征圖,提高圖像處理速度;另一方面向全連接層提供固定尺寸的特征圖。特點(diǎn):輸出尺寸與輸入尺寸無(wú)關(guān)。對(duì)每個(gè)特征圖通道,根據(jù)輸出尺寸(HxW)將輸入(hxw)均分成多塊(h/Hxw/W大小/塊),取每塊的最大值作為輸出。FastR-CNN101FastR-CNN改進(jìn)之處:直接對(duì)整張圖像做卷積,不再對(duì)每個(gè)候選區(qū)域分別做卷積,從而減少大量的重復(fù)計(jì)算。用ROIpooling對(duì)不同候選框的特征進(jìn)行尺寸歸一化。將邊界框回歸器放進(jìn)網(wǎng)絡(luò)一起訓(xùn)練,每個(gè)類別對(duì)應(yīng)一個(gè)回歸器;用softmax代替SVM分類器。FastR-CNN缺點(diǎn):候選區(qū)域提取仍使用selectivesearch,目標(biāo)檢測(cè)時(shí)間大多消耗在這上面(regionproposal2~3s,而特征分類只需0.32s);尋找更高效的候選區(qū)域生成方法?FasterR-CNN102FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu):FasterR-CNN=候選區(qū)域生成網(wǎng)絡(luò)RPN+FastR-CNNFasterR-CNN103FasterR-CNN主要步驟:4.分類與回歸:同F(xiàn)astR-CNN,用softmax分類器判斷圖像類別,同時(shí)用邊界框回歸修正邊界框的位置和大小卷積層:輸入圖片經(jīng)過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)(ZF、VGG),提取出卷積特征圖,供RPN網(wǎng)絡(luò)和FastR-CNN使用。RPN網(wǎng)絡(luò)和FastR-CNN共享特征提取網(wǎng)絡(luò)可大大減小計(jì)算時(shí)間;2.RPN層:生成候選區(qū)域,并用softmax判斷候選框是前景還是背景,從中選取前景候選框并利用boundingboxregression調(diào)整候選框的位置,得到候選區(qū)域;3.ROIPooling層:同F(xiàn)astR-CNN,將不同尺寸的候選框在特征圖上的對(duì)應(yīng)區(qū)域池化為維度相同的特征圖FasterR-CNNRPN(regionproposalnetworks)104目的:輸入特征圖,輸出候選區(qū)域集合,包括各候選區(qū)域?qū)儆谇?背景的概率、以及位置坐標(biāo)。RPN采用Anchor機(jī)制能夠從特征圖上直接提取候選區(qū)域的特征,相對(duì)于selectivesearch大大減少運(yùn)算量,且整個(gè)過(guò)程融合到一個(gè)網(wǎng)絡(luò)中,方便訓(xùn)練和測(cè)試。步驟及方法:先經(jīng)過(guò)一個(gè)3x3卷積,使每一個(gè)點(diǎn)對(duì)應(yīng)256維(ZF模型)或512維(VGG16)特征向量。然后分兩路處理:一路經(jīng)過(guò)1x1卷積之后做softmax處理輸出候選框?yàn)榍熬盎虮尘暗母怕?;另一路用bboxregression來(lái)確定候選框的位置。兩路計(jì)算結(jié)束后,計(jì)算得到前景候選框(因?yàn)槲矬w在前景中),再用NMS去除冗余候選框,最后輸出候選區(qū)域。FasterR-CNN關(guān)于anchorbox105在RPN中,featuremap每個(gè)位置輸出2k個(gè)得分,分別表示該位置的k個(gè)anchor為前景/背景的概率;同時(shí)每個(gè)位置輸出4k個(gè)框位置參數(shù),用[x,y,w,h]四個(gè)坐標(biāo)來(lái)表示anchor的位置。對(duì)于featuremap的每個(gè)位置,考慮9個(gè)可能的候選框:三種面積分別是128×128,256×256,512×512,每種面積又分成3種長(zhǎng)寬比,分別是2:1,1:2,1:1,這些候選框稱為anchors。R-CNN系列R-CNN系列106從R-CNN到FastR-CNN,再到FasterR-CNN,目標(biāo)檢測(cè)的四個(gè)基本步驟(候選區(qū)域生成,特征提取,分類,位置調(diào)整)終于被統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架之內(nèi),大大提高了運(yùn)行速度。網(wǎng)絡(luò)mAP(VOC2012)單幀檢測(cè)時(shí)間R-CNN53.3%50sFastR-CNN65.7%2sFasterR-CNN67.0%0.2s拓展:R-CNN訓(xùn)練相關(guān),RossGirshick在ICCV15的演講,TrainingR-CNNsofvariousvelocities(Slow,fast,andfaster)YOLO107YOLO(v1):RedmonJ,DivvalaS,GirshickR,etal.YouOnlyLookOnce:Unified,Real-TimeObjectDetection[C].CVPR’2016.主要思想:將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)換為直接從圖像中提取boundingboxes和類別概率的單回歸問(wèn)題,只需看一眼(youonlylookonce,YOLO)就可以檢測(cè)出目標(biāo)的類別和位置。YOLO算法開(kāi)創(chuàng)了one-stage檢測(cè)的先河,將目標(biāo)分類和邊界框定位合二為一,實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。YOLO的運(yùn)行速度非常快,達(dá)到45幀/秒,滿足實(shí)時(shí)性要求。YOLO108統(tǒng)一檢測(cè)(UnifiedDetection)具體實(shí)現(xiàn)

將輸入圖像分為S×S個(gè)格子,每個(gè)格子都預(yù)測(cè)B個(gè)Boundingbox,每個(gè)bbox包含五個(gè)預(yù)測(cè)值:x,y,w,h和confidence;x,y,w,h用于表示bbox的位置和大小,且都被歸一化到(0,1);confidence(置信度分?jǐn)?shù))綜合考慮了當(dāng)前bbox內(nèi)存在目標(biāo)的可能性Pr(Object)以及預(yù)測(cè)目標(biāo)位置的準(zhǔn)確性IoU(pred|truth),定義為:

YOLO109網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)基于GoogleNet;對(duì)于PASCALVOC數(shù)據(jù)集,采用S=7,B=2,C=20,

最終輸出tensor維度為7×7×30(其中30=B*5+C)。激活函數(shù)用的是LeakyReLU:f(x)=max(x,0.1x),在x小于0的時(shí)候,用0.1x,避免使用ReLU的時(shí)候有些單元永遠(yuǎn)得不到激活(DeadReLUProblem),在不增加計(jì)算法復(fù)雜度的前提下提升了模型的擬合能力。YOLO110YOLO(v1)的優(yōu)點(diǎn)1、檢測(cè)速度快。YOLO將目標(biāo)檢測(cè)重建為單一回歸問(wèn)題,對(duì)輸入圖像直接處理,同時(shí)輸出邊界框坐標(biāo)和分類概率,而且每張圖像只預(yù)測(cè)98個(gè)bbox,檢測(cè)速度非常快,在TitanX的GPU上能達(dá)到45FPS,F(xiàn)astYOLO檢測(cè)速度可以達(dá)到155FPS。2、背景誤判少。以往基于滑窗或候選區(qū)域提取的目標(biāo)檢測(cè)算法,只能看到圖像的局部信息,會(huì)出現(xiàn)把背景當(dāng)前景的問(wèn)題。而YOLO在訓(xùn)練和測(cè)試時(shí)每個(gè)cell都使用全局信息做預(yù)測(cè),因此不容易把背景誤認(rèn)為目標(biāo)。3、泛化性更好。YOLO能夠?qū)W習(xí)到目標(biāo)的泛化表示,能夠遷移到其它領(lǐng)域。例如,當(dāng)YOLO在自然圖像上做訓(xùn)練,在藝術(shù)品上做測(cè)試時(shí),YOLO的性能遠(yuǎn)優(yōu)于DPM、R-CNN等。YOLO111YOLO(v1)的缺點(diǎn)1、鄰近物體檢測(cè)精度低。YOLO對(duì)每個(gè)cell只預(yù)測(cè)兩個(gè)bbox和一個(gè)分類,如果多個(gè)物體的中心都在同一cell內(nèi),檢測(cè)精度低。2、損失函數(shù)的設(shè)計(jì)過(guò)于簡(jiǎn)單。用坐標(biāo)和分類的MSE作為損失函數(shù)不合理3、訓(xùn)練不易收斂。直接預(yù)測(cè)的bbox位置,相較于預(yù)測(cè)物體的偏移量,模型收斂不穩(wěn)定。表示目標(biāo)出現(xiàn)在celli中表示celli中第j個(gè)邊框預(yù)測(cè)目標(biāo)在該cell中YOLO112YOLO-v2:RedmonJ,FarhadiA.YOLO9000:Better,Faster,Stronger[C]//IEEEConferenceonComputerVision&PatternRecognition.2017.拓展提高了訓(xùn)練圖像的分辨率;引入了FasterRCNN中anchorbox的思想;對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)進(jìn)行了改進(jìn)(Darknet-19);輸出層使用卷積層替代YOLO的全連接層,聯(lián)合使用COCO物體檢測(cè)標(biāo)注數(shù)據(jù)和ImageNet物體分類標(biāo)注數(shù)據(jù)訓(xùn)練物體檢測(cè)模型。類似FPN的多尺度預(yù)測(cè);更好的基礎(chǔ)分類網(wǎng)絡(luò)(Darknet-53,結(jié)合ResNet);Sigmoid代替Softmax用于多標(biāo)簽分類。YOLO-v3:RedmonJ,FarhadiA.YOLOv3:AnIncrementalImprovement[J].2018.113YOLOv9Fromhttps://images.app.goo.gl/HJ6A5in33HQaoVVt52024114SSD115LiuW,AnguelovD,ErhanD,etal.SSD:SingleShotMultiBoxDetector[C]//EuropeanConferenceonComputerVision.2016.主要思想:基于YOLO直接回歸bbox和分類概率的one-stage檢測(cè)方法,結(jié)合FasterR-CNN中的anchor-box思想產(chǎn)生先驗(yàn)框,并且采用特征金字塔進(jìn)行多尺度預(yù)測(cè),在滿足檢測(cè)速度快的同時(shí),大大提高了檢測(cè)準(zhǔn)確度。SSD116多尺度特征圖檢測(cè)CNN網(wǎng)絡(luò)一般前面的特征圖比較大,后面會(huì)逐漸采用stride=2的卷積或者pool來(lái)降低特征圖大小,在大的和小的特征圖都提取anchorbox用來(lái)做檢測(cè),可找到最合適的anchorbox尺寸,提高檢測(cè)準(zhǔn)確度。比較大的特征圖可以用來(lái)檢測(cè)相對(duì)較小的目標(biāo),而小的特征圖負(fù)責(zé)檢測(cè)大目標(biāo),例如左圖中8x8的特征圖可以劃分成更多單元,其每個(gè)單元的先驗(yàn)框尺度較小,適合用于檢測(cè)較小的目標(biāo)。SSD117Anchorbox(論文中為defaultbox)

第k層scale:

第k層defaultbox的寬:

高:

SSD118同時(shí)對(duì)多層特征圖上的默認(rèn)框計(jì)算IoU,可以找到與真實(shí)框大小和位置最接近(即IoU最大)的框,在訓(xùn)練時(shí)能達(dá)到最好的精度。較低層級(jí)的特征圖中間層級(jí)的特征圖較高層級(jí)的特征圖目標(biāo)檢測(cè)算法119/p/33277354目標(biāo)檢測(cè)TwostageR-CNNSPP-NetFastR-CNNFasterR-CNN更好的特征網(wǎng)絡(luò)HyperNetMS-CNNPVANetLight-HeadR-CNN更精確的RPNMR-CNNFPNCRAFT更完善的ROI分類R-FCNCoupleNetMask

R-CNNCascadeR-CNN目標(biāo)后處理OHEMSoft-NMSA-Fast-RCNNOnestageOverFeatYOLOYOLOv2YOLOv3YOLOv4YOLOv7YOLOv5YOLOv8YOLOv6YOLOXYOLORSSDR-SSDDSSDDSODFSSDRetinaNetEfficientDet圖像生成120圖像識(shí)別判別模型圖像生成網(wǎng)絡(luò)學(xué)習(xí)到的是數(shù)據(jù)的模式/特征網(wǎng)絡(luò)學(xué)習(xí)到的是數(shù)據(jù)的分布生成模型Cat√Dog×生成模型121

生成對(duì)抗網(wǎng)絡(luò)GAN2014年,IanGoodfellow提出生成式對(duì)抗網(wǎng)絡(luò)GANGoodfellowIJ,Pouget-AbadieJ,MirzaM,etal.Generativeadversarialnets.NeurIPS’2014.20年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域最酷的想法——YannLeCun解決的問(wèn)題:從訓(xùn)練樣本中學(xué)習(xí)出新樣本。為無(wú)監(jiān)督、預(yù)測(cè)學(xué)習(xí)提供算法框架。和蘇格拉底的辯證法有相似之處122GAN學(xué)習(xí)到了真實(shí)樣本集的數(shù)據(jù)分布/generative-models/生成對(duì)抗網(wǎng)絡(luò)GAN模型由兩部分組成生成器(偽裝者):找出觀測(cè)數(shù)據(jù)內(nèi)部的統(tǒng)計(jì)規(guī)律,盡可能生成能夠以假亂真的樣本,使判別網(wǎng)絡(luò)輸出接近0.5,難以區(qū)分真假。判別器(警察):判斷輸入數(shù)據(jù)是來(lái)自真實(shí)樣本集還是生成樣本集。如果輸入是真樣本,輸出接近1;如果輸入是生成樣本,輸出接近0。123生成模型G真實(shí)樣本x生成樣本G(z)判別模型D隨機(jī)噪聲z或真?假?GAN訓(xùn)練過(guò)程124更新判別網(wǎng)絡(luò)權(quán)值參數(shù),使其能分清真假樣本。更新生成網(wǎng)絡(luò)權(quán)值參數(shù),使其生成的假樣本被判別網(wǎng)絡(luò)識(shí)別為真樣本。判別網(wǎng)絡(luò)訓(xùn)練過(guò)程生成網(wǎng)絡(luò)訓(xùn)練過(guò)程交替迭代交替迭代生成網(wǎng)絡(luò)G真實(shí)樣本x生成樣本G(z)判別網(wǎng)絡(luò)D隨機(jī)噪聲z或真?假?生成網(wǎng)絡(luò)G生成樣本G(z)判別網(wǎng)絡(luò)D隨機(jī)噪聲z真?假?(label=1)(label=0)參數(shù)共享參數(shù)共享GAN訓(xùn)練過(guò)程GAN訓(xùn)練是極小極大博弈問(wèn)題(或零和博弈)125優(yōu)化判別器D優(yōu)化目標(biāo):輸入真樣本x時(shí),輸出接近1;輸入生成樣本G(z)時(shí),輸出接近0。優(yōu)化生成器G優(yōu)化目標(biāo):生成的假樣本G(z),被判別器判斷為接近1,即(1-D(G(z))越小越好。生成對(duì)抗網(wǎng)絡(luò)GANGAN有一個(gè)整體的損失函數(shù),而不需要對(duì)生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò)分別指定具體的損失函數(shù),有較強(qiáng)的通用性。問(wèn)題梯度消失:當(dāng)判別器以高置信度成功判斷生成器生成的樣本為假樣本時(shí),生成器的梯度會(huì)消失。訓(xùn)練早期,會(huì)飽和應(yīng)對(duì)方法:修改生成器的代價(jià)函數(shù)模式崩潰:生成器只生成幾種模式的樣本,生成樣本缺乏多樣性126模式崩潰(modelcollapse)127產(chǎn)生原因:GAN的損失函數(shù)使判別器假樣本的懲罰是巨大的,一旦生成的某一類假樣本成功騙過(guò)判別器,生成器就趨向于生成相似的樣本。應(yīng)對(duì)方法(WGAN):采用更加平滑的損失函數(shù),參見(jiàn)Wasserstein

GANMNIST數(shù)據(jù)集的t-SNE圖,10個(gè)團(tuán)簇對(duì)應(yīng)10種模式。模式崩潰時(shí),只生成其中的幾種模式,生成樣本缺乏多樣性。vanderMaaten,L.&Hinton,G.VisualizingDatausingt-SNE.JournalofMachineLearningResearch,2008,2579-2605

GAN相關(guān)研究/hindupuravinash/the-gan-zoo128卷積GANDCGAN:將GAN中全連接神經(jīng)網(wǎng)絡(luò)擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò)ResGAN:圖像恢復(fù),ResNetSRGAN:超分辨率,ResNetCycleGAN:圖像轉(zhuǎn)換條件GANCGANInfoGAN集成推斷模型的GANBiGAN對(duì)抗自編碼器VAE-GAN129GAN結(jié)構(gòu)DCGAN特點(diǎn)判別器用stridedconv,生成器用fractional-stridedconv,來(lái)取代所有池化層,做空間下采樣和上采樣生成器和判別器使用batchnorm,進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,防止模式崩潰生成器用Tanh作為輸出的激活函數(shù),用ReLU作為其它層的激活函數(shù)判別器的所有層都使用LeakyReLU作為激活函數(shù)去掉較深結(jié)構(gòu)中的全連接隱層130Radford,A.;Metz,L.&Chintala,S.UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarialNetworks,ICLR,2016.原始GAN生成器的輸入是隨機(jī)噪聲,因此輸出數(shù)據(jù)的模式是不可控的。如果在輸入中增加類別條件,可以獲得預(yù)期的輸出。131條件GANinput:0123output:input:output:

132CGANMirza,M.&Osindero,S.ConditionalGenerativeAdversarialNets.arXiv:1411.1784v1,2014,1-7

GAN應(yīng)用人臉生成風(fēng)格轉(zhuǎn)換Superresolution…133GANzoo:https://deephunt.in/the-gan-zoo-79597dc8c347GAN代碼合集:

/zhangqianhui/AdversarialNetsPapersGAN應(yīng)用合集:/nashory/gans-awesome-applications

生成對(duì)抗網(wǎng)絡(luò)vs擴(kuò)散模型134生成對(duì)抗網(wǎng)絡(luò)存在的問(wèn)題生成圖像缺乏多樣性模式崩潰由對(duì)抗性帶來(lái)的難以訓(xùn)練擴(kuò)散模型的優(yōu)勢(shì)擴(kuò)散模型訓(xùn)練過(guò)程中沒(méi)有對(duì)抗,訓(xùn)練更容易不會(huì)受到模式崩潰的影響能夠產(chǎn)生多樣化圖像擴(kuò)散模型135J.Ho,A.Jain,andP.Abbeel.Denoisingdiffusionprobabilisticmodels[C].NeurIPS,2020.DDPM在圖像合成方面擊敗了GAN擴(kuò)散模型136基本原理正向過(guò)程和反向過(guò)程擴(kuò)散模型137

擴(kuò)散模型138

擴(kuò)散模型139噪聲預(yù)測(cè)網(wǎng)絡(luò)擴(kuò)散模型的關(guān)鍵在于構(gòu)建一個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò),能在反向過(guò)程的每一步預(yù)測(cè)合理的去噪?yún)?shù)需要進(jìn)行像素級(jí)的預(yù)測(cè),因此采用常用于圖像分割任務(wù)的U-NetU-Net完全對(duì)稱的全卷積網(wǎng)絡(luò),由左側(cè)的編碼器(encoder)和右側(cè)的解碼器(decoder)組成編碼器通過(guò)一系列的下采樣,去除輸入圖像中的冗余信息,并壓縮轉(zhuǎn)換到小尺寸的圖像特征解碼器通過(guò)對(duì)稱的上采樣(反卷積),將圖像特征還原到原圖尺寸RonnebergerO,FischerP,andBroxT.U-Net:Convolutionalnetworksforbiomedicalimagesegmentation.MICCAI,

2015擴(kuò)散模型140噪聲預(yù)測(cè)網(wǎng)絡(luò)擴(kuò)散模型的關(guān)鍵在于構(gòu)建一個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò),能在反向過(guò)程的每一步預(yù)測(cè)合理的去噪?yún)?shù)需要進(jìn)行像素級(jí)的預(yù)測(cè),因此采用常用于圖像分割任務(wù)的U-NetDDPM改進(jìn)了原始U-Net將每個(gè)尺度的卷積塊替換為殘差塊,并增加自注意力層來(lái)增強(qiáng)關(guān)系感知能力將當(dāng)前時(shí)間t編碼為向量,作為網(wǎng)絡(luò)的條件輸入,來(lái)為不同的時(shí)間步預(yù)測(cè)噪聲擴(kuò)散模型141訓(xùn)練過(guò)程損失函數(shù)推理過(guò)程Palette142CSaharia,WChan,HChang,CLee,JHo,TSalimans,DFleet,MNorouzi,Palette:Image-to-ImageDiffusionModels,ACMSIGGRAPH’2022.將擴(kuò)散模型應(yīng)用到圖像翻譯領(lǐng)域,實(shí)現(xiàn)圖像著色、圖像修復(fù)、圖像剪裁恢復(fù)、圖像解壓縮等任務(wù)在不同任務(wù)里,均能產(chǎn)出多樣化的圖像DALL-E2143ARamesh,PDhariwal,ANichol,CChu,etal,HierarchicalText-ConditionalImageGenerationwithCLIPLatents,2022.給定文本text,生成與文本高度對(duì)應(yīng)的圖片訓(xùn)練1、訓(xùn)練CLIP的文本和圖像編碼器(讓文本和圖像轉(zhuǎn)化為對(duì)應(yīng)的embedding)2、訓(xùn)練prior(讓文本embedding能轉(zhuǎn)化為圖像embedding)3、

訓(xùn)練decoder[擴(kuò)散模型,比如GLIDE](用圖像embedding引導(dǎo)生成真實(shí)圖片)123DALL-E2144推理1、使用CLIP文本編碼器生成文本embedding2、使用prior將文本embedding轉(zhuǎn)換成圖像embedding3、使用decoder(擴(kuò)散模型)通過(guò)圖像embedding的引導(dǎo)生成真實(shí)圖像優(yōu)點(diǎn):能生成遵循文本指引的多樣的圖像不足:計(jì)算資源需求高。因其直接在圖像空間做擴(kuò)散和逆擴(kuò)散過(guò)程,導(dǎo)致需要生成高分辨圖像時(shí),需要先生成64*64的小圖像,再級(jí)聯(lián)一個(gè)放大擴(kuò)散模型生成256*256的圖像,再級(jí)聯(lián)一個(gè)放大擴(kuò)散模型生成1024*1024的圖像StableDiffusion145RRombach,ABlattmann,DLorenz,PEsser,BOmmer,High-ResolutionImageSynthesiswithLatentDiffusionModels,CVPR’2022.訓(xùn)練和推理的擴(kuò)散和逆擴(kuò)散過(guò)程都在隱空間中進(jìn)行,大大減小了顯存使用量和計(jì)算量VAE的編碼器和解碼器主要用于將原始圖片轉(zhuǎn)換到隱空間中比如:512x512x3轉(zhuǎn)換后變成64x64x4StableDiffusion146

StableDiffusion147RRombach,ABlattmann,DLorenz,PEsser,BOmmer,High-ResolutionImageSynthesiswithLatentDiffusionModels,CVPR’2022.ControlNet148LZhang,ARao,MAgrawala,Addingconditionalcontroltotext-to-imagediffusionmodels,ICCV2023.原始StableDiffusion對(duì)于每一種多模態(tài)輸入控制條件,都需要在龐大的數(shù)據(jù)集上更新全部模型參數(shù)核心思想:對(duì)大型擴(kuò)散模型的權(quán)重進(jìn)行克隆,并劃分為“可訓(xùn)練副本”和“鎖定副本”,通過(guò)旁路微調(diào)可訓(xùn)練副本來(lái)實(shí)現(xiàn)特定輸入的控制ControlNet149LZhang,ARao,MAgrawala,Addingconditionalcontroltotext-to-imagediffusionmodels,ICCV2023.提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡(luò)適合語(yǔ)音/文本處理的循環(huán)神經(jīng)網(wǎng)絡(luò)從深度學(xué)習(xí)到大模型神經(jīng)網(wǎng)絡(luò)量化DrivingExample本章小結(jié)本章實(shí)驗(yàn)150151人獲得的輸入是什么?圖像信息序列信息任務(wù):理解圖像內(nèi)容方法:卷積神經(jīng)網(wǎng)絡(luò)任務(wù):理解語(yǔ)音/文字/視頻方法:循環(huán)神經(jīng)網(wǎng)絡(luò)任務(wù)特點(diǎn):按時(shí)序輸入的數(shù)據(jù)之間不是相互獨(dú)立的,前后數(shù)據(jù)之間有相關(guān)性,所以網(wǎng)絡(luò)要有“存儲(chǔ)”信息的能力。循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)主要應(yīng)用場(chǎng)景:機(jī)器翻譯、圖片描述、視頻標(biāo)注、視覺(jué)問(wèn)答等152機(jī)器翻譯圖片描述主要應(yīng)用場(chǎng)景GitHubProject:AwesomeRecurrentNeuralNetworksAcuratedlistofresourcesdedicatedtorecurrentneuralnetworks(closelyrelatedtodeeplearning)./kjw0612/awesome-rnn

153循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

154=unfold輸入輸出層隱層(記憶單元)

循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)155=unfold輸入輸出層隱層(記憶單元)

循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)RNN的多種輸入-輸出結(jié)構(gòu)156序列作為輸出imagecaptioning序列作為輸入sentimentanalysis

序列轉(zhuǎn)化為序列machinetranslationvideocaption同步序列轉(zhuǎn)化為序列videoclassification

(標(biāo)注每一幀)對(duì)序列的長(zhǎng)度(綠色塊塊多少個(gè))無(wú)要求,不用預(yù)先定義http://karpathy.github.io/2015/05/21/rnn-effectiveness/循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)正向計(jì)算過(guò)程157

一般時(shí)刻:

RNNcellX+XfXsoftmax

循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)反向傳播BPTT(back-propagationthroughtime)某個(gè)時(shí)刻的損失函數(shù)為:整個(gè)序列的損失函數(shù)為:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論