《深度學(xué)習(xí):基于PyTorch 》 課件 第5、6章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第1頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第5、6章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第2頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第5、6章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第3頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第5、6章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第4頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第5、6章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第5頁
已閱讀5頁,還剩86頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章:卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積的工作原理池化的工作原理LeNet-5模型用于手寫數(shù)字識別可視化卷積神經(jīng)網(wǎng)絡(luò)的中間過程學(xué)習(xí)目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)又稱卷積網(wǎng)絡(luò)(ConvolutionalNetwork),是在圖像處理和計(jì)算機(jī)視覺領(lǐng)域應(yīng)用較為廣泛的一種神經(jīng)網(wǎng)絡(luò)?;窘Y(jié)構(gòu):輸入層卷積層:獲得更多圖像的抽象特征。池化層:減少網(wǎng)絡(luò)中參數(shù)。全連接層:為后續(xù)分類任務(wù)做準(zhǔn)備。輸出層卷積神經(jīng)網(wǎng)絡(luò)卷積與池化的通俗理解示例任務(wù):分辨照片是否是熊大機(jī)械化過程:需要記錄熊大特征的照片,記為“卷積核”;用“卷積核”掃描身份證,尋找是否有某個(gè)位置出現(xiàn)熊大的特征;將卷積核與身份證上某個(gè)位置的圖像特征進(jìn)行相似度計(jì)算,這個(gè)計(jì)算就是“卷積”。

對卷積的理解熊大圖像是否出現(xiàn)在身份證上,只依賴于計(jì)算出的相似特征的最大值,即只需要有一個(gè)局部圖像與熊大照片非常相像,就可以認(rèn)為身份證上出現(xiàn)了熊大頭像。卷積核在圖像上不斷掃描的過程中,我們只關(guān)心卷積計(jì)算結(jié)果的最大值,這個(gè)最大化的操作,就是一種特殊的池化方法,被稱為最大值池化(Max-Pooling)。卷積就是計(jì)算某種局部的相似性,而池化就是將某種最突出的相似性選擇出來。對池化的理解卷積卷積(Convolutional)是一種特殊的線性運(yùn)算,用來代替一般的矩陣乘法運(yùn)算。卷積運(yùn)算由以下兩個(gè)關(guān)鍵參數(shù)定義:卷積核的大小輸出特征圖的深度:由使用的卷積核的數(shù)量決定卷積計(jì)算示例圖卷積

卷積運(yùn)算舉例1110001110001×1110011001100101010101×1×0×1×0×1×1×0×0×110101010原始圖像卷積核特征圖4

卷積運(yùn)算舉例1110001110001×111001100110010101010110101010原始圖像卷積核特征圖43×1×0×1×0×1×1×0×0×1

卷積運(yùn)算舉例1110001110001×111001100110010101010110101010原始圖像卷積核特征圖4342×1×0×1×0×1×1×0×0×1卷積核不斷地由左向右由上向下滑動,在滑動過程中與原始圖像的對應(yīng)區(qū)域做線性運(yùn)算從而得到特征圖對應(yīng)位置的像素值,卷積核對原始圖像的掃描直到將原始圖像全部覆蓋為止。在本例中得到的最終結(jié)果如圖卷積運(yùn)算舉例1110001110001×111001100110010101010×1×0×1×0×1×1×0×0×1110101010原始圖像卷積核特征圖443424323

填充與步長

填充與步長00001111×110101000011100000010000110000000000000000×1×0×1×0×1×1×0×0×11101010102231114341124331234112211填充后的圖像卷積核特征圖步長為2時(shí)的卷積核滑動填充與步長1110001110001×111001100110010101010110101010原始圖像卷積核特征圖44×1×0×1×0×1×1×0×0×11110001110001×111001100110010101010110101010原始圖像卷積核特征圖×1×0×1×0×1×1×0×0×1442在卷積過程中,各參數(shù)如下表所示,卷積的輸出結(jié)果大小計(jì)算:

示例輸入張量大小R行L列8行8列卷積核大小FR行FL列3行3列填充大小PR行PL列2行2列垂直方向移動步長SR3水平方向移動步長SL2輸出結(jié)果floor(R+PR+SR-FR/SR)行floor(L+PL+SL-FL/SL)列floor(8+2+3-3/3)=3行floor(8+2+2-3/2)=4列卷積結(jié)果的輸出

多通道卷積原理多通道卷積原理單個(gè)張量與多個(gè)卷積核的卷積卷積過程多通道卷積原理多個(gè)張量與多個(gè)卷積核的卷積卷積過程多通道卷積原理卷積神經(jīng)網(wǎng)絡(luò)動態(tài)展示圖每個(gè)卷積核只關(guān)注一個(gè)特征池化操作池化(Pooling)操作是對卷積得到的結(jié)果進(jìn)一步處理,它是將平面內(nèi)某一位置及其相鄰位置的特征值進(jìn)行統(tǒng)計(jì)匯總,并將匯總后的結(jié)果作為這一位置在該平面內(nèi)的值輸出,也叫下采樣操作。分類最大值池化平均值池化池化操作輸入張量大?。篐行W列池化窗口大?。篐H行WW列垂直方向和水平方向移動步長:SR、SL最大值池化輸出結(jié)果:ceil((H-HH+1)/SR)、ceil((W-WW+1)/SL)最大值池化計(jì)算過程(步長為2):多通道張量的最大值池化計(jì)算過程(步長為2)多個(gè)張量的最大值池化卷積與池化的區(qū)別卷積核的權(quán)重是一個(gè)未知的參數(shù);而池化不僅沒有未知參數(shù)需要估計(jì),也不需要參數(shù)優(yōu)化的過程。因此,對計(jì)算機(jī)而言,池化是非常簡單的操作。不管輸入的像素矩陣有多少通道,只要進(jìn)行卷積運(yùn)算,一個(gè)卷積核參與計(jì)算只會產(chǎn)生一個(gè)通道;而池化是分層運(yùn)算,輸出的像素矩陣的通道取決于輸入像素矩陣的通道數(shù)。卷積與池化的區(qū)別LeNet-5用于手寫數(shù)據(jù)識別MNIST數(shù)據(jù)集介紹

MNIST數(shù)據(jù)集的導(dǎo)入通過Pytorch內(nèi)置函數(shù)導(dǎo)入MNIST數(shù)據(jù)集構(gòu)造數(shù)據(jù)讀取器并展示圖片LeNet-5介紹:由YannLeCun(楊立昆)于1998年提出的一種經(jīng)典的卷積網(wǎng)絡(luò)結(jié)構(gòu)。第一個(gè)成功應(yīng)用于數(shù)字識別問題的卷積神經(jīng)網(wǎng)絡(luò)。LeNet-5網(wǎng)絡(luò)結(jié)構(gòu):共7層輸入層卷積層池化層卷積層池化層全連接層輸出層LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5網(wǎng)絡(luò)構(gòu)建LeNet-5模型結(jié)構(gòu)與參數(shù)LeNet-5模型訓(xùn)練曲線LeNet-5模型訓(xùn)練過程可視化第一層卷積核的可視化展示LeNet-5模型訓(xùn)練過程可視化第一層卷積輸出的6個(gè)特征圖的可視化結(jié)果LeNet-5模型訓(xùn)練過程可視化第二層卷積核的可視化展示LeNet-5模型訓(xùn)練過程可視化第一層卷積輸出的6個(gè)特征圖的可視化結(jié)果第六章:經(jīng)典CNN模型介紹1.

AlexNet模型原理與實(shí)現(xiàn)2.VGG模型原理與實(shí)現(xiàn)3.InceptionV1模型原理與實(shí)現(xiàn)4.ResNet模型原理與實(shí)現(xiàn)5.批量歸一化(BN)原理與實(shí)現(xiàn)6.數(shù)據(jù)增強(qiáng)(DA)原理與實(shí)現(xiàn)7.遷移學(xué)習(xí)原理與實(shí)現(xiàn)學(xué)習(xí)目標(biāo)AlexNetAlexNet介紹:ImageNet競賽冠軍獲得者Hinton和他的學(xué)生KrizhevskyAlex于2012年設(shè)計(jì)。ImageNet競賽中第一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)的參賽者。AlexNet網(wǎng)絡(luò)結(jié)構(gòu):8層卷積層池化層卷積層池化層卷積層卷積層卷積層池化層輸出層:三個(gè)全連接層AlexNet網(wǎng)絡(luò)結(jié)構(gòu)AlexNet網(wǎng)絡(luò)結(jié)構(gòu)AlexNet創(chuàng)新點(diǎn):成功使用ReLU作為CNN的激活函數(shù);使用Dropout隨機(jī)忽略一部分神經(jīng)元,避免模型過擬合;在CNN中使用重疊的最大值池化(步長小于卷積核);提出局部響應(yīng)歸一化層(LocalResponseNormalization,LRN),后逐漸被BN(BatchNormalization)代替;使用CUDA加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,利用了GPU強(qiáng)大的計(jì)算能力;采用了數(shù)據(jù)增強(qiáng)(DataAugmentation)技術(shù),達(dá)到增加樣本量的目的。AlexNet創(chuàng)新點(diǎn)局部響應(yīng)歸一化是對同層神經(jīng)元、鄰近特征映射進(jìn)行局部歸一化應(yīng)用在激活函數(shù)之后歸一化(Normalization)方法泛指把數(shù)據(jù)特征轉(zhuǎn)換為相同尺度的方法,比如把數(shù)據(jù)特征映射到[0,1]或[?1,1]區(qū)間內(nèi),或者映射為服從均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布.案例:CIFAR10數(shù)據(jù)集介紹

Cifar10數(shù)據(jù)的獲取AlexNet用于Cifar10的Pytorch代碼VGGVGG(VisualGeometryGroup,DepartmentofEngineeringScience,UniversityofOxford)牛津大學(xué)計(jì)算機(jī)視覺組和DeepMind公司共同研發(fā)的一種深度卷積神經(jīng)網(wǎng)絡(luò)VGG網(wǎng)絡(luò)結(jié)構(gòu):6種從左到右深度越來越深加粗體表示新增的層所有網(wǎng)絡(luò)結(jié)構(gòu)都包含5組卷積操作,每組卷積包含一定數(shù)量的卷積層——可以看作一個(gè)五階段的卷積特征提取。獲得2014年ILSVRC分類項(xiàng)目第2名VGG網(wǎng)絡(luò)結(jié)構(gòu)輸入層:224×224×3的彩色圖像。第1組卷積層(2次卷積):Conv2D(3×3,64),Stride(1),same,ReLU,Output:224×224×64。第1個(gè)池化層:MaxPooling2D(2×2),Stride(2),Output:112×112×64。第2組卷積層(2次卷積):Conv2D(3×3,128),Stride(1),same,ReLU,Output:112×112×128。第2個(gè)池化層:MaxPooling2D(2×2),Stride(2),Output:。第3組卷積層(3次卷積):Conv2D(3×3,256),Stride(1),same,ReLU,Output:56×56×256。第3個(gè)池化層:MaxPooling2D(2×2),Stride(2),Output:。第4組卷積層(3次卷積):Conv2D(3×3,512),Stride(1),same,ReLU,Output:28×28×512。第4個(gè)池化層:MaxPooling2D(2×2),Stride(2),Output:。第5組卷積層(3次卷積):Conv2D(3×3,512),Stride(1),same,ReLU,Output:。第5個(gè)池化層:MaxPooling2D(),Stride(2),Output:。輸出層:Flatten,Dense(4096),Dense(4096),Dense(1000)。VGG網(wǎng)絡(luò)結(jié)構(gòu)VGG16網(wǎng)絡(luò)結(jié)構(gòu):5組卷積組和3個(gè)全連接層VGG網(wǎng)絡(luò)結(jié)構(gòu)VGG模型的Pytorch實(shí)現(xiàn)VGG模型的Pytorch實(shí)現(xiàn)BatchNormalization技巧批量歸一化(BatchNormalization,

BN)方法是一種有效的逐層歸一化方法,可以對神經(jīng)網(wǎng)絡(luò)中任意的中間層進(jìn)行歸一化操作(Ioffeetal.,2015).為了提高優(yōu)化效率,就要使得凈輸入??(??)的分布一致,比如都?xì)w一化到標(biāo)準(zhǔn)正態(tài)分布一般使用標(biāo)準(zhǔn)化將凈輸入??(??)的每一維都?xì)w一到標(biāo)準(zhǔn)正態(tài)分布??(??)的期望和方差通常用當(dāng)前小批量樣本集的均值和方差近似估計(jì)給定一個(gè)包含??個(gè)樣本的小批量樣本集合,第??層神經(jīng)元的凈輸入??(1,??)?,??(??,??)的均值和方差為BatchNormalization的核心思想對凈輸入??(??)的標(biāo)準(zhǔn)歸一化會使得其取值集中到0附近,如果使用Sigmoid型激活函數(shù)時(shí),這個(gè)取值區(qū)間剛好是接近線性變換的區(qū)間,減弱了神經(jīng)網(wǎng)絡(luò)的非線性性質(zhì).因此,為了使得歸一化不對網(wǎng)絡(luò)的表示能力造成負(fù)面影響,可以通過一個(gè)附加的縮放和平移變換改變?nèi)≈祬^(qū)間BatchNormalization的核心思想:BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShiftBatchNormalization的核心思想

BatchNormalization的核心思想案例:貓狗數(shù)據(jù)集訓(xùn)練核心任務(wù):對貓和狗進(jìn)行分類其中訓(xùn)練集和驗(yàn)證集進(jìn)行了規(guī)范化的格式存儲樣本量:15000張訓(xùn)練,10000張驗(yàn)證,貓狗各50%讀入貓狗數(shù)據(jù)

帶有BN的寬模型這個(gè)模型中,卷積核的個(gè)數(shù)減少,但是模型的層數(shù)增加。每一層使用20個(gè)卷積核,進(jìn)行一個(gè)長度為7的循環(huán),每一步要重復(fù)一個(gè)卷積和池化的基本操作,其中卷積層進(jìn)行規(guī)格大小為2×2的same卷積,池化層進(jìn)行規(guī)格大小為2×2的最大值池化。BN總結(jié):BatchNormalization在很多情況下確實(shí)是幫助巨大的,但并不是對所有情況都有幫助。在什么情況下BatchNormalization能夠讓結(jié)果變好,在什么情況下沒有幫助是不清楚的,是值得我們思考和研究的。帶有BN的深度模型DataAugmentation技巧DataAugmentation被翻譯成“數(shù)據(jù)增強(qiáng)”,或者“數(shù)據(jù)增廣”。它通過對數(shù)據(jù)施加各種變換來達(dá)到增加樣本量的目的。數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中除了BatchNormalization外另一個(gè)非常常用的技巧。DataAugmentation技巧人和計(jì)算機(jī)處理圖像不同。原來的圖像被拉伸、變換或旋轉(zhuǎn),對計(jì)算機(jī)而言都是一個(gè)全新的矩陣。計(jì)算機(jī)對圖像數(shù)據(jù)用矩陣形式表達(dá)不充分。把一張圖像變成矩陣的過程中,是有信息損失的,而這些損失的信息很寶貴,有可能幫助我們把模型做得更好。DataAugmentation核心思想(1)RandomHorizontalFlip:允許水平方向的翻轉(zhuǎn)。(2)RandomCrop:隨機(jī)裁剪,參數(shù)size代表剪切后的圖片尺寸,參數(shù)padding代表裁剪前首先在圖片外補(bǔ)0。(3)RandomAffine:對坐標(biāo)進(jìn)行仿射變換,由五種基本變換構(gòu)成,分別為旋轉(zhuǎn)、平移、縮放、錯(cuò)切和翻轉(zhuǎn)。Degrees:最大旋轉(zhuǎn)角度;Translate:最大平移區(qū)間,如(a,b),a代表寬,b代表高;Scale:縮放比例區(qū)間,如(a,b),則圖片在a,b間縮放;Shear:最大錯(cuò)切角度,分為水平錯(cuò)切和垂直錯(cuò)切;若shear=a,則僅在x軸錯(cuò)切,若shear=(a,b),則a設(shè)置x軸角度,b設(shè)置y軸角度。Pytorch實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)究竟增加了多少樣本?(1)每一條規(guī)則前都帶有Random,說明這種變換是隨機(jī)的(2)同一張圖片,在第1個(gè)Epoch和第2個(gè)Epoch經(jīng)過數(shù)據(jù)變換后的輸出是有區(qū)別的第1個(gè)epoch第2個(gè)epochInceptionInception介紹:由Google團(tuán)隊(duì)提出,因此也被稱為GoogleNet;該模型一共有4個(gè)版本,從V1到V4;通過增加網(wǎng)絡(luò)的寬度(通道數(shù))來提升訓(xùn)練效果。InceptionV1網(wǎng)絡(luò)結(jié)構(gòu)InceptionV1模塊由多個(gè)Inception基礎(chǔ)模塊串聯(lián)而成。獲得了ILSVRC2014挑戰(zhàn)賽分類項(xiàng)目的冠軍InceptionV1基礎(chǔ)模塊Inception網(wǎng)絡(luò)結(jié)構(gòu)InceptionV1模塊創(chuàng)新點(diǎn):1.InceptionV1使用多個(gè)不同尺寸的卷積核(直觀理解:疊加不同尺寸的卷積核,可以從細(xì)節(jié)上提取更豐富的特征)。Inception網(wǎng)絡(luò)結(jié)構(gòu)

Inception網(wǎng)絡(luò)結(jié)構(gòu)舉例說明:1*1的卷積核是如何起到減少參數(shù)的作用的?Inception網(wǎng)絡(luò)結(jié)構(gòu)In

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論