《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-02-21 格式：PPTX 頁數(shù)：91 大?。?1.18MB 積分：25 舉報(bào) 版權(quán)申訴

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第2頁

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第3頁

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第4頁

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹_第5頁

已閱讀5頁，還剩86頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積的工作原理池化的工作原理LeNet-5模型用于手寫數(shù)字識別可視化卷積神經(jīng)網(wǎng)絡(luò)的中間過程學(xué)習(xí)目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)又稱卷積網(wǎng)絡(luò)（ConvolutionalNetwork），是在圖像處理和計(jì)算機(jī)視覺領(lǐng)域應(yīng)用較為廣泛的一種神經(jīng)網(wǎng)絡(luò)?；窘Y(jié)構(gòu)：輸入層卷積層：獲得更多圖像的抽象特征。池化層：減少網(wǎng)絡(luò)中參數(shù)。全連接層：為后續(xù)分類任務(wù)做準(zhǔn)備。輸出層卷積神經(jīng)網(wǎng)絡(luò)卷積與池化的通俗理解示例任務(wù)：分辨照片是否是熊大機(jī)械化過程：需要記錄熊大特征的照片，記為“卷積核”；用“卷積核”掃描身份證，尋找是否有某個(gè)位置出現(xiàn)熊大的特征；將卷積核與身份證上某個(gè)位置的圖像特征進(jìn)行相似度計(jì)算，這個(gè)計(jì)算就是“卷積”。

對卷積的理解熊大圖像是否出現(xiàn)在身份證上，只依賴于計(jì)算出的相似特征的最大值，即只需要有一個(gè)局部圖像與熊大照片非常相像，就可以認(rèn)為身份證上出現(xiàn)了熊大頭像。卷積核在圖像上不斷掃描的過程中，我們只關(guān)心卷積計(jì)算結(jié)果的最大值，這個(gè)最大化的操作，就是一種特殊的池化方法，被稱為最大值池化（Max-Pooling）。卷積就是計(jì)算某種局部的相似性，而池化就是將某種最突出的相似性選擇出來。對池化的理解卷積卷積（Convolutional）是一種特殊的線性運(yùn)算，用來代替一般的矩陣乘法運(yùn)算。卷積運(yùn)算由以下兩個(gè)關(guān)鍵參數(shù)定義：卷積核的大小輸出特征圖的深度：由使用的卷積核的數(shù)量決定卷積計(jì)算示例圖卷積

卷積運(yùn)算舉例1110001110001×1110011001100101010101×1×0×1×0×1×1×0×0×110101010原始圖像卷積核特征圖4

卷積運(yùn)算舉例1110001110001×111001100110010101010110101010原始圖像卷積核特征圖43×1×0×1×0×1×1×0×0×1

卷積運(yùn)算舉例1110001110001×111001100110010101010110101010原始圖像卷積核特征圖4342×1×0×1×0×1×1×0×0×1卷積核不斷地由左向右由上向下滑動，在滑動過程中與原始圖像的對應(yīng)區(qū)域做線性運(yùn)算從而得到特征圖對應(yīng)位置的像素值，卷積核對原始圖像的掃描直到將原始圖像全部覆蓋為止。在本例中得到的最終結(jié)果如圖卷積運(yùn)算舉例1110001110001×111001100110010101010×1×0×1×0×1×1×0×0×1110101010原始圖像卷積核特征圖443424323

填充與步長

填充與步長00001111×110101000011100000010000110000000000000000×1×0×1×0×1×1×0×0×11101010102231114341124331234112211填充后的圖像卷積核特征圖步長為2時(shí)的卷積核滑動填充與步長1110001110001×111001100110010101010110101010原始圖像卷積核特征圖44×1×0×1×0×1×1×0×0×11110001110001×111001100110010101010110101010原始圖像卷積核特征圖×1×0×1×0×1×1×0×0×1442在卷積過程中，各參數(shù)如下表所示，卷積的輸出結(jié)果大小計(jì)算：

示例輸入張量大小R行L列8行8列卷積核大小FR行FL列3行3列填充大小PR行PL列2行2列垂直方向移動步長SR3水平方向移動步長SL2輸出結(jié)果floor（R+PR+SR-FR/SR）行floor（L+PL+SL-FL/SL）列floor（8+2+3-3/3）=3行floor（8+2+2-3/2）=4列卷積結(jié)果的輸出

多通道卷積原理多通道卷積原理單個(gè)張量與多個(gè)卷積核的卷積卷積過程多通道卷積原理多個(gè)張量與多個(gè)卷積核的卷積卷積過程多通道卷積原理卷積神經(jīng)網(wǎng)絡(luò)動態(tài)展示圖每個(gè)卷積核只關(guān)注一個(gè)特征池化操作池化（Pooling）操作是對卷積得到的結(jié)果進(jìn)一步處理，它是將平面內(nèi)某一位置及其相鄰位置的特征值進(jìn)行統(tǒng)計(jì)匯總，并將匯總后的結(jié)果作為這一位置在該平面內(nèi)的值輸出，也叫下采樣操作。分類最大值池化平均值池化池化操作輸入張量大?。篐行W列池化窗口大?。篐H行WW列垂直方向和水平方向移動步長：SR、SL最大值池化輸出結(jié)果：ceil((H-HH+1)/SR)、ceil((W-WW+1)/SL)最大值池化計(jì)算過程（步長為2）：多通道張量的最大值池化計(jì)算過程（步長為2）多個(gè)張量的最大值池化卷積與池化的區(qū)別卷積核的權(quán)重是一個(gè)未知的參數(shù)；而池化不僅沒有未知參數(shù)需要估計(jì)，也不需要參數(shù)優(yōu)化的過程。因此，對計(jì)算機(jī)而言，池化是非常簡單的操作。不管輸入的像素矩陣有多少通道，只要進(jìn)行卷積運(yùn)算，一個(gè)卷積核參與計(jì)算只會產(chǎn)生一個(gè)通道；而池化是分層運(yùn)算，輸出的像素矩陣的通道取決于輸入像素矩陣的通道數(shù)。卷積與池化的區(qū)別LeNet-5用于手寫數(shù)據(jù)識別MNIST數(shù)據(jù)集介紹

MNIST數(shù)據(jù)集的導(dǎo)入通過Pytorch內(nèi)置函數(shù)導(dǎo)入MNIST數(shù)據(jù)集構(gòu)造數(shù)據(jù)讀取器并展示圖片LeNet-5介紹：由YannLeCun（楊立昆）于1998年提出的一種經(jīng)典的卷積網(wǎng)絡(luò)結(jié)構(gòu)。第一個(gè)成功應(yīng)用于數(shù)字識別問題的卷積神經(jīng)網(wǎng)絡(luò)。LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)：共7層輸入層卷積層池化層卷積層池化層全連接層輸出層LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5網(wǎng)絡(luò)構(gòu)建LeNet-5模型結(jié)構(gòu)與參數(shù)LeNet-5模型訓(xùn)練曲線LeNet-5模型訓(xùn)練過程可視化第一層卷積核的可視化展示LeNet-5模型訓(xùn)練過程可視化第一層卷積輸出的6個(gè)特征圖的可視化結(jié)果LeNet-5模型訓(xùn)練過程可視化第二層卷積核的可視化展示LeNet-5模型訓(xùn)練過程可視化第一層卷積輸出的6個(gè)特征圖的可視化結(jié)果第六章：經(jīng)典CNN模型介紹1.

AlexNet模型原理與實(shí)現(xiàn)2.VGG模型原理與實(shí)現(xiàn)3.InceptionV1模型原理與實(shí)現(xiàn)4.ResNet模型原理與實(shí)現(xiàn)5.批量歸一化（BN）原理與實(shí)現(xiàn)6.數(shù)據(jù)增強(qiáng)（DA）原理與實(shí)現(xiàn)7.遷移學(xué)習(xí)原理與實(shí)現(xiàn)學(xué)習(xí)目標(biāo)AlexNetAlexNet介紹：ImageNet競賽冠軍獲得者Hinton和他的學(xué)生KrizhevskyAlex于2012年設(shè)計(jì)。ImageNet競賽中第一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)的參賽者。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)：8層卷積層池化層卷積層池化層卷積層卷積層卷積層池化層輸出層：三個(gè)全連接層AlexNet網(wǎng)絡(luò)結(jié)構(gòu)AlexNet網(wǎng)絡(luò)結(jié)構(gòu)AlexNet創(chuàng)新點(diǎn)：成功使用ReLU作為CNN的激活函數(shù)；使用Dropout隨機(jī)忽略一部分神經(jīng)元，避免模型過擬合；在CNN中使用重疊的最大值池化(步長小于卷積核)；提出局部響應(yīng)歸一化層（LocalResponseNormalization，LRN），后逐漸被BN（BatchNormalization）代替；使用CUDA加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，利用了GPU強(qiáng)大的計(jì)算能力；采用了數(shù)據(jù)增強(qiáng)（DataAugmentation）技術(shù)，達(dá)到增加樣本量的目的。AlexNet創(chuàng)新點(diǎn)局部響應(yīng)歸一化是對同層神經(jīng)元、鄰近特征映射進(jìn)行局部歸一化應(yīng)用在激活函數(shù)之后歸一化（Normalization）方法泛指把數(shù)據(jù)特征轉(zhuǎn)換為相同尺度的方法，比如把數(shù)據(jù)特征映射到[0,1]或[?1,1]區(qū)間內(nèi)，或者映射為服從均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布．案例：CIFAR10數(shù)據(jù)集介紹

Cifar10數(shù)據(jù)的獲取AlexNet用于Cifar10的Pytorch代碼VGGVGG（VisualGeometryGroup,DepartmentofEngineeringScience,UniversityofOxford）牛津大學(xué)計(jì)算機(jī)視覺組和DeepMind公司共同研發(fā)的一種深度卷積神經(jīng)網(wǎng)絡(luò)VGG網(wǎng)絡(luò)結(jié)構(gòu)：6種從左到右深度越來越深加粗體表示新增的層所有網(wǎng)絡(luò)結(jié)構(gòu)都包含5組卷積操作，每組卷積包含一定數(shù)量的卷積層——可以看作一個(gè)五階段的卷積特征提取。獲得2014年ILSVRC分類項(xiàng)目第2名VGG網(wǎng)絡(luò)結(jié)構(gòu)輸入層：224×224×3的彩色圖像。第1組卷積層（2次卷積）：Conv2D(3×3，64),Stride(1),same,ReLU,Output:224×224×64。第1個(gè)池化層：MaxPooling2D(2×2),Stride(2),Output:112×112×64。第2組卷積層（2次卷積）：Conv2D(3×3，128),Stride(1),same,ReLU,Output:112×112×128。第2個(gè)池化層：MaxPooling2D(2×2),Stride(2),Output:。第3組卷積層（3次卷積）：Conv2D(3×3，256),Stride(1),same,ReLU,Output:56×56×256。第3個(gè)池化層：MaxPooling2D(2×2),Stride(2),Output:。第4組卷積層（3次卷積）：Conv2D(3×3，512),Stride(1),same,ReLU,Output:28×28×512。第4個(gè)池化層：MaxPooling2D(2×2),Stride(2),Output:。第5組卷積層（3次卷積）：Conv2D(3×3，512),Stride(1),same,ReLU,Output:。第5個(gè)池化層：MaxPooling2D(),Stride(2),Output:。輸出層：Flatten，Dense(4096)，Dense（4096），Dense（1000）。VGG網(wǎng)絡(luò)結(jié)構(gòu)VGG16網(wǎng)絡(luò)結(jié)構(gòu)：5組卷積組和3個(gè)全連接層VGG網(wǎng)絡(luò)結(jié)構(gòu)VGG模型的Pytorch實(shí)現(xiàn)VGG模型的Pytorch實(shí)現(xiàn)BatchNormalization技巧批量歸一化（BatchNormalization,

BN）方法是一種有效的逐層歸一化方法，可以對神經(jīng)網(wǎng)絡(luò)中任意的中間層進(jìn)行歸一化操作（Ioffeetal.,2015）.為了提高優(yōu)化效率，就要使得凈輸入??(??)的分布一致，比如都?xì)w一化到標(biāo)準(zhǔn)正態(tài)分布一般使用標(biāo)準(zhǔn)化將凈輸入??(??)的每一維都?xì)w一到標(biāo)準(zhǔn)正態(tài)分布??(??)的期望和方差通常用當(dāng)前小批量樣本集的均值和方差近似估計(jì)給定一個(gè)包含??個(gè)樣本的小批量樣本集合，第??層神經(jīng)元的凈輸入??(1,??)?,??(??,??)的均值和方差為BatchNormalization的核心思想對凈輸入??(??)的標(biāo)準(zhǔn)歸一化會使得其取值集中到0附近，如果使用Sigmoid型激活函數(shù)時(shí)，這個(gè)取值區(qū)間剛好是接近線性變換的區(qū)間，減弱了神經(jīng)網(wǎng)絡(luò)的非線性性質(zhì)．因此，為了使得歸一化不對網(wǎng)絡(luò)的表示能力造成負(fù)面影響，可以通過一個(gè)附加的縮放和平移變換改變?nèi)≈祬^(qū)間BatchNormalization的核心思想：BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShiftBatchNormalization的核心思想

BatchNormalization的核心思想案例：貓狗數(shù)據(jù)集訓(xùn)練核心任務(wù)：對貓和狗進(jìn)行分類其中訓(xùn)練集和驗(yàn)證集進(jìn)行了規(guī)范化的格式存儲樣本量：15000張訓(xùn)練，10000張驗(yàn)證，貓狗各50%讀入貓狗數(shù)據(jù)

帶有BN的寬模型這個(gè)模型中，卷積核的個(gè)數(shù)減少，但是模型的層數(shù)增加。每一層使用20個(gè)卷積核，進(jìn)行一個(gè)長度為7的循環(huán)，每一步要重復(fù)一個(gè)卷積和池化的基本操作，其中卷積層進(jìn)行規(guī)格大小為2×2的same卷積，池化層進(jìn)行規(guī)格大小為2×2的最大值池化。BN總結(jié)：BatchNormalization在很多情況下確實(shí)是幫助巨大的，但并不是對所有情況都有幫助。在什么情況下BatchNormalization能夠讓結(jié)果變好，在什么情況下沒有幫助是不清楚的，是值得我們思考和研究的。帶有BN的深度模型DataAugmentation技巧DataAugmentation被翻譯成“數(shù)據(jù)增強(qiáng)”，或者“數(shù)據(jù)增廣”。它通過對數(shù)據(jù)施加各種變換來達(dá)到增加樣本量的目的。數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中除了BatchNormalization外另一個(gè)非常常用的技巧。DataAugmentation技巧人和計(jì)算機(jī)處理圖像不同。原來的圖像被拉伸、變換或旋轉(zhuǎn)，對計(jì)算機(jī)而言都是一個(gè)全新的矩陣。計(jì)算機(jī)對圖像數(shù)據(jù)用矩陣形式表達(dá)不充分。把一張圖像變成矩陣的過程中，是有信息損失的，而這些損失的信息很寶貴，有可能幫助我們把模型做得更好。DataAugmentation核心思想（1）RandomHorizontalFlip：允許水平方向的翻轉(zhuǎn)。（2）RandomCrop：隨機(jī)裁剪，參數(shù)size代表剪切后的圖片尺寸，參數(shù)padding代表裁剪前首先在圖片外補(bǔ)0。（3）RandomAffine：對坐標(biāo)進(jìn)行仿射變換，由五種基本變換構(gòu)成，分別為旋轉(zhuǎn)、平移、縮放、錯(cuò)切和翻轉(zhuǎn)。Degrees：最大旋轉(zhuǎn)角度；Translate：最大平移區(qū)間，如(a,b)，a代表寬，b代表高；Scale：縮放比例區(qū)間，如(a,b)，則圖片在a,b間縮放；Shear：最大錯(cuò)切角度，分為水平錯(cuò)切和垂直錯(cuò)切；若shear=a，則僅在x軸錯(cuò)切，若shear=(a,b)，則a設(shè)置x軸角度，b設(shè)置y軸角度。Pytorch實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)究竟增加了多少樣本？（1）每一條規(guī)則前都帶有Random，說明這種變換是隨機(jī)的（2）同一張圖片，在第1個(gè)Epoch和第2個(gè)Epoch經(jīng)過數(shù)據(jù)變換后的輸出是有區(qū)別的第1個(gè)epoch第2個(gè)epochInceptionInception介紹：由Google團(tuán)隊(duì)提出，因此也被稱為GoogleNet；該模型一共有4個(gè)版本，從V1到V4；通過增加網(wǎng)絡(luò)的寬度（通道數(shù)）來提升訓(xùn)練效果。InceptionV1網(wǎng)絡(luò)結(jié)構(gòu)InceptionV1模塊由多個(gè)Inception基礎(chǔ)模塊串聯(lián)而成。獲得了ILSVRC2014挑戰(zhàn)賽分類項(xiàng)目的冠軍InceptionV1基礎(chǔ)模塊Inception網(wǎng)絡(luò)結(jié)構(gòu)InceptionV1模塊創(chuàng)新點(diǎn)：1.InceptionV1使用多個(gè)不同尺寸的卷積核（直觀理解：疊加不同尺寸的卷積核，可以從細(xì)節(jié)上提取更豐富的特征）。Inception網(wǎng)絡(luò)結(jié)構(gòu)

Inception網(wǎng)絡(luò)結(jié)構(gòu)舉例說明：1*1的卷積核是如何起到減少參數(shù)的作用的？Inception網(wǎng)絡(luò)結(jié)構(gòu)In

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹

文檔簡介

溫馨提示

最新文檔

評論

《深度學(xué)習(xí)：基于PyTorch 》 課件 第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《深度學(xué)習(xí)：基于PyTorch 》課件第5、6章：卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、經(jīng)典CNN模型介紹