【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】

上傳人：E*** IP屬地：湖北上傳時(shí)間：2024-10-16 格式：DOCX 頁數(shù)：5 大?。?47.56KB 積分：8.4 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于VGG模型的照片評(píng)分機(jī)制分析綜述目錄TOC\o"1-2"\h\u13473基于VGG模型的照片評(píng)分機(jī)制分析綜述 1296541.1PyTorch框架 1194971.2VGG模型 1133921.2.1VGG模型特點(diǎn) 2203931.2.2VGG模型結(jié)構(gòu) 2196141.2.3VGG模型優(yōu)點(diǎn) 4187971.3基于VGG的圖片分類機(jī)制 456041.1.1圖像預(yù)處理 4199721.1.2圖片分類機(jī)制 51.1PyTorch框架Torch作為一個(gè)經(jīng)典的能夠處理多維矩陣數(shù)據(jù)的張量（tensor）庫，廣泛應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域。但Torch語言采用Lua，國內(nèi)用戶不夠熟悉，導(dǎo)致其在國內(nèi)屬于小眾化，用戶使用時(shí)相較于支持Python的Tensorflow來說不方便。PyTorch作為由Facebook開源的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)框架，是torch的python版本，專門針對(duì)GPU加速的深度神經(jīng)網(wǎng)絡(luò)（DNN）編程，同時(shí)還能支持動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)[12]。PyTorch追求最少的封裝設(shè)計(jì)，在結(jié)構(gòu)上盡量避免重復(fù)；遵循從tensor到variable(autograd)最后nn.Module三個(gè)由低到高的抽象層次，分別代表高維數(shù)組（張量）、自動(dòng)求導(dǎo)（變量）和神經(jīng)網(wǎng)絡(luò)（層/模塊），三個(gè)抽象層次之間聯(lián)系緊密，可以同時(shí)修改和操作；PyTorch的靈活性高，但不以速度為代價(jià)，在許多評(píng)測中，相比TensorFlow和Keras等框架PyTorch的速度表現(xiàn)都更加優(yōu)越；PyTorch是所有的框架中面向?qū)ο笤O(shè)計(jì)最優(yōu)雅簡潔的一個(gè)，其設(shè)計(jì)最符合人們的思維，它使用戶盡可能地專注于實(shí)現(xiàn)自己的想法，用戶操作過程中所思即所得，不需要考慮太多關(guān)于框架本身的束縛。1.2VGG模型VGGNet是2014年由牛津大學(xué)計(jì)算機(jī)視覺研究組（VisualGeometryGroup）和GoogleDeepMind公司的研究員一起研發(fā)出的的深度卷積神經(jīng)網(wǎng)絡(luò)，其主要研究了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深度與其模型性能之間的關(guān)系。整體模型架構(gòu)非常簡潔，通過反復(fù)堆疊3*3的小型卷積核和2*2的最大池化層，成功地構(gòu)筑了不同網(wǎng)絡(luò)深度的卷積神經(jīng)網(wǎng)絡(luò)，證明了在一定程度上增加網(wǎng)絡(luò)的深度能夠影響網(wǎng)絡(luò)最終的應(yīng)用性能。與之前state-of-the-art的網(wǎng)絡(luò)結(jié)構(gòu)相比，VGGNet的錯(cuò)誤率顯著下降，獲得了ILSVRC2014比賽分類項(xiàng)目的第2名和定位項(xiàng)目的第1名。同時(shí)由于VGGNet拓展性強(qiáng)，使其遷移到其他圖片數(shù)據(jù)上的泛化性非常好，到目前為止，VGGNet依然經(jīng)常被用來提取圖像特征。因其官方網(wǎng)站上成功開源了VGGNet訓(xùn)練后的基礎(chǔ)模型參數(shù)，提供了非常好的初始化權(quán)重，這些參數(shù)可用來在特定的圖像分類任務(wù)上進(jìn)行再次訓(xùn)練，因此被廣泛應(yīng)用于在卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)中。1.2.1VGG模型特點(diǎn)1.結(jié)構(gòu)簡潔：整個(gè)卷積層結(jié)構(gòu)只有3*3的卷積核，連續(xù)的卷積層后使用池化層隔開；2.小卷積核和連續(xù)卷積層：連續(xù)的3*3卷積核增大感受野，減少參數(shù)量；1.小池化核：相比AlexNet使用3*3大小的池化核，VGG則全部采用2*2大小的池化核；4.通道數(shù)更多使特征圖更寬：通道數(shù)的增加，可以提取出更多的有效信息；5.層數(shù)更深：使用連續(xù)的小型卷積核代替大的卷積核，使網(wǎng)絡(luò)結(jié)構(gòu)深度更深，對(duì)邊緣進(jìn)行填充避免因卷積計(jì)算導(dǎo)致圖像尺寸降低；6.全連接轉(zhuǎn)卷積：在網(wǎng)絡(luò)測試階段將訓(xùn)練階段的三個(gè)全連接替換為三個(gè)卷積，將訓(xùn)練時(shí)的各個(gè)參數(shù)進(jìn)行測試重用，使得測試得到的全卷積網(wǎng)絡(luò)不受全連接限制，可以接收任意維度的寬或高圖像作為待檢測數(shù)據(jù)輸入。1.2.2VGG模型結(jié)構(gòu)VGG本質(zhì)上是一個(gè)框架，目前共有6種網(wǎng)絡(luò)配置，層數(shù)從淺到深分別為11層、13層、16層和19層。它并不具有固定的卷積層數(shù)，而是根據(jù)需要調(diào)整模塊中層級(jí)結(jié)構(gòu)數(shù)量，即調(diào)整卷積模塊的卷積層數(shù)和卷積核大小，實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)模和性能間的平衡。網(wǎng)絡(luò)共有5個(gè)卷積模塊，每個(gè)卷積模塊后面跟一個(gè)池化層，最后是3個(gè)全連接層，所有隱層的激活單元都采用RELU函數(shù)。VGGNet宏觀結(jié)構(gòu)如圖所示：圖3-1VGG網(wǎng)絡(luò)宏觀架構(gòu)圖3-2ConvNet配置以VGG16模型為例介紹ConvNet配置圖[13]：conv3-64：進(jìn)行第三層卷積后將維度變成64，同樣，conv3-128指的是第三層卷積后維度變成128；input（224x224RGBimage）：輸入圖片大小為224*244的彩色圖像，通道數(shù)為3，即224*224*3；maxpool：最大池化，在vgg16結(jié)構(gòu)中，池化層采用的是2*2的最大池化；FC-4096：全連接層中有4096個(gè)節(jié)點(diǎn)，而FC-1000則表示該層的全連接層有1000個(gè)節(jié)點(diǎn)；padding：對(duì)矩陣在外圍填充n圈，padding=1表示矩陣外邊緣填充1圈，對(duì)5*5大小的矩陣進(jìn)行填充可得到7*7大小的矩陣；在進(jìn)行卷積操作的過程中，處于中間位置的數(shù)值將被進(jìn)行多次的提取，但是處于邊界位置的具體數(shù)值特征卻很少被提取到，為更好的把邊界數(shù)值也利用上同時(shí)避免中間位置數(shù)值被過分提取，所以給原始數(shù)據(jù)矩陣的四周都補(bǔ)上一層0，維持矩陣大小不變；vgg16在每層卷積運(yùn)算過程中的stride=1，padding=1；通過softmax函數(shù)輸出1000個(gè)預(yù)測結(jié)果。1.2.3VGG模型優(yōu)點(diǎn)VGG模型有以下優(yōu)點(diǎn)[14]：1.層數(shù)深使得特征圖更寬，更加適合于處理數(shù)據(jù)集較大的問題，該網(wǎng)絡(luò)可以解決1000類圖像分類和定位問題。2.卷積核大小影響了參數(shù)量和感受野，參數(shù)量關(guān)系到訓(xùn)練難易程度以及是否方便部署到移動(dòng)端等方面，而感受野關(guān)系到參數(shù)更新、特征圖大小、特征是否提取足夠多及模型復(fù)雜程度。（VGG用較深的網(wǎng)絡(luò)結(jié)構(gòu)和較小的卷積核，既可以保證感受視野，又能夠減少卷積層的參數(shù)，如將兩個(gè)3*3的卷積層進(jìn)行疊加等價(jià)于一個(gè)5*5卷積核的效果，3個(gè)3*3卷積核疊加相加相當(dāng)于一個(gè)7*7的卷積核，而且參數(shù)更少，大約相當(dāng)于7*7卷積層的（3*3*3）/（7*7）=0.55倍。通過三個(gè)卷積層的疊加，可以增強(qiáng)特征學(xué)習(xí)能力）。1.池化層：AlexNet的kernelsize為3*3，stride為2的max-pooling，而VGGNet的kernelsize均為2*2，stride為2的max-pooling，更小的池化核能夠帶來更為細(xì)節(jié)的信息捕獲，得到更為詳細(xì)的特征（當(dāng)時(shí)也有采用averagepooling，但是由于maxpooling更加容易捕捉圖像上的變化，帶來更大的局部信息差異性，更好的描述邊緣紋理等，在圖像任務(wù)上使用max-pooling的效果更好，而用averagpooling可能會(huì)使圖像模糊，類似于數(shù)字圖像處理的高斯模糊）。1.3基于VGG的圖片分類機(jī)制1.1.1圖像預(yù)處理VGG16網(wǎng)絡(luò)計(jì)算要求輸入圖像尺寸固定，首先裁剪待分類圖像，尺寸大小固定為224*224，后續(xù)進(jìn)行預(yù)處理原始圖像：為解決數(shù)據(jù)集過小導(dǎo)致的過擬合問題，使用數(shù)據(jù)增強(qiáng)的方法對(duì)圖像進(jìn)行水平方向的翻轉(zhuǎn)；對(duì)待評(píng)分圖像進(jìn)行歸一化處理，將原始圖像轉(zhuǎn)換為固定標(biāo)準(zhǔn)形式，得到歸一化圖像，進(jìn)行歸一化操作可減少后期模型訓(xùn)練運(yùn)算量，加速模型收斂速度，提高后續(xù)步驟可靠性[15]。1.1.2圖片分類機(jī)制根據(jù)VGG16的宏觀架構(gòu)，該模型由13個(gè)卷積層、5個(gè)最大池化層和3個(gè)全連接層構(gòu)建。利用卷積濾波器（kernel）即卷積核對(duì)輸入的特征圖進(jìn)行卷積運(yùn)算，對(duì)從數(shù)據(jù)集輸入的各類圖像進(jìn)行特征提取，在卷積運(yùn)算得到特征矩陣后對(duì)輸出矩陣進(jìn)行最大池化操作，減少特征映射大小，減少數(shù)據(jù)量并通過填充確保固定的輸出大小，卷積的step和最大池化的step分別設(shè)置為1和2。全連接層對(duì)輸出層采用soft-max函數(shù)，使模型可進(jìn)行一定數(shù)量的類別預(yù)測[15]。進(jìn)行圖像分類任務(wù)時(shí)，輸入VGG16網(wǎng)絡(luò)模型的圖像尺寸固定為224（寬度）*224（高度）*3（信道），輸入層與64個(gè)3*3*3內(nèi)核卷積得到（3*3*3）*64共1728個(gè)訓(xùn)練參數(shù)，第2次卷積繼續(xù)用64個(gè)3*3內(nèi)核進(jìn)行卷積運(yùn)算得到（3*3*64）*64共36864個(gè)訓(xùn)練參數(shù)，兩次卷積后執(zhí)行2*2最大池化生成layer3，尺寸大小變成112*112*64；第二個(gè)卷積模塊進(jìn)行兩次卷積，卷積核大小為3*3，個(gè)數(shù)為128，經(jīng)過最大池化操作后得到（3*3*128）*128=147456個(gè)訓(xùn)練參數(shù)，大小變?yōu)?6*56*128；第三個(gè)卷積模塊進(jìn)行三次卷積，卷積核大小不變，個(gè)數(shù)為256，采用一次最大池化得到（3*3*256）*256=589824個(gè)訓(xùn)練參數(shù)，大小變?yōu)?8*28*256；第四個(gè)卷積模塊進(jìn)行三次卷積，卷積核個(gè)數(shù)為512，進(jìn)行一次最大池化產(chǎn)生（3*3*512）*512=2359296個(gè)訓(xùn)練參數(shù)，大小變?yōu)?4*14*512；最后一個(gè)卷積模塊進(jìn)行三次卷積，卷積核個(gè)數(shù)為512，最后進(jìn)行最大池化得到（3*3*512）*512=2359296個(gè)訓(xùn)練參數(shù)，大小變?yōu)?/p>

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】

文檔簡介

溫馨提示

最新文檔

評(píng)論

【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔