【基于VGG模型的照片評分機制探析綜述2900字】_第1頁
【基于VGG模型的照片評分機制探析綜述2900字】_第2頁
【基于VGG模型的照片評分機制探析綜述2900字】_第3頁
【基于VGG模型的照片評分機制探析綜述2900字】_第4頁
【基于VGG模型的照片評分機制探析綜述2900字】_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于VGG模型的照片評分機制分析綜述目錄TOC\o"1-2"\h\u13473基于VGG模型的照片評分機制分析綜述 1296541.1PyTorch框架 1194971.2VGG模型 1133921.2.1VGG模型特點 2203931.2.2VGG模型結(jié)構(gòu) 2196141.2.3VGG模型優(yōu)點 4187971.3基于VGG的圖片分類機制 456041.1.1圖像預(yù)處理 4199721.1.2圖片分類機制 51.1PyTorch框架Torch作為一個經(jīng)典的能夠處理多維矩陣數(shù)據(jù)的張量(tensor)庫,廣泛應(yīng)用于機器學(xué)習(xí)領(lǐng)域。但Torch語言采用Lua,國內(nèi)用戶不夠熟悉,導(dǎo)致其在國內(nèi)屬于小眾化,用戶使用時相較于支持Python的Tensorflow來說不方便。PyTorch作為由Facebook開源的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)框架,是torch的python版本,專門針對GPU加速的深度神經(jīng)網(wǎng)絡(luò)(DNN)編程,同時還能支持動態(tài)神經(jīng)網(wǎng)絡(luò)[12]。PyTorch追求最少的封裝設(shè)計,在結(jié)構(gòu)上盡量避免重復(fù);遵循從tensor到variable(autograd)最后nn.Module三個由低到高的抽象層次,分別代表高維數(shù)組(張量)、自動求導(dǎo)(變量)和神經(jīng)網(wǎng)絡(luò)(層/模塊),三個抽象層次之間聯(lián)系緊密,可以同時修改和操作;PyTorch的靈活性高,但不以速度為代價,在許多評測中,相比TensorFlow和Keras等框架PyTorch的速度表現(xiàn)都更加優(yōu)越;PyTorch是所有的框架中面向?qū)ο笤O(shè)計最優(yōu)雅簡潔的一個,其設(shè)計最符合人們的思維,它使用戶盡可能地專注于實現(xiàn)自己的想法,用戶操作過程中所思即所得,不需要考慮太多關(guān)于框架本身的束縛。1.2VGG模型VGGNet是2014年由牛津大學(xué)計算機視覺研究組(VisualGeometryGroup)和GoogleDeepMind公司的研究員一起研發(fā)出的的深度卷積神經(jīng)網(wǎng)絡(luò),其主要研究了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深度與其模型性能之間的關(guān)系。整體模型架構(gòu)非常簡潔,通過反復(fù)堆疊3*3的小型卷積核和2*2的最大池化層,成功地構(gòu)筑了不同網(wǎng)絡(luò)深度的卷積神經(jīng)網(wǎng)絡(luò),證明了在一定程度上增加網(wǎng)絡(luò)的深度能夠影響網(wǎng)絡(luò)最終的應(yīng)用性能。與之前state-of-the-art的網(wǎng)絡(luò)結(jié)構(gòu)相比,VGGNet的錯誤率顯著下降,獲得了ILSVRC2014比賽分類項目的第2名和定位項目的第1名。同時由于VGGNet拓展性強,使其遷移到其他圖片數(shù)據(jù)上的泛化性非常好,到目前為止,VGGNet依然經(jīng)常被用來提取圖像特征。因其官方網(wǎng)站上成功開源了VGGNet訓(xùn)練后的基礎(chǔ)模型參數(shù),提供了非常好的初始化權(quán)重,這些參數(shù)可用來在特定的圖像分類任務(wù)上進行再次訓(xùn)練,因此被廣泛應(yīng)用于在卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)中。1.2.1VGG模型特點1.結(jié)構(gòu)簡潔:整個卷積層結(jié)構(gòu)只有3*3的卷積核,連續(xù)的卷積層后使用池化層隔開;2.小卷積核和連續(xù)卷積層:連續(xù)的3*3卷積核增大感受野,減少參數(shù)量;1.小池化核:相比AlexNet使用3*3大小的池化核,VGG則全部采用2*2大小的池化核;4.通道數(shù)更多使特征圖更寬:通道數(shù)的增加,可以提取出更多的有效信息;5.層數(shù)更深:使用連續(xù)的小型卷積核代替大的卷積核,使網(wǎng)絡(luò)結(jié)構(gòu)深度更深,對邊緣進行填充避免因卷積計算導(dǎo)致圖像尺寸降低;6.全連接轉(zhuǎn)卷積:在網(wǎng)絡(luò)測試階段將訓(xùn)練階段的三個全連接替換為三個卷積,將訓(xùn)練時的各個參數(shù)進行測試重用,使得測試得到的全卷積網(wǎng)絡(luò)不受全連接限制,可以接收任意維度的寬或高圖像作為待檢測數(shù)據(jù)輸入。1.2.2VGG模型結(jié)構(gòu)VGG本質(zhì)上是一個框架,目前共有6種網(wǎng)絡(luò)配置,層數(shù)從淺到深分別為11層、13層、16層和19層。它并不具有固定的卷積層數(shù),而是根據(jù)需要調(diào)整模塊中層級結(jié)構(gòu)數(shù)量,即調(diào)整卷積模塊的卷積層數(shù)和卷積核大小,實現(xiàn)網(wǎng)絡(luò)規(guī)模和性能間的平衡。網(wǎng)絡(luò)共有5個卷積模塊,每個卷積模塊后面跟一個池化層,最后是3個全連接層,所有隱層的激活單元都采用RELU函數(shù)。VGGNet宏觀結(jié)構(gòu)如圖所示:圖3-1VGG網(wǎng)絡(luò)宏觀架構(gòu)圖3-2ConvNet配置以VGG16模型為例介紹ConvNet配置圖[13]:conv3-64:進行第三層卷積后將維度變成64,同樣,conv3-128指的是第三層卷積后維度變成128;input(224x224RGBimage):輸入圖片大小為224*244的彩色圖像,通道數(shù)為3,即224*224*3;maxpool:最大池化,在vgg16結(jié)構(gòu)中,池化層采用的是2*2的最大池化;FC-4096:全連接層中有4096個節(jié)點,而FC-1000則表示該層的全連接層有1000個節(jié)點;padding:對矩陣在外圍填充n圈,padding=1表示矩陣外邊緣填充1圈,對5*5大小的矩陣進行填充可得到7*7大小的矩陣;在進行卷積操作的過程中,處于中間位置的數(shù)值將被進行多次的提取,但是處于邊界位置的具體數(shù)值特征卻很少被提取到,為更好的把邊界數(shù)值也利用上同時避免中間位置數(shù)值被過分提取,所以給原始數(shù)據(jù)矩陣的四周都補上一層0,維持矩陣大小不變;vgg16在每層卷積運算過程中的stride=1,padding=1;通過softmax函數(shù)輸出1000個預(yù)測結(jié)果。1.2.3VGG模型優(yōu)點VGG模型有以下優(yōu)點[14]:1.層數(shù)深使得特征圖更寬,更加適合于處理數(shù)據(jù)集較大的問題,該網(wǎng)絡(luò)可以解決1000類圖像分類和定位問題。2.卷積核大小影響了參數(shù)量和感受野,參數(shù)量關(guān)系到訓(xùn)練難易程度以及是否方便部署到移動端等方面,而感受野關(guān)系到參數(shù)更新、特征圖大小、特征是否提取足夠多及模型復(fù)雜程度。(VGG用較深的網(wǎng)絡(luò)結(jié)構(gòu)和較小的卷積核,既可以保證感受視野,又能夠減少卷積層的參數(shù),如將兩個3*3的卷積層進行疊加等價于一個5*5卷積核的效果,3個3*3卷積核疊加相加相當(dāng)于一個7*7的卷積核,而且參數(shù)更少,大約相當(dāng)于7*7卷積層的(3*3*3)/(7*7)=0.55倍。通過三個卷積層的疊加,可以增強特征學(xué)習(xí)能力)。1.池化層:AlexNet的kernelsize為3*3,stride為2的max-pooling,而VGGNet的kernelsize均為2*2,stride為2的max-pooling,更小的池化核能夠帶來更為細節(jié)的信息捕獲,得到更為詳細的特征(當(dāng)時也有采用averagepooling,但是由于maxpooling更加容易捕捉圖像上的變化,帶來更大的局部信息差異性,更好的描述邊緣紋理等,在圖像任務(wù)上使用max-pooling的效果更好,而用averagpooling可能會使圖像模糊,類似于數(shù)字圖像處理的高斯模糊)。1.3基于VGG的圖片分類機制1.1.1圖像預(yù)處理VGG16網(wǎng)絡(luò)計算要求輸入圖像尺寸固定,首先裁剪待分類圖像,尺寸大小固定為224*224,后續(xù)進行預(yù)處理原始圖像:為解決數(shù)據(jù)集過小導(dǎo)致的過擬合問題,使用數(shù)據(jù)增強的方法對圖像進行水平方向的翻轉(zhuǎn);對待評分圖像進行歸一化處理,將原始圖像轉(zhuǎn)換為固定標(biāo)準(zhǔn)形式,得到歸一化圖像,進行歸一化操作可減少后期模型訓(xùn)練運算量,加速模型收斂速度,提高后續(xù)步驟可靠性[15]。1.1.2圖片分類機制根據(jù)VGG16的宏觀架構(gòu),該模型由13個卷積層、5個最大池化層和3個全連接層構(gòu)建。利用卷積濾波器(kernel)即卷積核對輸入的特征圖進行卷積運算,對從數(shù)據(jù)集輸入的各類圖像進行特征提取,在卷積運算得到特征矩陣后對輸出矩陣進行最大池化操作,減少特征映射大小,減少數(shù)據(jù)量并通過填充確保固定的輸出大小,卷積的step和最大池化的step分別設(shè)置為1和2。全連接層對輸出層采用soft-max函數(shù),使模型可進行一定數(shù)量的類別預(yù)測[15]。進行圖像分類任務(wù)時,輸入VGG16網(wǎng)絡(luò)模型的圖像尺寸固定為224(寬度)*224(高度)*3(信道),輸入層與64個3*3*3內(nèi)核卷積得到(3*3*3)*64共1728個訓(xùn)練參數(shù),第2次卷積繼續(xù)用64個3*3內(nèi)核進行卷積運算得到(3*3*64)*64共36864個訓(xùn)練參數(shù),兩次卷積后執(zhí)行2*2最大池化生成layer3,尺寸大小變成112*112*64;第二個卷積模塊進行兩次卷積,卷積核大小為3*3,個數(shù)為128,經(jīng)過最大池化操作后得到(3*3*128)*128=147456個訓(xùn)練參數(shù),大小變?yōu)?6*56*128;第三個卷積模塊進行三次卷積,卷積核大小不變,個數(shù)為256,采用一次最大池化得到(3*3*256)*256=589824個訓(xùn)練參數(shù),大小變?yōu)?8*28*256;第四個卷積模塊進行三次卷積,卷積核個數(shù)為512,進行一次最大池化產(chǎn)生(3*3*512)*512=2359296個訓(xùn)練參數(shù),大小變?yōu)?4*14*512;最后一個卷積模塊進行三次卷積,卷積核個數(shù)為512,最后進行最大池化得到(3*3*512)*512=2359296個訓(xùn)練參數(shù),大小變?yōu)?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論