基于弱監(jiān)督的細粒度圖像分類方法綜述_第1頁
基于弱監(jiān)督的細粒度圖像分類方法綜述_第2頁
基于弱監(jiān)督的細粒度圖像分類方法綜述_第3頁
基于弱監(jiān)督的細粒度圖像分類方法綜述_第4頁
基于弱監(jiān)督的細粒度圖像分類方法綜述_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于弱監(jiān)督的細粒度圖像分類方法綜述

細粒度圖像的分類已成為計算機視覺和數(shù)據(jù)處理領(lǐng)域最受歡迎的研究方向之一。與傳統(tǒng)的粗粒度圖像分類相比,主要研究內(nèi)容是區(qū)分常見目標(biāo)類別(如鳥、飛機等)中的子類別問題。然而,由于物種之間的從屬類別中區(qū)分相似,許多類別只能通過不同區(qū)域上的不同組件來識別。因此,細粒度圖像分類已成為一項更具吸引力的研究任務(wù)。針對以上細粒度圖像分類的任務(wù)特性,早期一些學(xué)者提出了通過人工部件標(biāo)注信息協(xié)助來強化模型定位的方法,以強監(jiān)督的訓(xùn)練方式來提高分類精度。Zhang雖然借助豐富的部件標(biāo)注信息,輔以精準(zhǔn)的檢測定位技術(shù),實現(xiàn)了更高的識別分類精度,但人工標(biāo)注費用昂貴,且容易出現(xiàn)局部語義信息的錯誤注解,更加不符合現(xiàn)實研究與應(yīng)用的實際需求,使得越來越多的算法不再依賴于這些強監(jiān)督的人工標(biāo)注信息,因此,僅依賴圖像類別標(biāo)簽實現(xiàn)局部部件判別的弱監(jiān)督方法也逐漸成為當(dāng)下研究的新趨勢。相比于依賴人工部件標(biāo)注的方法而言,基于弱監(jiān)督的細粒度圖像分類方法表現(xiàn)出更加優(yōu)異的分類性能以及網(wǎng)絡(luò)泛化能力,并且能夠挖掘出人工標(biāo)注缺失甚至錯誤的判別性區(qū)域。其中,一部分學(xué)者采用輔助子網(wǎng)絡(luò)實現(xiàn)部件定位。Yang但隨著網(wǎng)絡(luò)復(fù)雜度的不斷延伸,往往會出現(xiàn)特征信息冗余,最終導(dǎo)致網(wǎng)絡(luò)的特征表達能力不足等現(xiàn)象,還有一些學(xué)者通過引入視覺注意力機制鑒于以上分析,由于細粒度圖像分類任務(wù)中類間信息表征易混淆特性,現(xiàn)有一些方法無法充分挖掘顯著性及有判別力的部位信息,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到的細節(jié)特征無法呈現(xiàn)出多樣化與差異性,進而影響模型分類性能。為此,本文提出了一種雙線性聚合殘差注意力網(wǎng)絡(luò),主要貢獻如下:(1)在僅需類別標(biāo)簽的前提下,BARAN通過雙線性聚合殘差網(wǎng)絡(luò)作為基礎(chǔ)模型,來完成圖像的深度特征提取。其中主要利用聚合殘差網(wǎng)絡(luò)中分組并行的拓?fù)浣Y(jié)構(gòu)特性,使其組間的不同子空間學(xué)習(xí)圖像中的不同區(qū)域,捕獲到更多的可區(qū)分特征,進而增強網(wǎng)絡(luò)模型的表征能力。(2)在聚合殘差網(wǎng)絡(luò)的每一個分組拓?fù)浣Y(jié)構(gòu)中嵌入分散注意力模塊(3)在雙線性聚合殘差網(wǎng)絡(luò)的特征融合后引入互通道注意力模塊1相關(guān)工作1.1雙線結(jié)構(gòu)網(wǎng)絡(luò)模型Lin1.2c組測量XieART模塊中引入一個超參數(shù),基數(shù)(Cardinality,C),代表組量,圖中用group表示;每一個聚合轉(zhuǎn)換殘差模塊中特征聚合如式(1)所示:其中2雙線結(jié)構(gòu)限制的剩余網(wǎng)絡(luò)模型2.1基于雙線性聚合殘差網(wǎng)絡(luò)的卷積特征提取方法為了彌補原B-CNN模型存在特征提取能力不足,特征融合單一化以及維度過高等問題,本文方法以B-CNN為基礎(chǔ)網(wǎng)絡(luò)原型,結(jié)合其端到端的訓(xùn)練方式以及兩個子網(wǎng)絡(luò)進行交互建模的特征提取這兩大優(yōu)點進行優(yōu)化改進,提出了一種雙線性聚合殘差注意力網(wǎng)絡(luò)模型(BARAN)。該網(wǎng)絡(luò)模型主要由兩個部分組成:一是結(jié)合分散注意力的雙線性聚合殘差網(wǎng)絡(luò)(BilinearAggregateResidualNetwork,BARN),二是互通道注意力模塊(MCA)。如圖2所示。具體而言,首先采用兩個ResneXt29網(wǎng)絡(luò)分別替換原B-CNN模型中的VGG16-D與VGG16-M,作為圖像的特征提取器,使其設(shè)計成一種新穎的雙線性聚合殘差網(wǎng)絡(luò)(BARN),來完成卷積特征的深度提?。蝗缓鬄殡p線性聚合殘差網(wǎng)絡(luò)(ResneXt29×2)中的每一個聚合轉(zhuǎn)換殘差子模塊嵌入分散注意力模塊(SA),整合跨維度的特征通道之間的權(quán)重信息,進一步強化整個網(wǎng)絡(luò)的表征依賴性;最后對兩個聚合殘差網(wǎng)絡(luò)分支提取的特征進行多維度的融合操作,得到加權(quán)融合后的特征通道圖(FeatureChannelsMap,FCM),使其更加完整性的傳遞給互通道注意力模(MCA),來強制每一維度的特征通道按照類別進行劃分,使得屬于同一類別下的特征更具有判別力,并約束同一類別的特征在空間維度上更加互斥,即關(guān)注多樣化且具有差異性的細節(jié)。通過以上雙重注意力過濾捕獲策略,能夠促使模型學(xué)習(xí)到更加全面的圖像表征知識。2.2sa模塊的原理為了強化特征通道之間的緊密依賴程度,本文方法在聚合殘差模塊的基礎(chǔ)上,把分散注意力模塊(SA)嵌入到聚合殘差轉(zhuǎn)換子模塊(ART)與聚合運算之間。如圖3所示。本文提出的SA模塊是在SE-NnetBlockSA模塊在模型特征提取過程中,為更有效的特征分配權(quán)重值,摒棄無效或者效果甚微的特征權(quán)重值,減少冗余的特征信息,實現(xiàn)通道間的相關(guān)性建模,彌補特征通道之間相關(guān)依賴度不足的缺陷,并完成對分散特征進行緊密整合運算;并且通過跨通道之間的特征融合,不同尺度獲得的特征進行融合,增強尺度特征的豐富性。并且能夠有效防止模型過擬合。SA模塊的實現(xiàn)原理如下,結(jié)合圖4所示。(1)全局平局池化(GlobalAveragePooling,GAP):其中,把聚合殘差轉(zhuǎn)換子模塊(ARTBlock)中1×1組卷積核每一分支的輸出作為輸入,首先把組卷積拆分的分支進行加權(quán)融合,如式(2)所示。聚合殘差轉(zhuǎn)換子模塊中特征向量集為然后,通過GAP把每一分支進行跨空間維度的融合運算,采用信道統(tǒng)計策略將每一維度特征圖的全局上下文信息壓縮成單通道描述信息,即使得通道空間維度中H×W變成1×1的形式,如式(3)所示。其中,(2)密集連接層(DenseConnectedLayers,DCL):SA模塊中共包含兩個微型的密集連接層。首先,通過第一層DCL以1/r的減速比率進行降維操作,以獲得更加緊湊的特征向量其中,隨后,再進行第二層DCL運算來恢復(fù)維度,再通過Softmax得到式(5)中最后,把Softmax得到的所有特征權(quán)重分支向量,與聚合殘差子模塊中1×1組卷積核每一分支的輸出(相比單DCL,雙DCL具備更多的非線性運算操作,有利于擬合特征通道間相互依賴程度的復(fù)雜性,且極大簡化模型的復(fù)雜度與參數(shù)運算量。2.3特征特征學(xué)習(xí)模塊為解決種類間因顯著性區(qū)域差異較小而導(dǎo)致模型預(yù)測出類別信息易混淆等問題;本文在雙線性聚合網(wǎng)絡(luò)與類別預(yù)測的全連接層之間融合了互通道注意力模塊(MCA)。使得MCA模塊融合到本文的聚合殘差網(wǎng)絡(luò)中使得圖像識別度更優(yōu)異。MCA模塊通過捕捉多維通道中多樣且細微化的特征,減少通道聚焦于無效或最具顯著性的部分區(qū)域。進而提升模型判別力。具體而言,該模塊不是直接從特征圖上學(xué)習(xí)細粒度特征,它主要是從特征通道角度去施加制約條件,使得網(wǎng)絡(luò)聚焦于通道之間特征與類別的映射關(guān)系,以捕獲多樣化且迥異的細節(jié)信息,進而學(xué)習(xí)粒度級別的特征,并且在沒有引入額外的參數(shù)前提下,能夠使得模型魯棒性更強?;ネǖ雷⒁饬δK(MCA)包含兩個不同的注意力子模塊:判別性子模塊(其中T=c×通過判別性子模塊與區(qū)分性模塊各自分量進行加權(quán)求和,得到更有效的分類特征圖;使得互通道注意力模塊會更加突出的捕獲到同一類別下多樣化的判別區(qū)域。原理由式(7)所示。其中MCA模塊中的判別性子模塊與區(qū)分性子模塊是互補的關(guān)系,并且區(qū)分性子模塊不能脫離判別性子模塊單獨存在。2.3.1特征通道優(yōu)先分配性別判別性子模塊會迫使特征通道進行類對齊,并且每一個特征通道對于每一個類的特征應(yīng)該具有足夠的差異性,進而使得網(wǎng)絡(luò)學(xué)習(xí)到的區(qū)域更具識別度。判別性子模塊由四部分構(gòu)成,如圖6所示。(1)通道注意力(Channel-WiseAttention,CWA):其主要是為可區(qū)分性的特征通道優(yōu)先分配軟性注意力概率值。具體就是通過對每一類特定的((2)跨通道最大池化(Cross-ChannelMaxPooling,CCMP):主要實現(xiàn)每組特征圖的跨通道映射池化操作。相較于跨通道平均池化,它會對組特征圖的權(quán)重進行平均化操作,進而會從很大程度抑制局部顯著區(qū)域的識別,而CCMP能夠更有效的把組特征圖((3)全局平均池化(GAP):主要實現(xiàn)對每個組特征圖的平均池化響應(yīng)操作。它能夠約束每一類別的特征權(quán)重值映射到一個元素上,最終變成一個一維的向量(c×1×1),進而完成通道維度的降維操作。(4)Softmax:通過計算得到該類別的預(yù)測概率值,即全局平均池化得到的類別向量與所有類別的加權(quán)和進行比值運算;最后通過交叉熵?fù)p失評估與真實標(biāo)簽的匹配度,得到判別性子模塊的輸出分量其中c代表分類的類別,其中式(8)中Softmax中每一個類別的預(yù)測值由式(9)可得。其中式(10)中2.3.2冗余信息區(qū)域廢棄操作區(qū)分性子模塊通過每類特征通道的特征相似度來約束通道特征,使其在空間維度上保持互斥性。具體而言,區(qū)分性子模塊通過驅(qū)使模型的特征權(quán)重注意點,針對性的去捕獲每一類別中顯著且可區(qū)分的細節(jié)特征,使得特征圖中有效的權(quán)重信息分布在不同的區(qū)域,進而學(xué)習(xí)到同一類別中更加多樣化且具有可區(qū)分特性的類別信息,并從空間與通道兩個方面,對無關(guān)特征或者冗余信息區(qū)域進行丟棄操作。區(qū)分性子模塊由四部分構(gòu)成,如圖7所示:(1)Softmax:與判別性子模塊的有些不同,此處Softmax主要是實現(xiàn)每類的特征通道實現(xiàn)歸一化操作,即是通過采用one-hot編碼策略把每一維度的特征通道實現(xiàn)標(biāo)準(zhǔn)化,其中one-hot編碼可以使得每一維度的離散特征之間的距離運算更加簡便,有助于每類特征通道的相似度的計算。(2)跨通道最大池化(CCMP),與判別性子模塊的原理相同,都是通過對組特征進行元素的最大值映射,得到每一類的對應(yīng)的特征圖,同時實現(xiàn)降維的過程。(3)Sum:通過前面跨通道最大池化,可以得到每一類別對應(yīng)的一張?zhí)卣鲌D(c×1×1);Sum操作就是實現(xiàn)每一類別上的特征圖進行求和運算,來測量每類特征通道的相交程度,從而實現(xiàn)特征的相似度測量。(4)Average:對得到的所有的特征通道進行平均化操作,最終得到區(qū)別性分量具體由式(12)計算得到。其中的其中3結(jié)果與分析實驗系統(tǒng)環(huán)境為Ubuntu16.04,模型訓(xùn)練平臺為基于開源深度學(xué)習(xí)框架PyTorch3.1數(shù)據(jù)集擴充設(shè)計為評估本文方法的分類性能,在Caltech-UCSD-Birds(CUB-200-2011)以上3個數(shù)據(jù)集中每一類樣本由60-100張圖像組成,尤其是CUB的原始圖片僅有60張左右,為了避免模型因數(shù)據(jù)質(zhì)量以及數(shù)據(jù)集豐富性導(dǎo)致過擬合或欠擬合問題,通過對圖像進行過隨機水平翻轉(zhuǎn)(b)、垂直翻轉(zhuǎn)(c)、旋轉(zhuǎn)(d)、平移(e)、縮放(f)以及引入高斯模糊(g)與噪聲等方法進行數(shù)據(jù)擴充,其中水平以及垂直翻轉(zhuǎn)以0.5的概率進行擴充;每種數(shù)據(jù)集擴充后數(shù)據(jù)集將達到原數(shù)據(jù)集的六倍左右。如圖8所示。通過對以上3個數(shù)據(jù)集進行適度的數(shù)據(jù)增強,本文模型能夠?qū)W習(xí)到更為多樣化且豐富的樣本細節(jié),對模型表征能力的增益效果更好,從而強化模型的泛化能力以及魯棒性。3.2模型優(yōu)化及設(shè)置實驗評價指標(biāo):在細粒度圖像分類任務(wù)中,為了驗證提出BARAN方法的分類性能,通常會選用準(zhǔn)確率作為模型的評價指標(biāo),假設(shè)實驗中各個數(shù)據(jù)集上的總類別數(shù)為其中模型預(yù)訓(xùn)練參數(shù)設(shè)置:實驗過程中,利用隨機梯度下降法(StochasticGradientDescent,SGD)對模型進行優(yōu)化以及批量標(biāo)準(zhǔn)化(BN)作為正則化。具體的模型預(yù)訓(xùn)練超參數(shù)設(shè)置:batchsize設(shè)為32,動量(momentum)為0.9,學(xué)習(xí)率衰減因子gamma為0.1,學(xué)習(xí)率衰減間隔(lr_step)為30,權(quán)重衰減率(weight_decay)為5e-4,total_epoch為300,num_classes根據(jù)數(shù)據(jù)集的類別數(shù)量進行動態(tài)調(diào)整。MCA模塊中超參數(shù)其中cnums代表為每一類分配的特征通道數(shù),cgroups代表對應(yīng)類別數(shù),比如CUB-200-2011為前88個類別每一類分配2個特征通道,為后112個類別每一類分配3個特征通道。3.3重頭訓(xùn)練與預(yù)訓(xùn)練卷積網(wǎng)絡(luò)模型為驗證本文方法的有效性,本文提出的BARAN方法采用重頭訓(xùn)練與預(yù)訓(xùn)練卷積網(wǎng)絡(luò)模型這兩種訓(xùn)練方式,來驗證本文方法中ResneXt29、SA、MCA三個模塊結(jié)構(gòu)對網(wǎng)絡(luò)學(xué)習(xí)能力的影響,并實現(xiàn)網(wǎng)絡(luò)端到端的訓(xùn)練。3.3.1模型訓(xùn)練與分析本小節(jié)的消融實驗主要在CUB數(shù)據(jù)集下,對嵌入分散注意力模塊的雙線性聚合殘差網(wǎng)絡(luò)進行不同基數(shù)(C)情況下的實驗對比分析。通過使用在ImageNet上預(yù)訓(xùn)練的B-CNN與ResneXt29兩個網(wǎng)絡(luò)進行模型的遷移學(xué)習(xí),改進優(yōu)化為本文的雙線性聚合殘差模型,并對雙線性聚合殘差中所有層進行微調(diào),然后,此部分消融實驗僅針對CUB數(shù)據(jù)集進行模型訓(xùn)練,來驗證改進后的性能。數(shù)據(jù)集中的每一張圖片采用中心裁剪的形式,將每張圖片調(diào)整大小為448×448,初始學(xué)習(xí)率設(shè)為0.0001,total_epoch為80,weight_decay為1e-5,其他參數(shù)與參數(shù)設(shè)置一致。與原B-CNN模型相比,雖然模型復(fù)雜度有所增加(每一分支參數(shù)量(branch/M),表3中Params),但BARN分類精度有顯著性提高,其中BARN(2×64d)、BARN(4×64d)、BARN(8×64d)提高了0.7%、1.1%、1.4%。而本文方法使用的ResneXt29(32×4d)提升了1.8%。如表3所示。由于聚合殘差網(wǎng)絡(luò)中引入一個新的超參數(shù)C,并且在保持模型復(fù)雜性不變的情況下,隨著基數(shù)C從2增加到32,模型的訓(xùn)練誤差在不斷降低,相對于原B-CNN,表征能力更優(yōu)異,通過基數(shù)這一超參數(shù)的實驗表明,多路拓?fù)洳⑿械姆纸M機制(Multi-pathtopologyparallel,MTP)進行細粒度圖像分類的特征捕獲效益更強,網(wǎng)絡(luò)表征能力更好,且加入SA之后特征通道之間緊密度更高,使得模型表示效果更優(yōu)異。3.3.2預(yù)訓(xùn)練模式2.為了驗證互通道注意力模塊中判別性子組件與區(qū)分性子組件對于整個網(wǎng)絡(luò)的捕獲特征能力的影響,本小節(jié)的消融實驗對主干模型采用從頭訓(xùn)練的模式,在雙線性聚合網(wǎng)絡(luò)的基礎(chǔ)上,對每一個單獨的組件進行實驗訓(xùn)練。。輸入的圖像數(shù)據(jù)的大小采用中心裁剪的方式調(diào)整為224×224,整個網(wǎng)絡(luò)架構(gòu)的初始學(xué)習(xí)率設(shè)為0.1,并且在迭代輪數(shù)epoch為150到225次的時候動態(tài)調(diào)整為0.01,其他的參數(shù)與預(yù)訓(xùn)練模式設(shè)置的一樣;此外,為了使得互通道注意力模塊的每一組件驗證的合理性,超參數(shù)進行固定設(shè)置,其中如表4所示,以嵌入SA模塊的雙線性聚合殘差網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),MCA模塊中兩個子模塊進行并行訓(xùn)練,在CUB、Aircraft、Cars三個數(shù)據(jù)集上分別達到66.47%、89.90%、91.34%,經(jīng)過分析,在僅使用CWA、判別性子模塊的情況下,在三個數(shù)據(jù)集上性能相差不大;而在僅使用區(qū)分性子模塊時,在三個數(shù)據(jù)集上分別達到27.35%、79.88%、70.23%,相比僅使用CWA、判別性子模塊分類性能相差十分明顯。主要是由于區(qū)分性子模塊實際上是在判別性子模塊損失的基礎(chǔ)上作為正則化器,來隱式的去發(fā)現(xiàn)每一類圖像中不同的可區(qū)分的區(qū)域,尤其是針對像CUB這樣特征差異微小的數(shù)據(jù)集上表現(xiàn)更具優(yōu)勢;因此單獨使用區(qū)分性子模塊會導(dǎo)致分類器判別能力較差。鑒于以上分析,互注意力模塊中區(qū)分性子模塊依賴于判別性子模塊,在進行只有區(qū)分性模塊訓(xùn)練時,訓(xùn)練結(jié)果偏差過大,尤其是在CUB數(shù)據(jù)集上尤為明顯,通過不同子模塊的訓(xùn)練結(jié)果顯示,判別性與區(qū)分性子模塊進行并行訓(xùn)練特征選擇效果更好。3.3.3c以及不同數(shù)據(jù)集上的性能對比為了驗證本文方法的優(yōu)越性,在相同的實驗條件下,與流行的PC、MaxEnt等同樣使用雙線性網(wǎng)絡(luò)方法進行分析對比,還與同樣使用注意力機制的DFL-CNN、TASN等方法性能進行性能比較,實驗表明,本文方法優(yōu)于大部分主流模型。輸入的圖像大小以中心裁剪方式調(diào)整為448×448,且本文模型使用在ImageNet上預(yù)訓(xùn)練好的ResneXt29(32×4d)網(wǎng)路,嵌入到B-CNN(baseline)進行改進訓(xùn)練。其中,預(yù)訓(xùn)練模型的學(xué)習(xí)率在卷積層(即特征提取層)定為0.0001,全連接層設(shè)置為0.01,并且在迭代到150到225次的時候,設(shè)置為0.00001,避免模型過擬合以及梯度消失等現(xiàn)象,模型迭代300次,權(quán)重衰減率保持為5e-4,其中互通道注意力的超參數(shù)對不同弱監(jiān)督細粒度分類的流行方法進行實驗分析:本文方法在Cars數(shù)據(jù)集上達到精度最高,為94.7%,相對原模型提升了3.2%;與性能最優(yōu)的CIN模型相比,提高了0.6%;其次是在Aircraft數(shù)據(jù)集上準(zhǔn)確率為92.9%,相較于DFL-CNN方法,提升了1.2%。而在CUB數(shù)據(jù)集上,雖然沒有WPS-CPM方法得到的準(zhǔn)確率高,但是相對于其他方法略顯優(yōu)勢。尤其是基于B-CNN網(wǎng)絡(luò)的成對混淆(PC)與MaxEnt方法與本文方法類似,本文方法相比PC、MaxEnt方法在三個數(shù)據(jù)集上分類性能更優(yōu)異,比MaxEnt(B-CNN)、PC(B-CNN)、PC(DenseNet161)分別高出2.6%、1.3%、1%。如表5所示。鑒于以上分析,本文BARAN方法在不需要引入額外參數(shù)的情況下,融合SA模塊以及MCA模塊之后,僅需要類別標(biāo)簽,就可以在這三種公共數(shù)據(jù)集上表現(xiàn)出良好的性能優(yōu)勢。相比WPS-CPM方法,在CUB數(shù)據(jù)集上沒有表現(xiàn)出本文模型的競爭性,最主要的一個原因是:每類的特征通道的缺乏,使得每個類別學(xué)習(xí)到混淆信息可能存在缺失;下面將從兩個角度詳細介紹性能差異的原因:在不同數(shù)據(jù)集上對類別通道設(shè)置情況進行實驗性能分析:在CUB-200-2011數(shù)據(jù)集上,雖然相對大部分的先進方法都有很大的性能提升,但相比較個別先進方法,或者其他數(shù)據(jù)集,并沒有表現(xiàn)出更高的性能優(yōu)勢,其中一個重要原因,是由于維度不足導(dǎo)致特征通道分配不均導(dǎo)致,由表2可知,CUB中后88個類別僅僅只占兩個通道信息,而鳥具有多樣化且豐富性的局部區(qū)域,因此,在特征通道數(shù)不足的情況下,無法獲取更加魯棒性的信息描述,會出現(xiàn)性能精度相比WPS-CPM方法較差的結(jié)果,而且也不如本文方法在其他數(shù)據(jù)集上性能表現(xiàn)。雖然StanfordCars數(shù)據(jù)集中有112個類別占有兩個特征通道,但是車圖像中含有較少的差別區(qū)域,因此,性能相比具有差異性區(qū)域較多的鳥類會更高,其中引入的互通道注意力模塊,可以進行自適應(yīng)的調(diào)節(jié)通道分配機制,避免無效特征通道占用現(xiàn)象,進而彌補在不同通道輸出(本文輸出通道512維)情況下的識別精度不足問題。從參數(shù)設(shè)置以及網(wǎng)絡(luò)結(jié)構(gòu)角度進行實驗分析:從參數(shù)設(shè)置角度,本文選用的bachsize為32而不是64,每次迭代輸入的圖片批量大小會影響模型訓(xùn)練的學(xué)習(xí)能力,進而降低分類性能。從網(wǎng)絡(luò)結(jié)構(gòu)角度,若本文方法最后輸出進行層數(shù)遞增,輸出維度也會增加,以上問題會根據(jù)輸出維度不同,最終的識別能力也會有所增強,但由于卷積層數(shù)的堆疊遞增,會出現(xiàn)模型梯度彌散以及實驗環(huán)境GPU算力受限等問題,因此本文最終選定ResneXt29進行改進。3.3.4baran模型融合各個模塊的可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論