基于深度學(xué)習(xí)的圖像簽生成算法_第1頁
基于深度學(xué)習(xí)的圖像簽生成算法_第2頁
基于深度學(xué)習(xí)的圖像簽生成算法_第3頁
基于深度學(xué)習(xí)的圖像簽生成算法_第4頁
基于深度學(xué)習(xí)的圖像簽生成算法_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

算法(中國科學(xué)院自動化研究所北京100190)匯共生關(guān)系的標(biāo)注改善兩個過程。文中將基本圖像標(biāo)注問題視為一個多標(biāo)記學(xué)習(xí)問題,圖像的標(biāo)簽先驗(yàn)知識作為深度神經(jīng)網(wǎng)絡(luò)的監(jiān)督信息。在得到基本標(biāo)注詞匯的基礎(chǔ)上,利用原始圖像標(biāo)簽詞匯的依賴關(guān)系與先所提出解決方案的有效性。,深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),機(jī)器學(xué)習(xí)mageAutoAnnotationbasedondeeplearningYangYangZhangWenshengInstituteofAutomationChineseAcademyofSciencesAbstractImageauto-annotationisabasicandchallengetaskintheimageretrievalwork.Thetraditionalmachinelearningmethodshavegotalotachievementinthisfield.Thedeeplearningalgorithmhasachievedgreatsuccessinimageandtextlearningworksinceithasbeenpresented,soitcanbeanefficiencymethodtosolethesemanticgapproblems.Imageauto-annotationcanbedecomposedintotwosteps:basicimageauto-annotationbasedontherelationshipbetweenimageandtag,andannotationenhancedbasedonthemutualinformationofthetags.Inthisarticle,thebasicimageauto-annotationisviewedasamulti-labelledproblem,sothepriorknowledgeofthetagscanbeusedasthesuperviseinformationofthedeepneuralnetwork.Aftertheimagetagsgot,thedependentrelationshipofthetagsisusedtoimprovetheannotationresult.Attheend,thismodelhavebeentestedinCorelandESPdataset,andbeenprovedthatthismethodcanefficientlysolvetheimageauto-annotationproblems.Keywordsimageautoannotation,deeplearning,neuralnetwork,machinelearning1基金項(xiàng)目:國家自然科學(xué)基金重點(diǎn)項(xiàng)目(U1135005,跨媒體協(xié)同處理與服務(wù)的理論與應(yīng)用研究)資助項(xiàng)目增長,互聯(lián)網(wǎng)上每天都誕生海量的圖。為了有效地組織、查詢與瀏覽如此資源,圖像檢索技術(shù)應(yīng)運(yùn)而生?,F(xiàn)有式主要分為兩種:基于內(nèi)容的圖像檢eRetrievalCBIR的圖像檢索(Text-BasedImageRetrieval,TBIR)。對圖像檢索需要事先獲取圖像的文本語義信息[1]。圖泛,例如在社交媒體中大量的圖像被的任通過學(xué)者們的不斷努力,取得了豐碩的成標(biāo)簽生成算法按照標(biāo)注模型的不同主要分成兩大類[2]:基于統(tǒng)計分類的自動圖像標(biāo)注模型和的自動圖像標(biāo)注模型?;诮y(tǒng)計分類的方一個圖像的語義概念都被當(dāng)作一個類別進(jìn)自動圖像標(biāo)注就可以轉(zhuǎn)換成圖像的多分類denMarkovModelModel)[7]等?;诟怕式5姆椒▏L試推斷圖像和。Mori[8]等提出了一種利用關(guān)鍵字與“視覺詞匯”之間的共現(xiàn)關(guān)系(Co-Occurrence)來標(biāo)注圖像標(biāo)簽的網(wǎng)格法。近些年來流行的主題模型同樣在圖像自動標(biāo)注領(lǐng)域有應(yīng)用,例如,狄迪克雷分配模型[9] cationModelLDA估計過程卻相對復(fù)雜。受到關(guān)聯(lián)語言模型一些關(guān)聯(lián)模型相繼被應(yīng)用到圖像自動標(biāo)注RelevanceModelCMRM11](ContinuousRelevanceModel,CRM)和多重伯努利相關(guān)模型[12](MultipleBernoulliRelevanceModel,兩階段的圖像標(biāo)注方法,第一步移除無關(guān)二步常規(guī)標(biāo)注,能大幅提高圖像標(biāo)注正確學(xué)習(xí)在圖像、文本和語音領(lǐng)域于受限制的玻爾茲曼機(jī)(RestrictBoltzmannMachine,RBM)的深度神經(jīng)網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)的訓(xùn)NeuralNetwork,CNNs)是第一個真正意義上的多層結(jié)構(gòu)學(xué)習(xí)算法。Krizhevsky[15]等人利用多層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行海量圖像的分類工作,取得了較好的成tMinst手寫數(shù)字識別等常用數(shù)據(jù)集上取得了超越RBM模型的分類Flickr上,應(yīng)用DBN學(xué)習(xí)得到圖像和文本的語義表示并用于分類,同時該網(wǎng)絡(luò)可以通過圖像的單模信經(jīng)網(wǎng)絡(luò)做有監(jiān)督的判別學(xué)習(xí),得到g關(guān)系與先驗(yàn)知識改善模型得到的標(biāo)模型方法為在優(yōu)化入局部最優(yōu)中。而深度學(xué)習(xí)的DD預(yù)訓(xùn)練,將網(wǎng)絡(luò)權(quán)重首先優(yōu)化后通過反向傳播過程對網(wǎng)絡(luò)權(quán)1受限玻爾茲曼機(jī)點(diǎn)與隱藏層節(jié)點(diǎn)間有對稱的權(quán)連接Wij),而可見層節(jié)點(diǎn)之間與隱藏層節(jié)點(diǎn)之間沒有E(v,h;9)=vTWhvTBhTADKDK(1)=viWijhjbivicDKDK(1)i=1j=1i=1j=1(2)P(v;9)=exp(E(v,h;9))(2)Z標(biāo)準(zhǔn)化項(xiàng)。當(dāng)給定可見層節(jié)點(diǎn)v和隱藏Kp(vi=1|h,9)=Q(hjWij+bi)K(3)((3)(4)jDp(hj=1v,9)=Q(viWij+cj)Di=1i高斯-伯努利受限玻爾茲曼機(jī)于是定義高斯受限玻爾茲曼機(jī)(GRBM)模型,其能E(v,h;9)=viWijhjcjhj(5)p(vi=xh)=exp()(6)p(hj=1v)=Q(Wijvi)()7i=1si受限波爾茲曼機(jī)通常采用Hinton[13]等人提出的對比離差(ContrastiveDivergence,CD)的方法帶噪聲的自編碼神經(jīng)網(wǎng)絡(luò)y=g9(f(x))x,使得輸出y接近于輸入x。如公Lxi,yi),學(xué)習(xí)得到模型的參數(shù)9*,其中f(x)=Q(Wx+b),y=g9(h)=Q(Wh+b),σ是邏輯斯蒂克函數(shù)。當(dāng)權(quán)機(jī)的,比如每一個樣本xi都是一個跟其它樣本完全無關(guān)的獨(dú)立同分布高據(jù)中隱含著一些特定的結(jié)構(gòu),比如彼此相關(guān)的,那么這一算法就可以的這些相關(guān)性。事實(shí)上,這一簡單絡(luò)通常可以學(xué)習(xí)出一個跟主元分析 (PCA)結(jié)果非常相似的輸入數(shù)據(jù)的低維表示。(8)9,9nn=19*,9*=argmin1NL(x(8)9,9nn=1=argmin1=argmin1NL(xi,g9(f9(xi)))高模型參數(shù)對輸入數(shù)據(jù)的魯棒DAE圖1所示。在原有自編碼神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)干凈的輸入數(shù)據(jù)x,因此恒等函數(shù)由g9,(f9(x))必x的學(xué)習(xí)得到輸入數(shù)據(jù)的特征,常常9nn=19*,9,*=argmin1NL(xi,g9,(f9(xi)))9nn=1DenoiseAutoencoderDenoiseL(xL(x,y)g9g9fqxxyxFigTheDenoisingAuto-encoderModel模型結(jié)構(gòu)統(tǒng)的BP神經(jīng)元網(wǎng)絡(luò)采用單一隱藏層對數(shù)據(jù)藏層神經(jīng)元網(wǎng)絡(luò)。為了避免神經(jīng)元絡(luò)求解易陷入局部最優(yōu)的問題,首先采用RBM或者DAE模型對網(wǎng)絡(luò)權(quán)重進(jìn)行預(yù)訓(xùn)練,然后將預(yù)權(quán)重值作為反向傳播算法的權(quán)重初經(jīng)元網(wǎng)絡(luò),最后采用反向傳播算法由于神經(jīng)網(wǎng)絡(luò)輸入單元vRN(N為輸入圖像特征GRBM深度神經(jīng)網(wǎng)絡(luò)的第自編碼神經(jīng)網(wǎng)絡(luò)的反向激勵函數(shù)運(yùn)Layer3Layer2Layer1FigTheDeepBeliefNetworkmodel理分類問題時,設(shè)定監(jiān)督向練。訓(xùn)練完成后,將測試數(shù)據(jù)組輸多分類問題時,可以將樣本多個類監(jiān)督向量的維數(shù)均設(shè)為1,輸出層做排序,排序靠前的類別為該神經(jīng)簽,但是與常見的多分類問題有類問題對應(yīng)的類別信息通常是均說每個類別所屬的圖像數(shù)量通常圖像標(biāo)注問題的標(biāo)注信息通常不個標(biāo)簽可能所屬的圖像較多,也的標(biāo)簽信息,那么標(biāo)注頻率低的,而無法對給不均勻的問題,本文將圖像,新的監(jiān)督信息在原有監(jiān)督信息y的基礎(chǔ)上除以標(biāo)簽有較大的返回值,能夠有效(10)加標(biāo)注的準(zhǔn)確性,更加有效的再平等對待。一方面,含有低大的權(quán)重,另一方面,低頻標(biāo)1)(11)(12)=f(11)(12)f1=f2T=1/n重取標(biāo)簽所含圖像的總數(shù)的倒數(shù)。對于f1通常取樣像標(biāo)注改善視覺相似性,但由于語義鴻溝的存難保證得到的標(biāo)簽與原圖像的語義21]指出依據(jù)樸素貝葉斯的思想,利后驗(yàn)關(guān)系,可以提高文本的分類結(jié),并引入圖像作為后驗(yàn)來改善算法得到的標(biāo)注結(jié)共生關(guān)系的圖像標(biāo)注改善的一組相關(guān)詞匯,而詞匯間存在著各式各樣的語義關(guān)系。一般來講,在訓(xùn)練集中,同一個樣本內(nèi)同時出現(xiàn)的詞匯具有較強(qiáng)的語義相關(guān)性。這是由于共生頻率高的詞匯往往代表了兩個關(guān)系密切的概念或者事物,從而存在很大的可能性被標(biāo)注在同一幅圖像“城市”與“建筑”等。因此利用共生詞匯在同一幅圖像出現(xiàn)的相關(guān)性可以有效的提供詞匯之間的語詞頻數(shù)的統(tǒng)計,不能有效的考慮到不同詞匯的不同特性。因此參照文獻(xiàn)中給出的共生關(guān)系的度量,通過(13)式來衡量詞匯的共(13)(13)詞頻的圖像標(biāo)注改善中,本文同樣考慮到了詞頻對標(biāo)注結(jié)果的影響。因此,定義詞頻系數(shù)KF=1/n型得到的神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出R,通過公式(14)得到模型的最終標(biāo)注結(jié)果FR=KKRF4實(shí)驗(yàn)分析性,并同其它算法進(jìn)圖像自動標(biāo)注工作中普遍使.1數(shù)據(jù)集Corel-5K圖像集共包含科雷爾(Corel)公司收驗(yàn):分類、檢索等,Corel-5k數(shù)據(jù)集是圖像實(shí)驗(yàn)的作為訓(xùn)練集,500個數(shù)據(jù)作為模型參數(shù)的評價集,畫與個人肖像等。所有的圖像被標(biāo)2特征提取征作為深度神經(jīng)網(wǎng)絡(luò)的輸述子和HUE描述子。所有特征均以詞包的形式存3評價指標(biāo)習(xí)的方法來實(shí)現(xiàn)圖像的自動標(biāo)注,因此首先選用分類正確率來衡量模型的訓(xùn)N的標(biāo)簽數(shù)目為n,那么模型對圖像標(biāo)注準(zhǔn)確率為量模型的訓(xùn)練情況,給出了訓(xùn)確率與召回率是以某單一關(guān)鍵Precision=NcRecall=NcNsNr(15)了上述兩個指標(biāo)的聯(lián)合函數(shù)(F1=2P*R/(P+R))作為另一個評價指標(biāo)。了標(biāo)注算法對詞匯的覆蓋程度,記為N+。注意:。因此,即使一個模型可以對圖予精確的預(yù)測,仍無法得到一個4.4實(shí)驗(yàn)結(jié)果1)基于分類的圖像標(biāo)注準(zhǔn)確率角度來衡量模型的標(biāo)注準(zhǔn)像的標(biāo)注結(jié)果。為了衡量模型的性出了訓(xùn)練集的標(biāo)注準(zhǔn)確率與測試集集,預(yù)測的圖像標(biāo)簽內(nèi)容與給定的符。但由于深度學(xué)習(xí)算法對于小樣擬合,導(dǎo)致模型在測試集上的像標(biāo)注準(zhǔn)確率TableTheannotationaccuracyofdifferentmodelNamenstM1E1)不同標(biāo)簽數(shù)目對圖像標(biāo)注的影響法的標(biāo)注性能與標(biāo)簽數(shù)目的關(guān)系,本文還考慮到對于不同圖像標(biāo)簽數(shù)目對圖像監(jiān)督信息后的深度神經(jīng)網(wǎng)絡(luò)模型得到的圖像標(biāo)簽的準(zhǔn)圖像標(biāo)注結(jié)果明顯好于基于RBM模型的結(jié)果。針對圖像標(biāo)注問題,改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)得到的標(biāo)注結(jié)果最好。(2)圖像標(biāo)注的正確率隨著標(biāo)簽數(shù)目的增加,先上升后下降,而召回率隨著標(biāo)簽數(shù)目的增加而不斷這是因?yàn)樵诜祷貥?biāo)簽數(shù)目較少時,返回得到的正確標(biāo)簽的數(shù)目占圖像原標(biāo)簽數(shù)目的比率在不斷上升,當(dāng)超過一定限度時,模型會返回一些無關(guān)標(biāo)簽,圖像標(biāo)注的準(zhǔn)確度會下降;而模型返回正確標(biāo)簽的數(shù)目仍在不a目對精度的影響a.thepreciseresultofdifferentreturntagnumberb不同標(biāo)簽數(shù)目對召回率的影響b.therecallresultofdifferentreturntagnumberc.theF1resultofdifferentreturntagnumber率與召回率的影響Fig3Theannotationresultofdifferentreturntagnumber3)不同圖像自動標(biāo)注算法的比較與分析了深度神經(jīng)網(wǎng)絡(luò)方法與其他典的結(jié)果,來驗(yàn)證基于深度學(xué)習(xí)在Corel數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果詳細(xì)對比,問題來解決,而非多類別分類問題分布。具體而言,當(dāng)采用多分類問驗(yàn)分布時,采用傳統(tǒng)的深度學(xué)習(xí)算得到的圖像標(biāo)簽的效果與JEC的方法相當(dāng)(標(biāo)注驗(yàn)分布時,圖像的標(biāo)注效果有明顯簽先驗(yàn)分布的深度學(xué)習(xí)模型可以更(2)DAE(Enhence)給出在基于圖像標(biāo)簽先驗(yàn)知識結(jié)果。實(shí)驗(yàn)結(jié)果表明,通過考慮與詞頻得到的圖像標(biāo)注標(biāo)簽具有標(biāo)注效果。在Corel數(shù)據(jù)集上它在略微降低同樣在ESP數(shù)據(jù)集上,精度也略微的下降,但召回率(40%)和返回標(biāo)簽的數(shù)目(16%)也得到的很大的提高。不過需要說匯的召回時,會對整體標(biāo)注的正Corel習(xí)與其他實(shí)驗(yàn)結(jié)果的對比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinCoreldatasetNamePRN+stSquaresNetNPDERMCMEAETagAEEnhenceESP習(xí)與其他實(shí)驗(yàn)結(jié)果的對比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinESPdatasetNamePRN+stSquaresRMCEAETagAEEnhence4)圖像自動標(biāo)注在實(shí)際中的表現(xiàn)標(biāo)注的實(shí)際結(jié)果,每標(biāo)注評價指標(biāo)分為兩個層次,標(biāo)的圖像,模型自動標(biāo)注得出的標(biāo)dAutoannotation配的較好,而且得到的新的標(biāo)簽義信息。對于標(biāo)注表現(xiàn)不好的圖簽與原圖像相關(guān)程度低,甚至有是也存在部分標(biāo)注補(bǔ)充的原圖像二排圖像的第三幅圖像中的模型結(jié)論問題,本文將圖像標(biāo)記問題簽關(guān)系的基本圖像標(biāo)注和基于注改善。在基本圖像標(biāo)注過程利用圖像標(biāo)簽的詞頻信息改進(jìn)深度信息。在標(biāo)注改善過程中,利用標(biāo)系與詞頻先驗(yàn)知識來改善已經(jīng)得到圖像標(biāo)記結(jié)果。最后,選取合適的數(shù)據(jù)集Corel上利用標(biāo)簽的共生關(guān)系與先驗(yàn)知識Originaltagsky,sun,clouds,sky,jet,planeCoral,ocean,reefswall,cars,trackssky,water,beach,swimmers,pool,formulasandpeople,watersuncloudswater,sunsetjetplanesuncloudswater,sunsetjetplaneormationCoraloceanreefserswavesutotionformula,bearsand,shipspeople,watertiondAutoadAutoawerspetalssroadcarsowerhtshorewater,plane,lioniceplantsfrostpeopleutotiontreeice,plantsanfrostleaficecloseupplants,frozenityskywaterbridge,sunsettreegrass,fieldhutlandscapebranch,leaf,seupdisplaywerscloseupumetulipFigTherealeffectofimageautomaticannotation文獻(xiàn):LuH,LiuJ.ImageAnnotationBasedonGraphLearning[J].ChineseJournalofputers自適應(yīng)的Web圖像語義自動標(biāo)注方法[J].XuH,ZhouX,XiangY,etal.AdaptiveModelforWebImageSemanticAutomaticAnnotation[J].JournalofSoftware,2010,21(9):2183-2195.[3]CusanoC,CioccaG,SchettiniR.ImageannotationusingSVM[C]//ElectronicImaging2004.InternationalSocietyforOpticsandPhotonics,2003:330-338.[4]GaoY,FanJ,XueX,etal.AutomaticimageannotationbyincorporatingfeaturehierarchyandboostingtoscaleupSVMclassifiers[C]//Proceedingsofthe14thannualACMinternationalconferenceonMultimedia.ACM,2006:901-910.[5]LiJ,WangJZ.AutomaticlinguisticindexingofpicturesbyastatisticalmodelingapproachJPatternAnalysisandMachineIntelligence,IEEETransactionson,[6]ChangE,GohK,SychayG,etal.CBSA:content-basedsoftannotationformultimodalimageretrievalusingBayespointmachines[J].CircuitsandSystemsforVideoTechnology,IEEETransactionson,2003,13(1):26-38.[7]CarneiroG,ChanAB,MorenoPJ,etal.Supervisedlearningofsemanticclassesforimageannotationandretrieval[J].PatternAnalysisandMachineIntelligence,IEEETransactionson,2007,29(3):394-410.[8]MoriY,TakahashiH,OkaR.Image-to-wordtransformationbasedondividingandvectorquantizingimageswithwords[C]//FirstInternationalWorkshoponMultimediaIntelligentStorageandRetrievalManagement.1999.[9]BleiDM,JordanMI.Modelingannotateddata[C]//Proceedingsofthe26thannualinternationalACMSIGIRconferenceonResearchanddevelopmentinionretrievalACM[10]JeonJ,LavrenkoV,ManmathaR.AutomaticimageannotationandretrievalusingssmediarelevancemodelsJACM[11]LavrenkoV,ManmathaR,JeonJ.AModelforLearningtheSemanticsofPicturesCNIPS03,1:2.[12]FengSL,ManmathaR,LavrenkoV.MultipleBernoullirelevancemodelsforimageandvideoannotationJ[13]HintonG,ApracticalguidetotrainingrestrictedBoltzmannmachines[J].Momentum2010,9(1):926.[14]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[15]KrizhevskyA,SutskeverI,HintonG.Image-NetClassificationwithDeepConvolutionalNeuralNetworksC]//NIPS.2012,1(2):4.[16]VincentP,LarochelleH,LajoieI,etal.Stackeddenoisingauto-encoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].TheJournalofMachineLearningResearch,2010,9999:3371-3408.[17]SrivastavaN,SalakhutdinovR.Learningrepresentationsformultimodaldatawithdeepbeliefnets[C]//InternationalConferenceonMachineLearningWorkshop.2.[18]YavlinskyA,SchofieldE,RügerS.Automatedimageannotationusingglobalfeaturesandrobustnonparametricdensityestimat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論