




已閱讀5頁,還剩121頁未讀, 繼續(xù)免費閱讀
視頻監(jiān)控與視頻分析-第十四章 深度學習.ppt.ppt 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第十四章:深度學習,2015.9于深圳,視頻監(jiān)控與視頻分析,目錄,概述動機深度學習簡介深度學習的訓練過程深度學習的具體模型及方法深度學習的性能比較深度學習的應用展望參考文獻相關程序軟件及鏈接,概述,深度學習:一種基于無監(jiān)督特征學習和特征層次結構的學習方法可能的的名稱:深度學習特征學習無監(jiān)督特征學習,動機,良好的特征表達,對最終算法的準確性起了非常關鍵的作用;識別系統(tǒng)主要的計算和測試工作耗時主要集中在特征提取部分;特征的樣式目前一般都是人工設計的,靠人工提取特征。,傳統(tǒng)的模式識別方法:,動機為什么要自動學習特征,實驗:LP-MultipleKernelLearningGehlerandNowozin,OnFeatureCombinationforMulticlassObjectClassification,ICCV09采用39個不同的特征PHOG,SIFT,V1S+,RegionCov.Etc.在普通特征上MKL表現(xiàn)有限結論:特征更重要,動機為什么要自動學習特征,機器學習中,獲得好的特征是識別成功的關鍵目前存在大量人工設計的特征,不同研究對象特征不同,特征具有多樣性,如:SIFT,HOG,LBP等手工選取特征費時費力,需要啟發(fā)式專業(yè)知識,很大程度上靠經(jīng)驗和運氣是否能自動地學習特征?,中層特征中層信號:,動機為什么要自動學習特征,“Tokens”fromVisionbyD.Marr:,連續(xù),平行,連接,拐角,物體部件:,他們對于人工而言是十分困難的,那么如何學習呢?,動機為什么要自動學習特征,一般而言,特征越多,給出信息就越多,識別準確性會得到提升;但特征多,計算復雜度增加,探索的空間大,可以用來訓練的數(shù)據(jù)在每個特征上就會稀疏。結論:不一定特征越多越好!需要有多少個特征,需要學習確定。,動機為什么采用層次網(wǎng)絡結構,人腦視覺機理1981年的諾貝爾醫(yī)學獎獲得者DavidHubel和TorstenWiesel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機制發(fā)現(xiàn)了一種被稱為“方向選擇性細胞的神經(jīng)元細胞,當瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個邊緣指向某個方向時,這種神經(jīng)元細胞就會活躍,動機為什么采用層次網(wǎng)絡結構,人腦視覺機理人的視覺系統(tǒng)的信息處理是分級的高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖抽象層面越高,存在的可能猜測就越少,就越利于分類,動機為什么采用層次網(wǎng)絡結構,視覺的層次性屬性學習,類別作為屬性的一種組合映射Lampertetal.CVPR09,類別標簽,屬性,圖像特征,動機為什么采用層次網(wǎng)絡結構,特征表示的粒度具有結構性(或者語義)的高層特征對于分類更有意義,動機為什么采用層次網(wǎng)絡結構,初級(淺層)特征表示,高層特征或圖像,往往是由一些基本結構(淺層特征)組成的,動機為什么采用層次網(wǎng)絡結構,結構性特征表示,動機為什么采用層次網(wǎng)絡結構,淺層學習的局限人工神經(jīng)網(wǎng)絡(BP算法)雖被稱作多層感知機,但實際是種只含有一層隱層節(jié)點的淺層模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)帶有一層隱層節(jié)點(如SVM、Boosting),或沒有隱層節(jié)點(如LR)的淺層模型局限性:有限樣本和計算單元情況下對復雜函數(shù)的表示能力有限,針對復雜分類問題其泛化能力受限。,深度學習,2006年,加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton在科學上發(fā)表論文提出深度學習主要觀點:1)多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,逐層初始化可通過無監(jiān)督學習實現(xiàn)的。,深度學習,本質:通過構建多隱層的模型和海量訓練數(shù)據(jù)(可為無標簽數(shù)據(jù)),來學習更有用的特征,從而最終提升分類或預測的準確性。“深度模型”是手段,“特征學習”是目的。與淺層學習區(qū)別:1)強調(diào)了模型結構的深度,通常有5-10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。,深度學習,好處:可通過學習一種深層非線性網(wǎng)絡結構,實現(xiàn)復雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。,深度學習vs.神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡:深度學習:,深度學習vs.神經(jīng)網(wǎng)絡,相同點:二者均采用分層結構,系統(tǒng)包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡,只有相鄰層節(jié)點之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個logistic回歸模型。不同點:神經(jīng)網(wǎng)絡:采用BP算法調(diào)整參數(shù),即采用迭代算法來訓練整個網(wǎng)絡。隨機設定初值,計算當前網(wǎng)絡的輸出,然后根據(jù)當前輸出和樣本真實標簽之間的差去改變前面各層的參數(shù),直到收斂;深度學習:采用逐層訓練機制。采用該機制的原因在于如果采用BP機制,對于一個deepnetwork(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradientdiffusion(梯度擴散)。,深度學習vs.神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡的局限性:1)比較容易過擬合,參數(shù)比較難調(diào)整,而且需要不少技巧;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);,深度學習訓練過程,不采用BP算法的原因(1)反饋調(diào)整時,梯度越來越稀疏,從頂層越往下,誤差校正信號越來越??;(2)收斂易至局部最小,由于是采用隨機值初始化,當初值是遠離最優(yōu)區(qū)域時易導致這一情況;(3)BP算法需要有標簽數(shù)據(jù)來訓練,但大部分數(shù)據(jù)是無標簽的;,深度學習訓練過程,第一步:采用自下而上的無監(jiān)督學習1)逐層構建單層神經(jīng)元。2)每層采用wake-sleep算法進行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。這個過程可以看作是一個featurelearning的過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡區(qū)別最大的部分。,深度學習訓練過程,wake-sleep算法:1)wake階段:認知過程,通過下層的輸入特征(Input)和向上的認知(Encoder)權重產(chǎn)生每一層的抽象表示(Code),再通過當前的生成(Decoder)權重產(chǎn)生一個重建信息(Reconstruction),計算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權重。也就是“如果現(xiàn)實跟我想象的不一樣,改變我的生成權重使得我想象的東西變得與現(xiàn)實一樣”。2)sleep階段:生成過程,通過上層概念(Code)和向下的生成(Decoder)權重,生成下層的狀態(tài),再利用認知(Encoder)權重產(chǎn)生一個抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認知(Encoder)權重。也就是“如果夢中的景象不是我腦中的相應概念,改變我的認知權重使得這種景象在我看來就是這個概念”。,深度學習訓練過程,Encoder,Decoder,InputImage,Classlabel,e.g.,Features,Encoder,Decoder,Features,Encoder,Decoder,AutoEncoder:,深度學習訓練過程,第二步:自頂向下的監(jiān)督學習這一步是在第一步學習獲得各層參數(shù)進的基礎上,在最頂?shù)木幋a層添加一個分類器(例如羅杰斯特回歸、SVM等),而后通過帶標簽數(shù)據(jù)的監(jiān)督學習,利用梯度下降法去微調(diào)整個網(wǎng)絡參數(shù)。深度學習的第一步實質上是一個網(wǎng)絡參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡初值隨機初始化,深度學習模型是通過無監(jiān)督學習輸入數(shù)據(jù)的結構得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。,深度學習的具體模型及方法,自動編碼器(AutoEncoder)稀疏自動編碼器(SparseAutoEncoder)降噪自動編碼器(DenoisingAutoEncoders),深度學習的具體模型及方法,Encoder,Decoder,Input(Image/Features),OutputFeatures,e.g.,Feed-back/generative/top-downpath,Feed-forward/bottom-uppath,自動編碼器(AutoEncoder),深度學習的具體模型及方法,(Wx),(WTz),(Binary)Inputx,(Binary)Featuresz,e.g.,自動編碼器(AutoEncoder),EncoderfiltersWSigmoidfunction(.),DecoderfiltersWTSigmoidfunction(.),深度學習的具體模型及方法,稀疏自動編碼器(SparseAutoEncoder),限制每次得到的表達code盡量稀疏,限制每次得到的表達code盡量稀疏,深度學習的具體模型及方法,稀疏自動編碼器(SparseAutoEncoder),Filters,Features,SparseCoding,InputPatch,深度學習的具體模型及方法,(Wx),Dz,InputPatchx,SparseFeaturesz,e.g.,EncoderfiltersWSigmoidfunction(.),DecoderfiltersD,L1Sparsity,Training,稀疏自動編碼器(SparseAutoEncoder),深度學習的具體模型及方法,稀疏自動編碼器(SparseAutoEncoder)1)Training階段:給定一系列的樣本圖片x1,x2,,我們需要學習得到一組基1,2,,也就是字典??墒褂肒-SVD方法交替迭代調(diào)整ak,k,直至收斂,從而可以獲得一組可以良好表示這一系列x的字典。,深度學習的具體模型及方法,稀疏自動編碼器(SparseAutoEncoder)2)Coding階段:給定一個新的圖片x,由上面得到的字典,利用OMP算法求解一個LASSO問題得到稀疏向量a。這個稀疏向量就是這個輸入向量x的一個稀疏表達。,深度學習的具體模型及方法,稀疏自動編碼器(SparseAutoEncoder),深度學習的具體模型及方法,降噪自動編碼器(DenoisingAutoEncoders)在自動編碼器的基礎上,對訓練數(shù)據(jù)加入噪聲,自動編碼器必須學習去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此,這就迫使編碼器去學習輸入信號的更加魯棒的表達,這也是它的泛化能力比一般編碼器強的原因。,深度學習的具體模型及方法,Autoencoder(mostDeepLearningmethods)RBMs/DBMsLee/SalakhutdinovDenoisingautoencodersRanzatoPredictivesparsedecompositionRanzatoDecoder-onlySparsecodingYuDeconvolutionalNetsYuEncoder-onlyNeuralnets(supervised)Ranzato,深度學習的具體模型及方法,限制波爾茲曼機(RestrictedBoltzmannMachine)定義:假設有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設所有的節(jié)點都是隨機二值(0,1值)變量節(jié)點,同時假設全概率分布p(v,h)滿足Boltzmann分布,我們稱這個模型是RestrictedBoltzmannMachine(RBM)。,深度學習的具體模型及方法,限制波爾茲曼機(RestrictedBoltzmannMachine)限制波爾茲曼機(RBM)是一種深度學習模型。,深度學習的具體模型及方法,限制波爾茲曼機(RestrictedBoltzmannMachine)定義聯(lián)合組態(tài)(jointconfiguration)能量:這樣某個組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布和這個組態(tài)的能量來確定:,深度學習的具體模型及方法,限制波爾茲曼機(RestrictedBoltzmannMachine)給定隱層h的基礎上,可視層的概率確定:(可視層節(jié)點之間是條件獨立的)給定可視層v的基礎上,隱層的概率確定:,深度學習的具體模型及方法,限制波爾茲曼機(RestrictedBoltzmannMachine)待求問題:給定一個滿足獨立同分布的樣本集:D=v(1),v(2),v(N),需要學習模型參數(shù)=W,a,b。求解:最大似然估計:我們需要選擇一個參數(shù),讓我們當前的觀測樣本的概率最大對最大對數(shù)似然函數(shù)求導,即可得到L最大時對應的參數(shù)W:若隱藏層層數(shù)增加,可得到DeepBoltzmannMachine(DBM),深度學習的具體模型及方法,DeepBoltzmannMachine(DBM),深度學習的具體模型及方法,深信度網(wǎng)絡(DeepBeliefNetworks),DeepBeliefNetworks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(即有向圖模型),而在最遠離可視層的部分使用RestrictedBoltzmannMachine的模型。,深度學習的具體模型及方法,深信度網(wǎng)絡(DeepBeliefNetworks),深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM)CRBM是為識別二維圖像信息而特殊設計的一個多層感知器。,概念示范:輸入圖像通過與m個可訓練的濾波器和可加偏置進行卷積,在C1層產(chǎn)生m個特征映射圖,然后特征映射圖中每組的n個像素再進行求和,加權值,加偏置,通過一個Sigmoid函數(shù)得到m個S2層的特征映射圖。這些映射圖再進過濾波得到C3層。這個層級結構再和S2一樣產(chǎn)生S4。最終,這些像素值被光柵化,并連接成一個向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡,得到輸出。,深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM)權值共享,減少參數(shù)的方法:每個神經(jīng)元無需對全局圖像做感受,只需感受局部區(qū)域(FeatureMap),在高層會將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。每個神經(jīng)元參數(shù)設為相同,即權值共享,也即每個神經(jīng)元用同一個卷積核去卷積圖像。,深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM)隱層神經(jīng)元數(shù)量的確定,神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動步長有關。例如,輸入圖像是1000 x1000像素,濾波器大小是10 x10,假設濾波器間沒有重疊,即步長為10,這樣隱層的神經(jīng)元個數(shù)就是(1000 x1000)/(10 x10)=10000個,深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM)多濾波器情形,不同的顏色表示不同種類的濾波器,每層隱層神經(jīng)元的個數(shù)按濾波器種類的數(shù)量翻倍每層隱層參數(shù)個數(shù)僅與濾波器大小、濾波器種類的多少有關例如:隱含層的每個神經(jīng)元都連接10 x10像素圖像區(qū)域,同時有100種卷積核(濾波器)。則參數(shù)總個數(shù)為:(10 x10+1)x100=10100個,深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM),卷積過程:用一個可訓練的濾波器fx去卷積一個輸入的圖像(第一階段是輸入的圖像,后面的階段就是FeatureMap了),然后加一個偏置bx,得到卷積層Cx。子采樣過程:每鄰域n個像素通過池化(pooling)步驟變?yōu)橐粋€像素,然后通過標量Wx+1加權,再增加偏置bx+1,然后通過一個sigmoid激活函數(shù),產(chǎn)生一個大概縮小n倍的特征映射圖Sx+1。,深度學習的具體模型及方法,卷積波爾茲曼機(ConvolutionalRBM),CNN的關鍵技術:局部感受野、權值共享、時間或空間子采樣CNN的優(yōu)點:1、避免了顯式的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習;2、同一特征映射面上的神經(jīng)元權值相同,從而網(wǎng)絡可以并行學習,降低了網(wǎng)絡的復雜性;3、采用時間或者空間的子采樣結構,可以獲得某種程度的位移、尺度、形變魯棒性;3、輸入信息和網(wǎng)絡拓撲結構能很好的吻合,在語音識別和圖像處理方面有著獨特優(yōu)勢。,深度學習的具體模型及方法,基于CRBM的深度學習框架,深度學習性能比較,DeepnetsVS.Boosting,深度學習性能比較,DeepnetsVS.ProbabilisticModels,深度學習性能比較,隨機文法模型SetofproductionrulesforobjectsZhu&Mumford,StochasticGrammarofImages,F&T2006,自動學習,人工指定,S.C.Zhuetal.,深度學習性能比較,基于文法模型的物體檢測-R.Girshick,P.Felzenszwalb,D.McAllester,NIPS2011-Learnlocalappearance&shape,人工指定,自動學習,深度學習性能比較,部件和結構模型DefinedconnectivitygraphLearnappearance/relativeposition,Felzenszwalb&HuttenlocherCVPR00,FischlerandR.Elschlager1973,人工指定,自動學習,深度學習性能比較,基于部件與結構的分層模型-Fidleretal.ECCV10-Fidler&LeonardisCVPR07,人工指定,自動學習,深度學習性能比較,遞歸和與圖模型-LeoZhu,YuanhaoChen,AlanYuille&collaboratorsRecursivecomposition,AND/ORgraphLearn#unitsatlayer,人工指定,自動學習,深度學習性能比較,自動編碼模型Hintonetal.ICANN11反卷積網(wǎng)絡模型Zeileretal.ICCV11-Explicitrepresentationofwhat/where,人工指定,自動學習,深度學習性能比較,神經(jīng)網(wǎng)絡Dedicatedpooling/LCNlayersNoseparationofwhat/whereModalityindependent(e.g.speech,images),Leetal.,ICML12,人工指定,自動學習,深度學習性能比較,波爾茲曼機HomogenousarchitectureNoseparationofwhat/whereModalityindependent(e.g.speech,images),Salakhutdinov&HintonAISTATS09,人工指定,自動學習,深度學習的應用,深度學習在圖像識別上的應用,空間金字塔(SpatialPyramids),深度學習的應用,深度學習在圖像識別上的應用,深度學習的應用,深度學習在圖像識別上的應用,深度學習的應用,深度學習在圖像識別上的應用,深度學習的應用,深度學習在圖像識別上的應用,實驗在Caltech256數(shù)據(jù)集上,利用單特征識別,SparseCRBM性能最優(yōu),深度學習的應用,深度學習在音頻識別上的應用,ConvolutionalDBNforaudio,MaxpoolingnodeDetectionnodes,MaxpoolingnodeDetectionnodes,深度學習的應用,深度學習在音頻識別上的應用,ConvolutionalDBNforaudio,深度學習的應用,深度學習在音頻識別上的應用,深度學習的應用,深度學習在音頻識別上的應用,深度學習的應用,深度學習在視頻識別上的應用,SPACE-TIMEDEEPBELIEFNETWORKS,深度學習的應用,深度學習在視頻識別上的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,深度學習的應用,深度學習在多模態(tài)學習中的應用,如果模態(tài)間存在著內(nèi)在的聯(lián)系,即存在sharedRepresentation,那么理論上模型應支持訓練一個模態(tài),而測試另一個模態(tài)時,仍能獲得好的分類性能。,深度學習的應用,深度學習在多任務學習中的應用,深度學習的應用,深度學習在多任務學習中的應用在深度學習模型中,對于相關任務的聯(lián)合學習,往往會取得較好的特征表達;多任務聯(lián)合學習,能夠增強損失函數(shù)的作用效能;比如:單獨進行人臉檢測會比較難(光照、遮擋等因素),但是當人臉檢測與人臉識別這兩個相關的任務聯(lián)合學習時,人臉檢測的難度反而降低了。,深度學習的應用,基于深度學習的遷移學習應用,深度學習的應用,基于深度學習的遷移學習應用,特征共享,深度學習的應用,基于深度學習的遷移學習應用,深度學習的應用,深度學習在大尺度數(shù)據(jù)集上的應用大尺度數(shù)據(jù)集:樣本總數(shù)100M,類別總數(shù)10K,特征維度10K,深度學習的應用,深度學習在大尺度數(shù)據(jù)集上的應用,模型的并行運算化,深度學習的應用,深度學習在大尺度數(shù)據(jù)集上的應用,分布式深度學習模型,深度學習的應用,深度學習在大尺度數(shù)據(jù)集上的應用,分布式深度學習模型,深度學習的應用,深度學習在大尺度數(shù)據(jù)集上的應用,參數(shù)個數(shù)達到1.15billion,若不能并行優(yōu)化參數(shù),任務無法完成!,深度學習的應用,深度學習的State-of-the-art,展望,未來需解決的問題:對于一個特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)?對捕捉短時或者長時間的時間依賴,哪種架構才是有效的?如何對于一個給定的深度學習架構,融合多種感知的信息?如何分辨和利用學習獲得的中、高層特征語義知識?有什么正確的機理可以去增強一個給定的深度學習架構,以改進其魯棒性和對變形及數(shù)據(jù)丟失的不變性?模型方面是否有其他更為有效且有理論依據(jù)的深度模型學習算法?是否存在更有效的可并行訓練算法?,參考文獻,Tutorials&BackgroundMaterialYoshuaBengio,LearningDeepArchitecturesforAI,FoundationsandTrendsinMachineLearning,2(1),pp.1-127,2009.LeCun,Chopra,Hadsell,Ranzato,Huang:ATutorialonEnergy-BasedLearning,inBakir,G.andHofman,T.andScholkopf,B.andSmola,A.andTaskar,B.(Eds),PredictingStructuredData,MITPress,2006ConvolutionalNetsLeCun,Bottou,BengioandHaffner:Gradient-BasedLearningAppliedtoDocumentRecognition,ProceedingsoftheIEEE,86(11):2278-2324,November1998Jarrett,Kavukcuoglu,Ranzato,LeCun:WhatistheBestMulti-StageArchitectureforObjectRecognition?,Proc.InternationalConferenceonComputerVision(ICCV09),IEEE,2009Kavukcuoglu,Sermanet,Boureau,Gregor,Mathieu,LeCun:LearningConvolutionalFeatureHierachiesforVisualRecognition,AdvancesinNeuralInformationProcessingSystems(NIPS2010),23,2010,參考文獻,UnsupervisedLearningICAwithReconstructionCostforEfficientOvercompleteFeatureLearning.Le,Karpenko,Ngiam,Ng.InNIPS2011Rifai,Vincent,Muller,Glorot,Bengio,ContractingAuto-Encoders:Explicitinvarianceduringfeatureextraction,in:ProceedingsoftheTwenty-eightInternationalConferenceonMachineLearning(ICML11),2011-Vincent,Larochelle,Lajoie,Bengio,Manzagol,StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion,JournalofMachineLearningResearch,11:3371-3408,2010.-Gregor,Szlam,LeCun:StructuredSparseCodingviaLateralInhibition,AdvancesinNeuralInformationProcessingSystems(NIPS2011),24,2011-Kavukcuoglu,Ranzato,LeCun.FastInferenceinSparseCodingAlgorithmswithApplicationstoObjectRecognition.ArXiv1010.34672008-Hinton,Krizhevsky,Wang,TransformingAuto-encoders,ICANN,2011Multi-modalLearningMultimodaldeeplearning,Ngiam,Khosla,Kim,Nam,Lee,Ng.InProceedingsoftheTwenty-EighthInternationalConferenceonMachineLearning,2011.,參考文獻,LocallyConnectedNetsGregor,LeCun“Emergenceofcomplex-likecellsinatemporalproductnetworkwithlocalreceptivefields”Arxiv.2009Ranzato,Mnih,Hinton“GeneratingmorerealisticimagesusinggatedMRFs”NIPS2010Le,Ngiam,Chen,Chia,Koh,Ng“Tiledconvolutionalneuralnetworks”NIPS2010DistributedLearningLe,Ranzato,Monga,Devin,Corrado,Chen,Dean,Ng.BuildingHigh-LevelFeaturesUsingLargeScaleUnsupervisedLearning.InternationalConferenceofMachineLearning(ICML2012),Edinburgh,2012.PapersonSceneParsingFarabet,Couprie,Najman,LeCun,“SceneParsingwithMultiscaleFeatureLearning,PurityTrees,andOptimalCovers”,inProc.oftheInternationalConferenceonMachineLearning(ICML12),Edinburgh,Scotland,2012.-Socher,Lin,Ng,Manning,“ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks”.InternationalConferenceofMachineLearning(ICML2011)2011.,參考文獻,PapersonObjectRecognition-Boureau,LeRoux,Bach,Ponce,LeCun:Askthelocals:multi-waylocalpoolingforimagerecognition,Proc.ICCV2011-Sermanet,LeCun:TrafficSignRecognitionwithMulti-ScaleConvolutionalNetworks,ProceedingsofInternationalJointConferenceonNeuralNetworks(IJCNN11)-Ciresan,Meier,Gambardella,Schmidhuber.ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification.11thInternationalConferenceonDocumentAnalysisandRecognition(ICDAR2011),Beijing,China.-Ciresan,Meier,Masci,Gambardella,Schmidhuber.Flexible,HighPerformanceConvolutionalNeuralNetworksforImageClassification.InternationalJointConferenceonArtificialIntelligenceIJCAI-2011.PapersonActionRecognitionLearninghierarchicalspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis,Le,Zou,Yeung,Ng.CVPR2011PapersonSegmentationTuraga,Briggman,Helmstaedter,Denk,SeungMaximinlearningofimagesegmentation.NIPS,2009.,參考文獻,PapersonVisionforRoboticsHadsell,Sermanet,Scoffier,Erkan,Kavackuoglu,Muller,LeCun:LearningLong-RangeVisionforAutonomousOff-RoadDriving,JournalofFieldRobotics,26(2):120-144,February2009,DeepConvexNets&Deconv-NetsDeng,Yu.“DeepConvexNetwork:AScalableArchitectureforSpeechPatternClassification.”Interspeech,2011.-Zeiler,Taylor,FergusAdaptiveDeconvolutionalNetworksforMidandHighLevelFeatureLearning.ICCV.2011PapersonBiologicalInspiredVisionSerre,Wolf,Bileschi,Riesenhuber,Poggio.RobustObjectRecognitionwithCortex-likeMechanisms,IEEETransactionsonPatternAnalysisandMachineIntelligence,29,3,411-426,2007.-Pinto,Doukhan,DiCarlo,CoxAhigh-throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation.PLoSComputationalBiology.2009,參考文獻,PapersonEmbeddedConvNetsforReal-TimeVisionApplicationsFarabet,Martini,Corda,Akselrod,Culurciello,LeCun:NeuFlow:ARuntimeReconfigurableDataflowProcessorforVision,WorkshoponEmbeddedComputerVision,CVPR2011PapersonImageDenoisingUsingNeuralNetsBurger,Schuler,Harmeling:ImageDenoisng:CanPlainNeuralNetworksCompetewithBM3D?,ComputerVisionandPatternRecognition,CVPR2012,相關程序軟件及鏈接,DeepLearningwebsite,GlobalContrastbasedSalientRegionDetection,Ming-MingCheng,TsinghuaUniversityitCVPR2011,GlobalContrastbasedSalientRegionDetection,自動化學院匯報人:付忠敏,MainContents,基于直方圖對比度的檢測方法,基于區(qū)域對比度的檢測方法,總結與展望,顯著區(qū)域檢測及分析方法,SalientRegionofimage,顯著性源于視覺的獨特性、不可預測性、稀缺性以及奇異性,并且是由顏色、梯度、邊緣、邊界等圖像所致。人們普遍認為,大腦更容易響應圖像中的高對比度區(qū)域的刺激。文章作者主要依據(jù)圖像的對比度來進行顯著性區(qū)域檢測。,什么是圖像的顯著性區(qū)域?,SalientRegionDetection,ThreePrinciples,Twomethodsofsalientregiondetection,1HC(HistogramContrast)算法視覺系統(tǒng)對圖像中像素的色彩差異很敏感。據(jù)此,根據(jù)源圖像的顏色統(tǒng)計特征提出了基于直方圖對比的圖像像素顯著性值檢測方法。2RC(RegionContrast)算法人們會更加注意圖像中與周圍物體對比度大的區(qū)域,除對比度外,相鄰區(qū)域的高對比度比很遠區(qū)域的高對比度更容易導致一個區(qū)域引起人類的注意。,Saliencyvalueofpixel,一個像素的顯著性值用它和圖像中其他像素的顏色的對比度來定義;,上式展開得:,什么是Lab顏色空間?,在這種定義下,相同顏色的像素點具有相同的顯著性值,對式子進行重排,將相同顏色的像素歸到一起,得到每種顏色的顯著性值。,Cl表示像素Ik的顏色;n為圖像所含顏色總數(shù)目;fj為Cj在圖像的所有顏色中出現(xiàn)的概率;D(cl,cj)表示Lab顏色空間中的顏色距離。,Saliencyvalueofcolor,Saliencyvalueofcolor,國旗中像素Ik的顏色是黃色或者紅色,圖像所含顏色總數(shù)目2;,根據(jù)公式計算:,黃色出現(xiàn)的概率接近于0,紅色出現(xiàn)的概率接近于1,Zhai和Shah僅僅使用了亮度來減少顏色的數(shù)量,在這個基礎上他們提出了用于圖像顯著區(qū)域檢測的LC檢測。,先將每個顏色通道量化成12個份,將顏色減少到12*12*12,再將出現(xiàn)頻率較小的顏色丟掉,保留高頻出現(xiàn)的顏色。,然而,真彩色空間包含256*256*256種可能的顏色(16萬色),比圖像的像素總數(shù)還多,計算代價太高。,方法1,方法2,Saliencyvalueofcolor,LC算法缺陷在于忽略了顏色信息的可區(qū)別性。自然圖像中的顏色只占據(jù)整個色彩空間很小的一部分,將出現(xiàn)頻率很低的顏色丟掉,保留高頻出現(xiàn)的顏色。量化后的圖像顏色更少,但仍能保證顯著性檢測所需的視覺質量。,Colorhistogramquantize,顏色量化樣例,HC方法速度快,并且產(chǎn)生細節(jié)精確的結果,均勻地突出了整個顯著性區(qū)域。,Salientregiondetectionbasedonhistogramcontrast,HC算法檢測顯著區(qū)域樣例,空間關系在引起人類注意力方面也起到非常大的作用。相鄰區(qū)域的高對比度比很遠區(qū)域的高對比度更容易導致一個區(qū)域引起人類的注意。基于此,提出基于區(qū)域對比度的顯著性區(qū)域檢測算法。(1)先將圖像分割為若干區(qū)域(參考文獻:Efficientgraph-basedimagesegmentation.2004,IJCV),再為每個區(qū)域建立顏色直方圖;(2)計算各個區(qū)域之間的顏色對比度,用每個區(qū)域和其他區(qū)域的對比度加權和來定義其顯著性值(權值由兩個區(qū)域的空間距離決定)。,RegionContrast,圖像分割得到左圖,不考慮距離權值得到中-左圖,考慮距離權值得到中-右圖,二值化得到右圖。,Regioncontrastbasedsalientregiondetection,Saliencyvalueofregion,兩個區(qū)域r1和r2的顏色距離:,對每個區(qū)域rk定義顯著性值:,Sal
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 異常信息考核管理辦法
- 外聘機構服務管理辦法
- 薪酬等級評審管理辦法
- 肝病護理課件教學
- 福建二升三數(shù)學試卷
- 福建2024成人高考數(shù)學試卷
- 二年級拔尖數(shù)學試卷
- 足球培訓課件模板
- 廣東6年級升學數(shù)學試卷
- 高中藝術生數(shù)學試卷
- 2025年氫溴酸行業(yè)市場需求分析報告及未來五至十年行業(yè)預測報告
- 光伏電站運維安全操作規(guī)程
- 2025春季學期國開電大??啤豆芾韺W基礎》期末紙質考試總題庫
- 物流倉儲設備選型與配置規(guī)范
- T-BSRS 124-2024 伴生放射性礦開發(fā)利用場地土壤放射性污染調(diào)查和修復監(jiān)測技術規(guī)范
- (2025)全國交管12123學法減分考試題庫附答案
- 虛擬現(xiàn)實行業(yè)標準-深度研究
- T-ZHCA 025-2023 化妝品抗氧化人體測試方法
- 安保主管上半年工作總結
- 中山市招商服務中心2025年上半年招考人員易考易錯模擬試題(共500題)試卷后附參考答案
- 2022年9月國家開放大學??啤陡叩葦?shù)學基礎》期末紙質考試試題及答案
評論
0/150
提交評論