視頻監(jiān)控與視頻分析-第十四章 深度學習_第1頁
視頻監(jiān)控與視頻分析-第十四章 深度學習_第2頁
視頻監(jiān)控與視頻分析-第十四章 深度學習_第3頁
視頻監(jiān)控與視頻分析-第十四章 深度學習_第4頁
視頻監(jiān)控與視頻分析-第十四章 深度學習_第5頁
已閱讀5頁,還剩121頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十四章:深度學習2015.9于深圳視頻監(jiān)控與視頻分析目錄概述動機深度學習簡介深度學習的訓練過程深度學習的具體模型及方法深度學習的性能比較深度學習的應用展望參考文獻相關程序軟件及鏈接概述深度學習:一種基于無監(jiān)督特征學習和特征層次結構的學習方法可能的的名稱:深度學習特征學習無監(jiān)督特征學習動機良好的特征表達,對最終算法的準確性起了非常關鍵的作用;識別系統(tǒng)主要的計算和測試工作耗時主要集中在特征提取部分;特征的樣式目前一般都是人工設計的,靠人工提取特征。Low-levelsensingPre-processingFeatureextract.FeatureselectionInference:prediction,recognition傳統(tǒng)的模式識別方法:動機——為什么要自動學習特征實驗:LP-βMultipleKernelLearningGehlerandNowozin,OnFeatureCombinationforMulticlassObjectClassification,ICCV’09采用39個不同的特征PHOG,SIFT,V1S+,

RegionCov.Etc.在普通特征上MKL表現(xiàn)有限結論:特征更重要動機——為什么要自動學習特征機器學習中,獲得好的特征是識別成功的關鍵目前存在大量人工設計的特征,不同研究對象特征不同,特征具有多樣性,如:SIFT,HOG,LBP等手工選取特征費時費力,需要啟發(fā)式專業(yè)知識,很大程度上靠經驗和運氣是否能自動地學習特征?中層特征中層信號:動機——為什么要自動學習特征“Tokens”fromVisionbyD.Marr:連續(xù)平行連接拐角物體部件:他們對于人工而言是十分困難的,那么如何學習呢?動機——為什么要自動學習特征一般而言,特征越多,給出信息就越多,識別準確性會得到提升;但特征多,計算復雜度增加,探索的空間大,可以用來訓練的數據在每個特征上就會稀疏。結論:不一定特征越多越好!需要有多少個特征,需要學習確定。動機——為什么采用層次網絡結構人腦視覺機理1981年的諾貝爾醫(yī)學獎獲得者DavidHubel和TorstenWiesel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機制發(fā)現(xiàn)了一種被稱為“方向選擇性細胞的神經元細胞,當瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個邊緣指向某個方向時,這種神經元細胞就會活躍動機——為什么采用層次網絡結構人腦視覺機理人的視覺系統(tǒng)的信息處理是分級的高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖抽象層面越高,存在的可能猜測就越少,就越利于分類動機——為什么采用層次網絡結構視覺的層次性屬性學習,類別作為屬性的一種組合映射Lampertetal.CVPR’09類別標簽屬性圖像特征動機——為什么采用層次網絡結構特征表示的粒度具有結構性(或者語義)的高層特征對于分類更有意義動機——為什么采用層次網絡結構初級(淺層)特征表示高層特征或圖像,往往是由一些基本結構(淺層特征)組成的動機——為什么采用層次網絡結構結構性特征表示動機——為什么采用層次網絡結構淺層學習的局限人工神經網絡(BP算法)—雖被稱作多層感知機,但實際是種只含有一層隱層節(jié)點的淺層模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)—帶有一層隱層節(jié)點(如SVM、Boosting),或沒有隱層節(jié)點(如LR)的淺層模型局限性:有限樣本和計算單元情況下對復雜函數的表示能力有限,針對復雜分類問題其泛化能力受限。深度學習2006年,加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton在《科學》上發(fā)表論文提出深度學習主要觀點:1)多隱層的人工神經網絡具有優(yōu)異的特征學習能力,學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類;2)深度神經網絡在訓練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,逐層初始化可通過無監(jiān)督學習實現(xiàn)的。深度學習本質:通過構建多隱層的模型和海量訓練數據(可為無標簽數據),來學習更有用的特征,從而最終提升分類或預測的準確性。“深度模型”是手段,“特征學習”是目的。與淺層學習區(qū)別:1)強調了模型結構的深度,通常有5-10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構造特征的方法相比,利用大數據來學習特征,更能夠刻畫數據的豐富內在信息。深度學習好處:可通過學習一種深層非線性網絡結構,實現(xiàn)復雜函數逼近,表征輸入數據分布式表示。深度學習vs.神經網絡神經網絡:深度學習:深度學習vs.神經網絡相同點:二者均采用分層結構,系統(tǒng)包括輸入層、隱層(多層)、輸出層組成的多層網絡,只有相鄰層節(jié)點之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個logistic回歸模型。不同點:神經網絡:采用BP算法調整參數,即采用迭代算法來訓練整個網絡。隨機設定初值,計算當前網絡的輸出,然后根據當前輸出和樣本真實標簽之間的差去改變前面各層的參數,直到收斂;深度學習:采用逐層訓練機制。采用該機制的原因在于如果采用BP機制,對于一個deepnetwork(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradientdiffusion(梯度擴散)。深度學習vs.神經網絡神經網絡的局限性:1)比較容易過擬合,參數比較難調整,而且需要不少技巧;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);深度學習訓練過程不采用BP算法的原因(1)反饋調整時,梯度越來越稀疏,從頂層越往下,誤差校正信號越來越?。唬?)收斂易至局部最小,由于是采用隨機值初始化,當初值是遠離最優(yōu)區(qū)域時易導致這一情況;(3)BP算法需要有標簽數據來訓練,但大部分數據是無標簽的;深度學習訓練過程第一步:采用自下而上的無監(jiān)督學習1)逐層構建單層神經元。2)每層采用wake-sleep算法進行調優(yōu)。每次僅調整一層,逐層調整。這個過程可以看作是一個featurelearning的過程,是和傳統(tǒng)神經網絡區(qū)別最大的部分。深度學習訓練過程wake-sleep算法:1)wake階段:認知過程,通過下層的輸入特征(Input)和向上的認知(Encoder)權重產生每一層的抽象表示(Code),再通過當前的生成(Decoder)權重產生一個重建信息(Reconstruction),計算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權重。也就是“如果現(xiàn)實跟我想象的不一樣,改變我的生成權重使得我想象的東西變得與現(xiàn)實一樣”。2)sleep階段:生成過程,通過上層概念(Code)和向下的生成(Decoder)權重,生成下層的狀態(tài),再利用認知(Encoder)權重產生一個抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認知(Encoder)權重。也就是“如果夢中的景象不是我腦中的相應概念,改變我的認知權重使得這種景象在我看來就是這個概念”。深度學習訓練過程EncoderDecoderInputImageClasslabele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:深度學習訓練過程第二步:自頂向下的監(jiān)督學習

這一步是在第一步學習獲得各層參數進的基礎上,在最頂的編碼層添加一個分類器(例如羅杰斯特回歸、SVM等),而后通過帶標簽數據的監(jiān)督學習,利用梯度下降法去微調整個網絡參數。深度學習的第一步實質上是一個網絡參數初始化過程。區(qū)別于傳統(tǒng)神經網絡初值隨機初始化,深度學習模型是通過無監(jiān)督學習輸入數據的結構得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。深度學習的具體模型及方法自動編碼器(AutoEncoder)稀疏自動編碼器(SparseAutoEncoder)降噪自動編碼器(DenoisingAutoEncoders)深度學習的具體模型及方法EncoderDecoderInput(Image/Features)OutputFeaturese.g.Feed-back/

generative/

top-downpathFeed-forward/

bottom-uppath自動編碼器(AutoEncoder)深度學習的具體模型及方法σ(Wx)σ(WTz)(Binary)Inputx(Binary)Featuresze.g.自動編碼器(AutoEncoder)EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersWTSigmoidfunctionσ(.)深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)限制每次得到的表達code盡量稀疏限制每次得到的表達code盡量稀疏深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)FiltersFeaturesSparseCodingInput

Patch深度學習的具體模型及方法σ(Wx)DzInputPatchxSparseFeaturesze.g.EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersDL1SparsityTraining稀疏自動編碼器(SparseAutoEncoder)深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)1)Training階段:給定一系列的樣本圖片[x1,x2,…],我們需要學習得到一組基[Φ1,Φ2,…],也就是字典。

可使用K-SVD方法交替迭代調整a[k],Φ[k],直至收斂,從而可以獲得一組可以良好表示這一系列x的字典。深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)2)Coding階段:給定一個新的圖片x,由上面得到的字典,利用OMP算法求解一個LASSO問題得到稀疏向量a。這個稀疏向量就是這個輸入向量x的一個稀疏表達。深度學習的具體模型及方法稀疏自動編碼器(SparseAutoEncoder)深度學習的具體模型及方法降噪自動編碼器(DenoisingAutoEncoders)在自動編碼器的基礎上,對訓練數據加入噪聲,自動編碼器必須學習去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此,這就迫使編碼器去學習輸入信號的更加魯棒的表達,這也是它的泛化能力比一般編碼器強的原因。深度學習的具體模型及方法Autoencoder(mostDeepLearningmethods)RBMs/DBMs [Lee/Salakhutdinov]Denoisingautoencoders [Ranzato]Predictivesparsedecomposition

[Ranzato]Decoder-onlySparsecoding [Yu]DeconvolutionalNets [Yu]

Encoder-onlyNeuralnets(supervised) [Ranzato]深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)定義:假設有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數據層(v),一層是隱藏層(h),如果假設所有的節(jié)點都是隨機二值(0,1值)變量節(jié)點,同時假設全概率分布p(v,h)滿足Boltzmann分布,我們稱這個模型是RestrictedBoltzmannMachine(RBM)。深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)限制波爾茲曼機(RBM)是一種深度學習模型。深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)定義聯(lián)合組態(tài)(jointconfiguration)能量:這樣某個組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布和這個組態(tài)的能量來確定:深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)給定隱層h的基礎上,可視層的概率確定:(可視層節(jié)點之間是條件獨立的)給定可視層v的基礎上,隱層的概率確定:深度學習的具體模型及方法限制波爾茲曼機(RestrictedBoltzmannMachine)

待求問題:給定一個滿足獨立同分布的樣本集:D={v(1),v(2),…,v(N)},需要學習模型參數θ={W,a,b}。

求解:

最大似然估計:我們需要選擇一個參數,讓我們當前的觀測樣本的概率最大對最大對數似然函數求導,即可得到L最大時對應的參數W:若隱藏層層數增加,可得到DeepBoltzmannMachine(DBM)深度學習的具體模型及方法DeepBoltzmannMachine(DBM)深度學習的具體模型及方法深信度網絡(DeepBeliefNetworks)DeepBeliefNetworks是在靠近可視層的部分使用貝葉斯信念網絡(即有向圖模型),而在最遠離可視層的部分使用RestrictedBoltzmannMachine的模型。深度學習的具體模型及方法深信度網絡(DeepBeliefNetworks)深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)

CRBM是為識別二維圖像信息而特殊設計的一個多層感知器。概念示范:輸入圖像通過與m個可訓練的濾波器和可加偏置進行卷積,在C1層產生m個特征映射圖,然后特征映射圖中每組的n個像素再進行求和,加權值,加偏置,通過一個Sigmoid函數得到m個S2層的特征映射圖。這些映射圖再進過濾波得到C3層。這個層級結構再和S2一樣產生S4。最終,這些像素值被光柵化,并連接成一個向量輸入到傳統(tǒng)的神經網絡,得到輸出。深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)權值共享減少參數的方法:每個神經元無需對全局圖像做感受,只需感受局部區(qū)域(FeatureMap),在高層會將這些感受不同局部的神經元綜合起來獲得全局信息。每個神經元參數設為相同,即權值共享,也即每個神經元用同一個卷積核去卷積圖像。深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)隱層神經元數量的確定神經元數量與輸入圖像大小、濾波器大小和濾波器的滑動步長有關。例如,輸入圖像是1000x1000像素,濾波器大小是10x10,假設濾波器間沒有重疊,即步長為10,這樣隱層的神經元個數就是(1000x1000)/(10x10)=10000個深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)多濾波器情形不同的顏色表示不同種類的濾波器每層隱層神經元的個數按濾波器種類的數量翻倍每層隱層參數個數僅與濾波器大小、濾波器種類的多少有關例如:隱含層的每個神經元都連接10x10像素圖像區(qū)域,同時有100種卷積核(濾波器)。則參數總個數為:(10x10+1)x100=10100個深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)卷積過程:用一個可訓練的濾波器fx去卷積一個輸入的圖像(第一階段是輸入的圖像,后面的階段就是FeatureMap了),然后加一個偏置bx,得到卷積層Cx。子采樣過程:每鄰域n個像素通過池化(pooling)步驟變?yōu)橐粋€像素,然后通過標量Wx+1加權,再增加偏置bx+1,然后通過一個sigmoid激活函數,產生一個大概縮小n倍的特征映射圖Sx+1。深度學習的具體模型及方法卷積波爾茲曼機(ConvolutionalRBM)CNN的關鍵技術:局部感受野、權值共享、時間或空間子采樣CNN的優(yōu)點:1、避免了顯式的特征抽取,而隱式地從訓練數據中進行學習;2、同一特征映射面上的神經元權值相同,從而網絡可以并行學習,降低了網絡的復雜性;3、采用時間或者空間的子采樣結構,可以獲得某種程度的位移、尺度、形變魯棒性;3、輸入信息和網絡拓撲結構能很好的吻合,在語音識別和圖像處理方面有著獨特優(yōu)勢。深度學習的具體模型及方法基于CRBM的深度學習框架深度學習性能比較DeepnetsVS.Boosting深度學習性能比較DeepnetsVS.ProbabilisticModels深度學習性能比較隨機文法模型SetofproductionrulesforobjectsZhu&Mumford,StochasticGrammarofImages,F&T2006自動學習人工指定[S.C.Zhuetal.]深度學習性能比較基于文法模型的物體檢測-R.Girshick,P.Felzenszwalb,D.McAllester,NIPS2011-Learnlocalappearance

&shape人工指定自動學習深度學習性能比較部件和結構模型DefinedconnectivitygraphLearnappearance/relativeposition[Felzenszwalb&HuttenlocherCVPR’00][FischlerandR.Elschlager1973]人工指定自動學習深度學習性能比較基于部件與結構的分層模型-Fidleretal.ECCV’10-Fidler&LeonardisCVPR’07人工指定自動學習深度學習性能比較遞歸和與圖模型-LeoZhu,YuanhaoChen,AlanYuille&collaboratorsRecursivecomposition,AND/ORgraphLearn#unitsatlayer人工指定自動學習深度學習性能比較自動編碼模型[Hintonetal.ICANN’11]反卷積網絡模型[Zeileretal.ICCV’11]-Explicitrepresentationofwhat/where人工指定自動學習深度學習性能比較神經網絡Dedicated

pooling/LCN

layersNoseparationof

what/whereModality

independent

(e.g.speech,

images)[Leetal.,ICML’12]人工指定自動學習深度學習性能比較波爾茲曼機Homogenous

architectureNoseparationof

what/whereModality

independent

(e.g.speech,images)[Salakhutdinov&HintonAISTATS’09]人工指定自動學習深度學習的應用深度學習在圖像識別上的應用空間金字塔(SpatialPyramids)深度學習的應用深度學習在圖像識別上的應用深度學習的應用深度學習在圖像識別上的應用深度學習的應用深度學習在圖像識別上的應用深度學習的應用深度學習在圖像識別上的應用實驗在Caltech256數據集上,利用單特征識別,SparseCRBM性能最優(yōu)深度學習的應用深度學習在音頻識別上的應用ConvolutionalDBNforaudioMaxpoolingnode

DetectionnodesMaxpoolingnode

Detectionnodes深度學習的應用深度學習在音頻識別上的應用ConvolutionalDBNforaudio深度學習的應用深度學習在音頻識別上的應用深度學習的應用深度學習在音頻識別上的應用深度學習的應用深度學習在視頻識別上的應用SPACE-TIMEDEEPBELIEFNETWORKS深度學習的應用深度學習在視頻識別上的應用深度學習的應用深度學習在多模態(tài)學習中的應用深度學習的應用深度學習在多模態(tài)學習中的應用深度學習的應用深度學習在多模態(tài)學習中的應用深度學習的應用深度學習在多模態(tài)學習中的應用深度學習的應用深度學習在多模態(tài)學習中的應用深度學習的應用深度學習在多模態(tài)學習中的應用如果模態(tài)間存在著內在的聯(lián)系,即存在sharedRepresentation,那么理論上模型應支持訓練一個模態(tài),而測試另一個模態(tài)時,仍能獲得好的分類性能。深度學習的應用深度學習在多任務學習中的應用深度學習的應用深度學習在多任務學習中的應用在深度學習模型中,對于相關任務的聯(lián)合學習,往往會取得較好的特征表達;多任務聯(lián)合學習,能夠增強損失函數的作用效能;比如:單獨進行人臉檢測會比較難(光照、遮擋等因素),但是當人臉檢測與人臉識別這兩個相關的任務聯(lián)合學習時,人臉檢測的難度反而降低了。深度學習的應用基于深度學習的遷移學習應用深度學習的應用基于深度學習的遷移學習應用特征共享深度學習的應用基于深度學習的遷移學習應用深度學習的應用深度學習在大尺度數據集上的應用大尺度數據集:樣本總數>100M,類別總數>10K,特征維度>10K深度學習的應用深度學習在大尺度數據集上的應用模型的并行運算化深度學習的應用深度學習在大尺度數據集上的應用分布式深度學習模型深度學習的應用深度學習在大尺度數據集上的應用分布式深度學習模型深度學習的應用深度學習在大尺度數據集上的應用參數個數達到1.15billion,若不能并行優(yōu)化參數,任務無法完成!深度學習的應用深度學習的State-of-the-art展望未來需解決的問題:對于一個特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)?對捕捉短時或者長時間的時間依賴,哪種架構才是有效的?如何對于一個給定的深度學習架構,融合多種感知的信息?如何分辨和利用學習獲得的中、高層特征語義知識?有什么正確的機理可以去增強一個給定的深度學習架構,以改進其魯棒性和對變形及數據丟失的不變性?模型方面是否有其他更為有效且有理論依據的深度模型學習算法?是否存在更有效的可并行訓練算法?參考文獻Tutorials&BackgroundMaterial–YoshuaBengio,LearningDeepArchitecturesforAI,FoundationsandTrendsinMachineLearning,2(1),pp.1-127,2009.–LeCun,Chopra,Hadsell,Ranzato,Huang:ATutorialonEnergy-BasedLearning,inBakir,G.andHofman,T.andScholkopf,B.andSmola,A.andTaskar,B.(Eds),PredictingStructuredData,MITPress,2006ConvolutionalNets–LeCun,Bottou,BengioandHaffner:Gradient-BasedLearningAppliedtoDocumentRecognition,ProceedingsoftheIEEE,86(11):2278-2324,November1998–Jarrett,Kavukcuoglu,Ranzato,LeCun:WhatistheBestMulti-StageArchitectureforObjectRecognition?,Proc.InternationalConferenceonComputerVision(ICCV'09),IEEE,2009

–Kavukcuoglu,Sermanet,Boureau,Gregor,Mathieu,LeCun:LearningConvolutionalFeatureHierachiesforVisualRecognition,AdvancesinNeuralInformationProcessingSystems(NIPS2010),23,2010參考文獻UnsupervisedLearning–ICAwithReconstructionCostforEfficientOvercompleteFeatureLearning.Le,Karpenko,Ngiam,Ng.InNIPS2011–Rifai,Vincent,Muller,Glorot,Bengio,ContractingAuto-Encoders:Explicitinvarianceduringfeatureextraction,in:ProceedingsoftheTwenty-eightInternationalConferenceonMachineLearning(ICML'11),2011-Vincent,Larochelle,Lajoie,Bengio,Manzagol,StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion,JournalofMachineLearningResearch,11:3371--3408,2010.-Gregor,Szlam,LeCun:StructuredSparseCodingviaLateralInhibition,AdvancesinNeuralInformationProcessingSystems(NIPS2011),24,2011-Kavukcuoglu,Ranzato,LeCun."FastInferenceinSparseCodingAlgorithmswithApplicationstoObjectRecognition".ArXiv1010.34672008-Hinton,Krizhevsky,Wang,TransformingAuto-encoders,ICANN,2011Multi-modalLearning–Multimodaldeeplearning,Ngiam,Khosla,Kim,Nam,Lee,Ng.InProceedingsoftheTwenty-EighthInternationalConferenceonMachineLearning,2011.參考文獻LocallyConnectedNets

–Gregor,LeCun“Emergenceofcomplex-likecellsinatemporalproductnetworkwithlocalreceptivefields”Arxiv.2009–Ranzato,Mnih,Hinton“GeneratingmorerealisticimagesusinggatedMRF's”NIPS2010–Le,Ngiam,Chen,Chia,Koh,Ng“Tiledconvolutionalneuralnetworks”NIPS2010DistributedLearning–Le,Ranzato,Monga,Devin,Corrado,Chen,Dean,Ng."BuildingHigh-LevelFeaturesUsingLargeScaleUnsupervisedLearning".InternationalConferenceofMachineLearning(ICML2012),Edinburgh,2012.PapersonSceneParsing–Farabet,Couprie,Najman,LeCun,“SceneParsingwithMultiscaleFeatureLearning,PurityTrees,andOptimalCovers”,inProc.oftheInternationalConferenceonMachineLearning(ICML'12),Edinburgh,Scotland,2012.-Socher,Lin,Ng,Manning,“ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks”.InternationalConferenceofMachineLearning(ICML2011)2011.參考文獻PapersonObjectRecognition-Boureau,LeRoux,Bach,Ponce,LeCun:Askthelocals:multi-waylocalpoolingforimagerecognition,Proc.ICCV2011-Sermanet,LeCun:TrafficSignRecognitionwithMulti-ScaleConvolutionalNetworks,ProceedingsofInternationalJointConferenceonNeuralNetworks(IJCNN'11)-Ciresan,Meier,Gambardella,Schmidhuber.ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification.11thInternationalConferenceonDocumentAnalysisandRecognition(ICDAR2011),Beijing,China.-Ciresan,Meier,Masci,Gambardella,Schmidhuber.Flexible,HighPerformanceConvolutionalNeuralNetworksforImageClassification.InternationalJointConferenceonArtificialIntelligenceIJCAI-2011.PapersonActionRecognition–Learninghierarchicalspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis,Le,Zou,Yeung,Ng.CVPR2011PapersonSegmentation–Turaga,Briggman,Helmstaedter,Denk,SeungMaximinlearningofimagesegmentation.NIPS,2009.參考文獻PapersonVisionforRobotics–Hadsell,Sermanet,Scoffier,Erkan,Kavackuoglu,Muller,LeCun:LearningLong-RangeVisionforAutonomousOff-RoadDriving,JournalofFieldRobotics,26(2):120-144,February2009,DeepConvexNets&Deconv-Nets–Deng,Yu.“DeepConvexNetwork:AScalableArchitectureforSpeechPatternClassification.”Interspeech,2011.-Zeiler,Taylor,Fergus"AdaptiveDeconvolutionalNetworksforMidandHighLevelFeatureLearning."ICCV.2011PapersonBiologicalInspiredVision–Serre,Wolf,Bileschi,Riesenhuber,Poggio.RobustObjectRecognitionwithCortex-likeMechanisms,IEEETransactionsonPatternAnalysisandMachineIntelligence,29,3,411-426,2007.-Pinto,Doukhan,DiCarlo,Cox"Ahigh-throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation."{PLoS}ComputationalBiology.2009參考文獻PapersonEmbeddedConvNetsforReal-TimeVisionApplications–Farabet,Martini,Corda,Akselrod,Culurciello,LeCun:NeuFlow:ARuntimeReconfigurableDataflowProcessorforVision,WorkshoponEmbeddedComputerVision,CVPR2011PapersonImageDenoisingUsingNeuralNets–Burger,Schuler,Harmeling:ImageDenoisng:CanPlainNeuralNetworksCompetewithBM3D?,ComputerVisionandPatternRecognition,CVPR2012,相關程序軟件及鏈接DeepLearningwebsite

–/MatlabcodeforR-ICAunsupervisedalgorithm–/Python-basedlearninglibrary–/C++codeforConvNets

–/software/theano/LushlearninglibrarywhichincludesConvNets–/~quocle/rica_release.ziplearninglibrarythatsupportsneuralnettraining–http://www.torch.chCodeusedtogeneratedemoforthistutorialRanzato–/~fergus/tutorials/deep_learning_cvpr12/GlobalContrastbasedSalientRegionDetectionMing-MingCheng,TsinghuaUniversityitCVPR2011GlobalContrastbasedSalientRegionDetection自動化學院匯報人:付忠敏MainContents1

234基于直方圖對比度的檢測方法基于區(qū)域對比度的檢測方法總結與展望顯著區(qū)域檢測及分析方法SalientRegionofimage顯著性源于視覺的獨特性、不可預測性、稀缺性以及奇異性,并且是由顏色、梯度、邊緣、邊界等圖像所致。人們普遍認為,大腦更容易響應圖像中的高對比度區(qū)域的刺激。文章作者主要依據圖像的對比度來進行顯著性區(qū)域檢測。什么是圖像的顯著性區(qū)域?SalientRegionDetectionThreePrinciples1全局對比傾向于將大范圍的目標和周圍環(huán)境分離,這種對比優(yōu)于只在輪廓附近產生較高顯著性的局部對比度。3一個區(qū)域的對比度,主要由它和周圍區(qū)域的對比度決定,相距很遠的區(qū)域起的作用較小。2全局的考慮可以為圖像中相似的區(qū)域分配一個相近的顯著性值,并且均勻的突出目標。Twomethodsofsalientregiondetection1HC(HistogramContrast)算法視覺系統(tǒng)對圖像中像素的色彩差異很敏感。據此,根據源圖像的顏色統(tǒng)計特征提出了基于直方圖對比的圖像像素顯著性值檢測方法。2RC(RegionContrast)算法人們會更加注意圖像中與周圍物體對比度大的區(qū)域,除對比度外,相鄰區(qū)域的高對比度比很遠區(qū)域的高對比度更容易導致一個區(qū)域引起人類的注意。

Saliencyvalueofpixel

一個像素的顯著性值用它和圖像中其他像素的顏色的對比度來定義;上式展開得:什么是Lab顏色空間?

在這種定義下,相同顏色的像素點具有相同的顯著性值,對式子進行重排,將相同顏色的像素歸到一起,得到每種顏色的顯著性值。Cl表示像素Ik的顏色;n為圖像所含顏色總數目;fj為Cj在圖像的所有顏色中出現(xiàn)的概率;D(cl,cj)表示Lab顏色空間中的顏色距離。Saliencyvalueofcolor

Saliencyvalueofcolor國旗中像素Ik的顏色是黃色或者紅色,圖像所含顏色總數目2;根據公式計算:黃色出現(xiàn)的概率接近于0紅色出現(xiàn)的概率接近于1Zhai和Shah僅僅使用了亮度來減少顏色的數量,在這個基礎上他們提出了用于圖像顯著區(qū)域檢測的LC檢測。先將每個顏色通道量化成12個份,將顏色減少到12*12*12,再將出現(xiàn)頻率較小的顏色丟掉,保留高頻出現(xiàn)的顏色。然而,真彩色空間包含256*256*256種可能的顏色(16萬色),比圖像的像素總數還多,計算代價太高。方法1方法2Saliencyvalueofcolor

LC算法缺陷在于忽略了顏色信息的可區(qū)別性。自然圖像中的顏色只占據整個色彩空間很小的一部分,將出現(xiàn)頻率很低的顏色丟掉,保留高頻出現(xiàn)的顏色。量化后的圖像顏色更少,但仍能保證顯著性檢測所需的視覺質量。Colorhistogramquantize顏色量化樣例

HC方法速度快,并且產生細節(jié)精確的結果,均勻地突出了整個顯著性區(qū)域。SalientregiondetectionbasedonhistogramcontrastHC算法檢測顯著區(qū)域樣例

空間關系在引起人類注意力方面也起到非常大的作用。相鄰區(qū)域的高對比度比很遠區(qū)域的高對比度更容易導致一個區(qū)域引起人類的注意?;诖?,提出基于區(qū)域對比度的顯著性區(qū)域檢測算法。(1)先將圖像分割為若干區(qū)域(參考文獻:Efficientgraph-basedimagesegmentation.2004,IJCV),再為每個區(qū)域建立顏色直方圖;(2)計算各個區(qū)域之間的顏色對比度,用每個區(qū)域和其他區(qū)域的對比度加權和來定義其顯著性值(權值由兩個區(qū)域的空間距離決定)。RegionContrast

圖像分割得到左圖,不考慮距離權值得到中-左圖,考慮距離權值得到中-右圖,二值化得到右圖。Region

contrastbasedsalientregiondetectionSaliencyvalueofregion

兩個區(qū)域r1和r2的顏色距離:對每個區(qū)域rk定義顯著性值:Saliencyvalueofregion

引入空間權值,將空間信息加進來,增加區(qū)域的空間影響效果。對于任意區(qū)域rk,基于空間加權區(qū)域對比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論