深度學(xué)習(xí)--人臉識別_第1頁
深度學(xué)習(xí)--人臉識別_第2頁
深度學(xué)習(xí)--人臉識別_第3頁
深度學(xué)習(xí)--人臉識別_第4頁
深度學(xué)習(xí)--人臉識別_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Deep Learning Identity-Preserving Face Space Related works for feature learning1. Learning-based descriptors2 Deep modelsNetwork ArchitectureXianhao Gan本征臉(eigenface )方法是人臉識別的基準(zhǔn)技術(shù),并已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn), 該方法基于主成分分析(PCA)PCA是將分散在一組變量上的信息集中到某幾個綜合指標(biāo)(主成分)上的數(shù)學(xué)方法,實(shí)際上起著數(shù)據(jù)降維的作 用,并保證降維過程最大化保留原數(shù)據(jù)的差異。這對最大化類間差異(即不同人之間的差異)

2、并最小化類內(nèi)差異 (即同一人的不同圖像間的差異)很有效用PCA將2維數(shù)據(jù)降到1維的例子,綠色點(diǎn)表示二維 數(shù)據(jù),PCA的目標(biāo)就是找到這樣一條直線,使得所 有點(diǎn)在這條直線上的投影點(diǎn)之間的平均距離最大。 也就是最大化地保留了原數(shù)據(jù)的差異性。本征臉方法如果將本征向量恢復(fù)成圖像,這些圖像很像人臉, 因此稱為“本征臉”。本征臉法認(rèn)為圖像的 結(jié)構(gòu)信息對于識別最重要,計(jì)算本征值和對應(yīng)的本征向量作為代數(shù)特 征進(jìn)行識別,具有無需提取眼、嘴、鼻等幾何特征的優(yōu)點(diǎn),但 在單樣本時識別率不們J,且在人臉模式數(shù)較大時計(jì)算量大。M. Turk & A. Pentland, JCN91本征特征(eigenfeature

3、 )方法利用PCA分析眼、鼻、嘴等特征,即本征特征方法R. Brunelli & T. Poggio, TPAMI93A. Pentland et al., CVPR94這實(shí)際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個 本征空間集成起來本征臉vs本征特征*卷矗吊誦峑高蒔社:去征承誦i甬扃範(fàn)特征,二者各有優(yōu)勢A. Pentland et al., CVPR94A. Pentland et al., CVPR94待識別圖像本征臉識別結(jié)果本征特征識別結(jié)果A. Pentland et al., CVPR94本征臉vs本征特征將二者結(jié)合,可以得到更好的識別效果同樣,這實(shí)際上相當(dāng)于:為若干

4、重要的特征建立本征空間,然 后將多個本征空間集應(yīng)起來由于嘴部受表情影響 很嚴(yán)重,因此未考慮 嘴部特征難題一一能否自動確定:該用哪些特征?(眼睛?鼻子?嘴?)特征的確切位置在哪兒?(從哪兒到哪兒算眼睛?深度模型(Deep models)受限波爾茲曼機(jī)RBM深度信念網(wǎng)絡(luò)DBN卷積受限波爾茲曼機(jī)CRBM混合神經(jīng)網(wǎng)絡(luò)受限波爾茲曼機(jī)CNN-RBM"深度模型”是手段,“特征學(xué)習(xí)”是目的!深度學(xué)習(xí)1 什么是深度學(xué)習(xí)?2.深度學(xué)習(xí)的基本思想3.深度學(xué)習(xí)的常用方法1) 自動編碼機(jī)(AutoEncoder)2) 稀疏編碼(Sparse Coding)3) 受限波爾茲曼機(jī)(Restrict Boltzma

5、nn Machine ,RBM)什么是深度學(xué)習(xí)?2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的 泰斗Geoffrey Hinton和他的學(xué)生RuslanSalakhutdinov在 科學(xué)上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界 和工業(yè)界的浪潮。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動 機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模 仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本,它 是無監(jiān)督學(xué)習(xí)的一種。深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征, 從而最終提升分類或預(yù)測的準(zhǔn)確性。深度學(xué)習(xí)的基本思想假設(shè)我們有一個系統(tǒng)S,它有n層(S1,Sn),它的輸入是I

6、,輸出是O,形象地表示為:I =>S仁S2=> =>Sn => O,如果輸出O等于輸入I,即輸入I經(jīng)過這個系統(tǒng)變化之后沒有任何的信 息損失。輸入層隱藏層輸出層深度學(xué)習(xí)的常用方法:1 .自動編碼機(jī)(AutoEncoder)Deep Learning最簡單的一種方法是利用的特點(diǎn),自動編碼器就是一種盡可能復(fù)現(xiàn)輸入信號的神經(jīng)網(wǎng)絡(luò)。為了實(shí)現(xiàn)這種復(fù)現(xiàn),自動編碼器就必須捕捉可以代表輸入數(shù)據(jù)的最重要的因素,就像PCA那樣,找到可以代表原信 息的主要成分。1)給定無標(biāo)簽數(shù)據(jù),用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征predictiontargetpredictionErrorError稀疏自動編碼器(Spa

7、rse AutoEncoder):如果在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點(diǎn)中大部分都要為0, 只有少數(shù)不為0,這就是Sparse名字的來源),我們就可以得到Sparse AutoEncoder法。-input: X code: h WTX-loss:厶(X;W) = |"力 X+入工”I稀疏自動編碼器(Sparse AutoEncoder)InputPatchFiltersFeaturesSparse Coding2稀疏編碼(Sparse Coding)如果我們把輸出必須和輸入相等的,同時利用線性代數(shù)中 的概念,即0二+ &

8、amp;2恤2+ an*(Dn, ©是基,坷是系數(shù),我們可以得到這樣一個優(yōu)化 問題:Min 11-01,其中I表示輸入,O表示輸岀。通過求解這個最優(yōu)化式子,我們可以求得系數(shù)坷和基 這些系數(shù)和基就是輸入的另外一種近似表達(dá)。因此,它們可以用來表達(dá)輸入I,這個過程也是自動 學(xué)習(xí)得到的。如果我們在上述式子上加上L1的Regularity 限制,得到:Min 11-01 + u*(laj + la2l + . + lan I)3受限波爾茲曼機(jī)RBM假設(shè)有一個二部圖(二分圖),每一層的節(jié)點(diǎn)之間沒有鏈接,一 層是可視層,即輸入數(shù)據(jù)層(V), 層是隱藏層(h),如果假設(shè)所 有的節(jié)點(diǎn)都是隨機(jī)二值變量節(jié)

9、點(diǎn)(只能取0或者1值),同時假設(shè) 全概率分布p(v,h)滿足Boltzmann分布,我們稱這個模型是 Restricted BoltzmannMachine (RBM)。L深度信念網(wǎng)絡(luò)(Deep Belief Networks )深度信念網(wǎng)絡(luò)是一個包含多層隱層(隱層數(shù)大于2) 的概率模型,每一層從前一層的隱含單元捕獲高度相關(guān) 的關(guān)聯(lián)。DBNs是一個概率生成模型,與傳統(tǒng)的判別模型 的神經(jīng)網(wǎng)絡(luò)相對,生成模型是建立一個觀察數(shù)據(jù)和 標(biāo)簽之間的聯(lián)合分布,對P(Observation|Label)和 P(Label|Observation)都做亍評估。典型的DNBs,可視數(shù)據(jù)v和隱含向量h的關(guān)系可 以用概

10、率表示成如下所示形式:DBN structure3RBM2h1Visible layervHidden layersDirected belief netsHinton et al., 2006P(v, h叭,H)二 P( V I H )P(H I h2).j(hl 山2)p(hZ , h,)卷積波爾茲曼機(jī)(Convolutional RBM)InputC1S2 C3 S4 CRBM是為識別二維圖像信息而特殊設(shè)計(jì)的一個多層感知器。概念示范:輸入圖像通過與m個可 訓(xùn)練的濾波器和對加偏置進(jìn)行卷積, 在C1層產(chǎn)生m個特征映射圖,然后 特征映射圖中每組的n個像素再進(jìn) 行求和,加權(quán)值,加偏置,通過一 個

11、Sigmoid函數(shù)得到ni個S2層的特征 映射圖。這些映射圖再進(jìn)過濾波得 到C3層。這個層級結(jié)構(gòu)再和S2樣 產(chǎn)生S4。最終,這些像素值被光柵 化,并連接成一個向量輸入到傳統(tǒng) 的神經(jīng)網(wǎng)絡(luò),得到輸出。卷積波爾茲曼機(jī)(Convolutional RBM)卷積波爾茲曼機(jī)(Convolutional RBM)a權(quán)值共享Fullyconnected neural netLocally connected neural net Spatial CQrrelation local Setter to pvt resources elsewhere1Example: 1000x1000 imoeIM hidde

12、nunitf 10MU pormtersHiExample 1000x1000 imae IM hiakfefl units Filter size: 10x10 100M panafneters減少參數(shù)的方法:/每個神經(jīng)元無需對全局圖像做感受,只需感受局部區(qū)域(Feature Map),在高層會將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。 /每個神經(jīng)元參數(shù)設(shè)為相同,即權(quán)值共享,也即每個神經(jīng)元用同一個卷 積核去卷積圖像。多濾波器情形Learn multipJe filtersEg: 1000x1000100 FiltersFilter Size: 10x1010K parometers口每

13、層隱層神經(jīng)元的個數(shù)按 濾波器種類的數(shù)量翻倍口每層隱層參數(shù)個數(shù)僅與濾 波器大小、濾波器種類的多 少有關(guān)例如:隱含層的每個神經(jīng)元都連接 10x10像素圖像區(qū)域,同時有100種 卷積核(濾波器)。則參數(shù)總個數(shù) 8 為:(10x10+1) xl00=10100個不同的顏色表示不同種類的濾波器卷積波爾茲曼機(jī)(Convolutional RBM)隱層神經(jīng)元數(shù)量的確定OExompie: 1000x1000 image LM hidden units Filter srze: 10x10 100M parametersSTATTONAftlTy? Statistics is Simikxr at differ

14、ent locationsRanz神經(jīng)元數(shù)量與輸入圖像大 小、濾波器大小和濾波器的 滑動步長有關(guān)。例如,輸入圖像是1000x1000像素,濾 波器大小是10x10,假設(shè)濾波器間沒有 里疊,即步長為10,這樣隱層的神經(jīng) 元個數(shù)就是(1000x1000 )/ (10x10)=10000個口卷積過程:用一個可訓(xùn)練的濾波器fx去卷積一個輸入的 圖像(第一階段是輸入的圖像,后面的階段就是FeatureMapT),然后加一個偏置bx,得到卷積層Cx。口子釆樣過程:每鄰域n個像素通過)Q步驟 變?yōu)橐粋€像素,然后通過標(biāo)量Wx+i加權(quán),再增加偏Sbx+1, 然后通過一個sigmoid激活函數(shù),產(chǎn)生一個大概縮小n

15、倍的 特征映射圖5+1。Fl P特征臉法FIP (Face Identity-Preserving)特征學(xué)習(xí) 采用的是一種多層深度模型,不像DNB與DBM 只利用全局特征,它結(jié)合了的特征,網(wǎng)絡(luò)架構(gòu)類似于(卷積波爾茲曼機(jī)),但FIP是一種 的特征學(xué)習(xí)方式,并且FIP要求 能重建恢復(fù)正面的人臉,因此這種方法對姿態(tài)和 光照變量具有更好的魯棒性。(a) LBP: Local Binary Pattern(局部二值模式)(b) LE:an unsupervised feature learning method,PCA(c) CRBM:卷積受限波爾茲曼機(jī)FIP:Face IdentityPreservi

16、ngFIP深度模型網(wǎng)絡(luò)架構(gòu)(Architecture of the deep network)Reconstruction LayerFeature Extraction LayersHPn0=%X96w V15X5Loully Connoted and Pooling05X5 LocallyX Connected andPooling ,AT*av?|KWWW-224X24X3224n2=24X 24X32H“96X 96coftnectal5X 5Lcxal»vConnected映射圖32£=1,它是通過一個包含32個子矩陣的權(quán)第一個特征提取層中,Xo經(jīng)過Xi層后產(chǎn)生32個特征 重矩陣Wi濾波后,對Xo的某個局部特征的稀疏保留。IF1 =附明;;昭2W? e Rno43X# =扛0)? = V2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論