




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、DeepID人臉識(shí)別算法之三代轉(zhuǎn)載請注明:DeepID,目前最強(qiáng)人臉識(shí)別算法,已經(jīng)三代。如今,深度學(xué)習(xí)方興未艾,大數(shù)據(jù)風(fēng)起云涌,各個(gè)領(lǐng)域都在處于使用深度學(xué)習(xí)進(jìn)行強(qiáng)突破的階段,人臉識(shí)別也不例外,香港中文大學(xué)的團(tuán)隊(duì)使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征,將之用于人臉識(shí)別的子領(lǐng)域人臉驗(yàn)證方面,取得了不錯(cuò)的效果。雖然是今年7月份才出的成果,但連發(fā)三箭,皆中靶心,使用的卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)改進(jìn)了三次,破竹之勢節(jié)節(jié)高。故而在這里將DeepID神經(jīng)網(wǎng)絡(luò)的三代進(jìn)化史總結(jié)一下,以期相互討論,互有增益。在說明具體的結(jié)論之前,我先進(jìn)行總結(jié)式的幾段文字,然后再做詳細(xì)的技術(shù)說明,以防有些過來尋求科普的人看到一坨坨的公式便拂袖遠(yuǎn)去,沒看到
2、什么干貨。1. 問題引入及算法流程DeepID所應(yīng)用的領(lǐng)域是人臉識(shí)別的子領(lǐng)域人臉驗(yàn)證,就是判斷兩張圖片是不是同一個(gè)人。人臉驗(yàn)證問題很容易就可以轉(zhuǎn)成人臉識(shí)別問題,人臉識(shí)別就是多次人臉驗(yàn)證。DeepID達(dá)到的效果都是在LFW數(shù)據(jù)集上,該數(shù)據(jù)集是wild人臉數(shù)據(jù)集,即沒有經(jīng)過對(duì)其的人臉,背景變化比較大。該數(shù)據(jù)集太小,很多identities都只有一張人臉,5000個(gè)人只有13000張圖片。所以DeepID引入了外部數(shù)據(jù)集CelebFaces和CelebFaces+,每次模型更新都會(huì)使用更大的數(shù)據(jù)集,這在后面介紹DeepID時(shí)再細(xì)說。卷積神經(jīng)網(wǎng)絡(luò)在DeepID中的作用是是學(xué)習(xí)特征,即將圖片輸入進(jìn)去,學(xué)
3、習(xí)到一個(gè)160維的向量。然后再這個(gè)160維向量上,套用各種現(xiàn)成的分類器,即可得到結(jié)果。DeepID之所以有效,首先在于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征的區(qū)分能力比較強(qiáng),為了得到比較強(qiáng)的結(jié)果,DeepID采取了目前最常用的手法增大數(shù)據(jù)集,只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的更加的充分。增大數(shù)據(jù)集有兩種手法,第一種手法,就是采集好的數(shù)據(jù),即CelebFaces數(shù)據(jù)集的引入。第二種手法,就是將圖片多尺度多通道多區(qū)域的切分,分別進(jìn)行訓(xùn)練,再把得到的向量連接起來,得到最后的向量。DeepID的算法流程如下:在上述的流程中,DeepID可以換為Hog,LBP等傳統(tǒng)特征提取算法。Classifier可以是SVM
4、,Joint Bayes,LR,NN等任意的machine learning分類算法。在引入外部數(shù)據(jù)集的情況下,訓(xùn)練流程是這樣的。首先,外部數(shù)據(jù)集4:1進(jìn)行切分,4那份用來訓(xùn)練DeepID,1那份作為訓(xùn)練DeepID的驗(yàn)證集;然后,1那份用來訓(xùn)練Classifier。這樣劃分的原因在于兩層模型不能使用同一種數(shù)據(jù)進(jìn)行訓(xùn)練,容易產(chǎn)生過擬合。如此,想必大家對(duì)DeepID的應(yīng)用場景已經(jīng)熟悉了,下面開始講三代DeepID的進(jìn)化。2. DeepID在這里,我假定大家對(duì)卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)有了基本的認(rèn)識(shí),如果沒有的話,出門左轉(zhuǎn)看我這篇blog:卷積神經(jīng)網(wǎng)絡(luò)2.1 DeepID網(wǎng)絡(luò)結(jié)構(gòu)DeepID是第一代,其結(jié)構(gòu)
5、與普通的卷積神經(jīng)網(wǎng)絡(luò)差不多。結(jié)構(gòu)圖如下:該結(jié)構(gòu)與普通的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相似,但是在隱含層,也就是倒數(shù)第二層,與Convolutional layer 4和Max-pooling layer3相連,鑒于卷積神經(jīng)網(wǎng)絡(luò)層數(shù)越高視野域越大的特性,這樣的連接方式可以既考慮局部的特征,又考慮全局的特征。2.2 DeepID實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)中,人臉圖片的預(yù)處理方式,也就是切分方式的樣例如下:在DeepID的實(shí)驗(yàn)過程中,使用的外部數(shù)據(jù)集為CelebFaces+,有10177人,202599張圖片;8700人訓(xùn)練DeepID,1477人訓(xùn)練Joint Bayesian分類器。切分的patch(也就是上圖這樣的數(shù)據(jù)
6、)數(shù)目為100,使用了五種不同的scale。每張圖片最后形成的向量長度為32000,使用PCA降維到150。如此,達(dá)到97.20的效果。使用某種Transfer Learning的算法后,達(dá)到97.45%的最終效果。2.3 實(shí)驗(yàn)結(jié)論 使用multi-scale patches的convnet比只使用一個(gè)只有整張人臉的patch的效果要好。 DeepID自身的分類錯(cuò)誤率在40%到60%之間震蕩,雖然較高,但DeepID是用來學(xué)特征的,并不需要要關(guān)注自身分類錯(cuò)誤率。 使用DeepID神經(jīng)網(wǎng)絡(luò)的最后一層softmax層作為特征表示,效果很差。 隨著DeepID的訓(xùn)練集人數(shù)的增長,DeepID本身的分
7、類正確率和LFW的驗(yàn)證正確率都在增加。這就是DeepID第一代。3 DeepID2DeepID2相對(duì)于DeepID有了較大的提高。其主要原因在于在DeepID的基礎(chǔ)上添加了驗(yàn)證信號(hào)。具體來說,原本的卷積神經(jīng)網(wǎng)絡(luò)最后一層softmax使用的是Logistic Regression作為最終的目標(biāo)函數(shù),也就是識(shí)別信號(hào);但在DeepID2中,目標(biāo)函數(shù)上添加了驗(yàn)證信號(hào),兩個(gè)信號(hào)使用加權(quán)的方式進(jìn)行了組合。3.1 兩種信號(hào)及訓(xùn)練過程識(shí)別信號(hào)公式如下:驗(yàn)證信號(hào)公式如下:由于驗(yàn)證信號(hào)的計(jì)算需要兩個(gè)樣本,所以整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程也就發(fā)生了變化,之前是將全部數(shù)據(jù)切分為小的batch來進(jìn)行訓(xùn)練。現(xiàn)在則是每次迭代
8、時(shí)隨機(jī)抽取兩個(gè)樣本,然后進(jìn)行訓(xùn)練。訓(xùn)練過程如下:在訓(xùn)練過程中,lambda是驗(yàn)證信號(hào)的加權(quán)參數(shù)。M參數(shù)時(shí)動(dòng)態(tài)調(diào)整的,調(diào)整策略是使最近的訓(xùn)練樣本上的驗(yàn)證錯(cuò)誤率最低。3.2 實(shí)驗(yàn)設(shè)置首先使用SDM算法對(duì)每張人臉檢測出21個(gè)landmarks,然后根據(jù)這些landmarks,再加上位置、尺度、通道、水平翻轉(zhuǎn)等因素,每張人臉形成了400張patch,使用200個(gè)CNN對(duì)其進(jìn)行訓(xùn)練,水平翻轉(zhuǎn)形成的patch跟原始圖片放在一起進(jìn)行訓(xùn)練。這樣,就形成了400160維的向量。這樣形成的特征維數(shù)太高,所以要進(jìn)行特征選擇,不同于之前的DeepID直接采用PCA的方式,DeepID2先對(duì)patch進(jìn)行選取,使用前向
9、-后向貪心算法選取了25個(gè)最有效的patch,這樣就只有25160維向量,然后使用PCA進(jìn)行降維,降維后為180維,然后再輸入到聯(lián)合貝葉斯模型中進(jìn)行分類。DeepID2使用的外部數(shù)據(jù)集仍然是CelebFaces+,但先把CelebFaces+進(jìn)行了切分,切分成了CelebFaces+A(8192個(gè)人)和CelebFaces+B(1985個(gè)人)。首先,訓(xùn)練DeepID2,CelebFaces+A做訓(xùn)練集,此時(shí)CelebFaces+B做驗(yàn)證集;其次,CelebFaces+B切分為1485人和500人兩個(gè)部分,進(jìn)行特征選擇,選擇25個(gè)patch。最后在CelebFaces+B整個(gè)數(shù)據(jù)集上訓(xùn)練聯(lián)合貝葉
10、斯模型,然后在LFW上進(jìn)行測試。在上一段描述的基礎(chǔ)上,進(jìn)行了組合模型的加強(qiáng),即在選取特征時(shí)進(jìn)行了七次。第一次選效果最好的25個(gè)patch,第二次從剩余的patch中再選25個(gè),以此類推。然后將七個(gè)聯(lián)合貝葉斯模型使用SVM進(jìn)行融合。最終達(dá)到了99.15%的結(jié)果。其中,選取的25個(gè)patch如下:3.3 實(shí)驗(yàn)結(jié)論 對(duì)lambda進(jìn)行調(diào)整,也即對(duì)識(shí)別信號(hào)和驗(yàn)證信號(hào)進(jìn)行平衡,發(fā)現(xiàn)lambda在0.05的時(shí)候最好。使用LDA中計(jì)算類間方差和類內(nèi)方差的方法進(jìn)行計(jì)算。得到的結(jié)果如下:可以發(fā)現(xiàn),在lambda=0.05的時(shí)候,類間方差幾乎不變,類內(nèi)方差下降了很多。這樣就保證了類間區(qū)分性,而減少了類內(nèi)區(qū)分性。如
11、果lambda為無窮大,即只有驗(yàn)證信號(hào)時(shí),類間方差和類內(nèi)方差都變得很小,不利于最后的分類。 DeepID的訓(xùn)練集人數(shù)越多,最后的驗(yàn)證率越高。 對(duì)不同的驗(yàn)證信號(hào),包括L1,L2,cosin等分別進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)L2 Norm最好。4 DeepID2+DeepID2+有如下貢獻(xiàn),第一點(diǎn)是繼續(xù)更改了網(wǎng)絡(luò)結(jié)構(gòu);第二點(diǎn)是對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了大量的分析,發(fā)現(xiàn)了幾大特征,包括:+ 神經(jīng)單元的適度稀疏性,該性質(zhì)甚至可以保證即便經(jīng)過二值化后,仍然可以達(dá)到較好的識(shí)別效果;+ 高層的神經(jīng)單元對(duì)人比較敏感,即對(duì)同一個(gè)人的頭像來說,總有一些單元處于一直激活或者一直抑制的狀態(tài);+ DeepID2+的輸出對(duì)遮擋非常魯棒。4
12、.1 網(wǎng)絡(luò)結(jié)構(gòu)變化相比于DeepID2,DeepID2+做了如下三點(diǎn)修改: DeepID層從160維提高到512維。 訓(xùn)練集將CelebFaces+和WDRef數(shù)據(jù)集進(jìn)行了融合,共有12000人,290000張圖片。 將DeepID層不僅和第四層和第三層的max-pooling層連接,還連接了第一層和第二層的max-pooling層。最后的DeepID2+的網(wǎng)絡(luò)結(jié)構(gòu)如下:上圖中,ve表示監(jiān)督信號(hào)(即驗(yàn)證信號(hào)和識(shí)別信號(hào)的加權(quán)和)。FC-n表示第幾層的max-pooling。4.2 實(shí)驗(yàn)設(shè)置訓(xùn)練數(shù)據(jù)共有12000人,290000張圖像。其中2000人用于在訓(xùn)練DeepID2+時(shí)做驗(yàn)證集,以及訓(xùn)練聯(lián)
13、合貝葉斯模型。4.3 實(shí)驗(yàn)結(jié)論分別使用FC-n進(jìn)行實(shí)驗(yàn),比較的算法包括DeepID2+、只有從FC-4反向傳播下來進(jìn)行訓(xùn)練的模型、使用少量數(shù)據(jù)的、使用小的特征向量的模型。結(jié)果如下:DeepID2選取了25個(gè)patch,DeepID2+選取了同樣的25個(gè)patch,然后抽取的特征分別訓(xùn)練聯(lián)合貝葉斯模型,得到的結(jié)果是DeepID2+平均比DeepID2提高2%。4.4 適度稀疏與二值化DeepID2+有一個(gè)性質(zhì),即對(duì)每個(gè)人,最后的DeepID層都大概有半數(shù)的單元是激活的,半數(shù)的單元是抑制的。而不同的人,激活或抑制的單元是不同的?;诖诵再|(zhì)。使用閾值對(duì)最后輸出的512維向量進(jìn)行了二值化處理,發(fā)現(xiàn)效果
14、降低有限。二值化后會(huì)有好處,即通過計(jì)算漢明距離就可以進(jìn)行檢索了。然后精度保證的情況下,可以使人臉檢索變得速度更快,更接近實(shí)用場景。4.5 特征區(qū)分性存在某個(gè)神經(jīng)單元,只使用普通的閾值法,就能針對(duì)某個(gè)人得到97%的正確率。不同的神經(jīng)單元針對(duì)不同的人或不同的種族或不同的年齡都有很強(qiáng)的區(qū)分性。在這里,對(duì)每個(gè)單元的激活程度進(jìn)行由高到低排序,可以得到下圖所示:上圖只是其中一張圖示,還有針對(duì)種族、年齡等的激活分析。此處不贅述。但值得說的是,這種分析方法對(duì)我們很有啟發(fā)。卷積神經(jīng)網(wǎng)絡(luò)的輸出的含義是什么,很難解釋,通過這種方法,或許可以得到一些結(jié)論。4.6 遮擋魯棒性在訓(xùn)練數(shù)據(jù)中沒有遮擋數(shù)據(jù)的情況下,DeepI
15、D2+自動(dòng)就對(duì)遮擋有了很好的魯棒性。有兩種方式對(duì)人臉進(jìn)行多種尺度的遮擋,第一種是從下往上進(jìn)行遮擋,從10%-70%。第二種是不同大小的黑塊隨機(jī)放,黑塊的大小從1010到7070。結(jié)論是遮擋在20%以內(nèi),塊大小在30#30以下,DeepID2+的輸出的向量的驗(yàn)證正確率幾乎不變。5 總結(jié)至此,DeepID的三代進(jìn)化史就講完了。簡單的說一下我的感受。首先是卷積神經(jīng)網(wǎng)絡(luò)的作用,雖說之前聽說過卷積神經(jīng)網(wǎng)絡(luò)既可以分類,也可以學(xué)習(xí)特征,但I(xiàn)mageNet上的卷積神經(jīng)網(wǎng)絡(luò)都是分類的,這次終于見到不關(guān)注分類錯(cuò)誤率而關(guān)注特征的卷積神經(jīng)網(wǎng)絡(luò)。其次,卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)方式,無非如下幾種:增大網(wǎng)絡(luò)深度和寬度,增加數(shù)據(jù),
16、將網(wǎng)絡(luò)隱含層連接到前面幾層來,添加其他的信號(hào)。再次,也是最重要的,就是DeepID在發(fā)展過程中對(duì)輸出向量的分析,尤其是DeepID2+,神經(jīng)網(wǎng)絡(luò)的各個(gè)單元一直是無法解釋的,但這次作者不僅試圖去發(fā)現(xiàn)規(guī)律,還基于規(guī)律做出了一些改動(dòng),比如二值化。最后,卷積神經(jīng)網(wǎng)絡(luò)的魯棒性真的很厲害。6 參考文獻(xiàn) 1 Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classesC/Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 1891-1898. 2 Sun Y, Chen Y, Wang X, et al. Deep learning fac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 泉州復(fù)工復(fù)產(chǎn)活動(dòng)方案
- 武都區(qū)文聯(lián)活動(dòng)方案
- 模板美容活動(dòng)策劃方案
- 民調(diào)宣傳活動(dòng)方案
- 梅山武術(shù)進(jìn)校園活動(dòng)方案
- 氣球守夜活動(dòng)方案
- 檳榔特價(jià)活動(dòng)方案
- 江湖俱樂部活動(dòng)方案
- 武漢公司春游活動(dòng)方案
- 母子工程活動(dòng)方案
- 2024年03月廣東省韶關(guān)市法院2024年招考31名勞動(dòng)合同制審判輔助人員筆試歷年(2016-2023年)真題薈萃帶答案解析
- 師承指導(dǎo)老師臨床經(jīng)驗(yàn)總結(jié)
- 拋光簡介介紹
- 《客戶維護(hù)技巧》課件
- 急診科的質(zhì)量管理與持續(xù)改進(jìn)
- 小升初數(shù)學(xué)銜接講座
- 二型呼吸衰竭病人護(hù)理查房課件
- 腫瘤康復(fù)項(xiàng)目創(chuàng)業(yè)計(jì)劃書
- 內(nèi)校記錄完整
- 某藥業(yè)集團(tuán)產(chǎn)品說明書:加替沙星注射液
評(píng)論
0/150
提交評(píng)論