人臉?biāo)惴≧etinaFace論文精讀_第1頁(yè)
人臉?biāo)惴≧etinaFace論文精讀_第2頁(yè)
人臉?biāo)惴≧etinaFace論文精讀_第3頁(yè)
人臉?biāo)惴≧etinaFace論文精讀_第4頁(yè)
人臉?biāo)惴≧etinaFace論文精讀_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、RetinaFace的主要貢獻(xiàn)摘要盡管在不受控制的人臉檢測(cè)方面已取得了長(zhǎng)足的進(jìn)步,但是在wilder數(shù)據(jù)集進(jìn)行準(zhǔn)確有效的面部定位仍然是一個(gè)公開的挑戰(zhàn)。本文提出了 一種 魯棒的single stage人臉檢測(cè)器,名為 RetinaFace ,它利用 額外監(jiān)督(extra-supervised )和自監(jiān)督(self-supervised )結(jié)合的多任務(wù)學(xué)習(xí) (multi-task learning ),對(duì)不同尺寸的人臉進(jìn)行像素級(jí)定位。具體來(lái) 說(shuō),我們?cè)谝韵挛鍌€(gè)方面做出了貢獻(xiàn):(1)我們?cè)?WILDER FAC嗷據(jù)集中手工標(biāo)注了5個(gè)人臉關(guān)鍵點(diǎn)(Landmark),并在這個(gè)額外的監(jiān)督信號(hào)的幫助下,觀察

2、到在hard face檢測(cè)的顯著改善。(2)進(jìn)一步添加自監(jiān)督網(wǎng)絡(luò)解碼器( mesh decoder ) 分支,與已有的監(jiān)督分支并行預(yù)測(cè)像素級(jí)的3D形狀的人臉信息。(3)在WIDER FACE勺 hard 級(jí)別的測(cè)試集中,RetinaFace 超出 the state of theart 平均精度(AP) 1.1% (達(dá)至I AP=91.4%) 。 ( 4)在IJB-C測(cè)試集中, RetinaFace 使state of the art 方法(Arcface )在人臉識(shí)別中的結(jié)果 得到提升(FAR=1e6, TAR=85.59%) 。 ( 5)采用輕量級(jí)的 backbone 網(wǎng) 絡(luò),Retina

3、Face能在單個(gè)CPU上實(shí)時(shí)運(yùn)行VGA分辨率的圖像。FAR(False Accept Rate)表示錯(cuò)誤接受的比例TAR(True Accept Rate) 表示正確接受的比例 VGA分辨率320*240 ,目前主要應(yīng)用于手機(jī)及便攜播放器上1、Introduction人臉自動(dòng)定位對(duì)許多應(yīng)用而言都是人臉圖像分析的前提步驟,例如人 臉屬性分析(比如表情,年齡)和人臉識(shí)別。人臉定位的狹義定義可以參 考傳統(tǒng)的人臉檢測(cè),其目的在沒(méi)有任何尺度和位置先驗(yàn)的條件估計(jì)人臉邊 界框。然而,本文提出的人臉定位的廣義定義包括人臉檢測(cè)、人臉對(duì)齊、 像素化人臉解析(pixel-wise face parsing )和三維

4、密集對(duì)應(yīng)回歸( 3D dense correspondence regression )。 這種密集的人臉定位為所有不同的 尺度提供了精確的人臉位置信息。受到一般目標(biāo)檢測(cè)方法的啟發(fā),即融合了深度學(xué)習(xí)的最新進(jìn)展,人臉檢 測(cè)最近取得了顯著進(jìn)展。與一般的目標(biāo)檢測(cè)不同,人臉檢測(cè)具有較小的比 例變化(從1:1到1:1.5),但更大的尺度變化(從幾個(gè)像素到數(shù)千像素)。目前 most state-of-the-art的方法集中于 single-stage 設(shè)計(jì),該設(shè)計(jì)餐'集采樣人臉在特征金子塔上的位置和尺度,與two-stage方法相比,表現(xiàn)出良好的性能和更快的速度。在此基礎(chǔ)上,我們改進(jìn)了 sing

5、le-stage人臉檢測(cè)框架,并利用強(qiáng)監(jiān)督和自監(jiān)督信號(hào)的多任務(wù)損失,提出了一種most state-of-the-art的密集人臉定位方法。我們的想法如圖1所示。L ,力立I Mcial Id nd murk retrcsioni.J 一T 斌 *7X(jVr 1tLJirfinnSdvuprniiniFigure 1. The proposed single-stage pixel-wise face localisation method employs extrj-supervised and self-supervised inulli-lak learning in parallel

6、 wiili (he existing box classification and regression brunchesi Each positive anchor outputs (I) a face score, (2 】a face box, (3) five facial landmarks, and (4) dense 3D lace eriices projected on the imaee plane.通常,人臉檢測(cè)訓(xùn)練過(guò)程包含分類和框回歸損失。chen等人觀察到對(duì)齊人臉能為人臉?lè)诸愄峁└玫奶卣鳎ㄗh在聯(lián)合級(jí)聯(lián)框架中結(jié)合人臉檢 測(cè)和對(duì)齊。由此啟發(fā),MTCN恃口 STN同時(shí)

7、檢測(cè)人臉和五個(gè)人臉landmark 。由于訓(xùn)練數(shù)據(jù)的限制,JDA、MTCNN口 STN還沒(méi)有驗(yàn)證微小的人臉檢測(cè)是否可以從額外的五個(gè)人臉Landmark的監(jiān)督中獲益。我們?cè)诒疚闹兴卮鸬膯?wèn)題之一是,能否利用由5個(gè)人臉關(guān)鍵點(diǎn)構(gòu)成的額外監(jiān)督信號(hào),在 JWIDER FACE勺hard測(cè)試集上推進(jìn)目前最好的性能(90.3%)。在Mask R-CNN中,通過(guò)添加一個(gè)用于預(yù)測(cè)目標(biāo)Mask的分支,與現(xiàn)有的用于邊界框識(shí)別和回歸的分支并行,顯著提高了檢測(cè)性能。這證實(shí)了密集 的像素級(jí)標(biāo)注也有助于改進(jìn)檢測(cè)。遺憾的是,對(duì)于具有挑戰(zhàn)性的人臉數(shù)據(jù) 集WIDER FACE無(wú)法進(jìn)行密集的人臉標(biāo)注(以更多的Landmark或語(yǔ)

8、義分割)。由于有監(jiān)督的信號(hào)不易獲得,問(wèn)題是我們能否應(yīng)用無(wú)監(jiān)督的方法進(jìn) 一步提高人臉檢測(cè)。在FAN中,提出了一種 anchor-level注意力圖(attention map )來(lái)改進(jìn)遮擋人臉檢測(cè)。然而,所提出的注意力圖相當(dāng)粗糙,不包含語(yǔ)義信息。近年來(lái),自監(jiān)督三維形態(tài)模型在wilder實(shí)現(xiàn)了很有前景的三維人臉建模。特別是Mesh decoder利用節(jié)點(diǎn)形狀和紋理上的圖卷積實(shí)現(xiàn)了超實(shí)時(shí) 速度。然而,應(yīng)用 mesh decoder到single-stage 檢測(cè)的主要挑戰(zhàn)是: (1)相機(jī)參數(shù)難以準(zhǔn)確去地估計(jì),(2)聯(lián)合潛在形狀和紋理表示是從單個(gè)特征向量(特征金字塔上的1*1 Conv )而不是 Ro

9、I池化的特征預(yù)測(cè),這意味著特征轉(zhuǎn)換的風(fēng)險(xiǎn)。本文采與現(xiàn)有監(jiān)督分支并行的用網(wǎng)格解碼器(mesh decoder )通過(guò)自監(jiān)督學(xué)習(xí)預(yù)測(cè)像素級(jí)的三維人臉形狀。 綜上所述,我們的主要貢獻(xiàn)如下:?在single-stage設(shè)計(jì)的基礎(chǔ)上,提出了一種新的基于像素級(jí)的人臉定位方法RetinaFace,該方法采用多任務(wù)學(xué)習(xí)策略,同時(shí)預(yù)測(cè)人臉評(píng)分、人臉 框、五個(gè)人臉關(guān)鍵點(diǎn)以及每個(gè)人臉像素的三維位置和對(duì)應(yīng)關(guān)系。? 在 WILDER FACE hard 子集上,RetinaFace 的性能比目前 the state of the art 的 two-stage 方法(ISRN)的 AP高出 1.1% (AP 等于 91

10、.4%)。? 在IJB-C 數(shù)據(jù)集上,RetinaFace 有助于提高 ArcFace的驗(yàn)證精度(FAR=1e- 6時(shí)TAR等于89:59%)。這表明更好的人臉定位可以顯著提高人臉識(shí)別。? 通過(guò)使用輕量級(jí) backbone網(wǎng)絡(luò),RetinaFace可以在VGA分辨率的圖片上 實(shí)時(shí)運(yùn)行?已經(jīng)發(fā)布了額外的注釋和代碼,以方便將來(lái)的研究2、Related Work圖像金字塔vs .特征金字塔:滑動(dòng)窗口范例,其中分類器應(yīng)用于密集的圖 像網(wǎng)格,可以追溯到過(guò)去的幾十年。Viola-Jones是里程碑式工作,它探索了級(jí)聯(lián)結(jié)構(gòu),實(shí)時(shí)有效地從圖像金字塔中剔除假人臉區(qū)域,使得這種尺度不變的 人臉檢測(cè)框架被廣泛采用。

11、盡管圖像金字塔上的滑動(dòng)窗口是主要的檢測(cè)范式, 隨著特征金字塔的出現(xiàn),多尺度特征圖上的滑動(dòng)anchor迅速主導(dǎo)了人臉檢測(cè)。Two-stage vs single-stage :目前的人臉檢測(cè)方法繼承了一般目標(biāo)檢測(cè)方法 的一些成果,可分為兩類:Two-stage方法(如Faster R-CNN)和single-stageTwo-stage(如 SS陰口 RetinaNet) 。 Two-stage 方法采用了一種具有高定位 精度的“ proposal與細(xì)化”機(jī)制。相比之下,single-stage 方法密集采樣人臉 位置和尺度,導(dǎo)致訓(xùn)練過(guò)程中 positive 和negative樣本極不平衡。為了

12、解決 這種不平衡,廣泛采用了采樣 ( Training region-based object detectors with online hard example mining ) 和重力口權(quán)(re-weighting) 方法。與 two- stage 方法相比,single-stage 方法效率更高,召回率更高,但存在假陽(yáng)性率 更高和定位準(zhǔn)確性降低的風(fēng)險(xiǎn)。Context Modelling :提升模型的上下文模塊推理能力以捕獲微小人臉,SSHff口 PyramidBox在特征金字塔上用context modules擴(kuò)大歐幾里彳惠網(wǎng)格的感 受野。為了提高CNNs勺非剛性變換建模能力,可變形卷

13、積網(wǎng)絡(luò)(deformable convolution network, DCN)采用了一種新的可變形層對(duì)幾何變換進(jìn)行建模。WILDER FACE 201能軍方案表明,對(duì)于提高人臉檢測(cè)的性能而言,剛性 (expansion)和非剛性(deformation)上下文建模是互補(bǔ)和正交的(orthogonal )。C*THrigufc 2- AfigErvicvi aHhehk imh %mhit jippLuiL KtiiinajaKC 幅 deMjpncd Zged m iac feaiiwc 用vwuds囑iih Mik國(guó)rdEiLFnicfi 11aHhIiiIe Folhwiiiit Bhc

14、 oiiicE rhiMkje%,喟ccMkiMniu -i Mullkkg£ Im,hv。寓ha* hot多任務(wù)學(xué)習(xí):在目前廣泛使用的方案是結(jié)合人臉檢測(cè)和人臉對(duì)齊,對(duì)齊后的人臉形狀為人臉?lè)诸愄峁┝烁玫奶卣?。?Mask R-CNN中,通過(guò)添加一個(gè)并行 分支來(lái)預(yù)測(cè)目標(biāo) Mask,顯著提高了檢測(cè)性能。Densepose采用Mask-RCNN勺結(jié) 構(gòu),在每個(gè)選定區(qū)域內(nèi)獲得密集的 part標(biāo)簽和坐標(biāo)。然而,20,1中的dense 回歸分支是通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練的。止匕外,dense分支是一個(gè)小的FCNE用于每個(gè) RoI預(yù)測(cè)像素到像素的密集映射。3、RetinaFace3.1. Multi-t

15、ask Loss對(duì)于任何訓(xùn)練的 anchor i ,我最小化下面的多任務(wù)的lossL Aoi *(?*+/;) + 入 ij? L 砧式 “+ 修)+ -3p;卜(1)人臉?lè)诸恖oss Lcls(pi,pi*) ,這里的pi是anchor 為人臉的預(yù)測(cè)概 率,對(duì)于 pi * 是 1 是 positive anchor , 0 代表為 negative anchor 。分類 loss Lcls 是softmax loss 在二分類的情況(人臉/非人臉)。(2)人臉框回歸 loss , Lbox(ti,ti*) ,這里的 ti=tx,ty,tw,th , ti * =tx*,ty *,tw * ,

16、th *分另U代表 positive anchor(ground-truth box )的坐標(biāo)。我們按照16 高)進(jìn)行歸一化,使用 Lbox(ti,ti *)=R(ti-ti *) function (smooth-L1)(參考文獻(xiàn) 16 中定義)(3)人臉的 landmark 回歸 loss Lpts(li,li *)x5,l y5,li *=l x1 *,l y1 *,l x5 *,l y5 *相關(guān)的預(yù)測(cè)框和真實(shí)框?qū)貧w框目標(biāo)(中心坐標(biāo),寬和,這里 R 是 Robust loss,這里 li=l x1,l y1,l代表預(yù)測(cè)的五個(gè)人臉關(guān)鍵點(diǎn)和基準(zhǔn)點(diǎn)(ground-truth )。五個(gè)人臉關(guān)鍵

17、點(diǎn)的回歸也采用了基于anchor中心的目標(biāo)歸一化。(4) Dense回歸loss Lpixel(參考方程3)。loss調(diào)節(jié)參數(shù) 入1-入3設(shè)置為0.25,0.1和0.01 ,這意味著在監(jiān)督信號(hào)中,我們?cè)黾恿诉吔缈蚝完P(guān)鍵點(diǎn)定 位的重要性。3.2. Dense Regression BranchMesh Decoder:我們直接使用70,40中的網(wǎng)格解碼器(mesh convolution and mesh up-sampling),這是一種基于快速局部譜濾波的圖卷積方法。為了 實(shí)現(xiàn)進(jìn)一步的加速,我們還使用了類似于70中方法的聯(lián)合形狀和紋理解碼 器,而不是只解碼形狀的。下面我們將簡(jiǎn)要解釋圖卷積的概

18、念,并概述為什么它們可以用于快速解 碼。如圖3(a)所示,二維卷積運(yùn)算是歐幾里德網(wǎng)格感受野內(nèi)的“核加權(quán)鄰域加 和”。同樣,圖卷積也采用了圖 3(b)所示的相同概念。然而,鄰域距離是通過(guò)計(jì)算連接兩個(gè)頂點(diǎn)的最小邊數(shù)來(lái)計(jì)算的。我們遵循70來(lái)定義一個(gè)著色的臉部網(wǎng)格(mesh) G=(v , e),其中vCR A(n*6)是一組包含聯(lián)合形狀和紋理信息的人臉頂點(diǎn)集合,£ 0,1«n * n)是一個(gè)稀疏鄰接矩陣,它編碼了頂點(diǎn)之間的連接狀態(tài)。圖拉普拉斯行列式定義為L(zhǎng) = D -£ R A(n * n),D R A(n * n)其中是一一個(gè)對(duì)角矩陣。仙,2D Ct3ravH)lui

19、x)ih(bi flraph CcmoluLtcnFigure 3. 口J 3D Convolution h kernel-weighted neight>ftur 弘im w ilhi i the Encl idean 黑id rtuepiiyc field. Each cuim ulutional layer 汕,Ke x A'rr»phir x ( 'fin x ('htnt nt L uf pa- 3口iciafq. (b) Graph convolution & aim in rhe form of kernel - weighted

20、ncighbouj suni, bui the ux咯hbour diLaiKt is calculaied on rhe graph by cixinring the minimum numher of edgts coni屹ct- ingtwx) vertices_ Euuh ccoluhotm layer hus R x ('bannt !rti 乂 t,n:i piraineiers mid the <.'liebysliev oefJicienls 乩 ) 三R ' arc truncated at order i.遵循10,40,70 ,圖卷積的內(nèi)核版

21、可以表示為K項(xiàng)的遞歸切比雪夫(Chebyshev)多項(xiàng)式網(wǎng) iy =阪(工)=£ 優(yōu) %£)/(2)k=a這里9 RAK是一個(gè)切比雪夫系數(shù)向量,TkC RA(n * n) 是在縮放的拉普拉斯中(L)中評(píng)估K項(xiàng)的切比雪夫多項(xiàng)式。女=Tk(L).r G Rn定義:循環(huán)計(jì)算 2/1:卜_.1一工 k-2其中。",1 一 £,'o整個(gè)濾波操作非常有效,包括 K個(gè)稀疏矩陣-向量乘法和一個(gè)密集矩陣 -向量乘注”=以(£)=方。L0何費(fèi)的前染墨:花鬧1 了器狀和致理等歌PST e R128日 我們利用高姓可做三瓶琳S的 ma. 口空Dp .抄先刊 雄

22、陽(yáng)代干而匕 相* »J JPcam =%,飛,.心,. fc卸相機(jī)位置、桁機(jī)鎏視ft®南耐。教Pill =df . !小二f.門,4加* /%f)a 1 ba 唧點(diǎn)光ift的近風(fēng) .色值及卦里尤的.色):Dense Regression Less: 口 役們用到泡染的2口人應(yīng) 7?(。,,” .PCll m ,; );.我/使E A 卜南的逐像索的比較海染后的人敢與原始2口入齡的差異:1" J,£出" N _ .: 1四戶十長(zhǎng)”“打尸叫1.-|./|,* J 小其中W和H分別表示anchor crop I*i,j的寬度和高度。4、Experim

23、ents4.1. DatasetWIDER FACE據(jù)集包括32203幅圖像和393703個(gè)人臉邊界框,在尺度、 姿態(tài)、表情、遮擋和光照方面具有高度差異性。通過(guò)隨機(jī)抽取61個(gè)場(chǎng)景類別,將WIDER FAC數(shù)據(jù)集分為訓(xùn)練(40%)、驗(yàn)證(10%)和測(cè)試(50%)子集?;?EdgeBox的檢測(cè)率,通過(guò)逐步合并困難樣本來(lái)定義三個(gè)難度等級(jí)(Easy、Medium和 Hard)。額外的標(biāo)注:見圖4和表1,我們定義五個(gè)級(jí)別的臉圖像質(zhì)量(根據(jù)在人臉 上的難度去標(biāo)注Landmark)并在WIDER FACE訓(xùn)練和驗(yàn)證子集上標(biāo)注五個(gè)人臉 Landmark(即眼中心,鼻子和嘴角)。我們總共在訓(xùn)練集上標(biāo)注了 84

24、.6k個(gè)人臉, 在驗(yàn)證集上標(biāo)注了 18.5k個(gè)人臉。Fi$Lire 4. idJ <Aira jnuoLKiuns -of five labial kiiHknaik% on racesrtiat can be annotcitcil (we call them +bannoCUahle't frm itit WIDER FACE (mining and all J alien s<iis.LevelRtce NumberCriteiion1F4 J 27in<lih;puUiblc 68 lajjdumrks12,636annotatabk 68 landnuirk

25、s | |358,14<)indispniabLc 5 lundmarkg450giinnoriiiuble 5 landrmuks_5以 <用5dhlk里uish by coritcxtTjhle J. Five levekof face image quality In the indisputable category a human con.科 ilhoul a lot of effort, local e the Lndmarks. fn the aiinatLitLib le cace<nv iiiidin an approx i ma to loc&ti

26、un requires sonic eilon.4.2. Implementation details特征金字塔:RetinaFace采用從P2到P6的特征金字塔層,其中P2到P5 通過(guò)使用自頂向下和橫向連接(如28,29)計(jì)算相應(yīng)的ResNet殘差階段(C2 到C5)的輸出。P6是在C5處通過(guò)一個(gè)步長(zhǎng)2的3x3卷積計(jì)算彳#到到。C1-C5是 在ImageNet-11k數(shù)據(jù)集上預(yù)先訓(xùn)練好的 ResNet-15221分類網(wǎng)絡(luò),P6是用“Xavier ”方法17隨機(jī)初始化的。上下文模塊:受SSH 36和PyramidBox 49啟發(fā),我們還在五個(gè)特征 金字塔層應(yīng)用單獨(dú)的上下文模塊來(lái)提高感受野并增加

27、剛性上下文建模的能力。從2018年WIDER Face冠軍方案中受到的啟發(fā),我們也在橫向連接和使用可變 形卷積網(wǎng)絡(luò)(DCN的上下文模塊中替換所有 3x3的卷積,進(jìn)一步加強(qiáng)非剛性 的上下文建模能力。Loss Head: *對(duì)于 negative acnhors , 只應(yīng)用分類損失。對(duì)于 positiveanchors ,計(jì)算了多任務(wù)損失。我們使用 一個(gè)跨越不同特征圖,n2,6 的共享 loss head (1x1 conv);對(duì)于網(wǎng)格解碼器(mesh decoder),我們采用了預(yù)訓(xùn)練模型,這是一個(gè)很小的計(jì)算開銷,允許有效的推理。Anchor設(shè)置:如表2所示,我們?cè)谔匦越鹱炙?從P2到P6)上

28、使用特定于尺 度的anchor,類似56。在這里,P2被設(shè)計(jì)成通過(guò)平鋪小anchor來(lái)捕捉微小 的人臉,這樣做的代價(jià)是花費(fèi)更多的計(jì)算時(shí)間和更多的誤報(bào)風(fēng)險(xiǎn)。我們將 scale step 設(shè)置為2A(1/3) , aspect ratio 設(shè)置為1:1。輸入圖像大小為 640*640 , anchors 可以 覆蓋 從16x16到406x406的特征金字塔層??偣灿?102300 個(gè) anchors ,其中 75豚 自 P2。Feature PgitddSit rideAnchor心 tim x 1G0 x 23ft)416, 20.16. 25.40ft (80 x80x 256)g32,40,

29、32, 50,80Pi (10 x Lfix 256)1664. 80.63t 101.59修2。x 20 256)32128, 161,26. 203.19(1() x IGx 256)64256, 322.54,40637Table 二 The details of leal uro pyranndT stride size. acicW in Keii- naFace. For a 640 x 640 input image, there are 102300anchors in 134. lliuI 75% 5 ihoe niiuhu& dre liled un3在訓(xùn)練過(guò)程中,

30、當(dāng)IoU大于0.5時(shí),anchors匹配到ground-truth box , 當(dāng)IoU小于0.3時(shí)匹配到background 0不匹配的anchor在訓(xùn)練中被忽略。由 于大多數(shù)anchor(> 99%)在匹配步驟后為負(fù),我們采用標(biāo)準(zhǔn) OHE碌緩解正、負(fù) 訓(xùn)練樣本之間的顯著不平衡。更具體地說(shuō),我們根據(jù)損失值對(duì)負(fù)錨進(jìn)行排序, 并選擇損失最大的anchors ,這樣負(fù)樣本和正樣本之間的比例至少為3:1。數(shù)據(jù)增強(qiáng):由于 WIDER FACE”練集中大約 有20%的小人臉,我們 遵循68,49 )并從原始圖像隨機(jī)crop方形patches并調(diào)整這些patches到640*640產(chǎn)生更大的訓(xùn)練人臉

31、。更具體地說(shuō),在原始圖像的短邊0.3,1之間隨機(jī)裁剪正方形patches。對(duì)于crop邊界上的人臉,如果人臉框的中心在 crop patches內(nèi),則保持人臉框的重疊部分。除了隨機(jī)裁剪,我們還通過(guò) 0.5概率的隨機(jī)水平翻轉(zhuǎn)和光度顏色蒸儲(chǔ)來(lái)增加訓(xùn)練數(shù)據(jù)68。訓(xùn)練細(xì)節(jié):我們?cè)缢膫€(gè) NVIDIA Tesla P40 (24GB) GPUs上使用SGD優(yōu)化 器(momentum為 0.9,權(quán)重衰減為 0.0005, batch size 為 8*4 )訓(xùn)練 RetinaFace 。學(xué)習(xí)速率從10e-3,在5個(gè)epoch后上升到10e-2,然后在第55 和第68個(gè)epochs時(shí)除以10。訓(xùn)練過(guò)程在第80

32、個(gè)epochs結(jié)束。測(cè)試細(xì)節(jié):對(duì)于 WIDER FAC的測(cè)試,我們遵循36,68的標(biāo)準(zhǔn)做法,采用 flip 以及多尺度(圖像的短邊在500, 800, 1100, 1400, 1700) 策略。使用 IoU閾值為0.4 ,將Box voting15 應(yīng)用于預(yù)測(cè)的人臉 boxes的并集。4.3. Ablation Study省略4.4. Face box AccuracyRetinaFace與其他24個(gè)stage-of-the-art的人臉檢測(cè)算法對(duì)比。RetinaFace在所有的驗(yàn)證集和測(cè)試集都達(dá)到的最好的AP,在驗(yàn)證集上的AP是96.9% (easy) , 96.1% (Medium)和 9

33、1.8% (hard)。在測(cè)試集的 AP是 96.3%,95.6%,91.4%.相比與當(dāng)前最好的方法(Improved selective refinement network for face detection)在困難的數(shù)據(jù)集(包含大量的小人臉)的 AP對(duì)比(91.4% vs 90.3% )fadlolfd) Use:制 *哂:M戰(zhàn)Em巾 TfM:: llanl5, Pnziximrmll;ihr WIDER FAjCEJird id在圖6中,我們展示了在一張密集人臉自拍的定性結(jié)果。RetinaFace在報(bào)告的1,151張面孔中成功找到約900張臉(閾值為0.5)。除了精確的邊界框 外,在

34、姿勢(shì),遮擋和分辨率的變化下利用RetinaFace的預(yù)測(cè)五個(gè)人臉關(guān)鍵點(diǎn)也是非常強(qiáng)大。即使在遮擋嚴(yán)重的條件下出現(xiàn)密集面部定位失敗的情況下,但在一些清晰 而大的面部上的密集回歸結(jié)果還是不錯(cuò)的,甚至對(duì)表情變化大也能檢測(cè)出來(lái)。4.5. Five Facial Landmark Accuracyfigure ft KeiindFicccwi hixl mmHind«(>J)<mh at me r卬oneMi J151 people.時(shí) i2King 血弭umgoBM* pn甲med jotmcXTri-MJp<rvied ind ylf-.uKm”國(guó) ui;idi:i加k k

35、ummii. Daectix etinftMne己 u K iIk colour W m ihr riht DtTiscmjhks ,即u ilnwn in hlur. P歸,* 加rnn in hi cheb-L the dtlLileiJ tieltvcMp, iili'j'nriaeriC anti ilenere>si<-n rt-%ylMUi l:ny 1iK.eRetinaFace 與MTCNbfc五個(gè)人臉關(guān)鍵點(diǎn)定位上的定量比較。|1 it ,/, j|NMt noruliftd by 修第泌. b(u sift (a) NME on AFLW(b) C

36、ED on WIDER FACEFigure 7. Qualitative comparison between MTCNN and Red- iiaFace on five facial landinark l()calisation. (a) AFLW (b) WIDER FACE validation set.4.6. Dense Facial Landmark Accuracy我們?cè)u(píng)估了 AFLW2000-3嗽據(jù)集上密集人臉關(guān)鍵點(diǎn)定位的準(zhǔn)確性75,該數(shù)據(jù) 集考慮(1)具有2D投影坐標(biāo)的68個(gè)關(guān)鍵點(diǎn)和(2)具有3D坐標(biāo)的所有關(guān)鍵 點(diǎn)。F 二&0EO=8£ZSM皿A

37、71;ti nufac* 5|= T.l 肆MUH1 3*???甲b:t:urnU-FAJN: 1471W: 6JH0» WdFA:t.n fliirtinBJF k b M £fita,h iL43C4 ZZm. hM>lpto|: M2SMJPR««t 4.40T4 UkDder.UME ncxmaizeby bQUV'dmg ba if | XMMEdby oundrig bcu size Ilai bK 2D Landmarks(bl All 3D Landmarks Result Analysis (Upper: Mesh Dec

38、ixler Lower: RetinaFace) igure 8 CED curves on AFLW2000-3D, Evaluation is performed on (a) 68 landmarks wiih the 2D coordinates and (b) all landmarks with 3D coordinates. In (c), we compare he dense regression results from RctinaFacc and Mesh Decoder . RetinaFacc can easily handle faces with pose va

39、riations but has difficulty to predict accurate dense correspondence under complex scenarios.4.7. Face Recognition Accuracy表4,我們對(duì)比了廣泛使用的 MTCN和推薦的RetinaFace上人臉檢測(cè)和對(duì) 齊對(duì)深度人臉識(shí)別(即ArcFace)的影響。LFW CFP-FP AgeDB-3。99.8398379815-99.8699.4998.60這表明了(1)人臉檢測(cè)和對(duì)準(zhǔn)會(huì)嚴(yán)重影響人臉識(shí)別性能,并且(2)對(duì)于 人臉識(shí)別應(yīng)用,RetinaFace比MTCN限有更強(qiáng)的基準(zhǔn)。Met

40、hodsM I'C NN+ArcFace | I RetinaFace+ArcFacefable 4. Verilicaiion performance1%) of ditlerenl melhods on LFW. CFP-FP and AgeDB-30.在圖9中,我們?cè)诿總€(gè)圖例的末尾顯示了 IJB-C數(shù)據(jù)集上的ROC®線以及FAR = 1e-6的TAR我們采用兩種技巧(即翻轉(zhuǎn)測(cè)試和人臉檢測(cè)得分來(lái)權(quán)衡模板中的樣本),以逐步提高人臉識(shí)別的準(zhǔn)確性。100ROC on l15 C口白總-口。5口吐0.P2-0,90 0.H9 -0B6 0 B4 -0.02-IIQ.SO1010 -3RateFigure 9. ROC

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論