深度學(xué)習(xí)理論研究_第1頁(yè)
深度學(xué)習(xí)理論研究_第2頁(yè)
深度學(xué)習(xí)理論研究_第3頁(yè)
深度學(xué)習(xí)理論研究_第4頁(yè)
深度學(xué)習(xí)理論研究_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【王曉剛】深度學(xué)習(xí)在圖像識(shí)別中的研究進(jìn)展與展望標(biāo)簽:深度學(xué)習(xí)機(jī)器學(xué)習(xí)LinJM2015-06-0320:374728人閱讀評(píng)論(2)收藏舉報(bào)算法與理論研究(31)版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。目錄(?)[+]深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的最重要的突破之一。它在語(yǔ)音識(shí)別、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、圖像與視頻分析、多媒體等諸多領(lǐng)域都取得了巨大成功。本文將重點(diǎn)介紹深度學(xué)習(xí)在物體識(shí)別、物體檢測(cè)、視頻分析的最新研究進(jìn)展,并探討其發(fā)展趨勢(shì)。1.深度學(xué)習(xí)發(fā)展歷史的回顧現(xiàn)有的深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的歷史可追述到上世紀(jì)四十年代,曾經(jīng)在八九十年代流行。神經(jīng)網(wǎng)絡(luò)試圖通過(guò)模擬大腦認(rèn)知的機(jī)理,解決各種機(jī)器學(xué)習(xí)的問(wèn)題。1986年Rumelhart,Hinton和Williams在《自然》發(fā)表了著名的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)[1],直到今天仍被廣泛應(yīng)用。但是后來(lái)由于種種原因,大多數(shù)學(xué)者在相當(dāng)長(zhǎng)的一段的時(shí)間內(nèi)放棄了神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常發(fā)生過(guò)擬合問(wèn)題,即往往在訓(xùn)練集上準(zhǔn)確率很高,而在測(cè)試集上效果差。這部分歸因于當(dāng)時(shí)的訓(xùn)練數(shù)據(jù)集規(guī)模都較小。而且計(jì)算資源有限,即便是訓(xùn)練一個(gè)較小的網(wǎng)絡(luò)也需要很長(zhǎng)的時(shí)間??傮w而言,神經(jīng)網(wǎng)絡(luò)與其它模型相比并未在識(shí)別的準(zhǔn)確率上體現(xiàn)出明顯的優(yōu)勢(shì),而且難于訓(xùn)練。因此更多的學(xué)者開(kāi)始采用諸如支持向量機(jī)、Boosting、最近鄰等分類(lèi)器。這些分類(lèi)器可以用具有一個(gè)或兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模擬,因此被稱作淺層機(jī)器學(xué)習(xí)模型。它們不再模擬大腦的認(rèn)知機(jī)理;相反,針對(duì)不同的任務(wù)設(shè)計(jì)不同的系統(tǒng),并采用不同的手工設(shè)計(jì)的特征。例如語(yǔ)音識(shí)別采用高斯混合模型和隱馬爾可夫模型,物體識(shí)別采用SIFT特征,人臉識(shí)別采用LBP特征,行人檢測(cè)采用HOG特征。2006年,GeoffreyHinton提出了深度學(xué)習(xí)。之后深度學(xué)習(xí)在諸多領(lǐng)域取得了巨大成功,受到廣泛關(guān)注。神經(jīng)網(wǎng)絡(luò)能夠重新煥發(fā)青春的原因有幾個(gè)方面。首先是大數(shù)據(jù)的出現(xiàn)在很大程度上緩解了訓(xùn)練過(guò)擬合的問(wèn)題。例如ImageNet[2]訓(xùn)練集擁有上百萬(wàn)有標(biāo)注的圖像。計(jì)算機(jī)硬件的飛速發(fā)展提供了強(qiáng)大的計(jì)算能力,使得訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)成為可能。一片GPU可以集成上千個(gè)核。此外神經(jīng)網(wǎng)絡(luò)的模型設(shè)計(jì)和訓(xùn)練方法都取得了長(zhǎng)足的進(jìn)步。例如,為了改進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,學(xué)者提出了非監(jiān)督和逐層的預(yù)訓(xùn)練。它使得在利用反向傳播對(duì)網(wǎng)絡(luò)進(jìn)行全局優(yōu)化之前,網(wǎng)絡(luò)參數(shù)能達(dá)到一個(gè)好的起始點(diǎn),從而訓(xùn)練完成時(shí)能達(dá)到一個(gè)較好的局部極小點(diǎn)。深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的突破發(fā)生在2012年,Hinton的研究小組采用深度學(xué)習(xí)贏得了ImageNet[2]圖像分類(lèi)的比賽[3]。ImageNet是當(dāng)今計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的比賽之一。它的訓(xùn)練和測(cè)試樣本都來(lái)自于互聯(lián)網(wǎng)圖片。訓(xùn)練樣本超過(guò)百萬(wàn),任務(wù)是將測(cè)試樣本分成1000類(lèi)。自2009年,包括工業(yè)界在內(nèi)的很多計(jì)算機(jī)視覺(jué)小組都參加了每年一度的比賽,各個(gè)小組的方法逐漸趨同。在2012年的比賽中,排名2到4位的小組都采用的是傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法,手工設(shè)計(jì)的特征,他們準(zhǔn)確率的差別不超過(guò)1%。Hinton的研究小組是首次參加比賽,深度學(xué)習(xí)比第二名超出了10%以上。這個(gè)結(jié)果在計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生了極大的震動(dòng),掀起了深度學(xué)習(xí)的熱潮。計(jì)算機(jī)視覺(jué)領(lǐng)域另一個(gè)重要的挑戰(zhàn)是人臉識(shí)別。LabeledFacesintheWild(LFW)[4]是當(dāng)今最著名的人臉識(shí)別測(cè)試集,創(chuàng)建于2007年。在此之前,人臉識(shí)別測(cè)試集大多采集于實(shí)驗(yàn)室可控的條件下。LFW從互聯(lián)網(wǎng)收集了五千多個(gè)名人的人臉照片,用于評(píng)估人臉識(shí)別算法在非可控條件下的性能。這些照片往往具有復(fù)雜的光線、表情、姿態(tài)、年齡和遮擋等方面的變化。LFW的測(cè)試集包含了6000對(duì)人臉圖像。其中3000對(duì)是正樣本,每對(duì)的兩張圖像屬于同一個(gè)人;剩下3000對(duì)是負(fù)樣本,每對(duì)的兩張圖像屬于不同的人。隨機(jī)猜的準(zhǔn)確率是50%。有研究表明[5],如果只把不包括頭發(fā)在內(nèi)的人臉的中心區(qū)域給人看,人眼在LFW測(cè)試集上的識(shí)別率是97.53%。如果把整張圖像,包括背景和頭發(fā)給人看,人眼的識(shí)別率是99.15%。經(jīng)典的人臉識(shí)別算法Eigenface[6]在這個(gè)測(cè)試集上只有60%的識(shí)別率。在非深度學(xué)習(xí)的算法中,最好的識(shí)別率是96.33%[7]。目前深度學(xué)習(xí)可以達(dá)到99.47%的識(shí)別率[8]。在學(xué)術(shù)界收到廣泛關(guān)注的同時(shí),深度學(xué)習(xí)也在工業(yè)界產(chǎn)生了巨大的影響。在Hinton的科研小組贏得ImageNet比賽之后6個(gè)月,谷歌和百度發(fā)都布了新的基于圖像內(nèi)容的搜索引擎。他們沿用了Hinton在ImageNet競(jìng)賽中用的深度學(xué)習(xí)模型,應(yīng)用在各自的數(shù)據(jù)上,發(fā)現(xiàn)圖像搜索的準(zhǔn)確率得到了大幅度的提高。百度在2012年就成立了深度學(xué)習(xí)研究院,于2014年五月又在美國(guó)硅谷成立了新的深度學(xué)習(xí)實(shí)驗(yàn)室,聘請(qǐng)斯坦福著名教授吳恩達(dá)擔(dān)任首席科學(xué)家。Facebook于2013年12月在紐約成立了新的人工智能實(shí)驗(yàn)室,聘請(qǐng)深度學(xué)習(xí)領(lǐng)域的著名學(xué)者,卷積網(wǎng)路的發(fā)明人YannLeCun作為首席科學(xué)家。2014年1月,谷歌四億美金收購(gòu)了一家深度學(xué)習(xí)的創(chuàng)業(yè)公司,DeepMind。鑒于深度學(xué)習(xí)在學(xué)術(shù)和工業(yè)界的巨大影響力,2013年MITTechnologyReview將其列為世界十大技術(shù)突破之首。2.深度學(xué)習(xí)有何與眾不同?許多人會(huì)問(wèn),深度學(xué)習(xí)和其它機(jī)器學(xué)習(xí)方法相比有哪些關(guān)鍵的不同點(diǎn),它成功的秘密在哪里?我們下面將對(duì)這此從幾個(gè)方面作簡(jiǎn)要的闡述。2.1特征學(xué)習(xí)深度學(xué)習(xí)與傳統(tǒng)模式識(shí)別方法的最大不同在于它是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,而非采用手工設(shè)計(jì)的特征。好的特征可以極大提高模式識(shí)別系統(tǒng)的性能。在過(guò)去幾十年模式識(shí)別的各種應(yīng)用中,手工設(shè)計(jì)的特征處于同統(tǒng)治地位。它主要依靠設(shè)計(jì)者的先驗(yàn)知識(shí),很難利用大數(shù)據(jù)的優(yōu)勢(shì)。由于依賴手工調(diào)參數(shù),特征的設(shè)計(jì)中只允許出現(xiàn)少量的參數(shù)。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征的表示,其中可以包含成千上萬(wàn)的參數(shù)。手工設(shè)計(jì)出有效的特征是一個(gè)相當(dāng)漫長(zhǎng)的過(guò)程。回顧計(jì)算機(jī)視覺(jué)發(fā)展的歷史,往往需要五到十年才能出現(xiàn)一個(gè)受到廣泛認(rèn)可的好的特征。而深度學(xué)習(xí)可以針對(duì)新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)得到新的有效的特征表示。一個(gè)模式識(shí)別系統(tǒng)包括特征和分類(lèi)器兩個(gè)主要的組成部分,二者關(guān)系密切,而在傳統(tǒng)的方法中它們的優(yōu)化是分開(kāi)的。在神經(jīng)網(wǎng)絡(luò)的框架下,特征表示和分類(lèi)器是聯(lián)合優(yōu)化的,可以最大程度發(fā)揮二者聯(lián)合協(xié)作的性能。以2012年Hinton參加ImageNet比賽所采用的卷積網(wǎng)絡(luò)模型[9]為例,這是他們首次參加ImageNet圖像分類(lèi)比賽,因此沒(méi)有太多的先驗(yàn)知識(shí)。模型的特征表示包含了6千萬(wàn)個(gè)參數(shù),從上百萬(wàn)樣本中學(xué)習(xí)得到。令人驚訝的是,從ImageNet上學(xué)習(xí)得到的特征表示具有非常強(qiáng)的泛化能力,可以成功地應(yīng)用到其它的數(shù)據(jù)集和任務(wù),例如物體檢測(cè)、跟蹤和檢索等等。在計(jì)算機(jī)視覺(jué)領(lǐng)域另外一個(gè)著名的競(jìng)賽是PSACALVOC。但是它的訓(xùn)練集規(guī)模較小,不適合訓(xùn)練深度學(xué)習(xí)模型。有學(xué)者將ImageNet上學(xué)習(xí)得到的特征表示用于PSACALVOC上的物體檢測(cè),將檢測(cè)率提高了20%[10]。既然特征學(xué)習(xí)如此重要,什么是好的特征呢?一幅圖像中,各種復(fù)雜的因素往往以非線性的方式結(jié)合在一起。例如人臉圖像中就包含了身份、姿態(tài)、年齡、表情和光線等各種信息。深度學(xué)習(xí)的關(guān)鍵就是通過(guò)多層非線性映射將這些因素成功的分開(kāi),例如在深度模型的最后一個(gè)隱含層,不同的神經(jīng)元代表了不同的因素。如果將這個(gè)隱含層當(dāng)作特征表示,人臉識(shí)別、姿態(tài)估計(jì)、表情識(shí)別、年齡估計(jì)就會(huì)變得非常簡(jiǎn)單,因?yàn)楦鱾€(gè)因素之間變成了簡(jiǎn)單的線性關(guān)系,不再彼此干擾。2.2深層結(jié)構(gòu)的優(yōu)勢(shì)深度學(xué)習(xí)模型意味著神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深,由很多層組成。而支持向量機(jī)和Boosting等其它常用的機(jī)器學(xué)習(xí)模型都是淺層結(jié)構(gòu)。有理論證明,三層神經(jīng)網(wǎng)絡(luò)模型(包括輸入層、輸出層和一個(gè)隱含層)可以近似任何分類(lèi)函數(shù)。既然如此,為什么需要深層模型呢?理論研究表明,針對(duì)特定的任務(wù),如果模型的深度不夠,其所需要的計(jì)算單元會(huì)呈指數(shù)增加。這意味著雖然淺層模型可以表達(dá)相同的分類(lèi)函數(shù),其需要的參數(shù)和訓(xùn)練樣本要多得多。淺層模型提供的是局部表達(dá)。它將高維圖像空間分成若干局部區(qū)域,每個(gè)局部區(qū)域存儲(chǔ)至少一個(gè)從訓(xùn)練數(shù)據(jù)中獲得的模板。淺層模型將一個(gè)測(cè)試樣本和這些模板逐一匹配,根據(jù)匹配的結(jié)果預(yù)測(cè)其類(lèi)別。例如在支持向量機(jī)模型中,這些模板就是支持向量;在最近鄰分類(lèi)器中,這些模板是所有的訓(xùn)練樣本。隨著分類(lèi)問(wèn)題復(fù)雜度的增加,圖像空間需要被劃分成越來(lái)越多的局部區(qū)域,因而需要越來(lái)越多的參數(shù)和訓(xùn)練樣本。深度模型能夠減少參數(shù)的關(guān)鍵在于重復(fù)利用中間層的計(jì)算單元。例如,它可以學(xué)習(xí)針對(duì)人臉圖像的分層特征表達(dá)。最底層可以從原始像素學(xué)習(xí)濾波器,刻畫(huà)局部的邊緣和紋理特征;通過(guò)對(duì)各種邊緣濾波器進(jìn)行組合,中層濾波器可以描述不同類(lèi)型的人臉器官;最高層描述的是整個(gè)人臉的全局特征。深度學(xué)習(xí)提供的是分布式的特征表示。在最高的隱含層,每個(gè)神經(jīng)元代表了一個(gè)屬性分類(lèi)器,例如男女、人種和頭發(fā)顏色等等。每個(gè)神經(jīng)元將圖像空間一分為二,N個(gè)神經(jīng)元的組合就可以表達(dá)2N個(gè)局部區(qū)域,而用淺層模型表達(dá)這些區(qū)域的劃分至少需要個(gè)2N模板。由此我們可以看到深度模型的表達(dá)能力更強(qiáng),更有效率。2.5提取全局特征和上下文信息的能力深度模型具有強(qiáng)大的學(xué)習(xí)能力,高效的特征表達(dá)能力,從像素級(jí)原始數(shù)據(jù)到抽象的語(yǔ)義概念逐層提取信息。這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢(shì)。這為解決一些傳統(tǒng)的計(jì)算機(jī)視覺(jué)問(wèn)題,如圖像分割和關(guān)鍵點(diǎn)檢測(cè),帶來(lái)了新的思路。以人臉的圖像分割為例。為了預(yù)測(cè)每個(gè)像素屬于哪個(gè)臉部器官(眼睛、鼻子、嘴、頭發(fā)),通常的作法是在該像素周?chē)∫粋€(gè)小的區(qū)域,提取紋理特征(例如局部二值模式),再基于該特征利用支持向量機(jī)等淺層模型分類(lèi)。因?yàn)榫植繀^(qū)域包含信息量有限,往往產(chǎn)生分類(lèi)錯(cuò)誤,因此要對(duì)分割后的圖像加入平滑和形狀先驗(yàn)等約束。事實(shí)上即使存在局部遮擋的情況下,人眼也可以根據(jù)臉部其它區(qū)域的信息估計(jì)被遮擋處的標(biāo)注。這意味著全局和上下文的信息對(duì)于局部的判斷是非常重要的,而這些信息在基于局部特征的方法中從最開(kāi)始階段就丟失了。理想的情況下,模型應(yīng)該將整幅圖像作為輸入,直接預(yù)測(cè)整幅分割圖。圖像分割可以被當(dāng)作一個(gè)高維數(shù)據(jù)轉(zhuǎn)換的問(wèn)題來(lái)解決。這樣不但利用到了上下文信息,模型在高維數(shù)據(jù)轉(zhuǎn)換過(guò)程中也隱式地加入了形狀先驗(yàn)。但是由于整幅圖像內(nèi)容過(guò)于復(fù)雜,淺層模型很難有效地捕捉全局特征。深度學(xué)習(xí)的出現(xiàn)使這一思路成為可能,在人臉?lè)指頪11]、人體分割[12]、人臉圖像配準(zhǔn)[13]和人體姿態(tài)估計(jì)等各個(gè)方面都取得了成功[14]。2.4聯(lián)合深度學(xué)習(xí)一些計(jì)算機(jī)視覺(jué)學(xué)者將深度學(xué)習(xí)模型視為黑盒子,這種看法是不全面的。事實(shí)上我們可以發(fā)現(xiàn)傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)和深度學(xué)習(xí)模型存在著密切的聯(lián)系,而且可以利用這種聯(lián)系提出新的深度模型和新的訓(xùn)練方法。這方面一個(gè)成功的例子是用于行人檢測(cè)的聯(lián)合深度學(xué)習(xí)[15]。一個(gè)計(jì)算機(jī)視覺(jué)系統(tǒng)包含了若干關(guān)鍵的組成模塊。例如一個(gè)行人檢測(cè)器就包括了特征提取、部件檢測(cè)器、部件幾何形變建模、部件遮擋推理、分類(lèi)器等等。在聯(lián)合深度學(xué)習(xí)中[15],深度模型的各個(gè)層和視覺(jué)系統(tǒng)的各個(gè)模塊可以建立起對(duì)應(yīng)關(guān)系。如果視覺(jué)系統(tǒng)中一些有效的關(guān)鍵模塊在現(xiàn)有深度學(xué)習(xí)的模型中沒(méi)有與之對(duì)應(yīng)的層,它們可以啟發(fā)我們提出新的深度模型。例如大量物體檢測(cè)的研究工作證明對(duì)物體部件的幾何形變建模可以有效地提高檢測(cè)率,但是在常用的深度模型中沒(méi)有與之相對(duì)應(yīng)的層。于是聯(lián)合深度學(xué)習(xí)[15]及其后續(xù)的工作[16]都提出了新的形變層和形變池化層實(shí)現(xiàn)這一功能。從訓(xùn)練方式上看,計(jì)算機(jī)視覺(jué)系統(tǒng)的各個(gè)模塊是逐一訓(xùn)練或手工設(shè)計(jì)的;在深度模型的預(yù)訓(xùn)練階段,各個(gè)層也是逐一訓(xùn)練的。如果我們能夠建立起計(jì)算機(jī)視覺(jué)系統(tǒng)和深度模型之間的對(duì)應(yīng)關(guān)系,在視覺(jué)研究中積累的經(jīng)驗(yàn)可以對(duì)深度模型的預(yù)訓(xùn)練提供指導(dǎo)。這樣預(yù)訓(xùn)練后得到的模型至少可以達(dá)到與傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)可比的結(jié)果。在此基礎(chǔ)上,深度學(xué)習(xí)還會(huì)利用反向傳播對(duì)所有的層進(jìn)行聯(lián)合優(yōu)化,使它們之間的相互協(xié)作達(dá)到最優(yōu),從而使整個(gè)網(wǎng)絡(luò)的性能得到重大提升。3.深度學(xué)習(xí)在物體識(shí)別中的應(yīng)用3.1ImageNet圖像分類(lèi)深度學(xué)習(xí)在物體識(shí)別中最重要的進(jìn)展體現(xiàn)在ImageNetILSVRC挑戰(zhàn)中的圖像分類(lèi)任務(wù)。傳統(tǒng)計(jì)算機(jī)視覺(jué)方法在這個(gè)測(cè)試集上最低的top5錯(cuò)誤率是26.172%。2012年Hinton的研究小組利用卷積網(wǎng)絡(luò)在這個(gè)測(cè)試集上把錯(cuò)誤率大幅降到15.315%。這個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)被稱作AlexNet[3]。與傳統(tǒng)的卷積網(wǎng)絡(luò)相比,它有三點(diǎn)比較重要的不同。首先是采用了dropout的訓(xùn)練策略,在訓(xùn)練過(guò)程中將一些輸入層和中間層的神經(jīng)元隨機(jī)置零。這模擬了由于噪音和對(duì)輸入數(shù)據(jù)的各種干擾,從而使一些神經(jīng)元對(duì)一些視覺(jué)模式產(chǎn)生漏檢的情況。Dropout使訓(xùn)練過(guò)程收斂更慢,但得到的網(wǎng)絡(luò)模型更加魯棒。其次,它采用整流線型單元作為非線性的激發(fā)函數(shù)。這不僅大大降低了計(jì)算的復(fù)雜度,而且使神經(jīng)元的輸出具有稀疏的性質(zhì)。稀疏的特征表示對(duì)各種干擾更加魯棒。第三,它通過(guò)對(duì)訓(xùn)練樣本鏡像映射,和加入隨機(jī)平移擾動(dòng)產(chǎn)生了更多的訓(xùn)練樣本,以減少過(guò)擬合。ImageNetILSVRC2013比賽中,排名前20的小組使用的都是深度學(xué)習(xí),其影響力可見(jiàn)一斑。獲勝者是來(lái)則紐約大學(xué)RobFergus的研究小組,所采用的深度模型還是卷積網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)作了進(jìn)一步優(yōu)化。Top5錯(cuò)誤率降到11.197%,其模型稱作Clarifai[17]。2014年深度學(xué)習(xí)又取得了重要進(jìn)展,在ILSVRC2014比賽中,獲勝者GooLeNet[18]將top5錯(cuò)誤率降到6.656%。它突出的特點(diǎn)是大大增加了卷積網(wǎng)絡(luò)的深度,超過(guò)20層,這在之前是不可想象的。很深的網(wǎng)絡(luò)結(jié)構(gòu)給預(yù)測(cè)誤差的反向傳播帶了困難。因?yàn)轭A(yù)測(cè)誤差是從最頂層傳到底層的,傳到底層的誤差很小,難以驅(qū)動(dòng)底層參數(shù)的更新。GooLeNet采取的策略是將監(jiān)督信號(hào)直接加到多個(gè)中間層,這意味著中間和低層的特征表示也需要能夠準(zhǔn)確對(duì)訓(xùn)練數(shù)據(jù)分類(lèi)。如何有效地訓(xùn)練很深的網(wǎng)絡(luò)模型仍是未來(lái)研究的一個(gè)重要課題。雖然深度學(xué)習(xí)在ImageNet上取得了巨大成功,但是一個(gè)現(xiàn)實(shí)的問(wèn)題是,很多應(yīng)用的訓(xùn)練集是較小的,如何在這種情況下應(yīng)用深度學(xué)習(xí)呢?有三種方法可供讀者參考。(1)可以將ImageNet上訓(xùn)練得到的模型做為起點(diǎn),利用目標(biāo)訓(xùn)練集和反向傳播對(duì)其進(jìn)行繼續(xù)訓(xùn)練,將模型適應(yīng)到特定的應(yīng)用[10]。ImageNet起到預(yù)訓(xùn)練的作用。(2)如果目標(biāo)訓(xùn)練集不夠大,也可以將低層的網(wǎng)絡(luò)參數(shù)固定,沿用ImageNet上的訓(xùn)練集結(jié)果,只對(duì)上層進(jìn)行更新。這是因?yàn)榈讓拥木W(wǎng)絡(luò)參數(shù)是最難更新的,而從ImageNet學(xué)習(xí)得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息,而這些濾波器對(duì)一般的圖像有較好的普適性。(3)直接采用ImageNet上訓(xùn)練得到的模型,把最高的隱含層的輸出作為特征表達(dá),代替常用的手工設(shè)計(jì)的特征[19][20]。3.2人臉識(shí)別深度學(xué)習(xí)在物體識(shí)別上了另一個(gè)重要突破是人臉識(shí)別。人臉識(shí)別的最大挑戰(zhàn)是如何區(qū)分由于光線、姿態(tài)和表情等因素引起的類(lèi)內(nèi)變化和由于身份不同產(chǎn)生的類(lèi)間變化。這兩種變化分布是非線性的且極為復(fù)雜,傳統(tǒng)的線性模型無(wú)法將它們有效區(qū)分開(kāi)。深度學(xué)習(xí)的目的是通過(guò)多層的非線性變換得到新的特征表示。該特征須要盡可能多地去掉類(lèi)內(nèi)變化,而保留類(lèi)間變化。人臉識(shí)別有兩種任務(wù),人臉確認(rèn)和人臉辨識(shí)。人臉確認(rèn)的任務(wù)是判斷兩張人臉照片是否屬于同一個(gè)人,屬二分類(lèi)問(wèn)題,隨機(jī)猜的正確率是50%。人臉辨識(shí)的任務(wù)是將一張人臉圖像分為N個(gè)類(lèi)別之一,類(lèi)別是由人臉的身份定義的。這是個(gè)多分類(lèi)問(wèn)題,更具挑戰(zhàn)性,其難度隨著類(lèi)別數(shù)的增多而增大,隨機(jī)猜的正確率是1/N。兩個(gè)任務(wù)都可以用來(lái)通過(guò)深度模型學(xué)習(xí)人臉的特征表達(dá)。2013年,[21]采用人臉確認(rèn)任務(wù)作為監(jiān)督信號(hào),利用卷積網(wǎng)絡(luò)學(xué)習(xí)人臉特征,在LFW上取得了92.52%的識(shí)別率。這一結(jié)果雖然與后續(xù)的深度學(xué)習(xí)方法相比較低,但也超過(guò)了大多數(shù)非深度學(xué)習(xí)的算法。由于人臉確認(rèn)是一個(gè)二分類(lèi)的問(wèn)題,用它學(xué)習(xí)人臉特征效率比較低。這個(gè)問(wèn)題可以從幾個(gè)方面理解。深度學(xué)習(xí)面臨的一個(gè)主要問(wèn)題是過(guò)擬合。作為一個(gè)二分類(lèi)問(wèn)題,人臉確認(rèn)任務(wù)相對(duì)簡(jiǎn)單,容易在訓(xùn)練集上發(fā)生過(guò)擬合。與之不同,人臉辨識(shí)是一個(gè)更具挑戰(zhàn)性的多分類(lèi)問(wèn)題,不容易發(fā)生過(guò)擬合,更適合通過(guò)深度模型學(xué)習(xí)人臉特征。另一方面,在人臉確認(rèn)中,每一對(duì)訓(xùn)練樣本被人工標(biāo)注成兩類(lèi)之一,所含信息量較少。而在人臉辨識(shí)中,每個(gè)訓(xùn)練樣本都被人工標(biāo)注成N類(lèi)之一,信息量要大的多。2014年CVPR,DeepID[22]和DeepFace[23]都采用人臉辨識(shí)作為監(jiān)督信號(hào),在LFW上取得了97.45%和97.35%的識(shí)別率。他們利用卷積網(wǎng)絡(luò)預(yù)測(cè)N維標(biāo)注向量,將最高的隱含層作為人臉特征。這一層在訓(xùn)練過(guò)程中要區(qū)分大量的人臉類(lèi)別(例如在DeepID中要區(qū)分1000類(lèi)人臉),因此包含了豐富的類(lèi)間變化的信息,而且有很強(qiáng)的泛化能力。雖然訓(xùn)練中采用的是人臉辨識(shí)任務(wù),得到特征可以應(yīng)用到人臉確認(rèn)任務(wù),以及識(shí)別訓(xùn)練集中沒(méi)有新人。

例如LFW上用于測(cè)試的任務(wù)是人臉確認(rèn)任務(wù),不同于訓(xùn)練中采用的人臉辨識(shí)任務(wù);DeepID[22]和DeepFace[23]的訓(xùn)練集與LFW測(cè)試集的人物身份是不重合的。通過(guò)人臉辨識(shí)任務(wù)學(xué)習(xí)得到的人臉特征包含了較多的類(lèi)內(nèi)變化。DeepID2[24]聯(lián)合使用人臉確認(rèn)和人臉辨識(shí)作為監(jiān)督信號(hào),得到的人臉特征在保持類(lèi)間變化的同時(shí)最小化類(lèi)內(nèi)變化,從而將LFW上的人臉識(shí)別率提高到99.15%。利用TitanGPU,DeepID2提取一幅人臉圖像的特征只需要35毫秒,而且可以離線進(jìn)行。經(jīng)過(guò)PCA壓縮最終得到80維的特征向量,可以用于快速人臉在線比對(duì)。在后續(xù)的工作中,DeepID2+[25]對(duì)DeepID2通過(guò)加大網(wǎng)絡(luò)結(jié)構(gòu),增加訓(xùn)練數(shù)據(jù),以及在每一層都加入監(jiān)督信息進(jìn)行了進(jìn)一步改進(jìn),在LFW達(dá)到了99.47%的識(shí)別率。一些人認(rèn)為深度學(xué)習(xí)的成功在于用具有大量參數(shù)的復(fù)雜模型去擬合數(shù)據(jù)集。這個(gè)看法也是不全面的。事實(shí)上,進(jìn)一步的研究[25]表明DeepID2+的特征有很多重要有趣的性質(zhì)。例如,它最上層的神經(jīng)元響應(yīng)是中度稀疏的,對(duì)人臉身份和各種人臉屬性具有很強(qiáng)的選擇性,對(duì)局部遮擋有很強(qiáng)的魯棒性。以往的研究中,為了得到這些屬性,我們往往需要對(duì)模型加入各種顯示的約束。而DeepID2+通過(guò)大規(guī)模學(xué)習(xí)自動(dòng)擁有了這些引人注目的屬性,其背后的理論分析值得未來(lái)進(jìn)一步研究。4.深度學(xué)習(xí)在物體檢測(cè)中的應(yīng)用深度學(xué)習(xí)也對(duì)圖像中的物體檢測(cè)帶來(lái)了巨大提升。物體檢測(cè)是比物體識(shí)別更難的任務(wù)。一幅圖像中可能包含屬于不同類(lèi)別的多個(gè)物體,物體檢測(cè)需要確定每個(gè)物體的位置和類(lèi)別。深度學(xué)習(xí)在物體檢測(cè)中的進(jìn)展也體現(xiàn)在ImageNetILSVRC挑戰(zhàn)中。2013年比賽的組織者增加了物體檢測(cè)的任務(wù),需要在四萬(wàn)張互聯(lián)網(wǎng)圖片中檢測(cè)200類(lèi)物體。當(dāng)年的比賽中贏得物體檢測(cè)任務(wù)的方法使用的依然是手動(dòng)設(shè)計(jì)的特征,平均物體檢測(cè)率,即meanAveragedPrecision(mAP),只有22.581%。在ILSVRC2014中,深度學(xué)習(xí)將mAP大幅提高到43.933%。較有影響力的工作包括RCNN[10],Overfeat[26],GoogLeNet[18],DeepID‐Net[27],networkinnetwork[28],VGG[29],和spatialpyramidpoolingindeepCNN[30]。被廣泛采用的基于深度學(xué)習(xí)的物體檢測(cè)流程是在RCNN[10]中提出的。首先采用非深度學(xué)習(xí)的方法(例如selectivesearch[31])提出候選區(qū)域,利用深度卷積網(wǎng)絡(luò)從候選區(qū)域提取特征,然后利用支持向量機(jī)等線性分類(lèi)器基于特征將區(qū)域分為物體和背景。DeepID‐Net[27]將這一流程進(jìn)行了進(jìn)一步的完善使得檢測(cè)率有了大幅提升,并且對(duì)每一個(gè)環(huán)節(jié)的貢獻(xiàn)做了詳細(xì)的實(shí)驗(yàn)分析。此外深度卷積網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)也至關(guān)重要。如果一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)提高提高

圖像分類(lèi)任務(wù)的準(zhǔn)確性,通常也能使物體檢測(cè)器的性能顯著提升。深度學(xué)習(xí)的成功還體現(xiàn)在行人檢測(cè)上。在最大的行人檢測(cè)測(cè)試集(Caltech[32])上,被廣泛采用的HOG特征和可變形部件模型[33]平均誤檢率是68%。目前基于深度學(xué)習(xí)最好的結(jié)果是20.86%[34]。在最新的研究進(jìn)展中,很多在物體檢測(cè)中已經(jīng)被證明行之有效的思路都有其在深度學(xué)習(xí)中的實(shí)現(xiàn)。例如,聯(lián)合深度學(xué)習(xí)[15]提出了形變層,對(duì)物體部件間的幾何形變進(jìn)行建模;多階段深度學(xué)習(xí)[35]可以模擬在物體檢測(cè)中常用的級(jí)聯(lián)分類(lèi)器;可切換深度網(wǎng)絡(luò)[36]可以表達(dá)物體各個(gè)部件的混合模型;[37]通過(guò)遷移學(xué)習(xí)將一個(gè)深度模型行人檢測(cè)器自適應(yīng)到一個(gè)目標(biāo)場(chǎng)景。5.深度學(xué)習(xí)用于視頻分析深度學(xué)習(xí)在視頻分類(lèi)上的應(yīng)用總體而言還處于起步階段,未來(lái)還有很多工作要做。描述視頻的靜態(tài)圖像特征,可以采用用從ImageNet上學(xué)習(xí)得到的深度模型;難點(diǎn)是如何描述動(dòng)態(tài)特征。以往的視覺(jué)方法中,對(duì)動(dòng)態(tài)特征的描述往往依賴于光流估計(jì),對(duì)關(guān)鍵點(diǎn)的跟蹤,和動(dòng)態(tài)紋理。如何將這些信息體現(xiàn)在深度模型中是個(gè)難點(diǎn)。最直接的做法是將視頻視為三維圖像,直接應(yīng)用卷積網(wǎng)絡(luò)[38],在每一層學(xué)習(xí)三維濾波器。但是這一思路顯然沒(méi)有考慮到時(shí)間維和空間維的差異性。另外一種簡(jiǎn)單但更加有效的思路是通過(guò)預(yù)處理計(jì)算光流場(chǎng),作為卷積網(wǎng)絡(luò)的一個(gè)輸入通道[39]。也有研究工作利用深度編碼器(deepautoencoder)以非線性的方式提取動(dòng)態(tài)紋理[40],而傳統(tǒng)的方法大多采用線性動(dòng)態(tài)系統(tǒng)建模。在一些最新的研究工作中[41],長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)正在受到廣泛關(guān)注,它可以捕捉長(zhǎng)期依賴性,對(duì)視頻中復(fù)雜的動(dòng)態(tài)建模。6.未來(lái)發(fā)展的展望深度學(xué)習(xí)在圖像識(shí)別中的發(fā)展方興未艾,未來(lái)有著巨大的空間。本節(jié)對(duì)幾個(gè)可能的方向進(jìn)行探討。在物體識(shí)別和物體檢測(cè)中正趨向使用更大更深的網(wǎng)絡(luò)結(jié)構(gòu)。ILSVRC2012中AlexNet只包含了5個(gè)卷積層和兩個(gè)全連接層。而ILSVRC2014中GooLeNet和VGG使用的網(wǎng)絡(luò)結(jié)構(gòu)都超過(guò)了20層。更深的網(wǎng)絡(luò)結(jié)構(gòu)使得反向傳播更加困難。與此同時(shí)訓(xùn)練數(shù)據(jù)的規(guī)模也在迅速增加。這迫切需要研究新的算法和開(kāi)發(fā)新的并行計(jì)算系統(tǒng)更加有效的利用大數(shù)據(jù)訓(xùn)練更大更深的模型。與圖像識(shí)別相比,深度學(xué)習(xí)在視頻分類(lèi)中的應(yīng)用還遠(yuǎn)未成熟。從ImageNet訓(xùn)練得到的圖像特征可以直接有效地應(yīng)用到各種與圖像相關(guān)的識(shí)別任務(wù)(例如圖像分類(lèi)、圖像檢索、物體檢測(cè)和圖像分割等等),和其它不同的圖像測(cè)試集,具有良好的泛化性能。但是深度學(xué)習(xí)至今還沒(méi)有得到類(lèi)似的可用于視頻分析的特征。要達(dá)到這個(gè)目的,不但要建立大規(guī)模的訓(xùn)練數(shù)據(jù)集([42]最新建立了包含一百萬(wàn)YouTube視頻的數(shù)據(jù)庫(kù)),還需要研究適用于視頻分析的新的深度模型。此外訓(xùn)練用于視頻分析的深度模型的計(jì)算量也會(huì)大大增加。在與圖像和視頻相關(guān)的應(yīng)用中,深度模型的輸出預(yù)測(cè)(例如分割圖或物體檢測(cè)框)往往具有空間和時(shí)間上的相關(guān)性。因此研究具有結(jié)構(gòu)性輸出的深度模型也是一個(gè)重點(diǎn)。雖然神經(jīng)網(wǎng)絡(luò)的目的在于解決一般意義的機(jī)器學(xué)習(xí)問(wèn)題,領(lǐng)域知識(shí)對(duì)于深度模型的設(shè)計(jì)也起著重要的作用。在與圖像和視頻相關(guān)的應(yīng)用中,最成功的是深度卷積網(wǎng)絡(luò),它正是利用了與圖像的特殊結(jié)構(gòu)。其中最重要的兩個(gè)操作,卷積和池化(pooling)都來(lái)自于與圖像相關(guān)的領(lǐng)域知識(shí)。如何通過(guò)研究領(lǐng)域知識(shí),在深度模型中引入新的有效的操作和層,對(duì)于提高圖像識(shí)別的性能有著重要意義。例如池化層帶來(lái)了局部的平移不變性,[27]中提出的形變池化層在此基礎(chǔ)上更好的描述了物體各個(gè)部分的幾何形變。在未來(lái)的研究中,可以將其進(jìn)一步擴(kuò)展,從而取得旋轉(zhuǎn)不變性、尺度不變性、和對(duì)遮擋的魯棒性。通過(guò)研究深度模型和傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)之間的關(guān)系,不但可以幫助我們理解深度學(xué)習(xí)成功的原因,還可以啟發(fā)新的模型和訓(xùn)練方法。聯(lián)合深度學(xué)習(xí)[15]和多階段深度學(xué)習(xí)[35]是兩個(gè)例子,未來(lái)這方面還可以有更多的工作。最然深度學(xué)習(xí)在實(shí)踐中取得了巨大成功,通過(guò)大數(shù)據(jù)訓(xùn)練得到的深度模型體現(xiàn)出的特性(例如稀疏性、選擇性、和對(duì)遮擋的魯棒性[22])引人注目,其背后的理論分析還有許多工作需要在未來(lái)完成。例如,何時(shí)收斂,如何取得較好的局部極小點(diǎn),每一層變換取得了那些對(duì)識(shí)別有益的不變性,又損失了那些信息等等。最近Mallat利用小波對(duì)深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了量化分析[43],是在這一個(gè)方向上的重要探索。深度學(xué)習(xí)在圖像識(shí)別上的巨大成功,必將對(duì)于多媒體相關(guān)的各種應(yīng)用產(chǎn)生重大影響。我們期待著更多的學(xué)者在不久的將來(lái)研究如何利用深度學(xué)習(xí)得到的圖像特征,推動(dòng)各種應(yīng)用的快速進(jìn)步。7.結(jié)束語(yǔ)2012年以來(lái),深度學(xué)習(xí)極大的推動(dòng)了圖像識(shí)別的研究進(jìn)展,突出體現(xiàn)在ImageNetILSVRC和人臉識(shí)別,而且正在快速推廣到與圖像識(shí)別相關(guān)的各個(gè)問(wèn)題。深度學(xué)習(xí)的本質(zhì)是通過(guò)多層非線性變換,從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,從而替代手工設(shè)計(jì)的特征。深層的結(jié)構(gòu)使其具有極強(qiáng)的表達(dá)能力和學(xué)習(xí)能力,尤其擅長(zhǎng)提取復(fù)雜的全局特征和上下文信息,而這是淺層模型難以做到的。一幅圖像中,各種隱含的因素往往以復(fù)雜的非線性的方式關(guān)聯(lián)在一起,而深度學(xué)習(xí)可以使這些因素分級(jí)開(kāi),在其最高隱含層不同神經(jīng)元代表了不同的因素,從而使分類(lèi)變得簡(jiǎn)單。深度模型并非黑盒子,它與傳統(tǒng)的計(jì)算機(jī)視覺(jué)體統(tǒng)有著密切的聯(lián)系,但是它使得這個(gè)系統(tǒng)的各個(gè)模塊(即神經(jīng)網(wǎng)絡(luò)的各個(gè)層)可以通過(guò)聯(lián)合學(xué)習(xí),整體優(yōu)化,從而性能得到大幅提升。與圖像識(shí)別相關(guān)的各種應(yīng)用也在推動(dòng)深度學(xué)習(xí)在網(wǎng)絡(luò)結(jié)構(gòu)、層的設(shè)計(jì)和訓(xùn)練方法各個(gè)方面的的快速發(fā)展。我們可以預(yù)見(jiàn)在未來(lái)的數(shù)年內(nèi),深度學(xué)習(xí)將會(huì)在理論、算法、和應(yīng)用各方面進(jìn)入高速發(fā)展的時(shí)期,期待著愈來(lái)愈多精彩的工作對(duì)學(xué)術(shù)和工業(yè)界產(chǎn)生深遠(yuǎn)的影響。王曉剛香港中文大學(xué)原文PDF下載參考文獻(xiàn):

[1]D.E.Rumelhart,G.E.Hinton,andR.J.Williams.Learninginternalrepresentationsbyerrorpropagation.Nature,323(99):533–536,1986.

[2]J.Deng,W.Dong,R.Socher,L.Li,K.Li,andL.Fei‐Fei.Imagenet:Alarge‐scalehierarchicalimagedatabase.InIEEEInt’lConf.ComputerVisionandPatternRecognition,2009.

[3]A.Krizhevsky,L.Sutskever,andG.E.Hinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InProc.NeuralInformationProcessingSystems,2012.

[4]G.B.Huang,M.Ramesh,T.Berg,andE.Learned‐Miler.Labeledfacesinthewild:Adatabaseforstudyingfacerecognitioninunconstrainedenvironments.Technicalreport,UniversityofMassachusetts,Amherst,2007.

[5]N.Kumar,A.C.Berg,P.N.Belhumeur,andS.K.Nayar.Attributeandsimileclassifiersforfaceverification.InIEEEInt’lConf.ComputerVision,2009.

[6]M.TurkandA.Pentland.Eigenfacesforrecognition.JournalofCognitiveNeuroscience,3(1):71–86,1991.

[7]D.Chen,X.Cao,F.Wen,andJ.Sun.Blessingofdimensionality:Highdimensionalfeatureanditsefficientcompressionforfaceverification.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2013.

[8]Y.Sun,X.Wang,andX.Tang.Deeplylearnedfacerepresentationsaresparse,selective,androbust.arXiv:1412.1265,2014.

[9]Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient‐basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,86:2278–2324,1998.

[10]R.Girshick,J.Donahue,T.Darrell,andJ.Malik.Richfeaturehierarchiesforaccurateobjectdetectionandsemantic

segmentation.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2014.

[11]P.Luo,X.Wang,andX.Tang.Hierarchicalfaceparsingviadeeplearning.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2012.

[12]P.Luo,X.Wang,andX.Tang.Pedestrianparsingviadeepdecompositionalnetwork.InProc.IEEEInt’lConf.ComputerVision,2013.

[13]Y.Sun,X.Wang,andX.Tang.Deepconvolutionalnetworkcascadeforfacialpointdetection.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2013.

[14]A.ToshevandC.Szegedy.Deeppose:Humanposeestimationviadeepneuralnetworks.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2014.

[15]W.OuyangandX.Wang.Jointdeeplearningforpedestriandetection.InProc.IEEEInt’lConf.ComputerVision,2013.

[16]W.Ouyang,P.Luo,X.Zeng,S.Qiu,Y.Tian,H.Li,S.Yang,Z.Wang,C.Qian,Z.Zhu,R.Wang,C.Loy,X.Wang,andX.Tang.Deepidnet:multi‐stageanddeformabledeepconvolutionalneuralnetworksforobjectdetection.arXiv:1409.3505,2014.

[17]/

[18]C.Szegedy,W.Liu,Y.Jia,P.Sermanet,D.Anguelov,D.Erhan,V.Vanhoucke,andA.Rabinovich.Goingdeeperwithconvolutions.arXiv:1409.4842,2014.

[19]A.S.Razavian,H.Azizpour,J.Sullivan,andS.Carlsson.Cnnfeaturesoff‐the‐shelf:anastoundingbaselineforrecognition.arXiv:1403.6382,2014.

[20]Y.Gong,L.Wang,R.Guo,andS.Lazebnik.Multi‐scaleorderlesspoolingofdeepconvolutionalactivationfeatures.arXiv:1403.1840,2014.

[21]Y.Sun,X.Wang,andX.Tang.Hybriddeeplearningforcomputingfacesimilarities.InProc.IEEEInt’lConf.ComputerVision,2013.

[22]Y.Sun,X.Wang,andX.Tang.Deeplearningfacerepresentationfrompredicting10,000classes.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2014.

[23]Y.Taigman,M.Yang,M.Ranzato,andL.Wolf.Deepface:Closingthegaptohumanlevelperformanceinfaceverification.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2014.

[24]Y.Sun,X.Wang,andX.Tang.Deeplearningfacerepresentationbyjointidentificationverification.InProc.NeuralInformationProcessingSystems,2014.

[25]Y.Sun,X.Wang,andX.Tang.Deeplylearnedfacerepresentationsaresparse,selective,androbust.arXiv:1412.1265,2014.

[26]P.Sermanet,D.Eigen,X.Zhang,M.Mathieu,R.Fergus,andY.Le‐Cun.Overfeat:Integratedrecognition,localizationanddetectionusingconvolutionalnetworks.InProc.Int’lConf.LearningRepresentations,2014.

[27]W.Ouyang,P.Luo,X.Zeng,S.Qiu,Y.Tian,H.Li,S.Yang,Z.Wang,C.Qian,Z.Zhu,R.Wang,C.Loy,X.Wang,andX.Tang.Deepidnet:multi‐stageanddeformabledeepconvolutionalneuralnetworksforobjectdetection.arXiv:1409.3505,2014.

[28]M.Lin,Q..Chen,andS.Yan.Networkinnetwork.arXiv:1312.4400v3,2013.

[29]K.SimonyanandA.Zisserman.Verydeepconvolutionalnetworksforlarge‐scaleimagerecognition.arXiv:1409.1556,2014,2014.

[30]K.He,X.Zhang,S.Ren,andJ.Sun.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition.arXiv:1406.4729,2014.

[31]J.R.R.Uijlings,K.E.A.VandeSande,T.Gevers,andW.M.Smeulders.Selectivesearchforobjectrecognition.InternationalJournalofComputerVision,104:154–171,2013.

[32]P.Dollar,C.Wojek,B.Schiele,andP.Perona.Pedestriandetection:Abenchmark.InProc.IEEEInt’lConf.ComputerVisionandPatternRecognition,2009.

[33]P.Felzenszwalb,R.B.Grishick,D.McAllister,andD.Ramanan.Objectdetectionwithdiscriminativelytrainedpartbasedmodels.IEEETrans.PAMI,32:1627–1645,2010.

[34]Y.Tian,P.Luo,X.Wang,andX.Tang,“PedestrianDetectionaide

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論