深度卷積神經網絡在ImageNet數據庫上的分類_第1頁
深度卷積神經網絡在ImageNet數據庫上的分類_第2頁
深度卷積神經網絡在ImageNet數據庫上的分類_第3頁
深度卷積神經網絡在ImageNet數據庫上的分類_第4頁
深度卷積神經網絡在ImageNet數據庫上的分類_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 深度卷積神經網絡在ImageNet數據庫上的分類AlexKrizhevsky,IlyaSutskever,GeoffreyE.Hinton多倫多大學摘要我們訓練了一個大型的深度卷積神經網絡,來將在ImageNetLSVRC-2010大賽中的120萬張高清圖像分為1000個不同的類別。對測試數據,我們得到了top-1誤差率37.5%,以及top-5誤差率17.0%,這個效果比之前最頂尖的都要好得多。該神經網絡有6000萬個參數和650,000個神經元,由五個卷積層,以及某些卷積層后跟著的max-pooling層,和三個全連接層,還有排在最后的1000-way的softmax層組成。為了使訓練速

2、度更快,我們使用了非飽和的神經元和一個非常高效的GPU關于卷積運算的工具。為了減少全連接層的過擬合,我們采用了最新開發(fā)的正則化方法,稱為“dropout”,它已被證明是非常有效的。在ILSVRC-2012大賽中,我們又輸入了該模型的一個變體,并依靠top-5測試誤差率15.3%取得了勝利,相比較下,次優(yōu)項的錯誤率是26.2%。1引言當前物體識別的方法基本上都使用了機器學習方法。為了改善這些方法的性能,我們可以收集更大的數據集,學習更強有力的模型,并使用更好的技術,以防止過擬合。直到最近,標記圖像的數據集都相當小大約數萬張圖像(例如,NORB16,Caltech-101/2568,9,以及CIF

3、AR-10/10012)。簡單的識別任務可以用這種規(guī)模的數據集解決得相當好,特別是當它們用標簽-保留轉換增強了的時候。例如,在MNIST數字識別任務中當前最好的誤差率(0.3%)接近于人類的表現4。但是現實環(huán)境中的物體表現出相當大的變化,因此要學習它們以對它們進行識別就必須使用更大的訓練集。事實上,小規(guī)模圖像數據集的缺陷已被廣泛認同(例如,Pinto等人21),但是直到最近,收集有著上百萬張圖像的帶標簽數據集才成為可能。更大型的新數據集包括LabelMe23,它由幾十萬張完全分割圖組成,還有ImageNet6,它由多于22,000個種類中超過1500萬張帶標簽的高分辨率圖像組成。為了從幾百萬張

4、圖像中學習數以千計的物體,我們需要一個學習能力更強的模型。然而,物體識別任務的極大復雜性意味著這個問題不能被指定,即使是通過與ImageNet一樣大的數據集,所以我們的模型中也應該有大量的先驗知識,以補償我們所沒有的全部數據。卷積神經網絡(CNN)構成了一個這種類型的模型16,11,13,18,15,22,26。它們的能力可以通過改變其深度與廣度得到控制,它們也可作出有關圖像性質的強壯且多半正確的假設(即,統計數據的穩(wěn)定性和像素依賴關系的局部性)。因此,與層次規(guī)模相同的標準前饋神經網絡相比,CNN的連接關系和參數更少,所以更易于訓練,而其理論上的最佳性能可能只略差一點。不論CNN的性質多有吸引

5、力,也不論它們局部結構的相對效率有多高,將它們大規(guī)模地應用到高分辨率圖像中仍然是極其昂貴的。幸運的是,目前的GPU搭配了一個高度優(yōu)化的2D卷積工具,強大到足以促進大規(guī)模CNN的訓練,而且最近的數據集像ImageNet包含足夠的帶標簽的樣例來訓練這樣的模型,還不會有嚴重的過擬合。本文的具體貢獻如下:我們在ILSVRC-2010和ILSVRC-2012大賽中使用過的ImageNet的子集上2,訓練了迄今為止最大型的卷積神經網絡之一,并取得了迄今為止在這些數據集上報告過的最好結果。我們寫了一個高度優(yōu)化的GPU二維卷積工具以及訓練卷積神經網絡過程中的所有其他操作,這些我們都提供了公開地址。我們的網絡中

6、包含一些既新鮮而又不同尋常的特征,它們提高了網絡的性能,并減少了網絡的訓練時間,這些詳見第3節(jié)。我們的網絡中甚至有120萬個帶標簽的訓練樣本,這么大的規(guī)模使得過擬合成為一個顯著的問題,所以我們使用了幾種有效的方法來防止過擬合,這些在第4節(jié)中給以描述。我們最終的網絡包含五個卷積層和三個全連接層,且這種層次深度似乎是重要的:我們發(fā)現,移去任何卷積層(其中每一個包含的模型參數都不超過1%)都會導致性能變差。最后,網絡的規(guī)模主要受限于當前GPU的可用內存和我們愿意容忍的訓練時間。我們的網絡在兩塊GTX5803GBGPU上訓練需要五到六天。我們所有的實驗表明,等更快的GPU和更大的數據集可用以后,我們的

7、結果就可以輕而易舉地得到改進。2數據集ImageNet是一個擁有超過1500萬張帶標簽的高分辨率圖像的數據集,這些圖像分屬于大概22,000個類別。這些圖像是從網上收集,并使用AmazonMechanicalTurk群眾外包工具來人工貼標簽的。作為PASCAL視覺目標挑戰(zhàn)賽的一部分,一年一度的ImageNet大型視覺識別挑戰(zhàn)賽(ILSVRC)從2010年開始就已經在舉辦了。ILSVRC使用ImageNet的一個子集,分為1000種類別,每種類別中都有大約1000張圖像。總之,大約有120萬張訓練圖像,50,000張驗證圖像和150,000張測試圖像。ILSVRC-2010是ILSVRC中能獲得

8、測試集標簽的唯一版本,因此這也就是我們完成大部分實驗的版本。由于我們也在ILSVRC-2012上輸入了模型,在第6節(jié)中我們也會報告這個數據集版本上的結果,該版本上的測試集標簽難以獲取。在ImageNet上,習慣性地報告兩個誤差率:top-1和top-5,其中top-5誤差率是指測試圖像上正確標簽不屬于被模型認為是最有可能的五個標簽的百分比。ImageNet由各種分辨率的圖像組成,而我們的系統需要一個恒定的輸入維數。因此,我們下采樣這些圖像到固定的分辨率256X256。給定一張矩形圖像,我們首先重新縮放圖像,使得短邊長度為256,然后從得到的圖像中裁剪出中央256X256的一片。除了遍歷訓練集從

9、每個像素中減去平均活躍度外,我們沒有以任何其他方式預處理圖像。所以我們用這些像素(中央那一片的)原始RGB值訓練網絡。3體系結構圖2總結了我們網絡的體系結構。它包含八個學習層一一五個卷積層和三個全連接層。下面,我們將介紹該網絡體系結構的一些新穎獨特的功能。3.1-3.4是根據我們對于其重要性的估計來排序的,最重要的排在最前面。3.1ReLU非線性將神經元的輸出f,作為其輸入x的函數,對其建模的標準方法是用f(x)=tanh(x)或者f(x)=G+e-x1。就梯度下降的訓練時間而言,這些飽和非線性函數比不飽和非線性函數f(x)=max(0,x)要慢的多。我們跟隨Nair和Hinton20稱這種不

10、飽和非線性的神經元為修正線性單元(ReLU)。訓練帶ReLUs的深度卷積神經網絡比帶tanh單元的同等網絡要快好幾倍。如圖1所示,它顯示出對于特定的四層卷積網絡,在CIFAR-10數據集上達到25%的訓練誤差所需的迭代次數。此圖顯示,如果我們使用了傳統的飽和神經元模型,就不能用如此大的神經網絡來對該工作完成實驗。aj6u-u-ejl4035I5220I150.75Epochs圖1:帶ReLU的四層卷積神經網絡(實線)在CIFAR-10數據集上達到25%訓練誤差率要比帶tanh神經元的同等網絡(虛線)快六倍。每個網絡的學習速率是獨立選取的,以使得訓練盡可能快。沒有使用任何形式的正則化。這里演示的

11、效果因網絡結構的不同而不同,但帶ReLU的網絡學習始終比帶飽和神經元的同等網絡快好幾倍。我們不是第一個在CNN中考慮傳統神經兀模型的替代品的。例如,Jarrett等人11聲稱,非線性函數f(x)=tanh(x)由于其后跟隨局部averagepooling的對比度歸一化的類型,它在Caltech-101數據集上工作得特別好。然而,在該數據集上的主要關注點是防止過擬合,所以他們正在觀察的效果不同于我們報告的為擬合訓練集使用ReLU時的加速能力。更快的學習對大型數據集上訓練的大型模型的性能有很大影響。3.2在多個GPU上訓練單個GTX580GPU只有3GB內存,這限制了可以在其上訓練的網絡的最大規(guī)模

12、。事實證明,120萬個訓練樣本才足以訓練網絡,這網絡太大了,不適合在一個GPU上訓練。因此我們將網絡分布在兩個GPU上。目前的GPU特別適合跨GPU并行化,因為它們能夠直接從另一個GPU的內存中讀出和寫入,不需要通過主機內存。我們采用的并行方案基本上是在每個GPU中放置一半核(或神經元),還有一個額外的技巧:GPU間的通訊只在某些層進行。這就是說,例如,第3層的核需要從第2層中所有核映射輸入。然而,第4層的核只需要從第3層中位于同一GPU的那些核映射輸入。選擇連接模式是一個交叉驗證的問題,但是這讓我們可以精確地調整通信量,直到它的計算量在可接受的部分。由此產生的體系結構有點類似于Ciresan

13、等人提出的“柱狀”CNN的體系結構5,不同之處在于我們的縱列不是獨立的(見圖2)。與在一個GPU上訓練的每個卷積層有一半核的網絡比較,該方案將我們的top-1與top-5誤差率分別減少了1.7%與1.2%。訓練雙GPU網絡比訓練單GPU網絡花費的時間略少一些(實際上單GPU網絡與雙GPU網絡在最后的卷積層有著相同數量的核。這是因為大多數網絡的參數在第一個全連接層,這需要上一個卷積層作為輸入。所以,為了使兩個網絡有數目大致相同的參數,我們不把最后一個卷積層大小減半(也不把它后面跟隨的全連接層減半)。因此,這種比較關系更偏向有利于單GPU網絡,因為它比雙GPU網絡的“一半大小”要大)。3.3局部響

14、應歸一化ReLU具有所希望的特性,它們不需要輸入歸一化來防止它們達到飽和。如果至少有一些訓練樣例對ReLU產生了正輸入,學習就將發(fā)生在那個神經元??墒?,我們仍然發(fā)現下列局部歸一化方案有助于一般化。用ai表示點(x,y)處通過應用核計算出的神經元x,y激活度,然后應用ReLU非線性,響應歸一化活性bi由下式給出x,yTOC o 1-5 h zmin(N1,i+n/2)(bi=atk+a乂Kat/x,yx,yx,yj=max(0,i-n/2)丿其中求和覆蓋了n個“相鄰的”位于相同空間位置的核映射,N是該層中的核總數。核映射的順序當然是任意的,且在訓練開始前就確定。受到在真實神經元中發(fā)現的類型啟發(fā),

15、這種響應歸一化實現了一種側向抑制,在使用不同核計算神經元輸出的過程中創(chuàng)造對大激活度的競爭。常數k,n,a和0是超參數,它們的值要用驗證集來確定;我們使用k=2,n=5,a=10-4,0=0.75。我們在某些層應用ReLU歸一化后再應用這種歸一化(見3.5節(jié))。該方案與Jarrett等人的局部對比度歸一化方案具有一些相似之處11,但我們的方案更正確的命名為“亮度歸一化”,因為我們不減去平均活躍度。響應歸一化將我們的top-1與top-5誤差率分別減少了1.4%與1.2%。我們也驗證了該方案在CIFAR-10數據集上的有效性:四層CNN不帶歸一化時的測試誤差率是13%,帶歸一化時是11%。重疊Po

16、olingCNN中的Pooling層總結了同一核映射中鄰近神經元組的輸出。傳統上,通過鄰接pooling單元總結的鄰近關系不重疊(例如,17,11,4)。更準確地說,一個pooling層可以被認為是由間隔s像素的pooling單元網格組成,每個網格總結出一個zXz大小的鄰近關系,都位于pooling單元的中心位置。若設s=z,我們得到傳統的局部pooling,正如常用于CNN中的那樣。若設svz,我們就得到了有重疊的池化。這就是我們在自己的網絡中使用的方法,s=2,z=3。與無重疊的s=z=2相比,這一模式在產生相同維度的輸出時分別將Top-1和Top-5降低了0.4%和0.3%。我們還觀察到

17、,采用有重疊的池化能稍稍讓模型更難過擬3.5總體結構現在,我們已經準備好描述CNN的總體結構。如圖2所示,該網絡包括八個帶權層;前五層是卷積層,剩下三層是全連接層。最后一個全連接層的輸出被送到一個1000-way的softmax層,其產生一個覆蓋1000類標簽的分布。我們的網絡使得多分類的Logistic回歸目標最大化,這相當于最大化了預測分布下訓練樣本中正確標簽的對數概率平均值。第二、第四和第五個卷積層的核只連接到前一個卷積層也位于同一GPU中的那些核映射上(見圖2)。第三個卷積層的核被連接到第二個卷積層中的所有核映射上。全連接層中的神經元被連接到前一層中所有的神經元上。響應歸一化層跟在第一

18、、第二個卷積層后面。3.4節(jié)中描述的那種最大Pooling層,跟在響應歸一化層以及第五個卷積層之后。ReLU非線性應用于每個卷積層及全連接層的輸出。第一個卷積層利用96個大小為11X11X3、步長為4個像素(這是同一核映射中鄰近神經元的感受野中心之間的距離)的核,來對大小為224X224X3的輸入圖像進行濾波。第二個卷積層需要將第一個卷積層的(響應歸一化及池化的)輸出作為自己的輸入,且利用256個大小為5X5X48的核對其進行濾波。第三、第四和第五個卷積層彼此相連,沒有任何介于中間的pooling層與歸一化層。第三個卷積層有384個大小為3X3X256的核被連接到第二個卷積層的(歸一化的、池化

19、的)輸出。第四個卷積層擁有384個大小為3X3X192的核,第五個卷積層擁有256個大小為3X3X192的核。全連接層都各有4096個神經元。34B圖2:CNN體系結構示意圖,明確顯示了兩個GPU之間的職責劃分。一個GPU運行圖中頂部的層次部分,而另一個GPU運行圖中底部的層次部分。GPU之間僅在某些層互相通信。該網絡的輸入是150,528維的,且該網絡剩下各層的神經元數分別為253,440-186,624-64,896-64,896-43,264-4096-4096-1000。4減少過擬合我們的神經網絡結構有6000萬個參數。雖然ILSVRC的1000個類別使得每個訓練樣本強加10比特約束到

20、從圖像到標簽的映射上,這顯示出要學習如此多的參數而不帶相當大的過擬合,這些類別是不夠的。下面,我們描述減少過擬合的兩種主要方法。4.1數據增強減少圖像數據過擬合最簡單最常用的方法,是使用標簽-保留轉換,人為地擴大數據集(例如,25,4,5)。我們使用數據增強的兩種不同形式,這兩種形式都允許轉換圖像用很少的計算量從原始圖像中產生,所以轉換圖像不需要存儲在磁盤上。在我們的實現中,轉換圖像是由CPU上的Python代碼生成的,而GPU是在之前那一批圖像上訓練的。所以這些數據增強方案實際上是計算自由。數據增強的第一種形式由生成圖像轉化和水平反射組成。為此,我們從256X256的圖像中提取隨機的224X

21、224的碎片(還有它們的水平反射),并在這些提取的碎片上訓練我們的網絡(這就是圖2中輸入圖像是224X224X3維的原因)。這使得我們的訓練集規(guī)模擴大了2048倍,但是由此產生的訓練樣例一定高度地相互依賴。如果沒有這個方案,我們的網絡會有大量的過擬合,這將迫使我們使用小得多的網絡。在測試時,該網絡通過提取五個224X224的碎片(四個邊角碎片和中心碎片)連同它們的水平反射(因此總共是十個碎片)做出了預測,并在這十個碎片上來平均該網絡的softmax層做出的預測。數據增強的第二種形式包含改變訓練圖像中RGB通道的強度。具體來說,我們在遍及整個ImageNet訓練集的RGB像素值集合中執(zhí)行PCA。

22、對于每個訓練圖像,我們成倍增加已有主成分,比例大小為對應特征值乘以一個從均值為0,標準差為0.1的高斯分布中提取的隨機變量。這樣一來,對于每個RGB圖像像素I=Ir,Ig,Ib,我們增加下面這xyxyxyxy項:p,p,p|aX,aX,aXt123112233其中p和X分別是RGB像素值的3X3協方差矩陣的第i個特征向量與特征值,a是iii前面提到的隨機變量。每個a對于特定訓練圖像的全部像素只提取一次,直到那個圖像i再次被用于訓練,在那時它被重新提取。這個方案大致抓住了自然圖像的一個重要屬性,即,光照強度與顏色是變化的,而對象識別是不變的。該方案將top-1誤差率減少了1%以上。Dropout

23、結合許多不同模型的預測是一種非常成功的減少測試誤差的方式1,3,但它先前訓練花了好幾天時間,似乎對于大型神經網絡來說太過昂貴。然而,有一個非常有效的模型組合版本,它在訓練中只花費兩倍于單模型的時間。最近推出的叫做“dropout的技術10,它做的就是以0.5的概率將每個隱層神經元的輸出設置為零。以這種方式“droppedout”的神經元既不利于前向傳播,也不參與反向傳播。所以每次提出一個輸入,該神經網絡就嘗試一個不同的結構,但是所有這些結構之間共享權重。因為神經元不能依賴于其他特定神經元而存在,所以這種技術降低了神經元復雜的互適應關系。正因如此,要被迫學習更為魯棒的特征,這些特征在結合其他神經

24、元的一些不同隨機子集時有用。在測試時,我們將所有神經元的輸出都僅僅只乘以0.5,對于獲取指數級dropout網絡產生的預測分布的幾何平均值,這是一個合理的近似方法。我們在圖2中前兩個全連接層使用dropout。如果沒有dropout,我們的網絡會表現出大量的過擬合。dropout使收斂所需的迭代次數大致增加了一倍。5學習的詳細過程我們使用隨機梯度下降法和一批大小為128、動力為0.9、權重衰減為0.0005的樣例來訓練我們的網絡。我們發(fā)現,這少量的權重衰減對于模型學習是重要的。換句話說,這里的權重衰減不僅僅是一個正則化矩陣:它減少了模型的訓練誤差。對于權重w的更新規(guī)則為v:=0.9-v-0.0

25、005-w-ei+1iidw1叫w:=w+vi+1ii+1其中i是迭代指數,v是動力變量,8是學習率,呂w.:l-Di是目標關于W對w的導數在i第i批樣例D的平均值。i我們用一個均值為0、標準差為0.01的高斯分布初始化了每一層的權重。我們用常數1初始化了第二、第四和第五個卷積層以及全連接隱層的神經元偏差。該初始化通過提供帶正輸入的ReLU來加速學習的初級階段。我們在其余層用常數0初始化神經元偏差。我們對于所有層都使用了相等的學習率,這是在整個訓練過程中手動調整的。我們遵循的啟發(fā)式是,當驗證誤差率在當前學習率下不再提高時,就將學習率除以10。學習率初始化為0.01,在終止前降低三次。我們訓練該

26、網絡時大致將這120萬張圖像的訓練集循環(huán)了90次,在兩個NVIDIAGTX5803GBGPU上花了五到六天。6結果我們在ILSVRC-2010測試集上的結果總結于表1中。我們的網絡實現了top-1測試集誤差率37.5%,top-5測試集誤差率17.0%(若沒有如4.1節(jié)所述的在十個碎片上平均預測,誤差率是39.0%與18.3%)。ILSVRC-2010大賽中取得的最好表現是47.1%與28.2%,它的方法是用不同特征訓練六個sparse-coding模型,對這些模型產生的預測求平均值2,自那以后公布的最好結果是45.7%與25.7%,它的方法是從兩類密集采樣的特征中計算出費舍爾向量(FV),用

27、費舍爾向量訓練兩個分類器,再對這兩個分類器的預測求平均值24。ModelTop-1門屮工Sparsecoding47.1%28.2%SIFT+Fsf24l45.7%25.7%CNN37.5%17.0%表1:ILSVRC-2010測試集上的結果比較。斜體字是他人取得的最好結果。我們也在ILSVRC-2012大賽中輸入了我們的模型,并在表2中報告結果。由于ILSVRC-2012測試集標簽是不公開的,我們不能對試過的所有模型都報告測試誤差率。在本段的其余部分,我們將驗證誤差率與測試誤差率互換,因為根據我們的經驗,它們之間相差不超過0.1%(見表2)。本文所描述的CNN實現了18.2%的top-5誤差

28、率。對五個相似CNN的預測求平均值得出了16.4%的誤差率。訓練一個在最末pooling層之后還有一個額外的第六個卷積層的CNN,用以對整個ImageNet2011年秋季發(fā)布的圖像(15M張圖像,22K種類別)進行分類,然后在ILSVRC-2012上“微調”它,這種方法得出了16.6%的誤差率。用在整個2011年秋季發(fā)布的圖像上預訓練的兩個CNN,結合先前提到的五個CNN,再對這七個CNN作出的預測求平均值,這種方法得出了15.3%的誤差率。比賽中的第二名實現了26.2%的誤差率,用的方法是從不同類密集采樣的特征中計算FV,用FV訓練幾個分類器,再對這幾個分類器的預測求平均值7。Modello

29、p-l(Yallop-5(Yallop-5(test)SIFT+FVs7J一一26.2%1CNN40.7%一、CNNs16.4%lfU呢1CNN*39.0%16.6%一7CNNs*36.7%15.4%15.3%表2:在ILSVRC-2012驗證集與測試集上的誤差率比較。斜體字是由他人取得的最好結果。帶星號的模型是經過“預訓練”以對整個ImageNet2011年秋季發(fā)布的圖像集進行分類的。詳見第6節(jié)。6.1定性評價圖3顯示了通過該網絡的兩個數據連接層學習到的卷積核。該網絡已經學習到各種各樣的頻率與方向選擇核,以及各種顏色的斑點。注意兩個GPU顯現出的特性,3.5節(jié)中描述了一個結果是限制連接。GP

30、U1上的核大多數顏色不明確,而GPU2上的核大多數顏色明確。這種特性在每一次運行中都會出現,且獨立于所有特定的隨機權重初始化(以GPU的重新編數為模)。圖3:通過的輸入圖像上第一個卷積層學習到的96個大小為11*11*3的卷積核。頂部的48個核是從GPU1上學到的,底部的48個核是從GPU2上學到的。詳見6.1節(jié)。在圖4左邊面板上,通過計算該網絡在八個測試圖像上的top-5預測,我們定性地判斷它學到了什么。注意到即使是偏離中心的物體,比如左上角的一小塊,也可以被網絡識別。大多數的top-5標簽似乎合情合理。例如,只有其他類型的貓科動物被認為是對豹貌似合理的標簽。在某些情況下(鐵柵、櫻桃),對于

31、圖片意圖的焦點存在歧義。探測網絡的視覺知識有另一種方法,就是考慮由位于最后的4096維隱層上的圖像引起的特征激活。如果兩個圖像用小歐氏分離產生了特征激活向量,我們可以說,在神經網絡的更高級別上認為它們是相似的。圖4顯示了測試集中的五個圖像,以及訓練集中根據這一標準與其中每一個最相似的六個圖像。注意,在像素級別,檢索到的訓練圖像一般不會接近第一列中的查詢圖像。例如,檢索到的狗和大象表現出各種各樣的姿勢。我們會在補充材料里給出更多測試圖像的結果。通過使用兩個4096維實值向量之間的歐氏距離來計算相似性是低效的,但它可以通過訓練一個自動編碼器將這些向量壓縮為短的二進制代碼來變得高效。這應該會產生一個

32、比應用自動編碼器到原始像素要好得多的圖像檢索方法14,它不利用圖像標簽,此后還有一種用相似邊緣圖案來檢索圖像的傾向,而不論它們在語義上是否相似。圖4:(左圖)八個ILSVRC-2010測試圖像,以及被我們的模型認為最有可能的五個標簽。正確的標簽寫在每個圖像下面,正確標簽的概率也以紅色條予以顯示(若它在前5之內)。(右圖)第一列是五個ILSVRC-2010測試圖像。其余列顯示了六個訓練圖像,它們在最后的隱層產生的特征向量與測試圖像的特征向量有最小的歐氏距離。7討論我們的研究結果表明,大型深度卷積神經網絡在一個非常具有挑戰(zhàn)性的數據集上使用純粹的監(jiān)督學習,能夠達到破紀錄的結果。值得注意的是,如果有一

33、個卷積層被移除,我們的網絡性能就會降低。例如,除去任何中間層都將導致該網絡的top-1性能有2%的損失。所以該層次深度對于達到我們的結果確實是重要的。為了簡化實驗,我們沒有使用任何無監(jiān)督的預訓練,即使我們預計它將帶來幫助,特別是我們可以獲得足夠的計算能力來顯著地擴大網絡規(guī)模,而不帶來標記數據量的相應增加。到目前為止,我們的結果有所改善,因為我們已經讓網絡更大,訓練時間更久,但是為了匹配人類視覺系統的infero-temporal路徑,我們仍然有更高的數量級要去達到。最終我們想要在視頻序列上使用非常大型的深度卷積網絡,其中的瞬時結構會提供非常有用的信息,這些信息在靜態(tài)圖像中丟失了或極不明顯。參考

34、文獻R.M.BellandY.Koren.Lessonsfromthenetflixprizechallenge.ACMSIGKDDExplorationsNewsletter,9(2):75-79,2007.A.Berg,J.Deng,andL.Fei-Fei.Largescalevisualrecognitionchallenge2010. HYPERLINK /challenges /challenges.2010.L.Breiman.Randomforests.Machinelearning,45(l):5-2,2001.D.Cirsan,U.Meier,andJ.Schmidhube

35、r.Multi-columndeepneuralnetworksforimageclassification.ArxivpreprintarXiv:1202.2745,2012.D.C.Ciresan,U.Meier,J.Masci,L.M.Gambardella,andJ.Schmidhuber.High-performanceneuralnetworksforvisualobjectclassification.ArxivpreprintarXiv:1102.0183,2011.J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,andL.Fei-Fei.ImageNe

36、t:ALarge-ScaleHierarchicalImageDatabase.InCVPR09,2009.J.Deng,A.Berg,S.Satheesh,H.Su,A.Khosla,andL.Fei-Fei.ILSVRC-2012,2012.URL HYPERLINK /challenges/LSVRC/2012/ /challenges/LSVRC/2012/.L.Fei-Fei,R.Fergus,andP.Perona.Learninggenerativevisualmodelsfromfewtrainingexamples:Anincrementalbayesianapproacht

37、estedon101objectcategories.ComputerVisionandImageUnderstanding,106(1):59-70,2007.G.Griffin,A.Holub,andP.Perona.Caltech-256objectcategorydataset.TechnicalReport7694,CaliforniaInstituteofTechnology,2007.URL HYPERLINK /7694 /7694.G.E.Hinton,N.Srivastava,A.Krizhevsky,I.Sutskever,andR.R.Salakhutdinov.Imp

38、rovingneuralnetworksbypreventingco-adaptationoffeaturedetectors.arXivpreprintarXiv:1207.0580,2012.K.Jarrett,K.Kavukcuoglu,M.A.Ranzato,andY.LeCun.Whatisthebestmulti-stagearchitectureforobjectrecognition?InInternationalConferenceonComputerVision,pages2146?153.IEEE,2009.A.Krizhevsky.Learningmultiplelay

39、ersoffeaturesfromtinyimages.Masterthesis,DepartmentofComputerScience,UniversityofToronto,2009.A.Krizhevsky.Convolutionaldeepbeliefnetworksoncifar-10.Unpublishedmanuscript,2010.A.KrizhevskyandG.E.Hinton.Usingverydeepautoencodersforcontent-basedimageretrieval.InESANN,2011.Y.LeCun,B.Boser,J.S.Denker,D.

40、Henderson,R.E.Howard,W.Hubbard,L.D.Jackel,etal.Handwrittendigitrecognitionwithaback-propagationnetwork.InAdvancesinneuralinformationprocessingsystems,1990.Y.LeCun,F.J.Huang,andL.Bottou.Learningmethodsforgenericobjectrecognitionwithinvariancetoposeandlighting.InComputerVisionandPatternRecognition,200

41、4.CVPR2004.Proceedingsofthe2004IEEEComputerSocietyConferenceon,volume2,pagesII-97.IEEE,2004.Y.LeCun,K.Kavukcuoglu,andC.Farabet.Convolutionalnetworksandapplicationsinvision.InCircuitsandSystems(ISCAS),Proceedingsof2010IEEEInternationalSymposiumon,pages253-256.IEEE,2010.H.Lee,R.Grosse,R.Ranganath,andA

42、.Y.Ng.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations.InProceedingsofthe26thAnnualInternationalConferenceonMachineLearning,pages609-616.ACM,2009.T.Mensink,J.Verbeek,F.Perronnin,andG.Csurka.MetricLearningforLargeScaleImageClassification:GeneralizingtoNewCla

43、ssesatNear-ZeroCost.InECCV-EuropeanConferenceonComputerVision,Florence,Italy,October2012.V.NairandG.E.Hinton.Rectifiedlinearunitsimproverestrictedboltzmannmachines.InProc.27thInternationalConferenceonMachineLearning,2010.N.Pinto,D.D.Cox,andJ.J.DiCarlo.Whyisreal-worldvisualobjectrecognitionhard?PLoSc

44、omputationalbiology,4(1):e27,2008.N.Pinto,D.Doukhan,J.J.DiCarlo,andD.D.Cox.Ahigh-throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation.PLoScomputationalbiology,5(11):e1000579,2009.B.C.Russell,A.Torralba,K.P.Murphy,andW.T.Freeman.Labelme:adatabaseandweb-basedtool

45、forimageannotation.Internationaljournalofcomputervision,77(1):157-173,2008.J.SachezandF.Perronnin.High-dimensionalsignaturecompressionforlarge-scaleimageclassification.InComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon,pages1665-1672.IEEE,2011.P.YSimard,D.Steinkraus,andJ.C.Platt.Bestpr

46、acticesforconvolutionalneuralnetworksappliedtovisualdocumentanalysis.InProceedingsoftheSeventhInternationalConferenceonDocumentAnalysisandRecognition,volume2,pages958?62,2003.S.C.Turaga,J.F.Murray,V.Jain,F.Roth,M.Helmstaedter,K.Briggman,W.Denk,andH.S.Seung.Convolutionalnetworkscanlearntogenerateaffi

47、nitygraphsforimagesegmentation.NeuralComputation,22(2):511-53&2010.ImageNetClassificationwithDeepConvolutionalNeuralNetworksGeoffreyE.HintonAlexKrizhevskyUniversityofToronto HYPERLINK mailto:ilyacs.utoronto.ca ilyacs.utoronto.caIlyaSutskeverUniversityofToronto HYPERLINK mailto:krizcs.utoronto.ca kri

48、zcs.utoronto.caUniversityofToronto HYPERLINK mailto:hintoncs.utoronto.ca hintoncs.utoronto.caAbstractWetrainedalarge,deepconvolutionalneuralnetworktoclassifythe1.2millionhigh-resolutionimagesintheImageNetLSVRC-2010contestintothe1000differentclasses.Onthetestdata,weachievedtop-1andtop-5errorratesof37

49、.5%and17.0%whichisconsiderablybetterthanthepreviousstate-of-the-art.Theneuralnetwork,whichhas60millionparametersand650,000neurons,consistsoffiveconvolutionallayers,someofwhicharefollowedbymax-poolinglayers,andthreefully-connectedlayerswithafinal1000-waysoftmax.Tomaketrainingfaster,weusednon-saturati

50、ngneuronsandaveryefficientGPUimplementationoftheconvolutionoperation.Toreduceoverfittinginthefully-connectedlayersweemployedarecently-developedregularizationmethodcalled“dropout”thatprovedtobeveryeffective.WealsoenteredavariantofthismodelintheILSVRC-2012competitionandachievedawinningtop-5testerrorra

51、teof15.3%,comparedto26.2%achievedbythesecond-bestentry.IntroductionCurrentapproachestoobjectrecognitionmakeessentialuseofmachinelearningmethods.Toimprovetheirperformance,wecancollectlargerdatasets,learnmorepowerfulmodels,andusebettertechniquesforpreventingoverfitting.Untilrecently,datasetsoflabeledi

52、mageswererelativelysmall一ontheorderoftensofthousandsofimages(e.g.,NORB16,Caltech-101/2568,9,andCIFAR-10/10012).Simplerecognitiontaskscanbesolvedquitewellwithdatasetsofthissize,especially訐theyareaugmentedwithlabel-preservingtransformations.Forexample,thecurrentbesterrorrateontheMNISTdigit-recognition

53、task(V0.3%)approacheshumanperformance4.Butobjectsinrealisticsettingsexhibitconsiderablevariability,sotolearntorecognizethemitisnecessarytousemuchlargertrainingsets.Andindeed,theshortcomingsofsmallimagedatasetshavebeenwidelyrecognized(e.g.,Pintoetal.21),butithasonlyrecentlybecomepossibletocollectlabe

54、leddatasetswithmillionsofimages.ThenewlargerdatasetsincludeLabelMe23,whichconsistsofhundredsofthousandsoffully-segmentedimages,andImageNet6,whichconsistsofover15millionlabeledhigh-resolutionimagesinover22,000categories.Tolearnaboutthousandsofobjectsfrommillionsofimages,weneedamodelwithalargelearning

55、capacity.However,theimmensecomplexityoftheobjectrecognitiontaskmeansthatthisproblemcannotbespecifiedevenbyadatasetaslargeasImageNet,soourmodelshouldalsohavelotsofpriorknowledgetocompensateforallthedatawedonthave.Convolutionalneuralnetworks(CNNs)constituteonesuchclassofmodels16,11,13,18,15,22,26.Thei

56、rcapacitycanbecontrolledbyvaryingtheirdepthandbreadth,andtheyalsomakestrongandmostlycorrectassumptionsaboutthenatureofimages(namely,stationarityofstatisticsandlocalityofpixeldependencies).Thus,comparedtostandardfeedforwardneuralnetworkswithsimilarly-sizedlayers,CNNshavemuchfewerconnectionsandparamet

57、ersandsotheyareeasiertotrain,whiletheirtheoretically-bestperformanceislikelytobeonlyslightlyworse.DespitetheattractivequalitiesofCNNs,anddespitetherelativeefficiencyoftheirlocalarchitecture,theyhavestillbeenprohibitivelyexpensivetoapplyinlargescaletohigh-resolutionimages.Luckily,currentGPUs,pairedwi

58、thahighly-optimizedimplementationof2Dconvolution,arepowerfulenoughtofacilitatethetrainingofinterestingly-largeCNNs,andrecentdatasetssuchasImageNetcontainenoughlabeledexamplestotrainsuchmodelswithoutsevereoverfitting.Thespecificcontributionsofthispaperareasfollows:wetrainedoneofthelargestconvolutiona

59、lneuralnetworkstodateonthesubsetsofImageNetusedintheILSVRC-2010andILSVRC-2012competitions2andachievedbyfarthebestresultseverreportedonthesedatasets.Wewroteahighly-optimizedGPUimplementationof2Dconvolutionandalltheotheroperationsinherentintrainingconvolutionalneuralnetworks,whichwemakeavailablepublic

60、ly1.Ournetworkcontainsanumberofnewandunusualfeatureswhichimproveitsperformanceandreduceitstrainingtime,whicharedetailedinSection3.Thesizeofournetworkmadeoverfittingasignificantproblem,evenwith1.2millionlabeledtrainingexamples,soweusedseveraleffectivetechniquesforpreventingoverfitting,whicharedescrib

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論