卷積遞歸深度學(xué)習(xí)在3D物體分類上的應(yīng)用_第1頁
卷積遞歸深度學(xué)習(xí)在3D物體分類上的應(yīng)用_第2頁
卷積遞歸深度學(xué)習(xí)在3D物體分類上的應(yīng)用_第3頁
卷積遞歸深度學(xué)習(xí)在3D物體分類上的應(yīng)用_第4頁
卷積遞歸深度學(xué)習(xí)在3D物體分類上的應(yīng)用_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、卷積遞歸深度學(xué)習(xí)在3D物體分類中的應(yīng)用(Convolutional-Recursive Deep Learning for 3D Object Classification)Richard Socher, Brody Huval, Bharath Bhat, Christopher D. Manning, Andrew Y. NgComputer Science Department, Stanford University, Stanford, CA 94305, USA摘 要3D傳感技術(shù)的最新進展使人們有可能輕松地拍攝彩色和深度信息并存的圖片,以提高物體識別的圖像。目前,大多數(shù)方法對于這個

2、新的3D方式依賴于非常精心設(shè)計的特征。引入一個基于卷積和遞歸神經(jīng)網(wǎng)絡(luò)(CNN和RNN)組合的模型,用于特征學(xué)習(xí)和RGB-D圖像分類。CNN層用于學(xué)習(xí)低水平的平移不變性的特征,然后作為多個固定樹RNN的輸入,以組成高階特征。RNN可以被看作是結(jié)合卷積,并匯集到一個高效的、分層的操作。我們的主要結(jié)果是,甚至隨機權(quán)重的RNN也組成強大的特征集。我們的模型在標(biāo)準(zhǔn)RGB-D對象集上獲得了較好的藝術(shù)表現(xiàn)力,與其他可比的架構(gòu)相比(如兩層CNN),在訓(xùn)練和測試的階段能更準(zhǔn)確、快捷地得到結(jié)果。1 簡介物體識別是計算機視覺中最困難的問題之一,并對于實用化家庭環(huán)境下的機器人十分重要。新的傳感技術(shù)(如Kinect)可

3、以記錄高品質(zhì)RGB和深度圖象(RGB-D)信息,并且現(xiàn)在已經(jīng)結(jié)合標(biāo)準(zhǔn)視覺系統(tǒng)在家用機器人中運用了。深度模式為復(fù)雜問題的總體目標(biāo)檢測提供有用的額外信息,由于深度信息是不隨亮度或顏色的變化而變化的,并提供了幾何線索使得可以更好地從背景中分離。目前,大多數(shù)基于RGB-D圖像的物體識別使用手工設(shè)計的特征集,如二維圖像的SIFT 2,三維點云的旋轉(zhuǎn)圖片3,或特定的顏色,形狀和幾何特征4,5。本文介紹了用于對象識別的第一卷積遞歸深度學(xué)習(xí)模型,該模型可以借鑒原始RGB-D圖像。相比近期其他3D特征學(xué)習(xí)方法6,7,我們的做法具有更快速度、不需要額外的輸入渠道(如表面法線)、藝術(shù)性地檢測家用物品的特點。圖圖1列

4、出了我們的做法。訓(xùn)練和測試代碼在上可以找到。模型采用原始的RGB和深度圖像進行分析,并首次分別從中提取特征。每一種模式首先輸入一個卷積神經(jīng)網(wǎng)絡(luò)層(CNN,8),這個網(wǎng)絡(luò)層提供了低層特征(如邊緣)上有效的平移不變性,并且允許對象在一定程度上變形。匯集的濾波器相應(yīng)隨后傳送給一個遞歸神經(jīng)網(wǎng)絡(luò)(RNN,9),它可以學(xué)習(xí)成分特征和部分交互作用。通過綁定權(quán)重和非線性的多個層次,將RNN分層地投入到低維空間中。本文也探索了計算機視覺中新的深度學(xué)習(xí)架構(gòu)。之前,RNN在自然語言處理和計算機視覺9,10方面的工作中,(i)為每組輸入使用了不同的樹型結(jié)構(gòu),(ii)采用具有一組權(quán)重的單一R

5、NN,(iii)限制樹狀結(jié)構(gòu)為二叉樹,及(iv)通過結(jié)構(gòu)的反向傳播訓(xùn)練RNN11,12。在本文中,利用固定樹結(jié)構(gòu)、輸入多個BNN和N叉樹的方法,針對這四個方面拓展基于RNN結(jié)構(gòu)的可能性。由此表明,由于CNN層中固定的樹結(jié)構(gòu)不僅不會降低性能,而且提高了識別速度。類似于近期的工作13,14可見,隨著特征數(shù)量的增加,RNN模型的性能也隨之提高。每種模式分層組成的RNN特征相互連接,作為聯(lián)合SOFTMAX分類器的輸入圖1:模型概述:一個從RGB和深度圖像信息中提取低層特征的單一CNN層。這兩種表示法都作為一組隨機加權(quán)RNN的輸入。若干個RNN(每個模式約100個)將特征遞歸映射到一個較低的維空間中,所

6、有結(jié)果向量的串聯(lián)形成最終的SOFTMAX分類器特征向量。最重要的是,經(jīng)證實,隨機權(quán)重的RNN也可以得到高質(zhì)量的特征。到目前為止,隨機權(quán)重僅被證明可用于卷積神經(jīng)網(wǎng)絡(luò)15,16。由于監(jiān)督訓(xùn)練減少了最終SOFTMAX分類器的權(quán)重的優(yōu)化,可以很快地發(fā)掘大量的RNN結(jié)構(gòu)。綜上所述,得到了一個既能快速訓(xùn)練,又能在測試階段高度并行的3D物體分類藝術(shù)系統(tǒng)。首先,本文簡要介紹了過濾器權(quán)重及其卷積的無監(jiān)督學(xué)習(xí),由此得到低級的特征。其次,詳細(xì)描述了如何用多個隨機RNN用來獲得整幅圖像的高水平特征。最后,討論了相關(guān)工作。實驗中,定量比較了不同的模型,分析了模型的消融,描述得到Lai2等人的RGB-D數(shù)據(jù)集結(jié)果2 卷積

7、遞歸神經(jīng)網(wǎng)絡(luò)本節(jié)描述了新建立的CNN-RNN模型。首先,利用隨機曲面的聚類使CNN過濾器進行無監(jiān)督學(xué)習(xí),然后將這些曲面轉(zhuǎn)化成CNN層。將所得低級別、平移不變的特征傳遞給遞歸神經(jīng)網(wǎng)絡(luò)。由高階特征組成的RNN可被用于圖像分類。2.1 CNN過濾器的無監(jiān)督預(yù)訓(xùn)練根據(jù)Coates13等人描述的過程,學(xué)習(xí)在卷積中要使用的過濾器。首先,根據(jù)模式(RGB和深度)提取隨機曲面到兩個集合中,然后對每組曲面進行規(guī)范化和白化。預(yù)處理后的曲面用簡單k-means方法進行聚類操作,圖2展示了兩種方法得到的過濾器,他們捕獲了標(biāo)準(zhǔn)邊緣和顏色特征。在深度通道應(yīng)用此方法的一個結(jié)果是銳化物體邊界,這是因為物體邊界和背景較大的不連

8、續(xù)性,雖然深度通道往往有很多噪聲,但是大部分特征依然平滑。圖2:非監(jiān)督預(yù)訓(xùn)練后CNN層中k-means過濾器的可視化:(左)標(biāo)準(zhǔn)RGB過濾器(顏色顯示效果最好)捕獲邊緣和顏色。當(dāng)此方法適用于深度圖象(中),由于物體邊界強烈的不連續(xù)性,所得到的過濾器具有較明顯的邊緣。與使用圖像的灰度信息訓(xùn)練得到的過濾器(右)相比,得到的結(jié)果是類似的,盡管邊緣銳化程度較小。2.2 單層CNN由于CNN結(jié)構(gòu)具有平移不變性特點,選擇CNN生成RNN層的特征。 CNN的主要思想是,將輸入圖像卷積過濾,從而提取特征集。文中使用的單層CNN與Jarrett17等提出的類似,在矯正和局部對比度標(biāo)準(zhǔn)化(LCN)后包含一個卷積過

9、程。LCN的設(shè)計靈感來自于計算神經(jīng)科學(xué),被用于在一個特征映射內(nèi)對比特征以及相同空間位置的跨特征映射17 , 18 ,14 。將每個圖像的大?。ǜ吆蛯挘ヾI與K方形過濾器的大小dp進行卷積,每個維度大小為dI-dp+1,得到K濾波器的響應(yīng)。然后用方形區(qū)域大小dl和步幅大小s取均值,匯集得到一個寬和高都等于r=(dI-dl)/s+1的響應(yīng)。因此,一幅圖像通過CNN層得到的輸出X是一個K×r×r的三維矩陣。分別在顏色和深度圖像信息中進行以上步驟。2.3固定樹遞歸神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)19,10的思路是在一個樹狀結(jié)構(gòu)中遞歸地應(yīng)用相同的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)分層特征表示形式。本例中,樹的葉節(jié)點

10、是K維向量(一張圖像切片的CNN匯集結(jié)果在所有K過濾器上重復(fù)),一共有r2個。在我們之前的遞歸神經(jīng)網(wǎng)絡(luò)的工作9,10,20中,樹的結(jié)構(gòu)取決于輸入。雖然這樣做有更大的靈活性,但是對于在關(guān)聯(lián)CNN層的物體分類任務(wù)中獲得高性能是不必要的。此外,在最優(yōu)樹上的搜索大大降低了這個方法的速度,因為并行搜索和并行化大矩陣產(chǎn)品不容易實現(xiàn)。后者可以從新的多核硬件(如GPU)中獲益匪淺。在這項工作中,重點在于設(shè)計出平衡的固定樹結(jié)構(gòu)。之前的工作只是合并了向量對,本文將RNN結(jié)構(gòu)由合并向量對推廣到允許合并各層鄰向量塊。由每個圖像的3D矩陣XRK×r×r開始(列是K維的),定義一個全為相鄰列向量的塊,

11、合并為一個父向量pRK。為方便起見,下文只使用方形塊,塊的大小為K×b×b。例如,如果以b=3合并一個向量組為一個塊,最終得到大小為128×3×3的塊和一張向量組結(jié)果列表(x1,x9)。一般情況下,在每個塊中有b2個向量,神經(jīng)網(wǎng)絡(luò)中計算父向量的公式是 (1)其中,參數(shù)矩陣WRK×b2K,f是非線性的(如tanh),由于偏置對下面的實驗沒有影響,省去這個術(shù)語。式1以相同權(quán)重W,應(yīng)用于X中所有向量的塊。一般而言,有(r/b)2個父向量p組成一個新的矩陣P1。正如在矩陣X中運用公式1一樣,P1中的向量以同樣固定的權(quán)重合并成塊,形成矩陣P2。重復(fù)以上步

12、驟直到只剩一個父向量位置。圖3給出了一個從K×4×4合并輸出CNN及有4個子塊的RNN樹結(jié)構(gòu)的例子圖3:塊中應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò):對于每個節(jié)點,運用相同的神經(jīng)網(wǎng)絡(luò)計算一組子向量的父向量。原始輸入矩陣是卷積合并的輸出。目前為止,模型是非監(jiān)督的。但是,最初的任務(wù)是將每個塊分類成許多對象類別。因此,選取頂層向量Ptop作為softmax分類的特征向量。為了盡量減小softmax的交叉熵誤差,可以通過遞歸神經(jīng)網(wǎng)絡(luò)12和卷積層8反向傳播。實踐證明,該操作速度較慢,將在本文下一節(jié)中討論其他方法。2.4多元隨機RNN以前的工作只使用了一個RNN,實際上可以采用3D矩陣X作為一組RNN的輸入,

13、每N個RNN輸出一個K維向量。在通過所有RNN向前傳播后,將所有輸出串聯(lián)成N個K維向量,隨后傳遞給softmax分類器。采用RNN中W矩陣的導(dǎo)數(shù)需要通過結(jié)構(gòu)反向傳播,實驗發(fā)現(xiàn),隨機權(quán)重的RNN能夠得到高質(zhì)量的特征向量組,類似的結(jié)果在隨機權(quán)重密切相關(guān)的CNN中也存在。在對比其他方法前,先簡要回顧一下相關(guān)工作。3 相關(guān)工作使用RGB-D數(shù)據(jù)進行目標(biāo)識別和場景理解一直是研究熱點,Silberman和Fergus已經(jīng)發(fā)表了關(guān)于全場景理解的三維數(shù)據(jù)21,Koppula等人近期也整理出了室內(nèi)場景分割的新數(shù)據(jù)集4。如今在標(biāo)準(zhǔn)對象識別方面最常用的方法是利用基于方向直方圖設(shè)計的特征集,如SIFT、SURF和紋理

14、基元,將他們作為分類器(如隨機森林)的輸入。盡管這些方法有成功的方面,但是,也有一些缺點:如只能適用于一種模式(SIFT只能用于灰度圖像);不容易適應(yīng)新的模式,如RGB-D或不同的圖像域。本研究嘗試以下方法:通過顏色直方圖修改這些特征以適應(yīng)彩色圖像,干脆將SIFT方法拓展到深度通道中2。內(nèi)核描述符5作為一種更先進的方法可以概括這些想法,并且可以結(jié)合幾個重要的RGB-D圖像特性(如大小、三維形狀和深度邊緣)。另一條相關(guān)工作線是對象分類中的空間錐體,特別是與內(nèi)核匹配的錐體24。相似之處在于,設(shè)計的模型也學(xué)習(xí)了分層圖像表示,可用于對象分類。上述問題的另一種解決方案,是(在其他方面)采用無監(jiān)督的特征學(xué)

15、習(xí)方法25,26,27,這個方法在對象識別方面已經(jīng)取得了很大的進展。目前,許多深度學(xué)習(xí)的方法是從RGB圖像中學(xué)習(xí)得特征,幾乎沒有研究三維圖像的深度結(jié)構(gòu)。最近,Blum等6在RGB-D數(shù)據(jù)中引入卷積k-means描述符(CKM)。他們采用了SURF相關(guān)的點,與28類似以k-means學(xué)習(xí)特征。在用非監(jiān)督方法學(xué)習(xí)特征方面,他們的工作跟我們是類似的。Bo7等最近的工作,是采用基于稀疏編碼的非監(jiān)督學(xué)習(xí)的特征,從包括灰度強度、RGB、深度標(biāo)量和表面法線的8個不同渠道中學(xué)習(xí)詞典。這些特征隨后用于包含兩層的分層匹配追蹤,每層由三個模塊:批處理正交匹配追蹤,合并最大錐體和標(biāo)準(zhǔn)化對比度。最后得到一個非常大的用于

16、分類的特征向量,這個向量的維度大小是188300。最后,Pollack19和Socher10等為在實驗環(huán)節(jié)中定量對比,引入遞歸自編碼。遞歸神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于全場景分割9,但是他們使用的是手工設(shè)計特征。Farabet29等也在場景分割中引入了一個模型,這個模型基于多標(biāo)度卷積神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)特征表示形式。4 實驗實驗基于Lai等人2最近的RGB-D數(shù)據(jù)集。其中,有51個不同類別的家用物品和300個這些類別的實例,每個對象實例從3個不同的角度成像,每個實例獲得將近600幅圖像,數(shù)據(jù)集包含一共207920張RGB-D圖像。在600張圖像中以每5幀的間隔進行二次抽樣,對每個實例匯總成120張圖像。此項工作

17、注重于類別識別的問題,采用與2相同的設(shè)置以及他們所提供的10個隨機分割。所有的動向在一個單獨的分割上進行,模型消融在這10個分割中的一個中進行。對于每個分割的測試集,從每個類中列舉一個對象,形成51個測試對象,每個對象有大約120張獨立分類的圖像,由此產(chǎn)生34000張圖像來訓(xùn)練模型。在圖像被傳遞給CNN前,調(diào)整其大小為dI=148。在所有實驗中對CNN過濾器都使用非監(jiān)督預(yù)訓(xùn)練,在從每個分塊的訓(xùn)練集中隨機抽取的500000張圖像曲面中運用k-means。在非監(jiān)督預(yù)訓(xùn)練前,分別將原值減去均值并除以方差,對9×9×3的RGB曲面和9×9的深度曲面標(biāo)準(zhǔn)化。此外,原始圖像采

18、用ZCA白化去除像素間的關(guān)聯(lián)和冗余特征30。執(zhí)行一個有效的卷積包含K=128的過濾器組和長寬都為9的過濾器。執(zhí)行合并界限為dl=10、步長為s=5的均值合并,每張圖像得到一個大小為128×27×27的三維矩陣。每個RNN在空間上都有大小為3×3的不重疊的子集,由此,在樹的每個深度上可得:XR128×27×27到P1R128×9×9到P2R128×3×3最終得P3R128。在每種模式中用隨機采用128個原始RNN。通過串聯(lián)最終維數(shù)為2×1282=32768的特征集,將RGB和深度信息組合起來。4.

19、1 與其他方法的對比表1:對比本文的CNN-RNN方法與其他多個相關(guān)方法。我們的方法優(yōu)于出來Bo等人的其他方法,Bo等的方法利用了一個額外輸入模式:表面法線。在本節(jié)中,對比在文獻中的其他相關(guān)模型。表1列舉了主要的精度數(shù)據(jù),與2,5,6,7發(fā)布的結(jié)果對比,Bo5等人最近的工作探討了許多特征(包括3D形狀、對象的物理大小、深度邊緣、梯度、PCA內(nèi)核、局部二進制模式等)上的多內(nèi)核描述符。相反,我們實驗中的特征是從原始顏色和深度圖像中通過非監(jiān)督學(xué)習(xí)得到的。Blum等人6的實驗中也學(xué)習(xí)了特征描述符,并且稀疏地應(yīng)用于感興趣的方面。我們的方法優(yōu)于除了Bo等7以為的其他方法,與我們的方法相比,他們的方法在需要

20、5倍于我們內(nèi)存大小的最終特征集的基礎(chǔ)上,比我們的方法效果大了0.7%。他們在RGB和深度通道的基礎(chǔ)上另外使用了表面發(fā)現(xiàn)和灰度信息,并且用基于稀疏編碼的非監(jiān)督方法學(xué)習(xí)這些輸入信息。就大輸入維數(shù)的速度而言,稀疏編碼不能很好地擴展31。4.2 模型分析通過幾個消融和模型的變化,分析本文的模型。除非另有說明,本研究選取一個分塊作為實驗對象,重點在于RGB圖像和隨機權(quán)重的RNN。兩層CNN:圖4(左)展示了我們的CNN-RNN模型和一個兩層CNN的對比。對比了以前推薦的CNN體系和一個用k-means訓(xùn)練的過濾器,在兩種設(shè)置中,CNN-RNN優(yōu)于兩層CNN。因為它涉及的矩陣乘法更少,在實驗中,與一個第二

21、層的CNN層比較大約快了4倍。然而,我們方法中的主要瓶頸仍然在第一層的CNN中。兩種模型均可受益于快速GPU的實現(xiàn)32,33。無條件權(quán)重的樹型結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò):圖4(左)同樣給出了當(dāng)隨機RNN的權(quán)重在樹中各層中是無條件情況下的結(jié)果(TNN)。換言之,在樹的不同深度中使用不同的隨機權(quán)重。由于權(quán)重仍然與各層相關(guān)聯(lián),這樣的設(shè)置可看作步長大小與過濾器大小相等的卷積。由于在技術(shù)性這不是一個遞歸神經(jīng)網(wǎng)絡(luò),因此,稱之為樹神經(jīng)網(wǎng)絡(luò)(TNN)。雖然這樣大大增加了參數(shù),降低了性能,但是事實上,在RNN中分配權(quán)重是有益的。訓(xùn)練后的RNN:圖4(左)中展示了另一個對比,多個隨機RNN和單個訓(xùn)練后的RNN。對RNN訓(xùn)練程序

22、、目標(biāo)(如同10所示,在各層中添加重建成本;在各層或只在頂端節(jié)點中分類)、正規(guī)化、層的大小進行仔細(xì)的交叉驗證。與128個隨機RNN(差異2%)相比,最佳性能仍然存在缺陷,訓(xùn)練時間也更長一些。隨著更有效的基于GPU的實施,訓(xùn)練多個RNN有可能實現(xiàn)。隨機RNN數(shù):圖4(中)表明,增加隨機RNN數(shù)目可以提高性能,在這個數(shù)據(jù)集上,最后當(dāng)數(shù)目取64時趨于穩(wěn)定。RGB與深度的組合及特征集:圖4(右)表面,從RNN中將RGB和深度特征集結(jié)合起來可以提高性能。兩種模式相互補充,產(chǎn)生的特征集具有充分的獨立性,因而,分類可以從他們的組合中獲益。像素和深度上的全局自編碼:本實驗探究了相比單純使用原始像素的單層特征集

23、,使用CNN-RNN方法是否能得到更好的特征集。例如Coates and Ng 28等人的方法展示了一個單一廣泛層的顯著效果。全局自編碼只達(dá)到了61.1%(在93.3%的訓(xùn)練精度下是過擬合的)。本研究對隱藏單元和稀疏參數(shù)的數(shù)目進行了交叉驗證。結(jié)果表明,在特征表示形式中,與單層自編碼相比,隨機遞歸神經(jīng)網(wǎng)絡(luò)可以清晰地捕捉到更多的相關(guān)類結(jié)構(gòu)。圖4:開發(fā)塊的模型分析。左:不同預(yù)訓(xùn)練下兩層CNN和CNN-RNN的對比(17和13)。TNN是在各層中權(quán)重是無條件的樹型結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),tRNN是經(jīng)過方向傳播訓(xùn)練的單個RNN(詳情見本文)。我們模型在隨機RNN的情況下達(dá)到最優(yōu)性能(以*標(biāo)記)。中:增加RNN數(shù)量

24、能夠提高性能。右:在開發(fā)塊上組合兩種模式可以將性能提高到88%。4.3 誤差分析圖5:CNN-RNN模型的混淆矩陣。y軸表示真實標(biāo)簽,x軸表示預(yù)測標(biāo)簽。大多數(shù)錯誤分類集中在(a)大蒜和蘑菇(b)食品盒和紙巾。圖5展示了所有51類的混淆矩陣。大多數(shù)模型的混淆矩陣合理地表明,在原始像素和深度信息中遞歸深度學(xué)習(xí)方法可以獲得高質(zhì)量的特征。我們最后分類錯誤的唯一一個類是蘑菇,因為它外觀跟大蒜很像。圖6展示了4對容易混淆的類。大蒜和蘑菇在外觀和顏色上都很像。礦泉水瓶和洗發(fā)水瓶在分類上也是有問題的,因為紅外傳感器不能從表面上正確反映。圖6:混淆類例子:洗發(fā)水瓶和水杯,蘑菇被標(biāo)為大蒜,由于形狀和顏色類似棒球投

25、手被分類為帽子,白色棒球帽在某個角度被分為紙巾盒5 結(jié)論本文基于卷積和遞歸神經(jīng)網(wǎng)絡(luò)引入了一個新的模型。不同于以前的RNN模型,我們固定了樹的結(jié)構(gòu),允許合并多個向量,利用了多個RNN權(quán)重,保持參數(shù)的初始化是隨機的。這個結(jié)構(gòu)支持并行化和高速,結(jié)構(gòu)優(yōu)于兩層CNN,并且在沒有任何外部特征的情況下獲得了很好的性能(state of the art)。本文還論證了卷積和遞歸特征學(xué)習(xí)在深度圖像新領(lǐng)域下的適用性。致謝感謝Stephen Miller and Alex Teichman在三維圖像上的建議,Adam Coates的圖像預(yù)處理提示,Ilya Sutskever和Andrew Maas的紙上意見。我們

26、感謝匿名評論有見地的意見。Richard是由微軟研究院的博士研究生獎學(xué)金支持的。該作者特別感謝美國國防部高級研究計劃局(DARPA)的支持機讀計劃在美國空軍研究實驗室(AFRL)主合同號no. FA8750-09-C-0181,和DARPA的合同編號FA8650-10-C-7020的深度下的學(xué)習(xí)計劃。任何意見,結(jié)果,結(jié)論或建議,在這份材料中隸屬與作者,不反映DARPA,美國空軍研究實驗室,或美國政府的觀點。參考文獻1 M. Quigley, S. Batra, S. Gould, E. Klingbeil, Q. Le, A.Wellman, and A.Y. Ng. High-accurac

27、y 3D sensingfor mobile manipulation: improving object detection and door opening. In ICRA, 2009.2 K. Lai, L. Bo, X. Ren, and D. Fox. A Large-Scale Hierarchical Multi-View RGB-D Object Dataset. InICRA, 2011.3 A. Johnson. Spin-Images: A Representation for 3-D Surface Matching. PhD thesis, Robotics Ins

28、titute,Carnegie Mellon University, 1997.4 H.S. Koppula, A. Anand, T. Joachims, and A. Saxena. Semantic labeling of 3d point clouds for indoorscenes. In NIPS, 2011.5 L. Bo, X. Ren, and D. Fox. Depth kernel descriptors for object recognition. In IROS, 2011.6 M. Blum, J. T. Springenberg, J. Wlfing, and

29、 M. Riedmiller. A Learned Feature Descriptor for ObjectRecognition in RGB-D Data. In ICRA, 2012.7 L. Bo, X. Ren, and D. Fox. Unsupervised Feature Learning for RGB-D Based Object Recognition. InISER, June 2012.8 Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to docume

30、nt recognition.Proceedings of the IEEE, 86(11), November 1998.9 R. Socher, C. Lin, A. Y. Ng, and C.D. Manning. Parsing Natural Scenes and Natural Language withRecursive Neural Networks. In ICML, 2011.10 R. Socher, J. Pennington, E. H. Huang, A. Y. Ng, and C. D. Manning. Semi-Supervised RecursiveAuto

31、encoders for Predicting Sentiment Distributions. In EMNLP, 2011.11 C. Goller and A. K¨uchler. Learning task-dependent distributed representations by backpropagationthrough structure. In Proceedings of the International Conference on Neural Networks (ICNN-96), 1996.12 R. Socher, C. D. Manning, a

32、nd A. Y. Ng. Learning continuous phrase representations and syntactic parsingwith recursive neural networks. In Proceedings of the NIPS-2010 Deep Learning and UnsupervisedFeature Learning Workshop, 2010.13 A. Coates, A. Y. Ng, and H. Lee. An Analysis of Single-Layer Networks in Unsupervised Feature

33、Learning.Journal of Machine Learning Research - Proceedings Track: AISTATS, 2011.14 Q.V. Le, M.A. Ranzato, R. Monga, M. Devin, K. Chen, G.S. Corrado, J. Dean, and A.Y. Ng. Buildinghigh-level features using large scale unsupervised learning. In ICML, 2012.15 Kevin Jarrett, Koray Kavukcuoglu, MarcAure

34、lio Ranzato, and Yann LeCun. What is the best multi-stagearchitecture for object recognition? In ICCV, 2009.16 A. Saxe, P.W. Koh, Z. Chen, M. Bhand, B. Suresh, and A. Y. Ng. On random weights and unsupervisedfeature learning. In ICML, 2011.17 K. Jarrett and K. Kavukcuoglu and M. Ranzato and Y. LeCun

35、. What is the Best Multi-Stage Architecturefor Object Recognition? In ICCV. IEEE, 2009.18 N. Pinto, D. D. Cox, and J. J. DiCarlo. Why is real-world visual object recognition hard? PLoS ComputBiol, 2008.19 J. B. Pollack. Recursive distributed representations. Artificial Intelligence, 46, 1990.20 R. S

36、ocher, E. H. Huang, J. Pennington, A. Y. Ng, and C. D. Manning. Dynamic Pooling and UnfoldingRecursive Autoencoders for Paraphrase Detection. In NIPS. MIT Press, 2011.21 N. Silberman and R. Fergus. Indoor scene segmentation using a structuredlight sensor. In ICCV -Workshop on 3D Representation and R

37、ecognition, 2011.22 H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool. Speeded-Up Robust Features (SURF). Computer Visionand Image Understanding, 110(3), 2008.23 A. E. Abdel-Hakim and A. A. Farag. CSIFT: A SIFT descriptor with color invariant characteristics. InCVPR, 2006.24 K. Grauman and T. Darrell. The Pyramid Match Kernel: Discriminative Classification with Sets of ImageFeatures. ICCV, 2005.25 G. Hinton and R. Sala

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論