thesis基于條件對抗網(wǎng)絡立體匹配算法_第1頁
thesis基于條件對抗網(wǎng)絡立體匹配算法_第2頁
thesis基于條件對抗網(wǎng)絡立體匹配算法_第3頁
thesis基于條件對抗網(wǎng)絡立體匹配算法_第4頁
thesis基于條件對抗網(wǎng)絡立體匹配算法_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

SubmittedintotalfulfillmentoftherequirementsforthedegreeofMasteriyImportantMajorStereomatchingusingconditionaladversarialDepartmentofComputerScience,SEIEEShanghaiJiaoTongUniversityShanghai,StereomatchingusingconditionaladversarialStereomatchingisoneoftheoldestandstillpopulartopicsincomputervisionresearch.Itsistosimulatethehumanvisualsystem.Usinocamerasaseyesandgorithmasthebrain,stereomatchingtasktriestorestorethedepthinformationfromtwotwo-dimensionalimagesofthesurroundings.Stereomatchingplaysavitalroleinmanycomputervisionappli-cations,suchas3Dreconstruction,autonomousdrivingandsomatosensorygames.Thecoretaskofastereomatchingalgorithmistocomputethecorrespondenceofeachpixelbetweentwoimagesandthentoproducecorrespondingdisparitymaps.Here,adisparitymapcanbeconvertedintoadepthmapbymathematicaltransformation.Thetraditionalstereomatchingalgorithmscanbedividedintothreemaincategories.Theyarelocalmethods,globalmethodsandconfidence-basedmethods.Inrecentyears,withthepowerfulfeaturelearningability,deeplearninghasgreatlyimprovedtheperformanceofthestereomatchingbycombiningitselfwiththesethreekindsofmethods.Recently,onenewbranchofdeeplearning,adversarialnetwork,hasattractedincreasingattentionsforthepromisingperfromance.Thispapertriestopresenttheapplicationofconditionaladversarialnetworkstostereomatchingtask.Ourapproachworkswithaconditionaladversarialnetworkthatconsistsoftwosub-networks:oneisageneratorthatlearnsthemapfromapairofcameraimagestoadensedisparitymap,andtheotherisadiscriminatorthatdistinguisheswhetherthedisparitymapcomesfromthegroundtruthorfromterator.Here,bothteratorandthediscrimi-natortakethesamecameraimagepairasaninputcondition.Thispaperperformsanadversarialtrainingprocessonthesetwosub-networkstolearnsomething,.Duringtheadversarialtrainingprocess,generatortriestopredictdisparitymapsfromcameraimagesasaccurayaspossible,untilthediscriminatorcannotdistinguishthemfromtheground-truthdispairtymaps.Whilethedisciminatortriestocapturethedifferencesbetweengenerateddisparitymapandtheground-truthdisparitymapstofindoutteratedonesfromallinputdisparitymaps.Astheadversarialtraininggoeson,ourdiscriminatorgraduallycaptureshigh-level1 研究背景1 匹配概述.............................1 匹配需要克服的難 ......................2 匹配的研究方法.........................3 匹配的基本流程.........................4 相關工作 局部方法及其例 .......................... 全局方法及其例 .......................... 置信度方法及其例子 研究以及本文貢獻............................ 結構....................................神經(jīng)網(wǎng)絡概 ................................. 神經(jīng)元與神經(jīng)網(wǎng) .......................... 神經(jīng)網(wǎng)絡中的運 .......................... 深度學習的發(fā)展 深度學習中的基礎模塊 卷積層 激活函數(shù) 池化層 全連接層 目標函數(shù) 深度學習經(jīng)典網(wǎng)絡架構 Alex-Net................................VGG- 全卷積網(wǎng) U- 全卷積網(wǎng) Siamese網(wǎng) 全卷積網(wǎng) 第三章深度學匹配中的應 部分階段應用深度學 端到端的深度學 置信度方法中的深度學 第四章基于條件對抗生成網(wǎng)絡的匹配算 對抗訓練框 生成對抗網(wǎng) 條件生成對抗網(wǎng) 網(wǎng)絡結 生成網(wǎng) 判別網(wǎng) 第五章實驗結果與分 數(shù)據(jù) 訓練細 激活函 數(shù)據(jù)預處 權值初始 批處理 優(yōu)化方 優(yōu)化超參 正則化方 的目標函 5.2.價指 5.2.10重要參數(shù)匯 定量結果和定性結 單輸入模 雙輸入模 對抗項的正則化性 第六章全文總結以及未來工作展 全文總 未來工 參考文 攻 期間的學術 51匹配系統(tǒng)概述3Middlebury數(shù)據(jù)集...............................5KITTI數(shù)據(jù)集6全卷積網(wǎng)絡U-Net......................................Siamese網(wǎng)絡一對相機的RGB圖像作為輸入來產(chǎn)生一幅對應的稠密視差圖。隨后,鑒鑒別器判斷出該樣本是否是生成的。這里,和鑒別器都是以同樣的一對RGB圖像作為輸入條件的。................. 條件對抗網(wǎng)絡的結

SceneFlow的driving子數(shù)據(jù)集從左到右依次是:相機左圖和視差圖左圖 SceneFlow數(shù)據(jù)集上的定性結果.從左到右依次是:相機左圖,圖以及真實視差圖 對抗損失項對生成的視差圖的影響.從左到右依次是:相機左圖,抗損失項的生成視差圖,帶有對抗損失項的生成視差圖........... 第一 緒匹配(StereoMatching)算法。 基于主動傳感器的方法。主動傳感器的是含有光源的。其估計場景深度的有商業(yè)產(chǎn)品問世,包括應用于無人駕駛中的LIDAR(LightDetectionAndRanging)傳感器以及應用于體感的Kinect傳感器。動傳感器不含光源。估計場景深度的方法是,用一個或多個相機來替代人視差為0。因此,估計場景深度的任務可以轉化成估計場景視差的任務。下面,對匹配的任務作出形式化的描述:給定兩張,分別是兩個相機從不同水平位置拍攝得到的,即左圖和右圖。目標是針對其中的某一張圖(左圖和右圖的水平坐標的差值——即一個在左圖(x,y)位置出現(xiàn)的物體將會在右圖的(x?d,y)位置出現(xiàn)。而在得知了一個物體的視差d之后,可以通過以下公式計算出它距離相機的深度z:z=f?B 這里f是相機的焦距,B三維地形測量。例如,大學和微軟合作為火星探測“探測者LIDAR激光雷括廣泛應用于體感的Kinect傳感器以及增強現(xiàn)實頭盔HoloLens。 在真實應用中,匹配算法需要克服室內(nèi)室外環(huán)境中的很多難點。KITTI[12]圖1–1匹配系統(tǒng)概1.1.3匹配的研究方如圖1–1所示,匹配系統(tǒng),是以兩個相機(雙相機類似人類的雙眼)拍攝的二維(CameraCalibration),目標是得到相機坐標系到世界坐標系的映校正模塊(Rectification),目標是通過圖像變換,消除鏡頭畸變,將左右視圖轉匹配模塊(StereoMatching),任務是計算校正后的相機左右二維圖像這里,重點關注匹配模塊的計算機視覺任務還包括:光流估計(opticalflow)[4],表面法向量估計(surfacenormalsestimation)[5]和語義分割(semanticsegmatation)[6]。這些任務的目標具有一個相同點,就是給圖像中的每一個像素都賦予一個數(shù)值。在匹配問題中,要賦予的數(shù)值就是視有代表性的數(shù)據(jù)集包括Middlebury數(shù)據(jù)集[7]1和KITTI數(shù)據(jù)集[1,2]2。如圖1–2所示,Middlebury數(shù)據(jù)集規(guī)模較小,在幾張到十幾張之間,包括各種室內(nèi)[8]Middleury匹配算法的標準評測系統(tǒng)如圖1–3Middlebury數(shù)據(jù)集不同的是,KITTI數(shù)據(jù)集是通過架設在一輛行其中,KITTI數(shù)據(jù)集中的高精度視差圖是使用LIDAR掃描得到的。不過,由于技術限制,這里的視差圖全部為稀疏圖。KITTI數(shù)據(jù)集包含KITTI2012[1]和KITTI2015[2]兩個版本。其中,KITTI20122012年推出的最早數(shù)據(jù)集,KITTI2015數(shù)據(jù)集則在此基礎上做了相應擴充和調(diào)整并于2015年推出,其中包含了200對相機圖像對及其 根據(jù)文獻綜述[7]分類法,匹配算法通常遵循以下四步驟代價聚合,目標是將相關像素點的匹配代價進行聚合,以作為支持幫助計算出視差。這里,相關性指的是空間上、顏色相似或者具有相同的語義等121–2Middlebury1–3KITTI為兩個大類:局部(local)方法以及全局(global)方法。即相關像素點對應的視差的聯(lián)系。如此,計算出所有像素點對應的視差。這里的匹配代價計算針對的對象是一對像素點。而在計算一對像素點的匹配代價配?;趩蝹€像素點的方法主要是基于某一種度量距離的,例如絕對值距離(absoluted-difference)或者平方距離(squared-difference)等。以采用窗口內(nèi)像素的絕對值距離之和(sum-of-absoluted-difference)或者平方距離之和口的合適特征上了。早期的圖像窗口特征只是簡單地考慮了像素亮度,例如SAD(sum-of-absolued-difference)SSD(sum-f-squared-differene)NCC(normalizedross-correlaio)等。后開始漸引入單工特或者們的組,例梯度算]、NS子[10]BIEF算子11]以及互信息[2]等。噪聲的影響會比較大。調(diào)整窗口的工作包括:可以改變大小的窗口[14]等。實際上,一個更好的改進方法是考慮將簡單求和改進為求和。至于對圖像窗口內(nèi)像素的賦權方法,一種具有代表性的權重是自適應支持權(Adaptive-Supported-Weight,ASW)[15]中,這里的權重是基于到中間像素的空間程度和顏色接近差階段,對于每一個像素,局部方法往往采用簡單的贏者通吃策略(winner-takes-all)。在d=arg

cost(d,x, 型理論中的條件隨機場模型推導出來。在條件隨機場模型中,一張對應一個圖結數(shù)據(jù)項,建模某一個像素x與其對應的y之間的匹配程度平滑項,建模某一個像素x與其相關像素x′之間的聯(lián)系,這往往是一種先驗假設,例如相鄰像素對應的 利用條件隨機場模型完成建模之后,就可以將匹配任務轉化成了一個最大后驗估計(umAPosteriori,MAP)問題,該MAP問題等價于:找到一個視差函數(shù)d(xy),來最小化一個全局能量項:E(d)=Edata(d)+ 這里,全局能量數(shù)據(jù)項和平滑項組成。其中數(shù)據(jù)項Edata(d),是用來評價視差函數(shù)d與輸入的圖像對之間的匹配程度的,數(shù)學表達式為Edata(d)

∑C(x,y,d(x, 這里,C(x,y,d(x,y))是一個至于平滑項Esmooth(d),是用來建模平滑假設的。為了簡化假設,使得優(yōu)化計算可Esmooth(d)

ρ(d(x,y)?d(x+1,y))+ρ(d(x,y)?d(x,y+ 播算法[17]以及針對條件隨機場優(yōu)化過的基于最大流最小割算法的圖割算法[18]。查(left-right-check,LRC)來進行處理。通過左右一致性檢查可以將所有的像素點分為兩類:穩(wěn)定的(stable)和不穩(wěn)定的(unstable)。其原理為,在左視差圖和右視差圖中,一對 |d?D()p是穩(wěn)定的且D(p) d這里,p為某一個像素,D(ppd匹配點的視差數(shù)值,Cnewpd差d的代價,這是作為像素穩(wěn)定或不穩(wěn)定的判斷依據(jù)。代價計算的依據(jù),具有對光照變化不敏感的優(yōu)點。互信息是由兩個圖像的各自的熵HMII,I=HI+HI?HI 1 1P∫HI= PI(i)log

∫01∫HI,I= PI,I(i1,i2)logPI,I(i1,1 1 1 對于匹配良好的兩張,其聯(lián)合熵HI1,I2比較低,因為這意味著可以根據(jù)一張圖片推斷出另一張。接著介紹一個典型的代價聚合算法:自適應支持權(Adaptive-supported-weight, ASW)15]自適應支持權本質上是一種基于窗口的匹配算法其思路是,在代聚階段給持口內(nèi)像賦以同的持重。適支權的源自普的求或平具有個含假:即一窗口的素場景位似的度,因具相的視。實際這是對,因需某方法區(qū)同視的素,通賦權值形體現(xiàn)來。適支持的權方類邊濾器權值由窗中心素色彩似度空位置近決的,權夠起突邊緣降噪影響作,從提高配準確。對于像素點p而言,其權cw(p,p)=exp(?(||p?pc||2+Ip?Ic|| c 其中,pc是窗口中心像素,I(xx的亮度函數(shù),σ1σ2是調(diào)節(jié)窗口有效范圍的參

qNp,qd∈Np

dq∈N,q

w(p,q)w(p,qdp 其中pd和qd表示的是匹配的像素點對。e(q,qd)表示的是像素對原始的匹配代價,這里∑e(q,qd)=

cq?cd)T口的相似度的評估。盡管在最近由于卷積神經(jīng)網(wǎng)絡(ConvolutionalNeural 是難以捕捉到相關像間的視差的結構信息。例如,前饋深度神經(jīng)網(wǎng)絡(DNN)并沒密打任務的重要因素。全局方法的在于顯式地建立相關像間的聯(lián)系。在匹配中通常使用的是概率圖模型,如條件隨機場(ConditionalRandomField,CRF),來建模輸入和輸出的依賴關系。在條件隨機場中,稠密圖像打問題是通過最大后驗估計(MAP)可以轉化成素對之間的依賴關系,并把這作為一種先驗。比如說,空間上相鄰的像間的標這里,給出兩個典型的例子:半全局方法(Semi-globalmethod,SGM)和displets方E(D)

(C(p,Dp)

P1T[|Dp?Dq|=1]

P2T[|Dp?Dq|> 其中,D指的是待估計的視差圖,Np是像素p的領域像素集合。這里的全局視差計算使用了動態(tài)規(guī)劃進行近。后續(xù)的精細化是用過LRC和亞像素插值完成的。由于魯棒另一個例子displets方法作為混合模型,融合了視覺任務,即物體識別,以及假設,又能夠進行有效的優(yōu)化和推理。常用的優(yōu)化方法包括:圖割[18],動態(tài)規(guī)劃[12]以這里,作為改進,可以把置信度圖作為一個先驗引入到SGM[12]等框架下,以[22]首先使用了隨機森林來學習匹配的誤差。它們將眾多的置信度度量特征成一個特征向量,通過隨機森林學習并做做出。然后在Middlebury數(shù)據(jù)集和值得一提的是,目前在計算機視覺領域大熱的深度學習技術在引入次語義信息以及提取有效特征的任務上具有強大的能力。不過,由于匹配任務本身是一個低層次的計算機視覺任務,直到以對起到正則化的作用,即指導的輸出的作用。實際上,這樣一個網(wǎng)絡架構已經(jīng)成功應用于語義分割[23]問題中。由于同屬稠密打問題,語義分割問題和pix2ix24](conditionalgenerativeadversarialnetwork)像譯問包:形學務例如中等以視覺務例如比語分割。過值得提是,樣一架還沒被用配務在數(shù)據(jù)集SceneFlow上對比了最接近的工作pix2pix,并在效果上得到了一第二 深度學習基礎回種能夠自動學習到數(shù)據(jù)的有效特征表示的機器學習方法。其基本形式包括:有監(jiān)督學習,半監(jiān)督學習和無監(jiān)督學習。而最常用的還是有監(jiān)督學習。y=f(wTx)=f

wixi+ 其中,x是輸入向量,wb是待定參數(shù),對應的是網(wǎng)絡中的權重。fRR是激活1x>f(x)

x≤

以及階躍函數(shù)對應的可微形式——Sigmoid1f(x)=1+

下面給出神經(jīng)網(wǎng)絡中多層感知機(Muti-LayerPercetron)的數(shù)學表達式。對第i層絡,i=2··· 有z(i)=W(i?1)x+a(i)=f 其中,z(i)是第i層的線性組合()是第i層的線性組合經(jīng)過激活函數(shù)之后的輸出。在網(wǎng)絡的最后一層,根據(jù)任務的不同,會采用不同的損失函數(shù),例如回歸問題的損失函數(shù)有L2范y?=)Loss=||y??||2其中,y是網(wǎng)絡要近的,而y?是網(wǎng)絡對的估計值

梯度下降法是基于以下的觀察,如果一個多變量函數(shù)F(x)在一個點a的領域內(nèi)是有定義且可微的,那么在點a處F(x)下降最快的方向是關于點a的負梯度?▽F(a)。因此,如果an=anγ▽F(an)對于足夠小的γ,始終有F(an)≥Fn1。對于最優(yōu)化問題minLoss,往往可以通過梯度下降法來更新權重這里的梯度下降法還有很多的改進形式,其中包括Adam[25]、RMSProp等,主要改如CaffeTensorFlow都采用了符號微分的方法進行自動求導。這使得用戶在實際應用中,可以集實際上,反向算法的基本理論早在2000年之前就已經(jīng)提出。然而,在當時訓練多層神經(jīng)網(wǎng)絡仍然是一件十分的事情。直到2012年,深度神經(jīng)網(wǎng)絡AlexNet在ImageNet物體識別競賽中一舉奪魁,深度學習才得以重煥生機,而這主要得益于:很多海量數(shù)據(jù)集,其中最具代表性的就是ImageNet數(shù)據(jù)集。ImageNet數(shù)據(jù)集包含超過1400萬幅,涵蓋超過2萬個類別,關于圖像分類和物體檢測等的研也是十分巨大的。而GPU的出現(xiàn)解決了計算能力的瓶頸。GPU十分適合深度學習中的運算模式。這使得原先耗時長達1周乃至數(shù)月的訓練過程可以在短短幾深度學習理論的發(fā)展由于hinton等人的不懈堅持,關于深度學習的訓練和應用的技巧(trick)也被不斷提出來,其中,典型代表包括卷積層、ReLU(RectifiedLinearUnit)激活函數(shù)、數(shù)據(jù)增強(dataaugmentation)、隨機失活(dropout)等。此外,各子,HOG[27]算子,CENSUS[10]算子等。而深度神經(jīng)網(wǎng)絡能夠直接從原始數(shù)據(jù)中學習到性,表達的語義信息層層遞進。通過卷積核的可視化[28可以發(fā)現(xiàn),淺層的特征通常為邊卷積運算是圖像處理中的重要操作。卷積操作的輸入包括一張以及一個卷積 ∑∑yil+1,jl+1,d

fi,j,dl,d×xl+1+i,jl+1 i=0j=0ll層網(wǎng)絡,ij,d值得注意的是,該卷積核的權重對于的不同位置都是相同的,即權值共享(eihtsari)。卷積核的作用相當于特征提取裝置,可以學到諸如顏色,形狀,紋理眾多的本模式,且在多神經(jīng)網(wǎng)中,過組合能夠學到復雜的語義(filerize)和卷積步長(tride)GGNet之后,人們已經(jīng)普遍采用小filerize=3,ride=1。卷積層(convolutionlayer)的最早的應用是YannLeCun等人在文章[29]中LeNet。LeNet能夠實現(xiàn)對手寫數(shù)字字符的光學識別,且正確率達到99%,并成功應用于郵政系統(tǒng)寫識別中。moid函數(shù),但是由于該激活函數(shù)存在梯度的問題,目前主要以線性整流單元(Rec-tifiedLinearUnit,ReLU)及其變體作為激活函數(shù)。ReLU的數(shù)學表示如下:f(x)=max(0, 有最大值池化(max-pooling)和均值池化(average-pooling)。其數(shù)學表達式如下:Average-pooling:y

=

xx

iiMax-pooling:yil+1,jl+1,d

ll層網(wǎng)絡,i,jd分別為長、高、深度三個通道的坐標,H,W則的目標函數(shù):應用于分類任務的softmax函數(shù),以及應用于回歸任務的L2范數(shù)。Alex-2012IaeNetx-Net[30]12%lxet5個卷積層和3lxet的成功包含了很多因素:首次將卷積神經(jīng)網(wǎng)絡應用于ImageNet數(shù)據(jù)集GPU來加速網(wǎng)絡訓練。原本需要數(shù)周乃至數(shù)月的網(wǎng)絡訓練過程縮短至至6天。計算能力的增強大大縮短了大型網(wǎng)絡模型的研究周期,從而開起了深網(wǎng)絡結構的改變和訓練技巧也起到了至關重要的作用。其中包括線性激活函數(shù)eeU比起原始的Siid問題。還有正則化方法隨機失活(drout),隨機失活起作用的原理是相當于做了模型集成。VGG-VGG-Net[31]是2014年的ImageNet的物體識別競賽的亞軍。該網(wǎng)絡的最大貢獻是,VGG-Net的一大貢獻是提倡使用小卷積核(如3×3的卷積核),提倡更深的網(wǎng)絡次感。而更深的網(wǎng)絡,則能帶來的非線性。為了加深網(wǎng)絡,VGG- 還提出了每層保持輸入大小的技巧。以及通道數(shù)的組織按照以下規(guī)律364128256VGG-Net 由于具有良好的泛化能力,已經(jīng)成為了學術界和工業(yè)界應用最為廣泛的深度絡之了。2–1隨著卷積神經(jīng)網(wǎng)絡在圖像分類的巨大成功之后,卷積生成網(wǎng)絡逐漸開始應用于其他的語義任務,比如物體檢測任務。后來,在一些低層的圖像任務,比如語義分割也開始嘗試使用深度學習,例如2015年全卷積網(wǎng)絡(llyCooluioalet-or,FN)6]。是一一對的。編的存在意是,縮信息,裁剪重,防止擬合。編的標志性操作是下采樣。而器的作用與之想法,用于還原信息,其標志性操作是上采樣。不過,全卷積網(wǎng)絡中的上采樣操作的實現(xiàn)還只是簡單的基于規(guī)則的雙線性插[32]插值。這里的反卷積層,可以視為是卷積層的逆操作,也被稱為轉置卷積(aedoolution)。U-2–2U- 是全卷積網(wǎng)絡的一個自然改進。其結構如圖2–2所示。連接。這克服了全卷積網(wǎng)絡中低層特征與特征無法融合的缺陷。通過U-Net,可以用更少的樣本訓練出效果更好的模型。這里,之所以需要用果更好了,是因為低層特征和特征得以融合,這樣可以發(fā)掘出有效的特征。Siamese一個方案就是使用Siamese網(wǎng)絡[34]。Siamese網(wǎng)絡是普通前饋神經(jīng)網(wǎng)絡在結構上針對兩輸入的一個自然改進。在此之前,一個理輸入簡的法是把張在通維上堆在起然后網(wǎng)斂,取得更好的效果。根據(jù)文獻[34],最早的Siamese網(wǎng)絡的結構如圖2–3所示。一種embedding的思想。embedding的思想指的是,做這樣一個空間的fX7Y,與此同時Y要能保留X中的結構信息。右圖兩個通道的特征進行逐元素點乘。值得注意的是,在Siamese網(wǎng)絡的實現(xiàn)中,左右2–3Siamese第三 深度學匹配中的應取得了巨大的成功。其中既包層語義任務,如圖像分類[30]、物體檢測[35]等,也包括低層語義任務,如語義分割[6]、光流估計[36]等。受到深度學計算機視覺領域的成功的啟發(fā),近年來的匹配研究都開始嘗試引入深度神經(jīng)網(wǎng)絡,尤其卷積神經(jīng)網(wǎng)絡(ConvolutionalNerualNetwork,CNN)。[37]首次將深度學習引入到匹配中去,它將卷積神經(jīng)網(wǎng)絡引入到像素對的匹配代價的計算中去,并且在Middlebury數(shù)據(jù)集和KITTI數(shù)據(jù)集上都取得了當時的最佳結3Siamese網(wǎng)絡[34前半部分結構來處理相機左圖和相機右圖,隨后將兩個特征圖按照通道拼接在一起后,經(jīng)過4個全連接層進行信息融合,最后再通過一個softmax函數(shù)產(chǎn)生一個二分類的結果,即匹配或者不匹配。隨后的其他匹配階段中,相繼使用了基于交叉的代價聚合方法(Cross-basedcostaggregation,CBCA)[38]和半全局匹配[12]的視差計算方法。最后,還通過左右一致性檢查[21]等傳統(tǒng)精細化技術[[收到Siamese網(wǎng)絡的啟發(fā):將像素對匹配代價的計算建模成一個回歸問題,這里目標函果相差不大的情況下,還能大大提高了網(wǎng)絡的運行效率,對比[37]100類似的[40網(wǎng)絡的啟發(fā)。在原先[37,39]早期為方便理匹配法為分成個驟。際,人四個模型合并成一個步驟一個模型?即通過深度學習構造一個端到端(end-to-end)系統(tǒng),[41]本質上來說是一個編碼器。其中,編是通過卷積操作和池化下采樣操作實現(xiàn)的,而器則主要依托于反卷積[32]操作實現(xiàn)。由于深度學習需要大量的數(shù)據(jù),而不論是Middlebury數(shù)據(jù)集還是KITTI數(shù)據(jù)集,數(shù)據(jù)量都不夠大。為此[41]還通過3D建模構造了一個巨大的仿真數(shù)據(jù)集。3D建模的優(yōu)勢是可以幾乎毫無成本地得到完全精確經(jīng)過仿真數(shù)據(jù)集的訓練后,模型可以在KITTI等真實數(shù)據(jù)集上再訓練,對權重做出微(finetune)后可以進一步提高性能實際上,通過端到端網(wǎng)絡,已經(jīng)一定程度上克服了分階段局部方法的最大缺進一步的[42]發(fā)現(xiàn),在匹配的操作中,除了有長寬的二維信息之外,還有標函數(shù)也要做相應的修正。在[42]中,實現(xiàn)了一個argmin函數(shù)的可微版本。事實上,雖文獻[43]是首個使用卷積神經(jīng)網(wǎng)絡來建模圖像窗口的二分類問題的匹配算法。softmax層。但是由(SGM)。并且,這來對視差的結果進行迭代求精。文獻[44]首次將流程中的全部步驟都用卷積神經(jīng)網(wǎng)絡斷出置信度圖,另一個是用來初始輸入與真實視差(GroundTruth)之間的殘差圖,從而第四 基于條件對抗生成網(wǎng)絡的匹配算基于條件對抗網(wǎng)絡的對抗生成框架。然后,在章節(jié)4.1給出應用于匹配任務的對抗自從2012年起,深度神經(jīng)網(wǎng)絡已經(jīng)在許多領域的測試中達到了人類的水準:例如模型的,對于生成模型,深度學直沒有特別好的模型。直到2015年,IanGoodfellow在文獻[45]中提出了生成對抗網(wǎng)絡。生成對抗網(wǎng)絡被機器學習界的大師Lecun稱贊為無G(Generator),其作用是盡量去捕捉到真實數(shù)據(jù)的分布,然后生成足以以假亂真的,它的輸入是一個隨機噪聲的分布z,而輸出為假樣本為G(z)判別器D(Discriminator),其作用是判斷一張是否是真實的,即輸出一個概率值,表明輸入樣本是來自于真實訓練樣本還是來自于G生成的樣本。它的輸入是樣本x,x可能來自于真實訓練樣本或者的生成樣本,D(x)表明x來自真實訓練樣本的概率。在訓練過程中,G要使得D做出錯誤判斷的概率最大化,而判別器D則minmaxV(D,G)= (x)[logD(x)]+Ez~p(z)[log(1?D(G(z))] 其中,x是輸入樣本,z是噪聲,服從分布。可以證明對任意的函數(shù)G和D,都存在唯一解,使得G能夠恢復出訓練數(shù)據(jù)的分布,并且使得D無法區(qū)分輸入的是訓練數(shù)原始的對抗生成網(wǎng)絡(N)45]可以被直接拓展成條件對抗網(wǎng)絡(N)46]和判器都加上同的額信息作為入條件。在的條件抗框架,條指的是,和判別器都以相同的RGB圖相對作為輸入的條件之一 cGAN(G,D)= (x)[logD(xy)]+Ez~p(z)[ D(G(zy (4–2)這里x是訓練數(shù)據(jù),z是 代表的是額外的輸入條件。 匹配算法中,x代表的是視差圖的訓練數(shù)據(jù),y代表的是一對已經(jīng)觀察到的相機左右圖像在傳統(tǒng)的對抗訓練的過程中,G竭力去最小化以下的目標函數(shù),與此同時,判別器D則竭力去最大化相同的目標函數(shù),該目標函數(shù)的形式是G?=argminmaxLcGAN(G, 是兩個損失項的和。第一個損失項是一個傳統(tǒng)的L1損失項,該損失項可以有效捕捉到低層的信息,比如像素亮度等。之所以不采用L2范數(shù)的原因是,L1范數(shù)作為一個長尾分布對異常點(outlier)的忍耐度更高,可以導致更加銳利清晰的結果;而L2G?=argminmaxLcGAN(G,D)+ 這里,λ是一個平衡L1損失項和對抗損失項的超參數(shù)。一旦判別器發(fā)現(xiàn)輸入的視差圖是“的”,即生成的,對抗損失項的數(shù)值就會增大,這樣就可以指導,另一個樣本空間的對應輸出,即圖像翻譯任務。實際上,條件對抗網(wǎng)絡(conditionalgenerativenetwork,cGAN)已經(jīng)被證明是一個有希望的通用解法,可以用來解決圖像到文獻[24]首次提出可以將條件對抗網(wǎng)絡當做圖像翻譯問題的一個通用解決方案,其最該解決方案在以下的任務中被證明是有效的:這些圖像翻譯問題包括,圖形學任的架構如圖4–2(a)所示相機左圖和相機右圖首先被輸入到一個Siamese網(wǎng)絡[34]中去。之所以選擇希望能夠抽取出更有意義更次的特征,而不僅僅是原始的圖像像素,這樣可以降低網(wǎng)絡學習的難度。其二,Siamese網(wǎng)絡的兩個分支共享相同的神經(jīng)網(wǎng)絡架構和權值,這就Siamese網(wǎng)絡的兩個分支是由6“Conv-BN-ReLU”模塊組成。一個“Conv-BN-ReL”模塊是按照以下的規(guī)則組成的:一個卷積層(Convolution)后面跟著一個批正則化層(BatchNormalizationLayer)[47],然后再跟著一個線性整流單元(RectifiedLinearUnit,ReLU)。這里,卷積層的所有的卷積核尺寸都是3。這664641281281281282(Max-PoolingLayer)做一次尺寸折半的下采樣操作。圖4–1基于條件對抗網(wǎng)絡的匹配算法。左側的,即匹配網(wǎng)絡,以一對相機的RGB圖像作為輸入來產(chǎn)生一幅對應的稠密視差圖。隨后,鑒別器從的生成結果或者是真實的訓練數(shù)據(jù)中隨機抽樣作為輸入,鑒別器判斷出該樣本是否是生成的。這里,和鑒別器都是以同樣的一對RGB圖像作為輸入條件的。(a)的網(wǎng)絡結 (b)判別器的網(wǎng)絡結這些經(jīng)過Siamese網(wǎng)絡抽取出來的特征圖,接著被簡單地拼接在一起以讓便后續(xù)的U-Net網(wǎng)絡結構[33]進行處理。U-Net網(wǎng)絡結構可以被視為是傳統(tǒng)的編-器架構的改進版本。傳統(tǒng)的編-器架構通常包含了一系列的下采樣操作來壓縮信息,以“Conv-BN-ReLU”×2模塊的編 和一個包含3個“Deconv-BN-ReLU-Conv-BN-ReLU” 第i層的特征被輸入到對應的倒數(shù)第i層 作為額外的輸入。編的每一層的輸出個數(shù)依次為256→256→512→512→512→512,并且每一個模塊之后的特征圖都會通過最大池化層(Max-PoolingLayer)做一次尺寸折半的下采樣操作。而器的輸出個數(shù)依次為512→512→512→512→256→256,并且每一個模塊之后的特征圖都會利用反卷積層[32]做相對應的尺寸加倍的上采樣處理判別器的架構如圖4–2(b)所示圖首先被分別輸入到Siamese網(wǎng)絡中提取出特征。接著Siamese網(wǎng)絡的輸出被輸入到一個拼接層(ConcatenatedLayer)中去,然后經(jīng)過兩個“Conv-BN-ReLU”模塊實施進一圖中選出一個樣本。這個視差圖同時也被經(jīng)過2個“Conv-BN-ReLU”模塊的處理,用來這些特征拼接之后被進一步傳入一系列的“Conv-BN-ReLU”模塊中去。在判別器的最后使用一個igmid練數(shù)據(jù)集的概率。這些特征圖在每兩個模塊之后會通過最大池化層(ax-oligLer)做一次尺寸折半的下采樣操作。第五 實驗結果與分SceneFlow數(shù)據(jù)集上給出了定性結果和定量結果。在章節(jié)5.1中,簡要介紹了實驗的這里,的數(shù)據(jù)集選擇的是SceneFlow數(shù)據(jù)集,主要是基于三個原因數(shù)據(jù)集足夠大。SceneFlow數(shù)據(jù)集的規(guī)模足夠大,包含上千個高精度樣本,可以數(shù)據(jù)集足夠真實。SceneFlow數(shù)據(jù)集雖然是一個人工的數(shù)據(jù)集,但是其中包數(shù)據(jù)集足夠準確。SceneFlow數(shù)據(jù)集為每一對相機圖像對,提供對應的完美視差圖。由于SceneFlow是由Blender通過3D建模生成的,只需通過數(shù)算這里,選擇了SceneFlow數(shù)據(jù)集中的driving子數(shù)據(jù)集,該數(shù)據(jù)集非常接近于自動駕駛中的真實場景。driving子數(shù)據(jù)集包含了4400個RGB圖像對,其中包括一個3520對圖像組成的訓練集,和一個880對圖像組成的驗證集。數(shù)據(jù)集效果:ReLUf(x)=max(0xleakyf(x) 這里,有a>0。不選用Sigmoid函數(shù),因為Sigmoid函數(shù)具有以下缺點:飽和0為中心的,expReLU因則是,ReLU對于x<0的情況全部置0,這被稱之為“死區(qū)”??梢园l(fā)現(xiàn),Leaky是對ReLU的“死區(qū)”現(xiàn)象的改進。在機器學習中,對輸入數(shù)據(jù)做歸一化(normlization)預處理是一個常見步驟。這里們對網(wǎng)絡的權值初始化都采用隨機正太分布(randomnormaldistricution)。具體參數(shù)設定是mean=0,var=0.02。批處理層(BatchNormalization)[47]是深度神經(jīng)網(wǎng)絡訓練中的重要技巧,可以加快網(wǎng)的BathNrmalizaion(iiat,但是測試時用使用的是全部測試數(shù)據(jù)的均值和方差。網(wǎng)絡中采用的優(yōu)化方法是梯度下降法的一個變種Adam25]。Adam方法的優(yōu)點在于,設定初的學率其參數(shù)后優(yōu)化動節(jié)學率確更快好在網(wǎng)絡中使用了常用的兩種正則化:隨機失 以及數(shù)據(jù)增(dataargumentation)其中,隨機失活(dropout)的具體操作是:在每次前向,把一些神經(jīng)元隨機設00的概率是一個超參數(shù),一個默認參數(shù)是0.5。為什么隨機失活能起作用呢?一種解釋是,因為這能使得網(wǎng)絡學習到的特征具模型的集成模型(這些模型都共享權值)。至于數(shù)據(jù)增強(dataargumentation),指的是通過對輸入數(shù)據(jù)做各種圖像變換,如平5.2.價指這里錯誤像素的定義是,估計出來的視差數(shù)值與真實的視差數(shù)值的絕對偏差超過Tpercentage(T)

∑(x,y)I(esty)?dground?truth(x,y≥TW×

x,yW,H是輸入圖像的高和寬,I(xMAE

1

(x,y)?

(x, 使用TensorFlow[48]實現(xiàn)了整個對抗訓練架構。在進行訓練之前,首先對 像素的數(shù)值取值范圍在[?1,1]之間。為了方便比較,采用了和最為相似的工作pix2pix[24]相同的超參數(shù)進行訓練。這些超參數(shù)λbatchsize迭代次數(shù)iterations=的優(yōu)化方法選擇了Adam[25]方法,其中初始值學習率設定為10?5,beta采用0.5。為了和最接近的工作pix2pix比較,把所有的大小重置為256×256,這個尺寸與pix2pix原文中的尺寸一致。這里,所有的網(wǎng)絡都可以在一張NVIDIA1080的GPU卡上運行成功。們實施了一系列的實驗。如表5–1所示,在SceneFlow數(shù)據(jù)集上通過對比實驗驗證了文中架構設計上的幾個關鍵選擇,包括:Siamese,Siamese鑒別器以及在的目標函數(shù)中對抗損失項的引入。以下介紹一下比對的三個模型的框架。單輸入模型是最基礎的模型(baeline),其直接取自于基于條件對抗網(wǎng)絡的最接近的工作pix2ix24]。pix2ix是一個實現(xiàn)圖像翻譯的工作,給定一對圖像對:工作中的條件對抗網(wǎng)絡包含和鑒別器兩個子網(wǎng)絡。其中使用的U-Net架構,損失項用的是1是很好。平均誤差達到了2.91px.改進但輸入模型的一個簡單方法是充分利用匹配算法中雙輸入的特果。平均誤差達到了2.16px。然而,這個簡單模型的錯誤率仍然是比較嚴重的。為了改進這個網(wǎng)絡架構,考慮再架構中結合Simaese網(wǎng)絡和U-Net。Siamese網(wǎng)絡首先從相機左圖和相機右圖中抽取出的特征,然后通過一個U-Net網(wǎng)絡進行特征的融合。通過這個網(wǎng)絡結構上的改進,平均視差誤差從2.16px降低到了1.87px。這證明了Siamese網(wǎng)絡的有效性。是,簡單地將相機對和對應的視差圖拼接起來作為鑒別器的輸入。這里,決定先分開處理相機和視差圖。這里,考慮到Siamese網(wǎng)絡抽取特征的強大能力以及在實驗中的成功,在鑒別器中也采用了和一樣的Siamese網(wǎng)絡結構。使用了Siamese網(wǎng)絡之后,平均視差誤差從1.87px降低到了1.05px。這證明了Siamese網(wǎng)在圖5–2,給出了在SceneFlow數(shù)據(jù)集上的定性結果。這里視差圖原本是灰度器的損失函數(shù)只考慮了L1范數(shù)損失項,另一個架構的的損失函數(shù)不僅包含了L1圖5–2SceneFlow數(shù)據(jù)集上的定性結果.從左到右依次是:相機左圖,視差圖以及真實視差圖5–3對抗損失項對生成的視差圖的影響.從左到右依次是:相機左圖不帶對抗損失項的生成視差圖,帶有對抗損失項的生成視差圖.>>>Mean>>>Mean針對架構的比+根據(jù)通道堆疊的SiameseSiameseG帶Siamese網(wǎng)絡的G+帶Siamese網(wǎng)絡的針對損失函數(shù)的比L1損失項的L1損失項和對抗損失項的第六 全文總結以及未來工作展用判別器來對起到正則化的作用。在網(wǎng)絡架構方面,結合匹配任務的特點,對采用了Siamese網(wǎng)絡U-Net網(wǎng)絡的結合。對于判別器,采用了與相同的Siamese網(wǎng)絡結構。在條件對抗損失項,另一個則是傳統(tǒng)的L1損失項。在章節(jié)五中,在SceneFlow數(shù)據(jù)集上開展了一系列實驗。驗證了以下網(wǎng)絡設計的有效性:帶Siamese網(wǎng)絡的,U-Net,帶Siamese網(wǎng)絡的判別器。此外,還驗證了判別器對的正則化作用,以及由判別器損失項和L1損失項組成的混合目匹配工作,雖然基于條件對抗網(wǎng)絡的匹配算法具有訓練速度更快,所需要自然的想法是,把置信度方法和條件對抗網(wǎng)絡相結合,以期更好的匹配效GEIGERA,LENZP,URTASUNR.Arewereadyforautonomousdriving?thekittivisionbenarksuite[C]//ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE.[S.l.]:[s.n.],2012:3354–3361.MENZEM,GEIGERA.Objectsceneflowforautonomousvehicles[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:[s.n.],2015:SUNJ,WANGP,QINZ,etal.Overviewofcameracalibrationforcomputervision[J].2014:86–92.HORNBKP,SCHUNCKBG.Determiningopticalflow[J].ArtificialInligence,1980,17(13):185–203.EIGEND,FERGUSR.PredictingDepth,SurfaceNormalsandSemanticLabelswithaCommonMulti-scaleConvolutionalArchitecture[J].Internationalconferenceoncom-putervision,2015:2650–2658.LONGJ,SHELHAMERE,DARRELLT.Fullyconvolutionalnetworksforsemanticsegmentation[J].Computervisionandpatternrecognition,2015:3431–3440.SCHARSTEIND,SZELISKIR.Ataxonomyandevaluationofdensetwo-framestereocorrespondencealgorithms[J].Internationaljournalofcomputervision,2002,47(1-3):7–SCHARSTEIND,SZELISKIR.High-accuracystereodepthmapsusingstructuredlight[C]//ComputerVisionandPatternRecognition,2003.Proceedings.2003IEEEComputerSocietyConferenceon.Vol.1.IEEE.[S.l.]:[s.n.],2003:I–I.GEIGERA,ROSERM,URTASUNR.Efficientlarge-scalestereomatching[C]//Asianconferenceoncomputervision.Springer.[S.l.]:[s.n.],2010:25–38.ZABIHR,WOODFILLJ.Non-parametriclocaltransformsforcomputingvisualcorre-spondence[C]//Europeanconferenceoncomputervision.Springer.[S.l.]:[s.n.],1994:CALONDERM,LEPETITV,STRECHAC,etal.Brief:Binaryrobustindependentelementaryfeatures[J].ComputerVision–ECCV2010,2010:778–792.HIRSULLERH.Stereoprocessingbysemiglobalmatchingandmutualinforma-tion[J].IEEETransactionsonpatternysisandmachineinligence,2008,30(2):ACHANTAR,SHAJIA,SMITHK,etal.SLICSuperpixelsComparedtoState-of-the-ArtSuperpixelMethods[J].IEEETransactionsonPatternysisandMachineInli-gence,2012,34(11):2274–2282.HIRSULLERH,INNOCENTPR,GARIBALDIJM.Real-TimeBasedStereoVisionwithReducedBorderErrors[J].InternationalJournalofComputerVision,2002,47:229–246.YOONK,KWEONIS.Adaptivesupport-weightapproachforcorrespondencesearch[J].IEEETransactionsonPatternysisandMachineInligence,2006,28(4):650–656.KIRKPATRICKS,GELATTCD,VECCHIMP.Optimizationbysimulatedanneal-ing.[J].Science,1983,220(4598):671–680.SUNJ,ZHENGN,SHUMH.Stereomatchingusingbeliefpropagation[J].IEEETrans-actionsonPatternysisandMachineInligence,2003,25(7):787–800.BOYKOVY,VEKSLERO,ZABIHR.Fastapproximateenergyminimizationviagraphcuts[J].IEEETransactionsonPatternysisandMachineInligence,2001,23(11):GUNEYF,GEIGERA.Displets:Resolvingstereoambiguitiesusingobjectknowl-edge[J].2015:4165–4175.HUX,MORDOHAIP.AtativeEvaluationofConfidenceMeasuresforStereoVi-sion[J].IEEETransactionsonPatternysisandMachineInligence,2012,34(11):FUAP.Aparallelstereoalgorithmthatproducesdensedepthmapsandpreservesimagefeatures[J].Machinevisionapplications,1993,6(1):35–49.HAEUSLERR,NAIRR,KONDERMANND.EnsembleLearningforConfidenceMea-suresinStereoVision[J].2013:305–312.LUCP,COUPRIEC,CHINTALAS,etal.Semanticsegmentationusingadversarialnetworks[J].ArXivpreprintarXiv:1611.08408,2016.ISOLAP,ZHUJ.-Y,ZHOUT,etal.Image-to-imagetranslationwithconditionaladver-sarialnetworks[J].ArXivpreprintarXiv:1611.07004,2016.KINGMADP,BAJL.Adam:AMethodforStochasticOptimization[J].Internationalconferenceonlearningrepresentations,2015.LOWEDG.DistinctiveImageFeaturesfromScale-InvariantKeypoints[J].InternationalJournalofComputerVision,2004,60(2):91–110.DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[J].2005,1:ZEILERMD,FERGUSR.VisualizingandUnderstandingConvolutionalNetworks[J].Europeanconferenceoncomputervision,2013:818–833.LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtorecognition[J].ProceedingsoftheIEEE,1998,86(11):2278–2324.KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.[S.l.]:[s.n.],2012:1097–1105.SIMONYANK,ZISSERMANA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].Internationalconferenceonlearningrepresentations,2015.NOHH,HONGS,HANB.Learningdeconvolutionnetworkforsemanticsegmenta-tion[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.[S.l.]:[s.n.],2015:1520–1528.RONNEBERGERO,P,BROXT.U-Net:ConvolutionalNetworksforBiomed-icalImageSegmentation[J].Medicalimagecomputingandcomputerassistedinterven-tion,2015:234–241.BROMLEYJ,GUYONI,LECUNY,etal.Signatureverificationusinga”siamese”timedelayneuralne

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論