深度學習及自動駕駛應用 課件 第6章 基于CNN的圖像分割_第1頁
深度學習及自動駕駛應用 課件 第6章 基于CNN的圖像分割_第2頁
深度學習及自動駕駛應用 課件 第6章 基于CNN的圖像分割_第3頁
深度學習及自動駕駛應用 課件 第6章 基于CNN的圖像分割_第4頁
深度學習及自動駕駛應用 課件 第6章 基于CNN的圖像分割_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Chapter6基于卷積神經網絡的圖像分割第六章DeepLearningAndAutonomousDriving深度學習與自動駕駛應用DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第2頁6.4DeepLab系列6.1圖像分割概述6.3U-Net/Seg-Net6.2FCN全卷積神經網絡6.5圖卷積網絡方法目錄Content6.6實踐項目DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第3頁6.1圖像分割概述本節(jié)內容:

(1)圖像分割的基本介紹

(2)圖像分割的發(fā)展

(3)數(shù)據格式與評估指標DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第4頁圖像分割的基本介紹把圖像按照一定規(guī)則分割成“有意義”的多個區(qū)域的技術叫做圖像分割,圖像分割是計算機視覺領域里一項重要的基礎技術。與目標檢測不同,目標檢測的最終輸出是“輸入的圖像里面有哪些我關心的目標”,以及其所在的矩形范圍;而圖像分割的最終輸出是一幅圖片的逐像素的分類結果,其類別數(shù)量更多,不同類別的物體之間位置要求精確到像素。因此,圖像分割對于類別數(shù)、位置精確度的要求更高,模型更復雜。根據任務和輸入數(shù)據類型的不同,圖像分割可以細化為以下三種具體任務:語義分割、實例分割、全景分割DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第5頁圖像分割的發(fā)展語義分割是圖像分割方法的基礎,實例分割、全景分割在某種程度上其實是語義分割與目標檢測算法融合的應用。因此,本章接下來所說的圖像分割與圖像分割方法,若無特殊說明,均指語義分割和語義分割方法。圖像分割算法與目標檢測算法一樣,存在著傳統(tǒng)圖像分割算法與基于深度學習的圖像分割算法兩大類,如右圖所示DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第6頁數(shù)據格式與評估指標與目標檢測任務相同,圖像分割任務主流的數(shù)據格式仍然是PASCALVOC格式和COCO格式。這兩種數(shù)據集都被廣泛應用于圖像分類、目標檢測、圖像分割任務中。評價一個圖像分割算法的好壞,常用兩個指標:mIoU(meanIntersectionoverUnion,平均交并比)和mAcc(meanAccuracy,平均準確率)。指標mAcc表征的是預測結果與真實結果之間的差距。由于圖像分割任務通常是逐像素的分類問題,因此該值計算的是圖像上類別預測正確的像素數(shù)量占圖像像素總數(shù)的比率。mAcc越大,說明越多的像素被正確預測,預測的準確性越高。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第7頁評價指標mIoU指標mIoU表征的是圖像上所有類別的交并比的總和,此處IoU的概念與第五章相同,都是某一類的預測區(qū)域與真實區(qū)域所占面積的比值如下圖所示,左邊是圖像分割的真實值,右邊是圖像分割輸出的預測值。對于右圖中每一個類別分別求IoU,再求平均數(shù),即為mIoU。mIoU越大,說明每個類別都被較好的預測,預測的準確性越好。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第8頁6.2FCN全卷積神經網絡本節(jié)內容:

(1)FCN網絡結構

(2)上采樣過程

(3)特征融合DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第9頁SDS方法(基于DCNN)在FCN提出之前,便已經有了一系列圖像分割的DCNN算法,如SDS方法(SimultaneousDetectionandSegmentation,協(xié)同檢測和分割),其利用RCN網絡框架對網絡參數(shù)進行訓練,抽取輸入圖片中的多個“似物性推薦區(qū)域(proposal)”,保留與人工標注區(qū)域交叉的部分作為前景區(qū)域,根據每個proposal的類別信息進行訓練,得到了用于圖像分割的DCNN。SDS整體上的架構為:MCG+AlexNet+SVM+NMS。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第10頁FCN網絡結構FCN網絡即全卷積神經網絡(FullyConvolutionalNetworks),F(xiàn)CN網絡的結構右圖所示。FCN與DCNN的區(qū)別在于,F(xiàn)CN中沒有全連接層(FC層)。由于僅有卷積層,輸出的是特征圖。FCN中對于FC的處理是,使用C個通道的1×1的卷積核對FC層進行替換(1×1卷積核的作用在于,不改變輸入的長和寬的情況下,將輸出的通道數(shù)調整為C;該過程也被稱作“降維”或“升維”)。接下來,在通過上采樣過程,將特征圖還原到輸入圖像的大小,每個位置的值即為對應像素的類別,對該特征圖進行可視化。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第11頁上采樣過程:雙線性插值經過了一系列的卷積層后,特征圖的尺寸變得很小,此時需要進行上采樣過程將特征圖還原到輸入圖像的尺寸。常見的上采樣方式有:雙線性插值、上池化、反卷積等。雙線性插值(BilinearInterpolation)的計算過程如右圖所示,已知Q11、Q12、Q21、Q22四個點的像素值,如果想在內部一點進行雙線性插值,首先假定矩形的每條邊上點的像素值變化都為線性過渡。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第12頁上采樣過程:上池化(NearestNeighbor、BedofNails)Un-pooling為上池化,即Pooling的反向操作,其目的是對特征圖的尺寸進行放大,例如從2×2大小擴為4×4大小。Un-pooling常見的操作有NearestNeighbor、BedofNails等方式,如下圖所示。除此之外,常用的還有MaxUnpooling,其是MaxPooling的反向操作(見下頁)。但需要注意的是,進行MaxPooling時需要先記住池化后的元素在原圖像上的位置。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第13頁上采樣過程:上池化(MaxUnpooling)DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第14頁上采樣過程:反卷積TransposeConvolution是第三種上采樣方式,顧名思義,其是卷積過程的反向操作。卷積的過程如下圖左邊所示,對于一個6×6大小的輸入,通過一個3×3大小的卷積核,在不加Padding的情況下可以得到一個4×4的特征圖。而反卷積如下圖右邊所示,就是以4×4大小的特征圖為輸入,通過一個3×3大小的卷積核,得到一個6×6大小的特征圖。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第15頁上采樣過程:反卷積的計算過程反卷積具體的計算過程如下圖所示。首先將3×3的卷積核進行翻轉,接下來令其以下圖的方式,在2×2的特征圖上滑動,重合處的數(shù)字相乘、所有乘積相加,便得到了所需位置處的輸出值。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第16頁特征融合FCN中采用了多尺度特征圖融合的方式,使最后的特征圖能夠得到更多信息。如下圖所示,F(xiàn)CN對conv7的進行一次上采樣,并使其與pool4層的特征進行融合;對conv7的進行兩次上采樣,并使其與pool3層的特征進行融合;最后對融合后的特征圖進行上采樣,得到整個網絡輸出的結果。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第17頁FCN雖然FCN訓練和預測的速度比同時期的傳統(tǒng)圖像分割算法較慢,

但其移植方便、適應性極強,使深度學習首次引入了圖像分割領域。FCN的缺點主要有:

(1)分割結果不夠精細;

(2)且由于其是對各個像素進行分類,沒有考慮像素與像素之間的關系,導致輸出結果中像素所屬類別在空間上的分布較為零碎,一致性差。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第18頁6.3U-Net/Seg-Net本節(jié)內容:

(1)U-Net

(2)Seg-NetDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第19頁U-Net網絡結構U-Net最初是為了解決生物醫(yī)學圖像方面的問題而提出的。U-Net是基于Encoder-Decoder的U型結構。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第20頁U-Net過程在U-Net中,Encoder負責特征提取、Decoder負責恢復圖像的原始分辨率。對于一幅大小為572×572的輸入圖像,在Encoder部分,通過五次“3×3卷積+ReLU、3×3卷積+ReLU、2×2最大值池化”的操作,得到一張大小為28×28像素、1024通道的特征圖。在Decoder部分,通過四次“上采樣、特征融合(拼接操作)、3×3卷積+ReLU、3×3卷積+ReLU”的操作,得到與338×338大小、64通道的特征圖;最后再使用1×1卷積,將通道數(shù)量設定為類別數(shù)量,得到最終的特征圖。該特征圖通過Softmax和Argmax操作,輸出最終的圖像分割結果。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第21頁特征融合方式:拼接上述過程中,特征融合采用的方式是“拼接”,即把Encode中不同尺寸卷積層的輸出復制并裁剪(copyandcrop)出一個與Decoder中待拼接的上采樣結果尺寸相同的部分,直接進行“拼接”。該方式能夠使不同尺寸的特征較好的融合,減少了細節(jié)的丟失。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第22頁U-Net損失函數(shù)設計U-Net的損失函數(shù)使用的是關于類別的交叉熵,如下式所示。其中,w(x)是權重變量。原論文是醫(yī)學細胞檢測,因此不同細胞之間的交界比較明顯,某一像素點距離細胞邊界第一近和第二近的距離為d1、d2。的設置可以使距離邊界越近的像素懲罰越大、越遠的懲罰越小。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第23頁Seg-Net網絡結構Seg-Net的結構如下圖所示,其同樣是一個Encoder-Decoder結構。Encoder部分是一個與VGG16類似的網絡模型,主要由卷積層(Conv)、歸一化層(BatchNormal,BN層)、激活函數(shù)層(ReLU)、池化層(Pooling)組成。其中,卷積層負責提取區(qū)域特征;池化層對特征圖進行下采樣并傳送到下一層;而BN層則對特征圖的數(shù)值進行分布歸一化,加速訓練過程。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第24頁Seg-Net網絡的Decoder部分Decoder部分主要由上采樣層(Upsampling)、卷積層(Conv)組成。其中,上采樣層與以往的網絡不同,其是借助“池化索引”來進行上采樣的,如下圖所示。池化索引,就是指在Encoder部分的MaxPooling過程中,建立一個矩陣來記錄最大值所在的位置;在Decoder部分的上采樣過程中,根據池化索引矩陣的記錄來填寫原來位置上的新的特征值,空缺的位置用0填充,這種上采樣方式得到的是一個稀疏特征圖。后續(xù)再繼續(xù)通過卷積層得到稠密特征圖,再進行上采樣,循環(huán)往復,直到特征圖的大小與輸入圖像一致。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第25頁6.4DeepLab系列本節(jié)內容:

(1)DeepLabV1

(2)DeepLabV2

(3)DeepLabV3

(4)DeepLabV3+DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第26頁DCNN類圖像分割網絡的不足在DeepLabV1出現(xiàn)之前,圖像分割所使用一類DCNN網絡,存在兩個問題:

首先,最大池化等采樣方式會導致圖像中的細節(jié)丟失;

其次,分類器使用以對象為中心的決策,依賴于特征圖變換的空間不變性,該特點限制了DCNN的空間精度。因此,DeepLabV1針對上述兩個問題,分別使用“空洞卷積”、“條件隨機場(CRF)”的方式,解決了分辨率下降的問題、提高了模型捕獲細節(jié)的能力。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第27頁DeepLabV1DeepLabV1的整體結構如右圖所示。

圖中的5個VGGlayer與以往不同,其內部的卷積層使用的是空洞卷積,F(xiàn)C6同樣使用了空洞卷積,F(xiàn)C7使用的是一個1×1的普通卷積。6個Classification內部有三個卷積層,其作用是通過雙線性插值統(tǒng)一特征圖大小、通過卷積操作使輸出特征圖的通道數(shù)等于類別數(shù)。最后,進行按像素疊加、按原圖大小進行插值縮放,得到最終的輸出。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第28頁空洞卷積空洞卷積是一種能夠增大感受野的卷積方法,而感受野是指計算特征圖上某個點的像素值時,計算使用的像素值的在輸入圖片上覆蓋范圍。上圖中,輸出的每一個像素點,其感受野的范圍都是3×3。而空洞卷積是指在不改變計算量(9個像素值)的情況下,對特征圖上的原始區(qū)域進行卷積時,沒有逐像素進行計算、而是間隔一定步長來進行計算。下圖中,輸出的每一個像素點,其感受野的范圍都是5×5。普通卷積:感受野3×3空洞卷積:感受野5×5DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第29頁條件隨機場(CRF)條件隨機場(CRF)是一種無向圖,圖中的頂點代表隨機變量,頂點之間的連線代表相互關系。上圖展示了CRF在DeepLabV1整體網絡結構中的作用。下圖展示了CRF比其他方法更能使分類結果的邊緣更加精細。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第30頁DeepLabV2DeepLabV2是DeepLabV1的改進版,其網絡結構如圖所示。首先,V2使用ResNet替換了V1所使用的VGG網絡。其次,引入了一個ASPP(AtrousSpatialPyramidPooling,空間空洞金字塔池化)層,使不同尺寸的特征圖都擴大了自身的感受野,獲得了更多的上下文信息。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第31頁ASPP層ASPP層的作用在于,其使用不同感受野的卷積核,如圖所示。具體來說,就是將輸入的特征圖,以四個不同擴張率(rate)的3×3卷積核進行空洞卷積的計算,以此獲得了多尺度、不同感受野的上下文信息。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第32頁DeepLabV3DeepLabV3直接去除了CRF的過程,并引入了Multi-Grid策略、優(yōu)化ASPP的結構,僅憑卷積網絡便達到了DeepLabV2的效果。DeepLabV3的網絡結構如圖所示。輸入的圖像經過4個ResNet后,進入ASPP’(即改進后的ASPP),再進行后續(xù)的圖像分割過程。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第33頁空洞卷積的弊端越高層的空洞卷積,擴張率越大,其對輸入的采樣就會越稀疏,很多局部信息就會被丟失,使得輸出的特征圖出現(xiàn)gridding問題,如圖所示。第一行是真實值,第二行是具有gridding問題的特征圖。該現(xiàn)象的產生源自于空洞卷積使用了相同間隔的膨脹率,導致其在某一特定像素的周圍總是對相對固定位置的那些像素進行多次采樣,造成過擬合,導致失真。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第34頁Multi-Grid策略DeepLabV3中便采用了Multi-Grid策略,其在一個ResBlock中連續(xù)使用多個不同擴張率的空洞卷積。

即在不同的空洞卷積層上,使用不同間隔的膨脹率來替代固定間隔的膨脹率。如圖所示,膨脹率rate不再固定間隔的增加(如2,4,6,8),而是非等間隔的增加(如2,4,8,16)。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第35頁BN(BatchNormalization)層BN層能夠均衡特征圖上的像素值分布情況,減輕計算壓力、進而減少訓練和預測的總時間。此外,作者發(fā)現(xiàn),膨脹率越大,卷積核中的有效權重越少;當膨脹率足夠大時,只有卷積核最中間的權重是有效的,此時卷積核退化成了1×1卷積核,此時空洞卷積便丟失了預期的上下文信息。因此,作者對最后一層的特征圖進行全局池化,經過256個1×1卷積核和BN層,使用雙線性插值得到最終所需維度的特征圖。綜上,改進后的ASPP即ASPP’,如圖所示,其融合了Multi-grid策略、BN層、全局池化,使模型訓練的時間更短、效果也更好。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第36頁DeepLabV3+在圖像分割的方法中,對于上下文信息的提取主要有兩種思路:一種是利用空間金字塔池化(SPP)結構(如圖(a))、另一種是編碼器-解碼器(Encoder-Decoder)結構(如圖(b))。而DeepLabV3+則是DeepLabV3的改進版,其融合了上述兩種思路,即在Encoder-Decoder結構的基礎上,加入了SPP模塊,如圖(c)所示。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第37頁DeepLabV3+因此,DeepLabV3+很好的融合了上述兩種結構的優(yōu)點:通過SPP來利用多種感受野池化不同分辨率的特征來挖掘上下文信息;通過Encoder-Decoder來逐步重構空間信息來捕捉物體的邊緣。引入空洞卷積后,Encoder-Decoder模型的運行時間有所減少。DeepLabV3+的運行時間和輸出精度,是可以通過空洞卷積的膨脹率等參數(shù)來進行動態(tài)調整的。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第38頁6.5圖卷積網絡方法本節(jié)內容:

(1)圖卷積的定義

(2)BeyondGrids

(3)GloRe

(4)GINetDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第39頁圖卷積的定義圖是由節(jié)點(node)和邊(edge)構成的,節(jié)點表示實體,而邊描述了實體與實體之間的關系。圖有四種基本類型,如無向圖、有向圖、加權圖、混合圖等。實際上,根據圖的形狀和特點,圖還可以細分為更多種類,規(guī)則簡單的類別有樹、環(huán)、軌道等;規(guī)則復雜的類別有連通圖、偶圖、邊圖、弦圖、歐拉圖、哈密頓圖等。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第40頁復習:卷積的定義復習二維平面卷積運算的定義:

其計算過程就是利用卷積核,在輸入圖像上滑動,將圖像上點的像素值與卷積核上對應位置的數(shù)值相乘,再將所有乘積相加求和,作為輸出特征圖上卷積核中間位置的特征值,重復該過程直到遍歷完輸入圖片上所有的像素。圖卷積則與之類似,將每個節(jié)點描述為一個特征向量,通過設計一個可以遍歷全部節(jié)點的矩陣運算,該運算方法便命名為圖卷積。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第41頁圖卷積的一種定義圖中,節(jié)點1共有5個鄰居,對于節(jié)點1進行圖卷積,則就是對節(jié)點1及其鄰居節(jié)點的信息進行聚合。其中,每個節(jié)點都用一個向量來表示,所有的節(jié)點向量則構成了節(jié)點矩陣n×c維的矩陣(n是節(jié)點數(shù)量,c是節(jié)點向量的維度);A是n×n維的鄰接矩陣,Aij=1表示節(jié)點i與節(jié)點j相鄰、Aij=0表示不相鄰;I是單位矩陣;D是對角矩陣,其作為歸一化的因子參與矩陣乘積運算;W是可學習的參數(shù)矩陣。本質上,圖卷積也是一種消息傳遞網絡:L描述了節(jié)點間消息的傳遞過程。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第42頁BeyondGrids在BeyondGrids提出之前,應用于圖像分割的深度學習網絡大多數(shù)都是通過堆疊多個卷積層、池化層來增大感受野,進而獲得目標與場景的上下文關系。實際上,這種方法得到的有效感受野非常有限,并不能很好的對上下文進行建模。因此,BeyondGrids方法定義了GCU(GraphConvolutionUnit,圖卷積單元)來處理相關問題。一個GCU由三部分構成:GraphProjection、GraphConvolution、GraphRe-Projection。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第43頁BeyondGrids的GCU單元其中,GraphProjection為特征投影過程,即將2維特征圖投影到圖G=(V,E)上(V是節(jié)點的集合,E是節(jié)點間相互關系的集合)。對于V中的各個節(jié)點,其都是通過特征聚合的方式得到的。GraphConvolution為圖卷積過程,其采用上一節(jié)所述的公式進行運算,通過訓練的方式來學習參數(shù)W。GraphRe-Projection為反投影過程,將經過圖卷積運算的圖表征重新投影到2維空間。下圖展示了一個GCU的處理過程。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第44頁BeyondGrids的GCU單元DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第45頁GloRe的交互空間GloRe提出了一種推理方法:將坐標空間(CoordinateSpace)的像素級特征聚合投影到交互空間(InteractionSpace)中,經過一系列運算后再投回到原始的坐標空間。圖(b)描述了坐標空間下的區(qū)域劃分,同種顏色的區(qū)域內部,其像素是相似的,即根據像素的相似性劃分坐標空間中的區(qū)域;(c)描述了坐標空間與交互空間中區(qū)域的投影與反投影關系。DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第46頁GloRe的流程DeepLearningAndAutonomousDriving深度學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論