針對城市道路的圖像語義分割

上傳人：老*** IP屬地：廣東上傳時間：2022-09-16 格式：DOCX 頁數(shù)：13 大小：21.94KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、PAGE 13 -針對城市道路的圖像語義分割樊天宇張瑞菊（北京建筑大學(xué)，北京 102627）摘要城市道路圖像的語義分割具有很多的應(yīng)用場景，如自動駕駛、圖片或視頻中廣告的插入等。這些應(yīng)用場景都要求分割算法具有較高的精確度，城市道路圖像中具有很多尺度大小不一的目標，不同尺度的目標特別是小尺度的目標，會給精細化分割帶來更多困難。針對以上問題，提出了一種基于編碼器解碼器結(jié)構(gòu)的語義分割網(wǎng)絡(luò)。使用該模型以改進不同尺度目標邊緣的分割精確性。針對城市道路場景的Cityscapes數(shù)據(jù)集設(shè)計相關(guān)的對比實驗，實驗結(jié)果證明了所提方法的有效性。關(guān)鍵詞圖像語義分割;城市道路;深度學(xué)習(xí)中圖分類號 U463.6;TP3

2、91.41 文獻標識碼 A 文章編號 2096-8949（2022）06-0011-03 引言圖像語義分割一直是計算機視覺領(lǐng)域非常重要的研究方向，伴隨著深度學(xué)習(xí)在計算機視覺中目標識別領(lǐng)域率破紀錄，大放光彩，深度學(xué)習(xí)也在計算機視覺其他子領(lǐng)域應(yīng)用開來，如目標跟蹤、圖像去噪、場景重建、圖像風(fēng)格轉(zhuǎn)換。圖像語義分割是將像素按照圖像中表達語義含義的不同進行分組（Grouping）和分割（Segmentation），在 2022 年之前，傳統(tǒng)方法從“閾值法”逐步發(fā)展到基于像素聚類的分割方法，2022 年后，基于深度學(xué)習(xí)的圖像語義分割方法開始逐漸應(yīng)用自動駕駛領(lǐng)域。自動駕駛通過環(huán)境感知、自主決策和運動控制等一

3、系列關(guān)鍵技術(shù)，實現(xiàn)道路交通部分甚至完全自動化運行，是對傳統(tǒng)運輸模式和出行方式的一次深刻的變革?，F(xiàn)如今，主要發(fā)達國家紛紛將其列為下一階段重要的發(fā)展領(lǐng)域。據(jù)不完全統(tǒng)計，截至2022年末，我國汽車保有量約為28 087萬輛（包括三輪汽車和低速貨車748萬輛），比上年末增加1 937萬輛，是名副其實的汽車大國。然而我國的自動駕駛技術(shù)專利雖然申請活躍，但總體的質(zhì)量偏低，產(chǎn)業(yè)核心競爭力也有待提升。在“十三五”國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃中指出，要加速電動汽車智能化技術(shù)應(yīng)用創(chuàng)新，發(fā)展自動駕駛。自動駕駛系統(tǒng)作為智能駕駛汽車的“心臟”，其主要包括智能交通系統(tǒng)（Intelligent Traffic System，

4、ITS）、先進駕駛輔助系統(tǒng)（Advanced Driver Assistance System，ADAS）。城市道路圖像的語義分割是智能交通系統(tǒng)以及先進輔助駕駛系統(tǒng)中的重要一環(huán)，是實現(xiàn)輔助駕駛甚至完全自動化駕駛必不可少的關(guān)鍵技術(shù)。目前交通事故主要是人為失誤造成的，其主要包括注意力不集中、行為不端等。道路感知和道路圖像的語義分割作為先進駕駛輔助系統(tǒng)的基礎(chǔ)，在幫助駕駛員避免錯誤方面起著至關(guān)重要的作用。一些成功的自動駕駛輔助系統(tǒng)或汽車企業(yè)，如Mobileye、寶馬、特斯拉等，都開發(fā)了自己的產(chǎn)品，在研究和現(xiàn)實應(yīng)用方面都取得了顯著的成就。目前成熟的自動駕駛方案幾乎都采用了基于視覺的技術(shù)，例如工業(yè)高清攝像

5、頭、雙目相機等。它相比于激光雷達具有更低的獲取成本以及更接近于人眼的感知效果。這是因為在車輛行駛過程中，攝像頭采集到的圖像數(shù)據(jù)具有極大的信息量。圖像語義分割將圖像中每一個像素按照標簽進行分類，從而可以從圖像中提取出豐富的駕駛環(huán)境信息，輔助決策。例如在攝像頭采集到的數(shù)據(jù)中，區(qū)分出道路與綠化帶，行人與車輛，判定出可行駛區(qū)域，區(qū)分出道路路面與地面交通標示，判定出道路邊緣與車道線。圖像語義分割是自動駕駛中的重要環(huán)節(jié)，通過對攝像頭傳感器采集到的信息進行特征提取分類，才能獲得有利于決策模塊進行決策的信息1。在現(xiàn)階段的自動駕駛技術(shù)中，處理好圖像中道路路面的關(guān)鍵性信息，將有助于提高車輛行駛決策的準確度。1 全

6、卷積神經(jīng)網(wǎng)絡(luò)道路圖像是自動駕駛中視覺傳感器收集到的重要信息，是汽車行駛環(huán)境的重要建模依據(jù)。在傳感器收集到的大量圖像信息中，自動駕駛感知模塊依據(jù)語義信息將圖像中不同分類的目標分割開來，幫助決策模塊理解場景。隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域大規(guī)模應(yīng)用，卷積神經(jīng)網(wǎng)絡(luò)也自然而然地成功應(yīng)用到語義分割中。目前基于深度學(xué)習(xí)語義分割模型種類很多，全卷積神經(jīng)網(wǎng)絡(luò)是目前最成功的分割模型之一，傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型中，在分類器前常接一個全連接層，全連接層因為要接受固定大小的輸入維度，故當卷積層輸出更大維度的特征圖時，無法使用全連接層進行處理，對目標尺度變化大的特征難以學(xué)習(xí)2。加州大學(xué)伯克利分校的 Jonathan Lon

7、g等人提出了全卷積神經(jīng)網(wǎng)絡(luò)模型，該模型使用卷積層取代了全連接層，接受任意尺寸的圖像信息作為輸入，經(jīng)過多層卷積與池化進行特征抽取和降維操作后，引入反卷積對最后一層卷積層上輸出的特征圖執(zhí)行上采樣操作，使特征圖恢復(fù)到與輸入圖像相同的尺寸，從而對輸入圖像中每個位置的像素產(chǎn)生一個預(yù)測，預(yù)測像素屬于哪個類別1。全卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)由于池化對每次卷積結(jié)果的降維操作，造成圖像分辨率降低，當執(zhí)行到 pool5 時，圖像的分辨率較之輸入時已經(jīng)變得非常低，若從該層執(zhí)行上采樣操作，得到的分割結(jié)果也非常粗糙。從該層執(zhí)行上采樣操作后，獲得與輸入圖像一樣大小的輸出模型，須放大 32 倍，故稱為 FCN-32s。這樣的模

8、型由于缺少大量細節(jié)信息，分割效果很差。如果將該層池化后的結(jié)果僅上采樣并放大兩倍，與 pool4 層的池化結(jié)果相加，得到新的特征圖再進行上采樣操作，放到 16 倍得到和輸入圖像尺寸相同的結(jié)果，這該模型稱為 FCN-16s。而 FCN 網(wǎng)絡(luò)中效果最好的是 FCN-8s，顧名思義，該網(wǎng)絡(luò)將 pool3 層的結(jié)果與pool4、pool5 上采樣后的結(jié)果相加，將淺層特征與深層特征進行了融合，故分割結(jié)果的效果是最好的。2 深度圖像分割網(wǎng)絡(luò)針對自動駕駛中的圖像語義分割任務(wù)，提出了一種基于深度學(xué)習(xí)的深度圖像分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)較全卷積神經(jīng)網(wǎng)絡(luò)，做了很多改進，吸取了全卷積神經(jīng)網(wǎng)絡(luò)中的思想，例如跨層融合、上采樣等，也

9、針對該網(wǎng)絡(luò)采用池化降維導(dǎo)致圖像像素丟失的缺點進行了改進。網(wǎng)絡(luò)整體結(jié)構(gòu)使用了 3 個殘差模塊、3 個非對稱分離卷積模塊、1 個空洞卷積層、3 個反卷積層和 1 個 softmax 分類層。網(wǎng)絡(luò)整體采用對稱結(jié)構(gòu)設(shè)計，左半部分為編碼網(wǎng)絡(luò)（Encoder），右半部分為解碼網(wǎng)絡(luò)。在編碼網(wǎng)絡(luò)，使用殘差模塊，不斷提取圖像特征，在這個過程中，不使用池化操作，執(zhí)行三次殘差模塊操作后，對特征圖進行空洞卷積獲得尺寸最小的特征圖。每個卷積層操作采用 ReLU 激活函數(shù)，每個卷積層后有批歸一化層，防止學(xué)習(xí)過程中，誤差梯度彌散或爆炸。在解碼網(wǎng)絡(luò)中，深度網(wǎng)絡(luò)將空洞卷積層獲得的特征圖，經(jīng)過反卷積操作，不斷進行上采樣，將圖像尺

10、寸恢復(fù)到輸入時大小。借用 FCN 網(wǎng)絡(luò)中特征融合思想，將編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)進行特征融合，由于編碼網(wǎng)絡(luò)中，淺層抽取的特征較為豐富，合理利用淺層信息能有效提高圖像分割時精度。解碼過程中，反卷積進行 2 倍上采樣后的特征圖，與對應(yīng)位置處編碼網(wǎng)絡(luò)殘差模塊處理結(jié)果進行融合，利用淺層網(wǎng)絡(luò)的特征。編碼網(wǎng)絡(luò)殘差模塊使用非對稱分離卷積模塊進行降維操作，使兩者的特征圖具有相同維數(shù)2。2.1 殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)層數(shù)越多，提取的特征也就越豐富，但如果簡單地增加深度，會使學(xué)習(xí)過程中誤差函數(shù)傳播出現(xiàn)梯度彌散或者梯度爆炸，即準確率先隨著深度的增加而提高，隨后又減低的過程。何凱明將深度神經(jīng)網(wǎng)絡(luò)中接收到的信息通過短連接傳遞到

11、后面的層中，有效地解決了深度網(wǎng)絡(luò)難以訓(xùn)練的問題。在深度圖像分割網(wǎng)絡(luò)中，采樣殘差結(jié)構(gòu)提取特征，既能保證網(wǎng)絡(luò)深度來獲取更多的特征，還能避免網(wǎng)絡(luò)過擬合，降低訓(xùn)練難度。殘差網(wǎng)絡(luò)在設(shè)計時，當輸入和輸出維度不一致時，需要給輸入的特征圖 x 執(zhí)行一個線性映射來匹配維度，如下式：文中采用大小為11，步長為2的卷積核來執(zhí)行映射。2.2 空洞卷積編碼網(wǎng)絡(luò)中，對最后一個殘差抽取的特征圖執(zhí)行空洞卷積來取代池化操作。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中，池化操作雖然能夠降維，但會使特征圖上的像素尺度較低產(chǎn)生信息丟失，這樣經(jīng)過上采樣會降低分割精度?？斩淳矸e是一種通過增加感受野范圍的卷積方式，采用下式計算特征圖的空洞卷積結(jié)果，i為像素索

12、引，r為孔的比例。隨著孔比例增加，空洞卷積感受野的范圍也隨之增加，但參數(shù)數(shù)量并未增加。空洞卷積在普通卷積核中插入孔來達到增加感受野面積的目的，將一個原本感受野大小為33的卷積核變?yōu)榱?7，并且沒有增加訓(xùn)練參數(shù)。2.3 非對稱卷積解碼網(wǎng)絡(luò)中非對稱卷積模塊將殘差模塊輸出的特征圖降維到與反卷積上采樣后的得到的特征圖一樣的維度。非對稱卷積最早出現(xiàn)在InceptionV3深度網(wǎng)絡(luò)中，Inception系列網(wǎng)絡(luò)是使用不同大小的卷積核對輸入的圖像進行卷積，然后將結(jié)果融合。廣泛地使用的Inception模型中，通過11，33，55等不同大小的卷積核采用depthconcat方式連接，這樣一方面增加了單層網(wǎng)絡(luò)的

13、寬度，同時也保留了不同尺度下的輸入信息特征，增加了深度神經(jīng)網(wǎng)絡(luò)對尺度的適應(yīng)性。非對稱卷積是在Inception網(wǎng)絡(luò)中，使用1N和N1大小的卷積核，取代NN大小的卷積核。這種運算下，二者的卷積結(jié)果是一致的，但通過非對稱卷積，有效地減少了運算量，減少了卷積核參數(shù)。2.4 反置卷積在解碼網(wǎng)絡(luò)中，使用反卷積進行上采樣操作。反卷積也稱轉(zhuǎn)置卷積，實質(zhì)上依然是卷積操作，只是將輸入圖像進行填邊或在像素間填零后，進行卷積操作。2.5 批歸一化層在深層神經(jīng)網(wǎng)絡(luò)的應(yīng)用中，深度網(wǎng)絡(luò)的訓(xùn)練一直是難以攻克的難題。當使用梯度下降算法反向傳播誤差時，經(jīng)常出現(xiàn)梯度消失和梯度爆炸現(xiàn)象，是因為誤差在傳播過程中，由于多層神經(jīng)網(wǎng)絡(luò)的級

14、聯(lián)，參數(shù)微小的變化會將計算結(jié)果在層間傳遞中不斷地放大或縮小。因此，需要將數(shù)值在不同層間傳遞時，維系在一個合理范圍內(nèi)。歸一化則是機器學(xué)習(xí)中常見的數(shù)據(jù)預(yù)處理操作，數(shù)據(jù)的不同特征或維度中具有不同的量綱和量綱單位，其差異會影響到機器學(xué)習(xí)的效果，為消除不同特征間的量綱差異，常常對特征進行歸一化處理，讓不同的特征處于同一個數(shù)量級中。而批歸一化層則是對神經(jīng)網(wǎng)絡(luò)層間數(shù)據(jù)進行歸一化處理。2.6 損失函數(shù)針對圖像語義分割任務(wù)，模型的優(yōu)化目標函數(shù)選擇交叉熵代價函數(shù)。深度神經(jīng)網(wǎng)絡(luò)最后輸出的是W*H*C維的張量，用C維向量表征原圖上每一個像素屬于的分類。在訓(xùn)練中，使用One-HotEncoding的編碼方式將訓(xùn)練集中的

15、像素的分類表征為一個只由0和1構(gòu)成的C維向量。深度神經(jīng)網(wǎng)絡(luò)輸出的C維向量表征此處像素屬于C個分類的概率。當輸出與期望結(jié)果無限接近時，交叉熵損失函數(shù)無限接近于0。3 Cityscapes數(shù)據(jù)集Citysacpes數(shù)據(jù)集是自動駕駛領(lǐng)域權(quán)威數(shù)據(jù)集之一，該數(shù)據(jù)集專注于城市街道場景下的圖像分割，其采集了德國境內(nèi)的50個城市的街道在春、夏、秋三個季節(jié)中的照片，數(shù)據(jù)均在天氣條件好的白天下采集，分辨率為1 024 dpi2 048 dpi。對其中5 000張照片進行了細標注，20 000張照片進行了粗標注。2022年，圖森在Citysacpes公開數(shù)據(jù)集測試上獲得世界第一。Cityscapes數(shù)據(jù)集在城市道路

16、圖像上分割出30個分類，數(shù)據(jù)集中每個像素屬于某個分類，這30個分類被分為8組，并被標注不同的顏色。在Cityscapes的benchmark上，只采用19個種類進行模型性能評價。Citysacpes 數(shù)據(jù)集和 PASCAL VOC 數(shù)據(jù)集一樣使用 intersection-over-union（IoU）作為性能評估的指標。在深度神經(jīng)網(wǎng)絡(luò)計算出的分割結(jié)果中，某一分類的像素集合記作 P，原始圖像中屬于該分類的像素集合記作GT。則該類的IoU的計算如下：在此基礎(chǔ)上，計算各個分類的IoU的平均值，可得到mIoU作為模型綜合性能的評價指標。4 實驗與結(jié)果分析在Cityscapes數(shù)據(jù)集上訓(xùn)練了深度圖像分

17、割模型，驗證該算法的效果，并與Cityscapes的Benchmarks中存留的FCN-8s圖像分割網(wǎng)絡(luò)的結(jié)果進行對比。訓(xùn)練使用的深度學(xué)習(xí)服務(wù)器，軟硬件配置為：CPU：雙路 Intel Xeon E5-2683 V3 2.0 GHz ;內(nèi)存：128G DDR4;GPU：雙路 Nvidia GTX1080Ti 2x12G;硬盤：Inetl 240G SSD;OS：windows 10;Tensorflow：1.7;CUDA：9.0。4.1 實驗參數(shù)實驗中將Cityscapes數(shù)據(jù)集中5 000張細標注的數(shù)據(jù)分為三類，其中訓(xùn)練集3 000張，驗證集500張，測試集1 500張。學(xué)習(xí)30個分類中的1

18、9類，并將其余的分類歸并到未標記類。為加快深度學(xué)習(xí)收斂速度，將訓(xùn)練集中的圖像裁剪為800 dpi800 dpi。算法采用mini-batch隨機梯度下降算法，batch-size設(shè)置為12，初始學(xué)習(xí)率為0.01，動量系數(shù)為0.9，每迭代10個epoch后，學(xué)習(xí)率變?yōu)橄惹暗?/3，總共迭代100個epoch。4.2 結(jié)果分析表1計算了部分分類的 IoU 評價標注。與 FCN-8s 比較，可以看出，在天空、道路等大像素分類目標上，二者在分割上的性能差異并不大。但在人的分割方面，取得了比較好的成績，Rider 和 Person 都取得了比 FCN-8s 網(wǎng)絡(luò)更好的成績。這是由于FCN網(wǎng)絡(luò)中使用池化層進行降維操作，不可避免在圖像像素上造

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

針對城市道路的圖像語義分割

文檔簡介

溫馨提示

最新文檔

評論

針對城市道路的圖像語義分割

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔