版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、自動駕駛核心技術(shù)之三:環(huán)境感知自動駕駛四大核心技術(shù),分別是環(huán)境感知、精確定位、 路徑規(guī)劃、線控執(zhí)行。環(huán)境感知是其中被研究最多的部分, 不過基于視覺的環(huán)境感知是無法滿足無人駕駛要求的。環(huán)境 感知主要包括三個(gè)方面,路面、靜態(tài)物體和動態(tài)物體。 對于 動態(tài)物體, 不僅要檢測還要對其軌跡進(jìn)行追蹤,并根據(jù)追蹤 結(jié)果,預(yù)測該物體下一步的軌跡(位置) 。這在市區(qū),尤其 中國市區(qū)必不可少,最典型場景就是北京五道口:如果你見 到行人就停, 那你就永遠(yuǎn)無法通過五道口, 行人幾乎是從不 停歇地從車前走過。人類駕駛員會根據(jù)行人的移動軌跡大概 評估其下一步的位置,然后根據(jù)車速,計(jì)算出安全空間(路 徑規(guī)劃),公交司機(jī)最擅長
2、此道。無人車同樣要能做到。 要 注意這是多個(gè)移動物體的軌跡的追蹤與預(yù)測,難度比單一物 體要高得多。這就是MODAT(Moving Object Detection andTracking)。也是無人車最具難度的技術(shù)。圖:無人車環(huán)境感 知框架 這是基于激光雷達(dá)的環(huán)境感知模型,搞視覺環(huán)境感知模型研 究的人遠(yuǎn)多于激光雷達(dá)。不過很遺憾地講,在無人車這件事 上,視覺不夠靠譜。 讓我們來看計(jì)算機(jī)視覺的發(fā)展歷程,神經(jīng)網(wǎng)絡(luò)的歷史可追述到上世紀(jì)四十年代, 曾經(jīng)在八九十年 代流行。 神經(jīng)網(wǎng)絡(luò)試圖通過模擬大腦認(rèn)知的機(jī)理,解決各種 機(jī)器學(xué)習(xí)的問題。1986年Rumelhart,Hinton和Williams在 自然發(fā)
3、表了著名的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),直 到今天仍被廣泛應(yīng)用。不過深度學(xué)習(xí)自80年代后沉寂了許 久。神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常發(fā)生過擬合問題,即往往 在訓(xùn)練集上準(zhǔn)確率很高,而在測試集上效果差。這部分歸因 于當(dāng)時(shí)的訓(xùn)練數(shù)據(jù)集規(guī)模都較小,而且計(jì)算資源有限,即便 是訓(xùn)練一個(gè)較小的網(wǎng)絡(luò)也需要很長的時(shí)間。神經(jīng)網(wǎng)絡(luò)與其它 模型相比并未在識別的準(zhǔn)確率上體現(xiàn)出明顯的優(yōu)勢,而且難 于訓(xùn)練。因此更多的學(xué)者開始采用諸如支持向量機(jī)(SVM)、Boosting、最近鄰等分類器。這些分類器可以用具有一個(gè)或 兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模擬,因此被稱作淺層機(jī)器學(xué)習(xí)模 型。它們不再模擬大腦的認(rèn)知機(jī)理;相反, 針對不同的任務(wù) 設(shè)計(jì)不
4、同的系統(tǒng), 并采用不同的手工設(shè)計(jì)的特征。例如語音 識別采用高斯混合模型和隱馬爾可夫模型,物體識別采用SIFT特征,人臉識別采用LBP特征,行人檢測采用HOG特征。2006年以后, 得益于電腦游戲愛好者對性能的追求,GPU性能飛速增長。同時(shí),互聯(lián)網(wǎng)很容易獲得海量訓(xùn)練數(shù)據(jù)。 兩者結(jié)合,深度學(xué)習(xí)或者說神經(jīng)網(wǎng)絡(luò)煥發(fā)了第二春。2012年,Hinton的研究小組采用深度學(xué)習(xí)贏得了ImageNet圖像 分類的比賽。從此深度學(xué)習(xí)開始席卷全球,到今天,你不說 深度學(xué)習(xí)都不好出街了。深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最 大不同在于它是從大數(shù)據(jù)中自動學(xué)習(xí)特征,而非采用手工設(shè) 計(jì)的特征。好的特征可以極大提高模式識別系統(tǒng)的性
5、能。在 過去幾十年模式識別的各種應(yīng)用中,手工設(shè)計(jì)的特征處于統(tǒng) 治地位。它主要依靠設(shè)計(jì)者的先驗(yàn)知識,很難利用大數(shù)據(jù)的 優(yōu)勢。由于依賴手工調(diào)參數(shù),特征的設(shè)計(jì)中只允許出現(xiàn)少量 的參數(shù)。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動學(xué)習(xí)特征的表示,其中可以包含成千上萬的參數(shù)。手工設(shè)計(jì)出有效的特征是一個(gè) 相當(dāng)漫長的過程?;仡櫽?jì)算機(jī)視覺發(fā)展的歷史,往往需要五 到十年才能出現(xiàn)一個(gè)受到廣泛認(rèn)可的好的特征。而深度學(xué)習(xí) 可以針對新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)得到新的有效的 特征表示。一個(gè)模式識別系統(tǒng)包括特征和分類器兩個(gè)主要的 組成部分,二者關(guān)系密切,而在傳統(tǒng)的方法中它們的優(yōu)化是分開的。在神經(jīng)網(wǎng)絡(luò)的框架下,特征表示和分類器是聯(lián)合優(yōu) 化的
6、。兩者密不可分。深度學(xué)習(xí)的檢測和識別是一體的,很 難割裂,從一開始訓(xùn)練數(shù)據(jù)即是如此,語義級標(biāo)注是訓(xùn)練數(shù) 據(jù)的最明顯特征。絕對的非監(jiān)督深度學(xué)習(xí)是不存在的,即便 弱監(jiān)督深度學(xué)習(xí)都是很少的。因此視覺識別和檢測障礙物很 難做到實(shí)時(shí)。而激光雷達(dá)云點(diǎn)則擅長探測檢測障礙物3D輪 廓,算法相對深度學(xué)習(xí)要簡單的多,很容易做到實(shí)時(shí)。激光 雷達(dá)擁有強(qiáng)度掃描成像,換句話說激光雷達(dá)可以知道障礙物 的密度,因此可以輕易分辨出草地,樹木,建筑物,樹葉, 樹干,路燈,混凝土,車輛。這種語義識別非常簡單,只需 要根據(jù)強(qiáng)度頻譜圖即可。而視覺來說要準(zhǔn)確的識別,非常耗時(shí)且可靠性不高。視覺深度學(xué)習(xí)最致命的缺點(diǎn)是對視頻分析 能力極弱,而
7、無人車面對的視頻, 不是靜態(tài)圖像。 而視頻分 析正是激光雷達(dá)的特長。視覺深度學(xué)習(xí)在視頻分析上處于最 初的起步階段,描述視頻的靜態(tài)圖像特征, 可以采用從ImageNet上學(xué)習(xí)得到的深度模型;難點(diǎn)是如何描述動態(tài)特 征。以往的視覺方法中,對動態(tài)特征的描述往往依賴于光流 估計(jì),對關(guān)鍵點(diǎn)的跟蹤,和動態(tài)紋理。如何將這些信息體現(xiàn) 在深度模型中是個(gè)難點(diǎn)。最直接的做法是將視頻視為三維圖 像,直接應(yīng)用卷積網(wǎng)絡(luò),在每一層學(xué)習(xí)三維濾波器。但是這 一思路顯然沒有考慮到時(shí)間維和空間維的差異性。另外一種 簡單但更加有效的思路是通過預(yù)處理計(jì)算光流場,作為卷積 網(wǎng)絡(luò)的一個(gè)輸入通道。也有研究工作利用深度編碼器(deep auto
8、encoder)以非線性的方式提取動態(tài)紋理,而傳統(tǒng)的方法大多采用線性動態(tài)系統(tǒng)建模。光流只計(jì)算相鄰兩幀的運(yùn)動情 況,時(shí)間信息也表述不充分。two-stream只能算是個(gè)過渡方 法。目前CNN搞空域,RNN搞時(shí)域已經(jīng)成共識, 尤其是LSTM和GRU結(jié)構(gòu)的引入。RNN在動作識別上效果不彰,某些單 幀就可識別動作。除了大的結(jié)構(gòu)之外,一些輔助的模型,比 如visual hard/soft attention model,以及ICLR2016上的壓縮 神經(jīng)網(wǎng)絡(luò)都會對未來的深度學(xué)習(xí)視頻處理產(chǎn)生影響。目前 深度學(xué)習(xí)對視頻分析還不如手工特征,而手工特征的缺點(diǎn),前面已經(jīng)說過,準(zhǔn)確率很低,誤報(bào)率很高。未來恐怕也難以
9、 提升。太多的坑要填。MODAT首先要對視頻分析,實(shí)時(shí)計(jì) 算出地平面,這對點(diǎn)云為主的激光雷達(dá)來說易如反掌,對視 覺來說難比登天。用分段平面擬合和RANSAC算法計(jì)算出真實(shí)地平面。實(shí)際 單靠激光雷達(dá)的強(qiáng)度掃描成像,一樣可以得出準(zhǔn)確的地平 面,這也是激光雷達(dá)用于遙感的主要原因,可以排除植被的 干擾,獲得準(zhǔn)確的地形圖,大地基準(zhǔn)面。用VOXEL GRID濾波器將動靜物體分開,黑棕藍(lán)綠是激光 雷達(dá)發(fā)射到行人身上的每個(gè)時(shí)間段的假設(shè),與動態(tài)物體比, 靜態(tài)物體捕獲的點(diǎn)云數(shù)自然要多。左邊是深度學(xué)習(xí)領(lǐng)域人盡皆知的權(quán)威Kitti數(shù)據(jù)集的采集車, 右邊是數(shù)據(jù)集的數(shù)據(jù)格式和內(nèi)容。Kitti對其Ground Truth有
10、 一段描述,Togenerate 3D object ground-truth we hired a set of annotators, andasked them to assign tracklets in the form of 3D bounding boxes toobjects such as cars, vans, trucks,trams, pedestrians and cyclists.Unlike most existing benchmarks, we do not rely on onlinecrowd-sourcing to perform the labelin
11、g. Towards this goal, we createa special purpose labeling tool, which displays 3D laser points aswell as the camera images to increase the quality of the annotations.這里Kitti說的很明確, 其訓(xùn)練數(shù)據(jù)的標(biāo)簽加注不是人工眾包,而是打造了一個(gè)自動 標(biāo)簽軟件,這個(gè)軟件把3D激光云點(diǎn)像光學(xué)圖像一樣顯示出來,以此來提高標(biāo)注的質(zhì)量。 很簡單, 激光雷達(dá)是3D ObjectDetection的標(biāo)準(zhǔn),即使視覺深度學(xué)習(xí)再強(qiáng)大,與激光雷達(dá)始 終有
12、差距。再來說一下Stixel(sticks above the ground in the image),中文一般叫棒狀像素, 這是2008年由奔馳和法蘭克 福大學(xué)Hernan Badino教授推出的一種快速實(shí)時(shí)檢測障礙物的上下邊緣和雙目視差,構(gòu)建一個(gè)Stixel,可以準(zhǔn)確快速地檢測障礙物, 特別是行人。 這是奔馳寶馬大規(guī)模使用雙目 的主要原因,相對單目的行人識別,雙目Stixel擁有碾壓性 優(yōu)勢。激光雷達(dá)的3D距離信息更容易獲得,也更準(zhǔn)確,因此建立Steixel更加快捷準(zhǔn)確?,F(xiàn)在該說Tracking了,現(xiàn)在不少人把 跟蹤(tracking)和計(jì)算機(jī)視覺中的目標(biāo)跟蹤搞混了。前者更偏 向數(shù)學(xué),是
13、對狀態(tài)空間在時(shí)間上的變化進(jìn)行建模,并對下一 時(shí)刻的狀態(tài)進(jìn)行預(yù)測的算法。 例如卡爾曼濾波, 粒子濾波等。 后者則偏向應(yīng)用,給定視頻中第一幀的某個(gè)物體的框,由算 法給出后續(xù)幀中該物體的位置。最初是為了解決檢測算法速 度較慢的問題,后來慢慢自成一系。因?yàn)樽兂闪藨?yīng)用問題, 所以算法更加復(fù)雜,通常由好幾個(gè)模塊組成,其中也包括數(shù)物的方法,尤其適合檢測行人,這也是奔馳和寶馬雙目的由來。 隆大學(xué)的機(jī)器人實(shí)驗(yàn)室挖走了, 卡梅隆大學(xué)機(jī)器人實(shí)驗(yàn)室開發(fā)的每秒可做到150甚至200幀,Hernan Badino后來被卡梅Uber的無人車主要就是基于Stixel的核心是計(jì)算棒狀學(xué)上的tracking算法,還有提取特征,在
14、線分類器等步驟。 在自成一系之后,目標(biāo)跟蹤實(shí)際上就變成了利用之前幾幀的 物體狀態(tài)(旋轉(zhuǎn)角度,尺度),對下一幀的物體檢測進(jìn)行約束(剪枝)的問題了。它又變回物體檢測算法了,但卻人為地把 首幀得到目標(biāo)框的那步剝離出來。在各界都在努力建立end-to-end系統(tǒng)的時(shí)候,目標(biāo)跟蹤卻只去研究一個(gè)子問題, 選擇性無視第一幀的框是怎么來的的問題。激光雷達(dá)的Tracking則很容易做到, 以IBEO為例,IBEO每一款激光雷 達(dá)都會附送一個(gè)叫IBEO Object Tracking的軟件,這是一個(gè) 基于開曼濾波器的技術(shù),最多可實(shí)時(shí)跟蹤65個(gè)目標(biāo),是實(shí)時(shí)喲,這可是視覺類根本不敢想的事。Quanergy也有類似的 軟件,叫3D Perception。感知、決策(路徑規(guī)劃) 、定位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版國際貿(mào)易實(shí)務(wù)買賣合同的標(biāo)的
- 二零二五版車輛貸款保證合同規(guī)范樣本2篇
- 2024科技創(chuàng)新項(xiàng)目前期咨詢服務(wù)協(xié)議版
- 2024版權(quán)授權(quán)協(xié)議書范本
- 武漢警官職業(yè)學(xué)院《光學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 文山學(xué)院《設(shè)施園藝學(xué)實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版房屋出售委托協(xié)議3篇
- 二零二五年電子制造企業(yè)技術(shù)工人勞動合同范本2篇
- 二零二五年度人工智能教育股份分紅與人才培養(yǎng)協(xié)議3篇
- 圖木舒克職業(yè)技術(shù)學(xué)院《別墅空間設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 高二物理競賽霍爾效應(yīng) 課件
- 金融數(shù)學(xué)-(南京大學(xué))
- 基于核心素養(yǎng)下的英語寫作能力的培養(yǎng)策略
- 現(xiàn)場安全文明施工考核評分表
- 亞什蘭版膠衣操作指南
- 四年級上冊數(shù)學(xué)教案 6.1口算除法 人教版
- DB32-T 3129-2016適合機(jī)械化作業(yè)的單體鋼架塑料大棚 技術(shù)規(guī)范-(高清現(xiàn)行)
- 6.農(nóng)業(yè)產(chǎn)值與增加值核算統(tǒng)計(jì)報(bào)表制度(2020年)
- 人工挖孔樁施工監(jiān)測監(jiān)控措施
- 供應(yīng)商物料質(zhì)量問題賠償協(xié)議(終端)
- 物理人教版(2019)必修第二冊5.2運(yùn)動的合成與分解(共19張ppt)
評論
0/150
提交評論