![自動(dòng)駕駛核心技術(shù)之三-環(huán)境感知_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/21/111057cd-85f3-4ea3-803f-b534c7a6b005/111057cd-85f3-4ea3-803f-b534c7a6b0051.gif)
![自動(dòng)駕駛核心技術(shù)之三-環(huán)境感知_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/21/111057cd-85f3-4ea3-803f-b534c7a6b005/111057cd-85f3-4ea3-803f-b534c7a6b0052.gif)
![自動(dòng)駕駛核心技術(shù)之三-環(huán)境感知_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/21/111057cd-85f3-4ea3-803f-b534c7a6b005/111057cd-85f3-4ea3-803f-b534c7a6b0053.gif)
![自動(dòng)駕駛核心技術(shù)之三-環(huán)境感知_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/21/111057cd-85f3-4ea3-803f-b534c7a6b005/111057cd-85f3-4ea3-803f-b534c7a6b0054.gif)
![自動(dòng)駕駛核心技術(shù)之三-環(huán)境感知_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/21/111057cd-85f3-4ea3-803f-b534c7a6b005/111057cd-85f3-4ea3-803f-b534c7a6b0055.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自動(dòng)駕駛核心技術(shù)之三:環(huán)境感知自動(dòng)駕駛四大核心技術(shù),分別是環(huán)境感知、精確定位、 路徑規(guī)劃、線控執(zhí)行。環(huán)境感知是其中被研究最多的部分, 不過(guò)基于視覺(jué)的環(huán)境感知是無(wú)法滿足無(wú)人駕駛要求的。環(huán)境 感知主要包括三個(gè)方面,路面、靜態(tài)物體和動(dòng)態(tài)物體。對(duì)于 動(dòng)態(tài)物體,不僅要檢測(cè)還要對(duì)其軌跡進(jìn)行追蹤,并根據(jù)追蹤 結(jié)果,預(yù)測(cè)該物體下一步的軌跡(位置)。這在市區(qū),尤其中國(guó)市區(qū)必不可少,最典型場(chǎng)景就是北京五道口:如果你見(jiàn) 到行人就停,那你就永遠(yuǎn)無(wú)法通過(guò)五道口,行人幾乎是從不 停歇地從車前走過(guò)。人類駕駛員會(huì)根據(jù)行人的移動(dòng)軌跡大概 評(píng)估其下一步的位置,然后根據(jù)車速,計(jì)算由安全空間(路 徑規(guī)劃),公交司機(jī)最擅長(zhǎng)此道。無(wú)人車
2、同樣要能做到。 要 注意這是多個(gè)移動(dòng)物體的軌跡的追蹤與預(yù)測(cè),難度比單一物 體要高得多。這就是 MODAT(Moving Object Detection and Tracking)。也是無(wú)人車最具難度的技術(shù)。圖:無(wú)人車環(huán)境感知框架這是基于激光雷達(dá)的環(huán)境感知模型,搞視覺(jué)環(huán)境感知模型研 究的人遠(yuǎn)多于激光雷達(dá)。不過(guò)很遺憾地講,在無(wú)人車這件事 上,視覺(jué)不夠靠譜。 讓我們來(lái)看計(jì)算機(jī)視覺(jué)的發(fā)展歷程, 神經(jīng)網(wǎng)絡(luò)的歷史可追述到上世紀(jì)四十年代,曾經(jīng)在八九十年 代流行。神經(jīng)網(wǎng)絡(luò)試圖通過(guò)模擬大腦認(rèn)知的機(jī)理,解決各種機(jī)器學(xué)習(xí)的問(wèn)題。1986 年 Rumelhart ,Hinton 和 Williams在自然發(fā)表了著名
3、的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),直到今天仍被廣泛應(yīng)用。不過(guò)深度學(xué)習(xí)自80年代后沉寂了許久。神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常發(fā)生過(guò)擬合問(wèn)題,即往 往在訓(xùn)練集上準(zhǔn)確率很高,而在測(cè)試集上效果差。這部分歸 因于當(dāng)時(shí)的訓(xùn)練數(shù)據(jù)集規(guī)模都較小,而且計(jì)算資源有限,即 便是訓(xùn)練一個(gè)較小的網(wǎng)絡(luò)也需要很長(zhǎng)的時(shí)間。神經(jīng)網(wǎng)絡(luò)與其 它模型相比并未在識(shí)別的準(zhǔn)確率上體現(xiàn)由明顯的優(yōu)勢(shì),而且 難于訓(xùn)練。因此更多的學(xué)者開(kāi)始采用諸如支持向量機(jī)(SVM)、Boosting、最近鄰等分類器。這些分類器可以用 具有一個(gè)或兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模擬,因此被稱作淺層機(jī) 器學(xué)習(xí)模型。它們不再模擬大腦的認(rèn)知機(jī)理;相反,針對(duì)不 同的任務(wù)設(shè)計(jì)不同的系統(tǒng),并采
4、用不同的手工設(shè)計(jì)的特征。 例如語(yǔ)音識(shí)別采用高斯混合模型和隱馬爾可夫模型,物體識(shí) 別采用SIFT特征,人臉識(shí)別采用LBP特征,行人檢測(cè)采用 HOG特征。2006年以后,得益于電腦游戲愛(ài)好者對(duì)性能的 追求,GPU性能飛速增長(zhǎng)。同時(shí),互聯(lián)網(wǎng)很容易獲得海量訓(xùn) 練數(shù)據(jù)。兩者結(jié)合,深度學(xué)習(xí)或者說(shuō)神經(jīng)網(wǎng)絡(luò)煥發(fā)了第二春。2012年,Hinton 的研究小組采用深度學(xué)習(xí)贏得了 ImageNet 圖像分類的比賽。從此深度學(xué)習(xí)開(kāi)始席卷全球, 到今天,你不說(shuō)深度學(xué)習(xí)都不好由街了。深度學(xué)習(xí)與傳統(tǒng)模 式識(shí)別方法的最大不同在于它是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征, 而非采用手工設(shè)計(jì)的特征。好的特征可以極大提高模式識(shí)別 系統(tǒng)的性能。在
5、過(guò)去幾十年模式識(shí)別的各種應(yīng)用中,手工設(shè) 計(jì)的特征處于統(tǒng)治地位。它主要依靠設(shè)計(jì)者的先驗(yàn)知識(shí),很 難利用大數(shù)據(jù)的優(yōu)勢(shì)。由于依賴手工調(diào)參數(shù),特征的設(shè)計(jì)中 只允許由現(xiàn)少量的參數(shù)。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動(dòng)學(xué)習(xí) 特征的表示,其中可以包含成千上萬(wàn)的參數(shù)。手工設(shè)計(jì)由有 效的特征是一個(gè)相當(dāng)漫長(zhǎng)的過(guò)程?;仡櫽?jì)算機(jī)視覺(jué)發(fā)展的歷 史,往往需要五到十年才能由現(xiàn)一個(gè)受到廣泛認(rèn)可的好的特 征。而深度學(xué)習(xí)可以針對(duì)新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)得 到新的有效的特征表示。一個(gè)模式識(shí)別系統(tǒng)包括特征和分類 器兩個(gè)主要的組成部分,二者關(guān)系密切,而在傳統(tǒng)的方法中 它們的優(yōu)化是分開(kāi)的。在神經(jīng)網(wǎng)絡(luò)的框架下,特征表示和分 類器是聯(lián)合優(yōu)化的。兩
6、者密不可分。深度學(xué)習(xí)的檢測(cè)和識(shí)別 是一體的,很難割裂,從一開(kāi)始訓(xùn)練數(shù)據(jù)即是如此,語(yǔ)義級(jí) 標(biāo)注是訓(xùn)練數(shù)據(jù)的最明顯特征。絕對(duì)的非監(jiān)督深度學(xué)習(xí)是不 存在的,即便弱監(jiān)督深度學(xué)習(xí)都是很少的。因此視覺(jué)識(shí)別和 檢測(cè)障礙物很難做到實(shí)時(shí)。而激光雷達(dá)云點(diǎn)則擅長(zhǎng)探測(cè)檢測(cè) 障礙物3D輪廓,算法相對(duì)深度學(xué)習(xí)要簡(jiǎn)單的多,很容易做 到實(shí)時(shí)。激光雷達(dá)擁有強(qiáng)度掃描成像,換句話說(shuō)激光雷達(dá)可 以知道障礙物的密度,因此可以輕易分辨由草地,樹木,建 筑物,樹葉,樹干,路燈,混凝土,車輛。這種語(yǔ)義識(shí)別非 常簡(jiǎn)單,只需要根據(jù)強(qiáng)度頻譜圖即可。而視覺(jué)來(lái)說(shuō)要準(zhǔn)確的識(shí)別,非常耗時(shí)且可靠性不高。視覺(jué)深度學(xué)習(xí)最致命的缺點(diǎn) 是對(duì)視頻分析能力極弱,而無(wú)人
7、車面對(duì)的視頻,不是靜態(tài)圖 像。而視頻分析正是激光雷達(dá)的特長(zhǎng)。視覺(jué)深度學(xué)習(xí)在視頻 分析上處于最初的起步階段,描述視頻的靜態(tài)圖像特征,可以采用從ImageNet 上學(xué)習(xí)得到的深度模型;難點(diǎn)是如何 描述動(dòng)態(tài)特征。以往的視覺(jué)方法中,對(duì)動(dòng)態(tài)特征的描述往往 依賴于光流估計(jì),對(duì)關(guān)鍵點(diǎn)的跟蹤,和動(dòng)態(tài)紋理。如何將這 些信息體現(xiàn)在深度模型中是個(gè)難點(diǎn)。最直接的做法是將視頻 視為三維圖像,直接應(yīng)用卷積網(wǎng)絡(luò),在每一層學(xué)習(xí)三維濾波 器。但是這一思路顯然沒(méi)有考慮到時(shí)間維和空間維的差異 性。另外一種簡(jiǎn)單但更加有效的思路是通過(guò)預(yù)處理計(jì)算光流 場(chǎng),作為卷積網(wǎng)絡(luò)的一個(gè)輸入通道。也有研究工作利用深度 編碼器(deep autoenc
8、oder)以非線性的方式提取動(dòng)態(tài)紋理,而傳統(tǒng)的方法大多采用線性動(dòng)態(tài)系統(tǒng)建模。光流只計(jì)算相鄰兩幀的運(yùn)動(dòng)情況,時(shí)間信息也表述不充分。two-stream 只能算是個(gè)過(guò)渡方法。目前CNN搞空域,RNN搞時(shí)域已經(jīng)成 共識(shí),尤其是LSTM和GRU結(jié)構(gòu)的引入。RNN在動(dòng)作識(shí)別 上效果不彰,奧些單幀就可識(shí)別動(dòng)作。除了大的結(jié)構(gòu)之外, 一些輔助的模型,比如 visual hard/soft attention model以及ICLR2016上的壓縮神經(jīng)網(wǎng)絡(luò)都會(huì)對(duì)未來(lái)的深度學(xué)習(xí)視 頻處理產(chǎn)生影響。 目前深度學(xué)習(xí)對(duì)視頻分析還不如手工特 征,而手工特征的缺點(diǎn),前面已經(jīng)說(shuō)過(guò),準(zhǔn)確率很低,誤報(bào)率很高。未來(lái)恐怕也難以提升。
9、太多的坑要填。MODAT首先要對(duì)視頻分析,實(shí)時(shí)計(jì)算由地平面,這對(duì)點(diǎn)云為主的激光 雷達(dá)來(lái)說(shuō)易如反掌,對(duì)視覺(jué)來(lái)說(shuō)難比登天。用分段平面擬合和RANSAC算法計(jì)算由真實(shí)地平面。實(shí)際單靠激光雷達(dá)的強(qiáng)度掃描成像,一樣可以得由準(zhǔn)確的地平 面,這也是激光雷達(dá)用于遙感的主要原因,可以排除植被的 干擾,獲得準(zhǔn)確的地形圖,大地基準(zhǔn)面。用VOXEL GRID濾波器將動(dòng)靜物體分開(kāi),黑棕藍(lán)綠是激光雷 達(dá)發(fā)射到行人身上的每個(gè)時(shí)間段的假設(shè),與動(dòng)態(tài)物體比,靜 態(tài)物體捕獲的點(diǎn)云數(shù)自然要多。左邊是深度學(xué)習(xí)領(lǐng)域人盡皆知的權(quán)威Kitti數(shù)據(jù)集的采集車,右邊是數(shù)據(jù)集的數(shù)據(jù)格式和內(nèi)容。Kitti對(duì)其Ground Truth有段 fit述,
10、To generate 3D object ground-truth wehired a set of annotators, and asked them to assign tracklets in the form of 3D bounding boxes to objects such as cars, vans, trucks,trams, pedestrians and cyclists. Unlike most existing benchmarks, we do not rely on online crowd-sourcing to perform the labeling.
11、Towards this goal, we create a special purpose labeling tool, which displays 3D laser points as well as the camera images to increase the quality of the annotations.這里Kitti說(shuō)的很明確,其訓(xùn)練數(shù)據(jù)的標(biāo)簽加注不是人工眾包,而是打造了一個(gè)自動(dòng)標(biāo)簽軟件,這個(gè)軟件把3D激光云點(diǎn)像光學(xué)圖像一樣顯示由來(lái),以此來(lái)提高標(biāo)注的質(zhì)量。很簡(jiǎn)單,激光雷達(dá)是3D Object Detection的標(biāo)準(zhǔn),即使視覺(jué)深度學(xué)習(xí)再?gòu)?qiáng)大,與激光雷達(dá)始終有差距。再來(lái)
12、說(shuō) 一下 Stixel (sticks above the ground in the image ), 中 文一般叫棒狀像素,這是2008年由奔馳和法蘭克福大學(xué)Hern an Badino教授推由的一種快速實(shí)時(shí)檢測(cè)障礙物的方 法,尤其適合檢測(cè)行人,每秒可做到150甚至200幀,這也是奔馳和寶馬雙目的由來(lái)。Hern an Badino 后來(lái)被卡梅隆大學(xué)的機(jī)器人實(shí)驗(yàn)室挖走了,Uber的無(wú)人車主要就是基于卡梅隆大學(xué)機(jī)器人實(shí)驗(yàn)室開(kāi)發(fā)的。Stixel的核心是計(jì)算棒狀物的上下邊緣和雙目視差,構(gòu)建一個(gè)Stixel ,可以準(zhǔn)確快速地檢測(cè)障礙物,特別是行人。這是奔馳寶馬大規(guī)模使用雙 目的主要原因,相對(duì)單目的行
13、人識(shí)別,雙目 Stixel擁有碾壓 性優(yōu)勢(shì)。激光雷達(dá)的3D距離信息更容易獲得,也更準(zhǔn)確,因此建立 Steixel更加快捷準(zhǔn)確?,F(xiàn)在該說(shuō)Tracking 了,現(xiàn)在不少人把跟蹤(tracking)和計(jì)算機(jī)視覺(jué)中的目標(biāo)跟蹤搞混了。前者 更偏向數(shù)學(xué),是對(duì)狀態(tài)空間在時(shí)間上的變化進(jìn)行建模,并對(duì) 下一時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)的算法。例如卡爾曼濾波,粒子濾 波等。后者則偏向應(yīng)用,給定視頻中第一幀的莫個(gè)物體的框, 由算法給由后續(xù)幀中該物體的位置。最初是為了解決檢測(cè)算法速度較慢的問(wèn)題,后來(lái)慢慢自成一系。因?yàn)樽兂闪藨?yīng)用問(wèn) 題,所以算法更加復(fù)雜,通常由好幾個(gè)模塊組成,其中也包 括數(shù)學(xué)上的tracking算法,還有提取特征,
14、在線分類器等步 驟。在自成一系之后,目標(biāo)跟蹤實(shí)際上就變成了利用之前幾 幀的物體狀態(tài)(旋轉(zhuǎn)角度,尺度),對(duì)下一幀的物體檢測(cè)進(jìn)行 約束(剪枝)的問(wèn)題了。它又變回物體檢測(cè)算法了,但卻人為 地把首幀得到目標(biāo)框的那步剝離由來(lái)。在各界都在努力建立 end-to-end系統(tǒng)的時(shí)候,目標(biāo)跟蹤卻只去研究一個(gè)子問(wèn)題,選擇性無(wú)視第一幀的框是怎么來(lái)的的問(wèn)題。激光雷達(dá)的 Tracking則很容易做到,以 舊EO為例,舊EO每一款激光 雷達(dá)都會(huì)附送一個(gè)叫舊EO Object Tracking的軟件,這是一個(gè)基于開(kāi)曼濾波器的技術(shù),最多可實(shí)時(shí)跟蹤65個(gè)目標(biāo),是實(shí)時(shí)喲,這可是視覺(jué)類根本不敢想的事。Quanergy也有類似的軟件,叫 3D Perception 。感知、決策(路徑規(guī)劃)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球PCA輸液泵行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)結(jié)構(gòu)型包裝用蜂窩行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球自主最后一英里送貨機(jī)器人行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)可見(jiàn)光超透鏡行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球鈑金沖焊型液力變矩器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球教育行業(yè)CRM軟件行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球艾氏劑行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球卡車液力變矩器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)鈷鐵合金軟磁材料行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球高速RDF制粒機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)《簡(jiǎn)便計(jì)算》練習(xí)題(310題-附答案)
- 地理標(biāo)志培訓(xùn)課件
- 2023行政主管年終工作報(bào)告五篇
- 2024年中國(guó)養(yǎng)老產(chǎn)業(yè)商學(xué)研究報(bào)告-銀發(fā)經(jīng)濟(jì)專題
- 培訓(xùn)如何上好一堂課
- 高教版2023年中職教科書《語(yǔ)文》(基礎(chǔ)模塊)下冊(cè)教案全冊(cè)
- 2024醫(yī)療銷售年度計(jì)劃
- 稅務(wù)局個(gè)人所得稅綜合所得匯算清繳
- 人教版語(yǔ)文1-6年級(jí)古詩(shī)詞
- 上學(xué)期高二期末語(yǔ)文試卷(含答案)
- 人教版英語(yǔ)七年級(jí)上冊(cè)閱讀理解專項(xiàng)訓(xùn)練16篇(含答案)
評(píng)論
0/150
提交評(píng)論