SLAM技術(shù)及應(yīng)用介紹

上傳人：新*** IP屬地：河北上傳時(shí)間：2024-10-17 格式：PDF 頁數(shù)：37 大?。?.48MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

超全SLAM技術(shù)及應(yīng)用介紹

SLAM(simultaneouslocalizationandmapping),也稱為CML(ConcurrentMappingand

Localization）,即時(shí)定位與地圖構(gòu)建，或并發(fā)建圖與定位。問題可以描述為：將一個(gè)機(jī)器人放

入未知環(huán)境中的未知位置，是否有辦法讓機(jī)器人一邊逐步描繪出此環(huán)境完全的地圖，所謂完

全的地圖（aconsistentm叩）是指不受障礙行進(jìn)到房間可進(jìn)入的每個(gè)角落。SLAM最早由Smith、

Self和Cheeseman于1988年提出。由于其重要的理論與應(yīng)用價(jià)值，被很多學(xué)者認(rèn)為是實(shí)現(xiàn)

真正全自主移動(dòng)機(jī)器人的關(guān)鍵。

詞語解釋

SimultaneousLocalizationandMapping

SimultaneousLocalizationandMapping,同步定位與建圖。

SLAM問題可以描述為：機(jī)器人在未知環(huán)境中從一個(gè)未知位置開始移動(dòng),在移動(dòng)

過程中根據(jù)位置估計(jì)和地圖進(jìn)行自身定位，同時(shí)在自身定位的基礎(chǔ)上建造增量式

地圖，實(shí)現(xiàn)機(jī)器人的自主定位和導(dǎo)航。

ScanningLaserAcousticMicroscope

ScanningLaserAcousticMicroscope,激光掃描聲學(xué)顯微鏡。

激光掃描聲學(xué)顯微鏡是一種強(qiáng)有力的廣泛應(yīng)用于諸如工業(yè)用材料和生物醫(yī)學(xué)領(lǐng)

域的無損檢測工具，其使用的頻率范圍為10MHz~500MHzo

LymphocyteActivationMolecule

LymphocyteActivationMolecule,醫(yī)學(xué)用語。

SupersonicLowAltitudeMissile

SLAM—SupersonicLowAltitudeMissile（超音速低空導(dǎo)彈）的縮寫，是美

國的一項(xiàng)導(dǎo)彈研制計(jì)劃。

SymmetricallyLoadedAcousticModule

SLAM是SymmetricallyLoadedAcousticModule的英文縮寫[1],中文意

思是平衡裝載聲學(xué)模塊。

SatelliteLinkAttenuationModel

SLM是SatelliteLinkAttenuationModel的英文縮寫[2],中文意思是衛(wèi)

星鏈路衰減模型。

實(shí)時(shí)SLAM的未來以及深度學(xué)習(xí)與SLAM的比較

第一部分：為什么SLAM很重要？

視覺SLAM算法可以實(shí)時(shí)構(gòu)建世界的3D地圖，并同時(shí)追蹤攝像頭（手持式

或增強(qiáng)現(xiàn)實(shí)設(shè)備上的頭戴式或安裝在機(jī)器人上）的位置和方向。SLAM是卷積

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的補(bǔ)充：SLAM關(guān)注于幾何問題而深度學(xué)習(xí)是感知、識(shí)別

問題的大師。如果你想要一個(gè)能走到你的冰箱面前而不撞到墻壁的機(jī)器人，那就

使用SLAM。如果你想要一個(gè)能識(shí)別冰箱中的物品的機(jī)器人，那就使用卷積神

經(jīng)網(wǎng)絡(luò)。

SfM/SLAM基本原理：一個(gè)場景的3D結(jié)構(gòu)是根據(jù)點(diǎn)觀察和固有的攝像頭參數(shù)，從攝像頭的估

計(jì)的運(yùn)動(dòng)中計(jì)算出來的.

SLAM是SfM（運(yùn)動(dòng)恢復(fù)結(jié)構(gòu):StructurefromMotion）的一種實(shí)

時(shí)版本。視覺SLAM或基于視覺的SLAM是SLAM的一種僅使用

攝像頭的變體，放棄了昂貴的激光傳感器和慣性測量單元。單眼

SLAM僅使用單個(gè)攝像頭，而非單眼SLAM通常使用一個(gè)預(yù)校準(zhǔn)的固

定基線的立體相機(jī)套件。SLAM是計(jì)算機(jī)視覺領(lǐng)域所謂的幾何方法中

最好案例。事實(shí)上，卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所將研究生水平的

計(jì)算機(jī)視覺課程分成了一個(gè)基于學(xué)習(xí)的視覺方法和一個(gè)單獨(dú)的基于幾

何的視覺方法的課程。

L運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)vs視覺SLAM

運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SfM）和SLAM所解決的問題非常相似，但SfM傳

統(tǒng)上是以離線形式進(jìn)行的，而SLAM則已經(jīng)慢慢走向了低功耗/實(shí)時(shí)

/單RGB相機(jī)的運(yùn)行模式。今天許多運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)方面的專家都在為

世界上一些最大的科技公司，幫助打造更好的地圖。如果沒有關(guān)于多

視圖幾何、SfM和SLAM的豐富知識(shí)，像谷歌地圖這種成功的地圖

產(chǎn)品根本就不可能出現(xiàn)。典型的SfM問題遵循：給定一個(gè)單個(gè)室外

結(jié)構(gòu)（如大劇場/大體育館）的大型照片集合，構(gòu)建該結(jié)構(gòu)的3D模

型并確定每個(gè)相機(jī)的姿勢。這個(gè)照片集合以離線形式處理，而且大型

結(jié)構(gòu)重建所需時(shí)間從幾小時(shí)到幾天不等。

SfM軟件：Bundler是最成功的SfM開源庫之一

這里給出一些流行的SfM相關(guān)的軟件庫:

Bundler：一個(gè)開源的運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)工具包

Libceres：一個(gè)非線性最小二乘極小化工具（對束調(diào)整（bundleadjustment）問題很有用）

AndrewZisserman的多視圖幾何MATLAB函數(shù)

2.視覺SLAMvs自動(dòng)駕駛

研討會(huì)的組織者之一AndrewDavison表示，盡管自動(dòng)駕駛汽車是SLAM最重要

的應(yīng)用之一，但用于自動(dòng)化載具的SLAM應(yīng)該有其自己的研究軌道。（而且正如

我們所見，研討會(huì)的展示者中沒有一個(gè)談到了自動(dòng)駕駛汽車。）在接下來的許多

年里，獨(dú)立于任何一個(gè)圣杯級的應(yīng)用而繼續(xù)在研究的角度上研究SLAM是有意義

的。盡管在自動(dòng)化載具方面存在著太多的系統(tǒng)級細(xì)節(jié)和技巧，但研究級的SLAM

系統(tǒng)所需的不過是一個(gè)網(wǎng)絡(luò)攝像頭、算法知識(shí)和一點(diǎn)辛勞而己。視覺SLAM作為

一個(gè)研究課題對數(shù)以千計(jì)的博士生的早期階段要友好得多，他們將首先需要好幾

年的使用SLAM的實(shí)驗(yàn)室經(jīng)驗(yàn)，然后才能開始考慮無人駕駛汽車等昂貴的機(jī)器人

平臺(tái)。

谷歌無人駕駛汽車的感知系統(tǒng)

第二部分：實(shí)時(shí)SLAM的未來

現(xiàn)在是時(shí)候正式總結(jié)和評論實(shí)時(shí)SLAM的未來研討會(huì)上的演講了。

AndrewDavison以一個(gè)名叫基于視覺的SALM的十五年的精彩歷

史概述開篇，他的幻燈片中還有一個(gè)介紹機(jī)器人學(xué)課程的好內(nèi)容。

你也許不知道Andrew是誰，他是倫敦帝國學(xué)院獨(dú)一無二的

AndrewDavison教授。他最知名的成就是其2003年的

MonoSLAM系統(tǒng)，他是第一個(gè)展示如何在單個(gè)攝像頭上構(gòu)建SLAM

系統(tǒng)的人，而那時(shí)候其他所有人都還認(rèn)為打造SLAM系統(tǒng)需要一個(gè)

立體的雙目攝像頭套件。最近，他的研究成果已經(jīng)對戴森（Dyson）

等公司的發(fā)展軌跡和他們的機(jī)器人系統(tǒng)的能力產(chǎn)生了影響（如全新的

Dyson360）。

我還記得Davidson教授曾在2007年的BMVC（英國機(jī)器視覺大

會(huì)）上給出了一個(gè)視覺SLAM教程。讓人驚訝的是，和主要的視覺

大會(huì)上其它機(jī)器學(xué)習(xí)技術(shù)的紛繁成果相比，SLAM的變化真是非常之

少。過去八年里，對象識(shí)別已經(jīng)經(jīng)歷了兩三次小型變革，而今天的

SLAM系統(tǒng)和其八年前的樣子看起來并沒有多大不同。了解SLAM

的進(jìn)展的最好方法是看最成功和最讓人難忘的系統(tǒng)。在Davidson的

研討會(huì)介紹演講中，他討論了一些過去10-15年里科研界所打造的

典范系統(tǒng)：

MonoSLAM

PTAM

FAB-MAP

DTAM

KinectFusion

1.DavisonvsHorn：機(jī)器人視覺的下一篇章

Davison還提到他正在寫一本關(guān)于機(jī)器人視覺的新書，這對計(jì)算機(jī)視覺、機(jī)器人

和人工智能領(lǐng)域的研究者來說應(yīng)該是一個(gè)激動(dòng)人心的好消息。上一本機(jī)器人視覺

的書是由B.K.Horn寫的（出版于1986年），現(xiàn)在也到該更新的時(shí)候了。

9.K.Horn.1986etulM20042005

機(jī)器人視覺的一本新書

盡管我很樂意閱讀一本重在機(jī)器人視覺原理的巨著，但我個(gè)人希望該

書關(guān)注的是機(jī)器人視覺的實(shí)用算法，就像Hartley和Zissermann

的杰作《多視圖幾何》或Thrun.Burgard和Fox所著的《概率機(jī)

器人學(xué)》那樣。這本關(guān)于視覺SLAM問題的書籍將會(huì)受到所有專注

視覺研究者歡迎。

演講一：ChristianKerl談SLAM中的連續(xù)軌跡

第一個(gè)演講來自ChristianKerl,他提出了一種用于估計(jì)連續(xù)時(shí)間軌

跡的密集跟蹤方法。其關(guān)鍵觀察結(jié)果發(fā)現(xiàn)：大部分SLAM系統(tǒng)都在

離散數(shù)目的時(shí)間步驟上估計(jì)攝像頭的位置（要么是相隔幾秒的關(guān)鍵幀，

要么是相隔大約1/25秒的各個(gè)幀。

連續(xù)軌跡VS離散時(shí)間點(diǎn)SLAM/SfM通常使用離散時(shí)間點(diǎn)，但為什么不使用連續(xù)的呢？

Kerl的大部分演講都集中于解決卷簾式快門相機(jī)的危害，而Kerl演

示的系統(tǒng)還對建模給予謹(jǐn)慎的關(guān)注并消除了這些卷簾式快門的不利影

響。

解決視覺SLAM中卷簾式快門相機(jī)的危害

演講二:JakobEngel談半密集直接SLAM（Semi-DenseDirect

SLAM)

LSD-SLAM（大規(guī)模直接單眼SLAM）在2014ECCV上公開，也是

我現(xiàn)在最喜歡的SLAM系統(tǒng)之一！JakobEngel在那里展示了他的

系統(tǒng)并向觀眾展示了當(dāng)時(shí)最炫酷的一些SLAM可視化。對SLAM研

究者來說，LSD-SLAM是一個(gè)非常重要的系統(tǒng)，因?yàn)樗皇褂眠吔腔?/p>

其它任何本地特性。通過使用一種帶有穩(wěn)健的Huber損失的由粗到

細(xì)的算法，直接跟蹤可由圖像到圖像對準(zhǔn)完成。這和那些基于特征的

系統(tǒng)非常不同。深度估計(jì)使用了逆深度參數(shù)化（和許多其它系統(tǒng)一樣）

并使用了大量或相對小的基準(zhǔn)圖像對。該算法并不依賴于圖像特征，

而是靠有效地執(zhí)行紋理跟蹤。全局映射是通過創(chuàng)建和解決姿態(tài)圖形的

束調(diào)整優(yōu)化問題而執(zhí)行的，而且這所有都是實(shí)時(shí)工作的。這個(gè)方法是

半密集的，因?yàn)樗鼉H估計(jì)靠近圖像邊界的像素深度。LSD-SLAM輸出

比傳統(tǒng)的特征更密集，但并不如Kinect類型的RGBDSLAM那樣

完全密集。

KrTTIoo<Fu?lSLAM)00:00:13.600

(3M?p<k?d)

工作中的LSD-SLAM:LSD-SLAM同時(shí)生成一個(gè)攝像頭軌跡和一個(gè)半密集的3D場景重建。這種方

法實(shí)時(shí)工作，不使用特征點(diǎn)作為圖元，并執(zhí)行直接的圖像到圖像對準(zhǔn)。

Engel概述了原來的LSD-SLAM系統(tǒng)以及一些新成果，將它們最初

的系統(tǒng)擴(kuò)展成更有創(chuàng)造性的應(yīng)用并實(shí)現(xiàn)了更有趣的部署。

全方位LSD-SLAM是LSD-SLAM的一種延伸，因觀察到針孔模型

不能用于大視場的觀測而被創(chuàng)造出來。這項(xiàng)成果提出于IROS2015

（2015年智能機(jī)器人和系統(tǒng)國際大會(huì)）（Carus。是第一作者），

能用于大視場（理想情況下可超過180度）。Engel的演講很清楚

地表示，你可以拿著相機(jī)以芭蕾舞般的動(dòng)作極限旋轉(zhuǎn)在你的辦公室內(nèi)

走來走去。這是窄視場SLAM最糟糕的應(yīng)用場景之一,但卻在Omni

LSD-SLAM中效果良好。

全方位的LSD-SLAM模型

立體LSD-SLAM是LSD-SLAM的一種用于雙眼攝像頭套件的延伸。

這有助于獲得沒有限制的規(guī)模，而且其初始化是瞬時(shí)的，強(qiáng)烈旋轉(zhuǎn)也

不存在問題。盡管從學(xué)術(shù)的角度看，單眼SLAM是很激動(dòng)人心，但

如果你的機(jī)器人是一輛30,000美元的車或10,000美元的無人機(jī)

原型，你應(yīng)該有足夠的理由使用一套帶有兩個(gè)乃至更多攝像頭的套件。

StereoLSD-SLAM在SLAM基準(zhǔn)上表現(xiàn)出了相當(dāng)強(qiáng)的競爭力。

StereoLSD-SLAM在KITTIvehicle-SLAM數(shù)據(jù)集上得到了優(yōu)異結(jié)果

StereoLSD-SLAM相當(dāng)實(shí)用，能優(yōu)化SE(3)中的姿態(tài)圖形，并包含

了對自動(dòng)曝光的校正。自動(dòng)曝光校正的目標(biāo)是讓誤差函數(shù)相對于仿射

光照變化而不變。顏色空間仿射轉(zhuǎn)換的基本參數(shù)是在匹配過程中估算

出來的，但也被扔掉以估計(jì)圖像到圖像變換中的錯(cuò)誤。Engel在演講

中稱，離群值（outliers）（通常是由過度曝光的圖像像素造成的）往

往會(huì)帶來問題，需要很仔細(xì)才能處理它們的影響。

在他后面的演示中，Engel讓我們一窺了關(guān)于立體和慣性傳感器的整

合新研究。為了了解詳情，你只能跟蹤arXiv上的更新或向

Usenko/Engel本人了解。在應(yīng)用方面，Engel的演示中包含了由

LSD-SLAM驅(qū)動(dòng)的自動(dòng)化四軸無人機(jī)的更新視頻。其飛行一開始是上

下運(yùn)動(dòng)的，以獲得對尺寸的估計(jì)，然后又使用了自由空間的三維測繪

（octom叩）以估計(jì)自由空間，從而讓該四軸無人機(jī)可以在空間中為

自己導(dǎo)航。

運(yùn)行StereoLSD-SLAM的四軸無人機(jī)

LSD-SLAM的故事也是基于特征vs

直接方法的故事，Engel給了辯論雙方公正的待遇。基于特征的方法

被設(shè)計(jì)用在Harris那樣的邊角之上，而直接方法則是用整個(gè)圖像進(jìn)

行對準(zhǔn)?；谔卣鞯姆椒ǜ欤ń刂?015年），但直接方法在并行

處理上效果很好。離群值可以通過追溯的方法從基于特征的系統(tǒng)中移

除，而直接方法在離群值處理上沒那么靈活。卷簾式快門是直接方法

的一個(gè)更大的問題，而且使用全局快門或卷簾式快門模型是有意義的。

基于特征的方法需要使用不完整的信息進(jìn)行決策，而直接方法可以使

用更多信息。基于特征的方法不需要很好的初始化，而直接方法在初

始化上需要更巧妙的技巧。對直接方法的研究只有4年，稀疏方法

則有20多年的歷史了。Engel樂觀地認(rèn)為直接方法未來將上升成為

頂級方法，我也這么想。

ComparisonTUT1

Feature-BasedDirect

canonlyuse&reconstructcornerscanuse&reconstructwholeimage

fasterslower(butgoodforparallelism)

flexible:outlierscanberemovedinflexible:difficulttoremove

retroactively.outliersretroactively.

robusttoinconsistenciesinthe?

model/system(rollingshutter)..

decistons(KPdetection)basedondecision(linearizationpoint)based

lesscompleteinformation.onmorecompleteinformation.

noneedforgoodinitiaUzation,

―20+yearsofintensiveresearch~4yearsofresearchksyeszs

Jafecrt*D***CSSLAML

SLAM系統(tǒng)構(gòu)建上，基于特征的方法vs直接方法

在Engel演講最后，Davison問到了語義分割方面的問題，而Engel不知道語

義分割是否可以在半密集的接近圖像邊界的數(shù)據(jù)上直接執(zhí)行。但是，我個(gè)人的看

法是，有更好的方法可將語義分割應(yīng)用到LSD類型的SLAM系統(tǒng)上。半密集

SLAM可以專注于靠近邊界的幾何信息，而對象識(shí)別可以專注于遠(yuǎn)離這同一邊界

的可靠語義，從而有可能創(chuàng)造出一個(gè)混合了幾何和語義的圖像解讀。

演講三：TorstenSattler談大規(guī)模定位與地圖構(gòu)建面臨的挑戰(zhàn)

TorstenSattler的演講談?wù)摿舜笠?guī)模定位與地圖構(gòu)建。這項(xiàng)工作的目

的是在已有的地圖內(nèi)執(zhí)行六個(gè)自由度的定位，尤其是移動(dòng)定位。演講

中的一個(gè)關(guān)鍵點(diǎn)是：當(dāng)你使用傳統(tǒng)的基于特征的方法時(shí)，存儲(chǔ)你的描

述很快就將變得非常昂貴。視覺詞匯表（記得產(chǎn)品量化嗎？）等技術(shù)

可以顯著減少存儲(chǔ)開銷，再加上某種程度的巧妙優(yōu)化，描述的存儲(chǔ)將

不再成為存儲(chǔ)瓶頸。

Sattler的演講給出的另一個(gè)重要的關(guān)鍵信息是正確數(shù)據(jù)的數(shù)量實(shí)際

上并不是相機(jī)姿態(tài)估計(jì)的很好的置信度測量。當(dāng)特征點(diǎn)全都集中于圖

像的單一一個(gè)部分時(shí)，相機(jī)定位可能會(huì)在千里之外！一個(gè)更好的置信

度測量是有效正確數(shù)據(jù)計(jì)數(shù)，其可以將正確數(shù)據(jù)所在的區(qū)域作為整體

圖像區(qū)域的一個(gè)部分來進(jìn)行審查。你真正希望得到的是整體圖像上的

特征匹配——如果信息散布在整個(gè)圖像上你能得到更好的姿態(tài)估計(jì)。

Sattler對未來實(shí)時(shí)SLAM的演講是這樣的：我們應(yīng)該關(guān)注緊湊型的

地圖表征，我們應(yīng)該對相機(jī)姿態(tài)估計(jì)置信度有更好的理解（如樹上權(quán)

重下降的特征），我們應(yīng)該在更有挑戰(zhàn)性的場景中研發(fā)（如帶有平面

結(jié)構(gòu)的世界和在白天的地圖上的夜間定位）。

Real-timecameralocalisationagainst

posetracking

移動(dòng)定位：Sattler的關(guān)鍵問題是使用單張智能手機(jī)圖片在大城市里定位你自己

演講四：Mur-Artal談基于特征的方法vs直接方法

ORB-SLAM的創(chuàng)造者M(jìn)ur-Artal的演講內(nèi)容全部圍繞著SLAM

領(lǐng)域內(nèi)基于特征的方法vs直接方法的爭論，而他顯然站在基于特征

的方法一邊。ORB-SLAM可通過一個(gè)開源的SLAM軟件包獲取，而

且它很難被擊敗。在他對ORB-SLAMvsPTAM的評價(jià)中，似乎

實(shí)際上常常失敗（至少在基準(zhǔn)上）

PTAMTUMRGB-D0LSD-SLAM

在TUMRGB-D基準(zhǔn)上的錯(cuò)誤通常遠(yuǎn)高于預(yù)期。

Feature-BasedSLAMDirectSLAM

MinimizeFeatureReprojectionErrorPhotometricError

SparseReconsirucuonSemiDenseIDenseReconstruction

基于特征的方法VS直接方法

演講五：Tango項(xiàng)目和用于圖像到圖像限制的視覺環(huán)路閉合

簡單來說，谷歌的Tango項(xiàng)目是世界上第一個(gè)商業(yè)化SLAM的嘗

試。來自GoogleZurich的SimonLynen（之前屬于ETHZurich）

帶著一個(gè)Tango現(xiàn)場演示（在一臺(tái)平板電腦上）來到了研討會(huì)，并

展示了Tango世界的新內(nèi)容。你可能不知道，谷歌希望將SLAM能

力集成到下一代安卓設(shè)備中。

谷歌的Tang。項(xiàng)目

Tango項(xiàng)目展示討論了一種

通過在圖像到圖像匹配矩陣中尋找特定的模式以進(jìn)行環(huán)路閉合的新方

法。這個(gè)方法是來自沒有固定位置的位置識(shí)別成果。他們也做帶有基

于視覺的環(huán)路閉合的在線束調(diào)整。

Tango項(xiàng)目里的循環(huán)閉合

這種圖像到圖像矩陣揭示一種尋找環(huán)路閉合的新方法?？稍谠揧ouTube視頻中查看工作中的算法。

Tango項(xiàng)目的人也在研究將谷歌多個(gè)眾包地圖結(jié)合起來，其目標(biāo)是將

由不同的人使用配置有Tango的設(shè)備創(chuàng)造的多個(gè)迷你地圖結(jié)合起來。

Simon展示了一個(gè)山地自行車軌跡跟蹤的視頻，這在實(shí)踐中實(shí)際上是

相當(dāng)困難的。其中的想法是使用一個(gè)Tango設(shè)備跟蹤一輛山地自行

車，并創(chuàng)建一份地圖，然后后續(xù)的目標(biāo)是讓另外一個(gè)人沿著這條軌跡

走。這個(gè)目前只是半有效狀態(tài)——當(dāng)在地圖構(gòu)建和跟蹤步驟之前有幾

個(gè)小時(shí)時(shí)間時(shí)有效，但過了幾周、幾個(gè)月就沒效果了。

在Tango相關(guān)的討論中，RichardNewcombe指出Tango項(xiàng)目

所使用的"特征"在更深度地理解環(huán)境上還是相當(dāng)落后的，而且看

起來類似Tango項(xiàng)目的方法無法在室外場景中起作用一一室外場

景有非剛性大量光照變化等。所以我們有望見到為室外環(huán)境設(shè)計(jì)的不

同系統(tǒng)嗎？Tango項(xiàng)目將成為一個(gè)室內(nèi)地圖構(gòu)建設(shè)備嗎？

演講六：ElasticFusion是沒有姿態(tài)圖形的密集型SLAM

日asticFusion是一種需要Kinect這樣的RGBD傳感器的密集型

SLAM技術(shù)。2-3分鐘就能獲得單個(gè)房間的高質(zhì)量3D掃描，這真

是相當(dāng)酷。許多SLAM系統(tǒng)的場景背后都使用了姿態(tài)圖形，這種技

術(shù)有一種不同的（以地圖為中心）方法。該方法專注于構(gòu)建地圖，但

其訣竅是其構(gòu)建的地圖可以變形，也因此得名ElasticFusion（彈性

融合）。其中算法融合的部分是向KinectFusion致敬——

KinectFusion是第一個(gè)高質(zhì)量的基于Kinect的重建方式。Surfels

也被用作底層的基元。

圖片來自Kintinuous,Whelan的ElasticFusion的早期版本

恢復(fù)光源：我們一窺了來自倫敦帝國學(xué)院/戴森機(jī)器人實(shí)驗(yàn)室的尚未發(fā)

表的新研究成果。其中的想法是通過探測光源方向和探測鏡面反射，

你可以提升3D重建的結(jié)果。關(guān)于恢復(fù)光源位置的炫酷視頻顯示其最

多能處理4個(gè)獨(dú)立光源。

演講七：RichardNewcombe的DynamicFusion

RichardNewcombe（他最近成立的公司被Oculus收購）是最后

一位展示者。RichardNewcombe是DTAM、KinectFusion和

DynamicFusion背后的人，見到他真是非?？幔凰壳皬氖绿摂M現(xiàn)

實(shí)領(lǐng)域的研發(fā)

Newcombe的DynamicFusion算法。該技術(shù)在聲望很高的CVPR2015中獲得最佳論文獎(jiǎng)。

2.研討會(huì)演示

在演示會(huì)議期間（在研討會(huì)中間舉行），許多展示者展示了他們的

SLAM系統(tǒng)工作中的樣子。這些系統(tǒng)中許多都是以開源軟件包的形式

提供的，所以如果你對實(shí)時(shí)SLAM感興趣，可以嘗試下載這些代碼。

但是，最亮眼的演示是AndrewDavison展柜上他的來自2004年

的MonoSLAM演示。Andrew不得不恢復(fù)了已有15年歲月的計(jì)

算機(jī)（運(yùn)行的是RedhatLinux）來展示他原來的系統(tǒng)，運(yùn)行在原來

的硬件上。如果計(jì)算機(jī)視覺社區(qū)將決定舉辦一場復(fù)古視覺的演示會(huì)議，

那我馬上就將會(huì)提名Andrew應(yīng)得最佳論文獎(jiǎng)。

Andrew復(fù)古的視覺SLAM配置

看著SLAM系統(tǒng)專家揮動(dòng)自己的USB攝像頭真是一件有趣的事一

—他們在展示他們的系統(tǒng)圍繞他們的筆記本電腦構(gòu)建周圍桌子大小區(qū)

域的3D地圖。如果你仔細(xì)看了這些專家移動(dòng)攝像頭的方式（即平穩(wěn)

的圓圈運(yùn)動(dòng)），你幾乎就能看出一個(gè)人在SLAM領(lǐng)域工作了多長時(shí)

間。當(dāng)一位非專家級的人拿著攝像頭時(shí)，跟蹤失敗的概率明顯更高。

我有幸在演示會(huì)議期間和Andrew進(jìn)行了交談，我很好奇這一系列

的成果（過去15年中）中哪一個(gè)最讓他感到驚訝。他的回答是PTAM

最讓他吃驚，因?yàn)槠浔砻髁藢?shí)時(shí)束調(diào)整執(zhí)行的方式。PTAM系統(tǒng)本質(zhì)

上是MonoSLAM++系統(tǒng)但因?yàn)椴捎昧艘环N重量級算法（束調(diào)整）

而顯著提高了跟蹤效果并做到了實(shí)時(shí)一一在2000年早期Andrew

還認(rèn)為"實(shí)時(shí)"是不可能辦到的。

第三部分：深度學(xué)習(xí)vsSLAM

SLAM小組討論真是樂趣無窮。在我們進(jìn)入重要的深度學(xué)習(xí)vs

SLAM討論之前，我應(yīng)該說明每一位研討會(huì)展示者都同意：語義對構(gòu)

建更大更好的SLAM系統(tǒng)是必需的。關(guān)于未來的方向，這里有很多

有趣的小對話。在爭論中，MarcPollefeys（一位知名的SfM和多

視角幾何研究者）提醒所有人，機(jī)器人是SLAM的一個(gè)殺手級應(yīng)用，

并建議我們保持對大獎(jiǎng)的關(guān)注。這令人非常驚訝，因?yàn)镾LAM傳統(tǒng)

上是適用于機(jī)器人問題的，但過去幾十年機(jī)器人并沒有什么成功（谷

歌機(jī)器人？），導(dǎo)致SLAM的關(guān)注重點(diǎn)從機(jī)器人轉(zhuǎn)移到了大規(guī)模地

圖構(gòu)建（包括谷歌地圖）和增強(qiáng)現(xiàn)實(shí)上。研討會(huì)上沒人談?wù)撨^機(jī)器人。

L將語義信息集成到SLAM中

人們對將語義整合到今天最出色的SLAM系統(tǒng)中有很大興趣。當(dāng)涉

及語義時(shí)，SLAM社區(qū)不幸地卡在了視覺詞袋

（bags-of-visual-words）的世界里，而在如何將語義信息整合進(jìn)他

們的系統(tǒng)上沒有什么新想法。在語義一端，我們現(xiàn)在已經(jīng)看到

CVPR/ICCV/ECCV上冒出了很多實(shí)時(shí)語義分割演示（基于卷積神經(jīng)

網(wǎng)絡(luò)）；在我看來，SLAM需要深度學(xué)習(xí)，而深度學(xué)習(xí)也一樣需要

SLAM0

人們經(jīng)常談到將語義整合進(jìn)SLAM但說起來容易做起來難。圖片來自Moreno的博士論文（142

頁）:密集型語義SLAM

2.端到端學(xué)習(xí)會(huì)主宰SLAM嗎？

在SLAM研討會(huì)小組討論結(jié)束時(shí)，ZeeshanZia博士提出了一個(gè)震

驚所有人的問題，并引發(fā)了一場充滿能量的討論，令人難忘。你應(yīng)該

看看小組成員們臉上的表情。那就像是將一個(gè)深度學(xué)習(xí)的火球投向一

群幾何學(xué)家。他們的面部表情表達(dá)出了他們的困惑、憤怒和厭惡。他

們想：你怎么敢質(zhì)疑我們？正是在這些稍縱即逝的時(shí)刻，我們才能真

正體會(huì)到大會(huì)的體驗(yàn)。Zia的問題基本上是：在構(gòu)建今天的SLAM系

統(tǒng)時(shí)，端到端學(xué)習(xí)很快就將取代大部分人工勞動(dòng)嗎？

Zia的問題非常重要，因?yàn)槎说蕉说目捎?xùn)練系統(tǒng)已經(jīng)慢慢進(jìn)入到了很

多高級的計(jì)算機(jī)問題中，相信SLAM會(huì)是一個(gè)例外是沒有道理的。

有好幾位展示者都指出當(dāng)前的SLAM系統(tǒng)過于依賴幾何，以至于讓

完全基于深度學(xué)習(xí)的SLAM系統(tǒng)看起來不合理了——我們應(yīng)該使用

學(xué)習(xí)技術(shù)得到更好的點(diǎn)描述，而不要管幾何。你可以使用深度學(xué)習(xí)做

一個(gè)計(jì)算器，并不意味你應(yīng)該這么做。

通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)立體相似度函數(shù)，來自YanLeCun及其合作者

2.端到端學(xué)習(xí)會(huì)主宰SLAM嗎？

在SLAM研討會(huì)小組討論結(jié)束時(shí)，ZeeshanZia博士提出了一個(gè)震

驚所有人的問題，并引發(fā)了一場充滿能量的討論，令人難忘。你應(yīng)該

看看小組成員們臉上的表情。那就像是將一個(gè)深度學(xué)習(xí)的火球投向一

群幾何學(xué)家。他們的面部表情表達(dá)出了他們的困惑、憤怒和厭惡。他

們想：你怎么敢質(zhì)疑我們？正是在這些稍縱即逝的時(shí)刻，我們才能真

正體會(huì)到大會(huì)的體驗(yàn)。Zia的問題基本上是：在構(gòu)建今天的SLAM系

統(tǒng)時(shí)，端到端學(xué)習(xí)很快就將取代大部分人工勞動(dòng)嗎？

Zia的問題非常重要，因?yàn)槎说蕉说目捎?xùn)練系統(tǒng)已經(jīng)慢慢進(jìn)入到了很

多高級的計(jì)算機(jī)問題中，相信SLAM會(huì)是一個(gè)例外是沒有道理的。

有好幾位展示者都指出當(dāng)前的SLAM系統(tǒng)過于依賴幾何，以至于讓

完全基于深度學(xué)習(xí)的SLAM系統(tǒng)看起來不合理了——我們應(yīng)該使用

學(xué)習(xí)技術(shù)得到更好的點(diǎn)描述，而不要管幾何。你可以使用深度學(xué)習(xí)做

一個(gè)計(jì)算器，并不意味你應(yīng)該這么做。

通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)立體相似度函數(shù)，來自YanLeCun及其合作者

盡管許多小組討論發(fā)言人都使用了有些肯定不行回應(yīng)，但讓人驚訝的

是，卻是Newcombe聲援了深度學(xué)習(xí)和SLAM聯(lián)姻的可能。

3.Newcombe的提議：使用SLAM助力深度學(xué)習(xí)

盡管Newcombe在深度學(xué)習(xí)可能如何幫助SLAM上沒有提供很

多證據(jù)或想法，但他卻為SLAM如何可能為深度學(xué)習(xí)提供幫助給出

了一條清晰的路徑。想想看我們使用大規(guī)模SLAM已經(jīng)構(gòu)建出的地

圖以及這些系統(tǒng)所提供的對應(yīng)——這難道不是一個(gè)構(gòu)建能幫助深度學(xué)

習(xí)的萬億級圖像到圖像相關(guān)數(shù)據(jù)集的清晰路徑嗎？其基本思路是：今

天的SLAM系統(tǒng)是大規(guī)模的對應(yīng)引擎，可以用來生成大規(guī)模數(shù)據(jù)集，

而這正是深度卷積神經(jīng)網(wǎng)絡(luò)所需要的。

第四部分：結(jié)語

這次ICCV大會(huì)上主流的工作（重在機(jī)器學(xué)習(xí)）和本次實(shí)時(shí)SLAM

研討會(huì)所呈現(xiàn)出現(xiàn)的工作（重在束調(diào)整等幾何方法）之間存在相當(dāng)大

的脫節(jié)。主流的計(jì)算機(jī)視覺社區(qū)在過去十年內(nèi)已經(jīng)見證了多次小型變

革（如：Dalal-Triggs、DPM、ImageNet、ConvNets.R-CNN）,

而今天的SLAM系統(tǒng)和它們八年前的樣子并沒有很大的不同。

Kinect傳感器可能是SLAM領(lǐng)域唯一的最大的徹底變革的技術(shù)，但

基礎(chǔ)算法仍舊保持著原樣。

集成語義信息：視覺SLAM的下一個(gè)前沿.來自ArwenWallington博客的腦圖

今天的SLAM系統(tǒng)能幫助機(jī)器在幾何上理解眼前的世界（即在本地坐標(biāo)系中構(gòu)

建關(guān)聯(lián)），而今天的深度學(xué)習(xí)系統(tǒng)能幫助機(jī)器進(jìn)行分類推理（即在不同的對象實(shí)

例之上構(gòu)建關(guān)聯(lián)）?？偟膩碚f在視覺SLAM上我與Newcombe和Davison

一樣興奮，因?yàn)榛谝曈X的算法將會(huì)將增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)轉(zhuǎn)變成一個(gè)價(jià)值數(shù)十

億美元的產(chǎn)業(yè)。但是，我們不應(yīng)忘記保持對那個(gè)萬億美元市場的關(guān)注，那個(gè)將重

新定義"工作”的市場——機(jī)器人。機(jī)器人SLAM的時(shí)代很快就要到來了。

SLAM的前世今生

SLAM的前世

我之前從本科到研究生，一直在導(dǎo)航與定位領(lǐng)域?qū)W習(xí)，一開始偏重于高精度的慣

性導(dǎo)航、衛(wèi)星導(dǎo)航、星光制導(dǎo)及其組合導(dǎo)航。出于對實(shí)現(xiàn)無源導(dǎo)航的執(zhí)念，我慢

慢開始研究視覺導(dǎo)航中的SLAM方向，并與傳統(tǒng)的慣性器件做組合，實(shí)現(xiàn)獨(dú)立設(shè)

備的自主導(dǎo)航定位。

定位、定向、測速、授時(shí)是人們惆悵千年都未能完全解決的問題，最早的時(shí)候，

古人只能靠夜觀天象和司南來做簡單的定向。直至元代，出于對定位的需求，才

華橫溢的中國人發(fā)明了令人嘆為觀止的牽星術(shù)，用牽星板測量星星實(shí)現(xiàn)緯度估計(jì)。

1964年美國投入使用GPS,突然就打破了大家的游戲規(guī)則。軍用的P碼可以達(dá)到

1-2米級精度，開放給大眾使用的CA碼也能夠?qū)崿F(xiàn)5-10米級的精度。

后來大家一方面為了突破P碼封鎖，另一方面為了追求更高的定位定姿精度，想

出了很多十分具有創(chuàng)意的想法來挺升GPS的精度。利用RTK的實(shí)時(shí)相位差分技術(shù)，

甚至能實(shí)現(xiàn)厘米的定位精度，基本上解決了室外的定位和定姿問題。

但是室內(nèi)這個(gè)問題就難辦多了，為了實(shí)現(xiàn)室內(nèi)的定位定姿，一大批技術(shù)不斷涌現(xiàn),

其中，SLAM技術(shù)逐漸脫穎而出。SLAM是一個(gè)十分交叉學(xué)科的領(lǐng)域，我先從它的

傳感器講起。

I離不開這兩類傳感器

目前用在SLAM上的Sensor主要分兩大類，激光雷達(dá)和攝像頭。

Sens。令類

?激光雷達(dá)：單線、多線

Sens。令類

?攝像頭：單目、雙目、單目結(jié)構(gòu)光、雙目結(jié)構(gòu)

光、ToF

這里面列舉了一些常見的雷達(dá)和各種深度攝像頭。激光雷達(dá)有單線多

線之分，角分辨率及精度也各有千秋。SICK、velodyne.Hokuyo以

及國內(nèi)的北醒光學(xué)、Slamtech是比較有名的激光雷達(dá)廠商。他們可

以作為SLAM的一種輸入形式。

這個(gè)小視頻里展示的就是一種簡單的2DSLAM

這個(gè)小視頻是賓大的教授kumar做的特別有名的一個(gè)demo,

是在無人機(jī)上利用二維激光雷達(dá)做的SLAM。

而VSLAM則主要用攝像頭來實(shí)現(xiàn)，攝像頭品種繁多，主要分為單目、

雙目、單目結(jié)構(gòu)光、雙目結(jié)構(gòu)光、ToF幾大類。他們的核心都是獲取

RGB和depthmap(深度信息)。簡單的單目和雙目(Zed,leapmotion)

我這里不多做解釋，我主要解釋一下結(jié)構(gòu)光和

ToFo

I最近流行的結(jié)構(gòu)光和TOF

結(jié)構(gòu)光原理的深度攝像機(jī)通常具有激光投射器、光學(xué)衍射元件（DOE）、

紅外攝像頭三大核心器件。

結(jié)構(gòu)光原理

3a于單目虹夕卜結(jié)構(gòu)光庫理的淙度掘像

頭可以同時(shí)拿到技探場索的RGB及QepS

Map

這個(gè)圖（下圖）摘自primesense的專利。

一結(jié)構(gòu)光原理

可以看到primesense的doe是由兩部分組成的，一個(gè)是擴(kuò)散片，一

個(gè)是衍射片。先通過擴(kuò)散成一個(gè)區(qū)域的隨機(jī)散斑，然后復(fù)制成九份，

投射到了被攝物體上。根據(jù)紅外攝像頭捕捉到的紅外散斑，PS1080

這個(gè)芯片就可以快速解算出各個(gè)點(diǎn)的深度信息。

這兒還有兩款結(jié)構(gòu)光原理的攝像頭。

結(jié)構(gòu)光原王里

第一頁它是由兩幅十分規(guī)律的散斑組成，最后同時(shí)被紅外相機(jī)獲得,

精度相對較高。但據(jù)說DOE成本也比較高。

還有一種比較獨(dú)特的方案（最后一幅圖），它采用mems微鏡的方式，

類似DLP投影儀，將激光器進(jìn)行調(diào)頻，通過微鏡反射出去，并快速改

變微鏡姿態(tài)，進(jìn)行行列掃描，實(shí)現(xiàn)結(jié)構(gòu)光的投射。（產(chǎn)自ST,ST經(jīng)

常做出一些比較炫的黑科技）。

ToF（timeofflight）也是一種很有前景的深度獲取方法。

傳感器發(fā)出經(jīng)調(diào)制的近紅外光，遇物體后反射，傳感器通過計(jì)算光線

發(fā)射和反射時(shí)間差或相位差，來換算被拍攝景物的距離，以產(chǎn)生深度

信息。類似于雷達(dá)，或者想象一下蝙蝠，softkinetic的DS325采用

的就是ToF方案（TI設(shè)計(jì)的），但是它的接收器微觀結(jié)構(gòu)比較特殊，

有2個(gè)或者更多快門，測ps級別的時(shí)間差，但它的單位像素尺寸通

常在lOOum的尺寸，所以目前分辨率不高。以后也會(huì)有不錯(cuò)的前景，

但我覺得并不是顛覆性的。

好，那在有了深度圖之后呢，SLAM算法就開始工作了，由于Sensor

和需求的不同,SLAM的呈現(xiàn)形式略有差異。大致可以分為激光SLAM

（也分2D和3D濟(jì)口視覺SLAM（也分Sparse.semiDense、Dense）

兩類，但其主要思路大同小異。

SLAM分類

Dense

這個(gè)是Sparse（稀疏）的

這個(gè)偏Dense（密集）的

ISLAM算法實(shí)現(xiàn)的4要素

SLAM算法在實(shí)現(xiàn)的時(shí)候主要要考慮以下4個(gè)方面吧:

1.地圖表示問題，比如dense和sparse都是它的不同表達(dá)方式，這個(gè)需要根

據(jù)實(shí)際場景需求去抉擇

2.信息感知問題，需要考慮如何全面的感知這個(gè)環(huán)境，RGBD攝像頭FOV通

常比較小，但激光雷達(dá)比較大

3.數(shù)據(jù)關(guān)聯(lián)問題，不同的sensor的數(shù)據(jù)類型、時(shí)間戳、坐標(biāo)系表達(dá)方式各有

不同，需要統(tǒng)一處理

4.定位與構(gòu)圖問題，就是指怎么實(shí)現(xiàn)位姿估計(jì)和建模，這里面涉及到很多數(shù)

學(xué)問題，物理模型建立，狀態(tài)估計(jì)和優(yōu)化

其他的還有回環(huán)檢測問題，探索問題(exploration),以及綁架問題

(kidnapping)0

這個(gè)是一個(gè)比較有名的SLAM算法，這個(gè)回環(huán)檢測就很漂亮。但這個(gè)

調(diào)用了cuda,gpu對運(yùn)算能力要求挺高，效果看起來比較炫。

I以VSLAM舉個(gè)栗子

一種簡單的RGBDSLAM原理框圖

我大概講一種比較流行的VSLAM方法框架。

整個(gè)SLAM大概可以分為前端和后端，前端相當(dāng)于VQ視覺里程計(jì)）,

研究幀與幀之間變換關(guān)系。首先提取每幀圖像特征點(diǎn)，利用相鄰幀圖

像進(jìn)行特征點(diǎn)匹配，然后利用RANSAC去除大噪聲然后進(jìn)行匹配，

得到一個(gè)pose信息（位置和姿態(tài)），同時(shí)可以利用IMU（Inertial

measurementunit慣性測量單元）提供的姿態(tài)信息進(jìn)行濾波融合

后端則主要是對前端出結(jié)果進(jìn)行優(yōu)化，利用濾波理論（EKF、UKF、

PF）、或者優(yōu)化理論TORO、G20進(jìn)行樹或者圖的優(yōu)化。最終得到最

優(yōu)的位姿估計(jì)。

后端這邊難點(diǎn)比較多，涉及到的數(shù)學(xué)知識(shí)也比較多，總的來說大家已

經(jīng)慢慢拋棄傳統(tǒng)的濾波理論走向圖優(yōu)化去了。

因?yàn)榛跒V波的理論，濾波器穩(wěn)度增長太快，這對于需要頻繁求逆的

EKF（擴(kuò)展卡爾曼濾波器），PF壓力很大。而基于圖的SLAM,通常

以keyframe（關(guān)鍵幀）為基礎(chǔ)，建立多個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)之間的相對變

換關(guān)系，比如仿射變換矩陣，并不斷地進(jìn)行關(guān)鍵節(jié)點(diǎn)的維護(hù)，保證圖

的容量，在保證精度的同時(shí)，降低了計(jì)算量。

列舉幾個(gè)目前比較有名的SLAM算法：PTAM.MonoSLAM,

0RB-SLAM,RGBD-SLAM,RTAB-SLAMfL

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SLAM技術(shù)及應(yīng)用介紹

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔