版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器人領(lǐng)域作為如今熱門的研究領(lǐng)域之一受到了研究者們的廣泛關(guān)注,但是機器人的研究始終伴隨著如何使機器人能夠在陌生的環(huán)境中自主探索和行動這個關(guān)鍵性問題。SLAM提出至今已有30多年的研究歷程,大致分為傳統(tǒng)時期、算法分析時期和魯棒性-預(yù)測性時期3個時間段。對于未知環(huán)境,為了能夠自主移動和探索,機器人需要依靠傳感器獲取環(huán)境數(shù)據(jù)。機器人首先需要解決定位問題即明確自身位置,隨后測量自身周圍的環(huán)境信息并建立地圖,同時保存已建的地圖以備后期在該地區(qū)內(nèi)直接進行定位和導(dǎo)航。2007年,MonoSLAM是首個利用純視覺恢復(fù)相機的移動路徑,使用概率框架在線創(chuàng)建稀疏并持久的自然地標地圖,同時由先驗信息輔助系統(tǒng)完成初始化,由擴展卡爾曼濾波法實時更新狀態(tài)。此外,相機采用恒速度運動模型,相機狀態(tài)的誤差用不確定性程度衡量。2008年,PTAM實現(xiàn)了跟蹤和建圖用不同線程,并可在地圖中顯示AR虛擬物體。前端采用FAST角點檢測算法且引入關(guān)鍵幀技術(shù),利用極線約束法匹配特征點計算旋轉(zhuǎn)矩陣,后端則采用非線性優(yōu)化的BA(BundleAdjustment)方法。2014年,SVO為了在無人機高速移動狀態(tài)下估計準確位姿,采用特征點法和直接法相結(jié)合的方法實現(xiàn)高頻高精度里程計。直接法中摒棄傳統(tǒng)算法對圖像中少量的大補丁圖像塊的提取,轉(zhuǎn)而提取大量小補丁圖像塊。RTAB-MAP針對大場景稠密建圖,并提出內(nèi)存管理方法來解決大場景長時間稠密建圖存在的回環(huán)檢測和實時性問題。2018年,設(shè)計了一個完備的運動狀態(tài)估計器。它是由單目和IMU組裝成的一個小巧裝置,用于度量六自由度,可以廣泛應(yīng)用移動機器人、無人機和移動電子設(shè)備等SLAM系統(tǒng)。DSO依靠圖像上的采樣像素生成稀疏地圖,所用模型涉及光度校正來消除曝光時間和鏡頭漸暈等影響。ORB-SLAM在PTAM基礎(chǔ)上添加了回環(huán)檢測線程,是第一個具備跟蹤、回環(huán)檢測和建圖環(huán)節(jié)的完整實例,最終準確實現(xiàn)了相機的運動軌跡和地圖中軌跡的一致。2019年,基于模型的視覺慣性里程計VIMO正逐步取代傳統(tǒng)的視覺慣性里程計VIO,關(guān)注點放在作用于系統(tǒng)的外力上,把動力學(xué)和外力結(jié)合在殘差中作為約束產(chǎn)生了一種精度較高的狀態(tài)估計器。2020年,DeepFactors建立在CodeSLAM的基礎(chǔ)上,結(jié)合深度學(xué)習重新表示已學(xué)習的緊湊性深度圖對光度誤差、重投影誤差和幾何誤差,實現(xiàn)單目相機構(gòu)建稠密地圖。一個無需配置相機參數(shù),便可較靈活地選擇多個數(shù)量的相機組合使用,完成自適應(yīng)初始化的SLAM系統(tǒng)。語義NodeSLAM根據(jù)VAE和概率渲染引擎判別物體形狀及重構(gòu)多視圖物體。Vid2Curve系統(tǒng)單憑RGB視頻流也可實現(xiàn)細線條物體三維重建,摒棄傳統(tǒng)基于深度和圖像紋理,而采用基于2D曲線特征的方法抽取出骨骼曲線,沿曲線按物體寬度融合相應(yīng)半徑圓餅反映物體線條。AVP-SLAM借助對視角和光照具有魯棒性的語義特征構(gòu)建地下停車場地圖,完成了自動泊車任務(wù)。在任一亮環(huán)境下,基于物理的深度網(wǎng)絡(luò)考慮反射、折射和內(nèi)部全反射對物體表面法線重建,進一步實現(xiàn)透明物體的三維重建。ESVO是SLAM領(lǐng)域首次用雙目事件相機構(gòu)建的視覺里程計,在保證每幀圖像時空一致性前提下,逆深度估計附加時間戳,并采用了IRLS非線性優(yōu)化和前向合成Lucas-Kanade方法。除此之外,目前開源并且框架完備的算法有ORB-SLAM、DTAM、RGBD-SLAM、改善大場景下回環(huán)檢測性能的算法。綜上所述,對大量視覺算法進行分析歸納出視覺SLAM框架涵蓋傳感器數(shù)據(jù)輸入、前端VO、后端優(yōu)化、回環(huán)檢測和建圖5個主體。圖1為視覺SLAM的算法流程。圖1視覺SLAM算法流程1前端前端視覺里程計部分實現(xiàn)對位姿的計算。計算方法大致有特征點法、直接法、光流法和深度學(xué)習與幀間估計4種。如圖2所示,視覺里程計要計算估計出相機各幀位姿,從初始位置(可以自定義)起,當前位置通過和上一時刻的位置來計算,公式為。其中,為K和K+1時刻之間的相機平移和旋轉(zhuǎn)變化,可根據(jù)圖像變換的基本矩陣、單應(yīng)矩陣和SVD分解本質(zhì)矩陣計算獲得,從而恢復(fù)相機的運動軌跡。圖2相機運動軌跡1.1特征點法特征點法是在相鄰幀之間選取特征點并進行匹配,然后使用RANSAC、M估計或最小中值估計等方法,盡可能濾除錯誤匹配的噪聲點,最后求得位姿。介于對精度和時間的考慮,關(guān)鍵點檢測器和描述符組合搭配使用。檢測器算法有ORB、SIFT以及SURF等,描述符算法有BRIEF、FREAK等。由于深度圖像的取舍,前端將面臨2D-2D、3D-2D和3D-3D共3種情形,故使用特征點法時最主要考慮的問題是算法選擇問題和計算方法的選擇問題。(1)SIFT/SURF。SIFT/SURF算法使用基于梯度方法的HOG作為描述符,通過物體在局部區(qū)域中的強度梯度分布來描述物體的結(jié)構(gòu)。(2)RISK/BRIEF/ORB/KAZE/FREAK。上述算法使用二進制Binary描述符,僅依靠圖像自身強度信息,將關(guān)鍵點周圍信息編碼成一串二進制數(shù)。BRISK算法采用長距離對和短距離對,其中長距離對描述圖像補丁的梯度方向,而短距離對用于組成二進制字符串來描述梯度大小。長距離對搜索函數(shù)為:短距離對搜索函數(shù)為:長對計算關(guān)鍵點方向向量公式為:短距離對組裝成二進制串公式為:上面使用相同數(shù)量圖片及同一工程對所有可能的檢測器和描述符組合進行性能比較實驗。由表1各種檢測器和描述符組合的總運行時間結(jié)果可以看出,F(xiàn)AST+BRIEF速度最快,F(xiàn)AST+ORB次之。表1中x表示當前檢測器和描述符不能搭配使用,相應(yīng)的實驗結(jié)果也將不存在。表2為各種檢測器和描述符組合的匹配點數(shù)目結(jié)果,可以看出BRISK+BRIEF匹配點數(shù)目最多,BRISK+SIFT和BRISK+FREAK次之。對于所有類型的幾何變換來說,SIFT和BRISK的總體精度最高。表1各種檢測器和描述符組合的總運行時間(單位:ms)表2各種檢測器和描述符組合的匹配點數(shù)目(單位:個)1.2光流法光流法是為了應(yīng)對圖像中的特征點難提取、紋理簡單且單一的情況提出的。它是基于亮度不變的假設(shè),即圖像中某一位置的像素其亮度在短時間內(nèi)不會變化的思想來選取圖像中某些像素點進行跟蹤,最后計算出位姿。不變性假設(shè)關(guān)于時間t進行求導(dǎo),得:整理為矩陣形式,為:式中:代表該點x方向梯度,代表該點x方向速度;同理,。分別代表y方向梯度和速度,表示圖像隨時間的變化量。1.3直接法直接法依據(jù)灰度不變性假設(shè),利用圖像中像素灰度值的變化來估計相機的運動方向。只要環(huán)境中有亮度并使得相機運動時圖像像素點有亮度的變化,直接法就能工作。因為直接法只關(guān)注亮度變化,不關(guān)注特征信息,故效率較高。常見的塊匹配算法有NCC、SSD等。DVO在假設(shè)條件下用高斯牛頓迭代法計算相機的運動位姿,預(yù)測場景點深度值和深度圖提供的實際深度值之間的差異預(yù)估運動。LSD-SLAM是繼特征點法后將直接法應(yīng)用于SLAM的典型算法,省略了特征點提取環(huán)節(jié),從而提高了算法效率,將圖像中梯度較大的像素點還原出對應(yīng)3D地圖坐標來盡量反映場景物體的輪廓信息,即建立了半稠密的地圖。跟蹤線程中以歸一化的方差光度誤差最小化為目標,對上一關(guān)鍵幀的姿態(tài)值左乘這兩個關(guān)鍵幀之間的剛體變換值,從而得到當前關(guān)鍵幀的位姿。2后端后端優(yōu)化主要對前端的位姿值進行優(yōu)化,盡量減少累積誤差。前端當前建立的帶有累積誤差的局部地圖,后端會優(yōu)化當前的地圖,避免地圖誤差越來越多。目前,最主要的后端算法包括基于濾波理論的擴展卡爾曼濾波法和基于優(yōu)化理論的BA和圖優(yōu)化法、位姿圖法。除此之外,基于濾波理論的算法還有UKF、EIF、SEIF、PF等,基于優(yōu)化理論的算法還有非線性優(yōu)化、TORO、G2O等。2.1濾波法卡爾曼濾波器包含預(yù)測和更新兩個任務(wù),被看作兩步驟程序。步驟1:使用上一狀態(tài)值估計下一狀態(tài)及不確定性:步驟2:使用當前的測量值透過加權(quán)平均來更新當前的狀態(tài)估計值:式中,表示卡爾曼增益,表示觀測模型,表示殘差。MonoSLAM的后端采用擴展卡爾曼濾波法,相機采用恒速度運動模型,受瞬間外力對相機的影響,需要再更新相機運動狀態(tài)量。未知力度對相機瞬時作用的影響用噪聲向量表示,其中包含短時間內(nèi)外力的線加速度和角加速度產(chǎn)生的線速度和角速度。2.2優(yōu)化法BA(BundleAdjustment)目標函數(shù)中,相機位姿變量和路標點變量組成自變量,作為所有待優(yōu)化的變量。變量發(fā)生變化時對應(yīng)的增量方程為:式中,分別表示關(guān)于相機位姿和路標點位置的偏導(dǎo)數(shù)。無論使用G-N方法還是L-M方法,最后都將面對增量線性方程:以G-N為例,則矩陣為:認識到矩陣的稀疏結(jié)構(gòu),并發(fā)現(xiàn)該結(jié)構(gòu)可以自然地用圖優(yōu)化來表示,此處引入G2O。若一個場景內(nèi)有5個相機位姿和2個路標。關(guān)系結(jié)構(gòu)圖如圖3所示,以最小化下列函數(shù)為目標,優(yōu)化所有圖中的變量:式中,表示第j個路標點,表示j=N個路標點分別在第i個相機下的像素坐標,表示各路標點到各相機平面的深度值。圖3關(guān)系結(jié)構(gòu)2.3位姿圖法從圖優(yōu)化知,隨著相機運動需加入大量路標節(jié)點。路標節(jié)點數(shù)量遠大于位姿節(jié)點的數(shù)量,將嚴重降低計算效率。因此,舍棄路標節(jié)點變量的優(yōu)化,只關(guān)注相機位姿變量的優(yōu)化,如圖4所示。圖4關(guān)系結(jié)構(gòu)首先根據(jù)兩幀已記錄(前端計算)的位姿得到相對位姿變換:重新根據(jù)i、j兩幀圖像利用對極幾何得到實際位姿增量,優(yōu)化的目標為:若所有位姿節(jié)點之間的邊集合記做,則總體目標函數(shù)為:3三維地圖構(gòu)建三維地圖的表達方式有深度圖(depth)、點云(pointcloud)、體素(voxel)和網(wǎng)格(mesh)共4種。圖5為4類三維建圖方式樣例,深度圖中每個像素表示物體距離相機平面的值。點云是大量點組成的數(shù)據(jù)集,每個點包含位置、顏色等信息。體素是由一個個矩形小方塊組成,類似于三維空間中的像素。網(wǎng)格由許多三角形面拼接成的多邊形以接近現(xiàn)實物體表面,每個網(wǎng)格包含三角形的頂點、邊和面。圖54類三維建圖方式樣例3.1深度圖Shao等人提出了一種立體視覺和陰影形狀(ShapeFromShading,SFS)算法,能夠同時生成深度圖和方向圖,但很難作用在顏色和紋理不均一的場景。強度圖像與對應(yīng)的深度信息進行隱馬爾可夫模型(HiddenMarkovModel,HMM)建模,應(yīng)用單張圖像的3D人臉或手的重構(gòu)系統(tǒng)。Saxena等人將圖像劃分出多個區(qū)域塊,使用馬爾可夫隨機場(MarkovRandomField,MRF)對逐個像素塊計算出相應(yīng)參數(shù),以描述每塊所指的3D平面位置與方向,而各個平面共同組成最后的3D場景。Liu等人使用有監(jiān)督的學(xué)習方法對非結(jié)構(gòu)化場景圖進行深度預(yù)測,其中模型采用經(jīng)過區(qū)分訓(xùn)練的馬爾可夫隨機場(MRF)。受生物學(xué)復(fù)雜單元的啟發(fā),對圖像像素之間相關(guān)性進行編碼,從數(shù)據(jù)中學(xué)習深度和運動線索實現(xiàn)3-D運動分析。最近,使用基于SIFTFlow的KNN傳輸機制從單個圖像估計靜態(tài)背景的深度,并利用運動信息對其進行增強,以更好地估計視頻中的運動前景對象。使用兩個深度網(wǎng)絡(luò)分別進行圖像粗略預(yù)測和局部細化預(yù)測,實現(xiàn)了對單張圖像的深度估計,并提出了一個尺度不變的損失函數(shù)。提出了將語義對象標簽與單眼深度特征集成在一起的方法,以提高性能,但它們依靠手動添加的方式并使用超像素來分割圖像。建議使用基于ResNet的網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測深度。建議使用CNN結(jié)構(gòu)構(gòu)建用于深度預(yù)測的多尺度條件隨機場CRF。BA-Net輸入圖像使用預(yù)先學(xué)習(端到端)的深度圖生成器產(chǎn)生多個基礎(chǔ)深度圖,并通過特征量度BA將這些深度圖線性組合出最終深度。3.2點云Fan等人實現(xiàn)了對單圖像中單個物體以點云形式進行三維重建,開創(chuàng)了點云生成的先例。從一張2D圖像恢復(fù)一個3D物體可能出現(xiàn)多個可能的較好結(jié)果,使得此問題不適用經(jīng)典回歸或分類方法解決,轉(zhuǎn)而研究基于點云表示的3D幾何生成網(wǎng)絡(luò)。網(wǎng)絡(luò)由輸入圖像和推斷的視點位置確定3D點云中的點位置。點集生成網(wǎng)絡(luò)恢復(fù)出多個可能的結(jié)果,再經(jīng)損失函數(shù)確立最終點云結(jié)果。圖6為系統(tǒng)的整體結(jié)構(gòu)圖。圖6系統(tǒng)結(jié)構(gòu)2D圖恢復(fù)所有可能的3D形狀:損失函數(shù):ElasticFusion算法側(cè)重構(gòu)建清晰稠密地圖。對RGB-D相機獲取的深度圖進行操作,相關(guān)信息融合到初始的surfel數(shù)學(xué)模型中,一步步優(yōu)化模型外形,最后使用此模型描畫場景。圖7展示了ElasticFusion算法的整體實現(xiàn)流程。圖7ElasticFusion算法框架流程建圖線程的兩個步驟。一是surfel模型初始化采用Deformation圖使用均勻抽樣初始化。它由許多node組成,每個node帶有和等參數(shù)來影響surfel模型進行表面變形。二是RGB-D相機獲得深度圖像,使用內(nèi)參將深度圖轉(zhuǎn)為點云。點云和RGB彩色圖像使用跟蹤線程計算的相機幾何位姿和光度位姿,并利用OPENGL融合到surfel模型中。3.3體素3D-R2N2沒有在觀察對象之前需先匹配合適的3D形狀,以盡可能迎合2D圖像中所描述的物體。而受早期使用機器學(xué)習來學(xué)習2D到3D映射以進行場景理解的工作啟發(fā),引入深度卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)建立在LSTM和GRU的基礎(chǔ)上,實現(xiàn)了單視圖和多視圖的3D重建。網(wǎng)絡(luò)框架包含Encoder、3DConvolutionalLSTM和Decoder共3大部分,如圖8所示。Encoder是一種CNN結(jié)構(gòu)對輸入圖像進行編碼;Decoder是解碼過程;3DConvolutionalLSTM是由許多LSTM單元組成的正立方體網(wǎng)格結(jié)構(gòu),每個單元負責一個已編碼的部分并恢復(fù)出相應(yīng)體素,所有體素格組成3D物體。損失函數(shù)使用二分類交叉熵函數(shù),決定相應(yīng)體素格狀態(tài)是否占有:圖8網(wǎng)絡(luò)框架3.4網(wǎng)格Pixel2Mesh在基于圖的卷積神經(jīng)網(wǎng)絡(luò)中輸出3D網(wǎng)格圖形。任一單圖像輸入之前,系統(tǒng)默認同步初始化一橢圓球作為初始的物體形狀。全卷積神經(jīng)網(wǎng)絡(luò)一步一步提取2D圖像中的細節(jié)特征,同時圖卷積神經(jīng)網(wǎng)絡(luò)受圖像特征的約束將細節(jié)附加于初始的橢球體上,隨著特征數(shù)量的不斷增加致使橢球不斷形變(粗糙到細密過程),最終得到最后物體。圖9為雙網(wǎng)絡(luò)協(xié)作流程。圖9雙網(wǎng)絡(luò)協(xié)作流程4種約束網(wǎng)格形變的損失函數(shù)為:圖卷積神經(jīng)網(wǎng)絡(luò)中包含與Mesh網(wǎng)格對應(yīng)的頂點(V)、邊(E)和特征向量(F),定義函數(shù)如下:式中,分別表示頂點p在卷積前后的特征向量,表示頂點p的相鄰頂點,是待學(xué)習的權(quán)重參數(shù)。4發(fā)展趨勢當前,視覺SLAM的發(fā)展趨勢主要涵蓋以下3個方面。4.1面對特殊材質(zhì)的透明物體的重建透明物體的重建受光反射、折射和內(nèi)部全反射等因素影響。透明物體成像的物理基礎(chǔ)是界面處的折射遵循斯涅爾定律,反射由菲涅爾方程確定。由高折射率介質(zhì)進入較低折射率介質(zhì)界面處的入射角大于臨界角時,就會發(fā)生全內(nèi)反射。文獻[13]中利用了深層網(wǎng)絡(luò)學(xué)習和模擬圖像形成的物理基礎(chǔ)知識。網(wǎng)絡(luò)內(nèi)的渲染層可對最多兩次反射的折射光路進行建模,以建立對應(yīng)于物體正反兩面投影光線的曲面法線,可在任意
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 違法辭退報告范文模板
- 2025新藥監(jiān)控采購合同
- 上海戲劇學(xué)院《機械設(shè)計基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海外國語大學(xué)《環(huán)境科學(xué)與工程仿真實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025標準版企業(yè)借款合同樣書
- 乘除法和加減法混合運算教學(xué)設(shè)計
- 實踐調(diào)查報告范文
- 上海商學(xué)院《花鳥畫基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025店面租賃合同「標準版」
- 課題申報書:高校生涯教育與專業(yè)教學(xué)融合模式研究
- 中學(xué)美術(shù)《剪紙藝術(shù)》完整課件
- 涉水作業(yè)安全指導(dǎo)手冊
- 北京市道德與法治初二上學(xué)期期末試題與參考答案(2024年)
- 【論電子商務(wù)對現(xiàn)代生活的影響(論文)3300字】
- 專題02整式加減的應(yīng)用(應(yīng)用題專項訓(xùn)練)(滬科版)(原卷版+解析)
- 人教PEP版(2024)三年級上冊英語全冊教案(單元整體教學(xué)設(shè)計)
- TFJPACIA 001-2024 氟石膏規(guī)程規(guī)范
- 醫(yī)院提高住院患者抗菌藥物治療前病原學(xué)送檢率學(xué)習培訓(xùn)課件
- 2024-2025學(xué)年七年級英語上冊第一學(xué)期 期末綜合模擬考試卷(滬教版)(一)
- 10S505 柔性接口給水管道支墩
- DL∕T 939-2016 火力發(fā)電廠鍋爐受熱面管監(jiān)督技術(shù)導(dǎo)則
評論
0/150
提交評論