機(jī)械設(shè)備深度報告:機(jī)器人如何進(jìn)行復(fù)雜操作和自主移動_第1頁
機(jī)械設(shè)備深度報告:機(jī)器人如何進(jìn)行復(fù)雜操作和自主移動_第2頁
機(jī)械設(shè)備深度報告:機(jī)器人如何進(jìn)行復(fù)雜操作和自主移動_第3頁
機(jī)械設(shè)備深度報告:機(jī)器人如何進(jìn)行復(fù)雜操作和自主移動_第4頁
機(jī)械設(shè)備深度報告:機(jī)器人如何進(jìn)行復(fù)雜操作和自主移動_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄TOC\o"1-2"\h\z\u斯坦福推出擅長家務(wù)的MobileALOHA,特斯拉Optimus能疊衣服 5機(jī)器人如何進(jìn)行復(fù)雜操作:多種AI訓(xùn)練路徑實(shí)現(xiàn)運(yùn)動控制及環(huán)境交互 8虛擬仿真(Sim2Real) 8動作捕捉或遙操作(Tele-operation) 9模仿學(xué)習(xí)(MimicPlay) 10VLM(VisionLanguageModels)+小模型 12VLA(VisionLanguageAction) 13機(jī)器人如何實(shí)現(xiàn)自主移動:SLAM技術(shù)的應(yīng)用 14風(fēng)險提示 18圖表目錄圖表1:MobileALOHA主控制炒蝦仁 5圖表2:研發(fā)人員遙作MobileALOHA訓(xùn)練并掌技能 6圖表3:MobileALOHA器人硬件情況 6圖表4:特斯拉人形人Optimus疊衣服 7圖表5:主流AI訓(xùn)練路優(yōu)劣對比及代表隊(duì) 8圖表6:VIMA接收多態(tài)prompts并執(zhí)行指定任務(wù) 9圖表7:Optimus工程人員穿戴設(shè)備為AI訓(xùn)練做示 10圖表8:基于MimicPlay框架的模仿學(xué)習(xí)的階段 11圖表9:通過模仿學(xué)機(jī)器人執(zhí)行任務(wù)的功顯著提升 11圖表10:Figure01操作咖啡機(jī)(左)及自糾(右) 12圖表11:PaLM-E為機(jī)器人決策并抵抗任務(wù)間干擾 13圖表12:VLM從網(wǎng)絡(luò)和RT-1機(jī)器人數(shù)據(jù)中學(xué)習(xí)而演化成新的VLA 14圖表13:VLA模型控制器人抓取滅絕動物 14圖表14:涌現(xiàn)能力成率對比 14圖表15:SLAM與構(gòu)成主移動導(dǎo)航的各領(lǐng)關(guān)圖 15圖表16:SLAM根據(jù)傳器不同的分類情況 16圖表17:6種代表性SLAM算法的綜合比較 17圖表18:2022-2029E球SLAM市場規(guī)模(億美) 17圖表19:SLAM技術(shù)的他應(yīng)用場景及國內(nèi)表司 18MobileOptimus2024DeepMindMobileALOHA圖表1:MobileALOHA自主控制炒蝦仁資料來源:斯坦福MobileALOHA項(xiàng)目開源網(wǎng)頁,斯坦福大學(xué)團(tuán)隊(duì)重心在于機(jī)器人通過人類示教動作學(xué)習(xí)模仿操作技巧與身體控制,即依托MobileALOHA系統(tǒng)收集的數(shù)據(jù)進(jìn)行模擬學(xué)習(xí)的訓(xùn)練。其論文中對于MobileALOHA的定義是一種用于收集雙臂運(yùn)動數(shù)據(jù)的低成本全身遙操作系統(tǒng)。在視頻演示中,MobileALOHA迅速且流暢地完成了包括炒蝦、清理桌面、水洗盤子、桌椅等多個非標(biāo)準(zhǔn)化的動作。根據(jù)項(xiàng)目團(tuán)隊(duì)的描述,為了實(shí)現(xiàn)相關(guān)功能,實(shí)驗(yàn)人員會首先操作機(jī)器人對每個任務(wù)的流程進(jìn)行50次學(xué)習(xí)。經(jīng)過協(xié)同訓(xùn)練后的機(jī)器人在自主完成炒蝦、存放鍋具、呼叫電梯等復(fù)雜移動和操作任務(wù)時成功率可以達(dá)到90。同時,團(tuán)隊(duì)還設(shè)計(jì)了遠(yuǎn)程操作系統(tǒng),讓用戶可以通過遠(yuǎn)程控制的方式控制機(jī)器人作業(yè)。圖表2:研發(fā)人員遙操作MobileALOHA訓(xùn)練并掌握技能資料來源:《MobileALOHA:LearningBimanualMobileManipulationwithLow-CostWhole-BodyTeleoperation》(ZipengFuetal.),MobileALOHA3.2為開源。移動底座——一臺AgileXTracerAGV運(yùn)動系統(tǒng)——兩個Viperx3006dof機(jī)械臂視覺系統(tǒng)——3個480×640分辨率、50Hz的羅技C922xRGB攝像頭Nvidia3070TiInteli7-12800H的消費(fèi)級筆記本電腦供電系統(tǒng)——1.26kWh、重14kg的電池ALOHA1.5m100N1.6m/s100kg12h。圖表3:MobileALOHA機(jī)器人硬件情況資料來源:《MobileALOHA:LearningBimanualMobileManipulationwithLow-CostWhole-BodyTeleoperation》(ZipengFuetal.),上述成本和配置就能打造出在家庭環(huán)境下能夠?qū)崿F(xiàn)諸多功能的MobileALOHA,其關(guān)鍵在于機(jī)器人的運(yùn)動控制及交互,和自主移動兩方面。ALOHAMobileALOHA在作為移動底座的AGVAGVSLAM時隔不久,特斯拉也發(fā)布了關(guān)于機(jī)器人執(zhí)行復(fù)雜操作的演示視頻。1月16CEOXOptimusOptimusOptimusOptimus圖表4:特斯拉人形機(jī)器人Optimus疊衣服資料來源:網(wǎng)易,MobileALOHAOptimusDeepMindAutoRTSARA-RTAI制及環(huán)境交互ChatGPTPaLM-EVLMAIAIAIVLMVLAAI圖表5:主流AI訓(xùn)練思路優(yōu)劣對比及代表團(tuán)隊(duì)優(yōu)勢劣勢代表團(tuán)隊(duì)虛擬仿真訓(xùn)練成本相對較低仿真數(shù)據(jù)與現(xiàn)實(shí)情況偏差較大英偉達(dá)動作捕捉/遙操作過程直接有效,適合實(shí)際應(yīng)用場景,與人形機(jī)器人匹配度高數(shù)據(jù)采集成本高,且核心依賴真人特斯拉等多家人形機(jī)器人廠商模仿學(xué)習(xí)可泛化性強(qiáng),省略繁瑣編程科研場景居多,泛化后可靠性存疑斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)、FigureVLM可以執(zhí)行復(fù)雜指令而無需重新訓(xùn)練,且能形成細(xì)分場景數(shù)據(jù)壁壘決策端和執(zhí)行端割裂帶來的時滯,小模型數(shù)據(jù)獲取難度大谷歌、MetaVLA感知-決策-動作閉環(huán),避免了復(fù)雜的信息轉(zhuǎn)換大模型實(shí)時性較差,執(zhí)行成功率有待提升谷歌DeepMind資料來源:虛擬仿真(Sim2Real)虛擬仿真(Sim2Real,全稱SimulationtoRealityAItransferlearning二是安全問題。由于強(qiáng)化學(xué)習(xí)需要通過智能體在環(huán)境中進(jìn)行大范圍的隨機(jī)采樣來進(jìn)行試錯,因而在某些時刻其做出的行為可能會損傷機(jī)器人自身(例如手臂(RealityGapAIVIMA。VIMA2022Transformer大學(xué)、加州理工學(xué)院等多方的研究者們合作完成。VIMA智能體能夠接受提示圖表6:VIMA接收多模態(tài)prompts并執(zhí)行指定任務(wù)資料來源:VIMA項(xiàng)目開源網(wǎng)頁,高效的程序框架用以合成多樣、穩(wěn)定的抓取姿勢數(shù)據(jù)。通過該框架,團(tuán)隊(duì)為ShadowHandDexGraspNet1335355動作捕捉或遙操作(Tele-operation)動作捕捉或遙操作是指將真人執(zhí)行指令的動作通過傳感器等設(shè)備精準(zhǔn)復(fù)制MobileALOHA2023AI圖表7:Optimus工程人員穿戴設(shè)備為AI訓(xùn)練做演示資料來源:集微網(wǎng),RoboticsX模仿學(xué)習(xí)(MimicPlay)2023MimicPlayMobileALOHA圖表8:基于MimicPlay框架的模仿學(xué)習(xí)的三階段資料來源:《MimicPlay:Long-HorizonImitationLearningbyWatchingHumanPlay》(ChenWangetal.),圖表9:通過模仿學(xué)習(xí)后機(jī)器人執(zhí)行任務(wù)的成功率顯著提升資料來源:《MimicPlay:Long-HorizonImitationLearningbyWatchingHumanPlay》(ChenWangetal.),卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)也提出了一種高效、一次性機(jī)器人學(xué)習(xí)算法,稱為WHIRL(In-the-WildHumanImitatingRobotLearning。Figure01僅用10202418AIFigureBrettAdcockFigure0110Figure01圖表10:Figure01操作咖啡機(jī)(左)及自我糾錯(右)資料來源:搜狐,VLM(VisionLanguageModels)+小模型VLM+VLMVLMVLMVLMSay-Can、PaLM-EMetaImageBindVLM3PaLM-EPaLM-E(PathwaysLanguageModelwithPaLM-540BViT-22BTransformer為一種多模態(tài)具身PaLM-EPaLM-E圖表11:PaLM-E為機(jī)器人決策并抵抗任務(wù)期間的干擾資料來源:澎湃,VLM在實(shí)際運(yùn)動控制問題上會出現(xiàn)實(shí)時性較差的缺陷,故目前主流方案是VLMVLA(VisionLanguageAction)VLAVLMVLADeepMind20237RT-2VLART-1RT-2VLA圖表12:VLM從網(wǎng)絡(luò)和RT-1機(jī)器人數(shù)據(jù)中學(xué)習(xí)從而演化成新的VLA資料來源:DeepMind,VLMVLMRT-2MveckeantoTalorSiftVLART-2RT-1VC1。圖表13:VLA模型控制機(jī)器人抓取滅絕動物 圖表14:涌現(xiàn)能力成功率對比 資料來源:DeepMind, 資料來源:DeepMind,VLAVLAAI機(jī)器人如何實(shí)現(xiàn)自主移動:SLAMSLAM是實(shí)現(xiàn)機(jī)器人自主導(dǎo)航和后續(xù)交互的關(guān)鍵技術(shù)之一。SLAM即SimultaneousLocalizationandMapping,SLAMSLAMSLAM單/(Filter-Based)SLAM(Graph-Based)的SLAM。SLAMMobileALOHASLAMAGV圖表15:SLAM與構(gòu)成自主移動導(dǎo)航的各領(lǐng)域關(guān)系圖資料來源:思嵐科技,SLAMSLAMSLAMSLAM。SLAMCartographerKarto,SLAMLIO-SAM、LOAMSLAMORB-SLAM3、VINS-Fusion圖表16:SLAM根據(jù)傳感器不同的分類情況資料來源:深圳市眾星智能,SLAM包SLAMSLAM、3DTSDFSLAMSLAMSLAMSLAMSLAMSLAMSLAMSLAM圖表17:6種代表性SLAM算法的綜合比較傳感器魯棒性定位精度建圖面積建圖質(zhì)量實(shí)時性能可擴(kuò)展性硬件需求工程實(shí)現(xiàn)難度Cartographer2DLidar高高大高適中中較高中Karto2DLidar+ROS適中中中高高適中較高低LIO-SAM3DLidar中中中高高適中適中較高LOAM3DLidar,適用慢速移動場景中中小高高較差較高低ORB-SLAM3視覺中高中中高適中較低較高VINS-Fusion視覺和慣性高高中高中高較高較高資料來源:深圳市眾星智能,MarketMonitorGlobal2022SLAM3.30CAGR34.7202929.23圖表18:2022-2029E全球SLAM市場規(guī)模(億美元)資料來源:MarketMonito

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論