人工智能行業(yè)機(jī)器人智能化三部曲（二）：Meta及微軟篇

上傳人：b*** IP屬地：北京上傳時間：2023-10-29 格式：PPTX 頁數(shù)：23 大?。?.26MB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

核心觀點：隨著各項人工智能技術(shù)的不斷發(fā)展，具備與物理世界交互潛力的智能機(jī)器人成為學(xué)界和業(yè)界的重要研究賽道。近年來Meta、微軟均持續(xù)完善其機(jī)器人模型領(lǐng)域的布局。2023年8月，Meta推出在少量訓(xùn)練數(shù)據(jù)情況下便能取得優(yōu)異表現(xiàn)的MT-ACT模型。2023年2月微軟推出基于ChatGPT的機(jī)器人控制框架，將ChatGPT的“知識儲備”落實到現(xiàn)實場景中。機(jī)器人模型發(fā)展百家爭鳴，值得進(jìn)一步關(guān)注。從R3M到MT-ACT，Meta持續(xù)探索如何使用有限的數(shù)據(jù)集實現(xiàn)更優(yōu)秀的機(jī)器人控制。在2022年3月推出的R3M模型中，Meta首次引入人類視頻數(shù)據(jù)作為機(jī)器人控制模型的知識來源，提升機(jī)器人模型訓(xùn)練效率。在2022年12月推出的CACTI模型中，使用數(shù)據(jù)增強(qiáng)技術(shù)實現(xiàn)了訓(xùn)練數(shù)據(jù)規(guī)模高效擴(kuò)充。2023年8月推出的MT-ACT模型將數(shù)據(jù)增強(qiáng)技術(shù)（基于SAM視覺模型）和動作序列生成技術(shù)結(jié)合，在7500個原始訓(xùn)練數(shù)據(jù)的情況下，在不同難度的測試中分別實現(xiàn)了81.67%、65.17%、31.33%的成功率，小規(guī)模數(shù)據(jù)表現(xiàn)優(yōu)于其他可比模型。將強(qiáng)化學(xué)習(xí)與MoE技術(shù)融合，

Meta推出機(jī)器人控制模型新方案ASC。在2023年4月推出的ASC模型中，先通過強(qiáng)化學(xué)習(xí)分別對單一任務(wù)進(jìn)行訓(xùn)練，再通過MoE技術(shù)實現(xiàn)不同技能模塊之間的有機(jī)協(xié)同，在模擬場景和兩個現(xiàn)實場景中分別實現(xiàn)了94.9%和96.7%/100%的成功率，并且具備較強(qiáng)的抗干擾能力，能夠在環(huán)境變化的情況下自動調(diào)整完成相關(guān)任務(wù)的方式。通過將更強(qiáng)的OWL-ViT視覺模型與ASC模型結(jié)合，模型可以根據(jù)文本描述來識別更為復(fù)雜的物體，有望在更廣泛的場景中處理更為復(fù)雜的任務(wù)。Meta：機(jī)器人模型與谷歌有所差異。谷歌的技術(shù)路線在本系列第一篇中有詳細(xì)描述，而Meta目前工作中尚未將大模型與機(jī)器人控制所結(jié)合，且相較谷歌嘗試?yán)么笠?guī)模的數(shù)據(jù)集提升機(jī)器人模型的表現(xiàn)，Meta的相關(guān)工作更加關(guān)注如何基于小規(guī)模的數(shù)據(jù)，結(jié)合數(shù)據(jù)增強(qiáng)、人類視頻數(shù)據(jù)預(yù)訓(xùn)練等方式實現(xiàn)通用機(jī)器人控制模型的構(gòu)建，即數(shù)據(jù)效率方面的提升。微軟：結(jié)合自然語言能力，微軟提出面向機(jī)器人控制領(lǐng)域的新框架。2022年8月推出的機(jī)器人軌跡控制模型LATTE，可以識別用戶的自然語言輸入調(diào)整機(jī)器人的運(yùn)行軌跡。2023年2月發(fā)表文章“ChatGPT

for

Robotics”，其核心在于通過大語言模型（ChatGPT）來處理用戶指令，進(jìn)而調(diào)用相應(yīng)的機(jī)器人控制API來完成具體的任務(wù)。在演示中，經(jīng)過進(jìn)一步學(xué)習(xí)的ChatGPT模型在僅有自然語言輸入的情況下，可以控制機(jī)器人利用不同顏色的方塊拼接出微軟Logo。核心觀點1.1

科技巨頭加速布局智能機(jī)器人，Meta持續(xù)推進(jìn)機(jī)器人模型發(fā)展資料來源：Meta官網(wǎng)

，谷歌學(xué)術(shù)，中信建投近年來，Meta一直是AI領(lǐng)域不可忽視的力量，前沿研究如CV領(lǐng)域的SAM模型，NLP領(lǐng)域的LLaMa均是相關(guān)領(lǐng)域的最前沿技術(shù)之一。在機(jī)器人模型領(lǐng)域，Meta也已經(jīng)展開了較為完善的布局，提出了一些卓有成效的改進(jìn)策略如數(shù)據(jù)增強(qiáng)、動作序列生成等，相關(guān)模型如R3M、CACTI、ASC、MT-ACT等，其他領(lǐng)域的核心突破如SAM模型也應(yīng)用到了其中。本文將回顧Meta近年來在機(jī)器人模型領(lǐng)域的核心進(jìn)展，梳理其中的發(fā)展脈絡(luò)。圖：Meta機(jī)器人模型相關(guān)進(jìn)展時間軸202220232022.3R3M：引入人類視頻數(shù)據(jù)作為機(jī)器人控制模型的知識來源2022.12CACTI：使用數(shù)據(jù)增強(qiáng)擴(kuò)充了訓(xùn)練數(shù)據(jù)規(guī)模，并提升了模型的性能表現(xiàn)2023.4ASC：將強(qiáng)化學(xué)習(xí)與MoE技術(shù)融合以處理復(fù)雜的多任務(wù)場景2023.8MT-ACT：基于小規(guī)模的數(shù)據(jù)集，結(jié)合數(shù)據(jù)增強(qiáng)和動作序列生成實現(xiàn)較高質(zhì)量的機(jī)器人控制2023.4ACT：機(jī)器人動作序列生成的Transformer沿用視覺處理部分架構(gòu)作為預(yù)訓(xùn)練基礎(chǔ)模型沿用數(shù)據(jù)增強(qiáng)思路沿用動作序列生成部分SegmentAnything（SAM）作為數(shù)據(jù)增強(qiáng)的工具1.2.1

R3M：基于人類視頻數(shù)據(jù)的預(yù)訓(xùn)練機(jī)器人模型資料來源：

《R3M:

Universal

Visual

Representation

for

RobotManipulation》，中信建投Meta及斯坦福大學(xué)的研究人員在2022年3月推出了基于人類第一視角數(shù)據(jù)訓(xùn)練的機(jī)器人預(yù)訓(xùn)練模型R3M。核心突破：研究了一種在人類視頻數(shù)據(jù)上進(jìn)行機(jī)器人控制模型預(yù)訓(xùn)練的方法，提升了機(jī)器人控制模型的性能、效率和可用訓(xùn)練數(shù)據(jù)范圍。通過時間對比學(xué)習(xí)、視頻-語言對齊等方法來充分學(xué)習(xí)視頻中的視覺信息，構(gòu)建出預(yù)訓(xùn)練模型作為后續(xù)任務(wù)的基礎(chǔ)。訓(xùn)練數(shù)據(jù)集：使用了Ego4D的人類第一視角視頻數(shù)據(jù)集，包含共3500多小時的數(shù)據(jù)。數(shù)據(jù)集中的視頻來自全球70多個地方，具體任務(wù)包括有烹飪、社交、組裝物品等。每個視頻片段由參與者一次佩戴頭戴式攝像頭長達(dá)

小時，并拍攝無腳本日?；顒邮占鴣?，其中還包含視頻中人物行為的自然語言注釋。圖：Ego4D數(shù)據(jù)集圖：R3M模型架構(gòu)對比學(xué)習(xí)幀之間的變化學(xué)習(xí)語言指令和視頻操作構(gòu)建出預(yù)訓(xùn)練模型，可以用于后續(xù)訓(xùn)練1.2.2

R3M：基于人類視頻數(shù)據(jù)的預(yù)訓(xùn)練機(jī)器人模型資料來源：

《R3M:

Universal

Visual

Representationfor

Robot

Manipulation》，中信建投在模擬場景中，經(jīng)過進(jìn)一步演示的R3M模型能夠整體以62%的成功率完成12項不同的操作任務(wù)，相較于其他預(yù)訓(xùn)練方法實現(xiàn)了10%的提升（如下左圖綠色/黃色/藍(lán)色柱形所示），相較于不預(yù)訓(xùn)練的方法提升20%，如下圖（如下左圖粉色柱形所示）。在現(xiàn)實場景中，在每個任務(wù)經(jīng)過20次演示的條件下，R3M方法的成功率相較于CLIP方法的成功率實現(xiàn)明顯提升，整體成功率為56%，高出32%，同時在關(guān)抽屜、推杯子等較為簡單的任務(wù)中具有成功率較高。我們認(rèn)為，相較于性能提升，R3M將人類視頻數(shù)據(jù)帶入機(jī)器人模型訓(xùn)練領(lǐng)域更為重要，可能成為機(jī)器人模型數(shù)據(jù)缺乏的解決方案之一。圖：模擬場景中R3M模型的性能表現(xiàn)情況圖：現(xiàn)實場景中R3M的示例及性能表現(xiàn)情況其他預(yù)訓(xùn)練方法不預(yù)訓(xùn)練10次嘗試中的成功率1.3.1

CACTI：可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架Meta、哥倫比亞大學(xué)及卡耐基梅隆大學(xué)的研究人員在2022年12月推出了可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架CACTI。階段1——數(shù)據(jù)收集:

現(xiàn)實場景，通過人類演示收集了10個任務(wù)共1000個片段；模擬場景，通過強(qiáng)化學(xué)習(xí)智能體收集了18個任務(wù)共900個策略。階段2——數(shù)據(jù)擴(kuò)充:

通過不同的策略對專家示范數(shù)據(jù)進(jìn)行增強(qiáng)，進(jìn)而實現(xiàn)數(shù)據(jù)集的擴(kuò)充，例如針對模擬的900個策略共生成了45000個片段。階段3——數(shù)據(jù)壓縮:

將擴(kuò)充后的數(shù)據(jù)集中的“視覺”數(shù)據(jù)壓縮成向量。階段4——訓(xùn)練:

利用上述環(huán)節(jié)得到的不同任務(wù)數(shù)據(jù)訓(xùn)練出統(tǒng)一的控制策略。圖：CACTI模仿學(xué)習(xí)框架數(shù)據(jù)收集階段：在現(xiàn)實場景/模擬場景中收集相關(guān)任務(wù)的專家示范數(shù)據(jù)數(shù)據(jù)增強(qiáng)階段：通過不同的策略對專家示范數(shù)據(jù)進(jìn)行增強(qiáng)，實現(xiàn)數(shù)據(jù)集的擴(kuò)充數(shù)據(jù)壓縮階段：將擴(kuò)充后的數(shù)據(jù)集中的“視覺”數(shù)據(jù)壓縮成向量。訓(xùn)練階段：利用前置環(huán)節(jié)得到的任務(wù)數(shù)據(jù)訓(xùn)練出統(tǒng)一的多任務(wù)控制策略資料來源：

《

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》，中信建投1.3.2

CACTI：可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架數(shù)據(jù)擴(kuò)充環(huán)節(jié)旨在增強(qiáng)原始專家數(shù)據(jù)的多樣性，主要分為視覺增強(qiáng)和語義增強(qiáng)兩種方式。在現(xiàn)實場景中使用了開源的Stable

Diffusion模型對視覺信息進(jìn)行增強(qiáng)和擴(kuò)充，而在虛擬場景中則通過調(diào)整渲染過程的場景屬性來實現(xiàn)。視覺增強(qiáng)：改變場景的視覺屬性，如物體紋理、照明條件等。語義增強(qiáng)：包括改變場景中物體的布局（位置、方向），乃至添加新的人造物體等。圖：CACTI數(shù)據(jù)擴(kuò)充環(huán)節(jié)圖示語義增強(qiáng)資料來源：

《

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》，中信建投視覺增強(qiáng)1.3.3

CACTI：可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架訓(xùn)練和推理過程中，CACTI模型結(jié)合當(dāng)前時刻視覺（攝像機(jī)輸入）、文本（指令輸入）、機(jī)械臂狀態(tài)來生成下一時刻的機(jī)械臂狀態(tài)。其中視覺和文本信息均沿用了R3M模型的架構(gòu)來實現(xiàn)embedding的轉(zhuǎn)換。圖：CACTI訓(xùn)練和推理架構(gòu)示意圖資料來源：

《

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》，中信建投1.3.4

CACTI：可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架模型性能表現(xiàn)：在真實機(jī)器人上部署時，總體成功率約為30%；在仿真中，在所有

個任務(wù)中的成功率約為

62%，且隨著訓(xùn)練數(shù)據(jù)的逐漸豐富，模型在訓(xùn)練集內(nèi)/訓(xùn)練集外的任務(wù)上性能均有所提升。實驗結(jié)果證明，使用大量的互聯(lián)網(wǎng)圖像數(shù)據(jù)和人類日常行為數(shù)據(jù)來對機(jī)器人控制模型進(jìn)行預(yù)訓(xùn)練具備較大潛力。如左圖綠色柱形所示，在大部分場景中均展現(xiàn)出了相當(dāng)甚至更優(yōu)秀的效果，對于模擬環(huán)境中使用額外互聯(lián)網(wǎng)數(shù)據(jù)效果較差的實驗結(jié)果，研究人員認(rèn)為這可能是模擬環(huán)境中的圖像信息與現(xiàn)實場景圖像信息差距較大導(dǎo)致的；同時，數(shù)據(jù)增強(qiáng)方法也對模型表現(xiàn)有著較大貢獻(xiàn)，如下左圖深藍(lán)色柱形與橙色柱形/黃色柱形于淺藍(lán)色柱形的對比所示，在沒有經(jīng)過數(shù)據(jù)增強(qiáng)的情況下模型能力有較為明顯的下降。圖：現(xiàn)實環(huán)境結(jié)果資料來源：

《

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》，中信建投圖：仿真環(huán)境結(jié)果隨著訓(xùn)練數(shù)據(jù)的增加，模型在處理過的任務(wù)上的性能先降后升，在未處理過的任務(wù)上的性能持續(xù)提升在模擬場景中使用額外的互聯(lián)網(wǎng)數(shù)據(jù)效果較差，研究人員認(rèn)為這可能是模擬環(huán)境中的圖像信息與現(xiàn)實場景圖像信息差距較大導(dǎo)致的1.4.1

ASC：具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型Meta及Georgia

Institute

Technology的研究人員在2023年4月推出了具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型ASC。訓(xùn)練環(huán)境：導(dǎo)航任務(wù)環(huán)境——HM3D，包含1000個真實室內(nèi)環(huán)境的高質(zhì)量3D掃描，使用了其中800個作為本次的訓(xùn)練數(shù)據(jù)；拾取/放置任務(wù)環(huán)境——ReplicaCAD，包含104中不同布局的公寓，機(jī)器人需要將YCB數(shù)據(jù)集中的13件物品拾取、放置或重新排列到

件家具（容器）上。模型原理：通過強(qiáng)化學(xué)習(xí)在模擬環(huán)境中訓(xùn)練三種基于視覺的技能（導(dǎo)航、拾取、放置），進(jìn)一步訓(xùn)練一種技能協(xié)調(diào)策略（如下右圖黃框所示）以及一種糾正策略（如下右圖綠框所示），來根據(jù)三種不同任務(wù)的輸入對三種進(jìn)行進(jìn)行協(xié)調(diào)和控制，進(jìn)而完成較為復(fù)雜的下游任務(wù)。技能協(xié)調(diào)策略&糾正策略：技能協(xié)調(diào)策略實質(zhì)是混合專家模型中的門控網(wǎng)絡(luò)，在ASC中，技能協(xié)調(diào)策略利用Dagger算法進(jìn)行預(yù)訓(xùn)練，在這一過程中，定義好的“教師”策略會逐步指導(dǎo)和技能協(xié)調(diào)策略的行為，而后技能協(xié)調(diào)策略和糾正策略均通過深度強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。圖：ASC訓(xùn)練的模擬環(huán)境數(shù)據(jù)集圖：ASC模型架構(gòu)導(dǎo)航技能資料來源：

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》，中信建投拾取技能放置技能1.4.2

ASC：具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型模型性能：在公寓和實驗室兩個現(xiàn)實環(huán)境中，ASC模型在30次實驗過程中分別實現(xiàn)了96.7%和100.0%的成功率，在模擬環(huán)境中，ASC模型在79中不同布局的虛擬公寓中進(jìn)行了1500次的實驗，實現(xiàn)了94.9%的成功率。實驗結(jié)果表明，協(xié)調(diào)策略對模型性能影響較為顯著，如下表中第2、3行所示，在模型中添加協(xié)調(diào)策略后，模型性能平均提升了12.6%，而糾正策略的增加則如1、2行所示，帶來了平均6.4%的性能提升，這是由于三種基礎(chǔ)技能都是在較為簡單、孤立的場景中訓(xùn)練出來的，糾正策略的引入可以減少復(fù)雜的移動拾放過程中表現(xiàn)不佳的情況。同時，微調(diào)的方法無法代替糾正策略的作用，，如下表2、5列所示，在缺少糾正策略的情況下通過微調(diào)并不能帶來性能的提升，反而性能還會有較為顯著的下降。圖：ASC模型在現(xiàn)實環(huán)境和模擬環(huán)境中的評估結(jié)果資料來源：

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》，中信建投1.4.3

ASC：具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型ASC模型具備較強(qiáng)的抗干擾能力：ASC模型針對視覺的反饋進(jìn)行下一步的行動，而不是依賴于地圖，因此當(dāng)環(huán)境布局或動態(tài)障礙物發(fā)生變化是，ASC模型會將機(jī)器人重新安排到一條新的無碰撞路徑上，如下圖所示，當(dāng)機(jī)器人的前進(jìn)路線被障礙物或人擋住時，機(jī)器人會選擇新的路線來接近目標(biāo)；同時，ASC模型對目標(biāo)物體的變化也具有較強(qiáng)的抗干擾能力，如下圖所示，若機(jī)器人在搜索過程中目標(biāo)發(fā)生移動機(jī)器人會繼續(xù)搜索目標(biāo)。圖：ASC模型控制的機(jī)器人可以在面臨干擾的情況下較好的完成任務(wù)在被障礙物多次阻擋后機(jī)器人仍能找到正確的路徑資料來源：

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》，中信建投在被人多次阻擋后機(jī)器人仍能找到正確的路徑在目標(biāo)物體狀態(tài)反復(fù)變化的情況下，機(jī)器人仍能持續(xù)搜索并完成任務(wù)1.4.4

ASC：具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型通過將更強(qiáng)的Owl-ViT視覺模型應(yīng)用在ASC模型中，模型可以根據(jù)文本描述來識別更為復(fù)雜的物體，進(jìn)而完成相應(yīng)的拾取和放置任務(wù)。圖：增強(qiáng)后的ASC模型應(yīng)用在額外的復(fù)雜場景中資料來源：

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》，中信建投1.5

ACT：具備動作序列生成能力的Transformer架構(gòu)Meta、Standford

University、UC

Berkeley的研究人員推出了可以進(jìn)行動作序列生成的模型ACT。核心原理：針對某一時刻的輸入生成接下來的若干時刻的動作預(yù)測而不是只生成下一時刻動作預(yù)測。如下左圖所示，來自四個相機(jī)的輸入經(jīng)過encoder處理后，通過decoder得到接下來若干個時刻的動作序列。若不采用時序組合的方法（如右上圖所示），模型在3、4之間需要重新進(jìn)行推理得到新的4個動作，且需要為3的動作可能存在一定誤差，導(dǎo)致模型的機(jī)器人控制出現(xiàn)卡頓和精確度缺乏的情況，而通過時序組合的方式則可以這些來自不同時刻的預(yù)測匯總在一起，每一個時刻的輸出都是若干個時刻預(yù)測的綜合，并且考慮了環(huán)境的最新變化，進(jìn)而實現(xiàn)了更為精確而流暢的機(jī)器人控制。圖：ACT模型架構(gòu) 圖：動作分塊與時序組合的原理示意圖資料來源：

《Learning

Fine-Grained

Bimanual

Manipulation

with

Low-Cost

Hardware》，中信建投每個時刻的輸出是多次預(yù)測的加權(quán)組合1.6.1

RoboAgent：通過語義增強(qiáng)和動作序列生成提升機(jī)器人操控的通用性和效率Meta及Carnegie

Mellon

University的研究人員在2023年8月推出了高效的通用機(jī)器人模型框架MC-ACT。模型框架：訓(xùn)練過程中，在語義增強(qiáng)階段利用內(nèi)繪增強(qiáng)技術(shù)使訓(xùn)練數(shù)據(jù)多樣化，在策略學(xué)習(xí)階段使用多任務(wù)動作分塊轉(zhuǎn)化器訓(xùn)練語言條件策略，將多模式多任務(wù)數(shù)據(jù)納入單一的多任務(wù)機(jī)器人控制模型中。推理過程中結(jié)合用戶的文本輸入和攝像頭的圖像輸入對機(jī)械臂進(jìn)行控制。圖：MC-ACT模型框架資料來源：

《RoboAgent:

Generalization

andEfficiency

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》，中信建投1.6.2

RoboAgent：通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率訓(xùn)練數(shù)據(jù)：包含通過人類遠(yuǎn)程操作收集的7500個片段，具體任務(wù)包括有拾取、放置、開啟、關(guān)閉等，其中拾取和放置動作的數(shù)據(jù)量較大，均超過了1000條。相較于此前的機(jī)器人數(shù)據(jù)集如RT1，RoboAgent數(shù)據(jù)集的規(guī)模更小但覆蓋的任務(wù)范圍更廣。圖：MT-ACT可以執(zhí)行十二種不同的任務(wù) 圖：RoboAgent數(shù)據(jù)集任務(wù)種類分布（上）及和其他數(shù)據(jù)集對比（下）數(shù)據(jù)量對比資料來源：

《RoboAgent:

Generalization

andEfficiency

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》，中信建投訓(xùn)練任務(wù)種類對比不同種類任務(wù)訓(xùn)練數(shù)據(jù)分布1.6.3

RoboAgent：通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率語義增強(qiáng)：使用了SegmentAnything模型，基于其從海量互聯(lián)網(wǎng)數(shù)據(jù)中提煉出的視覺知識，可以自動的檢測并分割出視頻中的相關(guān)物體，再進(jìn)一步在相關(guān)區(qū)域中引入由文本提示提供的物體，對背景（如下左圖（b）所示）

和被操作物體（如下左圖（b）所示）進(jìn)行增強(qiáng)。語義增強(qiáng)為模型性能帶來了明顯的提升，尤其在更為困難的任務(wù)中提升更大。如右下圖所示，對著對單一圖像輸入的語義增強(qiáng)數(shù)量從1提升到7，L1-L3三種任務(wù)的成功率均有提升，其中L3的提升最為明顯，成功率從不足10%提升到了50%以上。圖：MT-ACT借助SegmentAnything對背景和被操作物體進(jìn)行語義增強(qiáng)圖：語義增強(qiáng)為模型性能帶來了明顯提升對背景的增強(qiáng)對被操作物體的增強(qiáng)資料來源：

《RoboAgent:

Generalization

andEfficiency

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》，中信建投1.6.4

RoboAgent：通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率模型性能：相較于此前的模型（調(diào)整了其他可比模型的訓(xùn)練數(shù)據(jù)規(guī)模），MT-ACT在所有難度的任務(wù)中展現(xiàn)出了更強(qiáng)的性能表現(xiàn)，在L1、L2、L3難度的任務(wù)中分別實現(xiàn)了81.67%、65.17%、31.33%的成功率。在其他方法都無法成功的L4難度中，MT-ACT實現(xiàn)了將近25%的成功率。我們認(rèn)為，MT-ACT為有限訓(xùn)練數(shù)據(jù)情況下的機(jī)器人控制模型訓(xùn)練提供了成功案例，有望成為后續(xù)機(jī)器人模型發(fā)展的重要技術(shù)路線之一。圖：MT-ACT性能情況L4:Newkitchenneverseen

beforeL1—改變被操作物體的形態(tài)及場景燈光L2—增加新的干擾物體L3—增加新的任務(wù)和被操作物體L4—新的環(huán)境資料來源：

《RoboAgent:

Generalization

andEfficiency

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》，中信建投L1場景成功率L1/L2/L3場景成功率L4場景成功率1.7

Meta機(jī)器人模型進(jìn)展總結(jié)資料來源：Meta官網(wǎng)，谷歌學(xué)術(shù)，中信建投基本信息模型名字R3MCACTIASCRoboAgent/MT-ACT發(fā)布時間2022.32022.122023.42023.8研究機(jī)構(gòu)Meta、Stanford

UniversityMeta、Columbia

University、CMUMeta

FAIR、Georgia

Institute

ofTechnologyMeta

FAIR、CMU數(shù)據(jù)整體數(shù)據(jù)集內(nèi)容人類第一視角視頻數(shù)據(jù)集（Ego4D）RL+人類演示模擬環(huán)境中強(qiáng)化學(xué)習(xí)導(dǎo)航模塊：HM3D模塊操作（拾取、放置）：ReplicaCAD機(jī)器人數(shù)據(jù)集大小3500小時人類演示：10個任務(wù)，每個5次演示（重復(fù)20次）RL：45000個機(jī)器人操作片段7500個片段（數(shù)據(jù)增強(qiáng)前）12種技能數(shù)據(jù)集收集方式參與者一次佩戴頭戴式攝像頭長達(dá)

小時，并拍攝無腳本日?；顒拥牡谝蝗朔Q視頻。并通過自然語言進(jìn)行注釋人類演示：收集后使用stablediffusion進(jìn)行增強(qiáng)RL：針對單一任務(wù)通過RL得到專家策略，增加相應(yīng)的視覺信息和噪音進(jìn)行增強(qiáng)人類控制硬件機(jī)器人頻率（單位：Hz）12.52（control）/12（sensor）5機(jī)器人FrankaEmikaPanda

robotFrankaEmikaPanda

robot（8action

dimension）BostonDynamicsSpot

robotFrankaEmikaPandaarm（8

actiondimension）模型視覺處理R3MR3M（使用互聯(lián)網(wǎng)數(shù)據(jù)和本次模型數(shù)據(jù)預(yù)訓(xùn)練）MoCo（僅使用本次的模型數(shù)據(jù)）Mask

R-CNNOwl-ViTFiLM/CNN語言處理DistilBERTDistilBERT（設(shè)置與R3M一致）綜合處理模型/MLP協(xié)作模塊（本質(zhì)為MoE的門控網(wǎng)絡(luò)）Transformer/ACT算力訓(xùn)練芯片NvidiaTitanXp,or

similar2080Ti（訓(xùn)練時長：48hours）推理芯片RTX

3070Meta的機(jī)器人模型與谷歌有所差異，目前的工作中尚未嘗試將大語言模型與機(jī)器人控制所結(jié)合。同時相較于谷歌嘗試?yán)么笠?guī)模的數(shù)據(jù)集提升機(jī)器人模型的表現(xiàn)，Meta的相關(guān)工作更加關(guān)注如何使用小規(guī)模的數(shù)據(jù)實現(xiàn)通用機(jī)器人控制模型的構(gòu)建，也即數(shù)據(jù)效率方面的提升。Meta在ASC模型中采用的強(qiáng)化學(xué)習(xí)與MoE的結(jié)合也是值得關(guān)注的方向，為強(qiáng)化學(xué)習(xí)在復(fù)雜多任務(wù)場景中的進(jìn)一步發(fā)展提供可能。圖：Meta機(jī)器人模型梳理2.1.1

LATTE：結(jié)合預(yù)訓(xùn)練模型的機(jī)器人軌跡控制模型Microsoft及Technische

Universit?t

München

的研究人員在2022年8月推出了基于自然語言的機(jī)器人軌跡控制框架LATTE模型框架：使用Bert模型處理用戶文本指令，使用CLIP模型處理圖像輸入，并且與用戶的文本輸入相匹配，進(jìn)而識別出用戶指令中的目標(biāo)對象。上述信息與經(jīng)過Encoder處理的物體姿態(tài)信息和航跡信息相結(jié)合，通過Decoder生成全新的航跡。圖：LATTE模型架構(gòu)對象圖像資料來源：

《LATTE:

Language

Trajectory

Transformer》，中信建投文本指令使用BERT模型和CLIP模型對文本指令和圖像輸入進(jìn)行處理對象狀態(tài)初始軌跡2.1.2

LATTE：使用預(yù)訓(xùn)練模型的機(jī)器人軌跡控制模型訓(xùn)練數(shù)據(jù)：每個數(shù)據(jù)樣本都包含基礎(chǔ)軌跡和修改后的軌跡（如下左圖紅色為基礎(chǔ)軌跡，藍(lán)色為生成的軌跡）、自然語言輸入（包括絕對方向的變化、速度的變化、相對方向的變化三個方面）、對象姿態(tài)和對象圖像（來自Bing的圖片查詢）。運(yùn)行結(jié)果：航跡可以根據(jù)用戶指令的要求，實現(xiàn)軌跡、速度方面的變化，如下中圖所示，用戶要求無人機(jī)離“演員”遠(yuǎn)一些，最終生成的藍(lán)色軌跡相較于初始的紅色軌跡離環(huán)境左下角中的“演員”更遠(yuǎn)，在做出速度方面的要求后，生成的新軌跡也有明顯的速度下降。模型性能：研究人員收集了來自10名參與者的300個數(shù)據(jù)點，大多數(shù)用戶都認(rèn)為數(shù)據(jù)集中的軌跡及模型中的軌跡正確的反應(yīng)了語言命令要求的更改，同時缺少語言模型的輸入或2D的軌跡修正都會導(dǎo)致模型效果非常糟糕，反向佐證了這一思路的效果。同時，模型繼承了大語言模型一定的泛化性能，能夠在76%的情況下以相當(dāng)或更好的效果處理未見過的指令輸入。圖：自動生成的訓(xùn)練數(shù)據(jù) 圖：模擬/現(xiàn)實場景的運(yùn)行結(jié)果示例圖：模型性能分析模型在處理訓(xùn)練集內(nèi)的指令和訓(xùn)練集外的指令的對比資料來源：

《LATTE:

Language

Trajectory

Transformer》，中信建投大多數(shù)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能行業(yè)機(jī)器人智能化三部曲（二）：Meta及微軟篇

文檔簡介

溫馨提示

最新文檔

評論

人工智能行業(yè)機(jī)器人智能化三部曲（二）：Meta及微軟篇

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔