【哈爾濱工業(yè)大學(xué)】2024年具身大模型關(guān)鍵技術(shù)與應(yīng)用報(bào)告_第1頁
【哈爾濱工業(yè)大學(xué)】2024年具身大模型關(guān)鍵技術(shù)與應(yīng)用報(bào)告_第2頁
【哈爾濱工業(yè)大學(xué)】2024年具身大模型關(guān)鍵技術(shù)與應(yīng)用報(bào)告_第3頁
【哈爾濱工業(yè)大學(xué)】2024年具身大模型關(guān)鍵技術(shù)與應(yīng)用報(bào)告_第4頁
【哈爾濱工業(yè)大學(xué)】2024年具身大模型關(guān)鍵技術(shù)與應(yīng)用報(bào)告_第5頁
已閱讀5頁,還剩206頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型時(shí)代的具身智能RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心什么是智能機(jī)器人?RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL穆王驚視之

,趨步俯仰

,信人也。

巧夫!

領(lǐng)其顱

,則歌合律;

捧其手,則舞應(yīng)節(jié)。

千變?nèi)f化

,惟意所適。

王以為實(shí)人也

,與盛姬內(nèi)御并觀之。——《列子·湯問》周穆王西巡狩獵遇見了一個(gè)名叫偃師的奇人。

偃師造出了一個(gè)機(jī)器人

與常人的外貌極為相似

,達(dá)到了以假亂真的程度。

那個(gè)機(jī)器人會(huì)做各種

動(dòng)作。

掰動(dòng)它的下巴

,

就會(huì)唱歌;

揮動(dòng)它的手臂

就會(huì)翩翩起舞。機(jī)器人的從古至今公元前9世紀(jì)HARBININSTITUTEOF

TECHNOLOGY3機(jī)器人的從古至今公元前4世紀(jì)古希臘數(shù)學(xué)家阿基塔斯研制出一種由機(jī)械蒸汽驅(qū)動(dòng)的鳥狀飛行器

并被命名為“鴿子”。“鴿子”設(shè)計(jì)圖阿基塔斯其腹部是一套用于產(chǎn)生蒸汽的密閉鍋爐。HARBININSTITUTEOF

TECHNOLOGY4機(jī)器人的從古至今公元15世紀(jì)萊昂納多·達(dá)·芬奇在

1495年左右繪制了人形機(jī)器人的草圖。

現(xiàn)在被稱為萊昂納多的機(jī)器人

,

能夠坐起、

揮動(dòng)手臂、

移動(dòng)頭部和下巴。萊昂納多的機(jī)器人HARBININSTITUTEOF

TECHNOLOGY5機(jī)器人的從古至今公元20世紀(jì)1961年

,

世界上第一臺(tái)工業(yè)機(jī)器人Unimate,

用于堆疊金屬1973年,KUKA公司推出的世界第一臺(tái)擁有六

個(gè)機(jī)電驅(qū)動(dòng)軸的工業(yè)機(jī)器人

,

FAMULUS機(jī)器人從“玩具”變成“工具”

,

并應(yīng)用于工業(yè)領(lǐng)域一定的自主性:

編程后可自主運(yùn)行

,

自主判斷和決定接下來的操作HARBININSTITUTEOF

TECHNOLOGY6機(jī)器人的從古至今公元21世紀(jì)醫(yī)療微創(chuàng)機(jī)器人物流運(yùn)輸機(jī)器人展廳服務(wù)機(jī)器人家庭清潔機(jī)器人更好的自主性:

應(yīng)對(duì)的場(chǎng)景和任務(wù)更復(fù)雜

,涉及多機(jī)器人協(xié)調(diào)工業(yè)機(jī)器人已經(jīng)相對(duì)成熟

,

人們開始探索更多場(chǎng)景、

更智能的機(jī)器人HARBININSTITUTEOF

TECHNOLOGY7智能機(jī)器人①自主能力

:盡可能少的人類干預(yù)機(jī)器人智能機(jī)器人≈

人類②泛化能力(通用能力)

具備強(qiáng)大的綜合能力HARBININSTITUTEOF

TECHNOLOGY8最受關(guān)注的智能機(jī)器人——類人機(jī)器人19722000

2008

2013世界第一臺(tái)全尺寸人形機(jī)器人

人形運(yùn)動(dòng)能力重大進(jìn)步

人形機(jī)器人成功商業(yè)落地

人形動(dòng)作能力邁入新紀(jì)元重點(diǎn)關(guān)注機(jī)器人的運(yùn)動(dòng)能力

新的關(guān)注點(diǎn):

機(jī)器人智能運(yùn)動(dòng)控制型機(jī)器人智能機(jī)器人ASIMO

,

日本本田制造

,歷

經(jīng)數(shù)次迭代

,掌握雙足奔跑、

搬運(yùn)托盤、

上下樓梯等功能WABOT-1

,

日本早稻田大學(xué)

加藤實(shí)驗(yàn)室

,行走一步需要

45秒

,步伐也只有10公分Atlas機(jī)器人

,美國(guó)波士頓動(dòng)

力公司研發(fā)

,有很強(qiáng)的運(yùn)動(dòng)

控制能力法國(guó)Aldebaran公司研發(fā)的

小型教學(xué)陪伴用人形機(jī)器人

NAOHARBININSTITUTEOF

TECHNOLOGY9智能機(jī)器人①自主能力

:盡可能少的人類干預(yù)②泛化能力(通用能力)

具備強(qiáng)大的綜合能力機(jī)器人智能機(jī)器人≈

人類!一種算法

人工智能?HARBININSTITUTEOF

TECHNOLOGY本報(bào)告來源于三個(gè)皮匠報(bào)告站(),由用戶Id:107695下載,文檔Id:184180,下載日期:2024-12-1010機(jī)器人與人工智能工業(yè)機(jī)器人已經(jīng)相對(duì)成熟

,

人們開始探索更多場(chǎng)景、

更智能的機(jī)器人展廳服務(wù)機(jī)器人視覺技術(shù)語音技術(shù)自然語言處理物流運(yùn)輸機(jī)器人視覺技術(shù)醫(yī)療微創(chuàng)機(jī)器人視覺技術(shù)家庭清潔機(jī)器人語音技術(shù)HARBININSTITUTEOF

TECHNOLOGY11哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL我們?cè)O(shè)想中的智能機(jī)器人是什么?像人類一樣工作的機(jī)器人?各方面強(qiáng)于人類的機(jī)器人?有意識(shí)和情感的機(jī)器人?HARBININSTITUTEOF

TECHNOLOGY13

1956年—20世紀(jì)60年代初

,使用人工智能做符號(hào)推理

,進(jìn)行數(shù)學(xué)證明

20世紀(jì)60年代—70年代初

,啟發(fā)式的搜索算法能力有限

20世紀(jì)70年代初—80年代中

,構(gòu)建專家系統(tǒng)處理醫(yī)療、化學(xué)、地質(zhì)等特定領(lǐng)域應(yīng)用

20世紀(jì)80年代中—90年代中

,專家系統(tǒng)需要海量的專業(yè)知識(shí)

,實(shí)用價(jià)值有限

20世紀(jì)90年代中—2010年

,機(jī)器學(xué)習(xí)算法處理實(shí)際問題

2011年之后

,深度學(xué)習(xí)算法用于圖像、文本、語音等信息處理

2022年之后

,可以處理通用任務(wù)的大模型

一定的自主能力

一定的泛化能力(通用能力)但離我們?cè)O(shè)想的智能還有多遠(yuǎn)?縱觀人工智能發(fā)展HARBININSTITUTEOF

TECHNOLOGY14

上個(gè)世紀(jì)對(duì)未來人工智能的幻想

,主要表現(xiàn)為智能人形機(jī)器人

,但目前人工智能技術(shù)仍然停留

在電腦屏幕

,沒有以實(shí)體的方式進(jìn)入物理世界

目前智能程度最強(qiáng)的大模型

,與目前最先進(jìn)的人形機(jī)器人

,能否結(jié)合形成智能機(jī)器人?大模型與人形機(jī)器人結(jié)合形成智能機(jī)器人HARBININSTITUTEOF

TECHNOLOGY15哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?先要說明的問題:如何構(gòu)建一個(gè)智能機(jī)器人?RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL構(gòu)建智能機(jī)器人(以人形機(jī)器人為例)

收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。

并綜合分析當(dāng)前所有狀態(tài)(具身感知)

根據(jù)當(dāng)前狀態(tài)

,對(duì)自身下一步的運(yùn)動(dòng)做出決策

和規(guī)劃(具身推理)

向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)

下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令

硬件方面:

語音信號(hào)位姿信號(hào)

2D視覺信號(hào)或

3D點(diǎn)云信號(hào)機(jī)器人軀體的

所有硬件結(jié)構(gòu)觸覺信號(hào)或

力反饋信號(hào)軟件及算法方面:HARBININSTITUTEOF

TECHNOLOGY大

腦小

腦17舉個(gè)不是特別形象的簡(jiǎn)單例子清理咖啡需要如下幾步:1.扶正杯子并拿起杯蓋2.找到抹布3.用抹布擦拭地面4.將抹布放回5.將杯子和杯蓋扔掉

收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。

并綜合分析當(dāng)前所有狀態(tài)(具身感知)機(jī)器人采集視覺信息,分析出應(yīng)對(duì)咖啡進(jìn)行清理

根據(jù)當(dāng)前狀態(tài)

,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)生成機(jī)器人的運(yùn)動(dòng)軌跡,包括手臂如何運(yùn)動(dòng)、

手掌如何運(yùn)動(dòng)、腿部如何運(yùn)動(dòng)等

向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)

下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令機(jī)器人視覺傳感器信號(hào)HARBININSTITUTEOF

TECHNOLOGY機(jī)器人執(zhí)行18哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心回到問題:人工智能真的讓機(jī)器人智能了嗎?RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL2D視覺信號(hào)或3D點(diǎn)云信號(hào)

語音信號(hào)機(jī)器人軀體的所有硬件結(jié)構(gòu)構(gòu)建智能機(jī)器人的技術(shù)

,我們具備和不具備哪些?我們已經(jīng)能造出具備基本性能的機(jī)器人硬件和高精度的傳感器位姿信號(hào)

觸覺信號(hào)或

力反饋信號(hào)HARBININSTITUTEOF

TECHNOLOGY硬件方面:20構(gòu)建智能機(jī)器人的技術(shù)

,我們具備和不具備哪些?

收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。

并綜合分析當(dāng)前所有狀態(tài)(具身感知)

根據(jù)當(dāng)前狀態(tài)

,對(duì)自身下一步的運(yùn)動(dòng)做出決策

和規(guī)劃(具身推理)

向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)軟件及算法方面:

下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令運(yùn)控技術(shù)相對(duì)來說已經(jīng)較為成熟還存在諸多問題HARBININSTITUTEOF

TECHNOLOGY大

腦小

腦21請(qǐng)標(biāo)記出抓握?qǐng)D中插著花的花瓶的位置當(dāng)前人工智能這幾個(gè)方面存在哪些問題?這是什么?如何打開它?人的一些手勢(shì)是什么意思?

3D點(diǎn)云圖如何理解?

收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。

并綜合分析當(dāng)前所有狀態(tài)(具身感知)多模態(tài)大模型LLaVA已能做到:但實(shí)際場(chǎng)景遠(yuǎn)比此復(fù)雜HARBININSTITUTEOF

TECHNOLOGY22當(dāng)前人工智能這幾個(gè)方面存在哪些問題?

根據(jù)當(dāng)前狀態(tài)

,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)來看目前大模型在一組數(shù)據(jù)集中的表現(xiàn):HARBININSTITUTEOF

TECHNOLOGY23當(dāng)前人工智能這幾個(gè)方面存在哪些問題?

根據(jù)當(dāng)前狀態(tài)

,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)主流大模型

在該數(shù)據(jù)集

上的表現(xiàn):HARBININSTITUTEOF

TECHNOLOGY24拿起可樂關(guān)上抽屜

向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)

(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)?對(duì)于生成關(guān)節(jié)旋轉(zhuǎn)角度形式的運(yùn)動(dòng)指令:多模態(tài)大模型

擴(kuò)散小模型當(dāng)前人工智能這幾個(gè)方面存在哪些問題?執(zhí)行的成功率執(zhí)行的流暢度泛化能力多模態(tài)大模型較低(

60%~70%)不夠流暢物品泛化擴(kuò)散小模型較高(

90%以上)流暢位置泛化或無泛化?對(duì)于生成技能庫(kù)API或代碼API形式的運(yùn)動(dòng)指令

:現(xiàn)實(shí)世界場(chǎng)景過于復(fù)雜

,構(gòu)建完整的技能庫(kù)幾乎不可能技能泛化場(chǎng)景泛化物品泛化位置泛化無泛化HARBININSTITUTEOF

TECHNOLOGY轉(zhuǎn)移紅色方塊泛化能力25哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心因此

,

當(dāng)前人工智能還不足以讓機(jī)器人更智能

,

需要具身智能什么是具身智能?RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL有行走條件才能學(xué)會(huì)走路:有物理身體

,可以進(jìn)行交互[1]

Richard

Held,

Alan

Hein.

Movement-producedstimulation

inthedevelopmentofvisuallyguidedbehavior.

1963Jouranal

ofComparative

and

Physiological

Psychology機(jī)器人能學(xué)習(xí)文本圖像

,能學(xué)會(huì)走路嗎?

被動(dòng)移動(dòng)位置

只能注意到眼中的物體在

變大、

縮小

沒有學(xué)會(huì)走路

,

甚至不能

意識(shí)到眼中物體逐漸變大

就是在靠近自己

可以自由的移動(dòng)

隨著腿部動(dòng)作,

眼中物

體的大小有相應(yīng)的變化

最終學(xué)會(huì)走路1963年進(jìn)行了一場(chǎng)心理學(xué)實(shí)驗(yàn)

,兩只貓自出生起便在黑暗封閉的環(huán)境中生活。HARBININSTITUTEOF

TECHNOLOGY27

定義:一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng)

,其通過智能體與環(huán)境的交互獲取信息、

理解問題、做出決策并實(shí)現(xiàn)行動(dòng)

,從而產(chǎn)生智能行為和適應(yīng)性。

實(shí)質(zhì):強(qiáng)調(diào)有物理身體的智能體通過與物理環(huán)境進(jìn)行交互而獲得智能的人工智能研究范式。具身智能的定義學(xué)習(xí)

“有遮擋的物體識(shí)別”學(xué)習(xí)

“移開遮擋后的物體識(shí)別”抽象的智能(圍棋、

文本處理、

圖像識(shí)別)有物理身體、

與環(huán)境進(jìn)行交互的具身智能VS具身智能

|CCF專家談術(shù)語

,盧策吾

,

王鶴HARBININSTITUTEOF

TECHNOLOGY28執(zhí)行感知推理物體感知場(chǎng)景感知行為感知表達(dá)感知具身問答任務(wù)規(guī)劃導(dǎo)航具身智能劃分:感知、推理、執(zhí)行從交互中學(xué)習(xí)學(xué)習(xí)交互數(shù)據(jù)基于規(guī)則

基于大模型仿真環(huán)境Sim2Real真實(shí)環(huán)境HARBININSTITUTEOF

TECHNOLOGY智能體環(huán)境反饋交互感知具體分為具體分為基于學(xué)習(xí)環(huán)境物人291

具身感知2

具身推理3

具身執(zhí)行目

錄CO

NTE

NT

SRESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心

具身感知RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心具身感知

機(jī)器人需要具備環(huán)境感知能力

,依據(jù)感知對(duì)象的不同

,可以分為四類:表達(dá)感知場(chǎng)景感知行為感知HARBININSTITUTEOF

TECHNOLOGY物體感知32

機(jī)器人需要具備環(huán)境感知能力

,依據(jù)感知對(duì)象的不同

,可以分為四類:

物體感知

幾何形狀、鉸接結(jié)構(gòu)、物理屬性

場(chǎng)景感知

場(chǎng)景重建&場(chǎng)景理解

行為感知

手勢(shì)檢測(cè)、人體姿態(tài)檢測(cè)、人類行為理解

表達(dá)感知

情感檢測(cè)、意圖檢測(cè)

重點(diǎn)需要感知能力的機(jī)器人:服務(wù)機(jī)器人、人機(jī)協(xié)作場(chǎng)景下機(jī)器人、社交導(dǎo)航機(jī)器人、環(huán)境

探索機(jī)器人具身感知HARBININSTITUTEOF

TECHNOLOGY33具身感知RGB相機(jī)3D相機(jī)麥克風(fēng)觸覺傳感器熱傳感器…基于交互的物體檢測(cè)、

空間

關(guān)系理解、

時(shí)序變化檢測(cè)信息的表示/建模/重建主要基于視覺表情和聲音場(chǎng)景重建(主動(dòng)探索、

動(dòng)定位、

場(chǎng)景的表示)主要基于2D圖片和深度

信息獲取3D物體的幾何形狀、

鉸接結(jié)構(gòu)、

物理屬性信息位姿估計(jì)、

物體抓取、

交互感知、

可供性預(yù)測(cè)信息理解下游任務(wù)情感識(shí)別、

意圖推

斷(指代表示)信息編碼方法手勢(shì)識(shí)別、

姿態(tài)檢

測(cè)、人類行為理解社交導(dǎo)航、

自動(dòng)駕

駛、人機(jī)協(xié)作感受信息

具身感知的過程主要包括以下幾步:物體感知場(chǎng)景感知行為感知表達(dá)感知HARBININSTITUTEOF

TECHNOLOGY34

物體感知RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心物體感知范疇

對(duì)于3D空間中的物體

,有必要感知其:

幾何形狀

鉸接結(jié)構(gòu)

物理屬性[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud

point.html[2]Xuetal.

UMPNet:

Universal

Manipulation

Policy

Networkfor

ArticulatedObjects.2022

RA-L[3]

Dongetal.Tactile-RLfor

Insertion:GeneralizationtoObjectsof

Unknown

GeometryHARBININSTITUTEOF

TECHNOLOGY36數(shù)據(jù)格式描述來源編碼方法點(diǎn)云一組點(diǎn)

,每個(gè)點(diǎn)包括3D坐標(biāo)和特征LiDARPointNet

PointNet++網(wǎng)格基于點(diǎn)、

線、

面(

三角形)

表示物

體表面CAD模型、

點(diǎn)云轉(zhuǎn)換MeshNet體素一組立方體

,每個(gè)立方體包括坐標(biāo)、

體積和特征點(diǎn)云轉(zhuǎn)換VoxelNet、

DeepSDF、

Occupancy

Network深度圖為2D圖片每個(gè)像素匹配一個(gè)深度雙目立體相機(jī)、

結(jié)構(gòu)光

相機(jī)、

ToF相機(jī)GVCNN物體幾何形狀感知HARBININSTITUTEOF

TECHNOLOGY37

PointNet為點(diǎn)云數(shù)據(jù)編碼的經(jīng)典方法

,針對(duì)其難以捕捉局部特征的缺點(diǎn)又提出了改進(jìn)版本PointNet++[1]Qietal.

Pointnet:

Deeplearningon

point

setsfor

3d

classification

and

segmentation.

2017

CVPR[2]Qietal.

Pointnet++:

Deep

hierarchicalfeature

learningon

pointsets

ina

metric

space.

2017

NIPSPointNet

基于多層感知機(jī)

,編碼點(diǎn)云數(shù)據(jù)

,可以獲得點(diǎn)云整體的表示、每個(gè)點(diǎn)的表示HARBININSTITUTEOF

TECHNOLOGY38Mesh

Net

基于MLP和CNN

,編碼每個(gè)面的空間特征和結(jié)構(gòu)特征

,最后獲得整體的物體外形表示[1]

Fengetal.

Meshnet:

Mesh

neural

networkfor3dshaperepresentation.2019

AAAIHARBININSTITUTEOF

TECHNOLOGY39Voxel

Net

首先將點(diǎn)云體素化

,然后使用基于MLP和CNN的網(wǎng)絡(luò)編碼體素

PointNet、

MeshNet、VoxelNet對(duì)3D數(shù)據(jù)的卷積編碼方式

,類似于CV中對(duì)2D圖片的編碼[1]Zhouetal.VoxelNet:

End-to-End

LearningforPointCloud

Based

3D

Object

Detection.

2018

CVPRHARBININSTITUTEOF

TECHNOLOGY40

之前PointNet、

MeshNet和VoxelNet將3D數(shù)據(jù)視為離散的單元進(jìn)行卷積編碼

DeepSDF訓(xùn)練神經(jīng)網(wǎng)絡(luò)

,擬合一個(gè)連續(xù)函數(shù)

:以體素坐標(biāo)為輸入

,輸出其離最近物體表面的距離。這個(gè)連續(xù)函數(shù)同樣蘊(yùn)涵物體的幾何形狀信息。DeepSDF(Signed

Distance

Function)為使訓(xùn)練的SDF不局限于一個(gè)物體

,

引入Code作為物體形狀標(biāo)簽[1]

Parketal.

DeepSDF:

LearningContinuousSigned

Distance

FunctionsforShape

Representation.2019

CVPRHARBININSTITUTEOF

TECHNOLOGY41

類似于DeepSDF使用一個(gè)連續(xù)的函數(shù)來表示整個(gè)空間的體素分布情況

,OccupancyNetwork同樣使用神經(jīng)網(wǎng)絡(luò)來擬合一個(gè)連續(xù)的函數(shù)

,該函數(shù)以體素坐標(biāo)為輸入

,輸出該坐

標(biāo)處體素出現(xiàn)的概率Occupancy

Networks

占用概率網(wǎng)絡(luò)[1]

Meschederetal.Occupancy

Networks:

Learning3D

Reconstruction

in

FunctionSpace.2019

CVPRHARBININSTITUTEOF

TECHNOLOGY42

位姿估計(jì)任務(wù)是預(yù)測(cè)一個(gè)物體在3D空間中的位姿

,包括三自由度的平移

,與三自由度的旋

轉(zhuǎn)

,或者可視為物體的位置與朝向

根據(jù)是否物體的CAD模型是否已知

,位姿估計(jì)可以分為:

實(shí)例級(jí)別的位姿估計(jì):需要物體CAD模型

,從而獲取平移的中心和旋轉(zhuǎn)的初始朝向

類別級(jí)別的位姿估計(jì):不需要物體CAD模型幾何形狀感知的下游任務(wù):物體位姿估計(jì)通過“見過”訓(xùn)練集中一個(gè)類別下很多物體的中心點(diǎn)和初始朝向

,從而可以在測(cè)試時(shí)對(duì)未見過的物體“預(yù)設(shè)”一個(gè)中心點(diǎn)和朝向

,然后估計(jì)位姿中點(diǎn)是哪里?正面(初始朝向)是哪?沒有這

些信息如何知道平移和

旋轉(zhuǎn)的情況?HARBININSTITUTEOF

TECHNOLOGY43

物體上每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)(x

,y

,

z)

,代表該點(diǎn)在標(biāo)準(zhǔn)空間

中的位置。

給定任意一個(gè)圖片

,分割其中物體

,然后在每個(gè)像

素上預(yù)測(cè)(x

,y

,

z)

。

mask上的(x

,y

z)就代表這個(gè)物

體在標(biāo)準(zhǔn)空間中的朝向

,結(jié)合深度可得位移

CNN預(yù)測(cè):

類別、

分割Mask、

標(biāo)準(zhǔn)空間Map構(gòu)建同類別物體統(tǒng)一坐標(biāo)空間[1]Wangetal.

NormalizedObjectCoordinateSpacefor

Category-Level

6D

Object

Pose

and

Size

Estimation.

2019

CVPRHARBININSTITUTEOF

TECHNOLOGY44

以上物體外形的研究

,與智能機(jī)器人根據(jù)人類指令執(zhí)行特定動(dòng)作的關(guān)聯(lián)在哪里?

上述研究與大模型有什么關(guān)聯(lián)?

在我們能很好的端到端解決具身智能任務(wù)前

,以感知物體作為中間任務(wù)

,助力下游的推理、

執(zhí)行任務(wù)

,滿足實(shí)際應(yīng)用的需要

,是很有意義的。

正如句法分析、

詞性標(biāo)注之于早期的NLP領(lǐng)域

,

以及T5模型統(tǒng)一自然語言理解與生成

有觀點(diǎn)認(rèn)為

,一個(gè)顯式的世界模型是人工智能的后續(xù)方向

,該觀點(diǎn)下感知具有更重要的意義

在深度學(xué)習(xí)范疇內(nèi)

,3D數(shù)據(jù)的處理方式與對(duì)2D圖片的處理方式非常相似

,或許不久之后

就會(huì)出現(xiàn)很多3D領(lǐng)域的大模型具身感知小結(jié)一(提前放在這里

,應(yīng)對(duì)可能的疑惑)HARBININSTITUTEOF

TECHNOLOGY45

傳統(tǒng)的物體抓?。?/p>

需要已知物體的3D模型

,然后使用分析的方法通過數(shù)學(xué)建模求解抓取點(diǎn)位

基于深度學(xué)習(xí)的物體抓?。?/p>

依賴3D相機(jī)獲取初步點(diǎn)云

,不進(jìn)行顯式的物體重建

,

直接基于點(diǎn)云通過神經(jīng)網(wǎng)絡(luò)求解抓取位姿Model-Free

感知3D物體的幾何形狀

,與計(jì)算機(jī)圖形學(xué)(

CG)

中的物體重建有密切聯(lián)系

,

即使不進(jìn)行顯式的物體重建,一個(gè)好的物體重建方法往往也是很好的3D物體和場(chǎng)景的表示方法

,例如有研究將CG中3DGS方法用于機(jī)器

人任務(wù)物體抓取原始點(diǎn)云/多

角度圖片物體重建得到高

質(zhì)量物體3D模型

物體抓取Model-BaseHARBININSTITUTEOF

TECHNOLOGY46Anygrasp

經(jīng)典的物體抓取方法

,基于物體幾何外形信息

,并支持動(dòng)態(tài)物體抓取和碰撞檢查

基于單張RGBD圖片

,即可生成多個(gè)7自由度抓取位姿[1]

Fangetal.AnyGrasp:

Robustand

EfficientGrasp

Perception

inSpatial

andTemporal

Domains.

2022T-ROHARBININSTITUTEOF

TECHNOLOGY47CoPA:結(jié)合大模型物體感知的抓取

多模態(tài)大模型結(jié)合物體分割模型由粗到細(xì)確定抓取點(diǎn)位(物體部件級(jí)別)

抓取小模型GraspNet生成多個(gè)抓取位姿

,與大模型給出的抓取點(diǎn)位接近的分?jǐn)?shù)更高[1]

Huangetal.CoPa:General

Robotic

ManipulationthroughSpatial

Constraints

of

Parts

with

Foundation

Models.

2024

ICRAHARBININSTITUTEOF

TECHNOLOGY48

對(duì)于3D空間中的物體

,有必要感知其:

幾何形狀:點(diǎn)云、體素、

網(wǎng)格、深度圖的編碼表示

,以及位姿估計(jì)

,物體抓取下游任務(wù)

鉸接結(jié)構(gòu)物體感知范疇[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud

point.html[2]Xuetal.

UMPNet:

Universal

Manipulation

Policy

Networkfor

ArticulatedObjects.2022

RA-L[3]

Dongetal.Tactile-RLfor

Insertion:GeneralizationtoObjectsof

Unknown

Geometry

物理屬性HARBININSTITUTEOF

TECHNOLOGY49

鉸接物體與剛性物體:

剛性物體內(nèi)部構(gòu)件剛性連接

無法變形

鉸接物體內(nèi)部構(gòu)件由關(guān)節(jié)或其他鉸接結(jié)構(gòu)連接

,

部件可以旋轉(zhuǎn)、

平移

剛性物體關(guān)注幾何形狀

,對(duì)其的操作主要為抓取、

放置

,

即位姿估計(jì)和物體抓取任務(wù)

鉸接物體除幾何形狀外

,還關(guān)注對(duì)其鉸接結(jié)構(gòu)。

鉸接物體支持復(fù)雜的操作

,例如開關(guān)柜門

,擰瓶蓋鉸接結(jié)構(gòu)[1]

Liuetal.Toward

Real-WorldCategory-Level

Articulation

Pose

Estimation.2022TIPHARBININSTITUTEOF

TECHNOLOGY50鉸接結(jié)構(gòu)數(shù)據(jù)來源

鉸接結(jié)構(gòu)數(shù)據(jù)來源主要包括

手工收集

,e.g.

AKB-48

在已有3D數(shù)據(jù)集上標(biāo)注鉸接信息

合成數(shù)據(jù)[1]

Liuetal.

AKB-48:

AReal-World

ArticulatedObject

Knowledge

Base.2022CVPR[2]Cageetal.CAGE:Controllable

Articulation

GEneration.

2024

CVPR

鉸接物體數(shù)據(jù)格式主要為URDF

,通過定義物體的邊、關(guān)節(jié)屬性來定義物體鉸接結(jié)構(gòu)HARBININSTITUTEOF

TECHNOLOGY51

鉸接物體的表示

,應(yīng)該主要包括以下信息:

每個(gè)組件的幾何形狀信息

每個(gè)組件的運(yùn)動(dòng)學(xué)信息

,包括:位移類型(平移、旋轉(zhuǎn))

、位移參數(shù)(平移方向、旋轉(zhuǎn)

軸)

、位移限制(最大移動(dòng)距離、最大旋轉(zhuǎn)角度)

一個(gè)好的鉸接表示有助于機(jī)器人理解鉸接物體

兩種鉸接結(jié)構(gòu)表示方法

直接建模關(guān)節(jié)參數(shù)

建模位移變化情況鉸接物體表示方法HARBININSTITUTEOF

TECHNOLOGY52

通過分別建模物體部件和整體兩個(gè)層次的信息來表示鉸接物體

實(shí)

現(xiàn)基于RGBD圖片預(yù)測(cè)物體鉸接結(jié)構(gòu)。

物體層次信息主要為關(guān)節(jié)參數(shù)和狀態(tài)

部件層次信息為部件的位姿

和規(guī)模建模關(guān)節(jié)參數(shù)表示鉸接物體[1]

Lietal.Category-Level

ArticulatedObject

Pose

Estimation.2020

CVPRHARBININSTITUTEOF

TECHNOLOGY53

該論文同樣希望通過多視角圖片得到物體的形狀、

外觀、

鉸接結(jié)構(gòu)信息。

其認(rèn)為物體狀態(tài)可以由形狀、

外觀、

鉸接狀態(tài)來表示

,

并使用不同的code來表示

,通過一個(gè)變形網(wǎng)絡(luò)

分離物體鉸接狀態(tài)(位移情況)

得到新的物體位置

,然后分別得到幾何形狀和物體外觀

變形網(wǎng)絡(luò)使用有監(jiān)督訓(xùn)練的方式

,

以形狀和鉸接code為輸入

預(yù)測(cè)物體每個(gè)點(diǎn)的位移建模位移情況表示鉸接物體[1]Weietal.Self-supervised

Neural

ArticulatedShapeand

Appearance

Models.2022

CVPRHARBININSTITUTEOF

TECHNOLOGY54

幾何結(jié)構(gòu)部分與主流計(jì)算機(jī)視覺領(lǐng)域相比

,其特點(diǎn)在于主要基于3D信息

但對(duì)3D信息的處理并非具身智能的核心

,具身智能的核心在于其是一種行為智能

,在感

知領(lǐng)域具體體現(xiàn)為:可以通過與環(huán)境的主動(dòng)交互

,增強(qiáng)對(duì)環(huán)境的感知效果

鉸接物體支持機(jī)器人進(jìn)行豐富的操作任務(wù)

,并提供相應(yīng)的反饋。與之相關(guān)的下游任務(wù)有交

互感知、物體可供性預(yù)測(cè)兩類

交互感知:機(jī)器人通過與物體交互獲取更多信息

物體可供性預(yù)測(cè):預(yù)測(cè)物體能否支持機(jī)器人進(jìn)行某種操作鉸接結(jié)構(gòu)的下游任務(wù)HARBININSTITUTEOF

TECHNOLOGY55

之前介紹的工作基于靜態(tài)數(shù)據(jù)集預(yù)測(cè)物體鉸接結(jié)構(gòu)

,該工作通過實(shí)際物理交互行為獲取物體鉸接結(jié)構(gòu)

首先以原始物體點(diǎn)云作為輸入

,基于物體組件級(jí)分割

,得到物體初始URDF文件

機(jī)器人操作物體

,基于當(dāng)前URDF文件可以預(yù)測(cè)操作后的物體狀態(tài)

,與實(shí)際觀察到的物體狀態(tài)進(jìn)行對(duì)

,該監(jiān)督信號(hào)對(duì)于物體模型參數(shù)(

URDF文件)

是可微的

,從而進(jìn)行參數(shù)更新交互感知獲取物體鉸接結(jié)構(gòu)[1]

Lvetal.SAGCI-System:TowardsSample-Efficient,Generalizable,

Compositional

and

Incremental

Robot

Learning.

2022

ICRAHARBININSTITUTEOF

TECHNOLOGY56

對(duì)于任務(wù)規(guī)劃和導(dǎo)航任務(wù)

,知道一個(gè)物體可以施加哪些動(dòng)作是很重要的

,也可以用于指導(dǎo)物體操作

Where2act訓(xùn)練一個(gè)預(yù)測(cè)網(wǎng)絡(luò)

,給定一個(gè)原子動(dòng)作(推、

拉)

,對(duì)于圖片或點(diǎn)云中每一個(gè)像素預(yù)測(cè)1)

可行性分?jǐn)?shù);

2)動(dòng)作軌跡;

3)成功概率

基于此

,機(jī)器人可以知道每一個(gè)原子動(dòng)作在物體上的最佳操作點(diǎn)位與軌跡物體可供性預(yù)測(cè)[1]

Moetal.Where2Act:

From

Pixelsto

Actionsfor

Articulated3DObjects.2024

ICCVHARBININSTITUTEOF

TECHNOLOGY57物體感知范疇[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud

point.html[2]Xuetal.

UMPNet:

Universal

Manipulation

Policy

Networkfor

ArticulatedObjects.2022

RA-L[3]

Dongetal.Tactile-RLfor

Insertion:GeneralizationtoObjectsof

Unknown

Geometry幾何形狀:點(diǎn)云、體素、

網(wǎng)格、深度圖的編碼表示

,以及位姿估計(jì)

,物體抓取下游任務(wù)

對(duì)于3D空間中的物體

,有必要感知其:鉸接結(jié)構(gòu)物理屬性HARBININSTITUTEOF

TECHNOLOGY

58

物體的物理屬性種類及來源包括:

觸覺:觸覺傳感器

力矩:六軸力矩傳感器

,3自由度力

,3自由度扭矩,

溫度:溫度傳感器

材質(zhì)、硬度

物理屬性的表示

與其他模態(tài)融合

,如圖像和點(diǎn)云:

IMAGEBIND、

LANGBIND

單獨(dú)使用物理信息:強(qiáng)化學(xué)習(xí)端到端的方式利用觸覺信息[1]Gird

haretal.

Imagebind:Oneembeddingspace

to

bind

them

all.

2023

CVPR[2]Zhuetal.

Languagebind:

Extendingvideo-languagepretrainingto

n-modality

by

language-basedsemantic

alignment.

2024

ICLR[3]

Dongetal.Tactile-rlforinsertion:Generalizationto

objects

of

unknown

geometry.

2024

ICRA物理屬性HARBININSTITUTEOF

TECHNOLOGY59

利用觸覺傳感器理解物理屬性:T-NT

根據(jù)視覺和觸覺反饋

,用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人將線穿過針孔

使用觸覺傳感器查找線的末端

,以及判斷針是否穿過針孔物理屬性輔助操作解決視覺遮擋問題[1]Yuetal.

Precise

Robotic

Needle-ThreadingwithTactile

Perceptionand

Reinforcement

Learning.2023CoRLHARBININSTITUTEOF

TECHNOLOGY601-2

場(chǎng)景感知RESEARCHCENTER

FORSOCIALCOMPUTINGAND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心

定義:場(chǎng)景感知是通過實(shí)現(xiàn)與場(chǎng)景的交互來理解現(xiàn)實(shí)世界場(chǎng)景

意義:賦予機(jī)器人理解周圍環(huán)境并與之交互的能力

內(nèi)核:

對(duì)空間布局的幾何理解

對(duì)場(chǎng)景中物體的語義理解

組成:

粗粒度:場(chǎng)景中物體的組成、物體的語義、物體的空間關(guān)系

細(xì)粒度:場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語義

具體形式:點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖、

隱表示場(chǎng)景感知簡(jiǎn)述HARBININSTITUTEOF

TECHNOLOGY62場(chǎng)景感知的研究?jī)?nèi)容環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像63HARBININSTITUTEOF

TECHNOLOGY場(chǎng)景信息獲取

場(chǎng)景重建

場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射

主動(dòng)定位拓?fù)浣Y(jié)構(gòu)

場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光

信息觸覺

超聲雷達(dá)

信息化學(xué)·

·

·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)

SLAM聽覺紅外難利用易利用形成構(gòu)建抽取

場(chǎng)景信息組成

粗粒度

場(chǎng)景中物體的組成

場(chǎng)景中物體的語義

場(chǎng)景中物體的空間關(guān)系

細(xì)粒度

場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語義

場(chǎng)景信息提取方式

構(gòu)建場(chǎng)景表示

點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖及隱式表示場(chǎng)景信息構(gòu)成HARBININSTITUTEOF

TECHNOLOGY64激光傳感器工作原理

雷達(dá)傳感器工作原理[1]Sun,etal.

Aqualityimprovement

methodfor3D

laserslam

point

clouds

based

on

geometric

primitives

ofthescan

scene.

2021

IJRS[2]

Kong,etal.

Multi-modaldata-efficient3dsceneunderstanding

for

autonomous

driving.

2024

arXiv[3]Zheng,etal.Scene-awarelearning

networkfor

radarobject

detection.

2021

PCMR[4]Yang,etal.

Anego-motionestimation

methodusing

millimeter-wave

radar

in3D

scene

reconstruction.

2022

IHMSC易利用的場(chǎng)景信息

視覺:符合人類的先驗(yàn)知識(shí)

,相關(guān)研究工作多

激光/雷達(dá):可以直接獲取準(zhǔn)確的場(chǎng)景表示

,無需視覺重建HARBININSTITUTEOF

TECHNOLOGY65[1]Singh,etal.Sporadic

Audio-Visual

Embodied

Assistive

Robot

Navigation

ForHumanTracking.

2023

PETRA[2]Gan,etal.

Look,

listen,andact:Towards

audio-visual

embodied

navigation.

2020

ICRA[3]

Roberge,etal.StereoTac:

Anovelvisuotactilesensorthatcombinestactile

sensing

with

3D

vision.

2023

RAL[4]

Padmanabha,etal.Omnitact:

Amulti-directionalhigh-resolutiontouch

sensor.

2020

ICRA[5]

Armada,etal.Co-operativesmell-basednavigationfor

mobile

robots.

2004

CLAWAR[6]Ciui,etal.Chemicalsensingat

the

robot

fingertips:Toward

automated

taste

discrimination

in

food

samples.

2018

ACS

sensors[7]Sinai,etal.Scenerecognitionwith

infra-red,

low-light,

and

sensorfused

imagery.1999

IRIS[8]

Kim,etal.

Firefighting

robotstereo

infraredvisionandradarsensorfusion

for

imaging

through

smoke.

2015

Fire

Technology[9]Shimoyama,etal.Seeing

Nearby3D

Scenes

using

Ultrasonic

Sensors.2022

IV[10]

Mulindwa,etal.

Indoor3Dreconstructionusing

camera,

IMU

and

ultrasonic

sensors.

2020

JST

聽覺:可用于視聽導(dǎo)航任務(wù)

觸覺:可用于感知物體表面

化學(xué):可用于特殊任務(wù)

,如識(shí)別氣味來源

紅外:可用于特殊場(chǎng)景

,如煙霧場(chǎng)景下

超聲:可用于深度測(cè)量難利用的場(chǎng)景信息應(yīng)用范圍狹窄并非場(chǎng)景感知任務(wù)焦點(diǎn)HARBININSTITUTEOF

TECHNOLOGY66場(chǎng)景重建環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像67HARBININSTITUTEOF

TECHNOLOGY場(chǎng)景信息獲取

場(chǎng)景重建

場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射

主動(dòng)定位拓?fù)浣Y(jié)構(gòu)

場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光

信息觸覺

超聲雷達(dá)

信息化學(xué)·

·

·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)

SLAM聽覺紅外難利用易利用形成構(gòu)建抽取

場(chǎng)景重建的核心技術(shù)是SLAM(同步定位與映射)

SLAM是機(jī)器人在未知環(huán)境下移動(dòng)

,逐步構(gòu)建周圍環(huán)境的連續(xù)地圖

,并同時(shí)估計(jì)其在地圖中位置的

技術(shù)

傳統(tǒng)的SLAM技術(shù):

濾波算法

非線性優(yōu)化技術(shù)

引入深度學(xué)習(xí)后的SLAM:

新方法

新任務(wù)

新表示場(chǎng)景重建[1]

Durrantetal.Simultaneouslocalizationand

map:

part

I.

2006

RAM[2]Taketomieal.VisualSLAMalgorithms:

Asurveyfrom2010to2016.

2017

IPSJ我周圍是什么樣的?我在哪?SLAM場(chǎng)景信息HARBININSTITUTEOF

TECHNOLOGY68

將深度學(xué)習(xí)集成到SLAM

用深度學(xué)習(xí)方法替換傳統(tǒng)的SLAM模塊

特征提取

深度估計(jì)

在傳統(tǒng)SLAM上加入語義信息

圖像語義分割

語義地圖構(gòu)建

基于深度學(xué)習(xí)的新方法主要為SLAM領(lǐng)域的自我優(yōu)化或迭代

,很少有方法從具身智能的角度出發(fā)[1]

DeTone,etal.Towardgeometricdeepslam.

2017

arXiv[2]Tateno,etal.Cnn-slam:

Real-timedense

monocularslamwith

learneddepth

prediction.

2017

CVPR[3]

Li,etal.

Undeepvo:

Monocularvisualodometrythroughunsuperviseddeep

learning.

2018

ICRA場(chǎng)景重建-新方法HARBININSTITUTEOF

TECHNOLOGY69

傳統(tǒng)SLAM

機(jī)器人由人類控制

,或使用預(yù)定義的航點(diǎn)

,或基于給定的路徑規(guī)劃算法進(jìn)行導(dǎo)航

主動(dòng)SLAM

機(jī)器人可以自主行動(dòng)

,以實(shí)現(xiàn)更好的場(chǎng)景重建和定位

主動(dòng)映射:機(jī)器人自主選擇下一步視點(diǎn)

,以獲得更好的觀察

,進(jìn)行環(huán)境探索

主動(dòng)定位:機(jī)器人自主規(guī)劃路徑,

旨在解決模糊位置定位

,而不僅僅是導(dǎo)航場(chǎng)景重建-新任務(wù)我怎么能更快地完成場(chǎng)景重建?我怎么能更快地知道自己在哪?我周圍是什么樣的?我在哪?HARBININSTITUTEOF

TECHNOLOGY傳統(tǒng)SLAM主動(dòng)SLAM主動(dòng)映射主動(dòng)定位同步定位自動(dòng)映射70

具身智能與非具身的智能

,乃至其他領(lǐng)域

,例如CV、

NLP、CG(計(jì)算機(jī)圖形學(xué))

、

Robotics、

Control

,核心區(qū)別在哪里?

3D數(shù)據(jù)?機(jī)器人任務(wù)中的深度學(xué)習(xí)技術(shù)?

在于行為智能

,在于交互

,在于告訴機(jī)器人怎么動(dòng)

此處的交互具體指空間中一條7自由度的軌跡

操作鉸接物體、主動(dòng)探索、主動(dòng)定位

多模態(tài)大模型和文本大模型沒見過軌跡數(shù)據(jù)

,如果將軌跡數(shù)據(jù)壓縮為大模型

,或許有更智能的具身感知小結(jié)二HARBININSTITUTEOF

TECHNOLOGY交互效果71基于拓?fù)涞男畔⒃鲆娑攘看_定下一個(gè)最佳視圖

RL方法

,

目的是識(shí)別最大化其場(chǎng)景記憶變化的視圖。

核心思想是幫助智能體記住盡可能多的不可見的視覺特征[1]Collander,etal.

Learningthe

next

bestviewfor3d

pointclouds

via

topological

features.

2021

ICRA[2]Gazani,etal.

Bagofviews:

Anappearance-basedapproachto

next-best-view

planningfor

3d

reconstruction.

2023

RAL

主動(dòng)映射任務(wù)

,即下一個(gè)最佳視圖(

Nest

BestView)任務(wù),

旨在找到更好的觀測(cè)視點(diǎn)或

更有效的觀測(cè)策略

視圖的評(píng)估標(biāo)準(zhǔn):信息增益、機(jī)器人運(yùn)動(dòng)成本和場(chǎng)景重建的質(zhì)量主動(dòng)映射HARBININSTITUTEOF

TECHNOLOGY72主動(dòng)映射將NBV

任務(wù)與次優(yōu)對(duì)象(

NBO)任務(wù)集成

,選擇感興趣的對(duì)象

,確定重建它們的最佳視角[1]

Liu,etal.Object-awareguidanceforautonomousscene

reconstruction.2018

TOG[2]

Dong,etal.

Multi-robotcollaborativedensescenereconstruction.

2019

TOG多智能體協(xié)作的主動(dòng)映射HARBININSTITUTEOF

TECHNOLOGY73

主動(dòng)定位涉及在參考圖中規(guī)劃后續(xù)運(yùn)動(dòng)路徑

,以盡量地減輕機(jī)器人空間方向的模糊性

傳統(tǒng)的定位算法與動(dòng)作選擇無關(guān)

ANL(Activeneurallocalization)通過端到端強(qiáng)化學(xué)習(xí)(包括感知模塊和策略模塊)最大化移動(dòng)

后的“后驗(yàn)概率”(可理解為位置的置信度)

,從而最小化定位所需的步驟數(shù)量主動(dòng)定位[1]Chaplot,etal.

Active

neural

localization.2018

arXivHARBININSTITUTEOF

TECHNOLOGY74

SLAM領(lǐng)域亦在探索幾何外觀等經(jīng)典屬性之外的環(huán)境表示,

旨在對(duì)層次結(jié)構(gòu)、功能、動(dòng)態(tài)和語

義等屬性進(jìn)行建模

主要的表示形式:

拓?fù)淠P?/p>

描述環(huán)境連通性的拓?fù)鋱D

場(chǎng)景圖

將環(huán)境建模為有向圖

,其中節(jié)點(diǎn)表示對(duì)象或位置等實(shí)體

,邊緣表示這些實(shí)體之間的關(guān)系場(chǎng)景重建-新表示HARBININSTITUTEOF

TECHNOLOGY75場(chǎng)景理解環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像76HARBININSTITUTEOF

TECHNOLOGY場(chǎng)景信息獲取

場(chǎng)景重建

場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射

主動(dòng)定位拓?fù)浣Y(jié)構(gòu)

場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光

信息觸覺

超聲雷達(dá)

信息化學(xué)·

·

·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)

SLAM聽覺紅外難利用易利用形成構(gòu)建抽取

理解場(chǎng)景信息是場(chǎng)景感知的重要組成部分

高效的理解過程(例如分割、識(shí)別和檢測(cè))為智能體理解復(fù)雜環(huán)境

場(chǎng)景理解不僅包括物體的識(shí)別

,還包括物體之間的空間關(guān)系和場(chǎng)景幀之間的時(shí)間變化場(chǎng)景理解物體識(shí)別空間關(guān)系推理時(shí)序變化檢測(cè)HARBININSTITUTEOF

TECHNOLOGY77

常規(guī)的、主流的物體識(shí)別方法:

YOLO

MASK

RCNN

ResNet

這些方法的局限性:難以利用機(jī)器人與環(huán)境的交互能力

具身智能的物體識(shí)別:

物理交互:通過移動(dòng)(觸碰)物體實(shí)現(xiàn)更好的物體識(shí)別

更改視點(diǎn):通過移動(dòng)改變自身在場(chǎng)景中的位置

,結(jié)合多視角信息實(shí)現(xiàn)更好的物體識(shí)別[1]

Redmon,etal.Youonlylookonce:

Unified,

real-timeobject

detection.

2016

CVPR[2]

He,etal.

Mask

r-cnn.2017

ICCV[3]

He,etal.

Deep

residuallearningforimage

recognition.2016

CVPR物體識(shí)別HARBININSTITUTEOF

TECHNOLOGY78物體識(shí)別-物理交互通過對(duì)象操作實(shí)現(xiàn)實(shí)例分割的流程[1]

Pathak,etal.

Learning

instancesegmentationbyinteraction.

2018

CVPR

Pathaketal.利用簡(jiǎn)單的對(duì)象操作來協(xié)助實(shí)例分割和對(duì)象識(shí)別HARBININSTITUTEOF

TECHNOLOGY79

Seeingby

Moving模仿人類“通過繞著同一物體走動(dòng)來獲取多個(gè)觀察視角”的策略

,使機(jī)器人能夠通過自主運(yùn)動(dòng)獲取單個(gè)物體的多視圖數(shù)據(jù)

該方法從人類的演示中學(xué)習(xí)移動(dòng)策略

,而其他方法則依靠強(qiáng)化學(xué)習(xí)來學(xué)習(xí)行為策略物體識(shí)別-更改視點(diǎn)[1]

Fang,etal.

Movetoseebetter:Self-improving

embodied

object

detection.

2020

arXivHARBININSTITUTEOF

TECHNOLOGY80Rel3d

Spatialsense

open

images[1]Goyal,etal.

Rel3d:

Aminimallycontrastivebenchmark

for

grounding

spatial

relations

in

3d.

2020

NIPS[2]Yang,etal.Spatialsense:

Anadversariallycrowdsourcedbenchmark

for

spatial

relation

recognition.

2019

ICCV[3]

Kuznetsova,etal.Theopen

imagesdatasetv4:

Unified

imageclassification,object

detection,

and

visual

relationship

detection

at

scale.

2020

IJCV空間關(guān)系推理

空間關(guān)系主要涉及視覺檢測(cè)和關(guān)系推理

相關(guān)的數(shù)據(jù)集以及空間關(guān)系推理的基準(zhǔn)benchmark:

Rel3d

Spatialsense

open

imagesHARBININSTITUTEOF

TECHNOLOGY81

場(chǎng)景變化檢測(cè):一個(gè)機(jī)器人在兩個(gè)不同的時(shí)間探索環(huán)境

,并識(shí)別它們之間的任何物體變化。物體變化包括環(huán)境中添加和移除的物體

常用數(shù)據(jù)集:

roboticvisionsceneunderstandingchallenge

ChangeSim

VL-CMU-CD

PCD時(shí)序變化檢測(cè)[1]

Hall,etal.Theroboticvisionscene

understandingchallenge.

2020

arXiv[2]

Park,etal.Changesim:Towardsend-to-endonlinescene

change

detection

in

industrial

indoor

environments.

2021

IROS[3]

Prabhakar,etal.Cd

net++:

Improvedchangedetectionwithdeep

neural

network

feature

correlation.

2020

IJCNN[4]Sakurada,etal.Weaklysupervisedsilhouette-basedsemantic

scene

change

detection.

2020

ICRAHARBININSTITUTEOF

TECHNOLOGY82

CSR主要針對(duì)具身導(dǎo)航任務(wù)

,智能體在移動(dòng)穿越場(chǎng)景時(shí)跟蹤物體

,相應(yīng)地更新表示

,并檢測(cè)房間

配置的變化

DCA-Det實(shí)現(xiàn)面向物體級(jí)別的變化檢測(cè)場(chǎng)景變化檢測(cè)CSR框架圖

DCA-Det框架圖[1]Gad

re,etal.Continuousscene

representationsforembodied

ai.

2022

CVPR[2]Zhang,etal.Object-levelchangedetectionwith

a

dual

correlation

attention-guided

detector.

2021

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論