版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型時(shí)代的具身智能RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心什么是智能機(jī)器人?RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL穆王驚視之
,趨步俯仰
,信人也。
巧夫!
領(lǐng)其顱
,則歌合律;
捧其手,則舞應(yīng)節(jié)。
千變?nèi)f化
,惟意所適。
王以為實(shí)人也
,與盛姬內(nèi)御并觀之。——《列子·湯問》周穆王西巡狩獵遇見了一個(gè)名叫偃師的奇人。
偃師造出了一個(gè)機(jī)器人
,
與常人的外貌極為相似
,達(dá)到了以假亂真的程度。
那個(gè)機(jī)器人會(huì)做各種
動(dòng)作。
掰動(dòng)它的下巴
,
就會(huì)唱歌;
揮動(dòng)它的手臂
,
就會(huì)翩翩起舞。機(jī)器人的從古至今公元前9世紀(jì)HARBININSTITUTEOF
TECHNOLOGY3機(jī)器人的從古至今公元前4世紀(jì)古希臘數(shù)學(xué)家阿基塔斯研制出一種由機(jī)械蒸汽驅(qū)動(dòng)的鳥狀飛行器
,
并被命名為“鴿子”。“鴿子”設(shè)計(jì)圖阿基塔斯其腹部是一套用于產(chǎn)生蒸汽的密閉鍋爐。HARBININSTITUTEOF
TECHNOLOGY4機(jī)器人的從古至今公元15世紀(jì)萊昂納多·達(dá)·芬奇在
1495年左右繪制了人形機(jī)器人的草圖。
現(xiàn)在被稱為萊昂納多的機(jī)器人
,
能夠坐起、
揮動(dòng)手臂、
移動(dòng)頭部和下巴。萊昂納多的機(jī)器人HARBININSTITUTEOF
TECHNOLOGY5機(jī)器人的從古至今公元20世紀(jì)1961年
,
世界上第一臺(tái)工業(yè)機(jī)器人Unimate,
用于堆疊金屬1973年,KUKA公司推出的世界第一臺(tái)擁有六
個(gè)機(jī)電驅(qū)動(dòng)軸的工業(yè)機(jī)器人
,
FAMULUS機(jī)器人從“玩具”變成“工具”
,
并應(yīng)用于工業(yè)領(lǐng)域一定的自主性:
編程后可自主運(yùn)行
,
自主判斷和決定接下來的操作HARBININSTITUTEOF
TECHNOLOGY6機(jī)器人的從古至今公元21世紀(jì)醫(yī)療微創(chuàng)機(jī)器人物流運(yùn)輸機(jī)器人展廳服務(wù)機(jī)器人家庭清潔機(jī)器人更好的自主性:
應(yīng)對(duì)的場(chǎng)景和任務(wù)更復(fù)雜
,涉及多機(jī)器人協(xié)調(diào)工業(yè)機(jī)器人已經(jīng)相對(duì)成熟
,
人們開始探索更多場(chǎng)景、
更智能的機(jī)器人HARBININSTITUTEOF
TECHNOLOGY7智能機(jī)器人①自主能力
:盡可能少的人類干預(yù)機(jī)器人智能機(jī)器人≈
人類②泛化能力(通用能力)
:
具備強(qiáng)大的綜合能力HARBININSTITUTEOF
TECHNOLOGY8最受關(guān)注的智能機(jī)器人——類人機(jī)器人19722000
2008
2013世界第一臺(tái)全尺寸人形機(jī)器人
人形運(yùn)動(dòng)能力重大進(jìn)步
人形機(jī)器人成功商業(yè)落地
人形動(dòng)作能力邁入新紀(jì)元重點(diǎn)關(guān)注機(jī)器人的運(yùn)動(dòng)能力
新的關(guān)注點(diǎn):
機(jī)器人智能運(yùn)動(dòng)控制型機(jī)器人智能機(jī)器人ASIMO
,
日本本田制造
,歷
經(jīng)數(shù)次迭代
,掌握雙足奔跑、
搬運(yùn)托盤、
上下樓梯等功能WABOT-1
,
日本早稻田大學(xué)
加藤實(shí)驗(yàn)室
,行走一步需要
45秒
,步伐也只有10公分Atlas機(jī)器人
,美國(guó)波士頓動(dòng)
力公司研發(fā)
,有很強(qiáng)的運(yùn)動(dòng)
控制能力法國(guó)Aldebaran公司研發(fā)的
小型教學(xué)陪伴用人形機(jī)器人
NAOHARBININSTITUTEOF
TECHNOLOGY9智能機(jī)器人①自主能力
:盡可能少的人類干預(yù)②泛化能力(通用能力)
:
具備強(qiáng)大的綜合能力機(jī)器人智能機(jī)器人≈
人類!一種算法
人工智能?HARBININSTITUTEOF
TECHNOLOGY本報(bào)告來源于三個(gè)皮匠報(bào)告站(),由用戶Id:107695下載,文檔Id:184180,下載日期:2024-12-1010機(jī)器人與人工智能工業(yè)機(jī)器人已經(jīng)相對(duì)成熟
,
人們開始探索更多場(chǎng)景、
更智能的機(jī)器人展廳服務(wù)機(jī)器人視覺技術(shù)語音技術(shù)自然語言處理物流運(yùn)輸機(jī)器人視覺技術(shù)醫(yī)療微創(chuàng)機(jī)器人視覺技術(shù)家庭清潔機(jī)器人語音技術(shù)HARBININSTITUTEOF
TECHNOLOGY11哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL我們?cè)O(shè)想中的智能機(jī)器人是什么?像人類一樣工作的機(jī)器人?各方面強(qiáng)于人類的機(jī)器人?有意識(shí)和情感的機(jī)器人?HARBININSTITUTEOF
TECHNOLOGY13
1956年—20世紀(jì)60年代初
,使用人工智能做符號(hào)推理
,進(jìn)行數(shù)學(xué)證明
20世紀(jì)60年代—70年代初
,啟發(fā)式的搜索算法能力有限
20世紀(jì)70年代初—80年代中
,構(gòu)建專家系統(tǒng)處理醫(yī)療、化學(xué)、地質(zhì)等特定領(lǐng)域應(yīng)用
20世紀(jì)80年代中—90年代中
,專家系統(tǒng)需要海量的專業(yè)知識(shí)
,實(shí)用價(jià)值有限
20世紀(jì)90年代中—2010年
,機(jī)器學(xué)習(xí)算法處理實(shí)際問題
2011年之后
,深度學(xué)習(xí)算法用于圖像、文本、語音等信息處理
2022年之后
,可以處理通用任務(wù)的大模型
一定的自主能力
一定的泛化能力(通用能力)但離我們?cè)O(shè)想的智能還有多遠(yuǎn)?縱觀人工智能發(fā)展HARBININSTITUTEOF
TECHNOLOGY14
上個(gè)世紀(jì)對(duì)未來人工智能的幻想
,主要表現(xiàn)為智能人形機(jī)器人
,但目前人工智能技術(shù)仍然停留
在電腦屏幕
,沒有以實(shí)體的方式進(jìn)入物理世界
目前智能程度最強(qiáng)的大模型
,與目前最先進(jìn)的人形機(jī)器人
,能否結(jié)合形成智能機(jī)器人?大模型與人形機(jī)器人結(jié)合形成智能機(jī)器人HARBININSTITUTEOF
TECHNOLOGY15哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?先要說明的問題:如何構(gòu)建一個(gè)智能機(jī)器人?RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL構(gòu)建智能機(jī)器人(以人形機(jī)器人為例)
收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。
并綜合分析當(dāng)前所有狀態(tài)(具身感知)
根據(jù)當(dāng)前狀態(tài)
,對(duì)自身下一步的運(yùn)動(dòng)做出決策
和規(guī)劃(具身推理)
向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)
下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令
硬件方面:
語音信號(hào)位姿信號(hào)
2D視覺信號(hào)或
3D點(diǎn)云信號(hào)機(jī)器人軀體的
所有硬件結(jié)構(gòu)觸覺信號(hào)或
力反饋信號(hào)軟件及算法方面:HARBININSTITUTEOF
TECHNOLOGY大
腦小
腦17舉個(gè)不是特別形象的簡(jiǎn)單例子清理咖啡需要如下幾步:1.扶正杯子并拿起杯蓋2.找到抹布3.用抹布擦拭地面4.將抹布放回5.將杯子和杯蓋扔掉
收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。
并綜合分析當(dāng)前所有狀態(tài)(具身感知)機(jī)器人采集視覺信息,分析出應(yīng)對(duì)咖啡進(jìn)行清理
根據(jù)當(dāng)前狀態(tài)
,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)生成機(jī)器人的運(yùn)動(dòng)軌跡,包括手臂如何運(yùn)動(dòng)、
手掌如何運(yùn)動(dòng)、腿部如何運(yùn)動(dòng)等
向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)
下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令機(jī)器人視覺傳感器信號(hào)HARBININSTITUTEOF
TECHNOLOGY機(jī)器人執(zhí)行18哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心回到問題:人工智能真的讓機(jī)器人智能了嗎?RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL2D視覺信號(hào)或3D點(diǎn)云信號(hào)
語音信號(hào)機(jī)器人軀體的所有硬件結(jié)構(gòu)構(gòu)建智能機(jī)器人的技術(shù)
,我們具備和不具備哪些?我們已經(jīng)能造出具備基本性能的機(jī)器人硬件和高精度的傳感器位姿信號(hào)
觸覺信號(hào)或
力反饋信號(hào)HARBININSTITUTEOF
TECHNOLOGY硬件方面:20構(gòu)建智能機(jī)器人的技術(shù)
,我們具備和不具備哪些?
收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。
并綜合分析當(dāng)前所有狀態(tài)(具身感知)
根據(jù)當(dāng)前狀態(tài)
,對(duì)自身下一步的運(yùn)動(dòng)做出決策
和規(guī)劃(具身推理)
向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)軟件及算法方面:
下位機(jī)通過運(yùn)控技術(shù)執(zhí)行指令運(yùn)控技術(shù)相對(duì)來說已經(jīng)較為成熟還存在諸多問題HARBININSTITUTEOF
TECHNOLOGY大
腦小
腦21請(qǐng)標(biāo)記出抓握?qǐng)D中插著花的花瓶的位置當(dāng)前人工智能這幾個(gè)方面存在哪些問題?這是什么?如何打開它?人的一些手勢(shì)是什么意思?
3D點(diǎn)云圖如何理解?
收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。
并綜合分析當(dāng)前所有狀態(tài)(具身感知)多模態(tài)大模型LLaVA已能做到:但實(shí)際場(chǎng)景遠(yuǎn)比此復(fù)雜HARBININSTITUTEOF
TECHNOLOGY22當(dāng)前人工智能這幾個(gè)方面存在哪些問題?
根據(jù)當(dāng)前狀態(tài)
,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)來看目前大模型在一組數(shù)據(jù)集中的表現(xiàn):HARBININSTITUTEOF
TECHNOLOGY23當(dāng)前人工智能這幾個(gè)方面存在哪些問題?
根據(jù)當(dāng)前狀態(tài)
,對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)主流大模型
在該數(shù)據(jù)集
上的表現(xiàn):HARBININSTITUTEOF
TECHNOLOGY24拿起可樂關(guān)上抽屜
向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)
(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)?對(duì)于生成關(guān)節(jié)旋轉(zhuǎn)角度形式的運(yùn)動(dòng)指令:多模態(tài)大模型
擴(kuò)散小模型當(dāng)前人工智能這幾個(gè)方面存在哪些問題?執(zhí)行的成功率執(zhí)行的流暢度泛化能力多模態(tài)大模型較低(
60%~70%)不夠流暢物品泛化擴(kuò)散小模型較高(
90%以上)流暢位置泛化或無泛化?對(duì)于生成技能庫(kù)API或代碼API形式的運(yùn)動(dòng)指令
:現(xiàn)實(shí)世界場(chǎng)景過于復(fù)雜
,構(gòu)建完整的技能庫(kù)幾乎不可能技能泛化場(chǎng)景泛化物品泛化位置泛化無泛化HARBININSTITUTEOF
TECHNOLOGY轉(zhuǎn)移紅色方塊泛化能力25哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心因此
,
當(dāng)前人工智能還不足以讓機(jī)器人更智能
,
需要具身智能什么是具身智能?RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL有行走條件才能學(xué)會(huì)走路:有物理身體
,可以進(jìn)行交互[1]
Richard
Held,
Alan
Hein.
Movement-producedstimulation
inthedevelopmentofvisuallyguidedbehavior.
1963Jouranal
ofComparative
and
Physiological
Psychology機(jī)器人能學(xué)習(xí)文本圖像
,能學(xué)會(huì)走路嗎?
被動(dòng)移動(dòng)位置
只能注意到眼中的物體在
變大、
縮小
沒有學(xué)會(huì)走路
,
甚至不能
意識(shí)到眼中物體逐漸變大
就是在靠近自己
可以自由的移動(dòng)
隨著腿部動(dòng)作,
眼中物
體的大小有相應(yīng)的變化
最終學(xué)會(huì)走路1963年進(jìn)行了一場(chǎng)心理學(xué)實(shí)驗(yàn)
,兩只貓自出生起便在黑暗封閉的環(huán)境中生活。HARBININSTITUTEOF
TECHNOLOGY27
定義:一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng)
,其通過智能體與環(huán)境的交互獲取信息、
理解問題、做出決策并實(shí)現(xiàn)行動(dòng)
,從而產(chǎn)生智能行為和適應(yīng)性。
實(shí)質(zhì):強(qiáng)調(diào)有物理身體的智能體通過與物理環(huán)境進(jìn)行交互而獲得智能的人工智能研究范式。具身智能的定義學(xué)習(xí)
“有遮擋的物體識(shí)別”學(xué)習(xí)
“移開遮擋后的物體識(shí)別”抽象的智能(圍棋、
文本處理、
圖像識(shí)別)有物理身體、
與環(huán)境進(jìn)行交互的具身智能VS具身智能
|CCF專家談術(shù)語
,盧策吾
,
王鶴HARBININSTITUTEOF
TECHNOLOGY28執(zhí)行感知推理物體感知場(chǎng)景感知行為感知表達(dá)感知具身問答任務(wù)規(guī)劃導(dǎo)航具身智能劃分:感知、推理、執(zhí)行從交互中學(xué)習(xí)學(xué)習(xí)交互數(shù)據(jù)基于規(guī)則
基于大模型仿真環(huán)境Sim2Real真實(shí)環(huán)境HARBININSTITUTEOF
TECHNOLOGY智能體環(huán)境反饋交互感知具體分為具體分為基于學(xué)習(xí)環(huán)境物人291
具身感知2
具身推理3
具身執(zhí)行目
錄CO
NTE
NT
SRESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心
具身感知RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心具身感知
機(jī)器人需要具備環(huán)境感知能力
,依據(jù)感知對(duì)象的不同
,可以分為四類:表達(dá)感知場(chǎng)景感知行為感知HARBININSTITUTEOF
TECHNOLOGY物體感知32
機(jī)器人需要具備環(huán)境感知能力
,依據(jù)感知對(duì)象的不同
,可以分為四類:
物體感知
幾何形狀、鉸接結(jié)構(gòu)、物理屬性
場(chǎng)景感知
場(chǎng)景重建&場(chǎng)景理解
行為感知
手勢(shì)檢測(cè)、人體姿態(tài)檢測(cè)、人類行為理解
表達(dá)感知
情感檢測(cè)、意圖檢測(cè)
重點(diǎn)需要感知能力的機(jī)器人:服務(wù)機(jī)器人、人機(jī)協(xié)作場(chǎng)景下機(jī)器人、社交導(dǎo)航機(jī)器人、環(huán)境
探索機(jī)器人具身感知HARBININSTITUTEOF
TECHNOLOGY33具身感知RGB相機(jī)3D相機(jī)麥克風(fēng)觸覺傳感器熱傳感器…基于交互的物體檢測(cè)、
空間
關(guān)系理解、
時(shí)序變化檢測(cè)信息的表示/建模/重建主要基于視覺表情和聲音場(chǎng)景重建(主動(dòng)探索、
主
動(dòng)定位、
場(chǎng)景的表示)主要基于2D圖片和深度
信息獲取3D物體的幾何形狀、
鉸接結(jié)構(gòu)、
物理屬性信息位姿估計(jì)、
物體抓取、
交互感知、
可供性預(yù)測(cè)信息理解下游任務(wù)情感識(shí)別、
意圖推
斷(指代表示)信息編碼方法手勢(shì)識(shí)別、
姿態(tài)檢
測(cè)、人類行為理解社交導(dǎo)航、
自動(dòng)駕
駛、人機(jī)協(xié)作感受信息
具身感知的過程主要包括以下幾步:物體感知場(chǎng)景感知行為感知表達(dá)感知HARBININSTITUTEOF
TECHNOLOGY34
物體感知RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心物體感知范疇
對(duì)于3D空間中的物體
,有必要感知其:
幾何形狀
鉸接結(jié)構(gòu)
物理屬性[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud
point.html[2]Xuetal.
UMPNet:
Universal
Manipulation
Policy
Networkfor
ArticulatedObjects.2022
RA-L[3]
Dongetal.Tactile-RLfor
Insertion:GeneralizationtoObjectsof
Unknown
GeometryHARBININSTITUTEOF
TECHNOLOGY36數(shù)據(jù)格式描述來源編碼方法點(diǎn)云一組點(diǎn)
,每個(gè)點(diǎn)包括3D坐標(biāo)和特征LiDARPointNet
,
PointNet++網(wǎng)格基于點(diǎn)、
線、
面(
三角形)
表示物
體表面CAD模型、
點(diǎn)云轉(zhuǎn)換MeshNet體素一組立方體
,每個(gè)立方體包括坐標(biāo)、
體積和特征點(diǎn)云轉(zhuǎn)換VoxelNet、
DeepSDF、
Occupancy
Network深度圖為2D圖片每個(gè)像素匹配一個(gè)深度雙目立體相機(jī)、
結(jié)構(gòu)光
相機(jī)、
ToF相機(jī)GVCNN物體幾何形狀感知HARBININSTITUTEOF
TECHNOLOGY37
PointNet為點(diǎn)云數(shù)據(jù)編碼的經(jīng)典方法
,針對(duì)其難以捕捉局部特征的缺點(diǎn)又提出了改進(jìn)版本PointNet++[1]Qietal.
Pointnet:
Deeplearningon
point
setsfor
3d
classification
and
segmentation.
2017
CVPR[2]Qietal.
Pointnet++:
Deep
hierarchicalfeature
learningon
pointsets
ina
metric
space.
2017
NIPSPointNet
基于多層感知機(jī)
,編碼點(diǎn)云數(shù)據(jù)
,可以獲得點(diǎn)云整體的表示、每個(gè)點(diǎn)的表示HARBININSTITUTEOF
TECHNOLOGY38Mesh
Net
基于MLP和CNN
,編碼每個(gè)面的空間特征和結(jié)構(gòu)特征
,最后獲得整體的物體外形表示[1]
Fengetal.
Meshnet:
Mesh
neural
networkfor3dshaperepresentation.2019
AAAIHARBININSTITUTEOF
TECHNOLOGY39Voxel
Net
首先將點(diǎn)云體素化
,然后使用基于MLP和CNN的網(wǎng)絡(luò)編碼體素
PointNet、
MeshNet、VoxelNet對(duì)3D數(shù)據(jù)的卷積編碼方式
,類似于CV中對(duì)2D圖片的編碼[1]Zhouetal.VoxelNet:
End-to-End
LearningforPointCloud
Based
3D
Object
Detection.
2018
CVPRHARBININSTITUTEOF
TECHNOLOGY40
之前PointNet、
MeshNet和VoxelNet將3D數(shù)據(jù)視為離散的單元進(jìn)行卷積編碼
DeepSDF訓(xùn)練神經(jīng)網(wǎng)絡(luò)
,擬合一個(gè)連續(xù)函數(shù)
:以體素坐標(biāo)為輸入
,輸出其離最近物體表面的距離。這個(gè)連續(xù)函數(shù)同樣蘊(yùn)涵物體的幾何形狀信息。DeepSDF(Signed
Distance
Function)為使訓(xùn)練的SDF不局限于一個(gè)物體
,
引入Code作為物體形狀標(biāo)簽[1]
Parketal.
DeepSDF:
LearningContinuousSigned
Distance
FunctionsforShape
Representation.2019
CVPRHARBININSTITUTEOF
TECHNOLOGY41
類似于DeepSDF使用一個(gè)連續(xù)的函數(shù)來表示整個(gè)空間的體素分布情況
,OccupancyNetwork同樣使用神經(jīng)網(wǎng)絡(luò)來擬合一個(gè)連續(xù)的函數(shù)
,該函數(shù)以體素坐標(biāo)為輸入
,輸出該坐
標(biāo)處體素出現(xiàn)的概率Occupancy
Networks
占用概率網(wǎng)絡(luò)[1]
Meschederetal.Occupancy
Networks:
Learning3D
Reconstruction
in
FunctionSpace.2019
CVPRHARBININSTITUTEOF
TECHNOLOGY42
位姿估計(jì)任務(wù)是預(yù)測(cè)一個(gè)物體在3D空間中的位姿
,包括三自由度的平移
,與三自由度的旋
轉(zhuǎn)
,或者可視為物體的位置與朝向
根據(jù)是否物體的CAD模型是否已知
,位姿估計(jì)可以分為:
實(shí)例級(jí)別的位姿估計(jì):需要物體CAD模型
,從而獲取平移的中心和旋轉(zhuǎn)的初始朝向
類別級(jí)別的位姿估計(jì):不需要物體CAD模型幾何形狀感知的下游任務(wù):物體位姿估計(jì)通過“見過”訓(xùn)練集中一個(gè)類別下很多物體的中心點(diǎn)和初始朝向
,從而可以在測(cè)試時(shí)對(duì)未見過的物體“預(yù)設(shè)”一個(gè)中心點(diǎn)和朝向
,然后估計(jì)位姿中點(diǎn)是哪里?正面(初始朝向)是哪?沒有這
些信息如何知道平移和
旋轉(zhuǎn)的情況?HARBININSTITUTEOF
TECHNOLOGY43
物體上每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)(x
,y
,
z)
,代表該點(diǎn)在標(biāo)準(zhǔn)空間
中的位置。
給定任意一個(gè)圖片
,分割其中物體
,然后在每個(gè)像
素上預(yù)測(cè)(x
,y
,
z)
。
mask上的(x
,y
,
z)就代表這個(gè)物
體在標(biāo)準(zhǔn)空間中的朝向
,結(jié)合深度可得位移
CNN預(yù)測(cè):
類別、
分割Mask、
標(biāo)準(zhǔn)空間Map構(gòu)建同類別物體統(tǒng)一坐標(biāo)空間[1]Wangetal.
NormalizedObjectCoordinateSpacefor
Category-Level
6D
Object
Pose
and
Size
Estimation.
2019
CVPRHARBININSTITUTEOF
TECHNOLOGY44
以上物體外形的研究
,與智能機(jī)器人根據(jù)人類指令執(zhí)行特定動(dòng)作的關(guān)聯(lián)在哪里?
上述研究與大模型有什么關(guān)聯(lián)?
在我們能很好的端到端解決具身智能任務(wù)前
,以感知物體作為中間任務(wù)
,助力下游的推理、
執(zhí)行任務(wù)
,滿足實(shí)際應(yīng)用的需要
,是很有意義的。
正如句法分析、
詞性標(biāo)注之于早期的NLP領(lǐng)域
,
以及T5模型統(tǒng)一自然語言理解與生成
有觀點(diǎn)認(rèn)為
,一個(gè)顯式的世界模型是人工智能的后續(xù)方向
,該觀點(diǎn)下感知具有更重要的意義
在深度學(xué)習(xí)范疇內(nèi)
,3D數(shù)據(jù)的處理方式與對(duì)2D圖片的處理方式非常相似
,或許不久之后
就會(huì)出現(xiàn)很多3D領(lǐng)域的大模型具身感知小結(jié)一(提前放在這里
,應(yīng)對(duì)可能的疑惑)HARBININSTITUTEOF
TECHNOLOGY45
傳統(tǒng)的物體抓?。?/p>
需要已知物體的3D模型
,然后使用分析的方法通過數(shù)學(xué)建模求解抓取點(diǎn)位
基于深度學(xué)習(xí)的物體抓?。?/p>
依賴3D相機(jī)獲取初步點(diǎn)云
,不進(jìn)行顯式的物體重建
,
直接基于點(diǎn)云通過神經(jīng)網(wǎng)絡(luò)求解抓取位姿Model-Free
感知3D物體的幾何形狀
,與計(jì)算機(jī)圖形學(xué)(
CG)
中的物體重建有密切聯(lián)系
,
即使不進(jìn)行顯式的物體重建,一個(gè)好的物體重建方法往往也是很好的3D物體和場(chǎng)景的表示方法
,例如有研究將CG中3DGS方法用于機(jī)器
人任務(wù)物體抓取原始點(diǎn)云/多
角度圖片物體重建得到高
質(zhì)量物體3D模型
物體抓取Model-BaseHARBININSTITUTEOF
TECHNOLOGY46Anygrasp
經(jīng)典的物體抓取方法
,基于物體幾何外形信息
,并支持動(dòng)態(tài)物體抓取和碰撞檢查
基于單張RGBD圖片
,即可生成多個(gè)7自由度抓取位姿[1]
Fangetal.AnyGrasp:
Robustand
EfficientGrasp
Perception
inSpatial
andTemporal
Domains.
2022T-ROHARBININSTITUTEOF
TECHNOLOGY47CoPA:結(jié)合大模型物體感知的抓取
多模態(tài)大模型結(jié)合物體分割模型由粗到細(xì)確定抓取點(diǎn)位(物體部件級(jí)別)
抓取小模型GraspNet生成多個(gè)抓取位姿
,與大模型給出的抓取點(diǎn)位接近的分?jǐn)?shù)更高[1]
Huangetal.CoPa:General
Robotic
ManipulationthroughSpatial
Constraints
of
Parts
with
Foundation
Models.
2024
ICRAHARBININSTITUTEOF
TECHNOLOGY48
對(duì)于3D空間中的物體
,有必要感知其:
幾何形狀:點(diǎn)云、體素、
網(wǎng)格、深度圖的編碼表示
,以及位姿估計(jì)
,物體抓取下游任務(wù)
鉸接結(jié)構(gòu)物體感知范疇[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud
point.html[2]Xuetal.
UMPNet:
Universal
Manipulation
Policy
Networkfor
ArticulatedObjects.2022
RA-L[3]
Dongetal.Tactile-RLfor
Insertion:GeneralizationtoObjectsof
Unknown
Geometry
物理屬性HARBININSTITUTEOF
TECHNOLOGY49
鉸接物體與剛性物體:
剛性物體內(nèi)部構(gòu)件剛性連接
,
無法變形
鉸接物體內(nèi)部構(gòu)件由關(guān)節(jié)或其他鉸接結(jié)構(gòu)連接
,
部件可以旋轉(zhuǎn)、
平移
剛性物體關(guān)注幾何形狀
,對(duì)其的操作主要為抓取、
放置
,
即位姿估計(jì)和物體抓取任務(wù)
鉸接物體除幾何形狀外
,還關(guān)注對(duì)其鉸接結(jié)構(gòu)。
鉸接物體支持復(fù)雜的操作
,例如開關(guān)柜門
,擰瓶蓋鉸接結(jié)構(gòu)[1]
Liuetal.Toward
Real-WorldCategory-Level
Articulation
Pose
Estimation.2022TIPHARBININSTITUTEOF
TECHNOLOGY50鉸接結(jié)構(gòu)數(shù)據(jù)來源
鉸接結(jié)構(gòu)數(shù)據(jù)來源主要包括
手工收集
,e.g.
AKB-48
在已有3D數(shù)據(jù)集上標(biāo)注鉸接信息
合成數(shù)據(jù)[1]
Liuetal.
AKB-48:
AReal-World
ArticulatedObject
Knowledge
Base.2022CVPR[2]Cageetal.CAGE:Controllable
Articulation
GEneration.
2024
CVPR
鉸接物體數(shù)據(jù)格式主要為URDF
,通過定義物體的邊、關(guān)節(jié)屬性來定義物體鉸接結(jié)構(gòu)HARBININSTITUTEOF
TECHNOLOGY51
鉸接物體的表示
,應(yīng)該主要包括以下信息:
每個(gè)組件的幾何形狀信息
每個(gè)組件的運(yùn)動(dòng)學(xué)信息
,包括:位移類型(平移、旋轉(zhuǎn))
、位移參數(shù)(平移方向、旋轉(zhuǎn)
軸)
、位移限制(最大移動(dòng)距離、最大旋轉(zhuǎn)角度)
一個(gè)好的鉸接表示有助于機(jī)器人理解鉸接物體
兩種鉸接結(jié)構(gòu)表示方法
直接建模關(guān)節(jié)參數(shù)
建模位移變化情況鉸接物體表示方法HARBININSTITUTEOF
TECHNOLOGY52
通過分別建模物體部件和整體兩個(gè)層次的信息來表示鉸接物體
,
實(shí)
現(xiàn)基于RGBD圖片預(yù)測(cè)物體鉸接結(jié)構(gòu)。
物體層次信息主要為關(guān)節(jié)參數(shù)和狀態(tài)
,
部件層次信息為部件的位姿
和規(guī)模建模關(guān)節(jié)參數(shù)表示鉸接物體[1]
Lietal.Category-Level
ArticulatedObject
Pose
Estimation.2020
CVPRHARBININSTITUTEOF
TECHNOLOGY53
該論文同樣希望通過多視角圖片得到物體的形狀、
外觀、
鉸接結(jié)構(gòu)信息。
其認(rèn)為物體狀態(tài)可以由形狀、
外觀、
鉸接狀態(tài)來表示
,
并使用不同的code來表示
,通過一個(gè)變形網(wǎng)絡(luò)
分離物體鉸接狀態(tài)(位移情況)
得到新的物體位置
,然后分別得到幾何形狀和物體外觀
變形網(wǎng)絡(luò)使用有監(jiān)督訓(xùn)練的方式
,
以形狀和鉸接code為輸入
,
預(yù)測(cè)物體每個(gè)點(diǎn)的位移建模位移情況表示鉸接物體[1]Weietal.Self-supervised
Neural
ArticulatedShapeand
Appearance
Models.2022
CVPRHARBININSTITUTEOF
TECHNOLOGY54
幾何結(jié)構(gòu)部分與主流計(jì)算機(jī)視覺領(lǐng)域相比
,其特點(diǎn)在于主要基于3D信息
但對(duì)3D信息的處理并非具身智能的核心
,具身智能的核心在于其是一種行為智能
,在感
知領(lǐng)域具體體現(xiàn)為:可以通過與環(huán)境的主動(dòng)交互
,增強(qiáng)對(duì)環(huán)境的感知效果
鉸接物體支持機(jī)器人進(jìn)行豐富的操作任務(wù)
,并提供相應(yīng)的反饋。與之相關(guān)的下游任務(wù)有交
互感知、物體可供性預(yù)測(cè)兩類
交互感知:機(jī)器人通過與物體交互獲取更多信息
物體可供性預(yù)測(cè):預(yù)測(cè)物體能否支持機(jī)器人進(jìn)行某種操作鉸接結(jié)構(gòu)的下游任務(wù)HARBININSTITUTEOF
TECHNOLOGY55
之前介紹的工作基于靜態(tài)數(shù)據(jù)集預(yù)測(cè)物體鉸接結(jié)構(gòu)
,該工作通過實(shí)際物理交互行為獲取物體鉸接結(jié)構(gòu)
首先以原始物體點(diǎn)云作為輸入
,基于物體組件級(jí)分割
,得到物體初始URDF文件
機(jī)器人操作物體
,基于當(dāng)前URDF文件可以預(yù)測(cè)操作后的物體狀態(tài)
,與實(shí)際觀察到的物體狀態(tài)進(jìn)行對(duì)
比
,該監(jiān)督信號(hào)對(duì)于物體模型參數(shù)(
URDF文件)
是可微的
,從而進(jìn)行參數(shù)更新交互感知獲取物體鉸接結(jié)構(gòu)[1]
Lvetal.SAGCI-System:TowardsSample-Efficient,Generalizable,
Compositional
and
Incremental
Robot
Learning.
2022
ICRAHARBININSTITUTEOF
TECHNOLOGY56
對(duì)于任務(wù)規(guī)劃和導(dǎo)航任務(wù)
,知道一個(gè)物體可以施加哪些動(dòng)作是很重要的
,也可以用于指導(dǎo)物體操作
Where2act訓(xùn)練一個(gè)預(yù)測(cè)網(wǎng)絡(luò)
,給定一個(gè)原子動(dòng)作(推、
拉)
,對(duì)于圖片或點(diǎn)云中每一個(gè)像素預(yù)測(cè)1)
可行性分?jǐn)?shù);
2)動(dòng)作軌跡;
3)成功概率
基于此
,機(jī)器人可以知道每一個(gè)原子動(dòng)作在物體上的最佳操作點(diǎn)位與軌跡物體可供性預(yù)測(cè)[1]
Moetal.Where2Act:
From
Pixelsto
Actionsfor
Articulated3DObjects.2024
ICCVHARBININSTITUTEOF
TECHNOLOGY57物體感知范疇[1]https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloud
point.html[2]Xuetal.
UMPNet:
Universal
Manipulation
Policy
Networkfor
ArticulatedObjects.2022
RA-L[3]
Dongetal.Tactile-RLfor
Insertion:GeneralizationtoObjectsof
Unknown
Geometry幾何形狀:點(diǎn)云、體素、
網(wǎng)格、深度圖的編碼表示
,以及位姿估計(jì)
,物體抓取下游任務(wù)
對(duì)于3D空間中的物體
,有必要感知其:鉸接結(jié)構(gòu)物理屬性HARBININSTITUTEOF
TECHNOLOGY
58
物體的物理屬性種類及來源包括:
觸覺:觸覺傳感器
力矩:六軸力矩傳感器
,3自由度力
,3自由度扭矩,
溫度:溫度傳感器
材質(zhì)、硬度
…
物理屬性的表示
與其他模態(tài)融合
,如圖像和點(diǎn)云:
IMAGEBIND、
LANGBIND
單獨(dú)使用物理信息:強(qiáng)化學(xué)習(xí)端到端的方式利用觸覺信息[1]Gird
haretal.
Imagebind:Oneembeddingspace
to
bind
them
all.
2023
CVPR[2]Zhuetal.
Languagebind:
Extendingvideo-languagepretrainingto
n-modality
by
language-basedsemantic
alignment.
2024
ICLR[3]
Dongetal.Tactile-rlforinsertion:Generalizationto
objects
of
unknown
geometry.
2024
ICRA物理屬性HARBININSTITUTEOF
TECHNOLOGY59
利用觸覺傳感器理解物理屬性:T-NT
根據(jù)視覺和觸覺反饋
,用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人將線穿過針孔
使用觸覺傳感器查找線的末端
,以及判斷針是否穿過針孔物理屬性輔助操作解決視覺遮擋問題[1]Yuetal.
Precise
Robotic
Needle-ThreadingwithTactile
Perceptionand
Reinforcement
Learning.2023CoRLHARBININSTITUTEOF
TECHNOLOGY601-2
場(chǎng)景感知RESEARCHCENTER
FORSOCIALCOMPUTINGAND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心
定義:場(chǎng)景感知是通過實(shí)現(xiàn)與場(chǎng)景的交互來理解現(xiàn)實(shí)世界場(chǎng)景
意義:賦予機(jī)器人理解周圍環(huán)境并與之交互的能力
內(nèi)核:
對(duì)空間布局的幾何理解
對(duì)場(chǎng)景中物體的語義理解
組成:
粗粒度:場(chǎng)景中物體的組成、物體的語義、物體的空間關(guān)系
細(xì)粒度:場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語義
具體形式:點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖、
隱表示場(chǎng)景感知簡(jiǎn)述HARBININSTITUTEOF
TECHNOLOGY62場(chǎng)景感知的研究?jī)?nèi)容環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像63HARBININSTITUTEOF
TECHNOLOGY場(chǎng)景信息獲取
場(chǎng)景重建
場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射
主動(dòng)定位拓?fù)浣Y(jié)構(gòu)
場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光
信息觸覺
超聲雷達(dá)
信息化學(xué)·
·
·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)
SLAM聽覺紅外難利用易利用形成構(gòu)建抽取
場(chǎng)景信息組成
粗粒度
場(chǎng)景中物體的組成
場(chǎng)景中物體的語義
場(chǎng)景中物體的空間關(guān)系
細(xì)粒度
場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語義
場(chǎng)景信息提取方式
構(gòu)建場(chǎng)景表示
點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖及隱式表示場(chǎng)景信息構(gòu)成HARBININSTITUTEOF
TECHNOLOGY64激光傳感器工作原理
雷達(dá)傳感器工作原理[1]Sun,etal.
Aqualityimprovement
methodfor3D
laserslam
point
clouds
based
on
geometric
primitives
ofthescan
scene.
2021
IJRS[2]
Kong,etal.
Multi-modaldata-efficient3dsceneunderstanding
for
autonomous
driving.
2024
arXiv[3]Zheng,etal.Scene-awarelearning
networkfor
radarobject
detection.
2021
PCMR[4]Yang,etal.
Anego-motionestimation
methodusing
millimeter-wave
radar
in3D
scene
reconstruction.
2022
IHMSC易利用的場(chǎng)景信息
視覺:符合人類的先驗(yàn)知識(shí)
,相關(guān)研究工作多
激光/雷達(dá):可以直接獲取準(zhǔn)確的場(chǎng)景表示
,無需視覺重建HARBININSTITUTEOF
TECHNOLOGY65[1]Singh,etal.Sporadic
Audio-Visual
Embodied
Assistive
Robot
Navigation
ForHumanTracking.
2023
PETRA[2]Gan,etal.
Look,
listen,andact:Towards
audio-visual
embodied
navigation.
2020
ICRA[3]
Roberge,etal.StereoTac:
Anovelvisuotactilesensorthatcombinestactile
sensing
with
3D
vision.
2023
RAL[4]
Padmanabha,etal.Omnitact:
Amulti-directionalhigh-resolutiontouch
sensor.
2020
ICRA[5]
Armada,etal.Co-operativesmell-basednavigationfor
mobile
robots.
2004
CLAWAR[6]Ciui,etal.Chemicalsensingat
the
robot
fingertips:Toward
automated
taste
discrimination
in
food
samples.
2018
ACS
sensors[7]Sinai,etal.Scenerecognitionwith
infra-red,
low-light,
and
sensorfused
imagery.1999
IRIS[8]
Kim,etal.
Firefighting
robotstereo
infraredvisionandradarsensorfusion
for
imaging
through
smoke.
2015
Fire
Technology[9]Shimoyama,etal.Seeing
Nearby3D
Scenes
using
Ultrasonic
Sensors.2022
IV[10]
Mulindwa,etal.
Indoor3Dreconstructionusing
camera,
IMU
and
ultrasonic
sensors.
2020
JST
聽覺:可用于視聽導(dǎo)航任務(wù)
觸覺:可用于感知物體表面
化學(xué):可用于特殊任務(wù)
,如識(shí)別氣味來源
紅外:可用于特殊場(chǎng)景
,如煙霧場(chǎng)景下
超聲:可用于深度測(cè)量難利用的場(chǎng)景信息應(yīng)用范圍狹窄并非場(chǎng)景感知任務(wù)焦點(diǎn)HARBININSTITUTEOF
TECHNOLOGY66場(chǎng)景重建環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像67HARBININSTITUTEOF
TECHNOLOGY場(chǎng)景信息獲取
場(chǎng)景重建
場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射
主動(dòng)定位拓?fù)浣Y(jié)構(gòu)
場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光
信息觸覺
超聲雷達(dá)
信息化學(xué)·
·
·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)
SLAM聽覺紅外難利用易利用形成構(gòu)建抽取
場(chǎng)景重建的核心技術(shù)是SLAM(同步定位與映射)
SLAM是機(jī)器人在未知環(huán)境下移動(dòng)
,逐步構(gòu)建周圍環(huán)境的連續(xù)地圖
,并同時(shí)估計(jì)其在地圖中位置的
技術(shù)
傳統(tǒng)的SLAM技術(shù):
濾波算法
非線性優(yōu)化技術(shù)
引入深度學(xué)習(xí)后的SLAM:
新方法
新任務(wù)
新表示場(chǎng)景重建[1]
Durrantetal.Simultaneouslocalizationand
map:
part
I.
2006
RAM[2]Taketomieal.VisualSLAMalgorithms:
Asurveyfrom2010to2016.
2017
IPSJ我周圍是什么樣的?我在哪?SLAM場(chǎng)景信息HARBININSTITUTEOF
TECHNOLOGY68
將深度學(xué)習(xí)集成到SLAM
用深度學(xué)習(xí)方法替換傳統(tǒng)的SLAM模塊
特征提取
深度估計(jì)
在傳統(tǒng)SLAM上加入語義信息
圖像語義分割
語義地圖構(gòu)建
基于深度學(xué)習(xí)的新方法主要為SLAM領(lǐng)域的自我優(yōu)化或迭代
,很少有方法從具身智能的角度出發(fā)[1]
DeTone,etal.Towardgeometricdeepslam.
2017
arXiv[2]Tateno,etal.Cnn-slam:
Real-timedense
monocularslamwith
learneddepth
prediction.
2017
CVPR[3]
Li,etal.
Undeepvo:
Monocularvisualodometrythroughunsuperviseddeep
learning.
2018
ICRA場(chǎng)景重建-新方法HARBININSTITUTEOF
TECHNOLOGY69
傳統(tǒng)SLAM
機(jī)器人由人類控制
,或使用預(yù)定義的航點(diǎn)
,或基于給定的路徑規(guī)劃算法進(jìn)行導(dǎo)航
主動(dòng)SLAM
機(jī)器人可以自主行動(dòng)
,以實(shí)現(xiàn)更好的場(chǎng)景重建和定位
主動(dòng)映射:機(jī)器人自主選擇下一步視點(diǎn)
,以獲得更好的觀察
,進(jìn)行環(huán)境探索
主動(dòng)定位:機(jī)器人自主規(guī)劃路徑,
旨在解決模糊位置定位
,而不僅僅是導(dǎo)航場(chǎng)景重建-新任務(wù)我怎么能更快地完成場(chǎng)景重建?我怎么能更快地知道自己在哪?我周圍是什么樣的?我在哪?HARBININSTITUTEOF
TECHNOLOGY傳統(tǒng)SLAM主動(dòng)SLAM主動(dòng)映射主動(dòng)定位同步定位自動(dòng)映射70
具身智能與非具身的智能
,乃至其他領(lǐng)域
,例如CV、
NLP、CG(計(jì)算機(jī)圖形學(xué))
、
Robotics、
Control
,核心區(qū)別在哪里?
3D數(shù)據(jù)?機(jī)器人任務(wù)中的深度學(xué)習(xí)技術(shù)?
在于行為智能
,在于交互
,在于告訴機(jī)器人怎么動(dòng)
此處的交互具體指空間中一條7自由度的軌跡
操作鉸接物體、主動(dòng)探索、主動(dòng)定位
多模態(tài)大模型和文本大模型沒見過軌跡數(shù)據(jù)
,如果將軌跡數(shù)據(jù)壓縮為大模型
,或許有更智能的具身感知小結(jié)二HARBININSTITUTEOF
TECHNOLOGY交互效果71基于拓?fù)涞男畔⒃鲆娑攘看_定下一個(gè)最佳視圖
RL方法
,
目的是識(shí)別最大化其場(chǎng)景記憶變化的視圖。
核心思想是幫助智能體記住盡可能多的不可見的視覺特征[1]Collander,etal.
Learningthe
next
bestviewfor3d
pointclouds
via
topological
features.
2021
ICRA[2]Gazani,etal.
Bagofviews:
Anappearance-basedapproachto
next-best-view
planningfor
3d
reconstruction.
2023
RAL
主動(dòng)映射任務(wù)
,即下一個(gè)最佳視圖(
Nest
BestView)任務(wù),
旨在找到更好的觀測(cè)視點(diǎn)或
更有效的觀測(cè)策略
視圖的評(píng)估標(biāo)準(zhǔn):信息增益、機(jī)器人運(yùn)動(dòng)成本和場(chǎng)景重建的質(zhì)量主動(dòng)映射HARBININSTITUTEOF
TECHNOLOGY72主動(dòng)映射將NBV
任務(wù)與次優(yōu)對(duì)象(
NBO)任務(wù)集成
,選擇感興趣的對(duì)象
,確定重建它們的最佳視角[1]
Liu,etal.Object-awareguidanceforautonomousscene
reconstruction.2018
TOG[2]
Dong,etal.
Multi-robotcollaborativedensescenereconstruction.
2019
TOG多智能體協(xié)作的主動(dòng)映射HARBININSTITUTEOF
TECHNOLOGY73
主動(dòng)定位涉及在參考圖中規(guī)劃后續(xù)運(yùn)動(dòng)路徑
,以盡量地減輕機(jī)器人空間方向的模糊性
傳統(tǒng)的定位算法與動(dòng)作選擇無關(guān)
ANL(Activeneurallocalization)通過端到端強(qiáng)化學(xué)習(xí)(包括感知模塊和策略模塊)最大化移動(dòng)
后的“后驗(yàn)概率”(可理解為位置的置信度)
,從而最小化定位所需的步驟數(shù)量主動(dòng)定位[1]Chaplot,etal.
Active
neural
localization.2018
arXivHARBININSTITUTEOF
TECHNOLOGY74
SLAM領(lǐng)域亦在探索幾何外觀等經(jīng)典屬性之外的環(huán)境表示,
旨在對(duì)層次結(jié)構(gòu)、功能、動(dòng)態(tài)和語
義等屬性進(jìn)行建模
主要的表示形式:
拓?fù)淠P?/p>
描述環(huán)境連通性的拓?fù)鋱D
場(chǎng)景圖
將環(huán)境建模為有向圖
,其中節(jié)點(diǎn)表示對(duì)象或位置等實(shí)體
,邊緣表示這些實(shí)體之間的關(guān)系場(chǎng)景重建-新表示HARBININSTITUTEOF
TECHNOLOGY75場(chǎng)景理解環(huán)境視覺信息單個(gè)物體多個(gè)物體場(chǎng)景圖像76HARBININSTITUTEOF
TECHNOLOGY場(chǎng)景信息獲取
場(chǎng)景重建
場(chǎng)景理解新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射
主動(dòng)定位拓?fù)浣Y(jié)構(gòu)
場(chǎng)景圖原始信息場(chǎng)景表示場(chǎng)景認(rèn)知空間關(guān)系推理時(shí)序變化檢測(cè)激光
信息觸覺
超聲雷達(dá)
信息化學(xué)·
·
·物體識(shí)別對(duì)象實(shí)現(xiàn)傳統(tǒng)
SLAM聽覺紅外難利用易利用形成構(gòu)建抽取
理解場(chǎng)景信息是場(chǎng)景感知的重要組成部分
高效的理解過程(例如分割、識(shí)別和檢測(cè))為智能體理解復(fù)雜環(huán)境
場(chǎng)景理解不僅包括物體的識(shí)別
,還包括物體之間的空間關(guān)系和場(chǎng)景幀之間的時(shí)間變化場(chǎng)景理解物體識(shí)別空間關(guān)系推理時(shí)序變化檢測(cè)HARBININSTITUTEOF
TECHNOLOGY77
常規(guī)的、主流的物體識(shí)別方法:
YOLO
MASK
RCNN
ResNet
這些方法的局限性:難以利用機(jī)器人與環(huán)境的交互能力
具身智能的物體識(shí)別:
物理交互:通過移動(dòng)(觸碰)物體實(shí)現(xiàn)更好的物體識(shí)別
更改視點(diǎn):通過移動(dòng)改變自身在場(chǎng)景中的位置
,結(jié)合多視角信息實(shí)現(xiàn)更好的物體識(shí)別[1]
Redmon,etal.Youonlylookonce:
Unified,
real-timeobject
detection.
2016
CVPR[2]
He,etal.
Mask
r-cnn.2017
ICCV[3]
He,etal.
Deep
residuallearningforimage
recognition.2016
CVPR物體識(shí)別HARBININSTITUTEOF
TECHNOLOGY78物體識(shí)別-物理交互通過對(duì)象操作實(shí)現(xiàn)實(shí)例分割的流程[1]
Pathak,etal.
Learning
instancesegmentationbyinteraction.
2018
CVPR
Pathaketal.利用簡(jiǎn)單的對(duì)象操作來協(xié)助實(shí)例分割和對(duì)象識(shí)別HARBININSTITUTEOF
TECHNOLOGY79
Seeingby
Moving模仿人類“通過繞著同一物體走動(dòng)來獲取多個(gè)觀察視角”的策略
,使機(jī)器人能夠通過自主運(yùn)動(dòng)獲取單個(gè)物體的多視圖數(shù)據(jù)
該方法從人類的演示中學(xué)習(xí)移動(dòng)策略
,而其他方法則依靠強(qiáng)化學(xué)習(xí)來學(xué)習(xí)行為策略物體識(shí)別-更改視點(diǎn)[1]
Fang,etal.
Movetoseebetter:Self-improving
embodied
object
detection.
2020
arXivHARBININSTITUTEOF
TECHNOLOGY80Rel3d
Spatialsense
open
images[1]Goyal,etal.
Rel3d:
Aminimallycontrastivebenchmark
for
grounding
spatial
relations
in
3d.
2020
NIPS[2]Yang,etal.Spatialsense:
Anadversariallycrowdsourcedbenchmark
for
spatial
relation
recognition.
2019
ICCV[3]
Kuznetsova,etal.Theopen
imagesdatasetv4:
Unified
imageclassification,object
detection,
and
visual
relationship
detection
at
scale.
2020
IJCV空間關(guān)系推理
空間關(guān)系主要涉及視覺檢測(cè)和關(guān)系推理
相關(guān)的數(shù)據(jù)集以及空間關(guān)系推理的基準(zhǔn)benchmark:
Rel3d
Spatialsense
open
imagesHARBININSTITUTEOF
TECHNOLOGY81
場(chǎng)景變化檢測(cè):一個(gè)機(jī)器人在兩個(gè)不同的時(shí)間探索環(huán)境
,并識(shí)別它們之間的任何物體變化。物體變化包括環(huán)境中添加和移除的物體
常用數(shù)據(jù)集:
roboticvisionsceneunderstandingchallenge
ChangeSim
VL-CMU-CD
PCD時(shí)序變化檢測(cè)[1]
Hall,etal.Theroboticvisionscene
understandingchallenge.
2020
arXiv[2]
Park,etal.Changesim:Towardsend-to-endonlinescene
change
detection
in
industrial
indoor
environments.
2021
IROS[3]
Prabhakar,etal.Cd
net++:
Improvedchangedetectionwithdeep
neural
network
feature
correlation.
2020
IJCNN[4]Sakurada,etal.Weaklysupervisedsilhouette-basedsemantic
scene
change
detection.
2020
ICRAHARBININSTITUTEOF
TECHNOLOGY82
CSR主要針對(duì)具身導(dǎo)航任務(wù)
,智能體在移動(dòng)穿越場(chǎng)景時(shí)跟蹤物體
,相應(yīng)地更新表示
,并檢測(cè)房間
配置的變化
DCA-Det實(shí)現(xiàn)面向物體級(jí)別的變化檢測(cè)場(chǎng)景變化檢測(cè)CSR框架圖
DCA-Det框架圖[1]Gad
re,etal.Continuousscene
representationsforembodied
ai.
2022
CVPR[2]Zhang,etal.Object-levelchangedetectionwith
a
dual
correlation
attention-guided
detector.
2021
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版?zhèn)€人信用卡債務(wù)代償協(xié)議書3篇
- 2024年版農(nóng)田堰塘建設(shè)協(xié)議模板版B版
- 二零二五年度鋼筋加工廠勞務(wù)分包合同范本6篇
- 武漢紡織大學(xué)外經(jīng)貿(mào)學(xué)院《分子模擬的原理和應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版公墓環(huán)境維護(hù)與生態(tài)保護(hù)合作協(xié)議3篇
- 2024版影視制作與版權(quán)轉(zhuǎn)讓合同
- 2024英倫游學(xué)夏令營(yíng)青少年領(lǐng)袖培養(yǎng)與團(tuán)隊(duì)建設(shè)服務(wù)合同3篇
- 二零二五年度城市更新項(xiàng)目舊房收購(gòu)合同細(xì)則3篇
- 太原幼兒師范高等??茖W(xué)校《公共藝術(shù)項(xiàng)目實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘇州工藝美術(shù)職業(yè)技術(shù)學(xué)院《物聯(lián)網(wǎng)與云計(jì)算》2023-2024學(xué)年第一學(xué)期期末試卷
- 《項(xiàng)目施工組織設(shè)計(jì)開題報(bào)告(含提綱)3000字》
- ICU常見藥物課件
- CNAS實(shí)驗(yàn)室評(píng)審不符合項(xiàng)整改報(bào)告
- 農(nóng)民工考勤表(模板)
- 承臺(tái)混凝土施工技術(shù)交底
- 臥床患者更換床單-軸線翻身
- 計(jì)量基礎(chǔ)知識(shí)培訓(xùn)教材201309
- 中考英語 短文填詞、選詞填空練習(xí)
- 阿特拉斯基本擰緊技術(shù)ppt課件
- 初一至初三數(shù)學(xué)全部知識(shí)點(diǎn)
- 新課程理念下的班主任工作藝術(shù)
評(píng)論
0/150
提交評(píng)論