GTC大會(huì)及Figure“具身智能”奇點(diǎn)已至_第1頁
GTC大會(huì)及Figure“具身智能”奇點(diǎn)已至_第2頁
GTC大會(huì)及Figure“具身智能”奇點(diǎn)已至_第3頁
GTC大會(huì)及Figure“具身智能”奇點(diǎn)已至_第4頁
GTC大會(huì)及Figure“具身智能”奇點(diǎn)已至_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄索引一、偉達(dá)—形器時(shí)代賣人” 5(一英達(dá)出項(xiàng)形機(jī)人用術(shù) 5(二英達(dá)現(xiàn)程式的AI能促具身能快發(fā)展 7二AI大型齊余圖,身能點(diǎn)至 8(一)FIGURE01展機(jī)人與工能撞生絢麗花 8(二)AI模補(bǔ)人機(jī)器剩拼,身能奇已至 9三FIGURE:先入VLM模型+礎(chǔ)控法 10(一)FIGURE01用層式控徑與OPENAI的勢補(bǔ) 10(二“LM?;\(yùn)控法或成短最佳用案 12四、資議 15五、險(xiǎn)示 15圖表索引圖1:偉人機(jī)開發(fā)術(shù)架 5圖2:偉達(dá)GR00T礎(chǔ)??蛄鞒?6圖3:偉達(dá)JetsonThor計(jì)算臺(tái) 6圖4:形器在IsaacLab虛環(huán)訓(xùn)練 7圖5:OSMO實(shí)云機(jī)器工流調(diào)度 7圖6:偉達(dá)形器人示 7圖7:Figure01根據(jù)完成務(wù) 8圖8:Figure01展現(xiàn)處理個(gè)務(wù)力自判斷力 9圖9:Figure01分層控框架 10圖10:層控決策OpenAIModel與PaLM-E 圖學(xué)框與MobileALOHA模學(xué)習(xí) 12圖12:模大型人形器的條術(shù)線 13圖13:模和礎(chǔ)各有缺和用領(lǐng)域 14圖14:著體大效率提,形器通用水將一提升 14一、英偉達(dá)—人形機(jī)器人時(shí)代“賣水人”(一)英偉達(dá)推出多項(xiàng)人形機(jī)器人專用技術(shù)GTC形機(jī)器人的開發(fā)和發(fā)展必要的技術(shù),其包含GR00T基礎(chǔ)模型、基于Omniverse的ISAAC實(shí)驗(yàn)室和GR00T堆棧。圖1:英偉達(dá)人形機(jī)器人開發(fā)技術(shù)框架數(shù)據(jù)來源:英偉達(dá)官網(wǎng),英偉達(dá)宣布推出GR00T人形機(jī)器人基礎(chǔ)模型。根據(jù)英偉達(dá)官網(wǎng),GR00T旨在為通用人形機(jī)器人構(gòu)建基礎(chǔ)模型,GR00T模型將多模態(tài)指令和過去的互動(dòng)作為輸入并產(chǎn)生機(jī)器人下一個(gè)動(dòng)作,之后機(jī)器人將動(dòng)作執(zhí)行后的環(huán)境信息觀察反饋至GR00T進(jìn)行下一次循環(huán)。由GR00T驅(qū)動(dòng)的機(jī)器人將被設(shè)計(jì)為通過觀察人類行為來來理解自然語言和模擬動(dòng)作,快速學(xué)習(xí)以適應(yīng)并和現(xiàn)實(shí)世界互動(dòng)。視頻中展示傅利葉GR1機(jī)器人已經(jīng)具備互動(dòng)能力。圖2:英偉達(dá)GR00T基礎(chǔ)模型框架流程數(shù)據(jù)來源:英偉達(dá)官網(wǎng),英偉達(dá)推出人形機(jī)器人智能專用計(jì)算平臺(tái)JetsonThor。根據(jù)英偉達(dá)官網(wǎng),JetsonThor能夠執(zhí)行復(fù)雜的任務(wù)并與人和機(jī)器安全自然地交互。它采用模塊化架構(gòu),針對性能、功耗和尺寸進(jìn)行了優(yōu)化。該Soc芯片包括基于NVIDIABlackwell架構(gòu)的下一代GPU,帶有transformer引擎專為人形機(jī)器人打造,能提供800Tflops的FP8算力,100GB以太網(wǎng)帶寬。圖3:英偉達(dá)JetsonThor計(jì)算平臺(tái)數(shù)據(jù)來源:英偉達(dá)官網(wǎng),IsaacLab構(gòu)建虛擬環(huán)境,加速人形機(jī)器人學(xué)習(xí)。根據(jù)英偉達(dá)官網(wǎng),為了加速人形機(jī)器人的學(xué)習(xí),英偉達(dá)開發(fā)了基于Omniverse技術(shù)的IsaacLab,能實(shí)現(xiàn)物理精確的世界模擬。人形機(jī)器人可以在IsaacLab的模擬環(huán)境中使用深度強(qiáng)化學(xué)習(xí),并在虛擬環(huán)境中反復(fù)訓(xùn)練以學(xué)習(xí)技能。OSMO實(shí)現(xiàn)云原生機(jī)器人工作流程調(diào)度。根據(jù)英偉達(dá)官網(wǎng),OSMO是一個(gè)云原生工作流編排平臺(tái),可以輕松地從本地到私有云和公有云資源集群擴(kuò)展工作負(fù)載,從而實(shí)現(xiàn)DGX和OVX系統(tǒng)的無縫協(xié)調(diào),進(jìn)而實(shí)現(xiàn)高效和迭代的模型開發(fā)。一旦模型準(zhǔn)備好進(jìn)行測試和驗(yàn)證,OSMO就可以在OVX上以獨(dú)特的方式編排軟件在環(huán)工作流程,以及使用NVIDIAJetson計(jì)算資源的硬件在環(huán)工作流程。圖4:人形機(jī)器人在IsaacLab虛擬環(huán)境訓(xùn)練 圖5:OSMO實(shí)現(xiàn)云原機(jī)器人工作流程調(diào)度數(shù)據(jù)來源:英偉達(dá)官網(wǎng), 數(shù)據(jù)來源:英偉達(dá)官網(wǎng),(二)英偉達(dá)實(shí)現(xiàn)里程碑式的AI賦能,促進(jìn)具身智能快速發(fā)展多家人形機(jī)器人廠商將依附英偉達(dá)技術(shù)實(shí)現(xiàn)快速發(fā)展。根據(jù)現(xiàn)場視頻,英偉達(dá)將多個(gè)品牌的人形機(jī)器人放在同一個(gè)實(shí)驗(yàn)室進(jìn)行訓(xùn)練培訓(xùn),合作的人形機(jī)器人廠商包括Figure、宇樹、Apptronik(阿波羅)、Agility、SanctuaryAI(Pheonix)、1x、傅里葉、波士頓動(dòng)力、小鵬px5等。英偉達(dá)實(shí)現(xiàn)里程碑式AI賦能,具身智能引來快速發(fā)展。英偉達(dá)此次展示出的Issaclab、OSMO等對于人形從“機(jī)器人”變成“具身智能”具有極為重要的意義。沒圖6:英偉達(dá)GTC人形機(jī)器人展示數(shù)據(jù)來源:英偉達(dá)官網(wǎng),二、二、AI大模型補(bǔ)齊剩余拼圖,具身智能奇點(diǎn)已至(一)Figure01展現(xiàn)機(jī)器人與人工智能碰撞產(chǎn)生的絢麗火花ChatGPT+人形機(jī)器人,F(xiàn)igure展現(xiàn)機(jī)器人與人工智能碰撞產(chǎn)生的絢麗火花。根據(jù)Figure官方社交媒體,3月13日Figure發(fā)布了和OpenAI合作后的首個(gè)人形機(jī)器人Figure01的演示視屏,受益于OpenAI強(qiáng)大的人工智能方面的加成,F(xiàn)igure01展現(xiàn)Figure01OpenAI賦能Figure01邏輯思考與學(xué)習(xí)能力。得益于OpenAI成熟的大模型技術(shù)的加持,此次公布的視頻中Figure01仿佛擁有了大腦,其不只是簡單的執(zhí)行命令,還嗎?”時(shí),F(xiàn)igure01。圖7:Figure01根據(jù)要求完成任務(wù)數(shù)據(jù)來源:Figure,F(xiàn)igure01能同時(shí)處理多任務(wù)并通過學(xué)習(xí)提升其任務(wù)完成的能力。視頻中Figure01在完成收拾垃圾任務(wù)的同時(shí)還能回答所問問題,展現(xiàn)出同時(shí)處理多個(gè)任務(wù)的能力。其次,F(xiàn)igure01的行為是通過自主學(xué)習(xí)和適應(yīng)環(huán)境而習(xí)得的,并不依賴遠(yuǎn)程操控且延遲很低,其能識(shí)別桌上杯子和盤子的位置,還能自主的判斷出接下來可能的任務(wù)并完成。Figure01在原速播放的展示視頻中展現(xiàn)出了低延遲且精準(zhǔn)智能的任務(wù)完成能力,象征著其已初步具備現(xiàn)實(shí)生活中任務(wù)完成的要求。圖8:Figure01展現(xiàn)同時(shí)處理多個(gè)任務(wù)能力和自主判斷能力數(shù)據(jù)來源:Figure,(二)AI大模型補(bǔ)齊人形機(jī)器人剩余拼圖,具身智能奇點(diǎn)已至Figure01的展示證實(shí)人形機(jī)器人將成為AI最佳的物理載體。隨著人工智能大模型的快速發(fā)展,應(yīng)用到何處且如何應(yīng)用一直是我們所關(guān)注的核心,F(xiàn)igure與OpenAI的結(jié)合證實(shí)了AI大模型的確能給人形機(jī)器人帶來質(zhì)的飛躍,證實(shí)了兩者相結(jié)合的道路可行性,人形機(jī)器人將成為人工智能最佳的物理載體。AI大模型為人形機(jī)器人進(jìn)展到具身智能的剩余拼圖。之前,多家人形機(jī)器人產(chǎn)品都展現(xiàn)出較強(qiáng)的運(yùn)動(dòng)能力,如波士頓動(dòng)力Atlas具備翻滾能力,宇樹機(jī)器人具備良好的抗外力沖擊等。AI大模型如同人形機(jī)器人所缺失的一塊拼圖,F(xiàn)igure01展現(xiàn)出了完整拼圖所具備的能力,其象征著人工智能與人形機(jī)器人相結(jié)合的道路已逐漸光明,未來人形機(jī)器人將迎來下一階段的快速發(fā)展時(shí)期。AI大模型賦能人形機(jī)器人,具身智能奇點(diǎn)已至。短短13天的合作,F(xiàn)igureAI推出的人形機(jī)器人就能達(dá)到如此震撼的效果,展現(xiàn)出了AI大模型與人形機(jī)器人相結(jié)合的強(qiáng)大能量。Figure01已經(jīng)同時(shí)具備交互、處理信息、決策的能力并能通過機(jī)器人實(shí)體在物理世界中的行為來體現(xiàn),已經(jīng)具備具身智能的特征,具身智能的奇點(diǎn)已至。三、Figure:率先導(dǎo)入VLM大模型+基礎(chǔ)運(yùn)控算法(一)Figure01選用分層式?jīng)Q控路徑完成與OpenAI的優(yōu)勢互補(bǔ)Figure01VLM大模型FigureCoreyLynch01OpenAINetworkPolicies(NNP)Wholebodycontroller(WBC)VLM存在中間的層級。圖9:Figure01分層式?jīng)Q控框架數(shù)據(jù)來源:Twitter,高層級控制決策功能類似PaLM-E,完成信息的處理與理解。高層級OpenAImodel作為Figure01NNPPaLM-EFigure01與PaLM-E圖10:高層級控制決策OpenAIModel與PaLM-E數(shù)據(jù)來源:PaLM-E:AnEmbodiedMultimodalLanguageModel,F(xiàn)igure0101上運(yùn)行哪種習(xí)得的閉環(huán)行GPU中層控制決策與Mobile和RT-1根據(jù)所展示的Figure01NNP此我們認(rèn)為這與斯坦福的MobileALOHA的模仿學(xué)習(xí)和RT-1學(xué)習(xí)框架相類似。根據(jù)MobileALOHAMobileALOHART-1。圖11:RT-1學(xué)習(xí)框架與MobileALOHA模仿學(xué)習(xí)數(shù)據(jù)來源:RT-1:ROBOTICSTRANSFORMERFORREAL-WORLDCONTROLATSCALE,MobileALOHA:LearningBimanualMobileManipulationwithLow-CostWhole-BodyTeleoperation,低層級WBC主要完成機(jī)器人特定部位的具體的運(yùn)動(dòng),為FigureAI的優(yōu)勢領(lǐng)域。在大模型賦能機(jī)器人之前,傳統(tǒng)人形機(jī)器人廠商低層級運(yùn)動(dòng)控制算法WBC會(huì)對中層級所調(diào)用的“技能包”輸出的高層級動(dòng)作描述進(jìn)行行為序列解碼,從而轉(zhuǎn)換為低層級的控制信號,一般為特定的電機(jī)控制命令、關(guān)節(jié)角度或力度。FigureAI的運(yùn)動(dòng)控制算法與OpenAI大模型優(yōu)勢互補(bǔ),共同迎來具身智能曙光。Figure01分層式?jīng)Q控路徑是將FigureAI在人形機(jī)器人運(yùn)動(dòng)控制端的優(yōu)勢與OpenAI在AI大模型感知層的優(yōu)勢相結(jié)合,以此實(shí)現(xiàn)機(jī)器人“大腦”和“小腦”的協(xié)調(diào),從而帶來如此震撼的效果。(二“VLM大模型基礎(chǔ)運(yùn)控算法”或?qū)⒊蔀槎唐谧罴褢?yīng)用方案人工智能大模型主要是對語言和視覺信息的處理和理解,為了達(dá)到操控機(jī)器人動(dòng)作的能力,目前主要分為分層式?jīng)Q控與一體化大模型兩種路徑。分層式?jīng)Q控路徑主要將信息的接受處理和任務(wù)的生成拆解交給高層級的大模型VLM處理,低層級的運(yùn)控算法根據(jù)高層級大模型的輸出結(jié)果產(chǎn)生對機(jī)器人的控制,目前推出的模型包括SayCan、PaLM-E等。一體化大模型則在接受語言和視覺信號后直接輸出機(jī)器人的運(yùn)動(dòng)指令,跳過高低層級控制構(gòu)建,直接實(shí)現(xiàn)理解到控制的過程,例如RT-2等。圖12:多模態(tài)大模型賦能人形機(jī)器人的兩條技術(shù)路線數(shù)據(jù)來源:短期內(nèi)一體化大模型實(shí)時(shí)性困境難以逾越。想要實(shí)現(xiàn)人形機(jī)器人在現(xiàn)實(shí)場景中的應(yīng)用,不僅要求機(jī)器人能夠提供準(zhǔn)確的決策,更要求機(jī)器人的動(dòng)作響應(yīng)具有實(shí)時(shí)性。Figure01在視頻中展現(xiàn)出良好的實(shí)時(shí)性,其WBC低層級的控制周期為200Hz且能在原速狀態(tài)下流暢的完成任務(wù)。雖然一體化大模型能的目標(biāo)實(shí)現(xiàn)端到端簡單直接的機(jī)器人運(yùn)動(dòng)指令,但目前實(shí)時(shí)性問題是大模型難以逾越的一座大山。在RT-2論文展示的一些失敗案例中,有一項(xiàng)就是因?yàn)闄C(jī)械臂的控制周期太慢,跟不上馬克筆的滾動(dòng)速度而導(dǎo)致任務(wù)執(zhí)行失敗。Figure01所用的分層式?jīng)Q控路徑短期或?qū)⑹侨诵螜C(jī)器人落地的較優(yōu)選擇。在人工智能大模型出現(xiàn)之前,多家人形機(jī)器人廠商都已開發(fā)研制了自身的運(yùn)動(dòng)控制算法和01圖13:大模型和基礎(chǔ)模型各有優(yōu)缺點(diǎn)和適用的領(lǐng)域數(shù)據(jù)來源:長期來看,人形機(jī)器人需要依賴大模型能力的提升來實(shí)現(xiàn)通用化。目前VLM+運(yùn)控算法大多需要利用模仿學(xué)習(xí),從演示中學(xué)習(xí)復(fù)雜的移動(dòng)操作任務(wù)。雖然模仿學(xué)習(xí)能圖14:隨著一體化大模型效率的提高,人形機(jī)器人通用化水平將進(jìn)一步提升數(shù)據(jù)來源:四、投資建議里程碑式的Issaclabsim等對AI大必選。五、風(fēng)險(xiǎn)提示(一)技術(shù)進(jìn)展不及預(yù)期的風(fēng)險(xiǎn)目前電子皮膚還存在成本較高,多功能觸覺傳感存在串?dāng)_等問題,距離達(dá)到人類皮膚的觸覺傳感能力還有較大差距。若技術(shù)進(jìn)展不及預(yù)期,無法進(jìn)一步降低大規(guī)模應(yīng)用的成本,則電子皮膚可能只能用于機(jī)器人指尖等關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論