




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器人泛化能力天花板的“大小腦”分析師:聞學(xué)臣執(zhí)業(yè)證書編號(hào):S0740519090007分析師:蘇儀分析師:聞學(xué)臣執(zhí)業(yè)證書編號(hào):S0740519090007分析師:蘇儀執(zhí)業(yè)證書編號(hào):S0740520060001執(zhí)業(yè)證書編號(hào):S0740525030001n具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。具體而言,具身智能在機(jī)器人上的應(yīng)用體現(xiàn)可以劃分為三階段:感知、推理、執(zhí)行。n具身智能是機(jī)器人與人工智能發(fā)展的交匯點(diǎn)。機(jī)器人的通用性取決于泛化性的發(fā)展程度,自20世紀(jì)50年代以來(lái),經(jīng)過(guò)多輪發(fā)展,機(jī)器人開始從傳統(tǒng)的自動(dòng)化工業(yè)場(chǎng)景機(jī)器人,向通用泛化場(chǎng)景的機(jī)器人方向發(fā)展。而人工智能在幾十年發(fā)展過(guò)后,在今天迎來(lái)了智能程度、通識(shí)程度更高的生成式大模型時(shí)代。在當(dāng)前時(shí)間點(diǎn),人工智能可以真正為機(jī)器人賦予“大腦”,機(jī)器人也可為人工智能提供“身體”,兩者深度融合,而融合的交點(diǎn)——具身智能,則是人工智能與機(jī)器人相互促進(jìn)發(fā)展而形成的必然的產(chǎn)業(yè)趨勢(shì)。n目前具身大模型可以分為兩大流派,一類是端到端大模型,一類是分層具身大模型。1)端到端大模型:能夠直接實(shí)現(xiàn)從人類指令到機(jī)械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動(dòng)作。2)分層具身大模型:不同層次模型協(xié)作,上層大模型進(jìn)行感知與決策,底層硬件層和中間響應(yīng)快的小模型進(jìn)行決策的分解與執(zhí)行。目前,由于受數(shù)據(jù)制約難以達(dá)到性能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機(jī)器人的具身智能。?訓(xùn)練具身大模型的痛點(diǎn):數(shù)據(jù)。機(jī)器人需要用海量數(shù)據(jù)進(jìn)行訓(xùn)練,使其變得更加智能。但機(jī)器人是非常新的領(lǐng)域,嚴(yán)重缺乏訓(xùn)練數(shù)據(jù)的積累。對(duì)應(yīng)而言,目前主要的數(shù)據(jù)收集方法有四種:1)遠(yuǎn)程操作,即由實(shí)驗(yàn)人員操作機(jī)械手柄,遠(yuǎn)程控制機(jī)器人做出相同動(dòng)作,以此來(lái)積累數(shù)據(jù);2)AR,即通過(guò)AR環(huán)境對(duì)機(jī)器人進(jìn)行訓(xùn)練,積累數(shù)據(jù);3)仿真,即通過(guò)海量算力進(jìn)行模擬運(yùn)算,計(jì)算得出海量機(jī)器人訓(xùn)練數(shù)據(jù)集;4)視頻學(xué)習(xí),即通過(guò)多模態(tài)大模型,直接讓機(jī)器人通過(guò)視頻學(xué)習(xí)人類動(dòng)作,從而積累訓(xùn)練數(shù)據(jù)。n人形機(jī)器人產(chǎn)業(yè)未來(lái)展望:從專用到通用,從ToB到ToC。短期來(lái)看,任務(wù)相對(duì)聚焦,對(duì)泛化能力要求不高工業(yè)制造場(chǎng)景下的任務(wù)正在更快進(jìn)入商業(yè)化階段。在工業(yè)制造場(chǎng)景實(shí)現(xiàn)商業(yè)化落地之后,海量機(jī)器人的具身數(shù)據(jù)疊加算力技術(shù)的進(jìn)步,機(jī)器人的能力將循序漸進(jìn)逐步解鎖,并向商用服務(wù)、家庭服務(wù)等更開放的場(chǎng)景進(jìn)行延伸,屆時(shí)市場(chǎng)有望達(dá)萬(wàn)n投資建議:作為機(jī)器人的“大小腦”,在硬件已達(dá)到較高工藝水平的情況下,具身智能的技術(shù)能力或?qū)⒊蔀闄C(jī)器人發(fā)展的天花板。當(dāng)前多家領(lǐng)軍機(jī)器人企業(yè)均已各自的方式在具身智能領(lǐng)域投入較多資源與精力,以提升自家機(jī)器人的泛化行為能力。我們建議投資人持續(xù)關(guān)注具身智能產(chǎn)業(yè)的技術(shù)變革突破、商業(yè)化落地路線、節(jié)奏與進(jìn)展等。具體到標(biāo)的上,建議關(guān)注索辰科技(物理AI、機(jī)器人子公司)、能科科技(特種行業(yè)AI能力領(lǐng)先)等。n風(fēng)險(xiǎn)提示:機(jī)器人產(chǎn)業(yè)相關(guān)政策落地不及預(yù)期;機(jī)器人商業(yè)化落地推進(jìn)不及預(yù)期;AI與具身智能產(chǎn)業(yè)技術(shù)發(fā)展不及預(yù)期;行業(yè)競(jìng)爭(zhēng)加??;研報(bào)信息更新不及時(shí)的風(fēng)險(xiǎn)等。11223344什么是具身智能具身智能:機(jī)器人與AI的交匯具身大模型賦能人形機(jī)器人蛻變具身智能賦能下,未來(lái)機(jī)器人發(fā)展方向 n具身智能的定義:一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。?具身智能的實(shí)質(zhì):強(qiáng)調(diào)有物理身體的智能體通過(guò)與物理環(huán)境進(jìn)行交互而獲得智能的人工智能研究范式。n從機(jī)器人的角度出發(fā),具身智能在機(jī)器人上的應(yīng)用體現(xiàn)可以劃分為三階段:感知、推理、執(zhí)行。n機(jī)器人需要具備環(huán)境感知能力,依據(jù)感知對(duì)象的不同,可以分為四類:物體感知、場(chǎng)景感知、行為感知、表達(dá)感知。n具身感知的過(guò)程主要包括以下幾步:n具身感知的過(guò)程主要包括以下幾步:任務(wù)規(guī)劃、導(dǎo)航、具身問(wèn)答。n任務(wù)規(guī)劃:任務(wù)規(guī)劃(TaskPlanning)是具身智能的核心任務(wù)之一,將抽象的非可執(zhí)行人類指令轉(zhuǎn)換為具體的可執(zhí)行技能。這一步驟的完成需要兩步:1)將人類指令分解為機(jī)器人可執(zhí)行的技能,2)執(zhí)行技能。n結(jié)合大模型的任務(wù)規(guī)劃:大模型作為轉(zhuǎn)換器、大模型作為分解器。?作為轉(zhuǎn)換器:LLM+P,用LLM將狀態(tài)信息描述成PDDL語(yǔ)言再進(jìn)行規(guī)劃,取代以往需要人工針對(duì)實(shí)際問(wèn)題書寫PDDL語(yǔ)言對(duì)任務(wù)進(jìn)行建模;?作為規(guī)劃器:可以zero-shot進(jìn)行任務(wù)規(guī)劃。資料來(lái)源:哈爾濱工業(yè)大學(xué),中泰證券研究所資料來(lái)n具身導(dǎo)航(EmbodiedNavigation):智能體在3D環(huán)境中移動(dòng)完成導(dǎo)航目標(biāo)。n早期的具身導(dǎo)航,通過(guò)構(gòu)建一系列基于規(guī)則的組件和算法,實(shí)現(xiàn)有效的環(huán)境感知、定位、路徑規(guī)劃和避障。而基于學(xué)習(xí)的導(dǎo)航則利用深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)技術(shù),提高模型對(duì)復(fù)雜環(huán)境和新場(chǎng)景的泛化能力。不同于傳統(tǒng)算法依賴預(yù)定義的規(guī)則和手工設(shè)計(jì)的特征,基于學(xué)習(xí)的導(dǎo)航算法從大量數(shù)據(jù)中學(xué)習(xí)環(huán)境特征和導(dǎo)航策略,實(shí)現(xiàn)強(qiáng)自適應(yīng)性和高靈活性。?視覺(jué)導(dǎo)航:基于學(xué)習(xí)的導(dǎo)航的一個(gè)重要分支,它依靠計(jì)算機(jī)視覺(jué)來(lái)理解環(huán)境信息并做出導(dǎo)航?jīng)Q策。?視覺(jué)語(yǔ)言導(dǎo)航:通過(guò)自然語(yǔ)言指令和視覺(jué)圖像進(jìn)行導(dǎo)航的任務(wù),其目標(biāo)是開發(fā)一種能夠與人類進(jìn)行自然語(yǔ)言交流并在現(xiàn)實(shí)3D環(huán)境中導(dǎo)航的具身智能體。1)大模型出現(xiàn)之前:主要通過(guò)RNN,LSTM,Transformer等網(wǎng)絡(luò)來(lái)提取命令中的語(yǔ)義信息;2)大模型出現(xiàn)后:利用大模型作為輔助來(lái)幫助規(guī)劃器輸出規(guī)劃或者大模型直接作為規(guī)劃器來(lái)輸出規(guī)劃。圖表:具身導(dǎo)航的發(fā)展階段n具身問(wèn)答:機(jī)器人需要主動(dòng)探索環(huán)境,定位目標(biāo)物體或位置獲取環(huán)境中的信息,然后基于獲取的信息回答問(wèn)題。該任務(wù)可視為導(dǎo)航、VQA任務(wù)的結(jié)合。?相比于VQA等已有問(wèn)答任務(wù),具身問(wèn)答的特點(diǎn)在于機(jī)器人具有主動(dòng)行動(dòng)能力。n具身執(zhí)行,就是把任務(wù)具體執(zhí)行出來(lái),其中最重要的環(huán)節(jié)就是技能學(xué)習(xí)。n技能學(xué)習(xí):以技能描述、環(huán)境觀察為輸入,輸出完成技能所需的7Dof軌跡(主要指人手腕或者機(jī)械臂末端執(zhí)行器的位置、朝向、末端狀態(tài))。技能學(xué)習(xí)主要有兩類方法:?模仿學(xué)習(xí):收集專家演示數(shù)據(jù),用神經(jīng)網(wǎng)絡(luò)擬合。?強(qiáng)化學(xué)習(xí):設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),機(jī)器人通過(guò)交互學(xué)習(xí)行為策略。?兩者的差別在于:模仿學(xué)習(xí)是從樣例中學(xué)習(xí),機(jī)器人學(xué)習(xí)過(guò)程中不與環(huán)境進(jìn)行交互;而強(qiáng)化學(xué)習(xí)從交互中學(xué)習(xí),機(jī)器人學(xué)習(xí)過(guò)程中與環(huán)境進(jìn)行交互。2具身智能:機(jī)器人與AI的交匯n在上個(gè)世紀(jì)六十年代,人類已經(jīng)制造出機(jī)器人并且可以控制其執(zhí)行給定的動(dòng)作。但是對(duì)于復(fù)雜抽象的人類指令,早期需要專家人工設(shè)計(jì)動(dòng)作軌跡,然后再由機(jī)器人執(zhí)行。一個(gè)理想中的智能機(jī)器人應(yīng)該是“通用”的,可以適用于各種場(chǎng)景,進(jìn)行推理決策并執(zhí)行相關(guān)技能,完成各種任務(wù)。n從人工設(shè)計(jì)專門的程序到通用型智能機(jī)器人,存在著巨大的技術(shù)發(fā)展空間,其中最關(guān)鍵的問(wèn)題之一即為泛化性,包括人類指令、環(huán)境配置、物體形狀位置、機(jī)器人類別上的泛化性。泛化性描述了機(jī)器人因?yàn)閷W(xué)習(xí)場(chǎng)景和應(yīng)用場(chǎng)景的任務(wù)設(shè)置不一致導(dǎo)致的性能變化情況,這衡量了機(jī)器人在特定維度上的通用性。n從泛化性的角度來(lái)看,智能機(jī)器人技術(shù)可以劃分為以下幾個(gè)階段,其對(duì)應(yīng)泛化性逐漸變強(qiáng)。n從歷史的角度來(lái)看,工業(yè)機(jī)器人的硬件進(jìn)化不斷發(fā)展,從自動(dòng)化設(shè)備到移動(dòng)機(jī)器人,從協(xié)作機(jī)器人到人形機(jī)器人,每一步都代表著技術(shù)的進(jìn)步和創(chuàng)新。當(dāng)下,已經(jīng)進(jìn)入了AI大模型與機(jī)器人在底層技術(shù)創(chuàng)新和應(yīng)用融合的交叉時(shí)代。n技術(shù)的每一次進(jìn)步都會(huì)帶來(lái)機(jī)器人應(yīng)用場(chǎng)景的突破,且一般會(huì)在精準(zhǔn)、重復(fù)的工業(yè)場(chǎng)景作業(yè)流程中率先得到應(yīng)用。未來(lái),如何提升智能機(jī)器人在開放場(chǎng)景的可用性,是具身智能正在解決的問(wèn)題。n在機(jī)器人領(lǐng)域的應(yīng)用上,生成式AI技術(shù)正在兌現(xiàn)提升機(jī)器人關(guān)鍵能力的潛力,在環(huán)境感知、自主決策、學(xué)習(xí)與適應(yīng)等多個(gè)方面均有表現(xiàn)。n基于網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練的大模型似乎正在觸及AI認(rèn)知的邊界,ScalingLaw下的預(yù)訓(xùn)練大模型性能似乎快要達(dá)到極限,參數(shù)量和數(shù)據(jù)量的擴(kuò)充已經(jīng)難以給模型帶來(lái)質(zhì)的突破。AI想要進(jìn)一步發(fā)展,必須與物理世界建立更加緊密的聯(lián)系,具身智能將是AI繼續(xù)向AGI進(jìn)步的關(guān)鍵途徑。n人工智能和機(jī)器人技術(shù)的發(fā)展并非孤立進(jìn)行,而是相互促進(jìn)、共同演進(jìn)的。人工智能為機(jī)器人賦予了“大腦”,使其具備感知、思考和決策能力;而機(jī)器人則為人工智能提供了“身體”,使其能夠與真實(shí)世界進(jìn)行交互,獲取經(jīng)驗(yàn)和知n具身智能的興起是人工智能和機(jī)器人技術(shù)各自發(fā)展到一定階段的必然結(jié)果,是兩者深度融合的體現(xiàn)。人工智能的持續(xù)進(jìn)步需要與物理世界的交互能力,而機(jī)器人的未來(lái)發(fā)展也離不開更高級(jí)別的智能化水平。n如果說(shuō)OpenAI的ChatGPT引爆了2023年對(duì)大語(yǔ)言模型的投資熱潮,那么Tesla入局人形機(jī)器人和黃仁勛的“AI的下一個(gè)浪潮是具身智能”,則徹底帶火了具身智能與人形機(jī)器人領(lǐng)域的投資熱潮,成為2024年科技產(chǎn)業(yè)投資的最大熱點(diǎn)。n從投資角度看,頭部人形機(jī)器人的本體研發(fā)集成廠商已經(jīng)歷多輪融資,估值較高,行業(yè)整體投資熱點(diǎn)正從人形機(jī)器人本體向具身智能模型和其他上游零部件遷移。FigureAI2024年2月6.星海圖2024年11月超2億元3具身大模型賦能人形機(jī)器n從物理空間的角度來(lái)劃分,大模型可以分為非具身大模型(DisembodiedModel)、具身智能大模型(又被叫做機(jī)器人大模型)(EmbodiedVLAModel)。它們的區(qū)別是能否生成運(yùn)動(dòng)姿態(tài)(例如夾爪的末端位姿等),即是否能跟物理機(jī)器人聯(lián)系起來(lái)。n目前,具身大模型可以分為兩大流派。一類是端到端大模型,一類是分層具身大模型。?從人體“大腦-小腦-肢體”的架構(gòu)來(lái)看,分層大模型通過(guò)不同層次模型協(xié)作,利用底層硬件層和中間響應(yīng)快的小模型彌補(bǔ)上層大語(yǔ)言模型的不足,推動(dòng)機(jī)器人在實(shí)際場(chǎng)景的應(yīng)用,并越來(lái)越多地采用基于學(xué)習(xí)的控制方法。?VLA等端到端模型能夠直接實(shí)現(xiàn)從人類指令到機(jī)械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動(dòng)作。?分層式路線一度是主流選擇,因?yàn)槎说蕉寺肪€受數(shù)據(jù)制約難以達(dá)到性能要求;機(jī)器人數(shù)據(jù)正在逐步積累,端到端路線在未來(lái)可能成為主流。Vision-Language-ActionModel,中泰證券研n在機(jī)器人中,端到端大模型可實(shí)現(xiàn)直接端到端地從人類指令到機(jī)械臂執(zhí)行,即輸入是圖像及文本指令,輸出是夾爪末端動(dòng)作。以谷歌的RT-1到RT-2的進(jìn)化迭代為例:?谷歌RT-1——關(guān)注泛化能力:2022年,谷歌機(jī)器人研究團(tuán)隊(duì)歷時(shí)17個(gè)月基于13個(gè)機(jī)器人得到了130kepisodes以及超過(guò)700個(gè)任務(wù)的數(shù)據(jù),在該數(shù)據(jù)集的基礎(chǔ)之上,基于模仿學(xué)習(xí)中行為克隆學(xué)習(xí)范式,把Transformer應(yīng)用機(jī)器人的操縱任務(wù)上,提出了RT-1模型。RT-1的輸入由圖片序列、自然語(yǔ)言指令構(gòu)成,輸出由機(jī)械臂運(yùn)動(dòng)的目標(biāo)位姿(Toll,pitchgaw,gripperstαtus)、基座的運(yùn)動(dòng)、模式轉(zhuǎn)換指令構(gòu)成。?谷歌RT-2——獲得涌現(xiàn)能力:2023年,Google的DeepMind團(tuán)隊(duì)基于互聯(lián)網(wǎng)上數(shù)據(jù)訓(xùn)練視覺(jué)-語(yǔ)言模型(VLM),使其能夠?qū)W習(xí)到更多關(guān)于視覺(jué)和語(yǔ)言之間映射關(guān)系的知識(shí)后,在機(jī)器人操縱任務(wù)上微調(diào),提出了RT-2。RT-2的目標(biāo)是訓(xùn)練一個(gè)學(xué)習(xí)機(jī)器人觀測(cè)到動(dòng)作的端到端模型,且能夠利用大規(guī)模預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型的益處,經(jīng)測(cè)評(píng),這類學(xué)習(xí)方法產(chǎn)生的Vision-Language-Action(VLA)模型獲得了涌現(xiàn)能力。資料來(lái)源:機(jī)器人大講堂,騰訊網(wǎng),中泰證券研究所資料n以谷歌RT-2發(fā)布為標(biāo)志,VLA模型正式進(jìn)入人們的視野中并快速發(fā)展。nVLA模型是在視覺(jué)語(yǔ)言模型(VLM)的基礎(chǔ)上發(fā)展而來(lái)的。在VLM基礎(chǔ)上,它還利用了機(jī)器人或汽車運(yùn)動(dòng)軌跡的數(shù)據(jù),進(jìn)一步訓(xùn)練這些現(xiàn)有的VLM,以輸出可用于機(jī)器人或汽車控制的動(dòng)作序列。通過(guò)這種方式,VLA可以解釋復(fù)雜的指令并在物理世界中執(zhí)行相應(yīng)的動(dòng)作。?端到端架構(gòu):VLA是一個(gè)端到端的大模型,這意味著它可以簡(jiǎn)化傳統(tǒng)上需要多個(gè)獨(dú)立模塊才能完成的任務(wù)流程。這不僅可以提高系統(tǒng)的效率,還能增強(qiáng)其靈活性和適應(yīng)性。?泛化能力:VLA具有強(qiáng)大的泛化能力。以谷歌DeepMind推出的RT-2為例,該模型可以在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能。它可以理解并響應(yīng)那些在訓(xùn)練數(shù)據(jù)集中未曾出現(xiàn)過(guò)的命令,并基于底層語(yǔ)言模型提供的思路鏈進(jìn)行推理,從而做出合理的決策。?通用性:VLA具備高度的通用性。由于它是建立在一個(gè)通用的大規(guī)模預(yù)訓(xùn)練基礎(chǔ)上,因此理論上幾乎所有的“智能機(jī)器設(shè)備”都可以使用這套算法。無(wú)論是汽車、飛行器還是其他類型的機(jī)器人,只需要經(jīng)過(guò)適當(dāng)?shù)奈⒄{(diào)就能滿足特定應(yīng)用場(chǎng)景的需求。?數(shù)據(jù)來(lái)源非常有限:谷歌在MountainVillage(美國(guó)加州)辦公室的廚房里采集了17個(gè)月,得到13萬(wàn)條數(shù)據(jù),使得其機(jī)器人在谷歌的廚房里表現(xiàn)可以非常好。但一旦出了這個(gè)廚房,需要考察其環(huán)境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場(chǎng)景中。?推理、響應(yīng)速度仍有待提升:RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達(dá)到1~3Hz,對(duì)應(yīng)機(jī)器人的反射弧長(zhǎng)達(dá)0.3秒甚至1秒。n分層決策模型通過(guò)將感知、規(guī)劃決策、控制和執(zhí)行各模塊分解為多個(gè)層級(jí),分別突破“大腦”和“小腦”,利用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終再整合起來(lái)。?一個(gè)典型案例如Figure02。Figure02采用三層級(jí)方案:1)頂層集成了OpenAI的大模型,負(fù)責(zé)視覺(jué)推理和語(yǔ)言理解;2)中間層是神經(jīng)網(wǎng)絡(luò)策略(NNP),負(fù)責(zé)快速、靈巧的操作,將視覺(jué)信息直接轉(zhuǎn)換為動(dòng)作指令,并輸出這些指令;3)底層是全身控制器,負(fù)責(zé)提供穩(wěn)定的基礎(chǔ)控制,在接收NNP的動(dòng)作指令后,輸出各關(guān)節(jié)的扭矩指令。?另一典例如銀河通用的三層級(jí)大模型方案。1)底層是硬件層,2)中間層是通過(guò)仿真合成數(shù)據(jù)不用任何真實(shí)世界數(shù)據(jù)訓(xùn)練的泛化的技能,3)最上層是大模型,可以調(diào)度中間技能API,來(lái)實(shí)現(xiàn)完整的從任務(wù)的感知、規(guī)劃到執(zhí)行的全流程。資料來(lái)源:AI科技評(píng)論,網(wǎng)易,中泰證券研究所資料來(lái)源:智東西,騰訊網(wǎng),中泰證券研究所3.3分層模型中,大模型為“大腦”n在分層端到端模型方案中,機(jī)器人的四大板塊(感知、規(guī)劃決策、控制和執(zhí)行),逐漸被類人化地劃分為負(fù)責(zé)解決高層次認(rèn)知或決策問(wèn)題(highlevel)的“大腦”,以及負(fù)責(zé)基礎(chǔ)層面的功能性問(wèn)題(lowlevel)的“小腦”。兩大系統(tǒng)各司其職又互相合作,“大腦”負(fù)責(zé)解析任務(wù)需求,整合來(lái)自傳感器的信息,進(jìn)行任務(wù)的細(xì)化和策略規(guī)劃;“小腦”則專注于精細(xì)的運(yùn)動(dòng)控制,確保在“大腦”制定的策略指導(dǎo)下,機(jī)器人能夠準(zhǔn)確無(wú)誤地執(zhí)行動(dòng)作并進(jìn)行必要的調(diào)整。目前較為普遍的方向是,機(jī)器人的“大腦”由大模型來(lái)?yè)?dān)任,“小腦”則依然為底層控制算法。n大腦:負(fù)責(zé)highlevel的感知和規(guī)劃決策系統(tǒng),是多模態(tài)大模型。基于多模態(tài)大模型,機(jī)器人能學(xué)習(xí)、理解、融合和對(duì)齊各傳感器采集而來(lái)的跨模態(tài)信息,實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境的魯棒建模與更精準(zhǔn)、通用的感知,并根據(jù)環(huán)境情況,自主拆解任務(wù)、規(guī)劃動(dòng)作。n目前基于大模型的“大腦”技術(shù)路線正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)?,F(xiàn)階段主要是4條技術(shù)路線:?LLM(大語(yǔ)言模型)+VFM(視覺(jué)基礎(chǔ)模型):實(shí)現(xiàn)人機(jī)語(yǔ)言交互、任務(wù)理解、推理和規(guī)劃,目前最為成熟。主要代表是谷歌的SayCan模型。?VLM(視覺(jué)-語(yǔ)言模型):彌合語(yǔ)言與視覺(jué)理解間的差距,實(shí)現(xiàn)更準(zhǔn)確的任務(wù)規(guī)劃和決策,主要代表是清華大學(xué)的CoPa模型,利用嵌入在基礎(chǔ)模型(比如視覺(jué)語(yǔ)言模型的代表GPT-4V)中的常識(shí)知識(shí)為開放世界機(jī)器人操控生成一系列的自由度末端執(zhí)行器姿勢(shì),生成的操控任務(wù)分為任務(wù)導(dǎo)向抓取和感知運(yùn)動(dòng)規(guī)劃。?VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型):在VLM基礎(chǔ)上增加運(yùn)動(dòng)控制,解決機(jī)器人運(yùn)動(dòng)軌跡決策問(wèn)題。主要代表是谷歌RT-H模型,學(xué)習(xí)語(yǔ)言和運(yùn)動(dòng),并使用視覺(jué)上下文,通過(guò)利用語(yǔ)言-視覺(jué)-動(dòng)作結(jié)合的多任務(wù)數(shù)據(jù)集學(xué)習(xí)更強(qiáng)大和靈活的動(dòng)作策略?多模態(tài)大模型:實(shí)現(xiàn)對(duì)物理世界環(huán)境的全面感知,是未來(lái)的主要研究方向。主要代表是麻省理工、IBM等共同研究的MultiPLY模型,將視覺(jué)、觸覺(jué)、語(yǔ)音等3D環(huán)境的各類特征作為輸入,以形成場(chǎng)景外觀的初步印象,并通過(guò)多視圖關(guān)聯(lián)將印象中的輸出融合到3D,最終得到以對(duì)象為中心的場(chǎng)景特征。n“小腦”的運(yùn)動(dòng)規(guī)劃與控制是人形機(jī)器人實(shí)現(xiàn)自然和流暢動(dòng)作的關(guān)鍵。目前,“小腦”運(yùn)動(dòng)控制包括基于模型的控制方法和基于學(xué)習(xí)的控制方式兩個(gè)大類。?傳統(tǒng)的基于模型的控制方法:通過(guò)建立機(jī)器人的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)模型,進(jìn)行運(yùn)動(dòng)軌跡規(guī)劃和平衡控制。這一類方法的特點(diǎn)是身體控制穩(wěn)健,但步頻較慢,且整體開發(fā)較為復(fù)雜,成本高,不利于產(chǎn)品快速迭代?;谀P偷目刂品椒ň唧w包括ZMP判據(jù)及預(yù)觀控制、混雜零動(dòng)態(tài)規(guī)劃方法、虛擬模型解耦控制、模型預(yù)測(cè)控制+全身控制(MPC+WBC)等。?基于學(xué)習(xí)的控制方法:使用端到端的人工智能技術(shù),代替復(fù)雜的運(yùn)動(dòng)學(xué)模型,大幅度降低了“小腦”開發(fā)難度、提升了迭代速度,一般通過(guò)人類示教或自主學(xué)習(xí)建立運(yùn)動(dòng)執(zhí)行策略,其中通過(guò)人類示教的方式也稱為模仿學(xué)習(xí),效果依賴高質(zhì)量示范數(shù)據(jù);通過(guò)自主學(xué)習(xí)的方式也稱為強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL),指通過(guò)精心設(shè)計(jì)學(xué)習(xí)目標(biāo),機(jī)器人不斷在環(huán)境中探索逐漸發(fā)現(xiàn)最大化獎(jiǎng)勵(lì)的方式學(xué)習(xí)到最優(yōu)的執(zhí)行策略,效果依賴于仿真環(huán)境。n根據(jù)智元機(jī)器人定義的路線圖,當(dāng)前具身智能大腦已經(jīng)具備認(rèn)知、推理、規(guī)劃的能力,且而小腦層面機(jī)器人技能任務(wù)的訓(xùn)練也是通過(guò)深度學(xué)習(xí)以驅(qū)動(dòng)的。隨著場(chǎng)景、數(shù)據(jù)的增多,多個(gè)特定小模型會(huì)逐漸泛化為通用操作大模型,并最終實(shí)現(xiàn)與上層模型的融合。n一些對(duì)人類來(lái)說(shuō)很簡(jiǎn)單的任務(wù),對(duì)機(jī)器人來(lái)說(shuō)可能并不容易,如靈巧性能力、空間感知能力、平衡恢復(fù)能力等,為了克服這些問(wèn)題,需要用海量數(shù)據(jù)進(jìn)行訓(xùn)練,使機(jī)器人變得更加智能。n但同時(shí),機(jī)器人也是一個(gè)非常新的領(lǐng)域,嚴(yán)重缺乏訓(xùn)練數(shù)據(jù)的積累。對(duì)比不同模態(tài)下的最大數(shù)據(jù)集,文本模態(tài)約15Ttokens,圖片模態(tài)有6B圖文配對(duì)數(shù)據(jù),視頻模態(tài)有2.6B視聽特征數(shù)據(jù)。然而機(jī)器人模態(tài)只有240萬(wàn)個(gè)數(shù)據(jù)片段,相比其他模態(tài)而言,數(shù)據(jù)積累遠(yuǎn)遠(yuǎn)不夠。n針對(duì)數(shù)據(jù)這一問(wèn)題,業(yè)界形成了四種流派,以快速積累機(jī)器人訓(xùn)練數(shù)據(jù),分別是遠(yuǎn)程操作、AR、仿真、視頻學(xué)習(xí)。資料來(lái)源:Coatue,中泰證券研究所n遠(yuǎn)程操作,即由實(shí)驗(yàn)人員操作機(jī)械手柄,遠(yuǎn)程控制機(jī)器人做出相同動(dòng)作,以此來(lái)積累數(shù)據(jù)。?近期的研究通過(guò)多個(gè)操作員協(xié)作收集了大規(guī)模多樣化的數(shù)據(jù)集,結(jié)果表明,基于這些數(shù)據(jù)集訓(xùn)練的機(jī)器人表現(xiàn)出色,甚至能夠在不同環(huán)境中泛化。n然而,數(shù)據(jù)采集是這一方法更廣泛應(yīng)用的主要瓶頸。?在單臂機(jī)器人任務(wù)中,數(shù)據(jù)采集通常需要多個(gè)操作員、機(jī)器人以及數(shù)月的人力投入。針對(duì)類人機(jī)器人的數(shù)據(jù)采集則更具挑戰(zhàn)性,因?yàn)橥瑫r(shí)控制多只手臂和多指靈巧手的復(fù)雜性較高。?為了實(shí)現(xiàn)類人機(jī)器人的實(shí)時(shí)遠(yuǎn)程操作,研究人員開發(fā)了專門的遠(yuǎn)程操作界面,但這些界面的成本高昂,難以實(shí)現(xiàn)規(guī)?;?。類人機(jī)器人的任務(wù)復(fù)雜性也更高,因此數(shù)據(jù)需求更大,但由于操作員需同時(shí)控制多臂和多指手,工作負(fù)擔(dān)大幅增加,數(shù)據(jù)采集也更加困難。資料來(lái)源:Coatue,中泰證券研究所n所謂仿真,即通過(guò)海量算力進(jìn)行模擬運(yùn)算,計(jì)算得出海量機(jī)器人訓(xùn)練數(shù)據(jù)集。仿真可能是目前最有可能做到規(guī)?;瘮?shù)據(jù)生成的路徑,不過(guò)其背后需要巨大的算力支持。n2024年11月,來(lái)自英偉達(dá)、UTAustin和UCSD的研究人員推出了一種大規(guī)模自動(dòng)化數(shù)據(jù)生成系統(tǒng)——DexMimicGen。它可基于少量人類演示合成類人機(jī)器人的靈巧手運(yùn)動(dòng)軌跡,幫助實(shí)現(xiàn)在更少人工干預(yù)下擴(kuò)大類人數(shù)據(jù)的采集。?DexMimicGen的核心思想是利用一小組人類演示,并通過(guò)在物理仿真中進(jìn)行演示轉(zhuǎn)換和重放,自動(dòng)生成大量適用于雙手靈巧操作場(chǎng)景中模仿學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。例如,從僅5個(gè)源人類演示開始,DexMimicGen可以生成1000個(gè)雙手靈巧任務(wù)的演示。研究團(tuán)隊(duì)從60個(gè)源人類演示中總共生成了21000個(gè)演示,涵蓋了9種不同的任務(wù)。?研究團(tuán)隊(duì)發(fā)現(xiàn),相較僅依賴源演示,DexMimicGen大幅提升了策略成功率,所有任務(wù)中基于DexMimicGen數(shù)據(jù)集訓(xùn)練的機(jī)器人表現(xiàn)明顯優(yōu)于僅基于少量源數(shù)據(jù)訓(xùn)練的機(jī)器人。且隨著DexMimicGen數(shù)據(jù)量的增加,策略的性能也隨之提升。圖表:DexMimicGen大幅提升了策略的成功率圖表:隨著DexMimicGen數(shù)據(jù)量的增加,策略的性能也隨之提升資料來(lái)源:新智元,36氪,中泰證券研究所資料來(lái)源:新智元,36氪,Github,中泰證券研究所32n在一項(xiàng)名為《ExplainableHuman-RobotTrainingandCooperationwithAugmentedReality》的研究中,研究人員通過(guò)AR(增強(qiáng)現(xiàn)實(shí))技術(shù)讓人機(jī)交互過(guò)程具備更強(qiáng)的可解釋性,從而進(jìn)行數(shù)據(jù)積累。n2024年10月,斯坦福李飛飛團(tuán)隊(duì)發(fā)表論文《ARCap:CollectingHigh-qualityHumanDemonstrationsforRobotLearningwithAugmentedRealityFeedback》,提出了ARCap系統(tǒng)。?ARCap是一種便攜式數(shù)據(jù)收集系統(tǒng),它通過(guò)增強(qiáng)現(xiàn)實(shí)(AR)和觸覺(jué)警告提供視覺(jué)反饋,以指導(dǎo)用戶收集高質(zhì)量的演示。ARCap使新手用戶能夠收集與機(jī)器人運(yùn)動(dòng)學(xué)相匹配的機(jī)器人可執(zhí)行數(shù)據(jù),并避免與場(chǎng)景發(fā)生碰撞。利用從ARCap收集的數(shù)據(jù),機(jī)器人可以執(zhí)行具有挑戰(zhàn)性的任務(wù),例如在雜亂的環(huán)境中進(jìn)行操作和長(zhǎng)視野跨具身操作。?ARCap完全開源且易于標(biāo)定;所有組件均由現(xiàn)成的產(chǎn)品構(gòu)建。圖表:研究人員通過(guò)AR指導(dǎo)機(jī)器人行為,機(jī)器人在AR場(chǎng)資料來(lái)源:ExplainableHuman-RobotTrainingandCoopen視頻學(xué)習(xí),即通過(guò)多模態(tài)大模型,直接讓機(jī)器人通過(guò)視頻學(xué)習(xí)人類動(dòng)作,從而積累訓(xùn)練數(shù)據(jù)。?考慮到直接學(xué)習(xí)人類操作、人類遠(yuǎn)程操控等方式的示教成本較高,“從人類視頻中學(xué)習(xí)”已成為機(jī)器人的主流訓(xùn)練方法之一,如直接通過(guò)YouTube視頻進(jìn)行策略學(xué)習(xí)。?但視頻學(xué)習(xí)同樣有自己難以解決的問(wèn)題:1)控制上:不同于以往的示教方法(如遙操作示教及拖動(dòng)示教),視頻示教沒(méi)有提供機(jī)器人本體的motion數(shù)據(jù),agent需要僅根據(jù)演示視頻生成action。2)感知方面,讓機(jī)器人理解人類演示視頻也具有很大挑戰(zhàn),機(jī)器人與人類的視角不同,并且人類演示視頻中,每一幀是人手臂的運(yùn)動(dòng)圖像,而機(jī)器人捕獲的圖像是機(jī)械臂的運(yùn)動(dòng)圖像,這些原因?qū)е铝搜菔疽曨l與機(jī)器人感知的圖像之間存在gap。資料來(lái)源:LearningbyWatching:Phn2024年12月,宇樹開源了一系列數(shù)據(jù)采集工具和數(shù)據(jù)集。?數(shù)據(jù)采集工具包括但不限于:1)針對(duì)開源機(jī)器人系統(tǒng)R(obot)OS推出的模擬包,包含宇樹系列機(jī)器人的質(zhì)量、慣量、力矩等參數(shù);2)使用蘋果VisionPro對(duì)G1進(jìn)行遙操作控制的倉(cāng)庫(kù),可以用于數(shù)據(jù)采集;3)RLGYM,用于機(jī)器人仿真訓(xùn)練,之前開源了英偉達(dá)IssacGym平臺(tái)上的訓(xùn)練代碼,這次新增了對(duì)MuJoCo模擬仿真的支持。?數(shù)據(jù)集:包含五種操作,使用配備有三指靈巧手的宇樹G1人形機(jī)器人收集,每張圖分辨率為640×480,每個(gè)手臂和靈巧手的狀態(tài)和動(dòng)作維度為7,可使機(jī)器人完成擰瓶蓋倒水、疊放積木等操作。n在數(shù)據(jù)采集環(huán)節(jié),宇樹運(yùn)用了蘋果VisionPro進(jìn)行G1的遙操作控制,該數(shù)據(jù)集采用640x480分辨率的圖像,并記錄了機(jī)器人手臂和靈巧手的七維狀態(tài)和動(dòng)作數(shù)據(jù)。圖表:宇樹開源的數(shù)據(jù)采集工具項(xiàng)目資料來(lái)源:量子位,中泰證券研究所資料來(lái)源:量子位n特斯拉在AI系統(tǒng)訓(xùn)練中采取的是以真實(shí)數(shù)據(jù)為驅(qū)動(dòng)的策略。為訓(xùn)練Optimus機(jī)器人執(zhí)行類人動(dòng)作,特斯拉大量招募“數(shù)據(jù)收集操作員”,要求其穿戴動(dòng)作捕捉服、VR頭顯等設(shè)備,模擬機(jī)器人需完成的動(dòng)作(如行走、搬運(yùn)物品)。Optimus的核心亮點(diǎn)之一在于其利用動(dòng)作捕捉技術(shù),以及VR和AR技術(shù)的融合應(yīng)用,以實(shí)現(xiàn)更為真實(shí)的人類動(dòng)作模擬。n以波士頓動(dòng)力的Atlas人形機(jī)器人為例,Atlas依靠其視覺(jué)系統(tǒng)進(jìn)行任務(wù)排序的推理,低層控制器進(jìn)行行動(dòng)規(guī)劃。而不管是“大腦”視覺(jué)系統(tǒng)還是“小腦”控制系統(tǒng),都離不開數(shù)據(jù)訓(xùn)練。nAtlas的訓(xùn)練過(guò)程融合了多個(gè)數(shù)據(jù)來(lái)源,包括真實(shí)工廠部署數(shù)據(jù)、實(shí)驗(yàn)室測(cè)試數(shù)據(jù)以及仿真環(huán)境中的模擬數(shù)據(jù)。通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),不斷訓(xùn)練、調(diào)優(yōu)規(guī)控算法,Atlas能夠逐步掌握類似人類的精細(xì)操作技能。nFigureAI創(chuàng)建于2022年,相較于國(guó)內(nèi)外幾家知名機(jī)器人公司成立時(shí)間較晚,側(cè)重于研究具身人工智能發(fā)展。nFigureAI基于端到端運(yùn)動(dòng)控制算法,結(jié)合OpenAI的GPT,先于特斯拉公開展示了人形機(jī)器人在無(wú)需預(yù)設(shè)程序的情況下的高度自主性和智能化交互,形成模型訓(xùn)練-云端設(shè)施-車廠落地的閉環(huán)。n近期,結(jié)束與OpenAI的合作后,F(xiàn)igureAI實(shí)現(xiàn)將首個(gè)自研具身模型Helix裝入機(jī)器人Figure。預(yù)告中展示了通過(guò)通用的“視覺(jué)-語(yǔ)言-感知”(VLA)模型Helix訓(xùn)練機(jī)器人,將感知、語(yǔ)言理解和學(xué)習(xí)控制統(tǒng)一起來(lái),展示出較大的多機(jī)協(xié)作與強(qiáng)大的泛化功能。其原理包括雙系統(tǒng)建構(gòu)、端到端訓(xùn)練、解耦架構(gòu)、優(yōu)化推理部署。資料來(lái)源:FigureAI官方社媒,51CTO.c資料來(lái)源:FigureAI官方社媒,中泰nHelix是一個(gè)通用的“視覺(jué)-語(yǔ)言-感知”(VLA)模型,將感知、語(yǔ)言理解和學(xué)習(xí)控制統(tǒng)一起來(lái),可以通過(guò)自然語(yǔ)言直接控制人形機(jī)器人整個(gè)上半身。nHelix是首創(chuàng)的“系統(tǒng)1、系統(tǒng)2”VLA模型,用于對(duì)整個(gè)仿人上半身進(jìn)行高速、靈巧的控制。之前的方法面臨著一個(gè)基本的權(quán)衡:VLM骨架通用但不快速,而機(jī)器人視覺(jué)運(yùn)動(dòng)策略快速但不通用。Helix通過(guò)兩個(gè)互補(bǔ)系統(tǒng)解決了這一問(wèn)題,這兩個(gè)系統(tǒng)經(jīng)過(guò)端對(duì)端訓(xùn)練,可以進(jìn)行通信:?系統(tǒng)2:經(jīng)過(guò)互聯(lián)網(wǎng)訓(xùn)練的板載VLM,工作頻率為7-9Hz,用于場(chǎng)景理解和語(yǔ)言理解,可廣泛應(yīng)用于各種物體和環(huán)境。?系統(tǒng)1:快速反應(yīng)視覺(jué)運(yùn)動(dòng)策略,將系統(tǒng)2生成的潛在語(yǔ)義表征轉(zhuǎn)化為200Hz的精確連續(xù)機(jī)器人動(dòng)作。n這種解耦架構(gòu)允許每個(gè)系統(tǒng)以其最佳時(shí)間尺度運(yùn)行,系統(tǒng)2可以“慢思考”高層次目標(biāo),而系統(tǒng)1則可以“快思考”實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。n在訓(xùn)練效率方面,Helix以極少的資源實(shí)現(xiàn)了圖表:Helix:用于整個(gè)上半身控制的“系統(tǒng)1、系統(tǒng)2”VLA強(qiáng)大的對(duì)象泛化能力。研究團(tuán)隊(duì)總共使用了約500小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)對(duì)Helix進(jìn)行訓(xùn)練,其規(guī)模僅為之前收集的VLA數(shù)據(jù)集的一小部分(<5%),并且不依賴于多機(jī)器人-具身收集或多階段訓(xùn)練。n同時(shí),Helix只需一個(gè)統(tǒng)一的模型,就能在不同任務(wù)中實(shí)現(xiàn)強(qiáng)大的性能。Helix的系統(tǒng)2參n銀河通用機(jī)器人有限公司成立于2023年,專注于通用具身多模態(tài)大模型機(jī)器人研發(fā),并與北京大學(xué)等多所高校成立了具身智能相關(guān)聯(lián)合實(shí)驗(yàn)室。銀河通用研發(fā)的端到端具身抓取基礎(chǔ)大模型GraspVLA及基于仿真數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練范式,能夠顯著提升機(jī)器人在復(fù)雜環(huán)境下的操作精度與適應(yīng)性,尤其在處理多變材質(zhì)、動(dòng)態(tài)工況等挑戰(zhàn)場(chǎng)景中展現(xiàn)出卓越優(yōu)勢(shì)。nGraspVLA的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì),掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。而針對(duì)特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景,維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專業(yè)技能。n整個(gè)開發(fā)過(guò)程無(wú)需大規(guī)模真實(shí)數(shù)據(jù)、僅通過(guò)合成數(shù)據(jù)達(dá)到基礎(chǔ)模型,開創(chuàng)了VLA領(lǐng)域發(fā)展的全新范式。n2024年,智元機(jī)器人在上海建了一座數(shù)據(jù)采集工廠,該數(shù)據(jù)采集工廠投入使用兩個(gè)多月,就采集了超百萬(wàn)量級(jí)真機(jī)數(shù)據(jù)集,采集任務(wù)超一千種。現(xiàn)在智元數(shù)據(jù)采集工廠投放了近百臺(tái)機(jī)器人,日均采集3-5w條數(shù)據(jù)。n12月30日,智元機(jī)器人宣布開源AgiBotWorld(智元世界)。智元AgiBotWorld數(shù)據(jù)集包含超過(guò)100萬(wàn)條真實(shí)機(jī)器人操作數(shù)據(jù),覆蓋家居(40%)、餐飲(20%)、工業(yè)(20%)、商超(10%)和辦公(10%)五大場(chǎng)景,涵蓋80余種日常技能(如抓取、折疊、熨燙)和3000多種真實(shí)物品。數(shù)據(jù)質(zhì)量從實(shí)驗(yàn)室級(jí)上升到工業(yè)級(jí)標(biāo)準(zhǔn)。n2025年2月,智元機(jī)器人宣布推出自主研發(fā)的大型仿真框架AgiBotDigitalWorld,為機(jī)器人操作提供靈活的仿真數(shù)據(jù)生成方案、預(yù)訓(xùn)練的大規(guī)模仿真數(shù)據(jù)和統(tǒng)一的模型評(píng)測(cè)標(biāo)準(zhǔn),同步開源海量仿真數(shù)據(jù)。圖表:智元具身智能數(shù)據(jù)系統(tǒng)AIDEA資料來(lái)源:焉知科技,中泰證券研究所資料來(lái)源:智元機(jī)器人,第一財(cái)經(jīng),中泰證券研究所n在優(yōu)必選內(nèi)部,人形機(jī)器人訓(xùn)練的數(shù)據(jù)的收集有這樣一個(gè)“二八定律”:用于人形機(jī)器人訓(xùn)練的20%的數(shù)據(jù),由真實(shí)的機(jī)器人在實(shí)際場(chǎng)景中進(jìn)行遙操作收集而來(lái),80%的數(shù)據(jù)則是在仿真環(huán)境下生成而來(lái)。因此,優(yōu)必選搭建了人形機(jī)器人智能仿真系統(tǒng)UNDERS2,可以低成本地為人形機(jī)器人模擬和生成多樣化的場(chǎng)景。n同時(shí),優(yōu)必選通過(guò)與比亞迪、吉利、東風(fēng)柳汽等車企合作,將人形機(jī)器人(如WalkerS系列)部署在總裝車間實(shí)訓(xùn),打造人形機(jī)器人與無(wú)人物流車等協(xié)同作業(yè)的工業(yè)場(chǎng)景解決方案。n目前優(yōu)必選正在人形機(jī)器人應(yīng)用場(chǎng)景中驗(yàn)證DeepSeek技術(shù)的有效性,如多模態(tài)人機(jī)交互、復(fù)雜環(huán)境中的指令理解、工業(yè)場(chǎng)景中的任務(wù)分解與規(guī)劃等,有望利用推理大模型的深度思考能力解決復(fù)雜任務(wù)中的挑戰(zhàn)。圖表:優(yōu)必選人形機(jī)器人智能仿真系統(tǒng)UNDERS2資料來(lái)源:澎湃新聞,中泰證券研究所資料來(lái)源nGR-1:VR動(dòng)作捕捉,實(shí)現(xiàn)Sim2Real。傅利葉研發(fā)團(tuán)隊(duì)率先在安全可控、低成本的仿真環(huán)境中訓(xùn)練GR-1,再將訓(xùn)練好的模型遷移到現(xiàn)實(shí)世界(Sim2Real)。這種方式大幅提升了算法的迭代開發(fā)效率,降低了算法開發(fā)的總體成本。研發(fā)人員穿戴VR和動(dòng)作捕捉設(shè)備,遙操控制GR-1完成各種任務(wù),記錄動(dòng)作數(shù)據(jù),用于訓(xùn)練和改進(jìn)仿真模型,優(yōu)化機(jī)器人運(yùn)動(dòng)控制策略,增強(qiáng)在現(xiàn)實(shí)中的表現(xiàn),像人類一樣靈活決策,完成各種任務(wù)。n利用NVIDIAIsaacGym開發(fā)人形機(jī)器人GR-2:傅利葉團(tuán)隊(duì)采用了NVIDIAIsaacGym(現(xiàn)已棄用)進(jìn)行強(qiáng)化學(xué)習(xí),利用NVIDIAIsaacGym開發(fā)人形機(jī)器人GR-2,目前正在將其工作流遷移到NVIDIAIsaacLab。同時(shí)利用IsaacGym對(duì)抓取算法進(jìn)行預(yù)訓(xùn)練,在實(shí)際部署前,對(duì)成功率進(jìn)行仿真測(cè)算。這種方法顯著減少了真實(shí)世界中的試錯(cuò),節(jié)省了時(shí)間和資源。GR-2支持VR遙操作控制、拖拽示教、上位機(jī)末端控制等多種上肢示教方式。4具身智能賦能下,未來(lái)機(jī)n從迭代路徑看,ToB市場(chǎng)是人形機(jī)器人發(fā)展的必經(jīng)階段,ToC市場(chǎng)將成為遠(yuǎn)期重點(diǎn)方向。n從技術(shù)領(lǐng)域看,“大腦”“小腦”屬于ICT領(lǐng)域,“肢體”屬于工業(yè)裝備領(lǐng)域,兩個(gè)領(lǐng)域應(yīng)協(xié)同發(fā)力,融合發(fā)展。但不同階段的發(fā)力重點(diǎn)各有側(cè)重。?在產(chǎn)業(yè)落地初期、應(yīng)用規(guī)模較小時(shí),人形機(jī)器人能否落地的重要因素就是其智能化水平;在大規(guī)模應(yīng)用階段,成本問(wèn)題成為核心因素。n人形機(jī)器人落地應(yīng)用節(jié)奏判斷:圖表:具身智能機(jī)器人應(yīng)用場(chǎng)景節(jié)奏預(yù)測(cè)?1)在工業(yè)制造場(chǎng)景,機(jī)器人的任務(wù)執(zhí)行和流程和任務(wù)本身有高度規(guī)則性,機(jī)器人具備極高的勞動(dòng)力替代性。2)而服務(wù)場(chǎng)景更加開放,相關(guān)任務(wù)更加多樣化,更加不可預(yù)測(cè),需要機(jī)器人具備更強(qiáng)的自主決策能力與泛化適應(yīng)性。n機(jī)器人在C端的應(yīng)用最具想象力,但短期來(lái)看,任務(wù)相對(duì)聚焦,對(duì)泛化能力要求不高工業(yè)制造場(chǎng)景下的任務(wù)正在更快進(jìn)入商業(yè)化階段。n在工業(yè)制造場(chǎng)景實(shí)現(xiàn)商業(yè)化落地之后,海量機(jī)器人的具身數(shù)據(jù)疊加算力技術(shù)的進(jìn)步,機(jī)器人的能力將循序漸進(jìn)逐步解鎖,并向商用服務(wù)、家庭服務(wù)等更開放的場(chǎng)景進(jìn)行延伸,屆時(shí)市場(chǎng)有望達(dá)萬(wàn)億級(jí)。n根據(jù)中國(guó)信通院的研究,人形機(jī)器人或?qū)⒎秩齻€(gè)階段商業(yè)化落地。?第一階段(2024—2030年):通過(guò)政策牽引,深入挖掘危險(xiǎn)作業(yè)、極端環(huán)境等高價(jià)值場(chǎng)景,遴選一批可落地可推廣的典型需求。政府搭橋,推動(dòng)特種應(yīng)用場(chǎng)景供需雙方對(duì)接,定向開發(fā)一批產(chǎn)品并落地應(yīng)?第二階段(2030—2035年加快探索工業(yè)制造、物流等制造業(yè)相關(guān)的大規(guī)模應(yīng)用場(chǎng)景,從“替代相對(duì)簡(jiǎn)單且重復(fù)性的勞動(dòng)”開始,成熟一代應(yīng)用一代,在迭代中加速技術(shù)成熟、降低單體成本、提升整體性能,逐步提高對(duì)制造業(yè)場(chǎng)景的滲透率。?第三階段(2035年后加強(qiáng)人工智能與人形機(jī)器人的融合創(chuàng)新,實(shí)現(xiàn)更高水平的具身智能,并推動(dòng)人形機(jī)器人進(jìn)入醫(yī)院、學(xué)校、商場(chǎng)、餐廳等服務(wù)業(yè)場(chǎng)景,最終走入千家萬(wàn)戶n工業(yè)制造流程的特點(diǎn)使得該場(chǎng)景在具身智能技術(shù)落地應(yīng)用方面占據(jù)先發(fā)優(yōu)勢(shì),如柔性生產(chǎn)需求迫切、工作環(huán)境結(jié)構(gòu)化程度高、成本效益優(yōu)勢(shì)突出等需求特點(diǎn),刺激著工業(yè)制造場(chǎng)景客戶對(duì)工業(yè)具身智能的應(yīng)用更加期待。n工業(yè)具身智能機(jī)器人能夠有效提升工廠生產(chǎn)任務(wù)的靈活性與適應(yīng)性,并在作業(yè)過(guò)程中實(shí)現(xiàn)自主學(xué)習(xí),不斷增強(qiáng)其復(fù)雜任務(wù)執(zhí)行能力與操作精度。n具身智能的訓(xùn)練需要數(shù)據(jù),而質(zhì)量更高的數(shù)據(jù)需要從真實(shí)場(chǎng)景中來(lái),機(jī)器人落地最快的場(chǎng)景仍然是場(chǎng)景相對(duì)封閉的工業(yè)制造場(chǎng)景,越早實(shí)現(xiàn)規(guī)?;涞兀陀型皆鐚?shí)現(xiàn)模型的能力提升。圖表:工業(yè)場(chǎng)景率先應(yīng)用具身智能的原因資料來(lái)源:甲子光年,中泰證券研究所資料來(lái)源:甲子光年,中泰證券研究所n配天機(jī)器人是一家專注于工業(yè)機(jī)器人、核心零部件及行業(yè)自動(dòng)化解決方案的提供商,是京城機(jī)電旗下的國(guó)家級(jí)高新技術(shù)企業(yè)。公司始終致力于機(jī)器人技術(shù)的自主研發(fā)及高端裝備技術(shù)瓶頸的突破,同時(shí)前瞻性布局打造以具身智能、機(jī)器人行為大模型為核心的“AI+機(jī)器人”。n植根于工業(yè)制造場(chǎng)景,配天在“AI+機(jī)器人”已經(jīng)成功研發(fā)免示教焊接軟件模塊,基于繹零機(jī)器人運(yùn)動(dòng)控制引擎,通過(guò)視覺(jué)檢測(cè)和感知技術(shù)實(shí)現(xiàn)對(duì)焊接任務(wù)的快速識(shí)別和自主調(diào)整,無(wú)需人工示教即可投入使用,適應(yīng)工廠靈活的排產(chǎn)需求。?應(yīng)用案例:船廠BK板免示教焊接。某船舶制造廠商專注于碳鋼船體結(jié)構(gòu)的生產(chǎn),其生產(chǎn)線包含焊接工序。配天免示教焊接軟件模塊通過(guò)集成3D視覺(jué)系統(tǒng),能夠自主識(shí)別工件信息,無(wú)需預(yù)先進(jìn)行人工標(biāo)記。該模塊可自動(dòng)提取焊縫特征,并基于此選擇合適的焊接路徑規(guī)劃和工藝參數(shù),最終驅(qū)動(dòng)機(jī)器人完成焊接作業(yè),有效滿足該產(chǎn)線的柔性化生產(chǎn)需求。圖表:配天機(jī)器人的工業(yè)自動(dòng)化解決方案資料來(lái)源:甲子光年,中泰證券研究所資料來(lái)源n偉景智能創(chuàng)立于2016年,是一家專注于立體智能視覺(jué)系統(tǒng)和智能人形機(jī)器人研發(fā)、生產(chǎn)及應(yīng)用的高科技人工智能公司。公司的核心子公司偉景機(jī)器人成立于2017年,專注于機(jī)器人和立體智能視覺(jué)系統(tǒng)研發(fā)與應(yīng)用,擁有完整的智能機(jī)器人的生產(chǎn)線和3D立體智能相機(jī)整體解決方案,并形成了以自主核心算法、核心軟件、核心硬件及行業(yè)系統(tǒng)解
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 4155.3-2021全民健康信息平臺(tái)共享數(shù)據(jù)集規(guī)范第3部分:老年保健管理
- DB32/T 4007-2021腫瘤高通量基因測(cè)序技術(shù)規(guī)范
- DB32/T 3826-2020公務(wù)用車信息化平臺(tái)數(shù)據(jù)交換技術(shù)規(guī)范
- DB32/T 3767-2020“空巴通”旅客聯(lián)程聯(lián)運(yùn)服務(wù)規(guī)范
- DB32/T 3730-2020福利彩票星級(jí)銷售點(diǎn)評(píng)定規(guī)范
- DB32/T 3638-2019“多表合一”信息采集數(shù)據(jù)傳輸和轉(zhuǎn)換技術(shù)規(guī)范
- DB32/T 3566-2019瀝青路面改性瀝青SBS改性劑含量檢測(cè)技術(shù)規(guī)程
- DB32/T 3397-2018地面數(shù)字電視機(jī)頂盒技術(shù)規(guī)范
- DB31/T 974-2020公共汽(電)車車載信息系統(tǒng)一體化基本技術(shù)要求
- DB31/T 915-2019氨冷庫(kù)安全生產(chǎn)規(guī)范
- 河南省成人高等教育畢業(yè)生畢業(yè)資格審查表
- 報(bào)修申請(qǐng)表(完整版)
- 師帶徒培養(yǎng)方案范文
- 山東萊陽(yáng)核電項(xiàng)目一期工程水土保持方案
- 臨床醫(yī)學(xué)概論課程的婦產(chǎn)科學(xué)與生殖醫(yī)學(xué)
- 2024年中國(guó)鐵路物資西安有限公司招聘筆試參考題庫(kù)含答案解析
- PDCA降低護(hù)士針刺傷發(fā)生率
- 幼兒園大班美術(shù)《臉部彩繪》
- 2021年安全生產(chǎn)月:安全執(zhí)行力培養(yǎng)專題培訓(xùn)課件
- 陜西碑刻總目提要編纂凡例
- GB/T 3785.1-2023電聲學(xué)聲級(jí)計(jì)第1部分:規(guī)范
評(píng)論
0/150
提交評(píng)論