人形機(jī)器人報(bào)告(一):大模型視角下人形機(jī)器人的現(xiàn)在和未來_第1頁
人形機(jī)器人報(bào)告(一):大模型視角下人形機(jī)器人的現(xiàn)在和未來_第2頁
人形機(jī)器人報(bào)告(一):大模型視角下人形機(jī)器人的現(xiàn)在和未來_第3頁
人形機(jī)器人報(bào)告(一):大模型視角下人形機(jī)器人的現(xiàn)在和未來_第4頁
人形機(jī)器人報(bào)告(一):大模型視角下人形機(jī)器人的現(xiàn)在和未來_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

內(nèi)容目錄人形機(jī)器人的核心價(jià)值來自通用性 4大模型加速人形機(jī)器人產(chǎn)業(yè)化落地 6技術(shù)和成本限制人形機(jī)器人的產(chǎn)業(yè)化 6LLM:人工智能邁出走向AGI的重要一步 9人形機(jī)器人:機(jī)器人領(lǐng)域的Agent 15人形機(jī)器人的落地需要具體場景 22未來推演:自動駕駛發(fā)展歷程給人形機(jī)器人的啟示 25自動駕駛在港口、礦山已經(jīng)取得進(jìn)展 25大數(shù)據(jù)大模型驅(qū)動的方案成為趨勢 27端到端的大模型或是終極方案 29風(fēng)險(xiǎn)提示 31圖表目錄圖表1:工業(yè)機(jī)器人市場規(guī)模 4圖表2:工業(yè)機(jī)器人在不同行業(yè)、不同場景的應(yīng)用成熟度 4圖表3:汽車總裝線依然大量依賴人工 5圖表4:谷歌everydayrobot(左)、波士頓動力Spot(中)和特斯拉Optimus(右) 6圖表5:2022年比亞迪員工人數(shù) 6圖表機(jī)器人的前身 7圖表機(jī)器人可以完成倒水任務(wù) 8圖表機(jī)器人可以做出各種手勢 8圖表9:波士頓動力推出的代表性產(chǎn)品 8圖表10:AI發(fā)展的三次浪潮 10圖表生成式發(fā)展歷程 10圖表12:公元前9000年至今的通用目的技術(shù)(GPT) 圖表13:AIAgent通過與真實(shí)世界交互,構(gòu)建了完整的“感知-認(rèn)知-執(zhí)行”的信息閉環(huán) 12圖表14:復(fù)旦大學(xué)團(tuán)隊(duì)提出Agent框架包括控制、感知、行動三個(gè)模塊 13圖表15:Open認(rèn)為Agent是用LLM(大腦)+記憶+規(guī)劃+工具使用 13圖表16:人類與協(xié)同的三種模式 14圖表17:LLM-basedagents主要研究方向 14圖表18:斯坦福構(gòu)建的虛擬小鎮(zhèn),里面有25個(gè)Agents生活 15圖表19:傳統(tǒng)機(jī)器人的兩大挑戰(zhàn) 15圖表20:單純的大預(yù)言模型會給出不合情景的回答 16圖表21:SayCan模型結(jié)合輸出結(jié)果的相關(guān)性和可執(zhí)行性,綜合做出最佳選擇 16圖表22:研究人員讓Saycan模型執(zhí)行的101個(gè)任務(wù) 17圖表23:Saycan模型在各模型下的執(zhí)行成功率 17圖表24:把chatGPT引入機(jī)器人改變了過去人機(jī)交互的邏輯 17圖表25:RT-1模型結(jié)構(gòu) 18圖表26:RT-1模型的執(zhí)行成功率要高于其他模型 18圖表27:Palm-E是一個(gè)多模態(tài)語言具身模型 19圖表28:搭載GooglePaLM-E模型的機(jī)器人從抽屜里拿出薯片 19圖表29:機(jī)器人控制算法一般是雙層結(jié)構(gòu) 20圖表30:使用強(qiáng)化學(xué)習(xí)做機(jī)器人運(yùn)動控制 20圖表31:RT-2在大模型的基礎(chǔ)上用機(jī)器人數(shù)據(jù)微調(diào),然后輸出機(jī)器人動作 20圖表32:RT-2模型在理解、推理方面的能力要顯著優(yōu)于模型 21圖表33:RT-2模型在未知場景的表現(xiàn)明顯優(yōu)于模型 21圖表34:google在機(jī)器人大模型領(lǐng)域研究進(jìn)展 21圖表35:特斯拉在2022年4月邁出第一步 22圖表36:2023年9月特斯拉發(fā)布的視頻中進(jìn)行瑜伽和物品分揀 22圖表37:2023年月-gen2可以完成深蹲動作 22圖表38:2023年月-gen2搭配觸覺傳感器拿起雞蛋 22圖表39:人形機(jī)器人潛在落地場景 23圖表40:小米科技人形機(jī)器人的1+N+X戰(zhàn)略 24圖表41:優(yōu)必選walker機(jī)器人的六大應(yīng)用場景 24圖表42:digit機(jī)器人在工廠搬運(yùn) 25圖表43:digit機(jī)器人收到命令后的思考過程 25圖表44:踏歌智行的國家能源勝利一號露天煤礦項(xiàng)目 26圖表45:踏歌智行基于車、地、云協(xié)同的“曠谷”解決方案 26圖表46:踏歌智行的車載硬件方案 26圖表47:華為在天津港實(shí)現(xiàn)L4級自動駕駛 27圖表48:自動駕駛進(jìn)入3.0時(shí)代 28圖表49:自動駕駛的數(shù)據(jù)閉環(huán) 28圖表50:使用英偉達(dá)EmerNeRF進(jìn)行仿真 29圖表51:關(guān)于自動駕駛端到端方案的論文數(shù)量明顯增加 29圖表52:端到端方案與傳統(tǒng)方案的對比 30圖表53:特斯拉基于占用網(wǎng)絡(luò)的感知 30圖表54:特斯拉基于車道線和物體算法(lane&object)的感知 30人形機(jī)器人的核心價(jià)值來自通用性如何增強(qiáng)機(jī)器人的泛用性是行業(yè)一直致力解決的問題。傳統(tǒng)的工業(yè)機(jī)器人并不能直接使用,需要被系統(tǒng)集成商集成后使用。機(jī)器人的系統(tǒng)集成需要對客戶工藝的深刻理解,是高度定制2022年工億,并不是一個(gè)非常大的市場。圖表1:工業(yè)機(jī)器人市場規(guī)模中國工業(yè)機(jī)器人市場規(guī)模70060050040030020010002019 2020 2021 2022資料來源:,IFR,五礦證券研究所3C、紡織、包裝等行業(yè),但在這些行業(yè)之中依然有大的總裝環(huán)節(jié)95%汽車總裝的時(shí)候需要工人進(jìn)入車內(nèi)空間操作,單個(gè)工人使用的10個(gè),并非簡單、單一的操作。圖表2:工業(yè)機(jī)器人在不同行業(yè)、不同場景的應(yīng)用成熟度資料來源:iresearch五礦證券研究所圖表3:汽車總裝線依然大量依賴人工資料來源:AI汽車制造業(yè),五礦證券研究所小米集團(tuán)高級副總裁曾學(xué)忠認(rèn)為,在未來智能制造體系里面,自動化設(shè)備、人形機(jī)器人以及人將以7:2:1黃金法則來組成。未來70%的對制造質(zhì)量和制造效率要求高的工作依靠自動化設(shè)備來完成;20%高復(fù)雜度、高柔性的場景需要人形機(jī)器人來完成;10%是工作還是要依靠人,因?yàn)樽罱K數(shù)據(jù)與價(jià)值的管理還是要依靠人,人才可以定義價(jià)值。根據(jù)智研咨詢,2022年中國自動化設(shè)備的市場規(guī)模達(dá)到2909億元,全球自動化設(shè)備達(dá)到2308億美元。以此推算,僅在工業(yè)制造領(lǐng)域,人形機(jī)器人未來潛在市場規(guī)模約660億美元(全球市場)。人形機(jī)器人會帶來整個(gè)自動化市場的擴(kuò)張。我們希望機(jī)器人滲透到社會的方方面面幫助我們工作,但當(dāng)前的工業(yè)機(jī)器人需要系統(tǒng)集成商去安裝部署,所以很難滲透到非標(biāo)準(zhǔn)化的場景之中,這限制了整個(gè)行業(yè)的市場規(guī)模。我們認(rèn)為,依賴人形機(jī)器人的泛用性,未來機(jī)器人可以從標(biāo)準(zhǔn)化工業(yè)場景進(jìn)一步滲透到非標(biāo)準(zhǔn)化場景,也包括建筑、商業(yè)導(dǎo)覽、醫(yī)療護(hù)理、教育培訓(xùn)、家庭服務(wù)等非工業(yè)領(lǐng)域。這將會給機(jī)器人行業(yè)帶來遠(yuǎn)超之前的市場空間。“人形”只是表象,通用++機(jī)械臂上衍化而來。人形機(jī)器人的“小腦”運(yùn)動控制算法,是在四足機(jī)器人的基礎(chǔ)上發(fā)展而OptimusSpot這everyday這樣的輪式機(jī)器人。圖表4:谷歌everydayrobot(左)、波士頓動力Spot(中)和特斯拉Optimus(右)資料來源:機(jī)器人大講堂、新智元、特斯拉,五礦證券研究所人形機(jī)器人潛在的市場規(guī)模是巨大的。比亞迪2022年年報(bào)披露,比亞迪共有員工57.01萬人,其中生產(chǎn)工人44.21萬人,占比78%??梢娂词乖诟叨茸詣踊钠囆袠I(yè),依然有大量10%(4.4萬人1:12088億元市場規(guī)模。圖表5:2022年比亞迪員工人數(shù)財(cái)務(wù)人員,行政人員,2527,0.4%25751,4.5% 銷售人員,23690,4.2%

技術(shù)人員,76016,13.3%生產(chǎn)人員,442076,77.5%資料來源:wind,五礦證券研究所大模型加速人形機(jī)器人產(chǎn)業(yè)化落地以chatGPT為代表的新一代人工智能技術(shù),讓人形機(jī)器人的場景落地進(jìn)度大大加快。LLM+AIAgent,是大模型落地的重要場景之一?;凇俺WR”的語義理解,2)復(fù)雜任務(wù)的分解。賦予人形機(jī)器人更好的人機(jī)交互能力、規(guī)劃決策能力,解決了傳技術(shù)和成本限制人形機(jī)器人的產(chǎn)業(yè)化早在年,日本早稻田大學(xué)就制造出了世界上第一臺人形機(jī)器人WABOT-1。WABOT-1WABOT-14510年,WABOT-2具有與日本人進(jìn)行自然對話的能力,還能用眼睛看樂譜,用手腳靈活地演奏電子琴,具有演奏中級難度音樂的能力。此外,它還可以識別歌聲,自動進(jìn)行轉(zhuǎn)錄。盡管人形機(jī)器人早已出現(xiàn),但商業(yè)化落地始終沒有成功。本田、波士頓動力曾嘗試過人形機(jī)器人的商業(yè)化,均已失敗告終。本田的ASIMO機(jī)器人本田的ASIMO(中文名:阿西莫)機(jī)器人,是全球最早實(shí)現(xiàn)雙足行走能力的機(jī)器人?!癆SIMO200010311986年。年,本田制造的第一臺機(jī)器人被稱為E0。E0只有“下半身”而且走得很慢,有時(shí)20秒才能完成一個(gè)步驟,所以也被稱為靜態(tài)步行。年,本田推出E1,可以執(zhí)行“動態(tài)步行”,更加類似人的步伐。年,本田陸續(xù)推出了E4\E5\E6。此時(shí)機(jī)器人已經(jīng)可以輕松在斜坡、樓梯、崎嶇不平的路面行走。年,本田推出P1/P2/P3機(jī)器人,看起來更具“人形”,可以抓住物品、推動小車、在外力作用下保持平衡。ASIMO2006年、年推出了第二代、第三代ASIMOASIMO579km/h的行走速度,可以上下樓梯、開瓶、倒水,還可以對周圍人群或動物的位置、動作和行動路線進(jìn)行預(yù)估判斷。圖表6:ASIMO機(jī)器人的前身資料來源:VTEC范兒,五礦證券研究所2011年福島核電站事故發(fā)生后,民眾希望把ASIMO派到核電站進(jìn)行災(zāi)后救援工作,但本田表示“現(xiàn)在還沒有達(dá)的高達(dá)300-400萬美金的造價(jià)也決定了ASIMO很難商業(yè)化落地。628ASIMO的研發(fā),以專注于該技術(shù)的更多實(shí)際應(yīng)用。圖表機(jī)器人可以完成倒水務(wù) 圖表機(jī)器人可以做出各種勢 資料來源:VTEC范兒,五礦證券研究所 資料來源:機(jī)器人大講堂,五礦證券研究所波士頓動力TheLaboratory(Marc2005年,波士頓動力和美國國防高等研究計(jì)劃局合作的四足機(jī)器人Big和用于逼真人體模擬的DI-guyLS3、cheetah、Atlas、Spot等。圖表9:波士頓動力推出的代表性產(chǎn)品產(chǎn)品 圖片 產(chǎn)品介紹產(chǎn)品 圖片 產(chǎn)品介紹BigDog(2005)LS3(2012)Cheetah(2012)

135采用15450等。1.7509的負(fù)載。dog122448/SpotSpot(2015)0.947545公斤的有效12petmanpetman(2009)Petman的設(shè)立目的是為美軍測試防護(hù)服性能,是波士頓的動力的首個(gè)雙足機(jī)器人,需要拖著電纜在履帶上晃晃悠悠地行走Atlas(2013)波士頓動力最著名的機(jī)器人,以年第三代28感知到的數(shù)據(jù)規(guī)劃,完成一些列跑酷動作資料來源:新智元、古月居、百度百科、澎湃、搜狐、鋼鐵俠科技,五礦證券研究所應(yīng)用場景,波士頓動力的機(jī)器人很價(jià)格,由于以軍用為目標(biāo)進(jìn)行研發(fā)更看重性能要求,波士頓動力的機(jī)器人采用了高成本的液壓驅(qū)動的系統(tǒng)。液壓驅(qū)動系統(tǒng)的優(yōu)點(diǎn)是明顯的——抗負(fù)載剛性大、驅(qū)動力大,但功耗高、自重更重,也很難降本。波士頓動年推出了首款商用機(jī)械狗745萬年spot400臺。201330億美元被googleX20178880%30億美元下降到億美元。LLM:人工智能邁出走向AGI的重要一步基于對于智能的不同理解,人工智能產(chǎn)生了不同的流派。符號主義:符號主義認(rèn)為智能是基于邏輯規(guī)則的符號操作,人的認(rèn)知活動是符號計(jì)算的過程。智能的核心就是根據(jù)某套規(guī)則做出理性決策。1956~1986年,符號主義經(jīng)歷了從一枝獨(dú)秀到逐漸衰落的過程,對應(yīng)人工智能發(fā)展的第一次浪潮。當(dāng)時(shí)AI的主要成就是用機(jī)器證明的辦法證明和推理一些知識,能夠解開拼圖或?qū)崿F(xiàn)簡單的游戲。但當(dāng)時(shí)的人工智能卻幾乎無法解決任何實(shí)用的問題。聯(lián)結(jié)主義:聯(lián)結(jié)主義也被稱為仿生學(xué)派,認(rèn)為智能是腦神經(jīng)元構(gòu)成的信息處理系統(tǒng)。他們認(rèn)為大腦是由神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)聯(lián)結(jié)而成,而人類智能的實(shí)現(xiàn)過程就是通過神經(jīng)網(wǎng)絡(luò)中神70(1976-2006)和第三次人工智能浪潮(2006至今)。兩者的劃分點(diǎn)在于深度學(xué)習(xí)算法:隨著硬件瓶頸的突破、模型的進(jìn)步,深度學(xué)習(xí)算法取得突破并在第三次浪潮中被廣泛運(yùn)用。行為主義:行為主義也被稱之為進(jìn)化主義,認(rèn)為智能是通過感知外界環(huán)境做出相應(yīng)的行為。符號主義和聯(lián)結(jié)主義并未真正解決智能體與真實(shí)物理世界交互的難題,在可解釋性、魯棒性方面也面臨很大挑戰(zhàn)。莫拉維克悖論(要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的)就體現(xiàn)了很多學(xué)者的擔(dān)憂。布魯克斯從控制論角度出發(fā),強(qiáng)調(diào)智能是具身化和情境化的,智能體必須擁有“身體”并通過與真實(shí)世界的交互來發(fā)育或進(jìn)化出智能。行為主義希望能夠通過模擬生物的進(jìn)化機(jī)制,使機(jī)器獲得自適應(yīng)能力。2AlphaGoAI;另一個(gè)是以chatGPT為代表的生成式AI。圖表10:AI發(fā)展的三次浪潮資料來源:騰訊STAC科創(chuàng)聯(lián)合大會,五礦證券研究所AI2060Eliza2014年生成對抗網(wǎng)絡(luò)GAN(Generative隨著Auto-Encoder)、擴(kuò)散模型等新訓(xùn)練方法的提出和應(yīng)用,生成式AI迎來了高速發(fā)展。圖表11:生成式AI發(fā)展歷程資料來源:2023年全球生成式AI產(chǎn)業(yè)研究報(bào)告,五礦證券研究所生成式AI領(lǐng)域最大的突破還是來自于大語言模型(Largemodels,LLM)。2017年提出transformer202211openAI上線了chatGPT202311億,成為歷史上增長最快的應(yīng)用。3AI推出chatGPT35的基礎(chǔ)上進(jìn)一步擁有多模態(tài)能力,可以接受圖像輸入并理解圖像內(nèi)容。GPT驚人的展現(xiàn)出了創(chuàng)造力,因而有觀點(diǎn)認(rèn)為GPT正在逐漸演化為一種“通用人工智能”(ArtificialGeneralIntelligence,AGI),盡管這種觀點(diǎn)并未達(dá)成一致。中科院院士張鈸認(rèn)為,“chatGPT向通用人工智能邁出了一步”。微軟也在《人工通用智能的星星之火:GPT-4的早期實(shí)驗(yàn)》一文指出,“GPT-4能力的通用性,與跨越廣泛領(lǐng)域的眾多能力相結(jié)合,以及它在廣泛的任務(wù)范圍上達(dá)到或超越人類水平的表現(xiàn),使我們可以輕松地說,GPT-4是邁向AGI的重要一步”。GPT之前,研究的主陣地是專用或者功能性先在下棋、計(jì)算、圖像識別、語音識別等專業(yè)細(xì)分領(lǐng)域入手,在專業(yè)領(lǐng)域有足夠積累之后逐步演化為通用智能,是以往人工智能發(fā)展的主流路徑。大模型打開了一條“先通后?!钡娜斯ぶ悄馨l(fā)展路徑。AI先具備龐大的先驗(yàn)知識庫和通識理解能力,在此基礎(chǔ)上我們再給AI賦予專業(yè)能力,會讓很多原來不可能的任務(wù)變得簡單。比如,讓機(jī)器人把桌上垃圾扔到垃圾桶里,不再需要告訴它垃圾是什么、垃圾桶是什么,這些都在預(yù)訓(xùn)練的大模型里。具備通識理解能力的大模型,將作為一項(xiàng)通用目的技術(shù)賦能各行各業(yè),成為經(jīng)濟(jì)增長的重要引擎?,F(xiàn)代經(jīng)濟(jì)增長理論有“通用目的技術(shù)”(GeneralPurposeT)的概Purpose。通用目的技Bresnahan普遍適用性;進(jìn)步性,通過創(chuàng)新孕育性,通用目的技術(shù)的創(chuàng)新會促進(jìn)相關(guān)應(yīng)用技術(shù)的創(chuàng)新。Lipsey等人在《Economictransformations:generalpurposetechnologieslong-termeconomic》中曾對歷史上的通用目的技術(shù)進(jìn)行900024種技術(shù)可以稱為通用目的技術(shù)。陳永偉則在《作為GPT的GPT:通用目的技術(shù)視角下新一代人工智能的機(jī)遇與挑戰(zhàn)》一文指出,生成式AI也應(yīng)當(dāng)可以被認(rèn)為是通用目的技術(shù)。圖表12:公元前9000年至今的通用目的技術(shù)(GPT)編號技術(shù)時(shí)間分類1分類21動物馴化公元前9000-8000年流程型技術(shù)材料技術(shù)2動物馴養(yǎng)公元前8500-7500年流程型技術(shù)材料技術(shù)、能源技術(shù)、交通技術(shù)3礦石冶煉公元前8000-7000年流程型技術(shù)材料技術(shù)4輪子公元前4000-3000年產(chǎn)品型技術(shù)工具、交通技術(shù)5寫作公元前3400-3200年流程型技術(shù)信息和通訊技術(shù)6青銅公元前2800年產(chǎn)品型技術(shù)材料技術(shù)7鋼鐵公元前1200年產(chǎn)品型技術(shù)材料技術(shù)8水車中世紀(jì)早期產(chǎn)品型技術(shù)能源技術(shù)9三桅帆船15世紀(jì)產(chǎn)品型技術(shù)交通技術(shù)10印刷術(shù)16世紀(jì)流程型技術(shù)信息和通訊技術(shù)11蒸汽機(jī)18世紀(jì)晚期到19世紀(jì)早期產(chǎn)品型技術(shù)能源技術(shù)12工廠體系18世紀(jì)晚期到19世紀(jì)早期組織型技術(shù)組織技術(shù)13鐵路19世紀(jì)中期產(chǎn)品型技術(shù)交通技術(shù)14鐵輪船19世紀(jì)中期產(chǎn)品型技術(shù)交通技術(shù)15內(nèi)燃機(jī)19世紀(jì)晚期產(chǎn)品型技術(shù)能源技術(shù)16電力19世紀(jì)晚期產(chǎn)品型技術(shù)能源技術(shù)17汽車20世紀(jì)產(chǎn)品型技術(shù)交通技術(shù)18飛機(jī)20世紀(jì)產(chǎn)品型技術(shù)交通技術(shù)19大規(guī)模生產(chǎn)20世紀(jì)組織型技術(shù)組織技術(shù)20計(jì)算機(jī)20世紀(jì)產(chǎn)品型技術(shù)信息和通訊技術(shù)21精益生產(chǎn)20世紀(jì)組織型技術(shù)組織技術(shù)22互聯(lián)網(wǎng)20世紀(jì)產(chǎn)品型技術(shù)信息和通訊技術(shù)23生物技術(shù)20世紀(jì)流程型技術(shù)材料技術(shù)24納米技術(shù)21世紀(jì)某個(gè)節(jié)點(diǎn)流程型技術(shù)材料技術(shù)資料來源:作為GPT的GPT:通用目的技術(shù)視角下新一代人工智能的機(jī)遇與挑戰(zhàn),五礦證券研究所AIAgent的落地方式逐步得到認(rèn)可。AIAgent的核心意義在于補(bǔ)足了執(zhí)行環(huán)節(jié),強(qiáng)調(diào)大模型與真實(shí)世界的互動,從而構(gòu)建了完整的信息閉環(huán)。完全基于互聯(lián)網(wǎng)的文字、圖片信息訓(xùn)練而來的GPT具有一定的通識能力和推理能力,展現(xiàn)出了智慧的火花。但這種智能是“紙上談兵”,缺乏對現(xiàn)實(shí)世界復(fù)雜性和多樣性的深刻。圖文是一種抽象的、高度凝練的信息,在傳遞信息的時(shí)候也遺漏了很多信息,這從根本上決定了大模型存在一些難以避免的局限性。我們認(rèn)為,大模型需要與真實(shí)世界產(chǎn)生互動,并通過“具身交互”構(gòu)建多模態(tài)的“感知-認(rèn)知-執(zhí)行”的完整信息閉環(huán)。AI三大學(xué)派中的行為主義學(xué)派有類似的觀點(diǎn)——行為主義學(xué)派認(rèn)為,智能體必須擁有“身體”并通過與真實(shí)世界的交互來發(fā)育或進(jìn)化出智能。圖表13:AIAgent通過與真實(shí)世界交互,構(gòu)建了完整的“感知-認(rèn)知-執(zhí)行”的信息閉環(huán)資料來源:五礦證券研究所目前對AIAgentTheRisePotentialofLargeeMlBsdAts:ASyAIAt(rin感知(perception)、行動(action)。OpenAILilianWengAIAgent的形容是:Agent=LLM+記憶+規(guī)劃+工具使用。其中是核心大腦;記憶、規(guī)劃、工具使用則Agents系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件。一般認(rèn)為,AIAgent是具有自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體,本質(zhì)是一個(gè)可以感知其環(huán)境、在給定目標(biāo)下做出決策并采取行動的系統(tǒng)。圖表14:復(fù)旦大學(xué)團(tuán)隊(duì)提出AIAgent框架包括控制、感知、行動三個(gè)模塊資料來源:TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey,五礦證券研究所圖表15:OpenAI認(rèn)為Agent是用LLM(大腦)+記憶+規(guī)劃+工具使用資料來源:騰訊研究院,五礦證券研究所Agent更強(qiáng)調(diào)“執(zhí)行”,會帶來人與人工智能交互模式的巨大改變。AI至今與人(mbig(oilt(Aent嵌入模式。用戶使用提示詞來設(shè)定目標(biāo),然后AI協(xié)助用戶完成這些目標(biāo),比如普通用戶向生成式AI輸入提示詞創(chuàng)作小說;副駕駛(Copilot)模式。人類和AI更像是合作伙伴,共同參與到工作流程中,各自發(fā)揮作用。模式。人類設(shè)定目標(biāo)和提供必要的資源,然后AI獨(dú)立地承擔(dān)大部分工作,最后人類監(jiān)督進(jìn)程以及評估最終結(jié)果。圖表16:人類與AI協(xié)同的三種模式資料來源:騰訊研究院,五礦證券研究所Emig模式和iltAI只是起到提升效率的作用。AI的智能水平尚未達(dá)到完美,使用Agent的交互模式更為高效,將會更大程度的使人類從重復(fù)復(fù)雜的勞動中釋放,帶來更好的使用體驗(yàn)。面壁智能認(rèn)為,大模型想要落地到具體場景,AIAgent是重要路徑,它代表的是比“裸”模型更擬人的使用體驗(yàn);未來萬物都會是Agent,比如電飯鍋可以是Agent,放入食材后,我們跟它說要熬粥,它就會根據(jù)熬粥的邏輯,去設(shè)定相應(yīng)的加熱方式。目前學(xué)術(shù)界針對LLM-basedagents的研究主要集中在社會科學(xué)、自然科技、機(jī)械工程三個(gè)領(lǐng)域。其中在計(jì)算機(jī)科學(xué)和軟件工程、機(jī)器人和具身智能方面的研究成果相對較多。圖表17:LLM-basedagents主要研究方向LLM-basedagentsLLM-basedagents社會科學(xué)領(lǐng)域自然科學(xué)領(lǐng)域機(jī)械工程領(lǐng)域心理學(xué)政治經(jīng)濟(jì)學(xué)社會模擬 法學(xué) 研究助理文件數(shù)據(jù)管理實(shí)驗(yàn)助手自然科學(xué)教育土木工程計(jì)算機(jī)科學(xué)和軟件工程工業(yè)自動 機(jī)器人化 具身智能資料來源:ASurveyonLargeLanguageModelbasedAutonomousAgents,五礦證券研究所我們認(rèn)為,AIAgent的重要一步risepotentialofBasedAgentsAAGI語言模型已經(jīng)來到了第二級。依靠LLM-basedAgents感知和行動,人工智能將達(dá)到第三、第四級。進(jìn)一步通過多個(gè)Agent互動,則有潛力來到第五級——代理社會。Smallville的虛擬小鎮(zhèn),25個(gè)AIAgents至舉辦情人節(jié)派對,每個(gè)agent都有獨(dú)特的個(gè)性和背景故事。圖表18:斯坦福構(gòu)建的虛擬小鎮(zhèn),里面有25個(gè)AIAgents生活資料來源:機(jī)器之心,五礦證券研究所人形機(jī)器人:機(jī)器人領(lǐng)域的AIAgent我們把人形機(jī)器人理解為大模型在機(jī)器人領(lǐng)域的一種AIAgent。通過大模型,機(jī)器人具備了自然語言和視覺/觸覺的多模態(tài)交互能力、適應(yīng)多場景的泛化能力,這是之前的機(jī)器人所做不到的。圖表19:傳統(tǒng)機(jī)器人的兩大挑戰(zhàn)資料來源:CornellUniversity,五礦證券研究所在LLM模型出現(xiàn)后,學(xué)術(shù)界進(jìn)行了大量研究,把LLM的語義理解能力和推理生成能力引入到機(jī)器人,讓LLM來充當(dāng)機(jī)器人的“大腦”。在引入LLM的過程中,首先遇到的問題是:最初的LLM是一個(gè)語言模型,并不是以物理世界為基礎(chǔ)的。這使得LLM會給出一些正確的,但和當(dāng)時(shí)的情景格格不入、毫無用處的輸出。圖表20:單純的大預(yù)言模型會給出不合情景的回答資料來源:DoAsICan,NotAsISay:GroundingLanguageinRoboticAffordances,五礦證券研究所2le提出的SyanSyCnLM和valuecti。Mfunction還會對(affordance)SayCan模型綜合兩個(gè)打分,給出最合適的結(jié)果。圖表21:SayCan模型結(jié)合LLM輸出結(jié)果的相關(guān)性和可執(zhí)行性,綜合做出最佳選擇資料來源:DoAsICan,NotAsISay:GroundingLanguageinRoboticAffordances,五礦證券研究所研究人員以Palm和FLAN2個(gè)SayCanSayCan個(gè)任務(wù),結(jié)果顯示兩個(gè)模型都取得了較好的成果。在模擬環(huán)境下Palm-SayCan84%,F(xiàn)LAN-SayCanPalm-SayCan的74%,F(xiàn)LAN-SayCan61%。圖表22:研究人員讓模執(zhí)行的101個(gè)任務(wù) 圖表23:Saycan型在各型下執(zhí)行功率資料來源:DoAsICan,NotAsISayGroundingLanguageinRoboticAffordances,五礦證券研究所

資料來源:DoAsICan,NotAsISayGroundingLanguageinRoboticAffordances,五礦證券研究所2ChatGPTRoboticsDesignPrinciplesAbilities。文模型的輸出內(nèi)容是文字,不能操作機(jī)器人的動作,因此微軟提出了使用API調(diào)用的方法:事先定義好API的輸出文本(prompt)API接口,最終實(shí)現(xiàn)通過自然語言控制機(jī)器人。微軟指出,在這個(gè)過程中,API的名字定義至關(guān)重要。好的API命名可以讓選擇正確的API接口。文章中,研究人員要求ChatGPT編寫一種算法,讓無人機(jī)能夠在不撞上障礙物的情況下到達(dá)空中的目標(biāo)位置。ChatGPT立即理解了研究人員的任務(wù),并編碼了算法的大部分關(guān)鍵構(gòu)建塊。一個(gè)好的輸出文本(prompt)是大語言模型能否成果的關(guān)鍵。但prompt工程復(fù)雜且耗時(shí),Robotics研究工具PromptCraftprompt和對話例子。圖表24:把chatGPT引入機(jī)器人改變了過去人機(jī)交互的邏輯資料來源:ChatGPTforRobotics:DesignPrinciplesandModelAbilities,五礦證券研究所12模型。RTRobotics。谷歌通過RT-1第一次證明了,通過龐大的、多樣化的、任務(wù)無關(guān)的數(shù)據(jù),機(jī)器人也可以展現(xiàn)出泛化性,執(zhí)行一些未曾見過的任務(wù)。131713萬個(gè)片段的也強(qiáng)調(diào),因?yàn)槭占鎸?shí)世界機(jī)器人數(shù)據(jù)非常困難,因此模型的泛化和微調(diào)能力非常關(guān)鍵。RT-1是一個(gè)基于機(jī)器人數(shù)據(jù)的端到端模型,輸入端是一小段圖像序列和用文本描述的任務(wù),輸出端是動作指令,包括7個(gè)維度的手臂動作指令(armmovement)、3個(gè)維度的基礎(chǔ)移動指令(basemovement)和1個(gè)維度的狀態(tài)切換指令(modes)。FilM網(wǎng)絡(luò)進(jìn)行預(yù)處理;tokenlearner計(jì)算出一組token;3)使用transformer模型計(jì)算token。圖表25:RT-1模型結(jié)構(gòu)資料來源:RT-1:RoboticsTransformerforReal-WorldControlatScale,五礦證券研究所研究人員讓機(jī)器人執(zhí)行了超過700項(xiàng)任務(wù),結(jié)果顯示:在之前見過的場景、之前未見過的場景、被干擾場景、背景更換場景,搭載RT-1模型的機(jī)器人都展現(xiàn)出了更高的成功率。圖表26:RT-1模型的執(zhí)行成功率要高于其他模型資料來源:RT-1:RoboticsTransformerforReal-WorldControlatScale,五礦證券研究所3月,Google發(fā)布了視覺語言模型PaLM-EPaLM-E的名稱來自于google之前發(fā)布的PaLM預(yù)訓(xùn)練算法,和機(jī)器人的身體E(embodied)。谷歌和柏林工業(yè)大學(xué)稱,aLM-E(Vision-Language,可以在不需要再訓(xùn)練的情況下執(zhí)行各種任務(wù)。通過語言模型與視覺模型相結(jié)合,PaLM-E5620億。PaLM-E的創(chuàng)新之處在于:PaLM-E首次把具身信息(包括自然語言、視頻、傳感器狀態(tài)等非文字信息)非文字信息token化,統(tǒng)一輸入到模型之中。圖表27:Palm-E是一個(gè)多模態(tài)語言具身模型資料來源:PaLM-E:AnEmbodiedMultimodalLanguageModel,五礦證券研究所PaLM-E展示了long-horizon場景1下的能力。當(dāng)研究人員要求機(jī)器人“把抽屜里的薯片拿過來”,PaLM-E可以為一個(gè)有“手臂”的移動機(jī)器人平臺生成行動計(jì)劃,并自行執(zhí)行任務(wù)。圖表28:搭載GooglePaLM-E模型的機(jī)器人從抽屜里拿出薯片資料來源:PaLM-E:AnEmbodiedMultimodalLanguageModel,五礦證券研究所PaLM-E和微軟使用大模型充當(dāng)?shù)氖菣C(jī)器人的“大腦”,而沒有介入“小腦”也就是底層的控制算法。微軟、PaLM-E模型最后輸出的都是文字,并通過文字調(diào)用API來實(shí)現(xiàn)最終的控制。最底層的控制算法依然是傳統(tǒng)的控制方法。目前主流的足式機(jī)器人控制方法是雙層結(jié)構(gòu)。最常見的方案是基于模型預(yù)測控制(ModelPredictive,MPC)的上層軌跡規(guī)劃和基于動力學(xué)模型的下層全身關(guān)節(jié)力控(Whole-BodyWBC)。這種方法的典型代表是MIT的minicheetah。但MPC+WBC的方法需要復(fù)雜的建模和繁瑣的人工調(diào)參,生成的動作在自然度和靈活性上也有所欠缺。也有一些研究使用了強(qiáng)化學(xué)習(xí)(Reinforcement的方法,好處是沒有模型的限制,對復(fù)雜環(huán)境適應(yīng)力更強(qiáng)。為了滿足強(qiáng)化學(xué)習(xí)所需要的龐大數(shù)據(jù),一般會把機(jī)器人放在仿真環(huán)境訓(xùn)練,之后再遷移到真實(shí)世界的機(jī)器人。由于仿真環(huán)境無法100%模擬真實(shí)世界,因此會有sim-to-real的問題。1Long-horizon場景:指需要結(jié)合環(huán)境進(jìn)行多次預(yù)測以完成任務(wù)的復(fù)雜場景圖表29:機(jī)器人控制算一般雙層構(gòu) 圖表30:使用強(qiáng)化學(xué)習(xí)機(jī)器運(yùn)動制 資料來源:小米技術(shù),五礦證券研究所 資料來源:姚期智:機(jī)器人邁向具身通用人工智能,五礦證券研究所7月,Google模型。是一個(gè)視覺-語言動作(VLA)RT2通過海量的互聯(lián)網(wǎng)數(shù)據(jù)對視覺語言模型進(jìn)行預(yù)訓(xùn)練,然后再用少量的機(jī)器人的數(shù)據(jù)進(jìn)行微調(diào),并使模型直接可以輸出機(jī)器人的動作。RT-255B(RT-1)。圖表31:RT-2在大模型的基礎(chǔ)上用機(jī)器人數(shù)據(jù)微調(diào),然后輸出機(jī)器人動作資料來源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五礦證券研究所研究人員對RT-2模型進(jìn)行了和RT-1一樣的測試。結(jié)果顯示,RT-2的理解能力、推理能力、針對未知場景的泛化能力都顯著優(yōu)于RT-1模型。圖表32:RT-2模型在理解、推理方面的能力要顯著優(yōu)于RT-1模型資料來源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五礦證券研究所RT-2在未見過的場景下,表現(xiàn)明顯要比RT-1好,說明RT-2擁有更好的泛化性。圖表33:RT-2模型在未知場景的表現(xiàn)明顯優(yōu)于RT-1模型資料來源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五礦證券研究所圖表34:google在機(jī)器人大模型領(lǐng)域研究進(jìn)展使使的輸出內(nèi)容更合理泛化性2022.12RT-12023.7RT-2

2023.3Palm-E562B參數(shù)參數(shù)有泛化性

55B參數(shù)VLA模型,直接作資料來源:google,五礦證券研究所特斯拉將FSD技術(shù)復(fù)用到人形機(jī)器人,率先開啟產(chǎn)業(yè)化。馬斯克表示特斯拉已經(jīng)打通了FSD和optimus的底層模塊,實(shí)現(xiàn)了一定程度的算法復(fù)用。Optimus的神經(jīng)網(wǎng)絡(luò)是端到端的:輸入視頻,輸出動作。盡管當(dāng)下時(shí)點(diǎn)來看,人形機(jī)器人的能力仍有不足,但已經(jīng)顯示出了非??斓倪M(jìn)化速度,這背年以來人工智能技術(shù)的突飛猛進(jìn)。還是以特斯拉為例,20224月,optimus邁20239月的最新視頻,optimus可以做到:1)基于純視覺和編碼器定位四肢;2)根據(jù)顏色分類物塊;3)較為流暢的行走并做一些簡單的瑜伽動作。12optimus-gen2視頻,機(jī)器人的行動流暢度大幅度提升,搭配手部的觸覺傳感器可以用雙指拿起雞蛋。圖表35:特斯拉在年4月出第步 圖表36:2023年9月斯拉布的頻中進(jìn)行伽和品分揀資料來源:特斯拉AIday2022,五礦證券研究所 資料來源:特斯拉,五礦證券研究所圖表37:2023年12月以完深蹲作 圖表38:2023年12月配觸傳感拿起蛋資料來源:特斯拉AIday2022,五礦證券研究所 資料來源:特斯拉,五礦證券研究所人形機(jī)器人的落地需要具體場景機(jī)器人引入大模型后擁有了“常識”,并帶來了一定的泛化能力,解決了自然語言理解和任務(wù)規(guī)劃的兩大難題。但這種解決方案仍然有很多不足:OpenAI在2021年解散了旗下的機(jī)器人團(tuán)隊(duì),核心原因就是難以獲取數(shù)據(jù)。由于互聯(lián)網(wǎng)的發(fā)達(dá),我們有豐富的文字、圖像信息可供大模型訓(xùn)練,但可用于機(jī)器人訓(xùn)練的數(shù)據(jù)十分寶貴。Google的機(jī)器人數(shù)據(jù)是歷時(shí)超過17個(gè)月在13個(gè)機(jī)器人上收集而來,成本高昂。雖然模型數(shù)據(jù)量的增加可以顯著提升模型的泛用性和效果,但這樣的數(shù)據(jù)采集效率明顯無法支撐大模型的需1但是仿真軟件畢竟無法完全模仿現(xiàn)實(shí)世界,在仿真世界訓(xùn)練的算法平移到現(xiàn)實(shí)世界后,模采用類似RT-2的方法,基于互聯(lián)網(wǎng)的文字、圖片數(shù)據(jù)訓(xùn)練獲得場景?,F(xiàn)階段大多數(shù)論文都局限于桌面操作。雖然桌面上有很多難題,但當(dāng)機(jī)器人移動時(shí),情況通常會變得更加復(fù)雜安全性。大模型內(nèi)部是一個(gè)黑箱,無法保證安全性,但機(jī)器人要在真實(shí)環(huán)境運(yùn)行,可能造成的潛在傷害更大。模型過大,訓(xùn)練成本過高。成功率。真實(shí)世界的應(yīng)用場景中,一般需要99%以上的準(zhǔn)確性和可靠性。然而目前學(xué)術(shù)文章中大多數(shù)結(jié)果的最高成功率在80%左右。而要進(jìn)一步提升成功率,難度會指數(shù)級增加。500Hz的水平,而目前谷歌研發(fā)人形機(jī)器人的商業(yè)化離不開具體的場景?;诖竽P驮诋?dāng)前時(shí)點(diǎn)的不足,我們認(rèn)為想要制作出像真正人類一樣,可以勝任多場景下復(fù)雜任務(wù)的機(jī)器人,是非常遙遠(yuǎn)的。但是,基于特定場景下的、具有一定程度泛用性的人形機(jī)器人則有很大概率落地。人體具有多個(gè)自由度來適應(yīng)真實(shí)世界的各種環(huán)境。受限于技術(shù),現(xiàn)階段人形機(jī)器人最多也就幾十個(gè)自由度,我們需要根據(jù)具體的使用場景簡化機(jī)器人的設(shè)計(jì)、控制復(fù)雜度,降低對機(jī)器人泛用性的要求,使人形機(jī)器人更快落地。的發(fā)展進(jìn)入正向循環(huán),是必經(jīng)之路。基于場景的人形機(jī)器人商業(yè)化思路得到政策認(rèn)可。工信部在《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》中,明確提出把特種環(huán)境、制造業(yè)、民生作為人形機(jī)器人落地的三個(gè)重點(diǎn)方向。特種環(huán)境,主要是指惡劣條件、危險(xiǎn)場景,包括要地警戒守衛(wèi)、民爆、救援等。這些場景對人形機(jī)器人復(fù)雜地形行走的魯棒性、態(tài)勢感、決策能力、高精度操作能力提出挑戰(zhàn)。制造業(yè)典型場景,主要是面向3C和汽車領(lǐng)域,包括裝配、檢測、轉(zhuǎn)運(yùn)、維護(hù)等工序,支撐制造業(yè)的柔性制造需求。民生領(lǐng)域,以醫(yī)療、家政、農(nóng)業(yè)、物流為重點(diǎn),重點(diǎn)在于提升人形機(jī)器人的交互可靠性和安全性。特種環(huán)境制造業(yè)民生要地警戒守衛(wèi)特種環(huán)境制造業(yè)民生要地警戒守衛(wèi)民爆救援3C/汽車裝配、轉(zhuǎn)運(yùn)、檢測、維護(hù)柔性制造醫(yī)療家政農(nóng)業(yè)物流資料來源:人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見,五礦證券研究所企業(yè)主動明確應(yīng)用場景,對接下游需求。小米為機(jī)器人規(guī)劃的發(fā)展路徑是從單點(diǎn)到多點(diǎn),最終發(fā)展成為生態(tài)。短期小米的人形機(jī)器人扎根某一個(gè)具體場景,以完成1-2個(gè)工種為目標(biāo)。中期人形機(jī)器人將融入小米制造的多個(gè)場景規(guī)?;瘧?yīng)用。這個(gè)過程小米會搭建泛化平臺,積累數(shù)據(jù)、迭代模型。長期小米的人形機(jī)器人將會擴(kuò)展更多場景。圖表40:小米科技人形機(jī)器人的1+N+X戰(zhàn)略資料來源:小米集團(tuán),五礦證券研究所walker6大應(yīng)用場景:展館展廳、影視綜藝、科研高校、家庭服務(wù)、倉儲物流、辦公場景。41walker資料來源:優(yōu)必選,五礦證券研究所10DigitDigit1.756516公斤的物體。Digit具備自Digit機(jī)器人的引入,則的身形非常適合在倉庫移動3年2iit機(jī)器人搭載了Miit發(fā)出命令之后,Digit可以自主思考,拆解任務(wù)并完成。圖表42:機(jī)器人在工廠搬運(yùn) 圖表機(jī)器人收到命令的思過程資料來源:X科技館,五礦證券研究所 資料來源:機(jī)器之能,礦證券研究所未來推演:自動駕駛發(fā)展歷程給人形機(jī)器人的啟示自動駕駛汽車和人形機(jī)器人作為具身智能的兩大形式,在很多地方都有相通之處。何小鵬認(rèn)為,自動駕駛本質(zhì)上是機(jī)器人科學(xué),智能汽車公司最終也會和機(jī)器人公司在技術(shù)、產(chǎn)品、生態(tài)等等方面融合。參考自動駕駛的發(fā)展歷程,我們認(rèn)為人形機(jī)器人的發(fā)展也會有3個(gè)趨勢:結(jié)合具體的落地場景可以簡化機(jī)器人結(jié)構(gòu),規(guī)避技術(shù)難題,加快人形機(jī)器人落地;隨著人形機(jī)器人對大數(shù)據(jù)、大模型的要求越來越高,數(shù)據(jù)閉環(huán)能力越來越關(guān)鍵;當(dāng)前階段區(qū)分規(guī)劃算法、控制算法的多模塊的方案將會更容易落地,但連接LLM和控制算法的Prompt自動駕駛在港口、礦山已經(jīng)取得進(jìn)展自動駕駛的發(fā)展,也是從特定場景開始落地。在礦山、港口等特定場景,自動駕駛已經(jīng)取得了亮眼的進(jìn)展。礦山自動駕駛礦山環(huán)境不存在交通法規(guī)問題,且車輛路線相對固定,車速大多在40km/h以下,非常適合開展自動駕駛。此外,礦區(qū)生產(chǎn)運(yùn)輸車輛大、盲區(qū)多,夜晚作業(yè)疲勞駕駛,如何杜絕安全事故一直是生產(chǎn)企業(yè)關(guān)注的重點(diǎn)。90年代,2014年伴隨著無人駕駛發(fā)展才逐漸成熟。礦山無人駕駛車輛落地過程一般分為三個(gè)階段:工程師跟車作業(yè)階段、安全員隨車階段及無安全員運(yùn)行階段。踏歌智行在年完成了無人駕駛礦卡和寬體車的應(yīng)用,開始落地“安全員下車”。24L4級別自動駕駛商業(yè)化落地的難得亮點(diǎn)。圖表44:踏歌智行的國家能源勝利一號露天煤礦項(xiàng)目資料來源:踏歌智行,五礦證券研究所目前從事礦山無人駕駛業(yè)務(wù)的主要企業(yè)包括踏歌智行、慧拓智能、易控智駕、伯鐳科技等。據(jù)工信部賽迪顧問數(shù)據(jù)統(tǒng)計(jì),截至2022年6月,踏歌智行在礦區(qū)無人駕駛領(lǐng)域市占率為45.1%,位居行業(yè)首位。GlobalData公布的2023年第一季度全球礦業(yè)新銳公司排名中,踏歌智行位列中國第一、全球第六,也是榜單中唯一的礦區(qū)無人駕駛科創(chuàng)公司。圖表45:踏歌智行基于、地云協(xié)的“谷”決方案 圖表46:踏歌智行的車硬件案資料來源:踏歌智行,五礦證券研究所 資料來源:踏歌智行,五礦證券研究所港口自動駕駛港口自動駕駛因?yàn)榘敕忾]及標(biāo)準(zhǔn)化程度高等特點(diǎn)而被視為最有潛力落地自動駕駛的場景之一。中國港口自動駕駛自2020年開始在政策推動下加速,發(fā)展至今呈現(xiàn)“百家爭鳴、百花齊放”的發(fā)展態(tài)勢。截至2023年3月底,全國各港口和內(nèi)陸口岸開展自動駕駛測試或運(yùn)營的場景已近40家,其中,無人駕駛集卡已超過250臺,平板式自動導(dǎo)引車近320臺。港口自動駕駛的代表項(xiàng)目是華為參與的天津港第二集裝箱碼頭。華為從2020年開始參與天津港第二集裝箱碼頭的設(shè)計(jì)規(guī)劃實(shí)施和運(yùn)營,目前已經(jīng)實(shí)現(xiàn)了港口L4級別自動駕駛。通過IGV(Intelligent高效協(xié)同作業(yè)實(shí)現(xiàn)全局效率最優(yōu)。通過北斗+5G+90%0.1%。圖表47:華為在天津港實(shí)現(xiàn)L4級自動駕駛資料來源:華為,五礦證券研究所類比自動駕駛,我們認(rèn)為人形機(jī)器人的落地場景需要有以下特點(diǎn):1)強(qiáng)需求,在惡劣環(huán)境條件下的作業(yè)、高危作業(yè)、重復(fù)性高強(qiáng)度作業(yè)對人形機(jī)器人有較高的需求;2)場景適度復(fù)雜,簡單空曠場景工業(yè)機(jī)器人可以勝任,過于復(fù)雜多變的環(huán)境則對技術(shù)的挑戰(zhàn)太大。綜合以上兩點(diǎn),我們認(rèn)為在民爆、救援、制造

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論