計算機行業(yè)市場前景及投資研究報告:大模型引領(lǐng)具身智能新發(fā)展_第1頁
計算機行業(yè)市場前景及投資研究報告:大模型引領(lǐng)具身智能新發(fā)展_第2頁
計算機行業(yè)市場前景及投資研究報告:大模型引領(lǐng)具身智能新發(fā)展_第3頁
計算機行業(yè)市場前景及投資研究報告:大模型引領(lǐng)具身智能新發(fā)展_第4頁
計算機行業(yè)市場前景及投資研究報告:大模型引領(lǐng)具身智能新發(fā)展_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

%%%%目

錄01

什么是具身智能?02

本輪大模型進步對具身智能影響03

巨頭的布局和行動04

投資關(guān)注點%%3%%%%%具身智能技術(shù)演進邏輯大模型高泛化性思維鏈能力需要應(yīng)對從未見過的場景需要拆解復(fù)雜任務(wù)以及根據(jù)環(huán)境變化調(diào)整動作具身智能機器人相關(guān)廠商:特斯拉Optimus、宇樹智能、云深處、優(yōu)必選等相關(guān)廠商:達闥、優(yōu)必選等服務(wù)場景機器人勞動場景機器人短期方案:LLM+感知算法+決策控制算法短期方案:感知算法+復(fù)雜決策控制算法改良方案:微軟ChatGPTforRobotics中期方案:多模態(tài)大模型+控制算法當(dāng)前已有項目:谷歌PaLM-E當(dāng)前已有項目:遠期方案:VLA大模型谷歌RT-2資料:長江證券研究所。4%%%%01什么是具身智能?%%5%%%%%01

具身智能有哪些特點?

具身智能機器人需要以第一人稱的身份融入周邊環(huán)境具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。第三人稱只能做到旁觀式學(xué)習(xí),而第一人稱可以主動與現(xiàn)實世界互動,通過物理形態(tài)的互動中汲取新知識。第一人稱與第三人稱交互方式第一人稱與第三人稱智能資料:機器之心,長江證券研究所。6%%%%01

具身智能需要高泛化性

具身智能機器人需要與復(fù)雜世界進行互動,因此決策控制系統(tǒng)需要高泛化性當(dāng)前機器人的感知、決策、控制系統(tǒng)由大量傳統(tǒng)算法組合而成,如SLAM算法、路徑規(guī)劃算法等;而傳統(tǒng)算法模型即使經(jīng)歷大量的訓(xùn)練,仍存在較多小概率場景(corner

case)難以覆蓋,泛化能力較低。以特斯拉自動駕駛系統(tǒng)Copilot為例,2021年特斯拉輔助自動駕駛系統(tǒng)錯誤地把卡車的白色貨廂識別成了天空,導(dǎo)致Model

Y撞上貨車發(fā)生車禍。純白的貨車停在十字路口屬于小概率場景,自動駕駛算法由于沒有經(jīng)過同場景訓(xùn)練,所以無法生成對應(yīng)決策。傳統(tǒng)機器人規(guī)劃算法較為復(fù)雜早期特斯拉自動駕駛功能難以應(yīng)對小概率場景,造成車禍資料:CSDN,新智元,長江證券研究所。%%7%%%%%01

具身智能需要思維鏈能力

具身智能需要拆解復(fù)雜任務(wù)以及根據(jù)環(huán)境變化不斷調(diào)整自己的動作和任務(wù)目標(biāo),因此需要思維鏈能力在現(xiàn)實世界中,機器人難以一次性完成整個復(fù)雜動作,因此需要將復(fù)雜動作拆解成多個簡單步驟完成;此外,由于現(xiàn)實世界遠比機器人訓(xùn)練場景復(fù)雜,機器人不是唯一客體,所以在任務(wù)過程中會受到各種干擾,環(huán)境也會不斷變化;因此具身智能機器人需要較強的思維鏈能力。以下圖為例,向PaLM-E機器人發(fā)出任務(wù)指令:“把零食從抽屜中拿給我”,機器人將其拆解為5個步驟。在執(zhí)行過程中,人類把機械臂抓取的零食打落回抽屜。搭載PaLM-E的機械臂仍能調(diào)整任務(wù)目標(biāo),完成任務(wù)。PaLM-E機器人把任務(wù)拆解成多個步驟完成資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長江證券研究所。8%%01

大模型是具身智能機器人的必備選項

大模型具備高泛化性與思維鏈能力,因此成為具身智能系統(tǒng)必備選項%%大模型的出現(xiàn)有望徹底顛覆機器人的軟件開發(fā)范式。預(yù)訓(xùn)練賦予了大模型知識壓縮的能力,因此預(yù)訓(xùn)練后的大模型具備較高的泛化能力,可以應(yīng)對從未見過的任務(wù)場景。有較高泛化能力的系統(tǒng)可以應(yīng)對小概率場景(corner

case),有望大幅度降低了算法開發(fā)的復(fù)雜度。當(dāng)模型的參數(shù)擴大到一定的量級,大模型會涌現(xiàn)出思維鏈能力。因此大模型是具身智能機器人的必備選項。大模型通過預(yù)訓(xùn)練+調(diào)參提高泛化性預(yù)訓(xùn)練+調(diào)參=目標(biāo)模型參數(shù)量擴大涌現(xiàn)出思維鏈能力大規(guī)模無標(biāo)注數(shù)據(jù)任務(wù)特定訓(xùn)練數(shù)據(jù)數(shù)據(jù)模型預(yù)訓(xùn)練(Pre-training)模型微調(diào)(Fine-tuning)最終模型泛用性增強根據(jù)場景調(diào)整得到特定所需資料:清華NLP團隊,openBMB,《Chain-of-Thought

Prompting

Elicits

Reasoning

in

Large

Language

Models》Jason

Weiet

al,長江證券研究所。%%9%%%%01

具身智能是大模型的終極應(yīng)用場景

從文本到圖像再到現(xiàn)實世界,具身智能是大模型的終極應(yīng)用場景%目前大模型技術(shù)已從單純的大語言模型(LLM)發(fā)展到圖像-語言多模態(tài)模型(VLM);隨著谷歌圖像-語言-動作多模態(tài)模型(VLA)的推出,大模型有望在人形機器人場景快速滲透。從文本到圖像再到現(xiàn)實世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù)據(jù)規(guī)模的數(shù)量級迅速增長,大模型的應(yīng)用場景和價值量也成比例擴張,具身智能有望在未來成為大模型終極應(yīng)用場景。大模型的進化圖像-語言-動作大語言模型文本處理圖像-語言多模態(tài)模型文生圖、圖生文多模態(tài)模型具身智能模態(tài)數(shù)據(jù)規(guī)模應(yīng)用場景擴大模態(tài)數(shù)據(jù)規(guī)模應(yīng)用場景擴大ChatGPT、Claude、LLaMA、訊飛星火PaLM-E、DALL-ERT-2資料:長江證券研究所。10%%%%02本輪大模型進步對具身智能的影響?%%11%%%%02

人形機器人可以分為服務(wù)型和勞動型

按照使用場景的不同,人形機器人可以分為服務(wù)型機器人和勞動型機器人%服務(wù)型機器人主要用于客服與接待場景,此類場景對人機交互有較高需求,因此服務(wù)型機器人通常外表高度擬人,配備了人機交互系統(tǒng),有成熟的語言識別、合成算法;但往往機械硬件配置較低,機動性差,難以完成精細動作。服務(wù)型機器人的主機廠有達闥、優(yōu)必選等。勞動型主要用于工業(yè)、電力巡檢、安防等場景,可以將人力從簡單重復(fù)勞動或者重體力勞動中解放出來。勞動型機器人重視精準動作控制,通常配備高性能電機、高強度關(guān)節(jié),機動性較強,但難以完成復(fù)雜的人機交互。勞動型機器人的主機廠有特斯拉、云深處、宇樹科技等。服務(wù)型機器人:達闥CloudGinger2.0勞動型機器人:特斯拉Optimus資料:達闥官網(wǎng),特斯拉官網(wǎng),長江證券研究所。12%%%%02

服務(wù)型機器人-短期方案

服務(wù)型機器人的短期方案:大語言模型(LLM)+感知算法+決策控制算法大語言模型的出現(xiàn)給服務(wù)型機器人帶來了巨大的技術(shù)供給。在大模型出現(xiàn)之前,服務(wù)型機器人的人機交互主要靠深度學(xué)習(xí)模型完成,但深度學(xué)習(xí)沒有文本生成能力,所以針對不同的問題只能給出固定答案,且由于泛化性較低只能解決常見問題。在大模型出現(xiàn)之后,機器人人機交互能力大幅度提高,只需在大模型下游搭配語音算法即可解決覆蓋絕大部分服務(wù)場景。機器人的大模型系統(tǒng)搭載于云端,全部語言交互由云端計算生成。在運動控制方面,由于服務(wù)型機器人不需要精準動作行為,所以決策控制算法相比勞動型機器人較為簡單。服務(wù)型機器人的大模型僅僅用于人機交互方面,無法對機器人的決策控制產(chǎn)生影響。交互能力:大模型+語音算法動作控制:機器視覺+決策控制算法語音解析算法語音輸入傳感器圖像/位置輸入文本輸入LLM感知算法決策算法控制算法電機云端計算本地計算人類外界環(huán)境文本輸出語音合成算法語音輸出動作輸出資料:長江證券研究所。%%13%%%%%02

勞動型機器人-短期方案

勞動型機器人的短期方案:感知算法+復(fù)雜決策控制算法短時間內(nèi),由于多模態(tài)大模型發(fā)展尚不成熟,大模型僅能在人機交互方面為機器人賦能,在運動控制方面仍需技術(shù)迭代。所以在動作控制方面,勞動型機器人的動作由感知算法配合復(fù)雜的決策控制算法共同完成。由于機器視覺技術(shù)仍存在短板,所以機器人往往還需要激光/IMU等傳感器配合其感知環(huán)境。常見的感知算法常見的規(guī)劃算法常見的控制算法資料:CSDN,長江證券研究所。14%%%%02

人型機器人中期方案

人型機器人的中期方案:圖像-語言大模型(VLM)+控制算法VLM大模型將文本數(shù)據(jù)與圖像數(shù)據(jù)混合編碼喂入深度神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練,得到了具有圖像邏輯思維能力的多模態(tài)大模型。和傳統(tǒng)的感知決策控制算法相比,VLM可以參與人形機器人的決策,僅控制部分需要傳統(tǒng)算法參與。此方案在決策方面有較強的泛化能力,可以應(yīng)對從未見過的場景,并且具備邏輯推理能力。目前該技術(shù)方案的瓶頸在于圖像-語言多模態(tài)大模型尚未發(fā)展成熟,預(yù)計仍需要1-3年時間VLM才能在機器人場景獲得較高的滲透率。谷歌PaLM-E多模態(tài)大模型資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長江證券研究所。%%15%%%%%02

人型機器人遠期方案

人型機器人的遠期方案:圖像-語言-動作多模態(tài)大模型(VLA)VLA模型是人形機器人觸及具身智能的關(guān)鍵因素。相比于圖像-語言模型,VLA把機器人動作數(shù)據(jù)也作為一種模態(tài)融入大模型算法,因此可以用單個模型完成感知、決策、控制全流程計算。將動作數(shù)據(jù)作為模態(tài)融入后,機器人動作將成為思維鏈的一環(huán),因此決策與控制的銜接更流暢,更具邏輯性。目前VLA方案的瓶頸在于機器人動作數(shù)據(jù)難以匹配其他兩種模態(tài)的數(shù)據(jù)規(guī)模,所以三種模態(tài)的同步數(shù)據(jù)較為稀少,需要VLM中期方案的長期積累。VLA方案預(yù)計需要2-5年時間才能獲得較高滲透率。VLA模型需要將機器人動作作為模態(tài)編入大模型資料:谷歌RT-2官網(wǎng),《RT-2:

Vision-Language-Action

ModelsTransfer

WebKnowledge

toRobotic

Control》,Brohan

et

al.,長江證券研究所。16%%%%03巨頭的布局和行動?%%17%%%%%03

短期:決策控制算法改良-ChatGPTforRobotics

微軟推出了ChatGPTforRobotics模式,可以大幅度提高算法開發(fā)效率在人類用自然語言指派任務(wù)后,ChatGPT可以迅速根據(jù)要求生成相應(yīng)的代碼,機器人會根據(jù)代碼完成對應(yīng)任務(wù)。以往面對新任務(wù)時需要人工開發(fā)算法,ChatGPTforRobotics模式可以大幅度降低新任務(wù)的算法開發(fā)難度。ChatGPTforRobotics模式缺點:本質(zhì)上決策還是由人類來做,需要人實時監(jiān)督,所以距離具身智能仍有一段距離;決策過程需要人與ChatGPT的多輪互動,所以動作延遲較大。ChatGPTforRobotics可以根據(jù)自然語言生成控制代碼資料:微軟官網(wǎng),長江證券研究所。18%%%%03

中期VLM方案:PaLM-E

中期方案目前的典型產(chǎn)品為谷歌研發(fā)的PaLM-E大模型PaLM-E大模型有5620億參數(shù),可以通過簡單指令自動規(guī)劃計劃步驟,實現(xiàn)在兩個不同實體上的執(zhí)行規(guī)劃以及長距離的任務(wù)。顛覆以往機器人只能實現(xiàn)固定路徑行為或者需要人工協(xié)助才能完成的長跨度任務(wù)。PaLM-E具備較強的思維鏈能力和無樣本學(xué)習(xí)能力,可實現(xiàn)基于圖像內(nèi)容的邏輯推理。谷歌PaLM-E大模型具備較高泛化性和邏輯推理能力資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長江證券研究所。%%19%%%%03

遠期VLA方案:谷歌RT-2大模型

遠期方案的典型產(chǎn)品為谷歌推出的RT-2模型%RT-2是首個用視覺-語言-動作(VLA)模態(tài)來控制機器人的大模型。RT-2模型控制的機器人具備符號理解(Symbol

understanding)、推理(Reasoning)和人類識別(Human

recognition)三大能力。RT-2將機器人運動數(shù)據(jù)作為一種模態(tài),混合編入PaLI-X多模態(tài)大模型和PaLM-E多模態(tài)大模型的語言-圖像大模型(VLM),并通過聯(lián)合調(diào)參的方式構(gòu)建出VLA模型。調(diào)參得到的RT-2大模型展現(xiàn)出了較強的性能,符號理解、推理和人類識別的能力相比于采用VLM的RT-1模型的性能提升了約2-3倍。此外RT-2還具備較強的思維鏈能力,可以完成多步驟邏輯推理;模型在輸入圖像數(shù)據(jù)后會首先輸出語言規(guī)劃結(jié)果,再把語言規(guī)劃結(jié)果分解成機械臂動作完成。RT-2可以將復(fù)雜任務(wù)拆成簡單多步驟完成RT-2具備較強的視覺符號理解、推理、人類識別能力資料:《RT-2:

Vision-Language-Action

Models

Transfer

WebKnowledge

toRobotic

Control》,Brohan

etal.,長江證券研究所。20%%%%03

特斯拉人形機器人

特斯拉Optimus2022年9月特斯拉在AI

DAY上發(fā)布了人形機器人Optimus

原型機。2023年5月特斯拉股東會上視頻展示迭代后的Optimus,相比上一次亮相,迭代后的Optimus在電機扭矩和力度控制等方面更精確,并能探索和記憶環(huán)境,算法與人形機器人底層模塊的耦合性大為改善,并進入了特斯拉工廠執(zhí)行簡單的任務(wù)。在軟件系統(tǒng)方面,Optimus機器人繼承了特斯拉的FSD智能駕駛系統(tǒng),算力芯片復(fù)用了HW3.0。預(yù)計量產(chǎn)后的Optimus機器人單價有望低于20000美元。特斯拉OptimusOptimus部分硬件參數(shù)資料:特斯拉官網(wǎng),Verge,長江證券研究所。%%21

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論