計(jì)算機(jī)行業(yè):機(jī)器人與大模型催化具身智能東風(fēng)已至_第1頁
計(jì)算機(jī)行業(yè):機(jī)器人與大模型催化具身智能東風(fēng)已至_第2頁
計(jì)算機(jī)行業(yè):機(jī)器人與大模型催化具身智能東風(fēng)已至_第3頁
計(jì)算機(jī)行業(yè):機(jī)器人與大模型催化具身智能東風(fēng)已至_第4頁
計(jì)算機(jī)行業(yè):機(jī)器人與大模型催化具身智能東風(fēng)已至_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)行業(yè)專題研究證券研究報(bào)告股票研究計(jì)算機(jī)行業(yè)專題研究證券研究報(bào)告股票研究05.28機(jī)器人與大模型催化,具身智能東風(fēng)已至證書編號李沐華(分析師)97limuhua@S519080009齊佳宏(分析師)37qijiahong@S519080007本報(bào)告導(dǎo)讀:的創(chuàng)新演化,具身智能的落地應(yīng)用已見曙光。具身智能是AI的終極形態(tài)。具身智能最大的特質(zhì)就是能夠以主人公。具身智能旨在創(chuàng)建機(jī)器與環(huán)境交互的軟硬件結(jié)合且可自主學(xué)習(xí)進(jìn)化大模型+機(jī)器人成果顯著,具身智能落地的東風(fēng)已至。特斯拉利用一繼續(xù)推薦科大訊飛、金山辦公、淳中科技、虹軟科技??拼笥嶏w:同風(fēng)險(xiǎn)提示:產(chǎn)業(yè)鏈不成熟的風(fēng)險(xiǎn),技術(shù)迭代不及預(yù)期風(fēng)險(xiǎn)。增持細(xì)分行業(yè)評級計(jì)算機(jī)增持相關(guān)報(bào)告選兼具模型與垂直場景的廠商》2023.05.26計(jì)算機(jī)《蘋果MR有望引爆機(jī)器視覺的iPhone時(shí)刻》2023.05.18焦算力、數(shù)據(jù)與場景》2023.05.16貢獻(xiàn)大單》2023.05.04大催化》2023.04.23請務(wù)必閱讀正文之后的免責(zé)條款部分行業(yè)專題研究2of2of16 AIGC 12 行業(yè)專題研究3of3of161.具身智能——AI的終極形態(tài)1.1.具身智能的行為主義——人工智能的第三個(gè)流派從符號主義到聯(lián)結(jié)主義,智能體與真實(shí)世界的交互日益重視。上世紀(jì)五十年代的達(dá)特茅斯會議之后的一段時(shí)期內(nèi),對人工智能的研究主要限于符號處理范式(符號主義)。符號主義的局限性很快在實(shí)際應(yīng)用中暴露出網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò),直至今日風(fēng)靡學(xué)術(shù)界與產(chǎn)業(yè)界的深度神經(jīng)網(wǎng)絡(luò)等多種方法。這種用人工神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知過程的方法在適應(yīng)、泛化與學(xué)習(xí)方面的確取得了很大的進(jìn)展,但并未真正解決智能體與真實(shí)物理世界交互的地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。年,布魯克斯從控制論角度出發(fā),強(qiáng)調(diào)智能是具身化(Embodied)和情境《HowtheBodyShapestheWayWeThink》中通過分析“身體是如何理解智能本質(zhì)與研究人工智能系統(tǒng)的深遠(yuǎn)影響。以上這些工作為人工智能的第三個(gè)流派——以具身智能為代表的行為主義方法奠定了堅(jiān)實(shí)基礎(chǔ)。1.2.具身智能旨在創(chuàng)建機(jī)器與環(huán)境交互的軟硬件結(jié)合智能體智能行為可以被具有對應(yīng)形態(tài)的智能體通它們在真實(shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù),來完成人工智能的進(jìn)化相對的概念是“離身”(Disembodiment),指的是認(rèn)知與身體解耦體(生物或機(jī)械)通過與環(huán)境產(chǎn)生交互后,通過自身學(xué)習(xí),產(chǎn)生對于客觀可身的概念是可檢驗(yàn)、可測量的。人所理解的世界概念,其中既包括人車等實(shí)體以及相應(yīng)行為的具身概念。而具身概念是具備可達(dá)性、可檢驗(yàn)性以及可解釋性的,即具身的概念對應(yīng)的實(shí)體和行為是可以被測量,可以通過任務(wù)的完成來驗(yàn)證以及通過具身學(xué)習(xí)來實(shí)現(xiàn)概念的推斷。相比之行業(yè)專題研究4of4of16以形成一個(gè)可測量、可檢驗(yàn)的閉合集 “知行合一”是具身智能的科學(xué)立場。根據(jù)具身智能的技術(shù)實(shí)現(xiàn)邏輯,“知”是建立在“行”之上的,也就是說只有通過“具身”才能理解某臥室,其具有睡覺、休息、放衣服等行為特征,這類行為是基于人的身體設(shè)計(jì)的,因此真正理解臥室的場景,就是要能夠直才能保證對場景理解的準(zhǔn)確性 具身知識在中國古老漢字中都占據(jù)較高比例。甲骨文等古老漢字,絕大代表兩個(gè)人的手拔一根繩子,因此,理解行為才是理解概念及場景的關(guān)圖3:中國古老漢字中就具備“具身”理念 究具身智能的終極目標(biāo)。具身智能要能夠?qū)崿F(xiàn)使用身體(各個(gè)部位)完成5of5of16任務(wù)的過程中,表現(xiàn)出完成之前沒領(lǐng)域的速度、動(dòng)量、彈性等概念奠基了物理學(xué)領(lǐng)域,驅(qū)動(dòng)了后續(xù)科學(xué)的發(fā)1.4.具身智能的實(shí)現(xiàn)需具備三種基本特性具身智能首先要具備可供性??晒┬砸馕吨寵C(jī)器知道物體和場景能xterousgrasping用兩、三、五根手指去握一個(gè)柱子,倘若不同的手都能夠產(chǎn)生無誤的握。么具身智能還要具有功能性。具身智能在把物體作為工具使用的過程中,于任務(wù)——改變實(shí)體狀態(tài),是任務(wù)實(shí)現(xiàn)來驅(qū)動(dòng)智能體的。例如,在解決特定任務(wù)。6of6of16身智能需要實(shí)現(xiàn)因果鏈。就以上提到的“鏟土”例子,智能體能否順利鏟起土來是有因果關(guān)系的,例如控制揮動(dòng)錘子的方式、動(dòng)量、沖量等智能研究院朱松純教授團(tuán)隊(duì)介紹了一種學(xué)習(xí)和規(guī)劃框架,并證明了所提出的學(xué)習(xí)和規(guī)劃框架能夠識別對任務(wù)成功有重要意義的基本物理量,使智能體能夠自主規(guī)劃有效的工具使用策略,模仿人類使用工具的基本特智能體學(xué)習(xí)如何使用工具涉及到多個(gè)認(rèn)知和智能過程,這個(gè)過程即使對人類來說也并不容易。讓機(jī)器人掌握工具使用所涵蓋的所有技能是一項(xiàng)有挑戰(zhàn)性的難題,這項(xiàng)工作包括三個(gè)層面:其一是底層的運(yùn)動(dòng)控制。很或在不同階段改變力和運(yùn)動(dòng)約束,或使用基于學(xué)習(xí)的方法來控制機(jī)器人運(yùn)動(dòng)軌跡。在底層控制中,魯棒地執(zhí)行運(yùn)動(dòng)軌跡是關(guān)注的核心。其二是中間層表征。各種利于下游任務(wù)的中間表征被提出,以便更好地理解工具的使用。盡管引入這些表征有利于學(xué)習(xí)更多不同的工具使用技能,但它們目前仍然局限于工具的形狀和任務(wù)之間的幾何關(guān)聯(lián)。其三是理解在工具使用中的涉及的高層概念,比如物體的功能性(Functionality)和現(xiàn)有的具身智能工作大多集中在以上三種基本特性中的某一層面。要么主要關(guān)注于機(jī)器人的動(dòng)作軌跡而不去理解任務(wù)本身,要么旨在高層次概機(jī)器人還遠(yuǎn)遠(yuǎn)沒有辦法基于特定的情境去制定工具使用的策略,并且由于運(yùn)動(dòng)學(xué)結(jié)構(gòu)的顯著差異,機(jī)器人觀察到的人類使用工具的策略對其來說可能并不是最理想的方式。例如給定一組物體(典型的工具或其他物體),機(jī)器人如何判斷哪一個(gè)會是完成任務(wù)的最佳選擇?一旦選擇了一心科學(xué)問題2.1.具身智能首先得實(shí)現(xiàn)人類行為的有效克隆行業(yè)專題研究7of7of16要機(jī)器理解實(shí)體與行為,就得回答三個(gè)核心的科學(xué)問題。首先,從機(jī)器認(rèn)知角度,如何讓機(jī)器看懂行為?其次,從神經(jīng)認(rèn)知角度,機(jī)器認(rèn)知語義與神經(jīng)認(rèn)知的內(nèi)在關(guān)聯(lián)如何?再者,從具身認(rèn)知的角度,如何將行為要實(shí)現(xiàn)具身智能,就必須先回答機(jī)器能否克隆人類的行為這個(gè)問題。行解實(shí)體+理解行為,因?yàn)椴淮_定性的世界空間就可以歸類為實(shí)體與行為圖8:要實(shí)現(xiàn)機(jī)器理解行為必須拆分為“理解實(shí)體+理解行為本身” 深度學(xué)習(xí)框架在行為認(rèn)知中遇到了瓶頸。因?yàn)樯疃葘W(xué)習(xí)得到長足發(fā)展,計(jì)算機(jī)視覺領(lǐng)域有兩個(gè)要素,一個(gè)是以物體為中心的感知,一個(gè)是以人產(chǎn)品都是很少的。之所以人為中心的感知十分困難,是因?yàn)樯疃葘W(xué)習(xí)本圖9:當(dāng)前的計(jì)算機(jī)視覺相關(guān)技術(shù)在行為識別上存在一定局限性 通大學(xué))行為理解的關(guān)鍵是要在極大語義噪聲中提取行為理解要素。行為是一個(gè)相關(guān)要素。要衡量圖像的語義判斷區(qū)間,可以用語噪比(語噪比=支撐語義判斷區(qū)間/全圖像區(qū)間)來刻域。盧策吾教授團(tuán)隊(duì)通過計(jì)算發(fā)現(xiàn),物體識別的語噪比要遠(yuǎn)大于行為識別,這意味著遮住較大區(qū)域仍可以識別物體,但哪怕遮住一小塊區(qū)域就噪聲中提取行為理解要素,也就是需要在很大干擾情況下,真正挖掘圖行業(yè)專題研究8of8of16于區(qū)域較小的關(guān)鍵部分通大學(xué))將行為認(rèn)知問題分解為感知到知識、知識到推理融合的兩個(gè)較為簡單的比如吃飯、讀書和打掃都有著“手-握-某物”的標(biāo)簽,通過對這些共享圖11:將行為認(rèn)知過程分解為兩個(gè)較為簡單的階段源:盧策吾教授(上海交通大學(xué))知識以及邏輯規(guī)則庫是首當(dāng)其沖的工作。人類理解行為的基本原因,約等于人類各個(gè)部件在干什么事情,因此首先得構(gòu)建原語檢測,之后就需要對它們進(jìn)行編程,實(shí)現(xiàn)邏輯規(guī)則引導(dǎo)下的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),但這里容易出的問題是,規(guī)則是人類自己認(rèn)為的,如果規(guī)則庫錯(cuò)了就會有很大的影響,因此規(guī)則學(xué)習(xí)是解決該問題的辦法。具體流程是,在行為原語知識庫中隨機(jī)采樣,形成對該行為的判斷,然后基于人不然就刪掉該規(guī)則,通過調(diào)整后的規(guī)則分布形成新規(guī)則。盧策吾教授發(fā)的“騎車規(guī)則”中自動(dòng)識別出“騎車”這個(gè)行為,所以該技術(shù)路線可以有圖13:針對行為認(rèn)知的原語知識庫示例如下圖14:邏輯規(guī)則學(xué)習(xí)流程如下所示數(shù)據(jù)來源:盧策吾教授(上海交通大學(xué))數(shù)據(jù)來源:盧策吾教授(上海交通大學(xué))9of9of16機(jī)器能夠理解人類行為需要有科學(xué)依據(jù)的支撐。因此,科學(xué)家需要進(jìn)一為從模式到腦信號存在映射,且模型穩(wěn)定。盧策吾教授聯(lián)合的行為模式和神經(jīng)信號進(jìn)行了相關(guān)性分析。通過實(shí)驗(yàn)發(fā)現(xiàn)機(jī)器學(xué)習(xí)得出行為從模式到腦信號存在映射,并可以建立一個(gè)穩(wěn)定模型。另外,通過構(gòu)建一套基于機(jī)器學(xué)習(xí)的行為相關(guān)的神經(jīng)回路發(fā)現(xiàn)系統(tǒng),成功發(fā)現(xiàn)解析證明了視覺定義行為的科學(xué)性和有效性通大學(xué))2.3.機(jī)器能夠執(zhí)行行為才是真正理解行為,更需要能執(zhí)行行為,機(jī)器能夠執(zhí)行行為才是真正理解例如,傳統(tǒng)AI學(xué)習(xí)可以讓機(jī)器學(xué)習(xí)“盒子”概念并在新的場景中說出通過親身體驗(yàn)完成具身學(xué)習(xí),最終理解場景并形成“打開”這個(gè)概念。執(zhí)行行為需要涉及到形態(tài)、行為和學(xué)習(xí)的體系化交互。在基于形態(tài)的具行為,從而達(dá)到部分取代“計(jì)算”的目的。其次,需要利用行為實(shí)現(xiàn)學(xué)習(xí),重點(diǎn)強(qiáng)調(diào)利用具身智能體的探索、操作等行為能力主動(dòng)獲取學(xué)習(xí)樣實(shí)現(xiàn)方法,但當(dāng)前利用學(xué)習(xí)手段來提升行為,并進(jìn)而控制形態(tài)的工作是現(xiàn)代人工智能技術(shù)發(fā)展起來后涌現(xiàn)出來的新型智能控制方法,特別是基于強(qiáng)化學(xué)習(xí)的技術(shù)已成為當(dāng)前的熱點(diǎn)手段。最后,具身智能需要利用學(xué)習(xí)來優(yōu)化形態(tài),強(qiáng)調(diào)利用先進(jìn)的學(xué)習(xí)優(yōu)化技術(shù)實(shí)現(xiàn)對具身智能體的形態(tài)設(shè)計(jì)。構(gòu)如下所示具身感知”是以執(zhí)行動(dòng)作為導(dǎo)向的全概念的交互感知。具身智能首先第一步就得解決具身概念學(xué)習(xí)的問題,即如何定義、獲取、表達(dá)可以被物理屬性,同時(shí)標(biāo)注關(guān)節(jié)體每個(gè)部件的質(zhì)量、體積、慣性等,記錄真實(shí)世界物體操作力反饋與仿真操作力反饋,在物理屬性知識加持下,物體力反饋曲線可以完全擬合出來,這時(shí)候仿真物體操作的時(shí)候,不再是去行的準(zhǔn)確率,判斷感知的準(zhǔn)確率。步驟通過行為的反饋和模式學(xué)習(xí)的空間壓縮,可以實(shí)現(xiàn)“具身執(zhí)行”的一定行業(yè)專題研究3.大模型與機(jī)器人成果顯著,具身智能的東風(fēng)已至3.1.人形機(jī)器人——具身智能成長的重要土壤上,馬斯克發(fā)布了特斯拉的通用機(jī)器人計(jì)劃,并用圖片展示了人形機(jī)器實(shí)體首次亮相t研究團(tuán)隊(duì)使用電機(jī)扭矩控制(motortorquecontrol)操縱人形機(jī)器人腿部的運(yùn)動(dòng),讓機(jī)器人落腳力度保持輕緩。對于一個(gè)機(jī)器人來說,觀察或感知周圍環(huán)境是非常重要的,因此特斯拉為人形機(jī)器人添加了環(huán)境發(fā)特斯拉的人形機(jī)器人具備與人類相似的身體結(jié)構(gòu),特斯拉的研究團(tuán)隊(duì)使用大量人類演示訓(xùn)練了機(jī)器人,特別是在手部動(dòng)作方面,旨在讓其具備與人類似的物體抓取能力。能夠?qū)χ苓叚h(huán)境進(jìn)行建模具身智能帶來的AI價(jià)值遠(yuǎn)比人形機(jī)器人更大。具身智能最大的特質(zhì)就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學(xué)行業(yè)專題研究語義提供了迭代的基礎(chǔ)和試驗(yàn)場,因此,人形機(jī)器人的逐步完善也為具要是人形機(jī)器人,因此具身智能背后的技術(shù)和方法論才是核心,也意味機(jī)器人是具身智能的重要應(yīng)用場景,也將為具身智能的迭代優(yōu)化提供方3.2.AIGC助力具身智能瓶頸突破,智能與泛化能力是關(guān)鍵強(qiáng)化學(xué)習(xí)興起之后,具身智能受到了更廣泛的關(guān)注。之前隨著AlphaGoL而學(xué)習(xí)一個(gè)policy。但是因?yàn)榉抡姝h(huán)境和現(xiàn)實(shí)環(huán)境總是有差距的(叫最近大語言模型的風(fēng)頭又壓過了強(qiáng)化學(xué)習(xí)。最近業(yè)界希望通過大規(guī)模sequencetosequence,用一個(gè)模型整合視覺、語言、機(jī)器人,也取得多模態(tài)大模型為具身智能的技術(shù)瓶頸突破提供了重要驅(qū)動(dòng)力。具身智能是人工智能、機(jī)器人等各技術(shù)分支融合發(fā)展的必然結(jié)果,因?yàn)橛?jì)算機(jī)視覺為圖像的采集和處理打開了窗口,圖形學(xué)也為物理仿真提供了工具識提供了有效途徑,認(rèn)知科學(xué)也為具身智能的行為認(rèn)知原理提供了科學(xué)研究途徑。各類機(jī)器人構(gòu)件也為智能體與物理環(huán)境交互提供了橋梁。因此,人工智能的技術(shù)分支以及機(jī)器人功能性的提升,為具身智能的進(jìn)一步發(fā)展帶來了可能,而當(dāng)前AIGC時(shí)代的大模型可以將之前的技術(shù)分支類與機(jī)器人溝通的橋梁,即通過將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并GPT等AI大模型為具身智能的自我感知和任務(wù)處理的優(yōu)化升級提供了新的研究手段。3.3.巨頭紛紛布局,產(chǎn)業(yè)融合加速推進(jìn)會上,黃仁勛表示人工智能的下一個(gè)浪潮將是具身智能,即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。同時(shí),他也介紹了英偉達(dá)的多模態(tài)NvidiaVIMA,其能在視覺文本提示的指導(dǎo)下,執(zhí)行復(fù)雜融合傳感器模態(tài)與語言模型,谷歌推出的視覺語言模型相較于ChatGPT了當(dāng)時(shí)最大視覺語言模型——PaLM-E多模態(tài)視覺語言模型(VLM),該模世界的連續(xù)傳感器模態(tài)直接納入語言模型,從而建立單詞和感知之間的圖像、狀態(tài)估計(jì)或其他傳感器模態(tài))注入預(yù)先訓(xùn)練的語言模型的語言嵌入空間,因此實(shí)現(xiàn)了以類似于語言標(biāo)記的方式將連續(xù)信息注入到語言模谷歌實(shí)現(xiàn)視覺語言與機(jī)器人高水平實(shí)時(shí)互聯(lián),且觀察到了類似多模態(tài)思行連續(xù)觀察,例如接收圖像或傳感器數(shù)據(jù),并將其編碼為一系列與語言仍可實(shí)現(xiàn)多模態(tài)思維鏈推理(允許模型對包含語言和視覺信息在內(nèi)的一系列輸入進(jìn)行分析)和多圖像推理(同時(shí)使用多張輸入圖像進(jìn)行推理或們更輕松地與機(jī)器人互動(dòng),而無需學(xué)習(xí)復(fù)雜的編程語言或有關(guān)機(jī)行業(yè)專題研究阿里采用和微軟相似的路徑,正在實(shí)驗(yàn)將千問大模型接入工業(yè)機(jī)器人。在近日舉行的第六屆數(shù)字中國建設(shè)峰會上,阿里云發(fā)布一個(gè)演示視頻中動(dòng)編寫了一組代碼發(fā)給機(jī)器人,機(jī)器人開始識別周邊環(huán)境,從附近的桌上找到一瓶水,并自動(dòng)完成移動(dòng)、抓取、配送等一系列動(dòng)作,遞送給工工業(yè)機(jī)器人的開發(fā)和應(yīng)用帶來革命性的變化,其背后意味著大模型為工業(yè)機(jī)器人的開發(fā)打開了新的大門。因?yàn)榍柕却竽P蜑闄C(jī)器人提供了推理服務(wù)4.投資建議股票代碼證券名稱總市值(億元)0526營業(yè)收入(億元)PS(倍)評級AAEAAE687金山辦公052485.風(fēng)險(xiǎn)提示部分使用場景,人形機(jī)器人顯得十分雞肋。在服務(wù)領(lǐng)域,人形機(jī)器人的行業(yè)專題研究局限在實(shí)驗(yàn)室場景,在生活、工業(yè)等海量場景中的普適性仍需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論