2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅

上傳人：緣*** IP屬地：四川上傳時間：2024-12-23 格式：DOCX 頁數(shù)：54 大?。?.78MB 積分：15 舉報 版權(quán)申訴

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅_第2頁

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅_第3頁

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅_第4頁

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅_第5頁

已閱讀5頁，還剩49頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

星海系列：處理上廣泛應用，還擴展至圖像、視頻、音頻等多模態(tài)任務。諸如Stable通過大規(guī)模的視覺-語言預訓練，將視覺識別與低級機器人控制結(jié)合，實現(xiàn)了機器人在復雜任務和未見環(huán)境中的強大泛化能力。RoboCat則基于Gato模型，展示了多任務和多具身平臺上的自我迭代學習能力，能夠快速適應新任務并生成跨任務策略。英偉達的MimicGen自動生成大量模仿學習數(shù)據(jù)，有效減少了人工干預，提升了機器人學習的效率。Transformer模型，走向了數(shù)據(jù)驅(qū)動的模型范式，2024年初FSDV12完全采用神經(jīng)網(wǎng)絡進行車輛控制，從機器視覺到驅(qū)動決策都將由神經(jīng)網(wǎng)絡進行控制。FSDV12能夠模擬人類駕駛決策，成為自動駕駛領(lǐng)域全新發(fā)展路徑。>英偉達Robocasa:具體智能關(guān)鍵節(jié)點，首次論證real-sim-real。通過升級模擬平臺并構(gòu)建模擬框架，基于廚房場景和原子任務、復合任務、真實世界三個場景收集行為數(shù)據(jù)集并進行結(jié)果評估。說明模擬器的豐富多樣性以及視覺和物理真實性顯著改善了模擬效果，實驗結(jié)果首次論證了real-sim-real可行。一種針對機器人操作任務的新型空間和時間約束表示方法，提供了一種三環(huán)的解決方案。通過關(guān)鍵點約束解構(gòu)機器人行為，將操作行為分為多階段，并構(gòu)建子目標約束和路徑約束，基于此提出一種三任務閉環(huán)的解決方案。同時，融入大型視覺模型和視覺-語言模型，利用VLM和GPT-40生成Rekep約束，避免了手動指定Rekep的需要。2)1x世界模型：首證擴展定律，能通過大量學習理解周圍環(huán)境。通過大量的真實數(shù)據(jù)學習和模擬，機器人能夠預測復雜的物體互動，理解周圍環(huán)境，并靈活應對日常任務。1x的進展首次在機器人上證明了擴展機器人大模型，憑借大規(guī)模視頻預訓練和多模態(tài)學習技術(shù)，展示了卓越的泛化能力與多任務通用性。4)數(shù)字表親：機器人訓練法優(yōu)化，以更低的成本獲取更好的泛化能力。在保留數(shù)字孿生優(yōu)勢的基礎(chǔ)上，數(shù)字表親表現(xiàn)出了更強的適應能力和魯棒性，成功實現(xiàn)了從模擬到現(xiàn)實的零樣本遷移，為機器人學習在復雜、多變的真實環(huán)境中的應用開辟了新的可能性。等；3)關(guān)注其他產(chǎn)業(yè)鏈可延伸公司。>風險提示：機器人算法迭代進步速度不及預期，人形機器人落地場景實際需求不及預期MINSHENGSECURITIES2024年11月07日出?？臻g廣闊-2024/10/20內(nèi)有望新設產(chǎn)線-2024/10/13設備受益-2024/09/30拖占比提升大勢所趨-2024/09/215.揚帆系列：船舶需求分析(二):干散貨船需求與測算-2024/09/18本本民生證券目錄1Transformer模型的演進：從語言翻譯到多模態(tài)智能的前沿探索 31.1開篇：Robot+AI的核心時間線與關(guān)鍵節(jié)點結(jié)論 3 31.3語言、圖片、視頻大模型的出現(xiàn) 41.4多模態(tài)、跨模態(tài)大模型的難點 61.5ScalingLaw的存在 6 82.1谷歌RT-2:具身智能學習 82.2英偉達MimicGen:自動化數(shù)據(jù)生成系統(tǒng) 2.3谷歌RoboCat:多任務具身智能 3特斯拉FSD:端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵 3.1FSDV12:全新的端到端自動駕駛 3.2FSD的前世今生 3.3FSD架構(gòu)變革：Transformer模型的引入 3.4FSD端到端：感知決策一體化 4端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵 4.1端到端算法：直接連接數(shù)據(jù)輸入與控制指令輸出 4.2端到端算法相比傳統(tǒng)的技術(shù)架構(gòu)的優(yōu)勢 4.3自動駕駛端到端算法遷移至人形機器人的優(yōu)勢 4.4機器人端到端算法的關(guān)鍵問題 4.5特斯拉grok模型：模擬思維鏈思考過程 5.1英偉達Robocasa:基于廚房場景的模擬數(shù)據(jù)收集 6.1李飛飛團隊Rekep:一種針對機器人操作任務的新型空間和時間約束表示方法，提供了三任務閉環(huán)的解決方案 6.21x世界模型：首證擴展定律，能通過大量學習理解周圍環(huán)境 6.3字節(jié)GR-2:高效動作預測與泛化能力 436.4數(shù)字表親：機器人訓練法優(yōu)化，以更低的成本獲取更好的泛化能力 7投資建議 8風險提示插圖目錄本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械智能的前沿探索下圖是機器人和transformer模型結(jié)合的重點時間線及關(guān)鍵節(jié)點突破。>生成”>生成”Robot訓練數(shù)據(jù)”的方法>>>!其他大模型和機器人動作的結(jié)合>>>!Real-sim-real的閉環(huán)實驗>>>可擴展性+scailinglaw2023年6月：谷歌RT-2(VLA)2023年10月：英偉達MimicGen核心貢獻：快速分割生成數(shù)據(jù)2023年12月：谷歌RoboCat2024年1月：特斯拉發(fā)布FSDV12+端到端2024年6月：英偉達Robocasa2024年8月：特斯拉發(fā)布Grok2;模仿GPT40加入思考鏈12024年10月：李飛飛“數(shù)字表親”2024年9月：李飛飛Rekep+空間智能核心貢獻：提供一種問題3任務閉環(huán)的解決方案------------------2-C--2024年9月：1xRobotWorldModel核心貢獻：提供一種問題3任務閉環(huán)的解決方案2024年10月：字節(jié)GR2核心貢獻：回答至問題3可擴展性----------------------資料來源：AnthonyBrohan《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoDemonstrations》,KonstantinosBousmalis《RoboCat:ASelf-ImprovingGeneralistAgentforRoboticManipulation》,tesla,TianyuanDai《ACDC:AutomatedCreationofDigitalCousinsforRobustPolicyModelwithWeb-ScaleKnowledgeforRobotManipulation》,SoroushNasiriany《RoboCasa:Large-Scale1.2Transformer網(wǎng)絡架構(gòu)的提出這篇文章中提出了Transformer網(wǎng)絡結(jié)構(gòu)。其一開始的提出是為了解決翻譯問題，僅僅依賴于注意力機制就可處理序列數(shù)據(jù)，從而擯棄了RNN或CNN。這個新的網(wǎng)絡結(jié)構(gòu)，刷爆了各大翻譯任務，同時創(chuàng)造了多項新的記錄(英-德的翻譯任務，相比之前的最好記錄提高了2個BLEU值)。而且，該模型的訓練耗時短，并且對大數(shù)據(jù)或者有限數(shù)據(jù)集均有良好表現(xiàn)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械ProbabiesNxPositionalEncodingOutputEmbeddingOutputs(shiftedright)模型的核心架構(gòu)的示意圖如上。Transf都包含6個block。Transformer將所有的單詞向量化，通過矩陣編譯的方法開始翻譯以及預測，在翻譯上一個詞的同時對后續(xù)的單詞進行預測，達到語句通順的效果。其實際上是一個編碼器-解碼器結(jié)構(gòu)，其中編碼器將原始語言的句子作為輸入并生成基于注意力的表征，而解碼器關(guān)注編碼信息并以回歸方式生成翻譯的句子，和之前的RNN相同。不同的是，Transformer模型引入了注意力機制和殘差鏈接，也就是所謂"AttentionIsAllYouNeed",最終輸出結(jié)果。Transformer的意義體現(xiàn)在它的長距離依賴關(guān)系處理和并行計算，而這兩點效捕捉序列信息中長距離依賴關(guān)系，相比于以往的RNNs,它在處理長序列時的表現(xiàn)更好。而自注意力機制的另一個特點時允許模型并行計算，無需RNN一樣t步驟的計算必須依賴t-1步驟的結(jié)果，因此Transformer結(jié)構(gòu)讓模型的計算效率更高，加速訓練和推理速度。圖3:自注意力機制示意圖LnesCorcatLnesCorcatAttention多頭注意力計算步驟資料來源：AshishVaswani,NoamShazeer《AttentionIsAllYouNeed》,民生證券研究院本本民生證券MINSHENGSECURITIES語言，圖片，視頻大模型以大語言模型為基礎(chǔ)，將強大的大語言模型作為大腦來執(zhí)行多模態(tài)任務。但LLM只能理解離散文本，在處理多模態(tài)信息時不具有通用性。另一方面，大型視覺基礎(chǔ)模型在感知方面進展迅速，但推理方面發(fā)展緩慢。這兩者的優(yōu)缺點形成了巧妙的互補。由于上述不同點中的互補性，單模態(tài)LLM和視覺模型同時朝著彼此運行，結(jié)合上部分的圖像、視頻和音頻等等模態(tài)，最終帶來了MLLM的新領(lǐng)域。形式上，它指的是基于LLM的模型，該模型能夠接收多模態(tài)信息并對其進行推理。從發(fā)展人工通用智能的角度來看，MLLM可能比LLM向前邁出一步。MLLM更加符合人類感知世界的方式，提供了更用戶友好的界面(可以多模態(tài)輸入),是一個更全面的任務解決者，不僅僅局限于NLP任務。圖4:MLLM的模型結(jié)構(gòu)NFNet-F6StableDiffusionCLPVITHxQ-FormerC-FormerP-FormerHuBERTMQ-FormerAudioLDMChinchillaASxTinyTransformerFlan-T5ChatGLMLinearProjectorEva-CUPVITTexttPxUL2FMultimodalUnderstandingMultimodalGenerationFigure2:ThegeneralmodelarchitectureofMM-LLMsandtheimplementationchoicesforeachcomponent.資料來源：DuzhenZhang《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels》,民生證券研究院上圖包含了通用多模態(tài)模型結(jié)構(gòu)的五個組件部分，以及每個組件部分的常用ModalityEncoder:負責將不同模態(tài)的輸入數(shù)據(jù)編碼為模型可理解的表示，目前技術(shù)可以實現(xiàn)輸入圖片、視頻、音頻文件，對于圖像而言，可能涉及到將像素數(shù)據(jù)轉(zhuǎn)換成一個特征向量，該向量捕捉了圖像中的重要信息；InputProjector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間，這意味著無論輸入數(shù)據(jù)的形式如何，它們都會被轉(zhuǎn)換成一個統(tǒng)一的格式，以便模型可以在一個統(tǒng)一的框架中處理它們；LLMS:大型語言模型，用于處理文本數(shù)據(jù)，可以將不同模態(tài)的信息對齊到一個共同的語義空間中，整合由前面兩個部分轉(zhuǎn)換后輸入的信息，融合后再生成一個統(tǒng)一的、豐富的語義表示，可能是相應的指導性文本或腳本，與專門的生成模型協(xié)同工作，實現(xiàn)高質(zhì)量的圖片和音頻生成；OutputProjector:將模型生成的輸出映射回原始模態(tài)的空間，如果模型的輸出是文本，那么輸出投影器將確保生成的文本與輸入數(shù)據(jù)的語義空間相匹配；ModalityGenerator:根據(jù)輸入數(shù)據(jù)生成對應的輸出數(shù)據(jù)，將模型的內(nèi)部表本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械示轉(zhuǎn)換成最終的輸出形式，如生成圖像、文本或音頻。多模態(tài)理解主要是前三個部分。(模態(tài)對齊)訓練期間，encoder,LLMBackbone和generator一般保持凍結(jié)。主要優(yōu)化輸出和輸出的projector。由于Projector是輕量級的模塊，MM-LLMs中可以訓練的參數(shù)比例和總參數(shù)相比非常小(2%左右),模型的總體參數(shù)規(guī)模取決于LLM部分。由此，Transformer模型隨著LLM的廣泛應用而成為了目前多模態(tài)大模型的核心思想和目前較為先進的網(wǎng)絡架構(gòu)。截至2024年10月，中國移動在多模態(tài)大模型領(lǐng)域取得了顯著進展，其九天善智多模態(tài)基座大模型表現(xiàn)尤為突出。該模型可以處理長文本的智能化解析，全雙其一是異質(zhì)化數(shù)據(jù)的處理與整合存在困難：多模態(tài)大模型中，由于輸入輸出的數(shù)據(jù)具有多樣性，面臨的主要問題包括數(shù)據(jù)的異質(zhì)性導致的表示難題、不同模態(tài)以及如何在不同模態(tài)間進行知識遷移的協(xié)同學習挑戰(zhàn)。需要綜合應用多元化多樣化的模型對其進行處理，將各個異質(zhì)性的數(shù)據(jù)再整合規(guī)劃，才能真正讀懂要求，輸出數(shù)據(jù).其二是訓練過程挑戰(zhàn)重重：獲取跨多個模態(tài)的充足數(shù)據(jù)可能非常困難和昂貴，且數(shù)據(jù)可能會偏向于某些模態(tài)，導致模型產(chǎn)生偏見，從而導致模型偏向于數(shù)據(jù)量更多或特征更強的模態(tài)，導致模型產(chǎn)生偏見；同時由于特定于模態(tài)的編碼器通常分別訓練，他們聲稱的表示是存在差異的，對投影/對齊模塊的有效學習過于依賴。在這其中，值得關(guān)注的是語言模型的scalinglaw。大模型的ScalingLaw是OpenAl在2020年提出的概念，可以概括為“預測即壓縮、壓縮即泛化、泛化即智能”將大語言模型用在別的領(lǐng)域之后，從計算理論的角度，聯(lián)合壓縮多模態(tài)數(shù)據(jù)理應獲得比單模態(tài)更好的理論最優(yōu)壓縮器。對于所有的模態(tài)來說，他們都必須要服從的scalinglaw是，隨著數(shù)據(jù)規(guī)模的提升，模型的表現(xiàn)也會隨之提升，如果法則正確，那么要想使得模型更好，只需要搭建好算法和框架，不斷收集數(shù)據(jù)就可以了。一旦證明scalinglaw的存在和有效性，就可以預測模型性能與規(guī)模的關(guān)系，投入恰當規(guī)模的數(shù)據(jù)集，使得計算資源可以更高效的應用。多模態(tài)模型會變得更加可預測和可計算，其不確定性就極大的降本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械圖5:ScalingLaw的效果圖示TestTestLoss資料來源：JaredKaplan《ScalingLawsforNeuralLanguageModels》,民生證券研究院在此基礎(chǔ)上，本文想要按時間線和核心milestone貢獻，來幫助大家拆解最沿的，以transformer為基礎(chǔ)的模型到本本MINSHENGSECURITIES行業(yè)深度研究/機械2.1谷歌RT-2:具身智能學習大語言模型可以實現(xiàn)流暢的文本生成、問題解決、創(chuàng)意寫作以及代碼生成，視覺-語言模型(VLM)則能夠?qū)崿F(xiàn)開放詞匯的視覺識別。以上能力對于現(xiàn)實環(huán)境中的通用型機器人非常有用，然而它們?nèi)绾潍@得這些能力還是未知。如何將大型預訓練的視覺-語言模型直接集成到低級機器人控制中，以促進泛化并實現(xiàn)緊急語義推理，成為了機器人下一步發(fā)展的方向。Google提出的RobotTransformer(RT)系列使用了更大規(guī)模的語言模型和使用預訓練的EfficientNet-B3網(wǎng)絡初始化，以機器人狀態(tài)和歷史圖片作為輸入，Mode3HzTokenLeamerTransformerAmBe?0■■■■■■■工InstructionEfficientNetRT-1將機器人動作的每個維度進行均勻離散化，并將動作詞元化，然后使用監(jiān)督學習的損失進行訓練。為了使視覺-語言模型能夠控制機器人，還差對動作即文本token,并與Web規(guī)模的視覺-語言數(shù)據(jù)集一起進行訓練。如下圖所示，該研究將機器人動作表示為文本字符串，這種字符串可以是機器人動作token編號的序列，例如[1128912415101127217」。Terminate△PosXorcontinuePositionalRotationalGripperchange資料來源：AnthonyBrohan《RT-1:ROBOTICSTRANSF民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械RT-2在機器人任務上展示了更強的泛化能力，以及對超出其接觸的機器人數(shù)直接訓練視覺-語言模型以實現(xiàn)開放詞匯視覺問答和視覺對話，輸出低級機器人動作，同時解決其他互聯(lián)網(wǎng)規(guī)模的視覺語言任務。相較于RT-1,RT-2模型在機器人理解新任務，并通過執(zhí)行基本推理來響應用戶命令，例如推理物體類別或高級描述等方面具有更大的優(yōu)勢。與RT-1模型的泛化能力相比，RT-2的目標是訓練機器人從觀測到動作的端提出一個在機器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級別的視覺語言任務聯(lián)合微調(diào)視覺-語言模型的學習方式。這類學習方法產(chǎn)生的模型被稱為視覺-語言-動作(VLA)模型，具有泛化到新對象的能力、解釋命令的能力以及根據(jù)用戶指令思維推理的能力。RT-2算法整體使用大規(guī)模預訓練的視覺-語言模型結(jié)構(gòu)，模型參數(shù)可以達到55B的參數(shù)量，遠超RT-1的參數(shù)規(guī)模，同時利用大規(guī)模預訓練視覺-語言模型模型中編碼的豐富視覺問答知識來幫助具身模型的訓練。RT-2將輸出的動作進行和RT-1相同的離散化操作后將詞元加入視覺-語言模型原先的詞表中，可以把動作2已經(jīng)在海量的視覺問答任務中進行預訓練，在對圖片和任務指令的理解上有更加豐富的經(jīng)驗，在任務集合上具有更強的泛化能力。RT-2能夠運用其大規(guī)模預訓練的視覺問答經(jīng)驗進行泛化，在現(xiàn)實世界的任務中進行推廣，實現(xiàn)推理、理解和識別。例如在下圖的拾取、移動、放置等具體任務中，智能體能夠精準識別任務需求并且以過往訓練經(jīng)驗為基礎(chǔ)準確地完成。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械本本圖8:RT-2能夠推廣到各種需要推理、符號理解和人類識別的現(xiàn)實世界情況placeplaceorangeinmovecokecantoTaylorSwiftmovesoccerballtobasketballmovecokecantoXstrawberrythecorrectbowlabouttofallpickanimalwithmovecuptothewinebottlemovebananatothesumoftwomovebananatoGermanymoveappletoDenverNuggetsmovebagtoGoogleplusoneControl》,民生證券研究院RT-2的核心方法是采用視覺-語言-動作模型(VLA)與聯(lián)合微調(diào)。具體步驟(例如"1128912415101")。在此過程中，機器人動作被離散化為多個參數(shù)(如位移和旋轉(zhuǎn)),每語言token共用同一表示空間。步驟二：RT-2將任務指令和圖像信息結(jié)合，通過de-tokenize轉(zhuǎn)化為具體的機器人動作序列。此過程使用大語言模型(LLM)解析任務，像自然語言處理那樣，動作模塊使用tokenizer來處理這串token轉(zhuǎn)成對應的機器人動作，將視覺信息和任務指令解碼為具體的機器人動作序列(如平移和旋轉(zhuǎn)參數(shù)),進而分析這串字符串對應的開始符、命令、停止符。步驟三：在執(zhí)行任務的過程中，模型同步實時進行聯(lián)合微調(diào)(Co-Fine-Tuning):機器人根據(jù)傳感器和攝像頭反饋的最新圖像信息，判斷任務執(zhí)行的狀態(tài)和完成情況。如果任務執(zhí)行過程中出現(xiàn)誤差或環(huán)境發(fā)生變化，模型會利用新的視覺數(shù)據(jù)重新規(guī)劃動作，直至任務完成?？偠灾Z言模型負責持續(xù)理解任務場景和需求，而動作模塊根據(jù)視覺反饋實時調(diào)整操作，確保任務順利完成。完成訓練與微調(diào)后，RT-2被部署到機器人系統(tǒng)中，并具備了在復雜環(huán)境下執(zhí)行多任務的能力，實現(xiàn)高效的閉環(huán)控制。民生證券MINSHENGSECURITIES行業(yè)深度研究/機械Internet-ScaleVQA+RobotActiInternet-ScaleVQA+RobotActiQ:Whatishappeningintheimage?Agreydonkeywalksdownthestreet.Q:Quepuis-jefaireaveccesobjets?Fairecuireungateau.△T=[0.1,-02,0]A:132114128525156△Translation=[0.1,-0.2,0]Co-Fine-TuneDeployforRobotControlLargeLanguageModelQ:Whatshouldtherobotdoto<task>?Q:WhatshouldtherobotClosed-Loop△Rotation=[10;25;-7"]Vision-Language-ActionModelsControl》,民生證券研究院2.1.3核心結(jié)論+未來進展RT-2展示了視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)閺姶蟮囊曈X-語言-動作(VLA)模型，通過結(jié)合VLM預訓練和機器人數(shù)據(jù)，直接控制機器人。RT-2基于PaLM-E和PaLI-X的兩種VLA模型，提高了機器人策略的完成率，并且繼承了視覺語言數(shù)據(jù)預訓練的優(yōu)勢，具有更好的泛化能力和涌現(xiàn)能力。這不僅是對現(xiàn)有視覺-語言模型的有效改進，也展示了通用型機器人的發(fā)展前景。未來的機器人能夠進行推理、解決問題，并進行高級規(guī)劃和低級指令控制，在現(xiàn)實世界中執(zhí)行大量多樣化的任務。RT-2也具有局限性。該模型對于泛化能力的強化并沒有提高機器人執(zhí)行新動作的能力，智能體知識學會了以新的方式部署學習到的技能。同時，由于高頻控制的設置應用場景，實時推斷可能成為主要瓶頸。未來工作的方向主要集中于如何通過新的數(shù)據(jù)收集范式(如人類視頻)獲得新技能，同時開發(fā)出更多的開元模型以支撐高速率和低成本的運作。2.2英偉達MimicGen:自動化數(shù)據(jù)生成系統(tǒng)人研究依賴大量的人工演示數(shù)據(jù)來訓練模型，但這些數(shù)據(jù)的收集非常昂貴。的系統(tǒng)。該系統(tǒng)通過將人類演示數(shù)據(jù)適應于新場景，生成多達50,000條演示數(shù)據(jù)，覆蓋18項任務，從而顯著降低了人工數(shù)據(jù)收集的需求。這一方法能夠加速機器人學習的進展，使得機器人能夠在復雜場景中表現(xiàn)出本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械更強的泛化能力，尤其是在長時間任務和高精度任務(如多部件裝配、咖啡準備)中表現(xiàn)出色。研究結(jié)果表明，利用MimicGen生成的數(shù)據(jù)進行模仿學習能夠取得與傳統(tǒng)人工數(shù)據(jù)收集相媲美的效果。圖10:MimicGen從原始人類演示數(shù)據(jù)到生成的廣泛數(shù)據(jù)集的過程LargeLarge,broaddatasetgeneratedautomaticallywithMimicGenDiversesceneconfigurationsDemo2HumanDemonstrations》,民生證券研究院MimicGen的設計來源于模仿學習與數(shù)據(jù)增強兩個技術(shù)背景。模仿學習是一種通過觀察人類示范來訓練機器人的方法。MimicGen利用這一理念，通過生成多樣化的示范來擴展模仿學習的應用范圍。數(shù)據(jù)增強技術(shù)被廣泛應用于提高模型的泛化能力。通過對現(xiàn)有數(shù)據(jù)進行變換或修改來生成新訓練樣本的技術(shù)，旨在提高模型的泛化能力和魯棒性。常見的數(shù)據(jù)增強方法包括旋轉(zhuǎn)、縮放、平移等，這些變換可以在不改變數(shù)據(jù)標簽的情況下生成新的樣本。MimicGen的核心方法是數(shù)據(jù)分割與重組。將少量人類演示數(shù)據(jù)分割成以物體為中心的子任務，然后在新的場景中通過空間變換和軌跡生成，自動生成新的演示數(shù)據(jù)。傳統(tǒng)方法中，數(shù)據(jù)生成通常基于靜態(tài)場景的回放，或通過復雜的模擬器進通過“對象中心片段”的變換和拼接，將少量的人類演示數(shù)據(jù)轉(zhuǎn)化為大規(guī)模的多樣化數(shù)據(jù)。這種方法可以直接融入現(xiàn)有的模仿學習管道中，適用于各種長時間、高精度的任務，并且能夠生成比單純回放方法更加多樣和有效的數(shù)據(jù)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械Subtask1Subtask1Subtask2.SubtaskMDemo1Demo2DemoNPipelineforgeneratingObtainreferencesegmenttominceCurrentObservationExecutesegmertGeneratesegmentIntorpolatstostatDemonstrations》,民生證券研究院通過對比使用MimicGen生成的數(shù)據(jù)集與傳統(tǒng)人類示范數(shù)據(jù)集的結(jié)果可以得出，機器人在使用MimicGen生成的數(shù)據(jù)集后成功率顯著上升。研究團隊通過對MimicGen的實驗，評估了其在不同任務中的表現(xiàn)，具體測驗任務主要包括StackThree(堆疊三個物體)、Square(方形物體插入和對齊)、Threading(機器人在穿線或穿孔時的精細操作能力)、Kitchen(長時間多步驟任務)等十項。(a)StackThree(b)Square(c)Threading(d)3Pc.Assembly(e)PickPlace(f)Kitchen(g)CoffeePrep(h)MobileKitchen(i)GearAssemblyj)FrameAssembly結(jié)果顯示使用MimicGen后機器人成功率顯著提升，例如"Square"任務的成功率從11.3%提升至90.7%,"Threading"任務的成功率從19.3%提升至98.0%。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械D?D?Stack26.0±1.6100.0±0.099.3±0.9StackThree0.7±0.992.7±1.986.7±3.4Square11.3±0.990.7±1.973.3±3.449.3±2.5Threading98.0±1.660.7±2.538.0±3.3Coffee74.0±4.3100.0±0.090.7±2.577.3±0.9ThreePc.Assembly1.3±0.982.0±1.662.7±2.513.3±3.8HammerCleanup59.3±5.7100.0±0.062.7±4.7MugCleanup12.7±2.580.0±4.964.0±3.354.7±8.4100.0±0.076.0±4.3NutAssembly0.0±0.0533±1.90.0±0.050.7±6.697.3±0.942.0±0.0MobileKitchen2.0±0.046.7±18.4Nut-and-BoltAssembly8.7±2.592.7±2.57±4.1GearAssembly14.7±5.298.7±1.974.0±2.856.7±1.9FrameAssembly10.7±6.882.0±4.37±2.5MimicGen在機器人系統(tǒng)(尤其是機械臂)中的應用潛力巨大。通過利用少量人類演示(少于200個),MimicGen可自動生成超過50,000個覆蓋18種任務的高質(zhì)量數(shù)據(jù)，有效減少人工干預，提升生產(chǎn)效率。其靈活性使其能夠適應不同機器人硬件和復雜操作環(huán)境，為工業(yè)自動化、醫(yī)療和服務機器人等領(lǐng)域提供廣泛的應用前景。MimicGen的核心優(yōu)勢包括：顯著提升任務表現(xiàn)、良好的廣泛適應性、跨物體和硬件適用性、適用于復雜移動操作任務、模擬器無關(guān)，精度表現(xiàn)卓支持非專家演示。圖14:MimicGen操作機械臂完成毫米級精度接觸任務示意圖MimicGen依賴于任務開始時已知的對象位姿和操作步驟，這在完全未知或動態(tài)環(huán)境中存在局限性。此外，僅通過任務成功與否來篩選生成數(shù)據(jù)，可能導致數(shù)據(jù)集存在偏差，影響模型泛化能力。其應用場景主要限于準靜態(tài)任務，并假設新對本本民生證券MINSHENGSECURITIES象與已有對象同類，限制了其在動態(tài)環(huán)境和異構(gòu)對象上的推廣能力。未來研究應進一步提升系統(tǒng)對復雜場景的理解和分割能力，減少對人類參與的依賴。擴展MimicGen在更多物體類別、機器人硬件和任務類型中的應用能力。10humandemos1000generateddemos1000generateddemos1000generateddemos(Panda)(Sawyer)(IIWA)(UR5e)資料來源：AjayMandlekar《MimicGen:ADataGenerationSystemfor2.3谷歌RoboCat:多任務具身智能在機器人領(lǐng)域，如何大規(guī)模利用異構(gòu)機器人數(shù)據(jù)仍然是機器人領(lǐng)域的難題，大多數(shù)現(xiàn)實中的機器人學習研究集中于一次開發(fā)一個任務的智體。在機器人技術(shù)領(lǐng)域，近期研究專注于通過訓練有語言條件的Transformer策略來解決具有相同觀測和動作空間的多個簡單、視覺多樣化的任務，從而彌合大型預訓練語言模型和視覺基礎(chǔ)操作之間的差距。Google曾經(jīng)提出RobotTransformer,采集了移動機器人完成日常任務的軌跡片段，構(gòu)成了真實移動機器人的專家數(shù)據(jù)集，包含了700多個任務，如移動RGBimage,300×300Frontalview.Pre-manipulationpose資料來源：AnthonyBrohan《RT1:ROBOT民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械100~1000個示教樣本就能完成快速策略泛化。通過RoboCat,Google能成功展示其在新任務和不同機器人平臺上的泛化能力，以及通過后續(xù)迭代利用大模型輔助具身智能數(shù)據(jù)生成，從而為構(gòu)建一個自主改進循環(huán)提供基本的構(gòu)建板塊。隨著訓練數(shù)據(jù)的增長和多樣化，RoboCat不僅表現(xiàn)出了跨任務遷移的跡象，也能更有效地適應新任務。TrainingEmbodimentsHeld-OutEmbodimentManipulation》,民生證券研究院2.3.2RoboCat:以數(shù)據(jù)集為基礎(chǔ)實現(xiàn)任務的快速適應RoboCat的最終目標是創(chuàng)建一個能夠通過大量機器人情景經(jīng)驗進行訓練的基礎(chǔ)智能體，使其能夠通過微調(diào)快速適應廣泛的新下游任務。為了實現(xiàn)這一目標，RoboCat擁有一個非常豐富的多樣化操控行為數(shù)據(jù)集并在此基礎(chǔ)上進行訓練。RoboCat基于Gato架構(gòu)，使用在廣泛圖像集上預訓練過的VQ-GAN編碼器(Esser,2021),在涵蓋多個領(lǐng)域和具身的廣泛數(shù)據(jù)集上進行訓練，通過視覺目標條件來指定任務。這種編碼器的選擇使得訓練和迭代更加快速，這種訓練方式也具有理想的自動事后目標生成屬性，即軌跡中的任何圖像都可以被標記為所有導致它的所有時間步驟的有效“后見目標”(Andrychowicz,2017)。這意味著現(xiàn)有數(shù)據(jù)中的后見目標可以在沒有額外人為監(jiān)督的情況下提取。此外，視覺目標提供了一個直觀的界面，用于指示機器人應該執(zhí)行什么任務。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械圖18:目標圖像示例：圖1、2為虛擬環(huán)境，圖3-8為現(xiàn)實世界RGBstackingGearinsertionRGBtowerVegetableGearinsertionFruitinsertionShapeinsertionGearlifting(Sawyer7-DoF)(Panda7-DoF)(Sawyer5-DoF)lifting(Panda7-DoF)(Panda7-DoF)(Panda7-DoF)(KUKA14-(Sawyer5-DoF)DoF)Manipulation》,民生證券研究院RoboCat能進行自我微調(diào)和迭代。首先智能體將在初始使用多樣化的訓練集進行訓練，可以通過100-1000次演示微調(diào)以適應新任務，然后部署在真實機器人上，生成更多數(shù)據(jù)。其次，將生成軌跡添加進入下一次迭代的訓練數(shù)據(jù)集中，從而提高跨任務的性能。RoboCat的自我改進過程如圖所示：主要以架構(gòu)和預訓練、微調(diào)和自我改進、真實世界部署作為全流程。TrainTrainRoboCat:amulti-task,multi-embodiment,visualgoal-conditionedagentforanewtask/robottospecialisetothenewtask/robotFine-tunedagentself-generatesmuchmoretrainingdatatrainingdatasetwithadiversesetoftasksandrobotsExpandthisdatasetwithnewly-generateddataManipulation》,民生證券研究院2.3.3機器人未來發(fā)展展望未來機器人的研究工作將著眼于更靈活的多模態(tài)任務規(guī)劃。首先是將現(xiàn)有的公開可獲取的數(shù)據(jù)集與注釋語言相結(jié)合，以語言為媒介的任務規(guī)劃和視覺目標相輔相成，得以實現(xiàn)對不同任務的更精準定位。此外，盡管當前研究主要關(guān)注視覺目標條件反射以及基于視覺-前饋模型(VFM)的基線研究，但仍在圖像推理方面表現(xiàn)出色；同時，語言條件反射和LLM/VLM基線研究可能提供更好的時間推理能力。本本民生證券行業(yè)深度研究/機械3特斯拉FSD:端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵FSD全稱FullSelf-Driving(完全自動駕駛),是特斯拉研發(fā)的自動化輔助圖21:自動駕駛的六個等級圖21:自動駕駛的六個等級L0L1L2L3完全人類駕駛輔助駕駛部分自動駕駛有條件的自動駕駛高度自動駕駛完全自動駕駛能夠獲得輔助。誓車輛。來別的自動駕駛汽車中駕駛員車輛擔全部駕駛?cè)蝿眨瑹o*速和制動。和制動。FSDV12(Supervised)是全新的“端到端自動駕駛”,模型架構(gòu)發(fā)生了重絡由數(shù)百萬個視頻片段訓練而成，取代了超過30萬行的C++代碼。FSDV12根據(jù)特斯拉發(fā)布2024Q2的自動駕駛報告，自動駕駛大幅減少事故率：開啟Autopilot的情況下，平均每行駛1107.2萬公里(688萬英里)會發(fā)生一起事故，而未開啟平均每行駛233.3萬公里(145萬英里)會發(fā)生一起事故。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械■FSDV12Miles■2021202120210.0資料來源：Tesla,民生證券研究院●未開啟Autopilot自動輔助駕駛功能的特斯拉車輛●美國平均值車輛在事故發(fā)生前行駛百萬英里2024年第二季度2024年第一季度2023年第四季度2023年第三季度2023年第二季度2023年第一季度資料來源：特斯拉官網(wǎng)，民生證券研究院3.2FSD的前世今生早期特斯拉自動駕駛采用外部合作方式，合作廠商包括Mobileye和英偉達等。在2019年特斯拉步入自研時代，首次推出自研自動駕駛芯片HW3.0。HW3.0采用特斯拉全棧自研的FSD芯片。2020年10月，特斯拉小范圍推送FSDBeta,對Autopilot基礎(chǔ)架構(gòu)進行了重大重寫。2021年7月，特斯拉開始推送FSDBetaV9,該版本采用純視覺自動駕駛方案，摒棄了傳統(tǒng)的毫米波雷達和超聲波雷達，是特斯拉在自動駕駛技術(shù)的重要發(fā)展節(jié)點。時間2014年10月基于Mobileye的EyeQ3平臺打造2016年10月配置NvidiaDrivePX2計算系統(tǒng)2019年4月Hardware3.0搭載自研自動駕駛芯片F(xiàn)SD2021年7月FSDBeta(測試版)9.0確定純視覺方案，取消毫米波雷達及超聲波雷達2024年1月端到端神經(jīng)網(wǎng)絡2024年2月Hardware4.0搭載ModelY算力提升5倍資料來源：汽車財經(jīng)，IT之家，易車網(wǎng)，中國新聞周刊，新浪網(wǎng)，民生證券研究院2024年1月，特斯拉FSDV12正式向用戶推送，將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡。2024年2月，特斯拉ModelY迎來HW4.0自動輔助駕駛硬件升級，與HW3.0相比，HW4.0算力提升5倍，在硬件設計上實現(xiàn)并行處理能力增強、內(nèi)存管理優(yōu)化和專用加速器集成等多項創(chuàng)新。從最初的輔助駕駛系統(tǒng)，到全棧自研自動駕駛技術(shù)，特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械復盤FSD歷史，最重大的架構(gòu)變革莫過于2020年引入Transformer模型(基于深度學習的神經(jīng)網(wǎng)絡),算法得以從重人工、規(guī)則驅(qū)動，轉(zhuǎn)向重Al,數(shù)據(jù)驅(qū)動。FSD主要分為感知和規(guī)劃模塊，在兩個模塊中都運用到了Transformer模型，神經(jīng)網(wǎng)絡的介入使得端到端模型逐步實現(xiàn)。2022年特斯拉FSD感知模塊即形成了BEV+Transformer+Occupancy為規(guī)劃模塊決策提供支持。特斯拉FSD規(guī)劃模塊在2021年引入基于神經(jīng)網(wǎng)絡的規(guī)劃模塊和蒙特卡洛樹搜索，最終FSD規(guī)劃模塊由基于顯性規(guī)則的規(guī)劃模塊和基于神經(jīng)網(wǎng)絡的規(guī)劃模塊構(gòu)成。Planning&資料來源：特斯拉2021AIDay,民生證券研究院HydraNets是特斯拉開發(fā)的一種深度學習網(wǎng)絡架構(gòu)。這個網(wǎng)絡的特點在于它能夠?qū)⒍鄠€任務集成到一個網(wǎng)絡中，例如車道線檢測、行人檢測與追蹤、交通信號燈檢測等，這些任務對于自動駕駛汽車來說至關(guān)重要。HydraNets的核心在于其共享的主干網(wǎng)絡，該主干網(wǎng)絡通過分支成多個"頭",可以同時輸出多個預測張量，每個“頭”負責不同的任務或?qū)ο箢悇e。此外，這種架構(gòu)的優(yōu)勢在于其能夠有效地利用可用的計算資源，并且通過端到端的訓練和推斷，提高了處理不同視覺信息的效率。HydraNets能夠?qū)碜远鄠€攝像頭的視覺內(nèi)容轉(zhuǎn)換為向量空間和道路特征，這對于構(gòu)建車輛周圍的綜合視圖至關(guān)重要。本本民生證券行業(yè)深度研究/機械Nimge(Nimages)MutkamFislon(reanstormersVideoModuletrajectorydetectiontrajectorydetectionVideoModuleMadMLPNormExtralearnableNorm資料來源：特斯拉2022CVPR,民生證券研究院TransformersforImageRecognitionatScale》,民生證券研究院Dojo是特斯拉公司開發(fā)的一套高性能計算系統(tǒng)，用于處理和訓練自動駕駛系統(tǒng)產(chǎn)生的海量數(shù)據(jù)。ProjectDOJO的負責人GaneshVenkataramanan表示，將會使人工智能擁有更高速的學習能力，從而使Autopilot更加強大。ExploitSpatial&TemporalL資料來源：特斯拉2021AlDay,民生證券研究院FSDV12為首個端到端自動駕駛系統(tǒng)，實現(xiàn)感知決策一體化。特斯拉FSDv12采用端到端大模型，消除了自動駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面，將三大模塊合在一起，形成了一個大的神經(jīng)網(wǎng)絡，直接從原始傳感器數(shù)據(jù)到車輛操控指令，簡化了信息傳遞過程，因而減少了延遲和誤差，提高了系統(tǒng)的敏捷性和準確性。FSDV12能夠模擬人類駕駛決策，成為自動駕駛領(lǐng)域全新發(fā)民生證券MINSHENGSECURITIES行業(yè)深度研究/機械展路徑。FSDV12也被稱為"BabyAGI(嬰兒版通用人工智能)",旨在感知和理解現(xiàn)實世界的復雜性。資料來源：特斯拉2021AIDay,民生證券研究院本本民生證券行業(yè)深度研究/機械4.1端到端算法：直接連接數(shù)據(jù)輸入與控模塊化自動駕駛分為傳感器數(shù)據(jù)輸入、感知模塊、定位模塊、規(guī)劃模塊和控制指令輸出五部分。而端到端算法則通過單一神經(jīng)網(wǎng)絡直接連接傳感器數(shù)據(jù)輸入與控制指令輸出。與傳統(tǒng)的模塊化自動駕駛相比，端到端自動駕駛神經(jīng)網(wǎng)絡逐漸接管了系統(tǒng)的各個部分，其架構(gòu)設計簡單，減少中間數(shù)據(jù)降維的成本，同時減小誤差以達到全局最優(yōu)。端到端的優(yōu)勢在數(shù)據(jù)量達到一定程度后性能顯著提高，但是缺點是數(shù)據(jù)量較小時候性能上升緩慢，遠低于解耦的傳統(tǒng)基于專家模型的策略。圖30:端到端算法與模塊化系統(tǒng)框架對比①①…及黜Contol①《公;隅①《公;隅旦AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院圖31:端到端模型與基于規(guī)則模型表現(xiàn)曲線對比資料來源：2023年CVPR,民生證券研究院端到端算法實現(xiàn)自動駕駛有兩種主要方法：通過強化學習探索和改進駕駛模型、使用模仿學習以監(jiān)督的方式訓練它模仿人類駕駛行為。通過與環(huán)境的相互作用，隨著時間的推移最大化累積獎勵，網(wǎng)絡根據(jù)自己的行為做出驅(qū)動決策，以獲得獎勵或懲罰。它在利用數(shù)據(jù)方面的效率較低。而模仿學習是在專家演示中學習駕駛風格，因此需要大量的實際駕駛場景來作為模型的訓練樣例，數(shù)據(jù)集的規(guī)模與多樣性成為關(guān)鍵問題。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械VisualObservation(e.g.,Segmentation)BehaviorReflex(ActionProposals)AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院4.2.1更容易解決cornercase在傳統(tǒng)的決策規(guī)劃框架中，研發(fā)人員會根據(jù)不同的ODD定義好規(guī)則，面對特定場景時找到對應的規(guī)則，然后調(diào)用相應的規(guī)劃器生成控制軌跡。這種架構(gòu)需要事先寫好大量的規(guī)則，故稱為“重決策方案”。重決策方案較易實現(xiàn)，在簡單場景下也堪稱高效，但在需要拓展ODD、或把不同的ODD連接起來時，就需要大量的手寫規(guī)則來查缺補漏，從而實現(xiàn)更連續(xù)的智駕體驗。當遇到未學習過的場景，即cornercase時，系統(tǒng)會表現(xiàn)得不夠智能甚或無法應對。端到端是通過對場景的理解進行判斷，比如環(huán)境車輛動態(tài)、車道線、交通燈、轉(zhuǎn)向燈燈，通過多維度的元素，甚至是人類沒有意識到的要素進行綜合分析，判斷意圖，所以其理解的天花板更高。資料來源：長城汽車測試城市NOA自動駕駛加塞場景，民生證券研究院民生證券MINSHENGSECURITIES行業(yè)深度研究/機械4.2.2擬人化自動駕駛傳統(tǒng)智駕通過橫向策略和縱向策略進行車輛的行為控制，基于確定的規(guī)則和精確的控制參數(shù)，導致車輛動作機械化，要做到擬人駕駛需要開展大量工作，定義控車曲線和匹配場景。端到端的本質(zhì)是學習，所以其可以模仿人類駕駛汽車的行為，直接輸出包括方向盤轉(zhuǎn)角、方向盤轉(zhuǎn)速、油門踏板開度、制動踏板開度等，從而實現(xiàn)接近人類駕駛的習慣進行任務的過程控制。資料來源：Tesla,民生證券研究院4.2.3全局最優(yōu)，成本低且泛用性強傳統(tǒng)“分而治之”的模塊化架構(gòu)，可能圄于局部最優(yōu)解而難以達到全局最優(yōu)。由于每個任務相對獨立，人工標注使數(shù)據(jù)的針對性強，監(jiān)督學習使模型訓練的信號強，因此Al模型能迅速提升性能，有利于快速實現(xiàn)一個完整的產(chǎn)品。但在到達"局部最優(yōu)解”之后，這些模型難以進一步提升，且串在一起之后形成累積誤差，不利于追求全局最優(yōu)解。與傳統(tǒng)的模塊化自動駕駛系統(tǒng)相比，端到端自動駕駛系統(tǒng)設計難度低，硬件成本較小，并且通過多樣性的數(shù)據(jù)，能夠獲得在不同場景下的泛用性。所以從算法架構(gòu)設計的角度，其具有高度的整合度和一體化，省去了多個模塊的獨立架構(gòu)設計和算法開發(fā)，降低代碼量和運行所調(diào)度的模塊數(shù)量。另一方面，由于模型直接從原始數(shù)據(jù)中學習，而不需要依賴于人工設計的特征或規(guī)則，所以刪去了枯燥的標注工作。最重要的還有一點就是省去了后期無窮盡的規(guī)則補充和場景補充，從而減少了人工維護和升級的成本。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械(a)ClassicalApproachBoundingboxTrajectoryPerceptionPredictionPlanning(b)End-to-endParadigm(ThisSurvey)backpropagationfeature4.3自動駕駛端到端算法遷移至人形機器人的優(yōu)勢自動駕駛端到端算法代表了一種數(shù)據(jù)驅(qū)動的學習范式，這種范式同樣適用于機器人領(lǐng)域。通過大量的數(shù)據(jù)訓練，模型能夠?qū)W習到復雜的駕駛或操作行為，從而實現(xiàn)高度的智能化。自動駕駛系統(tǒng)在道路上收集的數(shù)據(jù)，以及通過仿真和合成數(shù)據(jù)技術(shù)獲取的數(shù)據(jù)，都可以為人形機器人的訓練提供有力支持。ScenarioSemanticSpaceDrivingScenariosDrivingScenariosRepresentationSpace完全端到端算法采用"Bev(鳥瞰視角)+Transformer(預訓練)+Teacher-student(知識蒸餾)"方式實現(xiàn)力位的雙控，典型代表是特斯拉的Optimus人形機器人，根據(jù)上文所述，特斯拉人形機器人采用了相同的算法架構(gòu)。端到端算法從汽車自動駕駛遷移至人形機器人幾乎不需要做太多額外工作，車本身就是一種機器人。早期的特斯拉Optimus機器人使用了與汽車完全相同的計算機和攝像頭，通過讓汽車的神經(jīng)網(wǎng)絡在機器人上運行，它在辦公室里走動時仍試圖識別“可駕駛空間”,而實際上它應該識別的是“可行走空間”。這種通用化能力表明了很多技術(shù)是可以遷移的，雖然需要一些微調(diào)，但大部分系統(tǒng)和工具都是本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機械感知、預測和規(guī)劃等任務整合到一個模型中。通過輸入感知信息(如攝像頭、雷達等傳感器數(shù)據(jù)),模型能夠直接輸出軌跡或控制信號，實現(xiàn)類似人類的駕駛行為。自動駕駛端到端算法能夠?qū)W習到人類駕駛的擬人化行為，如平滑的轉(zhuǎn)向、加速和減這種擬人化行為在人形機器人上同樣重要，可以提升機器人的交互能力和用戶體驗。通過遷移自動駕駛的擬人化算法范式，人形機器人可以更加自然地與人類進行交互，如理解人類手勢、面部表情等。4.4機器人端到端算法的關(guān)鍵問題端到端算法需要大量連續(xù)時序的駕駛行為視頻進行標注，這種數(shù)據(jù)收集、標注及閉環(huán)驗證的過程在人形機器人上同樣困難。人形機器人需要面對更加復雜的環(huán)境和任務，因此數(shù)據(jù)收集的難度和成本都更高。同時，由于人形機器人的操更高的風險性，因此數(shù)據(jù)標注的準確性也要求更高。人形機器人需要大量實際人類真實的數(shù)據(jù)集給機器人進行訓練。動作捕捉技術(shù)和VR遠程操作是實現(xiàn)人形機器人擬人化動作數(shù)據(jù)采集的有效途徑。動作捕捉技術(shù)通過在人體關(guān)鍵部位貼上反光標記點或使用慣性傳感器等方式，捕捉人體的運動姿態(tài)和動作數(shù)據(jù)。VR遠程操控技術(shù)是人類戴著VR眼鏡和手本本民生證券行業(yè)深度研究/機械套，通過遠程操作的方式來采集機器人數(shù)據(jù)。這些數(shù)據(jù)可以被用于訓練人形機器人的動作模型，使其能夠模擬出類似人類的動作和行為。資料來源：武漢零智妙境科技VR,民生證券研究院由于擴展法則(ScalingLaw)的存在，機器人的數(shù)據(jù)集大小決定了其性能的好壞，真實數(shù)據(jù)的采集消耗較大的人力物力成本，合成數(shù)據(jù)僅依賴AI算法實現(xiàn)數(shù)據(jù)生成，數(shù)據(jù)采集快并且成本低廉。同時人形機器人面臨著場景復雜性與模型泛化能力的問題，合成數(shù)據(jù)構(gòu)建的世界模型就起到了很大的作用。自動駕駛場景相對結(jié)構(gòu)化，主要操作在可預測和規(guī)對泛化能力的要求遠高于自動駕駛汽車?；谑澜缒Ｐ蜕筛哔|(zhì)量的動作視頻和規(guī)劃策略，在仿真環(huán)境中模擬各種復雜場景，就能夠提升系統(tǒng)的魯棒性。合成數(shù)據(jù)生成的關(guān)鍵問題是保持數(shù)據(jù)集的熵和多樣性，避免生成的數(shù)據(jù)與真實數(shù)據(jù)差距過大或者樣式單一。SyntheticSyntheticData2020本本民生證券MINSHENGSECURITIES

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅

文檔簡介

溫馨提示

最新文檔

評論

2024 星海系列：人形機器人與AI大模型之Robot++AI的Transformer之旅

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔