萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系

上傳人：r*** IP屬地：北京上傳時(shí)間：2023-12-21 格式：DOCX 頁(yè)數(shù)：13 大?。?7.77KB 積分：1.2 舉報(bào) 版權(quán)申訴

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系_第2頁(yè)

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系_第3頁(yè)

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系_第4頁(yè)

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系_第5頁(yè)

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系汽車革命的上半場(chǎng)是電動(dòng)化，下半場(chǎng)是智能化，電動(dòng)化只是改變了汽車的動(dòng)力供給方式，并沒(méi)有改變汽車的性質(zhì)，而智能化才是這場(chǎng)革命的主菜，將對(duì)汽車帶來(lái)顛覆性變化，汽車將由傳統(tǒng)的機(jī)械體，變?yōu)閾碛袕?qiáng)大計(jì)算能力的智能體。在汽車智能化的道路上，有一個(gè)擁有絕對(duì)實(shí)力的引領(lǐng)者，那就是ElonMusk領(lǐng)導(dǎo)下的特斯拉，其打造的自動(dòng)駕駛體系是全球關(guān)注的焦點(diǎn)，馬斯克曾在微博上發(fā)文稱特斯拉打造的人工智能是世界上最為先進(jìn)的。馬斯克3月6日發(fā)布微博內(nèi)容特斯拉是截止目前全球唯一一家實(shí)現(xiàn)了自動(dòng)駕駛核心領(lǐng)域全棧自研自產(chǎn)的科技公司，在數(shù)據(jù)、算法、算力等各個(gè)層面打造了一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動(dòng)駕駛軟硬件架構(gòu)。整體而言，特斯拉的自動(dòng)駕駛架構(gòu)是采用純視覺(jué)方案實(shí)現(xiàn)對(duì)世界的感知，并基于原始視頻數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建出真實(shí)世界的三維向量空間，在向量空間中通過(guò)傳統(tǒng)規(guī)控方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合規(guī)劃系統(tǒng)實(shí)現(xiàn)汽車的行為與路徑規(guī)劃，生成控制信號(hào)傳遞給執(zhí)行機(jī)構(gòu)，同時(shí)通過(guò)完善的數(shù)據(jù)閉環(huán)體系和仿真平臺(tái)實(shí)現(xiàn)自動(dòng)駕駛能力的持續(xù)迭代。下面將分別按照感知、規(guī)劃與控制、數(shù)據(jù)與仿真、算力四個(gè)部分對(duì)特斯拉實(shí)現(xiàn)FSD（FullSelf-Drive，完全自動(dòng)駕駛）的核心體系進(jìn)行全面解析。01感知根據(jù)2021年8月TeslaAIDay上的展示，特斯拉最新的感知方案采用純視覺(jué)感知方案，完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等非攝像頭傳感器，僅采用攝像頭進(jìn)行感知，在自動(dòng)駕駛領(lǐng)域獨(dú)樹(shù)一幟。人類通過(guò)眼睛感知世界的原理為：光線通過(guò)眼睛被視網(wǎng)膜采集信息，經(jīng)過(guò)傳遞與預(yù)處理，信息抵達(dá)大腦視覺(jué)皮層，神經(jīng)元從視網(wǎng)膜傳遞的信息中提取出顏色、方向、邊緣等特征結(jié)構(gòu)，再傳遞給下顳葉皮層，然后經(jīng)過(guò)認(rèn)知神經(jīng)網(wǎng)絡(luò)的復(fù)雜處理最終輸出感知結(jié)果。人類視覺(jué)感知原理自動(dòng)駕駛視覺(jué)感知方案是效仿人類視覺(jué)系統(tǒng)原理，攝像頭便是“汽車之眼”，特斯拉汽車共計(jì)采用八個(gè)攝像頭分布在車體四周，車身前部有三個(gè)攝像頭，分別為前視主視野攝像頭、前視寬視野攝像頭（魚(yú)眼鏡頭）以及前視窄視野攝像頭（長(zhǎng)聚焦鏡頭），左右兩側(cè)各有兩個(gè)攝像頭，分別為側(cè)方前視攝像頭和側(cè)方后視攝像頭，車身后部有一個(gè)后視攝像頭，整體實(shí)現(xiàn)360度全局環(huán)視視野，最大監(jiān)測(cè)距離可以達(dá)到250米。特斯拉車身攝像頭環(huán)視視野通過(guò)“汽車之眼”采集到的真實(shí)世界圖像數(shù)據(jù)，經(jīng)過(guò)復(fù)雜的感知神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行處理，構(gòu)建真實(shí)世界的三維向量空間，其中包含汽車、行人等動(dòng)態(tài)交通參與物，道路線、交通標(biāo)識(shí)、紅綠燈、建筑物等靜態(tài)環(huán)境物，以及各元素的坐標(biāo)位置、方向角、距離、速度、加速度等屬性參數(shù)，這個(gè)向量空間不需要和真實(shí)世界的模樣完全保持一致，更傾向于是供機(jī)器理解的數(shù)學(xué)表達(dá)。利用攝像頭采集數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)輸出三維向量空間根據(jù)特斯拉在AIDAY的公開(kāi)信息，經(jīng)過(guò)多輪升級(jí)迭代，特斯拉目前所采用的視覺(jué)感知框架如下圖所示，這是一套基于視頻流數(shù)據(jù)的共享特征多任務(wù)型神經(jīng)網(wǎng)絡(luò)架構(gòu)，擁有物體深度識(shí)別能力和短時(shí)記憶能力。特斯拉視覺(jué)感知網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)：HydraNet多頭網(wǎng)絡(luò)特斯拉視覺(jué)感知網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是由主干（Backbone）、頸部（Neck）與多個(gè)分支頭部（Head）共同組成，特斯拉取名為“HydraNet”，取意自古希臘神話中的九頭蛇。主干層將原始視頻數(shù)據(jù)通過(guò)殘差神經(jīng)網(wǎng)絡(luò)（RegNet）及BiFPN多尺度特征融合結(jié)構(gòu)完成端到端訓(xùn)練，提取出頸部層的多尺度視覺(jué)特征空間（featuremap），最后在頭部層根據(jù)不同任務(wù)類型完成子網(wǎng)絡(luò)訓(xùn)練并輸出感知結(jié)果，共計(jì)支持包括物體檢測(cè)、交通信號(hào)燈識(shí)別、車道線識(shí)別在內(nèi)的1000多個(gè)任務(wù)。HydraNet多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)HydraNet網(wǎng)絡(luò)的核心特點(diǎn)是多個(gè)子任務(wù)分支共享同一個(gè)特征空間，相比單一任務(wù)使用獨(dú)立的神經(jīng)網(wǎng)絡(luò)，具有如下優(yōu)勢(shì)：1）使用同一主干統(tǒng)一提取特征并共享給各任務(wù)頭部使用，可以避免不同任務(wù)之間重復(fù)計(jì)算現(xiàn)象，有效提升網(wǎng)絡(luò)整體運(yùn)行效率；2）不同子任務(wù)類型之間可以實(shí)現(xiàn)解耦，每項(xiàng)任務(wù)獨(dú)立運(yùn)行不會(huì)影響到其他任務(wù)，因此對(duì)單項(xiàng)任務(wù)的升級(jí)可以不必同時(shí)驗(yàn)證其他任務(wù)是否正常，升級(jí)成本更低；3）生成的特征空間可以進(jìn)行緩存，便于各任務(wù)需求隨時(shí)調(diào)用，具有很強(qiáng)的可擴(kuò)展性。數(shù)據(jù)校準(zhǔn)層：虛擬相機(jī)構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)特斯拉通過(guò)不同的汽車采集到的數(shù)據(jù)共同構(gòu)建一個(gè)通用的感知網(wǎng)絡(luò)架構(gòu)，然而不同汽車由于攝像頭安裝外參的差異，可能導(dǎo)致采集的數(shù)據(jù)存在微小偏差，為此特斯拉在感知框架中加入了一層“虛擬標(biāo)準(zhǔn)相機(jī)”，引入攝像頭標(biāo)定外參將每輛車采集到的圖像數(shù)據(jù)通過(guò)去畸變、旋轉(zhuǎn)等方式處理后，統(tǒng)一映射到同一套虛擬標(biāo)準(zhǔn)攝像頭坐標(biāo)中，從而實(shí)現(xiàn)各攝像頭原始數(shù)據(jù)的“校準(zhǔn)（Rectify）”，消除外參誤差，確保數(shù)據(jù)一致性，將校準(zhǔn)后的數(shù)據(jù)喂養(yǎng)給主干神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在原始數(shù)據(jù)進(jìn)入神經(jīng)網(wǎng)絡(luò)前插入虛擬攝像頭層空間理解層：Transformer實(shí)現(xiàn)三維變換由于攝像頭采集到的數(shù)據(jù)為2D圖像級(jí)，與現(xiàn)實(shí)世界的三維空間不在一個(gè)維度上，因此要實(shí)現(xiàn)完全自動(dòng)駕駛能力，需要將二維數(shù)據(jù)變換至三維空間。為了構(gòu)建出三維向量空間，需要網(wǎng)絡(luò)能夠輸出物體深度信息，大部分自動(dòng)駕駛公司采用的方案是使用激光雷達(dá)、毫米波雷達(dá)等傳感器來(lái)獲取深度信息，并與視覺(jué)感知結(jié)果進(jìn)行融合，而特斯拉堅(jiān)持使用純視覺(jué)方案獲取的視頻數(shù)據(jù)來(lái)計(jì)算深度信息，其思路是在網(wǎng)絡(luò)結(jié)構(gòu)中引入一層BEV空間轉(zhuǎn)換層，用以構(gòu)建網(wǎng)絡(luò)的空間理解能力，BEV坐標(biāo)系即鳥(niǎo)瞰俯視圖坐標(biāo)系，是一種忽略高程信息的自車坐標(biāo)系。早期特斯拉采取的方案是先在二維圖像空間實(shí)現(xiàn)感知，然后將其映射至三維向量空間，再將所有攝像頭的結(jié)果進(jìn)行融合，但圖像層面感知是基于地面平面假說(shuō)，即把地面想象成為無(wú)限大的平面，而實(shí)際世界中的地面會(huì)有坡度，因此會(huì)導(dǎo)致深度信息預(yù)測(cè)不準(zhǔn)確，這也是基于攝像頭的純視覺(jué)方案面臨的最大困難，同時(shí)也會(huì)存在單個(gè)攝像頭無(wú)法看見(jiàn)完整目標(biāo)導(dǎo)致“后融合”難以實(shí)現(xiàn)的問(wèn)題。為了應(yīng)對(duì)這一問(wèn)題，使感知結(jié)果更準(zhǔn)確，特斯拉采用“前融合”的思路，將車身四周的多個(gè)攝像頭獲得的不同視頻數(shù)據(jù)直接進(jìn)行融合，然后用同一套神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練實(shí)現(xiàn)特征從二維圖像空間到三維向量空間的變換。引入BEV三維空間轉(zhuǎn)化層實(shí)現(xiàn)三維變換的核心模塊是Transformer神經(jīng)網(wǎng)絡(luò)，這是一種基于注意力機(jī)制的深度學(xué)習(xí)模型，源自于人腦對(duì)信息處理的機(jī)制，在面對(duì)外界大量信息時(shí)，人腦會(huì)過(guò)濾掉不重要的信息，僅將注意力集中在關(guān)鍵信息，可以大大提升信息處理效率，Transformer在應(yīng)對(duì)大規(guī)模數(shù)據(jù)量級(jí)的學(xué)習(xí)任務(wù)時(shí)具有相當(dāng)出色的表現(xiàn)。Transformer模型需要的三個(gè)核心參數(shù)為Query、Key和Value，其中Key和Value由HydraNet主干部分生成的多尺度特征空間經(jīng)過(guò)一層MLP（多層感知機(jī)網(wǎng)絡(luò)）訓(xùn)練得到，而通過(guò)對(duì)特征空間進(jìn)行池化處理得到全局描述向量（contextsummary），同時(shí)對(duì)輸出的BEV空間各柵格進(jìn)行位置編碼（positionalencoder），合成描述向量和位置編碼后再通過(guò)一層MLP可以得到Query。特斯拉通過(guò)這種方法，可以將地面坡度、曲率等幾何形狀的變化情況內(nèi)化進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)中，實(shí)現(xiàn)對(duì)物體深度信息準(zhǔn)確感知和預(yù)測(cè)，這也是特斯拉敢于放棄雷達(dá)融合路線走純視覺(jué)路線的底氣。短時(shí)記憶層：視頻時(shí)空序列特征提取引入空間理解層后，感知網(wǎng)絡(luò)已經(jīng)具備對(duì)現(xiàn)實(shí)世界的三維向量空間描述能力，但仍然是對(duì)瞬時(shí)的圖像片段進(jìn)行感知，缺乏時(shí)空記憶力，也就是說(shuō)汽車只能根據(jù)當(dāng)前時(shí)刻感知到的信息進(jìn)行判斷，這會(huì)導(dǎo)致世界空間內(nèi)部分特征感知不到。例如在行車過(guò)程中，如果有行人正在穿過(guò)馬路，過(guò)程中被靜止的障礙物遮擋，而汽車僅有瞬時(shí)感知能力的話，由于在感知時(shí)刻行人正好被汽車遮擋了，則無(wú)法識(shí)別到行人，導(dǎo)致很大的安全風(fēng)險(xiǎn)。而人類司機(jī)在面對(duì)類似場(chǎng)景時(shí)，則會(huì)根據(jù)之前時(shí)刻看到行人在穿越馬路的記憶，預(yù)測(cè)其當(dāng)前時(shí)刻有很大概率被汽車遮擋，且有繼續(xù)穿越馬路的意圖，從而選擇減速或者剎車避讓。因此自動(dòng)駕駛感知網(wǎng)絡(luò)也需要擁有類似的記憶能力，能夠記住之前某一時(shí)間段的數(shù)據(jù)特征，從而推演目前場(chǎng)景下可能性最大的結(jié)果，而不僅僅是基于當(dāng)前時(shí)刻看到的場(chǎng)景進(jìn)行判斷。為了解決這一問(wèn)題，特斯拉感知網(wǎng)絡(luò)架構(gòu)引入了時(shí)空序列特征層，通過(guò)使用具有時(shí)間維度的視頻片段而非靜態(tài)的圖像來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，為自動(dòng)駕駛增添了短時(shí)記憶能力。引入時(shí)空序列特征提取層以實(shí)現(xiàn)短時(shí)記憶能力特斯拉同時(shí)還引入了IMU傳感器獲取到的包含速度和加速度在內(nèi)的自車運(yùn)動(dòng)信息，結(jié)合三維向量空間特征，分別生成基于時(shí)間維度和基于空間維度的特征隊(duì)列，其中時(shí)間維度的特征隊(duì)列提供了感知在時(shí)間上的連續(xù)性，而空間特征隊(duì)列的意義是防止由于部分場(chǎng)景等待時(shí)間過(guò)長(zhǎng)導(dǎo)致的時(shí)序信息丟失，并利用三維卷積、Transfomer、RNN等方法實(shí)現(xiàn)時(shí)序信息融合，進(jìn)而得到多傳感器融合的視頻流時(shí)空特征空間。此外特斯拉還嘗試了一種新的時(shí)序信息融合方法——SpatialRNN，可以省略BEV層的位置編碼，直接將視覺(jué)特征喂給RNN網(wǎng)絡(luò)，通過(guò)隱藏層保留多個(gè)時(shí)刻的狀態(tài)編碼，指導(dǎo)應(yīng)對(duì)當(dāng)前環(huán)境需要選取哪些記憶片段使用。短時(shí)記憶層無(wú)疑增加了特斯拉感知網(wǎng)絡(luò)的魯棒性，針對(duì)惡劣天氣、突發(fā)事件、遮擋場(chǎng)景等，都能保持良好的感知能力。以上便構(gòu)成了特斯拉的感知網(wǎng)絡(luò)架構(gòu)，通過(guò)端到端的訓(xùn)練模型，從視頻數(shù)據(jù)輸入到向量空間輸出。據(jù)特斯拉AI技術(shù)總監(jiān)Karpathy介紹，基于以上架構(gòu)的特斯拉視覺(jué)感知體系，對(duì)于深度信息的感知能力甚至可以超過(guò)雷達(dá)，同時(shí)由于具備短時(shí)記憶，特斯拉可以實(shí)現(xiàn)局部地圖的實(shí)時(shí)構(gòu)建，通過(guò)融合多個(gè)局部地圖，理論上可以得到任何一個(gè)區(qū)域的高精地圖，這也是特斯拉目前沒(méi)有采用高精地圖作為輸入原因。02規(guī)劃與控制人體在感知到周圍世界的信息后，會(huì)基于對(duì)這些信息的認(rèn)知做出相應(yīng)的判斷，來(lái)規(guī)劃自己的軀體應(yīng)該作何反應(yīng)并下發(fā)控制指令，汽車也是如此，在完成感知任務(wù)后下一步便是對(duì)感知到的信息做出決策方案，指導(dǎo)汽車完成相應(yīng)執(zhí)行動(dòng)作，這便是自動(dòng)駕駛的規(guī)劃與控制部分。特斯拉自動(dòng)駕駛規(guī)控的核心目標(biāo)是基于感知網(wǎng)絡(luò)輸出的三維向量空間，通過(guò)規(guī)劃汽車行為和行車路徑使汽車到達(dá)指定目的地，同時(shí)最大化確保行車安全性、效率性及舒適性。規(guī)控是一個(gè)非常復(fù)雜的問(wèn)題，一方面汽車的行為空間具有典型的非凸性，同一個(gè)目標(biāo)任務(wù)可能對(duì)應(yīng)非常多個(gè)解決方案，同時(shí)全局最優(yōu)解難以獲得，具體表現(xiàn)就是汽車可能由于陷入局部最優(yōu)，無(wú)法快速做出準(zhǔn)確決策；另一方面行為空間具有多維性，要制定針對(duì)目標(biāo)任務(wù)的規(guī)劃方案需要在短時(shí)間內(nèi)快速產(chǎn)生速度、加速度等多個(gè)維度的參數(shù)。特斯拉采用的解決方案是將傳統(tǒng)規(guī)劃控制方法與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合，構(gòu)建一套混合規(guī)劃系統(tǒng)，以任務(wù)分解的方式分別解決上述兩大難題，其規(guī)劃控制邏輯如下圖所示。混合規(guī)劃系統(tǒng)解決方案在感知獲得的三維向量空間中，基于既定的目標(biāo)位置，先采用粗搜索的方式找到一條初步的路徑，然后根據(jù)安全性、舒適性等指標(biāo)，圍繞初步路徑進(jìn)行優(yōu)化，對(duì)與障礙物間距、加速度等參數(shù)做持續(xù)微調(diào)，最終獲得一條最優(yōu)的時(shí)空軌跡。在大部分結(jié)構(gòu)化場(chǎng)景下，例如高速公路等，粗搜索選取的是經(jīng)典的A-Star算法（啟發(fā)式搜索方法），但針對(duì)一些復(fù)雜的場(chǎng)景，例如鬧市中心、停車場(chǎng)等，由于場(chǎng)景中非結(jié)構(gòu)化元素比較多，搜索空間大，采用傳統(tǒng)A-Star算法消耗運(yùn)算節(jié)點(diǎn)過(guò)多，導(dǎo)致決策速度緩慢。由此特斯拉引入強(qiáng)化學(xué)習(xí)方法，強(qiáng)化學(xué)習(xí)的機(jī)制類似于人類學(xué)習(xí)模式，通過(guò)獎(jiǎng)賞正確的行為來(lái)引導(dǎo)人類習(xí)得某項(xiàng)能力，首先利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)全場(chǎng)景特點(diǎn)獲得價(jià)值函數(shù)，然后通過(guò)MCTS算法（蒙特卡洛樹(shù)搜索）引導(dǎo)搜索路徑不斷靠攏價(jià)值函數(shù)，這種方法可以大幅度減少搜索空間，有效提高決策實(shí)時(shí)性。MCTS算法規(guī)劃停車場(chǎng)行車路線而在行車過(guò)程中，會(huì)涉及與其他車輛的博弈問(wèn)題，例如變道過(guò)程、在狹窄路口錯(cuò)車場(chǎng)景，類似場(chǎng)景下一般需要根據(jù)對(duì)方車輛的反應(yīng)變化隨時(shí)調(diào)整自車的決策方案。因此除了單車規(guī)劃外，特斯拉還做了交通參與者聯(lián)合軌跡規(guī)劃，根據(jù)其他車的狀態(tài)參數(shù)（速度、加速度、角速度等）規(guī)劃其路徑，進(jìn)而選擇合適的自車方案，待其他車狀態(tài)發(fā)生變化后，隨時(shí)調(diào)整自車方案，盡量避免出現(xiàn)自車愣在原地不做反應(yīng)的情況，提升自車的smart性。狹窄路口聯(lián)合軌跡規(guī)劃至此，特斯拉FSD的最終架構(gòu)浮出水面，首先通過(guò)視覺(jué)感知網(wǎng)絡(luò)生成三維向量空間，對(duì)于僅有唯一解的問(wèn)題，可直接生成明確的規(guī)控方案，而對(duì)于有多個(gè)可選方案的復(fù)雜問(wèn)題，使用向量空間和感知網(wǎng)絡(luò)提取的中間層特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)規(guī)劃器，得到軌跡分布，再融入成本函數(shù)、人工干預(yù)數(shù)據(jù)或其他仿真模擬數(shù)據(jù)，獲得最優(yōu)的規(guī)控方案，最終生成汽車轉(zhuǎn)向、加速、剎車等控制指令，由汽車執(zhí)行模塊接受控制指令實(shí)現(xiàn)汽車自動(dòng)駕駛。特斯拉FSD感知-規(guī)劃-控制整體架構(gòu)03數(shù)據(jù)標(biāo)注與仿真可以看到在特斯拉的自動(dòng)駕駛方案中，無(wú)論是在感知層面還是規(guī)控層面，核心算法基本都是由數(shù)據(jù)驅(qū)動(dòng)的，數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能，因此構(gòu)建一套高效獲取、標(biāo)注及仿真訓(xùn)練數(shù)據(jù)的閉環(huán)至關(guān)重要。數(shù)據(jù)標(biāo)注特斯拉每年售出近百萬(wàn)輛汽車，通過(guò)這些汽車日常運(yùn)行，可以采集到超大規(guī)模的原始數(shù)據(jù)集，對(duì)這些數(shù)據(jù)集的標(biāo)注工作特斯拉最早是外包給合作方，后來(lái)發(fā)現(xiàn)存在交付延遲和質(zhì)量不高的情況，因此便在內(nèi)部發(fā)展了上千人的標(biāo)注團(tuán)隊(duì)并獨(dú)立開(kāi)發(fā)標(biāo)注基礎(chǔ)設(shè)施。特斯拉的標(biāo)注最初是在二維圖像中進(jìn)行的，后來(lái)發(fā)展為四維實(shí)現(xiàn)，除了標(biāo)注三維空間外還有對(duì)時(shí)間維度的標(biāo)注，直接在向量空間中完成標(biāo)注后再反向投影到攝像頭對(duì)應(yīng)的圖像空間中。特斯拉的四維標(biāo)注隨著數(shù)據(jù)規(guī)模的逐漸擴(kuò)大，人工標(biāo)注的方式需要消耗大量人力成本，同時(shí)人類相對(duì)更擅長(zhǎng)語(yǔ)義分割之類的標(biāo)注任務(wù)，對(duì)于幾何圖形的標(biāo)注，反倒是機(jī)器更擅長(zhǎng)，因此特斯拉引入了自動(dòng)標(biāo)注的方法，實(shí)現(xiàn)人工與機(jī)器相結(jié)合的數(shù)據(jù)標(biāo)注模式。特斯拉實(shí)現(xiàn)自動(dòng)標(biāo)注的方案是通過(guò)汽車在一段時(shí)間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構(gòu)成最小標(biāo)注單元（Clip），由離線神經(jīng)網(wǎng)絡(luò)系統(tǒng)訓(xùn)練得到中間層結(jié)果，如目標(biāo)物、語(yǔ)義分割、深度、光流等，再通過(guò)大量機(jī)器算法生成最終用以訓(xùn)練的標(biāo)簽集，包括行車軌跡、靜態(tài)環(huán)境重建、動(dòng)態(tài)物、運(yùn)動(dòng)學(xué)參數(shù)等，人工可以對(duì)自動(dòng)生成的標(biāo)簽集進(jìn)行調(diào)整干預(yù)。自動(dòng)標(biāo)注方案實(shí)現(xiàn)過(guò)程對(duì)于靜態(tài)標(biāo)注物，例如對(duì)于某一段道路的標(biāo)注，以攝像頭采集到的路面每個(gè)點(diǎn)的平面坐標(biāo)作為輸入，通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出這個(gè)點(diǎn)的高度及相關(guān)的語(yǔ)義分割、道路線邊界等三維中間結(jié)果，然后將這個(gè)三維點(diǎn)反向投影至各個(gè)攝像頭的二維空間，并將其與原本在二維圖像空間內(nèi)直接做語(yǔ)義分割的結(jié)果進(jìn)行對(duì)比，再基于各個(gè)攝像頭的對(duì)比結(jié)果進(jìn)行跨時(shí)空維度的聯(lián)合優(yōu)化實(shí)現(xiàn)重建，最終得到整個(gè)道路在各攝像機(jī)畫(huà)面內(nèi)及視頻前后幀時(shí)間序列中的一致性標(biāo)注結(jié)果。通過(guò)不同輛車不同時(shí)間經(jīng)過(guò)同一路段采集到的視頻數(shù)據(jù)，按照上述方法進(jìn)行自動(dòng)標(biāo)注，再將所有標(biāo)注結(jié)果進(jìn)行融合后優(yōu)化，得到該路段的精確標(biāo)注結(jié)果，實(shí)現(xiàn)道路重建。自動(dòng)標(biāo)注實(shí)現(xiàn)道路重建通過(guò)這種方式，不僅可以重建道路，還可以重建墻體、屏障、建筑物等所有靜態(tài)環(huán)境物。對(duì)于動(dòng)態(tài)標(biāo)注物，核心是要標(biāo)注其運(yùn)動(dòng)學(xué)參數(shù)及行為軌跡預(yù)測(cè)，通過(guò)不同車輛在同一路段采集的含時(shí)間序列的視頻標(biāo)注單元，我們不僅可以知道每個(gè)標(biāo)注物過(guò)去時(shí)刻的信息，還可以知道未來(lái)時(shí)刻的信息，因此可以輕易獲取每個(gè)動(dòng)態(tài)標(biāo)注物運(yùn)動(dòng)軌跡和參數(shù)的“真值”，即使被遮擋的運(yùn)動(dòng)物體也可以標(biāo)注出來(lái)。動(dòng)態(tài)物體自動(dòng)標(biāo)注通過(guò)對(duì)靜態(tài)物體和動(dòng)態(tài)物體分別標(biāo)注，最終得到一個(gè)最小標(biāo)注單元的完整標(biāo)注結(jié)果，如下圖所示。自動(dòng)標(biāo)注實(shí)現(xiàn)Clip的完整標(biāo)注可以看到，只需要汽車在路上行駛采集到的數(shù)據(jù)作為輸入，然后運(yùn)行標(biāo)注模型，再將結(jié)果進(jìn)行融合優(yōu)化，便可以得到任意場(chǎng)景的標(biāo)注結(jié)果，全過(guò)程自動(dòng)實(shí)現(xiàn)，無(wú)人工參與。一萬(wàn)個(gè)標(biāo)注單元在一周內(nèi)即可完成自動(dòng)化標(biāo)注，而純?nèi)斯?biāo)注則需要幾個(gè)月的時(shí)間，自動(dòng)標(biāo)注大大提升了標(biāo)注效率。仿真由于路測(cè)條件的限制，導(dǎo)致積累數(shù)據(jù)和訓(xùn)練算法的效率偏低且成本高昂，為了更高效的實(shí)現(xiàn)數(shù)據(jù)訓(xùn)練，特斯拉構(gòu)建了一個(gè)真實(shí)世界的虛擬仿真空間，來(lái)加速FSD能力的訓(xùn)練，仿真對(duì)于實(shí)現(xiàn)完全自動(dòng)駕駛的價(jià)值如今在行業(yè)內(nèi)已經(jīng)普遍被認(rèn)可。自動(dòng)駕駛的仿真是在模擬環(huán)境中，通過(guò)調(diào)整各類交通參與物及環(huán)境的模型參數(shù)以構(gòu)建各種虛擬場(chǎng)景，以訓(xùn)練算法應(yīng)對(duì)不同場(chǎng)景的性能。特斯拉仿真場(chǎng)景其價(jià)值主要體現(xiàn)在以下幾個(gè)方面：1、通過(guò)仿真可以建立在現(xiàn)實(shí)世界中難以遇到的極端場(chǎng)景（cornercase），例如高速公路上一家三口在跑步的場(chǎng)景，類似的場(chǎng)景雖然在現(xiàn)實(shí)世界中存在的可能性極低，但考慮到自動(dòng)駕駛的安全性，必須掌握應(yīng)對(duì)此種極端場(chǎng)景的能力，因此可以在仿真環(huán)境下進(jìn)行模擬訓(xùn)練；2、針對(duì)部分復(fù)雜場(chǎng)景難以直接標(biāo)注的情況，可以通過(guò)仿真進(jìn)行快速標(biāo)注，例如在一個(gè)路況復(fù)雜的十字路口有各種川流不息的汽車、行人，由于元素眾多，要直接進(jìn)行標(biāo)注難度很大，而在仿真場(chǎng)景中，由于所有的元素的初始參數(shù)都是自行設(shè)定的，因此在模擬復(fù)雜的運(yùn)動(dòng)狀態(tài)時(shí)，所需要標(biāo)注的參數(shù)很容易就可以通過(guò)計(jì)算得到，以此實(shí)現(xiàn)快速標(biāo)注；3、仿真為規(guī)控算法的訓(xùn)練和驗(yàn)證提供了一個(gè)安全的環(huán)境，考慮汽車駕駛安全問(wèn)題的重要性，自動(dòng)駕駛規(guī)控算法訓(xùn)練和優(yōu)化過(guò)程難以通過(guò)實(shí)際路測(cè)實(shí)現(xiàn)，在仿真場(chǎng)景中便具有非常高的自由度；4、可以用以某些閉環(huán)場(chǎng)景算法的長(zhǎng)期持續(xù)訓(xùn)練，例如泊車場(chǎng)景，這個(gè)場(chǎng)景下空間是閉環(huán)的，參與者有限，因此通過(guò)仿真持續(xù)模擬各種工況，可以有效地對(duì)自動(dòng)駕駛泊車能力進(jìn)行訓(xùn)練；5、對(duì)于現(xiàn)實(shí)世界中FSD失敗的場(chǎng)景，可以通過(guò)仿真重現(xiàn)失敗場(chǎng)景，在仿真環(huán)境中尋找失敗原因并進(jìn)行算法訓(xùn)練和優(yōu)化。一套完整的仿真體系需要包括仿真場(chǎng)景、仿真系統(tǒng)和仿真評(píng)估三大部分，這里僅介紹特斯拉在仿真場(chǎng)景層面所做的工作。自動(dòng)駕駛的實(shí)現(xiàn)首先是基于感知能力，因此對(duì)感知系統(tǒng)的準(zhǔn)確仿真非常關(guān)鍵，特斯拉的感知系統(tǒng)是基于純攝像頭，因此對(duì)攝像頭的各種屬性進(jìn)行軟硬件建模，如傳感器噪聲、曝光時(shí)間、光圈大小、運(yùn)動(dòng)模糊、光學(xué)畸變等，甚至對(duì)于擋風(fēng)玻璃上的衍射斑這種細(xì)節(jié)，特斯拉也考慮在內(nèi)，這套準(zhǔn)確的傳感器仿真系統(tǒng)不僅可以用以FSD的訓(xùn)練和驗(yàn)證，還可以指導(dǎo)攝像頭的硬件選型和設(shè)計(jì)。準(zhǔn)確的傳感器仿真為了真實(shí)的模擬現(xiàn)實(shí)世界場(chǎng)景，要求仿真渲染要盡可能做到逼真，特斯拉利用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)來(lái)提升視覺(jué)渲染效果，同時(shí)用光線追蹤的方法來(lái)模擬逼真的光照效果。逼真的視覺(jué)渲染為了避免仿真環(huán)境過(guò)于單一，導(dǎo)致感知系統(tǒng)過(guò)擬合的問(wèn)題，特斯拉對(duì)仿真環(huán)境參與物進(jìn)行了充分的建模，包括多元交通參與者（例如車、行人等）和靜態(tài)環(huán)境物（例如建筑、樹(shù)、道路等）等，截至最新TeslaAIDay公開(kāi)的信息，特斯拉總共已經(jīng)繪制了2000+公里的道路環(huán)境。多元交通參與者與地理位置針對(duì)自動(dòng)駕駛可能遇到的各種場(chǎng)景，構(gòu)建了大規(guī)模的可擴(kuò)展場(chǎng)景庫(kù)，由計(jì)算機(jī)通過(guò)調(diào)整參數(shù)生成不同的場(chǎng)景形態(tài)，例如道路曲度等，同時(shí)由于大量的仿真場(chǎng)景可能是無(wú)用的，例如實(shí)際該場(chǎng)景下汽車的決策已經(jīng)正確，為了避免計(jì)算資源的浪費(fèi)，特斯拉還引入了MLB等神經(jīng)網(wǎng)絡(luò)用來(lái)尋找故障點(diǎn)，重點(diǎn)圍繞故障點(diǎn)進(jìn)行仿真數(shù)據(jù)創(chuàng)建，反哺實(shí)際規(guī)劃網(wǎng)絡(luò)，形成閉環(huán)。大規(guī)模場(chǎng)景生成除了直接在虛擬場(chǎng)景中進(jìn)行仿真訓(xùn)練，特斯拉還希望可以在仿真環(huán)境中重現(xiàn)真實(shí)世界場(chǎng)景，以便可以復(fù)現(xiàn)FSD失敗的場(chǎng)景，實(shí)現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車算法模型，實(shí)現(xiàn)“數(shù)據(jù)閉環(huán)”，因此在完成真實(shí)世界片段的自動(dòng)標(biāo)注重建后，再疊加視覺(jué)圖像信息，生成與真實(shí)世界“孿生”的虛擬世界。場(chǎng)景重現(xiàn)特斯拉通過(guò)仿真獲得的虛擬數(shù)據(jù)規(guī)模已達(dá)到37.1億張圖片及4.8億標(biāo)注，且已實(shí)際融入車端模型中，用以提升FSD性能。04算力上面對(duì)特斯拉自動(dòng)駕駛所采用的算法架構(gòu)和數(shù)據(jù)閉環(huán)進(jìn)行了介紹，而超大規(guī)模的數(shù)據(jù)和高性能的算法均需要強(qiáng)大的算力支撐，特斯拉為此自研打造了服務(wù)于自動(dòng)駕駛的全球最強(qiáng)超級(jí)計(jì)算機(jī)——Dojo。Dojo是一種通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)連接的分布式計(jì)算架構(gòu)，具有大型計(jì)算平面、極高帶寬、低延遲、可擴(kuò)展性極強(qiáng)等特點(diǎn)，去年8月的AIDay，特斯拉公布了為Dojo超算打造的自研AI訓(xùn)練芯片D1。Dojo

D1芯片D1芯片采用分布式結(jié)構(gòu)和7納米制造工藝，單片面積僅645平方毫米，具有500億個(gè)晶體管和354個(gè)訓(xùn)練節(jié)點(diǎn)，內(nèi)部電路長(zhǎng)達(dá)17.7公里，單片F(xiàn)P32算力可達(dá)22.6TOPs，BF16算力可達(dá)362TOPs，1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次（10^12）操作，同時(shí)具有GPU級(jí)的計(jì)算能力和CPU的連接能力，I/O帶寬是最先進(jìn)的網(wǎng)絡(luò)芯片的2倍。同時(shí)D1芯片之間可以實(shí)現(xiàn)無(wú)縫連接，特斯拉將25個(gè)D1

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 產(chǎn)品手冊(cè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔