版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
萬(wàn)字長(zhǎng)文解析特斯拉自動(dòng)駕駛體系汽車革命的上半場(chǎng)是電動(dòng)化,下半場(chǎng)是智能化,電動(dòng)化只是改變了汽車的動(dòng)力供給方式,并沒(méi)有改變汽車的性質(zhì),而智能化才是這場(chǎng)革命的主菜,將對(duì)汽車帶來(lái)顛覆性變化,汽車將由傳統(tǒng)的機(jī)械體,變?yōu)閾碛袕?qiáng)大計(jì)算能力的智能體。在汽車智能化的道路上,有一個(gè)擁有絕對(duì)實(shí)力的引領(lǐng)者,那就是ElonMusk領(lǐng)導(dǎo)下的特斯拉,其打造的自動(dòng)駕駛體系是全球關(guān)注的焦點(diǎn),馬斯克曾在微博上發(fā)文稱特斯拉打造的人工智能是世界上最為先進(jìn)的。馬斯克3月6日發(fā)布微博內(nèi)容特斯拉是截止目前全球唯一一家實(shí)現(xiàn)了自動(dòng)駕駛核心領(lǐng)域全棧自研自產(chǎn)的科技公司,在數(shù)據(jù)、算法、算力等各個(gè)層面打造了一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動(dòng)駕駛軟硬件架構(gòu)。整體而言,特斯拉的自動(dòng)駕駛架構(gòu)是采用純視覺(jué)方案實(shí)現(xiàn)對(duì)世界的感知,并基于原始視頻數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建出真實(shí)世界的三維向量空間,在向量空間中通過(guò)傳統(tǒng)規(guī)控方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合規(guī)劃系統(tǒng)實(shí)現(xiàn)汽車的行為與路徑規(guī)劃,生成控制信號(hào)傳遞給執(zhí)行機(jī)構(gòu),同時(shí)通過(guò)完善的數(shù)據(jù)閉環(huán)體系和仿真平臺(tái)實(shí)現(xiàn)自動(dòng)駕駛能力的持續(xù)迭代。下面將分別按照感知、規(guī)劃與控制、數(shù)據(jù)與仿真、算力四個(gè)部分對(duì)特斯拉實(shí)現(xiàn)FSD(FullSelf-Drive,完全自動(dòng)駕駛)的核心體系進(jìn)行全面解析。01感知根據(jù)2021年8月TeslaAIDay上的展示,特斯拉最新的感知方案采用純視覺(jué)感知方案,完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等非攝像頭傳感器,僅采用攝像頭進(jìn)行感知,在自動(dòng)駕駛領(lǐng)域獨(dú)樹(shù)一幟。人類通過(guò)眼睛感知世界的原理為:光線通過(guò)眼睛被視網(wǎng)膜采集信息,經(jīng)過(guò)傳遞與預(yù)處理,信息抵達(dá)大腦視覺(jué)皮層,神經(jīng)元從視網(wǎng)膜傳遞的信息中提取出顏色、方向、邊緣等特征結(jié)構(gòu),再傳遞給下顳葉皮層,然后經(jīng)過(guò)認(rèn)知神經(jīng)網(wǎng)絡(luò)的復(fù)雜處理最終輸出感知結(jié)果。人類視覺(jué)感知原理自動(dòng)駕駛視覺(jué)感知方案是效仿人類視覺(jué)系統(tǒng)原理,攝像頭便是“汽車之眼”,特斯拉汽車共計(jì)采用八個(gè)攝像頭分布在車體四周,車身前部有三個(gè)攝像頭,分別為前視主視野攝像頭、前視寬視野攝像頭(魚(yú)眼鏡頭)以及前視窄視野攝像頭(長(zhǎng)聚焦鏡頭),左右兩側(cè)各有兩個(gè)攝像頭,分別為側(cè)方前視攝像頭和側(cè)方后視攝像頭,車身后部有一個(gè)后視攝像頭,整體實(shí)現(xiàn)360度全局環(huán)視視野,最大監(jiān)測(cè)距離可以達(dá)到250米。特斯拉車身攝像頭環(huán)視視野通過(guò)“汽車之眼”采集到的真實(shí)世界圖像數(shù)據(jù),經(jīng)過(guò)復(fù)雜的感知神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行處理,構(gòu)建真實(shí)世界的三維向量空間,其中包含汽車、行人等動(dòng)態(tài)交通參與物,道路線、交通標(biāo)識(shí)、紅綠燈、建筑物等靜態(tài)環(huán)境物,以及各元素的坐標(biāo)位置、方向角、距離、速度、加速度等屬性參數(shù),這個(gè)向量空間不需要和真實(shí)世界的模樣完全保持一致,更傾向于是供機(jī)器理解的數(shù)學(xué)表達(dá)。利用攝像頭采集數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)輸出三維向量空間根據(jù)特斯拉在AIDAY的公開(kāi)信息,經(jīng)過(guò)多輪升級(jí)迭代,特斯拉目前所采用的視覺(jué)感知框架如下圖所示,這是一套基于視頻流數(shù)據(jù)的共享特征多任務(wù)型神經(jīng)網(wǎng)絡(luò)架構(gòu),擁有物體深度識(shí)別能力和短時(shí)記憶能力。特斯拉視覺(jué)感知網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu):HydraNet多頭網(wǎng)絡(luò)特斯拉視覺(jué)感知網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是由主干(Backbone)、頸部(Neck)與多個(gè)分支頭部(Head)共同組成,特斯拉取名為“HydraNet”,取意自古希臘神話中的九頭蛇。主干層將原始視頻數(shù)據(jù)通過(guò)殘差神經(jīng)網(wǎng)絡(luò)(RegNet)及BiFPN多尺度特征融合結(jié)構(gòu)完成端到端訓(xùn)練,提取出頸部層的多尺度視覺(jué)特征空間(featuremap),最后在頭部層根據(jù)不同任務(wù)類型完成子網(wǎng)絡(luò)訓(xùn)練并輸出感知結(jié)果,共計(jì)支持包括物體檢測(cè)、交通信號(hào)燈識(shí)別、車道線識(shí)別在內(nèi)的1000多個(gè)任務(wù)。HydraNet多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)HydraNet網(wǎng)絡(luò)的核心特點(diǎn)是多個(gè)子任務(wù)分支共享同一個(gè)特征空間,相比單一任務(wù)使用獨(dú)立的神經(jīng)網(wǎng)絡(luò),具有如下優(yōu)勢(shì):1)使用同一主干統(tǒng)一提取特征并共享給各任務(wù)頭部使用,可以避免不同任務(wù)之間重復(fù)計(jì)算現(xiàn)象,有效提升網(wǎng)絡(luò)整體運(yùn)行效率;2)不同子任務(wù)類型之間可以實(shí)現(xiàn)解耦,每項(xiàng)任務(wù)獨(dú)立運(yùn)行不會(huì)影響到其他任務(wù),因此對(duì)單項(xiàng)任務(wù)的升級(jí)可以不必同時(shí)驗(yàn)證其他任務(wù)是否正常,升級(jí)成本更低;3)生成的特征空間可以進(jìn)行緩存,便于各任務(wù)需求隨時(shí)調(diào)用,具有很強(qiáng)的可擴(kuò)展性。數(shù)據(jù)校準(zhǔn)層:虛擬相機(jī)構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)特斯拉通過(guò)不同的汽車采集到的數(shù)據(jù)共同構(gòu)建一個(gè)通用的感知網(wǎng)絡(luò)架構(gòu),然而不同汽車由于攝像頭安裝外參的差異,可能導(dǎo)致采集的數(shù)據(jù)存在微小偏差,為此特斯拉在感知框架中加入了一層“虛擬標(biāo)準(zhǔn)相機(jī)”,引入攝像頭標(biāo)定外參將每輛車采集到的圖像數(shù)據(jù)通過(guò)去畸變、旋轉(zhuǎn)等方式處理后,統(tǒng)一映射到同一套虛擬標(biāo)準(zhǔn)攝像頭坐標(biāo)中,從而實(shí)現(xiàn)各攝像頭原始數(shù)據(jù)的“校準(zhǔn)(Rectify)”,消除外參誤差,確保數(shù)據(jù)一致性,將校準(zhǔn)后的數(shù)據(jù)喂養(yǎng)給主干神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在原始數(shù)據(jù)進(jìn)入神經(jīng)網(wǎng)絡(luò)前插入虛擬攝像頭層空間理解層:Transformer實(shí)現(xiàn)三維變換由于攝像頭采集到的數(shù)據(jù)為2D圖像級(jí),與現(xiàn)實(shí)世界的三維空間不在一個(gè)維度上,因此要實(shí)現(xiàn)完全自動(dòng)駕駛能力,需要將二維數(shù)據(jù)變換至三維空間。為了構(gòu)建出三維向量空間,需要網(wǎng)絡(luò)能夠輸出物體深度信息,大部分自動(dòng)駕駛公司采用的方案是使用激光雷達(dá)、毫米波雷達(dá)等傳感器來(lái)獲取深度信息,并與視覺(jué)感知結(jié)果進(jìn)行融合,而特斯拉堅(jiān)持使用純視覺(jué)方案獲取的視頻數(shù)據(jù)來(lái)計(jì)算深度信息,其思路是在網(wǎng)絡(luò)結(jié)構(gòu)中引入一層BEV空間轉(zhuǎn)換層,用以構(gòu)建網(wǎng)絡(luò)的空間理解能力,BEV坐標(biāo)系即鳥(niǎo)瞰俯視圖坐標(biāo)系,是一種忽略高程信息的自車坐標(biāo)系。早期特斯拉采取的方案是先在二維圖像空間實(shí)現(xiàn)感知,然后將其映射至三維向量空間,再將所有攝像頭的結(jié)果進(jìn)行融合,但圖像層面感知是基于地面平面假說(shuō),即把地面想象成為無(wú)限大的平面,而實(shí)際世界中的地面會(huì)有坡度,因此會(huì)導(dǎo)致深度信息預(yù)測(cè)不準(zhǔn)確,這也是基于攝像頭的純視覺(jué)方案面臨的最大困難,同時(shí)也會(huì)存在單個(gè)攝像頭無(wú)法看見(jiàn)完整目標(biāo)導(dǎo)致“后融合”難以實(shí)現(xiàn)的問(wèn)題。為了應(yīng)對(duì)這一問(wèn)題,使感知結(jié)果更準(zhǔn)確,特斯拉采用“前融合”的思路,將車身四周的多個(gè)攝像頭獲得的不同視頻數(shù)據(jù)直接進(jìn)行融合,然后用同一套神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練實(shí)現(xiàn)特征從二維圖像空間到三維向量空間的變換。引入BEV三維空間轉(zhuǎn)化層實(shí)現(xiàn)三維變換的核心模塊是Transformer神經(jīng)網(wǎng)絡(luò),這是一種基于注意力機(jī)制的深度學(xué)習(xí)模型,源自于人腦對(duì)信息處理的機(jī)制,在面對(duì)外界大量信息時(shí),人腦會(huì)過(guò)濾掉不重要的信息,僅將注意力集中在關(guān)鍵信息,可以大大提升信息處理效率,Transformer在應(yīng)對(duì)大規(guī)模數(shù)據(jù)量級(jí)的學(xué)習(xí)任務(wù)時(shí)具有相當(dāng)出色的表現(xiàn)。Transformer模型需要的三個(gè)核心參數(shù)為Query、Key和Value,其中Key和Value由HydraNet主干部分生成的多尺度特征空間經(jīng)過(guò)一層MLP(多層感知機(jī)網(wǎng)絡(luò))訓(xùn)練得到,而通過(guò)對(duì)特征空間進(jìn)行池化處理得到全局描述向量(contextsummary),同時(shí)對(duì)輸出的BEV空間各柵格進(jìn)行位置編碼(positionalencoder),合成描述向量和位置編碼后再通過(guò)一層MLP可以得到Query。特斯拉通過(guò)這種方法,可以將地面坡度、曲率等幾何形狀的變化情況內(nèi)化進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)中,實(shí)現(xiàn)對(duì)物體深度信息準(zhǔn)確感知和預(yù)測(cè),這也是特斯拉敢于放棄雷達(dá)融合路線走純視覺(jué)路線的底氣。短時(shí)記憶層:視頻時(shí)空序列特征提取引入空間理解層后,感知網(wǎng)絡(luò)已經(jīng)具備對(duì)現(xiàn)實(shí)世界的三維向量空間描述能力,但仍然是對(duì)瞬時(shí)的圖像片段進(jìn)行感知,缺乏時(shí)空記憶力,也就是說(shuō)汽車只能根據(jù)當(dāng)前時(shí)刻感知到的信息進(jìn)行判斷,這會(huì)導(dǎo)致世界空間內(nèi)部分特征感知不到。例如在行車過(guò)程中,如果有行人正在穿過(guò)馬路,過(guò)程中被靜止的障礙物遮擋,而汽車僅有瞬時(shí)感知能力的話,由于在感知時(shí)刻行人正好被汽車遮擋了,則無(wú)法識(shí)別到行人,導(dǎo)致很大的安全風(fēng)險(xiǎn)。而人類司機(jī)在面對(duì)類似場(chǎng)景時(shí),則會(huì)根據(jù)之前時(shí)刻看到行人在穿越馬路的記憶,預(yù)測(cè)其當(dāng)前時(shí)刻有很大概率被汽車遮擋,且有繼續(xù)穿越馬路的意圖,從而選擇減速或者剎車避讓。因此自動(dòng)駕駛感知網(wǎng)絡(luò)也需要擁有類似的記憶能力,能夠記住之前某一時(shí)間段的數(shù)據(jù)特征,從而推演目前場(chǎng)景下可能性最大的結(jié)果,而不僅僅是基于當(dāng)前時(shí)刻看到的場(chǎng)景進(jìn)行判斷。為了解決這一問(wèn)題,特斯拉感知網(wǎng)絡(luò)架構(gòu)引入了時(shí)空序列特征層,通過(guò)使用具有時(shí)間維度的視頻片段而非靜態(tài)的圖像來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),為自動(dòng)駕駛增添了短時(shí)記憶能力。引入時(shí)空序列特征提取層以實(shí)現(xiàn)短時(shí)記憶能力特斯拉同時(shí)還引入了IMU傳感器獲取到的包含速度和加速度在內(nèi)的自車運(yùn)動(dòng)信息,結(jié)合三維向量空間特征,分別生成基于時(shí)間維度和基于空間維度的特征隊(duì)列,其中時(shí)間維度的特征隊(duì)列提供了感知在時(shí)間上的連續(xù)性,而空間特征隊(duì)列的意義是防止由于部分場(chǎng)景等待時(shí)間過(guò)長(zhǎng)導(dǎo)致的時(shí)序信息丟失,并利用三維卷積、Transfomer、RNN等方法實(shí)現(xiàn)時(shí)序信息融合,進(jìn)而得到多傳感器融合的視頻流時(shí)空特征空間。此外特斯拉還嘗試了一種新的時(shí)序信息融合方法——SpatialRNN,可以省略BEV層的位置編碼,直接將視覺(jué)特征喂給RNN網(wǎng)絡(luò),通過(guò)隱藏層保留多個(gè)時(shí)刻的狀態(tài)編碼,指導(dǎo)應(yīng)對(duì)當(dāng)前環(huán)境需要選取哪些記憶片段使用。短時(shí)記憶層無(wú)疑增加了特斯拉感知網(wǎng)絡(luò)的魯棒性,針對(duì)惡劣天氣、突發(fā)事件、遮擋場(chǎng)景等,都能保持良好的感知能力。以上便構(gòu)成了特斯拉的感知網(wǎng)絡(luò)架構(gòu),通過(guò)端到端的訓(xùn)練模型,從視頻數(shù)據(jù)輸入到向量空間輸出。據(jù)特斯拉AI技術(shù)總監(jiān)Karpathy介紹,基于以上架構(gòu)的特斯拉視覺(jué)感知體系,對(duì)于深度信息的感知能力甚至可以超過(guò)雷達(dá),同時(shí)由于具備短時(shí)記憶,特斯拉可以實(shí)現(xiàn)局部地圖的實(shí)時(shí)構(gòu)建,通過(guò)融合多個(gè)局部地圖,理論上可以得到任何一個(gè)區(qū)域的高精地圖,這也是特斯拉目前沒(méi)有采用高精地圖作為輸入原因。02規(guī)劃與控制人體在感知到周圍世界的信息后,會(huì)基于對(duì)這些信息的認(rèn)知做出相應(yīng)的判斷,來(lái)規(guī)劃自己的軀體應(yīng)該作何反應(yīng)并下發(fā)控制指令,汽車也是如此,在完成感知任務(wù)后下一步便是對(duì)感知到的信息做出決策方案,指導(dǎo)汽車完成相應(yīng)執(zhí)行動(dòng)作,這便是自動(dòng)駕駛的規(guī)劃與控制部分。特斯拉自動(dòng)駕駛規(guī)控的核心目標(biāo)是基于感知網(wǎng)絡(luò)輸出的三維向量空間,通過(guò)規(guī)劃汽車行為和行車路徑使汽車到達(dá)指定目的地,同時(shí)最大化確保行車安全性、效率性及舒適性。規(guī)控是一個(gè)非常復(fù)雜的問(wèn)題,一方面汽車的行為空間具有典型的非凸性,同一個(gè)目標(biāo)任務(wù)可能對(duì)應(yīng)非常多個(gè)解決方案,同時(shí)全局最優(yōu)解難以獲得,具體表現(xiàn)就是汽車可能由于陷入局部最優(yōu),無(wú)法快速做出準(zhǔn)確決策;另一方面行為空間具有多維性,要制定針對(duì)目標(biāo)任務(wù)的規(guī)劃方案需要在短時(shí)間內(nèi)快速產(chǎn)生速度、加速度等多個(gè)維度的參數(shù)。特斯拉采用的解決方案是將傳統(tǒng)規(guī)劃控制方法與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,構(gòu)建一套混合規(guī)劃系統(tǒng),以任務(wù)分解的方式分別解決上述兩大難題,其規(guī)劃控制邏輯如下圖所示。混合規(guī)劃系統(tǒng)解決方案在感知獲得的三維向量空間中,基于既定的目標(biāo)位置,先采用粗搜索的方式找到一條初步的路徑,然后根據(jù)安全性、舒適性等指標(biāo),圍繞初步路徑進(jìn)行優(yōu)化,對(duì)與障礙物間距、加速度等參數(shù)做持續(xù)微調(diào),最終獲得一條最優(yōu)的時(shí)空軌跡。在大部分結(jié)構(gòu)化場(chǎng)景下,例如高速公路等,粗搜索選取的是經(jīng)典的A-Star算法(啟發(fā)式搜索方法),但針對(duì)一些復(fù)雜的場(chǎng)景,例如鬧市中心、停車場(chǎng)等,由于場(chǎng)景中非結(jié)構(gòu)化元素比較多,搜索空間大,采用傳統(tǒng)A-Star算法消耗運(yùn)算節(jié)點(diǎn)過(guò)多,導(dǎo)致決策速度緩慢。由此特斯拉引入強(qiáng)化學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)的機(jī)制類似于人類學(xué)習(xí)模式,通過(guò)獎(jiǎng)賞正確的行為來(lái)引導(dǎo)人類習(xí)得某項(xiàng)能力,首先利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)全場(chǎng)景特點(diǎn)獲得價(jià)值函數(shù),然后通過(guò)MCTS算法(蒙特卡洛樹(shù)搜索)引導(dǎo)搜索路徑不斷靠攏價(jià)值函數(shù),這種方法可以大幅度減少搜索空間,有效提高決策實(shí)時(shí)性。MCTS算法規(guī)劃停車場(chǎng)行車路線而在行車過(guò)程中,會(huì)涉及與其他車輛的博弈問(wèn)題,例如變道過(guò)程、在狹窄路口錯(cuò)車場(chǎng)景,類似場(chǎng)景下一般需要根據(jù)對(duì)方車輛的反應(yīng)變化隨時(shí)調(diào)整自車的決策方案。因此除了單車規(guī)劃外,特斯拉還做了交通參與者聯(lián)合軌跡規(guī)劃,根據(jù)其他車的狀態(tài)參數(shù)(速度、加速度、角速度等)規(guī)劃其路徑,進(jìn)而選擇合適的自車方案,待其他車狀態(tài)發(fā)生變化后,隨時(shí)調(diào)整自車方案,盡量避免出現(xiàn)自車愣在原地不做反應(yīng)的情況,提升自車的smart性。狹窄路口聯(lián)合軌跡規(guī)劃至此,特斯拉FSD的最終架構(gòu)浮出水面,首先通過(guò)視覺(jué)感知網(wǎng)絡(luò)生成三維向量空間,對(duì)于僅有唯一解的問(wèn)題,可直接生成明確的規(guī)控方案,而對(duì)于有多個(gè)可選方案的復(fù)雜問(wèn)題,使用向量空間和感知網(wǎng)絡(luò)提取的中間層特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)規(guī)劃器,得到軌跡分布,再融入成本函數(shù)、人工干預(yù)數(shù)據(jù)或其他仿真模擬數(shù)據(jù),獲得最優(yōu)的規(guī)控方案,最終生成汽車轉(zhuǎn)向、加速、剎車等控制指令,由汽車執(zhí)行模塊接受控制指令實(shí)現(xiàn)汽車自動(dòng)駕駛。特斯拉FSD感知-規(guī)劃-控制整體架構(gòu)03數(shù)據(jù)標(biāo)注與仿真可以看到在特斯拉的自動(dòng)駕駛方案中,無(wú)論是在感知層面還是規(guī)控層面,核心算法基本都是由數(shù)據(jù)驅(qū)動(dòng)的,數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能,因此構(gòu)建一套高效獲取、標(biāo)注及仿真訓(xùn)練數(shù)據(jù)的閉環(huán)至關(guān)重要。數(shù)據(jù)標(biāo)注特斯拉每年售出近百萬(wàn)輛汽車,通過(guò)這些汽車日常運(yùn)行,可以采集到超大規(guī)模的原始數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集的標(biāo)注工作特斯拉最早是外包給合作方,后來(lái)發(fā)現(xiàn)存在交付延遲和質(zhì)量不高的情況,因此便在內(nèi)部發(fā)展了上千人的標(biāo)注團(tuán)隊(duì)并獨(dú)立開(kāi)發(fā)標(biāo)注基礎(chǔ)設(shè)施。特斯拉的標(biāo)注最初是在二維圖像中進(jìn)行的,后來(lái)發(fā)展為四維實(shí)現(xiàn),除了標(biāo)注三維空間外還有對(duì)時(shí)間維度的標(biāo)注,直接在向量空間中完成標(biāo)注后再反向投影到攝像頭對(duì)應(yīng)的圖像空間中。特斯拉的四維標(biāo)注隨著數(shù)據(jù)規(guī)模的逐漸擴(kuò)大,人工標(biāo)注的方式需要消耗大量人力成本,同時(shí)人類相對(duì)更擅長(zhǎng)語(yǔ)義分割之類的標(biāo)注任務(wù),對(duì)于幾何圖形的標(biāo)注,反倒是機(jī)器更擅長(zhǎng),因此特斯拉引入了自動(dòng)標(biāo)注的方法,實(shí)現(xiàn)人工與機(jī)器相結(jié)合的數(shù)據(jù)標(biāo)注模式。特斯拉實(shí)現(xiàn)自動(dòng)標(biāo)注的方案是通過(guò)汽車在一段時(shí)間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構(gòu)成最小標(biāo)注單元(Clip),由離線神經(jīng)網(wǎng)絡(luò)系統(tǒng)訓(xùn)練得到中間層結(jié)果,如目標(biāo)物、語(yǔ)義分割、深度、光流等,再通過(guò)大量機(jī)器算法生成最終用以訓(xùn)練的標(biāo)簽集,包括行車軌跡、靜態(tài)環(huán)境重建、動(dòng)態(tài)物、運(yùn)動(dòng)學(xué)參數(shù)等,人工可以對(duì)自動(dòng)生成的標(biāo)簽集進(jìn)行調(diào)整干預(yù)。自動(dòng)標(biāo)注方案實(shí)現(xiàn)過(guò)程對(duì)于靜態(tài)標(biāo)注物,例如對(duì)于某一段道路的標(biāo)注,以攝像頭采集到的路面每個(gè)點(diǎn)的平面坐標(biāo)作為輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出這個(gè)點(diǎn)的高度及相關(guān)的語(yǔ)義分割、道路線邊界等三維中間結(jié)果,然后將這個(gè)三維點(diǎn)反向投影至各個(gè)攝像頭的二維空間,并將其與原本在二維圖像空間內(nèi)直接做語(yǔ)義分割的結(jié)果進(jìn)行對(duì)比,再基于各個(gè)攝像頭的對(duì)比結(jié)果進(jìn)行跨時(shí)空維度的聯(lián)合優(yōu)化實(shí)現(xiàn)重建,最終得到整個(gè)道路在各攝像機(jī)畫(huà)面內(nèi)及視頻前后幀時(shí)間序列中的一致性標(biāo)注結(jié)果。通過(guò)不同輛車不同時(shí)間經(jīng)過(guò)同一路段采集到的視頻數(shù)據(jù),按照上述方法進(jìn)行自動(dòng)標(biāo)注,再將所有標(biāo)注結(jié)果進(jìn)行融合后優(yōu)化,得到該路段的精確標(biāo)注結(jié)果,實(shí)現(xiàn)道路重建。自動(dòng)標(biāo)注實(shí)現(xiàn)道路重建通過(guò)這種方式,不僅可以重建道路,還可以重建墻體、屏障、建筑物等所有靜態(tài)環(huán)境物。對(duì)于動(dòng)態(tài)標(biāo)注物,核心是要標(biāo)注其運(yùn)動(dòng)學(xué)參數(shù)及行為軌跡預(yù)測(cè),通過(guò)不同車輛在同一路段采集的含時(shí)間序列的視頻標(biāo)注單元,我們不僅可以知道每個(gè)標(biāo)注物過(guò)去時(shí)刻的信息,還可以知道未來(lái)時(shí)刻的信息,因此可以輕易獲取每個(gè)動(dòng)態(tài)標(biāo)注物運(yùn)動(dòng)軌跡和參數(shù)的“真值”,即使被遮擋的運(yùn)動(dòng)物體也可以標(biāo)注出來(lái)。動(dòng)態(tài)物體自動(dòng)標(biāo)注通過(guò)對(duì)靜態(tài)物體和動(dòng)態(tài)物體分別標(biāo)注,最終得到一個(gè)最小標(biāo)注單元的完整標(biāo)注結(jié)果,如下圖所示。自動(dòng)標(biāo)注實(shí)現(xiàn)Clip的完整標(biāo)注可以看到,只需要汽車在路上行駛采集到的數(shù)據(jù)作為輸入,然后運(yùn)行標(biāo)注模型,再將結(jié)果進(jìn)行融合優(yōu)化,便可以得到任意場(chǎng)景的標(biāo)注結(jié)果,全過(guò)程自動(dòng)實(shí)現(xiàn),無(wú)人工參與。一萬(wàn)個(gè)標(biāo)注單元在一周內(nèi)即可完成自動(dòng)化標(biāo)注,而純?nèi)斯?biāo)注則需要幾個(gè)月的時(shí)間,自動(dòng)標(biāo)注大大提升了標(biāo)注效率。仿真由于路測(cè)條件的限制,導(dǎo)致積累數(shù)據(jù)和訓(xùn)練算法的效率偏低且成本高昂,為了更高效的實(shí)現(xiàn)數(shù)據(jù)訓(xùn)練,特斯拉構(gòu)建了一個(gè)真實(shí)世界的虛擬仿真空間,來(lái)加速FSD能力的訓(xùn)練,仿真對(duì)于實(shí)現(xiàn)完全自動(dòng)駕駛的價(jià)值如今在行業(yè)內(nèi)已經(jīng)普遍被認(rèn)可。自動(dòng)駕駛的仿真是在模擬環(huán)境中,通過(guò)調(diào)整各類交通參與物及環(huán)境的模型參數(shù)以構(gòu)建各種虛擬場(chǎng)景,以訓(xùn)練算法應(yīng)對(duì)不同場(chǎng)景的性能。特斯拉仿真場(chǎng)景其價(jià)值主要體現(xiàn)在以下幾個(gè)方面:1、通過(guò)仿真可以建立在現(xiàn)實(shí)世界中難以遇到的極端場(chǎng)景(cornercase),例如高速公路上一家三口在跑步的場(chǎng)景,類似的場(chǎng)景雖然在現(xiàn)實(shí)世界中存在的可能性極低,但考慮到自動(dòng)駕駛的安全性,必須掌握應(yīng)對(duì)此種極端場(chǎng)景的能力,因此可以在仿真環(huán)境下進(jìn)行模擬訓(xùn)練;2、針對(duì)部分復(fù)雜場(chǎng)景難以直接標(biāo)注的情況,可以通過(guò)仿真進(jìn)行快速標(biāo)注,例如在一個(gè)路況復(fù)雜的十字路口有各種川流不息的汽車、行人,由于元素眾多,要直接進(jìn)行標(biāo)注難度很大,而在仿真場(chǎng)景中,由于所有的元素的初始參數(shù)都是自行設(shè)定的,因此在模擬復(fù)雜的運(yùn)動(dòng)狀態(tài)時(shí),所需要標(biāo)注的參數(shù)很容易就可以通過(guò)計(jì)算得到,以此實(shí)現(xiàn)快速標(biāo)注;3、仿真為規(guī)控算法的訓(xùn)練和驗(yàn)證提供了一個(gè)安全的環(huán)境,考慮汽車駕駛安全問(wèn)題的重要性,自動(dòng)駕駛規(guī)控算法訓(xùn)練和優(yōu)化過(guò)程難以通過(guò)實(shí)際路測(cè)實(shí)現(xiàn),在仿真場(chǎng)景中便具有非常高的自由度;4、可以用以某些閉環(huán)場(chǎng)景算法的長(zhǎng)期持續(xù)訓(xùn)練,例如泊車場(chǎng)景,這個(gè)場(chǎng)景下空間是閉環(huán)的,參與者有限,因此通過(guò)仿真持續(xù)模擬各種工況,可以有效地對(duì)自動(dòng)駕駛泊車能力進(jìn)行訓(xùn)練;5、對(duì)于現(xiàn)實(shí)世界中FSD失敗的場(chǎng)景,可以通過(guò)仿真重現(xiàn)失敗場(chǎng)景,在仿真環(huán)境中尋找失敗原因并進(jìn)行算法訓(xùn)練和優(yōu)化。一套完整的仿真體系需要包括仿真場(chǎng)景、仿真系統(tǒng)和仿真評(píng)估三大部分,這里僅介紹特斯拉在仿真場(chǎng)景層面所做的工作。自動(dòng)駕駛的實(shí)現(xiàn)首先是基于感知能力,因此對(duì)感知系統(tǒng)的準(zhǔn)確仿真非常關(guān)鍵,特斯拉的感知系統(tǒng)是基于純攝像頭,因此對(duì)攝像頭的各種屬性進(jìn)行軟硬件建模,如傳感器噪聲、曝光時(shí)間、光圈大小、運(yùn)動(dòng)模糊、光學(xué)畸變等,甚至對(duì)于擋風(fēng)玻璃上的衍射斑這種細(xì)節(jié),特斯拉也考慮在內(nèi),這套準(zhǔn)確的傳感器仿真系統(tǒng)不僅可以用以FSD的訓(xùn)練和驗(yàn)證,還可以指導(dǎo)攝像頭的硬件選型和設(shè)計(jì)。準(zhǔn)確的傳感器仿真為了真實(shí)的模擬現(xiàn)實(shí)世界場(chǎng)景,要求仿真渲染要盡可能做到逼真,特斯拉利用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)來(lái)提升視覺(jué)渲染效果,同時(shí)用光線追蹤的方法來(lái)模擬逼真的光照效果。逼真的視覺(jué)渲染為了避免仿真環(huán)境過(guò)于單一,導(dǎo)致感知系統(tǒng)過(guò)擬合的問(wèn)題,特斯拉對(duì)仿真環(huán)境參與物進(jìn)行了充分的建模,包括多元交通參與者(例如車、行人等)和靜態(tài)環(huán)境物(例如建筑、樹(shù)、道路等)等,截至最新TeslaAIDay公開(kāi)的信息,特斯拉總共已經(jīng)繪制了2000+公里的道路環(huán)境。多元交通參與者與地理位置針對(duì)自動(dòng)駕駛可能遇到的各種場(chǎng)景,構(gòu)建了大規(guī)模的可擴(kuò)展場(chǎng)景庫(kù),由計(jì)算機(jī)通過(guò)調(diào)整參數(shù)生成不同的場(chǎng)景形態(tài),例如道路曲度等,同時(shí)由于大量的仿真場(chǎng)景可能是無(wú)用的,例如實(shí)際該場(chǎng)景下汽車的決策已經(jīng)正確,為了避免計(jì)算資源的浪費(fèi),特斯拉還引入了MLB等神經(jīng)網(wǎng)絡(luò)用來(lái)尋找故障點(diǎn),重點(diǎn)圍繞故障點(diǎn)進(jìn)行仿真數(shù)據(jù)創(chuàng)建,反哺實(shí)際規(guī)劃網(wǎng)絡(luò),形成閉環(huán)。大規(guī)模場(chǎng)景生成除了直接在虛擬場(chǎng)景中進(jìn)行仿真訓(xùn)練,特斯拉還希望可以在仿真環(huán)境中重現(xiàn)真實(shí)世界場(chǎng)景,以便可以復(fù)現(xiàn)FSD失敗的場(chǎng)景,實(shí)現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車算法模型,實(shí)現(xiàn)“數(shù)據(jù)閉環(huán)”,因此在完成真實(shí)世界片段的自動(dòng)標(biāo)注重建后,再疊加視覺(jué)圖像信息,生成與真實(shí)世界“孿生”的虛擬世界。場(chǎng)景重現(xiàn)特斯拉通過(guò)仿真獲得的虛擬數(shù)據(jù)規(guī)模已達(dá)到37.1億張圖片及4.8億標(biāo)注,且已實(shí)際融入車端模型中,用以提升FSD性能。04算力上面對(duì)特斯拉自動(dòng)駕駛所采用的算法架構(gòu)和數(shù)據(jù)閉環(huán)進(jìn)行了介紹,而超大規(guī)模的數(shù)據(jù)和高性能的算法均需要強(qiáng)大的算力支撐,特斯拉為此自研打造了服務(wù)于自動(dòng)駕駛的全球最強(qiáng)超級(jí)計(jì)算機(jī)——Dojo。Dojo是一種通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)連接的分布式計(jì)算架構(gòu),具有大型計(jì)算平面、極高帶寬、低延遲、可擴(kuò)展性極強(qiáng)等特點(diǎn),去年8月的AIDay,特斯拉公布了為Dojo超算打造的自研AI訓(xùn)練芯片D1。Dojo
D1芯片D1芯片采用分布式結(jié)構(gòu)和7納米制造工藝,單片面積僅645平方毫米,具有500億個(gè)晶體管和354個(gè)訓(xùn)練節(jié)點(diǎn),內(nèi)部電路長(zhǎng)達(dá)17.7公里,單片F(xiàn)P32算力可達(dá)22.6TOPs,BF16算力可達(dá)362TOPs,1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)操作,同時(shí)具有GPU級(jí)的計(jì)算能力和CPU的連接能力,I/O帶寬是最先進(jìn)的網(wǎng)絡(luò)芯片的2倍。同時(shí)D1芯片之間可以實(shí)現(xiàn)無(wú)縫連接,特斯拉將25個(gè)D1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院住院樓混凝土施工承包合同
- 生態(tài)農(nóng)業(yè)管理創(chuàng)新技巧
- 企業(yè)資金管理辦法:資金結(jié)構(gòu)調(diào)整
- 鋼鐵冶煉工程招投標(biāo)實(shí)施策略
- 2024年鏟車節(jié)能減排協(xié)議3篇
- 2024展廳裝飾裝修承包合同(含展品保管與維護(hù))3篇
- 2024年度趙苑離婚協(xié)議中子女探望權(quán)及監(jiān)護(hù)權(quán)協(xié)議書(shū)3篇
- 社會(huì)工作教師聘用協(xié)議
- 施工協(xié)議書(shū)與材料質(zhì)量
- 2025版口腔醫(yī)療機(jī)構(gòu)聘用口腔外科醫(yī)生服務(wù)協(xié)議3篇
- 期末測(cè)試卷(一)2024-2025學(xué)年 人教版PEP英語(yǔ)五年級(jí)上冊(cè)(含答案含聽(tīng)力原文無(wú)聽(tīng)力音頻)
- 2023-2024學(xué)年廣東省深圳市南山區(qū)八年級(jí)(上)期末英語(yǔ)試卷
- 期末 (試題) -2024-2025學(xué)年人教PEP版(2024)英語(yǔ)三年級(jí)上冊(cè)
- 漢服娃衣創(chuàng)意設(shè)計(jì)與制作智慧樹(shù)知到期末考試答案章節(jié)答案2024年四川文化產(chǎn)業(yè)職業(yè)學(xué)院
- 《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)
- 廣東省中山市2023-2024學(xué)年四年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 8款-組織架構(gòu)圖(可編輯)
- 海螺牌水泥質(zhì)量檢驗(yàn)報(bào)告28天報(bào)告425加章2015
- 云南省教育科學(xué)規(guī)劃課題開(kāi)題報(bào)告 - 云南省教育科學(xué)研究院
- 二年級(jí)上,數(shù)學(xué),3個(gè)兩位數(shù)加減,80題,(豎式計(jì)算)
- 人民法院涉訴信訪案件終結(jié)辦法
評(píng)論
0/150
提交評(píng)論