2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術(shù)原理及未來展望分析報告_第1頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術(shù)原理及未來展望分析報告_第2頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術(shù)原理及未來展望分析報告_第3頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術(shù)原理及未來展望分析報告_第4頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術(shù)原理及未來展望分析報告_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2024年深度行業(yè)分析研究報告 32概覽:軟硬件全鏈路閉環(huán)全棧自研構(gòu)筑強(qiáng)大技術(shù)基石 52.1發(fā)展歷程:軟硬件持續(xù)迭代由外部合作到全棧自研 2.2系統(tǒng)架構(gòu):軟硬件全鏈路閉環(huán)實現(xiàn)高度集成 3算法端:創(chuàng)新算法優(yōu)化實現(xiàn)高效神經(jīng)網(wǎng)絡(luò)推理 83.1感知:先進(jìn)感知技術(shù),確保精準(zhǔn)環(huán)境理解和物體識別 3.2規(guī)劃:采用交互搜索框架快速選擇最優(yōu)方案 4算力端:Dojo超級算力支撐保持能效比優(yōu)勢 214.1Dojo系統(tǒng):特斯拉自研超算平臺研發(fā)進(jìn)展迅猛 214.2D1芯片:基于存算一體架構(gòu)實現(xiàn)高效數(shù)據(jù)傳輸 244.3瓦片集群:由基本單元出發(fā)構(gòu)成大規(guī)模算力集群 264.4軟件系統(tǒng):采用高效同步機(jī)制性能較GPU大幅提升 275芯片端:自研FSD芯片集成高效計算能力 5.1硬件架構(gòu):由合作邁向自研運算性能強(qiáng)大 305.2編譯推理:高效優(yōu)化最大化計算資源利用 346數(shù)據(jù)端:自動化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動訓(xùn)練 6.1自動標(biāo)注:自動化4D標(biāo)簽生成提升標(biāo)注效率 366.2仿真模擬:構(gòu)建虛擬場景優(yōu)化算法表現(xiàn) 396.3數(shù)據(jù)引擎:集成多源數(shù)據(jù)加速模型訓(xùn)練 427端到端架構(gòu):FSDV12引領(lǐng)實現(xiàn)感知決策一體化 467.1特斯拉的AI關(guān)鍵時刻:FSDV12首次實現(xiàn)端到端V13即將推出 467.2大模型成就端到端自動駕駛推動感知決策一體化 487.3端到端架構(gòu)演進(jìn):感知端到端到OneModel端到端 49插圖目錄 3表格目錄 4插圖目錄圖1:2013年9月,馬斯克在Twitter中首次提到AP 圖2:特斯拉自動駕駛系統(tǒng)發(fā)展歷程 圖3:FSD累計行駛里程 圖4:FSD訂閱價格降至99美元/月 圖5:特斯拉FSD系統(tǒng)架構(gòu) 圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構(gòu) 圖7:圖像空間預(yù)測投射到向量空間后出現(xiàn)較大偏差 圖8:單相機(jī)檢測無法解決物體橫跨多相機(jī)的問題 圖9:BEV視角融合了多個攝像頭的視頻數(shù)據(jù) 圖10:Transformer是實現(xiàn)二維到三維變換的核心 圖11:通過圖像校準(zhǔn)解決攝像頭采集數(shù)據(jù)偏差問題 圖12:加入虛擬標(biāo)準(zhǔn)攝像頭以校準(zhǔn)圖像數(shù)據(jù)偏差 圖13:感知網(wǎng)絡(luò)仍是對瞬時圖像片段進(jìn)行感知 圖14:特斯拉引入時空序列特征層 圖15:特征序列模塊可以緩存時序與空間特征 圖16:隱狀態(tài)可組織成二維網(wǎng)格 圖17:空間RNN的隱狀態(tài)可包含多個通道 圖18:OccupancyNetwork對正在啟動的兩節(jié)公交車運動狀態(tài)進(jìn)行精準(zhǔn)捕捉 圖19:OccupancyNetwork能夠生成可行使表面 圖20:基于Attention機(jī)制的OccupancyNetwork占用網(wǎng)絡(luò) 圖21:LanesNetwork旨在生成車道與連接信息 圖22:特斯拉采用低精度地圖對視覺表示進(jìn)行增強(qiáng) 圖23:LanesNetwork工作原理 圖24:稀疏化處理可使神經(jīng)網(wǎng)絡(luò)專注于計算最重要的區(qū)域 圖25:效率、安全和舒適是自動駕駛規(guī)劃的三大目標(biāo) 圖26:非凸性和高維性是自動駕駛規(guī)劃的兩大難點 圖27:特斯拉將規(guī)劃問題進(jìn)行分層分解 圖28:自動駕駛系統(tǒng)需要實現(xiàn)多代理聯(lián)合軌跡規(guī)劃 圖29:自動駕駛行駛方案評估至少需要10毫秒 圖30:特斯拉采用交互搜索框架,實現(xiàn)實時方案評估 20圖31:特斯拉Dojo發(fā)展歷程 21圖32:特斯拉Dojo算力規(guī)劃 22圖33:Dojo超級計算機(jī)三大目標(biāo) 23圖34:Dojo系統(tǒng)二維網(wǎng)格結(jié)構(gòu) 23圖35:Dojo訓(xùn)練節(jié)點架構(gòu) 24圖36:D1芯片結(jié)構(gòu) 24圖37:D1芯片計算陣列 25圖38:D1芯片串行器/解串器分布 25圖39:特斯拉Dojo指令集 25圖40:計算平面兩端各放置了一個接口處理器 26圖41:Dojo接口處理器連接在系統(tǒng)托盤下方 26圖42:訓(xùn)練瓦片上集成了25個D1芯片 27圖43:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布 27圖44:Dojo訓(xùn)練機(jī)柜中集成了兩個系統(tǒng)托盤 27圖45:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布 27圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定 28圖47:多加速器運行批量歸一化會導(dǎo)致前向傳播延遲 28圖48:Dojo系統(tǒng)使用高效同步機(jī)制,實現(xiàn)內(nèi)部單元協(xié)作 28圖49:自動標(biāo)注與占用網(wǎng)絡(luò)占特斯拉GPU使用量一半 29圖50:Dojo處理自動標(biāo)注與占用網(wǎng)絡(luò)速度大幅提升 29圖51:特斯拉FSD雙芯片系統(tǒng)設(shè)計 31圖52:特斯拉FSD芯片發(fā)展歷程 32圖53:特斯拉FSD芯片架構(gòu) 33圖54:汽車中在同時運行很多架構(gòu)、模塊和網(wǎng)絡(luò) 34圖55:神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器架構(gòu) 34圖56:特斯拉混合調(diào)度系統(tǒng)架構(gòu) 35圖57:特斯拉數(shù)據(jù)標(biāo)注發(fā)展歷程 37圖58:基于2D圖像進(jìn)行標(biāo)注 37圖59:在BEV空間下進(jìn)行4D自動標(biāo)注 37圖60:特斯拉4D自動標(biāo)注流程 38圖61:4D自動標(biāo)注的三個關(guān)鍵步驟 39圖62:特斯拉仿真模擬流程包含五大關(guān)鍵步驟 40圖63:通過自動化標(biāo)簽生成道路網(wǎng)格和車道 41圖64:以隨機(jī)化啟發(fā)式規(guī)則生成外部世界 41圖65:特斯拉仿真世界創(chuàng)建流程 42圖66:特斯拉數(shù)據(jù)引擎示意圖 43圖67:特斯拉FSD用戶的累計行駛里程已超過13億英里 44圖68:自成閉環(huán)的數(shù)據(jù)引擎能夠更好地優(yōu)化神經(jīng)網(wǎng)絡(luò) 45圖69:馬斯克強(qiáng)調(diào):FSDv12運行速度快了10倍,可以替代30萬行代碼 47圖70:特斯拉FSD發(fā)展路線圖 48圖71:多模塊化方案VS端到端方案 49圖72:自動駕駛架構(gòu)演進(jìn)示意圖 表格目錄表1:Dojo算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級 23表2:特斯拉自動駕駛硬件平臺不同版本對比 31表3:FSD芯片1.0和2.0性能對比 33本報告為特斯拉FSD專題報告,從算法端、算力端、芯片端、數(shù)據(jù)端四個層面出發(fā),對FSD系統(tǒng)底層技術(shù)原理進(jìn)行全面深度拆解,并結(jié)合端到端架構(gòu)演進(jìn)趨勢,對FSD系統(tǒng)的最新發(fā)展變化進(jìn)行梳理,對板塊后續(xù)核心催化進(jìn)行展望。FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動駕駛軟硬件架構(gòu),在算法、算力、數(shù)據(jù)、芯片等層面實現(xiàn)了高度集成:1)算法端:感知規(guī)劃算法全棧自研,實現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為對周圍環(huán)境的準(zhǔn)確3D感知。而后,特斯拉將該架構(gòu)升級為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準(zhǔn)識別物體運動狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務(wù)分解的方式對一系列可能的行駛軌跡進(jìn)行研究,實現(xiàn)對規(guī)劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進(jìn)行高階智駕能力輸出,快速實現(xiàn)自動駕駛算法優(yōu)化迭代。2)算力端:從0到1構(gòu)建超級計算機(jī)系統(tǒng),為遠(yuǎn)期算力提供強(qiáng)大支撐。特斯拉從算力芯片開始,完整構(gòu)建Dojo超級計算機(jī)系統(tǒng),以處理自動駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓(xùn)練計算機(jī),采用分布式計算架構(gòu)設(shè)計,算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級,實現(xiàn)從訓(xùn)練節(jié)點到訓(xùn)練集群的完整構(gòu)建。特斯拉從0到1構(gòu)建超級計算機(jī)系統(tǒng),旨在擺脫對英偉達(dá)GPU的依賴,為遠(yuǎn)期算力瓶頸進(jìn)行前瞻布局。3)芯片端:由合作邁向自研,實現(xiàn)高性能算力集成。特斯拉自動駕駛硬件平臺初期與Mobileye、英偉達(dá)等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉(zhuǎn)向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件——AI5,預(yù)計將于2025年下半年投產(chǎn)。FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計提升自動駕駛功能安全冗余。特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進(jìn)行更好的整合,從而實現(xiàn)更優(yōu)的系統(tǒng)性能。4)數(shù)據(jù)端:高效自動標(biāo)注+構(gòu)建仿真場景,實現(xiàn)數(shù)據(jù)驅(qū)動訓(xùn)練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動標(biāo)注系統(tǒng),能夠在12小時內(nèi)自動標(biāo)注一萬個駕駛旅程,可抵充500萬個小時的人工標(biāo)注工作,極大提高了標(biāo)注效率。仿真模擬則可以提供現(xiàn)實世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。結(jié)合真實數(shù)據(jù)和標(biāo)簽,以及仿真和手動校準(zhǔn)的數(shù)據(jù),特斯拉形成綜合訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實現(xiàn)自動駕駛系統(tǒng)的持續(xù)優(yōu)化。FSD技術(shù)端快速進(jìn)化,V12為首個端到端自動駕駛系統(tǒng),能夠模擬人類駕駛行為,實現(xiàn)感知決策一體化。特斯拉FSDv12于2023年底推出,采用端到端大模型,消除了自動駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個大的神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準(zhǔn)確性。特斯拉FSD快速進(jìn)化,V13即將10月推出,有望于2025年Q1進(jìn)入中國和歐洲,智能駕駛拐點已至?!癢e,Robot”發(fā)布會即將開幕,有望成為智駕板塊強(qiáng)勁催化。特斯拉將于北京時間10月11日在美國洛杉磯發(fā)布新品,活動主題口號為“We,Robot”。特斯拉Robotaxi即將正式推出,有望成為特斯拉發(fā)展歷程重要里程碑,并與FSDV13發(fā)布形成共振,共同成為板塊強(qiáng)勁催化。本篇報告與市場不同之處:1)從算法端、算力端、芯片端、數(shù)據(jù)端四個層面出發(fā),對FSD系統(tǒng)底層技術(shù)原理進(jìn)行全面深度拆解;2)結(jié)合FSDV12系統(tǒng)發(fā)展路徑,對感知端到端到OneModel端到端的技術(shù)架構(gòu)演進(jìn)趨勢展開研究,探析自動駕駛領(lǐng)域全新發(fā)展路徑;3)對特斯拉FSD的未來發(fā)展路徑進(jìn)行分析,判斷特斯拉自動駕駛的重要技術(shù)發(fā)展節(jié)點,并對未來智駕板塊的潛在事件催化進(jìn)行展望。2概覽:軟硬件全鏈路閉環(huán)全棧自研構(gòu)筑強(qiáng)大技術(shù)基石特斯拉自動駕駛系統(tǒng)發(fā)展始于2013年,初期采用外部合作方式。2013年9月,馬斯克在推特上首次提到AP(Autopilot系統(tǒng)),表示特斯拉正在進(jìn)行自動駕駛領(lǐng)域的探索。2014年10月,特斯拉與視覺處理芯片獨角獸公司Mobileye進(jìn)行合作,正式推出第一代Autopilot硬件(HW1.0),率先搭載于ModelS。在未來一年多的時間里,特斯拉通過OTA不斷更新固件,使車輛獲得更完善的駕駛輔助或自動駕駛功能。2016年10月,特斯拉推出第二代Autopilot硬件(HW2.0),采用了英偉達(dá)的DRIVEPX2平臺,硬件平臺進(jìn)一步升級。圖1:2013年9月,馬斯克在Twitter中首次提到AP資料來源:界面新聞,民生證券研究院2019年4月,特斯拉推出HW3.0,正式開啟全棧自研。HW3.0放棄了英偉達(dá)的DRIVEPX2平臺,轉(zhuǎn)而采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫。2021年7月,特斯拉開始推送FSDBetaV9,該版本采用純視覺自動駕駛方案,摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá),是特斯拉在自動駕駛技術(shù)的重要發(fā)展節(jié)點。2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個視頻片段訓(xùn)練而成,取代了超過30萬行的C++代碼。2024年2月,特斯拉ModelY迎來HW4.0自動輔助駕駛硬件升級,與HW3.0相比,HW4.0算力提升5倍,在硬件設(shè)計上實現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專用加速器集成等多項創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動駕駛技術(shù),特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。圖2:特斯拉自動駕駛系統(tǒng)發(fā)展歷程FSD累計行駛里程快速增長,商業(yè)化拐點已至。2024年4月12日,為降低FSD體驗門檻,吸引更多人訂閱,特斯拉FSD推出單月付費優(yōu)惠,價格從199美元/月調(diào)降50%至99美元/月,F(xiàn)SD買斷價格維持1.2萬美元不變。FSDV12版本更新、訂閱價格下降,共同驅(qū)動FSD累計行駛歷程數(shù)快速增長,截至2024年8月7日,F(xiàn)SD累計行駛里程達(dá)1.6億公里,商業(yè)化拐點已至。圖3:FSD累計行駛里程圖4:FSD訂閱價格降至99美元/月資料來源:阿爾法工廠研究院,民生證券研究院FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動駕駛軟硬件架構(gòu),在算法、算力、數(shù)據(jù)、芯片等層面實現(xiàn)了高度集成。FSD架構(gòu)在TeslaAIDay2022完整提出,核心組件包括規(guī)劃(Planning)、神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)、訓(xùn)練數(shù)據(jù)(TrainingData)、訓(xùn)練基礎(chǔ)設(shè)施(TrainingInfra)、AI編譯與推理(AICompiler&Inference)等。FSD核心組件在算法端、算力端、數(shù)據(jù)端和硬件端展現(xiàn)出強(qiáng)大的整合能力:1)算法端,規(guī)劃組件專注于解決復(fù)雜的多物體關(guān)聯(lián)路徑規(guī)劃問題,通過精確處理自我車輛與周圍所有對象的行進(jìn)軌跡,為汽車提供執(zhí)行動作的指導(dǎo)。同時,神經(jīng)網(wǎng)絡(luò)則利用視頻流等信息,輸出車輛的運動學(xué)狀態(tài),如位置、速度、加速度等,以實現(xiàn)精確控制。2)算力端,訓(xùn)練基礎(chǔ)設(shè)施提供了強(qiáng)大的計算支持,包括CPU、GPU和神經(jīng)網(wǎng)絡(luò)加速器單元(NeuralNetworkAccelerator)。這些硬件資源通過AI編譯器的優(yōu)化,能夠高效地支持神經(jīng)網(wǎng)絡(luò)所需的新操作,并映射到最合適的硬件上,從而提升整體的計算效率。3)芯片端,AI編譯與推理組件確保了神經(jīng)網(wǎng)絡(luò)能夠在計算機(jī)上高效運行。通過將神經(jīng)網(wǎng)絡(luò)的執(zhí)行分配到兩個獨立的芯片系統(tǒng)上,F(xiàn)SD實現(xiàn)了高性能的并行計算,進(jìn)一步提升了自動駕駛系統(tǒng)的響應(yīng)速度和處理能力。4)數(shù)據(jù)端,訓(xùn)練數(shù)據(jù)通過4D自動標(biāo)注技術(shù)、模擬仿真和數(shù)據(jù)引擎,實現(xiàn)了數(shù)據(jù)的自動化和精準(zhǔn)化處理,形成了一個閉環(huán)的數(shù)據(jù)系統(tǒng),為算法的訓(xùn)練和優(yōu)化提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。圖5:特斯拉FSD系統(tǒng)架構(gòu)3算法端:創(chuàng)新算法優(yōu)化實現(xiàn)高效神經(jīng)網(wǎng)絡(luò)推理感知規(guī)劃算法全棧自研,實現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為對周圍環(huán)境的準(zhǔn)確3D感知。而后,特斯拉將該架構(gòu)升級為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準(zhǔn)識別物體運動狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務(wù)分解的方式對一系列可能的行駛軌跡進(jìn)行研究,實現(xiàn)對規(guī)劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進(jìn)行高階智駕能力輸出,快速實現(xiàn)自動駕駛算法優(yōu)化迭代。特斯拉視覺感知系統(tǒng)采用HydraNets架構(gòu),以標(biāo)準(zhǔn)化流程進(jìn)行視覺信息處理。1)Input。首先,系統(tǒng)接收來自攝像頭的原始視覺數(shù)據(jù),每個攝像頭采集分辨率為1280×960、36hz、12bit的視頻圖像;2)Backbone。用于提取圖像特征,特斯拉主要采用由RegNets(ResidualNeuralNetworks,殘差神經(jīng)網(wǎng)絡(luò))組成的特征網(wǎng)絡(luò)結(jié)構(gòu),能夠通過不同層次的特征提取,捕捉圖像的細(xì)節(jié)以及整體上下文信息;3)Neck。用于提取更復(fù)雜的特征,特斯拉采用BiFPNs(Bi-directionalFeaturePyramidNetworks,雙向特征金字塔網(wǎng)絡(luò)),通過引入雙向信息流,實現(xiàn)多個尺度之間信息交流共享,增強(qiáng)了對多尺度目標(biāo)的檢測性能;4)Head。由多個TaskSpecificHeads組成,負(fù)責(zé)最終的檢測任務(wù),如物體檢測、交通信號和車道識別等。HydraNets架構(gòu)能夠?qū)崿F(xiàn)特征共享、任務(wù)解耦與特征緩存。1)特征共享。HydraNets通過共享Backbone和BiFPNs特征金字塔網(wǎng)絡(luò),減少了重復(fù)計算工作;2)任務(wù)解耦。每個子任務(wù)在主干網(wǎng)絡(luò)上獨立工作和微調(diào),而不影響其他子任務(wù),從而可以在不影響其他任務(wù)的情況下,單獨對某個任務(wù)的數(shù)據(jù)集或頭部架構(gòu)進(jìn)行更改和優(yōu)化;3)特征緩存。HydraNets可以緩存多尺度級別特征,在進(jìn)行微調(diào)工作流程時,可以只使用這些緩存的特征來微調(diào)模型的頭部,而無需重復(fù)計算整個圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構(gòu)特斯拉早期方案為先在二維圖像空間實現(xiàn)感知,再投射至三維向量空間。攝像頭采集到的數(shù)據(jù)為2D圖像級,與現(xiàn)實世界不在一個維度,因此要實現(xiàn)完全自動駕駛能力,則需要將二維數(shù)據(jù)變換至三維空間。特斯拉早期采取的方案是先在二維圖像空間(ImageSpace)實現(xiàn)感知,將其投射至三維向量空間(VectorSpace),再將所有攝像頭的結(jié)果進(jìn)行融合,但該方法需要對每個像素的信息進(jìn)行精準(zhǔn)深度預(yù)測,難度極大。此外,該方法無法對被遮擋的區(qū)域進(jìn)行預(yù)測,因此如果物體橫跨多個攝像頭,且沒有任何攝像頭能夠檢測到物體全貌,則難以對多個攝像頭采集到的信息進(jìn)行準(zhǔn)確融合,從而無法對物體進(jìn)行準(zhǔn)確預(yù)測。圖7:圖像空間預(yù)測投射到向量空間后出現(xiàn)較大偏差圖8:單相機(jī)檢測無法解決物體橫跨多相機(jī)的問題特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為3D感知。為了構(gòu)建三維向量空間,網(wǎng)絡(luò)需要進(jìn)行物體深度信息輸出。大部分自動駕駛公司的方案是采用激光雷達(dá)、毫米波雷達(dá)等傳感器來獲取深度信息,與視覺感知結(jié)果進(jìn)行融合,而特斯拉堅持使用純視覺視頻數(shù)據(jù)來計算深度信息,在網(wǎng)絡(luò)結(jié)構(gòu)中引入一層BEV(BirdEye’sView,鳥瞰圖)空間轉(zhuǎn)換層,用以構(gòu)建網(wǎng)絡(luò)的空間理解能力。特斯拉采用“前融合”方案,將車身多個攝像頭獲得的視頻數(shù)據(jù)直接進(jìn)行融合,并采用同一套神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實現(xiàn)特征從二維圖像空間到三維向量空間的變換。Transformer神經(jīng)網(wǎng)絡(luò)是實現(xiàn)二維到三維變換的核心,通過自注意力機(jī)制(Self-Attention)和多頭注意力(Multi-HeadAttention)模塊,將每個相機(jī)對應(yīng)的圖像特征轉(zhuǎn)換為Key(鍵)和Value(值然后訓(xùn)練模型以查表的方式自行檢索需要的特征用于預(yù)測,實現(xiàn)對車輛周圍環(huán)境的準(zhǔn)確感知。圖9:BEV視角融合了多個攝像頭的視頻數(shù)據(jù)圖10:Transformer是實現(xiàn)二維到三維變換的核心通過虛擬標(biāo)準(zhǔn)攝像頭實現(xiàn)圖像校準(zhǔn),消除外參誤差。不同車輛由于攝像頭安裝外參的差異,可能導(dǎo)致采集的數(shù)據(jù)存在微小偏差,為此特斯拉在感知框架中加入了一層虛擬標(biāo)準(zhǔn)攝像頭(syntheticvirtualcamera),引入攝像頭標(biāo)定外參將每輛車采集到的圖像數(shù)據(jù)通過去畸變、旋轉(zhuǎn)等方式處理后,統(tǒng)一映射到同一套虛擬標(biāo)準(zhǔn)攝像頭坐標(biāo)中,從而實現(xiàn)各攝像頭原始數(shù)據(jù)的校準(zhǔn)(Rectify消除外參誤差,確保數(shù)據(jù)一致性。圖11:通過圖像校準(zhǔn)解決攝像頭采集數(shù)據(jù)偏差問題圖12:加入虛擬標(biāo)準(zhǔn)攝像頭以校準(zhǔn)圖像數(shù)據(jù)偏差特斯拉引入時空序列特征層,以進(jìn)一步提升環(huán)境感知準(zhǔn)確性。在引入BEV+Transformer后,感知網(wǎng)絡(luò)已經(jīng)具備三維向量空間的感知能力,但仍是對瞬時的圖像片段進(jìn)行感知,只能根據(jù)當(dāng)前時刻感知到的信息進(jìn)行判斷,感知不到世界空間內(nèi)部分特征。特斯拉通過引入時空序列特征層,使得感知網(wǎng)絡(luò)擁有類似于司機(jī)的短時記憶,可以對當(dāng)前時刻的場景做出判斷,并根據(jù)一段時間內(nèi)的數(shù)據(jù)特征推演出目前場景下的可能結(jié)果。圖13:感知網(wǎng)絡(luò)仍是對瞬時圖像片段進(jìn)行感知圖14:特斯拉引入時空序列特征層時空序列特征層主要包括兩部分:1)特征隊列模塊(FeatureQueue用來緩存時序與空間特征。其中,時序特征隊列每過27ms將一個特征加入隊列,可以穩(wěn)定感知結(jié)果的輸出,比如運動過程中發(fā)生的目標(biāo)遮擋,模型可以找到目標(biāo)被遮擋前的特征來預(yù)測感知結(jié)果;空間特征隊列每行駛一定固定距離,將一個特征加入隊列,用于等紅綠燈一類需要長時間靜止等待的狀態(tài),在該狀態(tài)下一段時間之前的時序特征隊列中的特征會出隊而丟失,因此需要用空間特征隊列來記住一段距離之前路面的箭頭或是路邊的標(biāo)牌等交通標(biāo)志信息;圖15:特征序列模塊可以緩存時序與空間特征2)視頻模塊(VideoQueue用來整合時序上的信息。特斯拉使用RNN結(jié)構(gòu)作為視頻模塊,命名為空間RNN模塊(SpatialRNNModule)。車輛在二維平面上前進(jìn),可以將隱狀態(tài)(HiddenState)組織成一個二維網(wǎng)格。當(dāng)車輛前進(jìn)時,只更新網(wǎng)格上與車輛當(dāng)前視野相關(guān)的部分,同時使用車輛的運動學(xué)狀態(tài)以及隱特征(HiddenFeatures)更新車輛位置??臻gRNN的隱狀態(tài)可包含多個通道,每個通道可以跟蹤道路的不同方面,如道路中心、邊緣、標(biāo)線等,網(wǎng)格可以同時處理多種類型的環(huán)境信息。網(wǎng)絡(luò)可以根據(jù)當(dāng)前的能見度選擇性地更新隱藏狀態(tài),如果某個區(qū)域被其他車輛遮擋,網(wǎng)絡(luò)可以選擇不更新那個區(qū)域的狀態(tài),直到能見度恢復(fù)。視頻模塊能夠提升感知系統(tǒng)對于時序遮擋的魯棒性、對于距離和目標(biāo)移動速度估計的準(zhǔn)確性。圖16:隱狀態(tài)可組織成二維網(wǎng)格圖17:空間RNN的隱狀態(tài)可包含多個通道OccupancyNetwork能夠?qū)﹂L尾障礙物進(jìn)行更好表達(dá)。在自動駕駛過程中,對常見障礙物如車輛、行人,可以通過3D物體檢測的方式來估計其位置和大小,但還有更多長尾障礙物也會對行駛產(chǎn)生重要影響,例如:1)可變形的障礙物,如兩節(jié)的掛車,不適合用3Dboundingbox來準(zhǔn)確表示;2)異形障礙物,如翻倒的車輛,難以用傳統(tǒng)的3D姿態(tài)來表示;3)不在已知類別中的障礙物,如路上的石子、垃圾等,無法進(jìn)行分類。因此,我們希望能找到一種更好的表達(dá)來描述這些長尾障礙物,完整估計3D空間中每一個位置的占據(jù)情況(Occupancy甚至是(占用網(wǎng)絡(luò))。OccupancyNetwork是對HydraNets的重要改進(jìn),能夠直接在向量空間產(chǎn)生體積占用。OccupancyNetwork算法受到機(jī)器人領(lǐng)域中occupancygridmapping啟發(fā),將3D空間分為大小一致的體素網(wǎng)格(Gridcell),然后判斷每個cell是否被占用。OccupancyNetwork以車輛攝像頭產(chǎn)生的視頻流作為輸入,直接在向量空間產(chǎn)生單一統(tǒng)一的體積占用,對車輛周圍3D位置被占用的概率進(jìn)行預(yù)測,并可以通過視頻信息對被遮擋物體情況進(jìn)行即時預(yù)測。對于每個位置,OccupancyNetwork能夠產(chǎn)生一組語義,如路緣、汽車、行人和路上的碎片。OccupancyNetwork通過高效的計算能力,在10毫秒內(nèi)快速更新對周圍環(huán)境的感知,同時提供物體尺寸的近似估計,支持動態(tài)及靜態(tài)場景的全面預(yù)測,具有低延遲和低內(nèi)存占用的特點。OccupancyNetwork能夠精準(zhǔn)識別物體運動狀態(tài)差異,與傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)相比優(yōu)勢明顯。中一輛兩節(jié)的公交車正在啟動,其中藍(lán)色表示運動的體素,紅色表示靜止的體素,OccupancyNetwork精確捕捉到公交車第一節(jié)已經(jīng)啟動,而第二節(jié)還處于靜止?fàn)顟B(tài)的細(xì)微差別,并可對公交車的精確曲率進(jìn)行預(yù)測,而這一過程對傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)來說非常復(fù)雜。圖18:OccupancyNetwork對正在啟動的兩節(jié)公交車運動狀態(tài)進(jìn)行精準(zhǔn)捕捉OccupancyNetwork能夠生成可行使表面,增強(qiáng)復(fù)雜地形自動駕駛車輛控制能力。除體素網(wǎng)格外,OccupancyNetwork還能夠生成可行駛表面(driverablesurface),可行駛表面具有3D幾何形狀與語義信息,能夠增強(qiáng)在多山、彎曲道路等復(fù)雜地形上,自動駕駛車輛的控制能力。決策層可利用可行駛表面信息,更好的進(jìn)行加速、減速等運動決策。圖19:OccupancyNetwork能夠生成可行使表面OccupancyNetwork引入SpatialAttention機(jī)制。OccupancyNetwork首先利用RegNet和BiFPN從多相機(jī)獲取特征,然后采用帶有3D空間位置信息的SpatialQuery,基于SpatialAttention注意力機(jī)制,實現(xiàn)對多個相機(jī)的3D空間位置信息和2D圖像的信息融合,模型從中學(xué)習(xí)對應(yīng)的特征關(guān)系,最終輸出高維的空間特征。在進(jìn)行特征融合后,基于反卷積(Deconvolution)的解碼器會解碼出每個3D空間位置的占用情況和占用流輸出,形成固定大小的體素網(wǎng)絡(luò)。模型的最后額外設(shè)計了一個隱式QueryableMLPDecoder,輸入任意坐標(biāo)值(x,y,z),可解碼出該空間位置的信息,即Occupancy,Semantics,F(xiàn)low,打破了模型分辨率的限制。圖20:基于Attention機(jī)制的OccupancyNetwork占用網(wǎng)絡(luò)策LanesNetwork旨在為自動駕駛車輛提供關(guān)鍵的車道拓?fù)湫畔?,以?yōu)化軌跡規(guī)劃和車道變換決策。初期,特斯拉將車道檢測問題建模為圖像空間即時分割任務(wù),只能從幾種不同類型的幾何形狀中進(jìn)行車道預(yù)測,適用于高速公路等高度結(jié)構(gòu)化的道路,但無法應(yīng)對交叉路口等復(fù)雜、多樣的道路拓?fù)鋱鼍?。為此,特斯拉運用神經(jīng)網(wǎng)絡(luò)來預(yù)測車道與車道之間的連接性。車道檢測神經(jīng)網(wǎng)絡(luò)由三部分組成,其中第一部分包括卷積層、注意力層與其他神經(jīng)網(wǎng)絡(luò)層,對車輛攝像頭采集的視頻信息進(jìn)行編碼,產(chǎn)生豐富的視覺表示。之后,特斯拉采用涵蓋有關(guān)交叉口內(nèi)車道拓?fù)?、各條道路上的車道數(shù)等信息的低精度地圖,對車道檢測神經(jīng)網(wǎng)絡(luò)生成的豐富視覺表示進(jìn)行增強(qiáng),輸出密集張量信息,并最終轉(zhuǎn)化為車道及其連接性的信息。圖21:LanesNetwork旨在生成車道與連接信息圖22:特斯拉采用低精度地圖對視覺表示進(jìn)行增強(qiáng)特斯拉采用離散化處理+樣條系數(shù)回歸的方法,進(jìn)行車道線預(yù)測。特斯拉首先將現(xiàn)實世界進(jìn)行離散化處理,引入粗略劃分的網(wǎng)格,然后對可能位置的熱力圖進(jìn)行預(yù)測,鎖定可能性最大的位置,并在此基礎(chǔ)上對預(yù)測進(jìn)行細(xì)化,以得到精確的點位。不同點位的標(biāo)記類型不同,新車道的起點為起始標(biāo)記,其他點為延續(xù)標(biāo)記,通過回歸樣條系數(shù)來獲取兩點間的精確幾何形狀。之后,不斷重復(fù)這一過程,直到得到車道圖中所有標(biāo)記。 圖23:LanesNetwork工作原理神經(jīng)網(wǎng)絡(luò)可專注于計算最重要的區(qū)域,以較低延遲對道路上其他物體行為信息進(jìn)行預(yù)測。自動駕駛系統(tǒng)神經(jīng)網(wǎng)絡(luò)的運行分為兩步:1)神經(jīng)網(wǎng)絡(luò)快速識別出3D空間中代理(即車輛或物體)的位置;2)神經(jīng)網(wǎng)絡(luò)從這些位置提取張量,結(jié)合車輛速度、方向等其他數(shù)據(jù),進(jìn)行后續(xù)處理。通過稀疏化處理方式,神經(jīng)網(wǎng)絡(luò)可以專注于計算最重要的區(qū)域,以較低延遲實現(xiàn)卓越性能,對道路上其他物體行為信息進(jìn)行預(yù)測。自動駕駛系統(tǒng)不僅可以理解環(huán)境中的位置和運動狀態(tài),還能夠?qū)ζ湄S富的語義信息進(jìn)行預(yù)測,從而在保證駕駛安全性的同時,實現(xiàn)類人的駕駛操作。圖24:稀疏化處理可使神經(jīng)網(wǎng)絡(luò)專注于計算最重要的區(qū)域效率、安全和舒適是自動駕駛規(guī)劃的三大目標(biāo),非凸性和高維性是自動駕駛規(guī)劃的兩大難點。與高速路況相比,城市路況更為復(fù)雜,需要應(yīng)對臨時施工路段、穿行車輛與行人。自動駕駛規(guī)劃的難點主要體現(xiàn)在兩個方面:1)非凸性,行動空間是非凸的,意味著存在多個可能的解,但難以找到全局一致的解決方案,規(guī)劃可能會陷入局部最小值;2)高維性,車輛需要對未來10-15秒的行為做出規(guī)劃,涉及位置、速度、加速度等大量參數(shù),導(dǎo)致規(guī)劃問題呈現(xiàn)出高維的特征。圖25:效率、安全和舒適是自動駕駛規(guī)劃的三大目標(biāo)圖26:非凸性和高維性是自動駕駛規(guī)劃的兩大難點特斯拉將規(guī)劃問題進(jìn)行分層分解,先采用離散搜索方法降低非凸性,縮小選擇范圍,再采用連續(xù)優(yōu)化方法進(jìn)行優(yōu)化,得出最終解決方案。對于非凸問題,特斯拉采用離散搜索方法解決,因為離散搜索不會陷入局部最小值,而連續(xù)函數(shù)優(yōu)化容易陷入局部最小值;對于高維問題,特斯拉采用連續(xù)優(yōu)化方法解決,因為離散搜索方法不使用任何梯度信息,需要逐點評估每個點的好壞,效率較低,而連續(xù)優(yōu)化方法利用基于梯度的方法,可以快速找到好的解決方案。圖27:特斯拉將規(guī)劃問題進(jìn)行分層分解自動駕駛規(guī)劃需要解決多代理聯(lián)合軌跡規(guī)劃問題,快速選出最優(yōu)行駛方案。自動駕駛系統(tǒng)需要解決多代理聯(lián)合軌跡規(guī)劃的問題,考慮自己和所有其他車輛、行人的運動軌跡,對所有可能的行駛方案進(jìn)行評估,快速選出最優(yōu)行駛方案。評估過程至少需要10毫秒左右,而在面對繁忙路口等復(fù)雜場景時需要50毫秒。圖28:自動駕駛系統(tǒng)需要實現(xiàn)多代理聯(lián)合軌跡規(guī)劃圖29:自動駕駛行駛方案評估至少需要10毫秒為實現(xiàn)實時方案評估,特斯拉采用交互搜索框架,以任務(wù)分解的方式對一系列可能的行駛軌跡進(jìn)行研究。1)自動駕駛系統(tǒng)首先收集車道、障礙物和周圍移動物體的視覺測量數(shù)據(jù),這些數(shù)據(jù)被表示為稀疏抽象(SparseAbstraction)和潛在特征(LatentFeatures)。自動駕駛系統(tǒng)利用這些信息生成一組候選目標(biāo),使用經(jīng)典優(yōu)化方法與神經(jīng)網(wǎng)絡(luò)規(guī)劃器來創(chuàng)建初始軌跡;2)得到初始軌跡之后,特斯拉采用遞增式的方法,在關(guān)鍵約束的基礎(chǔ)上,不斷加入新的約束條件,利用較少約束下的最優(yōu)解作為初值,逐步求解更復(fù)雜的優(yōu)化問題;3)構(gòu)建輕量級可查詢網(wǎng)絡(luò),該網(wǎng)絡(luò)由人類駕駛數(shù)據(jù)與寬松時間限制下的計算數(shù)據(jù)進(jìn)行訓(xùn)練,能夠在100微秒內(nèi)對規(guī)劃軌跡進(jìn)行評分,顯著提升規(guī)劃效率。特斯拉主要從四個方面對規(guī)劃軌跡進(jìn)行評分,進(jìn)行決策樹剪枝:1)碰撞檢查,以確保路徑安全;2)舒適性分析,以評估乘客體驗;3)干預(yù)可能性,以評估候選路徑導(dǎo)致人工接管的概率;4)與人類駕駛接近度,基于人類駕駛數(shù)據(jù),評估候選路徑與人類駕駛員行為的接近程度。通過綜合評估,特斯拉規(guī)劃系統(tǒng)能夠高效地篩選出最優(yōu)路徑,優(yōu)化自動駕駛的決策過程。圖30:特斯拉采用交互搜索框架,實現(xiàn)實時方案評估4算力端:Dojo超級算力支撐保持能效比優(yōu)勢從0到1構(gòu)建超級計算機(jī)系統(tǒng),為遠(yuǎn)期算力提供強(qiáng)大支撐。特斯拉從算力芯片開始,完整構(gòu)建Dojo超級計算機(jī)系統(tǒng),以處理自動駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓(xùn)練計算機(jī),采用分布式計算架構(gòu)設(shè)計,算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級,實現(xiàn)從訓(xùn)練節(jié)點到訓(xùn)練集群的完整構(gòu)建。特斯拉從0到1構(gòu)建超級計算機(jī)系統(tǒng),旨在擺脫對英偉達(dá)GPU的依賴,為遠(yuǎn)期算力瓶頸進(jìn)行前瞻布局。Dojo于2021年8月正式亮相,研發(fā)進(jìn)展迅猛。2019年4月,馬斯克在特斯拉自動駕駛?cè)眨ˋutonomousDay)上提到了Dojo,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標(biāo)注和訓(xùn)練的超級計算機(jī)”;2021年8月,Dojo超級計算機(jī)在特斯拉首屆AIDay上首次正式亮相,特斯拉重點展示了Dojo的關(guān)鍵組成單元D1芯片,由特斯拉自主研發(fā),用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練;2022年9月,特斯拉在第二屆AIDay上展示了Dojo的最新進(jìn)展,包括散熱方案、DojoPOD機(jī)柜集成架構(gòu)等;2023年7月,馬斯克表示,特斯拉計劃在2024年底前對Dojo項目投資超過10億美元,自主研發(fā)超級計算機(jī),以處理發(fā)展自動駕駛軟件所需的海量數(shù)據(jù),擺脫對英偉達(dá)GPU的依賴;2024年1月,特斯拉將投資超過5億美元,在紐約超級工廠建造一個巨型Dojo超級計算機(jī)集群。同時,馬斯克表示特斯拉2024年在英偉達(dá)硬件上的投資將超過5億美元,并將開始購買AMD的硬件。圖31:特斯拉Dojo發(fā)展歷程資料來源:騰訊科技,電動星球,界面新聞,electrek,民生證券Dojo算力規(guī)劃明確,計劃于2024年10月達(dá)到100Exa-Flops。根據(jù)特斯拉的規(guī)劃:1)2023年7月,Dojo進(jìn)入投產(chǎn)階段,拉開特斯拉算力集群快速建設(shè)階段的帷幕;2)2024年2月,Dojo將成為全球最強(qiáng)大的五臺超級計算機(jī)之一;3)2024年10月,Dojo的算力總規(guī)模達(dá)到100Exa-Flops,相當(dāng)于30萬塊英偉達(dá)A100GPU的算力總和。圖32:特斯拉Dojo算力規(guī)劃Dojo定位為超高速訓(xùn)練計算機(jī),采用分布式計算架構(gòu)設(shè)計。2021年AIDay上,特斯拉表示Dojo項目的三大目標(biāo)為實現(xiàn)最佳AI訓(xùn)練性能、助力更大更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練、實現(xiàn)節(jié)能與成本效益。為此,特斯拉采用分布式計算架構(gòu)設(shè)計,以強(qiáng)大的計算單元組成巨大計算平面,計算單元之間通過高帶寬、低延遲的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接,形成二維網(wǎng)格結(jié)構(gòu)。在進(jìn)行大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,Dojo可以將神經(jīng)網(wǎng)絡(luò)分成若干小塊,每個計算單元可以同時處理網(wǎng)絡(luò)的一部分。神經(jīng)網(wǎng)絡(luò)編譯器會考慮數(shù)據(jù)在時間和空間上的接近性,優(yōu)化信息在計算單元之間的傳遞,從而提高工作效率。圖33:Dojo超級計算機(jī)三大目標(biāo)圖34:Dojo系統(tǒng)二維網(wǎng)格結(jié)構(gòu)Dojo采用分布式2D架構(gòu),算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級。按照層次劃分,每354個Dojo核心組成一塊D1芯片,而每25顆芯片組成一個訓(xùn)練模組,最后120個訓(xùn)練模組組成一組ExaPOD計算集群,共計3000顆D1芯片。1)內(nèi)核級:DojoCore(訓(xùn)練節(jié)點為單個計算核心,64位位寬,具有4個8x8x4的矩陣計算核心,2GHz主頻;2)芯片級:D1,為單個芯片,核心數(shù)為354,面積645mm2;3)格點級:DojoTile,為單個訓(xùn)練模組,每5x5個芯片組成一個訓(xùn)練模組;4)集群級:ExaPOD,為特斯拉訓(xùn)練集群,每12個訓(xùn)練模組組成一個機(jī)柜,每10個機(jī)柜組成ExaPOD,共計3000個D1芯片。表1:Dojo算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級 訓(xùn)練瓦片集群級集群級訓(xùn)練節(jié)點是Dojo最小的內(nèi)部計算單元,基于存算一體架構(gòu)設(shè)計。訓(xùn)練節(jié)點(TrainingNode)是Dojo最小的內(nèi)部計算單元,大小關(guān)系到同步速度與硬件復(fù)雜度。降低延遲和提高帶寬是訓(xùn)練節(jié)點的主要優(yōu)化方向,每個訓(xùn)練節(jié)點基于存算一體架構(gòu)設(shè)計,不僅具備向量計算和矩陣計算能力,還包含完整的取指、譯碼、執(zhí)行部件,并以2GHz的頻率運行。每個訓(xùn)練節(jié)點還配備了1.25MB的SRAM作為主存、而非緩存使用,能夠以400GB/s的速度進(jìn)行數(shù)據(jù)加載和270GB/s的速度進(jìn)行數(shù)據(jù)存儲。訓(xùn)練節(jié)點包含了一個64位超標(biāo)量CPU,針對矩陣乘法和向量SIMD進(jìn)行了優(yōu)化,支持FP32、BFP16、CFP8等多種浮點數(shù)格式運算。超標(biāo)量CPU具備4路多線程能力,可以同時處理多個指令,以提高運行效率。同時,CPU的指令集針對機(jī)器學(xué)習(xí)工作負(fù)載進(jìn)行了優(yōu)化,能夠?qū)崿F(xiàn)轉(zhuǎn)置、聚集、鏈接遍歷、廣播等多種功能。圖35:Dojo訓(xùn)練節(jié)點架構(gòu)圖36:D1芯片結(jié)構(gòu)D1芯片計算陣列由54個訓(xùn)練節(jié)點組成,能夠?qū)崿F(xiàn)高效數(shù)據(jù)傳輸。訓(xùn)練節(jié)點采用模塊化設(shè)計,可以靈活組合擴(kuò)展,形成更大的計算平面。D1芯片采用18x20的網(wǎng)格布局,計算陣列由354個訓(xùn)練節(jié)點組成,采用臺積電7納米制造工藝,算力達(dá)362TFLOPs,100%面積用于機(jī)器學(xué)習(xí)訓(xùn)練和帶寬。在計算陣列周圍,D1芯片布置了576個高速低功耗串行器/解串器(Serializer/Deserializer,簡稱SerDes),I/O帶寬高達(dá)10TB/s,大約是最先進(jìn)的網(wǎng)絡(luò)交換芯片的兩倍,在進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時能夠?qū)崿F(xiàn)高效的數(shù)據(jù)傳輸,從而提升整體的計算性能。圖37:D1芯片計算陣列圖38:D1芯片串行器/解串器分布D1處理器的指令集設(shè)計通過擴(kuò)展RISC-V架構(gòu),提供多樣化的計算格式和編譯器支持。D1處理器基于RISC-V架構(gòu)的ISA進(jìn)行了擴(kuò)展,以增強(qiáng)其計算能力。D1核心支持FP32和FP16這兩種標(biāo)準(zhǔn)的浮點計算格式,并特別引入了BFP16格式,以優(yōu)化推理(Inference)過程。為了進(jìn)一步提升性能,D1處理器還集成了8位CFP8格式,這種格式在降低精度的同時提高了計算吞吐量。Dojo編譯器的設(shè)計允許在尾數(shù)精度上進(jìn)行動態(tài)調(diào)整,從而覆蓋更廣的精度范圍,以適應(yīng)不同的計算需求。此外,D1處理器能夠同時支持最多16種不同的矢量格式,靈活性高,能夠顯著提升處理器算力,使其能夠更高效的處理各種計算任務(wù)。圖39:特斯拉Dojo指令集特斯拉將50萬個訓(xùn)練節(jié)點集合成巨大的計算平面,以接口處理器提升訓(xùn)練效率。特斯拉把50萬個訓(xùn)練節(jié)點進(jìn)行組合,形成巨大的計算平面,該計算平面由1500個D1芯片密集連接而成。在計算平面的兩端,特斯拉各放置了一個Dojo接口處理器,通過第四代PCIe接口與計算平面連接,能夠?qū)崿F(xiàn)數(shù)據(jù)中心主機(jī)與計算平臺的高速通信。接口處理器為計算平面配備了高帶寬DRAM共享內(nèi)存,可以快速存儲訓(xùn)練瓦片所需的大量數(shù)據(jù);使用特斯拉定制協(xié)議TTP在整個加速器中進(jìn)行通信,確保訓(xùn)練瓦片能夠獲得全部內(nèi)存帶寬,從而提升訓(xùn)練效率。圖40:計算平面兩端各放置了一個接口處理器圖41:Dojo接口處理器連接在系統(tǒng)托盤下方訓(xùn)練瓦片是計算平面的基本單元,最終構(gòu)成大規(guī)模訓(xùn)練集群:1)訓(xùn)練瓦片。特斯拉創(chuàng)造性的設(shè)計了訓(xùn)練瓦片結(jié)構(gòu),作為計算平面的基本單元。一個訓(xùn)練瓦片上集成了25個D1芯片,采用高帶寬連接器進(jìn)行數(shù)據(jù)傳輸,可以提供9PFLOPS的算力。訓(xùn)練瓦片具有巨大的輸入/輸出(I/O)帶寬,可以快速傳輸和處理大量數(shù)據(jù);2)系統(tǒng)托盤。系統(tǒng)托盤上放置了6個訓(xùn)練瓦片,呈2x3矩陣式排布。一個系統(tǒng)托盤擁有20個接口處理器,以及640GB的高帶寬DRAM,能夠?qū)崿F(xiàn)機(jī)柜內(nèi)部、不同機(jī)柜之間計算瓦片的無縫連接;圖42:訓(xùn)練瓦片上集成了25個D1芯片圖43:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布3)訓(xùn)練機(jī)柜。訓(xùn)練機(jī)柜中集成了兩個系統(tǒng)托盤,總算力達(dá)1000PFLOPS。機(jī)柜配置了冗余電源供應(yīng)系統(tǒng),以保證計算系統(tǒng)穩(wěn)定運行;4)訓(xùn)練集群。訓(xùn)練集群(ExaPOD)由10個訓(xùn)練機(jī)柜組成,總算力達(dá)1ExaFlOPS。圖44:Dojo訓(xùn)練機(jī)柜中集成了兩個系統(tǒng)托盤圖45:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布軟件系統(tǒng)整體性能由硬件性能、利用率和加速器占用率共同決定。編譯器的任務(wù)是從硬件中提取性能,而數(shù)據(jù)流的任務(wù)是確保數(shù)據(jù)能夠以足夠的吞吐量供給硬件,避免硬件空閑等待數(shù)據(jù)。當(dāng)模型非常大時,單個加速器無法一次性處理所有數(shù)據(jù),因為每個加速器能處理的批量大小通常比批量歸一化所需的批量大小要小。為解決這一問題,需要在多個加速器上同步運行批量歸一化,但這會帶來前向傳播通信延遲的問題。圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定圖47:多加速器運行批量歸一化會導(dǎo)致前向傳播延遲Dojo使用高效同步機(jī)制,實現(xiàn)不同單元協(xié)同工作。Dojo不僅可以加速模型中那些需要大量計算的部分,還可以提升那些受延遲或帶寬限制的部分的性能,比如批量歸一化或梯度合并、參數(shù)收集等操作。Dojo可以進(jìn)行靈活切割,以適配模型批量歸一化所需大小,切割部分可作為獨立加速器運行。Dojo內(nèi)部使用了高效的同步機(jī)制,實現(xiàn)不同計算單元之間的協(xié)調(diào)工作,形成單一可擴(kuò)展的計算平面。數(shù)據(jù)被分散存儲在快速的存儲器中,并且在需要的時候才復(fù)制到相應(yīng)的計算單元,高帶寬可以助力數(shù)據(jù)快速復(fù)制。大多數(shù)模型可以在Dojo系統(tǒng)上直接運行,無需進(jìn)行額外配置。圖48:Dojo系統(tǒng)使用高效同步機(jī)制,實現(xiàn)內(nèi)部單元協(xié)作與GPU相比,Dojo性能提升明顯:1)批量歸一化運行速度。在Dojo上,一個批量均一化操作運行僅需5微秒,而在24個GPU上運行需要150微秒。Dojo運行速度具備數(shù)量級優(yōu)勢;2)ResNet50模型運行速度。Dojo的性能與100個GPU相當(dāng);3)自動標(biāo)注網(wǎng)絡(luò)運行速度。Dojo性能已超越A100GPU,采用新硬件后性能可以達(dá)到A100性能的兩倍,使用關(guān)鍵編譯器優(yōu)化后,性能可達(dá)A100的三倍。圖49:自動標(biāo)注與占用網(wǎng)絡(luò)占特斯拉GPU使用量一半圖50:Dojo處理自動標(biāo)注與占用網(wǎng)絡(luò)速度大幅提升5芯片端:自研FSD芯片集成高效計算能力由合作邁向自研,實現(xiàn)高性能算力集成。特斯拉自動駕駛硬件平臺初期與Mobileye、英偉達(dá)等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉(zhuǎn)向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件——AI5,預(yù)計將于2025年下半年投產(chǎn)。FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計提升自動駕駛功能安全冗余。特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進(jìn)行更好的整合,從而實現(xiàn)更優(yōu)的系統(tǒng)性能。HW1.0向HW4.0快速迭代,硬件性能持續(xù)升級。特斯拉的硬件平臺(HardwarePlatform,簡稱HW)是指在其電動汽車中用于自動駕駛功能的計算和傳感系統(tǒng)。特斯拉的硬件平臺經(jīng)歷了幾代的演變,每一版都代表著技術(shù)上的進(jìn)步和對自動駕駛能力的提升:1)HW1.0。2014年10月,特斯拉基于Mobileye芯片MobileyeEyeQ3發(fā)布第一代硬件Hardware1.0;2)HW2.0/HW2.5。2016年10月,特斯拉推出HW2.0,采用了NVIDIA的DrivePX2平臺,并配置8個攝像頭+12個遠(yuǎn)程超聲波雷達(dá)+1個前置毫米波雷達(dá),在功能上實現(xiàn)輔助駕駛。而于2017年8月推出的HW2.5,在HW2.0的基礎(chǔ)上增加了額外的NVIDIATegraParker芯片于增強(qiáng)計算能力;3)HW3.0。2019年4月,特斯拉發(fā)布HW3.0系統(tǒng),特斯拉自研的FSD芯片首次亮相,整體算力達(dá)144TOPS,標(biāo)志著特斯拉開始全面掌握從芯片設(shè)計到軟件開發(fā)的全棧技術(shù);4)HW4.0。2024年2月,推出的HW4.0搭載FS芯片,采用更先進(jìn)的制程技術(shù),算力大幅提升5倍;同時,NNA的數(shù)量從2個增加到3個,工作頻率也從2.0GHz提升至2.2GHz,這有助于更高效地處理深度學(xué)習(xí)任務(wù),尤其是針對視覺數(shù)據(jù)的分析。5)AI5。在2024年6月的特斯拉股東大會上,馬斯克首次向公眾介紹了下一代全自動駕駛(FSD)硬件——AI5,預(yù)計將于2025年下半年投產(chǎn)。與現(xiàn)有的HW4.0版本相比,AI5在性能上將實現(xiàn)顯著飛躍,預(yù)計整體性能提升約10倍,特別是在推理能力上,這一提升可能高達(dá)50倍,同時在整體能耗方面也比HW4.0提升了4-5倍。表2:特斯拉自動駕駛硬件平臺不同版本對比 硬件版本SOP處理平臺/主芯片冗余控制算力(TOPS)功耗 資料來源:Tesla官網(wǎng),汽車之家,Twitter,智能車參考,民生證券研究院FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計提升自動駕駛功能安全冗余。其中,SOC-1作為主控單元,輸出最終的控制指令,而SOC-2則提供擴(kuò)展計算支持。作為兩套完全獨立的芯片系統(tǒng),每套系統(tǒng)都配備了獨立的CPU、GPU、NNA(神經(jīng)網(wǎng)絡(luò)加速器)以及內(nèi)存,兩套系統(tǒng)中的一個作為主系統(tǒng)運行,另一個作為熱備份,在主系統(tǒng)出現(xiàn)故障時立即接管,以實現(xiàn)冗余,提高安全性。雙系統(tǒng)架構(gòu)的另一個優(yōu)勢在于相互驗證能力。在面對相同的駕駛情境時,兩套獨立系統(tǒng)會分別經(jīng)過感知和規(guī)劃算法(或一個完整的端到端算法)處理,得出的駕駛決策應(yīng)當(dāng)是一致的。這種設(shè)計提供了決策冗余保障,有效提升了自動駕駛系統(tǒng)的功能安全性。圖51:特斯拉FSD雙芯片系統(tǒng)設(shè)計特斯拉的FSD芯片自2016年啟動設(shè)計規(guī)劃以來,經(jīng)歷了數(shù)年的發(fā)展和迭代。2017年12月,特斯拉進(jìn)行了FSD芯片的首次試產(chǎn),在隨后進(jìn)行了必要的設(shè)計調(diào)整。2018年4月,B0樣片投產(chǎn),并在同年7月獲得認(rèn)證。2018年12月,特斯拉開始用新的硬件和軟件對員工用車進(jìn)行改裝。2019年3月,特斯拉開始在ModelS、ModelX和Model3車型上部署FSD芯片,用于HW3.0系統(tǒng),標(biāo)志著FSD芯片開始得到批量化應(yīng)用。圖52:特斯拉FSD芯片發(fā)展歷程FSD芯片采用異構(gòu)設(shè)計,集成了CPU、GPU、NNA,和硬件加速器等多個處理單元。FSD芯片采用三星14nmFinFet技術(shù)制造,支持單精度和雙精度浮點運算,并配備了運行于2133MHz的128bitLPDDR4內(nèi)存,展現(xiàn)出卓越的計算性能和高效的數(shù)據(jù)處理能力:1)CPUs。3個四核Cortex-A72集群,共計12個CPU核心,運行頻率為2.2GHz;2)GPU。1個MaliG71MP12GPU,工作頻率為1GHz,支持FP16和FP32浮點運算;3)2個神經(jīng)網(wǎng)絡(luò)加速器(NNAccelerator,簡稱NNA)。用于深度學(xué)習(xí)推理,這是FSD芯片的核心部分,用于處理自動駕駛所需的大量視覺和傳感器數(shù)據(jù),運行頻率為2GHz。每個NNA配備了32MB的SRAM緩存,用于存儲模型權(quán)重和加速數(shù)據(jù)訪問。圖53:特斯拉FSD芯片架構(gòu)資料來源:Wikichip,民生證券研FSD2.0通過擴(kuò)大CPU核心數(shù)和增強(qiáng)NPU核心,提供更強(qiáng)大的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡(luò)運算性能。2023年2月,F(xiàn)SD2.0芯片開始在汽車上部署,用于HW4.FSD2.0芯片的設(shè)計與第一代非常相似,采用更密集的晶體管布局和優(yōu)化電路設(shè)計,性能預(yù)計提升三倍以上。在CPU中,Cortex-A72內(nèi)核從12個增至20個,分布在5個四核集群中。此外,第二代芯片采用3個NPU核心,每個核心配備了32MBSRAM用于存儲模型權(quán)重和激活,通過96x96的MAC網(wǎng)格實現(xiàn)每個周期9216個MAC和18432個操作的高效率運算。NPU核心以2.2GHz頻率運行,使得單顆芯片算力達(dá)到121.651TOPS,顯著提升了自動駕駛的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡(luò)運表3:FSD芯片1.0和2.0性能對比 CPUFrequency TDP36Watts資料來源:ADS智庫,民生證券研究院特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。汽車中在同時運行很多架構(gòu)、模塊和網(wǎng)絡(luò),共有多達(dá)10億個參數(shù)、1000個神經(jīng)網(wǎng)絡(luò)信號。為了提升計算效率,特斯拉建立了:1)神經(jīng)網(wǎng)絡(luò)編譯器,用于接收復(fù)雜的神經(jīng)網(wǎng)絡(luò)圖,然后將其分割為獨立的子圖,并分別進(jìn)行編譯;2)神經(jīng)網(wǎng)絡(luò)鏈接器,用于鏈接各個編譯好的部分,形成完整系統(tǒng)。計算過程需要進(jìn)行離線優(yōu)化,從而能夠在有限的內(nèi)存和帶寬條件下完成計算。圖54:汽車中在同時運行很多架構(gòu)、模塊和網(wǎng)絡(luò)圖55:神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器架構(gòu)特斯拉設(shè)計了混合調(diào)度系統(tǒng),以實現(xiàn)算力的充分利用。實現(xiàn)特斯拉設(shè)計了混合調(diào)度系統(tǒng),能夠在一個SOC上實現(xiàn)異構(gòu)調(diào)度,并在兩個SOC之間進(jìn)行分布式調(diào)度,以模型并行方式運行網(wǎng)絡(luò)。特斯拉從軟件所有層級進(jìn)行優(yōu)化,采用調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)編譯器、在兩個SOC之間采用低延遲高帶寬的RDMA鏈接等多種方式,以實現(xiàn)100TOPS算力的充分利用。圖56:特斯拉混合調(diào)度系統(tǒng)架構(gòu)6數(shù)據(jù)端:自動化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動訓(xùn)練高效自動標(biāo)注+構(gòu)建仿真場景,實現(xiàn)數(shù)據(jù)驅(qū)動訓(xùn)練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動標(biāo)注系統(tǒng),能夠在12小時內(nèi)自動標(biāo)注一萬個駕駛旅程,可抵充500萬個小時的人工標(biāo)注工作,極大提高了標(biāo)注效率。仿真模擬則可以提供現(xiàn)實世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。結(jié)合真實數(shù)據(jù)和標(biāo)簽,以及仿真和手動校準(zhǔn)的數(shù)據(jù),特斯拉形成綜合訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實現(xiàn)自動駕駛系統(tǒng)的持續(xù)優(yōu)化。從最初的外包第三方人工標(biāo)注,到開發(fā)自動標(biāo)注(AutoLabeling)系統(tǒng),特斯拉實現(xiàn)了數(shù)據(jù)標(biāo)注的高效化和規(guī)模化。在特斯拉的自動駕駛方案中,無論是在感知還是規(guī)控層面,核心算法基本都是由數(shù)據(jù)驅(qū)動的,數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能,因此構(gòu)建一套高效獲取、標(biāo)注及仿真訓(xùn)練數(shù)據(jù)的閉環(huán)至關(guān)重要。特斯拉每年售出近百萬輛汽車,通過這些汽車日常運行,可以采集到超大規(guī)模的原始數(shù)據(jù)集,對這些數(shù)據(jù)集的標(biāo)注方面經(jīng)歷了顯著的發(fā)展:1)外包第三方進(jìn)行人工數(shù)據(jù)標(biāo)注。2018年,特斯拉與第三方公司合作,采用人工標(biāo)注,該方式標(biāo)注效率低且溝通成本高。2)自建超千人團(tuán)隊進(jìn)行手工標(biāo)注。而后為提升標(biāo)注效率和質(zhì)量,特斯拉自建標(biāo)注團(tuán)隊,人員規(guī)模近千人。3)開發(fā)自動標(biāo)注系統(tǒng),實現(xiàn)人工與機(jī)器相結(jié)合的數(shù)據(jù)標(biāo)注模式。隨著自動駕駛數(shù)據(jù)持續(xù)增長,所需標(biāo)注人員的規(guī)模進(jìn)一步擴(kuò)大,使得人力成本快速增長,使得2020年特斯拉開始研發(fā)并使用數(shù)據(jù)自動標(biāo)注系統(tǒng),通過大量數(shù)據(jù)訓(xùn)練大模型,再用大模型訓(xùn)練車端小模型。新算法能夠在12小時內(nèi)自動標(biāo)注一萬個駕駛旅程,可抵充500萬個小時的人工標(biāo)注工作,極大地提高了標(biāo)圖57:特斯拉數(shù)據(jù)標(biāo)注發(fā)展歷程從2D圖像標(biāo)注,到4D的向量空間標(biāo)注,特斯拉FSD系統(tǒng)實現(xiàn)更精細(xì)化的路徑規(guī)劃和決策制定。通過引入BEV(鳥瞰圖)視角,特斯拉實現(xiàn)了從2D圖像到3D車身自坐標(biāo)系的轉(zhuǎn)變,但最初這僅是對瞬時圖像片段的感知,缺乏時空連續(xù)性。為了增強(qiáng)感知網(wǎng)絡(luò)的短時記憶能力,特斯拉在感知網(wǎng)絡(luò)架構(gòu)中引入了時空序列特征層,使用視頻片段代替單張圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而提升了對場景的理解能力。到了2022年,特斯拉進(jìn)一步升級了BEV感知,引入了OccupancyNetwork,推動數(shù)據(jù)標(biāo)注向4D升級,這不僅包括3D空間信息,還融入了時間維度,實現(xiàn)了對動態(tài)物體運動軌跡和參數(shù)的精確標(biāo)注。圖58:基于2D圖像進(jìn)行標(biāo)注圖59:在BEV空間下進(jìn)行4D自動標(biāo)注特斯拉的自動標(biāo)注方案通過結(jié)合車輛采集的多源數(shù)據(jù)和先進(jìn)的神經(jīng)網(wǎng)絡(luò)技術(shù),實現(xiàn)了對自動駕駛所需數(shù)據(jù)的快速和高效處理。具體來說,這一方案首先利用車輛在一段時間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構(gòu)成最小標(biāo)注單元Clip,然后通過離線神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,得到深度圖、坐標(biāo)、目標(biāo)物等中間層結(jié)果。最終,通過特征重建,獲得3D標(biāo)簽集(Labels)以及所有目標(biāo)的運動趨勢,包括行車軌跡、靜態(tài)環(huán)境重建、動態(tài)物體和運動學(xué)參數(shù)等,為自動駕駛算法的訓(xùn)練提供了大量高質(zhì)量的標(biāo)注數(shù)據(jù)。這一流程不僅提高了數(shù)據(jù)標(biāo)注的效率,還保證了數(shù)據(jù)的準(zhǔn)確性和一致性。圖60:特斯拉4D自動標(biāo)注流程特斯拉的4D自動標(biāo)注技術(shù)通過三個關(guān)鍵步驟實現(xiàn)高精度的軌跡和結(jié)構(gòu)復(fù)現(xiàn):1)高精度軌跡預(yù)測和結(jié)構(gòu)復(fù)現(xiàn)。利用多攝像頭和慣性里程計,通過粗對齊、關(guān)聯(lián)、聯(lián)合非線性優(yōu)化及最終曲面優(yōu)化,實現(xiàn)多重軌跡重建。這一步驟確保了軌跡數(shù)據(jù)的準(zhǔn)確性和可靠性;2)多路徑聯(lián)合重建。自動標(biāo)記新軌跡的過程使用多軌跡對齊引擎,結(jié)合現(xiàn)有重建結(jié)果和新行駛軌跡,進(jìn)一步細(xì)化路面細(xì)節(jié)。所有特征都是通過神經(jīng)網(wǎng)絡(luò)從視頻中自動推斷出來,并在向量空間進(jìn)行跟蹤和重構(gòu)。這一自動化過程顯著提高了標(biāo)注效率,每個新軌跡的自動標(biāo)記僅需30分鐘,大大減少了人工標(biāo)記的時間和勞動強(qiáng)度;3)新路徑自動標(biāo)注。整個4D自動標(biāo)注過程在集群上實現(xiàn)并行化,整個過程從軌跡重建到最終標(biāo)記的確定,僅需1-2小時。這種高效的自動化流程不僅提高了可擴(kuò)展性,而且復(fù)建的路面和道路細(xì)節(jié)也為后續(xù)的人工驗證提供了有力的指導(dǎo),確保了標(biāo)注的準(zhǔn)確性和一致性。圖61:4D自動標(biāo)注的三個關(guān)鍵步驟仿真模擬(Simulation)可以提供現(xiàn)實世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。由于路測條件的限制,導(dǎo)致積累數(shù)據(jù)和訓(xùn)練算法的效率偏低且成本高昂。為了更高效的實現(xiàn)數(shù)據(jù)訓(xùn)練,特斯拉構(gòu)建了一個真實世界的虛擬仿真空間,來加速FSD能力的訓(xùn)練。自動駕駛的仿真是在模擬環(huán)境中,通過調(diào)整各類交通參與物及環(huán)境的模型參數(shù)以構(gòu)建各種虛擬場景,以訓(xùn)練算法應(yīng)對不同場景的性能。仿真模擬在自動駕駛領(lǐng)域中的價值體現(xiàn)在能夠安全且高效地重現(xiàn)和構(gòu)建極端及復(fù)雜場景以進(jìn)行算法訓(xùn)練,實現(xiàn)快速且準(zhǔn)確的數(shù)據(jù)標(biāo)注,提供無風(fēng)險的測試環(huán)境,優(yōu)化規(guī)控算法,并通過持續(xù)的閉環(huán)場景訓(xùn)練提升特定功能如泊車技能,同時能夠重現(xiàn)真實世界中的失敗案例進(jìn)行針對性優(yōu)化,從而顯著增強(qiáng)自動駕駛系統(tǒng)的安全性和可靠性。特斯拉仿真模擬流程包含五大關(guān)鍵步驟:1)傳感器準(zhǔn)確模擬。對真實攝像頭屬性進(jìn)行模擬,包括傳感器噪聲、運動模糊、光學(xué)畸變等,以生成車輛上的攝像頭和其他傳感器實際會檢測到的內(nèi)容;2)真實視覺渲染。特斯拉采用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)與光線追蹤方法,以使渲染效果能夠逼近真實世界;3)多元化素材庫。特斯拉的素材庫中,車輛、人物、動物等真實素材數(shù)量多達(dá)數(shù)千個,能夠避免素材數(shù)量過少導(dǎo)致的神經(jīng)網(wǎng)絡(luò)過擬合問題。特斯拉還對大量地點進(jìn)行了建模,以生成模擬環(huán)境;4)可擴(kuò)展場景生成。特斯拉基于算法,程序化地創(chuàng)建具有各種參數(shù)(如曲率、不同樹木、錐體、桿子、不同速度的汽車等)的道。此外,特斯拉采用機(jī)器學(xué)習(xí)技術(shù),使神經(jīng)網(wǎng)絡(luò)能夠?qū)收宵c進(jìn)行檢測,并在故障點周圍創(chuàng)造更多數(shù)據(jù),形成閉環(huán),以優(yōu)化網(wǎng)絡(luò)性能;5)場景重建。特斯拉利用真實行駛視頻片段,構(gòu)建出與現(xiàn)實相同的虛擬場景,然后在虛擬場景中運行自動駕駛系統(tǒng),觀察系統(tǒng)運行情況。如果系統(tǒng)在模擬中失敗,可以分析失敗原因,從而對系統(tǒng)進(jìn)行調(diào)整和優(yōu)化,不斷提升系統(tǒng)圖62:特斯拉仿真模擬流程包含五大關(guān)鍵步驟特斯拉采用程序化方法進(jìn)行場景生成,大幅提升運行效率。特斯拉采用自動化工具進(jìn)行場景生成,能夠快速生成復(fù)雜模擬環(huán)境,過程包括:1)通過自動化標(biāo)簽生成道路網(wǎng)格和車道;2)使用線條數(shù)據(jù)創(chuàng)建車道標(biāo)記;3)利用中線邊緣生成路中心分道區(qū),并用隨機(jī)植被填充;4)以隨機(jī)化啟發(fā)式規(guī)則生成外部世界,包括建筑物、消防栓、樹木等;5)引入地圖數(shù)據(jù)確定交通信號燈和停車標(biāo)志的位置,并收集車道數(shù)量等信息。特斯拉可以在模擬器中更改道路真實標(biāo)記,創(chuàng)造全新模擬數(shù)據(jù),從而進(jìn)行更有針對性的訓(xùn)練,提升預(yù)測準(zhǔn)確性。圖63:通過自動化標(biāo)簽生成道路網(wǎng)格和車道圖64:以隨機(jī)化啟發(fā)式規(guī)則生成外部世界特斯拉仿真模擬的主要創(chuàng)新和亮點在于高效的虛擬驗證架構(gòu),能夠?qū)?fù)雜的道路交通信息和場景元素系統(tǒng)化并高效運行。特斯拉通過瓦片生成器(TileCreator將真實標(biāo)簽數(shù)據(jù)轉(zhuǎn)化為具體的仿真元素,如車道線、路緣石和建筑物等。這些元素隨后被瓦片提取器(TileExtractor)分割成150平米的Geohash單元,每個單元都擁有一個獨特的ID以便于快速加載和調(diào)用。這種處理方式使得建模信息更加簡潔,提高了加載和渲染的效率。利用瓦片加載器(TileLoader特斯拉可以根據(jù)GeohashID編碼快速加載所需的仿真場景切片,專注于加載用戶感興趣的地點及其周邊環(huán)境。最終,通過虛擬引擎生成完整的場景。通過這種方式,一個工程師在短短兩周內(nèi)即可生成舊金山街道的虛擬世界,顯著減少了創(chuàng)建虛擬世界所需的時間。同樣特斯拉可以利用此項PDG技術(shù)快速拓展到其他城市與國家,或者更新原有的虛擬世界,確保數(shù)據(jù)依據(jù)現(xiàn)實動態(tài)發(fā)展。圖65:特斯拉仿真世界創(chuàng)建流程特斯拉通過其自成閉環(huán)的數(shù)據(jù)引擎(DataEngine),有效地優(yōu)化了神經(jīng)網(wǎng)絡(luò)。特斯拉通過標(biāo)配自動駕駛硬件的車隊進(jìn)行數(shù)據(jù)采集,并通過規(guī)則和影子模式篩選出具有語義信息的有效數(shù)據(jù),并回傳至云端。在云端,利用工具對AI的錯誤輸出進(jìn)行糾正,并將這些數(shù)據(jù)整合入數(shù)據(jù)集群。這些數(shù)據(jù)進(jìn)一步用于訓(xùn)練車端的在線模型和云端的離線模型。最終,通過影子模式在車端進(jìn)行新模型的測試和不同版本指標(biāo)的比較,確保經(jīng)過驗證的新模型得以部署,實現(xiàn)數(shù)據(jù)和模型的持續(xù)優(yōu)化。圖66:特斯拉數(shù)據(jù)引擎示意圖影子模式加速數(shù)據(jù)采集,訓(xùn)練質(zhì)量有望大幅提升。特斯拉通過影子模式實現(xiàn)了量產(chǎn)車上的自動駕駛系統(tǒng)和傳感器的持續(xù)運行與數(shù)據(jù)采集。在有人駕駛狀態(tài)下,系統(tǒng)進(jìn)行模擬決策并與駕駛員行為對比,不一致時觸發(fā)數(shù)據(jù)回傳,從而積累大量“極端工況”數(shù)據(jù)。這種模式不僅利用了量產(chǎn)車的廣泛覆蓋和低成本優(yōu)勢,還顯著加速了數(shù)據(jù)的收集和訓(xùn)練模型的質(zhì)量提升。截至2024年4月底,特斯拉全自動駕駛(FSD)用戶的累計行駛里程已超過13億英里,隨著更多駕駛員試用并可能訂購FSD,這一數(shù)字有望出現(xiàn)大幅增長。圖67:特斯拉FSD用戶的累計行駛里程已超過13億英里影子模式是特斯拉自動駕駛系統(tǒng)中的關(guān)鍵技術(shù),通過內(nèi)置的觸發(fā)器記錄異常情況。在2021年CVPRWAD會議上,該模式已集成了221個觸發(fā)器。當(dāng)異常被觸發(fā)時,影子模式會捕獲異常發(fā)生前后的原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過清洗后,一部分形成了驗證集,而其余數(shù)據(jù)則通過離線自動標(biāo)注算法生成標(biāo)簽。結(jié)合真實數(shù)據(jù)和標(biāo)簽,以及仿真和手動校準(zhǔn)的數(shù)據(jù),形成了綜合訓(xùn)練數(shù)據(jù)集。這個數(shù)據(jù)集被用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法。同時,該數(shù)據(jù)集也用于訓(xùn)練云端的離線模型,包括重建模型、感知模型的自動標(biāo)注以及基于優(yōu)化的規(guī)劃模型。隨著在線算法的更新和新數(shù)據(jù)的采集,影子模式再次捕獲關(guān)鍵案例,并通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論