關(guān)于端到端自動駕駛的四個常見誤區(qū)

上傳人：1*** IP屬地：湖南上傳時間：2024-10-25 格式：DOCX 頁數(shù)：9 大?。?.88MB 積分：9.6 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

01疑惑一：端到端感知，端到端

決策規(guī)劃都可以算作是

端到端自動駕駛？首先端到端自動駕駛的定義基本上大家明確了是指從傳感器輸入開始到規(guī)劃甚至控制信號輸出（馬斯克所說PhotontoControl）中間所有的步驟都是端到端可導(dǎo)，這樣整個系統(tǒng)可以作為一個大模型進行梯度下降的訓(xùn)練，通過梯度反向傳播可以在模型訓(xùn)練期間對模型從輸入到輸出之間的全部環(huán)節(jié)進行參數(shù)更新優(yōu)化，從而能夠針對用戶直接感知到的駕駛決策軌跡，優(yōu)化整個系統(tǒng)的駕駛行為。而最近一些友商在宣傳端到端的自動駕駛的過程中聲稱自己是端到端感知，或者端到端的決策，但這二者其實我認為都不能算作是端到端的自動駕駛，而只能被稱作純數(shù)據(jù)驅(qū)動的感知和純數(shù)據(jù)驅(qū)動的決策規(guī)劃。甚至有的人將模型出決策，再結(jié)合傳統(tǒng)方法來做安全校驗和軌跡優(yōu)化的混合策略也叫做端到端規(guī)劃，另外也有說法認為TeslaV12并不是純粹的模型輸出控制信號，應(yīng)該也是結(jié)合了一些規(guī)則方法的混合策略，根據(jù)就是http://X.com上的著名Tesla黑客Green前段時間發(fā)過一條twitter稱在V12技術(shù)棧里還是能夠發(fā)現(xiàn)規(guī)則的代碼。對此我的理解是Green發(fā)現(xiàn)的代碼很可能是V12高速技術(shù)棧保留的V11版本代碼，因為我們知道目前V12其實只是用端到端替換了原本城市技術(shù)棧，高速仍舊會切回V11的方案，因此在破解的代碼中找到一些規(guī)則代碼的只言片語并不代表V12是假“端到端”而是找到的很可能是高速的代碼。實際上我們從2022年的AIDay上就可以看出，V11及以前的版本已經(jīng)是混合方案，因此V12如果不是徹底的模型直出軌跡，那么方案上就和之前的版本沒有什么本質(zhì)的區(qū)別了，如果是這樣V12的性能跳躍性提升又沒辦法合理的解釋了。關(guān)于Tesla之前的方案可以參考我的AIDay解讀EatElephant：TeslaAIDay2022-萬字解讀：堪稱自動駕駛春晚，去中心化的研發(fā)團隊，野心勃勃的向AI技術(shù)公司轉(zhuǎn)型。從2022年AIDay上來看，V11已經(jīng)是混合了NNPlanner的規(guī)劃方案總而言之，無論是感知后處理代碼，還是規(guī)劃的候選軌跡打分，甚至是安全兜底策略，一旦引入了規(guī)則的代碼，有了ifelse的分支，整個系統(tǒng)的梯度傳遞就會被截斷，這也就損失了端到端系統(tǒng)通過訓(xùn)練獲得全局優(yōu)化的最大優(yōu)勢。02疑惑二：端到端是

對之前技術(shù)的推倒重來？另一個常見的誤區(qū)是端到端就是推翻了之前積累的技術(shù)進行徹底的新技術(shù)的革新，并且很多人覺得既然Tesla剛剛實現(xiàn)了端到端自動駕駛系統(tǒng)的用戶推送，那么其他廠商根本不用再在原本感知，預(yù)測，規(guī)劃的模塊化技術(shù)棧上迭代，大家直接進入端到端的系統(tǒng)，反而可以憑借后發(fā)優(yōu)勢快速追上甚至趕超Tesla。確實以一個大模型來完成從傳感器輸入到規(guī)劃控制信號的映射是最為徹底的端到端，也很早就有公司嘗試過類似的方法，例如Nvidia的DAVE-2和Wayve等公司就使用了類似的方法。這種徹底的端到端技術(shù)確實更接近黑盒，很難進行debug和迭代優(yōu)化，同時由于傳感器輸入信號如圖像，點云等是非常高緯度的輸入空間，輸出控制信號如方向盤轉(zhuǎn)角和油門剎車踏板是相對輸入來說非常低維的輸出空間。由高維空間向低維空間的映射是由非常多的可行映射，然而這其中真正對應(yīng)正確可靠邏輯的映射則只是其中一個映射，也就是說直接進行這樣的端到端訓(xùn)練非常容易過擬合，導(dǎo)致實車測試完全無法使用。徹底的端到端系統(tǒng)也會使用一些常見的如語義分割，深度估計等輔助任務(wù)幫助模型收斂和debug所以我們實際看到的FSDV12保留了幾乎所有之前的可視化內(nèi)容，這表明FSDV12是在原本強大的感知的基礎(chǔ)上進行的端到端訓(xùn)練，從2020年10月開始的FSD迭代并沒有被拋棄，反而是成為了V12堅實的技術(shù)基礎(chǔ)。AndrejKarparthy之前也回答過類似問題，他雖然沒有參與V12的研發(fā)，但他認為所有之前的技術(shù)積累并沒有被拋棄，只是從臺前遷移到了幕后。所以端到端是在原有技術(shù)基礎(chǔ)上一步步去掉個部分的規(guī)則代碼逐漸實現(xiàn)的端到端可導(dǎo)。V12保留了FSD幾乎所有的感知，只取消了椎桶等有限的可視化內(nèi)容03疑惑三：學(xué)術(shù)Paper中的端到端

能否遷移到實際產(chǎn)品中？UniAD成為2023年CVPRBestPaper無疑代表了學(xué)術(shù)界對端到端的自動駕駛系統(tǒng)寄予的厚望。從2021年Tesla介紹了其視覺BEV感知技術(shù)的創(chuàng)新后，國內(nèi)學(xué)術(shù)界在自動駕駛BEV感知方面投入了非常大的熱情，并誕生了一些列研究，推動了BEV方法的性能優(yōu)化和落地部署，那么端到端是否也能走一條類似的路線，由學(xué)術(shù)界引領(lǐng)，產(chǎn)業(yè)界跟隨從而推動端到端技術(shù)在產(chǎn)品上的快速迭代落地呢？我認為是比較難的。首先BEV感知還是一個相對模塊化的技術(shù)，更多是算法層面，且入門級性能對數(shù)據(jù)量的需求沒有那么高，高質(zhì)量的學(xué)術(shù)開源數(shù)據(jù)集Nuscenes的推出為很多BEV研究提供了便利的前置條件，在Nuscenes上迭代的BEV感知方案雖然無法達到產(chǎn)品級性能要求，但是作為概念驗證和模型選型，是具有很大借鑒價值的。然而學(xué)術(shù)界缺乏大規(guī)模的端到端可用數(shù)據(jù)。目前最大規(guī)模的Nuplan數(shù)據(jù)集包含了4個城市1200小時的實車采集數(shù)據(jù)，然而在2023年的一次財報會議上，Musk表示對于端到端的自動駕駛“訓(xùn)練了100萬個視頻case，勉強可以工作；200萬個，稍好一些；300萬個，就會感到Wow；到了1000萬個，它的表現(xiàn)就變得難以置信了”。Tesla的Autopilot回傳數(shù)據(jù)普遍認為是1min的片段，那么入門級別的100w視頻case大概就是16000小時，比最大的學(xué)術(shù)數(shù)據(jù)集至少多一個數(shù)量級以上，這里還是要注意nuplan是連續(xù)采集數(shù)據(jù)，因此在數(shù)據(jù)的分布和多樣性上有著致命的缺陷，絕大多數(shù)數(shù)據(jù)都是簡單場景，這也就意味著使用nuplan這樣的學(xué)術(shù)數(shù)據(jù)集甚至無法獲得一個能夠勉強上車的版本。Nuplan數(shù)據(jù)集已經(jīng)是非常巨大規(guī)模的學(xué)術(shù)數(shù)據(jù)集，然而作為端到端方案的探索可能還遠遠不夠于是我們看到包括UniAD在內(nèi)的絕大多數(shù)端到端自動駕駛方案都無法實車運行，而只能退而求其次進行開環(huán)評測。而開環(huán)評測指標的可靠度非常低，因為開環(huán)評測無法識別出模型混淆因果的問題，所以模型即使只學(xué)到了利用歷史路徑外插也能獲得非常好的開環(huán)指標，但這樣的模型是完全不可用的，2023年百度曾經(jīng)發(fā)表一篇叫做AD-MLP的Paper來討論開環(huán)規(guī)劃評測指標的不足，這篇Paper僅僅是用了歷史信息，而沒有引入任何感知，就獲得了非常不錯的開環(huán)評測指標，甚至接近一些目前的SOTA工作，然而顯而易見，沒有人能在閉上眼睛的情況下開好車！ADMLP通過不依賴感知輸入取得不錯的開環(huán)指標來說明用開環(huán)指標作為參考實際意義不大那么閉環(huán)方針驗證是否能夠解決開環(huán)模仿學(xué)習(xí)的問題呢？至少目前來講學(xué)術(shù)界普遍依賴的CARLA閉環(huán)仿真系統(tǒng)來進行端到端的研發(fā)，但是基于游戲引擎的CARLA獲得的模型也很難遷移到現(xiàn)實世界來。04疑惑四：端到端自動駕駛

僅僅是一次算法革新？最后端到端不僅僅是一個新的算法那么簡單。模塊化的自動駕駛系統(tǒng)不同模塊的模型可以使用各自任務(wù)的數(shù)據(jù)分別迭代訓(xùn)練，然而端到端系統(tǒng)各個功能是同時進行訓(xùn)練的，這就要求訓(xùn)練數(shù)據(jù)具有極高的一致性，每條數(shù)據(jù)要對所有子任務(wù)標簽都進行標注，一旦一種任務(wù)標注失敗，那這條數(shù)據(jù)就很難在端到端訓(xùn)練任務(wù)中使用了，這對于自動標注Pipeline的成功率和性能提出了極高的要求。其次端到端系統(tǒng)因為需要所有模塊都達到一個較高的性能水平才能在端到端的決策規(guī)劃輸出任務(wù)中達成較好的效果，因此普遍認為端到端系統(tǒng)數(shù)據(jù)門檻遠高于各個單個模塊的數(shù)據(jù)需求，而數(shù)據(jù)的門檻不僅是對絕對數(shù)量的要求，還對于數(shù)據(jù)的分布和多樣性要求極高，這就是得自己沒有車輛的完全控制權(quán)，不得不適配多個擁有不同車型客戶的供應(yīng)商在開發(fā)端到端系統(tǒng)時候可能遇到較大的困難。在算力門檻上，Musk曾在今年三月初在http://X.com上表示目前FSD的最大限制因素是算力，而在最近馬老板則表示他們的算力問題得到了很大的環(huán)節(jié)，幾乎就在同一時間在2024年Q1財報會議上Tesla透露如今他們已經(jīng)擁有35000塊H100的計算資源，并透漏在2024年底這一數(shù)字將達到85000塊。毫無疑問Tesla擁有非常強大的算力工程優(yōu)化能力，這意味著要達到FSDV12目前的水平，大概率35000塊H100和數(shù)十億美金的基礎(chǔ)設(shè)施資本開銷是必要前提，如果在算力使用方面不如Tesla高效，那么可能這一門檻會被進一步拔高。3月初馬斯克表示FSD的迭代主要限制因素是算力4月初馬斯克表示今年Tesla在算力方面的總投入將超過100億美元另外有網(wǎng)友分享了一張Nvidia汽車行業(yè)的高管NormMarks在今年某次會議的截圖，從中可以看出截止到2023年底，Tesla所擁有的NV顯卡數(shù)量在柱狀圖上是完全爆表的存在（左圖最右側(cè)綠的箭頭，中間文字說明了這個排名第一的OEM所擁有的NV顯卡數(shù)量>7000個DGX節(jié)點，這個OEM顯然就是Tesla，每個節(jié)點按照8卡計算，23年底Tesla大概有A100顯卡超過56000卡，比排名第二的OEM多出四倍以上，這里我理解不包括2024年新購入的35000卡新款H100），再結(jié)合美國對出口中國顯卡的限制政策，想要趕超這一算力的難度變得更加困難。NormMarks在某次內(nèi)部分享截圖除了上述數(shù)據(jù)算力挑戰(zhàn)外，端到端的系統(tǒng)會遇到什么樣的新挑戰(zhàn)，如何保證系統(tǒng)的可控性，如何盡早發(fā)現(xiàn)問題，通過數(shù)據(jù)驅(qū)動的方式解決問題，并且在無法利用規(guī)則代碼的情況下快速迭代，目

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于端到端自動駕駛的四個常見誤區(qū)

文檔簡介

溫馨提示

最新文檔

評論

關(guān)于端到端自動駕駛的四個常見誤區(qū)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔