人工智能十年展望(六):ChatGPT興起創(chuàng)成式AI能否重塑工具軟件底層邏輯?2022 -中金_第1頁(yè)
人工智能十年展望(六):ChatGPT興起創(chuàng)成式AI能否重塑工具軟件底層邏輯?2022 -中金_第2頁(yè)
人工智能十年展望(六):ChatGPT興起創(chuàng)成式AI能否重塑工具軟件底層邏輯?2022 -中金_第3頁(yè)
人工智能十年展望(六):ChatGPT興起創(chuàng)成式AI能否重塑工具軟件底層邏輯?2022 -中金_第4頁(yè)
人工智能十年展望(六):ChatGPT興起創(chuàng)成式AI能否重塑工具軟件底層邏輯?2022 -中金_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證證券研究報(bào)告2022.01.27軟件及服務(wù)人工智能十年展望(三):AI視角下的自動(dòng)駕駛行業(yè)全解析xingyuchencicccomcnuedengcicccomcnonghaiyucicccomcn相對(duì)值(相對(duì)值(%) 滬深300中金軟件及服務(wù)1-012021-042021-072021-102022-012022E2023E跑贏行業(yè)6.848.6跑贏行業(yè)21.00.7技?軟件及服務(wù)|人工智能十年展望(二):邊際成本決定競(jìng)主導(dǎo)格局優(yōu)化(2021.08.22)?軟件及服務(wù)|人工智能十年展望(一):底層模擬人腦,上限(2021.07.13)更多作者及其他信息請(qǐng)見文末披露頁(yè)投資建議自動(dòng)駕駛是AI落地的重要場(chǎng)景之一,2012年之后深度學(xué)習(xí)技術(shù)快速發(fā)展帶動(dòng)自動(dòng)駕駛技術(shù)迅速進(jìn)步,近年來(lái)Transformer大模型等技術(shù)進(jìn)一步提升了自動(dòng)駕駛算法能力,2022年開始落地的大算力芯片及車廠自建AIDC的趨勢(shì)也為大模型提供了底層支持,我們看好中長(zhǎng)期自動(dòng)駕駛行業(yè)的發(fā)展,在數(shù)據(jù)端具備優(yōu)勢(shì)的廠商有望率先實(shí)現(xiàn)突破。理由深度學(xué)習(xí)是自動(dòng)駕駛技術(shù)發(fā)展的分水嶺,近年來(lái)Transformer大模型是重要產(chǎn)業(yè)趨勢(shì),算法是各大廠商大力布局的核心能力。深度學(xué)習(xí)作為“軟件2.0”,是自動(dòng)駕駛發(fā)展的核心驅(qū)動(dòng)力,在感知層面大幅提高圖像識(shí)別準(zhǔn)確率,在決策層面xunxishe1深度強(qiáng)化學(xué)習(xí)有效提升算法能力。我們認(rèn)為未來(lái)深度強(qiáng)化學(xué)習(xí)與傳統(tǒng)專家規(guī)則將會(huì)廣泛共存。以Transformer為代表的大模型由于在海量數(shù)據(jù)預(yù)訓(xùn)練、魯棒性、泛化能力方面較CNN優(yōu)勢(shì)明顯而成為主流路線,其出現(xiàn)也使得掌握數(shù)據(jù)優(yōu)勢(shì)的企業(yè)能形成高效的數(shù)據(jù)閉環(huán),有望為自動(dòng)駕駛算法帶來(lái)顛覆性突破。數(shù)據(jù)是決定量產(chǎn)能力的勝負(fù)手。深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的AI,需要海量數(shù)據(jù)“喂養(yǎng)”。數(shù)據(jù)獲取依賴車載傳感器:特斯拉堅(jiān)持選擇視覺攝像頭主導(dǎo)的傳感器方案,完成數(shù)據(jù)閉環(huán),構(gòu)建深厚壁壘;其他廠商選擇激光雷達(dá)、攝像頭等多傳感器融合方案,激光雷達(dá)降價(jià)速度是行業(yè)發(fā)展關(guān)鍵,我們認(rèn)為未來(lái)激光雷達(dá)作為安全冗余具有現(xiàn)實(shí)需求。此外,數(shù)據(jù)量是兩類方案競(jìng)爭(zhēng)的核心要素,數(shù)據(jù)標(biāo)注的自動(dòng)化水平、標(biāo)注質(zhì)量和效率是關(guān)鍵競(jìng)爭(zhēng)點(diǎn)。算力現(xiàn)階段決定自動(dòng)駕駛技術(shù)上限,巨頭紛紛先行布局。高級(jí)自動(dòng)駕駛中算力先行于算法,目前自動(dòng)駕駛AI芯片呈以英偉達(dá)為主導(dǎo)的“一超多強(qiáng)”格局,特斯拉引領(lǐng)域控制器架構(gòu)變革,催化芯片廠商格局變化與量產(chǎn)進(jìn)程,2022是自動(dòng)駕駛大算力芯片開啟的元年。我們預(yù)計(jì)未來(lái)芯片競(jìng)爭(zhēng)中大算力與能效比為首要競(jìng)爭(zhēng)要素,開放性生態(tài)的重要性日趨提升。云端層面,AIDC提供處理大量回傳數(shù)據(jù)所需的大算力,對(duì)于訓(xùn)練大模型至關(guān)重要,特斯拉等巨頭在技術(shù)和資金方面具備天然優(yōu)勢(shì)。類似自有電商業(yè)務(wù)需求孕育了亞馬遜、阿里巴巴等CPU時(shí)代云計(jì)算巨頭,我們認(rèn)為自動(dòng)駕駛等AI巨頭具備GPU/ASIC云計(jì)算市場(chǎng)的天然先發(fā)優(yōu)勢(shì)。盈利預(yù)測(cè)與估值建議關(guān)注毫末智行(未上市)、小馬智行(未上市)、圖森未來(lái)、馭勢(shì)科技(未上市)、momenta(未上市)。風(fēng)險(xiǎn)技術(shù)進(jìn)步不及預(yù)期、行業(yè)競(jìng)爭(zhēng)加劇、政策風(fēng)險(xiǎn)。在本報(bào)告尾部的重要法律聲明1算法:深度學(xué)習(xí)為自動(dòng)駕駛發(fā)展分水嶺,大模型是重要趨勢(shì) 5深度學(xué)習(xí)是自動(dòng)駕駛技術(shù)發(fā)展的分水嶺及底層推動(dòng)力 5Transformer等大模型是人工智能產(chǎn)業(yè)的重要趨勢(shì) 11感知算法:多傳感器數(shù)據(jù)融合+定位,實(shí)現(xiàn)車輛環(huán)境感知 15決策算法:自動(dòng)駕駛中的核心挑戰(zhàn)與難點(diǎn) 19數(shù)據(jù):決定量產(chǎn)能力的勝負(fù)手 23深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的AI,數(shù)據(jù)積累是現(xiàn)階段自動(dòng)駕駛核心競(jìng)爭(zhēng)點(diǎn) 23視覺vs激光雷達(dá)?算法、成本、數(shù)據(jù)綜合作用下的最優(yōu)解 24數(shù)據(jù)體系的自動(dòng)化水平、效率是關(guān)鍵競(jìng)爭(zhēng)點(diǎn) 28算力:大算力芯片元年開啟,AIDC助力大模型能力躍升 33車端:2022開啟大算力芯片落地元年 33云端:AIDC提供強(qiáng)算力后盾,助力算法模型能力快速提升 37圖表1:全文章節(jié)結(jié)構(gòu)框架 4圖表2:典型自動(dòng)駕駛技術(shù)架構(gòu):感知、決策、執(zhí)行 5圖表3:自動(dòng)駕駛與人工智能發(fā)展歷程對(duì)比 6圖表4:特斯拉FSD自動(dòng)駕駛系統(tǒng)深度學(xué)習(xí)代碼比例不斷提升 7圖表5:深度學(xué)習(xí)使得2012-2016年ImageNet圖像識(shí)別錯(cuò)誤率快速下降 7圖表6:強(qiáng)化學(xué)習(xí)在深度學(xué)習(xí)出現(xiàn)后進(jìn)入發(fā)展新階段 8圖表7:典型的“感知-決策-控制序列式架構(gòu) 9圖表8:端到端技術(shù)架構(gòu)舉例 9圖表9:數(shù)據(jù)驅(qū)動(dòng)的決策規(guī)劃、模塊化方法和端到端方法的對(duì)比 9圖表10:各主流自動(dòng)駕駛玩家發(fā)展時(shí)間節(jié)點(diǎn)梳理 10圖表11:深度學(xué)習(xí)之后的AI模型對(duì)于計(jì)算量的需求加速增長(zhǎng),6年增加30萬(wàn)倍 11圖表12:近年來(lái)國(guó)內(nèi)外主要AI巨模型 11圖表13:不同參數(shù)量GPT-3模型的十項(xiàng)計(jì)算任務(wù)準(zhǔn)確率 11圖表14:VisionTransformer的典型網(wǎng)絡(luò)結(jié)構(gòu) 12圖表15:特斯拉利用Transformer實(shí)現(xiàn)多攝像頭數(shù)據(jù)融合 13圖表16:隨著數(shù)據(jù)量提升,VisionTransformer的預(yù)訓(xùn)練效果優(yōu)于CNN 14圖表17:特斯拉量產(chǎn)車數(shù)量增長(zhǎng)趨勢(shì) 15圖表18:典型車型車載傳感器配置情況 15圖表19:自動(dòng)駕駛各類傳感器對(duì)比 15圖表20:典型自動(dòng)駕駛車輛傳感器基本配置 16圖表21:前融合(緊耦合)將多傳感器結(jié)合使用 16圖表22:后融合(松耦合)將各自傳感器結(jié)果再融合 16圖表23:特斯拉感知算法結(jié)構(gòu)分為四大部分 17圖表24:多傳感器融合定位算法流程示意圖 18圖表25:高精度地圖預(yù)制過(guò)程 18圖表26:SLAM模型生成 18圖表27:自動(dòng)駕駛決策規(guī)劃分類 19在本報(bào)告尾部的重要法律聲明2圖表28:場(chǎng)景感知是感知與決策的交匯環(huán)節(jié) 20圖表29:感知系統(tǒng)與決策系統(tǒng)的對(duì)接方式 20圖表30:規(guī)劃控制核心目標(biāo)是實(shí)現(xiàn)安全、舒適、效率三者最佳平衡 21圖表31:強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)相結(jié)合夠解決真實(shí)環(huán)境下各種各樣的視覺運(yùn)動(dòng)任務(wù) 21圖表32:特斯拉混合規(guī)劃系統(tǒng)的五個(gè)步驟 22圖表33:數(shù)據(jù)驅(qū)動(dòng)的AI 23圖表34:自動(dòng)駕駛能力發(fā)展曲線 23圖表35:主流車型傳感器配置方案 24圖表36:自動(dòng)駕駛廠商累計(jì)加州路測(cè)里程數(shù) 24圖表37:人與特斯拉自動(dòng)駕駛能力體系對(duì)比 25圖表38:特斯拉Autopilot里程數(shù) 26圖表39:激光雷達(dá)價(jià)格走勢(shì),2017-2023E 27圖表40:多傳感器數(shù)據(jù)融合過(guò)程 27圖表41:毫末自動(dòng)駕駛數(shù)據(jù)智能體系MANA 28圖表42:云測(cè)數(shù)據(jù)開發(fā)的自動(dòng)駕駛標(biāo)注工具集示例 29圖表43:特斯拉OperationVacation(運(yùn)營(yíng)假期)模式 30圖表44:特斯拉數(shù)據(jù)生產(chǎn)的三個(gè)階段 30圖表45:特斯拉“影子模式”(ShadowMode)原理 31圖表46:特斯拉HydraNet網(wǎng)絡(luò) 32圖表47:自動(dòng)駕駛各級(jí)別對(duì)應(yīng)像素?cái)?shù)、數(shù)據(jù)量以及算力需求(估計(jì)值) 33圖表48:各供應(yīng)商自動(dòng)駕駛芯片發(fā)展進(jìn)程概覽 35圖表49:各供應(yīng)商自動(dòng)駕駛芯片發(fā)展進(jìn)程概覽 35圖表50:巨頭競(jìng)爭(zhēng)節(jié)奏時(shí)間軸 36圖表51:四品牌智能駕駛芯片競(jìng)爭(zhēng)優(yōu)勢(shì) 37圖表52:GPU迭代速度慢于模型參數(shù)迭代速度,催生更大算力需求 38圖表53:特斯拉D1芯片提供充足帶寬,速度遠(yuǎn)快于GPU 38圖表54:全球主要超算中心排名(按FP32算力) 39圖表55:特斯拉與谷歌AI超算中心 39在本報(bào)告尾部的重要法律聲明3第一章:深度學(xué)習(xí)使得自動(dòng)駕駛高速發(fā)展,大模型讓自動(dòng)駕駛向最終形態(tài)持續(xù)迭代深度學(xué)習(xí)是自動(dòng)駕駛的分水嶺Transformer大模型是重要發(fā)展方向深度學(xué)習(xí)驅(qū)動(dòng)自動(dòng)駕駛加速發(fā)展感知算法直接受益于深度學(xué)習(xí)紅利決策算法受益于深度學(xué)習(xí)的端到端路線多方入局自動(dòng)駕駛,深度學(xué)習(xí)是重點(diǎn)Transformer較傳統(tǒng)CNN優(yōu)勢(shì)領(lǐng)域:?大規(guī)模數(shù)據(jù)訓(xùn)練:訓(xùn)練數(shù)據(jù)不易飽和解決圖像擾動(dòng)、遮擋Transformer賦能算法模型:預(yù)訓(xùn)練模型性能、降低成本感知算法:車輛的眼睛?定位:高精度地圖、SLAM?第一章:深度學(xué)習(xí)使得自動(dòng)駕駛高速發(fā)展,大模型讓自動(dòng)駕駛向最終形態(tài)持續(xù)迭代深度學(xué)習(xí)是自動(dòng)駕駛的分水嶺Transformer大模型是重要發(fā)展方向深度學(xué)習(xí)驅(qū)動(dòng)自動(dòng)駕駛加速發(fā)展感知算法直接受益于深度學(xué)習(xí)紅利決策算法受益于深度學(xué)習(xí)的端到端路線多方入局自動(dòng)駕駛,深度學(xué)習(xí)是重點(diǎn)Transformer較傳統(tǒng)CNN優(yōu)勢(shì)領(lǐng)域:?大規(guī)模數(shù)據(jù)訓(xùn)練:訓(xùn)練數(shù)據(jù)不易飽和解決圖像擾動(dòng)、遮擋Transformer賦能算法模型:預(yù)訓(xùn)練模型性能、降低成本感知算法:車輛的眼睛?定位:高精度地圖、SLAM?多傳感器融合形成組合感知網(wǎng)絡(luò)決策算法:自動(dòng)駕駛的核心挑戰(zhàn):輸出場(chǎng)景和物體的表達(dá)?駕駛行為決策:安全、舒適、效率的均衡平滑的運(yùn)動(dòng)軌跡第二章:數(shù)據(jù)的積累是向高級(jí)自動(dòng)駕駛迭代的必經(jīng)之路自動(dòng)駕駛由數(shù)據(jù)驅(qū)動(dòng)傳感器路線之爭(zhēng):視覺主導(dǎo)&激光雷達(dá)數(shù)據(jù)體系的效率是關(guān)鍵數(shù)據(jù)標(biāo)注:手工標(biāo)注、自動(dòng)標(biāo)注、模擬迭代激光雷達(dá)視覺主導(dǎo)數(shù)據(jù) 部署更新通過(guò)數(shù)據(jù)、訓(xùn)練、部署的模型優(yōu)化閉環(huán),不斷解決Cornercase問題?優(yōu)點(diǎn):可靠性高,精準(zhǔn)感知速度和距離?缺點(diǎn):數(shù)據(jù)信噪比低、雨雪天氣易受影響機(jī)械式混合固態(tài)純固態(tài)成本持續(xù)下降人眼=攝像頭大腦=神經(jīng)網(wǎng)絡(luò)通過(guò)海量數(shù)據(jù)持續(xù)迭代M(x)是將數(shù)據(jù)轉(zhuǎn)化成知識(shí)的函數(shù),包括:獲取表達(dá)存儲(chǔ)傳輸計(jì)算驗(yàn)證成本速度深度學(xué)習(xí)需要海量數(shù)據(jù)投喂數(shù)據(jù)積累依賴傳感器的配置自動(dòng)駕駛能力曲線:數(shù)據(jù)、算法、算力、成本綜合作用下的最優(yōu)解第三章:邊緣端大算力芯片趨勢(shì)明顯,云端AIDC軍備競(jìng)賽格局初現(xiàn)邊緣端云端AIDC的必要性自動(dòng)駕駛芯片受益于硬件先行域控制器架構(gòu)轉(zhuǎn)換、自動(dòng)駕駛軟硬件解耦大量MCU芯片域控制器架構(gòu)少量大算力芯片(TOPS)0100320~1,000AIDC并行算力決定了自動(dòng)駕駛的迭代速度型、降低算法成本800400芯片算力要求提高、市場(chǎng)變大導(dǎo)致消費(fèi)級(jí)芯片巨頭入場(chǎng)-L2L3L4L5巨頭建超算中心具備天然優(yōu)勢(shì),AIDC將進(jìn)一步鞏固OEM地位2022年為自動(dòng)駕駛大算力芯片量產(chǎn)上車的元年算算法:深度學(xué)習(xí)助推行模型是趨勢(shì)數(shù)據(jù):決定數(shù)據(jù):決定量產(chǎn)能力的勝負(fù)手算算力:決定上限,巨頭軍備競(jìng)賽格局初現(xiàn)資料來(lái)源:中金公司研究部在本報(bào)告尾部的重要法律聲明4油門/制動(dòng)踏板開度轉(zhuǎn)向盤轉(zhuǎn)角算法:深度學(xué)習(xí)為自動(dòng)駕駛發(fā)展分水嶺,大模型是重要油門/制動(dòng)踏板開度轉(zhuǎn)向盤轉(zhuǎn)角深度學(xué)習(xí)是自動(dòng)駕駛技術(shù)發(fā)展的分水嶺及底層推動(dòng)力算法對(duì)于自動(dòng)駕駛的效果至關(guān)重要。自動(dòng)駕駛作為人工智能技術(shù)重要應(yīng)用場(chǎng)景之一,其技術(shù)體系由算法、算力、數(shù)據(jù)三部分構(gòu)成,其中算法的有效性影響自動(dòng)駕駛的每一個(gè)環(huán)節(jié),從感知環(huán)節(jié)的特征提取到神經(jīng)網(wǎng)絡(luò)的決策,都需要依賴算法改進(jìn)來(lái)提高障礙物檢測(cè)準(zhǔn)確性和復(fù)雜場(chǎng)景下的決策能力。典型的自動(dòng)駕駛技術(shù)架構(gòu)包括感知(定位)、決策、執(zhí)行三部分:?感知是自動(dòng)駕駛車輛的“眼睛”,通過(guò)各類傳感器對(duì)行駛路徑進(jìn)行識(shí)別,定位和追蹤車輛周圍物體以獲取車輛環(huán)境信息,并融合、處理環(huán)境信息及車內(nèi)信息。用于自動(dòng)駕駛感知的傳感器主要包括激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá)及視覺傳感器,其中視覺傳感器又包括單目和多目彩色攝像頭。?決策是自動(dòng)駕駛車輛的“大腦”,對(duì)道路拓?fù)浣Y(jié)構(gòu)信息、實(shí)時(shí)交通信息、交通參與者信息和車輛自身狀態(tài)等感知數(shù)據(jù)進(jìn)行進(jìn)一步分析,做出決策和預(yù)測(cè)后給出車輛控制策略并發(fā)出相應(yīng)指令,決策系統(tǒng)主要包括車輛行為決策模塊及軌跡規(guī)劃模塊。?執(zhí)行是自動(dòng)駕駛車輛的“手腳”。接收決策系統(tǒng)給出的指令,通過(guò)車輛穩(wěn)定系統(tǒng)ESC、線控制動(dòng)eBooster、線控轉(zhuǎn)向EPS等執(zhí)行機(jī)構(gòu)精確地控制加速程度、制動(dòng)程度、轉(zhuǎn)向幅度、燈光控制等駕駛動(dòng)作。圖表2:典型自動(dòng)駕駛技術(shù)架構(gòu):感知、決策、執(zhí)行知環(huán)環(huán)境狀態(tài)激光雷達(dá)波超聲波視覺傳感器GPS慣性導(dǎo)航輪速傳感器信息融合 決策決決策系統(tǒng)(廣義決策)前車輛行為車輛運(yùn)動(dòng)目標(biāo)點(diǎn)目標(biāo)車速軌跡規(guī)劃模塊行為決策模塊(狹義決策)控制底盤及附件檔位檔位控制踏踏板控制轉(zhuǎn)角轉(zhuǎn)角控制&&車輛運(yùn)動(dòng)路徑跟蹤系統(tǒng)資料來(lái)源:《自動(dòng)駕駛技術(shù)概論》(王建、徐國(guó)艷、陳競(jìng)凱、馮宗寶,2019),中金公司研究部在本報(bào)告尾部的重要法律聲明5自動(dòng)駕駛發(fā)展歷程人工智能發(fā)展歷程初期緩慢發(fā)展階段(1970-1999)穩(wěn)定發(fā)展階段(2000-2013)技術(shù)進(jìn)入加速發(fā)展期自動(dòng)駕駛發(fā)展歷程人工智能發(fā)展歷程初期緩慢發(fā)展階段(1970-1999)穩(wěn)定發(fā)展階段(2000-2013)自動(dòng)駕駛技術(shù)的發(fā)展分為三個(gè)階段,1970年代興起于自科研機(jī)構(gòu),2000年科技巨頭入局,但發(fā)展進(jìn)程較緩。2012年以Hindon在ImageNet大賽中引入深度學(xué)習(xí)算法為節(jié)點(diǎn),深度學(xué)習(xí)進(jìn)入蓬勃發(fā)展期。次年,自動(dòng)駕駛作為AI的重要落地應(yīng)用之一,進(jìn)入高速發(fā)展快車道。?1970s-1999:科研機(jī)構(gòu)及學(xué)術(shù)院校推動(dòng)無(wú)人駕駛興起。1984年美國(guó)國(guó)防高級(jí)研究計(jì)劃署DAPRA(TheDefenseAdvancedResearchProjectsAgency)聯(lián)合陸軍共同發(fā)起了自主地面車輛ALV(AutonomousLandVehicle)研究計(jì)劃;這段時(shí)期國(guó)外著名大學(xué)也先后開始無(wú)人駕駛汽車的研究,如美國(guó)卡內(nèi)基·梅隆大學(xué)NavLab智能車輛、意大利帕爾瑪大學(xué)ARGO試驗(yàn)車等。?2000-2013:DAPRA無(wú)人駕駛挑戰(zhàn)賽激起研究熱潮,科技巨頭入局。2004-2007年,DAPRA累計(jì)舉辦了三屆無(wú)人駕駛挑戰(zhàn)賽,激起更多科研機(jī)構(gòu)投入,目前主流的任務(wù)規(guī)劃、行為規(guī)劃、動(dòng)作規(guī)劃無(wú)人駕駛規(guī)劃系統(tǒng)的分層設(shè)計(jì)即成形于DAPRA城市挑戰(zhàn)賽;2009年,谷歌組建團(tuán)隊(duì)開始研發(fā)無(wú)人駕駛技術(shù)。?2014至今:車企全面布局,自動(dòng)駕駛開始加速式發(fā)展。2013年,奧迪、福特、沃爾沃、日產(chǎn)、寶馬等傳統(tǒng)汽車制造商紛紛布局無(wú)人駕駛汽車,國(guó)內(nèi)互聯(lián)網(wǎng)巨頭百度也開始了無(wú)人駕駛汽車的研發(fā),創(chuàng)業(yè)公司不斷涌現(xiàn),商業(yè)化進(jìn)程加速。2019年1月,NVIDIA在CES2019上推出全球首款商用L2級(jí)自動(dòng)駕駛系統(tǒng)。2021年12月,奔馳在德國(guó)獲批,成為全球首個(gè)L3級(jí)別自動(dòng)駕駛能夠上路行駛的汽車企業(yè)。圖表3:自動(dòng)駕駛與人工智能發(fā)展歷程對(duì)比高速發(fā)展階段(2014至今)汽車制造企業(yè)入局無(wú)人駕駛初創(chuàng)公司涌現(xiàn)全球第一輛由計(jì)算機(jī)駕駛的汽車NavLab11986DARPA與陸,汽車制造企業(yè)入局無(wú)人駕駛初創(chuàng)公司涌現(xiàn)全球第一輛由計(jì)算機(jī)駕駛的汽車NavLab11986DARPA與陸,發(fā)起ALV計(jì)劃ARGO試驗(yàn)車進(jìn)行長(zhǎng)距離道路試驗(yàn)百度L4級(jí)巴士“阿波龍”量產(chǎn)2004-2007三屆DARPA百度L4級(jí)巴士“阿波龍”量產(chǎn)2004-2007三屆DARPA無(wú)人駕駛挑戰(zhàn)賽特斯拉推出半自動(dòng)駕駛系統(tǒng)Autopilot2015谷歌組建團(tuán)隊(duì)研發(fā)無(wú)人駕駛技術(shù)谷歌Waymo開始測(cè)試其無(wú)人駕駛汽車20172018200920042007201820092004200719981984 1970200020122013符號(hào)主義:基于認(rèn)知心理學(xué)連接主義:釋放自主學(xué)習(xí)能符號(hào)主義:基于認(rèn)知心理學(xué)Hilton構(gòu)建CNN神經(jīng)網(wǎng)絡(luò)用戶用戶界面專家系統(tǒng)抽象規(guī)律識(shí)庫(kù)建議/指令 專家知識(shí)普通用戶樣本數(shù)據(jù)多層神經(jīng)網(wǎng)絡(luò)專家知識(shí)普通用戶樣本數(shù)據(jù)資料來(lái)源:CSDN,中金公司研究部深度學(xué)習(xí)是自動(dòng)駕駛技術(shù)發(fā)展的核心驅(qū)動(dòng)力,2012年為深度學(xué)習(xí)元年。2012年深度學(xué)習(xí)率先在圖像識(shí)別領(lǐng)域產(chǎn)生標(biāo)志性突破,由GeoffreyHinton課題組通過(guò)其構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)AlexNet成功將圖片識(shí)別錯(cuò)誤率降低了10.8pcts,引起了全球業(yè)界的高度關(guān)注,隨后幾年深度學(xué)習(xí)產(chǎn)業(yè)飛速發(fā)展,2015年斯坦福人工智能實(shí)驗(yàn)室主任李飛飛團(tuán)隊(duì)在ImageNet開放數(shù)據(jù)集上識(shí)別準(zhǔn)確率首次達(dá)到人類水平,也使得相關(guān)領(lǐng)域大規(guī)模的商業(yè)化落地成為可能。在本報(bào)告尾部的重要法律聲明68層神經(jīng)網(wǎng)絡(luò)2層神經(jīng)網(wǎng)絡(luò)16.40%8層神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)7.30%VGG22層神經(jīng)網(wǎng)絡(luò)6.70%GoogleNet3.50%ResNetNEC美國(guó)AlexNetClarifi自動(dòng)駕駛在深度神經(jīng)網(wǎng)絡(luò)算法出現(xiàn)后開啟了加速式發(fā)展。目標(biāo)檢測(cè)及圖像識(shí)別作為自動(dòng)駕駛的關(guān)鍵技術(shù),高度受益于深度學(xué)習(xí)算法的突破,成為人工智能算法率先落地的場(chǎng)景之一。特斯拉人工智能總監(jiān)AndrejKarparthy認(rèn)為深度學(xué)習(xí)為代表技術(shù)是軟件2.0,即以神經(jīng)網(wǎng)絡(luò)訓(xùn)練的形式編寫的代碼軟件,而軟件1.0則是由人類編寫的邏輯代碼的傳統(tǒng)方式。以特斯拉為例,其自動(dòng)駕駛深度學(xué)習(xí)網(wǎng)絡(luò)HydraNet包含48個(gè)神經(jīng)網(wǎng)絡(luò),能夠同時(shí)檢測(cè)1,000種物體,并正在越8層神經(jīng)網(wǎng)絡(luò)2層神經(jīng)網(wǎng)絡(luò)16.40%8層神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)7.30%VGG22層神經(jīng)網(wǎng)絡(luò)6.70%GoogleNet3.50%ResNetNEC美國(guó)AlexNetClarifi來(lái)越多地使用以神經(jīng)網(wǎng)絡(luò)訓(xùn)練的形式編寫的代碼軟件2.0代替人類編寫的邏輯代碼軟件1.0,來(lái)構(gòu)建其自動(dòng)駕駛策略。圖表4:特斯拉FSD自動(dòng)駕駛系統(tǒng)深度學(xué)習(xí)代碼比例不斷提升steering&accelerationsteering&acceleration軟件1.0軟件1.0軟件1.0軟件2.0軟件2.0軟件2.08Cameras8Cameras radar8Cameras8Cameras radarUUultrasonicUUultrasonics資料來(lái)源:特斯拉AIday,中金公司研究部整理感知算法在過(guò)去10年充分受益于深度學(xué)習(xí)帶來(lái)的性能紅利。感知模塊是目前自動(dòng)駕駛中深度學(xué)習(xí)應(yīng)用最廣泛的模塊,深度學(xué)習(xí)擁有多層非線性神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)⒌蛯犹卣髯儞Q成更為抽象的高層特征,并以無(wú)監(jiān)督或有監(jiān)督的方法對(duì)輸入特征進(jìn)行變換,從而提升了分類或預(yù)測(cè)的準(zhǔn)確性。尤其在計(jì)算機(jī)視覺感知領(lǐng)域,深度學(xué)習(xí)能夠提取出擁有自適應(yīng)特性的高層特征,有效適應(yīng)待識(shí)別目標(biāo)的外觀變化,模型魯棒性和泛化能力得到大幅提高。30%25%20%15%10% 5%0%深度學(xué)習(xí)使得2012-2016年ImageNet圖像識(shí)別錯(cuò)誤率快速下降28.20%25.80%XXerox2010201120122013201420152016資料來(lái)源:機(jī)器之心,中金公司研究部在本報(bào)告尾部的重要法律聲明7傳統(tǒng)強(qiáng)化學(xué)習(xí)在感知與求解能力瓶頸明顯。強(qiáng)化學(xué)習(xí)是一種典型的序貫決策方式,不要求預(yù)先給定訓(xùn)練數(shù)據(jù),而是通過(guò)接收環(huán)境對(duì)動(dòng)作的反饋獲得學(xué)習(xí)信息以迭代模型。強(qiáng)化學(xué)習(xí)側(cè)重于尋優(yōu)策略,對(duì)于事物的感知表達(dá)能力偏弱。在復(fù)雜的現(xiàn)實(shí)決策任務(wù)中,標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法無(wú)法對(duì)大規(guī)模輸入進(jìn)行抽象表征,有效求解策略的能力不足,因此應(yīng)用場(chǎng)景較為受限。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合蘊(yùn)含巨大想象空間。為解決強(qiáng)化學(xué)習(xí)的弊端,綜合高維數(shù)據(jù)抽象感知能力的深度強(qiáng)化學(xué)習(xí)算法(DeepReinforcementLearning,DRL)興起。2013年人工智能研究團(tuán)隊(duì)DeepMind提出深度Q網(wǎng)絡(luò)(DeepQNetwork,DQN)和蒙特卡洛樹搜索算法。基于該算法的圍棋程序,“AlphaGo”以4:1戰(zhàn)勝世界冠軍李世石,使得深度強(qiáng)化學(xué)習(xí)成為人工智能領(lǐng)域的新熱點(diǎn)。近年來(lái),深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的車道保持、超車決策、主動(dòng)制動(dòng)、交通流調(diào)度等多場(chǎng)景落地應(yīng)用,并不斷拓展其范圍邊界。圖表6:強(qiáng)化學(xué)習(xí)在深度學(xué)習(xí)出現(xiàn)后進(jìn)入發(fā)展新階段22021年及以后多應(yīng)用場(chǎng)景落地在面向真實(shí)世界的Robotics駛場(chǎng)景落地2015-2017年2019-2020年高速發(fā)展2019年,AlphaStar以10-1比分戰(zhàn)勝了星際爭(zhēng)霸頂級(jí)職業(yè)玩家。能力:在仿真環(huán)境下做比較復(fù)雜的特定任務(wù)發(fā)展提速迎來(lái)小幅快速發(fā)展NExperienceReplay算法誕生能力:在仿真環(huán)境下完成簡(jiǎn)單任務(wù)2016年?DeepMind開發(fā)的AlphaGo擊敗了世界冠軍李世石?AlphaMaster取得60連勝2017年?最強(qiáng)版本AlphaZero出世2013年2012年以前緩慢發(fā)展首次提出“強(qiáng)化”和“強(qiáng)化學(xué)習(xí)”的概念和術(shù)語(yǔ)提出Q學(xué)習(xí),完備了強(qiáng)化學(xué)習(xí)資料來(lái)源:OpenAI,《AdaptiveBitrateStreaminginWirelessNetworksWithTranscodingatNetworkEdgeUsingDeepReinforcementLearning》(YGuo、RYu等,2020),中金公司研究部整理端到端的技術(shù)是深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的典型應(yīng)用。目前自動(dòng)駕駛決策存在兩類技術(shù)架構(gòu):典型的“感知-決策-控制序列式架構(gòu)”和“端到端”架構(gòu)。典型的序列式架構(gòu)按照設(shè)定規(guī)則,對(duì)全場(chǎng)景數(shù)據(jù)感知后進(jìn)行決策,再由車輛控制單元執(zhí)行決策指令。端到端的技術(shù)架構(gòu)與人腦決策機(jī)制更為相似,沒有人為規(guī)則限制,將全部外界環(huán)境數(shù)據(jù)、車輛自身數(shù)據(jù)輸入算法后,便可輸出最終的決策。端到端的技術(shù)架構(gòu)能克服傳統(tǒng)方式依賴先驗(yàn)環(huán)境建模,帶來(lái)的邊界的問題,可以實(shí)現(xiàn)直接從感知到控制功能的映射。在本報(bào)告尾部的重要法律聲明8圖表7:典型的“感知-決策-控制序列式架構(gòu)感知感知決策執(zhí)行雷達(dá)制動(dòng)控制…傳感器融合攝像頭轉(zhuǎn)向控制超聲波車輛動(dòng)力學(xué)管理決策控制云…資料來(lái)源:CSDN,中金公司研究部圖表8:端到端技術(shù)架構(gòu)舉例 RGB圖像驅(qū)動(dòng)位和旋轉(zhuǎn)絡(luò)轉(zhuǎn)轉(zhuǎn)向控制量控制量相機(jī)(左)相機(jī)(中)相機(jī)(右)相機(jī)(中)任務(wù)情節(jié)資料來(lái)源:Nvidia,中金公司研究部端到端架構(gòu)的弱解釋性限制了應(yīng)用,我們預(yù)計(jì)未來(lái)較長(zhǎng)時(shí)間內(nèi)深度強(qiáng)化學(xué)習(xí)仍將在“感知-決策-執(zhí)行”體系中發(fā)揮作用。目前端到端的技術(shù)路徑主要存在以下問題:?可解釋性弱。圖像到執(zhí)行的直接映射具有“黑箱”的特性,工程師難以從中發(fā)現(xiàn)規(guī)律或給解釋,因此,端到端技術(shù)的安全性難以保障。?靈活性差。端到端是簡(jiǎn)單的圖像輸入到車輛控制單元輸出的直接映射,當(dāng)感知設(shè)備或者執(zhí)行機(jī)構(gòu)發(fā)生變動(dòng),就需要重新完成數(shù)據(jù)收集和訓(xùn)練,使得端到端的算法模型靈活性差。深度強(qiáng)化學(xué)習(xí)融合傳統(tǒng)專家規(guī)則的技術(shù)方案將會(huì)得到較為廣泛的應(yīng)用。由于僅基于規(guī)則的技術(shù)路徑和深度強(qiáng)化學(xué)習(xí)這一端到端的路線均存在難以規(guī)避的劣勢(shì),目前業(yè)界提出了深度強(qiáng)化學(xué)習(xí)融合專家規(guī)則的解決方案。在典型的“感知-決策-執(zhí)行”架構(gòu)體系中,將駕駛員經(jīng)驗(yàn)提純的規(guī)則與深度強(qiáng)化學(xué)習(xí)方法融合使用,是更為安全可行的自動(dòng)駕駛決策算法發(fā)展路徑。例如,毫末智行將策略函數(shù)的構(gòu)建劃分成學(xué)習(xí)部分與不可學(xué)習(xí)部分,學(xué)習(xí)部分基于深度強(qiáng)化學(xué)習(xí)算法,目標(biāo)為獎(jiǎng)勵(lì)函數(shù)最大化(包括舒適性、安全性、超車機(jī)會(huì)等);而不可學(xué)習(xí)部分保留必要的約束,使策略能夠嚴(yán)格保障安全底線,同時(shí)提供更好的性能。圖表9:數(shù)據(jù)驅(qū)動(dòng)的決策規(guī)劃、模塊化方法和端到端方法的對(duì)比深度學(xué)習(xí)(或傳統(tǒng)算法)感知及定位基深度學(xué)習(xí)(或傳統(tǒng)算法)感知及定位基于AI算法的駕駛行為決策(局部路徑規(guī)劃)基于學(xué)習(xí)的(或傳統(tǒng)算法)運(yùn)動(dòng)控制駛車輛(或傳統(tǒng)算法)全局路徑規(guī)劃安全監(jiān)控駛車輛安全監(jiān)控資料來(lái)源:《Asurveyofdeeplearningtechniquesforautonomousdriving》(SGrigorescu、BTrasnea等,2020),中金公司研究部在本報(bào)告尾部的重要法律聲明92019V2019V.0,新增智能召喚;自研全自動(dòng)駕駛芯片F(xiàn)SD2020V10.0增加停志識(shí)別、綠色交通信號(hào)燈提示、檢測(cè)限速標(biāo)志取消L3級(jí)別研L發(fā)布自動(dòng)駕駛數(shù)據(jù)集A2D220122013馬斯克首次公開討論自動(dòng)駕駛系統(tǒng)2014特斯拉所有車輛配備支持自動(dòng)駕駛的初版硬件HW1.0開始布局自動(dòng)駕駛技術(shù)20092021FSDBeta10.6.1發(fā)布:提高夜間檢測(cè)精度全球首次在公開道路融合V2X信號(hào)的L4自動(dòng)駕駛演示2016發(fā)布V8.0自動(dòng)輔助轉(zhuǎn)向系統(tǒng),最大限速升至150km/h發(fā)布2016款A(yù)6L,搭載LDW/FCW等L1級(jí)別功能2018發(fā)布V9.0,新增障礙物感應(yīng)限速、自動(dòng)駕駛輔助控制發(fā)布搭載L3級(jí)別自動(dòng)駕駛的奧迪A8,最終軟件并未落地2015發(fā)布V7.0,提供AVP能20172011近十年來(lái)科技企業(yè)、造車新勢(shì)力、傳統(tǒng)車企都開始大力發(fā)展自動(dòng)駕駛技術(shù),市場(chǎng)參與者可分為兩大類:一類以谷歌Waymo、百度等科技企業(yè)為主要代表,發(fā)展目標(biāo)為直接向主機(jī)廠提供完整L4-L5級(jí)別算法;另一類則以特斯拉等整車廠為代表,通過(guò)銷售整車獲取真實(shí)路況數(shù)據(jù),從而憑借大數(shù)據(jù)優(yōu)勢(shì)占領(lǐng)市場(chǎng),不斷迭代L3、L4及以上的自動(dòng)駕駛級(jí)別。兩路徑中,深度學(xué)習(xí)都是市場(chǎng)參與者們發(fā)力的重點(diǎn)。圖表10:各主流自動(dòng)駕駛玩家發(fā)展時(shí)間節(jié)點(diǎn)梳理改造第一代別能力無(wú)人車在美國(guó)內(nèi)華達(dá)州首次進(jìn)行無(wú)人車上路測(cè)試、本田合作研發(fā)極端天氣下進(jìn)行測(cè)試測(cè)試?yán)锍踢_(dá)到,對(duì)外宣稱實(shí)現(xiàn)真正無(wú)人駕駛獲得Arizona無(wú)人駕駛商用許可在鳳凰城郊區(qū)推出Waymoone無(wú)人駕駛出租車RoboTaxi服務(wù)發(fā)布第五代自動(dòng)駕駛系統(tǒng)第五代WaymoDriver,在舊金山灣地區(qū)上路測(cè)試發(fā)布發(fā)布Apollo2.0-3.0,應(yīng)用于高速卡車、作業(yè)車場(chǎng)景支持復(fù)雜城市駕駛計(jì)算平臺(tái)道路自動(dòng)駕駛ACU下線大規(guī)模投入無(wú)人北京開始全自動(dòng)駕駛測(cè)試與吉利合作組建智能汽車制造公司-集度汽車發(fā)布Apollo開源自動(dòng)駕駛技術(shù)平臺(tái)Apollo1.0獲得美國(guó)加州自動(dòng)駕駛路測(cè)牌照資料來(lái)源:萬(wàn)得資訊,《自動(dòng)駕駛技術(shù)概論》(王建、徐國(guó)艷、陳競(jìng)凱、馮宗寶,2019),中金公司研究部在本報(bào)告尾部的重要法律聲明悟道2.0北京智源人工智能研究院等微軟、英偉達(dá)浪潮人工智能研究院OpenAl微軟谷歌英偉達(dá)OpenAl2021年6月2021年10月2021年9月悟道2.0北京智源人工智能研究院等微軟、英偉達(dá)浪潮人工智能研究院OpenAl微軟谷歌英偉達(dá)OpenAl2021年6月2021年10月2021年9月2020年5月2020年2月2019年10月2019年8月1,750530245.7175源1.0Turing-NLGMegatron-LMGPT-2Petaflop/s-days1e+41e+21e+0ResNets1e-2AlexNet1e-4DQN1e-6TDGammonv2.11e-81e-101e-121e-14AlphaGoZeroNeuralmachinetranslationTI7dota1v1VGG3-4monthdoublingDeepbeliefnetandlayer-wiseforpretrainingBiLTSMforspeechNETtalkALVNN2-yeardoubling(Moore’sLaw)←FirstEraModernEra→Perceptron大模型是人工智能產(chǎn)業(yè)的重要發(fā)展方向。由于人工智能的細(xì)分場(chǎng)景和細(xì)分應(yīng)用過(guò)多,傳統(tǒng)開發(fā)模式下針對(duì)每一個(gè)特定場(chǎng)景都定制一套全新算法,行業(yè)開發(fā)工作冗余、效率低且成本高。大規(guī)模預(yù)訓(xùn)練模型能夠解決以上痛點(diǎn),成為重要發(fā)展趨勢(shì),在谷歌、特斯拉等國(guó)際巨頭中形成共識(shí),即先使用海量數(shù)據(jù)預(yù)訓(xùn)練大模型,得到一套模型參數(shù),然后用這套參數(shù)對(duì)模型進(jìn)行初始化,再進(jìn)行訓(xùn)練;在特定領(lǐng)域落地時(shí),通過(guò)大模型蒸餾出小模型,大幅降低對(duì)新場(chǎng)景中數(shù)據(jù)量的需求,使得模型小樣本學(xué)習(xí)能力和泛化能力大幅提升。從業(yè)界大模型參數(shù)量來(lái)看,目前全球多家人工智能實(shí)驗(yàn)室和巨頭均在持續(xù)提升大模型的規(guī)模。圖表11:深度學(xué)習(xí)之后的AI模型對(duì)于計(jì)算量的需求加速增長(zhǎng),6年增加30萬(wàn)倍1960197019801990200020102020資料來(lái)源:OpenAI,中金公司研究部整理大模型提高AI模型的智能程度,提升了AI模型的通用性。根據(jù)OpenAI的研究人員對(duì)GPT-3的計(jì)算能力測(cè)試,在十項(xiàng)計(jì)算能力測(cè)試中,小模型的性能明顯差于大模型,即使是130億參數(shù)的模型處理二位數(shù)加減法的準(zhǔn)確率也只有50%左右,處理其他運(yùn)算的準(zhǔn)確率還不到10%,遠(yuǎn)低于1,750億的GPT-3完整版模型。此外,通過(guò)壓縮大模型批量化生產(chǎn)小模型的方式能生產(chǎn)大量的、覆蓋不同場(chǎng)景的模型,無(wú)需針對(duì)每個(gè)場(chǎng)景都單獨(dú)定制生產(chǎn),提高各個(gè)行業(yè)的AI模型生產(chǎn)效率。圖表12:近年來(lái)國(guó)內(nèi)外主要AI巨模型推推出時(shí)間參數(shù)量(十億)巨模型名稱研發(fā)機(jī)構(gòu)2021年8月2021年8月10,000+M6Megatron-TuringGPT-3T5 2019年2月資料來(lái)源:OpenAI,英偉達(dá),谷歌,微軟,浪潮人工智能研究院,北京智源人工智能研究院,阿里達(dá)摩院,中金公司研究部圖表13:不同參數(shù)量GPT-3模型的十項(xiàng)計(jì)算任務(wù)準(zhǔn)確率資料來(lái)源:OpenAI,中金公司研究部在本報(bào)告尾部的重要法律聲明以Transformer為代表的大模型是自動(dòng)駕駛算法的重要發(fā)展方向。Transformer最早由谷歌在2017年提出,主要被用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)模型。Transformer通過(guò)一維卷積和注意力機(jī)制的設(shè)計(jì),實(shí)現(xiàn)了出色的算法并行性,適合CPU的運(yùn)行環(huán)境,因此迅速在自然語(yǔ)言處理(NLP)領(lǐng)域流行起來(lái)。目前Transformer模型幾乎取代了基于RNN的算法在NLP中的地位,并逐漸被引入計(jì)算機(jī)視覺(CV)領(lǐng)域。特斯拉和毫末智行已經(jīng)宣布將Transformer引入自動(dòng)駕駛系統(tǒng)中,來(lái)實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)感知智能和認(rèn)知智能的大幅優(yōu)化。Transformer在大規(guī)模數(shù)據(jù)訓(xùn)練、魯棒性、泛化能力等方面表現(xiàn)突出,因而在自動(dòng)駕駛領(lǐng)域較傳統(tǒng)CNN優(yōu)勢(shì)明顯。CNN特殊的組織結(jié)構(gòu),即卷積層和池化層的共同作用使得CNN能較好地提取圖像的特征,過(guò)去在圖像識(shí)別領(lǐng)域得到了廣泛的應(yīng)用。但是CNN的缺點(diǎn)在于過(guò)于依賴局部信息,從而導(dǎo)致一定程度的不可靠性。而Transformer的整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機(jī)制組成,其核心使用多頭注意力機(jī)制(Multi-headself-attention),能夠理解不同區(qū)域語(yǔ)義元素之間的關(guān)系,因此Transformer具備比CNN更明顯的優(yōu)勢(shì):?大規(guī)模數(shù)據(jù)訓(xùn)練:當(dāng)使用大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),CNN性能所帶來(lái)的收益會(huì)隨著數(shù)據(jù)量的增大逐漸出現(xiàn)飽和的趨勢(shì),而Transformer的飽和天花板更高,隨著數(shù)據(jù)量的增大,Transformer訓(xùn)練后的性能相對(duì)CNN的優(yōu)勢(shì)越來(lái)越大。自動(dòng)駕駛屬于需要使用大規(guī)模數(shù)據(jù)集訓(xùn)練的場(chǎng)景,更容易發(fā)揮Transformer的優(yōu)勢(shì)。?高魯棒性、強(qiáng)泛化能力:面對(duì)圖像的擾動(dòng)、遮擋等情況下,Transformer具備很強(qiáng)的魯棒性和泛化性。在自動(dòng)駕駛感知識(shí)別中,光照、雨雪遮擋、陰影、重疊等因素會(huì)嚴(yán)重制約CNN模型的性能,導(dǎo)致其出現(xiàn)錯(cuò)誤的判斷,而Transformer依靠多頭注意力機(jī)制能夠更好地處理這類問題。圖表14:VisionTransformer的典型網(wǎng)絡(luò)結(jié)構(gòu)Transformer編碼器視覺Transformer模型(Transformer編碼器資料來(lái)源:《AnImageisWorth16x16WordsTransformerforImageRecognitionatscale》(AlexeyDosovitskiy,LucasBeyer等,2021),中金公司研究部在本報(bào)告尾部的重要法律聲明Transformer具備強(qiáng)大的序列建模能力、全局信息感知能力,因此在感知過(guò)程中的多模態(tài)融合方面具備較大優(yōu)勢(shì)。Transformer早期主要被用于NLP,由于Transformer所具備的超強(qiáng)的序列建模能力和全局信息感知能力,它幾乎取代了基于RNN的算法在NLP中的地位,并進(jìn)一步推進(jìn)了NLP領(lǐng)域的研究。由于Transformer所具備的全局信息感知能力,其能捕獲全局信息從而對(duì)目標(biāo)建立遠(yuǎn)距離的依賴,并提取出更強(qiáng)有力的特征,近年來(lái)逐漸被引入到CV領(lǐng)域。?序列建模能力:序列建模能力指讓AI模型處理序列數(shù)據(jù),預(yù)測(cè)接下來(lái)的情況,比如音樂、翻譯等場(chǎng)景。相比于CNN和RNN,Transformer憑借其注意力機(jī)制擁有較強(qiáng)的長(zhǎng)序列建模能力,和逐步傳播相比,它直接將任意兩個(gè)位置的隱藏狀態(tài)連接起來(lái),所以更容易捕捉到全局信息。通過(guò)將視覺領(lǐng)域的信息從時(shí)間和空間維度劃分為序列數(shù)據(jù),就可以在機(jī)器視覺領(lǐng)域利用Transformer強(qiáng)大的序列建模能力。?全局信息感知能力:Transformer的主要模塊,即多頭注意力機(jī)制(Multi-HeadSelf-Attention)可以同時(shí)感知到輸入序列的全局信息,這是Transformer相比于CNN的巨大優(yōu)勢(shì)。在CNN中信息只能從局部開始,被感知到的區(qū)域隨著層數(shù)的增加而增大,Transformer從輸入開始之后的每一層結(jié)構(gòu)中都可以看到所有的信息,并建立基本單元之間的關(guān)聯(lián),因此Transformer能夠處理更加復(fù)雜的問題。由于Transformer可以很好地在空間-時(shí)序維度上進(jìn)行建模,目前特斯拉和毫末智行等行業(yè)龍頭通過(guò)Transformer在感知端提升模型效果。特斯拉從安裝在汽車周圍的八個(gè)攝像頭的視頻中用傳統(tǒng)的ResNet提取圖像特征,并使用Transformer、CNN、3D卷積中的一種或者多種組合完成跨時(shí)間的圖像融合,實(shí)現(xiàn)基于2D圖像形成具有3D信息輸出。毫末智行的AI團(tuán)隊(duì)正在逐步將基于Transformer的感知算法應(yīng)用到實(shí)際的道路感知問題,如車道線檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。圖表15:特斯拉利用Transformer實(shí)現(xiàn)多攝像頭數(shù)據(jù)融合VectorSpaceRoadEdges(矢量空間道路邊緣)HeadTransformerImage-to-BEVtransform+multi-TransformerImage-to-BEVtransform+multi-camerafusion(圖像BEV變換+多攝像機(jī)融合) lue Query(查詢) Pool(池化) ContextsummaryPool(池化) Positionalencoder(位置編碼)MultiMulti-scalefeatures(多尺度特征)BiFPN(加權(quán)雙向特征金字塔網(wǎng)絡(luò))RegNetRRawMainMultiMulti-scalefeatures(多尺度特征)BiFPN(加權(quán)雙向特征金字塔網(wǎng)絡(luò))RegNetRRawPillarMultiMulti-scalefeatures(多尺度特征)BiFPN(加權(quán)雙向特征金字塔網(wǎng)絡(luò))RegNetRRawRepeater資料來(lái)源:特斯拉AIday,中金公司研究部在本報(bào)告尾部的重要法律聲明ImageNet的最大準(zhǔn)確率(%)5-shotImageNet的少樣本學(xué)習(xí)能力資料來(lái)源:Towardsdatascience,中金公司研究部Transformer為代表的大模型能充分發(fā)揮大數(shù)據(jù)價(jià)值,特斯拉、毫末等具備數(shù)據(jù)優(yōu)勢(shì)的企業(yè)均除感知環(huán)節(jié)外,Transformer同樣有望在決策規(guī)劃等環(huán)節(jié)提升模型效果。Transformer不僅能處理各類視覺檢測(cè)任務(wù)(車輛檢測(cè)、車道線檢測(cè)、交通標(biāo)志檢測(cè)、紅綠燈檢測(cè)等)、各類分割任務(wù)(可行駛區(qū)域檢測(cè)、全景分析等)和3DImageNet的最大準(zhǔn)確率(%)5-shotImageNet的少樣本學(xué)習(xí)能力資料來(lái)源:Towardsdatascience,中金公司研究部Transformer為代表的大模型能充分發(fā)揮大數(shù)據(jù)價(jià)值,特斯拉、毫末等具備數(shù)據(jù)優(yōu)勢(shì)的企業(yè)均通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練,Transformer大幅提升了預(yù)訓(xùn)練模型的性能。自動(dòng)駕駛產(chǎn)生海量數(shù)據(jù),如果全部進(jìn)行標(biāo)注將帶來(lái)巨大成本,因此使用無(wú)需標(biāo)注的無(wú)監(jiān)督學(xué)習(xí)對(duì)提升模型效果、降低訓(xùn)練成本至關(guān)重要。而在使用大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí),VisionTransformer訓(xùn)練效果明顯優(yōu)于CNN模型。此外,據(jù)谷歌發(fā)表論文ScalingVisionTransformers1顯示,VisionTransformer的參數(shù)量已經(jīng)達(dá)到20億之多,經(jīng)過(guò)在30億規(guī)模數(shù)據(jù)集上的訓(xùn)練,其性能達(dá)到了業(yè)界最高水準(zhǔn)。圖表16:隨著數(shù)據(jù)量提升,VisionTransformer的預(yù)訓(xùn)練效果優(yōu)于CNNVisiontransformer選擇大模型路線。我們認(rèn)為,在自動(dòng)駕駛逐漸從L2級(jí)輔助駕駛向全自動(dòng)駕駛進(jìn)步的過(guò)程中,用于訓(xùn)練的數(shù)據(jù)量是關(guān)鍵,擁有數(shù)據(jù)多的公司更容易在模型迭代過(guò)程中領(lǐng)先,Transformer的出現(xiàn)使得掌握數(shù)據(jù)的企業(yè)能形成高效的數(shù)據(jù)閉環(huán),使用大量數(shù)據(jù)持續(xù)升級(jí)其大模型。目前特斯拉擁有200萬(wàn)輛級(jí)的量產(chǎn)車,根據(jù)毫末智行官方網(wǎng)站,其輔助駕駛系統(tǒng)HWA預(yù)計(jì)未來(lái)3年內(nèi)有望搭載100萬(wàn)輛長(zhǎng)城汽車。百萬(wàn)級(jí)的搭載量意味著每年數(shù)百億級(jí)里程,有望為自動(dòng)駕駛算法帶來(lái)顛覆性突破。/pdf/2106.04560.pdf在本報(bào)告尾部的重要法律聲明0040002000圖表17:特斯拉量產(chǎn)車數(shù)量增長(zhǎng)趨勢(shì)(萬(wàn)輛)(萬(wàn)輛)5404732992992018201920202021Q1-Q3特斯拉累計(jì)銷量(ModelS/X/3Y)圖表18:典型車型車載傳感器配置情況攝攝像頭類型3個(gè)前視攝像頭+1個(gè)后視攝像頭+4個(gè)側(cè)視鏡頭(左右各一個(gè)側(cè)方前視和側(cè)方后特斯拉ModelS特斯拉ModelX特斯拉Model3攝像頭個(gè)數(shù)車型84個(gè)環(huán)視+1個(gè)主攝像頭+1個(gè)長(zhǎng)焦攝像頭蔚來(lái)ET7+1個(gè)后視攝像頭+4個(gè)側(cè)視鏡頭(左右各蔚來(lái)ET7理想理想ONE54個(gè)環(huán)視+1個(gè)輔助駕駛前攝像頭小鵬P7144個(gè)環(huán)視+10個(gè)自動(dòng)駕駛高感知攝像頭11個(gè)前視雙目攝像頭+1個(gè)后視攝像頭+4個(gè)環(huán)視攝像頭奔馳S6資料來(lái)源:INSIDEEVS,中金公司研究部資料來(lái)源:各公司官網(wǎng),佐思汽研,中金公司研究部感知算法:多傳感器數(shù)據(jù)融合感知算法:多傳感器數(shù)據(jù)融合+定位,實(shí)現(xiàn)車輛環(huán)境感知感知算法實(shí)現(xiàn)類同人眼視覺的部分功能。感知算法利用傳感器收集環(huán)境數(shù)據(jù),完成行駛路徑識(shí)別及周邊物體識(shí)別的任務(wù)。具體而言,感知算法需要對(duì)道路交通標(biāo)志標(biāo)線、交通設(shè)施以及車輛、行人、地面其他物體進(jìn)行識(shí)別和辨認(rèn)。常用自動(dòng)駕駛車輛感知器主要包括超聲波雷達(dá)、毫米波雷達(dá)、激光雷達(dá)、視覺傳感器等,不同傳感器的感知性能及適用情形存在差異。超聲波雷達(dá)適用于短距離測(cè)距,毫米波雷達(dá)用于測(cè)距及速度,激光雷達(dá)適合于為環(huán)境3D建模收集數(shù)據(jù),視覺傳感器則對(duì)行人、交通標(biāo)志標(biāo)線等細(xì)節(jié)有更強(qiáng)的感知能力。圖表19:自動(dòng)駕駛各類傳感器對(duì)比超聲波傳感超聲波傳感器弱傳感器類型視覺傳感器遠(yuǎn)距離探測(cè)米波雷達(dá)激光雷達(dá)強(qiáng)強(qiáng)強(qiáng)探測(cè)角度120度10~70度15~360度30度夜間環(huán)夜間環(huán)境強(qiáng)強(qiáng)強(qiáng)天候弱強(qiáng)強(qiáng)弱不良不良天氣環(huán)境強(qiáng)弱溫度穩(wěn)定性弱強(qiáng)強(qiáng)強(qiáng)車速車速測(cè)量能力弱強(qiáng)路標(biāo)識(shí)別×××√要應(yīng)用泊車輔助自適應(yīng)巡航控制、自動(dòng)緊實(shí)時(shí)建立車輛周邊環(huán)境的車道偏離預(yù)警、車道保持、盲區(qū)監(jiān)測(cè)、前車急剎車三維模型碰撞預(yù)警、交通標(biāo)志識(shí)別、全景泊車成本低適中高適中資料來(lái)源:《一本書讀懂智能網(wǎng)聯(lián)汽車》(崔勝民,2019),中金公司研究部高級(jí)別自動(dòng)駕駛往往需要更多種類及數(shù)量的傳感器。傳感器配置種類和數(shù)量與自動(dòng)駕駛級(jí)別相關(guān),目前典型的自動(dòng)駕駛傳感器方案為:多個(gè)環(huán)視及前視攝像頭配合10個(gè)以上超聲波雷達(dá)及多個(gè)側(cè)向、前向毫米波雷達(dá)。若要實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛功能,通常還需配置激光雷達(dá)。在本報(bào)告尾部的重要法律聲明圖表20:典型自動(dòng)駕駛車輛傳感器基本配置最小感知范圍最小感知范圍8m環(huán)視攝像頭(高清)傳感器數(shù)量4前視攝像頭150度/150m超聲波雷超聲波雷達(dá)5m側(cè)向毫米波雷達(dá)(24GHz)4110度/60m前前向毫米波雷達(dá)(77GHz)15度/70m1激光雷達(dá)1110度/100m資料來(lái)源:《一本書讀懂智能網(wǎng)聯(lián)汽車》(崔勝民,2019),中金公司研究部多傳感器融合是感知系統(tǒng)的主流發(fā)展方向。多傳感器方案融合使用攝像頭及毫米波雷達(dá)乃至激光雷達(dá)。視覺攝像頭能夠提升系統(tǒng)的細(xì)節(jié)感知及推理能力,例如通過(guò)分析攝像頭提取行人的面部表情、身體方向及運(yùn)動(dòng)姿態(tài),預(yù)判行人的潛在意圖。與此同時(shí),雷達(dá)傳感器能夠彌補(bǔ)攝像頭在作用距離、測(cè)距精度及特殊場(chǎng)景下的性能劣勢(shì),實(shí)現(xiàn)高精度探測(cè)。根據(jù)特斯拉CEO馬斯克,特斯拉堅(jiān)持使用視覺主導(dǎo)的方案,即采用攝像頭作為主要傳感器。除特斯拉外,其他車企及自動(dòng)駕駛廠商均選擇包含激光雷達(dá)的多傳感器融合系統(tǒng)。圖表22:后融合(松耦合)將各自傳感器結(jié)果再融合OdomIMU圖表22:后融合(松耦合)將各自傳感器結(jié)果再融合OdomIMU未處理未處理數(shù)據(jù)未處理數(shù)據(jù)未處理數(shù)據(jù)Lidar未處理?yè)?jù)N未處理?yè)?jù)N維原始數(shù)據(jù)XYZ空間數(shù)據(jù)RGB顏色數(shù)據(jù)識(shí)別結(jié)果激光雷達(dá)Lidar攝像頭CameraLidar感知算法Camera感知算法Radar感知算法Camera原始數(shù)據(jù)結(jié)果匯總?cè)诤贤浇Y(jié)果匯總?cè)诤贤?時(shí)間同步,空間同步)未處理?yè)?jù)結(jié)果匯總?cè)诤献R(shí)別結(jié)果Radar激光反射值數(shù)據(jù)速度數(shù)據(jù)未處理速度數(shù)據(jù)未處理?yè)?jù)識(shí)別結(jié)果輪胎速度毫米識(shí)別結(jié)果輪胎速度Radar資料來(lái)源:CSDN,中金公司研究部資料資料來(lái)源:CSDN,中金公司研究部特斯拉通過(guò)多種模型分別實(shí)現(xiàn)特征提取、多攝像頭融合、時(shí)序特征提取、多任務(wù)聯(lián)合學(xué)習(xí)等功能,進(jìn)而組合形成感知網(wǎng)絡(luò)。近年來(lái),特斯拉等自動(dòng)駕駛技術(shù)能力排名前列的廠商越來(lái)越多的在感知算法層面采用神經(jīng)網(wǎng)絡(luò)模型,通過(guò)構(gòu)造包含48個(gè)神經(jīng)網(wǎng)絡(luò)的HydraNets多任務(wù)神經(jīng)網(wǎng)絡(luò)系統(tǒng),特斯拉目前能夠?qū)崿F(xiàn)同時(shí)檢測(cè)1,000種物體。其整體模型主要分為四大部分,每部分均采用深度學(xué)習(xí)相關(guān)模型構(gòu)建:?圖像特征提?。褐鞲删W(wǎng)使用RegNet對(duì)單傳感器采集到的原始圖像進(jìn)行分級(jí)處理,提取圖像的多層次特征,而后使用BiFPN模型對(duì)多層次特征進(jìn)行融合。?多攝像頭融合:使用Transformer網(wǎng)絡(luò)對(duì)多攝像頭數(shù)據(jù)進(jìn)行融合以構(gòu)建周圍環(huán)境的矢量空間,實(shí)現(xiàn)圖像數(shù)據(jù)從Imagespace到Vectorspace的轉(zhuǎn)換。特斯拉的Transformer神經(jīng)網(wǎng)絡(luò)能夠同時(shí)接收8個(gè)攝像頭的數(shù)據(jù)輸入,不僅能有效提升矢量空間數(shù)據(jù)集精度,提升了模型訓(xùn)練速度,還能產(chǎn)生更具可解釋性的模型,因而Transformer模型也是特斯拉感知算法結(jié)構(gòu)的核心。?時(shí)序特征提?。豪肦NN(RecurrentNeuralNetwork)提取時(shí)序特征,將時(shí)間維度加入周圍環(huán)境的矢量空間,基于過(guò)往發(fā)生的經(jīng)驗(yàn)來(lái)處理任意時(shí)序的輸入序列,預(yù)測(cè)環(huán)境物體即將發(fā)生的動(dòng)作,例如行人是否要過(guò)馬路。在本報(bào)告尾部的重要法律聲明超80個(gè)任務(wù)及 任務(wù)子任務(wù)務(wù)聯(lián)合學(xué)習(xí)時(shí)序特征提取高維特征提取多攝像頭融合視頻數(shù)據(jù)融合?多任務(wù)聯(lián)合學(xué)習(xí):構(gòu)建了帶有時(shí)間標(biāo)記的周圍環(huán)境矢量空間后,不同任務(wù)可以利用矢量空間數(shù)據(jù)開展學(xué)習(xí)任務(wù),例如車道線檢測(cè)等。整套網(wǎng)絡(luò)采用了多種已存在的模型結(jié)構(gòu)的創(chuàng)新組合,提高了模型的學(xué)習(xí)能力。超80個(gè)任務(wù)及 任務(wù)子任務(wù)務(wù)聯(lián)合學(xué)習(xí)時(shí)序特征提取高維特征提取多攝像頭融合視頻數(shù)據(jù)融合圖表23:特斯拉感知算法結(jié)構(gòu)分為四大部分任任務(wù)特征集特征集特征集特征特征集多攝像頭融合轉(zhuǎn)換至三維向量空間校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征提取校準(zhǔn)及低維特征提取低維特征提取提取提提取圖像特圖像特征提取1280x960x12bit1280x960x12bit1280x960x12bit1280x960x12bit1280x960x12bit1280x960x12bit1280x960x12bit1280x960x12bitx12bit資料來(lái)源:特斯拉AIday,中金公司研究部定位是感知環(huán)節(jié)中的重要部分,往往通過(guò)組合GPS、慣性導(dǎo)航、SLAM等技術(shù)實(shí)現(xiàn)。構(gòu)建好周圍環(huán)境的時(shí)空模型外,車輛自身實(shí)時(shí)定位便成為自動(dòng)駕駛的首要任務(wù),確定自身位置后車輛才能夠根據(jù)駕駛目標(biāo)進(jìn)行一系列行駛決策。常見的定位技術(shù)包括GPS、慣性導(dǎo)航(InertialNavigationSystem,INS)、航跡推算(Dead-Reckoning,DR)、高精度地圖、SLAM (Simultaneouslocalizationandmapping,同步定位與建圖)等,各種技術(shù)均有局限,在實(shí)際落地中往往組合使用,其中高精度地圖方案以及SLAM方案較為常見:?高精度地圖方案:供應(yīng)商預(yù)制的高精度地圖采用預(yù)先加載的方式安裝在自動(dòng)駕駛軟件系統(tǒng)中,車輛調(diào)用高精度地圖并結(jié)合傳感器收集的實(shí)時(shí)環(huán)境信息即可不斷更新自身位置。目前四維圖新等市場(chǎng)前列的高精度地圖供應(yīng)商已經(jīng)能夠提供城市內(nèi)10cm級(jí)別的高精度地圖與定位服務(wù)、高精度語(yǔ)義地圖格式和兼容標(biāo)準(zhǔn)地圖格式。?SLAM方案:車輛行駛過(guò)程中傳感器不斷采集數(shù)據(jù)輸入SLAM算法模型并實(shí)時(shí)生成地圖。目前地圖生成的方式分為兩類,第一類不參考外部信息,僅融合使用里程儀、羅盤、加速度計(jì)等內(nèi)部傳感器數(shù)據(jù),但該方法長(zhǎng)時(shí)間累計(jì)誤差較大。目前市面通用第二類多傳感器融合方式,即依靠?jī)?nèi)部傳感器估計(jì)自身運(yùn)動(dòng),同時(shí)使用攝像頭、激光雷達(dá)等外部傳感器獲取環(huán)境信息并保存分析,在下一時(shí)點(diǎn)比較環(huán)境特征以對(duì)自身位置進(jìn)行矯正。早期SLAM主要依賴?yán)走_(dá)等具有深度信息的傳感器數(shù)據(jù),近年來(lái)基于攝像頭數(shù)據(jù)的視覺SLAM發(fā)展較快。在本報(bào)告尾部的重要法律聲明 視覺傳感器三維點(diǎn)云 地圖匹配 高精度地圖地圖匹配定位系統(tǒng)多傳感器數(shù)據(jù)融合定位系統(tǒng)輸出實(shí)時(shí)速度位置姿態(tài)等信息GNSSGNSS-GNSS無(wú)線通信RTK慣性導(dǎo)航系統(tǒng) 慣性測(cè)量單元慣性導(dǎo)航系統(tǒng) 慣性測(cè)量單元 航跡推算資料來(lái)源:CSDN,中金公司研究部圖圖表25:高精度地圖預(yù)制過(guò)程數(shù)據(jù)采集數(shù)據(jù)處理標(biāo)檢測(cè)圖表26:SLAM模型生成傳感器數(shù)據(jù)前端特征提取位姿變換短期(特征追蹤)長(zhǎng)期(閉環(huán)追蹤)手動(dòng)驗(yàn)證石志車道地圖發(fā)布地圖后端地圖拼接位姿優(yōu)化SLAM估計(jì)資料來(lái)源:百度地圖,中金公司研究部資料來(lái)源:CSDN,中金公司研究部在本報(bào)告尾部的重要法律聲明駕駛情景認(rèn)知景認(rèn)知信息駕駛行為決策任務(wù)局部路徑規(guī)劃務(wù)層駕駛情景認(rèn)知景認(rèn)知信息駕駛行為決策任務(wù)局部路徑規(guī)劃務(wù)層劃層動(dòng)態(tài)/靜態(tài)約束行為識(shí)別跡預(yù)測(cè)識(shí)態(tài)約束道路約束感知信息導(dǎo)航路徑全局駕駛路線規(guī)劃決策層是自動(dòng)駕駛系統(tǒng)中難度極高的部分,需要高效的AI模型和大量訓(xùn)練數(shù)據(jù)。決策層指依據(jù)感知到的道路信息、交通信息、車輛自身信息來(lái)進(jìn)行決策判斷,選擇適當(dāng)工作模型并制定相應(yīng)控制策略,對(duì)底層控制執(zhí)行模塊下達(dá)指令。在車道保持、車道偏離預(yù)警、車距保持、障礙物警告等場(chǎng)景中,決策系統(tǒng)需要預(yù)測(cè)本車及相遇的其他車輛、車道、行人等在未來(lái)一段時(shí)間的狀態(tài),且不同人對(duì)不同情況所做出的駕駛策略也有所不同,因此決策算法的優(yōu)化需要高效的人工智能模型和大量的訓(xùn)練數(shù)據(jù),以覆蓋各種各樣的長(zhǎng)尾場(chǎng)景。自動(dòng)駕駛的決策系統(tǒng)主要包括行為決策、路徑規(guī)劃兩大部分。行為決策系統(tǒng)對(duì)車輛涉及的交通參與者進(jìn)行建模并預(yù)測(cè)其行為,再將各方信息匯總后交由路徑規(guī)劃系統(tǒng)做出決策。決策系統(tǒng)按照層級(jí)一般可劃分為認(rèn)知層、任務(wù)層、規(guī)劃層三層,分別負(fù)責(zé)駕駛情景認(rèn)知、駕駛行為決策、局部路徑規(guī)劃,最終決定車輛形式的最優(yōu)路徑。表27:自動(dòng)駕駛決策規(guī)劃分類環(huán)境感知(激光雷達(dá)、雷達(dá)、攝像頭、GPS、IMU)信息信息約束動(dòng)靜態(tài)約束動(dòng)靜態(tài)約束 動(dòng)靜態(tài)約束動(dòng)靜態(tài)約束動(dòng)靜態(tài)約束 動(dòng)靜態(tài)控控制執(zhí)行(油門、剎車、方向盤)資料來(lái)源:《自動(dòng)駕駛汽車擬人化決策系統(tǒng)的關(guān)鍵技術(shù)研究》(忻隆,2019),中金公司研究部場(chǎng)景感知是感知和決策交匯環(huán)節(jié),向決策環(huán)節(jié)輸出場(chǎng)景的語(yǔ)義表達(dá)和物體的結(jié)構(gòu)化表達(dá)。根據(jù)下面的自動(dòng)駕駛?cè)蝿?wù)劃分流程圖,感知模塊與決策模塊各被分為三部分,場(chǎng)景感知位于兩者的交匯環(huán)節(jié)。感知層算法的核心任務(wù)是將各種攝像頭、雷達(dá)等傳感器的輸入數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)能理解的車輛所處場(chǎng)景的語(yǔ)義表達(dá)、物體的結(jié)構(gòu)化表達(dá),包括物體檢測(cè)、識(shí)別和跟蹤、3D環(huán)境建模、物體的運(yùn)動(dòng)估計(jì)等。在本報(bào)告尾部的重要法律聲明路徑長(zhǎng)度路徑上的速度限制邊界決策圖表28:場(chǎng)景感知是感知與決策的交匯環(huán)節(jié)路徑長(zhǎng)度路徑上的速度限制邊界決策感知模塊對(duì)象檢測(cè)車道檢測(cè)語(yǔ)義分割SLAM高清地圖控制速度控制方向控制加速&減速路徑和運(yùn)動(dòng)規(guī)劃軌跡優(yōu)化駕駛法規(guī)政策感知攝像頭激光雷達(dá)雷達(dá)毫米波雷達(dá)場(chǎng)景感知傳感器融合行為預(yù)測(cè)對(duì)象映射決策模塊資料來(lái)源:《DeepReinforcementLearningforAutonomousDriving:ASurvey》(BRaviKiran,IbrahimSobh,2021),中金公司研究部圖表29:感知系統(tǒng)與決策系統(tǒng)的對(duì)接方式道路結(jié)構(gòu)交通信號(hào)和標(biāo)志障礙物狀態(tài)信息Routing道路結(jié)構(gòu)交通信號(hào)和標(biāo)志障礙物狀態(tài)信息Routing信息障礙物預(yù)測(cè)信息資料來(lái)源:百度Apollo,中金公司研究部感知模塊連接行為決策、路徑規(guī)劃模塊。在感知系統(tǒng)完成對(duì)環(huán)境的特征識(shí)別之后,通過(guò)四個(gè)流程操控控制規(guī)劃系統(tǒng),即輸入數(shù)據(jù)-形成矢量空間-輸出給神經(jīng)網(wǎng)絡(luò)-輸出給規(guī)劃控制系統(tǒng),最終由規(guī)劃控制系統(tǒng)向車輛輸出轉(zhuǎn)向、加速等指令。此外,控制規(guī)劃系統(tǒng)同時(shí)具備多個(gè)目標(biāo),如特斯拉自動(dòng)駕駛規(guī)劃控制技術(shù)的核心目標(biāo)是在安全、舒適、效率三者之間實(shí)現(xiàn)最佳平衡。決策規(guī)劃算法主要分為三種類型。決策系統(tǒng)融合了多傳感器信息,再根據(jù)駕駛需求進(jìn)行任務(wù)決策,在特定的約束條件下,規(guī)劃出兩點(diǎn)之間的多條安全路徑,之后在這些路徑當(dāng)中選擇一條最優(yōu)路徑,作為車輛行駛軌跡。目前自動(dòng)駕駛汽車常用的決策算法主要有三種類型:基于神經(jīng)網(wǎng)絡(luò)的決策、基于專家規(guī)則“if-then”、和兩者的混合路徑。在本報(bào)告尾部的重要法律聲明?規(guī)劃最憂化路線安全的前提下保持合理的時(shí)速?gòu)?qiáng)化學(xué)習(xí)模仿學(xué)習(xí)通過(guò)環(huán)境反饋的獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)如何提高在指定任務(wù)上的性能將自動(dòng)駕駛策略建模為從環(huán)境狀態(tài)到動(dòng)作的映射圖表30:規(guī)劃控制核心目標(biāo)是實(shí)現(xiàn)安全、舒適、效率三者最佳平衡?規(guī)劃最憂化路線安全的前提下保持合理的時(shí)速?gòu)?qiáng)化學(xué)習(xí)模仿學(xué)習(xí)通過(guò)環(huán)境反饋的獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)如何提高在指定任務(wù)上的性能將自動(dòng)駕駛策略建模為從環(huán)境狀態(tài)到動(dòng)作的映射率舒適率?加速度變化率(Jerk):加速度變化越小越舒適?曲率變化率(curvaturerate):曲舒適?不發(fā)生碰撞:車輛、行人、動(dòng)物、道路遺撒物等?遵守交通規(guī)則:交通燈、停車標(biāo)志、限速剎剎車、油門、轉(zhuǎn)向角資料來(lái)源:特斯拉官網(wǎng),中金公司研究部自動(dòng)駕駛規(guī)劃的關(guān)鍵難點(diǎn)在于非凸面和高維。自動(dòng)駕駛規(guī)劃的模型是離散的,沒有單一的最優(yōu)解,而且隨著場(chǎng)景變化而高速地動(dòng)態(tài)變化,離散模型的計(jì)算很復(fù)雜,難以得到高效的解決。目前自動(dòng)駕駛面臨的關(guān)鍵難點(diǎn)在于非凸面和高維:?非凸面:軌跡規(guī)劃的約束包括遵守交通規(guī)則、避免碰撞、軌跡在車輛控制上可實(shí)現(xiàn),但是這樣的優(yōu)化目標(biāo)在數(shù)學(xué)上往往是非凸的,造成優(yōu)化結(jié)果不夠穩(wěn)定,因此如何將軌跡規(guī)劃的優(yōu)化問題構(gòu)建成一個(gè)凸問題是目前行業(yè)的瓶頸之一。?高維:規(guī)劃系統(tǒng)需要對(duì)大約未來(lái)10s的情況做出預(yù)測(cè),而且規(guī)劃本身是在三維空間中進(jìn)行的,這類高維度的計(jì)算對(duì)自動(dòng)駕駛算力要求較高,如何利用算法來(lái)合理降維,也是困擾業(yè)界的難點(diǎn)。深度強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)是決策領(lǐng)域熱點(diǎn)趨勢(shì)。目前以強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)為代表的決策方法是熱點(diǎn)趨勢(shì),強(qiáng)化學(xué)習(xí)指通過(guò)將駕駛問題建模為馬爾可夫決策過(guò)程來(lái)學(xué)習(xí)如何從環(huán)境表示中給出最優(yōu)解。簡(jiǎn)言之,該策略通過(guò)將自動(dòng)駕駛策略建模成從環(huán)境的狀態(tài)到動(dòng)作的實(shí)時(shí)映射,駕駛策略通過(guò)輸出動(dòng)作并應(yīng)用在駕駛環(huán)境中,得到下一時(shí)刻的狀態(tài)和獎(jiǎng)勵(lì)。圖表31:強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)相結(jié)合夠解決真實(shí)環(huán)境下各種各樣的視覺運(yùn)動(dòng)任務(wù)真真實(shí)環(huán)境模模型能夠解決真實(shí)環(huán)境下各種各樣的視覺運(yùn)動(dòng)任務(wù)資料來(lái)源:arXiv,中金公司研究部在本報(bào)告尾部的重要法律聲明構(gòu)建好周圍環(huán)境的矢量空間模型通過(guò)撒點(diǎn)的方式,在距離和速度維度快速采樣,毫秒級(jí)搜索上千條軌跡以安全、舒適、效率為目標(biāo)構(gòu)建最優(yōu)化凸問題在路徑邊界這個(gè)凸空間里搜索出一條光滑最優(yōu)的軌跡特斯拉采用“粗略搜索+凸空間內(nèi)的連續(xù)優(yōu)化”的混合規(guī)劃系統(tǒng),實(shí)現(xiàn)平滑的運(yùn)動(dòng)軌跡。特斯拉采用混合規(guī)劃系統(tǒng),首先讓感知數(shù)據(jù)通過(guò)向量空間的粗略搜索,然后經(jīng)過(guò)凸空間內(nèi)的連續(xù)優(yōu)化,構(gòu)建好周圍環(huán)境的矢量空間模型通過(guò)撒點(diǎn)的方式,在距離和速度維度快速采樣,毫秒級(jí)搜索上千條軌跡以安全、舒適、效率為目標(biāo)構(gòu)建最優(yōu)化凸問題在路徑邊界這個(gè)凸空間里搜索出一條光滑最優(yōu)的軌跡圖表32:特斯拉混合規(guī)劃系統(tǒng)的五個(gè)步驟凸優(yōu)凸優(yōu)化問題構(gòu)建(凸走廊,下軌跡邊界)粗略搜索光滑軌跡連續(xù)優(yōu)化矢量空間根據(jù)優(yōu)化結(jié)果控制車輛運(yùn)動(dòng)軌跡平滑化資料來(lái)源:特斯拉官網(wǎng),中金公司研究部隨著神經(jīng)網(wǎng)絡(luò)在規(guī)劃控制使用上越來(lái)越多,處理復(fù)雜規(guī)劃的能力持續(xù)提升。近年來(lái),在視覺識(shí)別、語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯等程序中的神經(jīng)網(wǎng)絡(luò)越來(lái)越多,規(guī)劃控制也已經(jīng)開始引入神經(jīng)網(wǎng)絡(luò)。如特斯拉逐漸在規(guī)劃控制中引入更多的神經(jīng)元網(wǎng)絡(luò)策略來(lái)應(yīng)對(duì)開放、無(wú)序的道路場(chǎng)景,實(shí)現(xiàn)了規(guī)劃控制試錯(cuò)次數(shù)的大幅減少。最后,整車的軟硬件結(jié)合架構(gòu)設(shè)計(jì)是高級(jí)別自動(dòng)駕駛的難題。由于自動(dòng)駕駛系統(tǒng)復(fù)雜度高,涉及到很多傳感器的交互融合,每一個(gè)硬件的可靠性都會(huì)影響到自動(dòng)駕駛系統(tǒng)的整體可靠性。在進(jìn)行整車軟硬件結(jié)合架構(gòu)設(shè)計(jì)時(shí),往往需要整車廠和自動(dòng)駕駛提供商深度合作,一旦涉及設(shè)備種類和數(shù)量的調(diào)整,往往會(huì)對(duì)整個(gè)系統(tǒng)的運(yùn)行產(chǎn)生較大影響,因此需要大量的測(cè)試和驗(yàn)證。在本報(bào)告尾部的重要法律聲明資料來(lái)源:《無(wú)人駕駛原理與實(shí)踐》(申澤邦、雍賓賓、周慶國(guó)、李良,2019),中金公司研究部深資料來(lái)源:《無(wú)人駕駛原理與實(shí)踐》(申澤邦、雍賓賓、周慶國(guó)、李良,2019),中金公司研究部深度學(xué)習(xí)大多數(shù)機(jī)器學(xué)習(xí)算法數(shù)據(jù)量底層技術(shù)決定了數(shù)據(jù)要素在深度學(xué)習(xí)中的核心地位。在深度學(xué)習(xí)時(shí)代,數(shù)據(jù)、算法、算力是構(gòu)造AI的三大要素。由于深度學(xué)習(xí)的理論基礎(chǔ)保證了當(dāng)輸入數(shù)據(jù)量足夠大時(shí),深度神經(jīng)網(wǎng)絡(luò)能夠逼近任意的函數(shù),且樣本數(shù)越多,模型越能夠收斂至數(shù)據(jù)背后的真實(shí)函數(shù),因此數(shù)據(jù)要素是深度學(xué)習(xí)的核心。性能深度學(xué)習(xí)需要海量數(shù)據(jù)“投喂”,未來(lái)較長(zhǎng)時(shí)間內(nèi)數(shù)據(jù)積累都將是自動(dòng)駕駛核心競(jìng)爭(zhēng)點(diǎn)。深度學(xué)習(xí)是自動(dòng)駕駛算法的核心,而深度學(xué)習(xí)依賴于數(shù)據(jù)的反饋。若自動(dòng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論