車載智能計(jì)算芯片白皮書(shū)_第1頁(yè)
車載智能計(jì)算芯片白皮書(shū)_第2頁(yè)
車載智能計(jì)算芯片白皮書(shū)_第3頁(yè)
車載智能計(jì)算芯片白皮書(shū)_第4頁(yè)
車載智能計(jì)算芯片白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩84頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、背景 4二、車載智能計(jì)算趨勢(shì)與挑戰(zhàn) 51.傳感器及控制單元復(fù)雜繁多 52.環(huán)境感知融合帶來(lái)實(shí)時(shí)數(shù)據(jù)處理挑戰(zhàn) 63.算法模型尚不能很好應(yīng)對(duì)長(zhǎng)尾場(chǎng)景 74.Al算法演進(jìn)周期快于智能芯片設(shè)計(jì)周期 85.大算力低功耗的車載智能計(jì)算芯片方案缺乏 86.功能安全是底線 9三、軟件定義汽車 101.軟件定義汽車的驅(qū)動(dòng)力 112.系統(tǒng)架構(gòu)革新 123.云原生技術(shù)極大提升研發(fā)效率 154.邊緣算力預(yù)埋與車云協(xié)同計(jì)算提升汽車長(zhǎng)期價(jià)值 17四、異構(gòu)計(jì)算芯片 191.車載智能計(jì)算SoC架構(gòu) 212.能耗與性能 223.功能安全 244.信息安全 27五、車載智能計(jì)算軟硬協(xié)同優(yōu)化 291.自動(dòng)駕駛算法向端到端大模型演進(jìn) 292.軟硬協(xié)同優(yōu)化的難點(diǎn) 303.NPU軟硬協(xié)同設(shè)計(jì)創(chuàng)新 354.異構(gòu)感知計(jì)算流水線優(yōu)化 365.輔助駕駛、自動(dòng)駕駛案例 376.智能座艙案例 43六、總結(jié)與展望 47一、背景智能化、面向服務(wù)的基礎(chǔ)架構(gòu)、軟件定義汽車等已經(jīng)成為各大汽車廠商競(jìng)相追逐的熱點(diǎn)和差異化的焦點(diǎn)。高算力域控制器、智能座艙、輔助駕駛、自動(dòng)駕駛等人工智能算法應(yīng)用越來(lái)越受到各大汽車制造商、汽車零部件供應(yīng)商、算法和系統(tǒng)集成商的重視和關(guān)注,并迅速成為投資和競(jìng)爭(zhēng)的重點(diǎn)。軟件和算法在智能駕駛汽車中越來(lái)越重要而且成為了差異化競(jìng)爭(zhēng)的關(guān)鍵。軟件價(jià)值的提升意味著未來(lái)汽車更多的創(chuàng)新將集中在電子和軟件部分。領(lǐng)先的底層架構(gòu)、出色的軟件迭代、持續(xù)優(yōu)化和不斷進(jìn)化的硬件技術(shù),將加速整個(gè)汽車行業(yè)的轉(zhuǎn)型與變革。隨著芯片技術(shù)、硬件技術(shù)、軟件技術(shù)、人工智能、深度學(xué)習(xí)算法等迅猛發(fā)展,智能計(jì)算已是大勢(shì)所趨,車載智能計(jì)算軟硬件平臺(tái)和服務(wù)的競(jìng)爭(zhēng)在汽車行業(yè)中據(jù)IHS調(diào)研的數(shù)據(jù)顯示,中國(guó)購(gòu)車消費(fèi)者對(duì)于智能座艙科技的關(guān)注度要高于美國(guó)、日本、英國(guó)等多個(gè)國(guó)家,對(duì)于座艙智能科技水平的關(guān)注僅次于安全配置,甚至超過(guò)動(dòng)力、價(jià)格、能耗等指標(biāo)。據(jù)HIS調(diào)研預(yù)測(cè),到2030年,汽車智能座艙的全球市場(chǎng)規(guī)模將達(dá)到681億美元,而中國(guó)市場(chǎng)規(guī)模將超過(guò)1600億元;全球占比將超過(guò)37%,成為全球主要的智能座艙消費(fèi)市場(chǎng)。另?yè)?jù)Tractica預(yù)測(cè),2025年汽車人工智能硬件、軟件和服務(wù)市場(chǎng)將達(dá)到265億美元。麥肯錫的一份調(diào)研也顯示,2030年全自動(dòng)駕駛汽車可能占全球乘用車銷量的15%,2040年時(shí),將上升到80%。自動(dòng)駕駛目前是一個(gè)相對(duì)新生的市場(chǎng),相信隨著人工智能技術(shù)、法律監(jiān)管的完善以及消費(fèi)者接受度的提升,自動(dòng)駕駛市場(chǎng)會(huì)進(jìn)一步擴(kuò)大。當(dāng)然,人工智能技術(shù)是實(shí)現(xiàn)汽車智能化的最核心要素之一,它包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等軟件工程、算法的演化。其中算法模型的演化需求,以及紛繁復(fù)雜極大驅(qū)動(dòng)了車載智能計(jì)算芯片創(chuàng)新。今年以來(lái),ChatGPT的驚人效果標(biāo)志著人工智能領(lǐng)域的又一次重大里程碑,同時(shí)還掀起了一場(chǎng)深刻的軟件開(kāi)發(fā)變革,這就是大數(shù)據(jù)和大模型驅(qū)動(dòng)的軟件開(kāi)發(fā)2.0新范式,將在未來(lái)的數(shù)年內(nèi)深刻影響45《車載智能計(jì)算芯片白皮書(shū)(2023)》感知雷達(dá)攝像頭高精度地圖及定位器定位執(zhí)行來(lái)同時(shí)處理多個(gè)具有挑戰(zhàn)性的任務(wù)(例如,對(duì)象提取、檢測(cè)、分割、跟蹤等)。根據(jù)LucidMotors的研究人員測(cè)算,智能汽車每小時(shí)各種傳感器累計(jì)產(chǎn)生的數(shù)據(jù)量大約為1.4TB-19TB。來(lái)源:StephanHeinrich,LucidMotors,FlashMemorySummit2017圖二:車載傳感器數(shù)量及帶寬L2級(jí)別及以下的駕駛輔助系統(tǒng)所需處理的數(shù)據(jù)量小且算法模型簡(jiǎn)單,因此小算力芯片與算法的強(qiáng)耦合即可滿足系統(tǒng)需求。隨著激光雷達(dá)等高性能傳感器的量產(chǎn)上車以及智能駕駛系統(tǒng)算法的泛化性提升,面向量產(chǎn)乘用車的全場(chǎng)景自動(dòng)駕駛點(diǎn)到點(diǎn)通行鏈路正逐步打通。對(duì)于L3級(jí)別及以上的智能駕駛系統(tǒng)而言,傳感器數(shù)量的增加及多路高分辨率攝像頭帶來(lái)海量實(shí)時(shí)環(huán)境感知數(shù)據(jù),外加算法模型的復(fù)雜程度不斷增加,計(jì)算平臺(tái)的處理能力面臨巨大挑戰(zhàn)。3.算法模型尚不能很好應(yīng)對(duì)長(zhǎng)尾場(chǎng)景超過(guò)95%的車禍?zhǔn)怯捎诟鞣N人為錯(cuò)誤造成的,但是對(duì)于完全自動(dòng)駕駛技術(shù)量產(chǎn)而言,在倫理、法律要求下,Al技術(shù)不成熟導(dǎo)致車禍?zhǔn)遣荒苋萑痰摹J褂酶冗M(jìn)的Al模型算法,采用更為完備的訓(xùn)練標(biāo)注數(shù)據(jù),雖然可以提高自動(dòng)駕駛的安全性和準(zhǔn)確性,然而,極端情況仍然是需要人類駕駛者來(lái)干預(yù),至少目前為止還沒(méi)有算法可以解決所有的極端場(chǎng)景。即便隨著自動(dòng)駕駛汽車不斷的里程突破,很多時(shí)候在人類看來(lái)是非常低級(jí)錯(cuò)誤的自動(dòng)駕駛事故案例也時(shí)有發(fā)生。從自動(dòng)駕駛算法角度來(lái)看,每一個(gè)低級(jí)失誤導(dǎo)致的事故案例,都反映了Al算法或者模型的不完備性,我們是無(wú)法接受自動(dòng)駕駛算法犯低級(jí)錯(cuò)誤,哪怕錯(cuò)誤概率低至0.01%。模型的泛化性不佳是其中的重要原因之一,突破點(diǎn)在于通用人工智能(AGI,ArtificialGeneral4.Al算法演進(jìn)周期快于智能芯片設(shè)計(jì)周期去10年時(shí)間里,差不多每年都有會(huì)新的深度學(xué)習(xí)算法模型出現(xiàn)。據(jù)統(tǒng)計(jì),大概每14個(gè)月,新的模型就能將計(jì)算效率提升一倍,但典型的車載芯片開(kāi)發(fā)周期需要三年。算法優(yōu)化會(huì)對(duì)計(jì)算平臺(tái)架構(gòu)帶來(lái)巨大的挑戰(zhàn),計(jì)算平臺(tái)架構(gòu)必須根據(jù)算法的特點(diǎn)進(jìn)行特定優(yōu)化,才能保持足夠的計(jì)算效率和性能。這種進(jìn)化速度上的不匹配,對(duì)芯片公司的算法能力提出更高要求,需要對(duì)算法的發(fā)展趨勢(shì)進(jìn)行預(yù)判,前瞻性地將其計(jì)算特點(diǎn)融入到芯片架構(gòu)設(shè)計(jì)當(dāng)中,使得芯片經(jīng)過(guò)三年的研發(fā),在推出市場(chǎng)的時(shí)候,硬件利用率,達(dá)到真正意義上向后兼容軟件算法創(chuàng)新,這是非常難的。5.大算力低功耗的車載智能計(jì)算芯片方案缺乏駛技術(shù)都在基于GPU(圖形處理芯片)進(jìn)行Al(深度神經(jīng)網(wǎng)絡(luò))計(jì)算。但GPU不像定制芯片(ASIC)那樣高能效比或具有成本效益。最大的問(wèn)題之一是功耗,要使L3以上的工作完美無(wú)缺,我們需要L2L3L4L56.功能安全是底線傳感器數(shù)量20+25+表一:自動(dòng)駕駛等級(jí)與算力需求20+300+4000+功能安全指電子電器及其相關(guān)軟件本身,通過(guò)其內(nèi)置的安全機(jī)制,將傷害人類或損壞物品的潛在風(fēng)險(xiǎn)降低到可容忍的范圍。在航空、工業(yè)、公共交通等路上行駛的汽車在功能安全上面臨更多的挑戰(zhàn):汽車作為非常重要的交通工具,早已走入千家萬(wàn)戶,汽車作為日常消費(fèi)品,市場(chǎng)競(jìng)爭(zhēng)非常充分,用戶對(duì)于價(jià)格非常敏感。航空、工業(yè)以及公共交通等領(lǐng)域可靠性要求更高,涉及功能安全可以通過(guò)更多的冗余設(shè)計(jì)達(dá)到,而各大汽車制造商在成本控制上則要苛刻得多,在成本可控的前提下,達(dá)到功能汽車使用場(chǎng)景和范圍非常寬泛,作為全天候高頻使用,且不同駕駛?cè)藛T使用習(xí)慣不同,外加一般車輛的使用周期8-10年,在此期間關(guān)鍵零部件需要能始終保持正常運(yùn)轉(zhuǎn),可靠性測(cè)試驗(yàn)證的周期長(zhǎng)、10《車載智能計(jì)算芯片白皮書(shū)(2023)》期待軟件定義的新功能,例如駕駛輔助系統(tǒng)、自動(dòng)駕駛、車載娛樂(lè)和智能網(wǎng)聯(lián)等。這些需求的演變催生了新的商業(yè)模式和新的工程研發(fā)協(xié)作方式。據(jù)東吳證券數(shù)據(jù)顯示,2021Q1,全球智能手機(jī)的滲透率高達(dá)90%,智能手機(jī)與移動(dòng)互聯(lián)網(wǎng)在過(guò)去15年左右時(shí)間的興起與繁榮,硬件的性能持續(xù)提升,新技術(shù)層出不窮,軟件生態(tài)、軟件應(yīng)用的價(jià)值都獲得了巨大的市場(chǎng)回報(bào)。雖然手機(jī)生產(chǎn)廠商通常每半年到一年推出新款手機(jī)設(shè)備,但是消費(fèi)者無(wú)需購(gòu)買(mǎi)最新款手機(jī)硬件,僅通過(guò)系統(tǒng)升級(jí)和軟件更新,也可以體驗(yàn)性能提升和更多功能。消費(fèi)者在智能手機(jī)和移動(dòng)互聯(lián)的使用習(xí)慣和意愿上,成功延伸至汽車領(lǐng)域,比如車載信息娛樂(lè)、智能網(wǎng)聯(lián)、人機(jī)交車輛信息娛樂(lè)、遠(yuǎn)程信息處理或車輛診斷系統(tǒng)的軟件升級(jí)不再需要能夠接收無(wú)線(OTA)更新,其中包括安全補(bǔ)丁、信息娛樂(lè)改進(jìn)、自動(dòng)駕駛、輔助駕駛等車輛核心功用戶行為等都會(huì)產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)有機(jī)會(huì)完成本地實(shí)時(shí)分析或者發(fā)送到云端處理,使主機(jī)廠能夠深入了解汽車狀態(tài)和用戶使用習(xí)慣,并改進(jìn)汽車軟件生命周期管理、開(kāi)發(fā)個(gè)性化功能,與消費(fèi)者建汽車產(chǎn)業(yè)朝著電動(dòng)化、智能化、網(wǎng)聯(lián)化以及共享化發(fā)展,汽車作為一個(gè)包含機(jī)械動(dòng)力的數(shù)字化信息終端,許多重要的功能特性需要借助軟件和算法來(lái)完成,比如智能語(yǔ)音控制車內(nèi)空調(diào)溫度,檢測(cè)駕激光雷達(dá)、超聲波雷達(dá)等各種傳感器,這些傳感器數(shù)據(jù)都會(huì)實(shí)時(shí)匯總,輔助駕駛員安全駕駛,其中大據(jù)統(tǒng)計(jì),相比波音787飛機(jī)代碼行約為650萬(wàn)行,目前中高端汽車的軟件代碼超過(guò)1.5億行,軟件占汽車生產(chǎn)總成本約10%,相信隨著更多軟件、算法、應(yīng)用的部署,軟件占總成本將逐步提高,甚至超過(guò)總車成本50%。1.4價(jià)值鏈遷移,軟件將成為新的業(yè)務(wù)增長(zhǎng)點(diǎn)伴隨汽車電子的興起,汽車行業(yè)迎來(lái)了技術(shù)革新潮流,汽車零部件競(jìng)爭(zhēng)激烈,價(jià)值和利潤(rùn)率越來(lái)越低,傳統(tǒng)汽車銷售模式在汽車交付給終端消費(fèi)者的時(shí)候,銷售即完成。相較于特斯拉汽車的銷售模式,在汽車交付之后,通過(guò)FOTA(FirmwareOver-The-Air)或者SOTA(SoftwareOver-The-Air)等方式完成汽車軟件更新升級(jí),持續(xù)收取用戶服務(wù)費(fèi)用,例如預(yù)裝特斯拉FSD硬件的汽車消費(fèi)者,可以以每月199美元的費(fèi)用訂閱Autopilot自動(dòng)駕駛服務(wù),軟件訂閱模式意味著已售車輛在將來(lái)還會(huì)持續(xù)為特斯拉公司貢獻(xiàn)收入,也為軟件定義汽車帶來(lái)新的營(yíng)收價(jià)值。2.系統(tǒng)架構(gòu)革新電子電氣架構(gòu)(簡(jiǎn)稱EEA),指汽車上所有的電子和電氣部件,以及這些部件之間的拓?fù)浣Y(jié)構(gòu)和連接線束。當(dāng)下汽車以分布式EEA為主,一個(gè)ECU對(duì)應(yīng)一個(gè)或者少數(shù)幾個(gè)功能,每個(gè)ECU包含嵌入式軟件,并通過(guò)CAN、FlexRay等總線技術(shù)連接。通常主機(jī)廠只是根據(jù)市場(chǎng)需求不斷增加ECU和調(diào)整線束拓?fù)?車載線束已經(jīng)變得非常冗余且拓?fù)浣Y(jié)構(gòu)復(fù)雜,智能車引入三電系統(tǒng)(動(dòng)力電池、驅(qū)動(dòng)電機(jī)和電控系統(tǒng))則進(jìn)一步加劇了EEA的復(fù)雜程度,特別是智能座艙、自動(dòng)駕駛需要更多的ECU和傳感器,但傳統(tǒng)分布式EEA已經(jīng)碰到傳輸瓶頸,算力和總線信號(hào)傳輸速度遠(yuǎn)遠(yuǎn)落后于電動(dòng)化和智能化需求,繼續(xù)沿用現(xiàn)有分布式EEA來(lái)完成不斷演變的智能汽車功能需求,成為了不太可能完成的任務(wù)。當(dāng)下,大多數(shù)量產(chǎn)汽車都是采用分布式電子電氣架構(gòu),一輛汽車有多個(gè)小型固定功能電子控制單元(ECU),它們由許多不同的供應(yīng)商設(shè)計(jì),軟硬件高度耦合,如果需要新增功能,相應(yīng)的ECU和軟件需要改動(dòng),車內(nèi)線束等可能也需要改變,帶來(lái)更多系統(tǒng)集成、驗(yàn)證等工作,成本極高,因此在功能升級(jí)方面,不具備靈活性。域集中式電子電氣架構(gòu)則將同一功能域下的多個(gè)ECU整合到域控制器中,降低鏈接的復(fù)雜性,也同時(shí)縮短線束長(zhǎng)度,降低成本和重量,典型域控制器是車載信息娛樂(lè)系統(tǒng)出現(xiàn),中央集成式電子電氣架構(gòu)(車輪上的數(shù)據(jù)中心)將進(jìn)一步整合域控制器,高性能服務(wù)器芯片將然后將數(shù)據(jù)轉(zhuǎn)發(fā)到高性能中央計(jì)算單元進(jìn)行高速處理。隨著電子電氣架構(gòu)的不斷演進(jìn)變革,計(jì)算硬件單元更加集中,ECU件不再基于特定的ECU來(lái)開(kāi)發(fā),而是具備可移植性、可擴(kuò)展性,也更容易迭代更新,當(dāng)然對(duì)計(jì)算芯片的性能要求也會(huì)越來(lái)越高,由于計(jì)算趨于集中,支持不同工作負(fù)載的高性能異構(gòu)計(jì)算芯片(SystemonChip)和標(biāo)準(zhǔn)化的編程接口,將會(huì)是軟件定義汽車功能的硬件基礎(chǔ)。分布式EE案構(gòu)(-2015)云教據(jù)心云教據(jù)心城集中式架構(gòu)(20214)中失集成式EE聚構(gòu)(20254)2.2面向服務(wù)架構(gòu)是軟件基礎(chǔ)2.2.1面向信號(hào)架構(gòu)(SignalOrientedArchitecture)面向信號(hào)架構(gòu)是分布式電子電氣架構(gòu)中汽車軟件的常用開(kāi)發(fā)架構(gòu),由于ECU的功能是固定的,彼此通過(guò)LIN/CAN等總線進(jìn)行點(diǎn)對(duì)點(diǎn)通信,軟件提前編寫(xiě)并固化在ECU內(nèi)運(yùn)行,隨著汽車功能越來(lái)越多越來(lái)越復(fù)雜,ECU的數(shù)量也急劇增多,微小的功能改動(dòng)都可能會(huì)引起整車通信甚至其它ECU軟件的更新,這種架構(gòu)不具備靈活性和擴(kuò)展性,開(kāi)發(fā)和驗(yàn)證的成本非常高。2.2.2面向服務(wù)架構(gòu)(ServiceOrientedArchitecture)面向服務(wù)架構(gòu)(ServiceOrientedArchitecture,簡(jiǎn)稱SOA)在軟件、信息通信領(lǐng)域是非常成熟、常見(jiàn)的軟件架構(gòu)設(shè)計(jì)理念,它鼓勵(lì)提供抽象訪問(wèn)接口和模塊化軟件組件的方式,讓軟件模塊很容易在不同場(chǎng)景下復(fù)用,通常以SoftwareDevelopmentKits(SDK)、軟件庫(kù)、以及遠(yuǎn)程調(diào)用的方式提供,上層系統(tǒng)通過(guò)復(fù)用和自由組合既有軟件模塊,可以實(shí)現(xiàn)快速開(kāi)發(fā)特定的功能,并能降低測(cè)試驗(yàn)證成本和開(kāi)發(fā)周期。高內(nèi)聚、松耦合、可擴(kuò)展性強(qiáng)是SOA架構(gòu)的核心特點(diǎn)。直用軟丹直用軟丹規(guī)劃決策虛應(yīng)化管進(jìn)及礦要?jiǎng)拥扔布阶怨δ馨踩痉?wù)環(huán)裝感知執(zhí)行控制核CPU圖四:智能汽車SOA架構(gòu)示意圖硬件定義了SOA的能力邊界,底層硬件通常包括核心的Al計(jì)算單元,通用計(jì)算單元以及控制單元(包括各種傳感器、執(zhí)行器ECU等)。系統(tǒng)軟件則提供了豐富的硬件訪問(wèn)抽象接口、虛擬化、應(yīng)用操作系統(tǒng)、實(shí)時(shí)操作系統(tǒng)以及各種通信協(xié)議封裝等功能。異構(gòu)計(jì)算硬件與系統(tǒng)軟件的接口標(biāo)準(zhǔn)化以及它們的軟件開(kāi)發(fā)者生態(tài),決定了應(yīng)用開(kāi)發(fā)者的準(zhǔn)入門(mén)檻。采用ArmCPU計(jì)算核心的車載SoC平臺(tái),很容易實(shí)現(xiàn)虛擬化并與Linux、Android、RTOS、GCC編譯器、Java虛擬機(jī)等系統(tǒng)軟件完美集成,為上層應(yīng)用開(kāi)發(fā)者提供與手機(jī)、桌面、數(shù)據(jù)中心等應(yīng)用幾乎相同的開(kāi)發(fā)、調(diào)試體驗(yàn),讓移動(dòng)互聯(lián)網(wǎng)的開(kāi)發(fā)者近乎無(wú)縫將大量功能代碼模塊遷移到車載應(yīng)用軟件中。3.云原生技術(shù)極大提升研發(fā)效率隨著汽車系統(tǒng)軟件的復(fù)雜性越來(lái)越高,特別是自動(dòng)駕駛、輔助駕駛等新型應(yīng)用的誕生,應(yīng)用程序代碼變得日益復(fù)雜,為了快速滿足各種不斷變化的消費(fèi)者需求,由此產(chǎn)生的軟件開(kāi)發(fā)、部署和管理方式也有別于傳統(tǒng)車載嵌入式系統(tǒng)開(kāi)發(fā)。云原生開(kāi)發(fā)模式降低了整個(gè)云基雜性,非常適用于汽車應(yīng)用開(kāi)發(fā),其中基于微服務(wù)容器架構(gòu),可以大量復(fù)用工作負(fù)載的基礎(chǔ)技術(shù)代碼,以及模塊化部署方式,這些都在傳統(tǒng)的智能手機(jī)和企業(yè)應(yīng)用中已經(jīng)得到了大量的驗(yàn)證。云原生技術(shù)有利于企業(yè)在公有云、私有云和混合云等新型動(dòng)態(tài)環(huán)境中,構(gòu)建和運(yùn)行可彈性擴(kuò)展的師很容易對(duì)系統(tǒng)進(jìn)行頻繁的代碼變更。云原生技術(shù)對(duì)于汽車應(yīng)用開(kāi)發(fā)而言,意味著轉(zhuǎn)向基于云的開(kāi)發(fā)模式,實(shí)現(xiàn)在云端開(kāi)發(fā)軟件并直接部署于邊緣端的汽車上。開(kāi)發(fā)者隨時(shí)極大縮短車載系統(tǒng)應(yīng)用的開(kāi)發(fā)和部署周期。Compte車C集群Conguteysosbperesol圖五:云原生的虛擬仿真與真實(shí)部署3.1.1云原生技術(shù)與車載研發(fā)融合關(guān)鍵應(yīng)用與常規(guī)應(yīng)用混合編排簡(jiǎn)化部署復(fù)雜度:車載軟件在本質(zhì)上可以是同時(shí)部署運(yùn)行關(guān)鍵應(yīng)用和常規(guī)應(yīng)用微服務(wù)的。關(guān)鍵應(yīng)用對(duì)安全性和實(shí)時(shí)性的要求更高,相應(yīng)的微服務(wù)從硬件資源調(diào)度和依賴的軟件庫(kù)必須得到相應(yīng)的優(yōu)先級(jí)部署。比如某些微服務(wù)可能需要滿足ISO26262規(guī)范定義的ASIL-B/ASIL-D的完整性級(jí)別,引入經(jīng)過(guò)安全認(rèn)證的編譯器、運(yùn)行框架或者SDK,這些編譯器和工具將作為基于微服務(wù)容器的一部分進(jìn)行集成。另外,現(xiàn)有的云原生基礎(chǔ)設(shè)施及容器編排技術(shù),可以感知軟硬件特征,特別是嵌入式車載硬件系統(tǒng)的功能特性,按照需求把相應(yīng)的微服務(wù)部署到最合適的節(jié)點(diǎn)上,并以最佳方式運(yùn)行??焖僭贫朔抡骝?yàn)證測(cè)試:車載系統(tǒng)開(kāi)發(fā)人員可以在云端運(yùn)行模擬運(yùn)行軟件系統(tǒng)。彈性可擴(kuò)展是云計(jì)算非常重要的特性,作為DevOps基礎(chǔ)架構(gòu)的一部分,云可以提供大量的硬件資源,方便開(kāi)發(fā)者提供大量的數(shù)據(jù)輸入,模擬成百上千的真實(shí)使用場(chǎng)景,甚至可以同時(shí)在數(shù)千個(gè)云端服務(wù)器節(jié)點(diǎn)上啟動(dòng)執(zhí)行。這種大規(guī)模的仿真測(cè)試,如果在實(shí)際的車載嵌入式系統(tǒng)中來(lái)完成,需要的時(shí)間會(huì)極其漫長(zhǎng)。根據(jù)Arm對(duì)客戶的初步調(diào)查,大約70%的車載軟件系統(tǒng)模擬測(cè)試,是完全可以基于彈性云環(huán)境執(zhí)行的。車載硬件計(jì)算平臺(tái)與軟件系統(tǒng)同步開(kāi)發(fā):從軟件開(kāi)發(fā)人員的角度看,基于云的執(zhí)行環(huán)境和汽車邊緣計(jì)算環(huán)境之間,實(shí)現(xiàn)指令集架構(gòu)(ISA)和CPU架構(gòu)對(duì)等,意味著可以進(jìn)一步降低開(kāi)發(fā)成本和周期。以基于Arm的車載計(jì)算平臺(tái)為例,開(kāi)發(fā)者可以在AWS的Graviton(ArmCPU)實(shí)例上編寫(xiě)、測(cè)試和運(yùn)行應(yīng)用,實(shí)現(xiàn)完整的端到端基于ArmCPU技術(shù)的云到汽車邊緣計(jì)算,開(kāi)發(fā)人員甚至可以不用交叉編譯代碼,在車載硬件計(jì)算平臺(tái)沒(méi)有量產(chǎn)前,就可以在非常貼近實(shí)際場(chǎng)景中完成驗(yàn)證。編譯器和模擬器也可以最大效率利用硬件計(jì)算資源,避免因最終部署環(huán)境的不一致,導(dǎo)致大量程序代碼異常在與車載SOAFEE是車廠、一級(jí)供應(yīng)商、半導(dǎo)體、軟件和云技術(shù)頭部企業(yè)等攜手合作,為軟件定義汽車開(kāi)發(fā)了基于開(kāi)放標(biāo)準(zhǔn)的新架構(gòu),它用經(jīng)過(guò)驗(yàn)證的云原生增強(qiáng)技術(shù),與汽車應(yīng)用中必需的實(shí)時(shí)和安全功能一起運(yùn)作,快速無(wú)縫地滿足軟件定義汽車的應(yīng)用需求開(kāi)發(fā)。此外,由這些企業(yè)組成的特別興趣小組(SIG,SpecialInterestGroup)還為SOAFEE定義了參考實(shí)現(xiàn),通過(guò)開(kāi)源軟件的形式免費(fèi)發(fā)布,以度地提高兼容性,也為功能安全設(shè)計(jì)提供更快的途徑。4.邊緣算力預(yù)埋與車云協(xié)同計(jì)算提升汽車長(zhǎng)期價(jià)值隨著SOA的域集中式EEA的逐步應(yīng)用普及,以及車端算力的快速增長(zhǎng),智能汽車將成為一個(gè)移動(dòng)的超級(jí)計(jì)算機(jī),車端軟件復(fù)雜度也將不斷提升,并逐漸形成多個(gè)分層:OS/Middleware層,Al與大數(shù)據(jù)層,數(shù)據(jù)智能的應(yīng)用層。憑借算力、軟件和通信的能力、智能汽車具備可持續(xù)迭代的能力,也將有越來(lái)越多的數(shù)據(jù)驅(qū)動(dòng)智能應(yīng)用在智能汽車上出現(xiàn),包括智能座艙、輔助駕駛、智能診斷、用戶行為模型、智能熱管理、智能底盤(pán)等。而在車端數(shù)據(jù)的采集和智能應(yīng)用的運(yùn)行均依托車載智能計(jì)算,大數(shù)據(jù)開(kāi)發(fā)則集中在云端,為了提高數(shù)據(jù)采集、算法部署的效率,需要通過(guò)中間件軟件來(lái)封裝車云異構(gòu)。團(tuán)環(huán)團(tuán)環(huán)為為主ca刑ca刑生數(shù)數(shù)重分析ios車云通訊車云通訊牌度數(shù)據(jù)采康(15%)牌度數(shù)據(jù)采康(15%)(20%70%),完不顯算法開(kāi)發(fā)工具算法開(kāi)發(fā)工具云端管理平臺(tái)靈活靈活數(shù)據(jù)部署vADS智駕數(shù)據(jù)引攀邊像計(jì)算引攀邊緣數(shù)據(jù)庫(kù)執(zhí)心功:時(shí)樂(lè)、食穩(wěn)錄,執(zhí)心功:時(shí)樂(lè)、食穩(wěn)錄,囊稅教力元素:自時(shí)海稅(0%)40%),元護(hù)重不足主施芯片:S32GsimGones算力元象:同關(guān)本身以能(70%)安數(shù)驗(yàn)來(lái)集(20%)這緣計(jì)(10%-50%),元涂嚴(yán)型不足,不同于手機(jī)、桌面、數(shù)據(jù)中心或者一般邊緣計(jì)算場(chǎng)景對(duì)于智能計(jì)算芯片的需求,從軟件定義汽車圖像處理、通用計(jì)算等異構(gòu)計(jì)算等。安謀科技的IP產(chǎn)品基本覆蓋各種計(jì)算場(chǎng)景,如圖六所示,SoC芯片開(kāi)發(fā)商可以根據(jù)計(jì)算類型和密集程度,選擇相應(yīng)的IP計(jì)算核心組合,加速車載芯片研發(fā)周期。傳感器數(shù)據(jù)等。安謀科技的計(jì)算IP核心產(chǎn)品主要分類如下:CPU(中央處理單元)是一種通用任務(wù)處理器,非常適合運(yùn)行復(fù)雜的邏輯串行任務(wù),安謀科技CPU產(chǎn)品根據(jù)系統(tǒng)復(fù)雜度和場(chǎng)景,劃分3個(gè)大系列:Cortex-A:高性能、高吞吐流水線作業(yè),支持多核并行運(yùn)行、軟件管理中斷、現(xiàn)代操作系統(tǒng)支持(如Linux),并提供高級(jí)編程模型接口,常見(jiàn)于高性能應(yīng)用程序運(yùn)行場(chǎng)景,比如海量信號(hào)數(shù)據(jù)格式轉(zhuǎn)換;oCortex-R:實(shí)時(shí)數(shù)據(jù)處理,軟件管理中斷,快速中斷響應(yīng)以及多核支持,常見(jiàn)于需要實(shí)時(shí)性要求非??量痰膱?chǎng)景,比如汽車制動(dòng)和轉(zhuǎn)向控制器;0Cortex-M:為面積、功耗以及實(shí)時(shí)操作系統(tǒng)(RTOS)特別優(yōu)化的處理器,提供簡(jiǎn)單編程模型接口,由硬件管理中斷,適用于功耗要求非常高的場(chǎng)景,比如藍(lán)牙鑰匙、胎壓監(jiān)測(cè)等;GPU(圖形處理單元)是用于高速圖形渲染的處理器,因其有多個(gè)高度并行內(nèi)核(可以多達(dá)數(shù)百甚至上千個(gè)微內(nèi)核)處理數(shù)學(xué)矩陣運(yùn)算,通常用于圖形渲染操作,也可以完成部分AlNPU(神經(jīng)網(wǎng)絡(luò)處理單元)是為深度神經(jīng)網(wǎng)絡(luò)推理而定制的邏輯電路實(shí)現(xiàn),具有低功耗、速I(mǎi)SP(圖像信號(hào)處理器)是將圖像傳感器(比如一個(gè)或者多個(gè)攝像頭信號(hào)數(shù)據(jù))實(shí)時(shí)轉(zhuǎn)化成多種格式的數(shù)據(jù)輸出,方便人類觀看或者其它機(jī)器視覺(jué)應(yīng)用進(jìn)一步處理。Security(信息安全)是一個(gè)包含硬件、軟件、工具包,支持應(yīng)用程序不可知的安全子系統(tǒng),車輛控制、智能座艙、輔助駕駛、自動(dòng)駕駛等場(chǎng)景和通常的邊緣計(jì)算場(chǎng)景相比,需要更高的性能,更低的功耗,更及時(shí)的響應(yīng),更可靠穩(wěn)定,更保密安全,且成本可控,以滿足安全駕駛的苛刻需求。車載應(yīng)用開(kāi)發(fā)往往需要同時(shí)使用上述多種異構(gòu)計(jì)算單元提供算力保障,不同計(jì)算單元協(xié)同工作,平衡1.車載智能計(jì)算SoC架構(gòu)輔助駕駛和自動(dòng)駕駛運(yùn)行時(shí)軟件與芯片硬件是緊密耦合的,從汽車行業(yè)發(fā)展趨勢(shì)看,域集中式電子電氣架構(gòu)和更為激進(jìn)的中央集中式電子電氣架構(gòu)是產(chǎn)業(yè)發(fā)展方向,無(wú)論是哪一類電子電氣架構(gòu),車載SoC都會(huì)更加復(fù)雜,需同時(shí)具有多路傳感器接口(包括攝像頭、雷達(dá)、超聲波雷達(dá)、激光雷達(dá)等)、能安全的特殊需求,這些都需要完整無(wú)縫銜接運(yùn)行,并且可以支撐上層各種特定虛擬化軟件應(yīng)用。如圖七所示,安謀科技提供了車載智能計(jì)算SoC所需要的幾乎全部核心IP,以及底層硬件計(jì)算單元配套的驅(qū)動(dòng)、編譯器、工具鏈等系統(tǒng)軟件集等,以滿足虛擬化和上層應(yīng)用開(kāi)發(fā)所需的仿真、調(diào)試等快速開(kāi)發(fā)、測(cè)試和部署運(yùn)行需求。圖七:安謀科技車載智能SoC概念設(shè)計(jì)方案21《車載智能計(jì)算芯片白皮書(shū)(2023)》2.能耗與性能2020年6月,權(quán)威雜志《科學(xué)》發(fā)表MIT、英偉達(dá)和微軟研究人員的聯(lián)合論文,論文指出:隨著,隨著摩爾定律放緩,Al計(jì)算性能提升在于軟件工程,算法,硬件架構(gòu)聯(lián)合優(yōu)化,行業(yè)正在迎來(lái)頂層設(shè)圖八:后摩爾時(shí)代的計(jì)算效能提升該論文從側(cè)面揭示了一個(gè)重要趨勢(shì):隨著Al計(jì)算的興起,計(jì)算規(guī)模擴(kuò)大了2~3個(gè)數(shù)量級(jí),算法、軟件和架構(gòu)開(kāi)始引領(lǐng)芯片創(chuàng)新,行業(yè)進(jìn)入了軟件定義智能計(jì)算芯片時(shí)代。車載智能計(jì)算芯片上,Al計(jì)算加速器(深度神經(jīng)網(wǎng)絡(luò)加速器)的能耗通常較大,靈活可配置的系統(tǒng)架構(gòu),可以極大降低功耗,提高性能,降低晶體管數(shù)量,讓PPA(Performance、Power、Area)達(dá)到最優(yōu),但達(dá)到這個(gè)目的,通常有如下技術(shù)難點(diǎn):2.1突破馮·諾伊曼“瓶頸”傳統(tǒng)馮·諾伊曼計(jì)算架構(gòu),程序和數(shù)據(jù)保存在內(nèi)存中,處理器和內(nèi)存是分開(kāi)的,數(shù)據(jù)在兩者之間移動(dòng)。這種計(jì)算架構(gòu)導(dǎo)致數(shù)據(jù)在內(nèi)存和處理器間的傳輸延遲不可避免。例如DDR最高帶寬理論值約為30-80GB/s,且隨機(jī)數(shù)據(jù)訪問(wèn)時(shí)的帶寬要遠(yuǎn)低于理論值。而一次深度神經(jīng)網(wǎng)絡(luò)的推理過(guò)程涉及的計(jì)算中間數(shù)據(jù)量遠(yuǎn)高于此,比如:VGG16網(wǎng)絡(luò)有138.36M個(gè)權(quán)重參數(shù),一次推理過(guò)程需要154.7G次乘累加運(yùn)算。深度神經(jīng)網(wǎng)絡(luò)加速器(NPU)最重要的優(yōu)化手段之一是降低對(duì)內(nèi)存訪問(wèn)的頻率,有利于降低系統(tǒng)功耗,并縮短推理計(jì)算的延遲。比如根據(jù)不同類型場(chǎng)景需求中的神經(jīng)網(wǎng)絡(luò)模型特性,設(shè)定NPU內(nèi)SRAM大小,降低DDR內(nèi)存訪問(wèn)的概率。甚至當(dāng)模型無(wú)法全部一次性加載到NPU中時(shí),也可以通過(guò)靈活的數(shù)據(jù)替換策略和對(duì)稀疏矩陣數(shù)據(jù)優(yōu)化壓縮等手段,大大降低內(nèi)存訪問(wèn)頻率和帶寬延遲。2.2靈活性與性能的平衡基于深度神經(jīng)網(wǎng)絡(luò)推理的NPU,包含大量乘加操作以及標(biāo)量數(shù)學(xué)運(yùn)算單元,由于神經(jīng)網(wǎng)絡(luò)算法不同,其網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)有較大差異,因此在定制相應(yīng)的Al加速器單元時(shí),往往操作粒度越細(xì)靈活度越高,NPU內(nèi)部實(shí)現(xiàn)也更加復(fù)雜,反之靈活度低,甚至只支持特定網(wǎng)絡(luò)模型,但是NPU內(nèi)部實(shí)現(xiàn)則相對(duì)簡(jiǎn)單。安謀科技"周易"NPU內(nèi)部包含標(biāo)量處理單元(ScalarUnit)、張量處理單元(TensorProcessingCluster)以特定Al操作(FixFunction)硬件加速單元實(shí)現(xiàn),并定義了一套完備的Al推理計(jì)算的指令集,并通過(guò)上層系統(tǒng)軟件驅(qū)動(dòng)以上模塊協(xié)同交互,完成基于各種深度神經(jīng)網(wǎng)絡(luò)類型的推理計(jì)算任務(wù),實(shí)現(xiàn)運(yùn)行效率和通用性的兼顧。2.3通用性和專用性兼顧通用型Al推理處理器,由于內(nèi)部復(fù)雜且有部分冗余設(shè)計(jì),與特定神經(jīng)網(wǎng)絡(luò)模型加速的處理器相比,性能很難做到絕對(duì)優(yōu)勢(shì),一些NPU廠商會(huì)通過(guò)固化部分常用運(yùn)算算子,確保針對(duì)特定模型算法也有顯著加速效果。安謀科技"周易"NPU本身配合專有工具鏈和編譯器,能支持?jǐn)?shù)百個(gè)各類音視頻及其它數(shù)據(jù)類型的神經(jīng)網(wǎng)絡(luò)應(yīng)用,并在架構(gòu)設(shè)計(jì)上已經(jīng)特別優(yōu)化支持VisionTransformer、3D神經(jīng)網(wǎng)絡(luò)等,對(duì)處理像素級(jí)別處理應(yīng)用等均有很好的性能優(yōu)化。在推理準(zhǔn)確率允許范圍內(nèi),降低推理時(shí)的量化比特精度,既可以大大降低運(yùn)算單元的計(jì)算量,又置的權(quán)重精度,支持INT4、INT8、INT12、INT16、FP16等。多種推理數(shù)據(jù)類型支持,兼顧了推理精度和效率,比如在推理精度滿足需求的前提下,用戶可以選用INT4的權(quán)重值;創(chuàng)新性的INT12支持,雖然NPU單核內(nèi)部運(yùn)算已經(jīng)是并行計(jì)算,但是同一時(shí)間只會(huì)有一個(gè)推理計(jì)算任務(wù)進(jìn)行。先進(jìn)的多核方案,能夠使單塊SoC硅片充分發(fā)揮硬件的算力,每個(gè)計(jì)算核心可以完成不同的推理計(jì)算或者多個(gè)計(jì)算核心共同完成同一個(gè)推理計(jì)算任務(wù),理論上算力可以做到并行疊加,甚至可滿足數(shù)千TOPS算力需求。不過(guò)多核設(shè)計(jì)中,系統(tǒng)軟件對(duì)于多核任務(wù)的調(diào)度優(yōu)化十分重要,需要合理將任務(wù)分配到不同計(jì)算核心并監(jiān)控其運(yùn)行狀態(tài),隨著并行任務(wù)的增多,任務(wù)調(diào)度器本身也會(huì)成為性能瓶頸。安謀科技"周易"NPU多核架構(gòu)則采用先進(jìn)的硬件任務(wù)調(diào)度管理器,相比使用控制處理器(如CPU、DSP等)來(lái)調(diào)度多核任務(wù)的架構(gòu)設(shè)計(jì),能夠克服隨著算力增加而產(chǎn)生調(diào)度瓶頸的問(wèn)題,并且可以使HostCPU軟件設(shè)計(jì)和維護(hù)更加簡(jiǎn)化和高效。3.功能安全涉及到安全應(yīng)用的汽車芯片必須滿足系統(tǒng)的ISO26262要求,其中包括半導(dǎo)體嵌入式存儲(chǔ)器等。功能安全強(qiáng)調(diào)應(yīng)對(duì)兩類失效:系統(tǒng)性失效和隨機(jī)硬件失效。對(duì)于前者除了公司層級(jí)需要具備合規(guī)的功能安全流程外,更需在產(chǎn)品研發(fā)的生命周期下嚴(yán)格遵循功能安全流程,從而將系統(tǒng)性失效的風(fēng)險(xiǎn)控制在對(duì)應(yīng)汽車安全完整性等級(jí)(ASIL)要求的范圍內(nèi)。對(duì)于后者可用失效模式影響和診斷分析進(jìn)行定量證明,芯片內(nèi)的功能安全機(jī)制是可以保證診斷覆蓋率,達(dá)到或者超過(guò)ISO26262相圖九:功能安全兩類失效類型針對(duì)隨機(jī)硬件失效的各種失效模式,需要有相應(yīng)的功能安全機(jī)制進(jìn)行應(yīng)對(duì)。包括用于保護(hù)內(nèi)部故障的Parity、針對(duì)復(fù)雜邏輯的硬件冗余和鎖步、以及探測(cè)門(mén)級(jí)隨機(jī)硬件失效所需運(yùn)行的軟件自測(cè)庫(kù)等等。由此可見(jiàn),為了應(yīng)對(duì)隨機(jī)硬件失效,額外的硬件及軟件安全機(jī)制的設(shè)計(jì)均是不可或缺的。在具體的產(chǎn)品開(kāi)發(fā)實(shí)踐中,以安謀科技開(kāi)發(fā)的STAR-MC2為例,該處理器使用了以下機(jī)制來(lái)實(shí)現(xiàn)錯(cuò)誤的檢測(cè)和處理:·處理器設(shè)計(jì)了內(nèi)存保護(hù)單元,安全態(tài)標(biāo)記單元等進(jìn)行軟件訪問(wèn)權(quán)限管理,保護(hù)軟件系統(tǒng)的正確運(yùn)行;常等錯(cuò)誤行為進(jìn)行相應(yīng)的處理和糾正;·處理器的存儲(chǔ)器和總線接口上,引入ECC(錯(cuò)誤數(shù)據(jù)糾正)或者Flopparity(校驗(yàn))設(shè)計(jì),對(duì)存儲(chǔ)數(shù)據(jù)讀寫(xiě)錯(cuò)誤進(jìn)行檢測(cè)和糾正;·處理器設(shè)計(jì)了一個(gè)可編程的內(nèi)建存儲(chǔ)自測(cè)試模塊,可以對(duì)存儲(chǔ)單元進(jìn)行測(cè)試;25《車載智能計(jì)算芯片白皮書(shū)(2023)》26《車載智能計(jì)算芯片白皮書(shū)(2023)》ASILB的診斷能力,但是,往往有ASILD的系統(tǒng)能力要求。這主要是為了方便用戶在集成過(guò)程中減少免干擾分析方面的工作量。3.5系統(tǒng)集成STL一般獨(dú)立于HAL并專屬于特定硬件,STL根據(jù)會(huì)應(yīng)用或RTOS的指令有選擇的執(zhí)行硬件測(cè)試過(guò)特定API來(lái)改變STL行為模擬硬件故障的進(jìn)行系統(tǒng)集成測(cè)試。不過(guò)STL調(diào)用期間一般需要屏蔽外部4.信息安全智能汽車的信息安全,是確保自動(dòng)駕駛邊緣計(jì)算系統(tǒng)免受外部非法入侵或者攻擊的核心基礎(chǔ)。操作系統(tǒng)安全、控制系統(tǒng)安全和通信安全。汽車安全要求HSM(HardwareSecurityModule-硬件安全模塊)已經(jīng)成為智能汽車的安全基礎(chǔ),也是行業(yè)的默認(rèn)標(biāo)準(zhǔn)?!吧胶!盨PU是安謀科技自主研發(fā)的專門(mén)應(yīng)用于汽車行業(yè)的HSM解決方案,能夠廣泛應(yīng)用于自動(dòng)駕駛芯片,智能座艙、域控制器、中央網(wǎng)關(guān)等不同的應(yīng)用場(chǎng)景,"山海"SPU還支持功能安全為智能汽車BootROMBootROMSRAM28A/Applitations/AlorithmUnifiedEnd-To-EndToolsNNCompilerOpencl/CCompilerProfierarmComputetbraySimuator基于BEV+Transformer的端到端自動(dòng)駕駛大模型實(shí)現(xiàn)感知未策一體化DF/G面對(duì)自動(dòng)駕駛海量長(zhǎng)尾場(chǎng)景的挑戰(zhàn),大模型已經(jīng)表現(xiàn)出巨大的潛力,目前這一"BEV+Transformer"的模型需要上億級(jí)別的參數(shù)量。在未來(lái)十年,端到端的模型需要更大參數(shù)規(guī)模,甚至到同時(shí),隨著算法的日益復(fù)雜,原先簡(jiǎn)單的大規(guī)模并行計(jì)算架構(gòu)也難以為繼,智能計(jì)算與邏輯計(jì)算開(kāi)始深度耦合,例如,為了實(shí)現(xiàn)更高效率的稀疏化等優(yōu)化手段,通過(guò)CPU對(duì)數(shù)據(jù)進(jìn)行調(diào)度,可以實(shí)現(xiàn)更好的NPU計(jì)算利用率,因此,NPU算力的增長(zhǎng)會(huì)同步帶動(dòng)對(duì)于CPU算力的需求。2.軟硬協(xié)同優(yōu)化的難點(diǎn)芯片設(shè)計(jì)、生產(chǎn)與場(chǎng)景落地往往是不同的廠商參與,芯片設(shè)計(jì)和生產(chǎn)由于其一次性投入非常大,特別是針對(duì)汽車的智能計(jì)算芯片而言,只有足夠的場(chǎng)景覆蓋才會(huì)有較大出貨量,所以車載芯片在其設(shè)計(jì)之初就會(huì)保留一定通用性。對(duì)于特定場(chǎng)景的軟件開(kāi)發(fā)團(tuán)隊(duì)而言,一方面需要與芯片及基礎(chǔ)軟件開(kāi)發(fā)團(tuán)隊(duì)通力合作,通過(guò)軟件優(yōu)化的方式充分發(fā)揮芯片及硬件的計(jì)算效能;另外一方面,通用芯片很難針對(duì)所有場(chǎng)景都實(shí)現(xiàn)特別優(yōu)化。因此,實(shí)際場(chǎng)景中的計(jì)算性能發(fā)揮往往與芯片最佳性能差距較大,其中的難點(diǎn)主要體現(xiàn)在如下幾個(gè)方面:2.1Al算法迭代創(chuàng)新周期很快人工智能領(lǐng)域軟件迭代的速度非???,據(jù)斯坦福大學(xué)以人為本人工智能研究所發(fā)布的《2022年人工智能指數(shù)報(bào)告》指出,2021年全球人工智能相關(guān)的公開(kāi)專利數(shù)量超過(guò)14萬(wàn)件,是2015年的30倍,年復(fù)合增長(zhǎng)率高達(dá)76.9%。因此,固化的硬件設(shè)計(jì)難以滿足日益增長(zhǎng)的算力需求和日新月異的算法演化需求,特別是在車載計(jì)算硬件平臺(tái),一旦發(fā)布,則存在于汽車的完整周期,要滿足未來(lái)8-10年的軟件和算法迭代,選定合適的硬件計(jì)算平臺(tái),甚至預(yù)埋部分額外算力,可以與未來(lái)的軟件、算法升2.2Al模型計(jì)算模式差異性大31《車載智能計(jì)算芯片白皮書(shū)(2023)》車載Al應(yīng)用目前以推理為主,算法模型是在云端提前訓(xùn)練好,下載部署到車端,但是目前不存在一個(gè)統(tǒng)一的深度神經(jīng)網(wǎng)絡(luò)模型,適用于所有的Al場(chǎng)景,往往不同具體場(chǎng)景有多種類型的算法模型適用,這些不同類型的模型共同驅(qū)動(dòng)Al推理芯片的架構(gòu)演進(jìn)。比如早期CNN模型采用若干個(gè)卷積層作用于輸入圖像以生成低維特征,然后再將幾個(gè)全連接層用作分類器產(chǎn)生識(shí)別結(jié)果的輸出;ResNet則主要基于稠密矩陣,使用了多分支和并行層,以實(shí)現(xiàn)多尺度采樣和避免梯度消失;而對(duì)于推薦系統(tǒng)而言,可能需要非常大的甚至跨越節(jié)點(diǎn)才可以存放下的稀疏2.3端到端異構(gòu)計(jì)算流水線設(shè)計(jì)與參數(shù)調(diào)優(yōu)復(fù)雜異構(gòu)計(jì)算是車載高性能Al應(yīng)用的典型流水線作業(yè)計(jì)算方式,既復(fù)用了傳統(tǒng)CPU的成熟軟件生態(tài),也可以結(jié)合場(chǎng)景,用特定硬件加速器完成Al推理、前處理和后處理,真正成本等。從軟件與算法角度,需要對(duì)Al任務(wù)進(jìn)行分割,確認(rèn)相應(yīng)的硬件加速器使用,建立合理的計(jì)算流水線以及設(shè)定相應(yīng)的處理參數(shù)和調(diào)度策略,確保環(huán)境感知數(shù)據(jù)通過(guò)不同步驟(硬件加速單元)不會(huì)32《車載智能計(jì)算芯片白皮書(shū)(2023)》2.4指令集定義兼顧靈活性和性能和軟件的接口,并明確了處理器單元能夠做什么以及如何完成,也是用戶能夠與硬件交互的唯一方式。硬件加速算子粒度是確保架構(gòu)可編程性、實(shí)現(xiàn)軟件優(yōu)化、適應(yīng)未來(lái)算法演進(jìn)需求的關(guān)鍵,在此基礎(chǔ)上,定義完備且穩(wěn)定的指令集,在軟件和硬件迭代不同步的情況下,仍然可以通過(guò)微架構(gòu)和芯片制"周易"NPU指令集是專門(mén)為Al處理器設(shè)計(jì)的一套異構(gòu)指令集,以傳統(tǒng)VLIW為基礎(chǔ),包含可編程標(biāo)量,矢量處理器指令集和Al專用計(jì)算處理指令集,兼顧了靈活性和Al處理的高效性,并以此拓展成可支持靜態(tài)形(StaticShape)和動(dòng)態(tài)形(DynamicShape)模型輸入數(shù)據(jù)。"周易"指令集的設(shè)計(jì)思想是面向通用Al數(shù)據(jù)處理,盡可能把Al相關(guān)的計(jì)算轉(zhuǎn)移到NPU上面執(zhí)行,并且提供編程友好的接口來(lái)支持開(kāi)發(fā)者進(jìn)行自定義開(kāi)發(fā)。指令集對(duì)開(kāi)發(fā)者開(kāi)放,開(kāi)發(fā)者除了使用內(nèi)建優(yōu)化算子庫(kù)之外,更可實(shí)現(xiàn)整個(gè)NPU的靈活編程,以滿足用戶日益增長(zhǎng)的定制化、差異化的神經(jīng)網(wǎng)絡(luò)算法部署需求。Al推理計(jì)算是非常復(fù)雜的過(guò)程,對(duì)于延遲要求非常高,采用多核并行架構(gòu)可以有效提高性能是高性能SoC上的常見(jiàn)做法,并行架構(gòu)在數(shù)據(jù)訪問(wèn)延遲、計(jì)算核心作業(yè)調(diào)度、計(jì)算核心控制、多層次緩存結(jié)構(gòu)、虛擬化以及進(jìn)程間切換等方面,涉及到編譯器、多核編程,數(shù)據(jù)壓縮、量化等眾多細(xì)節(jié),這些對(duì)Al應(yīng)用開(kāi)發(fā)者而言并非完全透明,甚至需要開(kāi)發(fā)者對(duì)性能數(shù)據(jù)進(jìn)行調(diào)試、跟蹤、分碼編寫(xiě)、調(diào)試涉及的SDK/API調(diào)用規(guī)范,可以簡(jiǎn)單理解為編程模型。深入理解編程模型,需要對(duì)硬件33《車載智能計(jì)算芯片白皮書(shū)(2023)》架構(gòu)有一定理解,也是充分發(fā)揮應(yīng)用程序計(jì)算性能的前置條件,但是對(duì)于很多Al應(yīng)用開(kāi)發(fā)者而言,理解硬件架構(gòu)并非易事,因此統(tǒng)一的編程模型至少帶來(lái)如下好處:編程學(xué)習(xí)曲線:對(duì)于應(yīng)用開(kāi)發(fā)者而言,熟練使用同一套編程API和編程方式,有助于降低開(kāi)發(fā)人員學(xué)習(xí)成本和團(tuán)隊(duì)溝通成本,提高日常開(kāi)發(fā)工作效率,也有助于保持軟硬件平臺(tái)演化的一致性。比如深度學(xué)習(xí)主流框架之一的Keras,代碼簡(jiǎn)單很容易擴(kuò)展,非常直觀的定義神經(jīng)網(wǎng)絡(luò),初學(xué)者非常容易入門(mén),最初Keras為了訓(xùn)練自定義的神經(jīng)網(wǎng)絡(luò),采用了Theano作為默認(rèn)的后端實(shí)現(xiàn)來(lái)完成Al訓(xùn)練,隨著TensorFlow訓(xùn)練框架的興起,Keras也支持TensorFlow以及其它多個(gè)Al訓(xùn)練框架為其后端執(zhí)簡(jiǎn)化調(diào)試部署:同一個(gè)系列不同版本的芯片,功能或者性能可能有所不同,芯片廠商提供統(tǒng)一的SDK,可以屏蔽芯片實(shí)現(xiàn)細(xì)節(jié)和硬件差異,可以避免用戶代碼的改動(dòng)甚至可以避免用戶代碼重新編譯。對(duì)于Al應(yīng)用開(kāi)發(fā)者而言,可以做到開(kāi)發(fā)環(huán)境調(diào)試和目標(biāo)設(shè)備運(yùn)行基本保持一致,特別是目標(biāo)設(shè)備不完全一致時(shí),也會(huì)極大簡(jiǎn)化開(kāi)發(fā)、調(diào)試和部署的工作量,降低成本。比如ApacheTVM項(xiàng)目?jī)蓚€(gè)主要功能為:將深度學(xué)習(xí)模型編譯成最小可部署的與硬件無(wú)關(guān)模塊;根據(jù)后端執(zhí)行加速器硬件特性,自動(dòng)生成和優(yōu)化模型,提高性能;ApacheTVM目前可以支持的后端比如生成CPU、GPU、VM以及部分自定義的NPU代碼和模型,極大簡(jiǎn)化開(kāi)發(fā)者的調(diào)試部署時(shí)間。2.6編譯器技術(shù)硬件執(zhí)行體設(shè)計(jì)者,會(huì)根據(jù)計(jì)算特征,將計(jì)算瓶頸相關(guān)運(yùn)算固化成硬件指令,采用硬件加速單元會(huì)針對(duì)不同場(chǎng)景,使用不同的算法模型,完成相應(yīng)的計(jì)算任務(wù),即便是同一類型的算法模型,也會(huì)根據(jù)能效和性能需要,進(jìn)行必要的參數(shù)調(diào)整。編譯器技術(shù)雖然可以幫助軟件開(kāi)發(fā)者將高級(jí)語(yǔ)言翻譯成機(jī)器可執(zhí)行機(jī)器語(yǔ)言,但是編譯器通常都是基于規(guī)則來(lái)完成機(jī)器語(yǔ)言的翻譯和優(yōu)化,在實(shí)際運(yùn)行中,由3PartyRuntimeNPUDriversArmMallGPU于輸入條件和場(chǎng)景不同,編譯器無(wú)法針對(duì)運(yùn)行時(shí)的場(chǎng)景進(jìn)行優(yōu)化,此時(shí)則需要軟件工程師對(duì)芯片硬件架構(gòu)體系有一定了解,針對(duì)場(chǎng)景編寫(xiě)出硬件優(yōu)化的代碼,并指導(dǎo)編譯器優(yōu)化編譯。3.NPU軟硬協(xié)同設(shè)計(jì)創(chuàng)新對(duì)于Al芯片而言,能夠通過(guò)軟件在運(yùn)行時(shí)重新配置、實(shí)時(shí)動(dòng)態(tài)改變功能,以運(yùn)行不同計(jì)算任務(wù),滿足不同場(chǎng)景需求至關(guān)重要。Al芯片的運(yùn)行時(shí)實(shí)時(shí)動(dòng)態(tài)重新配置稱為可重構(gòu)計(jì)算技術(shù),可重構(gòu)計(jì)算技術(shù)允許硬件架構(gòu)不變,通過(guò)軟件來(lái)完成計(jì)算任務(wù)設(shè)定,同時(shí)具備CPU的靈活性和ASIC的高性能和低功耗,被認(rèn)為是突破性的下一代集成電路技術(shù),為Al芯片帶來(lái)了極高的靈活度和適用范圍??芍貥?gòu)技術(shù)與系統(tǒng)軟件緊密耦合,普通Al應(yīng)用軟件開(kāi)發(fā)并不能直接針對(duì)Al芯片進(jìn)行編程。"周易"NPU是典型的可重構(gòu)Al芯片技術(shù),通過(guò)CompassSDK可以完成典型Al模型的轉(zhuǎn)化和代碼編譯,使得Al模型可以運(yùn)行在包含"周易"NPUIP的芯片之上。最新發(fā)布的X2系列NPU產(chǎn)品針對(duì)自動(dòng)駕駛領(lǐng)域計(jì)算芯片,單核MAC陣列,在配置成INT8*INT8或者INT8*INT12時(shí),可以提供10TOPS的算力,INT16*INT16時(shí)可以提供2.5TOPS的算力,并支持混合精度神經(jīng)網(wǎng)絡(luò)推理部署。除了精度的動(dòng)態(tài)配置外,"周易"NPU還可以在運(yùn)行時(shí)配置,以支持各種Al模型的動(dòng)態(tài)切換。UnifiedUnifiedEnd-To-EndToolsProfilerDebuggerIDE/GUI圖十二:"周易"NPU軟件技術(shù)棧如圖十二藍(lán)色部分所示,“周易"NPU工具鏈可以把典型的Al訓(xùn)練框架生成的模型,轉(zhuǎn)化成"周易"NPU可執(zhí)行文件,并在轉(zhuǎn)化編譯過(guò)程中,針對(duì)目標(biāo)平臺(tái)芯片進(jìn)行諸如低精度量化等優(yōu)化執(zhí)行碼操作,極大方便Al算法和軟件工程師部署模型推理和性能調(diào)優(yōu)。目前已支持160多個(gè)常用的Al模型算子,其開(kāi)放的軟件技術(shù)架構(gòu),也方便Al開(kāi)發(fā)者自定義算子。隨著"周易"NPU技術(shù)的不斷演化,更多新的Al芯片將不斷量產(chǎn),軟件與算法開(kāi)發(fā)者均可以借助"周易"NPU工具鏈,完成代碼模型對(duì)Al芯片產(chǎn)品的適配、調(diào)試或者仿真測(cè)試,實(shí)現(xiàn)軟件算法開(kāi)發(fā)對(duì)芯片的解耦,提高車載自動(dòng)駕駛軟件的研發(fā)效率。Al編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為對(duì)應(yīng)Al芯片上的運(yùn)行代碼(通常作為某種形式的深度神經(jīng)網(wǎng)絡(luò)執(zhí)行),甚至針對(duì)特定模型和目標(biāo)芯片特性進(jìn)行優(yōu)化。一方面軟件屏蔽了Al芯片的底層技術(shù)細(xì)節(jié),降低自動(dòng)駕駛算法落地的工程開(kāi)發(fā)難度,另外一方面,隨著算法和模型的不斷演進(jìn),對(duì)于未來(lái)出現(xiàn)的新算法和模型支持也能做到一定程度上的支持,確保硬件平臺(tái)向后兼容性。4.異構(gòu)感知計(jì)算流水線優(yōu)化車載智能計(jì)算平臺(tái)在輔助駕駛或者自動(dòng)駕駛場(chǎng)景中,對(duì)于環(huán)境數(shù)據(jù)感知有著非??量痰难舆t要求,其中數(shù)據(jù)傳輸及處理涉及到多個(gè)功能模塊。在SoC設(shè)計(jì)時(shí),不同功能IP模塊往往由不同廠商提供,針對(duì)特定場(chǎng)景優(yōu)化,需要這些模塊間形成可以直接通信的系統(tǒng)方案。比如:多路攝像頭及其它傳感器輸入的環(huán)境感知數(shù)據(jù),會(huì)實(shí)時(shí)輸入給NPU模塊。高性能的車載智能計(jì)算SoC內(nèi)部,讓NPU模塊與GPU、ISP、VPU等模塊協(xié)同工作以達(dá)到最佳的效率是非常重要的。安謀科技推出的DFC(DirectFrameConnection)技術(shù),避免ISP(ImageSignalProcessor)輸出數(shù)據(jù)寫(xiě)入DRAM(延遲通常在50-100ns)內(nèi)存,然后NPU再?gòu)腄RAM內(nèi)存讀取數(shù)據(jù)并處理的過(guò)程,在芯片設(shè)計(jì)時(shí),工程師可以根據(jù)場(chǎng)景需求,靈活配置DFC內(nèi)部SRAM(延遲通常在1-2ns)大小,橋接諸如標(biāo)準(zhǔn)的"玲瓏"ISP和"周易"NPU模塊,極大降低數(shù)據(jù)延遲和功耗,提高數(shù)據(jù)處理吞吐率,NPU數(shù)據(jù)總線圖十三:DFC技術(shù)示意圖5.輔助駕駛、自動(dòng)駕駛案例用場(chǎng)景的拓展和深入新問(wèn)題、新挑戰(zhàn)需要新的算法,再加上編譯器以及整個(gè)硬件系統(tǒng)架構(gòu)持續(xù)往前演進(jìn),通過(guò)實(shí)X9SP蓋開(kāi)w/Ows視《車載智能計(jì)算芯片白皮書(shū)(2023)》工征程5在設(shè)計(jì)理念上,不僅注重Al計(jì)算效率的優(yōu)化,更重要的是考慮了數(shù)據(jù)全流程的優(yōu)化,從數(shù)據(jù)的預(yù)處理到中間的Al計(jì)算,以及數(shù)據(jù)后處理,都有對(duì)應(yīng)的硬件加速單元,并且充分保證了處理環(huán)節(jié)的銜接性,最終獲得了60ms的業(yè)界最低延遲記錄。BPUBPU●貝葉斯是先進(jìn)處理器技術(shù)的集大成者u在征程5的貝葉斯架構(gòu)BPU的諸多亮點(diǎn)中,高度的并行化是其核心,包括硬件和軟件的并行化:在硬件層面有三層并行化:39《車載智能計(jì)算芯片白皮書(shū)(2023)》1.數(shù)據(jù)并行:跨多個(gè)單元計(jì)算多個(gè)數(shù)據(jù);2.Kernel并行:在MAC脈動(dòng)卷積單元中,在多個(gè)Kemel上計(jì)算相同的輸入數(shù)據(jù),并行生成多個(gè)特征圖;3.單元并行:?jiǎn)卧?dú)立或同時(shí)工作,并以最佳方式消耗內(nèi)部數(shù)據(jù)。在軟件層面也有三層并行化:1.算子并行:編譯器可以在同

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論