版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
GPU行業(yè)研究報(bào)告:AI與自動駕駛打造GPU強(qiáng)力增長引擎一、數(shù)字經(jīng)濟(jì)、AI、智能駕駛視角下看算力需求1.1演變趨勢:從通用計(jì)算到智能計(jì)算,從分散獨(dú)立到云網(wǎng)邊協(xié)同宏觀角度下,數(shù)字經(jīng)濟(jì)建設(shè)及人工智能發(fā)展掀起了新一代算力革命,算力基建成為國家數(shù)字化轉(zhuǎn)型和經(jīng)濟(jì)發(fā)展的重要競爭策略。從1964年戈登·摩爾提出著名的摩爾定律后,CPU性能的發(fā)展便遵循這一規(guī)律,但目前數(shù)字經(jīng)濟(jì)與人工智能的高速發(fā)展,基于CPU的摩爾定律已經(jīng)失效,如何突破“算力墻”,滿足新時(shí)代各種算力需求,成為各國主要的競爭焦點(diǎn)。微觀角度下,算力形式逐漸由通用計(jì)算過渡為高性能計(jì)算,從分散獨(dú)立的端計(jì)算向云網(wǎng)邊協(xié)同計(jì)算演變。當(dāng)前,常見的高性能計(jì)算可以分為科學(xué)、工程計(jì)算與智能計(jì)算;算力資源服務(wù)可以分為云計(jì)算、混合計(jì)算及算力網(wǎng)絡(luò)。1)科學(xué)、工程計(jì)算。這類計(jì)算主要利用超級計(jì)算機(jī)實(shí)現(xiàn)并行計(jì)算,是一種算法優(yōu)化和硬件集群結(jié)合的計(jì)算模式。高性能計(jì)算由于具有較高的性能、效率及計(jì)算精度,可以廣泛的用于大規(guī)模復(fù)雜科學(xué)計(jì)算,比如工程模擬仿真、航空航天、地震預(yù)測等,同時(shí)也能支持人工智能、智慧城市等新興領(lǐng)域。2)智能計(jì)算。智能計(jì)算以智能芯片為計(jì)算算力底座,可以較好的滿足AI領(lǐng)域模型訓(xùn)練所需的智能運(yùn)算需求,因此用于支持專一的人工智能應(yīng)用場景。基于智能計(jì)算搭建的人工智能計(jì)算中心,通過將各種交叉技術(shù)集成,廣泛的應(yīng)用于智能語音處理、機(jī)器視覺、自然語言(文本)處理等不用的領(lǐng)域。3)云計(jì)算、混合計(jì)算、算力網(wǎng)絡(luò)屬于新型算力資源服務(wù)模式。云計(jì)算通過WorldWideWeb(萬維網(wǎng))向用戶提供包括服務(wù)器、存儲、數(shù)據(jù)庫等在內(nèi)的各項(xiàng)計(jì)算服務(wù),因?yàn)槿f維網(wǎng)以網(wǎng)頁為核心,因此云計(jì)算主要面向消費(fèi)互聯(lián)網(wǎng);而算力網(wǎng)絡(luò)主要以算法及算力協(xié)同為核心,通過協(xié)同聯(lián)動云計(jì)算、邊緣計(jì)算、端計(jì)算及通信網(wǎng)絡(luò),能夠?qū)崿F(xiàn)對復(fù)雜計(jì)算任務(wù)的分解及高效調(diào)度。1.2戰(zhàn)略地位:算力屬于基礎(chǔ)設(shè)施建設(shè),是智能時(shí)代發(fā)展的物理承載整體架構(gòu)層面,算法、算力及數(shù)據(jù)是實(shí)現(xiàn)人工智能的三要素,其中算力是構(gòu)筑智能時(shí)代的物理基礎(chǔ)。人工智能離不開算力、算法及數(shù)據(jù),其發(fā)展需要在建立在龐大的數(shù)據(jù)集、優(yōu)秀的深度學(xué)習(xí)算法及強(qiáng)大的計(jì)算能力基礎(chǔ)之上,而算力作為底層基礎(chǔ)設(shè)施,是開啟智能時(shí)代的關(guān)鍵因素,其核心于智能芯片的技術(shù)進(jìn)步。實(shí)際發(fā)展層面,全球數(shù)據(jù)量正以指數(shù)級速度增長,“算力荒”問題日益凸顯。據(jù)IDC數(shù)據(jù)顯示,2018年至2019年全球大數(shù)據(jù)存儲量分別為33ZB、41ZB,而2020年全球數(shù)據(jù)量達(dá)到了60ZB,同比增長46%;龐大的數(shù)據(jù)集必然依賴強(qiáng)大的數(shù)據(jù)處理能力,進(jìn)而要求宏觀算力快速發(fā)展,NTCysd預(yù)計(jì)2021-2028年全球算力規(guī)模將以超過40%的速度增長,2028年將達(dá)到7510EFlops。1.3應(yīng)用驅(qū)動:數(shù)字經(jīng)濟(jì)搭建整體框架,AI大模型、智能駕駛持續(xù)拉升市場方面,數(shù)字經(jīng)濟(jì)建設(shè)、AI大模型、智能駕駛成為開啟智能時(shí)代的確定性研究方向。其中,數(shù)字經(jīng)濟(jì)建設(shè)搭建數(shù)字化布局整體框架,并提供政策支持;AI大模型及智能駕駛率先落地,成為拉動算力需求的核心驅(qū)動力。1)全球正加快數(shù)字經(jīng)濟(jì)建設(shè),算力發(fā)展成為主要戰(zhàn)略競爭點(diǎn)之一。目前,全球正處于經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型階段,據(jù)中國信通院發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書》顯示,數(shù)字經(jīng)濟(jì)已經(jīng)成為各國發(fā)展GDP的核心戰(zhàn)略,具體數(shù)據(jù)來看,2020年全球47個(gè)國家數(shù)字經(jīng)濟(jì)增加值達(dá)到32.6萬億美元,占GDP比重為43.7%,同比名義增長3%。此外,數(shù)字經(jīng)濟(jì)已經(jīng)成為我國穩(wěn)增長促轉(zhuǎn)型的重要引擎,出臺多項(xiàng)政策支持算力發(fā)展,截至2022年我國數(shù)字經(jīng)濟(jì)規(guī)模已達(dá)50.2億元,數(shù)字基礎(chǔ)設(shè)施規(guī)模能級大幅提升,在用數(shù)據(jù)中心算例總規(guī)模超180EFlops,位居世界第二。2)AI大模型的快速擴(kuò)張是算力需求的關(guān)鍵驅(qū)動力。由于AI大模型通常需要在大規(guī)模無標(biāo)注的數(shù)據(jù)集上進(jìn)行重復(fù)的訓(xùn)練,因此相比于傳統(tǒng)的小模型在應(yīng)用場景上更具有普適性。但與此同時(shí),數(shù)據(jù)集的快速增長以及模型不斷迭代優(yōu)化使得AI大模型尺寸快速膨脹,GPU算力也遵循著同樣的增長規(guī)律。據(jù)
OpenAI
數(shù)據(jù)顯示,GPT-3175B相比于GPT-3Small,總計(jì)算力(Flops)及參數(shù)量增長了約1400倍;而據(jù)Semianalysis最新分析指出,GPT-4模型尺寸進(jìn)一步擴(kuò)張,在其120層模型中總共包含了1.8萬億參數(shù),約GPT-3175B參數(shù)量的10倍。3)汽車智能化功能升級,智能駕駛將貢獻(xiàn)算力需求的全新增量。汽車正逐漸步入智能化時(shí)代,傳感器數(shù)量的增加及交互能力的提升,將帶來數(shù)據(jù)的幾何式增長,這必然要求車端擁有強(qiáng)大的數(shù)據(jù)分析和處理能力。據(jù)華經(jīng)產(chǎn)業(yè)研究院預(yù)測,2025年我國L3、L5級別智能駕駛滲透率將分別達(dá)到14%、1%,到2030年兩者將分別達(dá)到40%、12%。而L3級別及以上智能駕駛汽車,不僅需要處理人機(jī)交互等指令,還需要與外界環(huán)境、云數(shù)據(jù)中心進(jìn)行交互。據(jù)分析,L3、L5級別智能駕駛算力需求將分別達(dá)到30-60TOPS、100TOPS,未來隨著智能駕駛汽車滲透率的提升,將會持續(xù)帶動智能駕駛市場整體算力需求的增加,預(yù)計(jì)2025、2030年智能駕駛市場算力需求達(dá)到1.9萬、19萬TOPS,2021-2025CAGR達(dá)112%。1.4優(yōu)化路徑:提升芯片性能及創(chuàng)新存算架構(gòu)是研究主流系統(tǒng)算力主要受處理器性能與數(shù)據(jù)傳輸能力影響,當(dāng)數(shù)據(jù)處理能力與傳輸能力不匹配時(shí),計(jì)算能力由兩者中較低者決定。處理性能主要與指令復(fù)雜程度、頻率、并行度有關(guān),一般來說,指令越復(fù)雜、計(jì)算頻率越高、并行程度越大,處理器性能就越好;而數(shù)據(jù)傳輸?shù)哪芰εc處理器內(nèi)部存算架構(gòu)有關(guān),在計(jì)算機(jī)體系里,根據(jù)訪問延遲及容量大小將存儲結(jié)構(gòu)分為寄存器、緩存、內(nèi)存、外存與遠(yuǎn)程存儲,而這種存算分離的架構(gòu)形式,通常使得數(shù)據(jù)傳輸成為限制系統(tǒng)算力的因素。1)指令的復(fù)雜程度。指令系統(tǒng)是連接計(jì)算機(jī)軟件和硬件的橋梁,一般來說,指令的復(fù)雜程度于處理器運(yùn)算性能有關(guān),指令越復(fù)雜,其性能就越好。典型的處理器平臺大致可以分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC,其中CPU為通用軟件平臺,支持包括整形計(jì)算類、浮點(diǎn)類、數(shù)據(jù)傳輸類、控制類等在內(nèi)的通用指令,而其余處理器為硬件加速平臺,用于執(zhí)行各類復(fù)雜指令。2)計(jì)算頻率。一般來說,處理器計(jì)算的速度于頻率呈現(xiàn)正相關(guān)關(guān)系,計(jì)算頻率越高,速度越快。以CPU為例,執(zhí)行一條指令需要依次經(jīng)過取址、譯碼、地址生成、取操作數(shù)、執(zhí)行、寫回階段,每個(gè)階段需要消耗一個(gè)時(shí)鐘周期,上個(gè)階段執(zhí)行完畢后才會進(jìn)入到下個(gè)階段。在此基礎(chǔ)上,時(shí)鐘周期的設(shè)定便取決于各階段用時(shí)最大者,而提高時(shí)鐘頻率大致有兩種方法:一是通過超流水線架構(gòu)提高處理器主頻,通過增加多級流水從而細(xì)化每個(gè)階段;一是通過優(yōu)化工藝技術(shù)降低各階段邏輯門處理延遲。3)并行度。并行度是指在計(jì)算機(jī)體系中,指令并行執(zhí)行的最大數(shù)目,并行度越大,意味著系統(tǒng)能夠同時(shí)處理更多指令,其運(yùn)算速度越快。常用的并行設(shè)計(jì)包括指令并行、處理器核并行、芯片級并行及服務(wù)器并行。4)數(shù)據(jù)傳輸能力。數(shù)據(jù)傳輸能力并不直接影響處理器性能,但復(fù)雜的存儲分層結(jié)構(gòu)會使得系統(tǒng)功耗、延遲及訪問寬帶增加,從而限制算力的提升。優(yōu)秀的計(jì)算系統(tǒng)應(yīng)使得處理器性能與數(shù)據(jù)傳輸能力盡可能匹配,以減少“木桶效應(yīng)”對于算力的限制。目前,數(shù)據(jù)傳輸能力的優(yōu)化方向主要包括近存計(jì)算及存算一體化架構(gòu)。二、算力需求視角下看GPU發(fā)展的必然趨勢2.1性能:GPU技術(shù)發(fā)展迅速,高并發(fā)計(jì)算能力契合算力需求1)橫向比較,GPU較CPU而言,更符合深度學(xué)習(xí)算法的高度并行計(jì)算需求。一方面,CPU性能提升已達(dá)到瓶頸,與高速增長的算力需求脫節(jié)。CPU作為第一代高效計(jì)算平臺,目前無論從不管是從架構(gòu)/微架構(gòu)設(shè)計(jì)、工藝、多核并行等各種角度出發(fā),其性能都難以提升,2016年之后,CPU性能每年提升僅3.5%。隨著數(shù)字經(jīng)濟(jì)、AI大模型、智能駕駛等算力需求的推動,CPU性能已無法滿足上層軟件算力需求。另一方面,GPU較CPU具備更多的算術(shù)邏輯單元、控制單元與內(nèi)存緩存,其SIMD架構(gòu)與深度學(xué)習(xí)算法需求更吻合。CPU為線程級并行的MIMD架構(gòu),其核心少但性能強(qiáng),可以用來處理復(fù)雜的控制邏輯、預(yù)測分支、亂序執(zhí)行、多級流水等,而GPU為數(shù)據(jù)級并行的SIMD架構(gòu),其核心多但性能弱,用于優(yōu)化具有簡單控制邏輯的數(shù)據(jù)并行任務(wù)。而神經(jīng)網(wǎng)絡(luò)算法數(shù)據(jù)要求量大,并行計(jì)算程度高,與GPU高并行計(jì)算能力、高內(nèi)存帶寬相適配。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練環(huán)節(jié)需要處理大量的數(shù)據(jù),并且其結(jié)構(gòu)非常統(tǒng)一,每一層成千上萬個(gè)相同的人工神經(jīng)元都在執(zhí)行相同的計(jì)算操作,具有高效并行計(jì)算能力與內(nèi)存帶寬的GPU,不僅能夠更快的完成數(shù)據(jù)的讀取與寫入,還能實(shí)行多條指令并行計(jì)算。2)縱向比較,GPU架構(gòu)技術(shù)仍在演進(jìn),其高性能計(jì)算與智能計(jì)算能力不斷優(yōu)化GPU最早作為顯卡的核心零部件,專用于圖形渲染及處理。GPU(GraphicProcessingUnit),即圖形處理單元,英偉達(dá)公司在1999年發(fā)布GeForce256圖形處理芯片時(shí)首先提出GPU的概念,GeForce256作為專門負(fù)責(zé)計(jì)算機(jī)圖形顯示的計(jì)算機(jī)零部件,通過T&L及其他多項(xiàng)技術(shù)引擎,減少了顯卡對于CPU的依賴。GPU組成中通常包含一個(gè)顯存、一個(gè)主頻、一個(gè)VRAM、一個(gè)顯存速率以及一個(gè)顯存位寬。GPU架構(gòu)迭代頻繁,已從從專用圖形處理器發(fā)展為高效的通用計(jì)算平臺,向外拓展人工智能計(jì)算及高性能計(jì)算領(lǐng)域。當(dāng)GPU引入可編程特性,將圖形硬件的流水線作為流處理器來解釋,基于GPU的通用計(jì)算也開始出現(xiàn),即GPGPU。英偉達(dá)產(chǎn)品在2008-2022年內(nèi),架構(gòu)迭代調(diào)整了8次,其在2010年推出具有完整GPU架構(gòu)的Fermi,在2017年Volta架構(gòu)中首次推出Tensor內(nèi)核以支持深度學(xué)習(xí)算法,而目前Hopper架構(gòu)的GPU已廣泛的應(yīng)用于AI大模型訓(xùn)練與推理環(huán)節(jié)。英偉達(dá)Tensor核心持續(xù)升級,智能計(jì)算及高性能計(jì)算能力得到不斷優(yōu)化,已成為AI模型推理的關(guān)鍵張量核心。英偉達(dá)Tensor核心最初在Volta架構(gòu)上推出,在后續(xù)推出的Turing、Ampere、Hopper上不斷優(yōu)化,Tensor核心能夠加速矩陣運(yùn)算,大幅增加浮點(diǎn)計(jì)算吞吐量。具體來看,擁有Tensor核心的V100相比于P100其混合精度運(yùn)算速度提高了9倍,而英偉達(dá)推出的第四代Tensor核心其FP8性能較AmpereFP6提高16倍,而在AI大型語言模型推理方面,性能比Ampere高出30倍。2.2靈活性:GPU可編程優(yōu)勢明顯,通用靈活性適配AI應(yīng)用端拓展GPU擁有相對較優(yōu)的性能及靈活性。常用的計(jì)算平臺包括CPU、FPGA、GPU、DSA以及ASIC,一般情況下隨著芯片性能的提升,其靈活性會逐漸下降。CPU為軟件加速平臺,通過標(biāo)準(zhǔn)化的指令集使得CPU平臺的硬件實(shí)現(xiàn)與軟件編程完全解耦,靈活性最高;ASIC為專用集成電路,是一種為專門目的而設(shè)計(jì)的集成電路,不支持硬件編程,靈活性最差。1)ASIC、DSA設(shè)計(jì)成本高、周期長,其靈活性難以滿足應(yīng)用層及宏架構(gòu)趨勢的需求。DSA與ASIC屬于專用領(lǐng)域定制類型芯片,其中ASIC屬于完全定制性化芯片,其晶體管根據(jù)算法定制,流片量產(chǎn)后算法便不可編輯;DSA在ASIC基礎(chǔ)上回調(diào),保留一定編程能力,但其功能覆蓋的領(lǐng)域成具有較大的局限性。ASIC與DSA的通用性是限制其應(yīng)用的關(guān)鍵因素。首先,通用性限制了ASIC與DSA的應(yīng)用領(lǐng)域,與芯片高企的研發(fā)成本相矛盾。據(jù)估計(jì),5nm制程的芯片研發(fā)成本已經(jīng)超5億美元,高企的研發(fā)成本需要具有充分量產(chǎn)能力芯片來攤薄,而ASIC與DSA芯片均為面向特定領(lǐng)域?qū)S眯酒?,不同領(lǐng)域則面臨重新設(shè)計(jì)的問題,尤其是在AI應(yīng)用領(lǐng)域,ASIC與DSA的研發(fā)周期和成本并不能滿足其AI應(yīng)用及算法迭代優(yōu)化的速度。其次,專用性使得ASIC與DSA芯片與算力融合的宏架構(gòu)趨勢相矛盾。數(shù)字經(jīng)濟(jì)的建設(shè)需用云、網(wǎng)、邊各部分資源協(xié)同融合,從而組成龐大的算力網(wǎng)絡(luò),然而不同計(jì)算引擎、平臺、設(shè)備以及數(shù)據(jù)中心的芯片應(yīng)用場景具有較大的差異,這使得DSA、ASIC芯片難以成為數(shù)字經(jīng)濟(jì)時(shí)代的整體解決方案。2)CUDA、OpenCL技術(shù)持續(xù)為GPU賦能,GPU性能提升潛力大、應(yīng)用拓展力強(qiáng)。一方面,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石河子大學(xué)《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《食品貯藏與保鮮》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《結(jié)構(gòu)力學(xué)一》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《復(fù)變函數(shù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 智慧高速解決方案
- 沈陽理工大學(xué)《審計(jì)學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 2018年四川內(nèi)江中考滿分作文《我心中的英雄》13
- 沈陽理工大學(xué)《化工工藝設(shè)計(jì)》2022-2023學(xué)年第一學(xué)期期末試卷
- 沈陽理工大學(xué)《產(chǎn)品仿生學(xué)應(yīng)用設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州海珠區(qū)法院判決繼續(xù)履行勞動合同的案例
- 產(chǎn)品系統(tǒng)設(shè)計(jì)開發(fā) 課件 第3、4章 產(chǎn)品系統(tǒng)設(shè)計(jì)程序與方法、產(chǎn)品系統(tǒng)設(shè)計(jì)類型
- 華為ipd流程管理
- 電子信息工程技術(shù)專業(yè)職業(yè)生涯規(guī)劃書
- GB/T 29711-2023焊縫無損檢測超聲檢測焊縫內(nèi)部不連續(xù)的特征
- 世界各國國家代號、區(qū)號、時(shí)差
- Talent5五大職業(yè)性格測試技巧138答案
- 工程水文學(xué)題庫及題解(全)
- 【學(xué)生基本信息表】樣本
- 環(huán)境監(jiān)測儀器設(shè)備采購?fù)稑?biāo)方案(技術(shù)標(biāo))
- 薄壁不銹鋼管卡壓連接施工工藝
- 新課標(biāo)-人教版數(shù)學(xué)六年級上冊第四單元《比》單元教材解讀
評論
0/150
提交評論