GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎

上傳人：1*** IP屬地：湖南上傳時(shí)間：2024-01-31 格式：DOCX 頁數(shù)：9 大?。?95.56KB 積分：12 舉報(bào) 版權(quán)申訴

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎_第2頁

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎_第3頁

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎_第4頁

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎一、數(shù)字經(jīng)濟(jì)、AI、智能駕駛視角下看算力需求1.1演變趨勢：從通用計(jì)算到智能計(jì)算，從分散獨(dú)立到云網(wǎng)邊協(xié)同宏觀角度下，數(shù)字經(jīng)濟(jì)建設(shè)及人工智能發(fā)展掀起了新一代算力革命，算力基建成為國家數(shù)字化轉(zhuǎn)型和經(jīng)濟(jì)發(fā)展的重要競爭策略。從1964年戈登·摩爾提出著名的摩爾定律后，CPU性能的發(fā)展便遵循這一規(guī)律，但目前數(shù)字經(jīng)濟(jì)與人工智能的高速發(fā)展，基于CPU的摩爾定律已經(jīng)失效，如何突破“算力墻”，滿足新時(shí)代各種算力需求，成為各國主要的競爭焦點(diǎn)。微觀角度下，算力形式逐漸由通用計(jì)算過渡為高性能計(jì)算，從分散獨(dú)立的端計(jì)算向云網(wǎng)邊協(xié)同計(jì)算演變。當(dāng)前，常見的高性能計(jì)算可以分為科學(xué)、工程計(jì)算與智能計(jì)算；算力資源服務(wù)可以分為云計(jì)算、混合計(jì)算及算力網(wǎng)絡(luò)。1）科學(xué)、工程計(jì)算。這類計(jì)算主要利用超級計(jì)算機(jī)實(shí)現(xiàn)并行計(jì)算，是一種算法優(yōu)化和硬件集群結(jié)合的計(jì)算模式。高性能計(jì)算由于具有較高的性能、效率及計(jì)算精度，可以廣泛的用于大規(guī)模復(fù)雜科學(xué)計(jì)算，比如工程模擬仿真、航空航天、地震預(yù)測等，同時(shí)也能支持人工智能、智慧城市等新興領(lǐng)域。2）智能計(jì)算。智能計(jì)算以智能芯片為計(jì)算算力底座，可以較好的滿足AI領(lǐng)域模型訓(xùn)練所需的智能運(yùn)算需求，因此用于支持專一的人工智能應(yīng)用場景。基于智能計(jì)算搭建的人工智能計(jì)算中心，通過將各種交叉技術(shù)集成，廣泛的應(yīng)用于智能語音處理、機(jī)器視覺、自然語言（文本）處理等不用的領(lǐng)域。3）云計(jì)算、混合計(jì)算、算力網(wǎng)絡(luò)屬于新型算力資源服務(wù)模式。云計(jì)算通過WorldWideWeb（萬維網(wǎng)）向用戶提供包括服務(wù)器、存儲、數(shù)據(jù)庫等在內(nèi)的各項(xiàng)計(jì)算服務(wù)，因?yàn)槿f維網(wǎng)以網(wǎng)頁為核心，因此云計(jì)算主要面向消費(fèi)互聯(lián)網(wǎng)；而算力網(wǎng)絡(luò)主要以算法及算力協(xié)同為核心，通過協(xié)同聯(lián)動云計(jì)算、邊緣計(jì)算、端計(jì)算及通信網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)對復(fù)雜計(jì)算任務(wù)的分解及高效調(diào)度。1.2戰(zhàn)略地位：算力屬于基礎(chǔ)設(shè)施建設(shè)，是智能時(shí)代發(fā)展的物理承載整體架構(gòu)層面，算法、算力及數(shù)據(jù)是實(shí)現(xiàn)人工智能的三要素，其中算力是構(gòu)筑智能時(shí)代的物理基礎(chǔ)。人工智能離不開算力、算法及數(shù)據(jù)，其發(fā)展需要在建立在龐大的數(shù)據(jù)集、優(yōu)秀的深度學(xué)習(xí)算法及強(qiáng)大的計(jì)算能力基礎(chǔ)之上，而算力作為底層基礎(chǔ)設(shè)施，是開啟智能時(shí)代的關(guān)鍵因素，其核心于智能芯片的技術(shù)進(jìn)步。實(shí)際發(fā)展層面，全球數(shù)據(jù)量正以指數(shù)級速度增長，“算力荒”問題日益凸顯。據(jù)IDC數(shù)據(jù)顯示，2018年至2019年全球大數(shù)據(jù)存儲量分別為33ZB、41ZB，而2020年全球數(shù)據(jù)量達(dá)到了60ZB，同比增長46%；龐大的數(shù)據(jù)集必然依賴強(qiáng)大的數(shù)據(jù)處理能力，進(jìn)而要求宏觀算力快速發(fā)展，NTCysd預(yù)計(jì)2021-2028年全球算力規(guī)模將以超過40%的速度增長，2028年將達(dá)到7510EFlops。1.3應(yīng)用驅(qū)動：數(shù)字經(jīng)濟(jì)搭建整體框架，AI大模型、智能駕駛持續(xù)拉升市場方面，數(shù)字經(jīng)濟(jì)建設(shè)、AI大模型、智能駕駛成為開啟智能時(shí)代的確定性研究方向。其中，數(shù)字經(jīng)濟(jì)建設(shè)搭建數(shù)字化布局整體框架，并提供政策支持；AI大模型及智能駕駛率先落地，成為拉動算力需求的核心驅(qū)動力。1）全球正加快數(shù)字經(jīng)濟(jì)建設(shè)，算力發(fā)展成為主要戰(zhàn)略競爭點(diǎn)之一。目前，全球正處于經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型階段，據(jù)中國信通院發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書》顯示，數(shù)字經(jīng)濟(jì)已經(jīng)成為各國發(fā)展GDP的核心戰(zhàn)略，具體數(shù)據(jù)來看，2020年全球47個(gè)國家數(shù)字經(jīng)濟(jì)增加值達(dá)到32.6萬億美元，占GDP比重為43.7%，同比名義增長3%。此外，數(shù)字經(jīng)濟(jì)已經(jīng)成為我國穩(wěn)增長促轉(zhuǎn)型的重要引擎，出臺多項(xiàng)政策支持算力發(fā)展，截至2022年我國數(shù)字經(jīng)濟(jì)規(guī)模已達(dá)50.2億元，數(shù)字基礎(chǔ)設(shè)施規(guī)模能級大幅提升，在用數(shù)據(jù)中心算例總規(guī)模超180EFlops，位居世界第二。2）AI大模型的快速擴(kuò)張是算力需求的關(guān)鍵驅(qū)動力。由于AI大模型通常需要在大規(guī)模無標(biāo)注的數(shù)據(jù)集上進(jìn)行重復(fù)的訓(xùn)練，因此相比于傳統(tǒng)的小模型在應(yīng)用場景上更具有普適性。但與此同時(shí)，數(shù)據(jù)集的快速增長以及模型不斷迭代優(yōu)化使得AI大模型尺寸快速膨脹，GPU算力也遵循著同樣的增長規(guī)律。據(jù)

OpenAI

數(shù)據(jù)顯示，GPT-3175B相比于GPT-3Small，總計(jì)算力(Flops)及參數(shù)量增長了約1400倍；而據(jù)Semianalysis最新分析指出，GPT-4模型尺寸進(jìn)一步擴(kuò)張，在其120層模型中總共包含了1.8萬億參數(shù)，約GPT-3175B參數(shù)量的10倍。3）汽車智能化功能升級，智能駕駛將貢獻(xiàn)算力需求的全新增量。汽車正逐漸步入智能化時(shí)代，傳感器數(shù)量的增加及交互能力的提升，將帶來數(shù)據(jù)的幾何式增長，這必然要求車端擁有強(qiáng)大的數(shù)據(jù)分析和處理能力。據(jù)華經(jīng)產(chǎn)業(yè)研究院預(yù)測，2025年我國L3、L5級別智能駕駛滲透率將分別達(dá)到14%、1%，到2030年兩者將分別達(dá)到40%、12%。而L3級別及以上智能駕駛汽車，不僅需要處理人機(jī)交互等指令，還需要與外界環(huán)境、云數(shù)據(jù)中心進(jìn)行交互。據(jù)分析，L3、L5級別智能駕駛算力需求將分別達(dá)到30-60TOPS、100TOPS，未來隨著智能駕駛汽車滲透率的提升，將會持續(xù)帶動智能駕駛市場整體算力需求的增加，預(yù)計(jì)2025、2030年智能駕駛市場算力需求達(dá)到1.9萬、19萬TOPS，2021-2025CAGR達(dá)112%。1.4優(yōu)化路徑：提升芯片性能及創(chuàng)新存算架構(gòu)是研究主流系統(tǒng)算力主要受處理器性能與數(shù)據(jù)傳輸能力影響，當(dāng)數(shù)據(jù)處理能力與傳輸能力不匹配時(shí)，計(jì)算能力由兩者中較低者決定。處理性能主要與指令復(fù)雜程度、頻率、并行度有關(guān)，一般來說，指令越復(fù)雜、計(jì)算頻率越高、并行程度越大，處理器性能就越好；而數(shù)據(jù)傳輸?shù)哪芰εc處理器內(nèi)部存算架構(gòu)有關(guān)，在計(jì)算機(jī)體系里，根據(jù)訪問延遲及容量大小將存儲結(jié)構(gòu)分為寄存器、緩存、內(nèi)存、外存與遠(yuǎn)程存儲，而這種存算分離的架構(gòu)形式，通常使得數(shù)據(jù)傳輸成為限制系統(tǒng)算力的因素。1）指令的復(fù)雜程度。指令系統(tǒng)是連接計(jì)算機(jī)軟件和硬件的橋梁，一般來說，指令的復(fù)雜程度于處理器運(yùn)算性能有關(guān)，指令越復(fù)雜，其性能就越好。典型的處理器平臺大致可以分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC，其中CPU為通用軟件平臺，支持包括整形計(jì)算類、浮點(diǎn)類、數(shù)據(jù)傳輸類、控制類等在內(nèi)的通用指令，而其余處理器為硬件加速平臺，用于執(zhí)行各類復(fù)雜指令。2）計(jì)算頻率。一般來說，處理器計(jì)算的速度于頻率呈現(xiàn)正相關(guān)關(guān)系，計(jì)算頻率越高，速度越快。以CPU為例，執(zhí)行一條指令需要依次經(jīng)過取址、譯碼、地址生成、取操作數(shù)、執(zhí)行、寫回階段，每個(gè)階段需要消耗一個(gè)時(shí)鐘周期，上個(gè)階段執(zhí)行完畢后才會進(jìn)入到下個(gè)階段。在此基礎(chǔ)上，時(shí)鐘周期的設(shè)定便取決于各階段用時(shí)最大者，而提高時(shí)鐘頻率大致有兩種方法：一是通過超流水線架構(gòu)提高處理器主頻，通過增加多級流水從而細(xì)化每個(gè)階段；一是通過優(yōu)化工藝技術(shù)降低各階段邏輯門處理延遲。3）并行度。并行度是指在計(jì)算機(jī)體系中，指令并行執(zhí)行的最大數(shù)目，并行度越大，意味著系統(tǒng)能夠同時(shí)處理更多指令，其運(yùn)算速度越快。常用的并行設(shè)計(jì)包括指令并行、處理器核并行、芯片級并行及服務(wù)器并行。4）數(shù)據(jù)傳輸能力。數(shù)據(jù)傳輸能力并不直接影響處理器性能，但復(fù)雜的存儲分層結(jié)構(gòu)會使得系統(tǒng)功耗、延遲及訪問寬帶增加，從而限制算力的提升。優(yōu)秀的計(jì)算系統(tǒng)應(yīng)使得處理器性能與數(shù)據(jù)傳輸能力盡可能匹配，以減少“木桶效應(yīng)”對于算力的限制。目前，數(shù)據(jù)傳輸能力的優(yōu)化方向主要包括近存計(jì)算及存算一體化架構(gòu)。二、算力需求視角下看GPU發(fā)展的必然趨勢2.1性能：GPU技術(shù)發(fā)展迅速，高并發(fā)計(jì)算能力契合算力需求1）橫向比較，GPU較CPU而言，更符合深度學(xué)習(xí)算法的高度并行計(jì)算需求。一方面，CPU性能提升已達(dá)到瓶頸，與高速增長的算力需求脫節(jié)。CPU作為第一代高效計(jì)算平臺，目前無論從不管是從架構(gòu)/微架構(gòu)設(shè)計(jì)、工藝、多核并行等各種角度出發(fā)，其性能都難以提升，2016年之后，CPU性能每年提升僅3.5%。隨著數(shù)字經(jīng)濟(jì)、AI大模型、智能駕駛等算力需求的推動，CPU性能已無法滿足上層軟件算力需求。另一方面，GPU較CPU具備更多的算術(shù)邏輯單元、控制單元與內(nèi)存緩存，其SIMD架構(gòu)與深度學(xué)習(xí)算法需求更吻合。CPU為線程級并行的MIMD架構(gòu)，其核心少但性能強(qiáng)，可以用來處理復(fù)雜的控制邏輯、預(yù)測分支、亂序執(zhí)行、多級流水等，而GPU為數(shù)據(jù)級并行的SIMD架構(gòu)，其核心多但性能弱，用于優(yōu)化具有簡單控制邏輯的數(shù)據(jù)并行任務(wù)。而神經(jīng)網(wǎng)絡(luò)算法數(shù)據(jù)要求量大，并行計(jì)算程度高，與GPU高并行計(jì)算能力、高內(nèi)存帶寬相適配。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練環(huán)節(jié)需要處理大量的數(shù)據(jù)，并且其結(jié)構(gòu)非常統(tǒng)一，每一層成千上萬個(gè)相同的人工神經(jīng)元都在執(zhí)行相同的計(jì)算操作，具有高效并行計(jì)算能力與內(nèi)存帶寬的GPU，不僅能夠更快的完成數(shù)據(jù)的讀取與寫入，還能實(shí)行多條指令并行計(jì)算。2）縱向比較，GPU架構(gòu)技術(shù)仍在演進(jìn)，其高性能計(jì)算與智能計(jì)算能力不斷優(yōu)化GPU最早作為顯卡的核心零部件，專用于圖形渲染及處理。GPU（GraphicProcessingUnit），即圖形處理單元，英偉達(dá)公司在1999年發(fā)布GeForce256圖形處理芯片時(shí)首先提出GPU的概念，GeForce256作為專門負(fù)責(zé)計(jì)算機(jī)圖形顯示的計(jì)算機(jī)零部件，通過T&L及其他多項(xiàng)技術(shù)引擎，減少了顯卡對于CPU的依賴。GPU組成中通常包含一個(gè)顯存、一個(gè)主頻、一個(gè)VRAM、一個(gè)顯存速率以及一個(gè)顯存位寬。GPU架構(gòu)迭代頻繁，已從從專用圖形處理器發(fā)展為高效的通用計(jì)算平臺，向外拓展人工智能計(jì)算及高性能計(jì)算領(lǐng)域。當(dāng)GPU引入可編程特性，將圖形硬件的流水線作為流處理器來解釋，基于GPU的通用計(jì)算也開始出現(xiàn)，即GPGPU。英偉達(dá)產(chǎn)品在2008-2022年內(nèi)，架構(gòu)迭代調(diào)整了8次，其在2010年推出具有完整GPU架構(gòu)的Fermi，在2017年Volta架構(gòu)中首次推出Tensor內(nèi)核以支持深度學(xué)習(xí)算法，而目前Hopper架構(gòu)的GPU已廣泛的應(yīng)用于AI大模型訓(xùn)練與推理環(huán)節(jié)。英偉達(dá)Tensor核心持續(xù)升級，智能計(jì)算及高性能計(jì)算能力得到不斷優(yōu)化，已成為AI模型推理的關(guān)鍵張量核心。英偉達(dá)Tensor核心最初在Volta架構(gòu)上推出，在后續(xù)推出的Turing、Ampere、Hopper上不斷優(yōu)化，Tensor核心能夠加速矩陣運(yùn)算，大幅增加浮點(diǎn)計(jì)算吞吐量。具體來看，擁有Tensor核心的V100相比于P100其混合精度運(yùn)算速度提高了9倍，而英偉達(dá)推出的第四代Tensor核心其FP8性能較AmpereFP6提高16倍，而在AI大型語言模型推理方面，性能比Ampere高出30倍。2.2靈活性：GPU可編程優(yōu)勢明顯，通用靈活性適配AI應(yīng)用端拓展GPU擁有相對較優(yōu)的性能及靈活性。常用的計(jì)算平臺包括CPU、FPGA、GPU、DSA以及ASIC，一般情況下隨著芯片性能的提升，其靈活性會逐漸下降。CPU為軟件加速平臺，通過標(biāo)準(zhǔn)化的指令集使得CPU平臺的硬件實(shí)現(xiàn)與軟件編程完全解耦，靈活性最高；ASIC為專用集成電路，是一種為專門目的而設(shè)計(jì)的集成電路，不支持硬件編程，靈活性最差。1）ASIC、DSA設(shè)計(jì)成本高、周期長，其靈活性難以滿足應(yīng)用層及宏架構(gòu)趨勢的需求。DSA與ASIC屬于專用領(lǐng)域定制類型芯片，其中ASIC屬于完全定制性化芯片，其晶體管根據(jù)算法定制，流片量產(chǎn)后算法便不可編輯；DSA在ASIC基礎(chǔ)上回調(diào)，保留一定編程能力，但其功能覆蓋的領(lǐng)域成具有較大的局限性。ASIC與DSA的通用性是限制其應(yīng)用的關(guān)鍵因素。首先，通用性限制了ASIC與DSA的應(yīng)用領(lǐng)域，與芯片高企的研發(fā)成本相矛盾。據(jù)估計(jì)，5nm制程的芯片研發(fā)成本已經(jīng)超5億美元，高企的研發(fā)成本需要具有充分量產(chǎn)能力芯片來攤薄，而ASIC與DSA芯片均為面向特定領(lǐng)域?qū)Ｓ眯酒?，不同領(lǐng)域則面臨重新設(shè)計(jì)的問題，尤其是在AI應(yīng)用領(lǐng)域，ASIC與DSA的研發(fā)周期和成本并不能滿足其AI應(yīng)用及算法迭代優(yōu)化的速度。其次，專用性使得ASIC與DSA芯片與算力融合的宏架構(gòu)趨勢相矛盾。數(shù)字經(jīng)濟(jì)的建設(shè)需用云、網(wǎng)、邊各部分資源協(xié)同融合，從而組成龐大的算力網(wǎng)絡(luò)，然而不同計(jì)算引擎、平臺、設(shè)備以及數(shù)據(jù)中心的芯片應(yīng)用場景具有較大的差異，這使得DSA、ASIC芯片難以成為數(shù)字經(jīng)濟(jì)時(shí)代的整體解決方案。2）CUDA、OpenCL技術(shù)持續(xù)為GPU賦能，GPU性能提升潛力大、應(yīng)用拓展力強(qiáng)。一方面，

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎

文檔簡介

溫馨提示

最新文檔

評論

GPU行業(yè)研究報(bào)告：AI與自動駕駛打造GPU強(qiáng)力增長引擎

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔