




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2022年英偉達(dá)主營(yíng)業(yè)務(wù)及發(fā)展趨勢(shì)分析1. 英偉達(dá)歷史及業(yè)務(wù)簡(jiǎn)介1.1. GPU 簡(jiǎn)介多核心的并行結(jié)構(gòu) GPU 比少核心串行結(jié)構(gòu)的 CPU 更適合處理圖形圖像(矩陣結(jié) 構(gòu))信息。CPU(Central Processing Unit,中央處理器)的功能主要是解釋計(jì)算機(jī)指令以 及處理計(jì)算機(jī)軟件中的數(shù)據(jù),是計(jì)算機(jī)的核心大腦,可以處理計(jì)算機(jī)遇到的所有指令。 GPU(Graphics Processing Unit,圖形處理器)是圖形計(jì)算的重要元件, 主要用來(lái)處理 與與圖形圖像相關(guān)的數(shù)據(jù),在高端 PC 中通常會(huì)有獨(dú)立 GPU,以獲得更好的視覺(jué)體驗(yàn)。 他們二者的區(qū)別主要是,CPU 通常有 4 個(gè)、8 個(gè)
2、或 16 個(gè)強(qiáng)力 ALU 核心(arithmetic logic unit,算術(shù)邏輯單元),適合做復(fù)雜的通用串行任務(wù);而 GPU 可能有數(shù)千個(gè)簡(jiǎn)單 ALU 核 心,適合做簡(jiǎn)單特定的并行任務(wù)。我們通過(guò)以下的例子來(lái)說(shuō)明 CPU 和 GPU 的差異:CPU 就像一個(gè)大學(xué)生,可以進(jìn)行微積分等復(fù)雜計(jì)算,但若要在短時(shí)間內(nèi)完成幾萬(wàn)道加減算數(shù) 問(wèn)題,也是很難辦得到的;而 GPU 就像幾百個(gè)小學(xué)生,雖然都不會(huì)微積分等復(fù)雜計(jì)算 的能力,但人數(shù)多,可以在很短時(shí)間內(nèi)完成幾萬(wàn)道加減算數(shù)問(wèn)題。也有例子把 CPU 比 作跑車,GPU 比作大卡車,對(duì)于將少量貨物從 A 運(yùn)到 B 來(lái)說(shuō),是作為跑車的 CPU 更 快;但如果貨物
3、非常多,那么作為跑車的 CPU 需要往返的次數(shù)遠(yuǎn)遠(yuǎn)多于作為貨車的 GPU, 作為貨車的 GPU 雖然完成一次任務(wù)較慢,但是可以攜帶更多的貨物,其效率會(huì)高于 CPU。 總而言之,對(duì)于復(fù)雜的單個(gè)計(jì)算任務(wù)來(lái)說(shuō), CPU 的執(zhí)行效率更高,通用性更強(qiáng);而對(duì) 于圖形圖像這種矩陣式多像素點(diǎn)的簡(jiǎn)單計(jì)算,更適合用 GPU 來(lái)處理,但通用性較弱。GPU 按接入方式分為獨(dú)立 GPU 和集成 GPU;按照應(yīng)用端劃分為移動(dòng) GPU、服務(wù) 器 GPU 和 PC GPU。GPU 是圖形處理單元,在 PC(個(gè)人電腦)早期,圖形數(shù)據(jù)較為簡(jiǎn) 單,主要都是由 CPU 來(lái)進(jìn)行圖形處理。隨著圖形顯示規(guī)模的增加,CPU 已經(jīng)很難分出 更
4、多精力來(lái)處理圖形信息,而且 CPU 的架構(gòu)決定了其處理圖形信息的效率是偏低的, 因此逐漸發(fā)展出了專門處理圖形信息的 GPU。英偉達(dá)專做 GPU,開(kāi)發(fā)了獨(dú)立于 CPU 的 GPU;英特爾作為 CPU 的霸主,開(kāi)發(fā)了寄生于 CPU 芯片上的 GPU 單元,被稱為集成 GPU。通常來(lái)講,獨(dú)立 GPU 的性能都要優(yōu)于集成 GPU,在對(duì)圖形實(shí)時(shí)處理要求不高的日常辦公領(lǐng)域,使用普通的集成 GPU 即可;在對(duì)圖形實(shí)時(shí)處理能力要求很高的游戲及 設(shè)計(jì)領(lǐng)域,一般都需要使用獨(dú)立 GPU。隨著移動(dòng)設(shè)備的發(fā)展,GPU 也從 PC 端擴(kuò)展到了 移動(dòng)端,高通驍龍以及蘋果的 A 系列芯片都開(kāi)發(fā)了相應(yīng)的 GPU 芯片模塊。隨著
5、 AI 以及云計(jì)算的興起,具有并行計(jì)算架構(gòu)的 GPU 具有更高的效率,這也使 得 GPU 被應(yīng)用到 AI 及云計(jì)算等數(shù)據(jù)處理之中。這是一個(gè)全新的領(lǐng)域,擁有巨大的成長(zhǎng) 空間。值得一提的是,市場(chǎng)上還存在著比 GPU 專用程度更高的芯片,包括 FPGA(Fieldprogrammable gate array,可編程邏輯陣列)和針對(duì)某一類 AI 計(jì)算的 ASIC(Applicationspecific integrated circuit,特定場(chǎng)景芯片),包括谷歌推出的 TPU(張量計(jì)算單元)和特 斯拉推出的 NPU(神經(jīng)網(wǎng)絡(luò)計(jì)算單元),雖然在某些特定計(jì)算上效率更高,但目前這些 芯片的使用場(chǎng)景比較單
6、一,市場(chǎng)規(guī)模還較小。1.2. 英偉達(dá)發(fā)展歷史英偉達(dá)(NVIDIA)是一家以 GPU(Graphics Process Unit,圖形處理單元)芯片 設(shè)計(jì)起家的人工智能計(jì)算公司。公司創(chuàng)立于 1993 年,總部位于美國(guó)加利福尼亞州圣克 拉拉市。美籍華人 Jensen Huang(黃仁勛)是創(chuàng)始人兼 CEO。1999 年,NVIDIA 定義了 GPU,GPU 的出現(xiàn)被業(yè)界視為現(xiàn)代計(jì)算機(jī)圖形技術(shù)的開(kāi)端。英偉達(dá)于 1999 年 1 月在納 斯達(dá)克掛牌上市,在 2000 年它收購(gòu)了曾經(jīng)在 90 年代稱霸圖形顯示市場(chǎng)的 3dfx 公司的 知識(shí)產(chǎn)權(quán),逐漸占據(jù)圖形顯示市場(chǎng)的優(yōu)勢(shì)地位。到 2021 年為止,在消費(fèi)
7、 PC 領(lǐng)域,能夠 量產(chǎn) GPU 的公司只有英偉達(dá)、AMD 和英特爾,其中英特爾主要是以集成 GPU 為主,AMD 既有集成 GPU 也有獨(dú)立 GPU,英偉達(dá)主要是獨(dú)立 GPU。在獨(dú)立 GPU 領(lǐng)域,英偉 達(dá) 2021Q1 占據(jù) 81%的市場(chǎng)份額,處于絕對(duì)的領(lǐng)先地位。公司 20 多年來(lái)始終引領(lǐng) GPU 行業(yè)的發(fā)展,將 GPU 的主要應(yīng)用場(chǎng)景從游戲以及畫圖等 圖像顯示擴(kuò)展到了以 AI、云計(jì)算等大數(shù)據(jù)相關(guān)的并行計(jì)算領(lǐng)域。英偉達(dá)保持著兩年升級(jí)一 次 GPU 架構(gòu)的步伐,不斷提高 GPU 的性能。在英偉達(dá) GTC 2020 主題演講中,NVIDIA 宣 布推出安培(Ampere)架構(gòu),這是 NVIDI
8、A 發(fā)布的第八代 GPU 架構(gòu),包含超過(guò) 540 億個(gè)晶體 管,性能相較于前代提升了高達(dá) 20 倍,也是 NVIDIA 8 代 GPU 歷史上最大的一次性能飛躍。 安培架構(gòu)的最新一代 RTX30 系列游戲 GPU 和 AI 計(jì)算 GPU A100 作為各自領(lǐng)域的代表產(chǎn)品, 繼續(xù)推動(dòng)著相關(guān)領(lǐng)域的發(fā)展。1.1. 英偉達(dá)業(yè)務(wù)簡(jiǎn)介按照 FY2022(對(duì)應(yīng)公歷 2021.12022.1)的年報(bào)分法,英偉達(dá)有消費(fèi)者(游戲)業(yè)務(wù) Gaming、數(shù)據(jù)中心業(yè)務(wù) Data Center、汽車業(yè)務(wù) Auto、專業(yè)解決方案業(yè)務(wù) Professional Visualization 以及 OEM 和其他業(yè)務(wù) OEM&O
9、thers,英偉達(dá)主要為這些領(lǐng)域提供 GPU 芯片 及相應(yīng)的軟件工具鏈。從消費(fèi)者行為來(lái)看,在 PC 端購(gòu)買獨(dú)立 GPU 的主要目的是為了體驗(yàn) 高性能游戲,因此英偉達(dá)將 PC 端 GPU 的銷售業(yè)務(wù)稱之為游戲業(yè)務(wù)。游戲業(yè)務(wù)一直是英偉 達(dá)的主營(yíng)業(yè)務(wù),在各板塊中營(yíng)收排名領(lǐng)先;隨著 AI 和云計(jì)算的不斷興起,英偉達(dá)逐漸將 GPU 打造為 AI 和云計(jì)算提供算力的底層芯片,這部分與 AI 和云計(jì)算相關(guān)的業(yè)務(wù)被稱為數(shù)據(jù)中 心業(yè)務(wù)。英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)營(yíng)收從 2020 年以來(lái)迎來(lái)迅速增長(zhǎng),我們預(yù)計(jì)在 2025 年左右將 成為營(yíng)收規(guī)模最大的板塊;汽車智能化對(duì)算力需求的提高,英偉達(dá)也將 GPU 芯片裝入車輛 中為
10、其提供高算力。隨著汽車智能化的不斷提速,我們預(yù)計(jì)英偉達(dá)汽車業(yè)務(wù)營(yíng)收也會(huì)快速增 長(zhǎng),成為公司的一個(gè)重要板塊。2. 傳統(tǒng)業(yè)務(wù):消費(fèi)者(游戲)相關(guān)業(yè)務(wù)保持穩(wěn)定增長(zhǎng)2.1. 英偉達(dá) GPU 五年來(lái)持續(xù)占據(jù) PC 獨(dú)顯六成以上市場(chǎng)由于疫情導(dǎo)致的居家時(shí)間延長(zhǎng),公司 GPU 量?jī)r(jià)齊升,F(xiàn)Y2022Q2 游戲相關(guān)營(yíng)收同比大 增 85%,單季收入首次超過(guò) 30 億美元。英偉達(dá)的 GPU 在 PC 端是以獨(dú)立顯卡的形式存在, 通過(guò)獨(dú)立顯卡可以實(shí)現(xiàn)高幀率高分辨率 3A 游戲、專業(yè)繪圖等應(yīng)用。獨(dú)顯領(lǐng)域是一個(gè)壁壘極 高的市場(chǎng),經(jīng)過(guò) 20 多年的充分競(jìng)爭(zhēng)后,目前僅有英偉達(dá)、AMD 可以推出相關(guān)產(chǎn)品,而英偉 達(dá)占據(jù)絕對(duì)的領(lǐng)
11、先優(yōu)勢(shì)。據(jù)研究機(jī)構(gòu) Jon Peddie Research 報(bào)道,2021Q1 英偉達(dá)在 PC 獨(dú)顯 市場(chǎng)占據(jù) 81%的市場(chǎng)份額(2020 全年為 77%)。以每?jī)赡旮乱淮渭軜?gòu)、每半年性能翻倍的速度,持續(xù)引領(lǐng)消費(fèi)級(jí) GPU 市場(chǎng)。2020年 9 月 2 日,英偉達(dá)發(fā)布了新一代顯卡 RTX30 系列,與前一代 RTX20 系列相比,采用 了全新的安培架構(gòu),在核心數(shù)、顯存、頻率等性能都有了大幅度提升。RTX30 的高算力 加上英偉達(dá)的 DLSS(Deep Learning Super Sampling,深度學(xué)習(xí)超采樣)技術(shù),大大提高 實(shí)際場(chǎng)景的運(yùn)算力(在算力不變的情況下提高幀率),使得英偉達(dá)顯卡
12、深受游戲玩家的 喜愛(ài)。在中國(guó),RTX30 系列中的 RTX3080 由發(fā)售價(jià)的 5499 元被一路炒高至 18000 元左 右,足見(jiàn)其火爆程度(雖然部分原因是受到數(shù)字貨幣“挖礦”搶貨的影響)。英偉達(dá)以半年 性能提升一倍的“黃氏定律”牢牢占據(jù) GPU 的領(lǐng)導(dǎo)者地位。截止到 2021 年 3 月,英偉達(dá) 的各系列 GPU 在性能排行的前 20 名中占據(jù)了包括第一名在內(nèi)的 14 個(gè)席位,可以看出 英偉達(dá)在 GPU 領(lǐng)域的霸主地位。2.2. 借助 Bluefield 能力,發(fā)力云游戲 Geforce Now 業(yè)務(wù)云游戲是以云計(jì)算為基礎(chǔ)的游戲方式,在云游戲的運(yùn)行模式下,所有游戲都在服務(wù) 器端運(yùn)行,并將渲
13、染完畢后的游戲畫面壓縮后通過(guò)網(wǎng)絡(luò)傳送給用戶。在客戶端,用戶的 游戲設(shè)備不需要任何高端處理器和顯卡,只需要基本的視頻解壓能力就可以,因此其市 場(chǎng)潛力很大,據(jù) Newzoo 2021 年 3 月發(fā)布的報(bào)告預(yù)測(cè),2023 年全球云游戲市場(chǎng)收入可 能達(dá)到 51 億美元。但目前主要受限于網(wǎng)絡(luò)延遲以及服務(wù)器延遲等方面,市場(chǎng)尚處于初 期階段。除英偉達(dá)外,目前還有微軟、谷歌、索尼、騰訊以及網(wǎng)易等也在拓展云游戲業(yè) 務(wù)。英偉達(dá)云游戲平臺(tái) Geforce Now 采用 Bluefield 架構(gòu),解決云游戲服務(wù)器的延遲問(wèn) 題。對(duì)于云游戲來(lái)說(shuō),延遲是最亟待解決的問(wèn)題。而控制延遲的關(guān)鍵,不僅需要良好的 通信網(wǎng)絡(luò)能力,更為
14、重要的是對(duì)云端服務(wù)器的數(shù)據(jù)處理特別是圖形相關(guān)的處理速度。英 偉達(dá)利用其在數(shù)據(jù)中心的經(jīng)驗(yàn),優(yōu)化了服務(wù)器架構(gòu),推出了英偉達(dá)云游戲平臺(tái) Geforce Now,采用 RTX 服務(wù)器來(lái)實(shí)現(xiàn)更低延遲(整體延遲小于 100ms),使云游戲體驗(yàn)得到了 優(yōu)化。由于目前云游戲仍受限于網(wǎng)絡(luò)延遲,整個(gè)市場(chǎng)尚不成熟,但隨著基礎(chǔ)設(shè)施的不斷 發(fā)展,此項(xiàng)業(yè)務(wù)將為英偉達(dá)帶來(lái)未來(lái)全新增長(zhǎng)空間。3. 成長(zhǎng)業(yè)務(wù):數(shù)據(jù)中心成為云和 AI 領(lǐng)域基礎(chǔ)設(shè)施,營(yíng)收迅速擴(kuò)大英偉達(dá)成為云計(jì)算和 AI 這個(gè)未來(lái)“金礦”行業(yè)的芯片及服務(wù)器等“鏟子”工具 GPU 的主要供應(yīng)商,2020 年以來(lái)以 AI 和云計(jì)算為主要服務(wù)對(duì)象的數(shù)據(jù)中心業(yè)務(wù)營(yíng)收規(guī) 模已
15、經(jīng)和游戲業(yè)務(wù)相當(dāng)。英偉達(dá)創(chuàng)始人、CEO 黃仁勛于 2021 年 6 月份在接受第一財(cái)經(jīng) 的采訪中表示,“數(shù)據(jù)中心規(guī)模計(jì)算的時(shí)代已經(jīng)來(lái)臨。我們想成為一家數(shù)據(jù)中心企業(yè),數(shù) 據(jù)中心正在占據(jù)我們業(yè)務(wù)越來(lái)越重要的地位?!彼f(shuō)道,“而各種新興技術(shù)的匯聚,比如 云計(jì)算、人工智能、加速計(jì)算、工業(yè) 5G 等,將會(huì)成為解決計(jì)算時(shí)代重要問(wèn)題的最后幾 塊拼圖。”英偉達(dá)在數(shù)據(jù)中心上布局很早,利用在 GPU 中積累的芯片設(shè)計(jì)經(jīng)驗(yàn),推廣到 了數(shù)據(jù)中心業(yè)務(wù)。從英偉達(dá)近一年的財(cái)報(bào)中也可以看出,英偉達(dá)在數(shù)據(jù)中心的業(yè)務(wù)收入 已經(jīng)和游戲業(yè)務(wù)比肩,且有超越游戲業(yè)務(wù)的潛力。從 2021 年 6 月舉辦的國(guó)際超級(jí)計(jì)算 大會(huì) ISC 上公布
16、的超級(jí)計(jì)算榜單可以看出,TOP10 中有 8 臺(tái)使用英偉達(dá)的技術(shù),TOP500 中有 342 臺(tái)使用英偉達(dá)的技術(shù),可見(jiàn)英偉達(dá)在數(shù)據(jù)中心業(yè)務(wù)的優(yōu)勢(shì)。英偉達(dá)在數(shù)據(jù)中心 領(lǐng)域的成功離不開(kāi)硬件(A100、DGX A100、InfiniBand)以及相關(guān)軟件(CUDA)等的 支持,英偉達(dá)在云與數(shù)據(jù)中心領(lǐng)域形成了一整套完整的生態(tài)系統(tǒng),成為云和 AI 領(lǐng)域基 礎(chǔ)算力及算法工具鏈等基礎(chǔ)工具的供應(yīng)商,在 AI 的布局中擁有不可替代的位置。3.1. 采用并行計(jì)算的 GPU 天生適合 AI 領(lǐng)域的運(yùn)算AI 算法多為并行結(jié)構(gòu)。AI 領(lǐng)域中用于圖像識(shí)別的深度學(xué)習(xí)、用于決策和推理的機(jī) 器學(xué)習(xí)以及超級(jí)計(jì)算都需要大規(guī)模的并行
17、計(jì)算,更適合采用 GPU 架構(gòu)。我們以深度學(xué) 習(xí)中的神經(jīng)網(wǎng)絡(luò)算法來(lái)舉例說(shuō)明 GPU 架構(gòu)的優(yōu)勢(shì)。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的以期能夠?qū)崿F(xiàn)人工智能的機(jī)器學(xué)習(xí)技術(shù),適合采用并行 計(jì)算的 GPU 架構(gòu)。一個(gè)經(jīng)典的神經(jīng)網(wǎng)絡(luò)分為輸入層、隱藏層和輸出層,通常隱藏層的 數(shù)量越多,神經(jīng)網(wǎng)絡(luò)模擬的結(jié)果越精確,但相應(yīng)的計(jì)算量會(huì)呈指數(shù)的增長(zhǎng)。最初人們使 用 CPU 來(lái)模擬多層神經(jīng)網(wǎng)絡(luò)需要很長(zhǎng)時(shí)間;隨后科學(xué)家認(rèn)為,輸入層到輸出層的計(jì)算 關(guān)系是矩陣形式,與 GPU 對(duì)圖像像素處理的架構(gòu)類似,都是并行計(jì)算為主,因此產(chǎn)生 了使用 GPU 來(lái)進(jìn)行神經(jīng)網(wǎng)絡(luò)計(jì)算的想法。2010 年時(shí),Google 負(fù)責(zé)人工智能的吳恩達(dá)為 了訓(xùn)練神經(jīng)
18、網(wǎng)絡(luò)來(lái)識(shí)別貓,最初使用了 16000 臺(tái)計(jì)算機(jī)的 CPU 完成了訓(xùn)練,但為了搭 建龐大的 CPU 耗費(fèi)巨大;隨后他與英偉達(dá)公司探討了這件事情,英偉達(dá)僅采用 12 個(gè) GPU 就完成了訓(xùn)練,使人們看到了 GPU 對(duì)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。隨著神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度 逐漸提高,用 GPU 來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)成為了更優(yōu)的選擇。如上圖所示,我們?cè)诘撞坑幸粋€(gè)藍(lán)色的輸入通道。在輸入通道上滑動(dòng)的底部有一個(gè) 陰影的卷積濾波器,還有一個(gè)綠色的輸出通道。卷積算法流程如下:藍(lán)色(底部) 輸 入通道 陰影(覆蓋在藍(lán)色上) 3x3 的卷積過(guò)濾器 綠色(頂部)輸出通道。對(duì) 于藍(lán)色輸入通道上的每個(gè)位置,3x3 過(guò)濾器進(jìn)行計(jì)算,將藍(lán)色輸入通
19、道的陰影部分映射 到綠色輸出通道的相應(yīng)陰影部分。每個(gè)計(jì)算都是獨(dú)立于其他計(jì)算的,這意味著任何計(jì)算 都不依賴于任何其他計(jì)算的結(jié)果,所有這些獨(dú)立的計(jì)算都可以在 GPU 上并行進(jìn)行,雖 然單個(gè)卷積計(jì)算要比 CPU 慢,但是對(duì)于整個(gè)任務(wù)來(lái)說(shuō),CPU 要逐個(gè)依次完成,速度要 大大慢于 GPU。因此,卷積運(yùn)算可以通過(guò)使用并行編程方法和 GPU 來(lái)加速。CPU+GPU+DPU 形成產(chǎn)品矩陣,全面發(fā)力數(shù)據(jù)中心市場(chǎng)。自從 2021 年 GTC 大會(huì) 上英偉達(dá)宣布推出第一款 CPU Grace 以來(lái),英偉達(dá)已經(jīng)涉足了與 AI 和云計(jì)算相關(guān)的數(shù) 據(jù)中心市場(chǎng)的大部分領(lǐng)域。利用 GPU 在 AI 領(lǐng)域的先天優(yōu)勢(shì),英偉達(dá)借
20、此切入數(shù)據(jù)中心 市場(chǎng)。針對(duì)芯片內(nèi)部帶寬以及系統(tǒng)級(jí)互聯(lián)等諸多問(wèn)題,英偉達(dá)推出了 Bluefield DPU 和 Grace CPU,提升了整體硬件性能。在 2021 年 GTC 大會(huì)上,英偉達(dá)公布了 GPU、CPU 和 DPU 的發(fā)展規(guī)劃,每年都會(huì)有新產(chǎn)品問(wèn)世;英偉達(dá)在數(shù)據(jù)中心硬件市場(chǎng)的不斷升級(jí), 推動(dòng)了數(shù)據(jù)中心以及 AI 整個(gè)產(chǎn)業(yè)的發(fā)展步伐。3.2.1. 基于安培架構(gòu)的 A100 系列,為數(shù)據(jù)中心打造高性能算力基礎(chǔ)作為安培架構(gòu)的代表,A100 GPU 在在深度學(xué)習(xí)、數(shù)據(jù)分析、能效方面都獲得了前 所未有的優(yōu)化,被廣泛應(yīng)用于自然語(yǔ)言識(shí)別、大數(shù)據(jù)分析、科學(xué)計(jì)算領(lǐng)域。在 GTC2020 大會(huì)上,英偉達(dá)
21、推出了安培架構(gòu)的首款超算 GPUA100。A100 引入了有著里程碑式 意義的 Tensor Cores 雙精度計(jì)算技術(shù),這使得 A100 的算力比前一代 V100 提高了 175%。 NVIDIA A100 Tensor Core GPU 針對(duì) AI、數(shù)據(jù)分析和 HPC(high performance computing, 高性能計(jì)算)等應(yīng)用上,實(shí)現(xiàn)了更強(qiáng)的加速,針對(duì)極其嚴(yán)峻的計(jì)算挑戰(zhàn)上有了更大作為。 作為 A100 GPU 系列中的最新力作,在架構(gòu)特性上有如下特點(diǎn):采用第三代 Tensor Core 核心。通過(guò)全新 TF32,將上一代 Volta 架構(gòu)的 AI 吞吐 量提高多達(dá) 20 倍
22、。通過(guò) FP64,將 HPC 性能提升了 2.5 倍。通過(guò) INT8,將 AI 推理性能提高多達(dá) 20 倍,并且支持 BF16 數(shù)據(jù)格式。采用更大、更快的 HBM2e GPU 內(nèi)存。從而使內(nèi)存容量增加一倍,在業(yè)內(nèi)率先實(shí)現(xiàn) 2TB/s 以上的內(nèi)存帶寬。采用 MIG(Multi-Instance GPU,多實(shí)例 GPU)技術(shù),將單個(gè)獨(dú)立實(shí)例的內(nèi)存 增加一倍,可最多提供七個(gè) MIG,每個(gè)實(shí)例具備 10GB 內(nèi)存。采用結(jié)構(gòu)化稀疏技術(shù),將推理稀疏模型的速度提高兩倍。第三代 NVLink 和 NVSwitch,相較于上一代互連技術(shù),可使 GPU 之間的帶寬 增加至原來(lái)的兩倍,將數(shù)據(jù)密集型工作負(fù)載的 GPU
23、 數(shù)據(jù)傳輸速度提高至 600 GB/s。A100 被廣泛應(yīng)用于大數(shù)據(jù)分析、天氣預(yù)報(bào)、量子化學(xué)以及材料模擬等領(lǐng)域,推動(dòng) 了相關(guān)領(lǐng)域的發(fā)展?;谝陨纤懔?、內(nèi)存以及數(shù)據(jù)交互上的優(yōu)化,A100 在自然語(yǔ)言識(shí) 別、大數(shù)據(jù)分析、科學(xué)計(jì)算領(lǐng)域提供了更強(qiáng)的硬件實(shí)力。對(duì)于如 RNNT 等自動(dòng)語(yǔ)言識(shí) 別模型的 AI 推理,單個(gè) A100 MIG 實(shí)例可處理更大規(guī)模的批量數(shù)據(jù),將生產(chǎn)中的推理 吞吐量提高 1.25 倍。在 TB 級(jí)零售大數(shù)據(jù)分析基準(zhǔn)上,A100 將其性能提高了 2 倍,使 其成為可對(duì)最大規(guī)模數(shù)據(jù)集進(jìn)行快速分析的理想平臺(tái)。隨著數(shù)據(jù)的動(dòng)態(tài)更新,企業(yè)可以 實(shí)時(shí)做出關(guān)鍵決策。對(duì)于科學(xué)應(yīng)用,A100 可為天氣
24、預(yù)報(bào)和量子化學(xué)等領(lǐng)域提供巨大的 加速。材料模擬軟件 Quantum Espresso 采用單節(jié)點(diǎn) A100 實(shí)現(xiàn)了近 2 倍的吞吐量提升。除了高性能的 A100 系列外,英偉達(dá)還在在功耗、性能上做了優(yōu)化與調(diào)整,推出了 A10、A30 等產(chǎn)品,旨在面向中小型客戶。英偉達(dá)的一系列產(chǎn)品滿足了不同用戶的需求。3.2.2. DGX A100 數(shù)據(jù)中心及 DGX SuperPOD 解決方案,使英偉達(dá)保持超 算領(lǐng)域優(yōu)勢(shì)一體式 AI 數(shù)據(jù)中心 DGX Station A100,使 AI 超算中心的搭建更為方便。以 A100 GPU 為核心的數(shù)據(jù)中心 DGX Station A100,AI 性能可以達(dá)到 2.5
25、 Petaflops,通過(guò) NVIDIA NVLink 完全互連,實(shí)現(xiàn)多個(gè) NVIDIA A100 GPU 融合在一起的工作組服務(wù)器,目前有 320GB/640GB 等不同版本可供選擇。借助 MIG,單一 DGX Station A100 最多可提供 28個(gè)獨(dú)立 GPU 實(shí)例以運(yùn)行并行任務(wù),并可在不影響系統(tǒng)性能的前提下支持多用戶應(yīng)用。 作為服務(wù)器級(jí)的系統(tǒng),DGX Station A100 無(wú)需配備數(shù)據(jù)中心級(jí)電源或散熱系統(tǒng),用戶可 以極為方便地部署 AI 超算中心;與前代相比,如果要搭建同樣算力的數(shù)據(jù)中心,成本 會(huì)降低 90%,耗電量會(huì)減少 95%(如圖 18 所示數(shù)據(jù)),大大降低了數(shù)據(jù)中心的使
26、用門 檻,客觀上推動(dòng)了 AI 領(lǐng)域的蓬勃發(fā)展。NVIDIA DGX SuperPOD 解決方案,促進(jìn)了 AI 超算行業(yè)的發(fā)展。全新 DGX A100 640GB 系統(tǒng)也將集成到企業(yè)版 NVIDIA DGX SuperPOD 解決方案,使機(jī)構(gòu)能基于以 20 個(gè) DGX A100 系統(tǒng)為單位的一站式 AI 超級(jí)計(jì)算機(jī),實(shí)現(xiàn)大規(guī)模 AI 模型的構(gòu)建、訓(xùn)練和 部署。配備 A100 80GB GPU 的 NVIDIA DGX SuperPOD 系統(tǒng)將率先安裝于英國(guó)的 Cambridge-1 超級(jí)計(jì)算機(jī),以加速推進(jìn)醫(yī)療健康領(lǐng)域研究;佛羅里達(dá)大學(xué)的全新 HiPerGator AI 超級(jí)計(jì)算機(jī),將開(kāi)展 AI
27、賦能的科學(xué)發(fā)現(xiàn)。新一代 DGX Station A100 和 DGX A100 640GB 移動(dòng)數(shù)據(jù)中心的出現(xiàn),將給 AI 超級(jí)計(jì)算機(jī)的行業(yè)格局帶來(lái)一次新的 震動(dòng)。同時(shí) AI 超算上的創(chuàng)新也將因?yàn)?DGX Station A100 而再次迎來(lái)新的發(fā)展,對(duì) AI 超 算的行業(yè)應(yīng)用普及帶來(lái)了更大的發(fā)展?jié)摿εc空間。3.2.3. 戰(zhàn)略眼光獨(dú)到,收購(gòu) Mellanox,提高數(shù)據(jù)交互性能英偉達(dá)并購(gòu) Mellanox 后,充分挖掘了其掌握的 InfiniBand 技術(shù),使網(wǎng)絡(luò)交換速度 得到保證。2019 年,英偉達(dá)以 69 億美元并購(gòu)了 Mellanox,后者以 InfiniBand 技術(shù)見(jiàn)長(zhǎng)。 Infin
28、iBand 和以太網(wǎng)是超算領(lǐng)域較常用的互聯(lián)和協(xié)議,以太網(wǎng)設(shè)計(jì)的初衷是解決各種各 樣設(shè)備之間的連接問(wèn)題,其核心是通用性強(qiáng);而 InfiniBand 的設(shè)計(jì)初衷是解決同一個(gè)系 統(tǒng)中不同設(shè)備之間的連接問(wèn)題,其核心是為了讓通訊更快。舉例來(lái)說(shuō),以太網(wǎng)像是快遞 中轉(zhuǎn)站,它需要盡可能識(shí)別所有的包裹并將其送到各種各樣的目的地,其主要精力需要 放在數(shù)據(jù)處理上,信息的傳遞效率相對(duì)較低;而 InfiniBand 更像是地鐵系統(tǒng),軌道都是 確定好的且目標(biāo)車站數(shù)量有限,因此不同站點(diǎn)間信息獲取速度就會(huì)很快。對(duì)于高性能超 級(jí)計(jì)算機(jī)來(lái)說(shuō),為了提高數(shù)據(jù)交換速度,一般會(huì)采用 InfiniBand 技術(shù)。英偉達(dá)在得到 Infini
29、Band 技術(shù)后,開(kāi)發(fā)出了 NVIDIA Mellanox InfiniBand 交換器系統(tǒng),每個(gè)端口的速 度可達(dá) 400Gb/s(以太網(wǎng)的速度通常在 0.125 Gb/s),這讓運(yùn)算叢集和聚合數(shù)據(jù)中心能在任何規(guī)模中運(yùn)作,并同時(shí)降低營(yíng)運(yùn)成本和基礎(chǔ)架構(gòu)的復(fù)雜性。Bluefield 芯片可分擔(dān) CPU 的網(wǎng)絡(luò)、存儲(chǔ)和安全等任務(wù),可以大大減少 CPU 的工 作量的同時(shí)提高數(shù)據(jù)交互性能。Mellanox 的主要產(chǎn)品就是名為 Bluefield 的芯片,英偉 達(dá)也將其稱為 DPU(Data Processing Unit,數(shù)據(jù)處理單元),其實(shí)際上是一個(gè)高級(jí)的網(wǎng)卡。 基于 DPU 的智能網(wǎng)卡將成為云數(shù)據(jù)中
30、心設(shè)備中的核心網(wǎng)絡(luò)部件,逐漸承擔(dān)原先需要 CPU 來(lái)執(zhí)行的網(wǎng)絡(luò)數(shù)據(jù)處理、分發(fā)的重任,從而從根本上實(shí)現(xiàn)軟件定義網(wǎng)絡(luò)(SDN)和 網(wǎng)絡(luò)功能虛擬化(NFV)的諸多優(yōu)勢(shì),有效降低云計(jì)算的性能損失,釋放 CPU 算力,降 低功耗的同時(shí)大大減少云數(shù)據(jù)中心的運(yùn)營(yíng)成本。按照英偉達(dá)的說(shuō)法,一個(gè) DPU 頂 125 個(gè) CPU 的網(wǎng)絡(luò)處理能力。英偉達(dá)計(jì)劃在 20222023 年推出第 3 代與第 4 代 Bluefield, 在保持 400Gb/s 的數(shù)據(jù)傳輸速度下,其 AI 算力會(huì)從 75TOPS 提高到 400TOPS,進(jìn)一步 滿足高性能數(shù)據(jù)交互的要求。推出自研 CPU Grace,實(shí)現(xiàn)英偉達(dá)在數(shù)據(jù)中心、HP
31、C 以及計(jì)算設(shè)備上的的全自研。 在 2021GTC 大會(huì)上,英偉達(dá)推出了 Grace CPU 并計(jì)劃在 2023 年量產(chǎn)。這款 CPU 是英 偉達(dá)第一次推出的 CPU 產(chǎn)品,采用了 ARM v9 指令集,該指令集主要是增強(qiáng)面向矢量、 機(jī)器學(xué)習(xí)和數(shù)字信號(hào)處理器的相關(guān)內(nèi)容,與數(shù)據(jù)中心所需要處理的事物息息相關(guān),因此 這款 CPU 的主要應(yīng)用場(chǎng)景將是在數(shù)據(jù)中心領(lǐng)域。據(jù)英偉達(dá)宣稱,Grace CPU 是高度專業(yè) 化的、面向巨型人工智能和 HPC 的產(chǎn)品,可以訓(xùn)練擁有超過(guò)一萬(wàn)億個(gè)參數(shù)的 NLP 模型。自研 CPU 的主要目的是為了解決 GPU 讀取內(nèi)存數(shù)據(jù)的帶寬瓶頸問(wèn)題。英特爾的 x86 CPU 的優(yōu)勢(shì)是
32、靈活的擴(kuò)展性和對(duì)各類設(shè)備的支持,因此 x86 依然是目前 HPC 和服 務(wù)器應(yīng)用場(chǎng)合的重點(diǎn),但 x86 架構(gòu)存在帶寬不足的缺點(diǎn)。目前 x86 CPU 通過(guò)內(nèi)存控制器 連接 DDR4 內(nèi)存,最新的英特爾至強(qiáng)處理器可以實(shí)現(xiàn) 8 通道 DDR4 內(nèi)存連接,其帶寬大 約為 200GB/s,GPU 本地內(nèi)存(顯存)的帶寬在使用 HBM2 的情況下大約可以達(dá)到 2000GB/s;CPU 和 GPU 自身的連接帶寬都是足夠的,但是 CPU 和 GPU 連接的帶寬只 能依靠 PCIe 4.0 x16,帶寬大約只有 16GB/s,如果考慮典型的一個(gè) x86 CPU 帶 4 個(gè) GPU 的情形,則將一個(gè)待處理文件
33、從內(nèi)存(Memory)經(jīng)過(guò) CPU 到 GPU 的最大帶寬就只有 64GB/s,這就是帶寬瓶頸的由來(lái)。英偉達(dá)擁有 NVlink 技術(shù),其帶寬可達(dá) 500GB/s,但 x86 并不支持其協(xié)議,因此英偉達(dá)決定自研 CPU,來(lái)解決帶寬瓶頸問(wèn)題。英特爾回應(yīng)稱 其 PCIe 總線技術(shù)也會(huì)逐步升級(jí),但據(jù)推測(cè)在 2023 年也就是 Grace 推出的當(dāng)年,PCIe 的 帶寬也只能達(dá)到 32GB/s(或者更進(jìn)一步升級(jí)到 64GB/s),這也比 NVLink 的帶寬要小一 個(gè)數(shù)量級(jí)。因此,英偉達(dá)可能會(huì)重塑數(shù)據(jù)中心的底層硬件市場(chǎng),進(jìn)一步獲取數(shù)據(jù)中心領(lǐng) 域的優(yōu)勢(shì)地位。3.3. CUDA 軟件生態(tài)助力 GPU 硬件,
34、打造軟硬件生態(tài)系統(tǒng),形成行業(yè)壁壘CUDA 系統(tǒng)助力英偉達(dá) GPU 方便且高效地發(fā)揮其并行計(jì)算能力,使 GPU 的使用 范圍不僅限于顯卡,而成為了 GPGPU(General-Purpose Graphics Processing Unit,圖 形處理器通用計(jì)算)。GPU 的微架構(gòu)天生適合矩陣類并行計(jì)算,其能力不僅限于顯卡領(lǐng) 域,于是從 21 世紀(jì)早期就有專業(yè)的計(jì)算人員想要使用 GPU 做一些 AI 領(lǐng)域相關(guān)的并行 計(jì)算。但在 CUDA 問(wèn)世之前,想要調(diào)用 GPU 的計(jì)算能力必須編寫大量的底層語(yǔ)言代碼, 這是主要使用高級(jí)語(yǔ)言為主的程序員不折不扣的噩夢(mèng)。英偉達(dá)公司的 David Kirk 慧眼識(shí)
35、珠,在他的主導(dǎo)下,英偉達(dá)推出了 CUDA 系統(tǒng)。CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算架構(gòu))是一個(gè)基于英偉達(dá) GPU 平臺(tái)上面定制的特殊計(jì)算體系/算 法,一般只能在英偉達(dá)的 GPU 系統(tǒng)上使用。CUDA 是一種類 C 語(yǔ)言,本身也兼容 C 語(yǔ) 言,所以其雖然是一種獨(dú)立語(yǔ)言,但 CUDA 本身和 C 差距不算很大,適合普通開(kāi)發(fā)者 使用且能夠最大化 GPU 的計(jì)算效率,這使得 GPU 的使用范圍不僅僅局限在顯卡,而是 擴(kuò)展到所有適合并行計(jì)算的領(lǐng)域,GPU 也逐漸成為了 GPGPU。我們通過(guò)一個(gè)例子來(lái)說(shuō) 明 CPU、GPU 以及擁有 CUDA 的
36、GPU 的運(yùn)算能力:比如,我們要算 100 次從 1 加到 100 的加法,如果利用一個(gè) 4 線程 CPU,需要 100/4*100=2500 次,而用 GPU(假定它 是 1000 個(gè)線程),性能相同的情況下,AMD 公司的 GPU 要算 100/1000*100=10 次。如 果使用 CUDA 優(yōu)化的英偉達(dá)的 GPU 來(lái)計(jì)算的話,它能提供優(yōu)化算法的“1+100,2+99 的 這種利用首尾相加再除以 2”的方法來(lái)簡(jiǎn)化計(jì)算,那么使用 CUDA 后的英偉達(dá)顯卡可能 只需要計(jì)算 100/1000*100/5=2 次,可見(jiàn)效率提高了很多。所以,即便競(jìng)爭(zhēng)對(duì)手的 GPU 在硬件參數(shù)上比肩英偉達(dá)的 GPU
37、,但缺少 CUDA 的優(yōu)化,其計(jì)算效率還是無(wú)法達(dá)到英 偉達(dá) GPU 的水平。CUDA 初期采用免費(fèi)推廣策略,不求短期回報(bào),使英偉達(dá)迅速占領(lǐng) AI 市場(chǎng)。英偉 達(dá)的 CEO 黃仁勛高瞻遠(yuǎn)矚,對(duì) GPU 的擴(kuò)展應(yīng)用十分重視,早在 2006 年就大力支持 CUDA 系統(tǒng)在 AI 領(lǐng)域的開(kāi)發(fā)與推廣,在當(dāng)時(shí)每年投入 5 億美元的研發(fā)經(jīng)費(fèi)(年?duì)I業(yè)額 只有 30 億美元)對(duì) CUDA 進(jìn)行不斷更新與維護(hù),并讓當(dāng)時(shí)美國(guó)大學(xué)及科研機(jī)構(gòu)免費(fèi)使 用 CUDA 系統(tǒng),使 CUDA 系統(tǒng)迅速在 AI 以及通用計(jì)算領(lǐng)域開(kāi)花結(jié)果。CUDA 經(jīng)過(guò)多年優(yōu)化,形成獨(dú)特軟硬件配合的生態(tài)系統(tǒng),業(yè)界獨(dú)此一家,產(chǎn)品壁壘 極高。為了讓廣大
38、程序員以及科研人員方便使用 GPU 的算力,英偉達(dá)不斷優(yōu)化 CUDA 的開(kāi)發(fā)庫(kù)及驅(qū)動(dòng)系統(tǒng)。操作系統(tǒng)的多任務(wù)機(jī)制可以同時(shí)管理 CUDA 訪問(wèn) GPU 和圖形程 序的運(yùn)行庫(kù),其計(jì)算特性支持利用 CUDA 直觀地編寫 GPU 核心程序。CUDA 在軟件方 面組成有:一個(gè) CUDA 開(kāi)發(fā)庫(kù)、一個(gè)應(yīng)用驅(qū)動(dòng)及其運(yùn)行環(huán)境(Runtime)、兩個(gè)較高級(jí)別 的通用數(shù)學(xué)庫(kù),即 CUFFT 和 CUBLAS。CUDA 改進(jìn)了 DRAM 的讀寫靈活性,使得 GPU 與 CPU 的機(jī)制相吻合。另一方面,CUDA 提供了片上(on-chip)共享內(nèi)存,使得線程 之間可以共享數(shù)據(jù)。應(yīng)用程序可以利用共享內(nèi)存來(lái)減少 DRAM
39、的數(shù)據(jù)傳送,更少的依 賴 DRAM 的內(nèi)存帶寬。除 CUDA 外,目前還有 OpenCL 也可以實(shí)現(xiàn)對(duì) GPU 計(jì)算能力 的調(diào)用,但由于其通用性較強(qiáng),整體優(yōu)化效果不如 CUDA,在大規(guī)模計(jì)算中劣勢(shì)很大。CUDA 成為連接 AI 的中心節(jié)點(diǎn),CUDA+GPU 系統(tǒng)極大推動(dòng)了 AI 領(lǐng)域的發(fā)展。 搭載英偉達(dá) GPU 硬件的工作站(Workstation)、服務(wù)器(Server)和云(Cloud)通過(guò) CUDA 軟件系統(tǒng)以及開(kāi)發(fā)的 CUDA-X AI 庫(kù),為 AI 領(lǐng)域的機(jī)器學(xué)習(xí)(Machine Learning)、深度 學(xué)習(xí)(Deep Learing)中的訓(xùn)練(Train)和推理(Inferenc
40、e)提供軟件工具鏈,來(lái)服務(wù)眾 多的框架、云服務(wù)等等,推動(dòng)了 AI 領(lǐng)域的迅速發(fā)展。因此,英偉達(dá)也被稱作 AI 時(shí)代最 大的推動(dòng)力量。英偉達(dá) CEO 黃仁勛 2020 年在接受 Barron 周刊的采訪時(shí)也不斷強(qiáng)調(diào), “我們是一家擁有高性能計(jì)算的 AI 公司,視頻游戲只是我們一個(gè)極為成功的應(yīng)用”; “ Nvidia 不是游戲公司,它將推動(dòng)下一個(gè)人工智能大爆炸”。3.4. AI 的普及助力數(shù)據(jù)中心業(yè)務(wù)蓬勃發(fā)展3.4.1. GPU 在 AI 應(yīng)用領(lǐng)域的硬件占比逐漸增隨著 AI 的不斷普及,GPU 在云計(jì)算、工業(yè)、金融及醫(yī)療領(lǐng)域的硬件結(jié)構(gòu)的占比會(huì) 越來(lái)越多。在云計(jì)算剛剛興起的時(shí)候,人們沿用計(jì)算時(shí)期的慣
41、性,首先選擇 CPU 來(lái)進(jìn)行底層的搭建。隨著 AI 等并行計(jì)算越來(lái)越流行,人們發(fā)現(xiàn)在 AI 等特定領(lǐng)域中 CPU 的 效率遠(yuǎn)不如 GPU,因此隨著 AI 的不斷發(fā)展,以 GPU 架構(gòu)為主的硬件系統(tǒng)占比會(huì)不斷 增加。據(jù) Yole 預(yù)測(cè),AI 計(jì)算領(lǐng)域的硬件營(yíng)收中,GPU 的占比會(huì)從 2019 年的 12%上升 到 2025 年的 16%;而作為 GPU 的主要供應(yīng)商,英偉達(dá)將會(huì)從這個(gè)趨勢(shì)中受益。目前, 英偉達(dá)的硬件系統(tǒng)已經(jīng)廣泛使用在金融防詐騙系統(tǒng)、石油開(kāi)采預(yù)測(cè)系統(tǒng)、醫(yī)療影像識(shí)別 以及云計(jì)算領(lǐng)域中。3.4.2. 全球云服務(wù)提供商采用英偉達(dá)的硬件系統(tǒng)為其用戶賦能全球頂級(jí)云服務(wù)商采用英偉達(dá)硬件系統(tǒng)為其
42、用戶賦能。鑒于英偉達(dá) GPU 在并行計(jì) 算中的良好表現(xiàn),亞馬遜 AWS、微軟 Azure、谷歌、甲骨文都紛紛采用英偉達(dá)的 GPU 進(jìn) 行硬件架構(gòu)的搭建。英偉達(dá)的數(shù)據(jù)中心收入也快速增加,目前其營(yíng)收已經(jīng)可以與游戲顯 卡業(yè)務(wù)比肩,F(xiàn)Y2021Q2 營(yíng)收還一度超過(guò)游戲業(yè)務(wù),成為英偉達(dá)所有業(yè)務(wù)板塊中收入最 高的項(xiàng)目,可見(jiàn)數(shù)據(jù)中心業(yè)務(wù)的發(fā)展勢(shì)頭。英偉達(dá)積極開(kāi)拓中國(guó)市場(chǎng),推動(dòng)中國(guó)云服務(wù)業(yè)務(wù)發(fā)展。除美國(guó)客戶外,英偉達(dá)還積 極拓展中國(guó)的客戶。據(jù)英偉達(dá)官網(wǎng)報(bào)道,在 GTC China 2020 大會(huì)上,英偉達(dá)宣布阿里 云、百度智能云、滴滴云、騰訊云的大型數(shù)據(jù)中心正在遷移至基于英偉達(dá)安培架構(gòu)的平 臺(tái),以充分利用 A
43、100 在圖像識(shí)別、語(yǔ)音識(shí)別以及包括計(jì)算流體動(dòng)力學(xué)、計(jì)算金融學(xué)、 分子動(dòng)力學(xué)在內(nèi)的推理和訓(xùn)練方面提供的速度與可擴(kuò)展性。A100 不僅可以滿足全球云 服務(wù)提供商用戶對(duì)性能的要求,而且還可以為全球用戶提供強(qiáng)大的可靠性支持。中國(guó)云 服務(wù)提供商正在采用 A100 來(lái)滿足各行各業(yè)的多樣化需求:阿里云已經(jīng)發(fā)布了基于 NVIDIA A100 打造的 gn7 GPU 系列云服務(wù)器,該產(chǎn)品主要 面向 AI 訓(xùn)練和高性能計(jì)算應(yīng)用,可提供新一代 GPU 計(jì)算實(shí)例。云服務(wù)器中的 8 塊 NVIDIA A100 GPU 可通過(guò) NVIDIA NVLinkTM 和 NVSwitchTM 技術(shù)實(shí)現(xiàn)先進(jìn)的多 GPU 通信。這
44、些 NVIDIA 技術(shù)可支持阿里巴巴 gn7 云服務(wù)器相比上一代平臺(tái)實(shí)現(xiàn) 最高 20 倍的 AI 性能,以及 2.5 倍的高性能計(jì)算速度。百度智能云即將推出基于 NVIDIA A100 打造的 lgn3 GPU 系列云服務(wù)器、vGPU 云 服務(wù)器以及百度太行裸金屬服務(wù)器產(chǎn)品,該系列產(chǎn)品最高將搭載 8 塊 NVIDIA A100 GPU,8T NVMe SSD 磁盤以及百 G 帶寬,主要面向 AI 訓(xùn)練/推理、高性能計(jì)算應(yīng) 用、科學(xué)計(jì)算等場(chǎng)景?;?A100 TF32 新技術(shù),百度新一代 GPU 云服務(wù)器提供 20 倍于 V100 FP32 云服務(wù)器的計(jì)算能力。滴滴云 A100 裸金屬服務(wù)器配置
45、了 8 塊 NVIDIA A100 GPU 、2 顆 AMD EPYC 7302 CPU 處理器、1024GB 內(nèi)存、2 個(gè) 240GB SATA SSD,以及 2 個(gè) 2T NVME SSD 磁 盤,適用于 AI、數(shù)據(jù)分析、高性能計(jì)算等多種應(yīng)用場(chǎng)景。騰訊云已推出首款搭載 NVIDIA A100 的 GPU 云服務(wù)器 GT4,其搭配 AMD ROME CPU 平臺(tái),支持 PCIe 4.0 技術(shù)以及最高 180 核的 vGPU 配置。適用于深度學(xué)習(xí)訓(xùn)練、推理、高性能計(jì)算、數(shù)據(jù)分析、視頻分析等領(lǐng)域,可提供更高性能的計(jì)算資源, 從而進(jìn)一步降低使用成本,幫助企業(yè)、高校及研究人員聚焦模型的優(yōu)化與創(chuàng)新。中
46、國(guó)OEM廠商致力于滿足全球?qū)Υ钶dA100 的NVIDIA認(rèn)證系統(tǒng)不斷增長(zhǎng)的需求, 包括新華三、浪潮、聯(lián)想、寧暢等在內(nèi)的中國(guó)領(lǐng)先系統(tǒng)制造商也在以前所未有的速度將 NVIDIA A100 GPU 引入到它們的產(chǎn)品中,并推出了多款針對(duì)不同應(yīng)用場(chǎng)景的系列產(chǎn)品, 為超大型數(shù)據(jù)中心提供基于 NVIDIA 安培架構(gòu)的加速系統(tǒng),進(jìn)而為用戶提供兼具超強(qiáng)性 能與靈活性的 AI 計(jì)算平臺(tái)。4. 未來(lái)業(yè)務(wù):布局自動(dòng)駕駛平臺(tái)化芯片,搶占智能汽車市場(chǎng)份額4.1. 自動(dòng)駕駛介紹自動(dòng)駕駛主要指自動(dòng)駕駛汽車,也即無(wú)人車(driverless car),是一種無(wú)須人工干預(yù) 而能夠完成出行需求的車輛。它利用了包括雷達(dá)、超聲波、GP
47、S、計(jì)算機(jī)視覺(jué)等多種技 術(shù)來(lái)感知其周邊環(huán)境,通過(guò)先進(jìn)的計(jì)算和控制系統(tǒng),來(lái)識(shí)別障礙物和各種標(biāo)識(shí)牌,規(guī)劃 合適的路徑來(lái)控制車輛行駛。4.1.1. 自動(dòng)駕駛歷史科技巨頭、獨(dú)角獸公司以及整車廠紛紛開(kāi)展自動(dòng)駕駛研究,自動(dòng)駕駛迎來(lái)快速發(fā)展 的時(shí)期。自動(dòng)駕駛的研究歷史非常悠久,早在 1977 年時(shí)日本就有基于攝像頭的自動(dòng)駕 駛汽車問(wèn)世。但限于軟硬件能力及成本的束縛,自動(dòng)駕駛的發(fā)展較為緩慢。直到 2004 年 美國(guó)國(guó)防部推出的 DARPA 項(xiàng)目,很大程度上推動(dòng)了自動(dòng)駕駛的復(fù)興?,F(xiàn)代意義上的自 動(dòng)駕駛技術(shù)在 DARPA 挑戰(zhàn)賽上已經(jīng)成型,參賽車輛上已經(jīng)配備了激光雷達(dá)、攝像頭以 及分析決策系統(tǒng)。2005 年的 D
48、ARPA 挑戰(zhàn)賽中,有五支隊(duì)伍的參賽車輛已經(jīng)可以完成限 定場(chǎng)景的無(wú)人駕駛。目前的自動(dòng)駕駛技術(shù)都是在這個(gè)基礎(chǔ)上進(jìn)行的不斷升級(jí),主要在成 本優(yōu)化和車規(guī)級(jí)適配性等實(shí)用性方面進(jìn)行完善,不僅有各種科技巨頭領(lǐng)導(dǎo)相關(guān)研究,科 技獨(dú)角獸公司以及整車廠也都紛紛加入這個(gè)領(lǐng)域,自動(dòng)駕駛?cè)嫔虡I(yè)化的時(shí)代就要到來(lái)。4.1.2. 自動(dòng)駕駛等級(jí)分類及技術(shù)路線目前較為通用的一種自動(dòng)駕駛等級(jí)分類如下表所示:目前有兩種自動(dòng)駕駛研發(fā)思路。一種是可稱之為自上而下的不考慮成本的研究 L4+ 級(jí)完全自動(dòng)駕駛,代表企業(yè)有谷歌的 Waymo、通用的 Cruise、百度的 Apollo 等,目前 其實(shí)現(xiàn)自動(dòng)駕駛的系統(tǒng)成本在數(shù)十萬(wàn)到百萬(wàn)元人民幣
49、以上;另一種主要是車企,他們要 考慮成本因素,所以一般是自下而上的,由低級(jí)別的自動(dòng)駕駛開(kāi)始逐漸提升水平,目前 商業(yè)化的汽車基本上可以達(dá)到 L2 級(jí)的水平,代表企業(yè)有特斯拉、奧迪、蔚來(lái)、小鵬等。 值得一提的是,本文所提到的分類級(jí)別是從法律意義上已經(jīng)實(shí)現(xiàn)的級(jí)別而不是能力上的分類級(jí)別,也即如果是 L3 級(jí)以上的話,自動(dòng)駕駛公司將為車輛的事故負(fù)責(zé)。因此本文 所謂的 L3 及以上級(jí)別主要是由 Robotaxi 組成的。4.2. 自動(dòng)駕駛細(xì)分領(lǐng)域的市場(chǎng)規(guī)模汽車市場(chǎng)正在經(jīng)歷快速的變革期,電動(dòng)化是汽車升級(jí)的上半場(chǎng),智能化是汽車升級(jí) 的下半場(chǎng)。 智能化將會(huì)迎來(lái)快速發(fā)展期,主要源于以下幾個(gè)方面:半導(dǎo)體技術(shù)的提升與
50、成本的下降:隨著半導(dǎo)體制造商向汽車領(lǐng)域逐漸發(fā)展,規(guī) 模化生產(chǎn)有利于成本的降低,從而推動(dòng)銷量擴(kuò)大形成正反饋,汽車半導(dǎo)體有望 復(fù)制手機(jī)半導(dǎo)體領(lǐng)域的發(fā)展規(guī)模和速度;電動(dòng)化的不斷普及加速了智能化:電動(dòng)車的電機(jī)電控特性,相較于燃油車更有 助于智能化的控制系統(tǒng)發(fā)展;對(duì)安全性便捷性和高效出行的要求:為了提升車輛差異化的競(jìng)爭(zhēng)力,汽車廠商 將繼續(xù)增加在駕駛輔助系統(tǒng) ADAS 方面的投入,提升自動(dòng)避險(xiǎn)剎車、自動(dòng)泊 車、道路領(lǐng)航等能力,以提升車輛的安全性與便捷性;隨著自動(dòng)駕駛能力的不 斷提高,自動(dòng)駕駛將有效緩解交通擁堵,大大提高出行的效率。我們預(yù)計(jì),擁有智能化功能的車輛將從 2020 年的 2773 萬(wàn)輛增長(zhǎng)到 2
51、025 年的 6332 萬(wàn)輛。據(jù) IDC 報(bào)告,2020 年售出的汽車中,擁有自動(dòng)駕駛(輔助)功能的汽車數(shù)量(包 含 L15 級(jí))為 2773.2 萬(wàn)輛,其中 L1 為 1874 萬(wàn)輛,L2 為 896 萬(wàn)輛,L3+為 3.2 萬(wàn)輛。 我們根據(jù)市場(chǎng)智能化趨勢(shì)以及前幾年的增速為基礎(chǔ)進(jìn)行測(cè)算,到 2025 年,擁有自動(dòng)駕 駛(輔助)功能的汽車數(shù)量(包含 L15 級(jí))為 6332 萬(wàn)輛,其中 L1 為 3900 萬(wàn)輛,L2 為 2320 萬(wàn)輛,L3+為 112 萬(wàn)輛;20202025 的 CAGR 為 17.8%。到 2025 年時(shí),與單車自動(dòng)駕駛相關(guān)的革新性部件,其市場(chǎng)總額可達(dá) 781 億美元,
52、20202025CAGR 可達(dá) 35.8%。巨大的市場(chǎng)增量使得相關(guān)公司都希望能夠乘著智能化升 級(jí)的東風(fēng)擴(kuò)大公司業(yè)務(wù),占領(lǐng)市場(chǎng)空間。我們將與自動(dòng)駕駛有關(guān)的市場(chǎng)進(jìn)行拆分,主要 有八個(gè)模塊,其中與人工智能息息相關(guān)的決策軟件、AI 芯片以及傳感器(攝像頭、激光雷達(dá)、高精地圖、毫米波雷達(dá))的發(fā)展空間更大。4.3. 積極入局汽車芯片領(lǐng)域,成為平臺(tái)化芯片的領(lǐng)導(dǎo)者4.3.1. 從移動(dòng)業(yè)務(wù)起家,逐漸擴(kuò)大應(yīng)用市場(chǎng)在智能手機(jī)興起的 2008 年時(shí),英偉達(dá)試圖進(jìn)入移動(dòng)芯片市場(chǎng)。為此,公司開(kāi)發(fā)了 Tegra 系列芯片,采用了 ARM 的 CPU 架構(gòu),并集成了自家的 GPU 芯片,組成了一套 SOC(system on
53、 a chip)系統(tǒng)。早期的 Tegra 芯片注重功耗及效率的表現(xiàn),主要用在微軟 的一款 MP3 和 Kin 手機(jī)上;后期則更專注于提供高性能,其典型產(chǎn)品是任天堂的 Switch, 英偉達(dá)的 Tegra X1 給任天堂 Switch 帶來(lái)了極高的畫面體驗(yàn)。由于自動(dòng)駕駛中對(duì)于畫面 的實(shí)時(shí)處理要求很高,因此后續(xù)的 Xavier 以及 Orin 系列也開(kāi)發(fā)了相應(yīng)的車規(guī)級(jí)芯片。 從移動(dòng)芯片的發(fā)展軌跡來(lái)看,英偉達(dá)的 CUDA 核心數(shù)量也快速增長(zhǎng),RAM 的容量和帶 寬也迅速提高,移動(dòng)芯片的性能始終保持競(jìng)爭(zhēng)優(yōu)勢(shì)。4.3.2. AI 芯片逐漸專業(yè)化,平臺(tái)化芯片發(fā)展空間更廣AI 芯片為自動(dòng)駕駛提供算力保障。隨
54、著圖像/視頻和雷達(dá)等傳感器接受的數(shù)據(jù)量越 來(lái)越大,對(duì)視覺(jué)芯片的實(shí)時(shí)算力要求也越來(lái)越高,據(jù)估計(jì)滿足安全冗余的 L2 級(jí)的算力 要求至少需要 10TOPS(INT 8)以上,傳統(tǒng)的 MCU(Microcontroller Unit,微控制單元, 也稱為單片機(jī))算力最多只能達(dá)到 GOPS(比 TOPS 小一千倍),完全不能滿足圖像識(shí)別 的算力要求。為了滿足自動(dòng)駕駛的需求,多家芯片廠商開(kāi)發(fā)出了針對(duì)車載市場(chǎng)優(yōu)化的 AI 芯片。當(dāng)前主流的車載 AI 芯片按架構(gòu)主要分為三類:GPU、FPGA、ASIC。其中 GPU 通用性較強(qiáng)因而場(chǎng)景適應(yīng)性強(qiáng),但功耗相對(duì)較高。FPGA 運(yùn)算速度快,通用性弱于 GPU 但功耗
55、優(yōu)于 GPU,因其易修改,主要用途是做 ASIC 的驗(yàn)證版本。ASIC 屬于為 AI 特定 場(chǎng)景定制的芯片,通用性低但針對(duì)特定場(chǎng)景的每瓦功耗以及安全性更好,屬于最終階段 的產(chǎn)品,開(kāi)發(fā)成本較高。我們測(cè)算,汽車領(lǐng)域的 AI 芯片市場(chǎng)規(guī)模將從 2020 年的 25 億 美元增長(zhǎng)到 2025 年的 105 億美元,20202025 的 CAGR 達(dá) 44%。以英偉達(dá)為代表的平臺(tái)化芯片的發(fā)展空間更為廣闊。目前芯片的解決方案主要有為 提供軟硬件整套解決方案、傳統(tǒng)汽車電子廠商轉(zhuǎn)型、平臺(tái)化芯片以及整車廠自研四種模 式。特斯拉可類比為手機(jī)界的蘋果,核心的 AI 芯片以及相應(yīng)的算法均自研,但由于芯 片設(shè)計(jì)等要求非
56、常高,不僅需要投入大量時(shí)間、資金,還需要有相應(yīng)的技術(shù)人才支撐, 對(duì)于大多數(shù)整車廠來(lái)說(shuō)很難實(shí)現(xiàn);Mobileye 以自研算法起家,早期與意法半導(dǎo)體合作研 發(fā)芯片,后來(lái)被 Intel 收購(gòu)后,形成了軟硬件一體化的能力,因此 Mobileye 是以整套解 決方案的模式向整車廠兜售,其優(yōu)點(diǎn)是可靠性強(qiáng)且整車廠使用方便,但缺點(diǎn)是整車廠獲 得的是封閉的算法系統(tǒng),無(wú)法自研算法,因此被特斯拉、小鵬、蔚來(lái)等希望掌握算法能 力的整車廠所棄用;平臺(tái)化芯片以英偉達(dá)為代表,目前市場(chǎng)上還有高通、地平線、華為 和黑芝麻等廠商,這個(gè)方案的思路是提供平臺(tái)化芯片以及算法開(kāi)發(fā)工具鏈(包括示例算 法),整車廠可根據(jù)自身軟件研發(fā)能力自行
57、選擇從哪個(gè)層面開(kāi)始進(jìn)行軟件/算法的研發(fā), 自由度較大,因此受到了以小鵬、蔚來(lái)、理想、百度、小馬智行以及 AutoX 為代表的整 車廠和科技公司的歡迎,類比來(lái)看,平臺(tái)化芯片類似于智能手機(jī)領(lǐng)域的高通和聯(lián)發(fā)科, 市場(chǎng)空間較一體化自研的蘋果大;除平臺(tái)化芯片外,市場(chǎng)上還有傳統(tǒng)的汽車電子廠商瑞 薩、恩智浦以及德州儀器等,也開(kāi)始紛紛布局高算力的車載 AI 芯片,但以目前推出的 產(chǎn)品來(lái)看,其芯片算力相對(duì)較低,且單瓦功耗也比較大,客戶主要是傳統(tǒng)的 Tier 1 廠商 以及部分科技公司。4.3.3. 整合移動(dòng)芯片的車載 AI 芯片平臺(tái),成為平臺(tái)化芯片的代表產(chǎn)品自由度高,客戶可根據(jù)需求選擇合適的芯片平臺(tái)方案。在 T
58、egra 系列芯片的基 礎(chǔ)上,英偉達(dá)集成了一些特殊功能的 GPU 以及輔助芯片,推出了英偉達(dá) Drive 系列車載 AI 芯片平臺(tái)。早期的車載 AI 芯片平臺(tái)與單個(gè)移動(dòng)芯片差別不大,但隨著車載系統(tǒng)的要 求不斷多樣化,英偉達(dá) Drive 系統(tǒng)也增加了很多選擇。例如 Drive PX Xavier 僅配備了一 塊 Xavier 芯片,其算力為 30 TOPS,功耗僅為 30W,適合用在 L2 級(jí)的量產(chǎn)車型中,例 如小鵬 P7 就采用了此款車載芯片平臺(tái);對(duì)于 L4 級(jí)車輛的車載 AI 芯片平臺(tái),僅僅一個(gè) Xavier 芯片算力不夠,因此采用了兩個(gè) Xavier 芯片加上兩個(gè)圖靈架構(gòu)的 GPU,使算力
59、 達(dá)到了 320TOPS,其功耗也增加到了 500W;蔚來(lái)希望打造自己的計(jì)算平臺(tái),因此從英 偉達(dá)這里選購(gòu)的是獨(dú)立的 Orin 芯片。不同的客戶可以依照不同的使用場(chǎng)景選擇適合的 產(chǎn)品,這極大地增加了英偉達(dá)車載 AI 芯片的使用場(chǎng)景。4.3.4. 軟件安全性高,易于上手且生態(tài)豐富,助力 AI 芯片占領(lǐng)市場(chǎng)不僅算力領(lǐng)先,英偉達(dá)易于上手的軟件工具鏈極大地了方便了芯片使用者的開(kāi)發(fā)過(guò) 程。同數(shù)據(jù)中心基礎(chǔ)芯片類似,英偉達(dá)十分重視對(duì)軟件工具鏈的開(kāi)發(fā)。英偉達(dá)不僅花費(fèi) 了大量的研發(fā)資金,成立了測(cè)試小組專門改裝了車輛以提高英偉達(dá)的芯片及相關(guān)軟件工 具鏈的安全性與穩(wěn)定性,還積極聽(tīng)取客戶的意見(jiàn)并對(duì)相關(guān)要求作出回應(yīng)。在不
60、斷的測(cè)試 中,軟件工具鏈的可用性也不斷提高。安全、可靠且易用的軟件工具鏈不僅可以讓軟件 開(kāi)發(fā)人員快速上手并熟練掌握芯片的調(diào)用技巧,還可以保證軟件的不會(huì)在汽車這個(gè)安全 性要求極高的領(lǐng)域出現(xiàn)差錯(cuò),這也是整車廠采用英偉達(dá)方案的主要原因之一。英偉達(dá)的 軟件還有一個(gè)特點(diǎn)是其軟件開(kāi)放性高。有豐富軟件開(kāi)發(fā)能力的客戶可以從底層操作系統(tǒng) 開(kāi)始自行研發(fā),而初入此領(lǐng)域的客戶可以從較上層的應(yīng)用軟件開(kāi)始研發(fā),底層使用英偉 達(dá)搭建的通用系統(tǒng)。英偉達(dá)靈活的使用方案適配性強(qiáng),潛在客戶數(shù)量巨大。4.3.5. 開(kāi)拓自動(dòng)駕駛虛擬測(cè)試平臺(tái),降低自動(dòng)駕駛設(shè)計(jì)門檻除平臺(tái)化芯片外,英偉達(dá)也積極推廣虛擬測(cè)試平臺(tái) Constellation。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北辰集團(tuán)2025校園招聘正式啟動(dòng)筆試參考題庫(kù)附帶答案詳解
- 跨國(guó)企業(yè)在教育領(lǐng)域的國(guó)際化戰(zhàn)略布局
- 建設(shè)工程施工合同的變更管理課件
- 管桁架結(jié)構(gòu)安裝管桁架的現(xiàn)場(chǎng)拼裝及施工安裝課件
- 河北東方學(xué)院《中國(guó)畫Ⅳ(工筆人物)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025福建省廈門輪船有限公司廈門輪總海上客運(yùn)旅游有限公司校園招聘2人筆試參考題庫(kù)附帶答案詳解
- 浙江省臺(tái)州市路橋區(qū)2025年數(shù)學(xué)三下期末統(tǒng)考模擬試題含解析
- 湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院《管理學(xué)實(shí)務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 馬鞍山學(xué)院《博弈論及其應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 移動(dòng)應(yīng)用性能優(yōu)化緩存技術(shù)
- 2025年舞蹈培訓(xùn)機(jī)構(gòu)學(xué)員培訓(xùn)合同范本
- 2025年保險(xiǎn)銷售業(yè)務(wù)人員崗位職業(yè)技能資格知識(shí)考試題(附答案)
- 兒科護(hù)理模擬考試題與參考答案
- 2025屆高考語(yǔ)文二輪復(fù)習(xí)語(yǔ)文備考策略
- 部編版語(yǔ)文小學(xué)二年級(jí)下冊(cè)第一單元集體備課(教材解讀)
- 通信工程建設(shè)標(biāo)準(zhǔn)強(qiáng)制性條文匯編(2023版)-定額質(zhì)監(jiān)中心
- 高等傳熱學(xué)全冊(cè)課件
- (正式版)JBT 11270-2024 立體倉(cāng)庫(kù)組合式鋼結(jié)構(gòu)貨架技術(shù)規(guī)范
- 最全全國(guó)各省市縣名稱
- 2024年《滕王閣序》原文及翻譯
- 部編版小學(xué)語(yǔ)文四年級(jí)下冊(cè)單元試卷含答案(全冊(cè))
評(píng)論
0/150
提交評(píng)論