版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
正文目錄英偉達(dá):全球算力王者,加速計算時代的AI超級工廠 6上市以來收入成長超160倍,市值增長超2700倍 6三芯片四領(lǐng)域,構(gòu)筑全面產(chǎn)品矩陣 6三十年專注的高研發(fā)投入,奠定高業(yè)績成長基石 10歷史復(fù)盤:用產(chǎn)品定義算力發(fā)展史 122000年前:從“狂野西部”通用圖形計算起步,憑借更加高效的研發(fā)模式、綁定大客戶微軟勝出并定義世界首款GPU 122000-2005:客戶多元化,通過性能優(yōu)勢掌握PC獨(dú)顯龍頭地位 142006-2015:以游戲業(yè)務(wù)筑基,培育以CUDA為核心的通用計算體系 142016至今:CUDA開花結(jié)果,云端數(shù)據(jù)中心業(yè)務(wù)開啟新一輪成長曲線 182016-2019:大數(shù)據(jù)與云服務(wù)階段,憑借GPU的通用性登上數(shù)據(jù)中心芯片王座 192020-2022:云端辦公和娛樂階段,收購整合打造最強(qiáng)數(shù)據(jù)中心異構(gòu)芯片+高速互聯(lián)+網(wǎng)絡(luò)安全解決方案體系護(hù)城河 2023至今:大模型浪潮引爆公司數(shù)據(jù)中心業(yè)務(wù)成長 21巨頭成長之路總結(jié):專注帶來前瞻,通用誕生生態(tài) 23專注計算芯片,帶來前瞻戰(zhàn)略思維 23注重技術(shù)復(fù)用性,讓研發(fā)投入落到實(shí)處 25重視通用性,引入生態(tài)共建 26國內(nèi)相關(guān)公司:逐步追趕,國產(chǎn)化趨勢已現(xiàn) 29華為昇騰:對標(biāo)英偉達(dá),有望成為國內(nèi)第二AI算力生態(tài) 29海光信息:類CUDA帶來更好的生態(tài)兼容性 30寒武紀(jì):云端芯片性能持續(xù)擴(kuò)展,云邊終端協(xié)同覆蓋 31景嘉微:發(fā)布景宏系列高性能計算產(chǎn)品,商業(yè)化布局有望加速 32風(fēng)險提示 32圖表目錄圖1:公司分季度收入情況(億美元、%) 6圖2:公司三芯布局產(chǎn)品線 7圖3:公司FY2024Q3分業(yè)務(wù)營收情況 7圖4:DOCA軟件體系 7圖5:英偉達(dá)數(shù)據(jù)中心產(chǎn)品迭代情況 7圖6:英偉達(dá)數(shù)據(jù)中心GPU發(fā)展歷程 8圖7:公司數(shù)據(jù)中心業(yè)務(wù)收入情況(億美元、%) 8圖8:公司游戲業(yè)務(wù)收入情況(億美元、%) 9圖9:公司游戲顯卡發(fā)展歷史 9圖10:NVIDIAAdaLovelace架構(gòu)能實(shí)現(xiàn)更擬真的光線追蹤效果 9圖DLSS利用AI實(shí)現(xiàn)性能的成倍提升 9圖12:公司專業(yè)可視化業(yè)務(wù)收入情況(億美元、%) 10圖13:公司專業(yè)可視化產(chǎn)品發(fā)展歷史 10圖14:公司自動駕駛業(yè)務(wù)收入情況(億美元、%) 10圖15:公司自動駕駛產(chǎn)品發(fā)展歷史 10圖16:可比公司毛利率情況(%) 圖17:可比公司凈利率情況(%) 圖18:可比公司研發(fā)費(fèi)用絕對值情況(億美元) 圖19:可比公司研發(fā)費(fèi)用率情況(%) 圖20:可比公司銷售及管理費(fèi)用率(%) 12圖21:“PreGPU”時期圖形計算芯片技術(shù)發(fā)展路線圖 12圖22:公司發(fā)展前期營業(yè)收入情況(億美元,%) 14圖23:獨(dú)立GPU市占率變化情況(%) 14圖24:全球智能手機(jī)出貨情況(億部、%) 15圖25:研發(fā)費(fèi)用絕對值對比:Nvidiavs.AMD(億美元) 16圖26:英偉達(dá)數(shù)據(jù)中心平臺 17圖27:英偉達(dá)GPU架構(gòu)演進(jìn)圖 17圖28:全球PC出貨量(億臺、%) 18圖29:全球桌面顯卡出貨量(萬塊、%) 18圖30:全球獨(dú)立顯卡市場占有率情況(%) 18圖31:公司游戲業(yè)務(wù)收入情況(億美元、%) 18圖32:海外主要云廠商季度Capex(億美元、%) 18圖33:海外主要云廠商季度Capex同比增速vs英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)季度同比增速(%) 18圖34:四大云服務(wù)廠商GPU分布(%) 19圖35:英偉達(dá)在TOP500系統(tǒng)中份額(%) 19圖36:未來算力生態(tài) 20圖37:英偉達(dá)三芯布局產(chǎn)品線 20圖38:DOCA軟件體系 20圖39:監(jiān)督微調(diào)-獎勵建模-強(qiáng)化學(xué)習(xí)過程 21圖40:Transformer架構(gòu) 21圖41:全球數(shù)據(jù)中心GPU市場規(guī)模(億美元、%) 22圖42:Transformer架構(gòu)示意圖 22圖43:可比公司研發(fā)費(fèi)用絕對值情況(億美元) 24圖44:可比公司研發(fā)費(fèi)用率情況(%) 24圖45:獨(dú)立顯卡市場占有率情況(%) 24圖46:英偉達(dá)芯片 25圖47:同時搭載高通芯片與的小米3 25圖48:X1相較前一代的性能巨大提升 26圖49:X1采用Maxwell架構(gòu) 26圖50:X1基于深度學(xué)習(xí)可以識別現(xiàn)實(shí)世界的事物 26圖51:CPU與GPU架構(gòu)的根本區(qū)別 27圖52:支持C++API接入 28圖53:支持PythonAPI接入 28圖54:最大化GPU在AI推理中的性能 28圖55:最小化客戶總擁有成本 28圖56:CUDA平臺部分生態(tài)伙伴 28圖57:CUDA生態(tài)部分伙伴 29圖58:昇騰芯片迭代計劃 29圖59:華為昇騰AI產(chǎn)業(yè)生態(tài) 30圖60:華為行業(yè)智能化參考框架 30圖61:海光DCU組成部分 31圖62:海光軟件棧體系 31表1:公司歷代GPU架構(gòu)情況 8表2:Riva128與i740對比情況 13表3:6800Ultra、X800數(shù)比較 14表4:2002-2013年英偉達(dá)收購匯總 15表5:大模型訓(xùn)練階段對算力的需求 21表6:大模型推理階段對算力的需求 22表7:AI芯片與CPU芯片在大模型訓(xùn)練中的效率和速度對比 23表8:NvidiaVSAMD產(chǎn)品迭代情況 24表9:CUDAVSROCm 25表10:GPUVSCPU 26表主流AI芯片性能比較 30表12:寒武紀(jì)產(chǎn)品線 32AI超級工廠1602700倍GPU算力龍頭。1993JensonHuang(黃仁勛)及來自SunMicrosystemChrisMalachowskyCurtisPriem創(chuàng)立,專注圖形計算芯片的設(shè)計與研發(fā),公司經(jīng)歷了起步積累、困境反轉(zhuǎn)、轉(zhuǎn)型升級和快速成長四個階段,并成長為全球AI算力領(lǐng)軍,根據(jù)Gartner預(yù)計,公司在全球AI芯片市場的市占率最高已經(jīng)達(dá)到90%。圖1:公司分季度收入情況(億美元、%)資料來源:彭博、三芯片四領(lǐng)域,構(gòu)筑全面產(chǎn)品矩陣基礎(chǔ)芯片層面,公司基于GPU技術(shù)路線,通過自研+并購形成GPU+CPU+DPU的三芯布局:(1)2000GPUGPU領(lǐng)域產(chǎn)品涵蓋消2024Q2H200CoreGPUNVIDIAHopper?架構(gòu),F(xiàn)P16989TFLOPS,同時是首款提供HBM3eGPU4.8TB141GBA100相比容量幾乎翻2.4A10018倍;(2)2020MellanoxBlueFieldDCUCPU負(fù)荷,提升整體系統(tǒng)性能,BlueField-3DPU2倍的網(wǎng)絡(luò)帶寬、4倍的計算能力和幾58TCO能效;(3)2021GraceCPUARMv9架構(gòu)設(shè)計,相較于現(xiàn)x86CPU2.321.9倍;為了進(jìn)一步滿足巨型GraceCPUHopperGPU封裝GraceHopperSuperchipGraceCPUPCBGraceSuperchip;圖2:公司三芯布局產(chǎn)品線 圖3:公司FY2024Q3分業(yè)務(wù)營收況資料來源:SDNLAB, 資料來源:英偉達(dá)官網(wǎng)、行業(yè)客戶層面,公司布局了游戲、數(shù)據(jù)中心、專業(yè)可視化、自動駕駛市場四大領(lǐng)域:數(shù)據(jù)中心:公司206年至今以及未來長期的增長點(diǎn)。公司為云廠商(CP、企CPU+GPU+DPU芯片、IB+以太網(wǎng)等網(wǎng)絡(luò)設(shè)備的硬件系統(tǒng),以及AI加速庫、開發(fā)工具、應(yīng)用等軟硬件一體的解決方案;隨著云端數(shù)據(jù)中心需求的爆發(fā)以及公司三芯布局的形成,公司數(shù)據(jù)中心業(yè)務(wù)近五年收入復(fù)合增速高達(dá)74.56%、近三年復(fù)合增速高達(dá)92.18%,2023年全年實(shí)現(xiàn)收入475.25億美元,同比+216.73%,其中2023Q4實(shí)現(xiàn)收入184.04億美元,同比+409%;2011M2090B100采用Blackwell4nmHopperH200系列相比,100%。圖4:DOCA軟件體系 圖5:英偉達(dá)數(shù)據(jù)中心產(chǎn)品迭代情況資料來源:英偉達(dá), 資料來源:Semianalysis、圖6:英偉達(dá)數(shù)據(jù)中心GPU發(fā)展歷程 圖7:公司數(shù)據(jù)中心業(yè)務(wù)收入情況(億美元、%)資料來源:CSDN、英偉達(dá)、 資料來源:彭博、表1:公司歷代GPU架構(gòu)情況架構(gòu)代號TeslaFermiKeplerMaxwellPascalVoltaTuringAmpereHopperBlackwell中文代號特斯拉費(fèi)米開普勒麥克斯韋帕斯卡伏特圖靈安培赫柏布萊克威爾時間2006200920122014201620172018202020222024制程-40nm28nm28nm16nm12nm12nm8nm4nm4nm15個16個 SMX* 5120個具有4608具有6912具有18432SM*32CUDA(192個單具有3072 3840個 CUDA核個CUDA個CUDA 個FP32核數(shù) 128個 Core,共計精度+64個個CUDACUDA核心心,新增了核心、核心、432CUDA核 -512個 雙精度 核心 640個張量576個張個張量核心心、576個CUDACore CUDA 核心 量核心 張量核心core)首個通用GPU計算架
首個支持超在功耗效增強(qiáng)了GPUAI
在人工智
Hopper
包含2080億構(gòu),采用全
計算密度,
新增了
能、光線追Transformer個晶體管,
引入L1/L2 GPU架 得重大
功耗只有300W
TFLOPS,比Pascal
Ray
FP16和
采用雙倍光刻極限尺寸C
快速緩存、
密度是
Maxwell
核心
能大幅躍
FP8
的裸片,通特點(diǎn) 進(jìn)行GPU編錯誤修復(fù)
架構(gòu)提高
Kepler50%3倍,可Core),可層交換,利
過10TB/s程,標(biāo)志著
3-4
兩倍,標(biāo)
以上,使
以大大加速硬件加速 只
的片間互聯(lián)GPU
Direct
GPUGPUGPU可以進(jìn)光線追蹤400W,能
技術(shù)連接成專用圖形處理器轉(zhuǎn)變?yōu)?/p>
運(yùn)算 效比顯著提算法來降低高 所需精度
一塊統(tǒng)一的GPU。通用數(shù)據(jù)并行處理器
點(diǎn) 來 汽車等新興應(yīng)用市場。資料來源:英偉達(dá)、騰訊云社區(qū)、芯智訊等、游戲業(yè)務(wù):公司的起家業(yè)務(wù)和基本盤,以先進(jìn)技術(shù)引領(lǐng)行業(yè)發(fā)展。公司提供分PCGeForceGTXPCGeForceNOWSHIELD服務(wù)以及用于游戲機(jī)的平臺和開發(fā)服務(wù);隨著挖礦浪潮的興起以及公司光追系列顯卡的推出,公司游戲10.91%,2023104.82億美元,同比+15.61%,2023Q429億美元,同比+56%,為其他業(yè)務(wù)提供了穩(wěn)定的現(xiàn)金流;游戲業(yè)務(wù)見證了公司的成長史,每一代微架構(gòu)的升級都帶來了性能的顯著提升:2018TuringGeForce2080顯卡,可以在游戲中通過模擬光線的物理行為,實(shí)現(xiàn)電影級質(zhì)量的實(shí)時渲染,引領(lǐng)了3A大作發(fā)展的方向;公司推出的DLSS(深度學(xué)習(xí)超級采樣抗鋸齒)技術(shù)在不影響游戲性能的同時,能提供與TAA抗鋸齒技術(shù)幾乎相同的畫質(zhì),根據(jù)快科技測試,RTX2080DLSS的性能領(lǐng)先上一代GTX1080TAA達(dá)到了80%。圖8:公司游戲業(yè)務(wù)收入情況(億美元、%) 圖9:公司游戲顯卡發(fā)展歷史資料來源:彭博, 資料來源:CSDN、英偉達(dá)、中號硬核玩家等、圖10:NVIDIAAdaLovelace架構(gòu)實(shí)現(xiàn)更擬真的光線追蹤效果 圖11:DLSS利用AI實(shí)現(xiàn)性能的成提升資料來源:英偉達(dá)官網(wǎng), 資料來源:英偉達(dá)官網(wǎng),專業(yè)可視化:專業(yè)圖形領(lǐng)域領(lǐng)導(dǎo)者。公司為獨(dú)立軟件供應(yīng)商(ISV)3D藝術(shù)家、建筑師和產(chǎn)品設(shè)計師等提供從桌面到Quadro202312.72億美元,同比-3.56%2023Q44.63億美元,同比+105%。圖12:公司專業(yè)可視化業(yè)務(wù)收入情況(億美元、%) 圖13:公司專業(yè)可視化產(chǎn)品發(fā)展歷史 資料來源:彭博, 資料來源:CSDN、英偉達(dá)、自動駕駛:前瞻布局的中長期增長業(yè)務(wù)。DRIVE系列品牌,為交通運(yùn)輸業(yè)構(gòu)建出軟件定義的端到端平臺及解決方案,客戶可以基于該平臺快速高效地開發(fā)自動Orin、Atlan2025ThorSOC,軟件端包括OSDriveWorks中軟件棧,AIChauffeurAI駕IXAIConcierge,使Map等產(chǎn)品;202310.90億美元,同比-17.36%2023Q42.81億美元,同比+24.34%。圖14:公司自動駕駛業(yè)務(wù)收入情況(億美元、%) 圖15:公司自動駕駛產(chǎn)品發(fā)展歷史資料來源:彭博, 資料來源:英偉達(dá)等、三十年專注的高研發(fā)投入,奠定高業(yè)績成長基石與Intel、AMD相比,CUDA軟件生態(tài)帶來的毛利率、凈利率優(yōu)勢明顯。公司上市以來毛利率及凈利率隨行業(yè)及業(yè)務(wù)的變化經(jīng)歷了三個階段:1)2003Xbox2001年37.92%200329.01%12.92%4.08%,后續(xù)隨著公司與Intel、索尼簽單,毛利率、凈利率逐步回升;2)2004-2008CUDA初期的技術(shù)不成熟影響,當(dāng)時的G84/G86核心產(chǎn)品出現(xiàn)了過熱而導(dǎo)致花屏的“顯卡門”200745.62%200834.29%19.46%轉(zhuǎn)負(fù)為-0.88%2009年FermiGPU推出,毛利率、凈利率實(shí)現(xiàn)了快速修復(fù);3)2009CUDAIntel、AMD200834.29%202372.7%、凈利率也同步從-0.88%48.85%。圖16:可比公司毛利率情況(%) 圖17:可比公司凈利率情況(%)資料來源:彭博, 資料來源:彭博,公司常年專注投入研發(fā),研發(fā)費(fèi)用處于高位水平。上市以來,公司通過“三團(tuán)隊(duì)-兩季度”的研發(fā)模式以及聚焦GPU研發(fā),實(shí)現(xiàn)了在單一領(lǐng)域與友商相比更高的研發(fā)投入:1999-200519990.32億美元快速提20053.52億美元,CAGR61.54%;2006AMD20053.6億美元快速提升202386.75億美元,CAGR19.34%AMD相比,2005年公司研發(fā)投入為AMD32.73%182023AMD1.47倍;同時由于公GPUAMDCPUIntel展開競爭,我們估計2023GPU1.47。圖18:可比公司研發(fā)費(fèi)用絕對值情況(億美元) 圖19:可比公司研發(fā)費(fèi)用率情況(%)資料來源:彭博, 資料來源:彭博,憑借超強(qiáng)的研發(fā)投入實(shí)現(xiàn)了強(qiáng)大的產(chǎn)品力,銷售及管理費(fèi)用率從常年的10%逐步下降。公司上市以來銷售費(fèi)用率穩(wěn)定在10%并呈逐步下降趨勢;2021年銷售及管理費(fèi)用率從10.01%11.63%Mellanox;2023年,由于公司數(shù)據(jù)中心業(yè)務(wù)的爆4.36%。圖20:可比公司銷售及管理費(fèi)用率(%)資料來源:彭博、、歷史復(fù)盤:用產(chǎn)品定義算力發(fā)展史2000GPU“PreGPU”時期,圖形計算芯片技術(shù)快速迭代,百家爭鳴:上世紀(jì)90年代初,高性能圖像主要用于圖形工作站和視頻游戲機(jī)中,1995年微軟推出的ows95具備音視頻等多媒體功能、大量3D渲染游戲登錄PC平臺、圖形芯片集成度提升推動了3D圖像市場的發(fā)展;因而“PreGPU”時期的圖形計算芯片技術(shù)路線經(jīng)歷了單純輔助CPU進(jìn)行圖形顯示、可進(jìn)行2D加速計算、可進(jìn)行3D加速計算、具備固定的渲染管線四個階段,S3、ATI、AMD、英偉達(dá)、3DFX等眾多大小玩家展開激烈競爭,一度形成“百家爭鳴”局面,激烈的市場競爭帶來的是圖形處理芯片的快速迭代和演進(jìn)。圖21:“PreGPU”時期圖形計算芯片技術(shù)發(fā)展路線圖資料來源:愛集微、英偉達(dá)成立初期專注圖形計算芯片的PC消費(fèi)市場:1993年,JensonHuang(黃仁勛)及來自于SunMicrosystem的兩位工程師ChrisMalachowsky和CurtisPriem認(rèn)為個人電腦將會成為游戲、多媒體的主流消費(fèi)設(shè)備,因而共同創(chuàng)立了英偉達(dá)(Nvidia形計算芯片的設(shè)計與研發(fā)。1994-2000年公司完成了技術(shù)和產(chǎn)品積累:1994年,公司與意法半導(dǎo)體首次開展戰(zhàn)略合作,意法半導(dǎo)體為公司制造單芯片圖形用戶界面加速器;1995年,公司發(fā)布首款產(chǎn)品NV1;1997128系列產(chǎn)品,憑借高性能+低結(jié)構(gòu)成本而廣受市場好評,100i740Intel則逐步退出了獨(dú)立顯卡市場;1998OEM成為公司重要的銷售模式;1999GPU——GeForce256,整合了關(guān)鍵的硬件變換和光照(T&L256DirectXOpenGLAPI;2000年,公19953D的圖形顯卡先驅(qū)3dfx。表2:Riva128與i740對比情況RIVA128ZXi740填充率(百萬像素/秒)10066儲存器接口128-bit64-bit幀緩沖總線帶寬1.6GB/s800MB/s資料來源:英偉達(dá),Intel,在圖形市場發(fā)展初期,面對技術(shù)及標(biāo)準(zhǔn)不成熟、行業(yè)迭代速度快且競爭激烈等難題,公司憑借“三團(tuán)隊(duì)-兩季度”的更快速高效的研發(fā)運(yùn)營模式比競爭對手更加快速地響應(yīng)下游需求的變化、推出全面的產(chǎn)品矩陣、果斷綁定大客戶微軟實(shí)現(xiàn)了份額的快速提升,從而在競爭中勝出:研發(fā)上,公司采用了“三團(tuán)隊(duì)-兩季度”的高效研發(fā)模式實(shí)現(xiàn)了技術(shù)和產(chǎn)品的快速迭代:圖形市場產(chǎn)品研發(fā)周期包括短周期(6-9個月)和長周期(12-18個月)兩類,公司則采用“三團(tuán)隊(duì)-兩季度”的研發(fā)模式,即采用三個并行開發(fā)團(tuán)隊(duì)專注于第一年秋季、第二年春季、第二年秋季這三個獨(dú)立的分階段產(chǎn)品開發(fā),這使得公司可以每6個月推出一次新產(chǎn)品,領(lǐng)先市場1-2個研發(fā)周期,能夠更快滿足下游需求的變化;產(chǎn)品上,公司不斷豐富產(chǎn)品矩陣:GeForce256DDR、SDR和TNT三個系列實(shí)現(xiàn)了高中低端的全面布局;戰(zhàn)略上,公司綁定大客戶微軟:NV13dfxGLIDE3D出了重大決定:支持當(dāng)時微軟剛剛推出的Direct3D標(biāo)準(zhǔn)與GLIDE進(jìn)行競爭,依靠著ows95操作系統(tǒng)的高占有率,英偉達(dá)Riva128顯卡出貨量逐漸上升并超越3dfx,后續(xù)憑借GeForce256擴(kuò)大優(yōu)勢并最終收購3dfx。2000-2005PC獨(dú)顯龍頭地位GPU時代初期,大客戶微軟引領(lǐng)圖形硬件標(biāo)準(zhǔn),圖形顯卡雙雄局面形成:2001年,ShaderModel(優(yōu)化渲染引擎模式)1.0DirectX8.0,由于遵循這一接口標(biāo)準(zhǔn)的GPU具備頂點(diǎn)和像素的可編程性,微軟開始引領(lǐng)圖形硬件標(biāo)準(zhǔn),圖形顯卡領(lǐng)域呈現(xiàn)英偉達(dá)、ATI(后被AMD收購)雙寡頭的局面。2001-2005年,與微軟合作失敗后,公司積極尋求多元客戶支持,并通過產(chǎn)品性能再度占據(jù)PC獨(dú)顯龍頭地位:(1)2000Xbox盾而失去了訂單(改為競爭對手TI供應(yīng),這使得公司2003年?duì)I收減少,錯過了微軟DirectX9GeForceFXRadeon9700;面對困境,公司積極尋求多元客戶支持:1)Intel達(dá)成了專利交叉許可協(xié)議;3)PS3游戲機(jī)開發(fā)處理器的訂單、與3D持續(xù)迭代:2004GeFroce6800Ultra,并憑借GPU2006AMD54億美元收GPU高端市場并重回增長軌道;圖22:公司發(fā)展前期營業(yè)收入情況(億美元,%) 圖23:獨(dú)立GPU市占率變化情況(%)資料來源:彭博、 資料來源:JonPeddieResearch、芯片廠商 制造工藝 核心頻率 顯存頻率 顯存類型 顯存容量 顯存位寬 顯存帶寬DirectX版本表3:芯片廠商 制造工藝 核心頻率 顯存頻率 顯存類型 顯存容量 顯存位寬 顯存帶寬DirectX版本GeForce6800Ultra NVIDIA 0.13微米 400MHz DDR3 256MB 256bit 35.2GB/s 9.0CX800 X800 微米 400MHz 700MHz DDR3 256MB 256bit 22.4GB/s 9資料來源:芯參數(shù)、2006-2015CUDA為核心的通用計算體系因時機(jī)和定位失誤,錯失手機(jī)終端機(jī)遇:2006-20113iPhone4帶來了全球智能手機(jī)滲透率的二階導(dǎo)拐點(diǎn),2009-201514.38%74.08%;公司早在2003年便開始通過收購布局移動端圖像芯片,認(rèn)為未來能實(shí)現(xiàn)通話和多媒體功能的手機(jī)2008年公司依靠平板和游戲機(jī)的優(yōu)勢推出了針對移動端的Tegra處理器運(yùn)用在智能汽車、智慧城市和云端服務(wù)上。表4:2002-2013年英偉達(dá)收購匯總年份收購公司收購目的2002Exluna提供設(shè)計人才,推動CG語言進(jìn)入電影行業(yè)。2003MediaQ打開快速增長的移動和手持市場領(lǐng)域。2004iReady獲得用于支持超高性能以太網(wǎng)絡(luò)的傳輸技術(shù)2005ULIElectronicsULI為ATI提供南橋部件2006HybridGraphics打開手持設(shè)備領(lǐng)域,開發(fā)圖像解決方案2006PortalPlayerGPUPortalPlayer2008Ageia將PhysX物理引擎和GPU集成2011Icera幫助代工廠縮短產(chǎn)品上線時間,滿足下一代移動計算需求2013PGI為HPC系統(tǒng)提供關(guān)鍵部件資料來源:英偉達(dá)、圖24:全球智能手機(jī)出貨情況(億部、%)資料來源:、超前推出CUDA進(jìn)軍GPGPU,開始構(gòu)建生態(tài)護(hù)城河:3DGPU技術(shù)通用化:GPU使用頂點(diǎn)著色單元和像素渲染單元兩種計算資源,兩種處理器數(shù)量的最佳比例是隨應(yīng)用的變化而變化的,因此經(jīng)常出現(xiàn)DavidKirkGPU裝備一組完全相同的、具有較強(qiáng)編程能力的內(nèi)核,根據(jù)任務(wù)情況在頂點(diǎn)和片元處理任務(wù)之間動態(tài)分配可以極大程度提升PC的計算性能,同時將豐富的并行運(yùn)算資源分享給開發(fā)者,便可具備重要的戰(zhàn)略意義,因而公司開始投入大量研發(fā)資源。堅(jiān)定方向鋪長路:2006GPUCUDA(ComputeUnifiedDeviceArchitecture)編程技術(shù),并讓公司的每一顆GPU都支持CUDA;2007年,公司推出了不具備繪圖能力的第一代大規(guī)模并行運(yùn)算芯片Tesla;CUDA初期投入成本較高,并給公司帶來了較大的業(yè)務(wù)壓力:在技術(shù)方面,芯片面積增大、散熱增加、成本上升、故障率增高,直接導(dǎo)致后續(xù)G84/G86核心的產(chǎn)品出現(xiàn)了過熱而導(dǎo)致花屏的“顯卡門”2億美元的一次性支出代價來解決產(chǎn)品質(zhì)量問題;CUDA,會對公司的工程師帶來巨大的額外工作量;CUDA5200630.68億美金;在外部環(huán)境上,2008CPUAMDCPU整合GPU的新解決方案;Intel3D圖形加速器;2008PC和獨(dú)顯出貨量同時出現(xiàn)了負(fù)增長;公司在內(nèi)憂外困的情況下仍然堅(jiān)持投入研發(fā),研發(fā)費(fèi)用逐年攀升:2009FermiGPU,因而經(jīng)營得以快速恢復(fù),再次奪回市場領(lǐng)先地位,此后公司通過轉(zhuǎn)化為更通用的計算工具上投入了將近100億美元;圖25:研發(fā)費(fèi)用絕對值對比:Nvidiavs.AMD(億美元)資料來源:彭博、wind、通用計算價值初現(xiàn),應(yīng)用領(lǐng)域拓展:CUDAGPU的應(yīng)用領(lǐng)域,讓只做3DGPU得以從游戲(圖形渲染)向外擴(kuò)展至高性能計算、自動駕駛等多個領(lǐng)域,結(jié)合前期在游戲、移動領(lǐng)域的積累,公司逐步形成四大產(chǎn)品線:GeForce(PC、筆記本uadro(工作站、ela(大型高性能計算、egra(移動產(chǎn)品;圖26:英偉達(dá)數(shù)據(jù)中心平臺資料來源:英偉達(dá)、(5)2006年以來,公司持續(xù)推進(jìn)CUDA通用計算生態(tài)建設(shè):2年推出一個微架構(gòu),并對四大產(chǎn)品線進(jìn)行全面升級;2019MellanoxCPU+GPU+DPU三芯布局;軟件端,公司研發(fā)了大量的加速庫、開發(fā)工具鏈,極大程度提升了易用性;最終公司形成了快速迭代的硬件+深度捆綁的軟硬件+大量外圍的二次開發(fā)者和易用的軟件生態(tài)三位一體的生態(tài)飛輪。圖27:英偉達(dá)GPU架構(gòu)演進(jìn)圖資料來源:英偉達(dá)、終端多元化背景下,聚焦高端游戲卡穩(wěn)定增長態(tài)勢:2012年,平板電腦、筆記本電腦等終端的多元化使得PC出貨開始呈下降趨勢,同時集顯性價比的逐步提升擠占了獨(dú)顯市場空間,公司戰(zhàn)略聚焦高端游戲卡,通過GeForce系列站穩(wěn)腳跟;根據(jù)公司披露,2010-2015CAGR21%CAGR9%、ASPCAGRGPUAI業(yè)務(wù)爆發(fā)的基石。圖28:全球PC出貨量(億臺、%) 圖29:全球桌面顯卡出貨量(萬塊、%)資料來源:wind、 資料來源:華經(jīng)產(chǎn)業(yè)研究院、圖30:全球獨(dú)立顯卡市場占有率情況(%) 圖31:公司游戲業(yè)務(wù)收入情況(億美元、%)資料來源:JonPeddieResearch、 資料來源:彭博、2016至今:CUDA開花結(jié)果,云端數(shù)據(jù)中心業(yè)務(wù)開啟新一輪成長曲線2016年至今,算力需求側(cè)經(jīng)歷了大數(shù)據(jù)及云服務(wù)(2016-208、云端辦公和娛樂(2020201、云端AI訓(xùn)練(2023至今)三大階段,公司借助A成長為全球算力龍頭。圖32Capex(億美元、%)
圖33Capexvs業(yè)務(wù)季度同比增速(%) 資料來源:彭博、wind、 資料來源:彭博、wind、2016-2019GPU的通用性登上數(shù)據(jù)中心芯片王座大數(shù)據(jù)催生數(shù)據(jù)上云需求。2016-2018年,大數(shù)據(jù)的發(fā)展及移動互聯(lián)網(wǎng)流量產(chǎn)生的海MapReduce紛自建大規(guī)模數(shù)據(jù)中心,2016-2017年,亞馬遜、微軟、谷歌、MetaCapex從309.62億美元增長至405.66億美元,資本支出同比增長31%。CUDAGPU通用能力直接帶來公司數(shù)據(jù)中心業(yè)務(wù)爆發(fā)。海量數(shù)據(jù)帶來的計算CUDAGPU實(shí)現(xiàn)了通用化,2016PascalP1003840CUDA系列V100、T4、P100、P4Liftr2019年進(jìn)行的調(diào)查中顯示,公司的AzureGCP四大云廠商中的專用加速82%、89%、100%100%,呈現(xiàn)絕對龍頭地位;根據(jù)海豚投研,公司在TOP50020166%201724%3倍。圖34:四大云服務(wù)廠商GPU分布(%) 圖35:英偉達(dá)在TOP500系統(tǒng)中份額(%)資料來源:forbes、Liftr、 資料來源:GS、海豚投研、2020-2022:云端辦公和娛樂階段,收購整合打造最強(qiáng)數(shù)據(jù)中心異構(gòu)芯片+高速互聯(lián)+網(wǎng)絡(luò)安全解決方案體系護(hù)城河衛(wèi)生事件帶來的云端辦公和娛樂需求驅(qū)動了云廠商的第二輪數(shù)據(jù)中心建設(shè)周期,數(shù)據(jù)處理及帶寬互聯(lián)是關(guān)鍵。2020年,衛(wèi)生事件導(dǎo)致全球生產(chǎn)經(jīng)營和日?;顒佣际艿搅擞绊?,催生了企業(yè)上云、人民消費(fèi)娛樂上云的需求,亞馬遜、微軟、谷歌、Meta四大云廠商合計Capex2020Q12022Q41220%以上的高速增長,云廠商開啟了第二輪建設(shè)周期;同時,企業(yè)要求數(shù)據(jù)中心除了簡單的存儲以外,能夠?qū)崿F(xiàn)一定程度的數(shù)據(jù)分析,虛擬機(jī)和容器(containers)進(jìn)行分布式運(yùn)行,這兩大趨勢要求未來的數(shù)據(jù)中心需要同時具備大規(guī)模數(shù)據(jù)處理能力和高帶寬互連技術(shù)。收購整合構(gòu)筑數(shù)據(jù)中心上下游一體的體系化護(hù)城河。201969億美金收InfiniBandMellanoxMellanox2020年收購了網(wǎng)絡(luò)安全和智能IPTitanICAI機(jī)上的生態(tài)優(yōu)勢成功拓展到了分布式集群中:分布式訓(xùn)練對于數(shù)據(jù)交互的需求非常高,而Mellanox的數(shù)據(jù)互聯(lián)方案+英偉達(dá)的GPU底層接口可以成為完善的工程解決方案,TitanIC提供的網(wǎng)絡(luò)安全和內(nèi)容智能又能夠?qū)崿F(xiàn)在硬件加速器中檢測惡意入侵的網(wǎng)絡(luò)流量并減少了CPU負(fù)載,最終公司構(gòu)建起了包含人工智能芯片及生態(tài)+高速數(shù)據(jù)互聯(lián)解決方案+網(wǎng)絡(luò)安全加速的橫跨多個領(lǐng)域的完整方案。DPU專為減少CPU負(fù)荷、進(jìn)一步提升大規(guī)模數(shù)據(jù)中心系統(tǒng)效率而生。數(shù)據(jù)大爆發(fā)的時代,仍存在CPU處理效率低下、GPU處理不了的負(fù)載,如網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),DPUCPU提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TO。圖36:未來算力生態(tài)資料來源:智東西、CPU+GPU+DPU形成三芯異構(gòu)硬件布局,實(shí)現(xiàn)數(shù)據(jù)中心芯片體系的“降本2020MellanoxConnectXDPU(數(shù)據(jù)處理器)BlueField-22021DOCA(Data-Center-Infrastructrue-On-A-hip-rchitectrue)生態(tài),lueField系列DPU在支持網(wǎng)絡(luò)處理、安全和存儲功能的同時,實(shí)現(xiàn)網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)30%CPUDOCA軟件框架使開發(fā)者能夠在BlueFieldDPU上快速創(chuàng)建應(yīng)用程序和服務(wù),為開發(fā)者構(gòu)建軟件定義、硬件加速網(wǎng)絡(luò)、存儲、安全和其他基礎(chǔ)設(shè)施應(yīng)用程序提供了一個全面的開放平臺。圖37:英偉達(dá)三芯布局產(chǎn)品線 圖38:DOCA軟件體系資料來源:NVDIAGTC2021, 資料來源:英偉達(dá)官網(wǎng)、2023至今:大模型浪潮引爆公司數(shù)據(jù)中心業(yè)務(wù)成長GPT本質(zhì)是基于Transformer架構(gòu)的大模型。GPT,全稱"GenerativePre-trainingTransformer",最初是一個由OpenAI開發(fā)的自然語言處理(NLP)的模型,通過預(yù)訓(xùn)練和生成技術(shù)以及Transformer的自注意力機(jī)制,可以理解和生成人類的自然語言,比傳統(tǒng)的RNN、CNN更快、更穩(wěn)定、準(zhǔn)確率更高、回答更富有邏輯性、并具備強(qiáng)大的泛化能力。圖39:監(jiān)督微調(diào)-獎勵建模-強(qiáng)化學(xué)習(xí)過程 圖40:Transformer架構(gòu)資料來源:畫宇宙、 資料來源:CSDN、大模型對于算力的需求體現(xiàn)在模型訓(xùn)練和推理應(yīng)用兩個階段:OpenAI的論文《ScalingLawsforNeuralLanguageModels》(2020年發(fā)表,訓(xùn)練階段算力需求=3×前向傳遞操作數(shù)×模型參數(shù)數(shù)量×訓(xùn)練集規(guī)模,訓(xùn)練所需U數(shù)量=總算力需求(每個U每秒運(yùn)算能力×訓(xùn)練時間×有效算力比率,因此2.65A100。表5:大模型訓(xùn)練階段對算力的需求訓(xùn)練算力需求GPT-3GPT-4SORA平均參數(shù)數(shù)量(億個,NToken訓(xùn)練所需運(yùn)算次數(shù)(TFLOPS,6N)1.051.680.06訓(xùn)練數(shù)據(jù)5億圖片+1000萬個視頻圖片分辨率*像素數(shù)9.72E+04patch量(個)1.75E+16壓縮比例20%patch到tokens的換算比例1.30E-03單次訓(xùn)練Tokens數(shù)量(億個)300013000045689訓(xùn)練步數(shù)(steps)20單次訓(xùn)練所需總算力(TFLOPS)3.15E+112.184E+135.48E+12單次訓(xùn)練所需時間(天)909090按上述時間計算,每秒的訓(xùn)練算力需求(TFLOPS)4.05E+042.81E+067.05E+05A100算力值(非稀疏,TFLOPS)312312312集群利用率(MFU)34%34%34%所需卡數(shù)38226,4776,647資料來源:OpenAI、英偉達(dá)、智東西、新智元、CSDN、AIGC開放社區(qū)、華爾街見聞、第一財經(jīng)、openAI推理所需要的算力成本0.05AIPRM202312月,ChatGPT1.8億用戶,平175671017/30*10/3600*10^8≈157407需A10027.7萬張。表6:大模型推理階段對算力的需求推理算力需求GPT-3GPT-4SORA平均參數(shù)數(shù)量(億個,NToken推理所需運(yùn)算次數(shù)(TFLOPS,2N)0.350.560.02單次推理視頻長度(秒)60每秒幀數(shù)30圖片分辨率*像素數(shù)1.94E+05patch量(個)3.50E+08patch到tokens的換算比例1.30E-03單次推理Tokens數(shù)量(億個)1.00E-051.00E-054.56E-03推理步數(shù)(steps)20單次推理所需算力(TFLOPS)350.00560.00182,250假設(shè)單次推理所需時間(秒)333單次按上述時間計算,每秒的推理算力需求(TFLOPS)116.67186.6760,750.00A100算力值(非稀疏,TFLOPS)312312312集群利用率(MFU)34%34%34%所需卡數(shù)1.101.76572.68資料來源:OpenAI、英偉達(dá)、智東西、新智元、CSDN、AIGC開放社區(qū)、華爾街見聞、第一財經(jīng)、大模型引爆算力需求。IDCGPU2022103億2027654億美元,CAGR44.55%;AMD報告顯示,2023AI45020274000億美元,2023年-2027年70%。圖41:全球數(shù)據(jù)中心GPU市場規(guī)模(億美元、%) 圖42:Transformer架構(gòu)示意圖資料來源:IDC、 資料來源:CSDN、公司憑借數(shù)據(jù)中心產(chǎn)品和生態(tài)體系一飛沖天。公司2023Q3-2023Q4,數(shù)據(jù)中心業(yè)務(wù)收入分別達(dá)到145.14、184.04億,同比增速達(dá)到278.66%、408.96%;截至2024年3月27日,市值達(dá)到2.3萬億美元,較2023年初漲幅超過530%。順勢而為切入云端定制ASIC。由于算力成本高企,云計算公司紛紛開始自研芯片以部分替代英偉達(dá)產(chǎn)品,根據(jù)財聯(lián)社,2月9日消息人士透露,英偉達(dá)正在建立一個新的業(yè)務(wù)部門,專注于為云計算等公司設(shè)計定制芯片以及先進(jìn)的人工智能(AI)處理器;我們認(rèn)為公司此舉既能減少客戶自研芯片帶來的替代壓力,又能為長期芯片走向降本化、定制化提前做好準(zhǔn)備。10CSET報告《AIChipsWhatTheyAreandWhyTheyMatterGPU相比,ASIC10100倍,因而隨著大模型的發(fā)展逐步進(jìn)入成熟期,ASIC650GroupAlan100億美元,到2025年將翻一番。表7:AI芯片與CPU芯片在大模型訓(xùn)練中的效率和速度對比訓(xùn)練推理通用性推理準(zhǔn)確度效率速度 效率速度CPU一倍基準(zhǔn)非常高98%-99.7%GPU10-100倍10-1000倍 1-10倍1-100倍高98%-99.7%FPGA-- 10-100倍10-100倍中等95%-99%ASIC100-1000倍10-1000倍 100-1000倍10-1000倍低90%-98%資料來源:CSET、
前瞻布局移動基站,劍指邊緣計算。根據(jù)新浪財經(jīng)、財聯(lián)社,英偉達(dá)正在與電信基礎(chǔ)設(shè)施建設(shè)者愛立信就一款包含芯片設(shè)計公司的圖形處理單元(GPU)技術(shù)的無線芯片進(jìn)行談判,同時軟銀和英偉達(dá)將聯(lián)合成立一個新的行業(yè)協(xié)會“AI-RAN聯(lián)盟”,電信巨頭愛立10AI技術(shù)實(shí)用化。我們認(rèn)為長期看,未來AI算力增量需求場景將逐步由云向邊緣、端側(cè)轉(zhuǎn)移,公司有望在邊緣側(cè)復(fù)制云端的成功經(jīng)驗(yàn)。TDIA預(yù)計,20235G480萬個,650Group4050億美元。巨頭成長之路總結(jié):專注帶來前瞻,通用誕生生態(tài)專注計算芯片,帶來前瞻戰(zhàn)略思維GPU,保持高強(qiáng)度研發(fā)投入。英偉達(dá)以圖形處理器起家,1999年,英偉達(dá)發(fā)布GPU——GeForce256GPU產(chǎn)品終端用戶群體的同時,始終保持GPU產(chǎn)品的研發(fā)和迭代。公司研發(fā)費(fèi)用率常年保持在20%-30%,同時隨著營收規(guī)模的增長,研發(fā)人員以及研發(fā)金額也不斷攀升。圖43:可比公司研發(fā)費(fèi)用絕對值情況(億美元) 圖44:可比公司研發(fā)費(fèi)用率情況(%)資料來源:彭博, 資料來源:彭博,“三團(tuán)隊(duì)兩季度”驅(qū)動創(chuàng)新。英偉達(dá)成立伊始,為了應(yīng)對圖形芯片市場激烈的競爭,采用“三團(tuán)隊(duì)兩季度”的研發(fā)策略,將研發(fā)團(tuán)隊(duì)分為產(chǎn)品、硬件、軟件三個團(tuán)隊(duì),每個團(tuán)隊(duì)專注于自身負(fù)責(zé)領(lǐng)域以保證產(chǎn)品創(chuàng)新性,同時兩季度研發(fā)模式保證公司每六個月迭代一次產(chǎn)品,領(lǐng)先市場研發(fā)周期的同時,充分滿足下游市場需求。產(chǎn)品端:專注游戲顯卡領(lǐng)域競爭,迎合玩家需求快速迭代產(chǎn)品。2010年后,英偉達(dá)和AMD逐漸搶占其他公司份額,成為獨(dú)立顯卡領(lǐng)域唯二的巨頭。隨后在游戲顯卡領(lǐng)域,英2023Q381.50%。GPU研發(fā),帶來了游戲顯卡的快速迭代以及性價比的快速提升,牢牢抓住玩家需求,最終成長為市場龍頭。表8:NvidiaVSAMD產(chǎn)品迭代情況2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 20222011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022Nvidia
GeForce
GeForce
GeForceGeForceGTX
GeForceGTX
TITANV
GeForceRTX
GeForceRTX
GeForceRTX
GeForceRTX
GeForceRTXGTX580GTX680GTX780GTX980
1080
2080
2080Super
3080
3080Ti
4090RadeonRadeonRadeonRadeon
Radeon
Radeon
Radeon
Radeon
Radeon
Radeon
Radeon
RadeonAMD
HD6990HD7970HD8970R7250X
R9380X
RX470
RX560
550X
VII
RX6900XT
RX6600
RX7900XTX資料來源:CSDN等、圖45:獨(dú)立顯卡市場占有率情況(%)資料來源:JonPeddieResearch、GPU性能與效率。2006架構(gòu)開始。GPUGPUHopper架構(gòu),4nmB100將采用Blackwell4nmHopperH200系列相比,100%GPU27。CUDA生態(tài)的革命性。2006CUDA,從今天的眼光來GPUAMD,AMD2015年為了對CUDAROCm9年。表9:CUDAVSROCmCUDAROCm開發(fā)時間2006年2015年兼容性NVIDIAGPUAMDRadeonGPU、CPU開源專有平臺開源平臺生態(tài)系統(tǒng)TensorFlow、PyTorch、CUDNN等TensorFlow、PyTorch、Mlopen等開發(fā)者體驗(yàn)NVIDIA提供豐富的文檔和案例缺乏詳細(xì)的指導(dǎo)行業(yè)采用遠(yuǎn)超ROMc和OpenCL的份額相對較少資料來源:CSDN等、注重技術(shù)復(fù)用性,讓研發(fā)投入落到實(shí)處決策高效干脆,放棄手機(jī)芯片市場。2008年公司依靠平板和游戲機(jī)的優(yōu)勢推出了針對后續(xù)芯片未能及時整合基帶技術(shù)而無法及時占領(lǐng)市場,公司因而錯失了移動時代機(jī)遇,此后公司果斷放棄手機(jī)市場并將Tegra處理器運(yùn)用在智能汽車、智慧城市和云端服務(wù)上。圖46:英偉達(dá)芯片 圖47:同時搭載高通芯片與小米3資料來源:英偉達(dá)、 資料來源:小米、技術(shù)復(fù)用,開辟汽車芯片市場。2015年國際消費(fèi)類電子產(chǎn)品展覽會上,英偉達(dá)發(fā)布新一代移動超級芯片TegraX1處理器,該處理器在性能上是上一代產(chǎn)品TegraK1的兩倍。NVIDIADRIVEPX12個車載攝像頭的(Surround-Vision)(Auto-Valet)等功能。雖然英偉達(dá)在移動芯片領(lǐng)域折戟沉沙,但其技術(shù)上極強(qiáng)的復(fù)用性,最終使其成功轉(zhuǎn)向至汽車芯片領(lǐng)域。圖48:X1相較前一代的性能大提升 圖49:X1采用Maxwell架構(gòu)資料來源:英偉達(dá)、 資料來源:英偉達(dá)、圖50:TegraX1基于深度學(xué)習(xí)可以識別現(xiàn)實(shí)世界的事物資料來源:英偉達(dá)、重視通用性,引入生態(tài)共建GPGPU:通用化漫漫長路。GPUCPU分擔(dān)工作。其主1999GPUGPU在并行計算方面的優(yōu)勢,并且在科學(xué)、工程和人工智能領(lǐng)域,許多問題都可以通過并行計算來加速解決。GPU CPU表10:GPUVSCPUGPU CPU核心數(shù)量 數(shù)百到數(shù)千個核心,更強(qiáng)的并行性 通常幾個到十幾個核心類型 專用型 通用型核心類型 專用型 通用型內(nèi)存訪問速度 相對較快 相對較慢指令執(zhí)行方式 并行執(zhí)行 順序執(zhí)行內(nèi)存訪問速度 相對較快 相對較慢應(yīng)用示例 圖形渲染、深度學(xué)習(xí)、科學(xué)模擬 數(shù)據(jù)庫管理、Web服務(wù)器、桌面應(yīng)用編程模型 編程模型 CUDA、OpenCL、ROMc等專用語言 Python、C++等通用編程語言并行性 高度并行 相對有限功耗與效率 相對低功耗,適合高性能計算與深度學(xué)習(xí) 相對高功耗,適用于多種用途并行性 高度并行 相對有限資料來源:英偉達(dá)、圖51:CPU與GPU架構(gòu)的根本區(qū)別資料來源:英偉達(dá)、CUDA出現(xiàn)之前,GPU的編程面臨多重挑戰(zhàn):編程模型不足:GPUAPI(OpenGLDirect3D)API并不專門用于通用計算,因此編寫代碼變得復(fù)雜且容易出錯。數(shù)據(jù)傳輸成本高:CPUGPU的成本很高。這涉及到數(shù)據(jù)的復(fù)制和傳輸,而這些操作會降低性能。無法發(fā)揮并行性:GPU并行性,這對于復(fù)雜的計算任務(wù)來說是巨大的人力成本。GPU在經(jīng)GPU加速的應(yīng)用中,工作負(fù)載的串行部分在CPUCPU已針對單線程性能進(jìn)行優(yōu)化,而應(yīng)用的計算密集型部分則以并行方式在數(shù)千個GPU核心上運(yùn)行。使用CUDA時,開發(fā)者使用主流語言(如C、C++、Fortran、Python和進(jìn)行編程,并通過擴(kuò)展程序以幾個基本關(guān)鍵字的形式來表示并行性。英偉達(dá)的CUDA工具包提供了開發(fā)GPU加速應(yīng)用所需的一切。TensorRT基CUDAGPU產(chǎn)品上使用量化、層和張量融合、內(nèi)核調(diào)整等技術(shù)來優(yōu)化推理。CUDA學(xué)習(xí)推理的K(oftwarevelopmentKit,使用門檻相對較低,可以運(yùn)用++、PythonAPI導(dǎo)入和加速模型。圖52:支持C++API接入 圖53:支持PythonAPI接入資料來源:英偉達(dá)、 資料來源:英偉達(dá)、GPU性能。NVIDIANVIDIAAI(LLM)的推理性能,而無需深入了解C++或CUDA。圖54:最大化GPU在AI理中的性能 圖55:最小化客戶總擁有本 資料來源:英偉達(dá)、 資料來源:英偉達(dá)、CUDA平臺允許開發(fā)者利用英偉達(dá)的GPU來加速計算密集型任務(wù)。在全球范圍內(nèi),許多行業(yè)領(lǐng)軍者采用CUDA平臺最大化其GPU性能,圖56CUDA平臺部分生態(tài)伙伴資料來源:英偉達(dá)、我們認(rèn)為,正是公司CUDA低門檻的特性、GPU過硬的性能,引入了大批開發(fā)者建設(shè)CUDA生態(tài)社區(qū),最終CUDA綁定了數(shù)百萬AI開發(fā)者,當(dāng)CUDA幾乎與AI畫等號的時候,會有大量的社區(qū)力量為其助力。這就是一種良性循環(huán):好的性能帶來好的生態(tài),好的生態(tài)會有助于更好的性能。最終幫助英偉達(dá)構(gòu)建了強(qiáng)大的CUDA生態(tài)護(hù)城河。圖57:CUDA生態(tài)部分伙伴資料來源:英偉達(dá)、國內(nèi)相關(guān)公司:逐步追趕,國產(chǎn)化趨勢已現(xiàn)華為昇AI算力生態(tài)昇騰處理器支持全場景。AI芯片,基于統(tǒng)一的達(dá)芬IP的平滑擴(kuò)展,覆蓋了端邊云全場景部署的能力:圖58:昇騰芯片迭代計劃資料來源:華為、新智元、199it、科大訊飛、IDC、AMD、英偉達(dá)、海光信息招股書等、昇騰910訓(xùn)練處理器具有超高算力,F(xiàn)P16下性能最高可達(dá)320TFLOPS。昇騰910集成了CPUCore、DVPP和任務(wù)調(diào)度器(TaskScheduler),可以減少和HostCPU的交互,充分發(fā)揮其高算力的優(yōu)勢;還集成了HCCS、PCle4.0和ROCEv2接口,為構(gòu)建橫向擴(kuò)展(ScaleOut)和縱向擴(kuò)展(ScaleUp)系統(tǒng)提供了靈活高效的方法,科大訊飛創(chuàng)始人、董事長劉慶峰表示華為的GPU能力可以對標(biāo)英偉達(dá)A100;表11:主流AI芯片性能比較AMD 英偉達(dá) 華為騰 海光信息 寒武紀(jì)MI300XL40SA100SXMH100SXM昇騰310昇騰910DCU思遠(yuǎn)370FP6447.9T-9.7T34T--11.5T-FP32算力指標(biāo)FP1647.9T383T183T362.05T19.5T312T67T989.5T-11T-320T--24T96TINT8-733T624T1979T22T640T-256T內(nèi)存容量192GB48GB80GB80GB--32GB24GB內(nèi)存帶寬5.05TB/S864GB/S1.99TB/S3.35TB/S--1TGB/S307.2GB/S功耗600W350W400W700W8W310W260-350W150W資料來源:華為、新智元、199it、科大訊飛、IDC、AMD、英偉達(dá)、海光信息招股書等、華為昇AI產(chǎn)業(yè)生態(tài)包括昇AI基礎(chǔ)軟硬件平臺Atlas系列硬件、異構(gòu)計算架CANNAI框架昇MindSpore、昇MindX以及一站式開發(fā)平臺ModelArts等。基于昇910AIAtlas900、AI訓(xùn)練服務(wù)器Atlas800Atlas500、AIAtlas300AIAtlas200,完成了Atlas全系列產(chǎn)品布局,支持萬億參數(shù)大模型訓(xùn)練,同時覆蓋云、邊、端全場景。華為提出了具備分層開放、體系協(xié)同、敏捷高效、安全可信等特征的,全行業(yè)通用的行業(yè)智能化參考架構(gòu)。其中智能底座提供大規(guī)模AI算力、海量存儲及并行計算框架,支撐大模型訓(xùn)練,提升訓(xùn)練效率,提供高性能的存算網(wǎng)協(xié)同。根據(jù)場景需求不同,提供系列化的算力能力。適應(yīng)不同場景,提供系列化、分層、友好的開放能力。另外,智能底座層還包含品類多樣的邊緣計算設(shè)備,支撐邊緣推理和數(shù)據(jù)分析等業(yè)務(wù)場景。圖59:華為昇騰AI產(chǎn)業(yè)生態(tài) 圖60:華為行業(yè)智能化參考框架資料來源:鯤鵬社區(qū)、昇騰社區(qū)、 資料來源:鯤鵬社區(qū)、昇騰社區(qū)、CUDA帶來更好的生態(tài)兼容性海光DCU屬于GPGPU的一種。性能上,海光深算一號DCU內(nèi)核頻率、顯存位寬已逐步接近英偉達(dá)A100,在顯存容量、帶寬、算力、互聯(lián)性能上仍有一定的進(jìn)步空間;深算二號已于2023年Q3發(fā)布,實(shí)現(xiàn)了在大數(shù)據(jù)處理、人工智能、商業(yè)計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人民版九年級生物下冊階段測試試卷含答案
- 2025年華師大新版選修4化學(xué)下冊階段測試試卷含答案
- 2025年滬科版第二冊生物上冊月考試卷
- 2025年人教新課標(biāo)七年級生物下冊階段測試試卷含答案
- 2025年粵教滬科版八年級科學(xué)上冊月考試卷含答案
- 2025年滬教版九年級歷史上冊階段測試試卷含答案
- 2025年新世紀(jì)版七年級物理上冊階段測試試卷含答案
- 2025年華東師大版必修3歷史上冊月考試卷含答案
- 2025年度網(wǎng)絡(luò)文字處理專家勞動合同4篇
- 2025年度智能門窗系統(tǒng)銷售安裝與升級合同4篇
- 2025年度版權(quán)授權(quán)協(xié)議:游戲角色形象設(shè)計與授權(quán)使用3篇
- 心肺復(fù)蘇課件2024
- 《城鎮(zhèn)燃?xì)忸I(lǐng)域重大隱患判定指導(dǎo)手冊》專題培訓(xùn)
- 湖南財政經(jīng)濟(jì)學(xué)院專升本管理學(xué)真題
- 全國身份證前六位、區(qū)號、郵編-編碼大全
- 2024-2025學(xué)年福建省廈門市第一中學(xué)高一(上)適應(yīng)性訓(xùn)練物理試卷(10月)(含答案)
- 《零售學(xué)第二版教學(xué)》課件
- 廣東省珠海市香洲區(qū)2023-2024學(xué)年四年級下學(xué)期期末數(shù)學(xué)試卷
- 房地產(chǎn)行業(yè)職業(yè)生涯規(guī)劃
- 江蘇省建筑與裝飾工程計價定額(2014)電子表格版
- MOOC 數(shù)字電路與系統(tǒng)-大連理工大學(xué) 中國大學(xué)慕課答案
評論
0/150
提交評論