版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能行業(yè)專題分析一、AI有望明顯拉動算力基礎(chǔ)設(shè)施投資1.1ChatGPT爆紅引發(fā)了人們對于人工智能發(fā)展的高度關(guān)注人工智能(AI)是指由機器展示的智能,即計算機基于大數(shù)據(jù)模擬人腦的各項功能,例如推理、視覺識別、語義理解、學(xué)習(xí)能力及規(guī)劃與決策能力等。人工智能生成內(nèi)容(AIGC)是指利用人工智能技術(shù)來生成內(nèi)容,包括繪畫、作曲、剪輯、寫作等。AIGC的萌芽可追溯到上世紀50年代,90年代從實驗性向?qū)嵱眯灾饾u轉(zhuǎn)變,但受限于算法瓶頸,無法直接生成內(nèi)容,從21世紀10年代開始,隨著以生成對抗網(wǎng)絡(luò)(GAN)為代表的深度學(xué)習(xí)算法的提出和迭代,AIGC迎來了快速發(fā)展階段。市場需求推動AIGC技術(shù)加速落地。1)降低人力和時間成本:AIGC可以幫助人們完成許多繁瑣工作,從而節(jié)省人力資本和工作時間,并可以在相同的時間內(nèi)產(chǎn)出更多內(nèi)容。2)改善內(nèi)容質(zhì)量。AIGC被認為是繼專業(yè)生產(chǎn)內(nèi)容(PGC)、用戶生產(chǎn)內(nèi)容(UGC)之后的新型內(nèi)容生產(chǎn)方式。盡管PGC和UGC的內(nèi)容更具多元化、個性化,但受限于激勵措施和創(chuàng)作者自身因素影響,市場存在供給不足的現(xiàn)象。3)促進產(chǎn)業(yè)數(shù)字化,助力數(shù)字經(jīng)濟發(fā)展。產(chǎn)業(yè)數(shù)字化是數(shù)字經(jīng)濟的融合部分,是傳統(tǒng)產(chǎn)業(yè)應(yīng)用數(shù)字技術(shù)所帶來的生產(chǎn)數(shù)量和效率提升,其新增產(chǎn)出構(gòu)成數(shù)字經(jīng)濟的重要組成部分,AIGC為數(shù)字經(jīng)濟提供了重要的數(shù)據(jù)要素。ChatGPT的爆紅引發(fā)了人們對于人工智能發(fā)展的高度關(guān)注。2022年11月30日,OpenAI發(fā)布語言模型ChatGPT。該模型采用對話的形式與人進行交互,可以回答后續(xù)問題、承認錯誤、挑戰(zhàn)不正確的前提、拒絕不適當?shù)恼埱?。ChatGPT不僅在日常對話、專業(yè)問題回答、信息檢索、內(nèi)容續(xù)寫、文學(xué)創(chuàng)作、音樂創(chuàng)作等方面展現(xiàn)出強大的能力,還具有生成代碼、調(diào)試代碼、為代碼生成注釋的能力。1.2人工智能需要強大算力支撐以ChatGPT為代表的人工智能應(yīng)用在運行背后需要強大的算力支撐。OpenAI在2018年推出的GPT參數(shù)量為1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB,而GPT-3參數(shù)量達1750億,預(yù)訓(xùn)練數(shù)據(jù)量達45TB。在模型訓(xùn)練階段,ChatGPT的總算力消耗約為3640PF-days,總訓(xùn)練成本為1200萬美元,在服務(wù)訪問階段則會有更大消耗。IDC數(shù)據(jù)顯示:2021年全球人工智能IT投資額為929.5億美元,預(yù)計2026年將增至3014.3億美元,復(fù)合年增長率約26.5%。2026年中國市場AI投資預(yù)計將達266.9億美元,約占全球投資8.9%,居世界第二位,復(fù)合年增長率約21.7%。未來五年,硬件將成為中國人工智能最大的細分市場,占人工智能總投資的50%以上。IDC預(yù)測,2026年,中國在人工智能硬件市場的IT投資將超過150億美元,接近美國人工智能硬件的市場規(guī)模,五年復(fù)合年增長率16.5%。服務(wù)器作為硬件市場的主要組成部分,預(yù)計將占總投入的80%以上。人工智能的發(fā)展將對算力提出更高要求,算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施需求有望持續(xù)提升。根據(jù)中國信通院數(shù)據(jù),2021年全球計算設(shè)備算力總規(guī)模達到615EFlops(每秒浮點運算次數(shù)),同比增長44%,其中基礎(chǔ)算力規(guī)模為369EFlops,智能算力規(guī)模為232EFlops,超算算力規(guī)模為14EFlops,預(yù)計2030年全球算力規(guī)模將達到56ZFlps,平均年均增長65%。我國智能算力規(guī)模持續(xù)高速增長,2021年智能算力規(guī)模已經(jīng)超過通用算力。根據(jù)中國信通院數(shù)據(jù),我國計算設(shè)備算力總規(guī)模達到202EFlops,全球占比約為33%,保持50%以上的高速增長態(tài)勢,增速高于全球,其中智能算力增長迅速,增速為85%,在我國算力中的占比超過50%。1.3AI算力產(chǎn)業(yè)鏈涉及環(huán)節(jié)較多,行業(yè)需求有望全面提升AI算力產(chǎn)業(yè)鏈涉及環(huán)節(jié)較多,按照算力基礎(chǔ)設(shè)施構(gòu)成來看,包括AI芯片及服務(wù)器、交換機及光模塊、IDC機房及上游產(chǎn)業(yè)鏈等。其中,隨著訓(xùn)練和推理需求提升,AI芯片及服務(wù)器需求將率先放量;AI算力對數(shù)據(jù)中心內(nèi)部數(shù)據(jù)流量較大,光模塊速率及數(shù)量均有顯著提升,交換機的端口數(shù)及端口速率也有相應(yīng)的增長;IDC也有望進入需求釋放階段,預(yù)計液冷溫控滲透率將快速提升,海底數(shù)據(jù)中心也可能將迎來產(chǎn)業(yè)化的關(guān)鍵節(jié)點。1、AI芯片和服務(wù)器需求將率先放量根據(jù)測算,2023年-2027年全球大模型訓(xùn)練端峰值算力需求量的年復(fù)合增長率為78.0%。2023年全球大模型訓(xùn)練端所需全部算力換算成的A100總量超過200萬張。從云端推理所需算力角度測算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復(fù)合增長率為113%,如果考慮邊緣端AI推理的應(yīng)用,推理端算力規(guī)模將進一步擴大。2、AI算力改變數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)架構(gòu),光模塊和交換機速率及需求提升AI數(shù)據(jù)中心中,由于內(nèi)部數(shù)據(jù)流量較大,因此無阻塞的胖樹網(wǎng)絡(luò)架構(gòu)成了重要需求之一,光模塊速率及數(shù)量均有顯著提升,交換機的端口數(shù)及端口速率也有相應(yīng)的增長。800G光模塊2022年底開始小批量出貨,2023年需求主要來自于英偉達和谷歌,2024年有望大規(guī)模出貨,并存在時間前移的可能。從交換機的電口來看,SerDes通道的速率每四年翻倍,數(shù)量每兩年翻倍,交換機的帶寬每兩年翻倍;從光口來看,光模塊每4年升級一次,實際出貨時間是晚于電口SerDes及交換機芯片新版發(fā)布的時間。2019年作為100G光模塊升級的時間點,市場分成了200G和400G兩條升級路徑。但是在2023年這個時間點,市場下一代高速率光模塊均指向800G光模塊,疊加AIGC帶來的算力和模型競賽,我們預(yù)計北美各大云廠商和相關(guān)科技巨頭均有望在2024年大量采購800G光模塊,同時2023年也可能提前采購。3、IDC需求有望釋放,AI服務(wù)器高功率密度或?qū)⑼粕豪錆B透率IDC作為算力基礎(chǔ)設(shè)施產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),也有望進入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但IDC建設(shè)與供給未出現(xiàn)明顯放緩,2021年和2022年分別新增機柜數(shù)量120萬架和150萬架,因此短期內(nèi)出現(xiàn)供需失衡情況(核心區(qū)域供需狀況相對良好),部分地區(qū)上電率情況一般。所以IDC公司2022年業(yè)績普遍承壓。隨著平臺經(jīng)濟發(fā)展恢復(fù)以及AI等拉動,IDC需求有望逐步釋放,疊加2023新增供給量有望較2022年減少(例如三大運營商2022年新增IDC機柜15.6萬架,2023年計劃新增11.4萬架)。人工智能大模型訓(xùn)練和推理運算所用的GPU服務(wù)器的功率密度將大幅提升,以英偉達DGXA100服務(wù)器為例,其單機最大功率約可以達到6.5kW,大幅超過單臺普通CPU服務(wù)器500w左右的功率水平。在此情況下,一方面需要新建超大功率的機柜,另一方面為降低PUE,預(yù)計液冷溫控滲透率將快速提升,海底數(shù)據(jù)中心也可能將迎來產(chǎn)業(yè)化的關(guān)鍵節(jié)點。二、AI芯片需求爆發(fā)式增長2.1AI大規(guī)模落地應(yīng)用對AI芯片性能、數(shù)量提出全方位要求從廣義上講,能運行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法,但在執(zhí)行效率層面上有巨大的差異。CPU可以快速執(zhí)行復(fù)雜的數(shù)學(xué)計算,但同時執(zhí)行多項任務(wù)時,CPU性能開始下降,目前行業(yè)內(nèi)基本確認CPU不適用于AI計算。CPU+xPU的異構(gòu)方案成為大算力場景標配,GPU為應(yīng)用最廣泛的AI芯片。目前業(yè)內(nèi)廣泛認同的AI芯片類型包括GPU、FPGA、NPU等。由于CPU負責(zé)對計算機的硬件資源進行控制調(diào)配,也要負責(zé)操作系統(tǒng)的運行,在現(xiàn)代計算系統(tǒng)中仍是不可或缺的。GPU、FPGA等芯片都是作為CPU的加速器而存在,因此目前主流的AI計算系統(tǒng)均為CPU+xPU的異構(gòu)并行。CPU+GPU是目前最流行的異構(gòu)計算系統(tǒng),在HPC、圖形圖像處理以及AI訓(xùn)練/推理等場景為主流選擇。IDC數(shù)據(jù)顯示,2021年中國AI芯片市場中,GPU市占率為89%。2.1.1GPU性能、功能經(jīng)歷長期迭代升級,成為AI芯片中應(yīng)用最廣泛的選擇GPU能夠進行并行計算,設(shè)計初衷是加速圖形渲染。NVIDIA在1999年發(fā)布GeForce256圖形處理芯片時首先提出GPU(GraphicProcessingUnit)的概念,并將其定義為“具有集成轉(zhuǎn)換、照明、三角形設(shè)置/裁剪和渲染引擎的單芯片處理器,能夠每秒處理至少1000萬個多邊形”。從計算資源占比角度看,CPU包含大量的控制單元和緩存單元,實際運算單元占比較小。GPU則使用大量的運算單元,少量的控制單元和緩存單元。GPU的架構(gòu)使其能夠進行規(guī)模化并行計算,尤其適合邏輯簡單,運算量大的任務(wù)。GPU通過從CPU承擔(dān)一些計算密集型功能(例如渲染)來提高計算機性能,加快應(yīng)用程序的處理速度,這也是GPU早期的功能定位。GPU性能提升與功能豐富逐步滿足AI運算需要。2010年NVIDIA提出的Fermi架構(gòu)是首個完整的GPU計算架構(gòu),其中提出的許多新概念沿用至今。Kepler架構(gòu)在硬件上擁有了雙精度計算單元(FP64),并提出GPUDirect技術(shù),繞過CPU/SystemMemory,與其他GPU直接進行數(shù)據(jù)交互。Pascal架構(gòu)應(yīng)用了第一代NVLink。Volta架構(gòu)開始應(yīng)用TensorCore,對AI計算加速具有重要意義。簡要回顧NVIDIAGPU硬件變革歷程,工藝、計算核心數(shù)增加等基礎(chǔ)特性的升級持續(xù)推動性能提升,同時每一代架構(gòu)所包含的功能特性也在不斷豐富,逐漸更好地適配AI運算的需要。均衡分配資源的前提下,處理低精度的硬件單元數(shù)量更多,表現(xiàn)更高的算力性能。GPU作為加速器得到廣泛應(yīng)用一定程度上得益于它的通用性,為了在不同精度的數(shù)據(jù)類型上具有良好的性能,以兼顧AI、科學(xué)計算等不同場景的需要,英偉達在分配處理不同數(shù)據(jù)類型的硬件單元時大體上保持均衡。因為低精度數(shù)據(jù)類型的計算占用更少的硬件資源,同一款GPU中的處理低精度數(shù)據(jù)類型的硬件單元的數(shù)量較多,對應(yīng)計算能力也較強。以V100為例,每個SM中FP32單元的數(shù)量都為FP64單元的兩倍,最終V100的FP32算力(15.7TFLOPS)也近似為FP64(7.8TFLOPS)的兩倍,類似的規(guī)律也可以在各代架構(gòu)旗艦P100、A100和H100中看到。TensorCore持續(xù)迭代提升其加速能力。Volta架構(gòu)引入TensorCore的改動使GPU的AI算力有了明顯提升,后續(xù)在每一代的架構(gòu)升級中,TensorCore都有比較大的改進,支持的數(shù)據(jù)類型也逐漸增多。以A100到H100為例,TensorCore由3.0迭代至4.0,H100在FP16TensorCore的峰值吞吐量提升至A100的3倍。同時,H100TensorCore支持新的數(shù)據(jù)類型FP8,H100FP8TensorCore的吞吐量是A100FP16TensorCore的6倍。數(shù)據(jù)訪問支配著計算能力利用率。AI運算涉及到大量數(shù)據(jù)的存儲與處理,根據(jù)Cadence數(shù)據(jù),與一般工作負載相比,每臺AI訓(xùn)練服務(wù)器需要6倍的內(nèi)存容量。而在過去幾十年中,處理器的運行速度隨著摩爾定律高速提升,而DRAM的性能提升速度遠遠慢于處理器速度。目前DRAM的性能已經(jīng)成為了整體計算機性能的一個重要瓶頸,即所謂阻礙性能提升的“內(nèi)存墻”。除了性能之外,內(nèi)存對于能效比的限制也成為一個瓶頸,Cadence數(shù)據(jù)顯示,在自然語言類AI負載中,存儲消耗的能量占比達到82%。硬件單元的改進與顯存升級增強了單張GPU算力的釋放,然而,隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型參數(shù)量呈爆炸式增長,GPT-3參數(shù)量達到了1750億,相比GPT增長了近1500倍,預(yù)訓(xùn)練數(shù)據(jù)量更是從5GB提升到了45TB。大模型參數(shù)量的指數(shù)級增長帶來的諸多問題使GPU集群化運算成為必須:(1)即使最先進的GPU,也不再可能將模型參數(shù)擬合到主內(nèi)存中。(2)即使模型可以安裝在單個GPU中(例如,通過在主機和設(shè)備內(nèi)存之間交換參數(shù)),所需的大量計算操作也可能導(dǎo)致在沒有并行化的情況下不切實際地延長訓(xùn)練時間。根據(jù)NVIDIA數(shù)據(jù),在8個V100GPU上訓(xùn)練一個具有1750億個參數(shù)的GPT-3模型需要36年,而在512個V100GPU上訓(xùn)練需要7個月。NVIDIA開發(fā)NVLink技術(shù)解決GPU集群通信。在硬件端,GPU之間穩(wěn)定、高速的通信是實現(xiàn)集群運算所必須的條件。傳統(tǒng)x86服務(wù)器的互連通道PCIe的互連帶寬由其代際與結(jié)構(gòu)決定,例如x16PCIe4.0雙向帶寬僅為64GB/s。除此之外,GPU之間通過PCIe交互還會與總線上的CPU操作競爭,甚至進一步占用可用帶寬。NVIDIA為突破PCIe互連的帶寬限制,在P100上搭載了首項高速GPU互連技術(shù)NVLink(一種總線及通訊協(xié)議),GPU之間無需再通過PCIe進行交互。NVDIA開發(fā)基于NVLink的芯片NVSwitch,作為GPU集群數(shù)據(jù)通信的“樞紐”。NVLink1.0技術(shù)使用時,一臺服務(wù)器中的8個GPU無法全部實現(xiàn)直接互連。同時,當GPU數(shù)量增加時,僅依靠NVLink技術(shù),需要眾多數(shù)量的總線。為解決上述問題,NVIDIA在NVLink2.0時期發(fā)布了NVSwitch,實現(xiàn)了NVLink的全連接。NVSwitch是一款GPU橋接芯片,可提供所需的NVLink交叉網(wǎng)絡(luò),在GPU之間的通信中發(fā)揮“樞紐”作用。借助于NVswitch,每顆GPU都能以相同的延遲和速度訪問其它的GPU。就程序來看,16個GPU都被視為一個GPU,系統(tǒng)效率得到了最大化,大大降低了多GPU系統(tǒng)的優(yōu)化難度。通過添加更多NVSwitch來支持更多GPU,集群分布式運算得以實現(xiàn)。當訓(xùn)練大型語言模型時,NVLink網(wǎng)絡(luò)也可以提供顯著的提升。NVSwitch已成為高性能計算(HPC)和AI訓(xùn)練應(yīng)用中不可或缺的一部分。2.1.2NPU通過特殊架構(gòu)設(shè)計對AI運算起到加速作用NPU在人工智能算法上具有較高的運行效率。為了適應(yīng)某個特定領(lǐng)域中的常見的應(yīng)用和算法而設(shè)計,通常稱之為“特定域架構(gòu)(DomainSpecificArchitecture,DSA)”芯片,NPU(神經(jīng)網(wǎng)絡(luò)處理器)屬于其中一種,常被設(shè)計用于神經(jīng)網(wǎng)絡(luò)運算的加速。以華為手機SoC麒麟970為例,NPU對圖像識別神經(jīng)網(wǎng)絡(luò)的運算起到了顯著加速效果,使其圖像識別速度明顯優(yōu)于同代競品的表現(xiàn)。目前已量產(chǎn)的NPU或搭載NPU模塊的芯片眾多,其他知名的芯片包括谷歌TPU、華為昇騰、特斯拉FSD、特斯拉Dojo等。各家廠商在計算核心的設(shè)計上有其差異,例如谷歌TPU的脈動陣列,華為昇騰的達芬奇架構(gòu)。以谷歌TPU及計算核心結(jié)構(gòu)脈動陣列為例,對比其相較于CPU、GPU的區(qū)別:CPU和GPU均具有通用性,但以頻繁的內(nèi)存訪問導(dǎo)致資源消耗為代價。CPU和GPU都是通用處理器,可以支持數(shù)百萬種不同的應(yīng)用程序和軟件。對于ALU中的每一次計算,CPU、GPU都需要訪問寄存器或緩存來讀取和存儲中間計算結(jié)果。由于數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度,頻繁的內(nèi)存訪問,限制了總吞吐量并消耗大量能源。谷歌TPU并非通用處理器,而是將其設(shè)計為專門用于神經(jīng)網(wǎng)絡(luò)工作負載的矩陣處理器。TPU不能運行文字處理器、控制火箭引擎或執(zhí)行銀行交易,但它們可以處理神經(jīng)網(wǎng)絡(luò)的大量乘法和加法,速度極快,同時消耗更少的能量,占用更小的物理空間。TPU內(nèi)部設(shè)計了由乘法器和加法器構(gòu)成的脈動陣列。在計算時,TPU將內(nèi)存中的參數(shù)加載到乘法器和加法器矩陣中,每次乘法執(zhí)行時,結(jié)果將傳遞給下一個乘法器,同時進行求和。所以輸出將是數(shù)據(jù)和參數(shù)之間所有乘法結(jié)果的總和。在整個海量計算和數(shù)據(jù)傳遞過程中,完全不需要訪問內(nèi)存。這就是為什么TPU可以在神經(jīng)網(wǎng)絡(luò)計算上以低得多的功耗和更小的占用空間實現(xiàn)高計算吞吐量。NPU已經(jīng)在AI運算加速領(lǐng)域獲得了廣泛應(yīng)用。在數(shù)據(jù)中心獲得大規(guī)模應(yīng)用的NPU案例即TPU,已被谷歌用于構(gòu)建數(shù)據(jù)中心的超級計算機,執(zhí)行特定神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。在用戶端,手機、汽車、智能安防攝像頭等設(shè)備開始搭載AI計算功能,通常是利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型執(zhí)行圖像處理等工作,此時NPU通用性差的劣勢被縮小,高算力、高能耗比的優(yōu)勢被放大,因而得到了廣泛的應(yīng)用。在終端設(shè)備中,NPU常以模塊的形式包含在SoC內(nèi)部,對AI運算進行加速,例如特斯拉自動駕駛芯片F(xiàn)SD均包含NPU。2.1.3訓(xùn)練/推理、云/邊分別對AI芯片提出不同要求,未來推理端的算力需求將遠超訓(xùn)練端AI技術(shù)在實際應(yīng)用中包括兩個環(huán)節(jié):訓(xùn)練(Training)和推理(Inference)。訓(xùn)練是指通過大數(shù)據(jù)訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,使其能夠適應(yīng)特定的功能。訓(xùn)練需要較高的計算性能、能夠處理海量數(shù)據(jù)、具有一定的通用性。推理是指利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型進行運算,利用輸入的新數(shù)據(jù)來一次性獲得正確結(jié)論的過程。根據(jù)所承擔(dān)任務(wù)的不同,AI芯片可以分為訓(xùn)練AI芯片和推理AI芯片:(1)訓(xùn)練芯片:用于構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,需要高算力和一定的通用性。(2)推理芯片:利用神經(jīng)網(wǎng)絡(luò)模型進行推理預(yù)測,注重綜合指標,單位能耗算力、時延、成本等都要考慮。根據(jù)AI芯片部署的位置,可以分為云端AI芯片和邊緣端AI芯片:(1)云端:即數(shù)據(jù)中心,關(guān)注算力、擴展能力、兼容性。云端部署的AI芯片包括訓(xùn)練芯片和推理芯片。(2)邊緣端:即手機、安防攝像頭等領(lǐng)域,關(guān)注綜合性能,要求低功耗、低延時、低成本。邊緣端部署的AI芯片以實現(xiàn)推理功能為主。云端推理占比逐步提升,AI落地應(yīng)用數(shù)量增加。根據(jù)IDC數(shù)據(jù),隨著人工智能進入大規(guī)模落地應(yīng)用的關(guān)鍵時期,2022年在云端部署的算力里,推理占算力已經(jīng)達到了58.5%,訓(xùn)練占算力只有41.5%,預(yù)計到2026年,推理占到62.2%,訓(xùn)練占37.8%。云端推理占比逐步提升說明,AI落地應(yīng)用數(shù)量正在不斷增加,人工智能模型將逐步進入廣泛投產(chǎn)模式。帶寬、互連速率的限制,使云端超大規(guī)模的模型推理選擇A100、H100更優(yōu),而非T4、A10等推理卡。以GPT-3為例,OpenAI數(shù)據(jù)顯示GPT-3模型1750億參數(shù)對應(yīng)超過350GB的GPU顯存需求。假設(shè)參數(shù)規(guī)模與所需顯存呈線性關(guān)系,且推理的中間參數(shù)量按1倍估算,則1萬億參數(shù)規(guī)模的大模型推理需要約4000GB顯存,則需要50張A100(80GB)或者167張A10(24GB)。集群中的GPU數(shù)量越多意味著更復(fù)雜的互連要求,而且A10無法應(yīng)用NVLink和NVSwitch技術(shù),大量A10組成的集群僅依靠PCIe通信,互連帶寬相比A100等顯卡的劣勢明顯,進而可能導(dǎo)致模型推理的時效性不佳。經(jīng)測算,AI大模型在訓(xùn)練端和推理端都將產(chǎn)生巨量的算力/AI芯片需求。如果未來大模型廣泛商用落地,推理端的算力/AI芯片的需求量將明顯高于訓(xùn)練端。大模型云端訓(xùn)練對算力的需求測算:測算原理:從模型的(1)參數(shù)規(guī)模入手,根據(jù)(2)訓(xùn)練大模型所需的Token數(shù)量和(3)每Token訓(xùn)練成本與模型參數(shù)量的關(guān)系估算總算力需求,再考慮(4)單張GPU算力和(5)GPU集群的算力利用率推導(dǎo)得出GPU總需求。(1)參數(shù)規(guī)模:過去幾年,大模型的參數(shù)量呈指數(shù)上升,GPT-3模型參數(shù)量已達到1750億。GPT-4具有多模態(tài)能力,其參數(shù)量相比GPT-3會更大。我們在測算中假設(shè)2023年多模態(tài)大模型的平均參數(shù)量達到10000億個,之后每年保持20%的增速;普通大模型的平均參數(shù)量達到2000億個,之后每年保持20%的增速。(2)訓(xùn)練大模型所需的Token數(shù)量:參數(shù)規(guī)模在千億量級的自然語言大模型GPT-3、Jurassic-1、Gopher、MT-NLG,訓(xùn)練所需的Token數(shù)量在千億量級,而一些多模態(tài)大模型在訓(xùn)練過程中所需Token數(shù)據(jù)量也跟隨參數(shù)量增長而增長,我們在測算中假設(shè)多模態(tài)大模型訓(xùn)練所需Token數(shù)量達到萬億級別,并且Token數(shù)量與模型參數(shù)規(guī)模保持線性增長關(guān)系。(3)每Token訓(xùn)練成本與模型參數(shù)量的關(guān)系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個token的訓(xùn)練成本通常約為6N,其中N是LLM的參數(shù)數(shù)量,我們在測算中遵循這一關(guān)系。具體原理如下,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括前向傳播和反向傳播兩個過程,其中大致包括四個步驟:1.做一個單次的推理操作,得到輸出y,例如輸入貓的圖片得到輸出0.986。2.求到輸出y與真實的目標輸出Y(假定設(shè)置的目標輸出Y=1)之間的差值(4)單張GPU算力:因為在訓(xùn)練大模型時,主要依賴可實現(xiàn)的混合精度FP16/FP32FLOPS,即FP16TensorCore的算力,我們在測算中選取A100SXM和H100SXM對應(yīng)的算力312TFLOPS和990TFLOPS作為參數(shù)。(5)GPU集群的算力利用率:參考GoogleResearch發(fā)布的論文《PaLM:ScalingLanguageModelingwithPathways》中的分析,我們在測算中假設(shè)算力利用率約為30%。大模型云端推理對算力的需求測算:在云端推理場景下,我們分別從云端推理所需算力和云端模型部署所需顯存兩個維度分別進行測算。算力角度的測算原理:基于前文對參數(shù)規(guī)模、模型數(shù)量等數(shù)據(jù)的假設(shè),根據(jù)(1)大模型日活用戶人數(shù)、(2)每人平均查詢Token數(shù)量、(3)每Token推理成本與模型參數(shù)量的關(guān)系估算推理端總算力需求,再考慮(4)單張GPU算力和GPU集群的算力利用率推導(dǎo)得出GPU總需求。(1)大模型日活用戶人數(shù):根據(jù)Similarweb統(tǒng)計數(shù)據(jù),2023年1月ChatGPT的日活用戶數(shù)達到1300萬。我們在測算中假設(shè)2023年多模態(tài)大模型的平均日活量達到2000萬,普通大模型的平均日活量達到1000萬,之后每年保持快速增長。(2)每人平均查詢Token數(shù)量:根據(jù)OpenAI數(shù)據(jù),平均每1000個Token對應(yīng)750個單詞,我們在測算中假設(shè)每位用戶平均查詢的Token數(shù)量維持在1000個。(3)每Token推理成本與模型參數(shù)量的關(guān)系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個token的推理成本通常約為2N,其中N是LLM的參數(shù)數(shù)量,我們在測算中遵循這一關(guān)系。(4)單張GPU算力:由于測算中的大模型參數(shù)量級分別在千億量級和萬億量級,考慮帶寬容量和集群計算中的帶寬限制,我們在測算中假設(shè)采用H100或A100作為云端推理卡。根據(jù)所有假設(shè)及可以得到,從云端推理所需算力角度測算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復(fù)合增長率為113%。顯存角度測算原理:首先,目前SKHynix已開發(fā)出業(yè)界首款12層24GBHBM3,考慮到一張GPU板卡面積有限,限制了計算核心周圍可布置的HBM數(shù)量,因此未來一段時間內(nèi),GPU顯存容量的提升空間較小。其次,推理最主要的需求是時效性,為了滿足時效性,模型所需要的存儲空間需要放到顯存內(nèi)。綜合GPU板卡HBM容量有限和推理端模型需放置在GPU顯存中這兩個條件,我們從模型推理端運行所需顯存入手,先預(yù)估推理端運行一個大模型所需顯存容量(1),再假設(shè)業(yè)務(wù)場景中大模型的峰值訪問量,并以此得到總體的顯存需求(2),最終得到算力/AI芯片的需求。(1)運行一個模型所需顯存:以1750億參數(shù)的GPT-3模型為例,OpenAI數(shù)據(jù)顯示參數(shù)存儲需要350GB空間。假設(shè)推理計算中間產(chǎn)生的參數(shù)按照一倍計算,因此推理至少需要700GB顯存空間,即部署一個模型需要9張80GB顯存版本的A100。(2)業(yè)務(wù)場景部署模型量及所需顯存:假設(shè)該模型能夠同時處理的并發(fā)任務(wù)數(shù)量為100,即9張A10080GB處理100用戶同時并發(fā)訪問。業(yè)務(wù)場景部署以搜索引擎為例,假設(shè)最高并發(fā)訪問人數(shù)為2000萬,則需要2000萬/100*9=180萬張A10080GB。2.2英偉達龍頭地位穩(wěn)固,國內(nèi)廠商正逐步追趕海外龍頭廠商占據(jù)壟斷地位,AI加速芯片市場呈現(xiàn)“一超多強”態(tài)勢。數(shù)據(jù)中心CPU市場上,英特爾份額有所下降但仍保持較大領(lǐng)先優(yōu)勢,AMD持續(xù)搶占份額勢頭正盛。AI加速芯片市場上,英偉達憑借硬件優(yōu)勢和軟件生態(tài)一家獨大,在訓(xùn)練、推理端均占據(jù)領(lǐng)先地位。根據(jù)LiftrInsights數(shù)據(jù),2022年數(shù)據(jù)中心AI加速市場中,英偉達份額達82%,其余海外廠商如AWS和Xilinx分別占比8%、4%,AMD、Intel、Google均占比2%。國內(nèi)廠商起步較晚正逐步發(fā)力,部分加速芯片領(lǐng)域已經(jīng)涌現(xiàn)出一批破局企業(yè),但目前多為初創(chuàng)企業(yè)規(guī)模較小,技術(shù)能力和生態(tài)建設(shè)仍不完備,在高端AI芯片領(lǐng)域與海外廠商仍存在較大差距。未來,隨著美國持續(xù)加大對中國高端芯片的出口限制,AI芯片國產(chǎn)化進程有望加快。GPU市場方面,海外龍頭占據(jù)壟斷地位,國產(chǎn)廠商加速追趕。當前英偉達、AMD、英特爾三巨頭霸占全球GPU芯片市場的主導(dǎo)地位。集成GPU芯片一般在臺式機和筆記本電腦中使用,性能和功耗較低,主要廠商包括英特爾和AMD;獨立顯卡常用于服務(wù)器中,性能更高、功耗更大,主要廠商包括英偉達和AMD。分應(yīng)用場景來看,應(yīng)用在人工智能、科學(xué)計算、視頻編解碼等場景的服務(wù)器GPU市場中,英偉達和AMD占據(jù)主要份額。根據(jù)JPR,2023年Q1英偉達的獨立顯卡(包括AIB合作伙伴顯卡)的市場份額達84%,AMD和Intel則分別占比12%、4%。圖形渲染GPU:英偉達引領(lǐng)行業(yè)數(shù)十年,持續(xù)技術(shù)迭代和生態(tài)構(gòu)建實現(xiàn)長期領(lǐng)先。2006年起,英偉達GPU架構(gòu)保持約每兩年更新一次的節(jié)奏,各代際產(chǎn)品性能提升顯著,生態(tài)構(gòu)建完整,Geforce系列產(chǎn)品市占率長期保持市場首位,最新代際GeForceRTX40系列代表了目前顯卡的性能巔峰,采用全新的AdaLovelace架構(gòu),臺積電5nm級別工藝,擁有760億晶體管和18000個CUDA核心,與Ampere相比架構(gòu)核心數(shù)量增加約70%,能耗比提升近兩倍,可驅(qū)動DLSS3.0技術(shù)。性能遠超上代產(chǎn)品。AMD獨立GPU在RDNA架構(gòu)迭代路徑清晰,RDNA3架構(gòu)采用5nm工藝和chiplet設(shè)計,比RDNA2架構(gòu)有54%每瓦性能提升,預(yù)計2024年前RDNA4架構(gòu)可正式發(fā)布,將采用更為先進的工藝制造。目前國內(nèi)廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小。芯動科技的“風(fēng)華2號”GPU像素填充率48GPixel/s,F(xiàn)P32單精度浮點性能1.5TFLOPS,AI運算(INT8)性能12.5TOPS,實測功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,實現(xiàn)國產(chǎn)圖形渲染GPU突破。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于英偉達同代產(chǎn)品,但差距正逐漸縮小。2023年順利發(fā)布JM9系列圖形處理芯片,支持OpenGL4.0、HDMI2.0等接口,以及H.265/4K60-fps視頻解碼,核心頻率至少為1.5GHz,配備8GB顯存,浮點性能約1.5TFlops,與英偉達GeForceGTX1050性能相近,有望對標GeForceGTX1080。GPGPU:英偉達和AMD是目前全球GPGPU的領(lǐng)軍企業(yè)。英偉達的通用計算芯片具備優(yōu)秀的硬件設(shè)計,通過CUDA架構(gòu)等全棧式軟件布局,實現(xiàn)了GPU并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應(yīng)用領(lǐng)域中,均推出了高性能的軟硬件組合,逐步成為全球AI芯片領(lǐng)域的主導(dǎo)者。根據(jù)stateof.AI2022報告,英偉達芯片在AI學(xué)術(shù)論文中的出現(xiàn)頻次遠超其他類型的AI芯片,是學(xué)術(shù)界最常用的人工智能加速芯片。在Oracle以及騰訊云中,也幾乎全部采用英偉達的GPU作為計算加速芯片。AMD2018年發(fā)布用于數(shù)據(jù)中心的RadeonInstinctGPU加速芯片,Instinct系列基于CDNA架構(gòu),如MI250X采用CDNA2架構(gòu),在通用計算領(lǐng)域?qū)崿F(xiàn)計算能力和互聯(lián)能力的顯著提升,此外還推出了對標英偉達CUDA生態(tài)的AMDROCm開源軟件開發(fā)平臺。英偉達的H100及A100、AMD的MI100、MI200系列等是當前最為主流的GPGPU產(chǎn)品型號。ASIC市場方面,由于其一定的定制化屬性,市場格局較為分散。在人工智能領(lǐng)域,ASIC也占據(jù)一席之地。其中谷歌處于相對前沿的技術(shù)地位,自2016年以來,就推出了專為機器學(xué)習(xí)定制的ASIC,即張量處理器(TensorProcessingUnit,TPU),近期,谷歌首次公布了其用于訓(xùn)練人工智能模型的AI芯片TPUv4的詳細信息,其采用低精度計算,在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運算速度,同時使用了脈動陣列等設(shè)計來優(yōu)化矩陣乘法與卷積運算,對大規(guī)模矩陣的乘法可以最大化數(shù)據(jù)復(fù)用,減少訪存次數(shù),大幅提升Transformer模型的訓(xùn)練速度,同時節(jié)約訓(xùn)練成本。谷歌稱在同等規(guī)模系統(tǒng)下基于TPU的谷歌超級計算機比基于英偉達A100芯片的系統(tǒng)最高快1.7倍,節(jié)能效率提高1.9倍。谷歌TPU屬于定制化ASIC芯片,是專門為神經(jīng)網(wǎng)絡(luò)和TensorFlow學(xué)習(xí)框架等量身打造的集成芯片,需要在這類特定框架下才能發(fā)揮出最高運行效率。生態(tài)體系決定用戶體驗,是算力芯片廠商最深的護城河。雖然英偉達GPU本身硬件平臺的算力卓越,但其強大的CUDA軟件生態(tài)才是推升其GPU計算生態(tài)普及的關(guān)鍵力量。從技術(shù)角度來講,GPU硬件的性能門檻并不高,通過產(chǎn)品迭代可以接龍頭領(lǐng)先水平,但下游客戶更在意能不能用、好不好用的生態(tài)問題。CUDA推出之前GPU編程需要機器碼深入到顯卡內(nèi)核才能完成任務(wù),而推出之后相當于把復(fù)雜的顯卡編程包裝成為一個簡單的接口,造福開發(fā)人員,迄今為止已成為最發(fā)達、最廣泛的生態(tài)系統(tǒng),是目前最適合深度學(xué)習(xí)、AI訓(xùn)練的GPU架構(gòu)。英偉達在2007年推出后不斷改善更新,衍生出各種工具包、軟件環(huán)境,構(gòu)筑了完整的生態(tài),并與眾多客戶合作構(gòu)建細分領(lǐng)域加速庫與AI訓(xùn)練模型,已經(jīng)積累300個加速庫和400個AI模型。尤其在深度學(xué)習(xí)成為主流之后,英偉達通過有針對性地優(yōu)化來以最佳的效率提升性能,例如支持混合精度訓(xùn)練和推理,在GPU中加入TensorCore來提升卷積計算能力,以及最新的在H100GPU中加入TransformerEngine來提升相關(guān)模型的性能。這些投入包括了軟件和芯片架構(gòu)上的協(xié)同設(shè)計,使得英偉達能使用最小的代價來保持性能的領(lǐng)先。而即便是英偉達最大的競爭對手AMD的ROCm平臺在用戶生態(tài)和性能優(yōu)化上還存在差距。CUDA作為完整的GPU解決方案,提供了硬件的直接訪問接口,開發(fā)門檻大幅降低,而這套易用且能充分調(diào)動芯片架構(gòu)潛力的軟件生生態(tài)讓英偉達在大模型社區(qū)擁有巨大的影響力。正因CUDA擁有成熟且性能良好的底層軟件架構(gòu),故幾乎所有的深度學(xué)習(xí)訓(xùn)練和推理框架都把對于英偉達GPU的支持和優(yōu)化作為必備的目標,幫助英偉達處于持續(xù)處于領(lǐng)先地位。英偉達領(lǐng)先地位穩(wěn)固。英偉達憑借良好的硬件性能和完善的CUDA生態(tài)將持續(xù)處于領(lǐng)先地位,但起步較晚的挑戰(zhàn)者也在奮起直追,未來有望出現(xiàn)一超多強的多元化競爭格局。訓(xùn)練市場方面,英偉達高算力GPU是當前AI訓(xùn)練主流選擇,谷歌TPU面臨著通用性的局限,AMD存在生態(tài)構(gòu)建差距,但在二者的沖擊及云廠商自研芯片的競爭下,AI訓(xùn)練市場也或?qū)⒊霈F(xiàn)格局的變動。推理市場方面,GPU具有較好的生態(tài)延續(xù)性仍占主流,如英偉達針對推理市場的產(chǎn)品TeslaT4上的芯片包含了2560個CUDA內(nèi)核,性能達到了FP640.25TFLOPS、FP328.1TFLOPS、INT8達130TOPS,可提供多精度推理性能,以及優(yōu)于CPU40倍的低延時高吞吐量,可以實時滿足更多的請求。但其他解決方案在成本、功耗具有優(yōu)勢,特定市場競爭格局相對激烈,工作負載不同對應(yīng)的芯片性能需求不同,T4PCIe,有望出現(xiàn)各類芯片共存的局面。國內(nèi)算力芯片廠商具備較好的入局機會。國產(chǎn)算力芯片市場需求巨大,國內(nèi)人工智能生態(tài)環(huán)境較好,在AI應(yīng)用領(lǐng)域的步伐處于全球前列,國產(chǎn)GPU廠商具孵化和發(fā)展的沃土,國內(nèi)廠商供應(yīng)鏈多元化的需求帶來了國內(nèi)AI芯片廠商適配窗口期,尤其是當前大模型發(fā)展早期是適配的黃金窗口期。其中,寒武紀、華為等兼容CUDA和自建生態(tài)是國產(chǎn)廠商發(fā)展的兩大趨勢,具備很大的競爭力潛力。短期來看,國內(nèi)廠商兼容英偉達CUDA,可以減輕開發(fā)和遷移難度,進而快速實現(xiàn)客戶端導(dǎo)入。同時需要避開英偉達絕對優(yōu)勢領(lǐng)域,在芯片設(shè)計結(jié)構(gòu)上形成差異化競爭;長期來看,國產(chǎn)GPU如果完全依賴CUDA生態(tài),硬件更新將不得不綁定英偉達的開發(fā)進程,應(yīng)借鑒AMD、Google構(gòu)建自身生態(tài)體系,開展軟硬件結(jié)合的平臺化布局,并打造不同領(lǐng)域快速落地垂直解決方案的能力,鑄造自己的生態(tài)圈核心壁壘。預(yù)計硬件性能高效以及能夠構(gòu)建符合下游需求的生態(tài)體系的國產(chǎn)廠商有望脫穎而出。2.3先進封裝成為高性價比替代方案,存算一體應(yīng)用潛力巨大2.3.1先進封裝:后摩爾定律時代的創(chuàng)新方向,先進制程的高性價比替代方案大算力芯片要求性能持續(xù)提升,后摩爾時代急需高性價比解決方案。隨著大模型參數(shù)增加,AI大模型對于算力需求大幅提升,GPU等大算力芯片的性能提升遭遇兩大瓶頸:一方面,進入28nm以后摩爾定律逐漸失效,先進制程的成本快速提升。根據(jù)IBS統(tǒng)計在達到28nm制程節(jié)點以后,如果繼續(xù)縮小制程節(jié)點數(shù),每百萬門晶體管的制造成本不降反升,摩爾定律開始失效。而且應(yīng)用先進制程的芯片研發(fā)費用大幅增長,5nm制程的芯片研發(fā)費用增至5.42億美元,幾乎是28nm芯片研發(fā)費用的10.6倍,高額的研發(fā)門檻進一步減少了先進制程的應(yīng)用范圍。另一方面,內(nèi)存帶寬增長緩慢,限制處理器性能。在傳統(tǒng)PCB封裝中,走線密度和信號傳輸速率難以提升,因而內(nèi)存帶寬緩慢增長,導(dǎo)致來自存儲帶寬的開發(fā)速度遠遠低于處理器邏輯電路的速度,帶來“內(nèi)存墻”的問題。為了使異構(gòu)集成的Chiplet封裝實現(xiàn),需要借助到2D/2.1D/2.3D/2.5D/3D等一系列先進封裝工藝。先進封裝的不同層次主要依據(jù)多顆芯片堆疊的物理結(jié)構(gòu)和電氣連接方式劃分,例如2D封裝中的芯片直接連接到基板,其他封裝則以不同形式的中介層完成互聯(lián)。其中,2.5D封裝常用于計算核心與HBM的封裝互連,3D封裝常用于HBM顯存的多層堆疊,并有望用于不同IC的異構(gòu)集成。1)CoWoS:2.5D封裝重要解決方案,實現(xiàn)計算核心與HBM封裝互連計算核心與HBM通過2.5D封裝互連,臺積電開發(fā)的CoWoS封裝技術(shù)為廣泛使用的解決方案。臺積電早在2011年推出CoWoS技術(shù),并在2012年首先應(yīng)用于Xilinx的FPGA上。此后,華為海思、英偉達、谷歌等廠商的芯片均采用了CoWoS,例如GP100(P100顯卡核心),TPU2.0。如今CoWoS已成為HPC和AI計算領(lǐng)域廣泛應(yīng)用的2.5D封裝技術(shù),絕大多數(shù)使用HBM的高性能芯片,包括大部分創(chuàng)企的AI訓(xùn)練芯片都應(yīng)用了CoWoS技術(shù)。CoWoS-S基于硅中介層(Si-interposer)為先進SoC和HBM提供系統(tǒng)集成,在GPU等算力芯片的封裝中應(yīng)用廣泛。CoWoS-S的特點是混合了寬帶內(nèi)存模塊HBM(HighBandwidthMemory)和大規(guī)模SoC的高性能子系統(tǒng),通過Si中介層連接HBM和SoC,實現(xiàn)了寬帶內(nèi)存訪問。CoWoS-S最早于2011年開發(fā),經(jīng)歷5代發(fā)展。最初,安裝在中介層上的硅芯片是多個邏輯芯片,采用該技術(shù)的賽靈思高端FPGA“7V2000T”在CoWoS-S中配備了四個FPGA邏輯芯片。第3代開始支持邏輯和內(nèi)存的混合加載。第5代CoWoS-S技術(shù)使用了全新的TSV解決方案,更厚的銅連接線,晶體管數(shù)量是第3代的20倍,硅中介層擴大到2500mm2,相當于3倍光罩面積,擁有8個HBM2E堆棧的空間,容量高達128GB。第6代技術(shù)有望于2023年推出,將會在基板上封裝2顆運算核心,同時可以板載多達12顆HBM緩存芯片。CoWoS幫助臺積電取得英偉達、AMD等高性能計算芯片訂單。根據(jù)DIGITIMES報道,微軟已與臺積電及其生態(tài)系統(tǒng)合作伙伴接洽,商討將CoWoS封裝用于其自己的AI芯片。英偉達高端GPU都采用CoWoS封裝技術(shù)將GPU芯片和HBM集合在一起。TeslaP100通過加入采用HBM2的CoWoS第三代技術(shù),將計算性能和數(shù)據(jù)緊密集成在同一個程序包內(nèi),提供的內(nèi)存性能是NVIDIAMaxwell架構(gòu)的三倍以上。V100、A100、等高端GPU,均采用臺積電CoWoS封裝,分別配備32GBHBM2、40GBHBM2E內(nèi)存,全新Hopper架構(gòu)的H100GPU也采用CoWoS封裝,具有80GB的HBM3內(nèi)存和超高的3.2TB/s內(nèi)存帶寬。AMD也將重新采用CoWoS封裝。根據(jù)DIGITIMES報道,AMDMI200原本由日月光集團與旗下矽品提供,應(yīng)用FO-EB先進封裝(扇出嵌入式橋接),而新MI系列數(shù)據(jù)中心加速器芯片將重新采用臺積電先進封裝CoWoS。基于AldebaranGPU的MI250或采用第五代CoWoS封裝技術(shù),可實現(xiàn)128GBHBM2E內(nèi)存等超高性能配置。2)HBM:3D封裝打造多層堆疊內(nèi)存,突破容量與帶寬瓶頸HBM采用3D封裝,通過TSV將多個DRAMdie垂直堆疊。在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,導(dǎo)致芯片算力性能提升受到限制,HBM應(yīng)運而生,與傳統(tǒng)DRAM不同,HBM是3D結(jié)構(gòu),它使用TSV技術(shù)將數(shù)個DRAM裸片堆疊起來,形成立方體結(jié)構(gòu),即DRAM芯片上搭上數(shù)千個細微孔并通過垂直貫通的電極連接上下芯片;DRAM下面是DRAM邏輯控制單元,對DRAM進行控制。從技術(shù)角度看,HBM促使DRAM從傳統(tǒng)2D加速走向立體3D,充分利用空間、縮小面積,契合半導(dǎo)體行業(yè)小型化、集成化的發(fā)展趨勢。HBM和硅互聯(lián)技術(shù)突破了內(nèi)存容量與帶寬瓶頸,被視為新一代DRAM解決方案。而相較傳統(tǒng)封裝方式,TSV技術(shù)能夠縮減30%體積,并降低50%能耗。HBM相對傳統(tǒng)內(nèi)存數(shù)據(jù)傳輸線路的數(shù)量大幅提升。存儲器帶寬指單位時間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,最簡單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量。在典型的DRAM中,每個芯片有八個DQ引腳2,也就是數(shù)據(jù)輸入/輸出引腳。在組成DIMM3模塊單元之后,共有64個DQ引腳。然而,隨著系統(tǒng)對DRAM和處理速度等方面的要求有所提高,數(shù)據(jù)傳輸量也在增加。因此,DQ引腳的數(shù)量(D站的出入口數(shù)量)已無法保證數(shù)據(jù)能夠順利通過。HBM由于采用了系統(tǒng)級封裝(SIP)4和硅通孔(TSV)技術(shù),擁有高達1024個DQ引腳,但其外形尺寸(指物理面積)卻比標準DRAM小10倍以上。由于傳統(tǒng)DRAM需要大量空間與CPU和GPU等處理器通信,而且它們需要通過引線鍵合5或PCB跡線6進行連接,因此DRAM不可能對海量數(shù)據(jù)進行并行處理。相比之下,HBM產(chǎn)品可以在極短距離內(nèi)進行通信,增加了DQ路徑,顯著加快了信號在堆疊DRAM之間的傳輸速度,實現(xiàn)了低功耗、高速的數(shù)據(jù)傳輸。HBM正在成為AI服務(wù)器GPU的標配。AI服務(wù)器需要在短時間內(nèi)處理大量數(shù)據(jù),對帶寬提出了更高的要求,HBM成為了重要的解決方案。AI服務(wù)器GPU市場以NVIDIAH100、A100、A800以及AMDMI250、MI250X系列為主,基本都配備了HBM。HBM方案目前已演進為較為主流的高性能計算領(lǐng)域擴展高帶寬的方案。SK海力士HBM3顯存的樣品已通過NVIDIA的性能評估工作,在2022年6月向NVIDIA正式供貨,2023GTC大會發(fā)布的ChatGPT專用最新H100NVLGPU,也配置了188GBHBM3e內(nèi)存;RambusHBM3或?qū)⒃?023年流片,實際應(yīng)用于數(shù)據(jù)中心、AI、HPC等領(lǐng)域。IDC數(shù)據(jù)顯示,2019年中國AI加速服務(wù)器單機GPGPU搭載量最多達到20顆,加權(quán)平均數(shù)約為8顆/臺。單顆GPU配套的HBM顯存存儲容量達到80GB,對應(yīng)價值量約為800美元。SK海力士是HBM開發(fā)的先行者,并在技術(shù)開發(fā)和市場份額上占據(jù)領(lǐng)先地位。2014年,SK海力士與AMD聯(lián)合開發(fā)了全球首款HBM產(chǎn)品。SK海力士的HBM3發(fā)布7個月后實現(xiàn)了量產(chǎn),將搭載于NVIDIAH100之上。根據(jù)BussinessKorea的報道,SK海力士在HBM市場已獲得60%-70%的市場份額。SK海力士之后,三星、美光推出了各自的HBM產(chǎn)品,分別迭代至HBM3和HBM2E。晶圓代工廠商包括如臺積電、格芯等也在發(fā)力HBM相關(guān)的封裝技術(shù)。隨著HBM3的性能提升,未來市場空間廣闊。以位元計算,目前HBM占整個DRAM市場比重僅約1.5%,滲透率提升空間較大。在將GPU等AI芯片推向高峰的同時,也極大帶動了市場對新一代內(nèi)存芯片HBM(高帶寬內(nèi)存)的需求,據(jù)悉,2023年開年以來,三星、SK海力士的HBM訂單就快速增加,價格也水漲船高。根據(jù)統(tǒng)計,2023-2025年HBM市場CAGR有望成長至40-45%以上,至2025年市場規(guī)模有望快速增至25億美元。3)3DIC:多芯片垂直堆疊增強互聯(lián)帶寬,未來發(fā)展?jié)摿薮?DIC是指使用FAB工藝在單個芯片上堆疊多個器件層,包括多Logic芯片間的堆疊。與2.5D封裝相比,3DIC封裝在互連方式有所不同。2.5D封裝是通過TSV轉(zhuǎn)換板連接芯片,而3DIC封裝是將多個芯片垂直堆疊在一起,并通過直接鍵合技術(shù)實現(xiàn)芯片間的互連。在2.5D結(jié)構(gòu)中,兩個或多個有源半導(dǎo)體芯片并排放置在硅中介層上,以實現(xiàn)極高的芯片到芯片互連密度。在3D結(jié)構(gòu)中,有源芯片通過芯片堆疊集成,以實現(xiàn)最短的互連和最小的封裝尺寸。另一方面,2.5D封裝和3DIC封裝的制造工藝也有所不同,2.5D封裝需要制造硅基中介層,并且需要進行微影技術(shù)等復(fù)雜的工藝步驟;而3DIC封裝需要進行直接鍵合技術(shù)等高難度的制造工藝步驟。當前3DIC封裝主流產(chǎn)品包括臺積電SoIC技術(shù)、英特爾Foveros技術(shù)和三星X-Cube技術(shù)。2.3.2存算一體:解決傳統(tǒng)馮諾依曼架構(gòu)“存儲墻”,能效比提升潛力巨大存算一體有望解決傳統(tǒng)馮諾依曼架構(gòu)下的“存儲墻”。由于處理器的設(shè)計以提升計算速度為主,存儲則更注重容量提升和成本優(yōu)化,“存”“算〞之間性能失配,從而導(dǎo)致了訪存帶寬低、時延長、功耗高等問題,即通常所說的“〝存儲墻〞和“功耗墻”。訪存愈密集,“墻”的問題愈嚴重,算力提升愈困難。隨著以人工智能計算單元為代表的訪存密集型應(yīng)用快速崛起,訪存時延和功耗開銷無法忽視,計算架構(gòu)的變革顯得尤為迫切。存算一體作為一種新型算力,指計算單元與存儲單元融合,在完成數(shù)據(jù)存儲功能的同時可以直接進行計算,有望解決傳統(tǒng)馮諾依曼架構(gòu)下的“存儲墻〞、“功耗墻〞問題,以其巨大的能效比提升潛力,有望成為人工智能時代的先進應(yīng)用技術(shù)。存儲墻:數(shù)據(jù)搬運慢、搬運能耗大等問題是高速計算的關(guān)鍵瓶頸。從處理單元外的存儲器提取數(shù)據(jù),搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低。PIM:用硅通孔(ThroughSiliconVia,TSV,2010年實現(xiàn))技術(shù)將計算單元塞進內(nèi)存上下bank之間。CIM:計算操作由位于存儲芯片/區(qū)域內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的。這種路線一般用于算法固定的場景算法計算。目前主要路線是基于NORflash,多數(shù)情況下存儲容量較小,這使得NORflash單片算力達到1TOPS以上器件代價較大,通常業(yè)內(nèi)大算力一般是20-100TOPS以上。而其他存儲器,包括SRAM、RRAM等,可以用來做到大算力的存算一體??蒲性核c龍頭廠商積極布局,未來市場潛力較大。2011年,存算一體芯片開始受到學(xué)界關(guān)注,2016-2017年成為學(xué)界熱議話題,隨之而來學(xué)術(shù)大佬與業(yè)界領(lǐng)軍廠商紛紛開啟其商業(yè)化探索??蒲性核矫?,加州大學(xué)圣芭芭拉分校謝源教授團隊致力于在新型存儲器件ReRAM(阻變存儲)里面實現(xiàn)計算的功能研究,即PRIME架構(gòu)。清華大學(xué)劉勇攀教授團隊和汪玉教授團隊均參與了PRIME架構(gòu)的研發(fā),目前已實現(xiàn)在150nm工藝下流片,在阻變存儲陣列里實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡(luò),功耗降低20倍,速度提高50倍。此外,清華大學(xué)與SK海力士聯(lián)合成立智能存儲計算芯片聯(lián)合研究中心,未來五年,中心將致力于研發(fā)存算一體與近存儲處理技術(shù)。在產(chǎn)業(yè)應(yīng)用方面,英特爾、博世、美光、LamResearch、應(yīng)用材料、微軟、亞馬遜、軟銀都投資了NOR閃存存算一體芯片。其中,英特爾發(fā)布的傲騰固態(tài)盤采用片外存儲技術(shù),實現(xiàn)CPU與硬盤之間數(shù)據(jù)高速搬運,從而平衡高級分析和人工智能等大規(guī)模內(nèi)存工作負載的性價比。SK海力士在今年的ISSCC發(fā)表存內(nèi)計算的開發(fā)成果-基于GDDR接口的DRAM存內(nèi)計算,并展示了其首款基于存內(nèi)計算技術(shù)產(chǎn)品-GDDR6-AiM的樣本。根據(jù)量子位智庫預(yù)計,2030年基于存算一體的大算力芯片將實現(xiàn)規(guī)模量產(chǎn),應(yīng)用場景覆蓋大數(shù)據(jù)檢索、蛋白質(zhì)/基因分析、數(shù)據(jù)加密、圖像處理等。2030年,基于存算一體技術(shù)的中小算力芯片市場規(guī)模約為1069億人民幣,基于存算一體技術(shù)的大算力芯片市場規(guī)模約為67億人民幣,總市場規(guī)模約為1136億人民幣。三、AI服務(wù)器滲透率快速提升3.1AI服務(wù)器是算力基礎(chǔ)設(shè)施最主要的硬件,訓(xùn)練型主要成本來自于GPU芯片3.1.1AI服務(wù)器采用異構(gòu)架構(gòu),主流結(jié)構(gòu)為CPU+多顆GPU與普通服務(wù)器的絕大多數(shù)空間分配給CPU相比,AI服務(wù)器是采用異構(gòu)形式的服務(wù)器,在異構(gòu)方式上可以根據(jù)應(yīng)用的范圍采用不同的組合方式,一般采取CPU+多顆GPU的架構(gòu),也有CPU+TPU、CPU+其他的加速卡等組合。相較普通服務(wù)器,AI服務(wù)器更擅長并行運算,具有高帶寬、性能優(yōu)越、能耗低等優(yōu)點。在大模型的預(yù)訓(xùn)練中,一方面?zhèn)戎貙ξ谋旧舷挛牡睦斫?,另一方面算法上存在大量的向量、矩陣計算,這讓并行計算的AI服務(wù)器更擅長處理大模型的預(yù)訓(xùn)練任務(wù)。人工智能與通用大模型作為數(shù)字經(jīng)濟中的新興行業(yè),帶動了大量的算力需求,也成為國內(nèi)算力基礎(chǔ)設(shè)施建設(shè)中最主要的硬件之一。以GPU為核心的異構(gòu)服務(wù)器未來將成為主流。對比CPU和GPU的內(nèi)部架構(gòu),CPU采用整塊的ALU(運算單元),且大量空間用于控制單元和緩存,串行計算能力強;而GPU采用分立的大量ALU,很少空間分配給控制單元和緩存,并行計算能力強。而由于圖像識別、視覺效果處理、虛擬現(xiàn)實、大模型訓(xùn)練等任務(wù)都包含大量的簡單重復(fù)計算、矩陣計算等,更適合用搭載GPU更多的異構(gòu)型AI服務(wù)器進行處理,而隨著企業(yè)的智能化變革和通用大模型的興起,以GPU為核心的異構(gòu)型AI服務(wù)器將在算力基礎(chǔ)設(shè)施建設(shè)中占據(jù)愈發(fā)重要的地位。3.1.2AI服務(wù)器產(chǎn)業(yè)鏈上下游&成本結(jié)構(gòu)拆解AI服務(wù)器產(chǎn)業(yè)鏈上游主要由服務(wù)器元器件生產(chǎn)商組成,其中CPU、GPU作為核心組件,主要由Intel、AMD、Nvidia供應(yīng),國產(chǎn)供應(yīng)商占比較少,其他部件包括內(nèi)存、SSD、PCB、光模塊、電源等存在更多的國產(chǎn)供應(yīng)商;產(chǎn)業(yè)鏈中游包括主板集成商和服務(wù)器廠商,先由主板集成商將眾多芯片集成,再交由服務(wù)器廠商裝配成整機銷售。目前國內(nèi)企業(yè)在服務(wù)器廠商中占據(jù)重要地位;產(chǎn)業(yè)鏈下游主要包括以BAT為首的互聯(lián)網(wǎng)廠商,移動、電信、聯(lián)通三大運營商和眾多政企客戶(主要集中在政府、金融、醫(yī)療三大行業(yè),因其最需要AI客服等相關(guān)產(chǎn)品)。通用服務(wù)器成本主要由CPU、存儲、內(nèi)存及其他部分構(gòu)成,而AI服務(wù)器由于采用了多顆GPU芯片組成異構(gòu)架構(gòu),其成本構(gòu)成也會發(fā)生變化。具體來看,訓(xùn)練型AI服務(wù)器由于需要處理大量數(shù)據(jù),具備更強的計算能力,訓(xùn)練芯片價格顯著高于推理芯片。訓(xùn)練型AI服務(wù)器成本中,約7成以上由GPU構(gòu)成,其余CPU、存儲、內(nèi)存等占比相對較小。對于推理型服務(wù)器,其GPU成本約為2-3成,整體成本構(gòu)成與高性能型相近。3.2AI服務(wù)器市場規(guī)模有望保持高速增長,當前訂單飽滿3.2.1全球AI服務(wù)器近三年將保持高速增長根據(jù)IDC數(shù)據(jù),2022年全球AI服務(wù)器市場規(guī)模202億美元,同比增長29.8%,占服務(wù)器市場規(guī)模的比例為16.4%,同比提升1.2pct。我們認為隨著數(shù)據(jù)量的持續(xù)提升,大模型參與玩家和單個模型參數(shù)量提升,以及數(shù)字化轉(zhuǎn)型推進等多因素影響,AI服務(wù)器市場規(guī)模將繼續(xù)保持較快增長。結(jié)合2.1.3節(jié)圖表45我們對于大語言模型帶來AI芯片的增量需求測算,我們認為2023-2025年全球AI服務(wù)器有望實現(xiàn)高速增長。以目前企業(yè)對于AI服務(wù)器的實際需求來看,雖然推理端需求更為旺盛,但從采購角度更傾向于搭載A100/A800GPU的訓(xùn)練/推理一體服務(wù)器。因此我們結(jié)合3.1.2節(jié)對于訓(xùn)練型、推理型AI服務(wù)器的成本拆解測算,預(yù)估2023-2025年增量的GPU需求約占AI服務(wù)器成本比重為70%。此外,隨著包括H100/H800等新一代芯片的推出、算法迭代升級均有望帶來整體效率提升,AI服務(wù)器增量市場空間可能略低于大模型需求預(yù)期。結(jié)合上述假設(shè),我們認為全球AI服務(wù)器市場規(guī)模未來3年內(nèi)將保持高速增長,市場規(guī)模分別為395/890/1601億美元,對應(yīng)增速96%/125%/80%。由于互聯(lián)網(wǎng)廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此2023年市場增速可能高于預(yù)測值,同時2024、2025年市場增速可能略低于預(yù)測值。3.2.2中國AI服務(wù)器近三年將保持高速增長根據(jù)IDC數(shù)據(jù),2022年中國AI服務(wù)器市場規(guī)模67億美元,同比增長24%。其中GPU服務(wù)器占據(jù)主導(dǎo)地位,市場份額為89%至60億美元。同時,NPU、ASIC和FPGA等非GPU加速服務(wù)器以同比12%的增速占有了11%的市場份額,達到7億美元。在大模型浪潮到來前,由數(shù)字經(jīng)濟和“東數(shù)西算”等政策影響下,中國AI算力在2021年實現(xiàn)了68.2%的同比高速增長。據(jù)浪潮信息、國際數(shù)據(jù)公司(IDC)和清華大學(xué)聯(lián)合推出的《2021-2022全球計算力指數(shù)評估報告》顯示,中國AI算力發(fā)展領(lǐng)跑全球,AI服務(wù)器支出規(guī)模位列全球第一。我們認為,在大模型浪潮下,疊加數(shù)字經(jīng)濟、東數(shù)西算帶動的數(shù)據(jù)中心、智算中心建設(shè),AI服務(wù)器市場中我國的份額在當前約全球1/3比例上有望進一步提升。我們預(yù)計,2023-2025年,結(jié)合對于全球AI服務(wù)器市場規(guī)模的預(yù)判,以及對于我國份額占比持續(xù)提升的假設(shè),我國AI服務(wù)器市場規(guī)模有望達到134/307/561億美元,同比增長101%/128%/83%。由于互聯(lián)網(wǎng)廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此2023年市場增速可能高于預(yù)測值,同時2024、2025年市場增速可能略低于預(yù)測值。3.2.3當前AI服務(wù)器廠商在手訂單充分,AI服務(wù)器市場高增長確定性較強自去年ChatGPT帶動的大模型浪潮以來,國內(nèi)外頭部互聯(lián)網(wǎng)廠商紛紛加入AI算力的軍備競賽,加大對于AI算力側(cè)的資源投入。AI算力的高景氣帶動AI服務(wù)器需求端爆發(fā)式增長,并體現(xiàn)在AI服務(wù)器廠商訂單端。全球AI服務(wù)器出貨金額排名第一位的龍頭廠商浪潮信息,提到一季度以來AI服務(wù)器市場迎來明顯增長,客戶關(guān)注點由價格轉(zhuǎn)向能否及時滿足自身需求。此外,據(jù)紫光股份于投資者互動平臺的回復(fù),其AI服務(wù)器訂單今年一季度有很大提升,產(chǎn)能滿足市場需求不存在問題,針對GPT場景優(yōu)化的GPU服務(wù)器已經(jīng)完成開發(fā),預(yù)計今年二季度全面上市。作為全球ICT設(shè)備龍頭企業(yè)的聯(lián)想集團,根據(jù)其最新公布的財報數(shù)據(jù),ISG(基礎(chǔ)設(shè)施解決方案業(yè)務(wù)集團)在2023年1-3月實現(xiàn)營收同比增長56.2%,全財年營收同比增長36.6%,主要受益于海外AI服務(wù)器需求爆發(fā)以及存儲業(yè)務(wù)的高速增長,公司預(yù)期新財年AI服務(wù)器收入增速將顯著快于通用服務(wù)器,帶動ISG部門營收增長超市場平均水平20%以上。中科曙光深度布局算力領(lǐng)域,包括上游芯片、中游服務(wù)器解決方案、液冷技術(shù)、以及下游算力調(diào)度等業(yè)務(wù),公司于投資者互動平臺多次回復(fù),會根據(jù)用戶需求提供通用算力和智能算力產(chǎn)品及服務(wù),隨著我國算力需求的增長,各類產(chǎn)品銷售均呈現(xiàn)增長態(tài)勢,伴隨我國人工智能技術(shù)和產(chǎn)業(yè)的發(fā)展,預(yù)計智能計算產(chǎn)品需求將逐步提升。3.3AI服務(wù)器市場集中度有望提升,國內(nèi)廠商呈現(xiàn)一超多強格局3.3.1全球AI服務(wù)器競爭格局據(jù)IDC數(shù)據(jù),2022年上半年全球AI服務(wù)器市場中,浪潮信息、戴爾、惠普、聯(lián)想、新華三分別以15.1%、14.1%、7.7%、5.6%、4.7%的市場份額位居前五位。市場格局相對分散,龍頭廠商份額較為接近。此外,由于以北美云廠商為主的需求方偏向于采用ODM模式,因此非品牌商份額占比較高,接近50%。3.3.2中國AI服務(wù)器競爭格局據(jù)IDC數(shù)據(jù),2022年我國AI服務(wù)器市場按銷售額統(tǒng)計市場份額中,浪潮信息、新華三、寧暢位居前三位,市場份額分別為47%、11%、9%。市場格局呈現(xiàn)一超多強局面,除浪潮外其與廠商份額相對接近。由于國內(nèi)頭部廠商采用類ODM模式服務(wù)互聯(lián)網(wǎng)客戶,因此ODM廠商份額占比偏低。3.3.3AI服務(wù)器競爭格局未來演進趨勢從AI服務(wù)器的研發(fā)與交付考慮,品牌商和代工廠的模式及時間線略有不同,品牌商研發(fā)周期更長但交付更快,代工廠研發(fā)周期略短但交付產(chǎn)品時間略長。5月29日,英偉達CEO在臺北國際電腦展COMPUTEX2023大會帶來主題演講,演講中發(fā)布了目前臺系ODM廠商針對客戶需求做出的AI服務(wù)器雛形,并將進一步根據(jù)客戶需求做定制化開發(fā),由定制化開發(fā)到產(chǎn)品交付客戶預(yù)計需要數(shù)月時間。對于OEM廠商來說,包括浪潮、聯(lián)想、新華三等廠商的研發(fā)周期相對較長,需要接近一年的時間進行驗證,并根據(jù)不同客戶做不同配置規(guī)格進行進一步驗證。OEM廠商驗證完成后的成熟產(chǎn)品在交付中相比ODM廠商可以實現(xiàn)更快交付。3.4全球服務(wù)器市場規(guī)模預(yù)計保持平穩(wěn)3.4.1通用服務(wù)器仍處庫存去化階段,全球市場規(guī)模預(yù)計將出現(xiàn)下滑根據(jù)研究機構(gòu)TrendForce5月17日發(fā)布的報告,2023年服務(wù)器市場需求展望不佳,再次下調(diào)今年全球服務(wù)器整機出貨量預(yù)測至1383.5萬臺,同比減少2.85%。TrendForce稱,美國谷歌、微軟、Meta、亞馬遜四大互聯(lián)網(wǎng)公司陸續(xù)下調(diào)服務(wù)器采購量;同時戴爾、HPE等OEM廠商也在2~4月間下調(diào)全年出貨量預(yù)估,同比分別減少15%、12%;此外,受國際形勢以及經(jīng)濟因素等多種因素導(dǎo)致全年服務(wù)器需求展望不佳。2023年Q1受淡季效應(yīng)以及終端庫存修正的影響,全球服務(wù)器出貨量環(huán)比減少了15.9%。TrendForce對于二季度產(chǎn)業(yè)回暖信心偏低,產(chǎn)業(yè)旺季并未如期發(fā)生,環(huán)比增長預(yù)估僅為9.23%。此外,ESG方面的討論使得美國四大互聯(lián)網(wǎng)公司延長服務(wù)器的使用年限,進而降低采購量,控制資本支出,這也是影響服務(wù)器市場的因素之一。預(yù)計庫存去化完成將在今年下半年或明年上半年到來,若庫存去化進度不及預(yù)期,全年服務(wù)器市場規(guī)模預(yù)測可能會進一步下調(diào)。3.4.2AI服務(wù)器出貨量占比進一步提升,對全球服務(wù)器市場整體出貨量貢獻有限去年底以來,ChatGPT等人工智能應(yīng)用的火熱帶動了AI服務(wù)器需求暴增,英偉達芯片出現(xiàn)供不應(yīng)求情況。包括微軟、谷歌、Meta、騰訊、百度等國內(nèi)外云服務(wù)提供商紛紛積極加大AI算力投入。根據(jù)TrendForce預(yù)估,2023年AI服務(wù)器出貨量將同比實現(xiàn)10%增長,但由于從臺數(shù)來看AI服務(wù)器占比不足10%,對于整個市場影響相對有限,預(yù)計全球全年服務(wù)器出貨量整體呈現(xiàn)持平或小幅下滑趨勢。從國內(nèi)市場來看,互聯(lián)網(wǎng)廠商及智算中心建設(shè)推動AI服務(wù)器需求暴漲,一季度相關(guān)廠商新增訂單同比超4成,全年預(yù)計出貨金額將保持高速增長??紤]到通用服務(wù)器市場下半年需求有望回暖,全年市場規(guī)模有望持平或小幅增長,疊加AI服務(wù)器的快速增長,根據(jù)IDC預(yù)測,預(yù)計全年服務(wù)器市場規(guī)模有望實現(xiàn)超10%的增長。四、AI正在推動高速率光模塊需求放量在傳統(tǒng)的數(shù)據(jù)中心中,網(wǎng)絡(luò)側(cè)主要包括傳統(tǒng)樹形三層架構(gòu)和葉脊架構(gòu)。早期的數(shù)據(jù)中心一般采用傳統(tǒng)的三層結(jié)構(gòu),包括接入層、匯聚層和核心層,其中接入層用于連接計算節(jié)點與機柜交換機,匯聚層用于接入層的互聯(lián),核心層用于匯聚層的互聯(lián)且實現(xiàn)與外部網(wǎng)絡(luò)連接。隨著數(shù)據(jù)中心內(nèi)部東西向流量的快速提升,三層網(wǎng)絡(luò)架構(gòu)的核心層和匯聚層任務(wù)加重,性能提升需求高,設(shè)備成本將大幅提升。因此,適用于東西向流量的扁平化的葉脊網(wǎng)絡(luò)架構(gòu)應(yīng)運而生,葉交換機直接與計算節(jié)點相連,脊交換機相當于核心交換機,通過ECMP動態(tài)選擇多條路徑。葉脊網(wǎng)絡(luò)架構(gòu)具備帶寬利用率高、擴展性好、網(wǎng)絡(luò)延遲可預(yù)測和安全性高等優(yōu)勢,在數(shù)據(jù)中心中實現(xiàn)廣泛的應(yīng)用。AI數(shù)據(jù)中心中,由于內(nèi)部數(shù)據(jù)流量較大,因此無阻塞的胖樹網(wǎng)絡(luò)架構(gòu)成了重要需求之一。英偉達的AI數(shù)據(jù)中心中,采用了胖樹(fat-tree)的網(wǎng)絡(luò)架構(gòu)來實現(xiàn)無阻塞的功能。胖樹的網(wǎng)絡(luò)架構(gòu)基本理念為:使用大量低性能的交換機,構(gòu)建出大規(guī)模的無阻塞網(wǎng)絡(luò),對于任意的通信模式,總有路徑讓他們的通信帶寬達到網(wǎng)卡帶寬,架構(gòu)中用到的所有交換機都是相同的。胖樹網(wǎng)絡(luò)架構(gòu)一般用于網(wǎng)絡(luò)要求較高的數(shù)據(jù)中心中,如超算中心和AI數(shù)據(jù)中心等。英偉達的A100GPU主要對應(yīng)200G光模塊,H100GPU可以對應(yīng)400G或800G光模塊。每個A100GPU配一張MellanoxHDR200Gb/sInfiniband網(wǎng)卡,每個H100GPU配一張MellanoxNDR400Gb/sInfiniband網(wǎng)卡。英偉達在H100SuperPOD的設(shè)計中,采用了800G的光模塊,在光口采用1個800G光模塊可以替代2個400G光模塊,在電口也可以將8個SerDes通道進行整合,與光口的8個100G通道一一對應(yīng)。因此這種設(shè)計下,交換機的通道密度提高,物理尺寸顯著降低。NVLink帶寬遠大于網(wǎng)卡側(cè)的PCIe帶寬,因此若將NVLink從服務(wù)器內(nèi)部GPU互連拓寬至不同服務(wù)器之間的GPU的互連,將顯著提升系統(tǒng)的帶寬。若要實現(xiàn)不同服務(wù)器之間按照NVLink協(xié)議的GPU互連,除了需要采用NVSwitch芯片的物理交換機,還需要物理器件來實現(xiàn)交換機和服務(wù)器之間的連接,那么光模塊也成為了重要的組成部分,從而也會大幅增長800G光模塊的需求。近日,英偉達創(chuàng)始人兼CEO黃仁勛在NVIDIAComputex2023演講中宣布,生成式AI引擎NVIDIADGXGH200現(xiàn)已投入量產(chǎn)。GH200通過NVLink4的900GB/s超大網(wǎng)絡(luò)帶寬能力來提升算力,服務(wù)器內(nèi)部可能采用銅線方案,但服務(wù)器之間我們認為可能會用光纖連接。對于單個256GH200芯片的集群,計算側(cè)1個GH200對應(yīng)9個800G光模塊;對于多個256的GH200集群,計算側(cè)1個GH200對應(yīng)12個800G光模塊。訓(xùn)練側(cè)光模塊需求與GPU出貨量強相關(guān),推理側(cè)光模塊需求與數(shù)據(jù)流量強相關(guān)。AI對光模塊需求的拉升主要分為兩個階段,訓(xùn)練和推理。其中,訓(xùn)練側(cè)的網(wǎng)絡(luò)架構(gòu)以胖樹架構(gòu)為主,因為在大模型訓(xùn)練過程中,對于網(wǎng)絡(luò)性能的要求很高,網(wǎng)絡(luò)無阻塞是重要的需求之一,比如騰訊用于大模型訓(xùn)練的星脈網(wǎng)絡(luò)采用了胖樹架構(gòu)。同時,我們認為大部分廠商會采用Infiniband協(xié)議的網(wǎng)絡(luò),時延遠低于以太網(wǎng),可以提升計算效率,縮短模型訓(xùn)練時間。訓(xùn)練側(cè)光模塊的需求與所用GPU顯卡的數(shù)量強相關(guān),根據(jù)胖樹架構(gòu)中GPU和光模塊的比例關(guān)系可以得到所需光模塊的數(shù)量,A100對應(yīng)200G光模塊,H100對應(yīng)400G或者800G光模塊。推理側(cè)面向用戶側(cè),網(wǎng)絡(luò)架構(gòu)更接近于傳統(tǒng)云計算數(shù)據(jù)中心的葉脊架構(gòu),主要用于承載AI應(yīng)用帶來的數(shù)據(jù)流量增量。傳統(tǒng)云計算主要是ToB市場,用戶數(shù)量不多,若未來出現(xiàn)圖片或視頻相關(guān)的爆款A(yù)I應(yīng)用,一方面用戶數(shù)量有望大幅提升,另一方面單個用戶產(chǎn)生的數(shù)據(jù)流量可能會顯著增長,因此數(shù)據(jù)總流量將暴增,所以推理所需的算力和流量實際上可能遠大于訓(xùn)練,因此對于包括光模塊在內(nèi)的網(wǎng)絡(luò)設(shè)備需求將起到有力的支撐和提振。硅光子技術(shù)是以硅或硅基材料(Si,SiO2,SiGe)作為襯底材料,利用與集成電路兼容的CMOS工藝制造對應(yīng)的光子器件和光電器件,以實現(xiàn)對光的激發(fā),調(diào)制,響應(yīng)等,廣泛應(yīng)用于光通信,光傳感,高性能計算等。數(shù)通領(lǐng)域的硅光模塊同樣實現(xiàn)了大規(guī)模商用,未來份額有望不斷提升。隨著數(shù)據(jù)中心的快速發(fā)展,對于光模塊的需求爆發(fā)式增長,多家廠商開始大力研發(fā)用于數(shù)據(jù)中心的硅光模塊。初期是40G硅光數(shù)通光模塊小規(guī)模應(yīng)用,Intel和Luxtera的100G硅光模塊大規(guī)模應(yīng)用,目前400G的硅光模塊已經(jīng)實現(xiàn)量產(chǎn),800G亦在驗證中。目前國內(nèi)的硅光模塊廠商具備較強的競爭力,包括中際旭創(chuàng)、新易盛、華工科技等公司有自研的硅光芯片,博創(chuàng)科技等公司與海外硅光芯片巨頭廠商深度合作,有望在800G光模塊市場取得突破。Co-packagedOptics,即共封裝光學(xué),光學(xué)引擎PIC與電學(xué)引擎EIC合封在一起的封裝技術(shù)。CPO交換機主要分為交換機芯片、SerDes和光學(xué)部分,過去10年交換機帶寬增長了80倍。交換機芯片的帶寬每兩年提升一倍;電接口的SerDes數(shù)量和速率也在提升,速率從10G/s提升到112G/s,數(shù)量從64個通道提升到51.2T時代的512個通道。交換機帶寬從640G提升到51.2T,交換機芯片功耗提升7.4倍,每個Serdes通道的功耗提升2.84倍,結(jié)合Serdes通道數(shù)的增加,總功耗增加22.7倍。而CPO可以降低功耗(核心優(yōu)勢)、降低成本和減小尺寸。CPO參與公司主要包括云服務(wù)廠商、設(shè)備商和芯片廠商等。目前,CPO仍有很多技術(shù)難題,例如光源的功耗問題,光源作為核心的部件之一,雖然外部光源在配置上更加靈活,但是激光器在高溫下效率較低,因此給多個通道同時提供光源時,高功率帶來低效率,其功耗反而會更高。而且,光引擎緊密排布在交換機芯片的周圍,巨大的發(fā)熱量如何進行有效地散熱,光引擎失效后如何進行靈活地更換,新的光學(xué)連接器如何定義等這些技術(shù)難題都需要更加有效的解決方案。此外,CPO產(chǎn)品是將光模塊和交換機集成在一起,因此將對光模塊和交換機行業(yè)產(chǎn)生較大的影響,在制定好相關(guān)產(chǎn)品標準之后如何使得兩個產(chǎn)業(yè)鏈更好的協(xié)同,也將是一個重要的挑戰(zhàn)。我們認為,本輪光模塊板塊行情可以參考2016-2018H1與2019H2-2020H1。數(shù)通光模塊行業(yè)在2016-2018H1處于景氣周期,中際旭創(chuàng)期間股價表現(xiàn)較好,2018H2-2019H1全球云計算及互聯(lián)網(wǎng)巨頭資本開支迎來調(diào)整,期間股價也下行。北美FAAM(Facebook、Amazon、Alphabet、Microsoft)2016-2018Capex增速為29.65%、27.94%、62.74%,雖然2018年全年增速強勁,但2018Q3起增速顯著放緩。經(jīng)過近3年(2016-2018H1)的景氣周期,云廠商基礎(chǔ)設(shè)施如服務(wù)器、光網(wǎng)絡(luò)等利用率不夠飽滿,相當于計算、存儲、網(wǎng)絡(luò)能力有一定的“庫存”,疊加宏觀經(jīng)濟及中美摩擦導(dǎo)致的不確定性,企業(yè)信息化投入收縮,企業(yè)上云放緩,互聯(lián)網(wǎng)巨頭面臨增長壓力,因此資本開支增速明顯放緩,直至2019Q1資本開支負增長。五、AI將會拉動交換機市場需求AI帶來數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)變化,光模塊速率及數(shù)量均有顯著提升,因此交換機的端口數(shù)及端口速率也有相應(yīng)的增長。以ChatGPT為代表的AIGC技術(shù),依靠強大的AI模型和海量數(shù)據(jù),能夠在多個應(yīng)用場景下產(chǎn)生優(yōu)質(zhì)的內(nèi)容,有望推動人工智能更廣泛的應(yīng)用。算力作為AIGC技術(shù)的重要支撐之一,是影響AI發(fā)展與應(yīng)用的核心因素。算力基礎(chǔ)設(shè)施成了目前行業(yè)亟需布局的資源,除了CPU/GPU等算力硬件需求強勁,網(wǎng)絡(luò)端也催生了更大帶寬需求,以匹配日益增長的流量。與傳統(tǒng)數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)相比,AI數(shù)據(jù)網(wǎng)絡(luò)架構(gòu)會帶來更多的交換機端口的需求。訓(xùn)練側(cè)大概率會采用Infiniband或者類IB的低時延網(wǎng)絡(luò)協(xié)議,推理側(cè)預(yù)計會采用以太網(wǎng)協(xié)議的交換機。InfiniBand是一種開放標準的高帶寬,低時延,高可靠的網(wǎng)絡(luò)互聯(lián)技術(shù),隨著人工智能的興起,也是GPU服務(wù)器首選的網(wǎng)絡(luò)互聯(lián)技術(shù)。相比較以太網(wǎng)協(xié)議的網(wǎng)絡(luò),Infiniband網(wǎng)絡(luò)在帶寬、時延、網(wǎng)絡(luò)可靠性、和組網(wǎng)方式上都有一定的優(yōu)勢。當然,以太網(wǎng)的兼容性更好,成本更低,可以應(yīng)用在各種應(yīng)用場景中,適配各種不同的設(shè)備終端。AI訓(xùn)練端對時延要求較高,因此訓(xùn)練側(cè)大概率會采用Infiniband網(wǎng)絡(luò),也可以采用ROCE網(wǎng)絡(luò),即基于以太網(wǎng)的RDMA技術(shù),也能夠達到較低的時延。而英偉達NVLink技術(shù),其帶寬大幅提升,NVLink4的雙向帶寬可以達到900GB/s,在訓(xùn)練側(cè)也將具備較強的優(yōu)勢。在推理側(cè),我們認為網(wǎng)絡(luò)協(xié)議可以沿用云計算數(shù)據(jù)中心的以太網(wǎng)。交換機中SerDes的功耗大幅提升。隨著單個SerDes帶寬提升帶來功耗的提升,同時結(jié)合SerDes數(shù)量的提升,未來SerDes的總功耗在交換機中的功耗占比將大幅提升。網(wǎng)絡(luò)部分的功耗在數(shù)據(jù)中心中的功耗大幅提升:根據(jù)Facebook的測算,隨著數(shù)據(jù)中心內(nèi)部流量的大幅提升,網(wǎng)絡(luò)部分的功耗占比增加明顯,到下一代網(wǎng)絡(luò)部分的功耗占比將從現(xiàn)在的2%左右提升到20%左右。傳輸距離越近,SerDes功耗越低??s短交換機和光模塊之間電信號需要傳輸?shù)木嚯x,可以簡化Serdes芯片的功能,同時降低電信號的發(fā)射功率,從而降低SerDes的功耗。六、AI提升大功率IDC機柜需求,液冷滲透率隨之提升6.1“東數(shù)西算”統(tǒng)籌全國算力網(wǎng)絡(luò)建設(shè),云計算需求可能將回暖2021年5月,發(fā)改委、網(wǎng)信辦、工信部、能源局聯(lián)合印發(fā)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》,明確提出布局全國算力網(wǎng)絡(luò)國家樞紐節(jié)點,啟動實施“東數(shù)西算”工程,構(gòu)建國家算力網(wǎng)絡(luò)體系?!度珖惑w化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》圍繞國家重大區(qū)域發(fā)展戰(zhàn)略,根據(jù)能源結(jié)構(gòu)、產(chǎn)業(yè)布局、市場發(fā)展、氣候環(huán)境等,在京津冀、長三角、粵港澳大灣區(qū)、成渝以及貴州、內(nèi)蒙古、甘肅、寧夏等地布局建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點,引導(dǎo)數(shù)據(jù)中心集約化、規(guī)?;?、綠色化發(fā)展,構(gòu)建數(shù)據(jù)中心集群。國家樞紐節(jié)點間將進一步打通網(wǎng)絡(luò)傳輸通道,加快實施“東數(shù)西算”工程,提升跨區(qū)域算力調(diào)度水平。根據(jù)《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》要求,京津冀、長三角、粵港澳大灣區(qū)、成渝等節(jié)點,用戶規(guī)模較大、應(yīng)用需求強烈,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服務(wù)員的社會實踐報告大全【15篇】
- 2024年度房地產(chǎn)資產(chǎn)評估居間服務(wù)合同范本2篇
- 2024年度水庫水面旅游度假區(qū)開發(fā)與合作合同2篇
- 2024版體育賽事廣告合作服務(wù)合同范本3篇
- 2024工程進度監(jiān)控合同4篇
- 2024年度宿舍樓太陽能熱水系統(tǒng)安裝與維護合同3篇
- 2025屆嘉峪關(guān)市重點中學(xué)高考英語押題試卷含解析
- 2024年水泥行業(yè)節(jié)能改造工程合同3篇
- 2024版國際廣告合同商訂標準3篇
- 江蘇省蘇州十中2025屆高考數(shù)學(xué)一模試卷含解析
- 不動產(chǎn)登記知識考試題庫
- MOOC 會計學(xué)原理-江西財經(jīng)大學(xué) 中國大學(xué)慕課答案
- GB/T 43803-2024科研機構(gòu)評估指南
- 2023人工智能基礎(chǔ)知識考試題庫(含答案)
- 建筑企業(yè)安全生產(chǎn)規(guī)章制度和操作規(guī)程培訓(xùn)安全培訓(xùn)
- 2023北京西城五年級(上)期末英語試卷含答案
- 蕭山區(qū)八年級上學(xué)期期末語文試題(含解析)
- 2024中國遠洋海運集團校園招聘995人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 施工合同范本W(wǎng)ord模板下載(多篇)
- (打印版)小學(xué)二年級上-連加連減加減混合帶小括號-練習(xí)題
- 小組合作學(xué)習(xí)在初中道德與法治程中的應(yīng)用研究
評論
0/150
提交評論