2023年技術(shù)解構(gòu)專題報告 英偉達H100體系800G光模塊需求幾何-_第1頁
2023年技術(shù)解構(gòu)專題報告 英偉達H100體系800G光模塊需求幾何-_第2頁
2023年技術(shù)解構(gòu)專題報告 英偉達H100體系800G光模塊需求幾何-_第3頁
2023年技術(shù)解構(gòu)專題報告 英偉達H100體系800G光模塊需求幾何-_第4頁
2023年技術(shù)解構(gòu)專題報告 英偉達H100體系800G光模塊需求幾何-_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2023年技術(shù)解構(gòu)專題報告英偉達H100體系800G光模塊需求幾何_核心觀點:原因及邏輯。英偉達占訓練推理環(huán)節(jié)GPU幾乎90%以上份額,在DGXH100SuperPOD架構(gòu)引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe兩套體系解決通信問題。盡管目前InfiniBandNDR網(wǎng)絡(luò)是主流,但新的NVLinkSwitch的架構(gòu)在H100硬件基礎(chǔ)上,在某些AI場景下可以貢獻比IB網(wǎng)絡(luò)接近翻倍的性能。AI發(fā)展的基礎(chǔ)是算力提升,預計極致性能和極致功耗是未來硬件架構(gòu)發(fā)展的主要驅(qū)動,預計400G/800G以上速率的網(wǎng)絡(luò)方案將加速放量。在H100最新的NVLinkSwitch架構(gòu)下試算,單服務器NVLink下需要18對、36個osfp,也就是36個800G;一個POD集群的32臺服務器則需要36x32=1152個800G光模塊。若不采用NVLinkSwitch架構(gòu)或者需要多集群擴容,需要使用InfiniBandNDR網(wǎng)絡(luò),則采用傳統(tǒng)葉脊雙層架構(gòu),需要800G+2x400G(NDR)的方案,數(shù)量關(guān)系可參考普通集群,核心是系統(tǒng)內(nèi)帶寬激增,依據(jù)不同規(guī)??闪硗庥嬎恪S袆e于大眾的認識。鑒于H100GPU的供貨范圍限制,市場對其實際的架構(gòu)理解有一定信息差,我們借助英偉達技術(shù)文檔試圖拆解H100超算系統(tǒng)的通信架構(gòu);市場擔心800G在AI算力環(huán)節(jié)并非剛需,但高速率光模塊、CPO/LPO/MPO等技術(shù)本身預示了未來硬件架構(gòu)發(fā)展的主要方向是追求極低功耗下的極高性能,且系統(tǒng)整體算力效率有木桶效應,網(wǎng)絡(luò)環(huán)節(jié)較容易產(chǎn)生瓶頸,影響各類訓練推理考慮,因此高速光網(wǎng)絡(luò)的迭代是AI剛需。1.DGXH100SuperPOD架構(gòu)引入更高速NVLink方案以全球算力領(lǐng)軍和標桿NVIDIA為案例,在最新的DGXH100SuperPOD方案下,做一個嘗試性的定量測算,解釋為何400G/800G以上光網(wǎng)絡(luò)在AI框架下是必然選擇:(一)NVLink迭代至gen4,每通道帶寬達100Gbps:NVLink是專門設(shè)計用于高速點對點鏈路互連GPU(GPUtoGPU)的網(wǎng)絡(luò)方案,開銷比傳統(tǒng)網(wǎng)絡(luò)更低,傳統(tǒng)網(wǎng)絡(luò)中復雜網(wǎng)絡(luò)功能(例如端到端重試、自適應路由、數(shù)據(jù)包重新排序等)可以在增加端口數(shù)的情況下進行權(quán)衡。此外,基于NVLink的網(wǎng)絡(luò)接口更加簡單,允許將應用程序?qū)?、表示層和會話層功能直接嵌入到CUDA本身中,從而進一步減少通信開銷。NVIDIA在2016-2022年迭代4代的NVLink滿足了其算力方案的兩大需求(專用連接方案解決專業(yè)問題),使GPU具有盡可能高的性能、使用專用協(xié)議和系統(tǒng)設(shè)計以實現(xiàn)更高的性能。傳統(tǒng)的PCIeGen5每通道僅為32Gbps,而NVLink每通道高達100Gbps、多個通道連接其GPU系統(tǒng)。最新的NVLink4相比上代從12Links升級至18Links,每個GPU提供900GB/s(7200Gbs)的雙向帶寬(bidirectionalbandwidth)。與英偉達H100GPU結(jié)合:1)在DGXH100服務器內(nèi)部,搭載了8個H100GPU;2)每一個H100GPU通過18個NVLink4連接到內(nèi)部NVSwitch3芯片(每臺服務器搭配4個NVSwitch3芯片);3)每一個NVLink4擁有2條通道(lane),每條通道參數(shù)為100Gbps-per-lane(x2@50Gbaud-PAM4),即一個NVLink4單向200Gbps,或換算為25GB/s單向帶寬、50GB/s雙向帶寬。在18個NVLink4時,H100搭配NVLink4可以實現(xiàn)900GB/s雙向帶寬。(二)NVSwitch芯片迭代至gen3,每個芯片64個NVLink4接口:此外NVIDIA發(fā)布適用于超算服務器內(nèi)部的NVSwitch芯片(類似于交換機ASIC),進一步通過上述NVLink協(xié)議接口將多個GPU高速互聯(lián)到一起。在H100芯片+NVLink4協(xié)議這一代,應為配套了NVSwitch3芯片方案,采用臺積電4N工藝,滿足GPU間的點對點連接,內(nèi)嵌ALU使NVSwitch提供FP32的400GFLOPS計算吞吐,每個芯片64個NVLink4接口。依據(jù)技術(shù)文檔,NVSwitch3芯片大小50mm*50mm,包括一個SHARP控制器,可并行管理多達128個SHARP組;內(nèi)嵌ALU可幫助NVSwitch提供FP32的400GFLOPS計算吞吐,并且支持FP16、FP32、FP64和BF16等精度計算。另外PHY接口可以兼容400Gbps以太網(wǎng)或者NDRInfiniBand連接,每個cage4個NVLink4的OSFP接口,同時支持FEC校驗。NVSwitch3芯片提供64個NVLink4接口,每個NVLink4通道x2即200Gbps單向帶寬,單個芯片可提供64x200Gbps=12.8Tbps(1.6TB/s)單向帶寬、或3.2TB/s雙工帶寬。2.用NVLink和PCIe兩套體系解決架構(gòu)問題基本原則:GPU卡的通信以NVLink為基礎(chǔ),CPU/存儲的通信+跨集群通信以PCIe為基礎(chǔ)。NVIDIA的DGXH100服務器,每臺服務器擁有8個H100GPU、4個NVSwitch3,且相互連接。在服務器發(fā)布的同時,NVIDIA還發(fā)布了搭載2個NVSwitch3芯片的NVLink交換機,連同GPU服務器和NVLink4協(xié)議組成NVLink網(wǎng)絡(luò)。DGXH100服務器架構(gòu):MotherboardTray中,ConnectX-7網(wǎng)卡是主要的網(wǎng)絡(luò)組成部分,而CX-7網(wǎng)卡基于PCIe方案。按照公開參數(shù),每臺服務器擁有8個ConnectX-7InfiniBand/Ethernet適配器(400Gb/s)。NVLink交換機是H100體系的創(chuàng)新,也是800G光通信方案應用的亮點。英偉達發(fā)布新的NVLink交換機,1U尺寸設(shè)計,32個OSFP接口的設(shè)計;和普通交換機不同,每臺NVLink交換機搭載2個NVSwitch3芯片,提供128個NVLink4接口(單個NVSwitch3提供64個NVLink4),雙工帶寬6.4TB/s(單個NVLink4單向200Gbps,128x200Gbps=25.6Tb/s單向帶寬)。NVLink交換機推出背景是搭建H100SuperPOD的計算集群。據(jù)英偉達設(shè)計,每套SuperPOD系統(tǒng)32臺服務器折合256個H100GPU,AI性能高達1EFlops;每套系統(tǒng)配18臺NVLink交換機,系統(tǒng)雙向帶寬57.6TB/s;同時每套系統(tǒng)的32臺DGXH100服務器中的400Gb/sConnectX-7網(wǎng)卡對外與IB交換機連接,用于連接多套SuperPOD系統(tǒng)。兩層NVSwitch芯片設(shè)計:一層交換芯片位于服務器內(nèi),二層交換芯片位于交換機內(nèi)。128個L1層芯片(32臺服務器,每臺4個)+36個L2層芯片(18臺NVLink交換機,每臺2個)。一個SuperPOD內(nèi)所有256個GPU的互聯(lián),都通過NVLink協(xié)議和NVLink交換機單獨完成,不經(jīng)過CX7PCIe網(wǎng)絡(luò)。因此,從通信網(wǎng)絡(luò)角度看,DGXH100SuperPOD高算力、高吞吐升級的精髓,在于:將過去A100及之前用于服務器內(nèi)部GPU高效連接的NVLink,外化到整個集群,借助新的NVLink交換機,搭建L1、L2兩層網(wǎng)絡(luò),實現(xiàn)跨服務器、跨機柜的GPUtoGPU連接。3.組網(wǎng)架構(gòu)與光模塊需求預測H100最新架構(gòu)試算:8個節(jié)點(單服務器),NVLink下需要18對、36個osfp,也就是36個800G->一個POD集群需要36x32=1152個800G光模塊。若需要InfiniBand網(wǎng)絡(luò),則是傳統(tǒng)葉脊雙層架構(gòu),需要800G或2x400G(NDR),數(shù)量關(guān)系與普通集群差異不大,依據(jù)不同規(guī)模可另外計算。4.結(jié)論我們的結(jié)論在于:在英偉達DGXH100SuperPOD最新的NVLinkSwitch架構(gòu)算力架構(gòu)下,GPU+NVLink+NVSwitch+NVLink交換機的架構(gòu)需要大量800G通信連接方案,NVLink系統(tǒng)大致可對應GPU與800光模塊1:4-1:5的數(shù)量關(guān)系,IBNDR網(wǎng)絡(luò)則需要更多。具體而言,英偉達占訓練推理環(huán)節(jié)GPU幾乎90%以上份額,在DGXH100SuperPOD架構(gòu)引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe兩套體系解決通信問題。盡管目前InfiniBandNDR網(wǎng)絡(luò)是主流,但新的NVLinkSwitch的架構(gòu)在H100硬件基礎(chǔ)上,在某些AI場景下可以貢獻比IB網(wǎng)絡(luò)接近翻倍的性能。AI發(fā)展的基礎(chǔ)是算力提升,預計極致性能和極致功耗是未來硬件架構(gòu)發(fā)展的主要驅(qū)動,預計400G/800G以上速率的網(wǎng)絡(luò)方案將加速放量。在H100最新的NVLinkSwitch架構(gòu)下試算,單服務器NVLink下需要18對、36個osfp,也就是36個800G;一個POD集群的32臺服務器則需要36x32=1152個800G光模塊。若不采用NVLinkSwitch架構(gòu)或者需要多集群擴

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論