AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-09-15 格式：DOCX 頁(yè)數(shù)：53 大小：2.18MB 積分：19.9 舉報(bào) 版權(quán)申訴

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第2頁(yè)

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第3頁(yè)

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第4頁(yè)

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第5頁(yè)

已閱讀5頁(yè)，還剩48頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[編號(hào)ODCC-2024-05009]AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)開放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)2024.08發(fā)布AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點(diǎn)的，應(yīng)注明AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告編寫組 1 3 4 8 9 9 10（二）參數(shù)面網(wǎng)絡(luò) 12 12 14 17（三）樣本面網(wǎng)絡(luò) 18 19（五）管理面網(wǎng)絡(luò) 20 21 21（二）運(yùn)營(yíng)商行業(yè) 22 23AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告了頂峰。當(dāng)前，AI訓(xùn)練模型正在從萬(wàn)千小模型走向型時(shí)代，AI技術(shù)在千行百業(yè)中呈現(xiàn)出百模千態(tài)的繁榮局面，同時(shí)也在科技發(fā)展的浪潮中，AI的發(fā)展由算法、算力和數(shù)據(jù)三個(gè)核心1AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告定律和涌現(xiàn)能力，驅(qū)動(dòng)著AI大模型規(guī)模的持續(xù)增大。隨著GPT4、盤古等萬(wàn)億模型的發(fā)布，也正式標(biāo)志著，AI大模型進(jìn)入了萬(wàn)億模型模型正加速朝著多模態(tài)模型的方向發(fā)展。從VisionTransformer的提AI模型參數(shù)量的持續(xù)增大帶來(lái)算力需求的指數(shù)級(jí)增長(zhǎng)，2012年規(guī)模，預(yù)計(jì)到2026年，智能算力規(guī)模將進(jìn)入ZFLOPS級(jí)別，達(dá)到2AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告為了滿足高速增長(zhǎng)的算力需求，AI大模型廠商都在加速建設(shè)大規(guī)模的GPU卡集群。隨著AI模型規(guī)模的持續(xù)增長(zhǎng)，對(duì)數(shù)據(jù)集質(zhì)量也提出訓(xùn)練，比如噪聲數(shù)據(jù)、有毒數(shù)據(jù)、重復(fù)數(shù)據(jù)，會(huì)損壞模型的性能。Meta的研究表明，更高質(zhì)量的數(shù)據(jù)，比如量的語(yǔ)言數(shù)據(jù)將在2026年耗盡，低質(zhì)量的語(yǔ)言數(shù)據(jù)將在2030~2050年間枯竭。AI大模型馬上就將面臨訓(xùn)練樣本不足的挑戰(zhàn)，人類需加二、AI發(fā)展對(duì)網(wǎng)絡(luò)挑戰(zhàn)隨著AI模型參數(shù)的規(guī)模越來(lái)越大，從千億增長(zhǎng)到萬(wàn)其次，AI處理器的成本高昂，為了充分發(fā)揮處理器性能，提高3AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告（一）AI大模型并行計(jì)算模式，催生超大容量網(wǎng)絡(luò)AI大模型訓(xùn)練相比通用計(jì)算需要更多的處理器參與并行計(jì)算，滿足大模型計(jì)算時(shí)，可以將模型切分到不同的GPU卡上，使得每一以GTP-3為例，在每輪迭代中，如果使用數(shù)據(jù)并行方式，通信量可達(dá)到9.5GB/iter；如果使用流水線并行方式，通信量可達(dá)到4AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告可見，張量并行（TP）的通信量是數(shù)據(jù)并行（DP）和流水線并務(wù)器的范圍內(nèi)。若實(shí)現(xiàn)數(shù)據(jù)并行（DP）模式和流水線并行（PP）模特點(diǎn)是規(guī)模超大（>100K甚至達(dá)到百萬(wàn)規(guī)模，該網(wǎng)容量大，每個(gè)（二）AI處理器成本高昂，要求減少網(wǎng)絡(luò)時(shí)間，提升有效算力到端耗時(shí)占比達(dá)到20%，但是針對(duì)某個(gè)萬(wàn)億參數(shù)MoE（Mixtureof5AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告的HPC/AI/存儲(chǔ)業(yè)務(wù)，但是在支持百萬(wàn)級(jí)超大規(guī)模AI網(wǎng)絡(luò)方面，還流控失效等挑戰(zhàn)，需要在流控FC（FlowControl擁塞控制CC（CongestionControl）方面進(jìn)行創(chuàng)新。由于通用計(jì)算是短連接，每個(gè)服務(wù)器的流數(shù)量可達(dá)數(shù)千條；而AI服相比通用計(jì)算以KBytes/MBytes的小流為主，AI服務(wù)器的流量以流”的AI場(chǎng)景流量模型下，就會(huì)因?yàn)镋CMP哈希機(jī)制，造成6（三）AI大模型訓(xùn)練周期長(zhǎng)，需要高可用健壯網(wǎng)絡(luò)降低MTBFAI大模型訓(xùn)練周期長(zhǎng)，中斷次數(shù)多，如何降低MTBF（平均無(wú)據(jù)披露，某個(gè)千億大模型總訓(xùn)練時(shí)長(zhǎng)為65重啟達(dá)到50多次，而真正的訓(xùn)練時(shí)長(zhǎng)只有33天，平均無(wú)故障時(shí)間7AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告?zhèn)鹘y(tǒng)運(yùn)維平臺(tái)基于SNMP數(shù)據(jù)采集技術(shù)，用于監(jiān)控網(wǎng)絡(luò)設(shè)備的內(nèi)存、接口指標(biāo)等基礎(chǔ)網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)廣度和精度均無(wú)法滿足運(yùn)維AI集群的通信是集合通信，即多個(gè)通信交互，才能拼接出一個(gè)8AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告接入?yún)^(qū)：Internet和專線網(wǎng)絡(luò)接入，部署數(shù)據(jù)中心的外網(wǎng)接入設(shè)9AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告護(hù)管理數(shù)據(jù)中心的AI服務(wù)器、通用服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)交換機(jī)存儲(chǔ)區(qū)：高速大帶寬互聯(lián)的存儲(chǔ)系統(tǒng)，AI場(chǎng)景下主要用于訓(xùn)練本文將重點(diǎn)描述AI集群計(jì)算區(qū)的網(wǎng)絡(luò)設(shè)計(jì)，AI計(jì)算集群區(qū)的物理網(wǎng)絡(luò)如下圖所示，包括參數(shù)面、樣本面、AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告參數(shù)面網(wǎng)絡(luò)：承擔(dān)模型訓(xùn)練過(guò)程中AI計(jì)算節(jié)點(diǎn)之間參數(shù)交換的流量，要求具備高帶寬無(wú)損能力，采用CLOS/Fat-tree/多軌道優(yōu)化架樣本面網(wǎng)絡(luò)：承擔(dān)模型訓(xùn)練過(guò)程中AI計(jì)算節(jié)點(diǎn)訪問(wèn)存儲(chǔ)系統(tǒng)的業(yè)務(wù)面網(wǎng)絡(luò)：承擔(dān)系統(tǒng)業(yè)務(wù)調(diào)度與帶內(nèi)管理流量，采用多層AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告業(yè)務(wù)面和管理面網(wǎng)絡(luò)通常采用傳統(tǒng)的TCP/IP協(xié)議，對(duì)帶寬和丟包有一定的容忍；參數(shù)面和樣本面網(wǎng)絡(luò)使用RDMA協(xié)議，對(duì)帶寬和同，Leaf交換機(jī)收斂比1：1，也即Leaf和服務(wù)器之間流量總帶寬，AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告在AI集群組網(wǎng)實(shí)踐中，三層組網(wǎng)通常都采三層組網(wǎng)的第三層網(wǎng)絡(luò)通常采用多平面方式實(shí)現(xiàn)組網(wǎng)的彈性擴(kuò)機(jī)容量和端口數(shù)量一定時(shí)，也可以通過(guò)AI大模型合理的并行策略（DP/TP/PP)合理規(guī)劃網(wǎng)絡(luò)流量，此時(shí)可以在第二層和第三層之間引入一定的收斂比，從而達(dá)到最大化集群規(guī)模的目的。在典型的AI參數(shù)網(wǎng)中，除了傳統(tǒng)的CLOS組網(wǎng)拓?fù)湟酝?，還有AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告AI集群訓(xùn)練場(chǎng)景，流量周期性循環(huán)進(jìn)行、單流帶寬大、流數(shù)量少，訓(xùn)練性能受限于最慢的流量。傳統(tǒng)基于流的五元組進(jìn)行hash機(jī)于交換機(jī)轉(zhuǎn)發(fā)時(shí)延，因此交換機(jī)轉(zhuǎn)發(fā)時(shí)延在訓(xùn)練場(chǎng)景下并不AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告2）全局沖突：當(dāng)發(fā)往同一TOR下不同網(wǎng)口的多條流ECMP選路到同一SPINE時(shí)，SPINE下行端口會(huì)出現(xiàn)擁塞，分布式?jīng)Q策算法ECMP機(jī)制導(dǎo)致的流量不均，可通過(guò)以下兩條技術(shù)傳統(tǒng)的ECMP是本地哈希機(jī)制，即每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)只根據(jù)數(shù)據(jù)包序，但需要網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)解決hash沖突問(wèn)題，通過(guò)繪制全局網(wǎng)絡(luò)調(diào)度對(duì)訓(xùn)練的影響會(huì)達(dá)到20%以上，網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)NSLB(NetworkScaleLoadBalance)可解決Leaf上行ECMPHash沖突、Spine下行ECMPHash沖突、多Leaf計(jì)算資源不均導(dǎo)致流量沖突、AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告或者可以考慮動(dòng)態(tài)負(fù)載均衡DLB來(lái)解決網(wǎng)絡(luò)負(fù)載不均問(wèn)題，動(dòng)ECMPDLB整體處理流程：在入方向流水線轉(zhuǎn)發(fā)查表獲取下一置來(lái)劃分質(zhì)量等級(jí)，作為DLB選路的影響因子。AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告可靠性：一個(gè)Leaf交換機(jī)故障，會(huì)導(dǎo)性能：超過(guò)64NPU/GPU（64*100GE交換機(jī)）的通信需要上升個(gè)計(jì)算節(jié)點(diǎn)64個(gè)NPU，滿足單柜布局鄰柜布線偏執(zhí)電流、電壓、溫度、CRC錯(cuò)包數(shù)，識(shí)別出指標(biāo)有異常后會(huì)生成AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告的參數(shù)可視化，主要包括：1）PFC反壓幀統(tǒng)計(jì)信息；2）ECN標(biāo)記AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告部署，物理隔離。性能文件存儲(chǔ)服務(wù)器和訓(xùn)練服務(wù)器應(yīng)配置不小于智算場(chǎng)景下的業(yè)務(wù)面與通算基本一致，無(wú)特殊要求。需要考慮Spine和Leaf、以及服務(wù)器間聯(lián)接要求：1三層組網(wǎng)方案，相互之間獨(dú)立，任意一臺(tái)故障不影響業(yè)務(wù)轉(zhuǎn)發(fā)。3）寬與下行帶寬收斂比不宜超過(guò)1:3，交換機(jī)之間互聯(lián)鏈路宜通過(guò)AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告基于VxLAN的組網(wǎng)和三層交換功能、IPv6及廣播抑制等功能。2）Leaf交換機(jī)應(yīng)符合接入交換機(jī)功能要求并應(yīng)支持基于VxLAN的組網(wǎng)應(yīng)支持三層交換功能。3）可根據(jù)業(yè)務(wù)需求確定Spine交換機(jī)和Leaf管理面由管理匯聚交換機(jī)、管理接入交換機(jī)、IPMI接入交換機(jī)業(yè)務(wù)管理網(wǎng)口宜采用雙上聯(lián)跨管理接入交換機(jī)，帶寬不宜小于AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告攻擊或故障時(shí)，管理通道依然可用；2）能支持遠(yuǎn)程啟動(dòng)、關(guān)閉、重未授權(quán)訪問(wèn)；4）能集成高級(jí)監(jiān)控工具，實(shí)時(shí)監(jiān)控硬件狀態(tài)和系統(tǒng)日志，通過(guò)短信、電郵等方式在異常時(shí)發(fā)送告警，加速科大訊飛股份有限公司是亞太地區(qū)知名的智能語(yǔ)音和人工智能訊飛星火認(rèn)知大模型采用華為星河AI數(shù)據(jù)中心網(wǎng)絡(luò)解決方案，AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告24年是AI爆發(fā)的一年，移動(dòng)基于“4+N+31+X”布局全國(guó)算力A

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔