AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第1頁(yè)
AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第2頁(yè)
AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第3頁(yè)
AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第4頁(yè)
AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告 2024_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[編號(hào)ODCC-2024-05009]AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)開放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)2024.08發(fā)布AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點(diǎn)的,應(yīng)注明AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告編寫組 1 3 4 8 9 9 10(二)參數(shù)面網(wǎng)絡(luò) 12 12 14 17(三)樣本面網(wǎng)絡(luò) 18 19(五)管理面網(wǎng)絡(luò) 20 21 21(二)運(yùn)營(yíng)商行業(yè) 22 23AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告了頂峰。當(dāng)前,AI訓(xùn)練模型正在從萬(wàn)千小模型走向型時(shí)代,AI技術(shù)在千行百業(yè)中呈現(xiàn)出百模千態(tài)的繁榮局面,同時(shí)也在科技發(fā)展的浪潮中,AI的發(fā)展由算法、算力和數(shù)據(jù)三個(gè)核心1AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告定律和涌現(xiàn)能力,驅(qū)動(dòng)著AI大模型規(guī)模的持續(xù)增大。隨著GPT4、盤古等萬(wàn)億模型的發(fā)布,也正式標(biāo)志著,AI大模型進(jìn)入了萬(wàn)億模型模型正加速朝著多模態(tài)模型的方向發(fā)展。從VisionTransformer的提AI模型參數(shù)量的持續(xù)增大帶來(lái)算力需求的指數(shù)級(jí)增長(zhǎng),2012年規(guī)模,預(yù)計(jì)到2026年,智能算力規(guī)模將進(jìn)入ZFLOPS級(jí)別,達(dá)到2AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告為了滿足高速增長(zhǎng)的算力需求,AI大模型廠商都在加速建設(shè)大規(guī)模的GPU卡集群。隨著AI模型規(guī)模的持續(xù)增長(zhǎng),對(duì)數(shù)據(jù)集質(zhì)量也提出訓(xùn)練,比如噪聲數(shù)據(jù)、有毒數(shù)據(jù)、重復(fù)數(shù)據(jù),會(huì)損壞模型的性能。Meta的研究表明,更高質(zhì)量的數(shù)據(jù),比如量的語(yǔ)言數(shù)據(jù)將在2026年耗盡,低質(zhì)量的語(yǔ)言數(shù)據(jù)將在2030~2050年間枯竭。AI大模型馬上就將面臨訓(xùn)練樣本不足的挑戰(zhàn),人類需加二、AI發(fā)展對(duì)網(wǎng)絡(luò)挑戰(zhàn)隨著AI模型參數(shù)的規(guī)模越來(lái)越大,從千億增長(zhǎng)到萬(wàn)其次,AI處理器的成本高昂,為了充分發(fā)揮處理器性能,提高3AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告(一)AI大模型并行計(jì)算模式,催生超大容量網(wǎng)絡(luò)AI大模型訓(xùn)練相比通用計(jì)算需要更多的處理器參與并行計(jì)算,滿足大模型計(jì)算時(shí),可以將模型切分到不同的GPU卡上,使得每一以GTP-3為例,在每輪迭代中,如果使用數(shù)據(jù)并行方式,通信量可達(dá)到9.5GB/iter;如果使用流水線并行方式,通信量可達(dá)到4AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告可見,張量并行(TP)的通信量是數(shù)據(jù)并行(DP)和流水線并務(wù)器的范圍內(nèi)。若實(shí)現(xiàn)數(shù)據(jù)并行(DP)模式和流水線并行(PP)模特點(diǎn)是規(guī)模超大(>100K甚至達(dá)到百萬(wàn)規(guī)模,該網(wǎng)容量大,每個(gè)(二)AI處理器成本高昂,要求減少網(wǎng)絡(luò)時(shí)間,提升有效算力到端耗時(shí)占比達(dá)到20%,但是針對(duì)某個(gè)萬(wàn)億參數(shù)MoE(Mixtureof5AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告的HPC/AI/存儲(chǔ)業(yè)務(wù),但是在支持百萬(wàn)級(jí)超大規(guī)模AI網(wǎng)絡(luò)方面,還流控失效等挑戰(zhàn),需要在流控FC(FlowControl擁塞控制CC(CongestionControl)方面進(jìn)行創(chuàng)新。由于通用計(jì)算是短連接,每個(gè)服務(wù)器的流數(shù)量可達(dá)數(shù)千條;而AI服相比通用計(jì)算以KBytes/MBytes的小流為主,AI服務(wù)器的流量以流”的AI場(chǎng)景流量模型下,就會(huì)因?yàn)镋CMP哈希機(jī)制,造成6(三)AI大模型訓(xùn)練周期長(zhǎng),需要高可用健壯網(wǎng)絡(luò)降低MTBFAI大模型訓(xùn)練周期長(zhǎng),中斷次數(shù)多,如何降低MTBF(平均無(wú)據(jù)披露,某個(gè)千億大模型總訓(xùn)練時(shí)長(zhǎng)為65重啟達(dá)到50多次,而真正的訓(xùn)練時(shí)長(zhǎng)只有33天,平均無(wú)故障時(shí)間7AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告?zhèn)鹘y(tǒng)運(yùn)維平臺(tái)基于SNMP數(shù)據(jù)采集技術(shù),用于監(jiān)控網(wǎng)絡(luò)設(shè)備的內(nèi)存、接口指標(biāo)等基礎(chǔ)網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)廣度和精度均無(wú)法滿足運(yùn)維AI集群的通信是集合通信,即多個(gè)通信交互,才能拼接出一個(gè)8AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告接入?yún)^(qū):Internet和專線網(wǎng)絡(luò)接入,部署數(shù)據(jù)中心的外網(wǎng)接入設(shè)9AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告護(hù)管理數(shù)據(jù)中心的AI服務(wù)器、通用服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)交換機(jī)存儲(chǔ)區(qū):高速大帶寬互聯(lián)的存儲(chǔ)系統(tǒng),AI場(chǎng)景下主要用于訓(xùn)練本文將重點(diǎn)描述AI集群計(jì)算區(qū)的網(wǎng)絡(luò)設(shè)計(jì),AI計(jì)算集群區(qū)的物理網(wǎng)絡(luò)如下圖所示,包括參數(shù)面、樣本面、AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告參數(shù)面網(wǎng)絡(luò):承擔(dān)模型訓(xùn)練過(guò)程中AI計(jì)算節(jié)點(diǎn)之間參數(shù)交換的流量,要求具備高帶寬無(wú)損能力,采用CLOS/Fat-tree/多軌道優(yōu)化架樣本面網(wǎng)絡(luò):承擔(dān)模型訓(xùn)練過(guò)程中AI計(jì)算節(jié)點(diǎn)訪問(wèn)存儲(chǔ)系統(tǒng)的業(yè)務(wù)面網(wǎng)絡(luò):承擔(dān)系統(tǒng)業(yè)務(wù)調(diào)度與帶內(nèi)管理流量,采用多層AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告業(yè)務(wù)面和管理面網(wǎng)絡(luò)通常采用傳統(tǒng)的TCP/IP協(xié)議,對(duì)帶寬和丟包有一定的容忍;參數(shù)面和樣本面網(wǎng)絡(luò)使用RDMA協(xié)議,對(duì)帶寬和同,Leaf交換機(jī)收斂比1:1,也即Leaf和服務(wù)器之間流量總帶寬,AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告在AI集群組網(wǎng)實(shí)踐中,三層組網(wǎng)通常都采三層組網(wǎng)的第三層網(wǎng)絡(luò)通常采用多平面方式實(shí)現(xiàn)組網(wǎng)的彈性擴(kuò)機(jī)容量和端口數(shù)量一定時(shí),也可以通過(guò)AI大模型合理的并行策略(DP/TP/PP)合理規(guī)劃網(wǎng)絡(luò)流量,此時(shí)可以在第二層和第三層之間引入一定的收斂比,從而達(dá)到最大化集群規(guī)模的目的。在典型的AI參數(shù)網(wǎng)中,除了傳統(tǒng)的CLOS組網(wǎng)拓?fù)湟酝?,還有AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告AI集群訓(xùn)練場(chǎng)景,流量周期性循環(huán)進(jìn)行、單流帶寬大、流數(shù)量少,訓(xùn)練性能受限于最慢的流量。傳統(tǒng)基于流的五元組進(jìn)行hash機(jī)于交換機(jī)轉(zhuǎn)發(fā)時(shí)延,因此交換機(jī)轉(zhuǎn)發(fā)時(shí)延在訓(xùn)練場(chǎng)景下并不AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告2)全局沖突:當(dāng)發(fā)往同一TOR下不同網(wǎng)口的多條流ECMP選路到同一SPINE時(shí),SPINE下行端口會(huì)出現(xiàn)擁塞,分布式?jīng)Q策算法ECMP機(jī)制導(dǎo)致的流量不均,可通過(guò)以下兩條技術(shù)傳統(tǒng)的ECMP是本地哈希機(jī)制,即每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)只根據(jù)數(shù)據(jù)包序,但需要網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)解決hash沖突問(wèn)題,通過(guò)繪制全局網(wǎng)絡(luò)調(diào)度對(duì)訓(xùn)練的影響會(huì)達(dá)到20%以上,網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)NSLB(NetworkScaleLoadBalance)可解決Leaf上行ECMPHash沖突、Spine下行ECMPHash沖突、多Leaf計(jì)算資源不均導(dǎo)致流量沖突、AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告或者可以考慮動(dòng)態(tài)負(fù)載均衡DLB來(lái)解決網(wǎng)絡(luò)負(fù)載不均問(wèn)題,動(dòng)ECMPDLB整體處理流程:在入方向流水線轉(zhuǎn)發(fā)查表獲取下一置來(lái)劃分質(zhì)量等級(jí),作為DLB選路的影響因子。AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告可靠性:一個(gè)Leaf交換機(jī)故障,會(huì)導(dǎo)性能:超過(guò)64NPU/GPU(64*100GE交換機(jī))的通信需要上升個(gè)計(jì)算節(jié)點(diǎn)64個(gè)NPU,滿足單柜布局鄰柜布線偏執(zhí)電流、電壓、溫度、CRC錯(cuò)包數(shù),識(shí)別出指標(biāo)有異常后會(huì)生成AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告的參數(shù)可視化,主要包括:1)PFC反壓幀統(tǒng)計(jì)信息;2)ECN標(biāo)記AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告部署,物理隔離。性能文件存儲(chǔ)服務(wù)器和訓(xùn)練服務(wù)器應(yīng)配置不小于智算場(chǎng)景下的業(yè)務(wù)面與通算基本一致,無(wú)特殊要求。需要考慮Spine和Leaf、以及服務(wù)器間聯(lián)接要求:1三層組網(wǎng)方案,相互之間獨(dú)立,任意一臺(tái)故障不影響業(yè)務(wù)轉(zhuǎn)發(fā)。3)寬與下行帶寬收斂比不宜超過(guò)1:3,交換機(jī)之間互聯(lián)鏈路宜通過(guò)AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告基于VxLAN的組網(wǎng)和三層交換功能、IPv6及廣播抑制等功能。2)Leaf交換機(jī)應(yīng)符合接入交換機(jī)功能要求并應(yīng)支持基于VxLAN的組網(wǎng)應(yīng)支持三層交換功能。3)可根據(jù)業(yè)務(wù)需求確定Spine交換機(jī)和Leaf管理面由管理匯聚交換機(jī)、管理接入交換機(jī)、IPMI接入交換機(jī)業(yè)務(wù)管理網(wǎng)口宜采用雙上聯(lián)跨管理接入交換機(jī),帶寬不宜小于AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告攻擊或故障時(shí),管理通道依然可用;2)能支持遠(yuǎn)程啟動(dòng)、關(guān)閉、重未授權(quán)訪問(wèn);4)能集成高級(jí)監(jiān)控工具,實(shí)時(shí)監(jiān)控硬件狀態(tài)和系統(tǒng)日志,通過(guò)短信、電郵等方式在異常時(shí)發(fā)送告警,加速科大訊飛股份有限公司是亞太地區(qū)知名的智能語(yǔ)音和人工智能訊飛星火認(rèn)知大模型采用華為星河AI數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,AI數(shù)據(jù)中心網(wǎng)絡(luò)建網(wǎng)參考報(bào)告24年是AI爆發(fā)的一年,移動(dòng)基于“4+N+31+X”布局全國(guó)算力A

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論