以太網(wǎng)端側(cè)無(wú)擁塞亂序傳輸網(wǎng)絡(luò)技術(shù)報(bào)告 2024_第1頁(yè)
以太網(wǎng)端側(cè)無(wú)擁塞亂序傳輸網(wǎng)絡(luò)技術(shù)報(bào)告 2024_第2頁(yè)
以太網(wǎng)端側(cè)無(wú)擁塞亂序傳輸網(wǎng)絡(luò)技術(shù)報(bào)告 2024_第3頁(yè)
以太網(wǎng)端側(cè)無(wú)擁塞亂序傳輸網(wǎng)絡(luò)技術(shù)報(bào)告 2024_第4頁(yè)
以太網(wǎng)端側(cè)無(wú)擁塞亂序傳輸網(wǎng)絡(luò)技術(shù)報(bào)告 2024_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[編號(hào)ODCC-2024-0B001]開(kāi)放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)2024.09發(fā)布版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點(diǎn)的,應(yīng)注明I編寫(xiě)組 I 1 1 5 5 6 62.全調(diào)度架構(gòu)(FullySche 73.全調(diào)度以太網(wǎng)(GSE,GlobalSche 10 技術(shù)迅速觸發(fā)了AI大模型算力基礎(chǔ)設(shè)施建設(shè)的軍備競(jìng)賽,數(shù)據(jù)中心建設(shè)正式從“云化時(shí)代”轉(zhuǎn)向“算力時(shí)代”,從以通用計(jì)算CPU為主的算力時(shí)代向以智能計(jì)算GPU為主的算力時(shí)代過(guò)渡。云計(jì)算時(shí)代數(shù)據(jù)和400G高速網(wǎng)絡(luò)接入為主,所使用的通信協(xié)議RDMA采用硬件實(shí)網(wǎng)絡(luò)建設(shè)成為影響算力基礎(chǔ)設(shè)施整體計(jì)算能智算中心主要承載AI大模型訓(xùn)練業(yè)務(wù),其業(yè)務(wù)特點(diǎn)要求智算中1另外,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)的ECMP等價(jià)路由逐流轉(zhuǎn)發(fā)模式,會(huì)AI大模型訓(xùn)練涉及大量的數(shù)據(jù)傳輸,包括模型參數(shù)的同步、梯2于模型更快地完成一輪訓(xùn)練,加速收斂過(guò)程由于端側(cè)設(shè)備智能網(wǎng)卡/DPU在支持多路徑亂序傳輸能力時(shí),通常會(huì)3用于智算中心網(wǎng)絡(luò)互聯(lián)的RDMA智能網(wǎng)卡產(chǎn)品,通常需要支持幾千長(zhǎng)時(shí)間的大模型訓(xùn)練過(guò)程不能容忍網(wǎng)絡(luò)故障導(dǎo)致的訓(xùn)練中斷或修改通信時(shí)的數(shù)據(jù)流信息實(shí)現(xiàn)網(wǎng)絡(luò)轉(zhuǎn)發(fā)過(guò)程中4單條流的數(shù)據(jù)包會(huì)在同一路徑轉(zhuǎn)發(fā),而ECMP路由哈希選路的時(shí)候傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)多路徑傳輸網(wǎng)絡(luò)隨著智算中心網(wǎng)絡(luò)的發(fā)展和對(duì)網(wǎng)絡(luò)吞吐性能要求的提高,多路徑5Processing)、NCF(Net交換機(jī)的位置,NCP從網(wǎng)卡側(cè)接收到網(wǎng)絡(luò)數(shù)據(jù)后,切分成多個(gè)長(zhǎng)度6通過(guò)Credit授權(quán)的方式避免網(wǎng)絡(luò)內(nèi)部丟包,網(wǎng)卡側(cè)和NCP之間通過(guò)ScheduledFabric該技術(shù)采用入口虛擬輸出隊(duì)列(IngressVirtual7并沒(méi)有采用傳統(tǒng)的ECMP路由哈希選路的方式選擇一條路徑,而是交換機(jī)的總帶寬大于等于入口Leaf交換機(jī)與網(wǎng)卡之間的總帶寬,則如上圖所示,數(shù)據(jù)包從入口Leaf交換機(jī)經(jīng)過(guò)的發(fā)送給所有Spine交換機(jī),而不是選擇一條路徑轉(zhuǎn)發(fā)給出口Leaf8一種基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及負(fù)載分擔(dān)機(jī)制。該機(jī)制根據(jù)最終設(shè)備或設(shè)備出端口,將數(shù)據(jù)包邏輯分組,并長(zhǎng)”容器進(jìn)行轉(zhuǎn)發(fā)。屬于同一個(gè)報(bào)文容器的數(shù)據(jù)包被標(biāo)記為相同的容9在多路徑亂序傳輸網(wǎng)絡(luò)中,端側(cè)設(shè)備智能網(wǎng)卡/DPU策略驅(qū)動(dòng)由行為以及智能網(wǎng)卡/DPU在端側(cè)與應(yīng)用更近的優(yōu)勢(shì),實(shí)現(xiàn)亂序數(shù)據(jù)直臨時(shí)存儲(chǔ),實(shí)現(xiàn)方式更簡(jiǎn)單。不足是需要智能網(wǎng)卡/DPU和交換機(jī)設(shè)SuperNIC配合支持完整的自適應(yīng)路由功能,Spetrum交換機(jī)上根據(jù)上不同路徑轉(zhuǎn)發(fā)到目的網(wǎng)卡時(shí),會(huì)存在亂序情況,在SuperNIC上中包括了主要四大功能,分別是(GLB)GlobalLoadBalancing,博通在推出GLB技術(shù)之前,已經(jīng)有一個(gè)能夠感知本地出口負(fù)載情況力的GLB技術(shù),如下圖,在路由初次選路的時(shí)候,會(huì)根據(jù)全局路徑知路由又增加了ReactivePathRebalancing能力,即在每一個(gè)包轉(zhuǎn)發(fā)要能夠支持亂序處理能力的智能網(wǎng)卡/DPU來(lái)配合完成多路徑負(fù)載均如上圖所示,在發(fā)送端智能網(wǎng)卡/DPU在發(fā)送數(shù)據(jù)包的時(shí)候,將),利用RDMA擴(kuò)展頭RETH(RDMAExtendedT能力的新協(xié)議包括UEC(UltraEthernetConsortium給OCP的Falcon,對(duì)應(yīng)國(guó)內(nèi)主要支持亂序傳輸網(wǎng)絡(luò)的新協(xié)RDMA網(wǎng)絡(luò)端側(cè)設(shè)備通常具備高性能通信能力,RDM由網(wǎng)卡芯片硬件實(shí)現(xiàn),在有限的硬件資源條件內(nèi),支持RDMA這樣網(wǎng)絡(luò)時(shí)延,在不同時(shí)延時(shí)網(wǎng)絡(luò)的吞吐能力情況。可見(jiàn)Routing或SelectiveRepeat時(shí),在大于70微秒網(wǎng)絡(luò)時(shí)延時(shí)網(wǎng)絡(luò)性能有明顯下降趨勢(shì),在Go-Back-N重傳模式,則可以達(dá)到300微秒網(wǎng)在亂序傳輸網(wǎng)絡(luò)中,通過(guò)多路徑傳輸方式可以降低在網(wǎng)絡(luò)中Spine設(shè)備上的轉(zhuǎn)發(fā)排隊(duì)時(shí)間,對(duì)比傳統(tǒng)的逐流轉(zhuǎn)發(fā)模式,能夠有效度則成為了另一個(gè)影響網(wǎng)絡(luò)性能關(guān)鍵因素,傳,重傳的方式和過(guò)程會(huì)對(duì)網(wǎng)絡(luò)性能產(chǎn)生影響。RDMA協(xié)議上支持不同丟包比例時(shí),100G接口模式各種重傳方式的吞吐列PSN(PacketSequenceNumber)來(lái)判斷是否存在丟包,如果存在丟包則立即通過(guò)NAK(NegativeACK)報(bào)文觸發(fā)重傳,所以在網(wǎng)絡(luò)低的網(wǎng)絡(luò)中丟包率也較低時(shí),選擇性重傳(重傳的效率都比Go-Back-N重傳低,隨著丟包率的增加,選擇性重沒(méi)有接收到完整數(shù)據(jù)無(wú)法對(duì)之前的數(shù)據(jù)包進(jìn)行ACK確認(rèn),此時(shí)發(fā)送端側(cè)會(huì)出現(xiàn)發(fā)送窗口耗盡而未接

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論