智算中心高性能網(wǎng)絡(luò)中的擁塞控制方案_第1頁
智算中心高性能網(wǎng)絡(luò)中的擁塞控制方案_第2頁
智算中心高性能網(wǎng)絡(luò)中的擁塞控制方案_第3頁
智算中心高性能網(wǎng)絡(luò)中的擁塞控制方案_第4頁
智算中心高性能網(wǎng)絡(luò)中的擁塞控制方案_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

AI大模型訓(xùn)練、HPC、高性能存儲等業(yè)務(wù)應(yīng)用場景提出了海量規(guī)模的計(jì)算需求,與傳統(tǒng)數(shù)據(jù)中心業(yè)務(wù)相比,在流量模型和網(wǎng)絡(luò)需求方面有著顯著區(qū)別,驅(qū)使傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)向智算中心和無損網(wǎng)絡(luò)轉(zhuǎn)型?;赗DMA的高性能網(wǎng)絡(luò)已成為智算中心廣泛應(yīng)用的核心基礎(chǔ)設(shè)施,但RDMA對于網(wǎng)絡(luò)丟包異常敏感,如果丟包會導(dǎo)致網(wǎng)絡(luò)性能急劇下降。在RoCEv2無損網(wǎng)絡(luò)中利用PFC流控機(jī)制,實(shí)現(xiàn)交換機(jī)端口緩存溢出前暫停對端流量,阻止了丟包現(xiàn)象發(fā)生,但由于PFC需要逐級反壓,效率較低,同時(shí),PFC是一種粗粒度機(jī)制,運(yùn)行在【端口+優(yōu)先級】這個(gè)級別,不能細(xì)化到每一個(gè)Flow,可能會導(dǎo)致?lián)矶侣樱M(jìn)而出現(xiàn)不公平現(xiàn)象、線頭阻塞、PFC死鎖、PFC風(fēng)暴等一系列性能問題。如果能夠動(dòng)態(tài)地調(diào)整每個(gè)Flow的發(fā)送速率,保持端口的隊(duì)列深度比較穩(wěn)定,那么就不會觸發(fā)PFCPause了,因此,就需要有基于Flow的擁塞控制算法。近年來業(yè)內(nèi)聚焦在RDMA高性能網(wǎng)絡(luò)的擁塞控制算法領(lǐng)域,進(jìn)行了大量的前沿研究和工程實(shí)踐工作。擁塞控制算法分類根據(jù)擁塞控制機(jī)制的不同,RDMA網(wǎng)絡(luò)中的擁塞控制方案可以分為兩大類:被動(dòng)擁塞控制和主動(dòng)擁塞控制。這里的所謂主動(dòng)和被動(dòng)的區(qū)分依據(jù),主要是主動(dòng)擁塞控制以“請求和分配”方式運(yùn)行;而被動(dòng)擁塞控制則使用“嘗試和退避/tryandbackoff”的方式運(yùn)行。注:不同廠家的叫法不同,有些被動(dòng)擁塞控制的改進(jìn)算法,也被稱為主動(dòng)擁塞控制,這個(gè)我們不做深入的討論,比如HW的NPCC(Network-basedProactiveCongestionControl),NPCC支持在網(wǎng)絡(luò)設(shè)備上智能識別擁塞狀態(tài),然后由網(wǎng)絡(luò)設(shè)備主動(dòng)向發(fā)送端服務(wù)器發(fā)送CNP報(bào)文,使發(fā)送端服務(wù)器及時(shí)降低發(fā)送報(bào)文的速率,解決了擁塞反饋路徑過長的問題,而且可以準(zhǔn)確控制發(fā)送的CNP報(bào)文個(gè)數(shù)。但按上面的分類,其本質(zhì)還是被動(dòng)擁塞控制,只不過對某些環(huán)節(jié)進(jìn)行優(yōu)化而已。被動(dòng)擁塞控制被動(dòng)擁塞控制又分為迭代探測和直接測量兩種,迭代探測中有基于主機(jī)側(cè)的端到端的控制方案,也有基于交換機(jī)輔助的控制方案。迭代探測中,比較常見有基于丟包檢測的CUBIC(丟包情況下才會觸發(fā)的擁塞控制方案,不適用RDMA剛性兌付網(wǎng)絡(luò)的要求,不在本文的討論范圍內(nèi))、基于ECN的DCQCN、基于時(shí)延檢測的Timely、Swift等,但一個(gè)共同的特點(diǎn)是發(fā)送端根據(jù)網(wǎng)絡(luò)的擁塞反饋信號,對發(fā)送速率進(jìn)行調(diào)節(jié)。這類技術(shù)由于實(shí)現(xiàn)簡單、易于部署被廣泛使用,但通常被認(rèn)為存在擁塞反應(yīng)滯后、控制回環(huán)時(shí)間長、容易引起吞吐率震蕩、速率收斂慢、誤傷老鼠流等問題,因此有很大的優(yōu)化空間。直接測量的擁塞控制方案,直接測量算法的關(guān)鍵是利用交換機(jī)來精確測量當(dāng)前的網(wǎng)絡(luò)狀態(tài)并顯式反饋信息,

以便發(fā)送端快速做出擁塞反應(yīng),

并能準(zhǔn)確地根據(jù)測量信息進(jìn)行速率分配、控制網(wǎng)絡(luò)擁塞。如基于INT遙測的HPCC,HPCC在數(shù)據(jù)面上找到了突破,通過智能網(wǎng)卡與交換機(jī)的配合,端到端實(shí)時(shí)抓取擁塞信息,從而精確獲取實(shí)時(shí)的鏈路負(fù)載,并且根據(jù)精確的鏈路負(fù)載來計(jì)算合適的發(fā)送速率。主動(dòng)擁塞控制與上述網(wǎng)絡(luò)擁塞發(fā)生后再進(jìn)行擁塞控制的被動(dòng)擁塞控制方案不同,主動(dòng)擁塞控制方案旨在防止擁塞發(fā)生,只有網(wǎng)絡(luò)管道具有足夠的容量時(shí)才發(fā)送數(shù)據(jù)。主動(dòng)擁塞控制以“請求和分配”方式運(yùn)行,通過調(diào)度器主動(dòng)對網(wǎng)絡(luò)帶寬進(jìn)行統(tǒng)一的預(yù)約和分配,

以使總發(fā)送速率盡可能匹配瓶頸鏈路帶寬,這樣既可以充分利用帶寬,又能防止丟包。根據(jù)調(diào)度器的是集中部署還是分布式部署,集中式調(diào)度器的方案,主要依靠集中式調(diào)度器對網(wǎng)絡(luò)資源預(yù)約和分配,終端依據(jù)調(diào)度器的分配進(jìn)行數(shù)據(jù)包發(fā)送,該方案的關(guān)鍵是調(diào)度器如何對數(shù)據(jù)包進(jìn)行全局調(diào)度,如FastPass;分布式部署方案,又可以進(jìn)一步細(xì)分為端到端的方案和逐跳的方案,在分布式端到端的擁塞控制方案中,發(fā)送端直接發(fā)送請求到接收端,由接收端預(yù)約和分配網(wǎng)絡(luò)資源,而不需要交換機(jī)的參與;而逐跳的擁塞控制方案中,需要交換機(jī)對網(wǎng)絡(luò)中間鏈路輔以檢測和管理,發(fā)送端、接收端共同完成資源的分配和調(diào)度,方案的關(guān)鍵是如何利用交換機(jī)提供的信息來進(jìn)行或輔助數(shù)據(jù)包的調(diào)度發(fā)送,分布式部署方案比較典型的如ExpressPass。主要擁塞控制算法基于ECN的擁塞控制2015年SIGCOMM會上微軟發(fā)表了DCQCN,揭開了擁塞流控的研究序幕。此前,RDMA硬件僅僅依賴于傳統(tǒng)網(wǎng)絡(luò)的PFC反壓機(jī)制來實(shí)現(xiàn)點(diǎn)到點(diǎn)的發(fā)送速度控制,沒有網(wǎng)卡的配合,無法實(shí)現(xiàn)端到端的流控。DCQCN是在QCN和DCTCP的技術(shù)基礎(chǔ)上,為RDMA網(wǎng)絡(luò)設(shè)計(jì)了端到端的擁塞流控機(jī)制,DCQCN的設(shè)計(jì)前提還是基于ECN標(biāo)記。DCQCN的擁塞控制過程中主要分為三部分:發(fā)送端(RP)調(diào)整流量發(fā)送速率,沿途轉(zhuǎn)發(fā)交換機(jī)(CP)利用ECN標(biāo)記報(bào)文攜帶網(wǎng)絡(luò)鏈路的擁塞信息,接收端(NP)將收到擁塞標(biāo)記通過CNP協(xié)議報(bào)文反饋給發(fā)送端。通過各種優(yōu)化參數(shù)配置,DCQCN能實(shí)現(xiàn)很好的端到端擁塞控制效果,既能保證吞吐,和業(yè)務(wù)低時(shí)延。但是,DCQCN并不能消除對PFC的依賴,仍需要使用PFC做來避免丟包,只是DCQCN會大大降低PFC發(fā)生的頻率,也是目前應(yīng)用比較廣泛的RDMA網(wǎng)絡(luò)擁塞控制技術(shù)。優(yōu)勢:分布式控制:引入了分布式控制的思想,允許數(shù)據(jù)中心網(wǎng)絡(luò)中的交換機(jī)獨(dú)立地進(jìn)行擁塞檢測和控制,這種分布式方法可以更好地適應(yīng)大規(guī)模網(wǎng)絡(luò)的動(dòng)態(tài)性和異構(gòu)性;基于流實(shí)現(xiàn)擁塞控制,降低擁塞反饋時(shí)間,提高流啟動(dòng)速率和收斂速率。劣勢:需要PFC配合使用,仍然無法避免不公平現(xiàn)象、線頭阻塞、PFC死鎖、PFC風(fēng)暴等問題;控制模型參數(shù)過多,性能與參數(shù)選擇強(qiáng)相關(guān),導(dǎo)致調(diào)參復(fù)雜,如DCQCN具有超過16個(gè)可調(diào)節(jié)的參數(shù),為了更加適應(yīng)不同的網(wǎng)絡(luò)拓?fù)浜土髁凯h(huán)境,其參數(shù)的調(diào)整顯得格外重要,不同參數(shù)下的網(wǎng)絡(luò)吞吐會有50%以上的差異;擁塞反應(yīng)滯后、控制回環(huán)時(shí)間長、容易引起吞吐率震蕩、速率收斂慢或者響應(yīng)不準(zhǔn)確,影響網(wǎng)絡(luò)性能。基于時(shí)延或RTT的擁塞控制基于主機(jī)側(cè)端到端的被動(dòng)擁塞控制方案中,最具代表性的是擁塞控制算法Timely。2015年,谷歌提出了一種基于時(shí)延的擁塞控制方案Timely。Timely使用數(shù)據(jù)流的往返傳遞時(shí)間RTT作為量化鏈路擁塞的信息,并設(shè)計(jì)了一套相應(yīng)的梯度調(diào)速算法。相較于傳統(tǒng)的軟件測量的RTT,谷歌方案在他們的智能網(wǎng)卡中集成了專有的RTT硬件測量電路,這使得RTT測量擁塞的方案得以實(shí)用化。在網(wǎng)絡(luò)中,端到端傳輸延遲主要是由網(wǎng)絡(luò)節(jié)點(diǎn)中的排隊(duì)延遲引起的。也就是說,數(shù)據(jù)包的往返時(shí)間RTT可以體現(xiàn)其通過的所有隊(duì)列的排隊(duì)延遲,反映網(wǎng)絡(luò)中的擁塞狀態(tài)。RTT是有效的擁塞信號,相比于擁塞信號ECN,RTT不需要任何交換機(jī)進(jìn)行反饋,因此也不需要對交換機(jī)進(jìn)行任何修改,當(dāng)網(wǎng)絡(luò)規(guī)模較大時(shí),也減少了對交換機(jī)進(jìn)行配置、維護(hù)和調(diào)優(yōu)的開銷。而且不同于ECN作為單點(diǎn)反饋信號,RTT可以反映整條路徑上的擁塞情況。Timely在發(fā)送方的網(wǎng)卡上即可實(shí)現(xiàn),主要由三個(gè)部分構(gòu)成:RTT測量引擎,速率計(jì)算引擎和速率控制引擎。當(dāng)收到ACK時(shí),智能網(wǎng)卡會啟動(dòng)RTT測量引擎以精確測量RTT值。當(dāng)RTT測量引擎測得RTT后,會把RTT的值傳遞給速率計(jì)算引擎。速率計(jì)算引擎是擁塞控制算法的核心部分,根據(jù)RTT的梯度值計(jì)算流的發(fā)送速率。速率控制引擎再根據(jù)速率計(jì)算引擎算得的發(fā)送速率調(diào)整每條流的發(fā)送速度。優(yōu)勢:端到端擁塞控制,無需交換機(jī)的配合;基于發(fā)送速率控制而非基于窗口更適合低延時(shí)DC網(wǎng)絡(luò),提高帶寬利用率。劣勢:對時(shí)鐘同步的依賴:Timely對時(shí)鐘同步要求較高,需要確保網(wǎng)絡(luò)中的時(shí)鐘同步性能良好,否則可能影響算法的準(zhǔn)確性,成本高;復(fù)雜性:Timely的設(shè)計(jì)相對較為復(fù)雜,需要綜合考慮多個(gè)資源的調(diào)整,這可能使得實(shí)現(xiàn)和管理相對繁瑣;對RTT的變化敏感,需要合理的建模避免過反應(yīng)?;贗NT的擁塞控制2019

年,阿里云提出了一種基于帶內(nèi)遙測INT的擁塞控制協(xié)議HPCC。相比于DCQCN

和Timely,HPCC方法犧牲了一定的帶寬引入了INT能力,同時(shí)也獲得了超高精度的擁塞控制性能。HPCC可以實(shí)現(xiàn)快速的算法收斂以更優(yōu)的利用閑置帶寬,同時(shí)保持交換機(jī)始終處于近零隊(duì)列,從而實(shí)現(xiàn)超低的數(shù)據(jù)傳輸延遲。傳統(tǒng)的擁塞控制算法主要依賴于丟包,RTT時(shí)延,以及ECN擁塞標(biāo)識,發(fā)送端根據(jù)ECN等擁塞標(biāo)記試探性調(diào)整發(fā)送速率,這可能導(dǎo)致網(wǎng)絡(luò)收斂速度慢。當(dāng)擁塞發(fā)生報(bào)文被標(biāo)記指示路徑擁塞程度字段時(shí),交換機(jī)隊(duì)列已緩存了一定數(shù)量的數(shù)據(jù)報(bào)文,此時(shí)再調(diào)整發(fā)送速率已經(jīng)來不及了。同時(shí),由于缺乏精準(zhǔn)的擁塞信息,發(fā)送端試探性調(diào)整速率往往需要配合很多參數(shù)調(diào)優(yōu)來保證性能,這也增加了在不同場景下的同一套流控機(jī)制調(diào)優(yōu)的難度。HPCC在數(shù)據(jù)面上找到了突破,通過智能網(wǎng)卡與交換機(jī)的配合,端到端實(shí)時(shí)抓取擁塞信息,從而精確獲取實(shí)時(shí)的鏈路負(fù)載,并且根據(jù)精確的鏈路負(fù)載來計(jì)算合適的發(fā)送速率。與DCQCN依賴定時(shí)器驅(qū)動(dòng)不同,HPCC速率調(diào)整根據(jù)數(shù)據(jù)包的ACK來驅(qū)動(dòng)。HPCC借助更細(xì)粒度鏈路負(fù)載信息并重新設(shè)計(jì)了擁塞控制算法,能夠在大規(guī)模網(wǎng)絡(luò)下快速收斂、降低對大Buffer的依賴、保證數(shù)據(jù)流的公平性。優(yōu)勢:擁塞控制準(zhǔn)確度高,解決了在擁塞期間處理延遲的INT信息和對INT信息的過度反應(yīng)等挑戰(zhàn);快速收斂、帶寬利用率高,可以維持超淺隊(duì)列以獲得超低延遲。劣勢:網(wǎng)卡和交換機(jī)都需要支持INT,交換機(jī)需要提供

INT

信息,網(wǎng)卡需要支持處理

INT

的能力,部署成本高;對增量部署不夠友好?;谛庞玫膿砣刂?014年,J.Perry等人提出了基于集中式調(diào)度器的主動(dòng)擁塞控制方案FastPass,它改變了以往通過收發(fā)端和交換機(jī)分布式解決時(shí)延問題的方式,采用集中控制的方式,從而真正實(shí)現(xiàn)全局最優(yōu)。它在網(wǎng)絡(luò)中設(shè)置一個(gè)集中的調(diào)度器,所有發(fā)送端都需要與調(diào)度器交互信息,從而確定傳送速率和路徑,以此達(dá)到?jīng)]有排隊(duì)延遲,高帶寬利用以及網(wǎng)絡(luò)中流之間的資源共享,這種集中控制的方式類似于通過中心的導(dǎo)航系統(tǒng)為汽車導(dǎo)航,能夠選擇最優(yōu)的通行方式到達(dá)目的地。FastPass不僅要對所有網(wǎng)絡(luò)的需求有全面的了解,還需要對每個(gè)數(shù)據(jù)包進(jìn)行調(diào)度,算法開銷大,不利于部署在規(guī)模大的網(wǎng)絡(luò)中;另外,全局調(diào)度器會有單點(diǎn)故障的問題。2017年I.Cho等人提出ExpressPass,它是一個(gè)端到端的基于Credit的擁塞控制協(xié)議。在發(fā)送數(shù)據(jù)包之前,ExpressPass來預(yù)先探測擁塞,從而使數(shù)據(jù)傳輸能夠保證有界延遲和快速收斂,并且可以應(yīng)對Burst的到來,與傳統(tǒng)TCP不同的是,當(dāng)需要發(fā)送時(shí),首先需要向接收端請求Credit,當(dāng)接收端回傳一個(gè)Credit,發(fā)送端才會發(fā)送一個(gè)包。有點(diǎn)類似于先買票再上車,人票對應(yīng)。ExpressPass利用交換機(jī)來限制Credit的速率從而限制發(fā)送端速率。它的核心思想是將網(wǎng)絡(luò)傳輸過程中正向擁塞通過交換機(jī)漏桶算法轉(zhuǎn)換成反向Credit的擁塞,同時(shí)通過對短小的Credit進(jìn)行擁塞控制,進(jìn)而使正向網(wǎng)絡(luò)不丟包,從而提升網(wǎng)絡(luò)傳輸性能。它的本質(zhì)是通過預(yù)先探測網(wǎng)絡(luò)中的剩余帶寬,進(jìn)而可以準(zhǔn)確確定發(fā)送速度。優(yōu)勢:保證數(shù)據(jù)傳輸?shù)挠薪缪舆t和快速收斂,有效避免Burst;提升淺Buffer可用性,降低丟包可能,減少重傳,從而達(dá)到高性能。劣勢:每次發(fā)送都需要等待Credit發(fā)送接收的RTT,對短流和長距網(wǎng)絡(luò)不友好,對于短流來說,本來直接發(fā)送即可,在ExpressPass中卻需要等Credit,并且有更大比例的Credit被浪費(fèi),如何更精確地控制Credit和分配是挑戰(zhàn)??偨Y(jié)業(yè)內(nèi)的常見擁塞控制算法匯總?cè)缦拢夯贓CN的CC:微軟DCQCN、華為LDCP/NPCC等;基于INT的CC:阿里HPCC/HPCC++、谷歌CSIG等;基于RTT的CC:谷歌Timely/Swift/BBR、Copa、Nimbus、亞馬遜SRD等;基于Credit的CC:英偉達(dá)IB網(wǎng)絡(luò)、FastPass、pHost、ExpressPass等。另外,超級以太網(wǎng)聯(lián)盟UEC也非常重視擁塞控制的方案實(shí)現(xiàn),幾個(gè)重點(diǎn)實(shí)現(xiàn)目標(biāo)中就包括定義了一個(gè)可選的基于接收端的擁塞控制,它給發(fā)送端分配信用Credit,從而增強(qiáng)了基于發(fā)送端的擁塞控制,另外,也定了端到端遙測,端網(wǎng)協(xié)同的擁塞控制方案,可選支持對交換機(jī)的高級遙測進(jìn)行增強(qiáng),可縮短控制平面的信令時(shí)間,從而能夠快速感知短時(shí)擁塞事件并做出反應(yīng),這種快速反應(yīng)時(shí)間對于較高的鏈路速度尤其重要。綜上所述,各種類型的擁塞控制方案,在公平性、收斂速度、帶寬利用、穩(wěn)定性、魯棒性、隊(duì)列長度、兼容性、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論