RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第1頁
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第2頁
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第3頁
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第4頁
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

在快速增長的人工智能(AI)和機器學(xué)習(xí)(ML)領(lǐng)域,數(shù)據(jù)中心對高性能計算(HPC)系統(tǒng)的需求正在迅速提升。HPC需要快速、低延遲的連接來實現(xiàn)高速、無縫通信。這引出了一個關(guān)鍵問題:傳統(tǒng)的TCP/IP堆棧是否足以有效支持HPC網(wǎng)絡(luò)通信?

遠程直接內(nèi)存訪問(RDMA)是HPC和存儲網(wǎng)絡(luò)領(lǐng)域中備受青睞的技術(shù)之一,它能夠在內(nèi)存到內(nèi)存級別提供高吞吐量和低延遲的數(shù)據(jù)傳輸,同時避免給CPU帶來額外的負擔。RDMA允許從一臺計算機直接訪問另一臺計算機上的內(nèi)存,從而實現(xiàn)了無縫的數(shù)據(jù)傳輸體驗。此操作完全由網(wǎng)絡(luò)適配器硬件處理,無需經(jīng)過操作系統(tǒng)軟件網(wǎng)絡(luò)堆棧的干預(yù)。

傳統(tǒng)模式與RDMA模式

HPC網(wǎng)絡(luò)利用InfiniBand(IB)堆棧,可實現(xiàn)RDMA技術(shù)的各項優(yōu)勢,包括高吞吐量、低延遲以及CPU旁路特性。此外,InfiniBand將擁塞管理直接集成到協(xié)議中。相比之下,傳統(tǒng)的TCP/IP協(xié)議棧會隨著網(wǎng)絡(luò)訪問帶寬的增加而導(dǎo)致CPU消耗的增加,從而進一步增加網(wǎng)絡(luò)傳輸延遲,顯然不適合HPC需求。

RDMA網(wǎng)絡(luò)協(xié)議

InfiniBand(原生RDMA):InfiniBand原生RDMA技術(shù)提供了基于通道的P2P消息隊列轉(zhuǎn)發(fā)模型,應(yīng)用可以通過虛擬通道直接訪問消息,從而繞過對操作系統(tǒng)和其他堆棧的需求。這不僅減輕了CPU的工作負擔,還實現(xiàn)了節(jié)點間高效的RDMA讀寫訪問。此外,InfiniBand的鏈路層集成了特定的重傳機制來支持QoS,從而消除了對數(shù)據(jù)緩沖的依賴。但要充分發(fā)揮其性能優(yōu)勢,需要專用的InfiniBand交換機和網(wǎng)卡。

iWARP(基于TCP的RDMA):互聯(lián)網(wǎng)廣域RDMA協(xié)議(iWARP)支持基于TCP的RDMA操作,通過標準以太網(wǎng)基礎(chǔ)設(shè)施提供RDMA功能。這允許組織將其現(xiàn)有的以太網(wǎng)交換機用于RDMA目的,并利用TCP的數(shù)據(jù)包丟失保護機制。但網(wǎng)卡必須支持iWARP,尤其是在利用CPU卸載技術(shù)時。

RoCEv1(二層以太網(wǎng)上的RDMA):RoCEv1是運行在以太網(wǎng)鏈路層上的RDMA協(xié)議,可以促進同一以太網(wǎng)廣播域內(nèi)任意兩臺主機之間的通信。為了實現(xiàn)物理層的可靠傳輸,交換機必須支持PFC(優(yōu)先級流控制)等流控機制。

RoCEv2(基于UDP的RDMA):RoCEv2解決了v1的局限性,即僅限于單個VLAN。它通過調(diào)整數(shù)據(jù)包封裝(包括IP和UDP標頭)來實現(xiàn)跨L2和L3網(wǎng)絡(luò)的使用。

RDMA協(xié)議棧

超大規(guī)模數(shù)據(jù)中心中的RoCEv2

在快節(jié)奏的超大規(guī)模數(shù)據(jù)中心領(lǐng)域,對高性能網(wǎng)絡(luò)解決方案的需求引發(fā)了人們對RoCEv2日益增長的興趣。RoCEv2代表了InfiniBand的性能優(yōu)勢與以太網(wǎng)的廣泛可訪問性的結(jié)合,從而在現(xiàn)有以太網(wǎng)基礎(chǔ)設(shè)施上實現(xiàn)無縫的RDMA功能。

RoCEv2利用了融合以太網(wǎng)基礎(chǔ)設(shè)施的優(yōu)勢,促進了傳統(tǒng)以太網(wǎng)流量與RDMA流量在同一網(wǎng)絡(luò)上的共存,簡化了網(wǎng)絡(luò)管理并消除了對單獨RDMA結(jié)構(gòu)的需求。然而,在融合以太網(wǎng)結(jié)構(gòu)中部署RoCEv2也同樣面臨挑戰(zhàn),例如通過分配必要的網(wǎng)絡(luò)資源、優(yōu)化UDP數(shù)據(jù)包封裝以及實施有效的擁塞控制機制(如優(yōu)先級流量控制(PFC)和中心量化擁塞通知(DCQCN))來確保無損和低延遲通信。本文深入研究了RoCEv2的復(fù)雜性,審視了其對UDP的封裝,并提出了資源分配和擁塞控制策略。

RoCEv2

要利用RoCEv2,源主機和目標主機上都需要支持RDMA的專用RDMANIC(RNIC)。RDMA卡的物理(PHY)速度通常是50Gbps起,目前已經(jīng)提升至高達400Gbps。

RoCEv2數(shù)據(jù)包格式

為了確保在IP和UDP第3層以太網(wǎng)上實現(xiàn)對RDMA流量的無縫傳輸,數(shù)據(jù)包封裝至關(guān)重要。專用UDP目標端口4791用于表示InfiniBand有效負載,同時針對不同的隊列對(QP),使用不同的源端口,可以實現(xiàn)等價多路徑(ECMP)負載共享,以優(yōu)化轉(zhuǎn)發(fā)效率。

具體來說:

-RoCEv2在IPv4/UDP或IPv6/UDP協(xié)議之上運行,使用以太網(wǎng)鏈路層的IP和UDP標頭替代InfiniBand網(wǎng)絡(luò)層,實現(xiàn)路由。-它默認使用UDP目標端口號4791。-UDP源端口被用作流標識符,可利用ECMP優(yōu)化數(shù)據(jù)包轉(zhuǎn)發(fā)。-RoCEv2流量和擁塞控制利用IP標頭中的優(yōu)先級流量控制(PFC)和顯式擁塞通知(ECN)位來管理擁塞,并使用擁塞通知數(shù)據(jù)包(CNP)幀進行確認。

RoCEv2數(shù)據(jù)包格式

RoCEv2Wireshark捕獲

RoCEv2以更低的成本提供卓越的多功能性,使其成為在傳統(tǒng)以太網(wǎng)環(huán)境中構(gòu)建高性能RDMA網(wǎng)絡(luò)的最佳選擇。但在這些交換機上配置Headroom、PFC和ECN設(shè)置等參數(shù)可能相當復(fù)雜。需要仔細注意以確保建立最佳配置才能獲得最佳性能。擁塞和路由等因素會顯著影響高性能網(wǎng)絡(luò)的帶寬和延遲。

在以太網(wǎng)中實施RoCEv2

為了發(fā)揮RDMA的真正性能,需要構(gòu)建無損網(wǎng)絡(luò)。在以太網(wǎng)交換機上實施RoCEv2需要注意以下關(guān)鍵因素,以確保最佳性能和兼容性:

1.MTU(最大傳輸單元):RoCEv2需要比傳統(tǒng)以太網(wǎng)流量更大的MTU,以容納額外的RDMA標頭。建議將最小MTU設(shè)置為9000字節(jié),以避免碎片并確保高效的數(shù)據(jù)傳輸。

2.QoS(服務(wù)質(zhì)量):實施QoS機制對于優(yōu)先考慮RoCEv2流量并確保低延遲通信至關(guān)重要。需要配置交換機隊列和調(diào)度算法,使RDMA流量比其他網(wǎng)絡(luò)流量具有更高的優(yōu)先級。差分服務(wù)代碼點(DSCP)標記可根據(jù)優(yōu)先級對流量進行分類,并根據(jù)其在網(wǎng)絡(luò)中的重要性對RoCEv2流量進行優(yōu)先級排序,實現(xiàn)更精細的QoS控制。以太網(wǎng)交換機應(yīng)支持基于DSCP的QoS,以有效管理RoCEv2流量并保持最佳網(wǎng)絡(luò)性能。

3.PFC(優(yōu)先級流量控制):PFC對于創(chuàng)建無損以太網(wǎng)至關(guān)重要,因為它可以防止數(shù)據(jù)包丟失并確保RDMA流量的可靠傳輸。交換機必須支持基于IEEE802.1Qbb標準的PFC,以實現(xiàn)RoCEv2的無損操作。

4.ECN(顯式擁塞通知):ECN在管理擁塞和維持最佳網(wǎng)絡(luò)性能方面發(fā)揮著至關(guān)重要的作用,特別是數(shù)據(jù)中心量化擁塞通知(DCQCN)。交換機必須支持ECN機制,才能對RoCEv2流量進行有效的擁塞控制。

以上是在以太網(wǎng)上實施RoCEv2時需要考慮的關(guān)鍵因素。接下來,讓我們深入研究兩個關(guān)鍵組件:優(yōu)先級流量控制(PFC)和數(shù)據(jù)中心量化擁塞通知(DCQCN)。這些機制在確保無損通信、有效管理擁塞以及維持RoCEv2流量的最佳網(wǎng)絡(luò)性能方面發(fā)揮著至關(guān)重要的作用。

PFC-基于優(yōu)先級的流量控制

優(yōu)先流量控制(PFC)是一種IEEE802.1Qbb鏈路層流量控制協(xié)議,旨在確保無丟包的網(wǎng)絡(luò)環(huán)境。PFC使接收器能夠通過通知發(fā)送器臨時停止特定優(yōu)先級的傳輸流量來實現(xiàn)流量控制。它提高了從物理端口到8個虛擬通道的流量控制的精度,并與8個硬件隊列(流量類別:TC0、TC1...TC7)對齊。同時,PFC利用DSCP為不同的流量啟用自動流量控制。

PFC操作

如上圖所示,當交換機緩沖區(qū)接近溢出時(由XOFF閾值表示,表示特定優(yōu)先級隊列中的緩沖區(qū)利用率較高),交換機會調(diào)度PFCPAUSE幀,以通知上游端口停止數(shù)據(jù)傳輸。當緩沖區(qū)使用率下降到XON閾值以下時,交換機會提示上游端口恢復(fù)流量,表示擁塞已緩解。凈空表示為容納傳輸中的數(shù)據(jù)包而保留的額外緩沖區(qū)空間。

PFC是基于服務(wù)類別(CoS)的流量控制協(xié)議。在擁塞期間,PFC通過發(fā)送暫停幀指示需要暫停傳輸?shù)腃oS值。每個PFC暫停幀都包含每個CoS的2個八位字節(jié)定時器值,指示應(yīng)暫停流量的持續(xù)時間。計時器以暫停量子為單位進行測量,其中量子表示以端口速度傳輸512位數(shù)據(jù)所需的時間,范圍為0到65535。如果暫停量子為0,則表示恢復(fù)流量,提示暫停的流量重新開始流動。PFC通過向指定地址發(fā)送暫停幀來指示對等方停止發(fā)送特定CoS值的幀。暫停幀僅在單跳內(nèi)傳輸,不會傳播到接收方之外。擁塞緩解后,PFC可以請求對端重新開始數(shù)據(jù)傳輸。

PFC幀格式

PFC的缺點在于它可能會導(dǎo)致入口端口處特定流量類別內(nèi)的所有流量停止傳輸,從而阻止了流向其他端口的流量。與PFC相關(guān)的常見問題包括隊頭(HoL)阻塞、不公平和死鎖情況。這些問題顯著降低了RoCEv2的吞吐量、延遲和利用率性能。因此,RoCEv2需要端到端的每流擁塞控制來調(diào)整流量,快速消除擁塞并最大限度地減少PFC的頻繁觸發(fā)。

DCQCN-使用ECN進行擁塞控制

數(shù)據(jù)中心量化擁塞通知(DCQCN)是專門為RoCEv2設(shè)計的端到端擁塞控制機制。它結(jié)合了ECN和PFC,旨在實現(xiàn)跨網(wǎng)絡(luò)的無丟包以太網(wǎng)連接。DCQCN的概念是利用ECN來進行流量控制,在發(fā)生擁塞時降低發(fā)送方的傳輸速率,從而有效地減少PFC的干預(yù)。

在DCQCN中,交換機充當擁塞點(CP),通過ECN字段監(jiān)控隊列長度和標志來檢測擁塞。交換機使用RED(隨機早期檢測)機制根據(jù)隊列長度對數(shù)據(jù)包進行概率性的ECN標記。接收方充當通知點(NP),生成擁塞通知數(shù)據(jù)包(CNP),并直接發(fā)送給發(fā)送方。然后,發(fā)送方充當反應(yīng)點(RP),如果在控制周期內(nèi)收到CNP,則降低流量;否則,它會增加由定時器和字節(jié)計數(shù)器確定的流量。

DCQCN操作

ECN利用IPv4或IPv6標頭中流量類別字段的兩個最低有效位(最右側(cè))對四個不同的代碼點進行編碼:

-0x00:不支持ECN的傳輸(非ECT)-0x10:支持ECN的傳輸0(ECT-0)-0x01:支持ECN的傳輸1(ECT-1)-0x11:遇到擁塞(CE)

如果發(fā)生擁塞,網(wǎng)絡(luò)設(shè)備會重新標記數(shù)據(jù)包為ECN遇到擁塞(0x11),但不會向發(fā)送方發(fā)送任何內(nèi)容。重新標記的數(shù)據(jù)包到達目的地后,目的地會向發(fā)送方發(fā)送通知以減少流量。路徑上的所有交換機或路由器都需要支持ECN。

在動態(tài)網(wǎng)絡(luò)環(huán)境中,PFC和DCQCN的結(jié)合使用可以優(yōu)化RDMA性能。DCQCN通過向端點數(shù)據(jù)路徑的任何地方發(fā)送擁塞信號,有效地緩解擁塞模式,如incast。同時,PFC通過減慢發(fā)送者的速度,有效地管理由端點附近的突發(fā)應(yīng)用程序引起的擁塞。在這種設(shè)置中,DCQCN充當主要的擁塞管理機制,而PFC則充當故障安全的備用解決方案。

結(jié)論

總的來說

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論