全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第1頁
全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第2頁
全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第3頁
全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第4頁
全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

前言.................................................................................................................................................2縮略語列表.........................................................................................................................................41.背景與需求......................................................................................................................................52.GSE網(wǎng)絡(luò)架構(gòu)介紹........................................................................................................................62.2.1GSE整體架構(gòu)...........................................................................................................62.2.2GSE架構(gòu)設(shè)備...........................................................................................................72.2.3GSE架構(gòu)特性...........................................................................................................82.3.1兼容以太網(wǎng)技術(shù).......................................................................................................82.3.2無阻塞網(wǎng)絡(luò)...............................................................................................................92.3.3提高有效帶寬...........................................................................................................92.3.4優(yōu)化長尾時延技術(shù).................................................................................................103.GSE網(wǎng)絡(luò)核心技術(shù)......................................................................................................................103.1.1PKTC概念..............................................................................................................113.1.2PKTC開銷..............................................................................................................123.1.3GSEHeader位置....................................................................................................123.2.1動態(tài)負載信息構(gòu)建................................................................................................133.2.2動態(tài)路徑切換技術(shù)................................................................................................143.2.3流量排序機制........................................................................................................153.3.1基于全局的轉(zhuǎn)發(fā)技術(shù)............................................................................................163.3.2基于DGSQ的調(diào)度技術(shù).......................................................................................174.組網(wǎng)應用展望.............................................................................................................................21縮略語列表縮略語英文全名中文解釋AIArtificialIntelligence人工智能AIGCAI-GeneratedContent人工智能生產(chǎn)內(nèi)容CPUCentralProcessingUnit中央處理器DataProcessingUnit數(shù)據(jù)處理單元ECMPEqualCostMultiPath等價多路徑路由ExplicitCongestionNotification顯式擁塞通告FibreChannel光纖通道GPUGraphicsProcessingUnit圖形處理器GSFGlobalSchedulingFabirc全調(diào)度交換網(wǎng)絡(luò)GSOSGlobalSchedulingOperatingSystem全調(diào)度操作系統(tǒng)GSPGlobalSchedulingProcessor全調(diào)度網(wǎng)絡(luò)處理節(jié)點Head-of-lineblocking隊首阻塞JCTJobCompletionTime任務完成時間MachineLearning機器學習Priority-basedFlowControl基于優(yōu)先級的流量控制Physical端口物理層PKTCPacketContainer報文容器RDMARemoteDirectMemoryAccess遠程直接內(nèi)存訪問RDMAoverConvergedEthernet融合以太網(wǎng)承載RDMAVOQVirtualOutputQueue虛擬輸出隊列DGSQDynamicGlobalSchedulingQueue動態(tài)全局調(diào)度隊列1.背景與需求目前,AIGC(AI-GeneratedContent,人工智能生產(chǎn)內(nèi)容)發(fā)展迅猛,迭代速度呈現(xiàn)指數(shù)級增長,全球范圍內(nèi)經(jīng)濟價值預計將達到數(shù)萬億美元。在中國市場,AIGC的應用規(guī)模有望在2025年突破2000億元,這一巨大的潛力吸引著業(yè)內(nèi)領(lǐng)軍企業(yè)競相推出千億、萬億級參數(shù)量的大模型,底層GPU算力部署規(guī)模也達到萬卡級別。以GPT3.5為例,參數(shù)規(guī)模達1750億,作為訓練數(shù)據(jù)集的互聯(lián)網(wǎng)文本量也超過45TB,其訓練過程依賴于微軟專門建設(shè)的AI超算系統(tǒng),以及由1萬顆V100GPU組成的高性能網(wǎng)絡(luò)集群,總計算力消耗約為3640PF-days(即每分布式并行計算是實現(xiàn)AI大模型訓練的關(guān)鍵手段,通常包含數(shù)據(jù)并行、流水線并行及張量并行等多種并行計算模式。所有并行模式均需要多個計算設(shè)備間進行多次集合通信操作。另外,訓練過程中通常采用同步模式,多機多卡間完成集合通信操作后才可進行訓練的下一輪迭代或計算。智算中心網(wǎng)絡(luò)作為底層通信連接底座,需要具備高性能、低時延的通信能力。一旦網(wǎng)絡(luò)性能不佳,就會影響分布式訓練的質(zhì)量和速度。面向未來智算中心規(guī)模建設(shè)和AI大模型發(fā)展及部署需求,中國移動聯(lián)合多家合作伙伴推出了全調(diào)度以太網(wǎng)技術(shù)方案(GSE打造無阻塞、高帶寬及超低時延的新型智算中心網(wǎng)絡(luò),助力AIGC等高性能業(yè)務快速發(fā)展。2.GSE網(wǎng)絡(luò)架構(gòu)介紹全調(diào)度以太網(wǎng)面向AI、HPC等高性能計算場景設(shè)計,架構(gòu)設(shè)計遵循以下三大原則:全調(diào)度以太網(wǎng)構(gòu)建開放透明標準化的技術(shù)體系,供所有高性能計算生態(tài)涉及表、操作系統(tǒng)等上下游產(chǎn)業(yè)共同使用。全調(diào)度以太網(wǎng)可適應多種高性能計算場景,凡是涉及到無損、高帶寬利用率、超低時延需求的業(yè)務場景均可通用。全調(diào)度以太網(wǎng)不是重造以太網(wǎng),而是將高性能計算需求融入以太網(wǎng),可最大限度地重用以太網(wǎng)物理層,兼容以太網(wǎng)生態(tài)鏈,如光模塊、PHY層芯片等。為打造無阻塞、高帶寬、低時延的高性能網(wǎng)絡(luò),GSE架構(gòu)應運而生,該架構(gòu)主要包括計算層、網(wǎng)絡(luò)層和控制層三個層級,包含計算節(jié)點、GSP、GSF及GSOS等四類設(shè)備。2.2.1GSE整體架構(gòu)全調(diào)度以太網(wǎng)是具備無阻塞、高吞吐、低時延的新型以太網(wǎng)架構(gòu),可更好服務于高性能計算,滿足AI大模型部署及訓推需求。全調(diào)度以太網(wǎng)架構(gòu)自上而下分為三層,分別為控制層、網(wǎng)絡(luò)層和計算層,其中關(guān)鍵點在于創(chuàng)新的引入一種全新的動態(tài)全局隊列調(diào)度機制。動態(tài)全局調(diào)度隊列(DGSQ)不同于傳統(tǒng)的VOQ,其不是預先基于端口靜態(tài)分配,而是按需、動態(tài)基于數(shù)據(jù)流目標設(shè)備端口創(chuàng)建,為了節(jié)省隊列資源數(shù)量,甚至可以基于目標或途徑設(shè)備的擁塞反饋按需創(chuàng)建。基于DGSQ調(diào)度以實現(xiàn)在整個網(wǎng)絡(luò)層面的高吞吐、低時延、均衡調(diào)度??刂茖樱喊旨惺紾SOS,以及GSP和GSF設(shè)備端分布式NOS。其中,集中式GSOS用于提供網(wǎng)絡(luò)全局信息,實現(xiàn)基于全局信息編址(例如設(shè)備節(jié)點ID等)、日常運維管理等功能。設(shè)備端分布式NOS具備獨立的控制面和管理面,可運行容器的負載均衡、DGSQ調(diào)度等屬于設(shè)備自身的網(wǎng)絡(luò)功能,通過設(shè)備分布式管控能力,提升整網(wǎng)可靠性。網(wǎng)絡(luò)層:通過GSP和GSF的分工協(xié)作,構(gòu)建出具備全網(wǎng)流量有序調(diào)度、各鏈路間負載均衡、網(wǎng)絡(luò)異常精細反壓等技術(shù)融合的交換網(wǎng)絡(luò),是全調(diào)度以太網(wǎng)的主要實現(xiàn)層。其中,F(xiàn)abric部分可支持二層GSF擴展,以滿足更大規(guī)模的組網(wǎng)需求。計算層:包含高性能計算卡(GPU或CPU)及網(wǎng)卡,為全調(diào)度以太網(wǎng)的服務層。初期將計算節(jié)點作為全調(diào)度以太網(wǎng)邊界,僅通過優(yōu)化交換網(wǎng)絡(luò)能力提升計算集群訓練性能。未來考慮計算與網(wǎng)絡(luò)深度融合,將GSP相關(guān)方案延伸到網(wǎng)卡層或者GPU直出網(wǎng)卡模塊實現(xiàn),與網(wǎng)絡(luò)層進行聯(lián)動形成算網(wǎng)協(xié)同的全調(diào)度以太網(wǎng),進一步提升高性能計算性能。圖2-1GSE技術(shù)分層架構(gòu)2.2.2GSE架構(gòu)設(shè)備GSE架構(gòu)包括計算節(jié)點、GSP、GSF及GSOS四類設(shè)備,各設(shè)備間協(xié)同工作,分工如下:計算節(jié)點:即服務器側(cè)的計算卡、網(wǎng)卡,提供高性能計算能力。GSP:網(wǎng)絡(luò)邊緣處理節(jié)點,用以接入計算流量,并對流量做全局調(diào)度;流量上行時,具備動態(tài)負載均衡能力。流量下行時具備流量排序能力。GSF:網(wǎng)絡(luò)核心交換節(jié)點,作為GSP的上一層級設(shè)備,用于靈活擴展網(wǎng)絡(luò)規(guī)模,具備動態(tài)負載均衡能力,以及反壓信息發(fā)布能力。GSOS:全調(diào)度操作系統(tǒng),提供整網(wǎng)管控的集中式網(wǎng)絡(luò)操作系統(tǒng)能力。2.2.3GSE架構(gòu)特性考慮到AIGC等AI/ML應用快速發(fā)展以及當前標準以太網(wǎng)規(guī)模部署現(xiàn)狀,GSE架構(gòu)應具備靈活可擴展性,并最大限度兼容以太網(wǎng)特性。GSE架構(gòu)特性具體如下:靈活擴展:支持萬卡高性能計算集群部署,以GSP+GSF的兩層網(wǎng)絡(luò)為常用形態(tài),支持橫向擴容。當計算節(jié)點進一步擴大,兩層網(wǎng)絡(luò)架構(gòu)不足以支撐時,可靈活擴展成GSP+GSF+GSF的三層網(wǎng)絡(luò)架構(gòu),保留擴展到更多層GSF組網(wǎng)的能力,以滿足業(yè)務部署需求。生態(tài)開放:秉持生態(tài)開放的原則,構(gòu)建標準開放的技術(shù)協(xié)議棧,促成多廠家設(shè)備間的互聯(lián)互通,共同構(gòu)建全調(diào)度以太網(wǎng)的網(wǎng)絡(luò)層,為大規(guī)模分布式計算提供高效的網(wǎng)絡(luò)基礎(chǔ)。硬件通用:所有網(wǎng)絡(luò)節(jié)點均支持標準以太網(wǎng),無需專用的信元處理節(jié)點,可與標準以太設(shè)備無縫切換。其中,GSP和GSF設(shè)備雖然角色分工不同,但均以以太報文交換為基礎(chǔ),轉(zhuǎn)發(fā)硬件具有通用性,設(shè)備角色可以由軟件版本控制,從而支持更靈活的部署和維護。2.3.1兼容以太網(wǎng)技術(shù)以太網(wǎng)標準是當前普適性最好的通信標準之一,中國移動以通用開放的宗旨聯(lián)合產(chǎn)業(yè)鏈共同打造GSE網(wǎng)絡(luò),最大程度兼容現(xiàn)有以太網(wǎng)標準,兼容性主要體現(xiàn)在如下幾方面:遵循現(xiàn)有以太網(wǎng)PHY、MAC層協(xié)議:遵循現(xiàn)有IEEE802.3協(xié)議對以太網(wǎng)物理層、MAC層的定義,以兼容現(xiàn)有以太網(wǎng)器件(含光模塊、網(wǎng)卡、交換機等將GSE以功能增量的形式融入到現(xiàn)有以太網(wǎng)中,對以太網(wǎng)進行增強。完整的以太網(wǎng)業(yè)務報文傳輸:在整個GSE網(wǎng)絡(luò)中,以完整以太網(wǎng)報文形式進行傳輸,最大程度保留以太網(wǎng)報文承載內(nèi)容的完整性,以便后續(xù)在GSE網(wǎng)絡(luò)中兼容更多的特性,如在網(wǎng)計算。遵循現(xiàn)有管控系統(tǒng)與運維習慣:管控系統(tǒng)、運維系統(tǒng)的構(gòu)建與以太網(wǎng)轉(zhuǎn)發(fā)技術(shù)一樣復雜,且與轉(zhuǎn)控平面的協(xié)同體系已成熟。GSE網(wǎng)絡(luò)最大程度上沿用現(xiàn)有管控及運維系統(tǒng),做到架構(gòu)不變、運維習慣不變,保證現(xiàn)有以太網(wǎng)的管理手段和運維手段的兼容繼承。2.3.2無阻塞網(wǎng)絡(luò)隨著網(wǎng)絡(luò)規(guī)模的不斷提升,報文交換從單網(wǎng)絡(luò)節(jié)點內(nèi)單跳到網(wǎng)絡(luò)節(jié)點間多跳實現(xiàn),各節(jié)點間也從松耦合關(guān)系變化為聯(lián)合轉(zhuǎn)發(fā),業(yè)界通過CLOS架構(gòu)搭建大規(guī)模分布式轉(zhuǎn)發(fā)結(jié)構(gòu)來滿足日益增長的轉(zhuǎn)發(fā)規(guī)模需求。該架構(gòu)下,各節(jié)點分布式運行,自我決策轉(zhuǎn)發(fā)路徑,無法實現(xiàn)最優(yōu)的整網(wǎng)性能。為使得大規(guī)模多節(jié)點轉(zhuǎn)發(fā)效果和單節(jié)點一致,需要解決分布式轉(zhuǎn)發(fā)結(jié)構(gòu)內(nèi)部的阻塞問題。造成網(wǎng)絡(luò)阻塞的核心原因是分布式轉(zhuǎn)發(fā)結(jié)構(gòu)中各節(jié)點無法完全感知全局信息,當一個網(wǎng)絡(luò)節(jié)點發(fā)送給另一個網(wǎng)絡(luò)節(jié)點時,無法感知下游節(jié)點網(wǎng)絡(luò)情況,導致流量在下游產(chǎn)生擁塞。例如在基于ECMP進行負載均衡的網(wǎng)絡(luò)中,網(wǎng)絡(luò)節(jié)點僅站在自身視角將流量通過哈希選路發(fā)送,最終導致鏈路擁塞、出端口擁堵、交換網(wǎng)絡(luò)利用率低等問題。DGSQ技術(shù)是解決這個問題的關(guān)鍵技術(shù),該技術(shù)將互不可見的網(wǎng)絡(luò)節(jié)點通過與交換網(wǎng)全局隊列映射聯(lián)合起來,最終達到整網(wǎng)最優(yōu)的轉(zhuǎn)發(fā)效果。2.3.3提高有效帶寬基于DGSQ技術(shù),可保證分布式交換網(wǎng)絡(luò)入口節(jié)點發(fā)往交換網(wǎng)絡(luò)的流量從出口節(jié)點看是最優(yōu)的。但流量在網(wǎng)絡(luò)中交換時,傳統(tǒng)ECMP負載均衡會導致鏈路負載不均以及哈希極化,特別是在有巨型流存在的情況下,無論巨型流持續(xù)時間多長,所到之處均可能引起擁塞和丟包。當前交換網(wǎng)絡(luò)缺乏有效的帶寬控制和優(yōu)先級管理,丟包將是無差別的,會給應用帶來直接的負面影響。基于Packet的逐包負載分擔技術(shù),將任意流量轉(zhuǎn)化成極短的數(shù)據(jù)單元傳輸,徹底消除哈希極化問題,進而提高交換網(wǎng)絡(luò)的帶寬利用率。2.3.4優(yōu)化長尾時延技術(shù)AI大模型訓練存在大量Map-Reduce流量模型,任意一輪計算的結(jié)束均依賴最后一個結(jié)果的返回,降低網(wǎng)絡(luò)長尾時延可有效提升訓練完成時間。交換網(wǎng)絡(luò)整體轉(zhuǎn)發(fā)時延和轉(zhuǎn)發(fā)路徑上中間節(jié)點的擁塞情況正相關(guān),消除中間節(jié)點的擁塞就可消除長尾時延。DGSQ調(diào)度和高精度負載均衡技術(shù)融合是解決該問題的關(guān)鍵,一方面,通過DGSQ的PUSH+PULL結(jié)合機制控制進入交換網(wǎng)絡(luò)的報文數(shù)據(jù)量不會超過整網(wǎng)的轉(zhuǎn)發(fā)容量;另一方面,通過高精度負載均衡的加持,雙管齊下可以消除交換網(wǎng)絡(luò)任一節(jié)點的擁塞。3.GSE網(wǎng)絡(luò)核心技術(shù)與傳統(tǒng)以太網(wǎng)基于流進行負載分擔的機制不同,GSE交換網(wǎng)絡(luò)采用定長的PKTC進行報文轉(zhuǎn)發(fā)及動態(tài)負載均衡,通過構(gòu)建基于PKTC的DGSQ全調(diào)度機制、精細的反壓機制和無感知自愈機制,實現(xiàn)微突發(fā)及故障場景下的精準控制,全面提升網(wǎng)絡(luò)有效帶寬和轉(zhuǎn)發(fā)延遲穩(wěn)定性。其具體流量轉(zhuǎn)發(fā)流程如圖所示:圖3-1GSE網(wǎng)絡(luò)端到端流量轉(zhuǎn)發(fā)示意圖(1)源端GSP設(shè)備從計算側(cè)收到Packet后,通過轉(zhuǎn)發(fā)表找到最終出口,并基于最終出口按需將報文分配到對應的DGSQ中進行授權(quán)調(diào)度。(2)源端GSP設(shè)備獲得授權(quán)后,Packet將遵循PKTC的負載均衡要求,將報文發(fā)送到GSE網(wǎng)絡(luò)中。(3)當報文到達目的端GSP設(shè)備后,先進行PKTC級別的排序,再通過轉(zhuǎn)發(fā)表將報文存儲到物理Port的隊列,最終通過端口調(diào)度將報文發(fā)送到計算節(jié)點。PKTC是區(qū)別于CELL轉(zhuǎn)發(fā)的一種核心轉(zhuǎn)發(fā)機制,該機制下以太網(wǎng)報文在邏輯上組成虛擬容器,并以該容器為最小單元在交換網(wǎng)絡(luò)中傳輸。本節(jié)分將從PKTC概念、PKTC開銷和PKTC位置三方面進行闡述。3.1.1PKTC概念基于報文的轉(zhuǎn)發(fā)在實現(xiàn)負載均衡時,首先需要克服報文長度隨機產(chǎn)生的影響,因此需要對負載均衡的基本轉(zhuǎn)發(fā)單元進行歸一化處理,建立定長報文容器。報文容器可以容納報文數(shù)量的設(shè)定可依據(jù)業(yè)務報文長度的分布情況進行調(diào)整,要求至少能夠容納1個最長的業(yè)務報文,且總長度在芯片轉(zhuǎn)發(fā)能力和解亂序能力允許的情況下盡可能短,以達到精細切分數(shù)據(jù)流,充分提高瞬間負載均衡度的目的。為解決上述問題,本方案提出報文容器的概念,設(shè)計原理如下圖所示:圖3-2PKTC轉(zhuǎn)發(fā)機制示意圖報文容器的實現(xiàn)是邏輯虛擬的,當一個報文進入GSP節(jié)點時,GSP節(jié)點將記錄其歸屬的報文容器編號、在該容器中占用的字節(jié)數(shù)等信息,當報文字節(jié)數(shù)超過虛擬報文容器設(shè)定長度時,將該報文調(diào)度并紀錄到下一個報文容器中。GSE網(wǎng)絡(luò)各節(jié)點均直接轉(zhuǎn)發(fā)報文,無需緩存報文構(gòu)建實際容器。對于歸屬于相同報文容器內(nèi)的所有報文,在交換網(wǎng)絡(luò)中將被負載均衡到唯一路徑進行轉(zhuǎn)發(fā),以保證該報文容器內(nèi)報文之間不再亂序,以降低出口GSP節(jié)點解亂序壓力。3.1.2PKTC開銷基于逐包的轉(zhuǎn)發(fā)機制,需要在數(shù)據(jù)包中攜帶相關(guān)信息,才能被交換網(wǎng)正確識別處理并發(fā)送至目標節(jié)點。所以報文在進入GSP時需要區(qū)分DGSQ,DGSQ的標識和系統(tǒng)DGSQ建立目標有關(guān)。一般情況下,可基于源設(shè)備、目標端口以及在該端口下的優(yōu)先級建立唯一的DGSQ標識。當然,也可根據(jù)業(yè)務需求簡化DGSQ精細度,例如在一個目標端口下設(shè)置4、2或1個優(yōu)先級,降低DGSQ隊列的需求量,降低交換芯片開銷。進入DGSQ后的報文,需要經(jīng)過下行調(diào)度授權(quán)才能被發(fā)送到交換網(wǎng)絡(luò)中。此時,可將同一個入口Leaf節(jié)點發(fā)往同一個出口Leaf節(jié)點的報文組成一個解亂序隊列,即在每個報文容器內(nèi)的所有數(shù)據(jù)包添加相同的序列號(容器的序列)以及源GSPID,下行收到這些報文后,可基于源GSPID和序列號進行解亂序處理。下圖以增加標準以太網(wǎng)報文頭為例描述,其他內(nèi)部以太報文構(gòu)建方式下報文容器的構(gòu)建和轉(zhuǎn)發(fā)原理一致。圖3-3PKTC頭構(gòu)建方式示意圖3.1.3GSEHeader位置GSE網(wǎng)絡(luò)需要對業(yè)務報文添加額外信息以用于全局負載均衡轉(zhuǎn)發(fā)以及排序,這些信息有三種攜帶方式,包括:在標準以太幀之外增加標準擴展頭:這種攜帶方式最大的好處是不破壞原始業(yè)務報文,但是在兼容性和傳輸效率上會有一定損失。如果為了提升以太網(wǎng)的兼容性而選擇外加以太網(wǎng)Tunnel的方式,傳輸效率會進一步降低。圖3-4標準擴展頭方式重定義標準以太幀:重新定義報文的MAC頭,這種攜帶方式的最大好處是傳輸效率高,但是兼容以太網(wǎng)能力較差,只有在特定場景下才可使用。圖3-5重定義以太幀方式在以太網(wǎng)MAC或IP之后擴充協(xié)議頭,這種方式的最大好處是平衡了以太網(wǎng)的兼容性和傳輸效率,但是網(wǎng)絡(luò)中對GSE額外信息的處理會需要深入到報文內(nèi)部信息,會影響轉(zhuǎn)發(fā)時延。圖3-6協(xié)議頭擴充方式為了減少并消除傳統(tǒng)ECMP轉(zhuǎn)發(fā)模型中出現(xiàn)的哈希極化、負載不均等問題導致的長尾時延或丟包,基于PacketContainer的技術(shù)可以分為負載信息構(gòu)建、動態(tài)路徑切換、流量排序機制三個部分。3.2.1動態(tài)負載信息構(gòu)建對出端口負載信息的評估量化后,可隨機選出負載較輕的鏈路之一,為后續(xù)流量的PKTC路徑選擇提供依據(jù)。如下圖所示的轉(zhuǎn)發(fā)模型,GSP1作為接入交換機,當某段PKTC通過GSP1交換機去往GSP2的A2口時,需要對上行鏈路進行負載評估,以決策此段PKTC的傳輸出口。圖3-7流量轉(zhuǎn)發(fā)模型示意圖決策過程可以參考下圖所示:在PKTC的路徑選擇上,先進行擁塞Level的選擇,選擇Level層級最低的出口集合,再從這些出口集合中隨機選擇一個出口,防止在多路徑選擇下存在同步效應。圖3-8動態(tài)負載均衡決策過程3.2.2動態(tài)路徑切換技術(shù)當出口的負載出現(xiàn)動態(tài)變化后,每一個PKTC都可以按照算路算法進行路徑的重新選擇,以保證全局的負載均衡效果。在切換過程中,需要保證每個PKTC在路徑選擇上的一致性,否則會增加亂序程度,加大排序壓力。路徑選擇仍按照先選Level層級,再隨機選擇出口的方式進行。圖3-9動態(tài)路徑切換機制3.2.3流量排序機制流量經(jīng)過負載均衡和動態(tài)路徑切換后,形成多傳輸路徑。由于不同路徑的傳輸時延存在一定差異,所以當不同路徑的流量到達最終出口所在的節(jié)點時需要進行重排序處理。3.3基于PKTC的DGSQ調(diào)度技術(shù)網(wǎng)絡(luò)傳輸中,常常會出現(xiàn)在某些時刻多個口打一個口的現(xiàn)象。如果這個現(xiàn)象是短暫的,在出口處可以通過一定的Buffer進行吸收;如果時間持續(xù)過長且多個入口的流量相加遠大于出口的線速帶寬,為了避免丟包,出口設(shè)備需啟用反壓機制保護流量,而反壓一旦出現(xiàn),網(wǎng)絡(luò)的轉(zhuǎn)發(fā)性能就會大幅度下降。圖3-11網(wǎng)絡(luò)Incast流量發(fā)生場景如上圖所示,GSP1的A1口和GSP3的A3口同時向GSP2的A2口發(fā)送流量,且流量相加大于A2的出口帶寬,造成A2口出口隊列擁塞。針對這種情況,僅通過負載均衡是無法規(guī)避的,需全局控制保證送到A2的流量不超過其出口帶寬才可避免。因此,引入基于全局的轉(zhuǎn)發(fā)技術(shù)和基于DGSQ的調(diào)度技術(shù),才可實現(xiàn)全局流量的調(diào)度控制。3.3.1基于全局視圖的轉(zhuǎn)發(fā)技術(shù)在傳統(tǒng)數(shù)據(jù)中心以太網(wǎng)轉(zhuǎn)發(fā)模型中,轉(zhuǎn)發(fā)表以以報文攜帶的信息為主體,并且根據(jù)下一跳連接的出口,編輯報文頭信息,如下圖所示:圖3-12流量轉(zhuǎn)發(fā)模型示意圖從GSP1任意端口進來的報文轉(zhuǎn)發(fā)到GSP2-A2口,需要在GSP1上形成轉(zhuǎn)發(fā)表及對應的出口信息,這些信息是本設(shè)備基于自身及相鄰設(shè)備的狀態(tài)形成,但對圖3-14基于DGSQ的調(diào)度技術(shù)后續(xù)路徑上網(wǎng)絡(luò)設(shè)備的狀態(tài)既不感知也不控制,該方式無法構(gòu)建無阻塞的全調(diào)度以太網(wǎng)。需要構(gòu)建一種基于全局視野的轉(zhuǎn)發(fā)技術(shù),支持在接入交換機的轉(zhuǎn)發(fā)表中指明最終目的,并通過端到端路徑調(diào)度及綜合化授權(quán)機制,動態(tài)形成負載分擔信息并形成下一跳出口信息。圖3-13基于全局視圖的選路機制3.3.2基于DGSQ的調(diào)度技術(shù)基于DGSQ的全局調(diào)度技術(shù)如下圖所示,在GSP上建立網(wǎng)絡(luò)中所有設(shè)備出口的虛擬隊列,用以模擬本設(shè)備到對應端口的流量調(diào)度。本設(shè)備DGSQ的調(diào)度帶寬依賴授權(quán)請求和響應機制,由最終的設(shè)備出口、途經(jīng)的設(shè)備統(tǒng)一進行全網(wǎng)端到端授權(quán)。由于中間節(jié)點的流量壓力差異,GSP去往最終目的端口不再通過ECMP路徑授權(quán)權(quán)重選擇路徑,而是需要基于授予的權(quán)重在不同的路徑上進行流量調(diào)度。通過這種方式,可保證全網(wǎng)去任何一個端口的流量不但不會超過該端口的負載能力,也不會超出中間任一網(wǎng)絡(luò)節(jié)點的轉(zhuǎn)發(fā)能力,可降低網(wǎng)絡(luò)中Incast流量產(chǎn)生的概率,減少全網(wǎng)內(nèi)部反壓機制產(chǎn)生?;赑KTC的負載均衡技術(shù)和DGSQ全局調(diào)度技術(shù)在平穩(wěn)狀態(tài)下可很好得進行流量調(diào)控與分配,但在微突發(fā)、鏈路故障等異常場景下,短時間內(nèi)網(wǎng)絡(luò)還是會產(chǎn)生擁塞,這時仍需要依賴反壓機制來抑制源端的流量發(fā)送。傳統(tǒng)PFC或FC都是點到點的局部反壓技術(shù),一旦觸發(fā)擴散到整個網(wǎng)絡(luò)中,引起HoL、網(wǎng)絡(luò)風暴等問題。在全調(diào)度以太網(wǎng)技術(shù)中,需要有精細的反壓機制來守護網(wǎng)絡(luò)的防線,通過最小的反壓代價來穩(wěn)定網(wǎng)絡(luò)的負載。圖3-15網(wǎng)絡(luò)擁塞場景示意圖例如,如上圖所示,GSF1的B4出口出現(xiàn)擁塞,會降低甚至暫停對此端口的DGSQ調(diào)度授權(quán)。如果還有其他路徑選擇,將會觸發(fā)采用動態(tài)負載均衡的方式切換到其他鏈路;如果當前網(wǎng)絡(luò)中只有這一條鏈路,或者其他鏈路也即將處于擁塞狀態(tài),則不構(gòu)成切換條件,此時需要啟動反壓機制。為了犧牲最小限度的流量保證整網(wǎng)流量的穩(wěn)定,反壓的范圍需要控制得足夠精確。例如只抑制去往GSP2的流量,去往其他設(shè)備的流量不受影響。更近一步的精細控制策略是通過GSF1-B4去往GSP2的流量被抑制,其他設(shè)備的流量不受影響。最終的精細程度將在后續(xù)的GSE標準中制定。全調(diào)度以太網(wǎng)架構(gòu)中,通過全調(diào)度技術(shù)構(gòu)建了入端口到出端口的虛擬隊列路徑,對入端口的轉(zhuǎn)發(fā)業(yè)務而言無需感知到出端口的每一跳路徑,僅需要明確出端口即可。其對GSF組成的Fabric網(wǎng)絡(luò)是無感知的,路徑的可達性及切換由Fabric網(wǎng)絡(luò)的負載均衡技術(shù)保障。GSF采用了基于PKTC的逐級負載均衡技術(shù)。當Fabric網(wǎng)絡(luò)中的某條鏈路或某臺GSF發(fā)生故障時,與其相連的設(shè)備節(jié)點能夠?qū)崟r感知到鏈路狀態(tài)變化,并自動將相應鏈路從負載均衡備選列表中移除,回收DGSQ涉及此路徑的調(diào)度授權(quán),從而讓PKTC分攤到其它可用鏈路。當設(shè)備或鏈路故障恢復后,相連設(shè)備節(jié)點同樣可以實時感知到鏈路狀態(tài)變化,并完成自愈?;赑KTC的負載均衡技術(shù)在以上鏈路切換過程中可以保持穩(wěn)定的均衡性,不會像基于流的負載均衡受哈希結(jié)果或鏈路數(shù)量少的影響,可避免某條鏈路負載突發(fā)疊加的情況。轉(zhuǎn)發(fā)面主要通過簡化、并行化和旁通轉(zhuǎn)發(fā)流程等手段降低設(shè)備內(nèi)轉(zhuǎn)發(fā)路徑的時延。隨著端口速率的不斷提升,高速信號完整性的挑戰(zhàn)也越來越大,需要不斷強大其編解碼復雜度也越高,所增加的時延也越大,100G以上速率FEC所占用的時延已經(jīng)達到整體轉(zhuǎn)發(fā)時延的20%左右。FEC的過程又可以分為檢錯邏輯和糾錯邏輯。在低速的FEC處理中往往沒有做上述流程的區(qū)分,但隨著速率提升、檢測及糾錯邏輯的復雜,細分差異化處理會變?yōu)樵絹碓接幸饬x。檢錯和糾錯分離技術(shù)可提前校驗數(shù)據(jù)塊內(nèi)是否存在誤碼。在無錯情況下,可旁路FEC譯碼流程,消除無錯場景下FEC收幀和譯碼時延,降低無錯情況下的接口時延,消除高增益FEC碼字的時延弊端;有錯的情況下,才進一步進行糾錯處理。因為發(fā)生誤碼的概率畢竟遠小于無誤碼,此方式可以優(yōu)化端口的平均轉(zhuǎn)發(fā)時延。靈活FEC(FlexFEC)技術(shù)可以根據(jù)鏈路的誤碼率狀態(tài),自動選擇合適的FEC糾錯算法,以便在保持可靠性的同時提供低延遲。全調(diào)度以太

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論