基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書_第1頁
基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書_第2頁
基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書_第3頁
基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書_第4頁
基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中國聯(lián)通chinaunicom基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書RDMARDMA400G400G中國聯(lián)通chinachinaunicom令令1.2T800G1.2T800GAIAIF5G-A令F5G-A本文檔可能含有預(yù)測信息,包括但不限于有關(guān)未來的財務(wù)、運(yùn)營、產(chǎn)品系列、新技術(shù)等信息。由于實踐中存在很中國聯(lián)通研究院中國聯(lián)通研究院基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書本報告版權(quán)屬于中國聯(lián)合網(wǎng)絡(luò)通信有限公司研究院,并轉(zhuǎn)載、摘編或利用其他方式使用本報告文字或者觀點(diǎn)的,應(yīng)注明“來源:中中國聯(lián)合網(wǎng)絡(luò)通信有限公司研究院,中國聯(lián)合網(wǎng)絡(luò)通信有限公司劉紅紅,續(xù)建偉,王俊敏,周彥韜,董姍,岳文強(qiáng)隨著人工智能時代的來臨,千行百業(yè)大模型風(fēng)起云涌,海量數(shù)據(jù)以T、P、甚至E級別如太平洋海水般隨之產(chǎn)生。我國基于資源配置優(yōu)化,提升資源使用效率部署實施“東數(shù)西算”戰(zhàn)略工程,這其中就涉及到海量調(diào)和搬運(yùn)。傳統(tǒng)的數(shù)據(jù)搬運(yùn)是通過快遞硬盤,源宿兩地讀寫方式來實現(xiàn),這種方式耗費(fèi)時間長,效也比較差。數(shù)據(jù)通過硬盤來實現(xiàn)跨地域的運(yùn)輸就好比綠皮蒸汽火車,速度慢,人員擁擠,體驗差。問題呢,觀察中國高鐵的發(fā)展模式或可得到很好的啟發(fā),高鐵發(fā)展至今,世界領(lǐng)先,高效舒適,安很好,帶來了人員和商品的流動也發(fā)生了質(zhì)的提升和改變,也同時促進(jìn)了社會經(jīng)濟(jì)的發(fā)展。當(dāng)今數(shù)據(jù)的流動運(yùn)輸提出了高吞吐、高彈性、高安全和時效性需求,效率即是生產(chǎn)力,中國的高鐵模式值為全面貫徹國家網(wǎng)絡(luò)強(qiáng)國數(shù)字中國戰(zhàn)略,支撐國家“東數(shù)西算”工程,發(fā)展新質(zhì)生產(chǎn)使命擔(dān)當(dāng),確立了“數(shù)字信息基礎(chǔ)設(shè)施運(yùn)營服務(wù)國家隊、網(wǎng)絡(luò)強(qiáng)國數(shù)字中國智慧社會建設(shè)主力軍、創(chuàng)新排頭兵”的戰(zhàn)略定位,在2015年,發(fā)布了網(wǎng)絡(luò)創(chuàng)新體系CUBE-Net2.0,提出了面向云端雙中心的集約解耦型網(wǎng)絡(luò)架構(gòu),加速電信網(wǎng)絡(luò)向云化、虛化化、SDN化等轉(zhuǎn)型。經(jīng)過5年的實踐后,算力時代全面到來,通信網(wǎng)絡(luò)如何可持續(xù)發(fā)展,新一代網(wǎng)絡(luò)的運(yùn)營體系和服務(wù)體系如何構(gòu)建,如何向客戶提供更有價值的網(wǎng)絡(luò)創(chuàng)是整個行業(yè)需要認(rèn)真思考、積極探索、不斷實在此背景下,在2021年,中國聯(lián)通將CUBE-Net2.0升級為CUBE-Net3.0,致力于實現(xiàn)“連接+計算+數(shù)據(jù)+智能”的融合服務(wù),進(jìn)而達(dá)成從新一代網(wǎng)絡(luò)到新一代數(shù)字基礎(chǔ)設(shè)施的蛻變。中國聯(lián)通基于CUBE-Net3.0新一代網(wǎng)在此基礎(chǔ)上,中國聯(lián)通在2020年發(fā)布《云時代的全光底座》,在2022年發(fā)布了《算力時代的全光底座》白皮書,本《基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書》聯(lián),通過端網(wǎng)協(xié)同技術(shù),解決廣域RDMA大流量的長距離無損傳輸,提供區(qū)別用任務(wù)式連接,提供按照流量、按時效等方式計費(fèi)的組網(wǎng)業(yè)務(wù),助力數(shù)字中國、東數(shù)西算等國家戰(zhàn)略的本白皮書詳細(xì)描述了海量數(shù)據(jù)RDMA長距無損數(shù)據(jù)搬移技術(shù)的需求、數(shù)據(jù)搬運(yùn)基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書目錄 11.1海量科學(xué)計算 1 1 2 3 31.6數(shù)據(jù)搬移業(yè)務(wù)需求,挑戰(zhàn)與機(jī)會總結(jié) 302“數(shù)據(jù)搬移”運(yùn)力指標(biāo) 503“數(shù)據(jù)搬移”架構(gòu)與關(guān)鍵技術(shù) 73.1架構(gòu)與關(guān)鍵特征 7 83.2.1靈活承載 83.2.2任務(wù)式帶寬 83.2.3長距高效率 83.2.4安全可靠 93.2.5統(tǒng)一編排 93.2.6長距RDMA提速技術(shù) 05總結(jié)與展望 1 2 2 3 7 11 1202表目錄 5 6基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書第1章典型應(yīng)用場景01典型應(yīng)用場景1.1海量科學(xué)計算智算和超算快速發(fā)展,中國在此領(lǐng)域已經(jīng)達(dá)到了國際先進(jìn)水平,但智算和超算中心效低成本方案,尤其在支撐天文、氣象、醫(yī)藥生物等以FAST天文數(shù)據(jù)計算為例,F(xiàn)AST每年約200多個觀測項目,單項目產(chǎn)生觀測數(shù)據(jù)量TB~PB量級,年產(chǎn)數(shù)據(jù)約15PB。如果數(shù)據(jù)導(dǎo)出采用人工方式,數(shù)據(jù)獲取階段需要安排1~3人出差數(shù)據(jù)現(xiàn)場,負(fù)責(zé)數(shù)據(jù)導(dǎo)出工作,由于缺乏專人專崗負(fù)責(zé)數(shù)據(jù)拷貝操作,數(shù)據(jù)導(dǎo)出申請可能被滯后數(shù)月處理,再加上數(shù)據(jù)傳輸和目的地數(shù)常耗時,將極大影響數(shù)據(jù)獲取的時效性。又如,濟(jì)南超算平臺總存儲量是245PB,覆蓋了文件、對象和大數(shù)據(jù)存儲,要把數(shù)據(jù)搬遷到超算里做計算,目前快遞硬盤的方式,數(shù)據(jù)接收和導(dǎo)入需花費(fèi)很多時間和資源面向科學(xué)計算海量數(shù)據(jù)異地遷移場景亟需一種高效、經(jīng)車?yán)脖P汽車,車?yán)脖P汽車,150公里更換硬盤38GB/s影視綜藝節(jié)目的拍攝素材需要經(jīng)后期制作公司剪輯、渲染,由于拍攝地不固定,且拍攝過段,需要根據(jù)拍攝和制作周期將拍攝素材批量傳輸至后期制作公司所在地。一部大型綜藝或影數(shù)據(jù)量是PB級別,單次傳輸?shù)臄?shù)據(jù)量在10TB~100TB量級,采用人工硬盤快遞方式存在兩次數(shù)據(jù)拷貝(源端上傳、目的地下載)以及人工搬運(yùn)(乘坐飛機(jī)或高鐵搬運(yùn)磁盤陣列),每次行程需要2~3天,拷貝運(yùn)輸期間如出現(xiàn)鏡頭數(shù)據(jù)丟失,需要補(bǔ)拍,打亂拍攝計劃,人力、物力成本大;且人媒體內(nèi)容,存在片源泄露風(fēng)險,或是一旦中間有某1塊/幾塊硬盤異常需全部重拷貝,影影視/綜藝行業(yè)競爭激烈,如何充分利用網(wǎng)絡(luò)能力,通過在線傳輸為音視頻務(wù),滿足時效性的同時,減少人工投入成本,對網(wǎng)絡(luò)影視行業(yè)的內(nèi)容涉及多種類型的素材,如視頻、音頻、圖片、字幕等,這些素材通常都是大格的格式和質(zhì)量要求。影視行業(yè)對素材的傳輸和分發(fā)有著高效、穩(wěn)定、安全等需求,因為這關(guān)系到制面效果、版權(quán)保護(hù)等重要因素。隨著高清4K、8K的普及,影視行業(yè)的數(shù)據(jù)容量也在不斷增加,全國一年上映400部電影左右,一部影片平均200G~300G;平峰期一般4~10部,春節(jié)賀歲檔一周最多15部;一部影片大概有10個版本,一次快遞數(shù)據(jù)在10T~40T之間,中影集團(tuán)每周將片源數(shù)據(jù)從北京資源中心通過硬盤快遞到全國),時間壓力大、成本高。且硬盤在快遞過程中,容易發(fā)生數(shù)據(jù)損壞或丟失等問題。因此,實現(xiàn)影視分發(fā)的這些問題,同時實現(xiàn)提升工作效率、保障數(shù)據(jù)廳1廳2廳1廳2廳1廳2廳1廳2伴隨智能科技浪潮的興起,自動駕駛技術(shù)飛速發(fā)展。如今,科技企業(yè)、傳統(tǒng)車企和一眾初創(chuàng)公駛行業(yè)的主要參與者,多國政府更是將其上升至國家自動駕駛穩(wěn)步發(fā)展,諸多車企將在推出L3/L4級自動駕駛量產(chǎn)車激烈角逐,預(yù)計2025年L3汽車銷量將有50%市場份額,到2030年L4汽車銷量將達(dá)到市場的20%。自動駕駛的AI訓(xùn)練依賴海量的路測數(shù)據(jù),對訓(xùn)練效率和快速迭代追求驅(qū)動自駕訓(xùn)練上云,同時也產(chǎn)生大規(guī)模路測數(shù)據(jù)上云需求。根據(jù)行業(yè)觀察,訓(xùn)練L3需400PB數(shù)據(jù),國內(nèi)20家/全球約50家參與試驗,預(yù)計產(chǎn)生總數(shù)據(jù)8EB/20EB,訓(xùn)練L4需2EB數(shù)據(jù),國內(nèi)10家/全球約20家參與試驗,預(yù)計產(chǎn)生總數(shù)據(jù)20EB/40EB。行業(yè)當(dāng)前路測產(chǎn)生的海量數(shù)據(jù)是基于“硬盤+保障,這催生了高效按需無損的網(wǎng)絡(luò)“數(shù)據(jù)高鐵”服務(wù),通過高品質(zhì)的網(wǎng)絡(luò)來應(yīng)對和解為了提高生產(chǎn)效率,企業(yè)需要進(jìn)行數(shù)字化轉(zhuǎn)型,而數(shù)字化過程中產(chǎn)生的海量數(shù)據(jù)研、制造等企業(yè)的跨地域搬移數(shù)據(jù)規(guī)模主流為百TB量級,且有一定時效性需求。跨域數(shù)據(jù)遷移成為企業(yè)發(fā)展和轉(zhuǎn)型中不可避免的一環(huán),然而這項任務(wù)也給企業(yè)帶來了很多挑戰(zhàn)。企業(yè)運(yùn)營過程中業(yè)務(wù)需持續(xù)運(yùn)務(wù)、物流服務(wù)、數(shù)據(jù)分析和應(yīng)用等。因此,如何確保業(yè)務(wù)不中斷,數(shù)據(jù)完整性不受到損失,是海量數(shù)據(jù)遷移如果需要花費(fèi)很長的時間和更多的資源,對企業(yè)效率的影響也會更加顯著。數(shù)據(jù)遷移數(shù)據(jù)的傳輸和存儲,因此,安全性問題是需要考慮的。如果數(shù)據(jù)泄露或丟失,企業(yè)將面臨嚴(yán)重的同時,對于高性能工業(yè)仿真,訓(xùn)練的企業(yè)使用遠(yuǎn)程算力,遠(yuǎn)程訪期長(部分場景需要源+宿兩次本地數(shù)據(jù)拷貝)、硬數(shù)據(jù)搬移,如跨廣域DC間數(shù)據(jù)災(zāi)備等,大多是周期性傳輸,帶寬資源利用不充分,存在帶寬成本與傳輸利從技術(shù)上看,傳統(tǒng)TCP/IP網(wǎng)絡(luò)技術(shù)通過操作系統(tǒng)內(nèi)核頻繁的數(shù)據(jù)拷貝和中斷操作來傳輸數(shù)據(jù),而R則是通過繞過內(nèi)核并將網(wǎng)絡(luò)堆棧卸載到網(wǎng)卡實現(xiàn)CPU開銷接近零的高吞吐和超低延遲。RDMA不僅改進(jìn)了性能,還減少了每個服務(wù)器上網(wǎng)絡(luò)堆棧處理使用的CPU核數(shù)量。對于單DC內(nèi)的智算/云存儲場景,RDMA技術(shù)展現(xiàn)出顯著的優(yōu)勢展,高性能計算、大模型等新興應(yīng)用不斷涌現(xiàn),DC間的數(shù)據(jù)流通量劇增,使得跨DC場景也雖然,長距傳輸產(chǎn)生了不可規(guī)避的超大時延,其稀釋了RDMA技域RDMA繼承了RDMA技術(shù)可以避免數(shù)據(jù)轉(zhuǎn)存過程中多次數(shù)據(jù)復(fù)制的優(yōu)勢,能夠有效降低CPU與夠帶來機(jī)理上的優(yōu)勢。此外,考慮到RoCEv2是目前DC內(nèi)部署的主流方案,在跨DC場景中仍采用RDMA技術(shù),還可以保持軟件開發(fā)在DC內(nèi)部和DC間的一致性和易移植性。因此,針對多云數(shù)據(jù)備份、長距離云存儲等術(shù)并非是絕對的剛需技術(shù),但其相對于傳統(tǒng)TCP技術(shù)能夠提供機(jī)理性的優(yōu)勢,使其具備了很高的應(yīng)用價值。長距數(shù)據(jù)搬運(yùn)中廣域RDMA技術(shù)所面臨的挑戰(zhàn),主要是如何在長距場景中優(yōu)化其傳輸效率,TCP相當(dāng)?shù)膫鬏斝剩瑥亩屔蠈幽軌虿捎蒙衔坏腞DMA替代傳統(tǒng)的TCP。綜合來看,對于運(yùn)營商,大量線下數(shù)據(jù)搬移將有機(jī)會通過網(wǎng)絡(luò)傳輸,帶來新的增長點(diǎn);對于業(yè)務(wù)支撐網(wǎng)絡(luò)流量填充,帶來網(wǎng)絡(luò)硬件升級和擴(kuò)容機(jī)會。而所有機(jī)會成立的前提,是網(wǎng)比傳統(tǒng)硬盤快遞/人工搬移、傳統(tǒng)線上數(shù)據(jù)傳輸更有競爭力(品“東數(shù)西算”工程首次將算力資源提升到水、電、燃?xì)獾然A(chǔ)資源的高度,統(tǒng)籌布局建設(shè)全國一體化絡(luò)國家樞紐節(jié)點(diǎn),助力我國全面推進(jìn)算力基礎(chǔ)設(shè)施化。數(shù)據(jù)的產(chǎn)生與計算需求主要在東部,存儲部,東西部樞紐間的帶寬需求將達(dá)到1000T+以上,傳輸距離在多樣化的算力應(yīng)用快速發(fā)展,跨區(qū)域算力需求不斷增長,對算力網(wǎng)絡(luò)提出了更高更得穩(wěn)、傳得快,才能確保用戶一點(diǎn)接入,算力觸手可及。因此確定性的網(wǎng)絡(luò),是滿足多樣化算力應(yīng)用1.6數(shù)據(jù)搬移業(yè)務(wù)需求,挑戰(zhàn)與機(jī)會總結(jié)1.6數(shù)據(jù)搬移業(yè)務(wù)需求,挑戰(zhàn)與機(jī)會總結(jié)智能社會產(chǎn)生的海量數(shù)據(jù)需要大量的算力進(jìn)行處理,各行各業(yè)對于算力的需求都將構(gòu)預(yù)測,從2018年到2030年,自動駕駛對算力的需求將增加390倍,智慧工廠需求將增長110倍,數(shù)字貨幣的需求將增長2000倍,AR/VR游戲的需求將增長300倍,主要國家人均算力需求將從今天不足500GFLOPS,到2035年增加到10000GFLOPS。面向2030年,算力將在科學(xué)計算、影視、自動駕駛、工業(yè)企業(yè)數(shù)字孿生、智慧565基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書02“數(shù)據(jù)搬移”運(yùn)力指標(biāo)為匹配國家東數(shù)西算、東數(shù)西存的大戰(zhàn)略,消除數(shù)據(jù)孤島,充分挖掘數(shù)據(jù)價值用,需要構(gòu)筑具備在全國任意兩地高效流通數(shù)據(jù)的能力,根據(jù)數(shù)據(jù)流動效率、客戶體驗、數(shù)1)線下的方式:針對大數(shù)據(jù)量的搬運(yùn),硬盤快遞因其成本低,是當(dāng)前使用的搬運(yùn)數(shù)據(jù),需要臨時協(xié)調(diào)數(shù)據(jù)導(dǎo)入/導(dǎo)出人員,導(dǎo)致數(shù)據(jù)流通時長不可控、效率2)互聯(lián)網(wǎng)方式:帶寬小,所有用戶共享,網(wǎng)絡(luò)質(zhì)量無法保證,無法承3)數(shù)據(jù)搬移方式:可提供波長級超大帶寬、帶寬和安全性均可保障,品質(zhì)可承諾,是最高品質(zhì)的方式。但當(dāng)前成本高,需要在不改變現(xiàn)有運(yùn)營商專線市場價格體系的情況下,利用網(wǎng)絡(luò)的邊際成本低用戶運(yùn)送大數(shù)據(jù)的成本,提供一種新的大數(shù)據(jù)搬運(yùn)服務(wù),改變過去以連接和帶寬為計費(fèi)基準(zhǔn)的專改為以數(shù)據(jù)搬運(yùn)量、搬運(yùn)距離、速率檔位(商務(wù)艙、頭等艙、經(jīng)濟(jì)艙)等為基準(zhǔn)計費(fèi)的商業(yè)模式小、計費(fèi)大小,提供小時達(dá)、天級、周級等不同傳在數(shù)據(jù)中心間進(jìn)行長距數(shù)據(jù)搬運(yùn)業(yè)務(wù)場景中,運(yùn)營商所扮演的角色分為兩大類,不同場景下,其一是,運(yùn)營商是為云商提供高速數(shù)據(jù)傳輸通道,而直接的業(yè)務(wù)提供者是云商,數(shù)據(jù)是運(yùn),用戶所關(guān)注的是高速數(shù)據(jù)傳輸通道(比如裸纖、專線、切片)的性能表現(xiàn),評空載時延丟包、不可用時長等傳統(tǒng)指標(biāo)。而受云商自身服務(wù)器所影響的指標(biāo),屬于是客戶自己對服題,比如利用率能實際用到多少、用超簽約帶寬引發(fā)的時其二是,運(yùn)營商直接作為業(yè)務(wù)提供者,數(shù)據(jù)是在聯(lián)通云服務(wù)器之間搬運(yùn);用戶所關(guān)注的轉(zhuǎn)存時間,也就是整個系統(tǒng)對外的I/O效率。傳統(tǒng)網(wǎng)度量具體業(yè)務(wù)的端到端傳輸效率,建議增加新量綱:傳輸效率。有效傳輸帶寬由傳輸數(shù)據(jù)總量除得出。有效傳輸帶寬越高,表明傳輸效率越高,最大值趨近于網(wǎng)絡(luò)物理帶寬。例如,1PB數(shù)據(jù),6小時傳輸完畢,則有效帶寬定義為0.167P/小時。折算為線路帶寬,則表示為0.167P*1024*1024*8G/3600S=389Gbps的有效傳輸帶寬,即傳輸1PB字節(jié)數(shù)據(jù),若需要6小時傳輸完畢,則有效傳輸帶寬為389Gbps。以此類推,如果100G有效傳輸帶寬,需要24小時傳輸完畢。ATCPTCPTCP10G10~100G100G~400GL2邏輯管道隔離L1硬管道隔離L3層加密屬性(可選)L2層加密屬性(可選)L1層加密屬性(可選)10G100G400G800G90%85%80%75%2.50.30.1064T16.20.50.2100T25.32.70.70.4400T101.110.72.8800T202.321.45.731000T252.826.87.13.85000T1264.2133.935.610000T2528.4267.771.137.9基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書第3章“數(shù)據(jù)搬移”架構(gòu)與關(guān)鍵技術(shù)03“數(shù)據(jù)搬移”架構(gòu)與關(guān)鍵技術(shù)3.1架構(gòu)與關(guān)鍵特征3.1架構(gòu)與關(guān)鍵特征為滿足海量科學(xué)計算、影視行業(yè)、自動駕駛、工業(yè)制造、東數(shù)西備等大數(shù)據(jù)搬需大帶寬、品質(zhì)可保障的組網(wǎng)架構(gòu),并提供端網(wǎng)協(xié)同的業(yè)務(wù)無損能力,以實現(xiàn)長距離高吞吐的無損>o<參數(shù)網(wǎng)絡(luò)存儲網(wǎng)絡(luò)RDMA網(wǎng)絡(luò)CPECPE2.任務(wù)式帶寬:可根據(jù)業(yè)務(wù)數(shù)據(jù)量按需實施鏈路的快速拆建和基于業(yè)務(wù)帶寬的彈性可調(diào)。3.長距高效率:端網(wǎng)協(xié)同實現(xiàn)RDMA長距高吞吐。鏈路層需要具備無損傳輸及流控的能力4.智能流量調(diào)度:具備多業(yè)務(wù)流識別和調(diào)度能力,通過RDMA提速網(wǎng)關(guān)可以感知傳輸鏈路帶寬、等鏈路SLA狀態(tài),在RDMA提速網(wǎng)關(guān)完成多業(yè)務(wù)流的最優(yōu)傳輸路徑編排和調(diào)度,多路RDMA流匯聚調(diào)度,快速感5.安全可靠:滿足不同行業(yè)業(yè)務(wù)安全隔離及加密的要求。端到端管道具備靜態(tài)1+1或者重路99.999%及以上可靠性。6.網(wǎng)存一體:具備算、存、網(wǎng)統(tǒng)一編排能力,可基于算存網(wǎng)編排調(diào)度系統(tǒng)實現(xiàn)網(wǎng)絡(luò)資源一調(diào)度,并能夠提供基于數(shù)據(jù)量、時長等不同3.23.2關(guān)鍵技術(shù)3.2.1靈活承載過程中必然會涉及到隊列與調(diào)度問題,這是擁塞引發(fā)時延與丟包的根源,屬于無法規(guī)避的機(jī)理達(dá),可以在物理層面上避免了途徑2/3層設(shè)備,從而避開了由隊列與調(diào)度機(jī)制帶來的時延與丟包,形成無損的點(diǎn)對3.2.2任務(wù)式帶寬東數(shù)西算、自動駕駛數(shù)據(jù)上云等大數(shù)據(jù)按需搬運(yùn)的興起,臨時性的TB級大數(shù)據(jù)量傳輸驅(qū)動帶寬動態(tài)變化成常態(tài)。為滿足這類臨時性的彈性帶寬需求,管道的使用需從靜態(tài)分配到可靈活拆建,從以年為級、天級分時復(fù)用。這就要求光網(wǎng)絡(luò)具備“任務(wù)式敏捷建鏈能力”以及“彈性帶任務(wù)式敏捷建鏈,快速打通波長級傳輸通道。波長資源池內(nèi)的光鏈路資源構(gòu)建兩大能力,一是電驅(qū)動光的最優(yōu)資源規(guī)劃;二是波長1.電驅(qū)動光最優(yōu)資源規(guī)劃算法:根據(jù)業(yè)務(wù)帶寬、使用時長、SLA等要求,由系統(tǒng)自動規(guī)劃業(yè)務(wù)所需要的線路2.波長級開通自動化:以免人工介入、秒級開通為目標(biāo),系統(tǒng)對光模擬系統(tǒng)進(jìn)行數(shù)字化建模,實現(xiàn)對全網(wǎng)路徑的可達(dá)性探測,最終達(dá)成系統(tǒng)規(guī)劃好的業(yè)務(wù)路徑自動下發(fā),自動完成OSU彈性管道按需調(diào)整帶寬。OSU技術(shù)是支持多種業(yè)務(wù)帶寬顆粒靈活接入的基礎(chǔ)技術(shù),可提供2M~100G靈活的帶寬接入,避免了傳統(tǒng)ODUk映射的剛性和效率不高問題。同時,OSU管道映射延,并且將連接數(shù)提升到百萬級別,充分滿足業(yè)務(wù)數(shù)量巨大和需求顆粒度差異化的需求。通過OSU技術(shù)可有效滿足不同行業(yè)、不同企業(yè)對數(shù)據(jù)搬移的帶寬需求,例如企業(yè)上云初期,需要將全量數(shù)據(jù)一次性向云大帶寬保障大量本地數(shù)據(jù)快速遷移到云端,遷移完成后則希望周期性提供大帶寬提供全量數(shù)據(jù)備于業(yè)務(wù)流量自動感知,按需無損調(diào)整管道帶寬,實現(xiàn)網(wǎng)絡(luò)帶寬“3.2.3長距高效率導(dǎo)致網(wǎng)絡(luò)狀態(tài)反饋滯后,導(dǎo)致RDMA無法有效利用帶寬。為了應(yīng)對超長距傳輸確定性傳輸能力,并與端側(cè)協(xié)同,以滿足高性能協(xié)議的傳端網(wǎng)協(xié)同物理層信息。長距下的RDMA的吞吐量受距離、誤碼等的影將物理距離的信息通過協(xié)議傳遞到網(wǎng)卡側(cè),網(wǎng)卡根據(jù)根據(jù)距離調(diào)整RDMA的messagesize、QP數(shù)量以達(dá)到長距下的滿速傳輸。另外,每次誤碼都會導(dǎo)致丟包,從而觸發(fā)RDMA的GoBackN機(jī)制,導(dǎo)致1個RTT報文重傳,網(wǎng)絡(luò)可以將誤碼信息通知給端側(cè),端側(cè)可以判斷是鏈路誤碼導(dǎo)致的重傳還是擁塞導(dǎo)致的重傳,從端網(wǎng)協(xié)同保護(hù)信息。網(wǎng)絡(luò)側(cè)一般會對重要業(yè)務(wù)提供保護(hù),保護(hù)路由一般會比的吞吐量越低,因此,每次故障引導(dǎo)的保護(hù)倒換,網(wǎng)絡(luò)設(shè)備可以將倒換后的路徑的長度信息端網(wǎng)協(xié)同流控。在長距傳輸時,一旦遠(yuǎn)端DC擁塞,交換機(jī)會觸發(fā)PFC等的流控機(jī)制,需要緩存至少1個RTT的報文,比如,400G@1000km,需要至少500MB的緩存。交換機(jī)主要是針對DC內(nèi)部應(yīng)用設(shè)計的,其緩存能力不足以支持長距無損傳輸。需要端網(wǎng)協(xié)同實現(xiàn)長距流控,以實現(xiàn)端針對廣域長距RDMA承載需求場景,預(yù)采用的創(chuàng)新技術(shù)?長距采用基于RDMA的無損數(shù)據(jù)搬移技術(shù):光層OTN直達(dá)確保中途不經(jīng)由IP設(shè)備引發(fā)時延抖動與丟包;?DC出口位置添加新型網(wǎng)關(guān)設(shè)備:新型網(wǎng)關(guān)中運(yùn)行自研的長距RDMA提速方案,構(gòu)建廣域RDMA的高效傳?DC內(nèi)不對端側(cè)NIC與內(nèi)部組網(wǎng)設(shè)備提出變動需求:兼容端側(cè)的現(xiàn)有域內(nèi)RDMA技術(shù)(NIC與Switch)。?遠(yuǎn)端擁塞時,OTN與交換機(jī)/RDMA網(wǎng)關(guān)協(xié)同,共同緩存反壓的流量,保證RDMA流量擁塞不丟包,保障?DC間光層一跳直達(dá),利用OTN技術(shù),直接在DC間搭建的光層通道,中間的長距傳輸不經(jīng)過2/3層的交換機(jī)/路由器設(shè)備,一跳直達(dá)DC的出口交換機(jī)。光層直達(dá)可以避免由隊列調(diào)度帶來的時延與丟包,是支撐廣域3.2.4安全可靠L0~L1硬隔離,專網(wǎng)級體驗。OTN基于光層L0的波長級波分復(fù)用和基于電層L1的ODU/OSU固定時隙技術(shù)對用戶的業(yè)務(wù)進(jìn)行隔離,保障了每個業(yè)務(wù)的資源獨(dú)享性,業(yè)務(wù)之間互不影響??杀WC重要行業(yè)客不易被監(jiān)聽、不會被同一光纖鏈路內(nèi)其它類型業(yè)務(wù)流攻擊,具備100%私有專網(wǎng)體驗。安全加密,防止數(shù)據(jù)泄露。為了保證客戶數(shù)據(jù)的安全,OTN可采用國家SM發(fā)(QKD)等高安全技術(shù)實現(xiàn)傳輸保密通信。OTN設(shè)備在信號處息,并對傳輸?shù)腛PUk凈荷進(jìn)行加密,完全不介入OTN可提供不同層次全面保護(hù)機(jī)制以及高可靠的保護(hù)電層保護(hù)針對業(yè)務(wù)級提供端到端1+1保護(hù)能力,保護(hù)倒換性能小于50ms;針對高可靠業(yè)較高的場景,可提供50ms抗多次斷纖的電層重路由保護(hù)能力。光層保護(hù)針對網(wǎng)絡(luò)級的光線路或節(jié)點(diǎn)故障,提供OTS1光電協(xié)同保護(hù)針對更高級別可靠性要求的業(yè)務(wù),通過在電層配置1+1保護(hù)技技術(shù),實現(xiàn)光電協(xié)同的保護(hù),可以抗多次光纖故障,滿足業(yè)務(wù)99.999%的可靠性要求。3.2.5統(tǒng)一編排為保障海量數(shù)據(jù)的搬運(yùn)效率以及搬運(yùn)的成本最優(yōu),網(wǎng)絡(luò)需要由靜態(tài)連接變成基于通過存儲管理系統(tǒng)及網(wǎng)絡(luò)管理系統(tǒng)的協(xié)同調(diào)度來實現(xiàn),需要將存、網(wǎng)統(tǒng)一管控和編排,為數(shù)據(jù)搬構(gòu)建大數(shù)據(jù)搬移業(yè)務(wù)運(yùn)營層:實現(xiàn)數(shù)據(jù)搬移產(chǎn)品的一體化運(yùn)營服務(wù),為客戶提供基于數(shù)據(jù)量存力和網(wǎng)絡(luò)運(yùn)力統(tǒng)一編排:實現(xiàn)存力和網(wǎng)絡(luò)運(yùn)力的業(yè)務(wù)編排服務(wù)。面向運(yùn)營層提供統(tǒng)一的存網(wǎng)務(wù)能力,支持跨網(wǎng)絡(luò)域和存力域的資源的分配,以及端到端業(yè)務(wù)編排和各個存力節(jié)點(diǎn)的連接時延/帶寬等信息的運(yùn)力地圖傳遞給編排層,支撐編排層自存力管控層進(jìn)行數(shù)據(jù)搬移管控,并與編排層協(xié)同。端側(cè)數(shù)據(jù)匯總到存儲后,輸數(shù)據(jù)的SLA,向編排層申請創(chuàng)建光專線請求,存力管控系統(tǒng)在完成數(shù)據(jù)傳輸后通知光網(wǎng)絡(luò)管理系統(tǒng)釋放光專線。存力管控系統(tǒng)可主動查詢或被動接收網(wǎng)絡(luò)管理系統(tǒng)上報的光鏈路誤碼、時延等信息,評估3.2.6長距RDMA提速技術(shù)的連接,為用戶提供安全的接入通道,確保數(shù)據(jù)傳輸?shù)臋C(jī)密性和完整性。并對用戶間業(yè)務(wù)進(jìn)行區(qū)戶之間的數(shù)據(jù)隔離。該網(wǎng)關(guān)設(shè)備實施嚴(yán)格的隔離策略,為每個用戶的業(yè)務(wù)設(shè)置獨(dú)立轉(zhuǎn)發(fā)表項,以2.RDMA提速能力首先,在拓?fù)浞矫?,新型網(wǎng)關(guān)與RDMA網(wǎng)絡(luò)有直接的連量則是仍由業(yè)務(wù)網(wǎng)承載,經(jīng)由RDMA提速網(wǎng)關(guān)設(shè)備>><">?優(yōu)化擁塞檢測方法,新增提前擁塞通告功能;?將擁塞反饋周期壓縮到本DC時延之內(nèi),從而使得發(fā)端能夠更快的收斂到不觸發(fā)擁塞的發(fā)送速率,如下圖基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書第4章現(xiàn)網(wǎng)實踐3.流量智能調(diào)度能力RDMA提速網(wǎng)關(guān)作為數(shù)據(jù)高鐵站,通過先進(jìn)的IP協(xié)議及管控系統(tǒng)為跨智算中心的業(yè)務(wù)流量提供基于業(yè)務(wù)SLA服務(wù)級別的流量調(diào)度:識別并處理不同服務(wù)級別的流量,例如智算業(yè)務(wù)中的溫冷數(shù)據(jù)搬移流的存算分離拉遠(yuǎn)訓(xùn)練流量,多智算中心間的協(xié)同訓(xùn)練流量等。網(wǎng)絡(luò)運(yùn)營商可以根據(jù)智算業(yè)務(wù)的SLA要求不同,為不同的業(yè)務(wù)設(shè)置不同的轉(zhuǎn)發(fā)路徑,以滿足不同業(yè)務(wù)的動態(tài)的流量調(diào)度:根據(jù)網(wǎng)絡(luò)狀態(tài)的變化(如鏈路故障、擁塞等)動態(tài)地調(diào)整數(shù)據(jù)包負(fù)載均衡:通過對智算流量的智能識別,通過負(fù)載分擔(dān)能力,將流量均勻地分配到提高網(wǎng)絡(luò)資源的利用率,降低網(wǎng)絡(luò)擁塞,提高網(wǎng)絡(luò)04現(xiàn)網(wǎng)實踐隨著國家東數(shù)西算戰(zhàn)略的推進(jìn),越來越多的跨地域大數(shù)據(jù)搬移場景開間流轉(zhuǎn)并進(jìn)行算力協(xié)同,算力中心間的長距高性能物理網(wǎng)絡(luò)的參數(shù)和服務(wù)器端側(cè)參數(shù)都會對長距離RDM的最重要因素之一,隨著距離的增加,RDMA的吞吐量會逐漸降低制,導(dǎo)致業(yè)務(wù)的有效吞吐量降低;服務(wù)器端側(cè)QP(隊列對)數(shù)量也會對RDMA中國聯(lián)通基于全光網(wǎng)絡(luò)的長距環(huán)境,對長距下磁盤陣列服務(wù)器,并構(gòu)建打通跨省100G的全光直達(dá)的OTN無損網(wǎng)絡(luò),驗證海量數(shù)據(jù)從上海金橋到器的內(nèi)存到內(nèi)存、硬盤到硬盤的傳輸時間,以及遠(yuǎn)端在全程無擁塞時,從上海金橋到寧夏中衛(wèi)的數(shù)據(jù)長距搬移,內(nèi)存到內(nèi)存時,9TB數(shù)據(jù)傳輸時間15分鐘11秒;硬盤到硬盤時,9.375TB數(shù)據(jù)傳輸時間15分鐘45秒,傳輸時間接近理論值。?OTN與交換機(jī)之間無協(xié)同流控:交換機(jī)出方向限速模擬擁塞,入方向出現(xiàn)丟包,重傳加劇擁塞,業(yè)務(wù)有效帶寬從85Gb/s降到19Gb/s。?OTN與交換機(jī)協(xié)同流控:交換機(jī)模擬擁塞,入方向無丟包,OTN通知端側(cè)降速,端網(wǎng)協(xié)同防止無效重傳,業(yè)務(wù)有效帶寬從19Gb/s提速到78Gb/s,傳輸帶寬提升明顯。當(dāng)前的環(huán)境配置下,OTN無損網(wǎng)絡(luò)傳輸帶寬是100Gbps,端

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論