2023超融合數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)_第1頁
2023超融合數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)_第2頁
2023超融合數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)_第3頁
2023超融合數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)_第4頁
2023超融合數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

超融合數(shù)據(jù)中心網(wǎng)絡(luò)PAGE\*romanPAGE\*romaniv目錄目錄第1章超融合數(shù)據(jù)中心網(wǎng)絡(luò)簡介 1智能時代促使數(shù)據(jù)中心向算力中心演進(jìn) 1什么是超融合數(shù)據(jù)中心網(wǎng)絡(luò) 2第2章超融合數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)生背景 5IT架構(gòu)層面:從本地集中式走向云端分布式 6計算層面:CPU/GPU出太接口提升性能 6存儲層面:升級為全閃存NVMe接口 9網(wǎng)絡(luò)運維層面:部署與維護(hù)的全方位升級 10第3章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)價值 11全以太HPC網(wǎng)絡(luò),充分放算力 11雙活全以太存儲網(wǎng)絡(luò),大幅提升存儲性能 12網(wǎng)絡(luò)全生命周期自動化,大幅降低上市時間 14全網(wǎng)智能運維,實現(xiàn)故障主動預(yù)測 16全場景服務(wù)化能力,網(wǎng)絡(luò)即服務(wù) 17第4章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu) 18方案架構(gòu) 18主要組件產(chǎn)品一覽 21第5章超融合數(shù)據(jù)中心網(wǎng)絡(luò)關(guān)鍵技術(shù) 24智能無損網(wǎng)絡(luò)系列技術(shù) 24自動駕駛網(wǎng)絡(luò)技術(shù) 30多云協(xié)同技術(shù) 35智能運維技術(shù) 37第6章超融合數(shù)據(jù)中心網(wǎng)絡(luò)典型應(yīng)用 43提升某銀行交易系統(tǒng)性能 43提升某銀行分布式存儲性能 44加速某互聯(lián)網(wǎng)企業(yè)無人駕駛技能訓(xùn)練 44實現(xiàn)某人工智能計算中心大規(guī)模RoCE組網(wǎng) 44實現(xiàn)某機(jī)場業(yè)務(wù)變更百分百符合預(yù)期 45實現(xiàn)某政務(wù)云端到端自動化業(yè)務(wù)高效發(fā)放 45PAGEPAGE4超融合數(shù)據(jù)中心網(wǎng)絡(luò)簡介第1章超融合數(shù)據(jù)中心網(wǎng)絡(luò)簡介摘要摘要現(xiàn)如今,數(shù)據(jù)中心正成為算力中心,為千行百業(yè)提供數(shù)字化底座,并基于海量數(shù)據(jù)挖掘其中的商業(yè)價值。超融合數(shù)據(jù)中心網(wǎng)絡(luò)以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡(luò),使通用計算、高性能計算、存儲三大業(yè)務(wù)均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維,可在服務(wù)器規(guī)模不變的情況下,顯著提升數(shù)據(jù)中心的整體算力水平。進(jìn)人類社會正邁入萬物感知、萬物互聯(lián)、萬物智能的智能時代,物聯(lián)網(wǎng)、大數(shù)據(jù)、5G、AI等新技術(shù)和各類創(chuàng)新應(yīng)用層出不窮。作為構(gòu)建數(shù)字化社會的信息基石——數(shù)據(jù)中心,他承擔(dān)著各類應(yīng)用的數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)計算的重任。從數(shù)據(jù)中挖掘商業(yè)價值已成為企業(yè)經(jīng)營的核心任務(wù)之一圖1-1數(shù)字化社會的信息基石——數(shù)據(jù)中心數(shù)據(jù)中心算力是服務(wù)器對數(shù)據(jù)進(jìn)行處理后實現(xiàn)結(jié)果輸出的能力,這是數(shù)據(jù)中心內(nèi)計算、存儲、網(wǎng)絡(luò)三大資源協(xié)同能力的綜合衡量指標(biāo)。ODCC(OpenDataCenterCommittee,開放數(shù)據(jù)中心委員會)的定義,4力、網(wǎng)絡(luò)能力。在服務(wù)器規(guī)模不變的情況下,提升網(wǎng)絡(luò)能力可顯著改善數(shù)據(jù)中心單位能耗下的算力水平。什么是超融合數(shù)據(jù)中心網(wǎng)絡(luò)數(shù)據(jù)中心內(nèi)存在三大資源區(qū):通用計算區(qū)、高性能計算(HPC)區(qū)和存儲區(qū)。圖1-2數(shù)據(jù)中心內(nèi)存在的三大資源區(qū)通用計算區(qū)的網(wǎng)絡(luò)被稱為應(yīng)用網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)或前端網(wǎng)絡(luò),當(dāng)前部署的是以太網(wǎng)。高性能計算區(qū):配備了專用的高性能單元(CPU、GPU)的服務(wù)器,完成指定的高性能計算任務(wù)或AI訓(xùn)練。這個區(qū)域中的服務(wù)器一般很少使用虛擬技術(shù)。本區(qū)域中的網(wǎng)絡(luò)被稱為高性能計算互聯(lián)網(wǎng)絡(luò),當(dāng)前部署的是IB(InfiniBand)網(wǎng)絡(luò)。存儲區(qū)FC(FibreChannel)網(wǎng)絡(luò)。算力持續(xù)穩(wěn)定的輸出,離不開三大資源區(qū)的相互配合。作為聯(lián)接數(shù)據(jù)中心各類資源的大動脈,數(shù)據(jù)中心網(wǎng)絡(luò)承載著保障數(shù)據(jù)高效流通的職責(zé)。圖1-3三大區(qū)域之間的數(shù)據(jù)流當(dāng)前,通用計算區(qū)部署的傳統(tǒng)以太網(wǎng)、高性能計算區(qū)部署的IB網(wǎng)、存儲區(qū)部署的FC網(wǎng),是三張異構(gòu)網(wǎng)絡(luò),他們協(xié)議各異、架構(gòu)割裂,帶來了運維困難、專網(wǎng)生態(tài)封閉、成本高、無法實現(xiàn)全生命周期管理等問題。數(shù)據(jù)中心里這三張網(wǎng)絡(luò)的融合,成為算力提升的必然要求。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡(luò),使通用計算、高性能計算、存儲三大業(yè)務(wù)均能融合部署在同一張以太網(wǎng)上,同時實現(xiàn)全生命周期自動化和全網(wǎng)智能運維。PAGE10PAGE10超融合數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)生背景第2章超融合數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)生背景摘要摘要千行百業(yè)上云,多項變革推動數(shù)據(jù)中心網(wǎng)絡(luò)向全以太化演進(jìn):IT架構(gòu)從本地集中式走向云端分布式,多節(jié)點之間大規(guī)?;ヂ?lián)使用的是以太網(wǎng)。計算單元去除PCIe的瓶頸限制,芯片直接出以太口來提供更高算力。存儲層面升級為全閃存(VMe,用高帶寬的以太網(wǎng)作為承載已成為業(yè)界共識。以太網(wǎng)在開放性、業(yè)務(wù)部署和運維效率方面均具有明顯優(yōu)勢。IT分布式當(dāng)前一些新興的應(yīng)用,如區(qū)塊鏈、工業(yè)仿真、人工智能、大數(shù)據(jù)等,基本都建立在云計算的底座中。近些年,企業(yè)各類業(yè)務(wù)上云的步伐不斷加速,云可以提供按需自助服務(wù)、快速彈性伸縮、多租戶安全隔離、降低項目前期投資等價值優(yōu)勢。另外,在企業(yè)的數(shù)字化轉(zhuǎn)型中,以金融和互聯(lián)網(wǎng)企業(yè)為代表,大量的應(yīng)用系統(tǒng)逐漸遷移到分布式系統(tǒng)上,也就是通過海量的PC平臺來替代傳統(tǒng)的小型機(jī)。這么做帶來了高性價比、易擴(kuò)展、自主可控等好處,但分布式系統(tǒng)架構(gòu)同時也帶來了服務(wù)器節(jié)點之間大量的網(wǎng)絡(luò)互通需求。以太網(wǎng)已經(jīng)成為云化分布式場景中的事實網(wǎng)絡(luò)標(biāo)準(zhǔn):以太網(wǎng)已具有很高的開放性,可以與各種云融合部署、可被云靈活調(diào)用管理。以太網(wǎng)具有很好的擴(kuò)展性、互通性、彈性、敏捷性和多租戶安全能力。以太網(wǎng)可以滿足新業(yè)務(wù)超大帶寬的需求。以太網(wǎng)從業(yè)人員多,用戶基礎(chǔ)好。IBFCIDCFCIB市場逐步萎縮,當(dāng)前以及未來主要的數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)互聯(lián)技術(shù)。計算層面:CPU/GPU性能以人工智能為代表的一系列創(chuàng)新應(yīng)用正在快速發(fā)展,而人工智能后臺算法量的樣本數(shù)據(jù)和高性能的計算能力。為了滿足海量數(shù)據(jù)訓(xùn)練的大算力要求,一方面可CPU3nm面,可以疊加多核來提升算力,但隨著核數(shù)的增加,單位算力功耗也會顯著增長,且總算力并非線性增長。據(jù)測算,當(dāng)128核增至256核時,總算力水平無法提升1.2倍。隨著算力需求的不斷增長,從P級(PFLOPS,一秒1015次浮點運算)向E級(EFLOPS,一秒1018次浮點運算)演進(jìn),計算集群的規(guī)模不斷擴(kuò)大,對集群之間互聯(lián)的網(wǎng)絡(luò)性能要求也越來越高,這使得計算和網(wǎng)絡(luò)深度融合成為必然。PCIe的總線標(biāo)準(zhǔn)由于單通道傳輸帶寬有限,且通道擴(kuò)展數(shù)量也有限,已經(jīng)無法滿足目前大吞吐高性能計算場景的要求。當(dāng)前業(yè)界的主流是在計算處理器內(nèi)集成RoCE(RemoteDirectMemoryAccessoverConvergedEthernet,基于融合以太的遠(yuǎn)程內(nèi)存直接訪問協(xié)議)以太端口,從而讓數(shù)據(jù)通過標(biāo)準(zhǔn)以太網(wǎng)在傳輸速度和可擴(kuò)展性上獲得了巨大的提升。RemoteDirectMemoryAccess(RDMA)TCP而言的,如下TCP協(xié)議棧在接收/處理時,會產(chǎn)生數(shù)十微秒的固定時延,這使得在AI數(shù)據(jù)運算這類微秒級系統(tǒng)中,TCP協(xié)議棧時延成為最明顯的瓶頸。CPURDMA允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務(wù)器內(nèi)的數(shù)據(jù)傳輸時延降低到接近1μs。同時,RDMA允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大地減少了CPU的負(fù)擔(dān)。圖2-1RDMA與TCP的對比在高性能計算場景中,當(dāng)前有兩種主流方案來承載RDMA:專用IB(InfiniBand)網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。然而,IB網(wǎng)絡(luò)采用私有協(xié)議,架構(gòu)封閉,難以與現(xiàn)IPIB網(wǎng)絡(luò)運維復(fù)雜,OPEX居高不下。RDMARoCE計算場景。存儲層面:升級為全閃存NVMe接口新業(yè)務(wù)對海量數(shù)據(jù)的存儲和讀寫需求,催生了存儲介質(zhì)的革新,由HDD(HardDiskDrive,機(jī)械硬盤)快速向SSD(Solid-StateDrive,固態(tài)硬盤)切換,這帶來了存儲性能近100倍的提升。在此過程中,出現(xiàn)了NVMe(Non-VolatileMemoryexpress,非易失性內(nèi)存主機(jī)控制器接口規(guī)范)存儲協(xié)議,NVMe極大提升了存儲系統(tǒng)內(nèi)部的存儲吞吐性能,降低了傳輸時延。FC當(dāng)前存儲網(wǎng)絡(luò)的瓶頸。完成革新后的全新存儲系統(tǒng),需要一個更快、更高質(zhì)量的網(wǎng)絡(luò)。為此,存儲與網(wǎng)絡(luò)從架構(gòu)和協(xié)議層進(jìn)行了深度重構(gòu),新一代存儲網(wǎng)絡(luò)技術(shù)overFabric(NVMe-oF)應(yīng)運而生。NVMe-oFNVMe協(xié)議應(yīng)用到服務(wù)器主SANSCSI(SmallComputerSystemInterface,小型計算機(jī)系統(tǒng)接口)協(xié)議。圖2-2NVMe-oF的產(chǎn)生背景VMeerFbic中的“FabicVMe的承載網(wǎng)絡(luò),這個網(wǎng)絡(luò)可以是FC、TCP或RDMA。對于FC,其技術(shù)封閉、產(chǎn)業(yè)生態(tài)不及以太網(wǎng);產(chǎn)業(yè)規(guī)模有限,技術(shù)發(fā)展相對遲緩,帶寬不及以太網(wǎng);從業(yè)人員稀缺、運維成本高、故障排除效率低。TCPRDMATCP已成為大勢所趨。RMARE(RMAerCeredternetVeoverRoCERDMANVMe。RoCE進(jìn)一步分RoCEv1RoCEv2RoCEv1是一種鏈路層協(xié)議,允許在同一個廣播域下的任意兩臺主機(jī)直接訪問;RoCEv2InternetREFC性能更高(更高的帶寬、更低的時延CP的優(yōu)勢(P化VMeerRE作為新一代存儲網(wǎng)絡(luò)NVMe-oF的主流技術(shù)。升級在數(shù)據(jù)中心網(wǎng)絡(luò),當(dāng)前存在幾個較為突出的問題與挑戰(zhàn):管控。計、調(diào)測,人工操作不僅效率低,而且容易出錯。定位慢:如果發(fā)生異常,據(jù)統(tǒng)計,故障的定位平均時長達(dá)76務(wù)的連續(xù)性,給企業(yè)帶來損失。這些都呼喚一個全新的數(shù)據(jù)中心網(wǎng)絡(luò)的到來。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),在實現(xiàn)“三網(wǎng)合一”的基礎(chǔ)上,在開放性、業(yè)務(wù)部署、維護(hù)層面進(jìn)行變革,全方位應(yīng)對上述挑戰(zhàn)。PAGE14PAGE14華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)價值第3章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)價值摘要摘要本章介紹了華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)在高性能計算、存儲、業(yè)務(wù)自動化、智能運維、服務(wù)化能力這五個方面給客戶帶來的價值。HPC網(wǎng)絡(luò),充分釋放算力HPC計算節(jié)點之間傳輸?shù)臄?shù)據(jù)量大,時延要求嚴(yán)格,當(dāng)網(wǎng)絡(luò)有丟包或時延較高時,就會導(dǎo)致網(wǎng)絡(luò)擁堵,高性能計算集群的整體效率大幅降低,即便增加計算節(jié)點也無濟(jì)于事。據(jù)統(tǒng)計,網(wǎng)絡(luò)0.1%的丟包將造成算力下降50%。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),面向高性能計算場景提供全以太HPC網(wǎng)絡(luò)。該方案CloudEngineiLossless-DCN,攻克40100%HPC需的極致網(wǎng)絡(luò)性能,實現(xiàn)同等計算集群規(guī)模下,算力倍增。性能在分布式存儲場景,基于華為CloudEngine數(shù)據(jù)中心交換機(jī)內(nèi)置的iLossless-DCN智能無損算法,可感知流量的變化,并基于海量存儲流量樣本持續(xù)進(jìn)行AI訓(xùn)練,智能動態(tài)地調(diào)整交換機(jī)的隊列水線,實現(xiàn)亞秒級流量精準(zhǔn)控制,確保100%吞吐下零丟包,IOPS(Input/outputOperationsPerSecond,每秒進(jìn)行讀寫操作的次數(shù))提升20%。在集中式存儲場景,華為推出了NoF+方案,除了對交換機(jī)水線的智能動態(tài)調(diào)整外,還實現(xiàn)了即插即用的存儲網(wǎng)絡(luò):相比傳統(tǒng)以太網(wǎng)中逐節(jié)點、逐Zone手工配置方式,可以做到業(yè)務(wù)單點配置、全網(wǎng)同步,實現(xiàn)存儲設(shè)備的即插即用。另外,NoF+方案實現(xiàn)了網(wǎng)絡(luò)側(cè)與存儲側(cè)的故障聯(lián)動:交換機(jī)毫秒級檢測并通告故障,協(xié)同業(yè)務(wù)側(cè)完成亞秒級的網(wǎng)絡(luò)平面切換,實現(xiàn)網(wǎng)絡(luò)中單點故障存儲業(yè)務(wù)無感知。圖3-1網(wǎng)絡(luò)側(cè)與存儲側(cè)的故障聯(lián)動對于存儲網(wǎng)絡(luò),金融的雙活數(shù)據(jù)中心場景性能要求最為嚴(yán)苛。同城數(shù)據(jù)中心之間3070公里不等,由于長距光纖數(shù)據(jù)傳輸存在靜態(tài)時延(5μs/公里,距離越長時延越大,與短距場景相比時延增長了百倍,流控復(fù)雜度指數(shù)級增加。為此,華為推出長距無損iLossless-DCI算法,在短距無損的基礎(chǔ)上增加了距離變量,基于大數(shù)據(jù)分析提前應(yīng)對流量變化,可實現(xiàn)同城數(shù)據(jù)中心間的無損傳輸,跨數(shù)FC90%(10100G1008GFC鏈路。在數(shù)據(jù)中心內(nèi)和跨數(shù)據(jù)中心的同等距離場景下,IOPSFC網(wǎng)絡(luò)可提升87%42%。市時間使能數(shù)據(jù)中心網(wǎng)絡(luò)自動駕駛傳統(tǒng)的網(wǎng)絡(luò)業(yè)務(wù)部署是一個半自動的過程,只有網(wǎng)絡(luò)配置下發(fā)實現(xiàn)了自動化,而網(wǎng)絡(luò)生命周期中的方案設(shè)計、方案評審、配置驗證等都需要人工操作。這些環(huán)節(jié)不僅需要跨部門多人協(xié)同工作,而且容易引入人為錯誤,成為網(wǎng)絡(luò)業(yè)務(wù)部署的瓶頸。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),在業(yè)界首個實現(xiàn)了L3自動駕駛網(wǎng)絡(luò)能力,將數(shù)字孿生方法論引入網(wǎng)絡(luò)管理領(lǐng)域,實現(xiàn)全生命周期的自動化?;诰W(wǎng)絡(luò)數(shù)字建模,可綜合評估400+影響網(wǎng)絡(luò)設(shè)計的因子,智能推薦最優(yōu)的網(wǎng)絡(luò)設(shè)計方案,并完成配置變更的自動校驗。在單個數(shù)據(jù)中心內(nèi)部,實現(xiàn)在方案設(shè)計、評估、配置下發(fā)、配置校驗等關(guān)鍵操作的端到端全智能掌控,業(yè)務(wù)極速發(fā)放,變更0差錯。根據(jù)網(wǎng)絡(luò)全生命周期里規(guī)劃設(shè)計、部署開通、業(yè)務(wù)發(fā)放、監(jiān)控排障、網(wǎng)絡(luò)變更及參數(shù)調(diào)優(yōu)這六個階段,華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)的自動化與智能化價值總結(jié)參見下表。階段現(xiàn)狀華為自動駕駛網(wǎng)絡(luò)的優(yōu)勢規(guī)劃設(shè)計手工規(guī)劃,無法提前大規(guī)模驗證,大量依賴專家經(jīng)驗依靠大數(shù)據(jù)和人工智能,實現(xiàn)特定場景規(guī)劃導(dǎo)入,提前全網(wǎng)仿真部署開通需要經(jīng)驗豐富的網(wǎng)絡(luò)工程師使用命令行操作,逐臺設(shè)備進(jìn)行配置普通工程師可全網(wǎng)一次性部署,配置可依據(jù)策略預(yù)置業(yè)務(wù)發(fā)放大量應(yīng)用逐項測試,待測試成功后再逐一部署打通網(wǎng)絡(luò)和應(yīng)用的界限,實現(xiàn)應(yīng)用批量發(fā)放監(jiān)控排障借助其他工具定期監(jiān)測,收到故障報警后人工處理智能監(jiān)測網(wǎng)絡(luò)運行狀態(tài),故障前發(fā)出預(yù)警;故障后給出定位和解決建議,并回溯故障原因和過程網(wǎng)絡(luò)變更手工調(diào)整設(shè)備的配置,每臺設(shè)備逐一進(jìn)行配置調(diào)整前提供變更后的仿真,仿真驗證通過后自動批量完成;一旦發(fā)現(xiàn)問題快速回滾到不同快照節(jié)點階段現(xiàn)狀華為自動駕駛網(wǎng)絡(luò)的優(yōu)勢參數(shù)調(diào)優(yōu)根據(jù)網(wǎng)絡(luò)工程師積累的經(jīng)驗,對不同參數(shù)逐一進(jìn)行測試驗證,尋找優(yōu)化方案AI能分析后快速匹配各類業(yè)務(wù),將優(yōu)秀經(jīng)驗應(yīng)多數(shù)據(jù)中心間業(yè)務(wù)靈活編排越強(qiáng)烈。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案,可以在多個私有云數(shù)據(jù)中心之間,實現(xiàn)業(yè)務(wù)模型統(tǒng)一抽象、各類業(yè)務(wù)需求統(tǒng)一編排、網(wǎng)絡(luò)資源統(tǒng)一管理和維護(hù),滿足各行各業(yè)高效部署跨數(shù)據(jù)中心業(yè)務(wù)的需求。私有云與公有云間業(yè)務(wù)互通與靈活編排現(xiàn)階段,許多企業(yè)IT架構(gòu)已經(jīng)從過去的集中式大型機(jī)遷移到分布式x86虛擬化架構(gòu),并正在向多地多云架構(gòu)演進(jìn)。根據(jù)業(yè)務(wù)特點的不同,可將業(yè)務(wù)分為穩(wěn)態(tài)業(yè)務(wù)和敏態(tài)業(yè)務(wù)兩類,他們往往部署在不同的云上。穩(wěn)態(tài)業(yè)務(wù):要求高可靠、低時延等,通常部署在傳統(tǒng)網(wǎng)絡(luò)和硬件SDN通過物理機(jī)承載,需求。敏態(tài)業(yè)務(wù):DevOps模式下的業(yè)務(wù)開發(fā),需要持續(xù)集成和持續(xù)部署,署在軟件SDN、公有云中,通過虛擬機(jī)承載,滿足業(yè)務(wù)敏捷、彈性、反復(fù)重構(gòu)的訴求。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)可實現(xiàn)私有云與公有云之間的業(yè)務(wù)互通編排,將穩(wěn)態(tài)業(yè)務(wù)部署在私有云中,將敏態(tài)業(yè)務(wù)部署在公有云上,從而使數(shù)據(jù)中心業(yè)務(wù)可以靈活跨數(shù)據(jù)中心、跨不同的云部署,他具有以下價值:便于理解。統(tǒng)一編排:提供統(tǒng)一的專用業(yè)務(wù)編排入口和界面,提升了業(yè)務(wù)編排的效率。統(tǒng)一運維:提供跨私有云和公有云的統(tǒng)一運維平臺,簡化維護(hù)。圖3-2私有云與公有云間業(yè)務(wù)互通全網(wǎng)智能運維,實現(xiàn)故障主動預(yù)測隨著數(shù)據(jù)中心從傳統(tǒng)IT支撐系統(tǒng)變更為生產(chǎn)系統(tǒng),數(shù)據(jù)中心網(wǎng)絡(luò)重要性越來越高,故障零容忍。隨著網(wǎng)絡(luò)規(guī)模不斷增大,節(jié)點關(guān)系錯綜復(fù)雜,網(wǎng)絡(luò)狀態(tài)瞬息萬變,數(shù)據(jù)中心網(wǎng)絡(luò)的復(fù)雜度已經(jīng)超出了傳統(tǒng)手段和個人經(jīng)驗所能覆蓋的范疇。超融合數(shù)據(jù)中心網(wǎng)絡(luò)可實現(xiàn)全網(wǎng)的智能運維。該方案將知識圖譜引入到了網(wǎng)絡(luò)運維中,大大減輕了故障處理階段運維人員的壓力,還可以提供90%故障的主動預(yù)測,實現(xiàn)了風(fēng)險感知到修復(fù)的自動閉環(huán),保證業(yè)務(wù)7x24小時在線?,F(xiàn)狀華為智能運維的優(yōu)勢采用SNMP協(xié)議,5分鐘輪詢周期采用Telemetry機(jī)制,秒級數(shù)據(jù)集采集,基于分析平臺構(gòu)建動態(tài)基線異常檢測,多維度實現(xiàn)網(wǎng)絡(luò)全場景數(shù)據(jù)可視與指標(biāo)分析需每日按時巡檢,面向單一的告警事件,缺乏完整的評估能力構(gòu)建了全網(wǎng)的評估模型,基于AI算法構(gòu)建了基于設(shè)備層、網(wǎng)絡(luò)層、協(xié)議層、Overlay層、業(yè)務(wù)層的全網(wǎng)健康度評估模型,可預(yù)測容量/流量風(fēng)險發(fā)生故障后被動響應(yīng),故障處理過程依賴人工經(jīng)驗和操作基于AI算法和專家經(jīng)驗庫,實現(xiàn)對故障的1分鐘感知,3分鐘定位和5分鐘故障隔離或修復(fù)全場景服務(wù)化能力,網(wǎng)絡(luò)即服務(wù)多云場景下網(wǎng)絡(luò)異構(gòu)成為常態(tài),多廠商設(shè)備往往配套多種控制器。一方面,當(dāng)跨云業(yè)務(wù)變更時,需求要分解到多個控制器,如果控制器能力不滿足,則需要依賴原廠商落入版本開發(fā),周期在3~6個月不等。另一方面,企業(yè)云管平臺需要同時對接多個控制器,適配工作量巨大。南向和北向的多接口模式造成跨云網(wǎng)絡(luò)部署動輒耗時數(shù)月,成為算力跨域流通的瓶頸??蓪崿F(xiàn)跨廠商設(shè)備驅(qū)動程序的動態(tài)加載和設(shè)備的統(tǒng)一管理,屏蔽了網(wǎng)絡(luò)設(shè)備的差異。南向開放框架可以將多廠商設(shè)備抽象為統(tǒng)一的業(yè)務(wù)對象,減少人工投入,提供一致的業(yè)務(wù)體驗,同時還提供不同廠商設(shè)備配置轉(zhuǎn)移的能力,保障客戶替換設(shè)備時不中斷業(yè)務(wù)。API月縮短至數(shù)天。PAGE20PAGE20華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)第4章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)摘要摘要本章介紹華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)的分層架構(gòu)以及相關(guān)產(chǎn)品。方案架構(gòu)華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)的架構(gòu)如下圖所示。圖4-1華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)服務(wù)器層用于承載應(yīng)用程序的服務(wù)器資源,需要接入網(wǎng)絡(luò)層來實現(xiàn)與外部通信:按照工作職能,可劃分為:通用計算服務(wù)器、存儲服務(wù)器、高性能計算服務(wù)器等。通用計算服務(wù)器:用于部署常規(guī)應(yīng)用的服務(wù)器,大量使用虛擬化、容器等技術(shù),形成靈活的計算資源池。存儲服務(wù)器:使用專用的存儲服務(wù)器,對各類數(shù)據(jù)進(jìn)行存儲、讀寫和備份。高性能計算服務(wù)器:配備了專用的高性能單元(如CPU、GPU)的服務(wù)器,用于完成指定的高性計算任務(wù)或AI訓(xùn)練。物理機(jī):傳統(tǒng)的非虛擬化的服務(wù)器。虛擬機(jī):通過計算虛擬化技術(shù)完成對物理服務(wù)器資源的抽象和虛擬管理,并通過虛擬機(jī)的形態(tài)對外提供業(yè)務(wù)承載。容器:容器是應(yīng)用層的抽象,他將代碼和依賴關(guān)系打包在一起。多個容器可以在同一臺機(jī)器上運行,并與其他容器共享操作系統(tǒng)內(nèi)核,每個容器在用戶空間中作為獨立進(jìn)程運行。一般情況下,存儲服務(wù)器、高性能計算服務(wù)器均為物理機(jī)。通用計算服務(wù)器采用上述形態(tài)的一種或多種。網(wǎng)絡(luò)層由網(wǎng)絡(luò)設(shè)備如交換機(jī)、防火墻、負(fù)載均衡器等組成,為服務(wù)器提供數(shù)據(jù)中心內(nèi)部互聯(lián)互通的網(wǎng)絡(luò)服務(wù)、以及提供訪問數(shù)據(jù)中心外部資源的網(wǎng)絡(luò)服務(wù)。CloudEngine系列數(shù)據(jù)中心交換機(jī)承擔(dān),為服務(wù)器層提供高速互聯(lián)通道。ACL安全防護(hù)、NAT等。個服務(wù)器的負(fù)擔(dān),提升業(yè)務(wù)體驗和可靠性??刂婆c分析層對網(wǎng)絡(luò)層進(jìn)行資源管理、并根據(jù)業(yè)務(wù)需求完成網(wǎng)絡(luò)配置的自動下發(fā);對網(wǎng)絡(luò)層進(jìn)行健康度檢查,對出現(xiàn)的故障進(jìn)行智能分析和定位。iMasterNCE-Fabric:華為數(shù)據(jù)中心控制器,南向管理網(wǎng)絡(luò)設(shè)備,北向與應(yīng)用層的平臺類系統(tǒng)對接,完成業(yè)務(wù)全生命周期的自動化部署和網(wǎng)絡(luò)資源管理。其中華SecoManager管理,SecoManageriMasterNCE-Fabric上的一項服務(wù)。iMserCEFbicMC:簡稱為MC(ulCenerCrller,即多數(shù)據(jù)中心控制器,當(dāng)客戶擁有多個數(shù)據(jù)中心,每個數(shù)據(jù)中心作為一個資源域,iMasterNCE-FabricMDC來對多個數(shù)據(jù)中心的網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行統(tǒng)一編排和管理。iMasterNCE-FabricInsight:華為數(shù)據(jù)中心網(wǎng)絡(luò)智能分析平臺,可實時感知Fabric查,分析網(wǎng)絡(luò)故障的根因。iMserCEFbisitMAM(MulidinAnlyzer,即應(yīng)用于企業(yè)內(nèi)外部客戶部署的分布式多云進(jìn)行分析。HiSecInsightAPTHiSecInsight高級威脅分析系HiSec應(yīng)用層面向各類ICT管理員、業(yè)務(wù)用戶提供的具體業(yè)務(wù)界面和接口:StackOpenStack。計算虛擬化平臺:對計算資源完成虛擬化和管理的平臺。容器平臺:對計算資源進(jìn)行容器化管理的平臺,如開源Kubernetes、開源Docker等。主要組件產(chǎn)品一覽iMasterNCE-Fabric數(shù)據(jù)中心控制器iMasterNCE-Fabric控制器是華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案的核心組件,可實現(xiàn)對網(wǎng)絡(luò)資源的統(tǒng)一控制和動態(tài)調(diào)度,快速部署云業(yè)務(wù)。iMasterNCE-Fabric采用開放架構(gòu),開放豐富的標(biāo)準(zhǔn)接口,北向支持與業(yè)界主流OpenStack云平臺實現(xiàn)L2~L7層對接,南向支持管理物理交換機(jī)、虛擬交換機(jī)、防火墻等物理和虛擬網(wǎng)絡(luò)設(shè)備。iMasterNCE-Fabric通過北向接口接收以用戶為中心的業(yè)務(wù)訴求,并將其轉(zhuǎn)換為網(wǎng)絡(luò)配置、批量下發(fā),實現(xiàn)網(wǎng)絡(luò)自動化。在沒有云平臺的場景下,iMasterNCE-Fabric提供獨立業(yè)務(wù)發(fā)放GUI。iMasterNCE-Fabric提供高可靠集群能力,系統(tǒng)采用負(fù)載分擔(dān)方式對南北向業(yè)務(wù)進(jìn)行處理,同時支持主備集群部署,實現(xiàn)異地容災(zāi),滿足數(shù)據(jù)中心業(yè)務(wù)的高可靠性要求。掃描下方二維碼,獲取更多iMasterNCE-Fabric數(shù)據(jù)中心控制器的信息:iMasterNCE-FabricInsight數(shù)據(jù)中心分析器華為iMasterNCE-FabricInsight是面向數(shù)據(jù)中心網(wǎng)絡(luò)的智能分析平臺,基于大數(shù)據(jù)分析技術(shù),為用戶提供無處不在的網(wǎng)絡(luò)應(yīng)用分析與可視化呈現(xiàn),打通應(yīng)用和網(wǎng)絡(luò)的邊界。iMasterNCE-FabricInsight通過Telemetry采集網(wǎng)絡(luò)全場景數(shù)據(jù),實時呈現(xiàn)網(wǎng)絡(luò)質(zhì)量,幫助客戶實現(xiàn)快速識別故障,并在業(yè)務(wù)產(chǎn)生影響前主動識別風(fēng)險。掃描下方二維碼,獲取更多iMasterNCE-FabricInsight數(shù)據(jù)中心分析器的信息:CloudEngine系列數(shù)據(jù)中心交換機(jī)CloudEngine16800iLossless智能無損交換算法,對全網(wǎng)流量進(jìn)行實時的學(xué)習(xí)訓(xùn)練,E2E微級時延,達(dá)到最高吞吐量。CloudEngine6800系列交換機(jī)是華為公司面向數(shù)據(jù)中心推出的新一代高性能、高密度、低時延的以太網(wǎng)盒式交換機(jī)。掃描下方二維碼,獲取更多CloudEngine系列數(shù)據(jù)中心交換機(jī)的信息:PAGE29PAGE29超融合數(shù)據(jù)中心網(wǎng)絡(luò)關(guān)鍵技術(shù)第5章超融合數(shù)據(jù)中心網(wǎng)絡(luò)關(guān)鍵技術(shù)摘要摘要本節(jié)介紹了華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)里使用到的一些主要技術(shù):智能無損網(wǎng)絡(luò)系列技術(shù)、自動駕駛網(wǎng)絡(luò)技術(shù)、多云協(xié)同技術(shù)、智能運維技術(shù),方便您更好地理解超融合數(shù)據(jù)中心網(wǎng)絡(luò)帶來的價值。智能無損網(wǎng)絡(luò)系列技術(shù)RoCEv2RDMAiLossless智能無損算法的一系列技術(shù)來構(gòu)建智能無損以太網(wǎng)絡(luò),通過如圖5-1所示的多個技術(shù)的組合,真正解決傳統(tǒng)以太網(wǎng)絡(luò)擁塞丟包的問題,為RoCEv2RoCEv2應(yīng)用的高性能需求。圖5-1華為智能無損網(wǎng)絡(luò)系列技術(shù)分類總覽流量控制類技術(shù)流量控制是端到端的,需要做的是抑制發(fā)送端的發(fā)送速率,以便接收端設(shè)備有足夠資源來接收流量,防止設(shè)備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖檢測和死鎖預(yù)防,提前預(yù)防PFC死鎖的發(fā)生。PFC(Priority-basedFlowControl,基于優(yōu)先級的流量控制)是一種有效避免丟包的流量控制技術(shù),是無損網(wǎng)絡(luò)的基礎(chǔ)。配置PFC功能的隊列為無損隊列,用于承載丟包敏感的業(yè)務(wù)流;沒有配置PFC的隊列被稱為有損隊列,用于承載可容忍一定丟包的業(yè)務(wù)流。然而,當(dāng)多個設(shè)備之間因為環(huán)路、服務(wù)器網(wǎng)卡故障等原因同時出現(xiàn)擁塞,各自端PFCPFCPFCPFCPFCPFC死鎖檢測PFC死鎖進(jìn)行全程監(jiān)控,當(dāng)設(shè)備在死鎖檢測周期內(nèi)持續(xù)PFC反壓幀時,認(rèn)為可能出現(xiàn)了PFC死鎖現(xiàn)象,此時會讓該端口不響應(yīng)PFCPFC反壓幀,則認(rèn)為出現(xiàn)了PFC死鎖,此時會關(guān)閉PFC功能,保護(hù)應(yīng)用。PFC死鎖預(yù)防PFCPFC反壓的路徑,讓PFC反壓幀不會形成環(huán)路,從而避免PFC死鎖的發(fā)生。擁塞控制類技術(shù)擁塞控制是一個全局性的過程,目的是讓網(wǎng)絡(luò)能承受現(xiàn)有的網(wǎng)絡(luò)負(fù)荷,往往需要轉(zhuǎn)發(fā)設(shè)備、流量發(fā)送端、流量接收端協(xié)同作用,并結(jié)合網(wǎng)絡(luò)中的擁塞反饋機(jī)制來調(diào)節(jié)整網(wǎng)流量才能起到緩解擁塞、解除擁塞的效果。在擁塞控制過程中,華為提供了AIECN(ArtificialIntelligenceExplicitCongestionNotification、ECNOverlay、iQCN(intelligentQuantizedCongestionNotificationNPCC,解決了傳統(tǒng)DCQCN存在的問題。AIECN目前,RDMADCQCN(DataCenteredCesntiicn,CCNCN功能的網(wǎng)絡(luò)設(shè)備,其他的協(xié)議功能在主機(jī)的網(wǎng)卡上實現(xiàn)。DCQCN可以在需要零丟包傳輸RDMADCQCNECN擁塞標(biāo)ECNCNP但是,DCQCN使用的是靜態(tài)ECN的方式,也就是說需要在轉(zhuǎn)發(fā)設(shè)備上手工配置ECN的高低門限、ECN的標(biāo)記概率等參數(shù),對于需要無丟包傳輸?shù)臒o損業(yè)務(wù),ECN門限適應(yīng)隊列中不斷變化的緩存空間,在兼顧時延敏感小流和吞吐PFC量的吞吐和時延造成影響。華為智能無損網(wǎng)絡(luò)中的AIECN(ArtificialIntelligenceExplicitCongestionNotification)是一種根據(jù)現(xiàn)網(wǎng)流量模型智能地調(diào)整無損隊列的ECN門限的功能。AIECN結(jié)合了智能算法,可以根據(jù)現(xiàn)網(wǎng)流量模型進(jìn)行AI訓(xùn)練,對網(wǎng)絡(luò)流量變化進(jìn)行預(yù)測,及時推理最優(yōu)ECN門限,并且支持根據(jù)現(xiàn)網(wǎng)流量變化實時調(diào)整ECNAIECNTCPRoCEv2RoCEv2流量的無損傳輸?shù)耐瑫r實現(xiàn)低時延和高吞吐。ECNOverlayECNIPECNVXLAN絡(luò)中對報文存在封裝和解封裝的過程,容易丟失擁塞狀態(tài)信息。ECNOverlayECN在VXLAN網(wǎng)絡(luò)中的應(yīng)用。ECNOverlayVXLAN網(wǎng)絡(luò)傳遞到流量接收端,可以及時VXLAN網(wǎng)絡(luò)的擁塞,實現(xiàn)網(wǎng)絡(luò)性能的最大利用。iQCNDCQCNECNECNCNP(CongestionNotificationPackets)擁塞通知報文,以通知發(fā)送端的網(wǎng)卡降低發(fā)包速率。當(dāng)網(wǎng)絡(luò)中出現(xiàn)擁塞時,可能讓發(fā)送端不能及時接收到CNP報文,導(dǎo)致發(fā)送端認(rèn)為網(wǎng)絡(luò)中擁塞已經(jīng)解除,從而對流量進(jìn)行升速,這會造成轉(zhuǎn)發(fā)設(shè)備進(jìn)一步擁塞惡化,甚至引發(fā)整網(wǎng)因PFC流控而暫停流量的發(fā)送。iQCN(intelligentQuantizedCongestionNotification)CNP報文而提出的功能。iQCN讓轉(zhuǎn)發(fā)設(shè)備可以智CNPCNPCNP報文而升速,導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)擁塞加劇。NPCCiQCNCNP程中發(fā)送端往往已經(jīng)升速。華為智能無損網(wǎng)絡(luò)中的NPCC(Network-basedProactiveCongestionControl)RoCEv2CNP報文,準(zhǔn)確控制發(fā)送端發(fā)送RoCEv2報文的速率。NPCC既可以確保擁塞時的及時降速,又可以避免擁塞緩解時的過度降速,最終實現(xiàn)數(shù)據(jù)中心長距互聯(lián)場景中RoCEv2業(yè)務(wù)的低時延和高吞吐。網(wǎng)絡(luò)與存儲協(xié)同技術(shù)存儲系統(tǒng)為了存儲大量的數(shù)據(jù),往往需要管理數(shù)量龐大的主機(jī),并且存在新主機(jī)陸續(xù)接入網(wǎng)絡(luò)設(shè)備的情況。為了讓智能無損網(wǎng)絡(luò)技術(shù)更好的服務(wù)于存儲系統(tǒng),華為提出了iNoF(IntelligentLosslessNVMeOverFabric,智能無損存儲網(wǎng)絡(luò))技術(shù),在網(wǎng)絡(luò)設(shè)備上建立iNoF網(wǎng)絡(luò)域后,域內(nèi)所有網(wǎng)絡(luò)設(shè)備都可以第一時間感知到接入主機(jī)的變化,從而可以將信息反饋給各個智能無損網(wǎng)絡(luò)功能去智能調(diào)整相關(guān)配置,最終使網(wǎng)絡(luò)達(dá)到低時延、無丟包和高吞吐的性能。同時,iNoF還可以將主機(jī)信息通告給存儲系統(tǒng),可以協(xié)助存儲系統(tǒng)管理主機(jī)。NVMe-oF詳情參見2.3;iNoF是華為CloudEngine交換機(jī)上智能無損特性集中的一個功能,屬于網(wǎng)絡(luò)與存儲協(xié)同技術(shù);NoF+是華為提出的集中式存儲網(wǎng)絡(luò)解決方案。NVMe-oF、iNoF和NoF+之間關(guān)系如下圖所示。圖5-2NVMe-oF、NoF+和iNoF之間的關(guān)系網(wǎng)絡(luò)與計算協(xié)同技術(shù)網(wǎng)算一體功能是指在交換機(jī)可以支持的計算能力范圍內(nèi),將集合通信的部分計算操作從服務(wù)器轉(zhuǎn)移到網(wǎng)絡(luò)側(cè)設(shè)備交換機(jī)上,同時完成網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)發(fā)與高性能數(shù)據(jù)計算功能。網(wǎng)算一體功能避免了在服務(wù)器之間多次發(fā)送數(shù)據(jù),減少了服務(wù)器集群間的通信量,從而降低了HPC小字節(jié)場景下的網(wǎng)絡(luò)時延,提升了計算效率。圖5-3網(wǎng)算一體示意圖自動駕駛網(wǎng)絡(luò)技術(shù)自動駕駛網(wǎng)絡(luò)技術(shù)產(chǎn)生的背景當(dāng)前,數(shù)據(jù)中心不再只是企業(yè)內(nèi)的一種資源支撐系統(tǒng),而是成為一種新的生產(chǎn)力,開始改變企業(yè)研發(fā)、生產(chǎn)和運營模式。但是,數(shù)據(jù)中心網(wǎng)絡(luò)在運營的規(guī)劃、建設(shè)、維護(hù)和優(yōu)化各階段嚴(yán)重依賴于人員經(jīng)驗和技能,受限于網(wǎng)絡(luò)技術(shù)復(fù)雜、人員技能不足,制約了企業(yè)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)轉(zhuǎn)型。要消除數(shù)據(jù)中心網(wǎng)絡(luò)全生命周期的人工瓶頸,原有網(wǎng)絡(luò)技術(shù)已經(jīng)無能為力。隨著意圖驅(qū)動、數(shù)字孿生、AI等重大創(chuàng)新技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)高度自治成為可能,不僅可以代替人工處理大量重復(fù)性、復(fù)雜性的操作,還能夠基于海量數(shù)據(jù)提升網(wǎng)絡(luò)預(yù)測和預(yù)防能力。通過意圖驅(qū)動、數(shù)字孿生等技術(shù)與AI結(jié)合,數(shù)據(jù)中心網(wǎng)絡(luò)生命周期中的人工瓶頸可逐步消除,并基于數(shù)據(jù)驅(qū)動差異化的產(chǎn)品服務(wù),使能高度自動化和智能化的網(wǎng)絡(luò)。華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)方案技術(shù)架構(gòu)華為企業(yè)自動駕駛網(wǎng)絡(luò)方案架構(gòu)主要分為網(wǎng)絡(luò)基礎(chǔ)設(shè)施、管控系統(tǒng)、云端訓(xùn)練系統(tǒng)三層。圖5-4華為自動駕駛網(wǎng)絡(luò)方案架構(gòu)網(wǎng)絡(luò)基礎(chǔ)設(shè)施CloudEngine交換機(jī)支持基于Telemetry的主動上報機(jī)制,同時具備NETCONFYANG高速配置能力。另外,設(shè)備內(nèi)嵌AI芯片,具備邊緣智能推理能力,可實現(xiàn)網(wǎng)絡(luò)KPI及流量異常行為分析、網(wǎng)絡(luò)KPI自優(yōu)化能力。管控系統(tǒng)iMasterNCE智能引擎及網(wǎng)絡(luò)數(shù)字孿生底座為核心,面向企業(yè)網(wǎng)絡(luò)“規(guī)-建-維-優(yōu)”全生命周期的自動化管理和智能運維全場景,提供意圖管理、仿真校驗、業(yè)務(wù)發(fā)放、健康度評估等獨立、微服務(wù)化組件。云端訓(xùn)練系統(tǒng)集成海量AI算法庫,提供高性能AI訓(xùn)練服務(wù)?;谠贫薃I模型訓(xùn)練引擎、管控系統(tǒng)智能訓(xùn)練&推理引擎、設(shè)備智能邊緣推理引擎,華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)方案可實現(xiàn)智能引擎間的模型與推理參數(shù)主動優(yōu)化,持續(xù)向高級網(wǎng)絡(luò)自動駕駛能力演進(jìn)。技術(shù)創(chuàng)新驅(qū)動結(jié)構(gòu)性問題解決下面簡要介紹幾項自動駕駛網(wǎng)絡(luò)中使用到的新技術(shù)。意圖驅(qū)動業(yè)務(wù)對網(wǎng)絡(luò)的意圖(簡稱意圖)指以應(yīng)用為中心,用業(yè)務(wù)語言描述對特定網(wǎng)絡(luò)服務(wù)及操作的期望。意圖引擎中使用的意圖驅(qū)動技術(shù),將業(yè)務(wù)對網(wǎng)絡(luò)的意圖轉(zhuǎn)換為網(wǎng)絡(luò)可理解、可配SLA及安全并提供網(wǎng)絡(luò)持續(xù)保障優(yōu)化能力。數(shù)字孿生Gartner將數(shù)字孿生(DigitalTwin)定義為物理對象的數(shù)字化表示,包括:物理對象的模型、來自物理對象或與其相關(guān)的數(shù)據(jù)、與物理對象唯一的映射、持續(xù)遙測感知物理對象的能力?;膶崟r表示,包括靜態(tài)信息(設(shè)備類型、容量、拓?fù)洹⑴渲玫?、動態(tài)信息(流量、表項、性能、告警、事件等、關(guān)聯(lián)關(guān)系(對象模型、屬性關(guān)聯(lián)等)等。他為網(wǎng)絡(luò)實現(xiàn)設(shè)計推薦、故障處理、資源性能優(yōu)化等智能決策提供了一張高精地圖。網(wǎng)絡(luò)數(shù)字孿生包含三大關(guān)鍵能力:高精地圖HMp絡(luò)多圖層的統(tǒng)一拓?fù)?,支持多圖層間對象關(guān)聯(lián)搜索能力。歷史回放imelineimelie歷史回放。數(shù)據(jù)超市(Mrket:提供統(tǒng)一的數(shù)據(jù)管理、查詢服務(wù),降低數(shù)據(jù)訪問難度。人工智能意圖驅(qū)動完成外部對網(wǎng)絡(luò)的訴求輸入,網(wǎng)絡(luò)數(shù)字孿生完成對網(wǎng)絡(luò)的全量實時感知。人工智能(ArtificialIntelligence,AI)技術(shù)的引入,進(jìn)一步消除了人工瓶頸。目前,廣泛使用的人工智能技術(shù)有如下幾類:強(qiáng)化學(xué)習(xí)Reinfreeterning,R:是不斷地重復(fù)、不斷強(qiáng)化認(rèn)知的學(xué)擇,則可以實現(xiàn)網(wǎng)絡(luò)的最佳部署。形式化驗證FlVeriin:最早應(yīng)用于軟件驗證領(lǐng)域,通過窮舉程序的所有輸入和所有執(zhí)行路徑來診斷代碼的質(zhì)量和功能。將形式化方法引入到網(wǎng)絡(luò)配置中,可構(gòu)建事前仿真、事后驗證的能力。在網(wǎng)絡(luò)變更前,進(jìn)行配置面驗證,保證變更零差錯。在配置下發(fā)后,定時采集設(shè)備的表項進(jìn)行數(shù)據(jù)面驗證,對網(wǎng)絡(luò)運行狀態(tài)提供持續(xù)性可靠保障。知識圖譜nlederph:主要包括知識表示與建模、知識獲取、知識融KPIKPIMin-plusalgebraIP網(wǎng)絡(luò)隊列理論,用于計算機(jī)網(wǎng)絡(luò)Cruz1990eerminisceorklulus,C、隨機(jī)網(wǎng)絡(luò)演算(sicNetworkCalculus,SNC)等。在機(jī)載/車載網(wǎng)絡(luò)、工業(yè)自動化網(wǎng)絡(luò)、IP網(wǎng)絡(luò)等各行業(yè)的通信網(wǎng)絡(luò)中均有成熟應(yīng)用。多云協(xié)同技術(shù)多云協(xié)同是指在私有云與公有云保持內(nèi)在自治的條件下,在私有云與不同的公有云之間實現(xiàn)業(yè)務(wù)層面的統(tǒng)一管理和運維,可實現(xiàn)跨云業(yè)務(wù)部署和流量互通。使用場景現(xiàn)代企業(yè)云化部署時,往往使用私有云與公有云聯(lián)合部署的方式,應(yīng)用場景有:力和計算處理能力。災(zāi)難恢復(fù):用戶可以將備用的業(yè)務(wù)數(shù)據(jù)放在公有云上,借助公有云提供商的技術(shù)在私有云數(shù)據(jù)中心發(fā)生重大災(zāi)難時,用戶可以在公有云端利用云主機(jī)快速切換,RTO,實現(xiàn)業(yè)務(wù)高可用。公有云里,以達(dá)到數(shù)據(jù)安全的目的。前端服務(wù)靠近用,后端集中處理:對于擁有多個分支的企業(yè),尤其是跨國企業(yè)來RegionCDN(ContentDeliveryNetwork,內(nèi)容分發(fā)網(wǎng)絡(luò))的只需要少量的前后端交互訪問即可完成整個業(yè)務(wù)處理。開發(fā)測試生產(chǎn)部署:對一個應(yīng)用而言,其開發(fā)測試過程一般需要靈活快捷的環(huán)境搭建,而且期間經(jīng)常重構(gòu),這時公有云是個不錯選擇。而一旦應(yīng)用正式上線,則希望運行在安全穩(wěn)定的環(huán)境中,那時就會考慮部署在私有云。在這種情況下,同一應(yīng)用在不同階段相互之間獨立,沒有直接聯(lián)系。通過多云協(xié)同技術(shù),利用DevOpsIPVPN專線訪問公有云提供的服務(wù),簡化本地應(yīng)用系統(tǒng)的開發(fā)與部署。方案架構(gòu)華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),提供了多云協(xié)同能力,實現(xiàn)了私有云和公有云之間的統(tǒng)一編排和統(tǒng)一運維。圖5-5多云協(xié)同邏輯架構(gòu)在多云協(xié)同的總體架構(gòu),從邏輯層面可分為業(yè)務(wù)編排層、控制層、基礎(chǔ)設(shè)施層。業(yè)務(wù)編排層:進(jìn)行跨公有云、私有云的業(yè)務(wù)互通網(wǎng)絡(luò)編排。MDC:Multi-Datacenter-Controller,多數(shù)據(jù)中心控制器。MDC既可實現(xiàn)私有云跨Fabric業(yè)務(wù)互通編排,又可實現(xiàn)私有云與公有云之間的業(yè)務(wù)互通編排。此外,MDC還可完成自動化部署、支持靈活的安全策略控制。MDC僅負(fù)責(zé)業(yè)務(wù)互通編排,編排結(jié)果的下發(fā),會分別調(diào)用私有云控制器NCE-Fabric和公有云控制器CloudManager實現(xiàn)下發(fā)??刂茖樱壕S。iMasterNCE-Fabric:私有云域控制器,南向負(fù)責(zé)管理私有云內(nèi)單個或多個FabricFabricMDCMDCFabric或跨混合云互通的私有云部分的配置下發(fā)。CloudManagerAPI,完成對公有云網(wǎng)絡(luò)的配置下發(fā)。CloudManagerMDC共部署,是MDC上的一項服務(wù)。CloudManageriMasterNCE-Fabric域控制MDCMDCAPI成下發(fā)。iMasterNCE-FabricInsight:對私有云數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)行基于五層評估模型的全面網(wǎng)絡(luò)健康度評估、故障識別與分析、風(fēng)險預(yù)警,同時提供對公有云的流量網(wǎng)絡(luò)可視與分析能力?;A(chǔ)設(shè)施層:SDNVPN有云連接。智能運維技術(shù)方案介紹云計算和智能化技術(shù)蓬勃發(fā)展加速了商業(yè)創(chuàng)新,數(shù)據(jù)中心規(guī)模和組網(wǎng)復(fù)雜度不斷增加,企業(yè)對業(yè)務(wù)的可用性要求卻持續(xù)提高。根據(jù)調(diào)研,98%企業(yè)業(yè)務(wù)中斷1小時將損失超過10萬美金。如何更加智能化地實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)運維勢在必行。華為數(shù)據(jù)中心智能運維方案從“看病”和“體檢”兩個維度守護(hù)數(shù)據(jù)中心健康運行??床。菏紫龋瑢τ谝寻l(fā)生故障,能夠快速識別并找出病因,及時避免業(yè)務(wù)損失。30+675+1分鐘故障感知,35分鐘故障恢復(fù)。體檢:其次,針對未發(fā)生故障,華為提供健康管理、故障預(yù)測等智能化能力。綜合設(shè)備、網(wǎng)絡(luò)、協(xié)議、Overlay、業(yè)務(wù)五層進(jìn)行評估,為客戶提供全面的網(wǎng)絡(luò)健康體檢報告,實現(xiàn)基于異常檢測和風(fēng)險預(yù)測的主動性防護(hù)。方案架構(gòu)華為數(shù)據(jù)中心智能運維方案架構(gòu)如下圖所示,邏輯上分為網(wǎng)絡(luò)層、控制層和分析層:源??刂茖樱褐饕蒳MasterNCE-Fabric控制器組成。iMasterNCE-Fabric與iMasterNCE-FabricInsight對接,完成運維過程中對配置的自動轉(zhuǎn)換與下發(fā)。分析層:主要由iMasterNCE-FabricInsight分析平臺承擔(dān)。iMasterNCE-FabricInsightTelemetry方式的數(shù)據(jù)上報,運用智能算法對上報的數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。iMasterNCE-FabricInsight可輔助用戶逐步實現(xiàn)故障主動感知、分鐘級故障定位定界的主動智能運維目標(biāo)。圖5-6智能運維方案架構(gòu)示意圖下面將分別介紹智能運維的核心角色:iMasterNCE-Fabric控制器、iMasterNCE-FabricInsight分析平臺。iMasterNCE-FabricInsight分析平臺iMasterNCE-FabricInsight基于華為大數(shù)據(jù)平臺構(gòu)建,接收來自網(wǎng)絡(luò)設(shè)備的Telemetry方式的數(shù)據(jù)上報,運用智能算法對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。如5-7所示,iMasterNCE-FabricInsight整體架構(gòu)分為三部分,網(wǎng)絡(luò)設(shè)備、iMasterNCE-FabricInsightiMasterNCE-FabricInsight分析器。圖5-7iMasterNCE-FabricInsight分析平臺總體架構(gòu)iMasterNCE-FabricInsight采用微服務(wù)架構(gòu),各個業(yè)務(wù)服務(wù)采用多實例部署,具備高可靠性和伸縮性??赏ㄟ^擴(kuò)充實例節(jié)點,實現(xiàn)服務(wù)容量的擴(kuò)容。各個實例之間無狀態(tài),外部HTTP請求由消息總線進(jìn)行分發(fā)到各個節(jié)點處理。分析器南向接入采集器,采用LVS提高系統(tǒng)可靠性。iMasterNCE-FabricInsight采集器ERSPANTCP報文、基gRPC協(xié)議上報的性能Metrics數(shù)據(jù)、FIB/ARPTCPiMasterNCE-FabricInsight分析器iMasterNCE-FabricInsightTCPMetricsMetrics數(shù)據(jù)建立動態(tài)基線并進(jìn)行異常檢測、預(yù)測光模塊的故障概率等等,并進(jìn)行統(tǒng)計分析、呈現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論