開放交換機組網(wǎng)技術(shù)前沿進展_第1頁
開放交換機組網(wǎng)技術(shù)前沿進展_第2頁
開放交換機組網(wǎng)技術(shù)前沿進展_第3頁
開放交換機組網(wǎng)技術(shù)前沿進展_第4頁
開放交換機組網(wǎng)技術(shù)前沿進展_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 開放交換機組網(wǎng)技術(shù)前沿進展 一、開放交換機前沿進展1、網(wǎng)絡(luò)技術(shù)的堆棧網(wǎng)絡(luò)技術(shù)堆??梢苑殖煽刂破矫婧蛿?shù)據(jù)平面。在控制平面,北向接口有Neutron接口,還有K8S CNI接口,以及當前SDN界比較流行的IBN基于意圖的聲明式接口。開源的網(wǎng)絡(luò)控制器有ODL和ONOS,商業(yè)版有思科ACI、華為AC等。南向接口最著名的是OpenFlow,還有最新的P4 runtime,當然傳統(tǒng)設(shè)備廠商可能更傾向于BGP、NETCONF、OPFLEX等接口。再看數(shù)據(jù)平面,數(shù)據(jù)平面可以分成交換機操作系統(tǒng)、硬件抽象層和交換芯片。交換機操作系統(tǒng)是當前網(wǎng)絡(luò)開源的競爭焦點,開源的系統(tǒng)包括SONiC、FBOSS等。對硬件抽象層,

2、現(xiàn)在發(fā)展比較好的是SONiC的SAI層。交換芯片目前正在向可編程的方向發(fā)展。網(wǎng)絡(luò)的開放應(yīng)該還是大勢所趨,上圖中左側(cè)紅色字表示的都是開源項目,可以看到開源軟件已經(jīng)能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)堆棧的全覆蓋,標準硬件加開源軟件構(gòu)成的開放交換機生態(tài)也逐漸成形。2、開放交換機的技術(shù)特征開放交換機的技術(shù)特征可歸納為如下三點。第一是小交換機可以組大網(wǎng),即相對于原來比較復(fù)雜的大框交換機,現(xiàn)在用標準的小盒子也能夠擴展出一張非常大的網(wǎng)絡(luò)。第二是標準硬件加上開放控制,也即在整個的硬件體系上,如何能夠構(gòu)建一個更可控、更精簡的網(wǎng)絡(luò)操作系統(tǒng)。第三是交換芯片的可編程,對于SDN來說,芯片可編程才是最徹底的SDN,因為它已經(jīng)把軟件定義的邊

3、界下沉到了轉(zhuǎn)發(fā)流水線的層次。下面對這三點進行詳細介紹。2.1 小交換機組大網(wǎng)在談小交換機組大網(wǎng)之前,先介紹一下框式和盒式交換的差別,框式交換機通過背板交換連接多塊線卡,其內(nèi)部的連線也是CLOS的結(jié)構(gòu)。因此,一個大框可以通過小交換機進行組合構(gòu)建,用小交換機的好處有如下幾點:1)小交換機比較便宜,可節(jié)約成本。2)架構(gòu)可擴展,因為框式交換機一旦被設(shè)計出來,它的整個數(shù)量就完全確定了。3)可控性更高,但與此同時管理的難度也會逐漸增加。下圖用于比較用框式和盒式堆三層網(wǎng)絡(luò),對于框式交換機如果只是組幾千個節(jié)點,一臺框式交換機就可以搞定了,但是如果是幾萬個節(jié)點,就需要框式堆框式,每一個框里面至少3塊芯片,一路算

4、下來,從一端到另外一端要經(jīng)過11跳,而盒式交換機組成三層網(wǎng)絡(luò)只需要5跳,所以在時延和跳數(shù)上是有優(yōu)勢的。當前盒式交換機單芯片的端口密度已經(jīng)很大了,最高的12.8T(有128個100G的端口)都已經(jīng)出來了,所以通過三層的CLOS就可以組一個很大的網(wǎng)。具體計算一下,一個2級CLOS構(gòu)成基本單元POD,可以掛幾千臺機器,再擴展到三級CLOS,差不多可以無阻塞互聯(lián)十萬左右的服務(wù)器,這對于單個數(shù)據(jù)中心而言已經(jīng)足夠多了。三級CLOS組網(wǎng)的數(shù)量取決于中間層交換機的端口密度。今年OCP,F(xiàn)acebook發(fā)布了最新的數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計F16。他的前身是幾年前經(jīng)典的F4組網(wǎng),該組網(wǎng)的基本單元有48個接入交換機,4個中

5、間層交換機,差不多每個POD可以連接1000臺服務(wù)器。然后最上層的Spine交換機通過CLOS互聯(lián)可以擴展互聯(lián)數(shù)萬臺服務(wù)器的規(guī)模,并且在任意兩個服務(wù)器節(jié)點之間有多條冗余路徑可以做負載分擔。當前最新的F16,中間層改成了16*100G的互聯(lián),最頂層的Spine交換平面有36個。如果有六棟樓的話,這種互聯(lián)方式還可以將六個AZ的交換機Fabric進行全互連。2.2 網(wǎng)絡(luò)的開放控制首先來看路由控制,路由控制分兩種傳統(tǒng)的路由控制和SDN路由控制。對于傳統(tǒng)的路由控制,對開源網(wǎng)絡(luò)操作系統(tǒng)SONiC和Stratum進行了比較。SONiC對于SONiC來說,下圖是一個簡單的架構(gòu)圖,控制平面僅實現(xiàn)了最核心的BGP

6、協(xié)議以保障云數(shù)據(jù)中心大規(guī)模三層網(wǎng)絡(luò)的互通。數(shù)據(jù)平面比較核心的是SAI層,這一層目前比較重要因為它的生態(tài)發(fā)展比較好,它下面支持的芯片非常多。用戶既可以用Switch.p4這樣純可編程的芯片來支持SAI,也可以通過博通、盛科等的芯片來實現(xiàn)SAI的接口,最終映射到物理的Chip Target。開放交換機創(chuàng)新的技術(shù)中不得不提一下去堆疊技術(shù)。通常情況下,服務(wù)器為了保證高可用性,一般是雙連到兩臺交換機上,如果有一個交換機宕機了,另外一個可以接上。上圖中可以看到TOR1和TOR2之間有兩條線,這兩條堆疊線的作用是同步MAC、ARP等狀態(tài)。為了達到高可用性,最極端的做法是把兩臺交換機虛擬成一臺控制平面,當用戶

7、登上TOR1和TOR2時會發(fā)現(xiàn)它們的管理地址是一模一樣的,這個虛擬程度是很高,但是額外復(fù)雜度、不穩(wěn)定性也增加了。對此,阿里提出了一種比較創(chuàng)新的去堆疊的技術(shù)(VPC-lite),他們的想法是服務(wù)器bond口將ARP雙發(fā)到兩條鏈上,這樣TOR1和TOR2就不用同步ARP表了。當鏈路斷了,在顯示地通告一下BGP。這種方式達到了原來同樣的效果,但原來的堆疊線沒有了,交換機也相互獨立,實現(xiàn)方面也要簡單很多。SONiC現(xiàn)在已經(jīng)成為OCP的一大招牌,因為OCP基本上是以硬件為主,對于軟件方面,現(xiàn)在主推SONiC,也是目前生態(tài)最成熟的一個開放交換機操作系統(tǒng),這套操作系統(tǒng)是微軟的華人工程師創(chuàng)建的,設(shè)計精簡前衛(wèi),

8、它里面很多組件的模塊性都比較好。在使用案例方面,微軟將SONiC部署到了全球44個region,領(lǐng)英當前40%的數(shù)據(jù)中心大規(guī)模在使用SONiC。此外,OCP也特意強調(diào)了中國對于SONiC的貢獻,由阿里牽頭ODCC(中國開放數(shù)據(jù)中心聯(lián)盟)專門成立了一個鳳凰項目,負責SONiC在中國的推廣。阿里是SONiC生產(chǎn)應(yīng)用最早的也是規(guī)模比較大的企業(yè)。騰訊、百度包括京東也正在開展密集的驗證測試,而且不久也會正式生產(chǎn)上線。2.3 Stratum和SONiC相比,Stratum的理念更偏向計算機,它是以IT的方式來管理整個CT系統(tǒng),也是比較有意思的。整個設(shè)計最頂層是遠端的控制器,接口端主要分成三類,一個是P4r

9、uetime,然后就是gOMI和gNOI。g代表gRPC,而不是傳統(tǒng)網(wǎng)絡(luò)設(shè)備所使用的NETCONF,這可以使得策略的下發(fā)效率提升很多。下圖藍色框內(nèi)便是Stratum的覆蓋范圍。單獨的Stratum是沒有辦法進行組網(wǎng)獨立工作的,在上層它需要ONOS或者其他的控制器配合,下層是通過Trellis組件提供Fabric SDN的路由控制。這個系統(tǒng)是純SDN選路,所以一旦鏈路端掉線,系統(tǒng)很快就能夠響應(yīng),重新編制轉(zhuǎn)發(fā)表項,由此也不存在去堆疊之類的麻煩。Stratum項目最早是由谷歌發(fā)起的,所以谷歌在內(nèi)部肯定已經(jīng)大規(guī)模使用了Stratum(但是谷歌的控制器不是ONOS),整個項目預(yù)計今年6月正式開源。國內(nèi)在

10、去年12月份左右,由騰訊牽頭舉辦了一場Stratum Developer Day,同時 UCloud、阿里、銳捷也都在積極跟進或者密切關(guān)注。RDMA在網(wǎng)絡(luò)的開放控制中SDN解決的是路由控制的問題,而RDMA要解決的是流量控制。要解決什么樣的流量呢?首先看下圖,如果是點對點兩兩互打的話,這個對交換機來說并沒有什么太大的壓力,每兩點產(chǎn)生的流量再大,有線速保障的交換芯片都可以處理過來。但是如果碰到多打一的情況,交換機芯片再強大也處理不了。對這種情況只能從源端進行解決,把原來的大流量變成原來的三分之一,出口那邊才可能扛住。在源端分流最常用的方法是從TCP的端側(cè)流控,但這有一個缺點,速度比較慢,有可能對

11、端反饋過來的時候在交換機里已經(jīng)產(chǎn)生丟包了。于是有了RDMA,可以做端到端的全程流控,整個網(wǎng)絡(luò)都可以參與流量擁塞的反壓。這種多打一的情況經(jīng)常出現(xiàn)在大數(shù)據(jù)訓練場景下。另外對于25G和100G網(wǎng)絡(luò)這種情況也非常突出,因為25G和100G網(wǎng)絡(luò)速度太快了,它的交換機的緩存撐不了很長時間,一旦有擁塞,交換機緩存就會迅速溢出,所以RDMA技術(shù)基本上會運用在25G/100G網(wǎng)絡(luò)中。下圖是RDMA的技術(shù)實現(xiàn),首先在網(wǎng)絡(luò)側(cè)需要優(yōu)化配置PFC和ECN等參數(shù),整個RDMA最難的就是這些參數(shù)該怎么配。智能網(wǎng)卡側(cè)實現(xiàn)數(shù)據(jù)遠程搬運,同時可以降低CPU的流控負擔。最后,原有的TCP協(xié)議棧也要重新改寫,替換為RoCEv2 ve

12、rbs的接口。RDMA最終的目標是高吞吐、低時延和不丟包。RDMA技術(shù)最早應(yīng)用于科學計算,是一套比較封閉而且價格比較昂貴技術(shù)。在以太網(wǎng)中,RDMA主要應(yīng)用于大數(shù)據(jù)計算、分布式存儲和深度學習網(wǎng)絡(luò)等大吞吐量,低時延的場景。目前,RDMA的使用其實已經(jīng)比較廣泛了,最早是微軟將其應(yīng)用至云數(shù)據(jù)中心的場景,BAT等互聯(lián)網(wǎng)公司主要用于為AI訓練任務(wù)和分布式存儲。華為也推出了AIFabric這種重量級的產(chǎn)品。值得一提的是,整個RDMA網(wǎng)絡(luò)棧中,有一個單點,那就是邁絡(luò)思(Mellanox)的智能網(wǎng)卡。邁絡(luò)思對RDMA貢獻很大,它本身就是InfiniBand與RDMA技術(shù)的主要發(fā)明者。今年3月,英偉達以69億美金

13、收購了這家以色列半導體公司,今后GPU內(nèi)存中的數(shù)據(jù)就可以通過RDMA實現(xiàn)“遠程搬運”了。在金融行業(yè),招行和浦發(fā)已經(jīng)分別有生產(chǎn)應(yīng)用和深度驗證,銀聯(lián)也在驗證。2.4 可編程交換芯片最后是可編程芯片(Programmable Switch Chip)??删幊探粨Q芯片有三個特點,首先它肯定是ASIC,第二要實現(xiàn)可編程的前提是性能不降級,第三要有特定的編程模型。在編程模型方面,以前的交換芯片普遍是固定的流水線,P4的編程模型是PISA,協(xié)議無關(guān)的交換流水線架構(gòu)。下圖是P4的一個流水線,從圖中可以看到每一級都是長的一模一樣的,中間是TM,用來緩沖入流水線和出流水線。它的核心仍然是高速交換、處理相關(guān)的數(shù)據(jù),

14、多了靈活匹配和靈活編輯,小容量的高速存儲和查找功能。使用P4語言,用戶可以自定義報文頭、自定義表項,然后還可以通過控制流把它串起來。當然也有些功能是P4實現(xiàn)不了的,比如變長URL的匹配,新的Hash算法,還有做大容量的存儲,這些都不可能在交換芯片上實現(xiàn)。從體系架構(gòu)的視角來看,更高性能始終是體系架構(gòu)永恒的追求。從最早的單核再到多核,如今摩爾定律已經(jīng)到了極限,于是各種領(lǐng)域相關(guān)的芯片(例如GPU、TPU和FPGA)將發(fā)揮重要作用,體系架構(gòu)也將迎來一個新的黃金時代。對于P4使能的交換芯片來說,它可以用于多節(jié)點分布式的協(xié)作,像原來的兩兩單播可以變成組播加速,還有就是服務(wù)器部分邏輯到可編程交換芯片等等。整

15、個P4應(yīng)用場景差不多可以歸納為四個虛擬的P4程序,第一個Telemetry是INT的功能,這個是當時P4的主打功能,還是很驚艷的。其次是NFV,然后是Cluster,它可以實現(xiàn)可編程SW+服務(wù)器集群的架構(gòu)。最后一個是Fabric的P4,它可以做到服務(wù)和通信的卸載。P4的應(yīng)用案例基本上是從去年P(guān)4 Summit上收集到的,用的最早的還是阿里,當時介紹的是負載均衡的應(yīng)用,一個單片的Tofino芯片是相當于100臺服務(wù)器的軟LB的性能,而且已經(jīng)接受了2018雙十一場景的嚴酷考驗。UCloud在P4方面挖掘得很深,主要場景是在云網(wǎng)關(guān),或者說是vPC的網(wǎng)關(guān),P2V網(wǎng)關(guān),騰訊京東也有涉及。另外就是INT功

16、能,普遍是用在SONIC的集群當中,實現(xiàn)流量的可視化。二、云原生時代的開放交換機組網(wǎng)從2015年開始容器化、微服務(wù)等等就開始火了,隨之云原生一詞也漸漸傳入大家耳中。云原生的目標是“業(yè)務(wù)”極速上線,這是整個的數(shù)據(jù)中心未來的一個發(fā)展方向。數(shù)據(jù)中心最早使用的是資源池化(Iaas的編排系統(tǒng)),對網(wǎng)絡(luò)存儲資源進行統(tǒng)一的管理。但是對于從應(yīng)用的構(gòu)建、部署的方式、彈性伸縮和高可用保障方面它并沒有本質(zhì)性的改變,所以當時很多大佬們就提出來了云原生的概念,就是說明原來的應(yīng)用其實并不是原生的,所以說現(xiàn)在提出的Paas服務(wù)化的理念是什么呢?就是整個系統(tǒng)的能力都是下沉到平臺級層面,應(yīng)用主要關(guān)注業(yè)務(wù)邏輯,不再需要顧及負載均

17、衡、彈性伸縮和高可用之類的運維能力。從七層網(wǎng)絡(luò)架構(gòu)來看云原生網(wǎng)絡(luò)對組網(wǎng)的要求,介紹了CNI接口和ServiceMesh(服務(wù)網(wǎng)格)。CNI接口是基礎(chǔ)的二三層網(wǎng)絡(luò)聯(lián)通,它的接口非常簡單,就是下圖中列舉的四個方法,主要就是要實現(xiàn)一個虛擬隔離的vPC網(wǎng)絡(luò)。四到七層高級網(wǎng)絡(luò)功能通過ServiceMesh(服務(wù)網(wǎng)格)實現(xiàn),其中四到七層中的云原生更加強調(diào)以服務(wù)為中心的想法,就是把原來的實例IP給弱化了,更加關(guān)注服務(wù)的IP,其實就是一個虛IP或者是EIP。四到七層的網(wǎng)絡(luò)還提供安全可靠靈活高效的服務(wù)間通信。3個云原生組網(wǎng)的案例,其中之一是Istio服務(wù)網(wǎng)格原生的K8S處理服務(wù)間通信主要是通過Iptables規(guī)則的概率匹配進行服務(wù)間的負載均衡,當規(guī)模一大iptables鏈式匹配會出現(xiàn)瓶頸,而且很多高級功能無法實現(xiàn)。Istio則是在一個POD里面加入了一個sidecar容器。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論