2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來-創(chuàng)新將走向何方-_第1頁
2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來-創(chuàng)新將走向何方-_第2頁
2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來-創(chuàng)新將走向何方-_第3頁
2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來-創(chuàng)新將走向何方-_第4頁
2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來-創(chuàng)新將走向何方-_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2024年AI時代的通信網(wǎng)絡(luò)專題:需求從何而來_創(chuàng)新將走向何方_1.投資要件市場對于通信網(wǎng)絡(luò)在AI訓(xùn)練中的重要程度認(rèn)識不足。AI行情以來,市場更加從產(chǎn)業(yè)鏈邏輯關(guān)注網(wǎng)絡(luò)產(chǎn)業(yè)鏈的研究,主要研究方向集中在每一代網(wǎng)絡(luò)架構(gòu)需要的光模塊數(shù)量,并以此為基礎(chǔ)進(jìn)行產(chǎn)業(yè)鏈各個環(huán)節(jié)的產(chǎn)量與業(yè)績測算,但市場對于AI與通信的底層關(guān)系的研究較少。本文從模型,多卡同步,訓(xùn)練性價比等三大方面,對AI時代通信網(wǎng)絡(luò)的核心地位進(jìn)行更深入的討論。概括來看,通信在AI時代站上C位主要有三大原因。第一,日益龐大的模型體積下,顯卡的數(shù)量和連接后的運(yùn)算效率直接決定了訓(xùn)練所需的時間,而時間,恰恰是日益激烈的巨頭AI競賽中最為寶貴的資源。第二,從訓(xùn)練的原理出發(fā),在主流的并行模式由模型并行轉(zhuǎn)向數(shù)據(jù)并行后,每一層運(yùn)算后,都需要集群內(nèi)的不同NPU之間對齊已有參數(shù),數(shù)以千計的芯片時間的對齊過程,要保證低延遲與準(zhǔn)確,對網(wǎng)絡(luò)的要求極高。第三,網(wǎng)絡(luò)故障的成本極高,當(dāng)下模型訓(xùn)練時間往往持續(xù)數(shù)月,一旦故障或中斷較多,即使是回檔至幾小時前的存檔點,對于整體訓(xùn)練效率和成本也會產(chǎn)生極大的損耗,對于分秒必爭的巨頭AI產(chǎn)品迭代來說,更為致命。同時,當(dāng)下集群規(guī)模已然行至萬卡,而其中的連接部件可能數(shù)以十萬計,如何保證這些部件的整體穩(wěn)定和良品率,已經(jīng)變成了一項極其深奧的系統(tǒng)工程。市場對通信網(wǎng)絡(luò)未來迭代方向認(rèn)識不足。市場對于通信網(wǎng)絡(luò)的迭代更多的認(rèn)識停留在跟隨顯卡換代的研究層面。我們認(rèn)為,硬件迭代帶來的更新的周期和方向相對固定,而其余方向的迭代和產(chǎn)業(yè)鏈創(chuàng)新程度與日俱增。同時,當(dāng)前海外巨頭的AI資本投入戰(zhàn)爭已經(jīng)達(dá)到數(shù)百億美元級別,而模型參數(shù)的擴(kuò)張,巨頭的慘烈廝殺依然激烈?,F(xiàn)如今,“降本”、“開放”和算力規(guī)模之間的平衡將是網(wǎng)絡(luò)創(chuàng)新的主要議題。總體來看,產(chǎn)業(yè)鏈對于前沿的探索主要集中于三個方向。第一,通信介質(zhì)迭代,這里面既包括光、銅、硅三種基材的共同進(jìn)步,也包括各種介質(zhì)內(nèi)的技術(shù)創(chuàng)新,如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二,通信協(xié)議的創(chuàng)新,這同樣包含兩個方面,第一,節(jié)點內(nèi)部通信,如NVLINK和InfinityFabric,該領(lǐng)域壁壘和創(chuàng)新難度極高,屬于巨頭戰(zhàn)場,第二,節(jié)點間通信,產(chǎn)業(yè)界則主要聚焦于IB與以太網(wǎng)兩大協(xié)議的競爭。第三,網(wǎng)絡(luò)架構(gòu)的更新,葉脊架構(gòu)是否能夠適應(yīng)超多節(jié)點數(shù)量,OCS助力下,Drangonfly能否成為下一代網(wǎng)絡(luò)架構(gòu)主流,同時Rail-only+軟件優(yōu)化能夠成熟,都是產(chǎn)業(yè)的新看點。2.從云計算時代邁向AI時代,為什么通信愈發(fā)重要上一輪通信的輝煌,可以追溯到互聯(lián)網(wǎng)時代,爆發(fā)式的網(wǎng)絡(luò)流量傳輸需求,讓人類第一次搭建起了以海量服務(wù)器,存儲和交換機(jī)共同構(gòu)成的交換體系。在這一輪建設(shè)中,思科一枝獨(dú)秀,成為了人類科技進(jìn)步的領(lǐng)頭羊。但隨著互聯(lián)網(wǎng)浪潮趨于平和,光模塊與交換機(jī)更多的隨著宏觀經(jīng)濟(jì),云開支,和產(chǎn)品更新而波動,更加偏向于宏觀經(jīng)濟(jì)品種,而速率,技術(shù)的更迭也較為按部就班,進(jìn)入了周期波動向上穩(wěn)態(tài)發(fā)展期。小模型時代,業(yè)界更加專注于算法創(chuàng)新,往往整個模型體積可以由單卡、單臺服務(wù)器或者較為簡單的小集群來承擔(dān),因此來自AI側(cè)的網(wǎng)絡(luò)連接需求并不突出。但大模型的出現(xiàn)改變了一切,OpenAI證明了在當(dāng)下,用較為簡單的Transformer算法,通過堆砌參數(shù)的形式,可以較好地提高模型性能,因此,整個產(chǎn)業(yè)界進(jìn)入了模型體積加速膨脹的快速發(fā)展期。我們先來看兩個決定模型計算速度的基本公式,從而可以更好的理解為什么大模型時代,算力規(guī)?;蛘哒f算力硬件產(chǎn)業(yè)鏈會率先受益。(1)訓(xùn)練耗時=訓(xùn)練數(shù)據(jù)規(guī)模x模型參數(shù)量/計算速率(2)計算速率=單設(shè)備計算速率x設(shè)備數(shù)x多設(shè)備并行效率在當(dāng)下的大模型時代,我們可以看到,在訓(xùn)練耗時的分子端的兩項因子,正在同時擴(kuò)大,在算力恒定的情況下,訓(xùn)練耗時將會被指數(shù)級延長,而在愈發(fā)激烈的巨頭模型戰(zhàn)場,時間是最寶貴的資源。因此,競爭之路非常明確,唯有加速堆疊算力。在第二個公式中我們可以看到,在算力日益膨脹的今天,單卡算力由于模型體積,芯片更新的上限,在算力構(gòu)成的占比中已經(jīng)從全部退化成了其中一環(huán),顯卡數(shù)量,以及多設(shè)備并行效率也成為兩個同樣重要的一環(huán),這也是英偉達(dá)前瞻性收購Mellanox的原因,是希望在計算速率的每一個決定因子中,都能取得領(lǐng)先。我們在前期報告《AI算力的ASIC之路-從以太坊礦機(jī)說起》中詳細(xì)闡述了單卡算力的多種路線,本文中不在贅述,而我們看到的后兩項,設(shè)備數(shù)與多設(shè)備并行效率,并不是簡單的通過堆疊顯卡數(shù)量就可以簡單實現(xiàn)。越多的設(shè)備數(shù),對于網(wǎng)絡(luò)結(jié)構(gòu)的可靠程度,并行計算的優(yōu)化程度要求呈現(xiàn)指數(shù)級增加,這也是為何網(wǎng)絡(luò)成為AI重要瓶頸之一的終極原因。我們在本節(jié)中會從訓(xùn)練原理出發(fā),闡述為何設(shè)備的堆疊和并行銷量的提升,是人類歷史上最復(fù)雜的系統(tǒng)工程。2.1大模型時代的多卡合作原理,模型并行與數(shù)據(jù)并行在模型訓(xùn)練中,將模型拆分至多卡的過程并非傳統(tǒng)流水線或簡單分割那樣簡單,而是采用更為復(fù)雜的方式來分配顯卡之間的任務(wù)。總體來看,任務(wù)分配方式大體可以分為兩種,模型并行與數(shù)據(jù)并行。最早在模型體積較小但數(shù)據(jù)量上升時,業(yè)界普遍采用數(shù)據(jù)并行的方式。在數(shù)據(jù)并行式的運(yùn)算中,每張GPU上都保留有完整的模型副本,而訓(xùn)練用的數(shù)據(jù)被分割后進(jìn)入不同顯卡并進(jìn)行訓(xùn)練,在反向傳播后,每張卡上的模型副本梯度將被同步減少。但隨著模型參數(shù)膨脹下,單塊顯卡愈發(fā)難以容納完整模型,因此,在頭部大模型訓(xùn)練中,數(shù)據(jù)并行作為單一并行的分配方式正在逐漸減少。模型并行則是當(dāng)下在大模型時代逐漸興起的一種分配方式。由于模型體積過于龐大,因此將模型的不同部分裝載進(jìn)入顯卡內(nèi),并給顯卡灌入相同的數(shù)據(jù)流,對每一部分的參數(shù)進(jìn)行訓(xùn)練。模型并行有兩種主流模式,分別為張量并行與流水線并行。在一個模型訓(xùn)練運(yùn)算的底層運(yùn)算矩陣乘法中(C=AxB),張量并行指的先將B矩陣拆分成多個向量,每個設(shè)備持有一個向量,然后將A矩陣分別與每一個向量相乘,然后將得出進(jìn)行匯總,即可總結(jié)出C舉證。而流水線并行則是將模型按層進(jìn)行分割,將模型按層分割成若干塊,每一塊都交給一個設(shè)備進(jìn)行,同時在前向傳播過程中,每個設(shè)備將中間的激活傳遞給下一個階段,在隨后的向后傳播過程中,每個設(shè)備將輸入張量的梯度回傳給前一個流水線階段。在當(dāng)下的大模型訓(xùn)練中,沒有任何一種數(shù)據(jù)并行能夠單獨(dú)存在,在頭部大模型訓(xùn)練中,往往需要將上述的多種技術(shù)混合,實現(xiàn)多維混合并行。在實際連接時,會將這個AI集群劃分為若干Stage,每個Stage對應(yīng)一個邏輯上的Batch,每個Stage由若干臺GPU節(jié)點組成。這樣在架構(gòu)上滿足多維混合并行的需求。無論是何種并行方式,都需要在每一輪計算后,都需要通過反向廣播的形式來同步每一張GPU內(nèi)的參數(shù),不同的并行的方式,對應(yīng)不同的廣播延遲,也需要依靠不同的網(wǎng)絡(luò)協(xié)議或者通信介質(zhì)來,由此我們可以看出,當(dāng)下的網(wǎng)絡(luò)集群構(gòu)建,正在逐步從“傳輸”進(jìn)化成一個真正意義上的“系統(tǒng)工程”。2.2大模型時代的多卡互聯(lián)核心:同步的準(zhǔn)確率AI網(wǎng)絡(luò)集群承擔(dān)的一項重要功能,便是將不同顯卡分工訓(xùn)練完成的結(jié)果,在計算單元之間進(jìn)行對齊,從而使得顯卡能夠進(jìn)行下一步的工作,這項工作也被稱為反向廣播,由于廣播過程中往往對結(jié)果采用Reduce,Gather等算法進(jìn)行處理,那么全局的廣播則被稱為AlltoAll,我們在AI集群性能指標(biāo)中常見的All-to-All延遲,指的就是做一次全局反向廣播需要的時間。從原理上來看,做一次反向廣播同步數(shù)據(jù)似乎較為容易,只需要每張顯卡互發(fā)數(shù)據(jù)即可,但在真正的網(wǎng)絡(luò)集群構(gòu)建中,卻會遇到許多問題,這也讓縮短這一時延,成為了各種網(wǎng)絡(luò)方案追求的一個重點方向。第一個問題在于,每一張顯卡完成當(dāng)前計算所需要的時間長短是不一致的,如果統(tǒng)一等待同一組內(nèi)的最后一個顯卡完成任務(wù)后再進(jìn)行反向廣播,那會導(dǎo)致先一步完成任務(wù)的顯卡有大量的時間處于空置狀態(tài),從而降低整個計算集群的性能。而同樣,如果采用過于激進(jìn)的同步方法,則有可能導(dǎo)致同步期間出現(xiàn)錯誤,從而導(dǎo)致訓(xùn)練中斷。因此,穩(wěn)定高效的同步方法,一直是業(yè)界追尋的方向。從當(dāng)下來看,主要的同步方法可以分為同步并行,異步并行,All-Reduce等等。我們先來看同步并行,同步并行的思路我們在前文中已有提及,即在當(dāng)前單元內(nèi),所有計算單元完成計算后,統(tǒng)一進(jìn)行一次通訊,其優(yōu)點是穩(wěn)定與簡單,但是會造成大量的計算單元空置。異步并行則是面對如興趣推廣等非生成式大模型時候的選擇,當(dāng)一個設(shè)備完成一輪正向與反向計算后,不需要等待另一臺設(shè)備完成循環(huán),直接進(jìn)行數(shù)據(jù)同步,這種傳輸模式下,網(wǎng)絡(luò)模型訓(xùn)練不收斂,不適用于大模型訓(xùn)練,但對于如搜索模型,推薦模型等較為適用。第三類,也是目前大家使用的最多的一類,All-Reduce或者也可以稱為All-to-All-Reduce,即將所有設(shè)備(All)上的信息歸納(Reduce)到所有設(shè)備(All)上。顯然,直接的All-Reduce將帶來極大的通信資源浪費(fèi),因為同一份數(shù)據(jù)可能會被冗余傳輸多次。因此,許多優(yōu)化版All-Reduce算法被提出,如環(huán)狀A(yù)ll-Reduce、基于二叉樹的All-Reduce等,這些算法均能極大降低All-Reduce的帶寬和延遲。我們以中國AI龍頭百度發(fā)明的RingAll-Reduce為例,來說明分布式計算工程師們,是如何通過不斷迭代,來縮短同步時間的。在RingAll-Reduce(環(huán)同步)中,每臺設(shè)備僅需與另外兩臺設(shè)備通信,分為Scatter-Reduce與All-Gather兩個步驟。首先對相鄰設(shè)備完成多次Scatter-Reduce操作,在每臺設(shè)備分別得到聚合后的完整數(shù)據(jù)的一部分。隨后,每臺設(shè)備再對齊相鄰設(shè)備完成多次All-Gather操作,在每臺設(shè)備中補(bǔ)全完整數(shù)據(jù)。環(huán)狀A(yù)ll-Reduce不僅能降低帶寬和延遲,還可以簡化網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),降低網(wǎng)絡(luò)的搭建成本。但無論是何種算法,都依賴于網(wǎng)絡(luò)通信硬件的支持,無論是從芯片原生和協(xié)議層面支持更大的帶寬,還是從純銅線連接轉(zhuǎn)為通過NVLink,亦或是IB協(xié)議的引入,RDMA需求的爆發(fā),均是為了滿足愈發(fā)復(fù)雜的溝通與同步需求,這些內(nèi)容我們會在后文中陸續(xù)展開。至此,我們對于為何AI需要高密度通信的原理層邏輯已經(jīng)有了初步認(rèn)知,首先從小模型時代到大模型時代的迅速切換,使得多節(jié)點集群與分布式訓(xùn)練成為剛需,而將模型分拆至不同算力節(jié)點運(yùn)算時,如何分拆,如何保證同步則是更加繁復(fù)的系統(tǒng)工程,而通信則是這一切軟件原理實現(xiàn)的基礎(chǔ),高質(zhì)量、高通量、高穩(wěn)定性的通信元器件與通信網(wǎng)絡(luò)。2.3大模型時代的系統(tǒng)工程:監(jiān)測-總結(jié)-創(chuàng)新,迭代永遠(yuǎn)在路上上文中,我們闡述了訓(xùn)練原理決定了大模型對于通信體系的依賴程度。無數(shù)不同的,復(fù)雜的并行與同步需求一起,組成了AI集群中的數(shù)據(jù)流動,雖然通信網(wǎng)絡(luò)在此類需求的帶動下,速率和產(chǎn)品迭代不斷加速,連接方式創(chuàng)新不斷,但時至今日,仍然沒有一個完美的集群能夠一勞永逸地解決所有問題,同時集群的穩(wěn)定性雖然不斷優(yōu)化,但由上百萬個精密器件組成的系統(tǒng),斷點與中斷問題仍然時有發(fā)生。因此,大模型通信體系的進(jìn)化方向可以大體分為三個,一個是對大模型系統(tǒng)的監(jiān)測能力,能夠?qū)崟r感知大模型數(shù)據(jù)流動,運(yùn)行態(tài)勢,從而能夠及時發(fā)現(xiàn)故障,在這一過程中,以網(wǎng)絡(luò)可視化為基礎(chǔ)的軟硬件抓包成為了主流手段,通過FPGA芯片和專用軟件,監(jiān)控集群中的數(shù)據(jù)流動,從而為感知提供基礎(chǔ)工具,以軟件實現(xiàn)的數(shù)據(jù)抓包最常用,國內(nèi)外知名產(chǎn)品有Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark為例,其基本工作原理是:程序?qū)⒕W(wǎng)卡的工作模式設(shè)置為“混雜模式”(普通模式下,網(wǎng)卡只處理屬于自己的MAC地址的數(shù)據(jù)包,混雜模式下,網(wǎng)卡會處理所有流經(jīng)的數(shù)據(jù)包),同時由Wireshark進(jìn)行數(shù)據(jù)包的截獲、重發(fā)、編輯和轉(zhuǎn)存。軟件抓包會占用部分系統(tǒng)性能。首先,混雜模式下網(wǎng)卡處于“廣播模式”,會處理網(wǎng)絡(luò)下層收發(fā)的所有數(shù)據(jù)包,本身就會消耗網(wǎng)卡一部分性能;其次,軟件抓包不是在鏈路層串行或并行抓取,而是將數(shù)據(jù)包進(jìn)行復(fù)制和存儲,占用了一部分CPU和存儲的資源。同時,類似Wireshark這種軟件大多只能做到對系統(tǒng)里的單一網(wǎng)絡(luò)節(jié)點進(jìn)行流量監(jiān)控,難以覆蓋到全局網(wǎng)絡(luò),適合被動的故障排除作業(yè),不適用于主動風(fēng)險監(jiān)測。為了不影響系統(tǒng)整體性能,并行或串行接入的軟硬件結(jié)合工具應(yīng)運(yùn)而生,常用的工具有DPI和DFI。DPI(DeepPacketInspection,深度報文檢測)是一種基于報文的應(yīng)用層信息對流量進(jìn)行檢測和控制的功能。DPI著重對應(yīng)用層的分析,能夠識別各種應(yīng)用及其內(nèi)容。當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過支持DPI技術(shù)的硬件設(shè)備時,設(shè)備會通過深入讀取報文載荷來進(jìn)行重組和分析,從而識別整個應(yīng)用程序的內(nèi)容,然后按照設(shè)備定義的管理策略對流量進(jìn)行后續(xù)處理。DFI(Deep/DynamicFlowInspection,深度/動態(tài)流檢測)采用的是一種基于流量行為的應(yīng)用識別技術(shù),即不同的應(yīng)用類型體現(xiàn)在會話連接或數(shù)據(jù)流上的狀態(tài)各有不同。DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識別、精細(xì)管理的環(huán)境;而DFI技術(shù)適用于需要高效識別、粗放管理的環(huán)境。DPI/DFI由獨(dú)立硬件串/并接在物理層,不會影響物理層的性能表現(xiàn)。以浩瀚深度的DPI軟硬件產(chǎn)品為例,其可以部署在電信網(wǎng)絡(luò)的各層級網(wǎng)絡(luò)節(jié)點,同時通過SaaS/PaaS完成對各層級監(jiān)測節(jié)點數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層,通過鏡像數(shù)據(jù)包實現(xiàn)近乎無損的網(wǎng)絡(luò)監(jiān)測。DPI軟件嵌入在DPI硬件、獨(dú)立服務(wù)器或交換機(jī)/路由器中,實現(xiàn)網(wǎng)絡(luò)監(jiān)測。解決了監(jiān)測問題之后,大模型系統(tǒng)工程的迭代之路便有了基礎(chǔ),前文提到,在實操中,更加需要注重的便是系統(tǒng)運(yùn)行效率和穩(wěn)定性間的平衡,一方面,我們通過Reduce方法的優(yōu)化,并行方法的創(chuàng)新等等,創(chuàng)造出新的訓(xùn)練方法和理論,分布式訓(xùn)練的底層創(chuàng)新,然而底層創(chuàng)新始終需要相關(guān)硬件的支持,更大通量的交換機(jī),更加契合的交換協(xié)議,更穩(wěn)定,更便宜的通信器件將是大模型系統(tǒng)升級中永遠(yuǎn)不可或缺的一環(huán)。3.通信協(xié)議的競爭與迭代:承載AI數(shù)據(jù)流的話語權(quán)上一章節(jié)中,我們系統(tǒng)闡述了AI集群中的通信主要起到哪些作用,本節(jié)中,我們將系統(tǒng)性地介紹構(gòu)成整個通信體系的最基礎(chǔ)部分-通信協(xié)議。從直覺上來看,通信系統(tǒng)主要由交換機(jī)、光模塊、線纜、網(wǎng)卡等等實物硬件組成,但其實真正決定了一個通信系統(tǒng)的建立,運(yùn)行和性能特點的,卻是流轉(zhuǎn)在實物硬件內(nèi)部的通信協(xié)議。通信協(xié)議是在計算機(jī)網(wǎng)絡(luò)中,為了保證數(shù)據(jù)順利、準(zhǔn)確地傳送,通信雙方必須遵守的一系列約定。這些約定包括數(shù)據(jù)的格式、編碼規(guī)則、傳輸速率、傳輸步驟等。在AI時代,通信協(xié)議的分類主要分為兩大類,第一,用于算力節(jié)點內(nèi)部的算力卡之間通信的高速協(xié)議,這一類協(xié)議具有速度快,封閉性強(qiáng)、可擴(kuò)展性弱等特點,往往是各家顯卡廠商的核心能力壁壘之一,其速率,接口等等需要芯片層面的支持。第二類協(xié)議則是用于連接算力節(jié)點之間的協(xié)議,這類協(xié)議具有速度慢,可擴(kuò)展性強(qiáng)等特點,第二類協(xié)議目前主要有兩大主流,InfiniBand協(xié)議以及以太網(wǎng)下的RoCE協(xié)議族,這類協(xié)議保證了數(shù)據(jù)的跨節(jié)點傳輸能力,也是構(gòu)建超大集群的基礎(chǔ),同時也為智算單元接入數(shù)據(jù)中心提供了解決方案。3.1節(jié)點內(nèi)通信—大廠核心壁壘,算力“摩爾定律”的希望節(jié)點內(nèi)通信,即單臺服務(wù)器內(nèi)部的顯卡通信協(xié)議,負(fù)責(zé)同一服務(wù)器內(nèi)部的顯卡之間的高速互聯(lián),發(fā)展至今,這一協(xié)議主要包括了PCIe、NVLink、InfintyFabric三種協(xié)議我們先來看歷史最為悠久的PCIe協(xié)議,PCIe協(xié)議是一種公開的通用協(xié)議,傳統(tǒng)服務(wù)器個人電腦中的不同硬件都通過PCIe協(xié)議來進(jìn)行連接,在當(dāng)?shù)谌浇M裝的算力服務(wù)器中,顯卡之間任然像傳統(tǒng)服務(wù)器一樣,通過PCIe插槽和主板上的PCIe線路進(jìn)行互聯(lián)。PCIe是最廣泛使用的總線協(xié)議??偩€是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道,對數(shù)據(jù)傳輸速度起到?jīng)Q定性作用,目前最普及的總線協(xié)議為英特爾2001年提出的PCIe(PCI-Express)協(xié)議,PCIe主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等,2003年P(guān)CIe1.0版本發(fā)布,后續(xù)大致每過三年會更新一代,目前已經(jīng)更新到6.0版本,傳輸速率高達(dá)64GT/s,16通道的帶寬達(dá)到256GB/s,性能和可擴(kuò)展性不斷提高。PCIe總線樹形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度,PCIeSwitch誕生。PCIe采用端對端數(shù)據(jù)傳輸鏈路,PCIe鏈路的兩端只能各接入一個設(shè)備,設(shè)備識別數(shù)量有限,無法滿足有大量設(shè)備連接或需要高速數(shù)據(jù)傳輸?shù)膱鼍?,因此PCIeSwitch誕生。PCIeSwitch具備連接和交換雙重功能,可以讓一個PCIe端口識別和連接更多設(shè)備,解決通道數(shù)量不夠的問題,并可以將多條PCIe總線連接在一起,從而形成一個高速網(wǎng)絡(luò),實現(xiàn)多設(shè)備通信,簡言之PCIeSwitch相當(dāng)于PCIe的拓展器。但正如上文中所說,隨著模型規(guī)模逐步擴(kuò)大,同時NPU之間同步循環(huán)愈發(fā)復(fù)雜,速率較低并未對模型運(yùn)行模式進(jìn)行專門優(yōu)化的的PCIE已經(jīng)不能滿足大模型時代的需求,因此,各大顯卡廠商專有的協(xié)議在大模型時代快速興起。我們認(rèn)為,當(dāng)先業(yè)界關(guān)注度最高,進(jìn)化速度最快的協(xié)議便是NV-Link協(xié)議,英偉達(dá)提出的高速GPU互聯(lián)協(xié)議,對比傳統(tǒng)PCIe總線協(xié)議,NVLINK主要在三個方面做出較大改變:1)支持網(wǎng)狀拓?fù)淠?,解決通道有限問題;2)統(tǒng)一內(nèi)存,允許GPU共享公共內(nèi)存池,減少GPU之間復(fù)制數(shù)據(jù)的需要,從而提高效率;3)直接內(nèi)存訪問,不需要CPU參與,GPU可直接讀取彼此的內(nèi)存,從而降低網(wǎng)絡(luò)延遲。此外,為解決GPU之間通訊不均衡問題,英偉達(dá)還引入NVSwitch,一種類似交換機(jī)ASIC的物理芯片,通過NVLink接口將多個GPU高速互聯(lián),創(chuàng)建高帶寬多節(jié)點GPU集群。我們通過回顧NV-link的發(fā)展史,可以發(fā)現(xiàn),節(jié)點間的NV-Link互聯(lián)正是隨著顯卡間同步需求的變化而逐步迭代。但隨著單個顯卡性能的擴(kuò)張,吞吐量的提升,以及顯卡之間同步方式的愈發(fā)復(fù)雜,單純純線纜連接以及固定的線路已經(jīng)無法滿足顯卡間的溝通需求。因此在Ampere架構(gòu)中,也就是對應(yīng)的第三代NVLINK,英偉達(dá)引入了第一代專用的NV-LinkSwitch芯片,從而進(jìn)一步加大NV-Link速率,靈活性。但從Pascal架構(gòu)到Ampere架構(gòu)的更新中,由于當(dāng)時的客戶需求仍然集中于小模型,大規(guī)模的計算集群并未出現(xiàn),因此NV-LINK保持著常規(guī)更新的節(jié)奏,主要通過芯片內(nèi)部通道迭代,NV-LinkSwitch芯片迭代來實現(xiàn)速率的更新,期間英偉達(dá)還為游戲顯卡推出了NV-Link橋接器,來滿足部分高端C端用戶的需求。從A100到H100的更新中,英偉達(dá)邁出了NV-Link進(jìn)化的第一步,當(dāng)大模型的需求開始涌現(xiàn),超大的數(shù)據(jù)規(guī)模、模型體積使得過去以8張顯卡為上限的NV-Link互聯(lián)難以應(yīng)付,使用者們不得不把模型切片,裝進(jìn)不同服務(wù)器間進(jìn)行訓(xùn)練以及對齊,而服務(wù)器間較慢的溝通速率直接影響了模型訓(xùn)練的效果。我們把能用最高速通信協(xié)議互聯(lián)的顯卡數(shù)量稱之為HB-DOMIN,而在模型參數(shù)日益龐大的發(fā)展過程中,在同等代際芯片內(nèi),HB-DOMIN成為了決定模型訓(xùn)練能力的關(guān)鍵因素。在這種背景下,英偉達(dá)的NV-LINK在Hopper架構(gòu)上邁出了進(jìn)化的第一步,通過外置的專用交換機(jī),承載更多的NV-LINKswitch芯片,從而擴(kuò)大現(xiàn)有顯卡的HB-DOMIN。在Hopper100時代,通過GH200SuperPOD產(chǎn)品,NV-LINK第一次走出服務(wù)器內(nèi)部,實現(xiàn)了跨越服務(wù)器的256張顯卡互聯(lián)。但由于Hopper架構(gòu)下對應(yīng)的NV-Link3.0交換芯片成熟度較低,英偉達(dá)需要兩層架構(gòu)來連接顯卡,因此一個GH200256卡集群內(nèi)需要大量的高端光模塊,成本極高,給客戶的采購帶來了不便。同時,在GH200發(fā)布之時,模型的參數(shù)還未膨脹到萬億級別,根據(jù)Meta的研究結(jié)果顯示,在萬億參數(shù)之下,超過100后的HB-Domin擴(kuò)張邊際效應(yīng)會出現(xiàn)加速遞減。在Blackwell架構(gòu)時代,英偉達(dá)正式完善了NVLINK的擴(kuò)張之路,隨著4NM最新一代NV-Link交換芯片的發(fā)布,英偉達(dá)推出了正式的拳頭產(chǎn)品GB200NVL72。英偉達(dá)通過單機(jī)柜內(nèi)部單層NVlink+銅纜的連接,實現(xiàn)了用較低成本達(dá)成一個具有高性價比的HB-DOMIN數(shù)字的目標(biāo),真正邁出了節(jié)點內(nèi)互聯(lián)協(xié)議向上層擴(kuò)張的第一步。我們除了在最新一代NV-LINK上,也再一次重新認(rèn)識了節(jié)點內(nèi)互聯(lián)協(xié)議的重要性,甚至可以說,節(jié)點內(nèi)通信的擴(kuò)張,已經(jīng)成了摩爾定律是否能在算力時代延續(xù)的關(guān)鍵。節(jié)點內(nèi)通信協(xié)議的迭代以及低成本實現(xiàn),是當(dāng)前應(yīng)對“通信墻”、“內(nèi)存墻”的最佳解決辦法。當(dāng)前NV-LINK最大的競爭者便來自于英偉達(dá)在通用顯卡領(lǐng)域的最大競爭者AMD,與英偉達(dá)相同,即使是對網(wǎng)絡(luò)協(xié)議開放最為支持的AMD,在其節(jié)點內(nèi)互聯(lián)領(lǐng)域,依然使用其專用的協(xié)議“InfinityFabric”,但同時,與英偉達(dá)不同AMD將這份協(xié)議共享給了合作的博通、Arista、思科這三家以太網(wǎng)龍頭。當(dāng)下來看,InfinityFabric與NVLINK的差距仍然較大,在包括專用交換芯片、多卡互聯(lián)、協(xié)議完成度等方面,AMD仍然有較長的路需要追趕、這也體現(xiàn)出,當(dāng)前的頭部通用算力競爭,已經(jīng)從芯片設(shè)計這一單一環(huán)節(jié),慢慢擴(kuò)大到節(jié)點內(nèi)通信這一環(huán)節(jié)??偨Y(jié)來看,節(jié)點間通信正在變成算力中愈發(fā)重要的組成部分,同時,隨著HB-DOMIN擴(kuò)大,“算力節(jié)點”也在逐步擴(kuò)大,我們認(rèn)為,這背后是節(jié)點間協(xié)議在整個AI集群內(nèi)的“向上滲透”,同時,依靠在節(jié)點間協(xié)議及其承載硬件的系統(tǒng)化壓縮,也是未來AI算力實現(xiàn)摩爾定律的解決之道。3.2節(jié)點間通信協(xié)議:歷久彌新,封閉與開放之爭現(xiàn)在我們把視角移到算力節(jié)點外部,來看一下當(dāng)前構(gòu)成全球算力集群連接的主流協(xié)議。當(dāng)下的算力中心,NPU正在逐步邁向百萬級規(guī)模,即使算力節(jié)點或者我們說的HB-DOMIN加速擴(kuò)大,但節(jié)點間連接依然是構(gòu)成全球AI算力的基石部分。從當(dāng)前來看,節(jié)點間連接協(xié)議主要分為InfiniBand協(xié)議與以太網(wǎng)家族內(nèi)的ROCE協(xié)議族。超算節(jié)點間互聯(lián)的核心在于RDMA功能。過去,在傳統(tǒng)的CPU為主的數(shù)據(jù)中心中,普遍采用TCP/IP協(xié)議進(jìn)行傳輸,即數(shù)據(jù)從發(fā)送端內(nèi)存發(fā)出后,經(jīng)過發(fā)送端設(shè)備CPU編碼后,發(fā)送至接收端設(shè)備的CPU,經(jīng)過解碼后放入內(nèi)存。這一過程中由于數(shù)據(jù)經(jīng)過多個設(shè)備且多次編解碼,因此會產(chǎn)生較高的延遲,而延遲則是對計算卡間相互同步最關(guān)鍵的的因素,因此,在顯卡間互聯(lián)的需求下,繞過CPU,實現(xiàn)內(nèi)存之間的遠(yuǎn)程直接互訪(RemoteDirectMemoryAccess)RDMA變成為了AI集群連接的剛需。在這種背景下,當(dāng)前由英偉達(dá)主導(dǎo)的原生支持RDMA的IB協(xié)議以太網(wǎng)下支持該功能的ROCE協(xié)議族變成了當(dāng)下的唯二選擇,而這兩種協(xié)議鮮明的特點又讓整個節(jié)點間協(xié)議的競爭變得精彩異常。IB協(xié)議的出現(xiàn)最早可以追溯至1999年,當(dāng)時,通信能力過差的PCI總線逐漸成為各個設(shè)備之間溝通的瓶頸,在此背景下,英特爾、微軟、IBM、幾大巨頭成立的FIODevelopersForum和NGIOForum進(jìn)行了合并,創(chuàng)立了InfiniBand貿(mào)易協(xié)會(InfiniBandTradeAssociation,IBTA),并在2000年推出了第一版的IB協(xié)議框架。在1999年創(chuàng)立的交換芯片公司Mellanox也加入了IB陣營。IB從創(chuàng)立之初,便領(lǐng)先性的提出了RDMA概念,從而能夠繞開PCI總線的限制,進(jìn)行更加高速的訪問,但好景不長,在2022年,英特爾,微軟等巨頭相繼宣布退出IB聯(lián)盟,轉(zhuǎn)而轉(zhuǎn)向我們上文提到的PCIE協(xié)議的研發(fā),IB因此走向衰落。但到了2005年,隨著存儲設(shè)備間的通信需求上升,IB重新迎來上升期,再后來,隨著全球超算搭建,越來越多的超級計算機(jī)開始使用IB進(jìn)行連接。在這過程中,依靠著對IB的不離不棄和相關(guān)收購,Mellanox從一家芯片公司擴(kuò)展到了網(wǎng)卡、交換機(jī)/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)和線纜及模塊全領(lǐng)域,成為世界級網(wǎng)絡(luò)提供商,在2019年,英偉達(dá)用69億美元的報價擊敗英特爾與微軟,成功收購了Mellanox。另一方面,以太網(wǎng)則在2010年發(fā)布了RoCE協(xié)議,基于以太網(wǎng)協(xié)議實現(xiàn)RDMA,同時在2014年提出了更加成熟的RoCEv2。進(jìn)入大模型時代以來,全球數(shù)據(jù)中心快速轉(zhuǎn)向智算化,因此主要的新增投資設(shè)備都需要RDMA連接方式的支持。但當(dāng)下的競爭格局又與之前的RoCEV2與IB的競爭發(fā)生了變化,由于英偉達(dá)在全球顯卡領(lǐng)域的絕對領(lǐng)先地位,英偉達(dá)顯卡對于IB的適配程度更加完善,其中最明顯的一點體現(xiàn)在Mellanox交換機(jī)部署的Sharp協(xié)議中。由于在AI運(yùn)算中,顯卡與顯卡之間需要大量的復(fù)雜Reduce通信,上文中也提到,這也是AI通信系統(tǒng)工程中需要解決的核心問題,在Mellanox交換機(jī)產(chǎn)品中,在英偉達(dá)的幫助下,公司創(chuàng)新性地在交換芯片中集成了計算引擎單元,可以支持相關(guān)Reduce計算,從而幫助GPU減輕負(fù)載,但是相關(guān)功能需要GPU廠商的配合。由此可見,AI時代的通信協(xié)議之爭,背后核心已然變成了顯卡廠商的話語權(quán)之爭,當(dāng)下來看,IB協(xié)議憑借著英偉達(dá)的支持,占據(jù)了較好的競爭優(yōu)勢,而傳統(tǒng)的以太網(wǎng)廠商們,由于缺乏一款有力的芯片支撐,則在部分功能上稍顯弱勢。但是AMD帶領(lǐng)下的超以太聯(lián)盟的出現(xiàn),有望逐漸扭轉(zhuǎn)這一局面。2023年7月19日,AMD、博通、思科、ARISTA、Meta、微軟等來自計算芯片、網(wǎng)絡(luò)側(cè)以及用戶側(cè)的各個龍頭廠商共同組建了超以太網(wǎng)聯(lián)盟,我們認(rèn)為,超以太網(wǎng)聯(lián)盟成立的目的便是為了能夠在以太網(wǎng)的基礎(chǔ)之上,搭建起一個完全開放,更加靈活,且性能超越IB的網(wǎng)絡(luò)協(xié)議,從而與IB進(jìn)行抗衡。AMD作為超以太聯(lián)盟的核心成員,在Mi300系列發(fā)布會上,公司表示其顯卡的后端連接將會無條件使用以太網(wǎng),同時用于節(jié)點內(nèi)互聯(lián)的InfinityFabric協(xié)議,也將開放給以太網(wǎng)廠商。我們判斷,隨著AMD和UEC聯(lián)盟中博通等成員的合作進(jìn)度逐漸加快,UEC聯(lián)盟也有望真正形成一套類似于N卡+IB的兼容與合作體系,從而給英偉達(dá)帶來挑戰(zhàn)。但其過程注定漫長,從AMD側(cè)單卡算力的追趕,再到博通側(cè)交換芯片的進(jìn)步,再到不同廠商間的開放與合作,仍有許多路要走??偨Y(jié)來看,節(jié)點間通信協(xié)議之爭,已經(jīng)漸漸的從原理之爭演變成了話語權(quán)之爭,使用何種協(xié)議,更多的是GPU話語權(quán)的延伸,英偉達(dá)希望通過IB擴(kuò)大全環(huán)節(jié)話語權(quán),客戶則希望擁抱更加開放的IB,行業(yè)的競爭將持續(xù)推動通信協(xié)議的持續(xù)進(jìn)化。4.AI推動下,網(wǎng)絡(luò)硬件創(chuàng)新將走向何方?上節(jié)我們討論了AI需求是如何推動RDMA功能的進(jìn)化與放量,同樣,在網(wǎng)絡(luò)硬件的領(lǐng)域,AI的新需求也正在帶來除了速率更新外的其他變化,從傳輸介質(zhì)、交換機(jī)、網(wǎng)絡(luò)架構(gòu)乃至數(shù)據(jù)中心整體形態(tài)都在發(fā)生變化。4.1光、銅與硅,傳輸介質(zhì)之爭將走向何方近年來,隨著人類數(shù)據(jù)量快速膨脹,以及傳輸速率成倍提升,我們在無線網(wǎng)、固網(wǎng)等電信側(cè)率先迎來了光進(jìn)銅退的浪潮,從最早的撥號上網(wǎng),再到光纖入戶乃至現(xiàn)在的FTTR,正式一輪輪光纖光纜對于銅線的逐步替代。到了數(shù)據(jù)中心內(nèi)部,光進(jìn)銅退的進(jìn)程也同樣在進(jìn)行,由光模塊、AOC等等光通信組成的通信系統(tǒng)正在逐漸代替有DAC,AEC等組成的銅傳輸系統(tǒng),這背后是高速率傳輸下,銅介質(zhì)衰減愈發(fā)劇烈的必然物理規(guī)律。如果沒有AI帶來的多樣需求,隨著服務(wù)器網(wǎng)口速率逐代提升,光傳輸會漸漸向機(jī)柜內(nèi)部持續(xù)滲透,并最終形成全光數(shù)據(jù)中心。但AI的出現(xiàn),給個“光進(jìn)銅退”這一過程帶來了一絲波折,或者說讓市場產(chǎn)生了一定的困惑。其背后的核心原因是:AI帶來了通信系統(tǒng)復(fù)雜度與造價的非代際線性增長,在指數(shù)級的需求增加面前,高速率光模塊變得愈發(fā)昂貴。因此,性價比更高的銅纜在當(dāng)前速率吸引力逐步提升,同時疊加散熱等等配套部件的改善,顯卡廠商得以將更多的計算單元盡可能多的壓縮在銅纜可以觸及的單機(jī)柜范圍內(nèi)。從背后我們不難發(fā)現(xiàn),在AI時代,由于開支的增加,在當(dāng)前2-3年的節(jié)點內(nèi),光銅之爭的核心從速率升級變?yōu)榱顺杀鞠刃校瑫r由于通信系統(tǒng)的復(fù)雜程度加速上升,簡化與低故障率亦成為了客戶選擇介質(zhì)的關(guān)鍵考慮因素。長距離跨服務(wù)器傳輸:光模塊是唯一方案,降本與簡化是創(chuàng)新方向。由于銅纜的傳輸距離限制,所謂“光退銅進(jìn)”也只能發(fā)生在短距離傳輸上,而面對5米以上的傳輸距離,也就是跨服務(wù)器或跨算力節(jié)點傳輸時,光傳輸仍然是唯一選擇。但當(dāng)下,客戶的除了關(guān)心常規(guī)的速率升級之外,對于成本和故障率(器件復(fù)雜程度)的追求正在愈發(fā)急迫,這也帶動了光通信行業(yè)未來的升級方向。LPO/LRO:LPO通過線性直驅(qū)技術(shù)替換傳統(tǒng)的DSP,將其功能集成到交換芯片中,只留下driver和TIA芯片。LPO光模塊中用到的TIA、driver芯片性能也有所提升,從而實現(xiàn)更好的線性度。LRO則是在一端采用傳統(tǒng)光模塊,另外一端采用LPO光模塊,從而使得客戶的接受度更高的一種過渡方案。硅光:硅光通過成熟技術(shù)使得部分光模塊的光引擎中的分立器件能夠自動化集成在硅基芯片上,從而能夠?qū)崿F(xiàn)大幅的成本降低,同時自動化生產(chǎn)和制程更新也能幫助硅光芯片進(jìn)行迭代,我們認(rèn)為,LPO、硅光是行業(yè)進(jìn)度最快的兩個降本創(chuàng)新方案。薄膜鈮酸鋰:鈮酸鋰材料是可靠材料中電光系數(shù)最優(yōu)的選擇(考慮居里點和電光系數(shù))。薄膜工藝?yán)M(jìn)電極距離,降低電壓提升帶寬電壓比。相比其他材料兼具大帶寬/低損耗/低驅(qū)動電壓等諸多光電最需要的優(yōu)點。當(dāng)下來看,薄膜鈮酸鋰主要用于高速率硅光調(diào)制器,我們認(rèn)為,使用薄膜鈮酸鋰調(diào)制器可以在1.6T,3.2T實現(xiàn)更好的性能。CPO:CPO指將光模塊直接封裝在交換機(jī)主板上,從而能夠共享交換機(jī)主板散熱,同時縮短電信號在交換機(jī)主板上傳輸?shù)木嚯x,但是目前來看,由于AI中心中的光模塊屬于易損品,共封裝后維護(hù)難度較大,因此客戶對CPO的認(rèn)可程度還有待觀察。機(jī)柜內(nèi)連接:成本與穩(wěn)定雙重優(yōu)勢下,銅線是中短期優(yōu)勢選擇,隨著長期速率上升,光進(jìn)銅退仍會發(fā)生。DAC:DirectAttachCable,即為高速銅纜,可以適應(yīng)較短距離內(nèi)的超高速連接,當(dāng)前市場主流800GDAC長度在3米以內(nèi),是一種擁有較高性價比的機(jī)柜內(nèi)連接方案。AOC:ActiveOpticalCables,有源光纜,即為兩端提前完成一體化分裝的光模塊與光纖構(gòu)成的系統(tǒng),其傳輸距離相較傳統(tǒng)的多?;騿文9饽K較短,但是成本也較低,是超越銅纜傳輸極限后的機(jī)柜內(nèi)短距離連接選擇。關(guān)于硅的演進(jìn),當(dāng)下的主流思路主要包括了Chiplet與Wafer-scaling兩種,這兩種方法的核心思路都在于,通過更先進(jìn)的半導(dǎo)體制造與設(shè)計工藝,從而擴(kuò)大單塊芯片能夠承載的計算單元數(shù),并盡可能的使得更多通信發(fā)展在單塊硅片內(nèi),最大化計算效率,這部分內(nèi)容我們在此前深度《AI算力的ASIC之路——從以太坊礦機(jī)說起》中有詳細(xì)介紹,在本文中不再贅述。綜合來看,傳輸介質(zhì)的更迭與競爭跟隨需求而動,而當(dāng)下的需求則非常明晰,在MOE等新訓(xùn)練框架下,模型參數(shù)往萬億規(guī)模進(jìn)發(fā),如何高性價比的實現(xiàn)更可能強(qiáng)的單節(jié)點算力,或者說是擴(kuò)大“HB-DOMIN”域的數(shù)量,從而使得模型的切分不必過于細(xì)碎,導(dǎo)致訓(xùn)練效率的降低,無論是光、銅還是最底層的硅,都在此路線上不斷努力。4.2交換機(jī)的創(chuàng)新:光交換機(jī)初出茅廬交換機(jī)作為網(wǎng)絡(luò)的核心節(jié)點,是承載通信協(xié)議的核心部件,在如今的AI集群內(nèi),交換機(jī)也承擔(dān)起愈發(fā)復(fù)雜的任務(wù),如上文提到的Mellanox交換機(jī)中,其就通過SHARP協(xié)議兼具了部分對齊運(yùn)算的功能,幫助AI運(yùn)算進(jìn)行加速。但另一方面,盡管如今的電交換機(jī)愈發(fā)強(qiáng)大,更新迭代的速度依舊穩(wěn)定,但純光交換似乎正在成為一種全新的潮流。究其原因,我們認(rèn)為,光交換機(jī)風(fēng)潮的背后主要有兩點原因,第一,AI參與者的巨頭化。第二,AI集群的加速擴(kuò)大。光交換系統(tǒng)相比于電交換系統(tǒng),其去除了電芯片,使用光學(xué)鏡片,對傳入交換機(jī)內(nèi)部的光信號進(jìn)行折射與分配,從而讓其不經(jīng)過轉(zhuǎn)換,從而傳入對應(yīng)的光模塊之中。與電交換機(jī)相比,光交換機(jī)由于省去了光電轉(zhuǎn)換的過程,因此功耗,時延等等會更低,同時由于其不受制與電交換機(jī)芯片的容量上限限制,對于網(wǎng)絡(luò)層數(shù)優(yōu)化和單臺交換機(jī)能夠覆蓋的臺數(shù)也有增加,但相反,使用光交換機(jī)需要專門設(shè)計網(wǎng)絡(luò)架構(gòu)讓其適配,同時光交換機(jī)的集群一旦建立,無法進(jìn)行零散擴(kuò)容,只能一次性擴(kuò)容一整個網(wǎng)絡(luò)集群,靈活性也較差,此外,光交換機(jī)在目前階段,沒有通用版本,需要自研或者定制化設(shè)計,門檻較高。但隨著AI競爭正式進(jìn)入巨頭廝殺的后半程,巨頭所擁有的AI集群規(guī)模正在快速擴(kuò)大,巨頭擁有成熟的投資規(guī)劃、網(wǎng)絡(luò)架構(gòu)的自研能力、以及充足的資金,因此在節(jié)點規(guī)模不斷擴(kuò)大的今天,如谷歌等巨頭客戶正在加速OCS體系的研發(fā)與部署。而回歸到傳統(tǒng)的電交換部分,如今的電交換機(jī)的創(chuàng)新,除了上文的協(xié)議部分,更多的集中在了芯片部分,包括制程的迭代,功能的創(chuàng)新等等,同時,如博通等交換機(jī)廠商,憑借自有IP在不同下游客戶芯片處的運(yùn)用,使得自身的與客戶的綁定變得更強(qiáng),結(jié)合通信協(xié)議上的戰(zhàn)隊,在AI時代,交換機(jī)行業(yè)已經(jīng)正式變成了芯片聯(lián)盟之間的全方位比拼。4.3網(wǎng)絡(luò)架構(gòu)的創(chuàng)新:葉脊之后,走向何方?網(wǎng)絡(luò)架構(gòu)則是協(xié)議與硬件外的通信系統(tǒng)的重要構(gòu)成部分,架構(gòu)決定了服務(wù)器中的數(shù)據(jù)以何種路徑進(jìn)行傳輸,同時優(yōu)秀的網(wǎng)絡(luò)架構(gòu)能夠使得數(shù)據(jù)流量全域可達(dá)的同時,縮減時延,保證穩(wěn)定性。同時,網(wǎng)絡(luò)架構(gòu)還需要滿足易于維護(hù)和擴(kuò)容的需求,因此,架構(gòu)是通信系統(tǒng)從紙面設(shè)計走向?qū)嵨锕こ讨械闹匾画h(huán)?,F(xiàn)代社會的網(wǎng)絡(luò)架構(gòu),從電話時代的矩陣圖結(jié)構(gòu),再到ClOS網(wǎng)絡(luò)模型為現(xiàn)代網(wǎng)絡(luò)奠定基礎(chǔ)架構(gòu),CLOS的架構(gòu)核心是,用多個小規(guī)模、低成本的單元,構(gòu)建復(fù)雜、大規(guī)模的網(wǎng)絡(luò)。在CLOS模型的基礎(chǔ)上,逐漸發(fā)展出了各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),例如星型、鏈型、環(huán)型、樹型等架構(gòu),隨后,樹型網(wǎng)絡(luò)逐漸成為主流架構(gòu)。樹型架構(gòu)主要經(jīng)過了三代演變,第一代即為最為傳統(tǒng)的樹型架構(gòu),這種樹型架構(gòu)的特點在于,每經(jīng)過一層,帶寬嚴(yán)格2:1收斂,即兩個100M的下游設(shè)備接入交換機(jī)后,固定輸出一路100M的數(shù)據(jù)流,面對云計算到來之前較小的數(shù)據(jù)流,這種架構(gòu)尚能應(yīng)付,但隨著互聯(lián)網(wǎng)以及云計算時代的到來,逐級收斂的帶寬無法滿足流量傳輸需求,因此一種名為“胖樹”的改進(jìn)型架構(gòu)被逐漸運(yùn)用于數(shù)據(jù)中心。胖樹架構(gòu)采用三層交換機(jī),其核心理念是,使用大量的低性能交換機(jī),構(gòu)建出大規(guī)模的無阻塞網(wǎng)絡(luò)。對于任意的通信模式,總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬,但是在上層運(yùn)用更加高級的交換機(jī),讓頂層交換盡可能保持較低的收斂比?!芭謽洹奔軜?gòu)為現(xiàn)代數(shù)據(jù)中心的連接奠定了基礎(chǔ),但其本身也存在著諸如帶寬的浪費(fèi)、難以擴(kuò)容、難以支持大規(guī)模云計算等等問題,面對日益龐大的網(wǎng)絡(luò)規(guī)模,傳統(tǒng)胖樹的缺陷愈發(fā)明顯。于是在胖樹的基礎(chǔ)上,進(jìn)化出了當(dāng)下先進(jìn)數(shù)據(jù)中心與AI集群使用的葉脊(Spine-Leaf)架構(gòu),相比于胖樹,葉脊更加強(qiáng)調(diào)扁平化,與繁復(fù)的三層胖樹相比,每個低層級的交換機(jī)(leaf)都會連接到每個高層級的交換機(jī)(spine),形成一個full-mesh拓?fù)?。leaf層由接入交換機(jī)組成,用于連接服務(wù)器等設(shè)備。spine層是網(wǎng)絡(luò)的骨干(backbone),負(fù)責(zé)將所有的leaf連接起來。這樣的構(gòu)型下,任意兩個物理服務(wù)器之間的數(shù)據(jù)轉(zhuǎn)發(fā),其經(jīng)過的節(jié)點數(shù)都是固定的一臺葉與一臺脊交換機(jī),保證了東西向流量的承載和時延,也通過了脊交換機(jī)的擴(kuò)容,避免了大量使用異常昂貴的核心層交換機(jī),同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論