版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2024年AI時(shí)代的通信網(wǎng)絡(luò)專題:需求從何而來_創(chuàng)新將走向何方_1.投資要件市場(chǎng)對(duì)于通信網(wǎng)絡(luò)在AI訓(xùn)練中的重要程度認(rèn)識(shí)不足。AI行情以來,市場(chǎng)更加從產(chǎn)業(yè)鏈邏輯關(guān)注網(wǎng)絡(luò)產(chǎn)業(yè)鏈的研究,主要研究方向集中在每一代網(wǎng)絡(luò)架構(gòu)需要的光模塊數(shù)量,并以此為基礎(chǔ)進(jìn)行產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的產(chǎn)量與業(yè)績(jī)測(cè)算,但市場(chǎng)對(duì)于AI與通信的底層關(guān)系的研究較少。本文從模型,多卡同步,訓(xùn)練性價(jià)比等三大方面,對(duì)AI時(shí)代通信網(wǎng)絡(luò)的核心地位進(jìn)行更深入的討論。概括來看,通信在AI時(shí)代站上C位主要有三大原因。第一,日益龐大的模型體積下,顯卡的數(shù)量和連接后的運(yùn)算效率直接決定了訓(xùn)練所需的時(shí)間,而時(shí)間,恰恰是日益激烈的巨頭AI競(jìng)賽中最為寶貴的資源。第二,從訓(xùn)練的原理出發(fā),在主流的并行模式由模型并行轉(zhuǎn)向數(shù)據(jù)并行后,每一層運(yùn)算后,都需要集群內(nèi)的不同NPU之間對(duì)齊已有參數(shù),數(shù)以千計(jì)的芯片時(shí)間的對(duì)齊過程,要保證低延遲與準(zhǔn)確,對(duì)網(wǎng)絡(luò)的要求極高。第三,網(wǎng)絡(luò)故障的成本極高,當(dāng)下模型訓(xùn)練時(shí)間往往持續(xù)數(shù)月,一旦故障或中斷較多,即使是回檔至幾小時(shí)前的存檔點(diǎn),對(duì)于整體訓(xùn)練效率和成本也會(huì)產(chǎn)生極大的損耗,對(duì)于分秒必爭(zhēng)的巨頭AI產(chǎn)品迭代來說,更為致命。同時(shí),當(dāng)下集群規(guī)模已然行至萬(wàn)卡,而其中的連接部件可能數(shù)以十萬(wàn)計(jì),如何保證這些部件的整體穩(wěn)定和良品率,已經(jīng)變成了一項(xiàng)極其深?yuàn)W的系統(tǒng)工程。市場(chǎng)對(duì)通信網(wǎng)絡(luò)未來迭代方向認(rèn)識(shí)不足。市場(chǎng)對(duì)于通信網(wǎng)絡(luò)的迭代更多的認(rèn)識(shí)停留在跟隨顯卡換代的研究層面。我們認(rèn)為,硬件迭代帶來的更新的周期和方向相對(duì)固定,而其余方向的迭代和產(chǎn)業(yè)鏈創(chuàng)新程度與日俱增。同時(shí),當(dāng)前海外巨頭的AI資本投入戰(zhàn)爭(zhēng)已經(jīng)達(dá)到數(shù)百億美元級(jí)別,而模型參數(shù)的擴(kuò)張,巨頭的慘烈廝殺依然激烈?,F(xiàn)如今,“降本”、“開放”和算力規(guī)模之間的平衡將是網(wǎng)絡(luò)創(chuàng)新的主要議題??傮w來看,產(chǎn)業(yè)鏈對(duì)于前沿的探索主要集中于三個(gè)方向。第一,通信介質(zhì)迭代,這里面既包括光、銅、硅三種基材的共同進(jìn)步,也包括各種介質(zhì)內(nèi)的技術(shù)創(chuàng)新,如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二,通信協(xié)議的創(chuàng)新,這同樣包含兩個(gè)方面,第一,節(jié)點(diǎn)內(nèi)部通信,如NVLINK和InfinityFabric,該領(lǐng)域壁壘和創(chuàng)新難度極高,屬于巨頭戰(zhàn)場(chǎng),第二,節(jié)點(diǎn)間通信,產(chǎn)業(yè)界則主要聚焦于IB與以太網(wǎng)兩大協(xié)議的競(jìng)爭(zhēng)。第三,網(wǎng)絡(luò)架構(gòu)的更新,葉脊架構(gòu)是否能夠適應(yīng)超多節(jié)點(diǎn)數(shù)量,OCS助力下,Drangonfly能否成為下一代網(wǎng)絡(luò)架構(gòu)主流,同時(shí)Rail-only+軟件優(yōu)化能夠成熟,都是產(chǎn)業(yè)的新看點(diǎn)。2.從云計(jì)算時(shí)代邁向AI時(shí)代,為什么通信愈發(fā)重要上一輪通信的輝煌,可以追溯到互聯(lián)網(wǎng)時(shí)代,爆發(fā)式的網(wǎng)絡(luò)流量傳輸需求,讓人類第一次搭建起了以海量服務(wù)器,存儲(chǔ)和交換機(jī)共同構(gòu)成的交換體系。在這一輪建設(shè)中,思科一枝獨(dú)秀,成為了人類科技進(jìn)步的領(lǐng)頭羊。但隨著互聯(lián)網(wǎng)浪潮趨于平和,光模塊與交換機(jī)更多的隨著宏觀經(jīng)濟(jì),云開支,和產(chǎn)品更新而波動(dòng),更加偏向于宏觀經(jīng)濟(jì)品種,而速率,技術(shù)的更迭也較為按部就班,進(jìn)入了周期波動(dòng)向上穩(wěn)態(tài)發(fā)展期。小模型時(shí)代,業(yè)界更加專注于算法創(chuàng)新,往往整個(gè)模型體積可以由單卡、單臺(tái)服務(wù)器或者較為簡(jiǎn)單的小集群來承擔(dān),因此來自AI側(cè)的網(wǎng)絡(luò)連接需求并不突出。但大模型的出現(xiàn)改變了一切,OpenAI證明了在當(dāng)下,用較為簡(jiǎn)單的Transformer算法,通過堆砌參數(shù)的形式,可以較好地提高模型性能,因此,整個(gè)產(chǎn)業(yè)界進(jìn)入了模型體積加速膨脹的快速發(fā)展期。我們先來看兩個(gè)決定模型計(jì)算速度的基本公式,從而可以更好的理解為什么大模型時(shí)代,算力規(guī)?;蛘哒f算力硬件產(chǎn)業(yè)鏈會(huì)率先受益。(1)訓(xùn)練耗時(shí)=訓(xùn)練數(shù)據(jù)規(guī)模x模型參數(shù)量/計(jì)算速率(2)計(jì)算速率=單設(shè)備計(jì)算速率x設(shè)備數(shù)x多設(shè)備并行效率在當(dāng)下的大模型時(shí)代,我們可以看到,在訓(xùn)練耗時(shí)的分子端的兩項(xiàng)因子,正在同時(shí)擴(kuò)大,在算力恒定的情況下,訓(xùn)練耗時(shí)將會(huì)被指數(shù)級(jí)延長(zhǎng),而在愈發(fā)激烈的巨頭模型戰(zhàn)場(chǎng),時(shí)間是最寶貴的資源。因此,競(jìng)爭(zhēng)之路非常明確,唯有加速堆疊算力。在第二個(gè)公式中我們可以看到,在算力日益膨脹的今天,單卡算力由于模型體積,芯片更新的上限,在算力構(gòu)成的占比中已經(jīng)從全部退化成了其中一環(huán),顯卡數(shù)量,以及多設(shè)備并行效率也成為兩個(gè)同樣重要的一環(huán),這也是英偉達(dá)前瞻性收購(gòu)Mellanox的原因,是希望在計(jì)算速率的每一個(gè)決定因子中,都能取得領(lǐng)先。我們?cè)谇捌趫?bào)告《AI算力的ASIC之路-從以太坊礦機(jī)說起》中詳細(xì)闡述了單卡算力的多種路線,本文中不在贅述,而我們看到的后兩項(xiàng),設(shè)備數(shù)與多設(shè)備并行效率,并不是簡(jiǎn)單的通過堆疊顯卡數(shù)量就可以簡(jiǎn)單實(shí)現(xiàn)。越多的設(shè)備數(shù),對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的可靠程度,并行計(jì)算的優(yōu)化程度要求呈現(xiàn)指數(shù)級(jí)增加,這也是為何網(wǎng)絡(luò)成為AI重要瓶頸之一的終極原因。我們?cè)诒竟?jié)中會(huì)從訓(xùn)練原理出發(fā),闡述為何設(shè)備的堆疊和并行銷量的提升,是人類歷史上最復(fù)雜的系統(tǒng)工程。2.1大模型時(shí)代的多卡合作原理,模型并行與數(shù)據(jù)并行在模型訓(xùn)練中,將模型拆分至多卡的過程并非傳統(tǒng)流水線或簡(jiǎn)單分割那樣簡(jiǎn)單,而是采用更為復(fù)雜的方式來分配顯卡之間的任務(wù)??傮w來看,任務(wù)分配方式大體可以分為兩種,模型并行與數(shù)據(jù)并行。最早在模型體積較小但數(shù)據(jù)量上升時(shí),業(yè)界普遍采用數(shù)據(jù)并行的方式。在數(shù)據(jù)并行式的運(yùn)算中,每張GPU上都保留有完整的模型副本,而訓(xùn)練用的數(shù)據(jù)被分割后進(jìn)入不同顯卡并進(jìn)行訓(xùn)練,在反向傳播后,每張卡上的模型副本梯度將被同步減少。但隨著模型參數(shù)膨脹下,單塊顯卡愈發(fā)難以容納完整模型,因此,在頭部大模型訓(xùn)練中,數(shù)據(jù)并行作為單一并行的分配方式正在逐漸減少。模型并行則是當(dāng)下在大模型時(shí)代逐漸興起的一種分配方式。由于模型體積過于龐大,因此將模型的不同部分裝載進(jìn)入顯卡內(nèi),并給顯卡灌入相同的數(shù)據(jù)流,對(duì)每一部分的參數(shù)進(jìn)行訓(xùn)練。模型并行有兩種主流模式,分別為張量并行與流水線并行。在一個(gè)模型訓(xùn)練運(yùn)算的底層運(yùn)算矩陣乘法中(C=AxB),張量并行指的先將B矩陣拆分成多個(gè)向量,每個(gè)設(shè)備持有一個(gè)向量,然后將A矩陣分別與每一個(gè)向量相乘,然后將得出進(jìn)行匯總,即可總結(jié)出C舉證。而流水線并行則是將模型按層進(jìn)行分割,將模型按層分割成若干塊,每一塊都交給一個(gè)設(shè)備進(jìn)行,同時(shí)在前向傳播過程中,每個(gè)設(shè)備將中間的激活傳遞給下一個(gè)階段,在隨后的向后傳播過程中,每個(gè)設(shè)備將輸入張量的梯度回傳給前一個(gè)流水線階段。在當(dāng)下的大模型訓(xùn)練中,沒有任何一種數(shù)據(jù)并行能夠單獨(dú)存在,在頭部大模型訓(xùn)練中,往往需要將上述的多種技術(shù)混合,實(shí)現(xiàn)多維混合并行。在實(shí)際連接時(shí),會(huì)將這個(gè)AI集群劃分為若干Stage,每個(gè)Stage對(duì)應(yīng)一個(gè)邏輯上的Batch,每個(gè)Stage由若干臺(tái)GPU節(jié)點(diǎn)組成。這樣在架構(gòu)上滿足多維混合并行的需求。無論是何種并行方式,都需要在每一輪計(jì)算后,都需要通過反向廣播的形式來同步每一張GPU內(nèi)的參數(shù),不同的并行的方式,對(duì)應(yīng)不同的廣播延遲,也需要依靠不同的網(wǎng)絡(luò)協(xié)議或者通信介質(zhì)來,由此我們可以看出,當(dāng)下的網(wǎng)絡(luò)集群構(gòu)建,正在逐步從“傳輸”進(jìn)化成一個(gè)真正意義上的“系統(tǒng)工程”。2.2大模型時(shí)代的多卡互聯(lián)核心:同步的準(zhǔn)確率AI網(wǎng)絡(luò)集群承擔(dān)的一項(xiàng)重要功能,便是將不同顯卡分工訓(xùn)練完成的結(jié)果,在計(jì)算單元之間進(jìn)行對(duì)齊,從而使得顯卡能夠進(jìn)行下一步的工作,這項(xiàng)工作也被稱為反向廣播,由于廣播過程中往往對(duì)結(jié)果采用Reduce,Gather等算法進(jìn)行處理,那么全局的廣播則被稱為AlltoAll,我們?cè)贏I集群性能指標(biāo)中常見的All-to-All延遲,指的就是做一次全局反向廣播需要的時(shí)間。從原理上來看,做一次反向廣播同步數(shù)據(jù)似乎較為容易,只需要每張顯卡互發(fā)數(shù)據(jù)即可,但在真正的網(wǎng)絡(luò)集群構(gòu)建中,卻會(huì)遇到許多問題,這也讓縮短這一時(shí)延,成為了各種網(wǎng)絡(luò)方案追求的一個(gè)重點(diǎn)方向。第一個(gè)問題在于,每一張顯卡完成當(dāng)前計(jì)算所需要的時(shí)間長(zhǎng)短是不一致的,如果統(tǒng)一等待同一組內(nèi)的最后一個(gè)顯卡完成任務(wù)后再進(jìn)行反向廣播,那會(huì)導(dǎo)致先一步完成任務(wù)的顯卡有大量的時(shí)間處于空置狀態(tài),從而降低整個(gè)計(jì)算集群的性能。而同樣,如果采用過于激進(jìn)的同步方法,則有可能導(dǎo)致同步期間出現(xiàn)錯(cuò)誤,從而導(dǎo)致訓(xùn)練中斷。因此,穩(wěn)定高效的同步方法,一直是業(yè)界追尋的方向。從當(dāng)下來看,主要的同步方法可以分為同步并行,異步并行,All-Reduce等等。我們先來看同步并行,同步并行的思路我們?cè)谇拔闹幸延刑峒?,即在?dāng)前單元內(nèi),所有計(jì)算單元完成計(jì)算后,統(tǒng)一進(jìn)行一次通訊,其優(yōu)點(diǎn)是穩(wěn)定與簡(jiǎn)單,但是會(huì)造成大量的計(jì)算單元空置。異步并行則是面對(duì)如興趣推廣等非生成式大模型時(shí)候的選擇,當(dāng)一個(gè)設(shè)備完成一輪正向與反向計(jì)算后,不需要等待另一臺(tái)設(shè)備完成循環(huán),直接進(jìn)行數(shù)據(jù)同步,這種傳輸模式下,網(wǎng)絡(luò)模型訓(xùn)練不收斂,不適用于大模型訓(xùn)練,但對(duì)于如搜索模型,推薦模型等較為適用。第三類,也是目前大家使用的最多的一類,All-Reduce或者也可以稱為All-to-All-Reduce,即將所有設(shè)備(All)上的信息歸納(Reduce)到所有設(shè)備(All)上。顯然,直接的All-Reduce將帶來極大的通信資源浪費(fèi),因?yàn)橥环輸?shù)據(jù)可能會(huì)被冗余傳輸多次。因此,許多優(yōu)化版All-Reduce算法被提出,如環(huán)狀A(yù)ll-Reduce、基于二叉樹的All-Reduce等,這些算法均能極大降低All-Reduce的帶寬和延遲。我們以中國(guó)AI龍頭百度發(fā)明的RingAll-Reduce為例,來說明分布式計(jì)算工程師們,是如何通過不斷迭代,來縮短同步時(shí)間的。在RingAll-Reduce(環(huán)同步)中,每臺(tái)設(shè)備僅需與另外兩臺(tái)設(shè)備通信,分為Scatter-Reduce與All-Gather兩個(gè)步驟。首先對(duì)相鄰設(shè)備完成多次Scatter-Reduce操作,在每臺(tái)設(shè)備分別得到聚合后的完整數(shù)據(jù)的一部分。隨后,每臺(tái)設(shè)備再對(duì)齊相鄰設(shè)備完成多次All-Gather操作,在每臺(tái)設(shè)備中補(bǔ)全完整數(shù)據(jù)。環(huán)狀A(yù)ll-Reduce不僅能降低帶寬和延遲,還可以簡(jiǎn)化網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),降低網(wǎng)絡(luò)的搭建成本。但無論是何種算法,都依賴于網(wǎng)絡(luò)通信硬件的支持,無論是從芯片原生和協(xié)議層面支持更大的帶寬,還是從純銅線連接轉(zhuǎn)為通過NVLink,亦或是IB協(xié)議的引入,RDMA需求的爆發(fā),均是為了滿足愈發(fā)復(fù)雜的溝通與同步需求,這些內(nèi)容我們會(huì)在后文中陸續(xù)展開。至此,我們對(duì)于為何AI需要高密度通信的原理層邏輯已經(jīng)有了初步認(rèn)知,首先從小模型時(shí)代到大模型時(shí)代的迅速切換,使得多節(jié)點(diǎn)集群與分布式訓(xùn)練成為剛需,而將模型分拆至不同算力節(jié)點(diǎn)運(yùn)算時(shí),如何分拆,如何保證同步則是更加繁復(fù)的系統(tǒng)工程,而通信則是這一切軟件原理實(shí)現(xiàn)的基礎(chǔ),高質(zhì)量、高通量、高穩(wěn)定性的通信元器件與通信網(wǎng)絡(luò)。2.3大模型時(shí)代的系統(tǒng)工程:監(jiān)測(cè)-總結(jié)-創(chuàng)新,迭代永遠(yuǎn)在路上上文中,我們闡述了訓(xùn)練原理決定了大模型對(duì)于通信體系的依賴程度。無數(shù)不同的,復(fù)雜的并行與同步需求一起,組成了AI集群中的數(shù)據(jù)流動(dòng),雖然通信網(wǎng)絡(luò)在此類需求的帶動(dòng)下,速率和產(chǎn)品迭代不斷加速,連接方式創(chuàng)新不斷,但時(shí)至今日,仍然沒有一個(gè)完美的集群能夠一勞永逸地解決所有問題,同時(shí)集群的穩(wěn)定性雖然不斷優(yōu)化,但由上百萬(wàn)個(gè)精密器件組成的系統(tǒng),斷點(diǎn)與中斷問題仍然時(shí)有發(fā)生。因此,大模型通信體系的進(jìn)化方向可以大體分為三個(gè),一個(gè)是對(duì)大模型系統(tǒng)的監(jiān)測(cè)能力,能夠?qū)崟r(shí)感知大模型數(shù)據(jù)流動(dòng),運(yùn)行態(tài)勢(shì),從而能夠及時(shí)發(fā)現(xiàn)故障,在這一過程中,以網(wǎng)絡(luò)可視化為基礎(chǔ)的軟硬件抓包成為了主流手段,通過FPGA芯片和專用軟件,監(jiān)控集群中的數(shù)據(jù)流動(dòng),從而為感知提供基礎(chǔ)工具,以軟件實(shí)現(xiàn)的數(shù)據(jù)抓包最常用,國(guó)內(nèi)外知名產(chǎn)品有Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark為例,其基本工作原理是:程序?qū)⒕W(wǎng)卡的工作模式設(shè)置為“混雜模式”(普通模式下,網(wǎng)卡只處理屬于自己的MAC地址的數(shù)據(jù)包,混雜模式下,網(wǎng)卡會(huì)處理所有流經(jīng)的數(shù)據(jù)包),同時(shí)由Wireshark進(jìn)行數(shù)據(jù)包的截獲、重發(fā)、編輯和轉(zhuǎn)存。軟件抓包會(huì)占用部分系統(tǒng)性能。首先,混雜模式下網(wǎng)卡處于“廣播模式”,會(huì)處理網(wǎng)絡(luò)下層收發(fā)的所有數(shù)據(jù)包,本身就會(huì)消耗網(wǎng)卡一部分性能;其次,軟件抓包不是在鏈路層串行或并行抓取,而是將數(shù)據(jù)包進(jìn)行復(fù)制和存儲(chǔ),占用了一部分CPU和存儲(chǔ)的資源。同時(shí),類似Wireshark這種軟件大多只能做到對(duì)系統(tǒng)里的單一網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行流量監(jiān)控,難以覆蓋到全局網(wǎng)絡(luò),適合被動(dòng)的故障排除作業(yè),不適用于主動(dòng)風(fēng)險(xiǎn)監(jiān)測(cè)。為了不影響系統(tǒng)整體性能,并行或串行接入的軟硬件結(jié)合工具應(yīng)運(yùn)而生,常用的工具有DPI和DFI。DPI(DeepPacketInspection,深度報(bào)文檢測(cè))是一種基于報(bào)文的應(yīng)用層信息對(duì)流量進(jìn)行檢測(cè)和控制的功能。DPI著重對(duì)應(yīng)用層的分析,能夠識(shí)別各種應(yīng)用及其內(nèi)容。當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過支持DPI技術(shù)的硬件設(shè)備時(shí),設(shè)備會(huì)通過深入讀取報(bào)文載荷來進(jìn)行重組和分析,從而識(shí)別整個(gè)應(yīng)用程序的內(nèi)容,然后按照設(shè)備定義的管理策略對(duì)流量進(jìn)行后續(xù)處理。DFI(Deep/DynamicFlowInspection,深度/動(dòng)態(tài)流檢測(cè))采用的是一種基于流量行為的應(yīng)用識(shí)別技術(shù),即不同的應(yīng)用類型體現(xiàn)在會(huì)話連接或數(shù)據(jù)流上的狀態(tài)各有不同。DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識(shí)別、精細(xì)管理的環(huán)境;而DFI技術(shù)適用于需要高效識(shí)別、粗放管理的環(huán)境。DPI/DFI由獨(dú)立硬件串/并接在物理層,不會(huì)影響物理層的性能表現(xiàn)。以浩瀚深度的DPI軟硬件產(chǎn)品為例,其可以部署在電信網(wǎng)絡(luò)的各層級(jí)網(wǎng)絡(luò)節(jié)點(diǎn),同時(shí)通過SaaS/PaaS完成對(duì)各層級(jí)監(jiān)測(cè)節(jié)點(diǎn)數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層,通過鏡像數(shù)據(jù)包實(shí)現(xiàn)近乎無損的網(wǎng)絡(luò)監(jiān)測(cè)。DPI軟件嵌入在DPI硬件、獨(dú)立服務(wù)器或交換機(jī)/路由器中,實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)測(cè)。解決了監(jiān)測(cè)問題之后,大模型系統(tǒng)工程的迭代之路便有了基礎(chǔ),前文提到,在實(shí)操中,更加需要注重的便是系統(tǒng)運(yùn)行效率和穩(wěn)定性間的平衡,一方面,我們通過Reduce方法的優(yōu)化,并行方法的創(chuàng)新等等,創(chuàng)造出新的訓(xùn)練方法和理論,分布式訓(xùn)練的底層創(chuàng)新,然而底層創(chuàng)新始終需要相關(guān)硬件的支持,更大通量的交換機(jī),更加契合的交換協(xié)議,更穩(wěn)定,更便宜的通信器件將是大模型系統(tǒng)升級(jí)中永遠(yuǎn)不可或缺的一環(huán)。3.通信協(xié)議的競(jìng)爭(zhēng)與迭代:承載AI數(shù)據(jù)流的話語(yǔ)權(quán)上一章節(jié)中,我們系統(tǒng)闡述了AI集群中的通信主要起到哪些作用,本節(jié)中,我們將系統(tǒng)性地介紹構(gòu)成整個(gè)通信體系的最基礎(chǔ)部分-通信協(xié)議。從直覺上來看,通信系統(tǒng)主要由交換機(jī)、光模塊、線纜、網(wǎng)卡等等實(shí)物硬件組成,但其實(shí)真正決定了一個(gè)通信系統(tǒng)的建立,運(yùn)行和性能特點(diǎn)的,卻是流轉(zhuǎn)在實(shí)物硬件內(nèi)部的通信協(xié)議。通信協(xié)議是在計(jì)算機(jī)網(wǎng)絡(luò)中,為了保證數(shù)據(jù)順利、準(zhǔn)確地傳送,通信雙方必須遵守的一系列約定。這些約定包括數(shù)據(jù)的格式、編碼規(guī)則、傳輸速率、傳輸步驟等。在AI時(shí)代,通信協(xié)議的分類主要分為兩大類,第一,用于算力節(jié)點(diǎn)內(nèi)部的算力卡之間通信的高速協(xié)議,這一類協(xié)議具有速度快,封閉性強(qiáng)、可擴(kuò)展性弱等特點(diǎn),往往是各家顯卡廠商的核心能力壁壘之一,其速率,接口等等需要芯片層面的支持。第二類協(xié)議則是用于連接算力節(jié)點(diǎn)之間的協(xié)議,這類協(xié)議具有速度慢,可擴(kuò)展性強(qiáng)等特點(diǎn),第二類協(xié)議目前主要有兩大主流,InfiniBand協(xié)議以及以太網(wǎng)下的RoCE協(xié)議族,這類協(xié)議保證了數(shù)據(jù)的跨節(jié)點(diǎn)傳輸能力,也是構(gòu)建超大集群的基礎(chǔ),同時(shí)也為智算單元接入數(shù)據(jù)中心提供了解決方案。3.1節(jié)點(diǎn)內(nèi)通信—大廠核心壁壘,算力“摩爾定律”的希望節(jié)點(diǎn)內(nèi)通信,即單臺(tái)服務(wù)器內(nèi)部的顯卡通信協(xié)議,負(fù)責(zé)同一服務(wù)器內(nèi)部的顯卡之間的高速互聯(lián),發(fā)展至今,這一協(xié)議主要包括了PCIe、NVLink、InfintyFabric三種協(xié)議我們先來看歷史最為悠久的PCIe協(xié)議,PCIe協(xié)議是一種公開的通用協(xié)議,傳統(tǒng)服務(wù)器個(gè)人電腦中的不同硬件都通過PCIe協(xié)議來進(jìn)行連接,在當(dāng)?shù)谌浇M裝的算力服務(wù)器中,顯卡之間任然像傳統(tǒng)服務(wù)器一樣,通過PCIe插槽和主板上的PCIe線路進(jìn)行互聯(lián)。PCIe是最廣泛使用的總線協(xié)議??偩€是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道,對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用,目前最普及的總線協(xié)議為英特爾2001年提出的PCIe(PCI-Express)協(xié)議,PCIe主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等,2003年P(guān)CIe1.0版本發(fā)布,后續(xù)大致每過三年會(huì)更新一代,目前已經(jīng)更新到6.0版本,傳輸速率高達(dá)64GT/s,16通道的帶寬達(dá)到256GB/s,性能和可擴(kuò)展性不斷提高。PCIe總線樹形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度,PCIeSwitch誕生。PCIe采用端對(duì)端數(shù)據(jù)傳輸鏈路,PCIe鏈路的兩端只能各接入一個(gè)設(shè)備,設(shè)備識(shí)別數(shù)量有限,無法滿足有大量設(shè)備連接或需要高速數(shù)據(jù)傳輸?shù)膱?chǎng)景,因此PCIeSwitch誕生。PCIeSwitch具備連接和交換雙重功能,可以讓一個(gè)PCIe端口識(shí)別和連接更多設(shè)備,解決通道數(shù)量不夠的問題,并可以將多條PCIe總線連接在一起,從而形成一個(gè)高速網(wǎng)絡(luò),實(shí)現(xiàn)多設(shè)備通信,簡(jiǎn)言之PCIeSwitch相當(dāng)于PCIe的拓展器。但正如上文中所說,隨著模型規(guī)模逐步擴(kuò)大,同時(shí)NPU之間同步循環(huán)愈發(fā)復(fù)雜,速率較低并未對(duì)模型運(yùn)行模式進(jìn)行專門優(yōu)化的的PCIE已經(jīng)不能滿足大模型時(shí)代的需求,因此,各大顯卡廠商專有的協(xié)議在大模型時(shí)代快速興起。我們認(rèn)為,當(dāng)先業(yè)界關(guān)注度最高,進(jìn)化速度最快的協(xié)議便是NV-Link協(xié)議,英偉達(dá)提出的高速GPU互聯(lián)協(xié)議,對(duì)比傳統(tǒng)PCIe總線協(xié)議,NVLINK主要在三個(gè)方面做出較大改變:1)支持網(wǎng)狀拓?fù)淠浚鉀Q通道有限問題;2)統(tǒng)一內(nèi)存,允許GPU共享公共內(nèi)存池,減少GPU之間復(fù)制數(shù)據(jù)的需要,從而提高效率;3)直接內(nèi)存訪問,不需要CPU參與,GPU可直接讀取彼此的內(nèi)存,從而降低網(wǎng)絡(luò)延遲。此外,為解決GPU之間通訊不均衡問題,英偉達(dá)還引入NVSwitch,一種類似交換機(jī)ASIC的物理芯片,通過NVLink接口將多個(gè)GPU高速互聯(lián),創(chuàng)建高帶寬多節(jié)點(diǎn)GPU集群。我們通過回顧NV-link的發(fā)展史,可以發(fā)現(xiàn),節(jié)點(diǎn)間的NV-Link互聯(lián)正是隨著顯卡間同步需求的變化而逐步迭代。但隨著單個(gè)顯卡性能的擴(kuò)張,吞吐量的提升,以及顯卡之間同步方式的愈發(fā)復(fù)雜,單純純線纜連接以及固定的線路已經(jīng)無法滿足顯卡間的溝通需求。因此在Ampere架構(gòu)中,也就是對(duì)應(yīng)的第三代NVLINK,英偉達(dá)引入了第一代專用的NV-LinkSwitch芯片,從而進(jìn)一步加大NV-Link速率,靈活性。但從Pascal架構(gòu)到Ampere架構(gòu)的更新中,由于當(dāng)時(shí)的客戶需求仍然集中于小模型,大規(guī)模的計(jì)算集群并未出現(xiàn),因此NV-LINK保持著常規(guī)更新的節(jié)奏,主要通過芯片內(nèi)部通道迭代,NV-LinkSwitch芯片迭代來實(shí)現(xiàn)速率的更新,期間英偉達(dá)還為游戲顯卡推出了NV-Link橋接器,來滿足部分高端C端用戶的需求。從A100到H100的更新中,英偉達(dá)邁出了NV-Link進(jìn)化的第一步,當(dāng)大模型的需求開始涌現(xiàn),超大的數(shù)據(jù)規(guī)模、模型體積使得過去以8張顯卡為上限的NV-Link互聯(lián)難以應(yīng)付,使用者們不得不把模型切片,裝進(jìn)不同服務(wù)器間進(jìn)行訓(xùn)練以及對(duì)齊,而服務(wù)器間較慢的溝通速率直接影響了模型訓(xùn)練的效果。我們把能用最高速通信協(xié)議互聯(lián)的顯卡數(shù)量稱之為HB-DOMIN,而在模型參數(shù)日益龐大的發(fā)展過程中,在同等代際芯片內(nèi),HB-DOMIN成為了決定模型訓(xùn)練能力的關(guān)鍵因素。在這種背景下,英偉達(dá)的NV-LINK在Hopper架構(gòu)上邁出了進(jìn)化的第一步,通過外置的專用交換機(jī),承載更多的NV-LINKswitch芯片,從而擴(kuò)大現(xiàn)有顯卡的HB-DOMIN。在Hopper100時(shí)代,通過GH200SuperPOD產(chǎn)品,NV-LINK第一次走出服務(wù)器內(nèi)部,實(shí)現(xiàn)了跨越服務(wù)器的256張顯卡互聯(lián)。但由于Hopper架構(gòu)下對(duì)應(yīng)的NV-Link3.0交換芯片成熟度較低,英偉達(dá)需要兩層架構(gòu)來連接顯卡,因此一個(gè)GH200256卡集群內(nèi)需要大量的高端光模塊,成本極高,給客戶的采購(gòu)帶來了不便。同時(shí),在GH200發(fā)布之時(shí),模型的參數(shù)還未膨脹到萬(wàn)億級(jí)別,根據(jù)Meta的研究結(jié)果顯示,在萬(wàn)億參數(shù)之下,超過100后的HB-Domin擴(kuò)張邊際效應(yīng)會(huì)出現(xiàn)加速遞減。在Blackwell架構(gòu)時(shí)代,英偉達(dá)正式完善了NVLINK的擴(kuò)張之路,隨著4NM最新一代NV-Link交換芯片的發(fā)布,英偉達(dá)推出了正式的拳頭產(chǎn)品GB200NVL72。英偉達(dá)通過單機(jī)柜內(nèi)部單層NVlink+銅纜的連接,實(shí)現(xiàn)了用較低成本達(dá)成一個(gè)具有高性價(jià)比的HB-DOMIN數(shù)字的目標(biāo),真正邁出了節(jié)點(diǎn)內(nèi)互聯(lián)協(xié)議向上層擴(kuò)張的第一步。我們除了在最新一代NV-LINK上,也再一次重新認(rèn)識(shí)了節(jié)點(diǎn)內(nèi)互聯(lián)協(xié)議的重要性,甚至可以說,節(jié)點(diǎn)內(nèi)通信的擴(kuò)張,已經(jīng)成了摩爾定律是否能在算力時(shí)代延續(xù)的關(guān)鍵。節(jié)點(diǎn)內(nèi)通信協(xié)議的迭代以及低成本實(shí)現(xiàn),是當(dāng)前應(yīng)對(duì)“通信墻”、“內(nèi)存墻”的最佳解決辦法。當(dāng)前NV-LINK最大的競(jìng)爭(zhēng)者便來自于英偉達(dá)在通用顯卡領(lǐng)域的最大競(jìng)爭(zhēng)者AMD,與英偉達(dá)相同,即使是對(duì)網(wǎng)絡(luò)協(xié)議開放最為支持的AMD,在其節(jié)點(diǎn)內(nèi)互聯(lián)領(lǐng)域,依然使用其專用的協(xié)議“InfinityFabric”,但同時(shí),與英偉達(dá)不同AMD將這份協(xié)議共享給了合作的博通、Arista、思科這三家以太網(wǎng)龍頭。當(dāng)下來看,InfinityFabric與NVLINK的差距仍然較大,在包括專用交換芯片、多卡互聯(lián)、協(xié)議完成度等方面,AMD仍然有較長(zhǎng)的路需要追趕、這也體現(xiàn)出,當(dāng)前的頭部通用算力競(jìng)爭(zhēng),已經(jīng)從芯片設(shè)計(jì)這一單一環(huán)節(jié),慢慢擴(kuò)大到節(jié)點(diǎn)內(nèi)通信這一環(huán)節(jié)??偨Y(jié)來看,節(jié)點(diǎn)間通信正在變成算力中愈發(fā)重要的組成部分,同時(shí),隨著HB-DOMIN擴(kuò)大,“算力節(jié)點(diǎn)”也在逐步擴(kuò)大,我們認(rèn)為,這背后是節(jié)點(diǎn)間協(xié)議在整個(gè)AI集群內(nèi)的“向上滲透”,同時(shí),依靠在節(jié)點(diǎn)間協(xié)議及其承載硬件的系統(tǒng)化壓縮,也是未來AI算力實(shí)現(xiàn)摩爾定律的解決之道。3.2節(jié)點(diǎn)間通信協(xié)議:歷久彌新,封閉與開放之爭(zhēng)現(xiàn)在我們把視角移到算力節(jié)點(diǎn)外部,來看一下當(dāng)前構(gòu)成全球算力集群連接的主流協(xié)議。當(dāng)下的算力中心,NPU正在逐步邁向百萬(wàn)級(jí)規(guī)模,即使算力節(jié)點(diǎn)或者我們說的HB-DOMIN加速擴(kuò)大,但節(jié)點(diǎn)間連接依然是構(gòu)成全球AI算力的基石部分。從當(dāng)前來看,節(jié)點(diǎn)間連接協(xié)議主要分為InfiniBand協(xié)議與以太網(wǎng)家族內(nèi)的ROCE協(xié)議族。超算節(jié)點(diǎn)間互聯(lián)的核心在于RDMA功能。過去,在傳統(tǒng)的CPU為主的數(shù)據(jù)中心中,普遍采用TCP/IP協(xié)議進(jìn)行傳輸,即數(shù)據(jù)從發(fā)送端內(nèi)存發(fā)出后,經(jīng)過發(fā)送端設(shè)備CPU編碼后,發(fā)送至接收端設(shè)備的CPU,經(jīng)過解碼后放入內(nèi)存。這一過程中由于數(shù)據(jù)經(jīng)過多個(gè)設(shè)備且多次編解碼,因此會(huì)產(chǎn)生較高的延遲,而延遲則是對(duì)計(jì)算卡間相互同步最關(guān)鍵的的因素,因此,在顯卡間互聯(lián)的需求下,繞過CPU,實(shí)現(xiàn)內(nèi)存之間的遠(yuǎn)程直接互訪(RemoteDirectMemoryAccess)RDMA變成為了AI集群連接的剛需。在這種背景下,當(dāng)前由英偉達(dá)主導(dǎo)的原生支持RDMA的IB協(xié)議以太網(wǎng)下支持該功能的ROCE協(xié)議族變成了當(dāng)下的唯二選擇,而這兩種協(xié)議鮮明的特點(diǎn)又讓整個(gè)節(jié)點(diǎn)間協(xié)議的競(jìng)爭(zhēng)變得精彩異常。IB協(xié)議的出現(xiàn)最早可以追溯至1999年,當(dāng)時(shí),通信能力過差的PCI總線逐漸成為各個(gè)設(shè)備之間溝通的瓶頸,在此背景下,英特爾、微軟、IBM、幾大巨頭成立的FIODevelopersForum和NGIOForum進(jìn)行了合并,創(chuàng)立了InfiniBand貿(mào)易協(xié)會(huì)(InfiniBandTradeAssociation,IBTA),并在2000年推出了第一版的IB協(xié)議框架。在1999年創(chuàng)立的交換芯片公司Mellanox也加入了IB陣營(yíng)。IB從創(chuàng)立之初,便領(lǐng)先性的提出了RDMA概念,從而能夠繞開PCI總線的限制,進(jìn)行更加高速的訪問,但好景不長(zhǎng),在2022年,英特爾,微軟等巨頭相繼宣布退出IB聯(lián)盟,轉(zhuǎn)而轉(zhuǎn)向我們上文提到的PCIE協(xié)議的研發(fā),IB因此走向衰落。但到了2005年,隨著存儲(chǔ)設(shè)備間的通信需求上升,IB重新迎來上升期,再后來,隨著全球超算搭建,越來越多的超級(jí)計(jì)算機(jī)開始使用IB進(jìn)行連接。在這過程中,依靠著對(duì)IB的不離不棄和相關(guān)收購(gòu),Mellanox從一家芯片公司擴(kuò)展到了網(wǎng)卡、交換機(jī)/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)和線纜及模塊全領(lǐng)域,成為世界級(jí)網(wǎng)絡(luò)提供商,在2019年,英偉達(dá)用69億美元的報(bào)價(jià)擊敗英特爾與微軟,成功收購(gòu)了Mellanox。另一方面,以太網(wǎng)則在2010年發(fā)布了RoCE協(xié)議,基于以太網(wǎng)協(xié)議實(shí)現(xiàn)RDMA,同時(shí)在2014年提出了更加成熟的RoCEv2。進(jìn)入大模型時(shí)代以來,全球數(shù)據(jù)中心快速轉(zhuǎn)向智算化,因此主要的新增投資設(shè)備都需要RDMA連接方式的支持。但當(dāng)下的競(jìng)爭(zhēng)格局又與之前的RoCEV2與IB的競(jìng)爭(zhēng)發(fā)生了變化,由于英偉達(dá)在全球顯卡領(lǐng)域的絕對(duì)領(lǐng)先地位,英偉達(dá)顯卡對(duì)于IB的適配程度更加完善,其中最明顯的一點(diǎn)體現(xiàn)在Mellanox交換機(jī)部署的Sharp協(xié)議中。由于在AI運(yùn)算中,顯卡與顯卡之間需要大量的復(fù)雜Reduce通信,上文中也提到,這也是AI通信系統(tǒng)工程中需要解決的核心問題,在Mellanox交換機(jī)產(chǎn)品中,在英偉達(dá)的幫助下,公司創(chuàng)新性地在交換芯片中集成了計(jì)算引擎單元,可以支持相關(guān)Reduce計(jì)算,從而幫助GPU減輕負(fù)載,但是相關(guān)功能需要GPU廠商的配合。由此可見,AI時(shí)代的通信協(xié)議之爭(zhēng),背后核心已然變成了顯卡廠商的話語(yǔ)權(quán)之爭(zhēng),當(dāng)下來看,IB協(xié)議憑借著英偉達(dá)的支持,占據(jù)了較好的競(jìng)爭(zhēng)優(yōu)勢(shì),而傳統(tǒng)的以太網(wǎng)廠商們,由于缺乏一款有力的芯片支撐,則在部分功能上稍顯弱勢(shì)。但是AMD帶領(lǐng)下的超以太聯(lián)盟的出現(xiàn),有望逐漸扭轉(zhuǎn)這一局面。2023年7月19日,AMD、博通、思科、ARISTA、Meta、微軟等來自計(jì)算芯片、網(wǎng)絡(luò)側(cè)以及用戶側(cè)的各個(gè)龍頭廠商共同組建了超以太網(wǎng)聯(lián)盟,我們認(rèn)為,超以太網(wǎng)聯(lián)盟成立的目的便是為了能夠在以太網(wǎng)的基礎(chǔ)之上,搭建起一個(gè)完全開放,更加靈活,且性能超越IB的網(wǎng)絡(luò)協(xié)議,從而與IB進(jìn)行抗衡。AMD作為超以太聯(lián)盟的核心成員,在Mi300系列發(fā)布會(huì)上,公司表示其顯卡的后端連接將會(huì)無條件使用以太網(wǎng),同時(shí)用于節(jié)點(diǎn)內(nèi)互聯(lián)的InfinityFabric協(xié)議,也將開放給以太網(wǎng)廠商。我們判斷,隨著AMD和UEC聯(lián)盟中博通等成員的合作進(jìn)度逐漸加快,UEC聯(lián)盟也有望真正形成一套類似于N卡+IB的兼容與合作體系,從而給英偉達(dá)帶來挑戰(zhàn)。但其過程注定漫長(zhǎng),從AMD側(cè)單卡算力的追趕,再到博通側(cè)交換芯片的進(jìn)步,再到不同廠商間的開放與合作,仍有許多路要走??偨Y(jié)來看,節(jié)點(diǎn)間通信協(xié)議之爭(zhēng),已經(jīng)漸漸的從原理之爭(zhēng)演變成了話語(yǔ)權(quán)之爭(zhēng),使用何種協(xié)議,更多的是GPU話語(yǔ)權(quán)的延伸,英偉達(dá)希望通過IB擴(kuò)大全環(huán)節(jié)話語(yǔ)權(quán),客戶則希望擁抱更加開放的IB,行業(yè)的競(jìng)爭(zhēng)將持續(xù)推動(dòng)通信協(xié)議的持續(xù)進(jìn)化。4.AI推動(dòng)下,網(wǎng)絡(luò)硬件創(chuàng)新將走向何方?上節(jié)我們討論了AI需求是如何推動(dòng)RDMA功能的進(jìn)化與放量,同樣,在網(wǎng)絡(luò)硬件的領(lǐng)域,AI的新需求也正在帶來除了速率更新外的其他變化,從傳輸介質(zhì)、交換機(jī)、網(wǎng)絡(luò)架構(gòu)乃至數(shù)據(jù)中心整體形態(tài)都在發(fā)生變化。4.1光、銅與硅,傳輸介質(zhì)之爭(zhēng)將走向何方近年來,隨著人類數(shù)據(jù)量快速膨脹,以及傳輸速率成倍提升,我們?cè)跓o線網(wǎng)、固網(wǎng)等電信側(cè)率先迎來了光進(jìn)銅退的浪潮,從最早的撥號(hào)上網(wǎng),再到光纖入戶乃至現(xiàn)在的FTTR,正式一輪輪光纖光纜對(duì)于銅線的逐步替代。到了數(shù)據(jù)中心內(nèi)部,光進(jìn)銅退的進(jìn)程也同樣在進(jìn)行,由光模塊、AOC等等光通信組成的通信系統(tǒng)正在逐漸代替有DAC,AEC等組成的銅傳輸系統(tǒng),這背后是高速率傳輸下,銅介質(zhì)衰減愈發(fā)劇烈的必然物理規(guī)律。如果沒有AI帶來的多樣需求,隨著服務(wù)器網(wǎng)口速率逐代提升,光傳輸會(huì)漸漸向機(jī)柜內(nèi)部持續(xù)滲透,并最終形成全光數(shù)據(jù)中心。但AI的出現(xiàn),給個(gè)“光進(jìn)銅退”這一過程帶來了一絲波折,或者說讓市場(chǎng)產(chǎn)生了一定的困惑。其背后的核心原因是:AI帶來了通信系統(tǒng)復(fù)雜度與造價(jià)的非代際線性增長(zhǎng),在指數(shù)級(jí)的需求增加面前,高速率光模塊變得愈發(fā)昂貴。因此,性價(jià)比更高的銅纜在當(dāng)前速率吸引力逐步提升,同時(shí)疊加散熱等等配套部件的改善,顯卡廠商得以將更多的計(jì)算單元盡可能多的壓縮在銅纜可以觸及的單機(jī)柜范圍內(nèi)。從背后我們不難發(fā)現(xiàn),在AI時(shí)代,由于開支的增加,在當(dāng)前2-3年的節(jié)點(diǎn)內(nèi),光銅之爭(zhēng)的核心從速率升級(jí)變?yōu)榱顺杀鞠刃?,同時(shí)由于通信系統(tǒng)的復(fù)雜程度加速上升,簡(jiǎn)化與低故障率亦成為了客戶選擇介質(zhì)的關(guān)鍵考慮因素。長(zhǎng)距離跨服務(wù)器傳輸:光模塊是唯一方案,降本與簡(jiǎn)化是創(chuàng)新方向。由于銅纜的傳輸距離限制,所謂“光退銅進(jìn)”也只能發(fā)生在短距離傳輸上,而面對(duì)5米以上的傳輸距離,也就是跨服務(wù)器或跨算力節(jié)點(diǎn)傳輸時(shí),光傳輸仍然是唯一選擇。但當(dāng)下,客戶的除了關(guān)心常規(guī)的速率升級(jí)之外,對(duì)于成本和故障率(器件復(fù)雜程度)的追求正在愈發(fā)急迫,這也帶動(dòng)了光通信行業(yè)未來的升級(jí)方向。LPO/LRO:LPO通過線性直驅(qū)技術(shù)替換傳統(tǒng)的DSP,將其功能集成到交換芯片中,只留下driver和TIA芯片。LPO光模塊中用到的TIA、driver芯片性能也有所提升,從而實(shí)現(xiàn)更好的線性度。LRO則是在一端采用傳統(tǒng)光模塊,另外一端采用LPO光模塊,從而使得客戶的接受度更高的一種過渡方案。硅光:硅光通過成熟技術(shù)使得部分光模塊的光引擎中的分立器件能夠自動(dòng)化集成在硅基芯片上,從而能夠?qū)崿F(xiàn)大幅的成本降低,同時(shí)自動(dòng)化生產(chǎn)和制程更新也能幫助硅光芯片進(jìn)行迭代,我們認(rèn)為,LPO、硅光是行業(yè)進(jìn)度最快的兩個(gè)降本創(chuàng)新方案。薄膜鈮酸鋰:鈮酸鋰材料是可靠材料中電光系數(shù)最優(yōu)的選擇(考慮居里點(diǎn)和電光系數(shù))。薄膜工藝?yán)M(jìn)電極距離,降低電壓提升帶寬電壓比。相比其他材料兼具大帶寬/低損耗/低驅(qū)動(dòng)電壓等諸多光電最需要的優(yōu)點(diǎn)。當(dāng)下來看,薄膜鈮酸鋰主要用于高速率硅光調(diào)制器,我們認(rèn)為,使用薄膜鈮酸鋰調(diào)制器可以在1.6T,3.2T實(shí)現(xiàn)更好的性能。CPO:CPO指將光模塊直接封裝在交換機(jī)主板上,從而能夠共享交換機(jī)主板散熱,同時(shí)縮短電信號(hào)在交換機(jī)主板上傳輸?shù)木嚯x,但是目前來看,由于AI中心中的光模塊屬于易損品,共封裝后維護(hù)難度較大,因此客戶對(duì)CPO的認(rèn)可程度還有待觀察。機(jī)柜內(nèi)連接:成本與穩(wěn)定雙重優(yōu)勢(shì)下,銅線是中短期優(yōu)勢(shì)選擇,隨著長(zhǎng)期速率上升,光進(jìn)銅退仍會(huì)發(fā)生。DAC:DirectAttachCable,即為高速銅纜,可以適應(yīng)較短距離內(nèi)的超高速連接,當(dāng)前市場(chǎng)主流800GDAC長(zhǎng)度在3米以內(nèi),是一種擁有較高性價(jià)比的機(jī)柜內(nèi)連接方案。AOC:ActiveOpticalCables,有源光纜,即為兩端提前完成一體化分裝的光模塊與光纖構(gòu)成的系統(tǒng),其傳輸距離相較傳統(tǒng)的多?;騿文9饽K較短,但是成本也較低,是超越銅纜傳輸極限后的機(jī)柜內(nèi)短距離連接選擇。關(guān)于硅的演進(jìn),當(dāng)下的主流思路主要包括了Chiplet與Wafer-scaling兩種,這兩種方法的核心思路都在于,通過更先進(jìn)的半導(dǎo)體制造與設(shè)計(jì)工藝,從而擴(kuò)大單塊芯片能夠承載的計(jì)算單元數(shù),并盡可能的使得更多通信發(fā)展在單塊硅片內(nèi),最大化計(jì)算效率,這部分內(nèi)容我們?cè)诖饲吧疃取禔I算力的ASIC之路——從以太坊礦機(jī)說起》中有詳細(xì)介紹,在本文中不再贅述。綜合來看,傳輸介質(zhì)的更迭與競(jìng)爭(zhēng)跟隨需求而動(dòng),而當(dāng)下的需求則非常明晰,在MOE等新訓(xùn)練框架下,模型參數(shù)往萬(wàn)億規(guī)模進(jìn)發(fā),如何高性價(jià)比的實(shí)現(xiàn)更可能強(qiáng)的單節(jié)點(diǎn)算力,或者說是擴(kuò)大“HB-DOMIN”域的數(shù)量,從而使得模型的切分不必過于細(xì)碎,導(dǎo)致訓(xùn)練效率的降低,無論是光、銅還是最底層的硅,都在此路線上不斷努力。4.2交換機(jī)的創(chuàng)新:光交換機(jī)初出茅廬交換機(jī)作為網(wǎng)絡(luò)的核心節(jié)點(diǎn),是承載通信協(xié)議的核心部件,在如今的AI集群內(nèi),交換機(jī)也承擔(dān)起愈發(fā)復(fù)雜的任務(wù),如上文提到的Mellanox交換機(jī)中,其就通過SHARP協(xié)議兼具了部分對(duì)齊運(yùn)算的功能,幫助AI運(yùn)算進(jìn)行加速。但另一方面,盡管如今的電交換機(jī)愈發(fā)強(qiáng)大,更新迭代的速度依舊穩(wěn)定,但純光交換似乎正在成為一種全新的潮流。究其原因,我們認(rèn)為,光交換機(jī)風(fēng)潮的背后主要有兩點(diǎn)原因,第一,AI參與者的巨頭化。第二,AI集群的加速擴(kuò)大。光交換系統(tǒng)相比于電交換系統(tǒng),其去除了電芯片,使用光學(xué)鏡片,對(duì)傳入交換機(jī)內(nèi)部的光信號(hào)進(jìn)行折射與分配,從而讓其不經(jīng)過轉(zhuǎn)換,從而傳入對(duì)應(yīng)的光模塊之中。與電交換機(jī)相比,光交換機(jī)由于省去了光電轉(zhuǎn)換的過程,因此功耗,時(shí)延等等會(huì)更低,同時(shí)由于其不受制與電交換機(jī)芯片的容量上限限制,對(duì)于網(wǎng)絡(luò)層數(shù)優(yōu)化和單臺(tái)交換機(jī)能夠覆蓋的臺(tái)數(shù)也有增加,但相反,使用光交換機(jī)需要專門設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)讓其適配,同時(shí)光交換機(jī)的集群一旦建立,無法進(jìn)行零散擴(kuò)容,只能一次性擴(kuò)容一整個(gè)網(wǎng)絡(luò)集群,靈活性也較差,此外,光交換機(jī)在目前階段,沒有通用版本,需要自研或者定制化設(shè)計(jì),門檻較高。但隨著AI競(jìng)爭(zhēng)正式進(jìn)入巨頭廝殺的后半程,巨頭所擁有的AI集群規(guī)模正在快速擴(kuò)大,巨頭擁有成熟的投資規(guī)劃、網(wǎng)絡(luò)架構(gòu)的自研能力、以及充足的資金,因此在節(jié)點(diǎn)規(guī)模不斷擴(kuò)大的今天,如谷歌等巨頭客戶正在加速OCS體系的研發(fā)與部署。而回歸到傳統(tǒng)的電交換部分,如今的電交換機(jī)的創(chuàng)新,除了上文的協(xié)議部分,更多的集中在了芯片部分,包括制程的迭代,功能的創(chuàng)新等等,同時(shí),如博通等交換機(jī)廠商,憑借自有IP在不同下游客戶芯片處的運(yùn)用,使得自身的與客戶的綁定變得更強(qiáng),結(jié)合通信協(xié)議上的戰(zhàn)隊(duì),在AI時(shí)代,交換機(jī)行業(yè)已經(jīng)正式變成了芯片聯(lián)盟之間的全方位比拼。4.3網(wǎng)絡(luò)架構(gòu)的創(chuàng)新:葉脊之后,走向何方?網(wǎng)絡(luò)架構(gòu)則是協(xié)議與硬件外的通信系統(tǒng)的重要構(gòu)成部分,架構(gòu)決定了服務(wù)器中的數(shù)據(jù)以何種路徑進(jìn)行傳輸,同時(shí)優(yōu)秀的網(wǎng)絡(luò)架構(gòu)能夠使得數(shù)據(jù)流量全域可達(dá)的同時(shí),縮減時(shí)延,保證穩(wěn)定性。同時(shí),網(wǎng)絡(luò)架構(gòu)還需要滿足易于維護(hù)和擴(kuò)容的需求,因此,架構(gòu)是通信系統(tǒng)從紙面設(shè)計(jì)走向?qū)嵨锕こ讨械闹匾画h(huán)?,F(xiàn)代社會(huì)的網(wǎng)絡(luò)架構(gòu),從電話時(shí)代的矩陣圖結(jié)構(gòu),再到ClOS網(wǎng)絡(luò)模型為現(xiàn)代網(wǎng)絡(luò)奠定基礎(chǔ)架構(gòu),CLOS的架構(gòu)核心是,用多個(gè)小規(guī)模、低成本的單元,構(gòu)建復(fù)雜、大規(guī)模的網(wǎng)絡(luò)。在CLOS模型的基礎(chǔ)上,逐漸發(fā)展出了各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),例如星型、鏈型、環(huán)型、樹型等架構(gòu),隨后,樹型網(wǎng)絡(luò)逐漸成為主流架構(gòu)。樹型架構(gòu)主要經(jīng)過了三代演變,第一代即為最為傳統(tǒng)的樹型架構(gòu),這種樹型架構(gòu)的特點(diǎn)在于,每經(jīng)過一層,帶寬嚴(yán)格2:1收斂,即兩個(gè)100M的下游設(shè)備接入交換機(jī)后,固定輸出一路100M的數(shù)據(jù)流,面對(duì)云計(jì)算到來之前較小的數(shù)據(jù)流,這種架構(gòu)尚能應(yīng)付,但隨著互聯(lián)網(wǎng)以及云計(jì)算時(shí)代的到來,逐級(jí)收斂的帶寬無法滿足流量傳輸需求,因此一種名為“胖樹”的改進(jìn)型架構(gòu)被逐漸運(yùn)用于數(shù)據(jù)中心。胖樹架構(gòu)采用三層交換機(jī),其核心理念是,使用大量的低性能交換機(jī),構(gòu)建出大規(guī)模的無阻塞網(wǎng)絡(luò)。對(duì)于任意的通信模式,總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬,但是在上層運(yùn)用更加高級(jí)的交換機(jī),讓頂層交換盡可能保持較低的收斂比?!芭謽洹奔軜?gòu)為現(xiàn)代數(shù)據(jù)中心的連接奠定了基礎(chǔ),但其本身也存在著諸如帶寬的浪費(fèi)、難以擴(kuò)容、難以支持大規(guī)模云計(jì)算等等問題,面對(duì)日益龐大的網(wǎng)絡(luò)規(guī)模,傳統(tǒng)胖樹的缺陷愈發(fā)明顯。于是在胖樹的基礎(chǔ)上,進(jìn)化出了當(dāng)下先進(jìn)數(shù)據(jù)中心與AI集群使用的葉脊(Spine-Leaf)架構(gòu),相比于胖樹,葉脊更加強(qiáng)調(diào)扁平化,與繁復(fù)的三層胖樹相比,每個(gè)低層級(jí)的交換機(jī)(leaf)都會(huì)連接到每個(gè)高層級(jí)的交換機(jī)(spine),形成一個(gè)full-mesh拓?fù)?。leaf層由接入交換機(jī)組成,用于連接服務(wù)器等設(shè)備。spine層是網(wǎng)絡(luò)的骨干(backbone),負(fù)責(zé)將所有的leaf連接起來。這樣的構(gòu)型下,任意兩個(gè)物理服務(wù)器之間的數(shù)據(jù)轉(zhuǎn)發(fā),其經(jīng)過的節(jié)點(diǎn)數(shù)都是固定的一臺(tái)葉與一臺(tái)脊交換機(jī),保證了東西向流量的承載和時(shí)延,也通過了脊交換機(jī)的擴(kuò)容,避免了大量使用異常昂貴的核心層交換機(jī),同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)員工關(guān)系管理準(zhǔn)則
- 交通要道路燈安裝協(xié)議樣本
- 養(yǎng)殖業(yè)合伙協(xié)議書范本
- 獵頭服務(wù)協(xié)議范本
- 鐵路工程工長(zhǎng)聘用合同
- 舊貨市場(chǎng)門市租賃合同
- 瑜伽培訓(xùn)班導(dǎo)師聘任合同范本
- 餐飲外賣合作協(xié)議三篇
- 跨境上市協(xié)議三篇
- 超市合作協(xié)議書(2篇)
- 健身指導(dǎo)與管理職業(yè)生涯規(guī)劃書
- 慢性胰腺炎診治指南
- 自動(dòng)化生產(chǎn)線安裝與調(diào)試實(shí)訓(xùn)報(bào)告
- 以工代賑工作總結(jié)范文
- 《福柯知識(shí)考古學(xué)》課件
- 第5.2課《學(xué)習(xí)工匠事跡領(lǐng)略工匠風(fēng)采》(課件)-【中職專用】高二語(yǔ)文同步課件(高教版2023·職業(yè)模塊)
- 社會(huì)情感學(xué)習(xí)在學(xué)校中的推廣
- 關(guān)于強(qiáng)化煤炭生產(chǎn)行業(yè)稅務(wù)稽查的思考
- 新視野大學(xué)英語(yǔ)(第四版)讀寫教程1(思政智慧版)課件 Unit 6 Winning is not everything Section B
- 學(xué)校教研工作組織機(jī)構(gòu)(5篇范例)
- 2022-2023學(xué)年湘少版(三起)六年級(jí)英語(yǔ)上冊(cè)期末測(cè)試題含答案
評(píng)論
0/150
提交評(píng)論