2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-

上傳人：小*** IP屬地：重慶上傳時(shí)間：2024-05-31 格式：DOCX 頁(yè)數(shù)：33 大小：1.05MB 積分：28 舉報(bào) 版權(quán)申訴

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-_第2頁(yè)

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-_第3頁(yè)

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-_第4頁(yè)

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-_第5頁(yè)

已閱讀5頁(yè)，還剩28頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來_創(chuàng)新將走向何方_1.投資要件市場(chǎng)對(duì)于通信網(wǎng)絡(luò)在AI訓(xùn)練中的重要程度認(rèn)識(shí)不足。AI行情以來，市場(chǎng)更加從產(chǎn)業(yè)鏈邏輯關(guān)注網(wǎng)絡(luò)產(chǎn)業(yè)鏈的研究，主要研究方向集中在每一代網(wǎng)絡(luò)架構(gòu)需要的光模塊數(shù)量，并以此為基礎(chǔ)進(jìn)行產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的產(chǎn)量與業(yè)績(jī)測(cè)算，但市場(chǎng)對(duì)于AI與通信的底層關(guān)系的研究較少。本文從模型，多卡同步，訓(xùn)練性價(jià)比等三大方面，對(duì)AI時(shí)代通信網(wǎng)絡(luò)的核心地位進(jìn)行更深入的討論。概括來看，通信在AI時(shí)代站上C位主要有三大原因。第一，日益龐大的模型體積下，顯卡的數(shù)量和連接后的運(yùn)算效率直接決定了訓(xùn)練所需的時(shí)間，而時(shí)間，恰恰是日益激烈的巨頭AI競(jìng)賽中最為寶貴的資源。第二，從訓(xùn)練的原理出發(fā)，在主流的并行模式由模型并行轉(zhuǎn)向數(shù)據(jù)并行后，每一層運(yùn)算后，都需要集群內(nèi)的不同NPU之間對(duì)齊已有參數(shù)，數(shù)以千計(jì)的芯片時(shí)間的對(duì)齊過程，要保證低延遲與準(zhǔn)確，對(duì)網(wǎng)絡(luò)的要求極高。第三，網(wǎng)絡(luò)故障的成本極高，當(dāng)下模型訓(xùn)練時(shí)間往往持續(xù)數(shù)月，一旦故障或中斷較多，即使是回檔至幾小時(shí)前的存檔點(diǎn)，對(duì)于整體訓(xùn)練效率和成本也會(huì)產(chǎn)生極大的損耗，對(duì)于分秒必爭(zhēng)的巨頭AI產(chǎn)品迭代來說，更為致命。同時(shí)，當(dāng)下集群規(guī)模已然行至萬(wàn)卡，而其中的連接部件可能數(shù)以十萬(wàn)計(jì)，如何保證這些部件的整體穩(wěn)定和良品率，已經(jīng)變成了一項(xiàng)極其深?yuàn)W的系統(tǒng)工程。市場(chǎng)對(duì)通信網(wǎng)絡(luò)未來迭代方向認(rèn)識(shí)不足。市場(chǎng)對(duì)于通信網(wǎng)絡(luò)的迭代更多的認(rèn)識(shí)停留在跟隨顯卡換代的研究層面。我們認(rèn)為，硬件迭代帶來的更新的周期和方向相對(duì)固定，而其余方向的迭代和產(chǎn)業(yè)鏈創(chuàng)新程度與日俱增。同時(shí)，當(dāng)前海外巨頭的AI資本投入戰(zhàn)爭(zhēng)已經(jīng)達(dá)到數(shù)百億美元級(jí)別，而模型參數(shù)的擴(kuò)張，巨頭的慘烈廝殺依然激烈?，F(xiàn)如今，“降本”、“開放”和算力規(guī)模之間的平衡將是網(wǎng)絡(luò)創(chuàng)新的主要議題?？傮w來看，產(chǎn)業(yè)鏈對(duì)于前沿的探索主要集中于三個(gè)方向。第一，通信介質(zhì)迭代，這里面既包括光、銅、硅三種基材的共同進(jìn)步，也包括各種介質(zhì)內(nèi)的技術(shù)創(chuàng)新，如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二，通信協(xié)議的創(chuàng)新，這同樣包含兩個(gè)方面，第一，節(jié)點(diǎn)內(nèi)部通信，如NVLINK和InfinityFabric，該領(lǐng)域壁壘和創(chuàng)新難度極高，屬于巨頭戰(zhàn)場(chǎng)，第二，節(jié)點(diǎn)間通信，產(chǎn)業(yè)界則主要聚焦于IB與以太網(wǎng)兩大協(xié)議的競(jìng)爭(zhēng)。第三，網(wǎng)絡(luò)架構(gòu)的更新，葉脊架構(gòu)是否能夠適應(yīng)超多節(jié)點(diǎn)數(shù)量，OCS助力下，Drangonfly能否成為下一代網(wǎng)絡(luò)架構(gòu)主流，同時(shí)Rail-only+軟件優(yōu)化能夠成熟，都是產(chǎn)業(yè)的新看點(diǎn)。2.從云計(jì)算時(shí)代邁向AI時(shí)代，為什么通信愈發(fā)重要上一輪通信的輝煌，可以追溯到互聯(lián)網(wǎng)時(shí)代，爆發(fā)式的網(wǎng)絡(luò)流量傳輸需求，讓人類第一次搭建起了以海量服務(wù)器，存儲(chǔ)和交換機(jī)共同構(gòu)成的交換體系。在這一輪建設(shè)中，思科一枝獨(dú)秀，成為了人類科技進(jìn)步的領(lǐng)頭羊。但隨著互聯(lián)網(wǎng)浪潮趨于平和，光模塊與交換機(jī)更多的隨著宏觀經(jīng)濟(jì)，云開支，和產(chǎn)品更新而波動(dòng)，更加偏向于宏觀經(jīng)濟(jì)品種，而速率，技術(shù)的更迭也較為按部就班，進(jìn)入了周期波動(dòng)向上穩(wěn)態(tài)發(fā)展期。小模型時(shí)代，業(yè)界更加專注于算法創(chuàng)新，往往整個(gè)模型體積可以由單卡、單臺(tái)服務(wù)器或者較為簡(jiǎn)單的小集群來承擔(dān)，因此來自AI側(cè)的網(wǎng)絡(luò)連接需求并不突出。但大模型的出現(xiàn)改變了一切，OpenAI證明了在當(dāng)下，用較為簡(jiǎn)單的Transformer算法，通過堆砌參數(shù)的形式，可以較好地提高模型性能，因此，整個(gè)產(chǎn)業(yè)界進(jìn)入了模型體積加速膨脹的快速發(fā)展期。我們先來看兩個(gè)決定模型計(jì)算速度的基本公式，從而可以更好的理解為什么大模型時(shí)代，算力規(guī)?；蛘哒f算力硬件產(chǎn)業(yè)鏈會(huì)率先受益。（1）訓(xùn)練耗時(shí)=訓(xùn)練數(shù)據(jù)規(guī)模x模型參數(shù)量/計(jì)算速率（2）計(jì)算速率=單設(shè)備計(jì)算速率x設(shè)備數(shù)x多設(shè)備并行效率在當(dāng)下的大模型時(shí)代，我們可以看到，在訓(xùn)練耗時(shí)的分子端的兩項(xiàng)因子，正在同時(shí)擴(kuò)大，在算力恒定的情況下，訓(xùn)練耗時(shí)將會(huì)被指數(shù)級(jí)延長(zhǎng)，而在愈發(fā)激烈的巨頭模型戰(zhàn)場(chǎng)，時(shí)間是最寶貴的資源。因此，競(jìng)爭(zhēng)之路非常明確，唯有加速堆疊算力。在第二個(gè)公式中我們可以看到，在算力日益膨脹的今天，單卡算力由于模型體積，芯片更新的上限，在算力構(gòu)成的占比中已經(jīng)從全部退化成了其中一環(huán)，顯卡數(shù)量，以及多設(shè)備并行效率也成為兩個(gè)同樣重要的一環(huán)，這也是英偉達(dá)前瞻性收購(gòu)Mellanox的原因，是希望在計(jì)算速率的每一個(gè)決定因子中，都能取得領(lǐng)先。我們?cè)谇捌趫?bào)告《AI算力的ASIC之路-從以太坊礦機(jī)說起》中詳細(xì)闡述了單卡算力的多種路線，本文中不在贅述，而我們看到的后兩項(xiàng)，設(shè)備數(shù)與多設(shè)備并行效率，并不是簡(jiǎn)單的通過堆疊顯卡數(shù)量就可以簡(jiǎn)單實(shí)現(xiàn)。越多的設(shè)備數(shù)，對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的可靠程度，并行計(jì)算的優(yōu)化程度要求呈現(xiàn)指數(shù)級(jí)增加，這也是為何網(wǎng)絡(luò)成為AI重要瓶頸之一的終極原因。我們?cè)诒竟?jié)中會(huì)從訓(xùn)練原理出發(fā)，闡述為何設(shè)備的堆疊和并行銷量的提升，是人類歷史上最復(fù)雜的系統(tǒng)工程。2.1大模型時(shí)代的多卡合作原理，模型并行與數(shù)據(jù)并行在模型訓(xùn)練中，將模型拆分至多卡的過程并非傳統(tǒng)流水線或簡(jiǎn)單分割那樣簡(jiǎn)單，而是采用更為復(fù)雜的方式來分配顯卡之間的任務(wù)?？傮w來看，任務(wù)分配方式大體可以分為兩種，模型并行與數(shù)據(jù)并行。最早在模型體積較小但數(shù)據(jù)量上升時(shí)，業(yè)界普遍采用數(shù)據(jù)并行的方式。在數(shù)據(jù)并行式的運(yùn)算中，每張GPU上都保留有完整的模型副本，而訓(xùn)練用的數(shù)據(jù)被分割后進(jìn)入不同顯卡并進(jìn)行訓(xùn)練，在反向傳播后，每張卡上的模型副本梯度將被同步減少。但隨著模型參數(shù)膨脹下，單塊顯卡愈發(fā)難以容納完整模型，因此，在頭部大模型訓(xùn)練中，數(shù)據(jù)并行作為單一并行的分配方式正在逐漸減少。模型并行則是當(dāng)下在大模型時(shí)代逐漸興起的一種分配方式。由于模型體積過于龐大，因此將模型的不同部分裝載進(jìn)入顯卡內(nèi)，并給顯卡灌入相同的數(shù)據(jù)流，對(duì)每一部分的參數(shù)進(jìn)行訓(xùn)練。模型并行有兩種主流模式，分別為張量并行與流水線并行。在一個(gè)模型訓(xùn)練運(yùn)算的底層運(yùn)算矩陣乘法中（C=AxB），張量并行指的先將B矩陣拆分成多個(gè)向量，每個(gè)設(shè)備持有一個(gè)向量，然后將A矩陣分別與每一個(gè)向量相乘，然后將得出進(jìn)行匯總，即可總結(jié)出C舉證。而流水線并行則是將模型按層進(jìn)行分割，將模型按層分割成若干塊，每一塊都交給一個(gè)設(shè)備進(jìn)行，同時(shí)在前向傳播過程中，每個(gè)設(shè)備將中間的激活傳遞給下一個(gè)階段，在隨后的向后傳播過程中，每個(gè)設(shè)備將輸入張量的梯度回傳給前一個(gè)流水線階段。在當(dāng)下的大模型訓(xùn)練中，沒有任何一種數(shù)據(jù)并行能夠單獨(dú)存在，在頭部大模型訓(xùn)練中，往往需要將上述的多種技術(shù)混合，實(shí)現(xiàn)多維混合并行。在實(shí)際連接時(shí)，會(huì)將這個(gè)AI集群劃分為若干Stage，每個(gè)Stage對(duì)應(yīng)一個(gè)邏輯上的Batch，每個(gè)Stage由若干臺(tái)GPU節(jié)點(diǎn)組成。這樣在架構(gòu)上滿足多維混合并行的需求。無論是何種并行方式，都需要在每一輪計(jì)算后，都需要通過反向廣播的形式來同步每一張GPU內(nèi)的參數(shù)，不同的并行的方式，對(duì)應(yīng)不同的廣播延遲，也需要依靠不同的網(wǎng)絡(luò)協(xié)議或者通信介質(zhì)來，由此我們可以看出，當(dāng)下的網(wǎng)絡(luò)集群構(gòu)建，正在逐步從“傳輸”進(jìn)化成一個(gè)真正意義上的“系統(tǒng)工程”。2.2大模型時(shí)代的多卡互聯(lián)核心：同步的準(zhǔn)確率AI網(wǎng)絡(luò)集群承擔(dān)的一項(xiàng)重要功能，便是將不同顯卡分工訓(xùn)練完成的結(jié)果，在計(jì)算單元之間進(jìn)行對(duì)齊，從而使得顯卡能夠進(jìn)行下一步的工作，這項(xiàng)工作也被稱為反向廣播，由于廣播過程中往往對(duì)結(jié)果采用Reduce，Gather等算法進(jìn)行處理，那么全局的廣播則被稱為AlltoAll，我們?cè)贏I集群性能指標(biāo)中常見的All-to-All延遲，指的就是做一次全局反向廣播需要的時(shí)間。從原理上來看，做一次反向廣播同步數(shù)據(jù)似乎較為容易，只需要每張顯卡互發(fā)數(shù)據(jù)即可，但在真正的網(wǎng)絡(luò)集群構(gòu)建中，卻會(huì)遇到許多問題，這也讓縮短這一時(shí)延，成為了各種網(wǎng)絡(luò)方案追求的一個(gè)重點(diǎn)方向。第一個(gè)問題在于，每一張顯卡完成當(dāng)前計(jì)算所需要的時(shí)間長(zhǎng)短是不一致的，如果統(tǒng)一等待同一組內(nèi)的最后一個(gè)顯卡完成任務(wù)后再進(jìn)行反向廣播，那會(huì)導(dǎo)致先一步完成任務(wù)的顯卡有大量的時(shí)間處于空置狀態(tài)，從而降低整個(gè)計(jì)算集群的性能。而同樣，如果采用過于激進(jìn)的同步方法，則有可能導(dǎo)致同步期間出現(xiàn)錯(cuò)誤，從而導(dǎo)致訓(xùn)練中斷。因此，穩(wěn)定高效的同步方法，一直是業(yè)界追尋的方向。從當(dāng)下來看，主要的同步方法可以分為同步并行，異步并行，All-Reduce等等。我們先來看同步并行，同步并行的思路我們?cè)谇拔闹幸延刑峒?，即在?dāng)前單元內(nèi)，所有計(jì)算單元完成計(jì)算后，統(tǒng)一進(jìn)行一次通訊，其優(yōu)點(diǎn)是穩(wěn)定與簡(jiǎn)單，但是會(huì)造成大量的計(jì)算單元空置。異步并行則是面對(duì)如興趣推廣等非生成式大模型時(shí)候的選擇，當(dāng)一個(gè)設(shè)備完成一輪正向與反向計(jì)算后，不需要等待另一臺(tái)設(shè)備完成循環(huán)，直接進(jìn)行數(shù)據(jù)同步，這種傳輸模式下，網(wǎng)絡(luò)模型訓(xùn)練不收斂，不適用于大模型訓(xùn)練，但對(duì)于如搜索模型，推薦模型等較為適用。第三類，也是目前大家使用的最多的一類，All-Reduce或者也可以稱為All-to-All-Reduce，即將所有設(shè)備（All）上的信息歸納（Reduce）到所有設(shè)備（All）上。顯然，直接的All-Reduce將帶來極大的通信資源浪費(fèi)，因?yàn)橥环輸?shù)據(jù)可能會(huì)被冗余傳輸多次。因此，許多優(yōu)化版All-Reduce算法被提出，如環(huán)狀A(yù)ll-Reduce、基于二叉樹的All-Reduce等，這些算法均能極大降低All-Reduce的帶寬和延遲。我們以中國(guó)AI龍頭百度發(fā)明的RingAll-Reduce為例，來說明分布式計(jì)算工程師們，是如何通過不斷迭代，來縮短同步時(shí)間的。在RingAll-Reduce（環(huán)同步）中，每臺(tái)設(shè)備僅需與另外兩臺(tái)設(shè)備通信，分為Scatter-Reduce與All-Gather兩個(gè)步驟。首先對(duì)相鄰設(shè)備完成多次Scatter-Reduce操作，在每臺(tái)設(shè)備分別得到聚合后的完整數(shù)據(jù)的一部分。隨后，每臺(tái)設(shè)備再對(duì)齊相鄰設(shè)備完成多次All-Gather操作，在每臺(tái)設(shè)備中補(bǔ)全完整數(shù)據(jù)。環(huán)狀A(yù)ll-Reduce不僅能降低帶寬和延遲，還可以簡(jiǎn)化網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)，降低網(wǎng)絡(luò)的搭建成本。但無論是何種算法，都依賴于網(wǎng)絡(luò)通信硬件的支持，無論是從芯片原生和協(xié)議層面支持更大的帶寬，還是從純銅線連接轉(zhuǎn)為通過NVLink，亦或是IB協(xié)議的引入，RDMA需求的爆發(fā)，均是為了滿足愈發(fā)復(fù)雜的溝通與同步需求，這些內(nèi)容我們會(huì)在后文中陸續(xù)展開。至此，我們對(duì)于為何AI需要高密度通信的原理層邏輯已經(jīng)有了初步認(rèn)知，首先從小模型時(shí)代到大模型時(shí)代的迅速切換，使得多節(jié)點(diǎn)集群與分布式訓(xùn)練成為剛需，而將模型分拆至不同算力節(jié)點(diǎn)運(yùn)算時(shí)，如何分拆，如何保證同步則是更加繁復(fù)的系統(tǒng)工程，而通信則是這一切軟件原理實(shí)現(xiàn)的基礎(chǔ)，高質(zhì)量、高通量、高穩(wěn)定性的通信元器件與通信網(wǎng)絡(luò)。2.3大模型時(shí)代的系統(tǒng)工程：監(jiān)測(cè)-總結(jié)-創(chuàng)新，迭代永遠(yuǎn)在路上上文中，我們闡述了訓(xùn)練原理決定了大模型對(duì)于通信體系的依賴程度。無數(shù)不同的，復(fù)雜的并行與同步需求一起，組成了AI集群中的數(shù)據(jù)流動(dòng)，雖然通信網(wǎng)絡(luò)在此類需求的帶動(dòng)下，速率和產(chǎn)品迭代不斷加速，連接方式創(chuàng)新不斷，但時(shí)至今日，仍然沒有一個(gè)完美的集群能夠一勞永逸地解決所有問題，同時(shí)集群的穩(wěn)定性雖然不斷優(yōu)化，但由上百萬(wàn)個(gè)精密器件組成的系統(tǒng)，斷點(diǎn)與中斷問題仍然時(shí)有發(fā)生。因此，大模型通信體系的進(jìn)化方向可以大體分為三個(gè)，一個(gè)是對(duì)大模型系統(tǒng)的監(jiān)測(cè)能力，能夠?qū)崟r(shí)感知大模型數(shù)據(jù)流動(dòng)，運(yùn)行態(tài)勢(shì)，從而能夠及時(shí)發(fā)現(xiàn)故障，在這一過程中，以網(wǎng)絡(luò)可視化為基礎(chǔ)的軟硬件抓包成為了主流手段，通過FPGA芯片和專用軟件，監(jiān)控集群中的數(shù)據(jù)流動(dòng)，從而為感知提供基礎(chǔ)工具，以軟件實(shí)現(xiàn)的數(shù)據(jù)抓包最常用，國(guó)內(nèi)外知名產(chǎn)品有Wireshark（處理TCP/UDP）、Fiddler（處理HTTP/HTTPS）、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark為例，其基本工作原理是：程序?qū)⒕W(wǎng)卡的工作模式設(shè)置為“混雜模式”（普通模式下，網(wǎng)卡只處理屬于自己的MAC地址的數(shù)據(jù)包，混雜模式下，網(wǎng)卡會(huì)處理所有流經(jīng)的數(shù)據(jù)包），同時(shí)由Wireshark進(jìn)行數(shù)據(jù)包的截獲、重發(fā)、編輯和轉(zhuǎn)存。軟件抓包會(huì)占用部分系統(tǒng)性能。首先，混雜模式下網(wǎng)卡處于“廣播模式”，會(huì)處理網(wǎng)絡(luò)下層收發(fā)的所有數(shù)據(jù)包，本身就會(huì)消耗網(wǎng)卡一部分性能；其次，軟件抓包不是在鏈路層串行或并行抓取，而是將數(shù)據(jù)包進(jìn)行復(fù)制和存儲(chǔ)，占用了一部分CPU和存儲(chǔ)的資源。同時(shí)，類似Wireshark這種軟件大多只能做到對(duì)系統(tǒng)里的單一網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行流量監(jiān)控，難以覆蓋到全局網(wǎng)絡(luò)，適合被動(dòng)的故障排除作業(yè)，不適用于主動(dòng)風(fēng)險(xiǎn)監(jiān)測(cè)。為了不影響系統(tǒng)整體性能，并行或串行接入的軟硬件結(jié)合工具應(yīng)運(yùn)而生，常用的工具有DPI和DFI。DPI（DeepPacketInspection，深度報(bào)文檢測(cè)）是一種基于報(bào)文的應(yīng)用層信息對(duì)流量進(jìn)行檢測(cè)和控制的功能。DPI著重對(duì)應(yīng)用層的分析，能夠識(shí)別各種應(yīng)用及其內(nèi)容。當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過支持DPI技術(shù)的硬件設(shè)備時(shí)，設(shè)備會(huì)通過深入讀取報(bào)文載荷來進(jìn)行重組和分析，從而識(shí)別整個(gè)應(yīng)用程序的內(nèi)容，然后按照設(shè)備定義的管理策略對(duì)流量進(jìn)行后續(xù)處理。DFI（Deep/DynamicFlowInspection，深度/動(dòng)態(tài)流檢測(cè)）采用的是一種基于流量行為的應(yīng)用識(shí)別技術(shù)，即不同的應(yīng)用類型體現(xiàn)在會(huì)話連接或數(shù)據(jù)流上的狀態(tài)各有不同。DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識(shí)別、精細(xì)管理的環(huán)境；而DFI技術(shù)適用于需要高效識(shí)別、粗放管理的環(huán)境。DPI/DFI由獨(dú)立硬件串/并接在物理層，不會(huì)影響物理層的性能表現(xiàn)。以浩瀚深度的DPI軟硬件產(chǎn)品為例，其可以部署在電信網(wǎng)絡(luò)的各層級(jí)網(wǎng)絡(luò)節(jié)點(diǎn)，同時(shí)通過SaaS/PaaS完成對(duì)各層級(jí)監(jiān)測(cè)節(jié)點(diǎn)數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層，通過鏡像數(shù)據(jù)包實(shí)現(xiàn)近乎無損的網(wǎng)絡(luò)監(jiān)測(cè)。DPI軟件嵌入在DPI硬件、獨(dú)立服務(wù)器或交換機(jī)/路由器中，實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)測(cè)。解決了監(jiān)測(cè)問題之后，大模型系統(tǒng)工程的迭代之路便有了基礎(chǔ)，前文提到，在實(shí)操中，更加需要注重的便是系統(tǒng)運(yùn)行效率和穩(wěn)定性間的平衡，一方面，我們通過Reduce方法的優(yōu)化，并行方法的創(chuàng)新等等，創(chuàng)造出新的訓(xùn)練方法和理論，分布式訓(xùn)練的底層創(chuàng)新，然而底層創(chuàng)新始終需要相關(guān)硬件的支持，更大通量的交換機(jī)，更加契合的交換協(xié)議，更穩(wěn)定，更便宜的通信器件將是大模型系統(tǒng)升級(jí)中永遠(yuǎn)不可或缺的一環(huán)。3.通信協(xié)議的競(jìng)爭(zhēng)與迭代：承載AI數(shù)據(jù)流的話語(yǔ)權(quán)上一章節(jié)中，我們系統(tǒng)闡述了AI集群中的通信主要起到哪些作用，本節(jié)中，我們將系統(tǒng)性地介紹構(gòu)成整個(gè)通信體系的最基礎(chǔ)部分-通信協(xié)議。從直覺上來看，通信系統(tǒng)主要由交換機(jī)、光模塊、線纜、網(wǎng)卡等等實(shí)物硬件組成，但其實(shí)真正決定了一個(gè)通信系統(tǒng)的建立，運(yùn)行和性能特點(diǎn)的，卻是流轉(zhuǎn)在實(shí)物硬件內(nèi)部的通信協(xié)議。通信協(xié)議是在計(jì)算機(jī)網(wǎng)絡(luò)中，為了保證數(shù)據(jù)順利、準(zhǔn)確地傳送，通信雙方必須遵守的一系列約定。這些約定包括數(shù)據(jù)的格式、編碼規(guī)則、傳輸速率、傳輸步驟等。在AI時(shí)代，通信協(xié)議的分類主要分為兩大類，第一，用于算力節(jié)點(diǎn)內(nèi)部的算力卡之間通信的高速協(xié)議，這一類協(xié)議具有速度快，封閉性強(qiáng)、可擴(kuò)展性弱等特點(diǎn)，往往是各家顯卡廠商的核心能力壁壘之一，其速率，接口等等需要芯片層面的支持。第二類協(xié)議則是用于連接算力節(jié)點(diǎn)之間的協(xié)議，這類協(xié)議具有速度慢，可擴(kuò)展性強(qiáng)等特點(diǎn)，第二類協(xié)議目前主要有兩大主流，InfiniBand協(xié)議以及以太網(wǎng)下的RoCE協(xié)議族，這類協(xié)議保證了數(shù)據(jù)的跨節(jié)點(diǎn)傳輸能力，也是構(gòu)建超大集群的基礎(chǔ)，同時(shí)也為智算單元接入數(shù)據(jù)中心提供了解決方案。3.1節(jié)點(diǎn)內(nèi)通信—大廠核心壁壘，算力“摩爾定律”的希望節(jié)點(diǎn)內(nèi)通信，即單臺(tái)服務(wù)器內(nèi)部的顯卡通信協(xié)議，負(fù)責(zé)同一服務(wù)器內(nèi)部的顯卡之間的高速互聯(lián)，發(fā)展至今，這一協(xié)議主要包括了PCIe、NVLink、InfintyFabric三種協(xié)議我們先來看歷史最為悠久的PCIe協(xié)議，PCIe協(xié)議是一種公開的通用協(xié)議，傳統(tǒng)服務(wù)器個(gè)人電腦中的不同硬件都通過PCIe協(xié)議來進(jìn)行連接，在當(dāng)?shù)谌浇M裝的算力服務(wù)器中，顯卡之間任然像傳統(tǒng)服務(wù)器一樣，通過PCIe插槽和主板上的PCIe線路進(jìn)行互聯(lián)。PCIe是最廣泛使用的總線協(xié)議?？偩€是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道，對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用，目前最普及的總線協(xié)議為英特爾2001年提出的PCIe（PCI-Express）協(xié)議，PCIe主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等，2003年P(guān)CIe1.0版本發(fā)布，后續(xù)大致每過三年會(huì)更新一代，目前已經(jīng)更新到6.0版本，傳輸速率高達(dá)64GT/s，16通道的帶寬達(dá)到256GB/s，性能和可擴(kuò)展性不斷提高。PCIe總線樹形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度，PCIeSwitch誕生。PCIe采用端對(duì)端數(shù)據(jù)傳輸鏈路，PCIe鏈路的兩端只能各接入一個(gè)設(shè)備，設(shè)備識(shí)別數(shù)量有限，無法滿足有大量設(shè)備連接或需要高速數(shù)據(jù)傳輸?shù)膱?chǎng)景，因此PCIeSwitch誕生。PCIeSwitch具備連接和交換雙重功能，可以讓一個(gè)PCIe端口識(shí)別和連接更多設(shè)備，解決通道數(shù)量不夠的問題，并可以將多條PCIe總線連接在一起，從而形成一個(gè)高速網(wǎng)絡(luò)，實(shí)現(xiàn)多設(shè)備通信，簡(jiǎn)言之PCIeSwitch相當(dāng)于PCIe的拓展器。但正如上文中所說，隨著模型規(guī)模逐步擴(kuò)大，同時(shí)NPU之間同步循環(huán)愈發(fā)復(fù)雜，速率較低并未對(duì)模型運(yùn)行模式進(jìn)行專門優(yōu)化的的PCIE已經(jīng)不能滿足大模型時(shí)代的需求，因此，各大顯卡廠商專有的協(xié)議在大模型時(shí)代快速興起。我們認(rèn)為，當(dāng)先業(yè)界關(guān)注度最高，進(jìn)化速度最快的協(xié)議便是NV-Link協(xié)議，英偉達(dá)提出的高速GPU互聯(lián)協(xié)議，對(duì)比傳統(tǒng)PCIe總線協(xié)議，NVLINK主要在三個(gè)方面做出較大改變：1）支持網(wǎng)狀拓?fù)淠浚鉀Q通道有限問題；2）統(tǒng)一內(nèi)存，允許GPU共享公共內(nèi)存池，減少GPU之間復(fù)制數(shù)據(jù)的需要，從而提高效率；3）直接內(nèi)存訪問，不需要CPU參與，GPU可直接讀取彼此的內(nèi)存，從而降低網(wǎng)絡(luò)延遲。此外，為解決GPU之間通訊不均衡問題，英偉達(dá)還引入NVSwitch，一種類似交換機(jī)ASIC的物理芯片，通過NVLink接口將多個(gè)GPU高速互聯(lián)，創(chuàng)建高帶寬多節(jié)點(diǎn)GPU集群。我們通過回顧NV-link的發(fā)展史，可以發(fā)現(xiàn)，節(jié)點(diǎn)間的NV-Link互聯(lián)正是隨著顯卡間同步需求的變化而逐步迭代。但隨著單個(gè)顯卡性能的擴(kuò)張，吞吐量的提升，以及顯卡之間同步方式的愈發(fā)復(fù)雜，單純純線纜連接以及固定的線路已經(jīng)無法滿足顯卡間的溝通需求。因此在Ampere架構(gòu)中，也就是對(duì)應(yīng)的第三代NVLINK，英偉達(dá)引入了第一代專用的NV-LinkSwitch芯片，從而進(jìn)一步加大NV-Link速率，靈活性。但從Pascal架構(gòu)到Ampere架構(gòu)的更新中，由于當(dāng)時(shí)的客戶需求仍然集中于小模型，大規(guī)模的計(jì)算集群并未出現(xiàn)，因此NV-LINK保持著常規(guī)更新的節(jié)奏，主要通過芯片內(nèi)部通道迭代，NV-LinkSwitch芯片迭代來實(shí)現(xiàn)速率的更新，期間英偉達(dá)還為游戲顯卡推出了NV-Link橋接器，來滿足部分高端C端用戶的需求。從A100到H100的更新中，英偉達(dá)邁出了NV-Link進(jìn)化的第一步，當(dāng)大模型的需求開始涌現(xiàn)，超大的數(shù)據(jù)規(guī)模、模型體積使得過去以8張顯卡為上限的NV-Link互聯(lián)難以應(yīng)付，使用者們不得不把模型切片，裝進(jìn)不同服務(wù)器間進(jìn)行訓(xùn)練以及對(duì)齊，而服務(wù)器間較慢的溝通速率直接影響了模型訓(xùn)練的效果。我們把能用最高速通信協(xié)議互聯(lián)的顯卡數(shù)量稱之為HB-DOMIN，而在模型參數(shù)日益龐大的發(fā)展過程中，在同等代際芯片內(nèi)，HB-DOMIN成為了決定模型訓(xùn)練能力的關(guān)鍵因素。在這種背景下，英偉達(dá)的NV-LINK在Hopper架構(gòu)上邁出了進(jìn)化的第一步，通過外置的專用交換機(jī)，承載更多的NV-LINKswitch芯片，從而擴(kuò)大現(xiàn)有顯卡的HB-DOMIN。在Hopper100時(shí)代，通過GH200SuperPOD產(chǎn)品，NV-LINK第一次走出服務(wù)器內(nèi)部，實(shí)現(xiàn)了跨越服務(wù)器的256張顯卡互聯(lián)。但由于Hopper架構(gòu)下對(duì)應(yīng)的NV-Link3.0交換芯片成熟度較低，英偉達(dá)需要兩層架構(gòu)來連接顯卡，因此一個(gè)GH200256卡集群內(nèi)需要大量的高端光模塊，成本極高，給客戶的采購(gòu)帶來了不便。同時(shí)，在GH200發(fā)布之時(shí)，模型的參數(shù)還未膨脹到萬(wàn)億級(jí)別，根據(jù)Meta的研究結(jié)果顯示，在萬(wàn)億參數(shù)之下，超過100后的HB-Domin擴(kuò)張邊際效應(yīng)會(huì)出現(xiàn)加速遞減。在Blackwell架構(gòu)時(shí)代，英偉達(dá)正式完善了NVLINK的擴(kuò)張之路，隨著4NM最新一代NV-Link交換芯片的發(fā)布，英偉達(dá)推出了正式的拳頭產(chǎn)品GB200NVL72。英偉達(dá)通過單機(jī)柜內(nèi)部單層NVlink+銅纜的連接，實(shí)現(xiàn)了用較低成本達(dá)成一個(gè)具有高性價(jià)比的HB-DOMIN數(shù)字的目標(biāo)，真正邁出了節(jié)點(diǎn)內(nèi)互聯(lián)協(xié)議向上層擴(kuò)張的第一步。我們除了在最新一代NV-LINK上，也再一次重新認(rèn)識(shí)了節(jié)點(diǎn)內(nèi)互聯(lián)協(xié)議的重要性，甚至可以說，節(jié)點(diǎn)內(nèi)通信的擴(kuò)張，已經(jīng)成了摩爾定律是否能在算力時(shí)代延續(xù)的關(guān)鍵。節(jié)點(diǎn)內(nèi)通信協(xié)議的迭代以及低成本實(shí)現(xiàn)，是當(dāng)前應(yīng)對(duì)“通信墻”、“內(nèi)存墻”的最佳解決辦法。當(dāng)前NV-LINK最大的競(jìng)爭(zhēng)者便來自于英偉達(dá)在通用顯卡領(lǐng)域的最大競(jìng)爭(zhēng)者AMD，與英偉達(dá)相同，即使是對(duì)網(wǎng)絡(luò)協(xié)議開放最為支持的AMD，在其節(jié)點(diǎn)內(nèi)互聯(lián)領(lǐng)域，依然使用其專用的協(xié)議“InfinityFabric”，但同時(shí)，與英偉達(dá)不同AMD將這份協(xié)議共享給了合作的博通、Arista、思科這三家以太網(wǎng)龍頭。當(dāng)下來看，InfinityFabric與NVLINK的差距仍然較大，在包括專用交換芯片、多卡互聯(lián)、協(xié)議完成度等方面，AMD仍然有較長(zhǎng)的路需要追趕、這也體現(xiàn)出，當(dāng)前的頭部通用算力競(jìng)爭(zhēng)，已經(jīng)從芯片設(shè)計(jì)這一單一環(huán)節(jié)，慢慢擴(kuò)大到節(jié)點(diǎn)內(nèi)通信這一環(huán)節(jié)?？偨Y(jié)來看，節(jié)點(diǎn)間通信正在變成算力中愈發(fā)重要的組成部分，同時(shí)，隨著HB-DOMIN擴(kuò)大，“算力節(jié)點(diǎn)”也在逐步擴(kuò)大，我們認(rèn)為，這背后是節(jié)點(diǎn)間協(xié)議在整個(gè)AI集群內(nèi)的“向上滲透”，同時(shí)，依靠在節(jié)點(diǎn)間協(xié)議及其承載硬件的系統(tǒng)化壓縮，也是未來AI算力實(shí)現(xiàn)摩爾定律的解決之道。3.2節(jié)點(diǎn)間通信協(xié)議：歷久彌新，封閉與開放之爭(zhēng)現(xiàn)在我們把視角移到算力節(jié)點(diǎn)外部，來看一下當(dāng)前構(gòu)成全球算力集群連接的主流協(xié)議。當(dāng)下的算力中心，NPU正在逐步邁向百萬(wàn)級(jí)規(guī)模，即使算力節(jié)點(diǎn)或者我們說的HB-DOMIN加速擴(kuò)大，但節(jié)點(diǎn)間連接依然是構(gòu)成全球AI算力的基石部分。從當(dāng)前來看，節(jié)點(diǎn)間連接協(xié)議主要分為InfiniBand協(xié)議與以太網(wǎng)家族內(nèi)的ROCE協(xié)議族。超算節(jié)點(diǎn)間互聯(lián)的核心在于RDMA功能。過去，在傳統(tǒng)的CPU為主的數(shù)據(jù)中心中，普遍采用TCP/IP協(xié)議進(jìn)行傳輸，即數(shù)據(jù)從發(fā)送端內(nèi)存發(fā)出后，經(jīng)過發(fā)送端設(shè)備CPU編碼后，發(fā)送至接收端設(shè)備的CPU，經(jīng)過解碼后放入內(nèi)存。這一過程中由于數(shù)據(jù)經(jīng)過多個(gè)設(shè)備且多次編解碼，因此會(huì)產(chǎn)生較高的延遲，而延遲則是對(duì)計(jì)算卡間相互同步最關(guān)鍵的的因素，因此，在顯卡間互聯(lián)的需求下，繞過CPU，實(shí)現(xiàn)內(nèi)存之間的遠(yuǎn)程直接互訪（RemoteDirectMemoryAccess）RDMA變成為了AI集群連接的剛需。在這種背景下，當(dāng)前由英偉達(dá)主導(dǎo)的原生支持RDMA的IB協(xié)議以太網(wǎng)下支持該功能的ROCE協(xié)議族變成了當(dāng)下的唯二選擇，而這兩種協(xié)議鮮明的特點(diǎn)又讓整個(gè)節(jié)點(diǎn)間協(xié)議的競(jìng)爭(zhēng)變得精彩異常。IB協(xié)議的出現(xiàn)最早可以追溯至1999年，當(dāng)時(shí)，通信能力過差的PCI總線逐漸成為各個(gè)設(shè)備之間溝通的瓶頸，在此背景下，英特爾、微軟、IBM、幾大巨頭成立的FIODevelopersForum和NGIOForum進(jìn)行了合并，創(chuàng)立了InfiniBand貿(mào)易協(xié)會(huì)（InfiniBandTradeAssociation，IBTA），并在2000年推出了第一版的IB協(xié)議框架。在1999年創(chuàng)立的交換芯片公司Mellanox也加入了IB陣營(yíng)。IB從創(chuàng)立之初，便領(lǐng)先性的提出了RDMA概念，從而能夠繞開PCI總線的限制，進(jìn)行更加高速的訪問，但好景不長(zhǎng)，在2022年，英特爾，微軟等巨頭相繼宣布退出IB聯(lián)盟，轉(zhuǎn)而轉(zhuǎn)向我們上文提到的PCIE協(xié)議的研發(fā)，IB因此走向衰落。但到了2005年，隨著存儲(chǔ)設(shè)備間的通信需求上升，IB重新迎來上升期，再后來，隨著全球超算搭建，越來越多的超級(jí)計(jì)算機(jī)開始使用IB進(jìn)行連接。在這過程中，依靠著對(duì)IB的不離不棄和相關(guān)收購(gòu)，Mellanox從一家芯片公司擴(kuò)展到了網(wǎng)卡、交換機(jī)/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)和線纜及模塊全領(lǐng)域，成為世界級(jí)網(wǎng)絡(luò)提供商，在2019年，英偉達(dá)用69億美元的報(bào)價(jià)擊敗英特爾與微軟，成功收購(gòu)了Mellanox。另一方面，以太網(wǎng)則在2010年發(fā)布了RoCE協(xié)議，基于以太網(wǎng)協(xié)議實(shí)現(xiàn)RDMA，同時(shí)在2014年提出了更加成熟的RoCEv2。進(jìn)入大模型時(shí)代以來，全球數(shù)據(jù)中心快速轉(zhuǎn)向智算化，因此主要的新增投資設(shè)備都需要RDMA連接方式的支持。但當(dāng)下的競(jìng)爭(zhēng)格局又與之前的RoCEV2與IB的競(jìng)爭(zhēng)發(fā)生了變化，由于英偉達(dá)在全球顯卡領(lǐng)域的絕對(duì)領(lǐng)先地位，英偉達(dá)顯卡對(duì)于IB的適配程度更加完善，其中最明顯的一點(diǎn)體現(xiàn)在Mellanox交換機(jī)部署的Sharp協(xié)議中。由于在AI運(yùn)算中，顯卡與顯卡之間需要大量的復(fù)雜Reduce通信，上文中也提到，這也是AI通信系統(tǒng)工程中需要解決的核心問題，在Mellanox交換機(jī)產(chǎn)品中，在英偉達(dá)的幫助下，公司創(chuàng)新性地在交換芯片中集成了計(jì)算引擎單元，可以支持相關(guān)Reduce計(jì)算，從而幫助GPU減輕負(fù)載，但是相關(guān)功能需要GPU廠商的配合。由此可見，AI時(shí)代的通信協(xié)議之爭(zhēng)，背后核心已然變成了顯卡廠商的話語(yǔ)權(quán)之爭(zhēng)，當(dāng)下來看，IB協(xié)議憑借著英偉達(dá)的支持，占據(jù)了較好的競(jìng)爭(zhēng)優(yōu)勢(shì)，而傳統(tǒng)的以太網(wǎng)廠商們，由于缺乏一款有力的芯片支撐，則在部分功能上稍顯弱勢(shì)。但是AMD帶領(lǐng)下的超以太聯(lián)盟的出現(xiàn)，有望逐漸扭轉(zhuǎn)這一局面。2023年7月19日，AMD、博通、思科、ARISTA、Meta、微軟等來自計(jì)算芯片、網(wǎng)絡(luò)側(cè)以及用戶側(cè)的各個(gè)龍頭廠商共同組建了超以太網(wǎng)聯(lián)盟，我們認(rèn)為，超以太網(wǎng)聯(lián)盟成立的目的便是為了能夠在以太網(wǎng)的基礎(chǔ)之上，搭建起一個(gè)完全開放，更加靈活，且性能超越IB的網(wǎng)絡(luò)協(xié)議，從而與IB進(jìn)行抗衡。AMD作為超以太聯(lián)盟的核心成員，在Mi300系列發(fā)布會(huì)上，公司表示其顯卡的后端連接將會(huì)無條件使用以太網(wǎng)，同時(shí)用于節(jié)點(diǎn)內(nèi)互聯(lián)的InfinityFabric協(xié)議，也將開放給以太網(wǎng)廠商。我們判斷，隨著AMD和UEC聯(lián)盟中博通等成員的合作進(jìn)度逐漸加快，UEC聯(lián)盟也有望真正形成一套類似于N卡+IB的兼容與合作體系，從而給英偉達(dá)帶來挑戰(zhàn)。但其過程注定漫長(zhǎng)，從AMD側(cè)單卡算力的追趕，再到博通側(cè)交換芯片的進(jìn)步，再到不同廠商間的開放與合作，仍有許多路要走?？偨Y(jié)來看，節(jié)點(diǎn)間通信協(xié)議之爭(zhēng)，已經(jīng)漸漸的從原理之爭(zhēng)演變成了話語(yǔ)權(quán)之爭(zhēng)，使用何種協(xié)議，更多的是GPU話語(yǔ)權(quán)的延伸，英偉達(dá)希望通過IB擴(kuò)大全環(huán)節(jié)話語(yǔ)權(quán)，客戶則希望擁抱更加開放的IB，行業(yè)的競(jìng)爭(zhēng)將持續(xù)推動(dòng)通信協(xié)議的持續(xù)進(jìn)化。4.AI推動(dòng)下，網(wǎng)絡(luò)硬件創(chuàng)新將走向何方？上節(jié)我們討論了AI需求是如何推動(dòng)RDMA功能的進(jìn)化與放量，同樣，在網(wǎng)絡(luò)硬件的領(lǐng)域，AI的新需求也正在帶來除了速率更新外的其他變化，從傳輸介質(zhì)、交換機(jī)、網(wǎng)絡(luò)架構(gòu)乃至數(shù)據(jù)中心整體形態(tài)都在發(fā)生變化。4.1光、銅與硅，傳輸介質(zhì)之爭(zhēng)將走向何方近年來，隨著人類數(shù)據(jù)量快速膨脹，以及傳輸速率成倍提升，我們?cè)跓o線網(wǎng)、固網(wǎng)等電信側(cè)率先迎來了光進(jìn)銅退的浪潮，從最早的撥號(hào)上網(wǎng)，再到光纖入戶乃至現(xiàn)在的FTTR，正式一輪輪光纖光纜對(duì)于銅線的逐步替代。到了數(shù)據(jù)中心內(nèi)部，光進(jìn)銅退的進(jìn)程也同樣在進(jìn)行，由光模塊、AOC等等光通信組成的通信系統(tǒng)正在逐漸代替有DAC，AEC等組成的銅傳輸系統(tǒng)，這背后是高速率傳輸下，銅介質(zhì)衰減愈發(fā)劇烈的必然物理規(guī)律。如果沒有AI帶來的多樣需求，隨著服務(wù)器網(wǎng)口速率逐代提升，光傳輸會(huì)漸漸向機(jī)柜內(nèi)部持續(xù)滲透，并最終形成全光數(shù)據(jù)中心。但AI的出現(xiàn)，給個(gè)“光進(jìn)銅退”這一過程帶來了一絲波折，或者說讓市場(chǎng)產(chǎn)生了一定的困惑。其背后的核心原因是：AI帶來了通信系統(tǒng)復(fù)雜度與造價(jià)的非代際線性增長(zhǎng)，在指數(shù)級(jí)的需求增加面前，高速率光模塊變得愈發(fā)昂貴。因此，性價(jià)比更高的銅纜在當(dāng)前速率吸引力逐步提升，同時(shí)疊加散熱等等配套部件的改善，顯卡廠商得以將更多的計(jì)算單元盡可能多的壓縮在銅纜可以觸及的單機(jī)柜范圍內(nèi)。從背后我們不難發(fā)現(xiàn)，在AI時(shí)代，由于開支的增加，在當(dāng)前2-3年的節(jié)點(diǎn)內(nèi)，光銅之爭(zhēng)的核心從速率升級(jí)變?yōu)榱顺杀鞠刃?，同時(shí)由于通信系統(tǒng)的復(fù)雜程度加速上升，簡(jiǎn)化與低故障率亦成為了客戶選擇介質(zhì)的關(guān)鍵考慮因素。長(zhǎng)距離跨服務(wù)器傳輸：光模塊是唯一方案，降本與簡(jiǎn)化是創(chuàng)新方向。由于銅纜的傳輸距離限制，所謂“光退銅進(jìn)”也只能發(fā)生在短距離傳輸上，而面對(duì)5米以上的傳輸距離，也就是跨服務(wù)器或跨算力節(jié)點(diǎn)傳輸時(shí)，光傳輸仍然是唯一選擇。但當(dāng)下，客戶的除了關(guān)心常規(guī)的速率升級(jí)之外，對(duì)于成本和故障率（器件復(fù)雜程度）的追求正在愈發(fā)急迫，這也帶動(dòng)了光通信行業(yè)未來的升級(jí)方向。LPO/LRO：LPO通過線性直驅(qū)技術(shù)替換傳統(tǒng)的DSP，將其功能集成到交換芯片中，只留下driver和TIA芯片。LPO光模塊中用到的TIA、driver芯片性能也有所提升，從而實(shí)現(xiàn)更好的線性度。LRO則是在一端采用傳統(tǒng)光模塊，另外一端采用LPO光模塊，從而使得客戶的接受度更高的一種過渡方案。硅光：硅光通過成熟技術(shù)使得部分光模塊的光引擎中的分立器件能夠自動(dòng)化集成在硅基芯片上，從而能夠?qū)崿F(xiàn)大幅的成本降低，同時(shí)自動(dòng)化生產(chǎn)和制程更新也能幫助硅光芯片進(jìn)行迭代，我們認(rèn)為，LPO、硅光是行業(yè)進(jìn)度最快的兩個(gè)降本創(chuàng)新方案。薄膜鈮酸鋰：鈮酸鋰材料是可靠材料中電光系數(shù)最優(yōu)的選擇（考慮居里點(diǎn)和電光系數(shù)）。薄膜工藝?yán)M(jìn)電極距離，降低電壓提升帶寬電壓比。相比其他材料兼具大帶寬/低損耗/低驅(qū)動(dòng)電壓等諸多光電最需要的優(yōu)點(diǎn)。當(dāng)下來看，薄膜鈮酸鋰主要用于高速率硅光調(diào)制器，我們認(rèn)為，使用薄膜鈮酸鋰調(diào)制器可以在1.6T，3.2T實(shí)現(xiàn)更好的性能。CPO：CPO指將光模塊直接封裝在交換機(jī)主板上，從而能夠共享交換機(jī)主板散熱，同時(shí)縮短電信號(hào)在交換機(jī)主板上傳輸?shù)木嚯x，但是目前來看，由于AI中心中的光模塊屬于易損品，共封裝后維護(hù)難度較大，因此客戶對(duì)CPO的認(rèn)可程度還有待觀察。機(jī)柜內(nèi)連接：成本與穩(wěn)定雙重優(yōu)勢(shì)下，銅線是中短期優(yōu)勢(shì)選擇，隨著長(zhǎng)期速率上升，光進(jìn)銅退仍會(huì)發(fā)生。DAC：DirectAttachCable，即為高速銅纜，可以適應(yīng)較短距離內(nèi)的超高速連接，當(dāng)前市場(chǎng)主流800GDAC長(zhǎng)度在3米以內(nèi)，是一種擁有較高性價(jià)比的機(jī)柜內(nèi)連接方案。AOC：ActiveOpticalCables，有源光纜，即為兩端提前完成一體化分裝的光模塊與光纖構(gòu)成的系統(tǒng)，其傳輸距離相較傳統(tǒng)的多?；騿文９饽K較短，但是成本也較低，是超越銅纜傳輸極限后的機(jī)柜內(nèi)短距離連接選擇。關(guān)于硅的演進(jìn)，當(dāng)下的主流思路主要包括了Chiplet與Wafer-scaling兩種，這兩種方法的核心思路都在于，通過更先進(jìn)的半導(dǎo)體制造與設(shè)計(jì)工藝，從而擴(kuò)大單塊芯片能夠承載的計(jì)算單元數(shù)，并盡可能的使得更多通信發(fā)展在單塊硅片內(nèi)，最大化計(jì)算效率，這部分內(nèi)容我們?cè)诖饲吧疃取禔I算力的ASIC之路——從以太坊礦機(jī)說起》中有詳細(xì)介紹，在本文中不再贅述。綜合來看，傳輸介質(zhì)的更迭與競(jìng)爭(zhēng)跟隨需求而動(dòng)，而當(dāng)下的需求則非常明晰，在MOE等新訓(xùn)練框架下，模型參數(shù)往萬(wàn)億規(guī)模進(jìn)發(fā)，如何高性價(jià)比的實(shí)現(xiàn)更可能強(qiáng)的單節(jié)點(diǎn)算力，或者說是擴(kuò)大“HB-DOMIN”域的數(shù)量，從而使得模型的切分不必過于細(xì)碎，導(dǎo)致訓(xùn)練效率的降低，無論是光、銅還是最底層的硅，都在此路線上不斷努力。4.2交換機(jī)的創(chuàng)新：光交換機(jī)初出茅廬交換機(jī)作為網(wǎng)絡(luò)的核心節(jié)點(diǎn)，是承載通信協(xié)議的核心部件，在如今的AI集群內(nèi)，交換機(jī)也承擔(dān)起愈發(fā)復(fù)雜的任務(wù)，如上文提到的Mellanox交換機(jī)中，其就通過SHARP協(xié)議兼具了部分對(duì)齊運(yùn)算的功能，幫助AI運(yùn)算進(jìn)行加速。但另一方面，盡管如今的電交換機(jī)愈發(fā)強(qiáng)大，更新迭代的速度依舊穩(wěn)定，但純光交換似乎正在成為一種全新的潮流。究其原因，我們認(rèn)為，光交換機(jī)風(fēng)潮的背后主要有兩點(diǎn)原因，第一，AI參與者的巨頭化。第二，AI集群的加速擴(kuò)大。光交換系統(tǒng)相比于電交換系統(tǒng)，其去除了電芯片，使用光學(xué)鏡片，對(duì)傳入交換機(jī)內(nèi)部的光信號(hào)進(jìn)行折射與分配，從而讓其不經(jīng)過轉(zhuǎn)換，從而傳入對(duì)應(yīng)的光模塊之中。與電交換機(jī)相比，光交換機(jī)由于省去了光電轉(zhuǎn)換的過程，因此功耗，時(shí)延等等會(huì)更低，同時(shí)由于其不受制與電交換機(jī)芯片的容量上限限制，對(duì)于網(wǎng)絡(luò)層數(shù)優(yōu)化和單臺(tái)交換機(jī)能夠覆蓋的臺(tái)數(shù)也有增加，但相反，使用光交換機(jī)需要專門設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)讓其適配，同時(shí)光交換機(jī)的集群一旦建立，無法進(jìn)行零散擴(kuò)容，只能一次性擴(kuò)容一整個(gè)網(wǎng)絡(luò)集群，靈活性也較差，此外，光交換機(jī)在目前階段，沒有通用版本，需要自研或者定制化設(shè)計(jì)，門檻較高。但隨著AI競(jìng)爭(zhēng)正式進(jìn)入巨頭廝殺的后半程，巨頭所擁有的AI集群規(guī)模正在快速擴(kuò)大，巨頭擁有成熟的投資規(guī)劃、網(wǎng)絡(luò)架構(gòu)的自研能力、以及充足的資金，因此在節(jié)點(diǎn)規(guī)模不斷擴(kuò)大的今天，如谷歌等巨頭客戶正在加速OCS體系的研發(fā)與部署。而回歸到傳統(tǒng)的電交換部分，如今的電交換機(jī)的創(chuàng)新，除了上文的協(xié)議部分，更多的集中在了芯片部分，包括制程的迭代，功能的創(chuàng)新等等，同時(shí)，如博通等交換機(jī)廠商，憑借自有IP在不同下游客戶芯片處的運(yùn)用，使得自身的與客戶的綁定變得更強(qiáng)，結(jié)合通信協(xié)議上的戰(zhàn)隊(duì)，在AI時(shí)代，交換機(jī)行業(yè)已經(jīng)正式變成了芯片聯(lián)盟之間的全方位比拼。4.3網(wǎng)絡(luò)架構(gòu)的創(chuàng)新：葉脊之后，走向何方？網(wǎng)絡(luò)架構(gòu)則是協(xié)議與硬件外的通信系統(tǒng)的重要構(gòu)成部分，架構(gòu)決定了服務(wù)器中的數(shù)據(jù)以何種路徑進(jìn)行傳輸，同時(shí)優(yōu)秀的網(wǎng)絡(luò)架構(gòu)能夠使得數(shù)據(jù)流量全域可達(dá)的同時(shí)，縮減時(shí)延，保證穩(wěn)定性。同時(shí)，網(wǎng)絡(luò)架構(gòu)還需要滿足易于維護(hù)和擴(kuò)容的需求，因此，架構(gòu)是通信系統(tǒng)從紙面設(shè)計(jì)走向?qū)嵨锕こ讨械闹匾画h(huán)?，F(xiàn)代社會(huì)的網(wǎng)絡(luò)架構(gòu)，從電話時(shí)代的矩陣圖結(jié)構(gòu)，再到ClOS網(wǎng)絡(luò)模型為現(xiàn)代網(wǎng)絡(luò)奠定基礎(chǔ)架構(gòu)，CLOS的架構(gòu)核心是，用多個(gè)小規(guī)模、低成本的單元，構(gòu)建復(fù)雜、大規(guī)模的網(wǎng)絡(luò)。在CLOS模型的基礎(chǔ)上，逐漸發(fā)展出了各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，例如星型、鏈型、環(huán)型、樹型等架構(gòu)，隨后，樹型網(wǎng)絡(luò)逐漸成為主流架構(gòu)。樹型架構(gòu)主要經(jīng)過了三代演變，第一代即為最為傳統(tǒng)的樹型架構(gòu)，這種樹型架構(gòu)的特點(diǎn)在于，每經(jīng)過一層，帶寬嚴(yán)格2:1收斂，即兩個(gè)100M的下游設(shè)備接入交換機(jī)后，固定輸出一路100M的數(shù)據(jù)流，面對(duì)云計(jì)算到來之前較小的數(shù)據(jù)流，這種架構(gòu)尚能應(yīng)付，但隨著互聯(lián)網(wǎng)以及云計(jì)算時(shí)代的到來，逐級(jí)收斂的帶寬無法滿足流量傳輸需求，因此一種名為“胖樹”的改進(jìn)型架構(gòu)被逐漸運(yùn)用于數(shù)據(jù)中心。胖樹架構(gòu)采用三層交換機(jī)，其核心理念是，使用大量的低性能交換機(jī)，構(gòu)建出大規(guī)模的無阻塞網(wǎng)絡(luò)。對(duì)于任意的通信模式，總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬，但是在上層運(yùn)用更加高級(jí)的交換機(jī)，讓頂層交換盡可能保持較低的收斂比?！芭謽洹奔軜?gòu)為現(xiàn)代數(shù)據(jù)中心的連接奠定了基礎(chǔ)，但其本身也存在著諸如帶寬的浪費(fèi)、難以擴(kuò)容、難以支持大規(guī)模云計(jì)算等等問題，面對(duì)日益龐大的網(wǎng)絡(luò)規(guī)模，傳統(tǒng)胖樹的缺陷愈發(fā)明顯。于是在胖樹的基礎(chǔ)上，進(jìn)化出了當(dāng)下先進(jìn)數(shù)據(jù)中心與AI集群使用的葉脊（Spine-Leaf）架構(gòu)，相比于胖樹，葉脊更加強(qiáng)調(diào)扁平化，與繁復(fù)的三層胖樹相比，每個(gè)低層級(jí)的交換機(jī)（leaf）都會(huì)連接到每個(gè)高層級(jí)的交換機(jī)（spine），形成一個(gè)full-mesh拓?fù)?。leaf層由接入交換機(jī)組成，用于連接服務(wù)器等設(shè)備。spine層是網(wǎng)絡(luò)的骨干（backbone），負(fù)責(zé)將所有的leaf連接起來。這樣的構(gòu)型下，任意兩個(gè)物理服務(wù)器之間的數(shù)據(jù)轉(zhuǎn)發(fā)，其經(jīng)過的節(jié)點(diǎn)數(shù)都是固定的一臺(tái)葉與一臺(tái)脊交換機(jī)，保證了東西向流量的承載和時(shí)延，也通過了脊交換機(jī)的擴(kuò)容，避免了大量使用異常昂貴的核心層交換機(jī)，同

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024年AI時(shí)代的通信網(wǎng)絡(luò)專題：需求從何而來-創(chuàng)新將走向何方-

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔