算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系_第1頁
算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系_第2頁
算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系_第3頁
算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系_第4頁
算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

算力網(wǎng)絡(luò)原創(chuàng)技術(shù)與NICC新型智算中心技術(shù)體系中國移動(dòng)段曉東2023.9中國移動(dòng)算力網(wǎng)絡(luò)發(fā)展歷程回顧算力網(wǎng)絡(luò)發(fā)展主線主線一面向算網(wǎng)基礎(chǔ)設(shè)施構(gòu)建物理空間、邏輯空間、異構(gòu)空間、多主體算力融通“4+N+31+X”布局,1100邊緣節(jié)點(diǎn)打造20ms、5ms、1ms三級(jí)時(shí)延圈SRv6/G-SRv6打造統(tǒng)一算網(wǎng)底座

主線二面向業(yè)務(wù)融合創(chuàng)新實(shí)現(xiàn)算網(wǎng)高效協(xié)同,支持CHBN務(wù)融合發(fā)展,打造算網(wǎng)全新生態(tài)產(chǎn)品算力化和算力產(chǎn)品化發(fā)布算網(wǎng)服務(wù)1.0構(gòu)筑算網(wǎng)大腦

主線三面向創(chuàng)新技術(shù)引領(lǐng)實(shí)現(xiàn)創(chuàng)新技術(shù)引領(lǐng),打造原創(chuàng)技術(shù)策源地三橫兩縱體系架構(gòu)提出十大三十二個(gè)繼往開來,成功邁入算力網(wǎng)絡(luò)新階段跨越:一體內(nèi)生一體服務(wù),模式創(chuàng)新智慧內(nèi)生算網(wǎng)一體起步:泛在協(xié)同一站服務(wù)、協(xié)同運(yùn)營協(xié)同編排網(wǎng)隨算動(dòng)發(fā)展:融合統(tǒng)一智慧內(nèi)生算網(wǎng)一體起步:泛在協(xié)同一站服務(wù)、協(xié)同運(yùn)營協(xié)同編排網(wǎng)隨算動(dòng)發(fā)展:融合統(tǒng)一算網(wǎng)融合智能編排 十四五階段 十五五階段及更長期構(gòu)筑算力網(wǎng)絡(luò)發(fā)展源動(dòng)力,開創(chuàng)算網(wǎng)一體原創(chuàng)技術(shù)體系總線互聯(lián)算力路由突破互聯(lián)網(wǎng)架構(gòu)協(xié)議廣域RDMA突破廣域傳輸性能瓶頸全調(diào)度以太突破無損以太性能瓶頸新一代SD-WANUnder與Overlay協(xié)同算力并網(wǎng)實(shí)現(xiàn)算力供給側(cè)改革算力智能內(nèi)生移動(dòng)算力5G、6G新增計(jì)算面算力原生實(shí)現(xiàn)應(yīng)用跨架構(gòu)遷移存算一體算力度量打破單維算力指標(biāo)在網(wǎng)計(jì)算打破算網(wǎng)邊界隱私計(jì)算總線互聯(lián)算力路由突破互聯(lián)網(wǎng)架構(gòu)協(xié)議廣域RDMA突破廣域傳輸性能瓶頸全調(diào)度以太突破無損以太性能瓶頸新一代SD-WANUnder與Overlay協(xié)同算力并網(wǎng)實(shí)現(xiàn)算力供給側(cè)改革算力智能內(nèi)生移動(dòng)算力5G、6G新增計(jì)算面算力原生實(shí)現(xiàn)應(yīng)用跨架構(gòu)遷移存算一體算力度量打破單維算力指標(biāo)在網(wǎng)計(jì)算打破算網(wǎng)邊界隱私計(jì)算安全數(shù)據(jù)分析計(jì)算算力卸載多算力形態(tài)統(tǒng)一底座400G/800G超高速大容量全光網(wǎng)絡(luò)G-SRv6空芯光纖新型光纖介質(zhì)與系統(tǒng)算力解構(gòu)應(yīng)用模塊化解構(gòu)部署50GPON+FTTR新型接入網(wǎng)架構(gòu)云原生敏捷高效體系OTN光電聯(lián)動(dòng)新型全光網(wǎng)架構(gòu)全光接入應(yīng)用感知空天地一體原創(chuàng)技術(shù)“5顆珍珠”:算力原生、算力路由、全調(diào)度以太、在網(wǎng)計(jì)算、G-SRv6提升高度拓展提升高度拓展廣度挖掘深度多要素融合③開創(chuàng)一體化服務(wù)④模式網(wǎng)為根基②實(shí)現(xiàn)深度融合統(tǒng)一算為中心①打造算力供給高峰以算為中心①、網(wǎng)為根基②,網(wǎng)、云、數(shù)、智、安、邊、端、鏈等深度融合③、提供一體化服務(wù)④的新型信息基礎(chǔ)設(shè)施打造智能算力新高峰——NICC新型智算中心新型智算中心以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標(biāo),形成集約化建設(shè)的E級(jí)超大規(guī)模算力基礎(chǔ)設(shè)施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓(xùn)練和推理新互聯(lián)

新算效

新存儲(chǔ) 新平臺(tái) 新節(jié)能1、新型智算中心是對(duì)傳統(tǒng)云數(shù)據(jù)中心的飛躍中大模型(百億-千億)中大模型(百億-千億)超級(jí)池化時(shí)期(2025~)大模型(千億-萬億)傳統(tǒng)云數(shù)據(jù)中心互聯(lián)單機(jī)8卡高速互聯(lián)高性能無損網(wǎng)絡(luò)百卡高速總線互聯(lián)GSE異構(gòu)時(shí)期(~2021)中小模型算效扣卡模組DPU存算一體存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù),融合存儲(chǔ)內(nèi)存池化PCIe25G傳統(tǒng)以太平臺(tái)算力池化,分布式訓(xùn)練算力原生獨(dú)立存儲(chǔ)風(fēng)冷節(jié)能單機(jī)柜40KW,冷板式液冷冷板/浸沒式液冷裸機(jī)/虛機(jī)/容器智算運(yùn)維運(yùn)維管理模塊開發(fā)管理 交付管理智算運(yùn)維運(yùn)維管理模塊開發(fā)管理 交付管理IaaS管理模塊虛機(jī) 容器 裸機(jī)存儲(chǔ) 網(wǎng)絡(luò)應(yīng)用使能TesnsorFlowPyTorch應(yīng)用使能TesnsorFlowPyTorchAI開發(fā)框架PaddlePaddleDeepSpeed...智算運(yùn)營運(yùn)營管理模塊智算運(yùn)營運(yùn)營管理模塊算力原生編排調(diào)度計(jì)量計(jì)費(fèi)跨架構(gòu)編譯器 算力抽象運(yùn)行時(shí)算力交易用戶界面智算平臺(tái)ROCmCUDACANN...平臺(tái)跨節(jié)點(diǎn)分布式訓(xùn)練調(diào)度裸金屬實(shí)例Hypervisor+虛擬機(jī)實(shí)例容器實(shí)例算效互聯(lián)計(jì)算基礎(chǔ)設(shè)施CPUGPUDPUCIM網(wǎng)絡(luò)RoCE存儲(chǔ) 存儲(chǔ)文件 對(duì)象 塊 內(nèi)存池節(jié)能液冷GSE融合存儲(chǔ)全局統(tǒng)一存儲(chǔ)機(jī)房配套高效供電冷卻水系統(tǒng)模型參數(shù)從千億邁向萬億,模型參數(shù)從千億邁向萬億,互聯(lián)高需求從8卡擴(kuò)展到百卡間千億模型:高通信需求(張量并行)集中8卡之間04152637...04152637Sever1SeverNSuperSever(S2)架構(gòu)萬億模型:高通信需求(MoE并行)集中在百卡之間…012…0123012345674567基于高速計(jì)算總線的S2的架構(gòu)總線Switch總線Switch計(jì)算總線總線Switch總線Switch0 1 2 3 4 5 ...N一組有N張GPU/AI卡更低延遲的內(nèi)部通信更高效的數(shù)據(jù)讀寫更靈活的拓?fù)溥B接3-1、NICC新互聯(lián)——高性能新以太互聯(lián)網(wǎng)絡(luò)傳統(tǒng):網(wǎng)絡(luò)性能和成本無法兼得 未來:突破以太技術(shù)、升級(jí)高速互聯(lián)InfiniBand專用網(wǎng)絡(luò)、超高性能、成本昂貴傳統(tǒng)無損以太I(xiàn)nfiniBand專用網(wǎng)絡(luò)、超高性能、成本昂貴傳統(tǒng)無損以太生態(tài)開放、性能有限、性價(jià)比高流級(jí)ECMP被動(dòng)擁塞控制獨(dú)立轉(zhuǎn)發(fā)決策基礎(chǔ)轉(zhuǎn)發(fā)機(jī)制導(dǎo)致AI場(chǎng)景性能受限創(chuàng)新全調(diào)度以太網(wǎng)(GSE),革新以太網(wǎng)底層轉(zhuǎn)發(fā)機(jī)制,AS-ISTO-BE分發(fā)粒度逐流分發(fā)逐“報(bào)文容器”分發(fā)發(fā)流模式盲發(fā)+被動(dòng)擁塞控制感知+主動(dòng)流量控制轉(zhuǎn)發(fā)策略“局部”決策轉(zhuǎn)發(fā)“全局”最優(yōu)調(diào)度3-1、全調(diào)度以太網(wǎng)組網(wǎng)場(chǎng)景GSE協(xié)議可根據(jù)網(wǎng)絡(luò)設(shè)備和網(wǎng)卡能力,將方案各組件功能在網(wǎng)絡(luò)組件中重新分工,支持多種組網(wǎng)場(chǎng)景,為后續(xù)網(wǎng)絡(luò)建設(shè)和設(shè)備選型提供靈活的選擇方案SpineGSFLeafGSP…SpineGSFLeafGSP……GSFGSF網(wǎng)卡網(wǎng)卡網(wǎng)卡網(wǎng)卡GSP GSPGSP計(jì)算卡 計(jì)算卡 計(jì)算卡計(jì)算卡 計(jì)算卡 計(jì)算卡Leaf

GSF GSP 網(wǎng)卡 網(wǎng)卡 網(wǎng)卡

GSFGSP網(wǎng)卡 網(wǎng)卡 網(wǎng)卡計(jì)算卡 計(jì)算卡 計(jì)算

計(jì)算卡

計(jì)算卡 計(jì)算卡GSP和GSF角色均由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)行GSE路徑分發(fā)、端到端授權(quán)應(yīng)答及報(bào)文排序傳統(tǒng)RoCE網(wǎng)卡,對(duì)網(wǎng)卡無額外要求

源GSP、GSF由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)行GSE分發(fā)等功能網(wǎng)卡承擔(dān)部分GSP角色,負(fù)責(zé)授權(quán)應(yīng)答及報(bào)文排序、GSE原型機(jī)系統(tǒng)特性產(chǎn)品規(guī)格:當(dāng)前32*100G(),盒式設(shè)備、1U采用P4+FPGA芯片實(shí)現(xiàn)GSP和GSF硬件設(shè)備,軟件功能特性:支持基于報(bào)文容器的全路徑“噴灑”支持端到端DGSQ請(qǐng)求及授權(quán)支持報(bào)文亂序重排報(bào)文容器長度支持16KB性能特性:場(chǎng)景JCT時(shí)間可縮短2-3倍3-1、全調(diào)度以太網(wǎng)(GSE)工作進(jìn)展及計(jì)劃2023.52023.52023.62023.82023.9聯(lián)合產(chǎn)業(yè)發(fā)布《全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu)》白皮書

在CCSA成功立項(xiàng)《全調(diào)度以太網(wǎng)總體技術(shù)要求》

中國算力大會(huì)正式啟動(dòng)全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃

中國網(wǎng)絡(luò)大會(huì)發(fā)布業(yè)界首款GSE原型系統(tǒng) 期待更多產(chǎn)學(xué)研合作伙伴加入GSE推進(jìn)計(jì)劃,攜手共建新型智算中心網(wǎng)絡(luò)產(chǎn)業(yè)生態(tài)!3-2、NICC新存儲(chǔ)——內(nèi)存池化傳統(tǒng):HBM和DDR分立 未來:HBM和DDR池化數(shù)據(jù)多次復(fù)制,延遲高,影響模型訓(xùn)練效率CPUDDRAI模型開發(fā)復(fù)雜,需要手動(dòng)管理數(shù)據(jù)搬移CPUDDR

數(shù)據(jù)無需多次搬運(yùn),GPU可快速訪問巨量共享內(nèi)存CPUCPUCPU統(tǒng)一內(nèi)存池DDRDDRHBMHBMGPUHBMGPUGPUGPUGPUGPUGPUGPUHBMGPUGPUGPUGPUGPUGPU3-3、NICC新算效——升級(jí)計(jì)算架構(gòu)下一代GPU芯片設(shè)計(jì)

GPU、CPU、DPU三大芯片協(xié)同

存算一體,突破傳統(tǒng)計(jì)算范式性能瓶頸數(shù)據(jù)搬移的功耗激增演進(jìn)路線① 存儲(chǔ)一體化設(shè)計(jì)性能瓶頸數(shù)據(jù)搬移的功耗激增演進(jìn)路線① 存儲(chǔ)一體化設(shè)計(jì)② 稀疏化設(shè)計(jì)③ 算法和芯片協(xié)同設(shè)計(jì)④ 低時(shí)延推理架構(gòu)設(shè)計(jì)三大芯片協(xié)同提升算效迎接更加爆炸式的數(shù)據(jù)處理需求CPUGPUDPUGPU+DPU,參數(shù)面網(wǎng)卡升級(jí),進(jìn)一步滿足可編程擁塞控制及大QP數(shù)量等前沿需求GPU+DPU+CPU,智算資源并池,大幅優(yōu)化智算集群管理效率,實(shí)現(xiàn)文件存儲(chǔ)卸載,加速訓(xùn)推過程突破馮·諾依曼架構(gòu)達(dá)到能效比數(shù)量級(jí)提升面向大模型推理場(chǎng)景基于SRAM,中大算力,100Tops+無限擦寫,數(shù)模混合,精度拼接3-4、NICC新平臺(tái)——引入算力原生CANNoneAPICUDAROCmNeuWare應(yīng)用層框架層Pytorch……應(yīng)用層框架層Pytorch……跨架構(gòu)流轉(zhuǎn)的原生程序原生運(yùn)行時(shí)程序加載動(dòng)態(tài)鏈接工具鏈硬件層……編程模型轉(zhuǎn)換、編譯、優(yōu)化算力原生層

跨架構(gòu)綜合編譯器√實(shí)現(xiàn)圖算融合的跨架構(gòu)綜合編譯、多級(jí)IR互轉(zhuǎn)優(yōu)化,生成中間元語格式的算力原生程序√原生程序格式規(guī)范√全系統(tǒng)共識(shí)的“中間元語”。Host側(cè)、Device側(cè)指令元語及執(zhí)行策略的一體承載√原生運(yùn)行時(shí)√實(shí)現(xiàn)“中間元語”跨廠商的再裝配,智算應(yīng)用跨架構(gòu)、可變粒度映射執(zhí)行√3-5、NICC新節(jié)能——標(biāo)準(zhǔn)化大規(guī)模液冷技術(shù)挑戰(zhàn)1:單一AI服務(wù)器功耗超過10kWTDP(W)挑戰(zhàn)1:單一AI服務(wù)器功耗超過10kWTDP(W)700GPU500400CPU300W 300-400 250150-2502016~2019250-3002020~20212022~挑戰(zhàn)2:單機(jī)柜功耗超過40kWkW/架30-60kW/架單機(jī)架功率15kw/架5-10kW/架通用服務(wù)器AI服務(wù)器舉措:制定五大統(tǒng)一標(biāo)準(zhǔn),實(shí)現(xiàn)三“極”目標(biāo)舉措:制定五大統(tǒng)一標(biāo)準(zhǔn),實(shí)現(xiàn)三“極”目標(biāo)①②③④⑤五大統(tǒng)一機(jī)柜尺寸標(biāo)準(zhǔn)液冷接口標(biāo)準(zhǔn)液冷工質(zhì)要求供電系統(tǒng)標(biāo)準(zhǔn)監(jiān)控管理要求冷卻塔5液冷機(jī)柜三“極”目標(biāo)CDU冷水機(jī)組1???極致能效極高密度極簡運(yùn)維PUE≤1.15單機(jī)柜功耗>40kW兼容傳統(tǒng)機(jī)房一次側(cè)回水342一次側(cè)供水 二次側(cè)供

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論