版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2023年8月中國移動提出“算力網(wǎng)絡(luò)”新理念2023.32023.32022.72022.122022.72022.12022.62022.12021.112021.82021.112021.8“算網(wǎng)一體”是中國移動算力網(wǎng)絡(luò)發(fā)展的深化算力網(wǎng)絡(luò)的發(fā)展經(jīng)過三個階段的發(fā)展,逐漸深化起步階段:泛在協(xié)同發(fā)展階段:融合統(tǒng)一跨越階段:一體內(nèi)生一站服務(wù):一站開通算網(wǎng)服務(wù)協(xié)同運營:云網(wǎng)運營雙入口拉通協(xié)同編排一體服務(wù):多層次智簡無感服務(wù)一站服務(wù):一站開通算網(wǎng)服務(wù)協(xié)同運營:云網(wǎng)運營雙入口拉通協(xié)同編排一體服務(wù):多層次智簡無感服務(wù)智慧內(nèi)生運營服務(wù)編排管理智能編排編排管理基礎(chǔ)設(shè)施網(wǎng)隨算動算網(wǎng)融合算網(wǎng)一體20252025 3算網(wǎng)一體架構(gòu)及總體設(shè)計算網(wǎng)一體通過“聯(lián)合感知”“混合控制”“極致互聯(lián)”構(gòu)建面向智能化時代的數(shù)架構(gòu)關(guān)鍵技術(shù)聯(lián)合感知聯(lián)合感知混合控制混合控制網(wǎng)絡(luò)信息拓撲信息擁塞狀態(tài)SLA網(wǎng)絡(luò)信息拓撲信息擁塞狀態(tài)SLA指標CPU利用率異構(gòu)算力算力規(guī)模前提集中式控制任務(wù)分解與調(diào)配節(jié)點1節(jié)點2分布式控制節(jié)點3消費側(cè)節(jié)點4支撐作用極致互聯(lián)極致互聯(lián)CSP4CSP1CSP4CSP1 CSP CSP3CSP2算力路由在網(wǎng)計算廣域RDMA算網(wǎng)數(shù)字孿生4分布式系統(tǒng)面臨通信開銷瓶頸問題模型訓(xùn)練時長分布[1]分布式訓(xùn)練管道中模型訓(xùn)練時間分解[1]不同模型在進行分布式訓(xùn)練時,各階段的時間分布不同?采用8個workers和8個PSs的網(wǎng)絡(luò)訓(xùn)練AlexNet模型,網(wǎng)絡(luò)通信時間占比可高達80%以上?面向AI場景的網(wǎng)絡(luò)優(yōu)化需要更細粒度的通信算子優(yōu)化方案需要盡可能壓縮通信的時延占比,同時結(jié)合不同類型的通信過程優(yōu)化分布式系統(tǒng)通信性能[1]ParameterHub:aRack-ScaleParameterServerforDistributedDeepNeuralNetworkTraining,htps://doi/10.1145/3267809.32678405問題主要來源發(fā)送接收發(fā)送接收網(wǎng)絡(luò)負載嚴重不均衡發(fā)送接收發(fā)送接收發(fā)送↓發(fā)送交換機接收發(fā)送發(fā)送發(fā)送↓發(fā)送交換機接收發(fā)送發(fā)送通信模式不匹配交換機交換機③①②接收接收接收發(fā)送發(fā)送通過網(wǎng)絡(luò)與分布式應(yīng)用各通信階段緊耦合的設(shè)計方式優(yōu)化分布式處理是重要發(fā)展方向6在網(wǎng)計算有望攻克分布式系統(tǒng)通信瓶頸問題性能躍升主要優(yōu)勢處理模式性能躍升主要優(yōu)勢單次聚合時延流量壓縮單次聚合時延在網(wǎng)計算設(shè)備在網(wǎng)聚合,數(shù)據(jù)在網(wǎng)計算設(shè)備在網(wǎng)聚合,數(shù)據(jù)消冗與求和縮短傳輸路徑與傳統(tǒng)軟件實現(xiàn)聚合操作相比,縮短傳輸路徑與傳統(tǒng)軟件實現(xiàn)聚合操作相比,IBSHARP方案性能提升近5倍單次同步時延網(wǎng)內(nèi)處理單次同步時延網(wǎng)內(nèi)處理,實現(xiàn)Sub-RTT通信線速處理線速處理與傳統(tǒng)軟件實現(xiàn)消息同步與傳統(tǒng)軟件實現(xiàn)消息同步相比,IBSHARP方案性能提升近9倍交換機Tbps處理能力7在網(wǎng)計算發(fā)展現(xiàn)狀產(chǎn)業(yè)與學(xué)術(shù)進展中國移動CFITI試驗網(wǎng)創(chuàng)新驗證架構(gòu)AlexNetVGG架構(gòu)AlexNetVGG19VGG16VGG11ResNet152ResNet101ResNet50在網(wǎng)組播在網(wǎng)聚合SIGCOMM22IPDPS04在網(wǎng)聚合在網(wǎng)聚合COMHPC16COMHPC16ASPLOS23NSDI21在網(wǎng)計算發(fā)展挑戰(zhàn)在網(wǎng)計算發(fā)展面臨應(yīng)用場景豎井式、協(xié)議實現(xiàn)封閉化、以及編程范式豎井式封閉化編程不友好豎井式封閉化編程不友好在網(wǎng)計算NACA在網(wǎng)計算NACANetworkAssistedComputingAcceleration邏輯物理統(tǒng)一通信原語統(tǒng)一邏輯物理統(tǒng)一編程范式統(tǒng)一NACA以編程范式統(tǒng)一NACA以提升在網(wǎng)計算通用性為目標,重構(gòu)應(yīng)用處理模式,構(gòu)建全新的在網(wǎng)計算通信庫,圍繞拓撲映射、編程范式、計算實現(xiàn)、資源管理形成”四個統(tǒng)一”,實現(xiàn)網(wǎng)絡(luò)輔助計算加速,提升分布式系統(tǒng)算能算效網(wǎng)內(nèi)資源統(tǒng)一在網(wǎng)計算NACA技術(shù)架構(gòu)編程范式統(tǒng)一分布式應(yīng)用分布式應(yīng)用 通信原語統(tǒng)一編排管理在網(wǎng)計算通信庫編排管理在網(wǎng)計算通信庫高性能互聯(lián)高性能互聯(lián)網(wǎng)內(nèi)資源統(tǒng)一網(wǎng)內(nèi)資源統(tǒng)一異構(gòu)網(wǎng)元異構(gòu)網(wǎng)元核心特征1:邏輯物理統(tǒng)一邏輯拓撲邏輯拓撲在網(wǎng)計算相較傳統(tǒng)計算與邏輯拓撲映射更親和統(tǒng)一.——邏輯鏈路 物理鏈路傳統(tǒng)計算在網(wǎng)計算物理拓撲核心特征2:通信原語統(tǒng)一參數(shù)向量聚合(數(shù)據(jù)類型:數(shù)值)大數(shù)據(jù)處理鍵值聚合(數(shù)據(jù)類型:鍵值對)參數(shù)向量聚合(數(shù)據(jù)類型:數(shù)值)大數(shù)據(jù)處理鍵值聚合(數(shù)據(jù)類型:鍵值對)123579456調(diào)用相同的聚合算子在網(wǎng)計算通信庫廣播 同步聚合散播……在網(wǎng)計算通信庫廣播聚合算子物理實現(xiàn)統(tǒng)一聚合算子物理實現(xiàn)統(tǒng)一核心特征3:編程范式統(tǒng)一軟件軟件框架分布式應(yīng)用應(yīng)用開發(fā)統(tǒng)一在網(wǎng)計算編程框架運言Lyra領(lǐng)域?qū)S谜Z言Micro-C領(lǐng)域?qū)S谜Z言網(wǎng)絡(luò)設(shè)備開發(fā) 應(yīng)用1應(yīng)用2多種在網(wǎng)計算程序統(tǒng)一編譯 前端編譯中間轉(zhuǎn)譯及中間轉(zhuǎn)譯及程序綜合異構(gòu)在網(wǎng)計算網(wǎng)元轉(zhuǎn)譯至異構(gòu)在網(wǎng)計算網(wǎng)元網(wǎng)絡(luò)設(shè)備1網(wǎng)絡(luò)設(shè)備2網(wǎng)絡(luò)設(shè)備1網(wǎng)絡(luò)設(shè)備2核心特征4:網(wǎng)內(nèi)資源統(tǒng)一在網(wǎng)計算節(jié)點在網(wǎng)計算節(jié)點 CPUGPU DDRDDRDDRDDRDDRDDR在網(wǎng)計算節(jié)點 CPUDDRDDRDDRDDRDDRDDR在網(wǎng)計算節(jié)點 CPUGPU 在網(wǎng)計算節(jié)點 CPUGPU 高性能互聯(lián)協(xié)議(RDMA、CXL等...)高性能互聯(lián)協(xié)議關(guān)鍵技術(shù)1:計算語義映射主機傳統(tǒng)網(wǎng)絡(luò)設(shè)備在網(wǎng)計算設(shè)備主機傳輸層Message傳輸層Message兩種封裝機制①自定義協(xié)議棧優(yōu)勢:設(shè)計靈活、高效劣勢:開發(fā)復(fù)雜度高,技術(shù)封閉②基于現(xiàn)有協(xié)議棧(如RDMA)優(yōu)勢:兼容性高,可復(fù)用現(xiàn)有成熟加速技術(shù)劣勢:方案不靈活,傳輸效率相對較低關(guān)鍵技術(shù)2:計算正確性保障問題:丟包、重復(fù)包影響計算正確性發(fā)送端接收端接收端聚合時發(fā)生丟包發(fā)送端 聚合時收到重復(fù)數(shù)據(jù)包方案:方案:依靠擁塞控制和可靠性傳輸降低丟包?利用bitmap高效記錄已收到和已處理包的序號;?基于現(xiàn)有可靠性傳輸協(xié)議如Go-Back-N、選擇性重傳等,針 ?優(yōu)化網(wǎng)絡(luò)負載均衡方案,避免負載不均導(dǎo)致的擁堵;?基于現(xiàn)有PFC、ECN、DCQCN等流量控制機制針對在網(wǎng)計算進行改進關(guān)鍵技術(shù)3:計算程序網(wǎng)內(nèi)編排在網(wǎng)計算多級編譯編排部署架構(gòu)實現(xiàn)程序、元素、執(zhí)構(gòu)造IR塊,解耦硬件、拓撲和指令依賴動態(tài)規(guī)劃算法,實現(xiàn)程序段高效放置程序段構(gòu)造IR塊,解耦硬件、拓撲和指令依賴動態(tài)規(guī)劃算法,實現(xiàn)程序段高效放置程序段DAG表示法,合并DAG指令除冗異構(gòu)適配程序段連接和加載方案在網(wǎng)計算程序2硬件、拓撲、指令、能力多級依賴多任務(wù)共享設(shè)備,程序段集成困難分布式分段部署,編譯加載難異構(gòu)設(shè)備多、組合多、指令冗余題INC程序1在網(wǎng)計算程序1INC程序1在網(wǎng)計算程序1INC程序2IR程序1IR程序2INC程序M......INC設(shè)備1指令塊4指令塊1指令塊2指令塊3可執(zhí)行文件2多級編譯編排部署INC程序2IR程序1IR程序2INC程序M......INC設(shè)備1指令塊4指令塊1指令塊2指令塊3可執(zhí)行文件2多級編譯編排部署INC設(shè)備2......可執(zhí)行文件1......可執(zhí)行文件1INC設(shè)備N可編程交換機可編程可編程交換機可編程交換機網(wǎng)卡關(guān)鍵技術(shù)4:網(wǎng)內(nèi)資源池化問問題方案計算、傳輸周期交替,內(nèi)存利用率待提高設(shè)備內(nèi)存虛擬化多租戶、多實例、細粒度、動態(tài)分配............網(wǎng)絡(luò)設(shè)備...網(wǎng)絡(luò)設(shè)備..................
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河南建筑安全員-A證考試題庫附答案
- 貴州大學(xué)《醫(yī)學(xué)統(tǒng)計學(xué)規(guī)培》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州財經(jīng)職業(yè)學(xué)院《火災(zāi)動力學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025福建建筑安全員考試題庫
- 貴陽學(xué)院《保險投資學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 硅湖職業(yè)技術(shù)學(xué)院《植物造景技術(shù)(一)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州幼兒師范高等專科學(xué)?!稛o人機結(jié)構(gòu)與系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年貴州省安全員B證考試題庫及答案
- 2025江蘇建筑安全員《B證》考試題庫及答案
- 2025年河南省安全員《C證》考試題庫及答案
- 2024-2025學(xué)年北京房山區(qū)初三(上)期末英語試卷
- 公路工程質(zhì)量與安全管理課件
- 四年級道德與法治試卷分析范文(通用5篇)
- 封條模板A4直接打印版
- 常見化療藥物的不良反應(yīng)及預(yù)防 課件
- 電解銅箔制造工藝簡介
- 15MW風(fēng)力發(fā)電機
- 正面管教 讀書分享(課堂PPT)
- 教練技術(shù)CP理論PPT課件
- 產(chǎn)品生命周期曲線(高清)
- 機械工程學(xué)報標準格式
評論
0/150
提交評論