云智算技術(shù)白皮書2025_第1頁
云智算技術(shù)白皮書2025_第2頁
云智算技術(shù)白皮書2025_第3頁
云智算技術(shù)白皮書2025_第4頁
云智算技術(shù)白皮書2025_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

云智算技術(shù)白皮書(2025)2力泛在化(2020年)等階段,隨著人工智能與算力網(wǎng)絡深度融合,中國移動通過打造云智算技術(shù)體系,升級AIIaaS、AIPaaS、作為“匯聚者”,打造AI生態(tài)平臺,廣泛匯聚多類型模型、多領域運營服務,深化AI賦能。在此基礎上,全面激活智能算力與應用普3 7 7 7 8 9 9 10 11 13 13 14 16 4 5縮略語123456789ModelFLOPsUtilizatiModelContextProtocCommonVulnerabilitiesModelDistributionNetwo61.從云計算到云智算隨著千億參數(shù)大模型等AI技術(shù)的迅猛發(fā)展,傳統(tǒng)云服務體系面臨嚴峻挑戰(zhàn),云超現(xiàn)有資源池化的調(diào)度能力;在網(wǎng)絡層面,AI的IaaS/PaaS服務無法全面覆蓋數(shù)據(jù)處理、模型訓練、推理部署等AI開發(fā)全鏈路的需求,迫切需要構(gòu)建適應智能時代的云云智算作為云計算的新升級,是以AI為核心驅(qū)動力的下一代云計算范式,是未云計算向云和AI深度融合的云智算升級,體系架構(gòu)從IaaS、PaaS、SaaS活調(diào)度、即取即用。二是AIPaaS,即面向各類AI開發(fā)者的工具平臺服務,提供覆蓋AI研發(fā)、運營、測試等全環(huán)節(jié)的工具鏈和開發(fā)環(huán)境,顯著提升全社會AI創(chuàng)新效率。三是MaaS,即加速AI一站式落地的模型服務,匯聚模型、能體等資源,推動AI在各行業(yè)的普及滲透的AI應用服務,賦能生產(chǎn)方式、生活方式、社會治理方式的數(shù)智釋放AI價值潛能。為此,中國移動針對云智算體系架構(gòu)形成了計算、存儲、網(wǎng)72.云智算關鍵技術(shù)方向引領云智算基礎設施從規(guī)模擴張走向效能躍延等。GPU是智算核心,中國移動以測促研推動國產(chǎn)化GPU成熟,同時布局DPU搭載輕量化RTTbased擁塞流控算法,有效降低網(wǎng)絡時延,滿足推理場從源頭上解決多路徑hash沖突問題,提升智算集群帶寬利用率與可靠性。面向近期,升級DPU芯片智算網(wǎng)絡帶寬,優(yōu)化RDMA傳輸機制、搭載流控算面向中遠期,持續(xù)優(yōu)化DPU芯片智算網(wǎng)絡核心能力,提升8二是融合COCA智算軟件棧實現(xiàn)算力應用一體加速,面向近期,聚焦超節(jié)點生態(tài)構(gòu)建和應用示范牽頭打造,并推進行業(yè)形成跨7家智算芯片的一體接入。重點攻關異構(gòu)設備統(tǒng)一接入面向近期,深化研究AI芯片統(tǒng)一算力抽象機制及轉(zhuǎn)換方法,強健高性能全棧異構(gòu)通用基礎軟件系統(tǒng)能力,接入更多AI芯片,支撐更多編程語言范式,全面融入高性能推理業(yè)務場景,支撐跨廠商低成本遷移面向中遠期,以“異構(gòu)CPU+智算AI芯片”一體融通、支撐訓推一體的泛AI業(yè)務為目標,探索虛擬指令集等深度算力抽象技術(shù),形成即插即用的統(tǒng)一XPU9基于通算理念構(gòu)建的存儲系統(tǒng)在長期演進中形成的標準化協(xié)議和產(chǎn)品形態(tài)儲系統(tǒng)的革命性升級?;诟咝阅芫W(wǎng)絡技術(shù)棧(如RDMA、Infiniband)和高性應用以更高效的方式使用存儲系統(tǒng),是提升智算業(yè)務效能隨著AI大模型應用及訓推場景的爆發(fā)式增長,GPU顯存和宿主機內(nèi)存容量有限、本地及網(wǎng)絡持久化存儲性能不足等問題凸顯,已成為制約AI大模型發(fā)展的癥結(jié)所在。尤其以KVCache、RAG等為代表的推理技術(shù)對存力的要求越來中國移動提出面向AI的高彈性多級緩存方案,解決訓推過程對于存儲系統(tǒng)面向近期,針對AI訓推場景對于多級緩存的核心需求,聯(lián)合產(chǎn)業(yè)力量升級為應對AI大模型訓練與推理對算力基礎設施的極致性能需求,中國移動構(gòu)建“卡間-機間”全棧智能互聯(lián)技術(shù)體系,通過協(xié)議與全調(diào)度以太網(wǎng)(GSE)架構(gòu),突破傳統(tǒng)互聯(lián)技術(shù)在高帶寬、低時延、大規(guī)),級時延與無損傳輸能力。2024年以來,中國移動通過廣泛合作進入產(chǎn)業(yè)化快車道。在多樣性算力峰會成立“OI2D/2.5D/3D封裝形態(tài)的標準化互連協(xié)議棧,系統(tǒng)性解決多芯?;ゲ僮餍云款i;同步開展光電協(xié)同技術(shù)預研,通過OIO(OpticalI/O)光電融合架構(gòu)創(chuàng)新,采AI大模型以GPU集群分布式訓練為基礎,網(wǎng)絡成為影響算力的關鍵因素。為此中國移動提出全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu),全面革新以太網(wǎng)底層轉(zhuǎn)發(fā)機調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書》[13],隨后發(fā)布全套GSE技術(shù)標準、全量支持GSE過實現(xiàn)網(wǎng)絡和算力的深度融合與動態(tài)協(xié)同供給,正成為支撐AI規(guī)模化應用的關IETF路由域近20年由中國企業(yè)/高校推動成立的唯二工作組之一,當前已經(jīng)完為系統(tǒng)性能的卡點。面向云智算訓練,在網(wǎng)計算可以將Allreduce、Broadcast為應對AI開發(fā)周期長、AI開發(fā)門檻高等難題期;基于代碼大模型內(nèi)核等AI工具鏈技術(shù),通過拖拉拽或者對話式開發(fā)模式降數(shù)據(jù)燃料,推動自動駕駛、醫(yī)療影像等垂直領域AI應用落地。面向近期,為AI提供高質(zhì)量數(shù)據(jù)燃料。數(shù)據(jù)合成技術(shù)突破真實數(shù)據(jù)瓶頸,型融合文本、圖像、音頻等,增強跨領域泛化能力;AI驅(qū)動自動化標注,提升即FP8/INT8精度自適應切換)與梯度縮放機制,在確保訓練精面向中遠期,探索FP4/INT4超低精度計算架構(gòu),建立從算法設計到硬件指彈性分片)與增量式檢查點技術(shù)(秒級快照+差異恢復),將故障恢復時間AI驅(qū)動的故障預測模型,通過時序預測、因果推理實現(xiàn)訓練中斷的提前預警,構(gòu)硬件適配復雜等問題,通過合理的模型切分、顯存分區(qū)管理,提升AI規(guī)模化(DynamicBatchSize)與顯存分區(qū)管理技術(shù)優(yōu)化KVCache利用率,構(gòu)建基于理延遲降低20%-30%,同時結(jié)合算力-內(nèi)存協(xié)同優(yōu)化技術(shù),將異構(gòu)集群資源利用面向中遠期,打造AI驅(qū)動的智能監(jiān)控框架,通過計算圖拓撲與硬件資源狀增強檢索生成(RAG)技術(shù)面臨多源知識庫管理復雜、動態(tài)場景下知識更新立反思機制,構(gòu)建錯誤模式知識庫并實現(xiàn)策略優(yōu)AI工具鏈存在AI技術(shù)門檻高、工具鏈協(xié)作效率托云原生AI底座技術(shù),結(jié)合代碼大模型和向量、多模數(shù)據(jù)庫等能力,整合多模助力規(guī)模化AI應用落地。本、圖像、音頻等復雜數(shù)據(jù)的高效處理,正在成為AI時代不可或缺的關鍵數(shù)據(jù)面向中遠期,向量數(shù)據(jù)庫進一步與大語言模型(LLM)等人工智能技術(shù)深度整合研發(fā)大模型能力,提升“數(shù)據(jù)處理-知識構(gòu)建-模型開發(fā)-模型預訓練-模型后訓練-模型推理-智能體開發(fā)”全流程工具鏈效能[19][20],推動模型開發(fā)從場景。打造端到端模型交付能力,為用戶提供算力、模型運維、咨詢、集成、交付、調(diào)優(yōu)的一體化服依托云原生AI底座和AI工具鏈技術(shù),匯聚覆蓋“L0、L1、L2系,構(gòu)建最開放、最全面的模型和智能體生態(tài),助力AI+企業(yè)即用即取。中國移動已構(gòu)建DICT庫、MaaS云市場等多種成熟商業(yè)模式,形成了算力補貼、技術(shù)面向近期,提供統(tǒng)一的框架、接口和標準化協(xié)),特征(如任務復雜度、數(shù)據(jù)模態(tài)、實時性需求)動態(tài)分配子任務至最優(yōu)量化異構(gòu)算力(CPU/GPU/NPU)、存儲容量及任務式編排調(diào)度技術(shù)面向離線負載與離線作業(yè)等任務式場景提供全生命周智能體編排調(diào)度技術(shù)基于分布式AIAgent協(xié)同架構(gòu),深度整合ANP與MCP,創(chuàng)新智能體路由調(diào)度算法,達到意圖的精準識別和任務的高效規(guī)劃,實現(xiàn)模型、智算資源的引入也帶來了新的風險,已公布的GPU相關的CVE漏洞高達700方式進行分析防范;并借助時序分析、行為特征分析等技術(shù)監(jiān)測GPU/CPU利l可信計算技術(shù):應用硬件級安全芯片(如TPM/TCM)構(gòu)建底層信任根,在其智算場景面臨的數(shù)據(jù)安全風險主要包括針對數(shù)據(jù)的攻擊和通過數(shù)據(jù)發(fā)起攻結(jié)果的偏差會對AI模型使用者造成安全威脅。針對模型自身安全合規(guī)、模型被內(nèi)容合規(guī)性、結(jié)果可信性等方面的檢測,用AI對抗AI,實現(xiàn)“用魔法打敗實現(xiàn)綠色人工智能(GREENAI)。AI大模型快速發(fā)展推動云智算系統(tǒng)算力需求激增,帶來高能耗與碳排放問l能效管理技術(shù):提出能效、碳效、算效評價模型,形成“評價-優(yōu)化-管控”隨著AI大模型快速發(fā)展,高密芯片TDP持續(xù)攀升,算力基礎設施制冷模式l空調(diào)智慧化運維技術(shù):通過AI驅(qū)動的能耗優(yōu)化與預測云智算系統(tǒng)的高能耗與高碳排放已成為綠色低碳發(fā)展的核心挑戰(zhàn)。為破解l算電協(xié)同技術(shù):通過構(gòu)建“信息流-能量流”雙向耦合機制,實現(xiàn)聯(lián)OISA、全調(diào)度以太網(wǎng)GSE等核心技術(shù)突破可推動計算效率顯著提升,而算力原生、智能體開發(fā)體系等技術(shù)演進正加速AI應用普惠化發(fā)展。面向未來,隨著存算一體、量子計算等技術(shù)的不斷成熟,將開啟訓練、推理端到端計算框架,打造量子神經(jīng)網(wǎng)絡新模型,構(gòu)建量子AI信息處理),中國移動將積極布局UDCI國內(nèi)外標準,拉通產(chǎn)業(yè)合作,推動芯片、設備、測試儀表的成熟。與此同時,中國移動還將大力推進UDCI關鍵技術(shù)的落地實現(xiàn)模型分發(fā)網(wǎng)絡(MDN)可充分發(fā)揮運營商算網(wǎng)資源優(yōu)勢,通過云邊協(xié)同的分布式推理架構(gòu)以及均衡調(diào)度、安全接入、大小模型調(diào)度、PD分離等不同協(xié)同模式,為用戶提供無處不在的低時延推理服務,支撐AI普惠時代億級海量用戶的惠智能時代的AI產(chǎn)業(yè)發(fā)展。[1]COCA(ComputeOnChipArchitectu[5]《面向AI的DPU技術(shù)能力要求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論