《智能計算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見稿)_第1頁
《智能計算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見稿)_第2頁
《智能計算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見稿)_第3頁
《智能計算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見稿)_第4頁
《智能計算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見稿)_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS33.040.40CCSM3231IntelligentComputingInfrastr在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。IDBXX/TXXXX—XXXX 2規(guī)范性引用文件 3術(shù)語和定義 4縮略語 25智能計算基礎(chǔ)設(shè)施總體框架 35.1框架構(gòu)成 35.2配套體系 45.3能力體系 45.4服務(wù)體系 45.5評價體系 46配套體系要求 46.1配套設(shè)施 56.1.1機房建設(shè) 56.1.2機電配套 56.2運行要求 66.2.1綠色節(jié)能 66.2.2安全可靠 67能力體系要求 67.1計算能力 67.1.1芯片要求 67.1.2服務(wù)器要求 77.2網(wǎng)絡(luò)能力 77.2.1網(wǎng)絡(luò)架構(gòu) 77.2.2網(wǎng)絡(luò)性能 87.3存儲能力 97.3.1存儲類型 97.3.2存儲性能 97.4資源管理能力 97.4.1資源納管 97.4.2資源調(diào)度 7.4.3資源維護 8服務(wù)體系要求 8.1算力服務(wù) 8.2算法服務(wù) DBXX/TXXXX—XXXX8.3數(shù)據(jù)服務(wù) 8.4運營服務(wù) 9評價體系要求 9.1配套評價 9.2能力評價 9.2.1計算能力評價 9.2.2網(wǎng)絡(luò)能力評價 9.2.3存儲能力評價 9.2.4資源管理能力評價 9.3服務(wù)評價 9.4等級評價 DBXX/TXXXX—XXXX本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。本文件由上海市經(jīng)濟和信息化委員會提出并組織實施。本文件由上海市信息標準化技術(shù)委員會歸口。本文件起草單位:上海超級計算中心、中國電信上海分公司、中國信息通信研究院、上海大學、上海郵電設(shè)計咨詢研究院有限公司、華為技術(shù)有限公司、曙光信息產(chǎn)業(yè)股份有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、上海商湯科技開發(fā)有限公司、中興通訊有限公司、新華三技術(shù)有限公司、上海市信產(chǎn)通信服務(wù)有限公司本文件主要起草人:DBXX/TXXXX—XXXX國家發(fā)布多項政策推進和規(guī)范智能計算基礎(chǔ)設(shè)施建設(shè),引導(dǎo)集約化、規(guī)模化、綠色化發(fā)展,而智能計算等新型基礎(chǔ)設(shè)施具有高技術(shù)、高算力、高能效、高安全等特征,大模型應(yīng)用的需求促進算力的快速迭代,上海市提出要規(guī)范智能計算基礎(chǔ)設(shè)施建設(shè),提高資源利用率,減少投資浪費。智能計算基礎(chǔ)設(shè)施系列標準規(guī)定了智能計算基礎(chǔ)設(shè)施應(yīng)包含的部分和應(yīng)滿足的要求,從應(yīng)用的角度將智能計算基礎(chǔ)設(shè)施定義為配套體系、能力體系、服務(wù)體系和評價體系。DB31xx-xx《智能計算基礎(chǔ)設(shè)施》擬由五個部分構(gòu)成?!?部分:系統(tǒng)框架。目的在于提供智能計算基礎(chǔ)設(shè)施總體系統(tǒng)框架、各組成部分描述和要求以及對各部分評價的基本要求?!?部分:能力體系。目的在于提供包括計算、網(wǎng)絡(luò)、存儲等資源的能力要求,以及對針對這些核心資源和能力的運維管理要求?!?部分:服務(wù)體系。目的在于提供智能計算基礎(chǔ)設(shè)施對用戶提供的算力、算法、數(shù)據(jù)、運營等服務(wù)的要求?!?部分:配套體系。目的在于提供智能計算基礎(chǔ)設(shè)施的機房、機電配套設(shè)施的建設(shè)和運行要——第5部分:評價體系。目的在于提供智能計算基礎(chǔ)設(shè)施配套體系、能力體系、服務(wù)體系以及整體系統(tǒng)等級的評價標準。1DBXX/TXXXX—XXXX智能計算基礎(chǔ)設(shè)施第1部分:系統(tǒng)框架本文件規(guī)定了智能計算基礎(chǔ)設(shè)施的總體系統(tǒng)框架,其中包括總體系統(tǒng)框架的組成和對各個組成部分的定義、要求和評價等相關(guān)內(nèi)容。本文件適用于智能計算基礎(chǔ)設(shè)施總體架構(gòu)規(guī)劃、設(shè)計、建設(shè)、運營及評價。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB40879-2021《數(shù)據(jù)中心能效限定值及能效等級》GB50016-2014《建筑設(shè)計防火規(guī)范》GB50084-2017《自動噴水滅火系統(tǒng)設(shè)計規(guī)范》GB50174-2017《數(shù)據(jù)中心設(shè)計規(guī)范》GB50311-2007《綜合布線系統(tǒng)工程設(shè)計規(guī)范》GB50370-2005《氣體滅火系統(tǒng)設(shè)計規(guī)范》GB50736-2012《民用建筑供暖通風與空氣調(diào)節(jié)設(shè)計規(guī)范》GB50898-2013《細水霧滅火系統(tǒng)技術(shù)規(guī)范》GB/T9813.3-2017《計算機通用規(guī)范第3部分:服務(wù)器》GB/T41867-2022《信息技術(shù)人工智能術(shù)語》GB/T42018-2022《信息技術(shù)人工智能平臺計算資源規(guī)范》YD/T4389-2023《AI服務(wù)器及能力平臺技術(shù)要求(信通院)》DB31/T310008-2021《公共機構(gòu)綠色數(shù)據(jù)中心評定規(guī)范》3術(shù)語和定義GB/T41867-2022、GB/T42018-2022界定的以及下列術(shù)語和定義適用于本文件。3.1人工智能計算芯片AIcomputingchip計算芯片是一種專門設(shè)計用于執(zhí)行復(fù)雜計算任務(wù)的半導(dǎo)體器件,包括但不限于CPU、GPU、FPGA、ASIC、TPU、NPU等類型。人工智能計算芯片是提供人工智能應(yīng)用處理能力的計算芯片。[來源:GB/T41867-2022,3.1.5,有修改]3.2人工智能計算服務(wù)器AIcomputingserver人工智能計算服務(wù)器是一種滿足人工智能訓(xùn)練或推理等復(fù)雜計算任務(wù)的特定的計算服務(wù)器。2DBXX/TXXXX—XXXX[來源:GB/T41867-2022,3.1.3,有修改]3.3智能算力AIcomputingpower算力是計算服務(wù)器通過對數(shù)據(jù)進行處理后實現(xiàn)結(jié)果輸出的一種能力。智能算力是人工智能計算服務(wù)器進行人工智能算法模型訓(xùn)練與模型運行服務(wù)的計算系統(tǒng)能力。3.4異構(gòu)算力heterogeneouscomputingpower異構(gòu)算力是在同一服務(wù)器中,使用如CPU、GPU、FPGA、ASIC等多種不同架構(gòu)的計算芯片協(xié)同工作,以滿足不同的計算需求,提高計算效率和性能。3.5智能算力集群AIcomputingpowercluster智能算力集群是一種由多個人工智能計算服務(wù)器組成的集合,這些節(jié)點通過網(wǎng)絡(luò)相互連接,形成統(tǒng)一的計算資源池,專門用于執(zhí)行人工智能相關(guān)的計算任務(wù)。[來源:GB/T41867-2022,3.1.4,有修改]3.6模型訓(xùn)練modeltraining模型訓(xùn)練是在機器學習和人工智能領(lǐng)域,通過學習大量數(shù)據(jù)和算法來調(diào)整模型參數(shù),使模型具有模式識別、預(yù)測和解決問題的能力。[來源:GB/T41867-2022,3.2.18,有修改]3.7模型推理modelinference模型推理是在人工智能和機器學習領(lǐng)域中,已經(jīng)訓(xùn)練好的模型對新輸入數(shù)據(jù)進行預(yù)測或分類的過程。[來源:GB/T42018-2022,3.12,有修改]4縮略語下列縮略語適用于本文件。AI:人工智能(ArtificialIntelligence)API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)ASIC:專用集成電路(Application-SpecificIntegratedCircuit)BA:建筑設(shè)備自動化系統(tǒng)(BuildingAutomationSystem)BF16:16位腦浮點(BrainFloatingPoint16)CLI:命令行界面(CommandLineInterface)CPU:中央處理器(CentralProcessingUnit)CUE:碳使用效率(CarbonUsageEffectiveness)FLOPS:每秒浮點運算次數(shù)(floating-pointoperationspersecond)FP8:8位半精度浮點數(shù)(8bitshalf-precisionFloatingPoint)FP16:16位半精度浮點數(shù)(16bitshalf-precisionFloatingPoint)FP32:32位單精度浮點數(shù)(32bitssingle-precisionFloatingPoint)FP64:64位雙精度浮點數(shù)(64bitsdouble-precisionFloatingPoint)3DBXX/TXXXX—XXXXFPGA:現(xiàn)場可編程門陣列(Field-ProgrammableGateArray)GEMM:通用矩陣的矩陣乘法(GEneralMatrixtomatrixMultiplication)GDDR5:第五版圖形用雙倍資料傳輸率存儲器(GraphicsDoubleDataRate,version5)GDDR6:第六版圖形用雙倍資料傳輸率存儲器(GraphicsDoubleDataRate,version6)GPU:圖形處理器(GraphicsProcessingUnit)HBM:高帶寬內(nèi)存(HighBandwidthMemory)HBM2:第二代高帶寬內(nèi)存(HighBandwidthMemory2)HBM2e:第二代增強型高帶寬內(nèi)存(HighBandwidthMemory2e)HBM3:第三代高帶寬內(nèi)存(HighBandwidthMemory3)HDFS:Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)HVDC:高壓直流輸電(HighVoltageDirectCurrent)INT4:4位八分之一精度整型(4bitsone-eighth-precisionINTeger)INT8:8位四分之一精度整型(8bitsquarter-precisionINTeger)IT:信息技術(shù)(InformationTechnology)M-LAG:跨設(shè)備鏈路聚合組(MultichassisLinkAggregationGroup)NPU:神經(jīng)網(wǎng)絡(luò)處理單元(Neural-networkProcessingUnit)NVMe:非易失性內(nèi)存主機控制器接口規(guī)范(Non-VolatileMemoryExpress)OAM:開放加速模組(OpenAcceleratorModule)PCIE:外設(shè)部件互連擴展(PeripheralComponentInterconnectExpress)PUE:電源使用效率(PowerUsageEffectiveness)RDMA:遠程直接內(nèi)存訪問(RemoteDirectMemoryAccess)ReLU:整流線性單位函數(shù)(RectifiedLinearUnit)RESTfulAPI:表現(xiàn)層狀態(tài)轉(zhuǎn)移應(yīng)用程序編程接口(RepresentationalStateTransferAPI)RoCE:允許通過以太網(wǎng)使用RDMA技術(shù)進行數(shù)據(jù)傳輸(RDMAoverConvergedEthernet)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)SSD:固態(tài)硬盤(SolidStateDrive)TCP/IP:傳輸控制協(xié)議/因特網(wǎng)互聯(lián)協(xié)議(TransmissionControlProtocol/InternetProtocol)UPS:不間斷電源(UninterruptiblePowerSupply)VLLM:超大規(guī)模語言模型(VeryLargeLanguageModel)WUE:水使用效率(WaterUsageEffectiveness)5智能計算基礎(chǔ)設(shè)施總體框架5.1框架構(gòu)成智能計算基礎(chǔ)設(shè)施是基于最新人工智能理論,采用領(lǐng)先的人工智能計算架構(gòu),提供算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的新型算力基礎(chǔ)設(shè)施。智能計算基礎(chǔ)設(shè)施總體框架由配套體系、能力體系、服務(wù)體系和評價體系四個部分構(gòu)成,如圖1所示。4DBXX/TXXXX—XXXX圖1智能計算基礎(chǔ)設(shè)施總體框架5.2配套體系智能計算基礎(chǔ)設(shè)施的配套體系應(yīng)根據(jù)所承載業(yè)務(wù)需求確定可用性等級,綜合外市電容量、土地、既有建筑層高、承重等條件對機房、機電配套設(shè)施提出建設(shè)要求,同時在建設(shè)運營過程中充分考慮綠色節(jié)能、安全可靠的運行要求。5.3能力體系智能計算基礎(chǔ)設(shè)施的能力體系應(yīng)包括計算、網(wǎng)絡(luò)、存儲三大類核心硬件和整體的資源管理能力,以符合可支持各種大規(guī)模、復(fù)雜度高的智能計算任務(wù)的要求。a)計算能力應(yīng)包括對AI計算芯片和AI計算服務(wù)器的要求,符合人工智能訓(xùn)練、人工智能推理等應(yīng)用需求;b)網(wǎng)絡(luò)能力應(yīng)包括對業(yè)務(wù)網(wǎng)絡(luò)、參數(shù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)的架構(gòu)和性能的要求,符合大規(guī)模組網(wǎng)、高帶寬、零丟包、低延時和抖動以及高穩(wěn)定性等特性;c)存儲能力應(yīng)包括對存儲設(shè)備的類型和性能的要求,符合并行處理、數(shù)據(jù)并行訪問、節(jié)點負載均衡、多級緩存、數(shù)據(jù)安全、高可靠和集群擴展等方面的要求;d)資源管理能力應(yīng)包括對異構(gòu)資源進行統(tǒng)一納管、調(diào)度和維護,符合人工智能任務(wù)多機多卡部署、運行與調(diào)度,并優(yōu)化服務(wù)器集群中的資源利用效率。5.4服務(wù)體系智能計算基礎(chǔ)設(shè)施的服務(wù)體系應(yīng)包括對外提供的智能算力服務(wù)、算法服務(wù)、數(shù)據(jù)服務(wù)、運營服務(wù)等服務(wù)內(nèi)容,符合靈活的資源的提供與整合、豐富的業(yè)務(wù)的提供與生態(tài)、全棧的服務(wù)的支持與配套等方面要求。5.5評價體系智能計算基礎(chǔ)設(shè)施的評價體系應(yīng)包括對智能計算基礎(chǔ)設(shè)施配套、計算能力、網(wǎng)絡(luò)能力、存儲能力、資源管理能力、服務(wù)以及系統(tǒng)等級的評價標準,符合可用于評估智能計算基礎(chǔ)設(shè)施綜合能力的要求。6配套體系要求5DBXX/TXXXX—XXXX6.1配套設(shè)施6.1.1機房建設(shè)智能計算基礎(chǔ)設(shè)施的機房建設(shè)要求包含:a)智算機房的選址、設(shè)計、環(huán)保、節(jié)能、消防應(yīng)滿足GB50174的相關(guān)規(guī)定;b)應(yīng)靠近干線通信線路,并具備多路由接入條件;c)應(yīng)有可靠電力供應(yīng),宜引入一類市電;d)應(yīng)有可靠的供水,滿足智算工藝空調(diào)的用水量及水質(zhì)要求;e)智算機房的建筑、裝飾工程應(yīng)符合智算工藝、通信工藝和電源對土建的要求;f)智算機房的平面布局、層高、承重應(yīng)考慮高密度機柜設(shè)備及液冷空調(diào)設(shè)備的布置要求;g)智算機房各樓層應(yīng)預(yù)留充足的電力、空調(diào)豎向管井和孔洞,為同樓層或跨樓層機房之間供配電和制冷量的靈活調(diào)度提供條件;h)宜采用預(yù)制裝配式、模塊化建筑;i)鄰近主機房區(qū)域宜配置相應(yīng)的客戶操作用房。6.1.2機電配套智能計算基礎(chǔ)設(shè)施的機電配套要求包含:a)智算機電配套系統(tǒng)包括電力、空氣調(diào)節(jié)、網(wǎng)絡(luò)與布線、給排水、智能化等子系統(tǒng);b)各類機電設(shè)備應(yīng)根據(jù)工藝設(shè)計進行布置,應(yīng)滿足系統(tǒng)運行、運行管理、人員操作、設(shè)備和物料運輸、設(shè)備散熱、安裝和維護的要求;c)供配電、空調(diào)系統(tǒng)應(yīng)為智能計算基礎(chǔ)設(shè)施IT系統(tǒng)的可擴展性預(yù)留備用容量;d)通信電源供電形式應(yīng)選擇不間斷電源系統(tǒng),宜采用2N交流UPS系統(tǒng),或一路市電+一路HVDC供電模式;e)柴發(fā)設(shè)備宜按照無冗余配置;f)智算機房空調(diào)系統(tǒng)應(yīng)根據(jù)智算業(yè)務(wù)情況、室外冷源產(chǎn)品自身的特點、氣象條件、水資源情況,選擇合適的冷源系統(tǒng),可采用風冷、液冷或風液混合形式;g)智能計算基礎(chǔ)設(shè)施與其它功能用房共建于同一建筑內(nèi)時,應(yīng)設(shè)置獨立的空氣調(diào)節(jié)系統(tǒng);h)空調(diào)制冷劑宜使用臭氧層破壞潛能值為0或者全球變暖系數(shù)值較低的產(chǎn)品;i)網(wǎng)絡(luò)布線根據(jù)網(wǎng)絡(luò)架構(gòu)、用戶需求和技術(shù)發(fā)展趨勢進行規(guī)劃和設(shè)計,房宜采用模塊化的部署方式;j)機房線纜布放宜選擇開放式線架采用上走線方式,強電、弱電,光纖、銅纜宜分別布線;k)輔助區(qū)、支持區(qū)布線系統(tǒng)設(shè)計應(yīng)符合GB50311的有關(guān)規(guī)定,設(shè)備布置應(yīng)滿足時延要求;l)給排水系統(tǒng)應(yīng)滿足智能計算基礎(chǔ)設(shè)施設(shè)備運行工藝需求,當工藝需求不明確時,可按GB50174和GB50736的相關(guān)規(guī)定確定;m)智能化系統(tǒng)宜分為機房運維區(qū)域、公共物管區(qū)兩類場景來考慮;n)機房運維區(qū)建設(shè)內(nèi)容應(yīng)包括動環(huán)系統(tǒng)、BA系統(tǒng)、安防系統(tǒng)、巡檢系統(tǒng)、AI調(diào)優(yōu)系統(tǒng);o)公共物管區(qū)建設(shè)內(nèi)容應(yīng)包括安防系統(tǒng)、BA系統(tǒng)、服務(wù)系統(tǒng);p)智能化系統(tǒng)架構(gòu)宜包含數(shù)據(jù)采集層、設(shè)備監(jiān)控層和集中監(jiān)控層,智能化系統(tǒng)應(yīng)以實現(xiàn)園區(qū)級全局化、綜合化、可視化的數(shù)據(jù)共享分析和高效管理,實現(xiàn)快速故障分析與定位,指導(dǎo)現(xiàn)場人員處置操作和日常巡檢維護作業(yè)為目的;6DBXX/TXXXX—XXXXq)智能化系統(tǒng)應(yīng)具有先進性、可靠性、安全性、集成性、可擴展性,并應(yīng)支持后期建設(shè)的升級改造和新系統(tǒng)的接入。6.2運行要求6.2.1綠色節(jié)能智能計算基礎(chǔ)設(shè)施運行中的綠色節(jié)能要求包含:a)在智能計算基礎(chǔ)設(shè)施規(guī)劃選址、設(shè)計、建設(shè)、采購、運營、改造、回收等全生命周期的各個階段落實綠色減碳理念的植入和評價,實現(xiàn)“量化可見”的全程監(jiān)控;b)智能計算基礎(chǔ)設(shè)施建設(shè)運營期,宜采用清潔能源替代傳統(tǒng)能源,通過有效的能源管理和碳中和措施來減少對氣候的負面影響;c)應(yīng)從供能側(cè)、用能側(cè)、抵消側(cè)三個方面考慮減碳措施,包含綠色能源、綠色低碳園區(qū)、綠色低碳建筑、綠色低碳機電配套、綠色低碳算網(wǎng)、綠色低碳算力應(yīng)用的各個方面;d)注重提高智能計算基礎(chǔ)設(shè)施的能源效率,通過采用先進的節(jié)能技術(shù)和優(yōu)化設(shè)備配置,最大限度降低能源消耗;e)新建智能計算基礎(chǔ)設(shè)施的能效等級不應(yīng)低于GB40879規(guī)定的2級水平,年均設(shè)計PUE不高于1.3,且應(yīng)符合國家和上海市相關(guān)政策及規(guī)范要求;f)PUE值的計算及測試方法應(yīng)參照GB40879的有關(guān)規(guī)定。6.2.2安全可靠智能計算基礎(chǔ)設(shè)施運行中的安全可靠要求包含:a)配套體系的安全要求包括物理空間、供電、消防、環(huán)境方面的安全;b)安全防范應(yīng)符合GB50348第5.1節(jié)“通用型公共建筑安全防范工程設(shè)計”中的“一般規(guī)定”和“先進型安防工程設(shè)計”的技術(shù)要求;c)智能計算基礎(chǔ)設(shè)施防火和滅火系統(tǒng)設(shè)計應(yīng)符合GB50016、GB50370、GB50898和GB50084的規(guī)定;d)配套體系中應(yīng)建立安保防范系統(tǒng),包括視頻安防監(jiān)控系統(tǒng)、入侵報警系統(tǒng)和出入口控制系統(tǒng),各系統(tǒng)應(yīng)具備聯(lián)動控制功能;e)可靠要求指配套體系應(yīng)具備良好的運行工況,以保障主設(shè)備及網(wǎng)絡(luò)的持續(xù)穩(wěn)定運行,達到提高智能計算基礎(chǔ)設(shè)施的可靠性、排除隱患、延長壽命期的目的。7能力體系要求7.1計算能力7.1.1芯片要求智能計算基礎(chǔ)設(shè)施中對AI計算芯片的要求包含:a)應(yīng)支持多種AI計算芯片,包括但不限于GPU、ASIC、FPGA等,同時具備CPU等通用算力;b)應(yīng)擁有片上高速內(nèi)存儲空間,該存儲空間基于GDDR5、GDDR6、HBM、HBM2、HBM2e、HBM3或更新技術(shù)實現(xiàn);c)宜支持芯片間高速專有互連協(xié)議,如NVLINK、OAM等;d)應(yīng)支持FP32、FP16、INT8等基本精度;宜支持BF16、FP8精度;可支持FP64精度;7DBXX/TXXXX—XXXXe)應(yīng)支持至少一種主流計算框架,如TensorFlow、PyTorch、MindSpore、PaddlePaddle等;f)應(yīng)支持至少一種主流分布式計算框架,如DeepSpeed等;支持至少一種分布式并行策略,如張量并行、數(shù)據(jù)并行、流水線并行等;g)應(yīng)支持人工智能常用算子,如GEMM、Sigmoid、ReLU等;h)應(yīng)支持各類人工智能模型的訓(xùn)練、推理,包含但不限于機器視覺、機器學習、自然語言處理、語音識別、模式識別、圖像和視頻分析、知識圖譜等;i)應(yīng)具有良好的生態(tài),以方便在不同的芯片間進行模型和業(yè)務(wù)的遷移,應(yīng)提供完善的遷移工具。7.1.2服務(wù)器要求智能計算基礎(chǔ)設(shè)施中對AI計算服務(wù)器的要求包含:a)應(yīng)滿足GB/T9813.3-2017中的相關(guān)規(guī)定;b)應(yīng)支持DDR4及以上內(nèi)存;c)應(yīng)支持NVMeSSD等高速硬盤接口;d)應(yīng)支持至少一種計算芯片的互聯(lián)協(xié)議,如PCIE、NVLINK、OAM等;e)應(yīng)支持冗余熱插拔電源,支持單風扇失效;f)應(yīng)支持帶內(nèi)和帶外管理,具備遠程管理和性能檢測功能;g)應(yīng)保證具有有效的散熱和冷卻系統(tǒng),可支持液冷冷卻,以保持系統(tǒng)的穩(wěn)定性和性能;h)主要部件如硬盤、內(nèi)存、網(wǎng)卡等應(yīng)具有良好的擴展性;i)可按照業(yè)務(wù)負載分為訓(xùn)練服務(wù)器和推理服務(wù)器;j)應(yīng)配置高速無損網(wǎng)絡(luò),支持RDMA互聯(lián);k)訓(xùn)練服務(wù)器應(yīng)支持主流全線速網(wǎng)絡(luò)拓撲架構(gòu),包括但不限于胖樹等;l)推理服務(wù)器應(yīng)配置高速網(wǎng)絡(luò),宜支持無損網(wǎng)絡(luò)技術(shù),宜支持RDMA互聯(lián)。7.2網(wǎng)絡(luò)能力7.2.1網(wǎng)絡(luò)架構(gòu)7.2.1.1業(yè)務(wù)網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的業(yè)務(wù)網(wǎng)絡(luò)用于承載客戶訪問訓(xùn)練和推理集群、訓(xùn)練數(shù)據(jù)加載、訓(xùn)練結(jié)果導(dǎo)出等流量,其架構(gòu)應(yīng)符合以下要求:a)業(yè)務(wù)網(wǎng)絡(luò)采用二層樹形組網(wǎng)架構(gòu);b)兩臺業(yè)務(wù)接入交換機之間互聯(lián),同樣運行M-LAG協(xié)議;c)業(yè)務(wù)網(wǎng)絡(luò)采用傳統(tǒng)TCP/IP協(xié)議,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無明顯區(qū)別;d)業(yè)務(wù)匯聚交換機和業(yè)務(wù)接入交換機均成對部署。7.2.1.2管理網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的管理網(wǎng)絡(luò)用于承載帶內(nèi)/帶外管理流量,管理流量與業(yè)務(wù)流量應(yīng)互相隔離,其架構(gòu)應(yīng)符合以下要求:a)管理網(wǎng)絡(luò)應(yīng)采用二層樹形組網(wǎng)架構(gòu);b)智能計算基礎(chǔ)設(shè)施內(nèi)所有的網(wǎng)元(交換機、防火墻、服務(wù)器、存儲節(jié)點等設(shè)備)的帶外管理網(wǎng)口應(yīng)接入到帶外管理接入交換機;8DBXX/TXXXX—XXXXc)帶內(nèi)管理接入交換機宜成對配置,兩臺接入交換機之間可采用堆疊或M-LAG組網(wǎng),管理匯聚交換機交叉上連至CE路由器或核心交換機;d)管理網(wǎng)絡(luò)采用傳統(tǒng)TCP/IP協(xié)議,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無明顯區(qū)別;e)為保障管理網(wǎng)絡(luò)的安全性,管理網(wǎng)和其他網(wǎng)絡(luò)之間可通過防火墻進行隔離;f)服務(wù)器與存儲節(jié)點宜通過帶內(nèi)管理口接入到帶內(nèi)管理交換機,帶內(nèi)管理接入交換機宜成對部署。7.2.1.3參數(shù)網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的參數(shù)網(wǎng)絡(luò)用于訓(xùn)練場景下AI訓(xùn)練過程中的模型參數(shù)同步,單純推理場景無需建設(shè)參數(shù)網(wǎng)絡(luò),其架構(gòu)應(yīng)符合以下要求:a)參數(shù)面應(yīng)采用葉-脊組網(wǎng)架構(gòu);b)應(yīng)結(jié)合交換機端口密度以及AI計算服務(wù)器規(guī)模,決定葉-脊組網(wǎng)架構(gòu)層數(shù),不宜超過3層;c)參數(shù)面網(wǎng)絡(luò)應(yīng)采用基于RDMA(RemoteDirectMemoryAccess)技術(shù)的協(xié)議;d)葉節(jié)點交換機與脊節(jié)點交換機應(yīng)均勻全互聯(lián),葉節(jié)點交換機連接到每個脊節(jié)點交換機的端口數(shù)和速率都一樣。7.2.1.4存儲網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的存儲網(wǎng)絡(luò)包括樣本面高速存儲和存儲集群,用于承載計算集群和存儲陣列間的模型加載、數(shù)據(jù)集讀取、checkpoint寫入流量等,其架構(gòu)應(yīng)符合以下要求:a)應(yīng)根據(jù)對訓(xùn)練或推理場景性能要求,確定樣本網(wǎng)絡(luò)是否與業(yè)務(wù)網(wǎng)絡(luò)合設(shè);b)存儲網(wǎng)絡(luò)應(yīng)采用葉-脊組網(wǎng)架構(gòu);c)存儲網(wǎng)絡(luò)單獨組網(wǎng)時,應(yīng)采用基于RDMA(RemoteDirectMemoryAccess)技術(shù)的協(xié)議;d)存儲網(wǎng)絡(luò)與業(yè)務(wù)網(wǎng)絡(luò)合設(shè)時采用傳統(tǒng)TCP/IP協(xié)議;e)存儲網(wǎng)絡(luò)葉節(jié)點交換機應(yīng)根據(jù)AI計算服務(wù)器與存儲節(jié)點的接入方式,確定是否采用M-LAG組網(wǎng);f)葉節(jié)點交換機與脊節(jié)點交換機應(yīng)均勻全互聯(lián),葉節(jié)點交換機連接到每個脊節(jié)點交換機的端口數(shù)和速率應(yīng)保持一致。7.2.2網(wǎng)絡(luò)性能7.2.2.1業(yè)務(wù)網(wǎng)絡(luò)與管理網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的業(yè)務(wù)網(wǎng)絡(luò)與管理網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)業(yè)務(wù)接入交換機下行帶寬,應(yīng)與服務(wù)器實際業(yè)務(wù)出口帶寬保持一致;b)業(yè)務(wù)接入交換機之間的互聯(lián)帶寬應(yīng)與下行總帶寬成固定比例;c)業(yè)務(wù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)上下行帶寬與性能要求應(yīng)滿足業(yè)務(wù)實際需求,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無明顯區(qū)別;d)管理網(wǎng)絡(luò)應(yīng)具備性能優(yōu)化、故障排除和網(wǎng)絡(luò)管理等功能,并具備實時監(jiān)測手段和工具。7.2.2.2參數(shù)網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的參數(shù)網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)參數(shù)網(wǎng)絡(luò)葉節(jié)點交換機下行單端口帶寬,應(yīng)與AI計算服務(wù)器實際單個GPU/NPU出口帶寬保持一致;9DBXX/TXXXX—XXXXb)葉節(jié)點交換機上行單端口帶寬不應(yīng)低于下行單端口帶寬;c)為減少參數(shù)網(wǎng)絡(luò)擁塞,葉節(jié)點交換機下行總帶寬與上行總帶寬的比例應(yīng)為1:1;d)參數(shù)網(wǎng)絡(luò)應(yīng)具備零丟包以及負載均衡能力,交換機各鏈路實際吞吐量應(yīng)做到平均分配。7.2.2.3存儲網(wǎng)絡(luò)智能計算基礎(chǔ)設(shè)施的存儲網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)普通存儲網(wǎng)絡(luò)可參考業(yè)務(wù)網(wǎng)絡(luò)性能要求;b)樣本高速存儲網(wǎng)絡(luò)單獨組網(wǎng)時,應(yīng)做到低延時、零丟包、高可靠、高吞吐,保證網(wǎng)絡(luò)性能與可靠性。7.3存儲能力7.3.1存儲類型智能計算基礎(chǔ)設(shè)施中對存儲類型的要求包含:a)宜配套高性能熱存儲、大容量冷存儲等多級存儲系統(tǒng),滿足冷熱數(shù)據(jù)存儲需求;b)熱存儲宜采用分布式存儲系統(tǒng),全對稱架構(gòu)或者非對稱架構(gòu);c)熱存儲應(yīng)支持不同存儲協(xié)議的訪問需求,如文件、對象、塊、HDFS等;d)熱存儲宜支持高速網(wǎng)絡(luò),支持RDMA技術(shù)或支持RDMA的RoCE等網(wǎng)絡(luò)協(xié)議;e)熱存儲節(jié)點應(yīng)采用通用的服務(wù)器架構(gòu),應(yīng)具備部件擴展能力,如內(nèi)存、硬盤等;f)宜支持多級存儲,支持數(shù)據(jù)在熱存儲池和冷存儲池之間的流動;g)應(yīng)支持多維度冗余,如部件級冗余、節(jié)點級冗余、機柜級冗余等,保證數(shù)據(jù)高可靠性;h)應(yīng)支持在線維護功能,在不影響系統(tǒng)正常運行的情況下進行硬件部件的更換和維護;i)應(yīng)支持自動故障恢復(fù)能力,能夠在故障發(fā)生時自動切換到備用路徑或備用設(shè)備;j)應(yīng)支持多種數(shù)據(jù)保護機制,如支持基于時間策略的快照、遠程復(fù)制等功能;k)應(yīng)具備數(shù)據(jù)的冗余存儲和容錯機制,以確保在節(jié)點故障或數(shù)據(jù)損壞時進行數(shù)據(jù)恢復(fù);l)支持數(shù)據(jù)一致性檢查功能,保證寫入數(shù)據(jù)的一致性;m)應(yīng)支持系統(tǒng)狀態(tài)和性能的監(jiān)控,支持郵件、短信等告警功能;n)支持在線系統(tǒng)擴容,且不需要更改應(yīng)用程序,擴容時客戶業(yè)務(wù)無感知。7.3.2存儲性能智能計算基礎(chǔ)設(shè)施中對存儲性能的要求包含:a)應(yīng)支持并行化技術(shù),支持系統(tǒng)并行處理,數(shù)據(jù)并發(fā)訪問;b)熱存儲應(yīng)支持負載均衡,存儲性能隨節(jié)點增加近似線性增長;c)熱存儲宜采用性能優(yōu)化技術(shù),如優(yōu)化協(xié)議、通信模式、數(shù)據(jù)壓縮等,以提高系統(tǒng)的整體性能;d)熱存儲宜支持多級緩存機制,如內(nèi)存、SSD緩存和基于客戶端本地NVMe硬盤的緩存等;e)熱存儲宜支持計算卡對存儲的直接訪問;f)熱存儲宜支持NVMe協(xié)議,支持全NVMeSSD存儲池。7.4資源管理能力7.4.1資源納管DBXX/TXXXX—XXXX資源納管應(yīng)對AI計算芯片、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備等物理資源進行統(tǒng)一的管理。為實現(xiàn)資源的高效整合,利用資源虛擬化技術(shù),對上述設(shè)備資源進行抽象,在一定程度上屏蔽異構(gòu)性,從而形成邏輯計算資源,以標準算力的形式提供給用戶使用。資源虛擬化包括:算力虛擬化、存儲池化、網(wǎng)絡(luò)虛擬化,應(yīng)提供如下功能:a)應(yīng)采用分布式架構(gòu)、模塊化設(shè)計,具備可擴展性,可實現(xiàn)資源平滑擴展、持續(xù)運行;b)應(yīng)支持異構(gòu)計算芯片、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備統(tǒng)一納管,并提供細粒度資源管理能力;c)應(yīng)提供數(shù)據(jù)分類分級管理機制與管理策略,并提供冷、熱數(shù)據(jù)流動機制;d)應(yīng)支持網(wǎng)絡(luò)功能虛擬化和軟件定義網(wǎng)絡(luò);e)應(yīng)支持人工智能任務(wù)與計算資源的解耦能力,使得任務(wù)可運行在集群不同節(jié)點上;f)應(yīng)提供資源封裝與隔離功能,多個人工智能任務(wù)可共享節(jié)點資源,但它們之間應(yīng)互相保持隔離,如同單獨運行在物理機上;g)應(yīng)提供高性能算力訓(xùn)練場景提供單服務(wù)器(多卡)、多服務(wù)器資源聚合能力,以實現(xiàn)大規(guī)模訓(xùn)練中的模型并行、數(shù)據(jù)并行與流水線并行。7.4.2資源調(diào)度資源調(diào)度通過調(diào)節(jié)人工智能任務(wù)部署位置和所屬計算資源,實現(xiàn)人工智能任務(wù)多卡多機部署與運行,優(yōu)化服務(wù)器集群中的資源利用效率。資源調(diào)度應(yīng)包括如下功能:a)應(yīng)支持對人工智能任務(wù)進行資源配置,如設(shè)置任務(wù)優(yōu)先級、任務(wù)所屬計算資源(節(jié)點數(shù)、算力/顯存,CPU/內(nèi)存)、任務(wù)調(diào)度類型、任務(wù)調(diào)度策略等內(nèi)容;b)應(yīng)為人工智能任務(wù)提供多種調(diào)度類型,如動態(tài)部署、任務(wù)遷移、動態(tài)調(diào)度、彈性擴縮容、跨集群調(diào)度等調(diào)度類型;c)應(yīng)為人工智能任務(wù)提供多種調(diào)度策略,如親和性和反親和性、污點和容忍、組調(diào)度策略、自定義調(diào)度策略等調(diào)度策略。7.4.3資源維護資源維護通過對各類設(shè)備和資源的進行性能監(jiān)控、告警監(jiān)控、故障管理、以及健康檢查,實現(xiàn)千卡/萬卡智能計算基礎(chǔ)設(shè)施關(guān)鍵性能監(jiān)控和數(shù)據(jù)可視化展示,從而保障智能計算基礎(chǔ)設(shè)施正常運行。資源維護應(yīng)包含如下功能:a)應(yīng)提供性能監(jiān)控功能,如計算資源監(jiān)控、存儲資源監(jiān)控、網(wǎng)絡(luò)資源監(jiān)控、租戶資源監(jiān)控等功能。除通用數(shù)據(jù)中心監(jiān)控指標外,還需提供算力芯片使用率、顯存使用率、算力芯片間網(wǎng)絡(luò)傳輸?shù)戎撬銏鼍皩傩阅鼙O(jiān)控功能;b)應(yīng)提供告警監(jiān)控功能,如告警配置、告警通知、告警級別、告警日志等功能;c)應(yīng)提供故障管理功能,如故障檢出規(guī)則管理、故障分析、故障定位、故障預(yù)警等功能;d)應(yīng)提供健康檢查功能,并對各類設(shè)備和資源的定期健康檢查與數(shù)據(jù)可視化展示。8服務(wù)體系要求8.1算力服務(wù)智能計算基礎(chǔ)設(shè)施面向大模型開發(fā)場景,在算力服務(wù)支持能力方面包括以下內(nèi)容:a)應(yīng)支持智算場景下超大規(guī)模異構(gòu)算力的納管與高效調(diào)度;b)應(yīng)支持智算場景下用戶自助式算力集群資源管理、工作負載管理和用戶權(quán)限管理;DBXX/TXXXX—XXXXc)應(yīng)提供多種智算實例規(guī)格,包括提自助式裸金屬、容器等計算云服務(wù)等;d)應(yīng)提供大規(guī)模算力池服務(wù),包括高性能、安全穩(wěn)定、彈性伸縮、智能調(diào)度等特點;e)應(yīng)支持不同模型開發(fā)與應(yīng)用過程中,網(wǎng)絡(luò)服務(wù)與存儲服務(wù)的自助式選擇和使用。包括高性能、強隔離的訓(xùn)推與存儲網(wǎng)絡(luò)服務(wù)、公網(wǎng)互通服務(wù)、高性能并行文件存儲服務(wù)、海量低成本對象存儲服務(wù)。8.2算法服務(wù)智能計算基礎(chǔ)設(shè)施面向大模型開發(fā)工具鏈場景,在算法服務(wù)支持能力(MaaS服務(wù))方面包括以下a)應(yīng)具備模型管理服務(wù),包括數(shù)據(jù)集創(chuàng)建、上傳、刪除,內(nèi)部文件管理,模型來源管理,模型發(fā)布管理,模型分類管理,模型版本管理等;b)應(yīng)支持模型推理服務(wù),包括支持模型快速部署為在線推理服務(wù),提供RESTfulAPI調(diào)用接口;支持為在線推理服務(wù)劃分專用資源池;支持在專用資源池范圍內(nèi)根據(jù)服務(wù)訪問量對模型實例進行擴容縮容;支持提供多種高性能推理引擎,包括TensorRT、VLLM等;支持超大模型分布式推理能力;c)應(yīng)支持模型訓(xùn)練服務(wù),包括支持單機多卡、多機多卡分布式訓(xùn)練任務(wù),支持模型增量訓(xùn)練,支持僅使用增量數(shù)據(jù)對模型進行訓(xùn)練,支持直接將訓(xùn)練完成的模型部署推理的一鍵式流程,支持自定義調(diào)節(jié)訓(xùn)練任務(wù)的參數(shù)。8.3數(shù)據(jù)服務(wù)智能計算基礎(chǔ)設(shè)施面向海量數(shù)據(jù)場景,在數(shù)據(jù)服務(wù)能力方面包括以下內(nèi)容:a)應(yīng)支持數(shù)據(jù)集生命周期管理,包括數(shù)據(jù)集接入、版本管理、數(shù)據(jù)可視化、數(shù)據(jù)集授權(quán)等,提供Web、SDK、CLI等多種開發(fā)者工具;b)應(yīng)支持多模態(tài)數(shù)據(jù)標注能力,包括圖片、視頻、語音、文本、點云等多模態(tài)數(shù)據(jù)的標注,涵蓋多模態(tài)數(shù)據(jù)標注工具集、AI智能標注;c)應(yīng)支持標注質(zhì)量控制標準管理,包含實時監(jiān)控標注質(zhì)量、把控標注進度、追蹤審計標注行為、快速定位潛在風險;d)應(yīng)支持敏感數(shù)據(jù)識別能力,包括但不限于人臉、車牌等敏感數(shù)據(jù)脫敏;e)應(yīng)支持數(shù)據(jù)銷毀,支持銷毀指定數(shù)據(jù)不會留下任何痕跡;f)應(yīng)具備數(shù)據(jù)安全措施,包括數(shù)據(jù)傳輸安全、存儲安全、數(shù)據(jù)監(jiān)控、訪問控制、安全審批等。8.4運營服務(wù)智能計算基礎(chǔ)設(shè)施,面向運營服務(wù)場景應(yīng)包含以下內(nèi)容:a)應(yīng)提供準確、高效、容錯的用戶資源用量的統(tǒng)計機制與系統(tǒng),支持計量審計和校驗;b)應(yīng)制定詳細的計費規(guī)則,包括不同服務(wù)和資源的具體計費方式,如按量付費、預(yù)付費選項等;c)應(yīng)提供完整的成本估算工具或指南;d)應(yīng)采用實時數(shù)據(jù)處理和計費技術(shù);e)應(yīng)定期審計和校驗計量系統(tǒng);f)應(yīng)按賬戶提供完整的計費歷史記錄和詳細賬單;g)應(yīng)提供多種計費模式,滿足不同業(yè)務(wù)需求;h)應(yīng)提供支持服務(wù)等級說明,明確客戶服務(wù)和支持;DBXX/TXXXX—XXXXi)可提供按需調(diào)整服務(wù)等級和資源配置功能;j)宜滿足在基礎(chǔ)設(shè)施變化和擴展時的計費模型和計量機制的適應(yīng)性。9評價體系要求9.1配套評價智能計算基礎(chǔ)設(shè)施對配套體系的評價要求包含:a)智能計算基礎(chǔ)設(shè)施算力密度高,產(chǎn)生更多的熱量,需要配置更高效的散熱系統(tǒng),包括更多的空調(diào)單元、液冷系統(tǒng)或其他先進的冷卻技術(shù);b)智能計算基礎(chǔ)設(shè)施通常部署更高性能的服務(wù)器和存儲設(shè)備,供電要求遠高于傳統(tǒng)數(shù)據(jù)中心,單機架供電能力宜可擴展承載訓(xùn)練服務(wù)器和可擴展承載推理服務(wù)器的功耗;c)智能計算基礎(chǔ)設(shè)施算力集群規(guī)模越來越大,需要更多網(wǎng)絡(luò)交換機和光纖通道,布線需求更為復(fù)雜,要求有足夠的靈活性和可擴展性;d)智能計算基礎(chǔ)設(shè)施應(yīng)滿足更高的環(huán)保標準和節(jié)能減排要求,采用高效能設(shè)備,可再生能源,環(huán)保建筑材料,智能能源管理系統(tǒng),積極的綠色節(jié)能創(chuàng)新和實踐活動,盡可能降低CUE;e)智能計算基礎(chǔ)設(shè)施通常采用水冷等高效冷卻技術(shù),應(yīng)結(jié)合水回收和再利用技術(shù),提供更為環(huán)保和可持續(xù)的運營方式,盡可能降低WUE值;f)智能計算基礎(chǔ)設(shè)施對能源效率的要求更高,應(yīng)有更嚴格的PUE指標。9.2能力評價9.2.1計算能力評價智能計算基礎(chǔ)設(shè)施對計算能力的評價要求包含:a)智能算力的占比應(yīng)超過一定比例;b)算力規(guī)模以FLOPS為性能指標單位,以FP16數(shù)據(jù)類型的算力為代表;c)算力密度(FLOPS/架)遠大于普通提供通算能力的數(shù)據(jù)中心;d)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論