《智能計(jì)算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見(jiàn)稿)_第1頁(yè)
《智能計(jì)算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見(jiàn)稿)_第2頁(yè)
《智能計(jì)算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見(jiàn)稿)_第3頁(yè)
《智能計(jì)算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見(jiàn)稿)_第4頁(yè)
《智能計(jì)算基礎(chǔ)設(shè)施 第1部分:系統(tǒng)框架》(征求意見(jiàn)稿)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS33.040.40CCSM3231IntelligentComputingInfrastr在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。IDBXX/TXXXX—XXXX 2規(guī)范性引用文件 3術(shù)語(yǔ)和定義 4縮略語(yǔ) 25智能計(jì)算基礎(chǔ)設(shè)施總體框架 35.1框架構(gòu)成 35.2配套體系 45.3能力體系 45.4服務(wù)體系 45.5評(píng)價(jià)體系 46配套體系要求 46.1配套設(shè)施 56.1.1機(jī)房建設(shè) 56.1.2機(jī)電配套 56.2運(yùn)行要求 66.2.1綠色節(jié)能 66.2.2安全可靠 67能力體系要求 67.1計(jì)算能力 67.1.1芯片要求 67.1.2服務(wù)器要求 77.2網(wǎng)絡(luò)能力 77.2.1網(wǎng)絡(luò)架構(gòu) 77.2.2網(wǎng)絡(luò)性能 87.3存儲(chǔ)能力 97.3.1存儲(chǔ)類型 97.3.2存儲(chǔ)性能 97.4資源管理能力 97.4.1資源納管 97.4.2資源調(diào)度 7.4.3資源維護(hù) 8服務(wù)體系要求 8.1算力服務(wù) 8.2算法服務(wù) DBXX/TXXXX—XXXX8.3數(shù)據(jù)服務(wù) 8.4運(yùn)營(yíng)服務(wù) 9評(píng)價(jià)體系要求 9.1配套評(píng)價(jià) 9.2能力評(píng)價(jià) 9.2.1計(jì)算能力評(píng)價(jià) 9.2.2網(wǎng)絡(luò)能力評(píng)價(jià) 9.2.3存儲(chǔ)能力評(píng)價(jià) 9.2.4資源管理能力評(píng)價(jià) 9.3服務(wù)評(píng)價(jià) 9.4等級(jí)評(píng)價(jià) DBXX/TXXXX—XXXX本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由上海市經(jīng)濟(jì)和信息化委員會(huì)提出并組織實(shí)施。本文件由上海市信息標(biāo)準(zhǔn)化技術(shù)委員會(huì)歸口。本文件起草單位:上海超級(jí)計(jì)算中心、中國(guó)電信上海分公司、中國(guó)信息通信研究院、上海大學(xué)、上海郵電設(shè)計(jì)咨詢研究院有限公司、華為技術(shù)有限公司、曙光信息產(chǎn)業(yè)股份有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、上海商湯科技開(kāi)發(fā)有限公司、中興通訊有限公司、新華三技術(shù)有限公司、上海市信產(chǎn)通信服務(wù)有限公司本文件主要起草人:DBXX/TXXXX—XXXX國(guó)家發(fā)布多項(xiàng)政策推進(jìn)和規(guī)范智能計(jì)算基礎(chǔ)設(shè)施建設(shè),引導(dǎo)集約化、規(guī)?;?、綠色化發(fā)展,而智能計(jì)算等新型基礎(chǔ)設(shè)施具有高技術(shù)、高算力、高能效、高安全等特征,大模型應(yīng)用的需求促進(jìn)算力的快速迭代,上海市提出要規(guī)范智能計(jì)算基礎(chǔ)設(shè)施建設(shè),提高資源利用率,減少投資浪費(fèi)。智能計(jì)算基礎(chǔ)設(shè)施系列標(biāo)準(zhǔn)規(guī)定了智能計(jì)算基礎(chǔ)設(shè)施應(yīng)包含的部分和應(yīng)滿足的要求,從應(yīng)用的角度將智能計(jì)算基礎(chǔ)設(shè)施定義為配套體系、能力體系、服務(wù)體系和評(píng)價(jià)體系。DB31xx-xx《智能計(jì)算基礎(chǔ)設(shè)施》擬由五個(gè)部分構(gòu)成。——第1部分:系統(tǒng)框架。目的在于提供智能計(jì)算基礎(chǔ)設(shè)施總體系統(tǒng)框架、各組成部分描述和要求以及對(duì)各部分評(píng)價(jià)的基本要求?!?部分:能力體系。目的在于提供包括計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等資源的能力要求,以及對(duì)針對(duì)這些核心資源和能力的運(yùn)維管理要求?!?部分:服務(wù)體系。目的在于提供智能計(jì)算基礎(chǔ)設(shè)施對(duì)用戶提供的算力、算法、數(shù)據(jù)、運(yùn)營(yíng)等服務(wù)的要求?!?部分:配套體系。目的在于提供智能計(jì)算基礎(chǔ)設(shè)施的機(jī)房、機(jī)電配套設(shè)施的建設(shè)和運(yùn)行要——第5部分:評(píng)價(jià)體系。目的在于提供智能計(jì)算基礎(chǔ)設(shè)施配套體系、能力體系、服務(wù)體系以及整體系統(tǒng)等級(jí)的評(píng)價(jià)標(biāo)準(zhǔn)。1DBXX/TXXXX—XXXX智能計(jì)算基礎(chǔ)設(shè)施第1部分:系統(tǒng)框架本文件規(guī)定了智能計(jì)算基礎(chǔ)設(shè)施的總體系統(tǒng)框架,其中包括總體系統(tǒng)框架的組成和對(duì)各個(gè)組成部分的定義、要求和評(píng)價(jià)等相關(guān)內(nèi)容。本文件適用于智能計(jì)算基礎(chǔ)設(shè)施總體架構(gòu)規(guī)劃、設(shè)計(jì)、建設(shè)、運(yùn)營(yíng)及評(píng)價(jià)。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB40879-2021《數(shù)據(jù)中心能效限定值及能效等級(jí)》GB50016-2014《建筑設(shè)計(jì)防火規(guī)范》GB50084-2017《自動(dòng)噴水滅火系統(tǒng)設(shè)計(jì)規(guī)范》GB50174-2017《數(shù)據(jù)中心設(shè)計(jì)規(guī)范》GB50311-2007《綜合布線系統(tǒng)工程設(shè)計(jì)規(guī)范》GB50370-2005《氣體滅火系統(tǒng)設(shè)計(jì)規(guī)范》GB50736-2012《民用建筑供暖通風(fēng)與空氣調(diào)節(jié)設(shè)計(jì)規(guī)范》GB50898-2013《細(xì)水霧滅火系統(tǒng)技術(shù)規(guī)范》GB/T9813.3-2017《計(jì)算機(jī)通用規(guī)范第3部分:服務(wù)器》GB/T41867-2022《信息技術(shù)人工智能術(shù)語(yǔ)》GB/T42018-2022《信息技術(shù)人工智能平臺(tái)計(jì)算資源規(guī)范》YD/T4389-2023《AI服務(wù)器及能力平臺(tái)技術(shù)要求(信通院)》DB31/T310008-2021《公共機(jī)構(gòu)綠色數(shù)據(jù)中心評(píng)定規(guī)范》3術(shù)語(yǔ)和定義GB/T41867-2022、GB/T42018-2022界定的以及下列術(shù)語(yǔ)和定義適用于本文件。3.1人工智能計(jì)算芯片AIcomputingchip計(jì)算芯片是一種專門(mén)設(shè)計(jì)用于執(zhí)行復(fù)雜計(jì)算任務(wù)的半導(dǎo)體器件,包括但不限于CPU、GPU、FPGA、ASIC、TPU、NPU等類型。人工智能計(jì)算芯片是提供人工智能應(yīng)用處理能力的計(jì)算芯片。[來(lái)源:GB/T41867-2022,3.1.5,有修改]3.2人工智能計(jì)算服務(wù)器AIcomputingserver人工智能計(jì)算服務(wù)器是一種滿足人工智能訓(xùn)練或推理等復(fù)雜計(jì)算任務(wù)的特定的計(jì)算服務(wù)器。2DBXX/TXXXX—XXXX[來(lái)源:GB/T41867-2022,3.1.3,有修改]3.3智能算力AIcomputingpower算力是計(jì)算服務(wù)器通過(guò)對(duì)數(shù)據(jù)進(jìn)行處理后實(shí)現(xiàn)結(jié)果輸出的一種能力。智能算力是人工智能計(jì)算服務(wù)器進(jìn)行人工智能算法模型訓(xùn)練與模型運(yùn)行服務(wù)的計(jì)算系統(tǒng)能力。3.4異構(gòu)算力heterogeneouscomputingpower異構(gòu)算力是在同一服務(wù)器中,使用如CPU、GPU、FPGA、ASIC等多種不同架構(gòu)的計(jì)算芯片協(xié)同工作,以滿足不同的計(jì)算需求,提高計(jì)算效率和性能。3.5智能算力集群AIcomputingpowercluster智能算力集群是一種由多個(gè)人工智能計(jì)算服務(wù)器組成的集合,這些節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)相互連接,形成統(tǒng)一的計(jì)算資源池,專門(mén)用于執(zhí)行人工智能相關(guān)的計(jì)算任務(wù)。[來(lái)源:GB/T41867-2022,3.1.4,有修改]3.6模型訓(xùn)練modeltraining模型訓(xùn)練是在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,通過(guò)學(xué)習(xí)大量數(shù)據(jù)和算法來(lái)調(diào)整模型參數(shù),使模型具有模式識(shí)別、預(yù)測(cè)和解決問(wèn)題的能力。[來(lái)源:GB/T41867-2022,3.2.18,有修改]3.7模型推理modelinference模型推理是在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域中,已經(jīng)訓(xùn)練好的模型對(duì)新輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類的過(guò)程。[來(lái)源:GB/T42018-2022,3.12,有修改]4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。AI:人工智能(ArtificialIntelligence)API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)ASIC:專用集成電路(Application-SpecificIntegratedCircuit)BA:建筑設(shè)備自動(dòng)化系統(tǒng)(BuildingAutomationSystem)BF16:16位腦浮點(diǎn)(BrainFloatingPoint16)CLI:命令行界面(CommandLineInterface)CPU:中央處理器(CentralProcessingUnit)CUE:碳使用效率(CarbonUsageEffectiveness)FLOPS:每秒浮點(diǎn)運(yùn)算次數(shù)(floating-pointoperationspersecond)FP8:8位半精度浮點(diǎn)數(shù)(8bitshalf-precisionFloatingPoint)FP16:16位半精度浮點(diǎn)數(shù)(16bitshalf-precisionFloatingPoint)FP32:32位單精度浮點(diǎn)數(shù)(32bitssingle-precisionFloatingPoint)FP64:64位雙精度浮點(diǎn)數(shù)(64bitsdouble-precisionFloatingPoint)3DBXX/TXXXX—XXXXFPGA:現(xiàn)場(chǎng)可編程門(mén)陣列(Field-ProgrammableGateArray)GEMM:通用矩陣的矩陣乘法(GEneralMatrixtomatrixMultiplication)GDDR5:第五版圖形用雙倍資料傳輸率存儲(chǔ)器(GraphicsDoubleDataRate,version5)GDDR6:第六版圖形用雙倍資料傳輸率存儲(chǔ)器(GraphicsDoubleDataRate,version6)GPU:圖形處理器(GraphicsProcessingUnit)HBM:高帶寬內(nèi)存(HighBandwidthMemory)HBM2:第二代高帶寬內(nèi)存(HighBandwidthMemory2)HBM2e:第二代增強(qiáng)型高帶寬內(nèi)存(HighBandwidthMemory2e)HBM3:第三代高帶寬內(nèi)存(HighBandwidthMemory3)HDFS:Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)HVDC:高壓直流輸電(HighVoltageDirectCurrent)INT4:4位八分之一精度整型(4bitsone-eighth-precisionINTeger)INT8:8位四分之一精度整型(8bitsquarter-precisionINTeger)IT:信息技術(shù)(InformationTechnology)M-LAG:跨設(shè)備鏈路聚合組(MultichassisLinkAggregationGroup)NPU:神經(jīng)網(wǎng)絡(luò)處理單元(Neural-networkProcessingUnit)NVMe:非易失性內(nèi)存主機(jī)控制器接口規(guī)范(Non-VolatileMemoryExpress)OAM:開(kāi)放加速模組(OpenAcceleratorModule)PCIE:外設(shè)部件互連擴(kuò)展(PeripheralComponentInterconnectExpress)PUE:電源使用效率(PowerUsageEffectiveness)RDMA:遠(yuǎn)程直接內(nèi)存訪問(wèn)(RemoteDirectMemoryAccess)ReLU:整流線性單位函數(shù)(RectifiedLinearUnit)RESTfulAPI:表現(xiàn)層狀態(tài)轉(zhuǎn)移應(yīng)用程序編程接口(RepresentationalStateTransferAPI)RoCE:允許通過(guò)以太網(wǎng)使用RDMA技術(shù)進(jìn)行數(shù)據(jù)傳輸(RDMAoverConvergedEthernet)SDK:軟件開(kāi)發(fā)工具包(SoftwareDevelopmentKit)SSD:固態(tài)硬盤(pán)(SolidStateDrive)TCP/IP:傳輸控制協(xié)議/因特網(wǎng)互聯(lián)協(xié)議(TransmissionControlProtocol/InternetProtocol)UPS:不間斷電源(UninterruptiblePowerSupply)VLLM:超大規(guī)模語(yǔ)言模型(VeryLargeLanguageModel)WUE:水使用效率(WaterUsageEffectiveness)5智能計(jì)算基礎(chǔ)設(shè)施總體框架5.1框架構(gòu)成智能計(jì)算基礎(chǔ)設(shè)施是基于最新人工智能理論,采用領(lǐng)先的人工智能計(jì)算架構(gòu),提供算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的新型算力基礎(chǔ)設(shè)施。智能計(jì)算基礎(chǔ)設(shè)施總體框架由配套體系、能力體系、服務(wù)體系和評(píng)價(jià)體系四個(gè)部分構(gòu)成,如圖1所示。4DBXX/TXXXX—XXXX圖1智能計(jì)算基礎(chǔ)設(shè)施總體框架5.2配套體系智能計(jì)算基礎(chǔ)設(shè)施的配套體系應(yīng)根據(jù)所承載業(yè)務(wù)需求確定可用性等級(jí),綜合外市電容量、土地、既有建筑層高、承重等條件對(duì)機(jī)房、機(jī)電配套設(shè)施提出建設(shè)要求,同時(shí)在建設(shè)運(yùn)營(yíng)過(guò)程中充分考慮綠色節(jié)能、安全可靠的運(yùn)行要求。5.3能力體系智能計(jì)算基礎(chǔ)設(shè)施的能力體系應(yīng)包括計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)三大類核心硬件和整體的資源管理能力,以符合可支持各種大規(guī)模、復(fù)雜度高的智能計(jì)算任務(wù)的要求。a)計(jì)算能力應(yīng)包括對(duì)AI計(jì)算芯片和AI計(jì)算服務(wù)器的要求,符合人工智能訓(xùn)練、人工智能推理等應(yīng)用需求;b)網(wǎng)絡(luò)能力應(yīng)包括對(duì)業(yè)務(wù)網(wǎng)絡(luò)、參數(shù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)的架構(gòu)和性能的要求,符合大規(guī)模組網(wǎng)、高帶寬、零丟包、低延時(shí)和抖動(dòng)以及高穩(wěn)定性等特性;c)存儲(chǔ)能力應(yīng)包括對(duì)存儲(chǔ)設(shè)備的類型和性能的要求,符合并行處理、數(shù)據(jù)并行訪問(wèn)、節(jié)點(diǎn)負(fù)載均衡、多級(jí)緩存、數(shù)據(jù)安全、高可靠和集群擴(kuò)展等方面的要求;d)資源管理能力應(yīng)包括對(duì)異構(gòu)資源進(jìn)行統(tǒng)一納管、調(diào)度和維護(hù),符合人工智能任務(wù)多機(jī)多卡部署、運(yùn)行與調(diào)度,并優(yōu)化服務(wù)器集群中的資源利用效率。5.4服務(wù)體系智能計(jì)算基礎(chǔ)設(shè)施的服務(wù)體系應(yīng)包括對(duì)外提供的智能算力服務(wù)、算法服務(wù)、數(shù)據(jù)服務(wù)、運(yùn)營(yíng)服務(wù)等服務(wù)內(nèi)容,符合靈活的資源的提供與整合、豐富的業(yè)務(wù)的提供與生態(tài)、全棧的服務(wù)的支持與配套等方面要求。5.5評(píng)價(jià)體系智能計(jì)算基礎(chǔ)設(shè)施的評(píng)價(jià)體系應(yīng)包括對(duì)智能計(jì)算基礎(chǔ)設(shè)施配套、計(jì)算能力、網(wǎng)絡(luò)能力、存儲(chǔ)能力、資源管理能力、服務(wù)以及系統(tǒng)等級(jí)的評(píng)價(jià)標(biāo)準(zhǔn),符合可用于評(píng)估智能計(jì)算基礎(chǔ)設(shè)施綜合能力的要求。6配套體系要求5DBXX/TXXXX—XXXX6.1配套設(shè)施6.1.1機(jī)房建設(shè)智能計(jì)算基礎(chǔ)設(shè)施的機(jī)房建設(shè)要求包含:a)智算機(jī)房的選址、設(shè)計(jì)、環(huán)保、節(jié)能、消防應(yīng)滿足GB50174的相關(guān)規(guī)定;b)應(yīng)靠近干線通信線路,并具備多路由接入條件;c)應(yīng)有可靠電力供應(yīng),宜引入一類市電;d)應(yīng)有可靠的供水,滿足智算工藝空調(diào)的用水量及水質(zhì)要求;e)智算機(jī)房的建筑、裝飾工程應(yīng)符合智算工藝、通信工藝和電源對(duì)土建的要求;f)智算機(jī)房的平面布局、層高、承重應(yīng)考慮高密度機(jī)柜設(shè)備及液冷空調(diào)設(shè)備的布置要求;g)智算機(jī)房各樓層應(yīng)預(yù)留充足的電力、空調(diào)豎向管井和孔洞,為同樓層或跨樓層機(jī)房之間供配電和制冷量的靈活調(diào)度提供條件;h)宜采用預(yù)制裝配式、模塊化建筑;i)鄰近主機(jī)房區(qū)域宜配置相應(yīng)的客戶操作用房。6.1.2機(jī)電配套智能計(jì)算基礎(chǔ)設(shè)施的機(jī)電配套要求包含:a)智算機(jī)電配套系統(tǒng)包括電力、空氣調(diào)節(jié)、網(wǎng)絡(luò)與布線、給排水、智能化等子系統(tǒng);b)各類機(jī)電設(shè)備應(yīng)根據(jù)工藝設(shè)計(jì)進(jìn)行布置,應(yīng)滿足系統(tǒng)運(yùn)行、運(yùn)行管理、人員操作、設(shè)備和物料運(yùn)輸、設(shè)備散熱、安裝和維護(hù)的要求;c)供配電、空調(diào)系統(tǒng)應(yīng)為智能計(jì)算基礎(chǔ)設(shè)施IT系統(tǒng)的可擴(kuò)展性預(yù)留備用容量;d)通信電源供電形式應(yīng)選擇不間斷電源系統(tǒng),宜采用2N交流UPS系統(tǒng),或一路市電+一路HVDC供電模式;e)柴發(fā)設(shè)備宜按照無(wú)冗余配置;f)智算機(jī)房空調(diào)系統(tǒng)應(yīng)根據(jù)智算業(yè)務(wù)情況、室外冷源產(chǎn)品自身的特點(diǎn)、氣象條件、水資源情況,選擇合適的冷源系統(tǒng),可采用風(fēng)冷、液冷或風(fēng)液混合形式;g)智能計(jì)算基礎(chǔ)設(shè)施與其它功能用房共建于同一建筑內(nèi)時(shí),應(yīng)設(shè)置獨(dú)立的空氣調(diào)節(jié)系統(tǒng);h)空調(diào)制冷劑宜使用臭氧層破壞潛能值為0或者全球變暖系數(shù)值較低的產(chǎn)品;i)網(wǎng)絡(luò)布線根據(jù)網(wǎng)絡(luò)架構(gòu)、用戶需求和技術(shù)發(fā)展趨勢(shì)進(jìn)行規(guī)劃和設(shè)計(jì),房宜采用模塊化的部署方式;j)機(jī)房線纜布放宜選擇開(kāi)放式線架采用上走線方式,強(qiáng)電、弱電,光纖、銅纜宜分別布線;k)輔助區(qū)、支持區(qū)布線系統(tǒng)設(shè)計(jì)應(yīng)符合GB50311的有關(guān)規(guī)定,設(shè)備布置應(yīng)滿足時(shí)延要求;l)給排水系統(tǒng)應(yīng)滿足智能計(jì)算基礎(chǔ)設(shè)施設(shè)備運(yùn)行工藝需求,當(dāng)工藝需求不明確時(shí),可按GB50174和GB50736的相關(guān)規(guī)定確定;m)智能化系統(tǒng)宜分為機(jī)房運(yùn)維區(qū)域、公共物管區(qū)兩類場(chǎng)景來(lái)考慮;n)機(jī)房運(yùn)維區(qū)建設(shè)內(nèi)容應(yīng)包括動(dòng)環(huán)系統(tǒng)、BA系統(tǒng)、安防系統(tǒng)、巡檢系統(tǒng)、AI調(diào)優(yōu)系統(tǒng);o)公共物管區(qū)建設(shè)內(nèi)容應(yīng)包括安防系統(tǒng)、BA系統(tǒng)、服務(wù)系統(tǒng);p)智能化系統(tǒng)架構(gòu)宜包含數(shù)據(jù)采集層、設(shè)備監(jiān)控層和集中監(jiān)控層,智能化系統(tǒng)應(yīng)以實(shí)現(xiàn)園區(qū)級(jí)全局化、綜合化、可視化的數(shù)據(jù)共享分析和高效管理,實(shí)現(xiàn)快速故障分析與定位,指導(dǎo)現(xiàn)場(chǎng)人員處置操作和日常巡檢維護(hù)作業(yè)為目的;6DBXX/TXXXX—XXXXq)智能化系統(tǒng)應(yīng)具有先進(jìn)性、可靠性、安全性、集成性、可擴(kuò)展性,并應(yīng)支持后期建設(shè)的升級(jí)改造和新系統(tǒng)的接入。6.2運(yùn)行要求6.2.1綠色節(jié)能智能計(jì)算基礎(chǔ)設(shè)施運(yùn)行中的綠色節(jié)能要求包含:a)在智能計(jì)算基礎(chǔ)設(shè)施規(guī)劃選址、設(shè)計(jì)、建設(shè)、采購(gòu)、運(yùn)營(yíng)、改造、回收等全生命周期的各個(gè)階段落實(shí)綠色減碳理念的植入和評(píng)價(jià),實(shí)現(xiàn)“量化可見(jiàn)”的全程監(jiān)控;b)智能計(jì)算基礎(chǔ)設(shè)施建設(shè)運(yùn)營(yíng)期,宜采用清潔能源替代傳統(tǒng)能源,通過(guò)有效的能源管理和碳中和措施來(lái)減少對(duì)氣候的負(fù)面影響;c)應(yīng)從供能側(cè)、用能側(cè)、抵消側(cè)三個(gè)方面考慮減碳措施,包含綠色能源、綠色低碳園區(qū)、綠色低碳建筑、綠色低碳機(jī)電配套、綠色低碳算網(wǎng)、綠色低碳算力應(yīng)用的各個(gè)方面;d)注重提高智能計(jì)算基礎(chǔ)設(shè)施的能源效率,通過(guò)采用先進(jìn)的節(jié)能技術(shù)和優(yōu)化設(shè)備配置,最大限度降低能源消耗;e)新建智能計(jì)算基礎(chǔ)設(shè)施的能效等級(jí)不應(yīng)低于GB40879規(guī)定的2級(jí)水平,年均設(shè)計(jì)PUE不高于1.3,且應(yīng)符合國(guó)家和上海市相關(guān)政策及規(guī)范要求;f)PUE值的計(jì)算及測(cè)試方法應(yīng)參照GB40879的有關(guān)規(guī)定。6.2.2安全可靠智能計(jì)算基礎(chǔ)設(shè)施運(yùn)行中的安全可靠要求包含:a)配套體系的安全要求包括物理空間、供電、消防、環(huán)境方面的安全;b)安全防范應(yīng)符合GB50348第5.1節(jié)“通用型公共建筑安全防范工程設(shè)計(jì)”中的“一般規(guī)定”和“先進(jìn)型安防工程設(shè)計(jì)”的技術(shù)要求;c)智能計(jì)算基礎(chǔ)設(shè)施防火和滅火系統(tǒng)設(shè)計(jì)應(yīng)符合GB50016、GB50370、GB50898和GB50084的規(guī)定;d)配套體系中應(yīng)建立安保防范系統(tǒng),包括視頻安防監(jiān)控系統(tǒng)、入侵報(bào)警系統(tǒng)和出入口控制系統(tǒng),各系統(tǒng)應(yīng)具備聯(lián)動(dòng)控制功能;e)可靠要求指配套體系應(yīng)具備良好的運(yùn)行工況,以保障主設(shè)備及網(wǎng)絡(luò)的持續(xù)穩(wěn)定運(yùn)行,達(dá)到提高智能計(jì)算基礎(chǔ)設(shè)施的可靠性、排除隱患、延長(zhǎng)壽命期的目的。7能力體系要求7.1計(jì)算能力7.1.1芯片要求智能計(jì)算基礎(chǔ)設(shè)施中對(duì)AI計(jì)算芯片的要求包含:a)應(yīng)支持多種AI計(jì)算芯片,包括但不限于GPU、ASIC、FPGA等,同時(shí)具備CPU等通用算力;b)應(yīng)擁有片上高速內(nèi)存儲(chǔ)空間,該存儲(chǔ)空間基于GDDR5、GDDR6、HBM、HBM2、HBM2e、HBM3或更新技術(shù)實(shí)現(xiàn);c)宜支持芯片間高速專有互連協(xié)議,如NVLINK、OAM等;d)應(yīng)支持FP32、FP16、INT8等基本精度;宜支持BF16、FP8精度;可支持FP64精度;7DBXX/TXXXX—XXXXe)應(yīng)支持至少一種主流計(jì)算框架,如TensorFlow、PyTorch、MindSpore、PaddlePaddle等;f)應(yīng)支持至少一種主流分布式計(jì)算框架,如DeepSpeed等;支持至少一種分布式并行策略,如張量并行、數(shù)據(jù)并行、流水線并行等;g)應(yīng)支持人工智能常用算子,如GEMM、Sigmoid、ReLU等;h)應(yīng)支持各類人工智能模型的訓(xùn)練、推理,包含但不限于機(jī)器視覺(jué)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、語(yǔ)音識(shí)別、模式識(shí)別、圖像和視頻分析、知識(shí)圖譜等;i)應(yīng)具有良好的生態(tài),以方便在不同的芯片間進(jìn)行模型和業(yè)務(wù)的遷移,應(yīng)提供完善的遷移工具。7.1.2服務(wù)器要求智能計(jì)算基礎(chǔ)設(shè)施中對(duì)AI計(jì)算服務(wù)器的要求包含:a)應(yīng)滿足GB/T9813.3-2017中的相關(guān)規(guī)定;b)應(yīng)支持DDR4及以上內(nèi)存;c)應(yīng)支持NVMeSSD等高速硬盤(pán)接口;d)應(yīng)支持至少一種計(jì)算芯片的互聯(lián)協(xié)議,如PCIE、NVLINK、OAM等;e)應(yīng)支持冗余熱插拔電源,支持單風(fēng)扇失效;f)應(yīng)支持帶內(nèi)和帶外管理,具備遠(yuǎn)程管理和性能檢測(cè)功能;g)應(yīng)保證具有有效的散熱和冷卻系統(tǒng),可支持液冷冷卻,以保持系統(tǒng)的穩(wěn)定性和性能;h)主要部件如硬盤(pán)、內(nèi)存、網(wǎng)卡等應(yīng)具有良好的擴(kuò)展性;i)可按照業(yè)務(wù)負(fù)載分為訓(xùn)練服務(wù)器和推理服務(wù)器;j)應(yīng)配置高速無(wú)損網(wǎng)絡(luò),支持RDMA互聯(lián);k)訓(xùn)練服務(wù)器應(yīng)支持主流全線速網(wǎng)絡(luò)拓?fù)浼軜?gòu),包括但不限于胖樹(shù)等;l)推理服務(wù)器應(yīng)配置高速網(wǎng)絡(luò),宜支持無(wú)損網(wǎng)絡(luò)技術(shù),宜支持RDMA互聯(lián)。7.2網(wǎng)絡(luò)能力7.2.1網(wǎng)絡(luò)架構(gòu)7.2.1.1業(yè)務(wù)網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的業(yè)務(wù)網(wǎng)絡(luò)用于承載客戶訪問(wèn)訓(xùn)練和推理集群、訓(xùn)練數(shù)據(jù)加載、訓(xùn)練結(jié)果導(dǎo)出等流量,其架構(gòu)應(yīng)符合以下要求:a)業(yè)務(wù)網(wǎng)絡(luò)采用二層樹(shù)形組網(wǎng)架構(gòu);b)兩臺(tái)業(yè)務(wù)接入交換機(jī)之間互聯(lián),同樣運(yùn)行M-LAG協(xié)議;c)業(yè)務(wù)網(wǎng)絡(luò)采用傳統(tǒng)TCP/IP協(xié)議,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無(wú)明顯區(qū)別;d)業(yè)務(wù)匯聚交換機(jī)和業(yè)務(wù)接入交換機(jī)均成對(duì)部署。7.2.1.2管理網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的管理網(wǎng)絡(luò)用于承載帶內(nèi)/帶外管理流量,管理流量與業(yè)務(wù)流量應(yīng)互相隔離,其架構(gòu)應(yīng)符合以下要求:a)管理網(wǎng)絡(luò)應(yīng)采用二層樹(shù)形組網(wǎng)架構(gòu);b)智能計(jì)算基礎(chǔ)設(shè)施內(nèi)所有的網(wǎng)元(交換機(jī)、防火墻、服務(wù)器、存儲(chǔ)節(jié)點(diǎn)等設(shè)備)的帶外管理網(wǎng)口應(yīng)接入到帶外管理接入交換機(jī);8DBXX/TXXXX—XXXXc)帶內(nèi)管理接入交換機(jī)宜成對(duì)配置,兩臺(tái)接入交換機(jī)之間可采用堆疊或M-LAG組網(wǎng),管理匯聚交換機(jī)交叉上連至CE路由器或核心交換機(jī);d)管理網(wǎng)絡(luò)采用傳統(tǒng)TCP/IP協(xié)議,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無(wú)明顯區(qū)別;e)為保障管理網(wǎng)絡(luò)的安全性,管理網(wǎng)和其他網(wǎng)絡(luò)之間可通過(guò)防火墻進(jìn)行隔離;f)服務(wù)器與存儲(chǔ)節(jié)點(diǎn)宜通過(guò)帶內(nèi)管理口接入到帶內(nèi)管理交換機(jī),帶內(nèi)管理接入交換機(jī)宜成對(duì)部署。7.2.1.3參數(shù)網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的參數(shù)網(wǎng)絡(luò)用于訓(xùn)練場(chǎng)景下AI訓(xùn)練過(guò)程中的模型參數(shù)同步,單純推理場(chǎng)景無(wú)需建設(shè)參數(shù)網(wǎng)絡(luò),其架構(gòu)應(yīng)符合以下要求:a)參數(shù)面應(yīng)采用葉-脊組網(wǎng)架構(gòu);b)應(yīng)結(jié)合交換機(jī)端口密度以及AI計(jì)算服務(wù)器規(guī)模,決定葉-脊組網(wǎng)架構(gòu)層數(shù),不宜超過(guò)3層;c)參數(shù)面網(wǎng)絡(luò)應(yīng)采用基于RDMA(RemoteDirectMemoryAccess)技術(shù)的協(xié)議;d)葉節(jié)點(diǎn)交換機(jī)與脊節(jié)點(diǎn)交換機(jī)應(yīng)均勻全互聯(lián),葉節(jié)點(diǎn)交換機(jī)連接到每個(gè)脊節(jié)點(diǎn)交換機(jī)的端口數(shù)和速率都一樣。7.2.1.4存儲(chǔ)網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的存儲(chǔ)網(wǎng)絡(luò)包括樣本面高速存儲(chǔ)和存儲(chǔ)集群,用于承載計(jì)算集群和存儲(chǔ)陣列間的模型加載、數(shù)據(jù)集讀取、checkpoint寫(xiě)入流量等,其架構(gòu)應(yīng)符合以下要求:a)應(yīng)根據(jù)對(duì)訓(xùn)練或推理場(chǎng)景性能要求,確定樣本網(wǎng)絡(luò)是否與業(yè)務(wù)網(wǎng)絡(luò)合設(shè);b)存儲(chǔ)網(wǎng)絡(luò)應(yīng)采用葉-脊組網(wǎng)架構(gòu);c)存儲(chǔ)網(wǎng)絡(luò)單獨(dú)組網(wǎng)時(shí),應(yīng)采用基于RDMA(RemoteDirectMemoryAccess)技術(shù)的協(xié)議;d)存儲(chǔ)網(wǎng)絡(luò)與業(yè)務(wù)網(wǎng)絡(luò)合設(shè)時(shí)采用傳統(tǒng)TCP/IP協(xié)議;e)存儲(chǔ)網(wǎng)絡(luò)葉節(jié)點(diǎn)交換機(jī)應(yīng)根據(jù)AI計(jì)算服務(wù)器與存儲(chǔ)節(jié)點(diǎn)的接入方式,確定是否采用M-LAG組網(wǎng);f)葉節(jié)點(diǎn)交換機(jī)與脊節(jié)點(diǎn)交換機(jī)應(yīng)均勻全互聯(lián),葉節(jié)點(diǎn)交換機(jī)連接到每個(gè)脊節(jié)點(diǎn)交換機(jī)的端口數(shù)和速率應(yīng)保持一致。7.2.2網(wǎng)絡(luò)性能7.2.2.1業(yè)務(wù)網(wǎng)絡(luò)與管理網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的業(yè)務(wù)網(wǎng)絡(luò)與管理網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)業(yè)務(wù)接入交換機(jī)下行帶寬,應(yīng)與服務(wù)器實(shí)際業(yè)務(wù)出口帶寬保持一致;b)業(yè)務(wù)接入交換機(jī)之間的互聯(lián)帶寬應(yīng)與下行總帶寬成固定比例;c)業(yè)務(wù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)上下行帶寬與性能要求應(yīng)滿足業(yè)務(wù)實(shí)際需求,與常規(guī)數(shù)據(jù)中心業(yè)務(wù)網(wǎng)絡(luò)無(wú)明顯區(qū)別;d)管理網(wǎng)絡(luò)應(yīng)具備性能優(yōu)化、故障排除和網(wǎng)絡(luò)管理等功能,并具備實(shí)時(shí)監(jiān)測(cè)手段和工具。7.2.2.2參數(shù)網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的參數(shù)網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)參數(shù)網(wǎng)絡(luò)葉節(jié)點(diǎn)交換機(jī)下行單端口帶寬,應(yīng)與AI計(jì)算服務(wù)器實(shí)際單個(gè)GPU/NPU出口帶寬保持一致;9DBXX/TXXXX—XXXXb)葉節(jié)點(diǎn)交換機(jī)上行單端口帶寬不應(yīng)低于下行單端口帶寬;c)為減少參數(shù)網(wǎng)絡(luò)擁塞,葉節(jié)點(diǎn)交換機(jī)下行總帶寬與上行總帶寬的比例應(yīng)為1:1;d)參數(shù)網(wǎng)絡(luò)應(yīng)具備零丟包以及負(fù)載均衡能力,交換機(jī)各鏈路實(shí)際吞吐量應(yīng)做到平均分配。7.2.2.3存儲(chǔ)網(wǎng)絡(luò)智能計(jì)算基礎(chǔ)設(shè)施的存儲(chǔ)網(wǎng)絡(luò)性能應(yīng)符合以下要求:a)普通存儲(chǔ)網(wǎng)絡(luò)可參考業(yè)務(wù)網(wǎng)絡(luò)性能要求;b)樣本高速存儲(chǔ)網(wǎng)絡(luò)單獨(dú)組網(wǎng)時(shí),應(yīng)做到低延時(shí)、零丟包、高可靠、高吞吐,保證網(wǎng)絡(luò)性能與可靠性。7.3存儲(chǔ)能力7.3.1存儲(chǔ)類型智能計(jì)算基礎(chǔ)設(shè)施中對(duì)存儲(chǔ)類型的要求包含:a)宜配套高性能熱存儲(chǔ)、大容量冷存儲(chǔ)等多級(jí)存儲(chǔ)系統(tǒng),滿足冷熱數(shù)據(jù)存儲(chǔ)需求;b)熱存儲(chǔ)宜采用分布式存儲(chǔ)系統(tǒng),全對(duì)稱架構(gòu)或者非對(duì)稱架構(gòu);c)熱存儲(chǔ)應(yīng)支持不同存儲(chǔ)協(xié)議的訪問(wèn)需求,如文件、對(duì)象、塊、HDFS等;d)熱存儲(chǔ)宜支持高速網(wǎng)絡(luò),支持RDMA技術(shù)或支持RDMA的RoCE等網(wǎng)絡(luò)協(xié)議;e)熱存儲(chǔ)節(jié)點(diǎn)應(yīng)采用通用的服務(wù)器架構(gòu),應(yīng)具備部件擴(kuò)展能力,如內(nèi)存、硬盤(pán)等;f)宜支持多級(jí)存儲(chǔ),支持?jǐn)?shù)據(jù)在熱存儲(chǔ)池和冷存儲(chǔ)池之間的流動(dòng);g)應(yīng)支持多維度冗余,如部件級(jí)冗余、節(jié)點(diǎn)級(jí)冗余、機(jī)柜級(jí)冗余等,保證數(shù)據(jù)高可靠性;h)應(yīng)支持在線維護(hù)功能,在不影響系統(tǒng)正常運(yùn)行的情況下進(jìn)行硬件部件的更換和維護(hù);i)應(yīng)支持自動(dòng)故障恢復(fù)能力,能夠在故障發(fā)生時(shí)自動(dòng)切換到備用路徑或備用設(shè)備;j)應(yīng)支持多種數(shù)據(jù)保護(hù)機(jī)制,如支持基于時(shí)間策略的快照、遠(yuǎn)程復(fù)制等功能;k)應(yīng)具備數(shù)據(jù)的冗余存儲(chǔ)和容錯(cuò)機(jī)制,以確保在節(jié)點(diǎn)故障或數(shù)據(jù)損壞時(shí)進(jìn)行數(shù)據(jù)恢復(fù);l)支持?jǐn)?shù)據(jù)一致性檢查功能,保證寫(xiě)入數(shù)據(jù)的一致性;m)應(yīng)支持系統(tǒng)狀態(tài)和性能的監(jiān)控,支持郵件、短信等告警功能;n)支持在線系統(tǒng)擴(kuò)容,且不需要更改應(yīng)用程序,擴(kuò)容時(shí)客戶業(yè)務(wù)無(wú)感知。7.3.2存儲(chǔ)性能智能計(jì)算基礎(chǔ)設(shè)施中對(duì)存儲(chǔ)性能的要求包含:a)應(yīng)支持并行化技術(shù),支持系統(tǒng)并行處理,數(shù)據(jù)并發(fā)訪問(wèn);b)熱存儲(chǔ)應(yīng)支持負(fù)載均衡,存儲(chǔ)性能隨節(jié)點(diǎn)增加近似線性增長(zhǎng);c)熱存儲(chǔ)宜采用性能優(yōu)化技術(shù),如優(yōu)化協(xié)議、通信模式、數(shù)據(jù)壓縮等,以提高系統(tǒng)的整體性能;d)熱存儲(chǔ)宜支持多級(jí)緩存機(jī)制,如內(nèi)存、SSD緩存和基于客戶端本地NVMe硬盤(pán)的緩存等;e)熱存儲(chǔ)宜支持計(jì)算卡對(duì)存儲(chǔ)的直接訪問(wèn);f)熱存儲(chǔ)宜支持NVMe協(xié)議,支持全NVMeSSD存儲(chǔ)池。7.4資源管理能力7.4.1資源納管DBXX/TXXXX—XXXX資源納管應(yīng)對(duì)AI計(jì)算芯片、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備等物理資源進(jìn)行統(tǒng)一的管理。為實(shí)現(xiàn)資源的高效整合,利用資源虛擬化技術(shù),對(duì)上述設(shè)備資源進(jìn)行抽象,在一定程度上屏蔽異構(gòu)性,從而形成邏輯計(jì)算資源,以標(biāo)準(zhǔn)算力的形式提供給用戶使用。資源虛擬化包括:算力虛擬化、存儲(chǔ)池化、網(wǎng)絡(luò)虛擬化,應(yīng)提供如下功能:a)應(yīng)采用分布式架構(gòu)、模塊化設(shè)計(jì),具備可擴(kuò)展性,可實(shí)現(xiàn)資源平滑擴(kuò)展、持續(xù)運(yùn)行;b)應(yīng)支持異構(gòu)計(jì)算芯片、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備統(tǒng)一納管,并提供細(xì)粒度資源管理能力;c)應(yīng)提供數(shù)據(jù)分類分級(jí)管理機(jī)制與管理策略,并提供冷、熱數(shù)據(jù)流動(dòng)機(jī)制;d)應(yīng)支持網(wǎng)絡(luò)功能虛擬化和軟件定義網(wǎng)絡(luò);e)應(yīng)支持人工智能任務(wù)與計(jì)算資源的解耦能力,使得任務(wù)可運(yùn)行在集群不同節(jié)點(diǎn)上;f)應(yīng)提供資源封裝與隔離功能,多個(gè)人工智能任務(wù)可共享節(jié)點(diǎn)資源,但它們之間應(yīng)互相保持隔離,如同單獨(dú)運(yùn)行在物理機(jī)上;g)應(yīng)提供高性能算力訓(xùn)練場(chǎng)景提供單服務(wù)器(多卡)、多服務(wù)器資源聚合能力,以實(shí)現(xiàn)大規(guī)模訓(xùn)練中的模型并行、數(shù)據(jù)并行與流水線并行。7.4.2資源調(diào)度資源調(diào)度通過(guò)調(diào)節(jié)人工智能任務(wù)部署位置和所屬計(jì)算資源,實(shí)現(xiàn)人工智能任務(wù)多卡多機(jī)部署與運(yùn)行,優(yōu)化服務(wù)器集群中的資源利用效率。資源調(diào)度應(yīng)包括如下功能:a)應(yīng)支持對(duì)人工智能任務(wù)進(jìn)行資源配置,如設(shè)置任務(wù)優(yōu)先級(jí)、任務(wù)所屬計(jì)算資源(節(jié)點(diǎn)數(shù)、算力/顯存,CPU/內(nèi)存)、任務(wù)調(diào)度類型、任務(wù)調(diào)度策略等內(nèi)容;b)應(yīng)為人工智能任務(wù)提供多種調(diào)度類型,如動(dòng)態(tài)部署、任務(wù)遷移、動(dòng)態(tài)調(diào)度、彈性擴(kuò)縮容、跨集群調(diào)度等調(diào)度類型;c)應(yīng)為人工智能任務(wù)提供多種調(diào)度策略,如親和性和反親和性、污點(diǎn)和容忍、組調(diào)度策略、自定義調(diào)度策略等調(diào)度策略。7.4.3資源維護(hù)資源維護(hù)通過(guò)對(duì)各類設(shè)備和資源的進(jìn)行性能監(jiān)控、告警監(jiān)控、故障管理、以及健康檢查,實(shí)現(xiàn)千卡/萬(wàn)卡智能計(jì)算基礎(chǔ)設(shè)施關(guān)鍵性能監(jiān)控和數(shù)據(jù)可視化展示,從而保障智能計(jì)算基礎(chǔ)設(shè)施正常運(yùn)行。資源維護(hù)應(yīng)包含如下功能:a)應(yīng)提供性能監(jiān)控功能,如計(jì)算資源監(jiān)控、存儲(chǔ)資源監(jiān)控、網(wǎng)絡(luò)資源監(jiān)控、租戶資源監(jiān)控等功能。除通用數(shù)據(jù)中心監(jiān)控指標(biāo)外,還需提供算力芯片使用率、顯存使用率、算力芯片間網(wǎng)絡(luò)傳輸?shù)戎撬銏?chǎng)景專屬性能監(jiān)控功能;b)應(yīng)提供告警監(jiān)控功能,如告警配置、告警通知、告警級(jí)別、告警日志等功能;c)應(yīng)提供故障管理功能,如故障檢出規(guī)則管理、故障分析、故障定位、故障預(yù)警等功能;d)應(yīng)提供健康檢查功能,并對(duì)各類設(shè)備和資源的定期健康檢查與數(shù)據(jù)可視化展示。8服務(wù)體系要求8.1算力服務(wù)智能計(jì)算基礎(chǔ)設(shè)施面向大模型開(kāi)發(fā)場(chǎng)景,在算力服務(wù)支持能力方面包括以下內(nèi)容:a)應(yīng)支持智算場(chǎng)景下超大規(guī)模異構(gòu)算力的納管與高效調(diào)度;b)應(yīng)支持智算場(chǎng)景下用戶自助式算力集群資源管理、工作負(fù)載管理和用戶權(quán)限管理;DBXX/TXXXX—XXXXc)應(yīng)提供多種智算實(shí)例規(guī)格,包括提自助式裸金屬、容器等計(jì)算云服務(wù)等;d)應(yīng)提供大規(guī)模算力池服務(wù),包括高性能、安全穩(wěn)定、彈性伸縮、智能調(diào)度等特點(diǎn);e)應(yīng)支持不同模型開(kāi)發(fā)與應(yīng)用過(guò)程中,網(wǎng)絡(luò)服務(wù)與存儲(chǔ)服務(wù)的自助式選擇和使用。包括高性能、強(qiáng)隔離的訓(xùn)推與存儲(chǔ)網(wǎng)絡(luò)服務(wù)、公網(wǎng)互通服務(wù)、高性能并行文件存儲(chǔ)服務(wù)、海量低成本對(duì)象存儲(chǔ)服務(wù)。8.2算法服務(wù)智能計(jì)算基礎(chǔ)設(shè)施面向大模型開(kāi)發(fā)工具鏈場(chǎng)景,在算法服務(wù)支持能力(MaaS服務(wù))方面包括以下a)應(yīng)具備模型管理服務(wù),包括數(shù)據(jù)集創(chuàng)建、上傳、刪除,內(nèi)部文件管理,模型來(lái)源管理,模型發(fā)布管理,模型分類管理,模型版本管理等;b)應(yīng)支持模型推理服務(wù),包括支持模型快速部署為在線推理服務(wù),提供RESTfulAPI調(diào)用接口;支持為在線推理服務(wù)劃分專用資源池;支持在專用資源池范圍內(nèi)根據(jù)服務(wù)訪問(wèn)量對(duì)模型實(shí)例進(jìn)行擴(kuò)容縮容;支持提供多種高性能推理引擎,包括TensorRT、VLLM等;支持超大模型分布式推理能力;c)應(yīng)支持模型訓(xùn)練服務(wù),包括支持單機(jī)多卡、多機(jī)多卡分布式訓(xùn)練任務(wù),支持模型增量訓(xùn)練,支持僅使用增量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,支持直接將訓(xùn)練完成的模型部署推理的一鍵式流程,支持自定義調(diào)節(jié)訓(xùn)練任務(wù)的參數(shù)。8.3數(shù)據(jù)服務(wù)智能計(jì)算基礎(chǔ)設(shè)施面向海量數(shù)據(jù)場(chǎng)景,在數(shù)據(jù)服務(wù)能力方面包括以下內(nèi)容:a)應(yīng)支持?jǐn)?shù)據(jù)集生命周期管理,包括數(shù)據(jù)集接入、版本管理、數(shù)據(jù)可視化、數(shù)據(jù)集授權(quán)等,提供Web、SDK、CLI等多種開(kāi)發(fā)者工具;b)應(yīng)支持多模態(tài)數(shù)據(jù)標(biāo)注能力,包括圖片、視頻、語(yǔ)音、文本、點(diǎn)云等多模態(tài)數(shù)據(jù)的標(biāo)注,涵蓋多模態(tài)數(shù)據(jù)標(biāo)注工具集、AI智能標(biāo)注;c)應(yīng)支持標(biāo)注質(zhì)量控制標(biāo)準(zhǔn)管理,包含實(shí)時(shí)監(jiān)控標(biāo)注質(zhì)量、把控標(biāo)注進(jìn)度、追蹤審計(jì)標(biāo)注行為、快速定位潛在風(fēng)險(xiǎn);d)應(yīng)支持敏感數(shù)據(jù)識(shí)別能力,包括但不限于人臉、車(chē)牌等敏感數(shù)據(jù)脫敏;e)應(yīng)支持?jǐn)?shù)據(jù)銷毀,支持銷毀指定數(shù)據(jù)不會(huì)留下任何痕跡;f)應(yīng)具備數(shù)據(jù)安全措施,包括數(shù)據(jù)傳輸安全、存儲(chǔ)安全、數(shù)據(jù)監(jiān)控、訪問(wèn)控制、安全審批等。8.4運(yùn)營(yíng)服務(wù)智能計(jì)算基礎(chǔ)設(shè)施,面向運(yùn)營(yíng)服務(wù)場(chǎng)景應(yīng)包含以下內(nèi)容:a)應(yīng)提供準(zhǔn)確、高效、容錯(cuò)的用戶資源用量的統(tǒng)計(jì)機(jī)制與系統(tǒng),支持計(jì)量審計(jì)和校驗(yàn);b)應(yīng)制定詳細(xì)的計(jì)費(fèi)規(guī)則,包括不同服務(wù)和資源的具體計(jì)費(fèi)方式,如按量付費(fèi)、預(yù)付費(fèi)選項(xiàng)等;c)應(yīng)提供完整的成本估算工具或指南;d)應(yīng)采用實(shí)時(shí)數(shù)據(jù)處理和計(jì)費(fèi)技術(shù);e)應(yīng)定期審計(jì)和校驗(yàn)計(jì)量系統(tǒng);f)應(yīng)按賬戶提供完整的計(jì)費(fèi)歷史記錄和詳細(xì)賬單;g)應(yīng)提供多種計(jì)費(fèi)模式,滿足不同業(yè)務(wù)需求;h)應(yīng)提供支持服務(wù)等級(jí)說(shuō)明,明確客戶服務(wù)和支持;DBXX/TXXXX—XXXXi)可提供按需調(diào)整服務(wù)等級(jí)和資源配置功能;j)宜滿足在基礎(chǔ)設(shè)施變化和擴(kuò)展時(shí)的計(jì)費(fèi)模型和計(jì)量機(jī)制的適應(yīng)性。9評(píng)價(jià)體系要求9.1配套評(píng)價(jià)智能計(jì)算基礎(chǔ)設(shè)施對(duì)配套體系的評(píng)價(jià)要求包含:a)智能計(jì)算基礎(chǔ)設(shè)施算力密度高,產(chǎn)生更多的熱量,需要配置更高效的散熱系統(tǒng),包括更多的空調(diào)單元、液冷系統(tǒng)或其他先進(jìn)的冷卻技術(shù);b)智能計(jì)算基礎(chǔ)設(shè)施通常部署更高性能的服務(wù)器和存儲(chǔ)設(shè)備,供電要求遠(yuǎn)高于傳統(tǒng)數(shù)據(jù)中心,單機(jī)架供電能力宜可擴(kuò)展承載訓(xùn)練服務(wù)器和可擴(kuò)展承載推理服務(wù)器的功耗;c)智能計(jì)算基礎(chǔ)設(shè)施算力集群規(guī)模越來(lái)越大,需要更多網(wǎng)絡(luò)交換機(jī)和光纖通道,布線需求更為復(fù)雜,要求有足夠的靈活性和可擴(kuò)展性;d)智能計(jì)算基礎(chǔ)設(shè)施應(yīng)滿足更高的環(huán)保標(biāo)準(zhǔn)和節(jié)能減排要求,采用高效能設(shè)備,可再生能源,環(huán)保建筑材料,智能能源管理系統(tǒng),積極的綠色節(jié)能創(chuàng)新和實(shí)踐活動(dòng),盡可能降低CUE;e)智能計(jì)算基礎(chǔ)設(shè)施通常采用水冷等高效冷卻技術(shù),應(yīng)結(jié)合水回收和再利用技術(shù),提供更為環(huán)保和可持續(xù)的運(yùn)營(yíng)方式,盡可能降低WUE值;f)智能計(jì)算基礎(chǔ)設(shè)施對(duì)能源效率的要求更高,應(yīng)有更嚴(yán)格的PUE指標(biāo)。9.2能力評(píng)價(jià)9.2.1計(jì)算能力評(píng)價(jià)智能計(jì)算基礎(chǔ)設(shè)施對(duì)計(jì)算能力的評(píng)價(jià)要求包含:a)智能算力的占比應(yīng)超過(guò)一定比例;b)算力規(guī)模以FLOPS為性能指標(biāo)單位,以FP16數(shù)據(jù)類型的算力為代表;c)算力密度(FLOPS/架)遠(yuǎn)大于普通提供通算能力的數(shù)據(jù)中心;d)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論