版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICSxx.xxx.xx
CCSXXX
團體標準
T/xxxxxx-20xx
城市級智算中心平臺和運營技術(shù)要求與評估方法
Technicalrequirementsandevaluationmethodsofurbanartificialintelligence
computingcenter
(征求意見稿)
DraftingguidelinesforcommercialgradesstandardofChinese
medicinalmaterials
20xx-xx-xx發(fā)布20xx-xx-xx實施
北京電子商會發(fā)布
T/CSAExx—20xx
城市級智算中心平臺和運營技術(shù)要求與評估方法
1范圍
本文件規(guī)定了智算中心的服務(wù)分類、功能架構(gòu)、智算基礎(chǔ)設(shè)施、智算基礎(chǔ)平臺、機器學習平臺、大
模型智算平臺和運營的技術(shù)要求和評估方法。
本文件適用于指導(dǎo)智算中心平臺的研發(fā)、設(shè)計、建設(shè)和運營。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T41867-2022信息技術(shù)人工智能術(shù)語
T/AI118.1—2022人工智能算力中心第1部分:技術(shù)要求
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
智算中心artificialintelligencecomputingcenter
一種能夠為多用戶提供人工智能計算服務(wù)、數(shù)據(jù)容納的結(jié)構(gòu)或結(jié)構(gòu)組。使用信息技術(shù)、電信網(wǎng)絡(luò)設(shè)
備提供的數(shù)據(jù)存儲、處理、遷移,人工智能計算加速等功能,并集成能量供應(yīng)、環(huán)境控制和為服務(wù)可用
性而制定的必要的可靠性組件。
[來源:T/AI118.1—2022,3.3,有修改]
人工智能集群artificialintelligencecluster
遵循統(tǒng)一控制的,人工智能計算功能單元的集合,可包含人工智能加速處理器、人工智能服務(wù)器、
人工智能加速模組等。當由人工智能服務(wù)器組成時,人工智能集群可稱為人工智能服務(wù)器集群,其中的
人工智能服務(wù)器可稱為節(jié)點。
[來源:GB/T41867-2022,3.1.4,有修改]
4縮略語
下列縮略語適用于本文件。
3
T/CSAExx—20xx
API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)
CPU:中央處理器(CentralProcessingUnit)
GPU:圖形處理器(GraphicsProcessingUnit)
IDC:互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter)
IPMI:智能平臺管理接口(IntelligentPlatformManagementInterface)
RDMA:遠程直接內(nèi)存訪問(RemoteDirectMemoryAccess)
RoCE:基于融合以太網(wǎng)的RDMA(RDMAoverConvergedEthernet)
5智算中心總體要求
智算中心服務(wù)分類
智算中心提供的算力規(guī)模(以8*A800算力參考)可分為小算力(1卡-128卡)、中算力(128卡-512
卡)、大算力(大于512卡)。
從智算中心產(chǎn)品功能和算力規(guī)模角度,智算中心為用戶提供的服務(wù)場景可分為簡單智算服務(wù)、中等
智算服務(wù)和大模型智算服務(wù)。
a)簡單智算服務(wù):為用戶提供通用的CPU、GPU等算力,通過API調(diào)用通用模型NLP等提供推理服務(wù),
支持針對不同數(shù)據(jù)規(guī)模提供小算力、中算力和大算力的推理服務(wù),適用于圖像分類、內(nèi)容推薦、
生產(chǎn)過程統(tǒng)計等典型場景。
b)中等智算服務(wù):基于通用模型,支持針對不同數(shù)據(jù)規(guī)模提供小算力、中算力和大算力的訓練和
推理等算力服務(wù),適用于文本分類、命名實體識別、事件提取、錯別字檢查、精準排產(chǎn)應(yīng)用、
生產(chǎn)能耗優(yōu)化、制造質(zhì)量分析等典型場景。
1)精準排產(chǎn)應(yīng)用:制定各個生產(chǎn)環(huán)節(jié)日生產(chǎn)計劃,提供生產(chǎn)精細化管理服務(wù)、資源優(yōu)化平衡
服務(wù)、生產(chǎn)異常響應(yīng)服務(wù)等。
2)生產(chǎn)能耗優(yōu)化:實時采集車間產(chǎn)線的空調(diào)運行數(shù)據(jù),依據(jù)人工智能算法結(jié)果,自動控制空
調(diào)以及車間其它能耗類設(shè)備的運行運程。
3)制造質(zhì)量分析:包括擰緊大數(shù)據(jù)失效分析、電池持續(xù)低容分析、虛焊預(yù)測分析等,采用根
因分析、質(zhì)量預(yù)測等分析組件,實現(xiàn)工藝結(jié)果分析和優(yōu)化建議。
c)大模型智算服務(wù):基于大語言模型(模型參數(shù)量在10億以上),為用戶提供通用模型預(yù)訓練(大
算力)、行業(yè)模型預(yù)訓練(中算力)、場景微調(diào)訓練(小算力)等,適用于AIGC典型場景。
1)醫(yī)療醫(yī)藥文獻摘要提?。横槍︶t(yī)學部提交的三類藥物警戒臨床文獻,準確識別藥物警戒的
五要素(可識別的上報人,可識別的患者,懷疑藥物,不良反應(yīng),相關(guān)性描述),抽取并
總結(jié)生成完整的綜述報告,人工校準后翻譯為對應(yīng)的英文報告,上報至全球總部。
2)保電大模型服務(wù):支持根據(jù)保電場館賽事/活動任務(wù)生成保電任務(wù)目標及策略;通過學習
保電工作涉及到的場館、線路、保障隊伍及物資情況,生成保電預(yù)案方案;故障發(fā)生時,
可通過大模型生成對應(yīng)故障級別的處置任務(wù),并聯(lián)動下游任務(wù)形成執(zhí)行工單。
3)政務(wù)辦事咨詢服務(wù):針對政務(wù)服務(wù)辦理提供專業(yè)化的對話式辦事咨詢,提供群眾企業(yè)的精
準訴求分析、辦理流程反饋等服務(wù)。
4
T/CSAExx—20xx
4)教育科研傳統(tǒng)CV視覺模型訓練(中算力)和教育科研場景大模型微調(diào)訓練(小算力)。
智算中心平臺和運營功能架構(gòu)
智算中心平臺和運營功能架構(gòu)如圖1所示,由智算基礎(chǔ)設(shè)施、智算基礎(chǔ)平臺、智算服務(wù)平臺、統(tǒng)一
監(jiān)控運營運維平臺、平臺和運營評估方法組成,支撐簡單智算場景、中等智算場景和大模型智算場景。
智算基礎(chǔ)設(shè)施為智算平臺提供IDC機房、網(wǎng)絡(luò)交換機(RDMA網(wǎng)絡(luò)交換機、通用網(wǎng)絡(luò)交換機)、算力
服務(wù)器(智算算力服務(wù)器、通用計算服務(wù)器)、存儲服務(wù)器和安全服務(wù)器等基礎(chǔ)能力。
智算基礎(chǔ)平臺基于智算基礎(chǔ)設(shè)施,為上層平臺和應(yīng)用提供算力、存儲、網(wǎng)絡(luò)、容器、容器鏡像、安
全等服務(wù)。
智算服務(wù)平臺包括機器學習平臺和大模型智算平臺?;谥撬慊A(chǔ)設(shè)施和智算基礎(chǔ)平臺提供的服
務(wù)能力,機器學習平臺主要支持簡單智算場景和中等智算場景,提供數(shù)據(jù)預(yù)處理、模型訓練、模型推理、
模型納管和模型部署功能;大模型智算平臺支持大模型智算場景,利用機器學習平臺的數(shù)據(jù)預(yù)處理、模
型部署等能力,提供大模型訓練、大模型微調(diào)、大模型推理和大模型多模納管等功能。
統(tǒng)一監(jiān)控運營運維平臺為智算中心提供通用的監(jiān)控運營運維基礎(chǔ)平臺能力,以及統(tǒng)一門戶、用戶控
制臺、融合多租戶管理、資源管理、運營管理、運維管理、安全部署自動化等能力。
平臺和運營評估方法規(guī)定支持三類場景的智算中心能力評估的原則和方法。
圖1智算中心平臺和運營功能架構(gòu)
智算中心通用要求
a)自主知識產(chǎn)權(quán)
1)開發(fā)工具和框架的授權(quán):應(yīng)確保機器學習平臺使用的開發(fā)工具、框架和庫均是合法授
權(quán);
2)算法和模型的知識產(chǎn)權(quán):機器學習算法和模型應(yīng)具備自主知識產(chǎn)權(quán),或確保已經(jīng)獲得了
適當?shù)脑S可或授權(quán),以便在平臺上使用;
5
T/CSAExx—20xx
3)開源和閉源組件的合規(guī)性:機器學習平臺使用的開源組件應(yīng)遵守相應(yīng)的開源許可協(xié)議;
如使用了閉源組件,應(yīng)確保擁有合法的許可或授權(quán);
4)用戶生成內(nèi)容的合規(guī)性:用戶上傳和共享的內(nèi)容應(yīng)避免侵犯他人的知識產(chǎn)權(quán),同時應(yīng)保
護用戶生成內(nèi)容的合法性。
b)芯片兼容能力
1)架構(gòu)兼容:機器學習平臺和大模型智算平臺應(yīng)支持多種不同芯片架構(gòu),以便用戶可以選
擇適合其應(yīng)用需求的硬件加速器;
2)平臺兼容:機器學習平臺和大模型智算平臺應(yīng)確保平臺的軟件堆棧、驅(qū)動程序和庫能夠
兼容多種芯片,以便用戶可以在不同硬件上運行其模型和算法;
3)框架和開發(fā)工具兼容:機器學習平臺和大模型智算平臺應(yīng)兼容多種深度學習框架(如
TensorFlow、PyTorch、Megatron等)和開發(fā)工具,并支持自定義深度學習框架和開發(fā)工
具。
c)并發(fā)訪問能力
1)多用戶并發(fā)登錄:智算中心應(yīng)支持幾十個至幾千個用戶同時登錄,同時創(chuàng)建千級個容
器,服務(wù)并發(fā)連接數(shù)十萬以上;
2)并發(fā)任務(wù)調(diào)度:智算中心應(yīng)支持對模型訓練,推斷和數(shù)據(jù)預(yù)處理等任務(wù)進行合理調(diào)度和
資源分配;
3)數(shù)據(jù)訪問和共享:智算中心應(yīng)支持數(shù)據(jù)共享和訪問控制機制,以確保多個用戶可以安全
地訪問和共享數(shù)據(jù),同時保護敏感數(shù)據(jù)的隱私。
d)可靠性和容錯能力
1)高可用性:智算中心應(yīng)具備高可用性,支持負載均衡,故障切換和災(zāi)備恢復(fù)機制;
2)容錯處理:智算中心應(yīng)具備容錯處理機制,以應(yīng)對系統(tǒng)故障和異常情況,如硬件故障,
網(wǎng)絡(luò)中斷等;
3)數(shù)據(jù)完整性和一致性:智算中心應(yīng)支持數(shù)據(jù)備份、數(shù)據(jù)校驗和錯誤修復(fù)機制,以確保數(shù)
據(jù)在存儲和處理過程中的完整性和一致性;
4)異常監(jiān)測和報警:智算中心應(yīng)具備異常檢測和報警機制,確保系統(tǒng)出現(xiàn)異常時及時通知
管理員或用戶;
5)時延:機器學習平臺和大模型智算平臺的服務(wù)訪問的平臺延時時間在秒級以內(nèi);
6)故障恢復(fù):機器學習平臺和大模型智算平臺的功能類服務(wù)的故障恢復(fù)時間在分鐘級以
內(nèi);
7)日志和審計:智算中心應(yīng)支持記錄和審計關(guān)鍵操作和事件;
8)彈性擴展:智算中心應(yīng)具備資源彈性擴展能力;
9)性能監(jiān)控和調(diào)整:智算中心應(yīng)提供性能監(jiān)控和調(diào)整工具,以幫助用戶根據(jù)需求調(diào)整資源
分配,優(yōu)化性能。
e)北向接口
機器學習平臺和大模型智算平臺應(yīng)提供restfulAPI、kafka等標準的北向數(shù)據(jù)接口接入統(tǒng)一運
營運維平臺。
6智算基礎(chǔ)設(shè)施
通用要求
各類智算基礎(chǔ)設(shè)施針對簡單智算、中等智算和大模型智算場景應(yīng)支持的技術(shù)要求如表1所示。
6
T/CSAExx—20xx
表1不同智算場景對智算基礎(chǔ)設(shè)施的技術(shù)要求
功能項簡單智算中等智算大模型智算
IDC機房?保證電子信息系?基礎(chǔ)設(shè)施在冗余能力范圍?基礎(chǔ)設(shè)施應(yīng)在一次意外事
統(tǒng)運行不中斷;內(nèi),不得因設(shè)備故障而導(dǎo)致故后或單系統(tǒng)設(shè)備維護或
?雙重電源供電當電子信息系統(tǒng)運行中斷;檢修時仍能保證電子信息
只有一路電源?雙重電源供電,當只有一路系統(tǒng)正常運行;
時,應(yīng)設(shè)置UPS設(shè)電源時,應(yīng)設(shè)置柴油發(fā)電機?應(yīng)由雙重電源供電,應(yīng)設(shè)置
備作為備用電組作為備用電源,UPS提供柴油發(fā)電機組作為備用電
源;雙路供電電源;源,UPS提供雙路供電電源;
?供電電源應(yīng)按二?供電電源應(yīng)按一級負荷考?供電電源應(yīng)按一級負荷中
級負荷考慮;慮;特別重要的負荷考慮;
?網(wǎng)絡(luò)布線應(yīng)具備?網(wǎng)絡(luò)布線應(yīng)具備支持10GB?網(wǎng)絡(luò)布線應(yīng)至少支持10GB
支持10GB/s、/s(管理網(wǎng))、25GB/s(存/s(管理網(wǎng))、100GB/s(存
40GB/s網(wǎng)絡(luò)的儲網(wǎng))和100GB/s(計算網(wǎng))儲網(wǎng))和200GB/s(計算
能力。網(wǎng)絡(luò)的能力。網(wǎng))網(wǎng)絡(luò)的能力
交換機提供支持推理的計算?提供支持訓練的高速網(wǎng)絡(luò);?支持高性能高速網(wǎng)絡(luò),分別
網(wǎng)絡(luò)以及存儲網(wǎng)絡(luò)?提供擁塞控制機制;用于并行計算程序的集群
?提供基于內(nèi)存的樣本數(shù)據(jù)計算網(wǎng)絡(luò)以及并行存儲系
訪問加速。統(tǒng)的存儲網(wǎng)絡(luò);
?上行支持10G/25G/100Gb/s?支持基于內(nèi)存的樣本數(shù)據(jù)
端口到核心交換機訪問加速;
?支持GPU直接通過網(wǎng)卡接入
網(wǎng)絡(luò)的雙中心架構(gòu)、全對
等、扁平化的多軌集群架
構(gòu);
?支持高性能集合通信庫;
?上行支持
10G/100G/200Gb/s端口到
核心交換機
智算服可具備此項能力?提供FP32、FP16和FP8非稀?提供FP32、FP16和FP8非稀
務(wù)器疏算力疏算力
?主頻2.0以上,處理器核心?應(yīng)支持AI芯片之間的高速
≥32核,內(nèi)存≥512GB,8塊互聯(lián)帶寬不低于200GB
GPU卡(典型32G)?主頻≥2.0以上,處理器核
心≥48核,內(nèi)存≥1TB,8塊
GPU卡
通用計處理器核心≥24核,處理器核心≥24核,內(nèi)存≥處理器核心≥32核,內(nèi)存≥2TB,
算服務(wù)內(nèi)存≥512GB,≥1塊512GB,≥2塊3.84TSSD≥4塊1.92TSSD
器960GSSD
存儲服無差異化要求
務(wù)器
7
T/CSAExx—20xx
安全服?防火墻(支持入?防火墻(支持入侵防御及防?防火墻(支持入侵防御及防
務(wù)器侵防御及防病病毒),最大吞吐量≥病毒),最大吞吐量≥
毒),最大吞吐8Gbps,每秒新建連接數(shù)≥40Gbps,每秒新建連接數(shù)≥
量≥8Gbps,每秒15萬,并發(fā)連接數(shù)≥200萬;20萬,并發(fā)連接數(shù)≥600萬;
新建連接數(shù)≥15?Web應(yīng)用防火墻支持基本防?Web應(yīng)用防火墻支持SQL注
萬,并發(fā)連接數(shù)護功能;入語義分析等高級防護功
≥200萬;?提供態(tài)勢感知和堡壘機集能;
?Web應(yīng)用防火墻中管理資產(chǎn)權(quán)限?提供態(tài)勢感知和堡壘機集
支持基本防護功中管理資產(chǎn)權(quán)限
能;?提供多鏈路/服務(wù)器負載均
?提供態(tài)勢感知和衡、全局負載、智能DNS能力
堡壘機集中管理
資產(chǎn)權(quán)限
IDC機房
6.2.1選址及設(shè)備布置
a)在保證電力供給、通信暢通、交通便捷的前提下,智算中心的建設(shè)應(yīng)選擇氣候環(huán)境溫度相對較
低的地區(qū),這樣有利于降低能耗。
b)電子信息系統(tǒng)受粉塵、有害氣體、振動沖擊、電磁場干擾等因素影響時,將導(dǎo)致運算差錯、誤
動作、機械部件磨損、腐蝕、縮短使用壽命等。智算中心位置選擇應(yīng)盡可能遠離產(chǎn)生粉塵、有
害氣體、強振源、強噪聲源等場所,避開強電磁場干擾。
c)水災(zāi)隱患區(qū)域主要是指江、河、湖、海岸邊,A級智算中心的防洪標準應(yīng)按100年重現(xiàn)期考慮;
B級智算中心的防洪標準應(yīng)按50年重現(xiàn)期考慮。在園區(qū)內(nèi)選址時,智算中心不應(yīng)設(shè)置在園區(qū)低
洼處。
d)對智算中心選址地區(qū)的電磁場干擾強度不能確定時,需做實地測量,測量值超過本規(guī)范第5章
規(guī)定的電磁場干擾強度時,應(yīng)采取屏蔽措施。
e)從安全角度考慮,大模型智算中心不宜建在公共停車庫的正上方,當只能將智算中心建在停車
庫的正上方時,應(yīng)對停車庫采取防撞防爆措施。
f)大中型智算中心是指主機房面積大于200m2的智算中心。由于空調(diào)系統(tǒng)的冷卻塔或室外機組工
作時噪聲較大,如果智算中心位于住宅小區(qū)內(nèi)或距離住宅太近,噪聲將對居民生活造成影響。
居民小區(qū)和商業(yè)區(qū)內(nèi)人員密集,也不利于智算中心的安全運行。
g)智算中心各類設(shè)備包括服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備、機柜(架)、供配電設(shè)備、空調(diào)設(shè)備、給
排水設(shè)備、消防設(shè)備、監(jiān)控設(shè)備等。工藝專業(yè)應(yīng)遵循近期建設(shè)規(guī)模與遠期發(fā)展規(guī)劃協(xié)調(diào)一致的
原則,按照模塊化的建設(shè)思路,根據(jù)數(shù)據(jù)中心的不同應(yīng)用進行設(shè)備平面布置。
6.2.2環(huán)境要求
a)主機房和輔助區(qū)內(nèi)的溫度、露點溫度和相對濕度對電子信息設(shè)備的正常運行和數(shù)據(jù)中心節(jié)能
非常重要。有關(guān)環(huán)境對印刷線路板及電子元器件的影響研究表明,影響靜電積累效應(yīng)和空氣中
8
T/CSAExx—20xx
各種鹽類粉塵潮解度的是空氣含濕量,在氣壓不變的情況下,由于露點溫度可以直接體現(xiàn)空氣
中的含濕量,因此采用露點溫度更具有可操作性。
b)電子信息設(shè)備停機時,主機房也應(yīng)該保持一定的環(huán)境溫度和相對濕度?!巴C”是指設(shè)備已經(jīng)
拆除包裝并安裝,但未投入運行或停機維護階段。
c)由于空氣中的懸浮粒子有可能導(dǎo)致電子信息設(shè)備內(nèi)部發(fā)生短路等故障,為了保障重要的電子
信息系統(tǒng)運行安全,本規(guī)范對數(shù)據(jù)中心主機房在靜態(tài)或動態(tài)條件下的空氣含塵濃度做出了規(guī)
定。根據(jù)現(xiàn)行國家標準《潔凈廠房設(shè)計規(guī)范》GB50073的規(guī)定進行計算,每立方米空氣中粒徑
大于或等于0.5μm的懸浮粒子數(shù)為17600000的空氣潔凈度等級為8.7級。
6.2.3建筑與結(jié)構(gòu)
a)由于數(shù)據(jù)中心的建筑是一次性建成,而電子信息設(shè)備是分期投入的,故要求建筑平面應(yīng)具有靈
活性,在后期基礎(chǔ)設(shè)施的施工和安裝過程中,不應(yīng)影響前期電子信息設(shè)備的正常運行。
b)從空調(diào)氣流組織合理性及設(shè)備和管線安裝方便角度考慮,對于新建數(shù)據(jù)中心和層高較高的已
有建筑,主機房凈高要求不小于3.0m。當利用已有建筑改建數(shù)據(jù)中心時,由于某些建筑層高較
低,主機房凈高可適量降低,但不應(yīng)小于2.6m,此時機柜容量也應(yīng)適量降低。在滿足電子信息
設(shè)備使用要求的前提下,還應(yīng)綜合考慮室內(nèi)建筑空間比例的合理性以及對建設(shè)投資和日常運
行費用的影響。
c)規(guī)定變形縫不宜穿過主機房的目的是為了避免因主體結(jié)構(gòu)的不均勻沉降而破壞電子信息系統(tǒng)
的運行安全。當由于主機房面積太大而無法保證變形縫不穿過主機房時,則必須控制變形縫兩
邊主體結(jié)構(gòu)的沉降差。
d)數(shù)據(jù)中心設(shè)置單獨出入口的目的是為了避免人流物流的交叉,提高數(shù)據(jù)中心的安全性,減少灰
塵被帶入主機房。尤其是當數(shù)據(jù)中心位于其他建筑物內(nèi)時,應(yīng)采取措施,避免無關(guān)人員和貨物
進入數(shù)據(jù)中心。
e)主機房一般屬于無人操作區(qū),輔助區(qū)一般含有測試機房、總控中心、備件庫、維修室、用戶工
作室等,屬于有人操作區(qū)。設(shè)計規(guī)劃時宜將有人操作區(qū)和無人操作區(qū)分開布置,以減少人員將
灰塵帶入無人操作區(qū)的機會。但從操作便利角度考慮,主機房和輔助區(qū)宜相鄰布置。
6.2.4空氣調(diào)節(jié)
a)電子信息設(shè)備在運行過程中產(chǎn)生大量熱,這些熱量如果不能及時排除,將導(dǎo)致機柜或主機房內(nèi)
溫度升高,過高的溫度將使電子元器件性能劣化、出現(xiàn)故障,或者降低使用壽命。此外,制冷
系統(tǒng)投資較大、能耗較高,運行維護復(fù)雜。因此,空氣調(diào)節(jié)系統(tǒng)設(shè)計應(yīng)根據(jù)數(shù)據(jù)中心的等級,
采用合理可行的制冷系統(tǒng),對數(shù)據(jù)中心的可靠性和節(jié)能具有重要意義。
b)數(shù)據(jù)中心內(nèi)設(shè)備的散熱量應(yīng)以設(shè)備實際用電量為準。對主機房內(nèi)的電子信息設(shè)備的用電量不
能完全掌握時,可參考所選UPS電源的容量和冗余量來計算設(shè)備的散熱量。
c)從節(jié)能的角度出發(fā),機柜間采用封閉通道的氣流組織方式,可以提高空調(diào)利用率。采用水平送
風的行間制冷空調(diào)進行冷卻,可以降低風阻。隨著電子信息技術(shù)的發(fā)展,機柜的容量不斷提高,
設(shè)備的發(fā)熱量將隨容量的增加而加大,為了保證電子信息系統(tǒng)的正常運行,對設(shè)備的降溫也將
出現(xiàn)多種方式,各種方式之間可以相互補充。
9
T/CSAExx—20xx
d)主機房內(nèi)的線纜數(shù)量很多,一般采用線槽或橋架敷設(shè)。當線槽或橋架敷設(shè)在高架活動地板下
時,線槽占據(jù)了活動地板下的部分空間。當活動地板下作為空調(diào)靜壓箱時,應(yīng)考慮線槽及消防
管線等所占用的空間,空調(diào)送風量應(yīng)按地板下的有效送風面積進行計算。
e)主機房維持正壓的目的是為了防止外部灰塵進入主機房。
6.2.5電氣
a)大模型智算中心的供電電源應(yīng)按一級負荷中特別重要的負荷考慮,中等智算中心的供電電源
應(yīng)按一級負荷考慮,簡單智算中心的供電電源應(yīng)按二級負荷考慮。
b)規(guī)定引入機房的戶外供電線路不宜采用架空方式敷設(shè)的目的是為了保證戶外供電線路的安全,
保證數(shù)據(jù)中心供電的可靠性。戶外架空線路易受到自然因素(如臺風、雷電、洪水等)和人為因
素(如交通事故)的破壞,導(dǎo)致供電中斷,故戶外供電線路宜采用直接埋地、排管埋地或電纜溝
敷設(shè)的方式。當戶外供電線路采用埋地敷設(shè)有困難,只能采用架空敷設(shè)時,應(yīng)采取措施,保證
線路安全。
c)數(shù)據(jù)中心供電可靠性要求較高,為防止其他負荷干擾,當數(shù)據(jù)中心用電容量較大時,應(yīng)設(shè)置專
用配電變壓器供電;數(shù)據(jù)中心用電容量較小時,可由專用低壓饋電線路供電。
d)數(shù)據(jù)中心低壓配電采用TN-S系統(tǒng)可以對雷電浪涌進行多級保護,對UPS和電子信息設(shè)備進行電
磁兼容保護。
e)備用電源是保障大模型智算中心正常運行的必要條件,獨立于正常電源的發(fā)電機組和供電網(wǎng)
絡(luò)中獨立于正常電源的專用饋電線路都可以作為備用電源。由于柴油發(fā)電機組在可操作性上
優(yōu)于其他備用電源,故大部分數(shù)據(jù)中心采用柴油發(fā)電機組作為備用電源。
f)中等中心比大模型智算中心在電源可靠性方面降低了要求,當B級數(shù)據(jù)中心由雙重電源供電時,
不需要再設(shè)置備用電源。
6.2.6電磁屏蔽
a)設(shè)有電磁屏蔽室的數(shù)據(jù)中心,結(jié)構(gòu)荷載除應(yīng)滿足電子信息設(shè)備的要求外,還應(yīng)考慮金屬屏蔽結(jié)
構(gòu)需要增加的荷載值。根據(jù)調(diào)研,需要增加的結(jié)構(gòu)荷載與屏蔽結(jié)構(gòu)形式及屏蔽室的面積有關(guān),
一般在1.2kN/m2~2.5kN/m2范圍內(nèi)。
b)濾波器、波導(dǎo)管等屏蔽件一般安裝在電磁屏蔽室金屬殼體的外側(cè),考慮到以后的維修,需要在
安裝有屏蔽件的金屬殼體側(cè)與建筑(結(jié)構(gòu))墻之間預(yù)留維修通道或維修口,通道寬度不宜小于
600mm。
c)電磁屏蔽室的接地采用單獨引下線的目的是為了防止屏蔽信號干擾電子信息設(shè)備,引下線一
般采用截面積不小于25mm2的多股銅芯電纜。
d)屏蔽件的性能指標主要是指衰減參數(shù)和截止頻率等。選擇屏蔽件時,其性能指標不能低于電磁
屏蔽室的屏蔽要求。根據(jù)調(diào)研,屏蔽件的性能指標適當提高一些,屏蔽效果會更好。
6.2.7網(wǎng)絡(luò)與布線系統(tǒng)
a)數(shù)據(jù)中心布線系統(tǒng)與網(wǎng)絡(luò)系統(tǒng)架構(gòu)密切相關(guān),設(shè)計時應(yīng)根據(jù)網(wǎng)絡(luò)架構(gòu)確定布線系統(tǒng)。
10
T/CSAExx—20xx
b)傳輸介質(zhì)主要是指設(shè)備纜線、跳線和配線設(shè)備。冗余配置的要求主要針對大模型和中等智算中
心的布線,對于簡單智算中心的布線,可根據(jù)具體情況確定。網(wǎng)絡(luò)布線應(yīng)具備支持10GB/s、
40GB/s和100GB/s網(wǎng)絡(luò)的能力。
c)MPO是多芯推進鎖閉光纖連接器件,通過陣列完成多芯光纖的連接;MTP是基于MPO發(fā)展而來的
機械推拉式多芯光纖連接器件,MTP兼容所有MPO連接器件標準和規(guī)范。單個MPO/MTP連接器件
可以支持12芯、24芯、48芯或72芯光纖的連接。存儲網(wǎng)絡(luò)光纖鏈路設(shè)計采用多芯MPO/MTP預(yù)連
接系統(tǒng)是為了滿足存儲設(shè)備的損耗性能要求。
d)主機房中的對絞線纜配線架和光纖配線箱可以安裝在機柜(架)內(nèi),也可以通過支架安裝在橋
架上。
e)為防止電磁場對布線系統(tǒng)的干擾,避免通過布線系統(tǒng)對外泄漏重要信息,應(yīng)采用屏蔽布線系
統(tǒng)、光纜布線系統(tǒng)或采取其他電磁干擾防護措施(如建筑屏蔽)。當采用屏蔽布線系統(tǒng)時,應(yīng)保
證鏈路或信道的全程屏蔽和屏蔽層可靠接地。
6.2.8智能化系統(tǒng)
a)智算中心智能化系統(tǒng)設(shè)計內(nèi)容一般包括:環(huán)境和設(shè)備監(jiān)控系統(tǒng)、網(wǎng)絡(luò)與布線系統(tǒng)、電話交換系
統(tǒng)、小型移動蜂窩電話系統(tǒng)、火災(zāi)自動報警及消防聯(lián)動控制系統(tǒng)、背景音樂及緊急廣播系統(tǒng)、
視頻安防監(jiān)控系統(tǒng)、入侵報警系統(tǒng)、出入口控制系統(tǒng)、停車庫管理系統(tǒng)、電子巡更管理系統(tǒng)、
電梯管理系統(tǒng)、周界防范系統(tǒng)、有線電視系統(tǒng)、衛(wèi)星通信系統(tǒng)、大屏幕顯示系統(tǒng)、擴聲系統(tǒng)、
中控系統(tǒng)、KVM系統(tǒng)、資產(chǎn)管理系統(tǒng)、數(shù)據(jù)中心氣流與熱場管理系統(tǒng)等,各數(shù)據(jù)中心可根據(jù)實
際需求確定。
b)智能化系統(tǒng)的主機和人機界面可以集中設(shè)置在總控中心內(nèi)(消防控制室單獨設(shè)置時,其他系統(tǒng)
可以集中設(shè)置在總控中心內(nèi))。為了提高供電電源的可靠性,各系統(tǒng)宜采用獨立的UPS電源。當
采用集中UPS電源供電時,應(yīng)采用單獨回路為各系統(tǒng)配電。A級和B級數(shù)據(jù)中心,應(yīng)為UPS提供雙
路供電電源。
c)系統(tǒng)對監(jiān)控范圍內(nèi)分布的各監(jiān)控對象進行實時監(jiān)視,記錄和處理相關(guān)數(shù)據(jù),檢測故障,適時通
知相關(guān)人員處理故障,根據(jù)要求提供相應(yīng)的數(shù)據(jù)和報表,實現(xiàn)機房的無人值守,以及環(huán)境和設(shè)
備的集控監(jiān)控、維護和管理,對電能利用效率(PUE)和水利用效率(WUE)進行檢測和計算。
6.2.9給水排水
a)擋水和排水設(shè)施用于自動噴水滅火系統(tǒng)動作后的排水、空調(diào)冷凝水及加濕器的排水,防止積
水。
b)設(shè)置冷卻水補水儲存裝置是為了保證數(shù)據(jù)中心冷源供水系統(tǒng)的可靠性,防止市政供水中斷導(dǎo)
致數(shù)據(jù)中心供冷中斷。
6.2.10消防與安全
a)常用的氣體滅火劑分為鹵代烷和惰性混合氣體,前者的典型代表為七氟丙烷(HFC-227ea),后
者的典型代表為IG-541。鹵代烷的滅火機理是化學反應(yīng),惰性氣體滅火機理是控制氧氣濃度和
窒息。氣體滅火系統(tǒng)具有響應(yīng)速度快、滅火后藥劑無殘留、對電子設(shè)備損傷小等特點。氣體滅
11
T/CSAExx—20xx
火系統(tǒng)自動化程度高、滅火速度快,對于局部火災(zāi)有非常強的抑制作用,但由于造價高,因此
應(yīng)選擇火災(zāi)對機房影響最大的部分設(shè)置氣體滅火系統(tǒng)。
b)對于空間較大,且只有部分設(shè)備需要重點保護的房間(如變配電室),為進一步降低工程造價,
可僅對設(shè)備(如配電柜)采取局部保護措施,如可采用探火管自動滅火裝置。
c)智算中心發(fā)生火災(zāi),其后果都很嚴重,因此必須設(shè)置火災(zāi)探測報警系統(tǒng),便于早期發(fā)現(xiàn)火災(zāi),
及時撲救,使損失減到最小?,F(xiàn)行國家標準《火災(zāi)自動報警系統(tǒng)規(guī)范》GB50116對火災(zāi)探測和
聯(lián)動控制有詳細的要求。
6.2.11基礎(chǔ)設(shè)施運行維護
a)設(shè)施系統(tǒng)與設(shè)備運行應(yīng)包括值班、監(jiān)控日常巡檢、運行操作、報和事件處理內(nèi)容。
b)大型智算中心應(yīng)24H值班,中等和簡單智算中心宜按照子信息設(shè)備負載的重要性確定值班時間。
c)消防系統(tǒng)和安防范系統(tǒng)應(yīng)24H保持正常工作狀態(tài),不得隨意中斷。
d)運行人員應(yīng)按照巡檢計劃、周期、規(guī)定路線對基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備及運行環(huán)境進行巡檢,巡檢
記錄應(yīng)及時、完整、真實、清晰。
e)大型智算中心每日現(xiàn)場巡檢次數(shù)不應(yīng)少于2次,中等和簡單智算中心每日場巡檢次數(shù)不應(yīng)少于
1次。
f)有能耗計量系統(tǒng)的智算中新,應(yīng)保證能耗計裝置正常工作,數(shù)據(jù)完整有效。
g)智算中心能耗數(shù)據(jù)應(yīng)定期進行綜合分析,合理優(yōu)化電氣與通風調(diào)系統(tǒng)的運行控制策略,提高整
體電能使用效率。
h)設(shè)備有備用或冗余的,應(yīng)輪換使用。
RDMA網(wǎng)絡(luò)交換機
6.3.1InfiniBand
接口與線纜要求
a)交換機設(shè)備200G端口數(shù)量≥40個;
b)交換機設(shè)備支持DAC銅纜或AOC線纜;
c)交換機配套光纖的誤碼率≤1E-15。
功能要求
a)高速計算網(wǎng)絡(luò)應(yīng)符合InfiBand相關(guān)技術(shù)規(guī)范;
b)支持原生RDMA硬件支持,不接受軟件模擬RDMA;
c)支持MPI點到點通信和聚合類通信硬件卸載,提供MPI通信優(yōu)化軟件包;
d)支持Adaptiverouting動態(tài)路由。
性能要求
a)支持網(wǎng)絡(luò)鏈路故障快速恢復(fù)和動態(tài)路由,網(wǎng)絡(luò)收斂時間<1ms;
b)交換機端口轉(zhuǎn)發(fā)延遲<130ns;
c)設(shè)備整機交換容量≥16Tbps(A類);
12
T/CSAExx—20xx
d)IB流量多打多場景,針對不同消息長度,網(wǎng)絡(luò)端到端平均帶寬需滿足>15Gb/s;
e)IB流量alltoall場景,針對不同消息長度,網(wǎng)絡(luò)端到端的平均帶寬需滿足>15Gb/s,平均時延
需滿足<1000us;
f)IB流量allreduce場景,針對不同消息長度,網(wǎng)絡(luò)端到端的平均帶寬需滿足>20GB/s,平均時
延需滿足<2500us。
硬件要求
a)交換機設(shè)備的高度≤1U;
b)配置冗余電源和冗余風扇;
c)支持電源和風扇的熱插拔;
d)支持220V交流雙路供電(要求價格保持一致,簽約時由用戶確定供貨電源類型。直流電源不得
使用直/交逆變模塊)。
網(wǎng)絡(luò)管理要求
a)支持圖形化管理軟件,能夠?qū)W(wǎng)絡(luò)運行、網(wǎng)絡(luò)性能、故障以及擁塞狀況進行監(jiān)控;
b)網(wǎng)管軟件能夠自動發(fā)現(xiàn)拓撲和設(shè)備,并對設(shè)備進行管理、對性能進行優(yōu)化,支持管理系統(tǒng)的高
可用。
6.3.2RoCEV2
a)宜基于通用以太網(wǎng)交換機、網(wǎng)卡和組網(wǎng),支持網(wǎng)絡(luò)性能無損的集群規(guī)模擴展和PFC死鎖檢測,
避免集群網(wǎng)絡(luò)不可用的系統(tǒng)性風險,保障網(wǎng)絡(luò)整體SLA;
b)接入交換機提供業(yè)務(wù)網(wǎng)接入和互聯(lián)網(wǎng)接入;
c)支持高性能高速網(wǎng)絡(luò),分別用于并行計算程序的集群計算網(wǎng)絡(luò)以及并行存儲系統(tǒng)的存儲網(wǎng)絡(luò);
d)提供IPMI網(wǎng)絡(luò),接入到系統(tǒng)管理網(wǎng);
e)宜采用雙25GE網(wǎng)絡(luò)進行云內(nèi)的業(yè)務(wù)組網(wǎng),上端對接核心交換機;
f)宜采用雙10GE接入網(wǎng)絡(luò)交換機組成系統(tǒng)管理網(wǎng),上端對接網(wǎng)管核心交換機;
g)支持GPU直接通過網(wǎng)卡接入網(wǎng)絡(luò)的雙中心架構(gòu),提升集群通信效率,降低節(jié)點內(nèi)靜態(tài)擁塞;
h)支持全對等、扁平化的多軌集群架構(gòu)(2個核心span+交換機lif),實現(xiàn)多路通信和資源間的
直接互聯(lián)互通;擴展:跨數(shù)據(jù)中心;
i)支持流控算法、網(wǎng)絡(luò)協(xié)議與架構(gòu)的協(xié)同設(shè)計,提升網(wǎng)絡(luò)傳輸性能,降低動態(tài)擁塞;
j)支持高性能集合通信庫,提供GPU和網(wǎng)卡的智能匹配、節(jié)點內(nèi)外物理拓撲自動識別及拓撲感知
的無擁塞集群通信能力;
k)支持基于內(nèi)存的樣本數(shù)據(jù)訪問加速,降低數(shù)據(jù)加載時長。
6.3.3匯聚交換機
a)支持不少于48個10GSFP+接口和不少于4個40GQSFP+接口;
b)交換容量不低于12Tbps,包轉(zhuǎn)發(fā)率不低于4480Mpps;
c)支持基于端口、基于協(xié)議、基于MAC的VLAN;
13
T/CSAExx—20xx
d)支持RIP、OSPF、ISIS、BGP等IPv4動態(tài)路由協(xié)議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動態(tài)路由協(xié)議;
e)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
f)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時間信息;
g)支持簡化MOD,不占用路由資源;支持增強TCB,全局端口所有隊列同時丟包監(jiān)控;
h)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
i)支持無損網(wǎng)絡(luò)RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
j)配置100GE光模塊不少于12個。
6.3.4核心交換機
a)支持主控制引擎模塊不少于2個;
b)可用槽位不少于6個;
c)支持至少36個100GE下行接口;至少48端口萬兆以太網(wǎng)口;
d)交換容量不少于12Tbps,包轉(zhuǎn)發(fā)率不低于4480Mpps;
e)支持基于端口、基于協(xié)議、基于MAC的VLAN;
f)支持RIP、OSPF、ISIS、BGP等IPv4動態(tài)路由協(xié)議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動態(tài)路由協(xié)議;
g)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
h)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時間信息;
i)支持簡化MOD,不占用路由資源;支持增強TCB,全局端口所有隊列同時丟包監(jiān)控;
j)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
k)支持無損網(wǎng)絡(luò)RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
l)配置100GE光模塊不低于12個。
智算算力服務(wù)器
智算算力服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個獨立或集成的CPU;
b)應(yīng)支持至少兩種深度學習或機器學習框架;
c)應(yīng)支持DDR4或以上版本的內(nèi)存,宜支持不少于16個DDR控制器;
d)應(yīng)支持SAS、SATA或NVME等存儲協(xié)議;
e)應(yīng)支持計算機視覺,自然語言處理,聲音處理場景模型訓練;
f)應(yīng)支持PCIE協(xié)議,版本不低于3.0,宜支持至少2個PCIE控制器;
g)應(yīng)支持USB2.0通信,配備接口;
h)應(yīng)支持100GE、25GE、10GE、GE接口;
i)支持片間數(shù)據(jù)通道或接口,單向通信速率不低于24Gbps;
j)宜支持人工智能加速處理器芯片直出的參數(shù)面網(wǎng)口;
k)采用人工智能加速器片上內(nèi)存時,片上內(nèi)存不宜低于32GB,總帶寬不宜小于1200GB/s;
14
T/CSAExx—20xx
l)采用板載內(nèi)存時,板載內(nèi)存不宜低于48GB;
m)應(yīng)支持圖像、視頻預(yù)處理;
n)服務(wù)器整機電源功率不應(yīng)低于2KW;
o)單條內(nèi)存容量應(yīng)不小于32GB,宜能支持64GB或以上單條存容量;
p)可配內(nèi)存數(shù)量應(yīng)不低于16條,宜不低于32條;
q)支持虛擬化的人工智能加速處理器(如NPU、GPU),GPU虛擬化支持顯存、算力雙維度自由切
分和動態(tài)創(chuàng)建銷毀;
r)支持跨架構(gòu)的GPU虛擬化技術(shù),提供智算算力池化,推理和訓練服務(wù)器的混合部署。
通用計算服務(wù)器
通用計算服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個獨立或集成的CPU;
b)應(yīng)支持CPU虛擬化技術(shù),如虛擬機、容器等;
c)宜支持L3緩存,容量不低于16MB;
d)宜支持DDR4或以上版本的內(nèi)存;
e)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
f)應(yīng)支持25GE、10GE、GE等網(wǎng)絡(luò)接口;
g)應(yīng)支持圖像、視頻預(yù)處理模塊;
h)應(yīng)支持計算機視覺,自然語言處理,聲音處理場景模型推理;
i)應(yīng)支持SAS、SATA或NVME等存儲協(xié)議;
j)服務(wù)器整機電源功率不應(yīng)低于500W;
k)單條內(nèi)存容量不應(yīng)小于16GB,宜能支持64GB或以上單條存容量;
l)可配內(nèi)存數(shù)量應(yīng)不低于8條,宜不低于24條。
存儲服務(wù)器
存儲服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個獨立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
c)宜支持DDR4或以上版本的內(nèi)存;
d)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
e)應(yīng)支持至少6個以上25GE、10GE、GE等網(wǎng)絡(luò)接口;
f)應(yīng)支持SAS、SATA或NVME等存儲協(xié)議;
g)服務(wù)器整機電源功率不應(yīng)低于500W;
h)單條內(nèi)存容量不應(yīng)小于32GB,宜能支持64GB或以上單條存容量;
i)可配內(nèi)存數(shù)量應(yīng)不低于16條,宜不低于32條;
j)可配SSD硬盤不低于10塊,單塊硬盤容量不低于480GB,宜能支撐3.84TB以上容量;
k)可配SATA或SAS硬盤不低于24塊,單塊硬盤容量不低于16TB,硬盤轉(zhuǎn)數(shù)不低于7.2KPRM。
安全服務(wù)器
安全服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少1個獨立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
15
T/CSAExx—20xx
c)宜支持DDR4或以上版本的內(nèi)存;
d)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
e)應(yīng)支持至少6個以上25GE、10GE、GE等網(wǎng)絡(luò)接口;
f)應(yīng)支持1個以上帶外管理接口;
g)應(yīng)支持SAS、SATA或NVME等存儲協(xié)議;
h)服務(wù)器整機電源功率不應(yīng)低于500W;
i)單條內(nèi)存容量不應(yīng)小于16GB,宜能支持64GB或以上單條存容量;
j)可配內(nèi)存數(shù)量應(yīng)不低于8條,宜不低于16條。
k)應(yīng)提供硬件可信執(zhí)行環(huán)境(TEE),供特權(quán)軟件運行。
l)防火墻支持應(yīng)用控制、URL過濾、病毒防護、入侵防御等功能;
m)Web應(yīng)用防火墻支持HTTP規(guī)范性檢測、注入防護、漏洞防護等基礎(chǔ)功能,以及SQL注入語義分析、
XSS跨站腳本語義分析、網(wǎng)站盜鏈行為檢測與防御、XML攻擊防護等高級防護功能;
n)提供態(tài)勢感知和堡壘機集中管理資產(chǎn)權(quán)限;
o)提供負載均衡能力,包括多鏈路/服務(wù)器負載均衡、全局負載、智能DNS等能力。
7智算基礎(chǔ)平臺
通用要求
智算基礎(chǔ)平臺的各項服務(wù)針對簡單智算、中等智算和大模型智算場景應(yīng)支持的要求如表2所示。
表2不同智算場景對智算基礎(chǔ)平臺的技術(shù)要求
功能項簡單智算中等智算大模型智算
算力服務(wù)基本CPU計算能力和CPU+GPU及GPU加速和分高性能計算資源、包括多CPU、
并行計算能力布式計算能力;默認都是數(shù)據(jù)中心級的GPU,
支持并行計算和分布式支持大規(guī)模并行計算和分布式訓
訓練練
容器服務(wù)鏡像大小幾百兆到幾鏡像大小幾十G到數(shù)十G鏡像大小幾十G到百G,鏡像部署
個G之前,鏡像部署時之間,鏡像部署時間小時間幾個小時到數(shù)天級
間分鐘級時級
容器鏡像服務(wù)鏡像構(gòu)建時間幾分鐘鏡像構(gòu)建時間幾分鐘至鏡像構(gòu)建時間小時至數(shù)數(shù)天
數(shù)小時
網(wǎng)絡(luò)服務(wù)響應(yīng)時間:網(wǎng)絡(luò)服務(wù)響應(yīng)時間:網(wǎng)絡(luò)服務(wù)應(yīng)響應(yīng)時間:網(wǎng)絡(luò)服務(wù)應(yīng)能在幾百
應(yīng)能在幾十毫秒至數(shù)能在幾十毫秒至數(shù)百毫毫秒至數(shù)秒的范圍內(nèi)快速響應(yīng)。
百毫秒的范圍內(nèi)快速秒的范圍內(nèi)快速響應(yīng)。并發(fā)連接:網(wǎng)絡(luò)服務(wù)應(yīng)能處理數(shù)
響應(yīng)。并發(fā)連接:網(wǎng)絡(luò)服務(wù)應(yīng)萬到數(shù)十萬個并發(fā)連接。
并發(fā)連接:網(wǎng)絡(luò)服務(wù)能處理數(shù)千到數(shù)萬個并數(shù)據(jù)傳輸:支持大規(guī)模數(shù)據(jù)的高
應(yīng)能處理數(shù)百到數(shù)千發(fā)連接。速傳輸和低延遲的通信。
個并發(fā)連接。數(shù)據(jù)傳輸:支持中等規(guī)
模數(shù)據(jù)的高效傳輸和低
延遲的通信。
16
T/CSAExx—20xx
數(shù)據(jù)傳輸:支持小規(guī)
模數(shù)據(jù)的快速傳輸和
低延遲的通信。
存儲服務(wù)單數(shù)據(jù)文件<1TB,單數(shù)據(jù)文件>1TB,中等通用預(yù)訓練:單數(shù)據(jù)文件>2TB,
IOPS>1萬,吞吐量ms級延時,IOPS>3萬,百億小文件,IOPS百萬級,吞吐
<4GB/S吞吐量<10GB/S量>100GB/S
行業(yè)預(yù)訓練:單數(shù)據(jù)文件>1TB,
中等ms級延時,IOPS>3萬,吞吐
量<10GB/S
微調(diào)訓練:
單數(shù)據(jù)文件<1TB,IOPS>1萬,吞
吐量<4GB/S
安全服務(wù)提供基礎(chǔ)的訪問控提供細粒度的訪問控提供高級訪問控制和身份認證能
制,制;具備較強的監(jiān)測防力;
監(jiān)測防御常見網(wǎng)絡(luò)威御能力;支持敏感操作監(jiān)測防御復(fù)雜的網(wǎng)絡(luò)安全威脅和
脅;記錄和審計常見的審計和追蹤。攻擊;
訪問操作日志。支持全面的安全審計和日志記
錄。
算力服務(wù)
智算基礎(chǔ)平臺的算力服務(wù)應(yīng)滿足的要求包括但不限于:
a)支持通用算力和智算算力兩種計算方式,滿足不同應(yīng)用場景需要;
b)提供彈性伸縮能力,用戶可以根據(jù)實際需求進行配置和調(diào)整;
c)支持多種任務(wù)調(diào)度方式,包括批處理、交互式應(yīng)用、實時流處理等;
d)支持多種操作系統(tǒng),包括Linux和Windows等;
e)提供高可用性和容錯能力,確保計算持續(xù)穩(wěn)定運行。
容器服務(wù)
智算基礎(chǔ)平臺的容器服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供輕量級、可移植和可擴展的容器環(huán)境;
b)支持常見的容器化技術(shù),如Docker和Kubernetes等;
c)提供容器編排機制,確保容器服務(wù)的高可靠性和高可用性;
d)支持容器自動發(fā)現(xiàn)和擴展;
e)提供容器網(wǎng)絡(luò)隔離和安全性保護。
容器鏡像服務(wù)
智算基礎(chǔ)平臺的容器鏡像服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供靈活的容器鏡像管理和分發(fā)系統(tǒng);
b)支持常見的容器鏡像倉庫,如DockerHub和阿里云鏡像庫等;
17
T/CSAExx—20xx
c)提供高效、安全和可靠的容器鏡像構(gòu)建和打包;
d)支持鏡像的標簽管理和自動化構(gòu)建。
網(wǎng)絡(luò)服務(wù)
智算基礎(chǔ)平臺的網(wǎng)絡(luò)服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供高性能和低延遲的網(wǎng)絡(luò)服務(wù),支持超大規(guī)模網(wǎng)絡(luò),宜采用適合大模型訓練網(wǎng)絡(luò)流量特征的
網(wǎng)絡(luò)架構(gòu),如fat-tree等;
b)應(yīng)支持RDMA高性能網(wǎng)絡(luò),如InfiniBand、RoCE,及相應(yīng)的網(wǎng)卡、交換機。國產(chǎn)化場景應(yīng)支持RoCE
網(wǎng)絡(luò);
c)實現(xiàn)虛擬專用云(VPC)網(wǎng)絡(luò),實現(xiàn)安全訪問和隔離;
d)支持不同網(wǎng)絡(luò)協(xié)議,如TCP/IP、UDP和HTTP等;
e)提供負載均衡和流量控制機制,確保高可用性和高吞吐量。
存儲服務(wù)
智算基礎(chǔ)平臺的存儲服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供高性能的存儲能力,如高性能存儲、對象存儲、塊存儲和文件存儲等;
b)提供不同存儲方式,如分布式文件系統(tǒng)、分布式塊存儲和對象存儲等;
c)提供數(shù)據(jù)備份和恢復(fù)能力,確保數(shù)據(jù)不受意外損失;
d)提供數(shù)據(jù)壓縮、加密(傳輸加密和服務(wù)端加密)和鑒別等安全保護措施;
e)實現(xiàn)容器化存儲,確保數(shù)據(jù)隔離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 種子科技在農(nóng)業(yè)生產(chǎn)中的創(chuàng)新
- 保險行業(yè)采購工作經(jīng)驗分享
- 2024年度高端大米品牌推廣與銷售代理合同3篇
- 2024年校園食堂信息化建設(shè)及承包經(jīng)營服務(wù)合同3篇
- 煤礦課程設(shè)計是什么
- 施工工人安全協(xié)議書
- 汽車租賃企業(yè)合作協(xié)議
- 山西大學附中屆高三月月考語文試題
- 2024年再婚后離婚協(xié)議中離婚訴訟費用承擔范本3篇
- 忘做核酸檢測檢討書范文(9篇)
- 《實用日本語應(yīng)用文寫作》全套電子課件完整版ppt整本書電子教案最全教學教程整套課件
- 國家開放大學《人文英語3》章節(jié)測試參考答案
- 鍋爐習題帶答案
- 農(nóng)村宅基地地籍測繪技術(shù)方案
- 【課件】Unit1ReadingforWriting課件高中英語人教版(2019)必修第二冊
- 遺傳分析的一個基本原理是DNA的物理距離和遺傳距離方面...
- Agilent-E5061B網(wǎng)絡(luò)分析儀使用方法
- 初一英語單詞辨音專項練習(共4頁)
- 龐中華鋼筆行書字帖(完整36后4張)課件
- 最新版入團志愿書填寫模板
- 河北省建設(shè)工程竣工驗收報告
評論
0/150
提交評論