版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
ICS35.180
CCSL63
中華人民共和國國家標(biāo)準(zhǔn)
GB/TXXXXX—XXXX
信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺
技術(shù)要求
Informationtechnology—Highperformancecomputingsystem–Technical
requirementformanagementandmonitorplatform
(征求意見稿)
在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
國家市場監(jiān)督管理總局
發(fā)布
國家標(biāo)準(zhǔn)化技術(shù)委員會
GB/TXXXXX—XXXX
前??言
本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起
草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別專利的責(zé)任。
本標(biāo)準(zhǔn)由全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會歸口。
本標(biāo)準(zhǔn)主要起草單位:
本標(biāo)準(zhǔn)主要起草人:
II
GB/TXXXXX—XXXX
信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺技術(shù)要求
1范圍
本文件規(guī)定了高性能計(jì)算系統(tǒng)的管理監(jiān)控平臺的技術(shù)要求,包括管理監(jiān)控平臺對高性能計(jì)算系統(tǒng)管
理的功能、性能要求。
本文件適用于高性能計(jì)算系統(tǒng)管理監(jiān)控平臺的設(shè)計(jì)和開發(fā)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
SJ/T11647信息技術(shù)盤陣列接口要求
3術(shù)語、定義和縮略語
3.1術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1.1
高性能計(jì)算機(jī)highperformancecomputer
由成百上千、上萬個處理器單元、加速處理器單元、存儲單元,通過高速網(wǎng)絡(luò)互聯(lián)并行工作,組成
的具有超強(qiáng)計(jì)算能力的超級計(jì)算機(jī),廣義上泛指解決大型復(fù)雜任務(wù)的計(jì)算工具。
3.1.2
高性能計(jì)算系統(tǒng)highperformancecomputingsystem
高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用,構(gòu)建用于處理
科學(xué)計(jì)算信息的系統(tǒng)。
3.1.3
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺managementandmonitoringplatformforthehighperformance
computingsystem
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺是對組成高性能計(jì)算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運(yùn)行狀態(tài)
進(jìn)行監(jiān)控、報警、管理和調(diào)度的軟件,是高性能計(jì)算系統(tǒng)的運(yùn)行維護(hù)軟件。
3.2縮略語
下列縮略語適用于本文件。
HPC:高性能計(jì)算(HighPerformanceComputing)
1
GB/TXXXXX—XXXX
CPU:中央處理單元(器)(CentralprocessingUnit)
IO:輸入輸出系統(tǒng)(inputoutput)
OS:操作系統(tǒng)(OperationSystem))
PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)
PFS:并行文件系統(tǒng)(ParallelFileSystem)
RAID:廉價(或獨(dú)立)磁盤冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)
SNMP:簡單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)
SSH:安全外殼協(xié)議(Secureshelly)
4概述
4.1高性能計(jì)算系統(tǒng)
由高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用構(gòu)成。圖1為高性
能計(jì)算系統(tǒng)示意圖。
圖1.高性能計(jì)算系統(tǒng)示意圖
4.2高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊包括資源管理、監(jiān)控管理、報警管理、系統(tǒng)管理、作業(yè)管理、
記賬系統(tǒng)、應(yīng)用管理幾個功能模塊。圖1為高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖。
2
GB/TXXXXX—XXXX
圖2.高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖
5功能要求
5.1一般要求
應(yīng)滿足以下要求:
應(yīng)具有對異構(gòu)軟硬件資源進(jìn)行統(tǒng)一監(jiān)控報警能力;
應(yīng)具有對HPC系統(tǒng)上進(jìn)行串行、并行、批處理作業(yè)的作業(yè)管理調(diào)度能力;
應(yīng)具有對HPC系統(tǒng)進(jìn)行系統(tǒng)部署、應(yīng)用部署和系統(tǒng)管理的能力;
應(yīng)具有支持動態(tài)添加監(jiān)控項(xiàng)、支持在線功能升級;
應(yīng)具有動態(tài)擴(kuò)展計(jì)算、存儲、網(wǎng)絡(luò)單元的能力;
應(yīng)提供標(biāo)準(zhǔn)的SNMP訪問和傳輸接口,以利于被其他運(yùn)維系統(tǒng)的集成。
5.2監(jiān)控
5.2.1統(tǒng)一監(jiān)控
對計(jì)算單元、存儲單元、網(wǎng)絡(luò)單元等所有部件統(tǒng)一呈現(xiàn),以機(jī)柜為單位呈現(xiàn)各部件的物理位置、名
稱、識別ID、狀態(tài)以及呈現(xiàn)HPC系統(tǒng)的整體的計(jì)算、內(nèi)存、IO能力和使用狀態(tài)、拓?fù)浣Y(jié)構(gòu)。對機(jī)柜和機(jī)
柜內(nèi)的各個設(shè)備按照當(dāng)前運(yùn)行狀態(tài)實(shí)時地用相應(yīng)顏色來表示。
5.2.2硬件監(jiān)控
應(yīng)具備以下功能:
a)對計(jì)算單元、存儲單元、網(wǎng)絡(luò)單元監(jiān)控如下靜態(tài)信息:設(shè)備名稱、IP地址、操作系統(tǒng)類型和版
本號、CPU型號、主頻、緩存大小、內(nèi)存大小、內(nèi)存頻率、磁盤ID、類型、接口、轉(zhuǎn)速、RAID
級別、空間大小、IO設(shè)備型號、設(shè)備名稱、廠商、端口數(shù)量、協(xié)議類型、帶寬等信息。(包括
但不限于以上靜態(tài)信息,監(jiān)控項(xiàng)可以動態(tài)添加);
b)對計(jì)算單元、存儲單元、網(wǎng)絡(luò)單元監(jiān)控如下動態(tài)信息:設(shè)備狀態(tài)、CPU利用率、物理內(nèi)存占用
率、網(wǎng)絡(luò)流出字節(jié)/流入字節(jié)、數(shù)據(jù)包丟包率、磁盤IOPS、讀寫帶寬、CPU溫度、散熱風(fēng)扇的轉(zhuǎn)
速、電源供電等信息。(包括但不限于以上靜態(tài)信息,監(jiān)控項(xiàng)可以動態(tài)添加)。
5.2.3應(yīng)用監(jiān)控
3
GB/TXXXXX—XXXX
HPC系統(tǒng)上運(yùn)行應(yīng)用的版本等靜態(tài)信息以及進(jìn)程的狀態(tài)、啟動時間、運(yùn)行時間、用戶數(shù)、連接數(shù)等
狀態(tài)信息。
5.2.4隊(duì)列和作業(yè)監(jiān)控
應(yīng)具備以下隊(duì)列和作業(yè)的監(jiān)控功能:
a)監(jiān)控各隊(duì)列調(diào)度策略;
b)監(jiān)控各隊(duì)列資源使用狀態(tài);
c)監(jiān)控各隊(duì)列作業(yè)數(shù)量和運(yùn)行狀態(tài)(等待、運(yùn)行、完成、掛起);
d)監(jiān)控作業(yè)的優(yōu)先級高低;
e)監(jiān)控作業(yè)運(yùn)行時狀態(tài)和運(yùn)行結(jié)果。
5.3報警
應(yīng)具備以下報警功能:
a)實(shí)時告警:
1)硬件:對機(jī)柜電源、計(jì)算單元、網(wǎng)絡(luò)單元、存儲單元的運(yùn)行狀態(tài)的檢測告警;
2)應(yīng)用程序:對各種應(yīng)用軟件的運(yùn)行狀態(tài)進(jìn)行檢測告警,同時包括操作系統(tǒng)的運(yùn)行狀態(tài)
告警。
b)..歷史告警:支持對歷史告警的查詢(按類別、時間、自定義方式)、統(tǒng)計(jì)功能,并可給出
統(tǒng)計(jì)分布圖。
c)告警設(shè)置:
1)提供對告警的閾值的單詞、批量設(shè)定功能;
2)可對告警級別進(jìn)行設(shè)定和調(diào)整;
3)支持單詞、批量地對告警信息進(jìn)行取消和確認(rèn)的操作;
4)提供告警過濾功能,即根據(jù)條件呈現(xiàn)告警;
5)提供告警處理建議的編輯功能,當(dāng)再次發(fā)生同類告警,系統(tǒng)直接給出處理建議;
6)支持用戶自定義告警設(shè)置。
d)告警歸并:對系統(tǒng)關(guān)聯(lián)告警進(jìn)行歸并處理,合成一類告警程序。
e)提供短信、郵件以及屏幕閃爍、彈出提示窗口等告警形式。
5.4調(diào)度
具備以下調(diào)度功能:
a)提供基于優(yōu)先級、先進(jìn)先出、作業(yè)回填的作業(yè)調(diào)度策略,以及獨(dú)占資源的調(diào)度策略;
b)提供作業(yè)投放、停止、刪除的操作,可刪除隊(duì)列中已投放的作業(yè),無論其是排隊(duì)中還是已運(yùn)行;
c)智能負(fù)載功能:根據(jù)節(jié)點(diǎn)運(yùn)行狀態(tài)和作業(yè)排隊(duì)情況,動態(tài)調(diào)整系統(tǒng)計(jì)算資源可用處理器顆數(shù),
降低電力消耗;
d)一鍵式作業(yè)調(diào)度:提供復(fù)雜應(yīng)用工作流,將作業(yè)的前中后處理各環(huán)節(jié)形成調(diào)度作業(yè)一鍵提交,
直接生成可讀的圖片或數(shù)據(jù)。即將作業(yè)的算例生成、作業(yè)提交、作業(yè)調(diào)度、作業(yè)運(yùn)行過程監(jiān)控、
作業(yè)結(jié)果處理的前中后處理形成可一鍵提交的作業(yè)。
5.5管理
4
GB/TXXXXX—XXXX
5.5.1系統(tǒng)部署
應(yīng)具備如下功能:
a)操作系統(tǒng)自動鏡像恢復(fù)的功能,包括系統(tǒng)批量鏡像恢復(fù)功能;
b)對計(jì)算單元操作系統(tǒng)的遠(yuǎn)程單機(jī)、批量部署功能,包括對原有設(shè)備的恢復(fù)和新增設(shè)備的部署;
c)對計(jì)算單元系統(tǒng)的單機(jī)、批量更新功能。
5.5.2應(yīng)用部署
應(yīng)具備如下功能:
a)對計(jì)算節(jié)點(diǎn)應(yīng)用軟件單機(jī)、批量上載、安裝的功能;
b)對計(jì)算節(jié)點(diǎn)應(yīng)用程序配置文件的單機(jī)、批量更新功能;
c)對應(yīng)用程序的自動重啟功能。
5.5.3系統(tǒng)管理
應(yīng)具備如下功能:
a)對計(jì)算單元單機(jī)、批量腳本的執(zhí)行功能;
b)對計(jì)算節(jié)點(diǎn)的操作系統(tǒng)批量更改用戶名和口令的功能;
c)能按照物理的機(jī)架拜訪位置布局,提供添加、修改和刪除機(jī)柜、計(jì)算單元、網(wǎng)絡(luò)單元、存儲單
元的操作。
5.5.4遠(yuǎn)程管理
應(yīng)具備如下功能:
a)對于計(jì)算單元設(shè)備,應(yīng)提供遠(yuǎn)程單機(jī)、批量開機(jī)、關(guān)機(jī)、重啟功能;
b)提供遠(yuǎn)程文件上傳下載和SSH登錄的功能;
c)對存儲單元和網(wǎng)絡(luò)單元,提供遠(yuǎn)程管理功能,以對其進(jìn)行配置更改和故障維護(hù)。
5.5.5應(yīng)用模板
應(yīng)具備如下功能:
a)提供HPC應(yīng)用領(lǐng)域常用應(yīng)用的應(yīng)用模板,模板中有關(guān)于應(yīng)用運(yùn)行的建議參數(shù)及配置;
b)支持用戶通過自定義方式定義模板。
5.5.6報表管理
具備以下數(shù)據(jù)統(tǒng)計(jì)功能:
a)計(jì)算節(jié)點(diǎn)的CPU使用率月度趨勢報表;
b)計(jì)算節(jié)點(diǎn)內(nèi)存利用率月度趨勢報表;
c)磁盤空間使用量報表;
d)應(yīng)支持自定義報表,對監(jiān)控數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)與報表生成。
6性能要求
管理監(jiān)控平臺應(yīng)滿足如下性能要求:
a)支持系統(tǒng)CPU處理器數(shù)量應(yīng)達(dá)到千顆級以上,CPU核數(shù)應(yīng)達(dá)萬級核心以上,實(shí)現(xiàn)用戶單一映像
的登錄;
5
GB/TXXXXX—XXXX
b)系統(tǒng)告警級別可配置,對于關(guān)鍵監(jiān)控指標(biāo)的延遲不大于1min;
c)系統(tǒng)運(yùn)行監(jiān)控項(xiàng)的數(shù)據(jù)采集周期可配置,最小采集周期可達(dá)秒級;
d)告警信息、報表所需數(shù)據(jù)的存儲時間至少1年,性能數(shù)據(jù)的存儲時間至少三個月;
e)平均故障間隔時間大于6個月;
f)軟件運(yùn)行占單顆CPU資源占用率不大于2%;
g)頁面的響應(yīng)時間小于5s。
_________________________________
6
GB/TXXXXX—XXXX
目??次
前言.....................................................................................................................................................................II
1范圍...................................................................................................................................................................1
2規(guī)范性引用文件...............................................................................................................................................1
3術(shù)語、定義和縮略語.......................................................................................................................................1
4概述...................................................................................................................................................................2
5功能要求...........................................................................................................................................................3
6性能要求...........................................................................................................................................................5
I
GB/TXXXXX—XXXX
信息技術(shù)高性能計(jì)算系統(tǒng)管理監(jiān)控平臺技術(shù)要求
1范圍
本文件規(guī)定了高性能計(jì)算系統(tǒng)的管理監(jiān)控平臺的技術(shù)要求,包括管理監(jiān)控平臺對高性能計(jì)算系統(tǒng)管
理的功能、性能要求。
本文件適用于高性能計(jì)算系統(tǒng)管理監(jiān)控平臺的設(shè)計(jì)和開發(fā)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
SJ/T11647信息技術(shù)盤陣列接口要求
3術(shù)語、定義和縮略語
3.1術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1.1
高性能計(jì)算機(jī)highperformancecomputer
由成百上千、上萬個處理器單元、加速處理器單元、存儲單元,通過高速網(wǎng)絡(luò)互聯(lián)并行工作,組成
的具有超強(qiáng)計(jì)算能力的超級計(jì)算機(jī),廣義上泛指解決大型復(fù)雜任務(wù)的計(jì)算工具。
3.1.2
高性能計(jì)算系統(tǒng)highperformancecomputingsystem
高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用,構(gòu)建用于處理
科學(xué)計(jì)算信息的系統(tǒng)。
3.1.3
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺managementandmonitoringplatformforthehighperformance
computingsystem
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺是對組成高性能計(jì)算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運(yùn)行狀態(tài)
進(jìn)行監(jiān)控、報警、管理和調(diào)度的軟件,是高性能計(jì)算系統(tǒng)的運(yùn)行維護(hù)軟件。
3.2縮略語
下列縮略語適用于本文件。
HPC:高性能計(jì)算(HighPerformanceComputing)
1
GB/TXXXXX—XXXX
CPU:中央處理單元(器)(CentralprocessingUnit)
IO:輸入輸出系統(tǒng)(inputoutput)
OS:操作系統(tǒng)(OperationSystem))
PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)
PFS:并行文件系統(tǒng)(ParallelFileSystem)
RAID:廉價(或獨(dú)立)磁盤冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)
SNMP:簡單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)
SSH:安全外殼協(xié)議(Secureshelly)
4概述
4.1高性能計(jì)算系統(tǒng)
由高性能計(jì)算機(jī)上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計(jì)算應(yīng)用構(gòu)成。圖1為高性
能計(jì)算系統(tǒng)示意圖。
圖1.高性能計(jì)算系統(tǒng)示意圖
4.2高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊
高性能計(jì)算系統(tǒng)管理監(jiān)控平臺功能模塊包括資源管理、監(jiān)控管理、報警管理、系統(tǒng)管理、作業(yè)管理、
記賬系統(tǒng)、應(yīng)用管理幾個功能模塊。圖1為高性能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版彩鋼板復(fù)合板研發(fā)與銷售合作協(xié)議2篇
- 2025版養(yǎng)老機(jī)構(gòu)物業(yè)承包與運(yùn)營管理合同3篇
- 二零二五版龔蝶與配偶婚姻解除及共同財產(chǎn)分割協(xié)議細(xì)則3篇
- 2025年度個人文化創(chuàng)意股權(quán)無償轉(zhuǎn)讓協(xié)議4篇
- 2025版龍崗區(qū)稅務(wù)局飲用水安全教育與宣傳服務(wù)協(xié)議4篇
- 二零二五版股份置換與教育培訓(xùn)合作合同范本3篇
- 鄭州體育職業(yè)學(xué)院《幼兒教師語言技能》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度長途客運(yùn)車輛掛靠管理與服務(wù)協(xié)議范本4篇
- 2025年智能出租車購置合同標(biāo)準(zhǔn)版4篇
- 基于2025年度計(jì)劃的體育賽事贊助合同5篇
- 《醫(yī)院財務(wù)分析報告》課件
- 2025老年公寓合同管理制度
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級上冊 期末綜合卷(含答案)
- 2024中國汽車后市場年度發(fā)展報告
- 感染性腹瀉的護(hù)理查房
- 天津市部分區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 物理 含解析
- 《人工智能基礎(chǔ)》全套英語教學(xué)課件(共7章)
- 廢鐵收購廠管理制度
- 物品賠償單范本
- 《水和廢水監(jiān)測》課件
- 滬教版六年級數(shù)學(xué)下冊課件【全冊】
評論
0/150
提交評論