




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1T/GDEIIAXX—2022智能決策基礎軟硬件平臺評估規(guī)范本文件規(guī)定了面向智能決策的基礎軟硬件平臺的參考架構。本文件適用于智能決策基礎軟硬件平臺的設計、采購、制造、檢驗等過程。2規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22239信息安全技術網(wǎng)絡安全等級保護基本要求GB/T38676-2020信息技術大數(shù)據(jù)存儲與處理系統(tǒng)功能測試要求GB50052-2009供配電系統(tǒng)設計規(guī)范GB50174-2017數(shù)據(jù)中心設計規(guī)范3術語和定義下列術語和定義適用于本文件。3.1智能決策平臺intelligentdecisionplatform為智能應用提供服務為主要目的基礎設施平臺。3.2智能芯片smartchip為智能決策應用提供計算加速功能的專用芯片。3.3智能傳感器smartsensor為智能決策應用實現(xiàn)數(shù)據(jù)采集的專用芯片。3.4智能決策服務器intelligentdecisionserver面向智能決策應用定制化設計生產,提供核心算力服務、應用部署的專用服務器硬件。3.5裸金屬服務器baremetalserver服務器進行虛擬化后具備原服務器設備獨占特性的服務對象。3.6智能計算集群intelligentcomputingcluster由多個計算節(jié)點及計算網(wǎng)絡組成的負責運行任務負載的集群。2T/GDEIIAXX—20223.7計算網(wǎng)絡computingnetworks用于實現(xiàn)計算節(jié)點間數(shù)據(jù)高性能互聯(lián)傳輸?shù)木W(wǎng)絡。3.8存儲集群storageclusters由多個存儲節(jié)點和存儲管理節(jié)點組成的存儲系統(tǒng),負責為整個集群用戶提供存儲資源服務。3.9存儲網(wǎng)絡storagenetworks用于集群其他節(jié)點訪問存儲集群時使用的網(wǎng)絡。3.10存儲集群網(wǎng)絡storageclusternetworks用于存儲集群內部,存儲節(jié)點間跨節(jié)點數(shù)據(jù)傳輸。3.11管理服務器集群managingserverclusters由多個配置相近的服務器組成,以實現(xiàn)以下功能:a)面向集群管理員實現(xiàn)集群內部的資源管理、系統(tǒng)級軟件運維監(jiān)控;b)面向集群用戶提供堡壘機、計算存儲資源管控等服務。3.12帶內管理網(wǎng)絡in-bandmanagementnetworks集群管理節(jié)點與其余節(jié)點交互訪問使用的網(wǎng)絡,承載用戶業(yè)務。3.13帶外管理網(wǎng)絡out-of-bandmanagementnetworks與用戶業(yè)務網(wǎng)絡隔離的邏輯信道,用于進行物理網(wǎng)絡隔離。3.14虛擬機管理程序hypervisor一種運行在基礎物理服務器和操作系統(tǒng)之間的中間軟件層,可允許多個操作系統(tǒng)和應用共享硬件,也可叫做VMM(virtualmachinemonitor),即虛擬機監(jiān)視器。3.15人工智能測試公開基準machinelearningperformance(MLperf)一套用于測量和提高機器學習軟硬件性能的通用基準,主要用來測量訓練和推理不同神經網(wǎng)絡所需要的時間。MLPerf測試集包含了不同領域的基準(Benchmark)子項,主要包括圖像分類、物體識別、翻譯、推薦、語音識別、情感分析以及強化學習。3.16壓力測試工具fileinputoutput(FIO)一種I/O壓力測試工具,主要是用來測試磁盤/SSD、CPU的IO性能。3.17云存儲測試工具cloudobjectstoragebench(COSBench)一種衡量云對象存儲服務性能的基準測試工具。3.18讀寫性能測試工具iozonefilesystembenchmark(IOZONE)一種測試文件系統(tǒng)讀寫性能和磁盤讀寫性能的測試工具。3T/GDEIIAXX—20224縮略語下列縮略語適用于本文件。FPGA:現(xiàn)場可編輯門陣列(FieldProgrammableGateArray)CPU:中央處理器(CentralProcessingUnits)NPU:神經網(wǎng)絡處理器(Neural-networkProcessingUnits)GPU:圖形處理器(GraphicsProcessingUnits)EXT4:第四代擴展文件系統(tǒng)(FourthExtendedFilesystems)NTFS:微軟研發(fā)的日志型文件系統(tǒng)(NewTechnologyFileSystem)FLOPS:每秒浮點運算次數(shù)(Floating-pointOperationsPerSecond)IOPS:每秒的讀寫次數(shù)(Input/OutputOperationsPerSecond)RDMA:遠程直接內存訪(RemoteDirectMemoryAccess)5系統(tǒng)架構與基本要求智能決策基礎軟硬件平臺主要由基礎設施軟件和硬件兩部分組成,該平臺基于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等支撐技術,圍繞智能服務器、智能芯片、智能傳感器、資源虛擬化層、資源調度層及監(jiān)控層等軟硬件基礎設施,應具備安全與隱私保護、運維管理、測試與評估等功能。為智能決策應用提供運行平臺支撐,系統(tǒng)框架圖(如圖1所示)。智能決策基礎軟硬件平臺基礎設施軟件虛擬化中間件監(jiān)控與告警平臺資源調度平臺智能芯片智能芯片智能服務器智能傳感器基礎設施硬件數(shù)據(jù)存儲與傳輸設備大數(shù)據(jù)數(shù)據(jù)存儲與傳輸設備大數(shù)據(jù)物聯(lián)網(wǎng)支撐技術云計算測試與評估安全與隱私保護測試與評估安全與隱私保護運維管理圖1智能決策基礎軟硬件平臺系統(tǒng)框架圖5.1基礎設施硬件組成基礎設施硬件層是由多個功能不同的物理集群及設備互聯(lián)組成,其拓撲圖(如圖2所示)。4T/GDEIIAXX—2022計算集群存儲集群管理集群計算網(wǎng)絡1計算網(wǎng)絡2存儲集群網(wǎng)絡帶內管理網(wǎng)絡帶外管理網(wǎng)絡存儲網(wǎng)絡防火墻核心交換機圖2基礎設施硬件拓撲5.2硬件層基本功能要求硬件層在物理上可按照計算集群、存儲集群、管理集群等多個集群劃分,每個集群都應滿足其特定的功能要求。5.2.1計算集群功能要求經功能檢查測試,計算集群系統(tǒng)應滿足但不限于以下要求:a)應由多個以高性能的智能服務器為代表的計算節(jié)點以及計算網(wǎng)絡互聯(lián)組成;b)應具備向用戶提供主要算力需求的功能;c)應支持多種以智能芯片為核心組件的計算加速卡,包括FPGA、GPU、NPU等。5.2.2存儲集群功能要求經功能檢查測試,存儲集群系統(tǒng)應滿足但不限于以下要求:a)應具備節(jié)點數(shù)量及存儲容量可擴展能力;b)應具備包括存儲服務等基本功能;c)應為用戶提供存儲訪問接口,包括不僅限于光纖、網(wǎng)絡、直連等方式;d)應提供糾刪碼、副本、陣列等至少一種可靠性保證;e)宜包括存儲管理服務器,存儲網(wǎng)絡、元數(shù)據(jù)服務器等;f)宜支持多種不同類型存儲介質;g)宜具備或支持冗余備份功能。5.2.3管理集群功能要求經功能檢查測試,管理集群系統(tǒng)應滿足但不限于以下要求:a)應具備數(shù)據(jù)庫、日志記錄功能;b)應具備系統(tǒng)資源監(jiān)控、計算資源、存儲資源、網(wǎng)絡資源調度管理功能;c)宜具備堡壘機、跳板機等安全訪問功能。5T/GDEIIAXX—20225.2.4內部網(wǎng)絡功能要求多個集群之間通常通過網(wǎng)絡進行互聯(lián),稱為內部網(wǎng)絡。內部網(wǎng)絡應當滿足但不限于以下要求:a)應具備二層、三層網(wǎng)絡互聯(lián)結構;b)應具備多網(wǎng)段物理或邏輯隔離功能;c)應支持巨型幀等網(wǎng)絡優(yōu)化數(shù)據(jù)傳輸功能;d)宜支持網(wǎng)絡虛擬化功能。5.3基礎設施軟件組成基礎設施軟件應包括定制化操作系統(tǒng)、虛擬化中間層、資源調度層、應用層等四個層次組成(如圖3所示)。軟件部分應按照用戶具體業(yè)務需求進行定制選取組合,其中虛擬化中間層應包括但不限于hypervisor、容器和裸金屬,資源調度層應包括但不限于虛擬機調度器、容器調度器、分布式資源調度器等,應用層應包括但不限于模型框架、模型倉庫與計算實例等。定制化操作系統(tǒng)是根據(jù)智能服務器硬件組成和智能決策應用業(yè)務特點定制化設計的操作系統(tǒng)。虛擬化中間層是與操作系統(tǒng)和底層硬件密切相關并將平臺多種資源包括計算資源、網(wǎng)絡資源、存儲資源進行虛擬化,進而實現(xiàn)統(tǒng)一池化的中間層。資源調度層是虛擬化中間層的輸出結果,通常是對裸金屬服務器、虛擬機、容器等對象進行管理、調度等多種功能的軟件組件。應用層是與平臺最終用戶直接對接的,與具體硬件排布關系解耦的,按需進行部署的軟件層級。應用層模型框架模型倉庫計算實例虛擬化中虛擬化中虛擬機調度器容器容器容器調度器裸金屬裸金屬分布式資源調度器hypervisor定制化操作系統(tǒng)圖3基礎設施軟件架構圖5.4平臺軟件基本功能要求5.4.1定制化操作系統(tǒng)經功能檢查測試,定制化操作系統(tǒng)應滿足但不限于以下要求:a)應為基礎設施硬件設施提供驅動支持;b)應為上層應用提供兼容性要求;c)宜具備用戶友好型人機交互界面;d)應具備數(shù)據(jù)安全保護功能;6T/GDEIIAXX—2022e)應具備外部攻擊防范功能。5.4.2虛擬化中間層經功能檢查測試,虛擬化中間層應滿足但不限于以下要求:a)應具備計算資源虛擬化、網(wǎng)絡資源虛擬化、存儲資源虛擬化功能;b)應兼容智能服務器、智能芯片等多種新型物理設備;c)宜可進行業(yè)務不中斷情況下的軟件升級、更新與維護;d)應提供多種不同虛擬化網(wǎng)絡類型。5.4.3資源調度層經功能檢查測試,資源調度層應滿足但不限于以下要求:a)應具備虛擬化后的計算資源、網(wǎng)絡資源、存儲資源的調度管理功能;b)應具備在單個物理、虛擬節(jié)點出現(xiàn)故障情況下,原有業(yè)務能繼續(xù)進行;c)宜支持分布式環(huán)境下的負載均衡、彈性伸縮功能。5.4.4應用層經功能檢查測試,應用層應滿足但不限于以下要求:a)應具備智能決策相關模型倉庫、模型框架功能;b)應具備智能決策應用計算實例部署功能;c)宜具備用戶友好的人機交互界面。6機房配套設施要求除平臺軟硬組件外,應設置配套的機房基礎設施,如恒溫恒濕空調、穩(wěn)定電源、消防、以及其他配套的機房環(huán)境。機房建設應至少滿足GB50174-2017中規(guī)定的C級要求。6.1電氣標準平臺的用電負荷等級為GB50052-2009中的三級負荷。單個機柜的供電要求還應滿足智能服務器高密度高功率負載條件。6.2網(wǎng)絡系統(tǒng)網(wǎng)絡系統(tǒng)應采用多網(wǎng)隔離的設計方案,內部網(wǎng)絡的設計,應考慮性價比和一定的冗余性。對具備高性能、實時要求的計算網(wǎng)絡和存儲網(wǎng)絡等,應對線纜線材、長度、走線方式等進行特殊優(yōu)化考慮。平臺的互聯(lián)網(wǎng)接入,應考慮帶寬需求和公網(wǎng)IP地址數(shù)量需求,其具體參數(shù)應當根據(jù)服務器數(shù)量和當?shù)剡\營商的服務質量決定。6.3網(wǎng)絡安全應配備專用安全防護設備,應配備防火墻及安全策略,宜根據(jù)用戶與規(guī)模配備堡壘機、跳板機、日志審計等安全設備。網(wǎng)絡安全防護應滿足GB/T22239規(guī)定的網(wǎng)絡安全等級保護的二級要求。應對所有網(wǎng)絡設備及管理服務器的操作日志進行及時備份保存。對于核心交換機、核心網(wǎng)關等互聯(lián)關鍵設備宜進行多路冗余備份。冗余功能可大幅提高網(wǎng)絡可靠性。7T/GDEIIAXX—20226.4監(jiān)控與運維系統(tǒng)為保證平臺設施的穩(wěn)定運行,應設置的運維與監(jiān)控系統(tǒng),包括視頻安防監(jiān)控系統(tǒng),遠程設備監(jiān)控系統(tǒng)等,應符合以下要求:a)應設置監(jiān)控室及專業(yè)人員進行監(jiān)控工作;b)應建立運維管理流程制度,實現(xiàn)運維流程規(guī)范化、制度化;c)應對設備進行資產管理包括設備狀態(tài)、遠程設備監(jiān)控、故障報修處理和維護保養(yǎng)并生成運維報表;d)應通過遠程運維軟件實現(xiàn)遠程管理支持。7測試與分級基礎軟硬件平臺為用戶提供的服務,可分計算、網(wǎng)絡、存儲三個維度,應通過計算性能測試,網(wǎng)絡性能測試,存儲系統(tǒng)和智能決策應用測試來進行評判分級,評判分級可分為基礎級、增強級兩個等級(如圖4所示)。增強級增強級算力評估系統(tǒng)測試系統(tǒng)盤測試內存測試計算網(wǎng)絡存儲互聯(lián)設備性能跨節(jié)點帶寬及延遲虛擬化網(wǎng)絡讀寫測試智能決策應用測試可靠性測試基礎級圖4測試框架圖7.1基本規(guī)范測試開始前應確認物理設施運行狀態(tài)良好,無告警、報錯等異常。測試期間應停止與測試無關的其他業(yè)務。測試過程應保存配置參數(shù)中間結果、最終結果和過程日志文件。宜支持容器或虛擬化組件進行測試部署。測試完成后應完全恢復測試前平臺環(huán)境。7.2測試方法7.2.1計算性能測試8T/GDEIIAXX—20227.2.1.1基礎級計算性能基礎級測試分內存、系統(tǒng)盤性能以及系統(tǒng)基準測試。7.2.1.1.1內存測試內存測試包括:a)測試對象:智能服務器;b)測試目的:檢查智能服務器所有內存組件完整,性能無異常,并對內存性能量化評估;c)測試內容:加載MemTest86鏡像,對所有內存通道進行測試,包含但不限于通道的內存狀態(tài)信息、時鐘頻率、讀取帶寬等;d)測試結果:測試完成后所有內存通道均無異常,無告警。提交內存性能評估結果,并與參考值進行比較。7.2.1.1.2系統(tǒng)盤性能測試系統(tǒng)盤指定制化操作系統(tǒng)加載運行使用的存儲介質,通常為SSD、HDD等磁盤,其性能一定程度上影響系統(tǒng)的運行情況。系統(tǒng)盤性能測試包括:a)測試對象:智能服務器系統(tǒng)盤;b)測試目的:檢查服務器系統(tǒng)盤可靠性、穩(wěn)定性等性能;c)測試內容:在服務器系統(tǒng)盤新建分區(qū),使用FIO在該分區(qū)上進行基準測試,包括4k隨機讀寫、1M順序讀寫等;d)測試結果:測試完成后服務器系統(tǒng)盤應運行良好,無損壞。7.2.1.1.3系統(tǒng)基準測試應基于操作系統(tǒng)對智能服務器單機進行整體測試。系統(tǒng)基準測試包括:a)測試對象:智能服務器硬件設施與操作系統(tǒng)b)測試目的:檢查智能服務器的硬件設施與操作系統(tǒng)的兼容性,并進行跑分評估。c)測試內容:使用Unixbench工具進行運行評分,記錄結果日志文件。d)測試結果:測試完成后智能服務器的硬件設施與操作系統(tǒng)應運行良好,兼容性強。7.2.1.2增強級7.2.1.2.1算力評估應對基礎軟硬件平臺整體算力進行評估,通常使用Linpack基準測試集。算力評估包括:a)測試對象:智能決策基礎服務器軟硬件平臺計算集群;b)測試目的:具體量化整個測試集群的可提供的計算能力;c)測試內容:使用Linpack基準測試集進行測試,保存測試結果包括理論峰值(FLOPS)、實測峰值(FLOPS)以及最大效率;d)測試結果:理論峰值(FLOPS)、實測峰值(FLOPS)、最大效率(百分比)。7.2.2網(wǎng)絡性能測試7.2.2.1基礎級7.2.2.1.1節(jié)點間帶寬及延遲節(jié)點間帶寬及延遲包括:9T/GDEIIAXX—2022a)測試對象:智能服務器、網(wǎng)絡互聯(lián)設備;b)測試目的:通信帶寬與延遲,與理論值進行比較;c)測試內容:建議使用iperf2測試跨節(jié)點通信帶寬(MB/s)與延遲(ms包括TCP、UDP兩種,測試次數(shù)不少于三次,取多次測量結果平均值作為最終結果;d)測試結果:任意節(jié)點間以太網(wǎng)通信傳輸帶寬應不低于10GB/s,節(jié)點間延遲應不高于10ms。若包含RDMA交換網(wǎng)絡,節(jié)點間傳輸帶寬不低于40GB/s,節(jié)點間延遲應不高于5μs。7.2.2.1.2互聯(lián)設備性能互聯(lián)設備性能包括:a)測試對象:互聯(lián)設備當前以高性能核心交換機;b)測試目的:互聯(lián)設備的性能是否滿足需求;c)測試內容:基于RFC2544測試基準,幀大小應包括64、128、256、512、1024、1280、1518、2048、9000字節(jié)等,每次測試時間不少于1分鐘,至少測量三次;d)測試結果:設備端口間平均測量帶寬不低于10GB/s,端口間平均時延不高于1ms。7.2.2.2增強級虛擬化環(huán)境是智能決策應用部署運行的主要場景。虛擬化網(wǎng)絡性能由于虛擬化方式、組網(wǎng)方式不同,性能差異較大。包括:a)測試對象:虛擬化網(wǎng)絡;b)測試目的:測試在虛擬化網(wǎng)絡環(huán)境下,能夠達到的最大傳輸帶寬;c)測試內容:基于linuxbridge、OpenVirtualSwitch或其他網(wǎng)絡虛擬化工具在虛擬機環(huán)境下進行測量,至少測量三次;d)測試結果:當節(jié)點間物理帶寬小于40GB/s,虛擬化網(wǎng)絡性能應達到物理帶寬值的98%以上。當節(jié)點間理論大于40GB/s,小于200GB/s,虛擬化網(wǎng)絡性能應達到物理帶寬的90%以上。測試結果填寫于表1內。表1增強級虛擬化環(huán)境測試結果7.2.3存儲系統(tǒng)測試系統(tǒng)存儲的數(shù)據(jù)對存儲系統(tǒng)的可靠性和性能指標有明確要求,如存儲介質的讀寫、并發(fā)訪問量等,因此需要對存儲集群系統(tǒng)進行測試。按照存儲系統(tǒng)提供的功能可分為塊存儲服務、文件存儲服務以及對象存儲服務。按照部署架構可分為集中式存儲、分布式存儲等。集中式存儲具有結構簡單,訪問低延遲的優(yōu)勢,分布式存儲具有節(jié)點可擴展,性能高等優(yōu)點。7.2.3.1測試環(huán)境為了測得存儲系統(tǒng)的最高性能,應采用多個存儲客戶端進行極限測試。測試環(huán)境是由多臺存儲服務器組成的客戶端服務器組和存儲服務器集群組成(如圖5所示)。T/GDEIIAXX—2022存儲服務器集群存儲服務器集群存儲集群網(wǎng)絡客戶端服務器組存儲網(wǎng)絡圖5客戶端服務器組和存儲服務器集群7.2.3.2基礎級基礎級包括:a)測試對象:存儲服務器集群;b)測試目的:測試安全可靠以及是否滿足應用要求;c)測試內容:應參考GB/T38676-2020進行測試,但不限于以下內容:1)存儲系統(tǒng)是否具備數(shù)據(jù)上傳、下載、讀寫、復制、移動等基本功能;2)存儲系統(tǒng)對文件系統(tǒng)如ext4、ntfs等是否能兼容支持;3)存儲系統(tǒng)是否具備多副本備份功能,是否能從副本中完全恢復原始數(shù)據(jù);4)存儲系統(tǒng)在發(fā)生軟件故障、節(jié)點脫離、斷電、重啟等狀況后,是否能完全恢復原始數(shù)據(jù);5)存儲系統(tǒng)通過添加節(jié)點進行擴容后,是否能保證數(shù)據(jù)完整可靠;6)存儲系統(tǒng)移除節(jié)點后,是否能保證業(yè)務正常不間斷運行并保證數(shù)據(jù)完整可靠。d)測試結果:除滿足GB/T38676-2020的結果外,還應滿足:1)存儲系統(tǒng)具備數(shù)據(jù)上傳、下載、讀寫、復制、移動等基本功能;2)存儲系統(tǒng)對文件系統(tǒng)如ext4、ntfs等能兼容支持;3)存儲系統(tǒng)具備多副本備份功能,能從副本中完全恢復原始數(shù)據(jù);4)存儲系統(tǒng)在發(fā)生軟件故障、節(jié)點脫離、斷電、重啟等狀況后,能完全恢復原始數(shù)據(jù);5)存儲系統(tǒng)通過添加節(jié)點進行擴容后,能保證數(shù)據(jù)完整可靠;6)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人臨街商鋪租賃合同范例
- 修建村委圍墻合同范本
- 亞馬遜倉庫轉讓合同范例
- 鄉(xiāng)村道路承包維修合同范例
- 農村買賣房屋合同范例
- 晚期肺癌患者預期性悲傷影響因素及干預方案構建研究
- 公司ceo合同范例
- 個體股轉讓協(xié)議合同范例
- 教育教學論文-以生為本
- 減少農藥保證合同范例
- 模具費支付合同模板
- 餐飲部總監(jiān)述職報告
- 遼寧省沈陽市第七中學2024-2025學年九年級上學期期中英語試題
- 小學金融普及
- 2024電力建設工程綠色建造評價規(guī)范
- 安寧療護課件
- 中小學-珍愛生命拒絕毒品-課件
- 價值觀考核評定表
- 振動篩施工技術方案
- 急救藥品課件教學課件
- 學術英語智慧樹知到答案2024年南開大學
評論
0/150
提交評論