超算服務(wù)器集群系統(tǒng)需求說明_第1頁
超算服務(wù)器集群系統(tǒng)需求說明_第2頁
超算服務(wù)器集群系統(tǒng)需求說明_第3頁
超算服務(wù)器集群系統(tǒng)需求說明_第4頁
超算服務(wù)器集群系統(tǒng)需求說明_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

超算服務(wù)器集群系統(tǒng)需求說明序號(hào)具體技術(shù)(參數(shù))要求1一、背景及配置要求(一)背景隨著國(guó)內(nèi)外計(jì)算生物學(xué)和生成式人工智能在畜牧和獸醫(yī)領(lǐng)域的應(yīng)用發(fā)展,需要更強(qiáng)大的處理器芯片和GPU芯片。研究所當(dāng)前超算算法依靠對(duì)ChatGLM和Liama2等大模型的微調(diào),上述微調(diào)母程序是基于Nvidia芯片和Intel芯片開發(fā),且上述算法需要在IntelXeonPlatinum8358P處理器及以上和NVIDIAA40顯卡及以上高性能計(jì)算顯卡支持下運(yùn)行,綜合考慮性價(jià)比、系統(tǒng)兼容性和后續(xù)研究開展所需,因此,本采購的超算服務(wù)器集群要求選用X86架構(gòu)服務(wù)器(采購人現(xiàn)有架構(gòu))產(chǎn)品。采購人在本采購進(jìn)行之前,已經(jīng)在研究所搭建了“1+3”架構(gòu)的超算服務(wù)器集群,該集群為L(zhǎng)enovo的IBM超算服務(wù)集群系統(tǒng),該集群系統(tǒng)通過Lico管理系統(tǒng)進(jìn)行集群之間用戶管理、計(jì)算資源和任務(wù)的分配、以及計(jì)算安全的監(jiān)控和保障。本次采購的超算服務(wù)器集群納入Lico管理系統(tǒng)內(nèi)或兼容Lico平臺(tái)并購買相應(yīng)軟件許可,將在每臺(tái)計(jì)算節(jié)點(diǎn)增加Lico管理密鑰服務(wù),并完成實(shí)施交付。(二)配置要求1.計(jì)算服務(wù)器:4臺(tái)X86架構(gòu)服務(wù)器,實(shí)現(xiàn)HPC計(jì)算性能。2.GPU服務(wù)器:4臺(tái)X86架構(gòu)服務(wù)器,實(shí)現(xiàn)HPC圖形計(jì)算性能。3.存儲(chǔ)管理服務(wù)器:1臺(tái),實(shí)現(xiàn)并行文件存儲(chǔ)及緩存功能。4.并行文件存儲(chǔ):1臺(tái),HPC中用于存放、讀取數(shù)據(jù)使用。5.IB交換機(jī):1臺(tái),用于HPC項(xiàng)目低延時(shí)交換功能。6.調(diào)度軟件:1項(xiàng)。7.售后服務(wù)、實(shí)施服務(wù)要求:1項(xiàng)。二、技術(shù)參數(shù)(一)計(jì)算服務(wù)器參數(shù)要求:序號(hào)項(xiàng)目要求1規(guī)格2U機(jī)架式服務(wù)器。2處理器2顆CPU,主頻≥2.6GHz且≥32核,L3緩存≥48MB,最大可支持至40核270W處理器。3內(nèi)存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB內(nèi)存擴(kuò)展或最大支持32根內(nèi)存插槽。4硬盤配置≥2塊480GBM.2SSD固態(tài)硬盤;最大支持40個(gè)硬盤擴(kuò)展;支持前置直連12個(gè)U.2NVMeSSD硬盤;支持2個(gè)后置7mm硬盤(SATA/SAS/NVMe);支持內(nèi)置兩個(gè)M.2且支持RAID0/1;提供ANYBAY技術(shù)可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個(gè)NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級(jí)別。6IB卡配置1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。7網(wǎng)卡配置1張4口1000M網(wǎng)卡,支持一個(gè)專用的OCP3.0SFF接口。8電源配置電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。9冷卻系統(tǒng)支持6個(gè)冗余熱插拔系統(tǒng)風(fēng)扇。10I/O擴(kuò)展最大支持9個(gè)PCIe插槽,包括一個(gè)專用的OCP插槽和8個(gè)PCIe4.0標(biāo)準(zhǔn)插槽,另可支持一個(gè)Raid卡專用插槽,可選內(nèi)置的故障診斷面板。11服務(wù)不低于3年7x24X4小時(shí)保修服務(wù),全國(guó)部分城市宕機(jī)4小時(shí)上門服務(wù),提供服務(wù)包括但不限于:原廠上架安裝或系統(tǒng)安裝服務(wù),原廠≥3年故障硬盤免回收服務(wù),原廠硬盤數(shù)據(jù)丟失拯救服務(wù);為保證設(shè)備的可靠性的其他服務(wù)。(二)GPU服務(wù)器參數(shù)要求:序號(hào)項(xiàng)目要求1規(guī)格2U機(jī)架式服務(wù)器。2處理器2顆CPU,主頻≥2.6GHz且≥32核,L3緩存≥48MB,最大可支持至40核270W處理器。3內(nèi)存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB內(nèi)存擴(kuò)展或最大支持32根內(nèi)存插槽。4硬盤配置≥2塊480GBM.2SSD固態(tài)硬盤,最大支持40個(gè)硬盤擴(kuò)展,支持前置直連12個(gè)U.2NVMeSSD硬盤,支持2個(gè)后置7mm硬盤(SATA/SAS/NVMe),支持內(nèi)置兩個(gè)M.2且支持RAID0/1,提供ANYBAY技術(shù)可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個(gè)NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級(jí)別。6網(wǎng)卡本次配置4口1000M網(wǎng)卡,支持一個(gè)專用的OCP3.0SFF接口。7GPU卡本次配置2張GPU顯卡:FP32(TFLOPs):37.4Tflops,TF32(TFLOPs):74.8|149.6Tflops,內(nèi)存:48GbGDDR6,內(nèi)存帶寬:696GB/s,電源:300W。8IB卡≥1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。9電源配置電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。10冷卻系統(tǒng)支持6個(gè)冗余熱插拔系統(tǒng)風(fēng)扇。11I/O擴(kuò)展最大支持9個(gè)PCIe插槽,包括一個(gè)專用的OCP插槽和8個(gè)PCIe4.0標(biāo)準(zhǔn)插槽,另可支持一個(gè)Raid卡專用插槽,可選內(nèi)置的故障診斷面板。12服務(wù)不低于3年7x24X4小時(shí)保修服務(wù),全國(guó)部分城市宕機(jī)4小時(shí)上門服務(wù),提供服務(wù)包括但不限于:原廠上架安裝或系統(tǒng)安裝服務(wù),原廠3年故障硬盤免回收服務(wù),原廠硬盤數(shù)據(jù)丟失拯救服務(wù);為保證設(shè)備的可靠性的其他服務(wù)。(三)存儲(chǔ)管理服務(wù)器參數(shù)要求:序號(hào)項(xiàng)目要求1規(guī)格2U機(jī)架式服務(wù)器。2處理器兩個(gè)12核2.1Ghz18M三級(jí)緩存,最大可支持至40核270W處理器。3內(nèi)存配置≥128GBTruDDR43200MHz,最大支持≥6TB內(nèi)存擴(kuò)展或最大支持32根內(nèi)存插槽。4硬盤配置2塊≥480GB熱插拔2.5寸SSD固態(tài)硬盤,4塊3.84TNVMESSD固態(tài)盤,最大支持40個(gè)硬盤擴(kuò)展,支持前置直連12個(gè)U.2NVMeSSD硬盤,支持2個(gè)后置7mm硬盤(SATA/SAS/NVMe),支持內(nèi)置兩個(gè)M.2且支持RAID0/1,提供ANYBAY技術(shù)可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個(gè)NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級(jí)別。6網(wǎng)卡配置4口1000M網(wǎng)卡,支持一個(gè)專用的OCP3.0SFF接口。7SAS卡配置1張≥12GPCISAS卡+SAS線纜。8IB卡≥1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。9電源實(shí)配電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。10冷卻系統(tǒng)支持6個(gè)冗余熱插拔系統(tǒng)風(fēng)扇。11I/O擴(kuò)展最大支持9個(gè)PCIe插槽,包括一個(gè)專用的OCP插槽和8個(gè)PCIe4.0標(biāo)準(zhǔn)插槽,另可支持一個(gè)Raid卡專用插槽,可選內(nèi)置的故障診斷面板。12服務(wù)不低于3年7x24X4小時(shí)保修服務(wù),全國(guó)部分城市宕機(jī)4小時(shí)上門服務(wù),提供服務(wù)包括但不限于:原廠上架安裝或系統(tǒng)安裝服務(wù),原廠3年故障硬盤免回收服務(wù),原廠硬盤數(shù)據(jù)丟失拯救服務(wù);為保證設(shè)備的可靠性的其他服務(wù)。(四)并行文件存儲(chǔ)參數(shù)要求:序號(hào)項(xiàng)目要求1控制器冗余雙控制器架構(gòu),控制器為雙活工作模式,可支持FC、iSCSI、SAS協(xié)議。2數(shù)據(jù)緩存≥64GB(不含任何性能加速模塊或NAS緩存、FlashCache、PAM卡,SSDCache等),本次配置要求≥64GB。3磁盤雙控最大可擴(kuò)充磁盤數(shù)≥192,支持SAS、NL-SAS、SSD盤,支持不同容量、不同類型的磁盤混合安裝,本次配置12T7.2KSAS硬盤≥12塊。4RAID種類支持多種工業(yè)標(biāo)準(zhǔn)RAID存儲(chǔ)方式混用,包括單盤失效、雙盤失效保護(hù)技術(shù),包括RAID0/1/10/5/6/及動(dòng)態(tài)磁盤池(RAID⒉0)技術(shù)。支持RAID組動(dòng)態(tài)擴(kuò)展,在線升級(jí)等。要求存儲(chǔ)設(shè)備支持全局動(dòng)態(tài)熱備技術(shù)。在配置RAID2.0時(shí),磁盤熱備功能通過磁盤剩余空間實(shí)現(xiàn)。滿足多塊盤(大于3塊盤)非同時(shí)故障時(shí),數(shù)據(jù)依然安全可用。無需占用單獨(dú)熱備盤。5二級(jí)緩存技術(shù)支持SSD盤的智能二級(jí)緩存加速技術(shù),可以將SAS、NL-SAS上的熱點(diǎn)數(shù)據(jù)自動(dòng)緩存至SDD盤,實(shí)現(xiàn)熱點(diǎn)數(shù)據(jù)的加速。6前端服務(wù)器接口配置4個(gè)12GSAS端口;最大支持12個(gè)10Gbps以太網(wǎng)口或8個(gè)25Gbps以太網(wǎng)口或12個(gè)16GbpsFC接口或8個(gè)32GbpsFC接口或8個(gè)12GbSAS端口。7后端磁盤接口雙控≥4個(gè)12GbpsMiniSAS端口。8存儲(chǔ)快照與克隆復(fù)制提供存儲(chǔ)快照與克隆復(fù)制功能,支持針對(duì)主流應(yīng)用(如:Oracle、SQL、Exchange、SAP等)和虛擬化環(huán)境(如VMware、Citrix、Hyper-V等)。9精簡(jiǎn)配置具有精簡(jiǎn)配置功能,提高存儲(chǔ)利用率。10設(shè)備兼容性支持業(yè)界平臺(tái)(包括但不限于Windowsserver、VMware)。11數(shù)據(jù)快照最大snapshot配置數(shù)量≥256個(gè)。12數(shù)據(jù)分層支持SSD緩存、支持?jǐn)?shù)據(jù)自動(dòng)分層,可設(shè)置靈活策略,在不同存儲(chǔ)層間進(jìn)行數(shù)據(jù)移動(dòng)。13數(shù)據(jù)壓縮支持在線自動(dòng)壓縮。14數(shù)據(jù)遷移支持信息生命周期管理,可根據(jù)策略自動(dòng)遷移或備份數(shù)據(jù)。15遠(yuǎn)程同步支持和遠(yuǎn)程存儲(chǔ)系統(tǒng)主動(dòng)數(shù)據(jù)同步。16QoS支持IO的QoS。17I/O協(xié)議支持多種I/O協(xié)議:POSIX、NFSv4、SMBv3.0、支持OpenStackCinder(block方式)、OpenStackSwift(object方式)、S3(object方式)。18并行文件系統(tǒng)配置商業(yè)并行文件系統(tǒng),并提供所有服務(wù)器端和客戶端使用授權(quán)。19客戶端支持支持原生的Linux、windows客戶端。20文件系統(tǒng)功能提供客戶端數(shù)據(jù)緩存與預(yù)讀功能:支持在客戶端內(nèi)存中記錄最近的I/O,減少訪問磁盤的次數(shù)。21支持客戶端SSD緩存。22支持海量小文件讀寫,每個(gè)文件系統(tǒng)最多2的63次方個(gè)文件。23提供訪問模式識(shí)別以深度預(yù)取功能:支持檢測(cè)并可識(shí)別數(shù)據(jù)訪問模式如順序訪問,隨機(jī)訪問,模糊順序訪問(fuzzysequential)或者步進(jìn)式訪問(strided),進(jìn)行并行預(yù)取,減少重復(fù)性磁盤I/O以提高性能。24提供分布式的元數(shù)據(jù)和令牌管理功能:獨(dú)立的元數(shù)據(jù)通道和文件數(shù)據(jù)通道;支持?jǐn)?shù)據(jù)和元數(shù)據(jù)多份拷貝,且拷貝個(gè)數(shù)可設(shè)置;支持任意節(jié)點(diǎn)都可以承擔(dān)任意角色功能,確保無單點(diǎn)故障,所有節(jié)點(diǎn)都可以處理數(shù)據(jù)和元數(shù)據(jù)操作。25提供文件系統(tǒng)日志功能:記錄所有文件系統(tǒng)的操作,保護(hù)文件系統(tǒng)數(shù)據(jù)不被失效節(jié)點(diǎn)或者錯(cuò)誤狀態(tài)節(jié)點(diǎn)所更改。26提供數(shù)據(jù)復(fù)制(鏡像)功能:支持文件或者文件系統(tǒng)級(jí)別鏡像,簡(jiǎn)化用戶對(duì)數(shù)據(jù)安全的操作,遠(yuǎn)程緩存及容災(zāi)支持。(五)IB交換機(jī)參數(shù)要求:序號(hào)項(xiàng)目要求1規(guī)格HDR200Gb/s全線速交換機(jī)。2數(shù)量根據(jù)節(jié)點(diǎn)數(shù)量和網(wǎng)絡(luò)需求自行評(píng)估。3端口單個(gè)交換機(jī)≥40個(gè)HDR端口。4IB線纜配置所需的Infiniband線纜,要求提供與IB交換機(jī)同廠商的原廠線纜配套使用。(六)調(diào)度軟件參數(shù)要求:序號(hào)項(xiàng)目要求1知識(shí)產(chǎn)權(quán)商業(yè)版集群管理與調(diào)度軟件,授權(quán)覆蓋本項(xiàng)目所有服務(wù)器,需提供計(jì)算機(jī)軟件著作權(quán)登記證書。投標(biāo)人需承諾在本項(xiàng)目采購合同簽訂后的6年內(nèi),額外提供≥200個(gè)計(jì)算節(jié)點(diǎn)的集群管理軟件客戶端的永久授權(quán),并提供安裝手冊(cè)。2WEB界面支持用戶通過WEB瀏覽器GUI方式使用集群系統(tǒng),提供用戶門戶系統(tǒng)和運(yùn)維管理門戶系統(tǒng)。支持并發(fā)用戶數(shù)≥10個(gè)。3調(diào)度系統(tǒng)特性支持GPU調(diào)用。命令行支持SLURM基本命令,并提供JSON命令行接口。支持先進(jìn)先出、公平分享、優(yōu)先級(jí)、基于優(yōu)先級(jí)的搶占等調(diào)度策略。支持最新分布式人工智能框架和工具。4管理計(jì)費(fèi)支持管理員通過WEB瀏覽器GUI方式進(jìn)行管理計(jì)費(fèi)。支持不同組織設(shè)置不同的CPU、GPU計(jì)費(fèi)費(fèi)率,支持設(shè)置余額閾值和計(jì)費(fèi)周期。5賬單查詢支持用戶通過WEB瀏覽器GUI方式進(jìn)行賬單查詢。支持查看消費(fèi)總額、月/周賬單總額、趨勢(shì)圖,以及按作業(yè)、用戶、組織維度查看賬單。(七)售后服務(wù)、實(shí)施服務(wù)要求:序號(hào)項(xiàng)目要求1硬件質(zhì)保提供硬件3年及以上質(zhì)保。2硬件設(shè)備維修與更換的時(shí)間不超過48小時(shí)。3現(xiàn)場(chǎng)服務(wù)4小時(shí)內(nèi)上門,48小時(shí)內(nèi)到達(dá)現(xiàn)場(chǎng)。4技術(shù)支持提供熱線電話,并設(shè)置專人為用戶提供7×24小時(shí)響應(yīng)服務(wù)。5在4小時(shí)內(nèi)與采購人電話聯(lián)系,對(duì)于電話咨詢解決不了的問題,經(jīng)采購人授權(quán)可通過Internet遠(yuǎn)程登錄到采購人網(wǎng)絡(luò)系統(tǒng)進(jìn)行故障診斷和故障排除。如果通過上述方式不能解決問題,需委派技術(shù)人員將進(jìn)行現(xiàn)場(chǎng)響應(yīng)并在48小時(shí)之內(nèi)提供解決方案。(其費(fèi)用已包含在投標(biāo)報(bào)價(jià)中)6在現(xiàn)場(chǎng)服務(wù)年限內(nèi),每季度技術(shù)工程師將回訪采購人不少于一次,聽取采購人的意見,如有需要,并進(jìn)行現(xiàn)場(chǎng)技術(shù)檢測(cè)和支持服務(wù)。7安裝及交機(jī)服務(wù)組建一支專門的技術(shù)服務(wù)隊(duì)伍以服務(wù)于本項(xiàng)目,該隊(duì)伍將由系統(tǒng)硬件資深工程師、系統(tǒng)軟件資深工程師、系統(tǒng)調(diào)優(yōu)資深工程師等一流技術(shù)專家組成。8在設(shè)備運(yùn)抵采購人現(xiàn)場(chǎng)后,技術(shù)服務(wù)隊(duì)伍將負(fù)責(zé)本系統(tǒng)的全部安裝、調(diào)試,以保證達(dá)到應(yīng)用系統(tǒng)安裝所需要的要求。9技術(shù)工程師將全力配合第三方應(yīng)用軟件商快速完成系統(tǒng)集成工作。在此期間將協(xié)助第三方應(yīng)用軟件商完成各種編譯器、并行編程環(huán)境、作業(yè)調(diào)度和應(yīng)用系統(tǒng)等安裝測(cè)試和調(diào)試。10采購人驗(yàn)收完畢后,將對(duì)采購人進(jìn)行相關(guān)的技術(shù)培訓(xùn)。11準(zhǔn)備和計(jì)劃會(huì)議進(jìn)行準(zhǔn)備和計(jì)劃會(huì)議,確定實(shí)施方案和時(shí)間表,本次實(shí)施服務(wù)需要設(shè)備生產(chǎn)商原廠安排實(shí)施等相關(guān)服務(wù),不接受集成商實(shí)施,實(shí)施項(xiàng)目時(shí)需核對(duì)工卡及身份證等文件。12管理節(jié)點(diǎn)安裝和配置安裝和配置管理節(jié)點(diǎn),包括RAID配置、操作系統(tǒng)安裝、BIOS/UEFI設(shè)置、微碼更新和群集管理軟件安裝(xCAT)。13以太網(wǎng)配置和驗(yàn)證配置和驗(yàn)證以太網(wǎng),確保網(wǎng)絡(luò)正常運(yùn)行。14節(jié)點(diǎn)RAID配置配置節(jié)點(diǎn)的RAID,確保存儲(chǔ)系統(tǒng)正常工作。15節(jié)點(diǎn)操作系統(tǒng)配置分發(fā)操作系統(tǒng)到節(jié)點(diǎn),并配置BIOS/UEFI、微碼更新、驅(qū)動(dòng)和軟件包更新。16高速網(wǎng)絡(luò)配置和驗(yàn)證配置和驗(yàn)證高速網(wǎng)絡(luò)(如InfiniBand或10Gb),并安裝相應(yīng)的軟件包(如OFED)。17存儲(chǔ)系統(tǒng)配置和驗(yàn)證在管理節(jié)點(diǎn)上安裝存儲(chǔ)管理軟件。18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論