HPC高性能集群平臺實(shí)施規(guī)范_第1頁
HPC高性能集群平臺實(shí)施規(guī)范_第2頁
HPC高性能集群平臺實(shí)施規(guī)范_第3頁
HPC高性能集群平臺實(shí)施規(guī)范_第4頁
HPC高性能集群平臺實(shí)施規(guī)范_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、高性能集群平臺實(shí)施規(guī)范目 錄 TOC o 1-3 h z u HYPERLINK l _Toc529003725 1.設(shè)備進(jìn)場 PAGEREF _Toc529003725 h - 1 - HYPERLINK l _Toc529003726 2.上架布線 PAGEREF _Toc529003726 h - 1 - HYPERLINK l _Toc529003727 3.集群實(shí)施規(guī)范 PAGEREF _Toc529003727 h - 2 - HYPERLINK l _Toc529003728 3.1操作系統(tǒng) PAGEREF _Toc529003728 h - 2 - HYPERLINK l _T

2、oc529003729 3.1.1操作系統(tǒng)版本 PAGEREF _Toc529003729 h - 2 - HYPERLINK l _Toc529003730 3.1.2系統(tǒng)磁盤分區(qū) PAGEREF _Toc529003730 h - 2 - HYPERLINK l _Toc529003731 3.1.3系統(tǒng)批量安裝工具 PAGEREF _Toc529003731 h - 2 - HYPERLINK l _Toc529003732 3.1.4系統(tǒng)配置 PAGEREF _Toc529003732 h - 3 - HYPERLINK l _Toc529003733 3.2集群安全規(guī)范 PAGERE

3、F _Toc529003733 h - 9 - HYPERLINK l _Toc529003734 3.2.1系統(tǒng)密碼強(qiáng)度規(guī)則 PAGEREF _Toc529003734 h - 9 - HYPERLINK l _Toc529003735 3.2.2禁止普通用戶直接登錄計算節(jié)點(diǎn) PAGEREF _Toc529003735 h - 9 - HYPERLINK l _Toc529003736 3.2.3禁止root用戶ssh直接登錄(針對直接通過外網(wǎng)訪問的節(jié)點(diǎn)) PAGEREF _Toc529003736 h - 9 - HYPERLINK l _Toc529003737 3.2.4防止暴力破解f

4、ail2ban(針對直接通過外網(wǎng)訪問的節(jié)點(diǎn)) PAGEREF _Toc529003737 h - 9 - HYPERLINK l _Toc529003738 3.3軟件安裝 PAGEREF _Toc529003738 h - 10 - HYPERLINK l _Toc529003739 3.3.1基礎(chǔ)軟件安裝規(guī)范 PAGEREF _Toc529003739 h - 10 - HYPERLINK l _Toc529003740 3.3.2測試軟件安裝規(guī)范 PAGEREF _Toc529003740 h - 11 - HYPERLINK l _Toc529003741 3.3.3應(yīng)用軟件安裝規(guī)范

5、PAGEREF _Toc529003741 h - 12 - HYPERLINK l _Toc529003742 3.4系統(tǒng)備份 PAGEREF _Toc529003742 h - 12 - HYPERLINK l _Toc529003743 3.4.1 備份系統(tǒng)配置文件 PAGEREF _Toc529003743 h - 12 - HYPERLINK l _Toc529003744 3.4.2 制作系統(tǒng)鏡像文件 PAGEREF _Toc529003744 h - 13 -設(shè)備進(jìn)場設(shè)備進(jìn)場前需要和用戶確認(rèn)項(xiàng)目實(shí)施機(jī)房進(jìn)場條件調(diào)查表中的各項(xiàng)內(nèi)容,上架布線需要以此作為參考。若進(jìn)場條件不符和要求,需

6、反饋給相關(guān)人員及時解決。上架布線上架布線請按照【hpc實(shí)施規(guī)劃】方案實(shí)施項(xiàng)目實(shí)施規(guī)劃進(jìn)行,以下簡稱實(shí)施規(guī)劃。設(shè)備上架需要充分考慮空間、承重、供電、散熱、布線等多個方面的要求,盡量平衡各種制約因素。對于普通風(fēng)冷機(jī)柜,基于散熱及供電的需求,一般要求每個機(jī)柜的設(shè)備總功率不能超過15KW,且功耗與承重盡量平均分配。根據(jù)機(jī)房的布線情況,確認(rèn)是上走線或者下走線,從而將交換機(jī)布置于機(jī)柜的頂部或底部。交換機(jī)應(yīng)盡量位于機(jī)柜排的中間機(jī)柜中,從而縮減網(wǎng)絡(luò)連接線纜的長度??刂婆_應(yīng)該放置于自下而上19U左右高度,從而方便管理人員的管理。上架布線完成后,需要采集機(jī)房環(huán)境的照片信息,包括設(shè)備擺放情況,布線情況,以及機(jī)房整體

7、情況等,收集各個設(shè)備序列號并記錄到【hpc實(shí)施規(guī)劃2016】方案實(shí)施項(xiàng)目實(shí)施規(guī)劃。注解 由于部分項(xiàng)目特殊性,工程師在編寫實(shí)施規(guī)劃時因存在未定因素,不能涵蓋全部設(shè)備、需求,因此需要現(xiàn)場實(shí)施階段對實(shí)施規(guī)劃進(jìn)行再次更新補(bǔ)充集群實(shí)施規(guī)范3.1操作系統(tǒng)3.1.1操作系統(tǒng)版本考慮到高性能集群的兼容性和性能,建議對于Intel Xeon E5-2600 v3/v4系列及以下CPU系列,如無特殊軟硬件兼容性需求,統(tǒng)一采用CentOS 6.6或CentOS 7.2版本,并選擇軟件包完全安裝。對于使用Multi-Host或Intel OPA網(wǎng)絡(luò)的集群操作系統(tǒng)必須安裝CentOS /RHEL7.2。注解 選擇Cen

8、tOS或RHEL版本,以合同為準(zhǔn),如合同無版本要求,默認(rèn)出廠為CentOS3.1.2系統(tǒng)磁盤分區(qū)如無特殊需求,針對系統(tǒng)磁盤空間建議采用以下分區(qū):/boot500MB/swap64GB/剩余空間3.1.3系統(tǒng)批量安裝工具操作系統(tǒng)的安裝建議使用 HPC Installer軟件進(jìn)行操作系統(tǒng)的批量部署,詳見 HPC Installer軟件使用手冊。3.1.4系統(tǒng)配置主機(jī)名規(guī)范高性能集群由于節(jié)點(diǎn)數(shù)量眾多,需要對節(jié)點(diǎn)按照一定的規(guī)則編號命名,命名一般為“前綴+編號”,高性能集群前綴定義原則如下:計算節(jié)點(diǎn)前綴:comput管理節(jié)點(diǎn)前綴:admin登錄節(jié)點(diǎn)前綴:loginParastor文件系統(tǒng)opara節(jié)點(diǎn)前

9、綴:oparaostor節(jié)點(diǎn)前綴:ostor其余文件系統(tǒng)存儲節(jié)點(diǎn)前綴:io編號從1開始,為了方便管理和記憶,編號應(yīng)按照如下原則:(一)原則1:同類相鄰?fù)环N類型節(jié)點(diǎn)(硬件、操作系統(tǒng),用途等)應(yīng)該是連續(xù)的編號 (二)原則2:從多到少按用途:計算節(jié)點(diǎn)、IO節(jié)點(diǎn)、管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)計算節(jié)點(diǎn)內(nèi)部:刀片最多,GPU節(jié)點(diǎn)其次,胖節(jié)點(diǎn)最少(三)原則3:從高到低高端到低端:八路、四路、雙路內(nèi)存容量:128G、64G、32G高度越高:5U、4U、2U、1U以上原則沖突時,優(yōu)先級:原則1 原則2 原則3舉例: CX50-G20刀片計算節(jié)點(diǎn):64臺 GPU計算節(jié)點(diǎn):8臺 I980八路胖節(jié)點(diǎn):2臺 I840四路胖節(jié)點(diǎn)

10、:2臺 I620 IO節(jié)點(diǎn):4臺 I620管理節(jié)點(diǎn):2臺I620登錄節(jié)點(diǎn):2臺整個集群節(jié)點(diǎn)編號順序?yàn)閏omput 1- comput 64刀片CX50-G20comput 65- comput 72GPU節(jié)點(diǎn)comput 73- comput 74I980comput 75- comput 76I840io1-io4IO節(jié)點(diǎn)I620admin1-admin2管理節(jié)點(diǎn)I620login1-login2登錄節(jié)點(diǎn)I620集群IP地址規(guī)范(一)管理網(wǎng)絡(luò)管理網(wǎng)絡(luò)IP地址和主機(jī)名規(guī)范為:IP地址子網(wǎng)掩碼主機(jī)名前綴主機(jī)名別名前綴10.10.10.xcomput、admin、loginnode(二)IPMI遠(yuǎn)

11、程管理網(wǎng)絡(luò)IPMI網(wǎng)絡(luò)IP地址和主機(jī)名規(guī)范為:IP地址子網(wǎng)掩碼主機(jī)名前綴主機(jī)名別名前綴10.10.20.xmcomput、madmin、mloginmnode刀箱管理模塊IP地址和主機(jī)名規(guī)范為:IP地址子網(wǎng)掩碼主機(jī)名前綴10.10.30.xmblade(三)InfiniBand網(wǎng)絡(luò)(如果有,配置為高速計算網(wǎng)絡(luò))InfiniBand網(wǎng)絡(luò)IPoIB地址和主機(jī)名規(guī)范為:IP地址子網(wǎng)掩碼主機(jī)名前綴主機(jī)名別名前綴12.12.12.xicomput、iadmin、ilogininode注:如有其它網(wǎng)絡(luò)可按照實(shí)際需求進(jìn)行配置系統(tǒng)/etc/hosts文件規(guī)范/etc/hosts文件用于儲存計算機(jī)網(wǎng)絡(luò)中各節(jié)點(diǎn)信

12、息,其中應(yīng)該完整包含集群的主機(jī)名與IP地址映射,clusconf等部分軟件的功能依賴此文件,規(guī)范如下:(一)第一行為: localhost(二)/etc/hosts文件中不要寫入不存在的節(jié)點(diǎn)(三)/etc/hosts文件第一列為IP地址,第二列為主機(jī)名,第三列為別名,IP地址與主機(jī)名一一對應(yīng),書寫規(guī)范參考與(五)每一類網(wǎng)絡(luò)第一行需要明確進(jìn)行注釋,增強(qiáng)文件可讀性(六)并行文件系統(tǒng)也需要在文件中寫明,對于Parastor心跳網(wǎng)絡(luò)可以通過注釋的方式表示范例如下: localhost # Management Ethernet Network #comput1node10comput10node101

13、io1node112io2node123admin1node134admin2node145login1node156login2node16# Infiniband network # icomput1inode10 icomput10inode101iio1inode112iio2inode123iadmin1inode134iadmin2inode145ilogin1inode156ilogin2inode16# Monitor Ethernet Network # mcomput1mnode10mcomput10mnode101mio1mnode112mio2mnode123madmi

14、n1mnode134madmin2mnode145mlogin1mnode156mlogin2mnode16 mblade1# ParaStor300 Network #01 opara102 opara203 ostor103 ostor203 ostor303 ostor4# heartbeat # # # # ssh無密碼訪問為所有用戶配置ssh無密碼訪問并測試無密碼登錄正常,可使用clusconf工具完成配置并檢測。集群用戶管理NIS使用NIS服務(wù)統(tǒng)一管理集群用戶,一般采用管理節(jié)點(diǎn)作為NIS服務(wù)器,可使用clusconf工具完成配置。系統(tǒng)時間同步使用NTP服務(wù)保持集群時鐘同步,一般采用

15、管理節(jié)點(diǎn)作為NTP服務(wù)器,可使用clusconf工具完成配置。其他相關(guān)服務(wù)配置注解 配置過程詳見曙光高性能集群實(shí)施指導(dǎo)手冊-v1.0.0確保系統(tǒng)ulimit配置正確,可使用clusconf工具完成配置。確保系統(tǒng)selinux服務(wù)關(guān)閉,可使用clusconf工具完成配置。配置Rsyslog服務(wù),將集群節(jié)點(diǎn)日志統(tǒng)一收集到管理節(jié)點(diǎn)的數(shù)據(jù)庫。配置Kdump服務(wù),將內(nèi)存轉(zhuǎn)存儲文件存放在/var/crash目錄。配置集群本地YUM源,將集群對應(yīng)版本操作系統(tǒng)iso文件上傳到/public/sourcecode目錄然后掛載到/public/sourcecode/yum,將其配置為整個集群的YUM源3.1.5共

16、享路徑配置規(guī)范如無特殊要求,共享存儲(并行文件系統(tǒng)或NFS)掛載路徑均為/public創(chuàng)建/public/sourcecode目錄,作為軟件安裝包的存放目錄創(chuàng)建/public/software目錄,作為軟件的安裝目錄創(chuàng)建/public/home目錄,通過mount -bind /public/home /home 將共享存儲系統(tǒng)與/home 綁定,作為集群用戶的家目錄的父目錄創(chuàng)建/public/backup目錄,作為集群備份文件及系統(tǒng)鏡像存放目錄創(chuàng)建/public/sourcecode/yum目錄,作為集群本地yum源的路徑將自動掛載路徑命令添加到系統(tǒng)自動啟動腳本中(RHEL為/etc/rc.

17、local,SLES 為 /etc/init.d/after.local,/etc/init.d/after.local文件如果不存在創(chuàng)建一個即可)注解 已配置nfs共享服務(wù)的服務(wù)器可修改/etc/exports文件中服務(wù)器選項(xiàng)字段,將允許任何主機(jī)訪問的配置“*”改為限定的IP或者IP段(如/)。例如將/etc/exports中配置內(nèi)容:/public *(rw,no_root_squash,async)修改為:/public /(rw,no_root_squash,async)再重啟nfs服務(wù)。3.2集群安全規(guī)范注解 配置過程詳見曙光高性能集群安全配置手冊-v1.0.03.2.1系統(tǒng)密碼強(qiáng)度

18、規(guī)則通過修改/etc/pam.d/system-auth模塊限制集群用戶密碼強(qiáng)度。密碼強(qiáng)度建議:長度不小于8位,包含英文大寫字母、小寫字母、數(shù)字、特殊字符。3.2.2禁止普通用戶直接登錄計算節(jié)點(diǎn)通過配置/etc/security/access.conf,并在/etc/pam.d/sshd 中啟用pam_access.so驗(yàn)證,禁止普通用戶直接登錄計算節(jié)點(diǎn)。3.2.3禁止root用戶ssh直接登錄(針對直接通過外網(wǎng)訪問的節(jié)點(diǎn))通過修改ssh配置文件/etc/ssh/sshd_config,禁止root用戶直接登錄。3.2.4防止暴力破解fail2ban(針對直接通過外網(wǎng)訪問的節(jié)點(diǎn))通過配置fai

19、l2ban(需單獨(dú)下載)防止暴力破解攻擊,建議策略如下:允許重試次數(shù):5次檢測時間頻率:10分鐘禁止時長: 24小時3.3軟件安裝一般集群軟件可分為三大類:基礎(chǔ)軟件:IB驅(qū)動、編譯器、文件系統(tǒng)、MPI、常用數(shù)學(xué)庫與集群管理調(diào)度等測試軟件:CPU計算性能、內(nèi)存帶寬、存儲性能、網(wǎng)絡(luò)性能等應(yīng)用軟件:各類科學(xué)計算常用軟件,如vasp、wrf、fluent等注:規(guī)范中僅列出大部分常規(guī)軟件及推薦版本,如有特殊需求可自行歸類并按要求進(jìn)行安裝3.3.1基礎(chǔ)軟件安裝規(guī)范分類軟件名推薦版本安裝路徑備注管理調(diào)度軟件Gridview3.2.04.0/opt/gridviewIB 驅(qū)動OFED驅(qū)動MLNX_OFED操作

20、系統(tǒng)對應(yīng)版本/usr手動安裝OPAOPA驅(qū)動Intel OPA-Basic操作系統(tǒng)對應(yīng)版本計算節(jié)點(diǎn)手動安裝Intel OPA-IFS操作系統(tǒng)對應(yīng)版本管理節(jié)點(diǎn)手動安裝文件系統(tǒng)lustre2.7.0/usr編譯安裝ParaStor2.1.1ParaStor默認(rèn)安裝路徑手動安裝編譯器GNU編譯器操作系統(tǒng)對應(yīng)版本/usr/bin操作系統(tǒng)自帶Intel編譯器15.2.164/public/software/compiler/intel/composer_xe_2015.2.164Clussof自動安裝數(shù)學(xué)庫MKL11.0/public/software/compiler/intel/composer_x

21、e_2015.2.164/mklClussof自動安裝fftw2-float2.1.5/public/software/mathlib/fftw/2.1.5/floatClussof自動安裝fftw2-double2.1.5/public/software/mathlib/fftw/2.1.5/doubleClussof自動安裝fftw3-float3.3.4/public/software/mathlib/fftw/3.3.4/floatClussof自動安裝fftw3-double3.3.4/public/software/mathlib/fftw/3.3.4/doubleClussof自

22、動安裝lapack-gnu3.4.2/public/software/mathlib/lapack/3.4.2/gnuClussof自動安裝lapack-intel3.4.2/public/software/mathlib/lapack/3.4.2/intelClussof自動安裝MPIpenmpi-gnu1.6.5/public/software/mpi/openmpi/1.6.5/gnuClussof自動安裝penmpi-intel1.6.5/public/software/mpi/openmpi/1.6.5/intelClussof自動安裝注:Gridview安裝請參照對應(yīng)版本的Grid

23、view安裝手冊IB驅(qū)動下載地址 HYPERLINK /page/software_overview_ib /page/software_overview_ibIntel OPA驅(qū)動下載地址 HYPERLINK /download/26064/Intel-Omni-Path-Fabric-Software-Including-Intel-Omni-Path-Host-Fabric-Interface-Driver- /download/26064/Intel-Omni-Path-Fabric-Software-Including-Intel-Omni-Path-Host-Fabric-Inte

24、rface-Driver- 其余軟件安裝可參考clussoft使用手冊3.3.2測試軟件安裝規(guī)范分類軟件名推薦版本安裝路徑備注測試軟件hpl-intel2.2 /public/software/benchmark/hpl/2.2/intelClussoft自動安裝hpcc-intel1.4.3/public/software/benchmark/hpcc/1.4.3/intelClussoft自動安裝imb3.2.4/public/software/benchmark/imb/3.2.4Clussoft自動安裝mpigraph1.4 /public/software/benchmark/mpi

25、graph/1.4/intelClussoft自動安裝stream5.10 /public/software/benchmark/stream/5/10/intelClussoft自動安裝iozone3.420/public/software/benchmark/iozone/3.420Clussoft自動安裝lmbench3/public/software/benchmark/lmbench/3Clussoft自動安裝clusbench1.3 /public/software/benchmark/clusbench/1.3Clussoft自動安裝appbench1.0/public/software/benchmark/appbench/1.0Clussoft自動安裝3.3.3應(yīng)用軟件安裝規(guī)范應(yīng)用軟件默認(rèn)安裝路徑為/public/software,并根據(jù)軟件類別分別建立該應(yīng)用軟件路徑,以vas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論