浪潮天梭系統(tǒng)集群培訓(xùn)資料課件_第1頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料課件_第2頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料課件_第3頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料課件_第4頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料課件_第5頁(yè)
已閱讀5頁(yè),還剩109頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

浪潮天梭TS10K集群培訓(xùn)浪潮天梭TS10K集群培訓(xùn)1/6/2023Inspurgroup第一章集群介紹112/25/2022Inspurgroup第一章集群介紹一、什么是集群?“聯(lián)結(jié)起來(lái)的計(jì)算機(jī)的集合,整個(gè)系統(tǒng)使用起來(lái)像一個(gè)單一的一體的計(jì)算資源”

-GregPfister,InSearchofclusters一、什么是集群?“聯(lián)結(jié)起來(lái)的計(jì)算機(jī)的集合,整個(gè)系統(tǒng)使用起來(lái)像二、為什么用集群?通俗的說(shuō),就是單一計(jì)算節(jié)點(diǎn)的資源已經(jīng)無(wú)法滿足我們的計(jì)算需求,比如內(nèi)存的容量,cpu的計(jì)算能力。也許一個(gè)算例我們要計(jì)算數(shù)周甚至數(shù)月,這時(shí)候我們就需要用到集群來(lái)處理這些計(jì)算問(wèn)題。二、為什么用集群?通俗的說(shuō),就是單一計(jì)算節(jié)點(diǎn)的資源已經(jīng)無(wú)法滿三、集群有哪些部分組成?

計(jì)算節(jié)點(diǎn):承載集群的計(jì)算任務(wù)

管理節(jié)點(diǎn):用戶登錄、管理調(diào)度整個(gè)集群、任務(wù)提交等,提供對(duì)整個(gè)系統(tǒng)的監(jiān)控管理

存儲(chǔ)節(jié)點(diǎn):存儲(chǔ)大量的計(jì)算數(shù)據(jù),高可用,高安全

三、集群有哪些部分組成?計(jì)算節(jié)點(diǎn):承載集群的計(jì)算任務(wù)硬件架構(gòu)硬件架構(gòu)網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)規(guī)劃管理ip:00管理節(jié)點(diǎn)~31計(jì)算節(jié)點(diǎn)2~35io節(jié)點(diǎn)計(jì)算ip:10.10.10段,尾數(shù)同上IPMI網(wǎng)絡(luò):00管理節(jié)點(diǎn)

01~104io節(jié)點(diǎn)

00第一個(gè)刀箱,對(duì)應(yīng)101~120,cu01~cu20

00第二個(gè)刀箱,對(duì)應(yīng)101~121,cu21~cu31網(wǎng)絡(luò)規(guī)劃管理ip:00管理節(jié)點(diǎn)1/6/2023Inspurgroup第二章集群使用212/25/2022Inspurgroup第二章集群使用需要的條件:1、客戶端與集群連通2、客戶端如果為linux可以直接ssh登錄到管理節(jié)點(diǎn);如果為windows系統(tǒng),需要安裝相應(yīng)軟件3、一個(gè)合法賬號(hào)!4、相應(yīng)操作知識(shí)積累需要的條件:并行環(huán)境搭建Linux集群并行環(huán)境主要配置以下4個(gè)服務(wù)1、rsh服務(wù)通訊服務(wù)2、ssh服務(wù)

通訊服務(wù)3、nfs服務(wù)目錄共享4、nis服務(wù)用戶同步并行環(huán)境搭建Linux集群并行環(huán)境主要配置以下4個(gè)服務(wù)并行環(huán)境搭建-rsh服務(wù)配置rsh服務(wù)配置開(kāi)啟root用戶對(duì)所有節(jié)點(diǎn)的rsh權(quán)限1、編輯/etc/hosts節(jié)點(diǎn)名稱解析,加入所有(包括本機(jī))節(jié)點(diǎn)的ip地址和對(duì)應(yīng)的計(jì)算機(jī)名;此文件在一臺(tái)機(jī)器上編輯完畢可以拷貝到別的節(jié)點(diǎn)上使用;注意這一行不要?jiǎng)?,否則會(huì)影響到服務(wù)器的正常使用。例如:00mu01cu010cu10并行環(huán)境搭建-rsh服務(wù)配置rsh服務(wù)配置并行環(huán)境搭建-rsh服務(wù)配置2、編輯/root/.rhosts和/etc/hosts.equiv,加入所有節(jié)點(diǎn)的計(jì)算機(jī)名例如:mu01cu01cu103、開(kāi)啟rsh服務(wù):setup→systemservices→[*]rsh[*]rlogin[*]rexec并行環(huán)境搭建-rsh服務(wù)配置2、編輯/root/.rhost并行環(huán)境搭建-rsh服務(wù)配置4、編輯/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以)5、重起服務(wù)servicexinetdrestart

rsh的配置需要在所有節(jié)點(diǎn)上進(jìn)行。并行環(huán)境搭建-rsh服務(wù)配置4、編輯/etc/securet并行環(huán)境搭建-ssh服務(wù)配置1、在mu01上以root登錄,然后運(yùn)行ssh-keygen–tdsa,目的是簡(jiǎn)單的在/root下創(chuàng)建目錄.ssh,當(dāng)提示輸入passphase時(shí)打入兩次回車。這將生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub2、在cu01上以root登錄,運(yùn)行ssh-keygen–tdsa,然后在mu01上運(yùn)行scp/root/.ssh/id_dsa.pubgpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目錄下運(yùn)行catid_dsa.pub〉〉authorized_keys,再運(yùn)行scpauthorized_keysgpu02:/root/.ssh/并行環(huán)境搭建-ssh服務(wù)配置1、在mu01上以root登錄,并行環(huán)境搭建-ssh服務(wù)配置3、在cu02的/root/.ssh/目錄下運(yùn)行catid_dsa.pub〉〉authorized_keys,再運(yùn)行scpauthorized_keyscu03:/root/.ssh/4、重復(fù)以上步驟在后面結(jié)點(diǎn)上,在最后的計(jì)算節(jié)點(diǎn)上將生成一個(gè)完整的authorized_keys文件,然后把a(bǔ)uthorized_keys文件用scp命令拷貝到其余所有節(jié)點(diǎn)的/root/.ssh/目錄下,ssh配置完成。并行環(huán)境搭建-ssh服務(wù)配置3、在cu02的/root/.s并行環(huán)境搭建-nfs服務(wù)配置server端配置1、建立文件/etc/exports(若已存在該文件,則先刪除再重新建立)2、vi/etc/exports/,在文件內(nèi)添加上語(yǔ)句:/home*(rw,no_root_squash,sync)/opt*(rw,no_root_squash,sync)(目錄為需要共享的目錄,目錄和星號(hào)之間有空格。)3、激活nfschkconfignfson

servicenfsrestart

此時(shí)可以到client上用showmount–eIP(或者server的主機(jī)名)來(lái)掃描server端共享的目錄。若exports文件重新編輯了,可以運(yùn)行exportfs–rv來(lái)更新一下,這樣client端就可以掛載修改后的目錄了。并行環(huán)境搭建-nfs服務(wù)配置server端配置并行環(huán)境搭建-nfs服務(wù)配置client端配置1、掃描可以使用的server目錄:showmount–emu012、使用mount將遠(yuǎn)程主機(jī)分享的目錄掛載進(jìn)來(lái):mount–tnfsvers=3mu01:/opt/opt

此時(shí)可以通過(guò)df命令看掛載是否正常;

為了實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)掛載還可將mount–tnfsvers=3mu01:/opt/opt寫入到/etc/rc.local中以使節(jié)點(diǎn)啟動(dòng)后自動(dòng)掛載目錄。并行環(huán)境搭建-nfs服務(wù)配置client端配置并行環(huán)境搭建-nis服務(wù)配置server端配置1、配置NIS域名nisdomainnameTS10K

把NISDOMAIN=TS10K添加到network里實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)配置域名2、開(kāi)啟兩個(gè)服務(wù):serviceyppasswddstartserviceypservstart(需要先配置NIS域名才能啟動(dòng)成功)可以使用rpcinfo–u本機(jī)名ypserv察看ypserv是否啟動(dòng),若成功啟動(dòng)會(huì)看到:program100004version1readyandwaitingprogram100004version2readyandwaiting并行環(huán)境搭建-nis服務(wù)配置server端配置并行環(huán)境搭建-nis服務(wù)配置若沒(méi)看到,則把ypserv重新啟動(dòng)一下即可?;剀嚭髸?huì)顯示類似內(nèi)容:mu01hasbeensetupasaNISserver,nowyoucanrunypinit–smu01onallslaveserver.在server端重新建立新用戶后,需要到/var/yp目錄下make一下,這樣client端才能使用新用戶登錄3、數(shù)據(jù)初始化cd/usr/lib64/yp./ypinit–mctl+d來(lái)結(jié)束這個(gè)命令再打入回車并行環(huán)境搭建-nis服務(wù)配置若沒(méi)看到,則把ypserv重新啟并行環(huán)境搭建-nis服務(wù)配置client端配置1、設(shè)定NISclientsetup→authenticationconfiguration→[*]useNIS填寫:Domain:TS10K(NIS的域名)Server:mu01(server端的名稱或者ip)2、開(kāi)啟服務(wù)setup→systemservices→[*]ypbindserviceypbindrestart使用命令:ypcatpasswd可以發(fā)現(xiàn)在server端建立的帳戶名稱被列舉了出來(lái);若使用這些帳戶的話需要在本地/home目錄下建立其相對(duì)應(yīng)的用戶目錄。并行環(huán)境搭建-nis服務(wù)配置client端配置編譯環(huán)境集群中現(xiàn)存的編譯器gcciccifortmpiccmpiicc等調(diào)用集群內(nèi)部高速的IB計(jì)算網(wǎng)絡(luò),通常使用mpirun-genvI_MPI_DEVICErdssm–np–machinefile+執(zhí)行文件rdssm即是mpirun編譯器調(diào)用IB協(xié)議的參數(shù)。如果是ssm,則是使用以太網(wǎng)絡(luò)。編譯環(huán)境集群中現(xiàn)存的編譯器編譯軟件安裝intelC編譯器,fortran編譯器,mkl數(shù)學(xué)庫(kù)一體包。安裝intelmpi編譯器。安裝目錄:/opt/intel計(jì)算節(jié)點(diǎn)掛載管理節(jié)點(diǎn)的nfs共享安裝路徑調(diào)用編譯軟件等。編譯軟件安裝intelC編譯器,fortran編譯器,mk編譯軟件-Intel并行環(huán)境變量設(shè)置在~/.bashrc里加入如下三行source/opt/intel/composer_xe_2015.1.133/bin/compilervars.shintel64###intel編譯器source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh###intel數(shù)學(xué)庫(kù)source/opt/intel/impi/44/bin64/mpivars.sh###intelmpi執(zhí)行source~/.bashrc使編譯器環(huán)境變量生效??蓪⑺鼘戇M(jìn)/etc/bashrc里,新加用戶將其作為默認(rèn)編譯器編譯軟件-Intel并行環(huán)境變量設(shè)置在~/.bashrc里MPI程序的并行編譯編譯方法:mpicc-ohellohello.cmpiicc–ohellohello.c執(zhí)行方法:./hello注:1,mpicc是調(diào)用gcc為底層的編譯,mpiicc是調(diào)用icc為底層的編譯。

2,源代碼需支持并行編譯。MPI程序的并行編譯編譯方法:程序編譯步驟簡(jiǎn)介下載源碼包(不是版本越新越好)查看INSTALL文件或官方installation指導(dǎo)(查看依賴和參數(shù))configure--prefix=path/to/your/soft(可選)makemakeinstall依賴庫(kù)1.查看版本2.指定安裝路徑3.設(shè)置環(huán)境變量

寫到~/.bash_profile(普通用戶)exportPATH=$PATH:/path/to/your/binexportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib軟件編譯程序編譯步驟簡(jiǎn)介軟件編譯TSExa并行文件系統(tǒng)底層為lustre并行系統(tǒng),包含4臺(tái)2U機(jī)架式5270M4,其中兩臺(tái)io01,io02做為mds雙機(jī)互備節(jié)點(diǎn),另外兩臺(tái)io節(jié)點(diǎn)作為oss節(jié)點(diǎn),各自掛載一部分存儲(chǔ)空間分別為ost0,ost1,且為雙機(jī)互備。Mdt包含兩塊硬盤做raid1;ost包含7塊硬盤做raid5,剩下一塊全局熱備盤,共計(jì)17塊硬盤。每個(gè)ost約22T空間,共約44T空間。TSExa并行文件系統(tǒng)底層為lustre并行系統(tǒng),包含4臺(tái)2TSExa并行文件系統(tǒng)Io01與io02存在心跳,io03與io04之間存在心跳,當(dāng)一節(jié)點(diǎn)宕機(jī)時(shí),另一互備節(jié)點(diǎn)會(huì)接替其掛載資源并提供服務(wù)。管理節(jié)點(diǎn)mu01,及31臺(tái)計(jì)算刀片為lustre的客戶端,掛載目錄為/lustre即為存儲(chǔ)空間,可用df–h查看。掛載指令mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustreTSExa并行文件系統(tǒng)Io01與io02存在心跳,io03與TSCE集群作業(yè)管理調(diào)度軟件TSCE集群作業(yè)管理調(diào)度軟件常用作業(yè)指令qnodes,pbsnodes用于查看當(dāng)前可用節(jié)點(diǎn)與核心數(shù)。TSCE集群作業(yè)管理調(diào)度軟件TSCE集群作業(yè)管理調(diào)度軟件常用TSCE集群作業(yè)管理調(diào)度軟件qnodes與pbsnodes等效,通常可以qnodes–lall查看節(jié)點(diǎn)是否就位TSCE集群作業(yè)管理調(diào)度軟件qnodes與pbsnodes等qsub作業(yè)提交,用法:qsubtest.pbsqstat查看作業(yè)狀態(tài)。qstat–an查看作業(yè)使用節(jié)點(diǎn)及核心情況TSCE集群作業(yè)管理調(diào)度軟件qsub作業(yè)提交,用法:qsubtest.pbsTSCE集qdel刪除作業(yè),用法:qdel作業(yè)號(hào)幾種作業(yè)的狀態(tài)(S):Q作業(yè)排隊(duì)R作業(yè)執(zhí)行C作業(yè)清除E作業(yè)退出TSCE集群作業(yè)管理調(diào)度軟件qdel刪除作業(yè),用法:qdel作業(yè)號(hào)TSCE集群作業(yè)管理PBS相關(guān)指令管理節(jié)點(diǎn)服務(wù):pbs_server,作業(yè)管理服務(wù)maui,作業(yè)調(diào)度器計(jì)算節(jié)點(diǎn)服務(wù):pbs_mom,作業(yè)調(diào)度子服務(wù),與pbs_server相對(duì)應(yīng)servicepbs_serverstatus查看服務(wù)狀態(tài)。每次重啟pbs_server服務(wù)時(shí),需對(duì)應(yīng)重啟pbs_mom服務(wù),最終保證qnodes下沒(méi)有down的節(jié)點(diǎn)。PBS相關(guān)指令管理節(jié)點(diǎn)服務(wù):所裝軟件版本intelparallel2015.1.133/opt/intel intel編譯器Intelmpi44

/opt/intel/impi/ intel并行mpiTSCE3.3

/opt/tsce浪潮作業(yè)調(diào)度軟件,集成torqueansys14.0 /opt/soft/ansys

應(yīng)用軟件pdsh2.29 /opt/pdsh-2.2.29并行批處理軟件mpich3.0.4/opt/soft/mpich3.0.4編譯器所有節(jié)點(diǎn)操作系統(tǒng)RHEL6.5所裝軟件版本intelparallel2015.1.Vasp腳本#PBS-Nvasptest#PBS-lnodes=3:ppn=12#PBS-lwalltime=12:00:00#PBS-qbatch#PBS-V#PBS-S/bin/bashcd$PBS_O_WORKDIREXEC=/opt/software/vasp5.3.5/vasp(具體目錄視情況而定)Vasp腳本#PBS-NvasptestNP=`cat$PBS_NODEFILE|wc-l`NN=`cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$$|wc-l`cat$PBS_NODEFILE>/tmp/nodefile.$$mpirun-genvI_MPI_DEVICErdssm-machinefile/tmp/nodefile.$$-n$NP$EXECrm-f/tmp/nodefile.$$NP=`cat$PBS_NODEFILE|wc-l`TSCE網(wǎng)頁(yè)管理界面遠(yuǎn)端輸入登陸ip:8080/TSCE可調(diào)出TSCE的網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)管理界面遠(yuǎn)端輸入登陸ip:8080/TSCE可調(diào)TSCE網(wǎng)頁(yè)管理界面主界面TSCE網(wǎng)頁(yè)管理界面主界面TSCE網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)最主要的功能——集群監(jiān)控TSCE網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)最主要的功能——集群監(jiān)控1/6/2023Inspurgroup第三章集群維護(hù)管理312/25/2022Inspurgroup第三章集群維護(hù)集群批處理軟件使用pdsh是集群常用并行批處理軟件[root@mu01test]#pdsh–wcu[01-31]uptimeallc串行處理集群批處理軟件使用pdsh是集群常用并行批處理軟件機(jī)器開(kāi)機(jī)說(shuō)明1將所有PDU加電,等待1分鐘,待設(shè)備完成加電自檢。2開(kāi)啟存儲(chǔ)陣列,需要先開(kāi)擴(kuò)展柜,再開(kāi)主柜,直接打開(kāi)電源即可。(若如掉電,存儲(chǔ)盡量保持開(kāi)機(jī)狀態(tài))3開(kāi)啟管理節(jié)點(diǎn)mu01,約兩分鐘進(jìn)入系統(tǒng)。4開(kāi)啟TSExa系統(tǒng)元數(shù)據(jù)節(jié)點(diǎn),即io01與io02,約兩分鐘進(jìn)入系統(tǒng),進(jìn)系統(tǒng)后,執(zhí)行crm_mon檢查互備是否正常,如果不正常需要重啟pacemaker和corosync服務(wù)。5開(kāi)啟oss節(jié)點(diǎn),打開(kāi)io03與io04,約兩分鐘進(jìn)入系統(tǒng),判斷互備是否正常。6待io節(jié)點(diǎn)都開(kāi)機(jī)后正常后,依次打開(kāi)31個(gè)刀片計(jì)算節(jié)點(diǎn)。7mu01掛載并行文件系統(tǒng)。常規(guī)檢查:[root@mu01~]#mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustre[root@mu01~]#allcuptime[root@mu01~]#

allc“df–h|grep/opt”[root@mu01~]#allc“df–h|grep/home”[root@mu01~]#allc“ypcatpasswd”[root@mu01~]#qnodes-lall機(jī)器開(kāi)機(jī)說(shuō)明1將所有PDU加電,等待1分鐘,待設(shè)備完成加電機(jī)器關(guān)機(jī)說(shuō)明1先關(guān)閉cu計(jì)算節(jié)點(diǎn)可以在mu01上用allcpoweroff命令把31個(gè)計(jì)算節(jié)點(diǎn)關(guān)閉2再關(guān)閉管理節(jié)點(diǎn)mu01,直接在mu01上運(yùn)行poweroff。3如果必要,關(guān)閉并行文件系統(tǒng),io01~io04依次關(guān)閉(因?yàn)橐呀?jīng)關(guān)閉管理節(jié)點(diǎn),只能現(xiàn)場(chǎng)關(guān)閉)4最后關(guān)閉存儲(chǔ)510H及擴(kuò)展柜,只能現(xiàn)場(chǎng)關(guān)閉。注:1,如果不能現(xiàn)場(chǎng)關(guān)閉存儲(chǔ)io節(jié)點(diǎn),可以在管理節(jié)點(diǎn)上先行卸載lustre掛載,然后關(guān)閉io節(jié)點(diǎn),再關(guān)閉自身,但存儲(chǔ)陣列510H不能命令行關(guān)閉。

2,如果關(guān)機(jī)出現(xiàn)不能正常關(guān)機(jī)卡在某一步,需手動(dòng)強(qiáng)制關(guān)機(jī),及長(zhǎng)按關(guān)機(jī)鍵數(shù)秒。機(jī)器關(guān)機(jī)說(shuō)明1先關(guān)閉cu計(jì)算節(jié)點(diǎn)節(jié)點(diǎn)IPMI管理界面此界面是集成在主板的硬件管理界面。管理界面節(jié)點(diǎn)需管理節(jié)點(diǎn)firefox,輸入ip。管理節(jié)點(diǎn)和io節(jié)點(diǎn)用戶名及密碼見(jiàn)銘牌刀片的管理用戶名與密碼:rootLC6s5d?FW?節(jié)點(diǎn)IPMI管理界面此界面是集成在主板的硬件管理界面。存儲(chǔ)掛載情況查看用戶存儲(chǔ)空間df-h整個(gè)集群上存儲(chǔ)掛載情況為計(jì)算節(jié)點(diǎn)

[root@cu01~]#df–h除本地文件系統(tǒng)外,還包括nfs的mu01節(jié)點(diǎn)/opt與io01的/home管理節(jié)點(diǎn)(mount)[root@mu01opt]#df-h存儲(chǔ)掛載情況查看用戶存儲(chǔ)空間df-h新建一個(gè)用戶并提交作業(yè)流程解析step1在集群中添加新用戶,首先在管理節(jié)點(diǎn)mu01上添加新用戶添加用戶命令:[root@mu01~]#/opt/ssh/adduser新建用戶的設(shè)置初始密碼,用戶在拿到帳號(hào)后,第一時(shí)間,使用該賬號(hào)登錄到mu01,然后ssh到cu01輸入yppasswd來(lái)更改密碼。新建地用戶已配置好基本的并行環(huán)境。Intel

編譯器環(huán)境變量寫到/etc/bashrc里,這樣,每個(gè)存在用戶均調(diào)用該環(huán)境變量。新建一個(gè)用戶并提交作業(yè)流程解析step1新建一個(gè)用戶并提交作業(yè)流程解析step2測(cè)試用戶新用戶添加后,嘗試使用新用戶test登錄[root@mu01~]#su-test[test@mu01~]#sshcu01su-test(切換到test用戶)執(zhí)行allcuptime新建一個(gè)用戶并提交作業(yè)流程解析step2Step3提交作業(yè)打開(kāi)ssh工具新建一個(gè)用戶并提交作業(yè)流程解析Step3新建一個(gè)用戶并提交作業(yè)流程解析新建一個(gè)用戶并提交作業(yè)流程解析step4打開(kāi)sftp工具上傳需要計(jì)算的文件到自身home下執(zhí)行程序也要放到home下注意環(huán)境變量設(shè)置以上存放目錄的要求是為讓計(jì)算節(jié)點(diǎn)都能找到對(duì)應(yīng)的文件。新建一個(gè)用戶并提交作業(yè)流程解析step4開(kāi)關(guān)機(jī)按鈕管理節(jié)點(diǎn):

開(kāi)關(guān)機(jī)按鈕管理節(jié)點(diǎn):機(jī)器硬件識(shí)別常用命令1、CPU的識(shí)別:[test@mu01/]$cat/proc/cpuinfo2、內(nèi)存的識(shí)別:[test@cu01root]$free-g3、硬盤的識(shí)別:

[root@mu01/]#fdisk–l或者[root@mu01/]#df–h4、基于千兆以太網(wǎng)的查看[root@mu01/]#ethtooleth1機(jī)器硬件識(shí)別常用命令1、CPU的識(shí)別:[test@mu01集群常見(jiàn)故障的解決PBSnode狀態(tài)方面cu01offline此故障首先在mu01下用root用戶執(zhí)行pbsnodes–ccu01,執(zhí)行完畢后查看狀態(tài)時(shí)否為freecu02down此故障較多為硬件故障引起,請(qǐng)?jiān)趍u01下ping這臺(tái)機(jī)器看是否通,如不通,請(qǐng)重啟此臺(tái)機(jī)器,如果無(wú)法啟動(dòng)此機(jī)器,請(qǐng)報(bào)修集群常見(jiàn)故障的解決PBSnode狀態(tài)方面集群常見(jiàn)故障的解決文件系統(tǒng)以及NFS方面

查看是否正常掛載mu01的/opt和io01的/public到/homenis用戶同步

allc“ypcatpasswd”集群常見(jiàn)故障的解決文件系統(tǒng)以及NFS方面集群常見(jiàn)硬件故障網(wǎng)絡(luò)不通,拔插網(wǎng)線,看網(wǎng)線燈是否亮,如無(wú)效,更換線纜測(cè)試紅燈常亮,即為損壞(硬盤,電源模塊,狀態(tài)燈等)。集群常見(jiàn)硬件故障網(wǎng)絡(luò)不通,拔插網(wǎng)線,看網(wǎng)線燈是否亮,如無(wú)效,報(bào)修方式客服硬件報(bào)修電話:4008600011/8008600011客服硬件報(bào)修郵箱:lckf@Email:lijun_bj@電話:+8618600945654報(bào)修方式客服硬件報(bào)修電話:4008600011/80082023/1/6Inspurgroup謝謝大家!2022/12/25Inspurgroup謝謝大家!演講完畢,謝謝觀看!演講完畢,謝謝觀看!浪潮天梭TS10K集群培訓(xùn)浪潮天梭TS10K集群培訓(xùn)1/6/2023Inspurgroup第一章集群介紹112/25/2022Inspurgroup第一章集群介紹一、什么是集群?“聯(lián)結(jié)起來(lái)的計(jì)算機(jī)的集合,整個(gè)系統(tǒng)使用起來(lái)像一個(gè)單一的一體的計(jì)算資源”

-GregPfister,InSearchofclusters一、什么是集群?“聯(lián)結(jié)起來(lái)的計(jì)算機(jī)的集合,整個(gè)系統(tǒng)使用起來(lái)像二、為什么用集群?通俗的說(shuō),就是單一計(jì)算節(jié)點(diǎn)的資源已經(jīng)無(wú)法滿足我們的計(jì)算需求,比如內(nèi)存的容量,cpu的計(jì)算能力。也許一個(gè)算例我們要計(jì)算數(shù)周甚至數(shù)月,這時(shí)候我們就需要用到集群來(lái)處理這些計(jì)算問(wèn)題。二、為什么用集群?通俗的說(shuō),就是單一計(jì)算節(jié)點(diǎn)的資源已經(jīng)無(wú)法滿三、集群有哪些部分組成?

計(jì)算節(jié)點(diǎn):承載集群的計(jì)算任務(wù)

管理節(jié)點(diǎn):用戶登錄、管理調(diào)度整個(gè)集群、任務(wù)提交等,提供對(duì)整個(gè)系統(tǒng)的監(jiān)控管理

存儲(chǔ)節(jié)點(diǎn):存儲(chǔ)大量的計(jì)算數(shù)據(jù),高可用,高安全

三、集群有哪些部分組成?計(jì)算節(jié)點(diǎn):承載集群的計(jì)算任務(wù)硬件架構(gòu)硬件架構(gòu)網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)規(guī)劃管理ip:00管理節(jié)點(diǎn)~31計(jì)算節(jié)點(diǎn)2~35io節(jié)點(diǎn)計(jì)算ip:10.10.10段,尾數(shù)同上IPMI網(wǎng)絡(luò):00管理節(jié)點(diǎn)

01~104io節(jié)點(diǎn)

00第一個(gè)刀箱,對(duì)應(yīng)101~120,cu01~cu20

00第二個(gè)刀箱,對(duì)應(yīng)101~121,cu21~cu31網(wǎng)絡(luò)規(guī)劃管理ip:00管理節(jié)點(diǎn)1/6/2023Inspurgroup第二章集群使用212/25/2022Inspurgroup第二章集群使用需要的條件:1、客戶端與集群連通2、客戶端如果為linux可以直接ssh登錄到管理節(jié)點(diǎn);如果為windows系統(tǒng),需要安裝相應(yīng)軟件3、一個(gè)合法賬號(hào)!4、相應(yīng)操作知識(shí)積累需要的條件:并行環(huán)境搭建Linux集群并行環(huán)境主要配置以下4個(gè)服務(wù)1、rsh服務(wù)通訊服務(wù)2、ssh服務(wù)

通訊服務(wù)3、nfs服務(wù)目錄共享4、nis服務(wù)用戶同步并行環(huán)境搭建Linux集群并行環(huán)境主要配置以下4個(gè)服務(wù)并行環(huán)境搭建-rsh服務(wù)配置rsh服務(wù)配置開(kāi)啟root用戶對(duì)所有節(jié)點(diǎn)的rsh權(quán)限1、編輯/etc/hosts節(jié)點(diǎn)名稱解析,加入所有(包括本機(jī))節(jié)點(diǎn)的ip地址和對(duì)應(yīng)的計(jì)算機(jī)名;此文件在一臺(tái)機(jī)器上編輯完畢可以拷貝到別的節(jié)點(diǎn)上使用;注意這一行不要?jiǎng)?,否則會(huì)影響到服務(wù)器的正常使用。例如:00mu01cu010cu10并行環(huán)境搭建-rsh服務(wù)配置rsh服務(wù)配置并行環(huán)境搭建-rsh服務(wù)配置2、編輯/root/.rhosts和/etc/hosts.equiv,加入所有節(jié)點(diǎn)的計(jì)算機(jī)名例如:mu01cu01cu103、開(kāi)啟rsh服務(wù):setup→systemservices→[*]rsh[*]rlogin[*]rexec并行環(huán)境搭建-rsh服務(wù)配置2、編輯/root/.rhost并行環(huán)境搭建-rsh服務(wù)配置4、編輯/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以)5、重起服務(wù)servicexinetdrestart

rsh的配置需要在所有節(jié)點(diǎn)上進(jìn)行。并行環(huán)境搭建-rsh服務(wù)配置4、編輯/etc/securet并行環(huán)境搭建-ssh服務(wù)配置1、在mu01上以root登錄,然后運(yùn)行ssh-keygen–tdsa,目的是簡(jiǎn)單的在/root下創(chuàng)建目錄.ssh,當(dāng)提示輸入passphase時(shí)打入兩次回車。這將生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub2、在cu01上以root登錄,運(yùn)行ssh-keygen–tdsa,然后在mu01上運(yùn)行scp/root/.ssh/id_dsa.pubgpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目錄下運(yùn)行catid_dsa.pub〉〉authorized_keys,再運(yùn)行scpauthorized_keysgpu02:/root/.ssh/并行環(huán)境搭建-ssh服務(wù)配置1、在mu01上以root登錄,并行環(huán)境搭建-ssh服務(wù)配置3、在cu02的/root/.ssh/目錄下運(yùn)行catid_dsa.pub〉〉authorized_keys,再運(yùn)行scpauthorized_keyscu03:/root/.ssh/4、重復(fù)以上步驟在后面結(jié)點(diǎn)上,在最后的計(jì)算節(jié)點(diǎn)上將生成一個(gè)完整的authorized_keys文件,然后把a(bǔ)uthorized_keys文件用scp命令拷貝到其余所有節(jié)點(diǎn)的/root/.ssh/目錄下,ssh配置完成。并行環(huán)境搭建-ssh服務(wù)配置3、在cu02的/root/.s并行環(huán)境搭建-nfs服務(wù)配置server端配置1、建立文件/etc/exports(若已存在該文件,則先刪除再重新建立)2、vi/etc/exports/,在文件內(nèi)添加上語(yǔ)句:/home*(rw,no_root_squash,sync)/opt*(rw,no_root_squash,sync)(目錄為需要共享的目錄,目錄和星號(hào)之間有空格。)3、激活nfschkconfignfson

servicenfsrestart

此時(shí)可以到client上用showmount–eIP(或者server的主機(jī)名)來(lái)掃描server端共享的目錄。若exports文件重新編輯了,可以運(yùn)行exportfs–rv來(lái)更新一下,這樣client端就可以掛載修改后的目錄了。并行環(huán)境搭建-nfs服務(wù)配置server端配置并行環(huán)境搭建-nfs服務(wù)配置client端配置1、掃描可以使用的server目錄:showmount–emu012、使用mount將遠(yuǎn)程主機(jī)分享的目錄掛載進(jìn)來(lái):mount–tnfsvers=3mu01:/opt/opt

此時(shí)可以通過(guò)df命令看掛載是否正常;

為了實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)掛載還可將mount–tnfsvers=3mu01:/opt/opt寫入到/etc/rc.local中以使節(jié)點(diǎn)啟動(dòng)后自動(dòng)掛載目錄。并行環(huán)境搭建-nfs服務(wù)配置client端配置并行環(huán)境搭建-nis服務(wù)配置server端配置1、配置NIS域名nisdomainnameTS10K

把NISDOMAIN=TS10K添加到network里實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)配置域名2、開(kāi)啟兩個(gè)服務(wù):serviceyppasswddstartserviceypservstart(需要先配置NIS域名才能啟動(dòng)成功)可以使用rpcinfo–u本機(jī)名ypserv察看ypserv是否啟動(dòng),若成功啟動(dòng)會(huì)看到:program100004version1readyandwaitingprogram100004version2readyandwaiting并行環(huán)境搭建-nis服務(wù)配置server端配置并行環(huán)境搭建-nis服務(wù)配置若沒(méi)看到,則把ypserv重新啟動(dòng)一下即可?;剀嚭髸?huì)顯示類似內(nèi)容:mu01hasbeensetupasaNISserver,nowyoucanrunypinit–smu01onallslaveserver.在server端重新建立新用戶后,需要到/var/yp目錄下make一下,這樣client端才能使用新用戶登錄3、數(shù)據(jù)初始化cd/usr/lib64/yp./ypinit–mctl+d來(lái)結(jié)束這個(gè)命令再打入回車并行環(huán)境搭建-nis服務(wù)配置若沒(méi)看到,則把ypserv重新啟并行環(huán)境搭建-nis服務(wù)配置client端配置1、設(shè)定NISclientsetup→authenticationconfiguration→[*]useNIS填寫:Domain:TS10K(NIS的域名)Server:mu01(server端的名稱或者ip)2、開(kāi)啟服務(wù)setup→systemservices→[*]ypbindserviceypbindrestart使用命令:ypcatpasswd可以發(fā)現(xiàn)在server端建立的帳戶名稱被列舉了出來(lái);若使用這些帳戶的話需要在本地/home目錄下建立其相對(duì)應(yīng)的用戶目錄。并行環(huán)境搭建-nis服務(wù)配置client端配置編譯環(huán)境集群中現(xiàn)存的編譯器gcciccifortmpiccmpiicc等調(diào)用集群內(nèi)部高速的IB計(jì)算網(wǎng)絡(luò),通常使用mpirun-genvI_MPI_DEVICErdssm–np–machinefile+執(zhí)行文件rdssm即是mpirun編譯器調(diào)用IB協(xié)議的參數(shù)。如果是ssm,則是使用以太網(wǎng)絡(luò)。編譯環(huán)境集群中現(xiàn)存的編譯器編譯軟件安裝intelC編譯器,fortran編譯器,mkl數(shù)學(xué)庫(kù)一體包。安裝intelmpi編譯器。安裝目錄:/opt/intel計(jì)算節(jié)點(diǎn)掛載管理節(jié)點(diǎn)的nfs共享安裝路徑調(diào)用編譯軟件等。編譯軟件安裝intelC編譯器,fortran編譯器,mk編譯軟件-Intel并行環(huán)境變量設(shè)置在~/.bashrc里加入如下三行source/opt/intel/composer_xe_2015.1.133/bin/compilervars.shintel64###intel編譯器source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh###intel數(shù)學(xué)庫(kù)source/opt/intel/impi/44/bin64/mpivars.sh###intelmpi執(zhí)行source~/.bashrc使編譯器環(huán)境變量生效??蓪⑺鼘戇M(jìn)/etc/bashrc里,新加用戶將其作為默認(rèn)編譯器編譯軟件-Intel并行環(huán)境變量設(shè)置在~/.bashrc里MPI程序的并行編譯編譯方法:mpicc-ohellohello.cmpiicc–ohellohello.c執(zhí)行方法:./hello注:1,mpicc是調(diào)用gcc為底層的編譯,mpiicc是調(diào)用icc為底層的編譯。

2,源代碼需支持并行編譯。MPI程序的并行編譯編譯方法:程序編譯步驟簡(jiǎn)介下載源碼包(不是版本越新越好)查看INSTALL文件或官方installation指導(dǎo)(查看依賴和參數(shù))configure--prefix=path/to/your/soft(可選)makemakeinstall依賴庫(kù)1.查看版本2.指定安裝路徑3.設(shè)置環(huán)境變量

寫到~/.bash_profile(普通用戶)exportPATH=$PATH:/path/to/your/binexportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib軟件編譯程序編譯步驟簡(jiǎn)介軟件編譯TSExa并行文件系統(tǒng)底層為lustre并行系統(tǒng),包含4臺(tái)2U機(jī)架式5270M4,其中兩臺(tái)io01,io02做為mds雙機(jī)互備節(jié)點(diǎn),另外兩臺(tái)io節(jié)點(diǎn)作為oss節(jié)點(diǎn),各自掛載一部分存儲(chǔ)空間分別為ost0,ost1,且為雙機(jī)互備。Mdt包含兩塊硬盤做raid1;ost包含7塊硬盤做raid5,剩下一塊全局熱備盤,共計(jì)17塊硬盤。每個(gè)ost約22T空間,共約44T空間。TSExa并行文件系統(tǒng)底層為lustre并行系統(tǒng),包含4臺(tái)2TSExa并行文件系統(tǒng)Io01與io02存在心跳,io03與io04之間存在心跳,當(dāng)一節(jié)點(diǎn)宕機(jī)時(shí),另一互備節(jié)點(diǎn)會(huì)接替其掛載資源并提供服務(wù)。管理節(jié)點(diǎn)mu01,及31臺(tái)計(jì)算刀片為lustre的客戶端,掛載目錄為/lustre即為存儲(chǔ)空間,可用df–h查看。掛載指令mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustreTSExa并行文件系統(tǒng)Io01與io02存在心跳,io03與TSCE集群作業(yè)管理調(diào)度軟件TSCE集群作業(yè)管理調(diào)度軟件常用作業(yè)指令qnodes,pbsnodes用于查看當(dāng)前可用節(jié)點(diǎn)與核心數(shù)。TSCE集群作業(yè)管理調(diào)度軟件TSCE集群作業(yè)管理調(diào)度軟件常用TSCE集群作業(yè)管理調(diào)度軟件qnodes與pbsnodes等效,通??梢詑nodes–lall查看節(jié)點(diǎn)是否就位TSCE集群作業(yè)管理調(diào)度軟件qnodes與pbsnodes等qsub作業(yè)提交,用法:qsubtest.pbsqstat查看作業(yè)狀態(tài)。qstat–an查看作業(yè)使用節(jié)點(diǎn)及核心情況TSCE集群作業(yè)管理調(diào)度軟件qsub作業(yè)提交,用法:qsubtest.pbsTSCE集qdel刪除作業(yè),用法:qdel作業(yè)號(hào)幾種作業(yè)的狀態(tài)(S):Q作業(yè)排隊(duì)R作業(yè)執(zhí)行C作業(yè)清除E作業(yè)退出TSCE集群作業(yè)管理調(diào)度軟件qdel刪除作業(yè),用法:qdel作業(yè)號(hào)TSCE集群作業(yè)管理PBS相關(guān)指令管理節(jié)點(diǎn)服務(wù):pbs_server,作業(yè)管理服務(wù)maui,作業(yè)調(diào)度器計(jì)算節(jié)點(diǎn)服務(wù):pbs_mom,作業(yè)調(diào)度子服務(wù),與pbs_server相對(duì)應(yīng)servicepbs_serverstatus查看服務(wù)狀態(tài)。每次重啟pbs_server服務(wù)時(shí),需對(duì)應(yīng)重啟pbs_mom服務(wù),最終保證qnodes下沒(méi)有down的節(jié)點(diǎn)。PBS相關(guān)指令管理節(jié)點(diǎn)服務(wù):所裝軟件版本intelparallel2015.1.133/opt/intel intel編譯器Intelmpi44

/opt/intel/impi/ intel并行mpiTSCE3.3

/opt/tsce浪潮作業(yè)調(diào)度軟件,集成torqueansys14.0 /opt/soft/ansys

應(yīng)用軟件pdsh2.29 /opt/pdsh-2.2.29并行批處理軟件mpich3.0.4/opt/soft/mpich3.0.4編譯器所有節(jié)點(diǎn)操作系統(tǒng)RHEL6.5所裝軟件版本intelparallel2015.1.Vasp腳本#PBS-Nvasptest#PBS-lnodes=3:ppn=12#PBS-lwalltime=12:00:00#PBS-qbatch#PBS-V#PBS-S/bin/bashcd$PBS_O_WORKDIREXEC=/opt/software/vasp5.3.5/vasp(具體目錄視情況而定)Vasp腳本#PBS-NvasptestNP=`cat$PBS_NODEFILE|wc-l`NN=`cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$$|wc-l`cat$PBS_NODEFILE>/tmp/nodefile.$$mpirun-genvI_MPI_DEVICErdssm-machinefile/tmp/nodefile.$$-n$NP$EXECrm-f/tmp/nodefile.$$NP=`cat$PBS_NODEFILE|wc-l`TSCE網(wǎng)頁(yè)管理界面遠(yuǎn)端輸入登陸ip:8080/TSCE可調(diào)出TSCE的網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)管理界面遠(yuǎn)端輸入登陸ip:8080/TSCE可調(diào)TSCE網(wǎng)頁(yè)管理界面主界面TSCE網(wǎng)頁(yè)管理界面主界面TSCE網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)最主要的功能——集群監(jiān)控TSCE網(wǎng)頁(yè)管理界面TSCE網(wǎng)頁(yè)最主要的功能——集群監(jiān)控1/6/2023Inspurgroup第三章集群維護(hù)管理312/25/2022Inspurgroup第三章集群維護(hù)集群批處理軟件使用pdsh是集群常用并行批處理軟件[root@mu01test]#pdsh–wcu[01-31]uptimeallc串行處理集群批處理軟件使用pdsh是集群常用并行批處理軟件機(jī)器開(kāi)機(jī)說(shuō)明1將所有PDU加電,等待1分鐘,待設(shè)備完成加電自檢。2開(kāi)啟存儲(chǔ)陣列,需要先開(kāi)擴(kuò)展柜,再開(kāi)主柜,直接打開(kāi)電源即可。(若如掉電,存儲(chǔ)盡量保持開(kāi)機(jī)狀態(tài))3開(kāi)啟管理節(jié)點(diǎn)mu01,約兩分鐘進(jìn)入系統(tǒng)。4開(kāi)啟TSExa系統(tǒng)元數(shù)據(jù)節(jié)點(diǎn),即io01與io02,約兩分鐘進(jìn)入系統(tǒng),進(jìn)系統(tǒng)后,執(zhí)行crm_mon檢查互備是否正常,如果不正常需要重啟pacemaker和corosync服務(wù)。5開(kāi)啟oss節(jié)點(diǎn),打開(kāi)io03與io04,約兩分鐘進(jìn)入系統(tǒng),判斷互備是否正常。6待io節(jié)點(diǎn)都開(kāi)機(jī)后正常后,依次打開(kāi)31個(gè)刀片計(jì)算節(jié)點(diǎn)。7mu01掛載并行文件系統(tǒng)。常規(guī)檢查:[root@mu01~]#mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustre[root@mu01~]#allcuptime[root@mu01~]#

allc“df–h|grep/opt”[root@mu01~]#allc“df–h|grep/home”[root@mu01~]#allc“ypcatpasswd”[root@mu01~]#qnodes-lall機(jī)器開(kāi)機(jī)說(shuō)明1將所有PDU加電,等待1分鐘,待設(shè)備完成加電機(jī)器關(guān)機(jī)說(shuō)明1先關(guān)閉cu計(jì)算節(jié)點(diǎn)可以在mu01上用allcpoweroff命令把31個(gè)計(jì)算節(jié)點(diǎn)關(guān)閉2再關(guān)閉管理節(jié)點(diǎn)mu01,直接在mu01上運(yùn)行poweroff。3如果必要,關(guān)閉并行文件系統(tǒng),io01~io04依次關(guān)閉(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論