版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1
提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A2提綱作業(yè)調(diào)度系統(tǒng)概述21.1集群使用中存在的問(wèn)題節(jié)點(diǎn)多用戶多任務(wù)多31.1集群使用中存在的問(wèn)題節(jié)點(diǎn)多用戶多任務(wù)多3系統(tǒng)資源整合異構(gòu)資源,軟硬件資源的整合任務(wù)綜合管理用戶提交的任務(wù)的統(tǒng)一安排用戶權(quán)限的管理對(duì)用戶進(jìn)行各類權(quán)限控制1.2作業(yè)調(diào)度系統(tǒng)的功能41.2作業(yè)調(diào)度系統(tǒng)的功能4資源管理器: 管理集群的軟硬件資源及認(rèn)證信息等隊(duì)列管理器: 管理當(dāng)前所有已提交但還未完成的作業(yè)調(diào)度器: 為作業(yè)分配資源1.3作業(yè)調(diào)度系統(tǒng)的組成5資源管理器:1.3作業(yè)調(diào)度系統(tǒng)的組成5作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成6作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成61.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史71.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史7
提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A8提綱作業(yè)調(diào)度系統(tǒng)概述8
PBS(PortableBatchSystem),最初由NASA的Ames研究中心開發(fā),設(shè)計(jì)為一個(gè)能滿足異構(gòu)計(jì)算網(wǎng)絡(luò)需要的軟件包。它力求提供對(duì)批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機(jī)間的路由。
PBS的開源版本為OpenPBS,目前已經(jīng)停止開發(fā)。PBS的商業(yè)版為PBSPro,由Altair公司開發(fā)和維護(hù)。TORQUE(Tera-scaleOpen-sourceResourceandQueuemanager)為OpenPBS的后續(xù)開源版本,修正了OpenPBS的很多bug,功能和可擴(kuò)展性都有很大提高。2.1PBS作業(yè)調(diào)度系統(tǒng)9PBS(PortableBatchSystem服務(wù)器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom2.2PBS的組成10服務(wù)器:pbs_server2.2PBS的組成10解壓源文件包
tarzxvftorque-2.5.12.tar.gz編譯設(shè)置
cdtorque-2.5.12./configure--prefix=/usr/local\
--with-server-home=/var/spool/torque\
--enable-syslog\
--with-scp\
--enable-docs
默認(rèn)情況下,TORQUE將可執(zhí)行文件安裝在/usr/local/bin和/usr/local/sbin下。其余的配置文件和運(yùn)行時(shí)環(huán)境將安裝在/var/spool/torque下編譯和安裝
make makeinstall2.3
PBS的安裝(TorqueServer端)11解壓源文件包2.3PBS的安裝(TorqueServe節(jié)點(diǎn)操作系統(tǒng)相同,可以用如下SHELL腳本在計(jì)算節(jié)點(diǎn)(torque客戶端)上安裝#在管理節(jié)點(diǎn)上makepackages#!/bin/bashforiin`seq120`;doecho=====node$i=====
ssh
node$i/public/sourcecode/torque-2.5.12/\torque-package-mom-linux-*.sh--installDone2.3PBS的安裝(TorqueClient端)12節(jié)點(diǎn)操作系統(tǒng)相同,可以用如下SHELL腳本在計(jì)算節(jié)點(diǎn)(tor以root作為torque的管理員賬號(hào)創(chuàng)建作業(yè)隊(duì)列 在torque的安裝源文件根目錄中,執(zhí)行
./torque.setuprootServer配置目錄/var/spool/torque/server_priv/計(jì)算節(jié)點(diǎn)列表及屬性:/var/spool/torque/server_priv/nodes node2np=12amdchem node3np=12amdchem node4np=8intelchem node5np=8intelchem node6np=4intelbiogpu node7np=4intelbiogpu2.3PBS
Server配置13以root作為torque的管理員賬號(hào)創(chuàng)建作業(yè)隊(duì)列2.3PServer的系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_serverScheduler系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_schedMom系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_momTorque服務(wù)端chkconfigpbs_serveronchkconfigpbs_schedonservicepbs_serverstartservicepbs_schedstartTorque客戶端chkconfigpbs_momonservicepbs_momstart2.3
PBS系統(tǒng)服務(wù)14Server的系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_2.4
PBS主要操作隊(duì)列設(shè)置節(jié)點(diǎn)查看提交作業(yè)查看作業(yè)作業(yè)其他操作152.4PBS主要操作隊(duì)列設(shè)置節(jié)點(diǎn)查看提交作業(yè)查看作業(yè)作業(yè)其PBS要能正常運(yùn)行還需要通過(guò)qmgr命令在server進(jìn)行配置,設(shè)置一些屬性。輸入qmgr命令進(jìn)入配置交互命令,格式為
qmgr動(dòng)作對(duì)象類型和操作符
動(dòng)作對(duì)象類型對(duì)象名屬性操作符值(,屬性操作符值)……create創(chuàng)建一個(gè)對(duì)象delete刪除一個(gè)對(duì)象set設(shè)置對(duì)象的屬性u(píng)nset除去對(duì)象的屬性print打印對(duì)象的屬性list列出對(duì)象的屬性server服務(wù)器=queue隊(duì)列+=node節(jié)點(diǎn)-=2.4.1PBS的隊(duì)列設(shè)置16PBS要能正常運(yùn)行還需要通過(guò)qmgr命令在server進(jìn)行配創(chuàng)建隊(duì)列createqueue隊(duì)列名queue_type=execution打開和啟動(dòng)隊(duì)列setqueue隊(duì)列名enable=t,started=t打開調(diào)度setserverscheduling=t設(shè)置默認(rèn)隊(duì)列setserverdefault_queue=隊(duì)列名2.4.1PBS的隊(duì)列設(shè)置下面是讓PBS可以正常運(yùn)行的基本設(shè)置17創(chuàng)建隊(duì)列createqueue隊(duì)列名queue_typ導(dǎo)入server配置文件
qmgr<queue.conf備份配置文件
qmgr-c“printserver”>queue.conf配置文件例子
createqueuedefaultsetqueuedefaultqueue_type=executionsetqueuedefaultmax_running=10setqueuedefaultenabled=Truesetqueuedefaultstarted=Truesetserverscheduling=Truesetserverdefault_queue=defaultsetserverquery_other_jobs=True2.4.1PBS的隊(duì)列設(shè)置18導(dǎo)入server配置文件createqueuede資源和用戶限制
resources_default.cput該隊(duì)列默認(rèn)的作業(yè)的CPU時(shí)間,格式:時(shí):分:秒注意:該CPU時(shí)間為:進(jìn)程數(shù)*(結(jié)束時(shí)間-開始時(shí)間)resources_default.walltime該隊(duì)列默認(rèn)的墻上時(shí)間,格式:時(shí):分:秒max_running某隊(duì)列最多可運(yùn)行的作業(yè)數(shù),如果該項(xiàng)為0或沒(méi)有該項(xiàng),表示沒(méi)有限制max_user_run一個(gè)用戶最多可以運(yùn)行的作業(yè)數(shù)acl_user_enable是否啟用用戶訪問(wèn)控制,如果acl_user_enable=True,則在acl_users中列出的用戶才能使用該隊(duì)列acl_users格式:<用戶名@主機(jī)名>,用戶名不接受通配符acl_host_enable如果acl_host_enable=True,則acl_hosts屬性中列出的主機(jī)才能使用該隊(duì)列acl_hosts該隊(duì)列可以使用的節(jié)點(diǎn)列表2.4.1PBS的隊(duì)列設(shè)置19資源和用戶限制 resources_default.cput[dawning@node1~]$pbsnodes-anode2
state=free
np=12
ntype=clusterstatus=rectime=1347344839,varattr=,jobs=,state=free,netload=1994804223313,gres=,loadave=0.15,ncpus=32,physmem=132133404kb,availmem=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linuxnode22.6.32-220.el6.x86_64#1SMPWedNov908:03:13EST2011x86_64,opsys=linux
gpus=0node3state=down
np=12
ntype=cluster…2.4.2PBS查看節(jié)點(diǎn)狀態(tài)20[dawning@node1~]$pbsnodes-apbsnodes命令的主要參數(shù)-a列出所有結(jié)點(diǎn)及其屬性,屬性包括“state”和“status”-o將指定結(jié)點(diǎn)的狀態(tài)標(biāo)記為“offline”。這將幫助管理員暫時(shí)停止某些結(jié)點(diǎn)的服務(wù)-l以行的方式列出被標(biāo)記的結(jié)點(diǎn)的狀態(tài),如-lfree,-loffline-c清除結(jié)點(diǎn)列表中的“offline”或“down”狀態(tài)設(shè)置,使結(jié)點(diǎn)可以被分配給作業(yè)-r清除指定結(jié)點(diǎn)的“offline”狀態(tài)2.4.2PBS查看節(jié)點(diǎn)狀態(tài)21pbsnodes命令的主要參數(shù)2.4.2PBS查看節(jié)點(diǎn)狀態(tài)步驟:準(zhǔn)備:編寫描述該作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器排隊(duì):服務(wù)器將該任務(wù)排入適當(dāng)?shù)年?duì)列調(diào)度:服務(wù)器檢查各工作節(jié)點(diǎn)的狀態(tài)是否符合該作業(yè)的要求,并進(jìn)行調(diào)度。執(zhí)行:當(dāng)條件滿足時(shí),作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運(yùn)行時(shí)執(zhí)行服務(wù)器會(huì)收集程序的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤流,等程序結(jié)束時(shí),將這些信息返回給用戶。查詢和調(diào)整:當(dāng)作業(yè)在運(yùn)行時(shí),用戶可以使用qstat進(jìn)行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯(cuò)誤時(shí),可以使用qdel刪除正在運(yùn)行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯(cuò)誤信息顯示。2.4.3PBS作業(yè)提交22步驟:2.4.3PBS作業(yè)提交22在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序。用戶運(yùn)行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,如下qsub<PBS作業(yè)腳本>2.4.3PBS作業(yè)提交基本命令#PBS-Nvasp#PBS-lnodes=2:ppn=1#PBS-lwalltime=12:00:00#PBS-qdefaultcd$PBS_O_WORKDIR./test.exe作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運(yùn)行23在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序運(yùn)行參數(shù)說(shuō)明-a<作業(yè)開始運(yùn)行的時(shí)間>向PBS系統(tǒng)指定作業(yè)運(yùn)行的開始時(shí)間。作業(yè)運(yùn)行時(shí)間格式為:[[[[CC]YY]MM]DD]hhmm[.SS]-A<用戶名>使用不同的用戶來(lái)提交作業(yè),缺省使用當(dāng)前用戶名-o<標(biāo)準(zhǔn)輸出文件的路徑>-e<標(biāo)準(zhǔn)錯(cuò)誤輸出的路徑>該參數(shù)指定標(biāo)準(zhǔn)錯(cuò)誤輸出的位置,缺省的情況下,PBS系統(tǒng)把標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤輸出放在用戶qsub命令提交作業(yè)的目錄下。標(biāo)準(zhǔn)錯(cuò)誤輸出:<作業(yè)名>.o<作業(yè)號(hào)>標(biāo)準(zhǔn)錯(cuò)誤輸出:<作業(yè)名>.e<作業(yè)號(hào)>路徑使用如下格式標(biāo)準(zhǔn):[<節(jié)點(diǎn)名>:]<路徑名>-N<作業(yè)名>指定提交的作業(yè)名-q<目標(biāo)隊(duì)列>指定作業(yè)提交的目標(biāo)隊(duì)列。如果該參數(shù)沒(méi)有指定,命令qsub會(huì)把作業(yè)腳本提交到缺省的隊(duì)列中。-l<申請(qǐng)資源列表>該參數(shù)指定作業(yè)腳本申請(qǐng)的PBS系統(tǒng)資源列表。申請(qǐng)資源列表使用如下格式:
<資源名>[=[<數(shù)量>]][,資源名[=[<數(shù)量>]],…..]例如作業(yè)希望申請(qǐng)?jiān)陔p路節(jié)點(diǎn)上申請(qǐng)4個(gè)CPU資源的情況,則可以在腳本中如下:#PBS–lnodes=2:ppn=2運(yùn)行參數(shù)在PBS腳本和qsub命令行中均有效,qsub命令行參數(shù)的優(yōu)先級(jí)更高2.4.3PBS運(yùn)行參數(shù)24運(yùn)行參數(shù)說(shuō)明-a<作業(yè)開始運(yùn)行的時(shí)間>向變量名說(shuō)明登陸SHELL繼承來(lái)的變量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的節(jié)點(diǎn)名稱$PBS_O_QUEUEqsub提交的作業(yè)的最初隊(duì)列名稱$PBS_O_WORKDIRqsub提交的作業(yè)的絕對(duì)路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號(hào)$PBS_JOBNAME用戶指定的作業(yè)名,可以在作業(yè)提交的時(shí)候用qsub–N<作業(yè)名>指定,或者在PBS腳本中加入#PBS–N<作業(yè)名>。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。該變量在并行機(jī)和機(jī)群中使用。當(dāng)在PBS腳本中用#PBS–lnodes=2:ppn=2指定程序運(yùn)行的節(jié)點(diǎn)數(shù)時(shí),可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE<程序名>$PBS_QUEUEPBS腳本在執(zhí)行時(shí)的隊(duì)列名2.4.3PBS環(huán)境變量25變量名說(shuō)明登陸SHELL繼承來(lái)的變量包括$H#這是一個(gè)串行作業(yè)腳本的例子#PBS-Ntest#PBS-lnodes=1:ppn=1cd$HOME/test/./a.out>$HOME/result/a.result#這是一個(gè)并行作業(yè)腳本的例子#PBS-Nvasp_job#PBS-lnodes=2:ppn=2#PBS-qlowechoThisjobis$PBS_JOBID@$PBS_QUEUEcd
$PBS_O_WORKDIRmpirun-np16-machinefile
$PBS_NODEFILE./vasp2.4.3PBS腳本舉例#PBS-lnodes=2:ppn=4:amd:chem#PBS-lnodes=1:ppn=8:chem+1:ppn=8:bio#PBS-lnodes=node1:ppn=8+node2:ppn=8指定節(jié)點(diǎn)特性26#這是一個(gè)串行作業(yè)腳本的例子#這是一個(gè)并行作業(yè)腳本的例子一些軟件有特殊的節(jié)點(diǎn)指定格式,比如ANSYS的命令行參數(shù)格式為:
ansys121-dis-machinesnode1:2:node2:2
-itest.inp-otest.log這時(shí)我們可以對(duì)
$PBS_NODEFILE進(jìn)行字符處理,得到需要的格式2.4.3PBS腳本舉例#這是一個(gè)ANSYS并行作業(yè)的例子#PBS-Nansys_job#PBS-lnodes=2:ppn=8#PBS-qlowINPUTFILE=test.inpOUTPUTFILE=test.loghosts=`cat$PBS_NODEFILE|uniq-c|awk'{print$2":"$1}'|tr'\n'':'|sed's/:$//'`cd$PBS_O_WORKDIRansys121-dis-machines$hosts
-i$INPUTFILE-o$OUTPUTFILE27一些軟件有特殊的節(jié)點(diǎn)指定格式,比如ANSYS的命令行參數(shù)格式作業(yè)提交后,會(huì)生成一個(gè)作業(yè)號(hào),如:[dawning@node1~]$qsubtest.pbs93.node1查看集群作業(yè)運(yùn)行狀態(tài):[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbstest0Rdefault95.node1vasp.Hg
vasp0Edefault111.node1structureamber0Qdefault2.4.4PBS查看作業(yè)狀態(tài)E:退出Q:排隊(duì)H:掛起R:運(yùn)行C:結(jié)束查詢某個(gè)作業(yè)運(yùn)行狀態(tài):qstat93.node1(或者qstat93)顯示作業(yè)運(yùn)行在哪些節(jié)點(diǎn)上:qstat
-n93.node1顯示作業(yè)運(yùn)行詳細(xì)信息:qstat
-f93.node128作業(yè)提交后,會(huì)生成一個(gè)作業(yè)號(hào),如:2.4.4PBS查看作[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg
vasp0Edefault111.node1structureamber0Qdefaultqdel93.node1注:用戶只能刪除自己的作業(yè),管理員可以刪除所有用戶作業(yè)2.4.5PBS作業(yè)其他操作刪除作業(yè)29[dawning@node1~]$qstatqdel[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg
vasp0Edefault111.node1structureamber0Qdefault掛起作業(yè):qhold111.node1取消作業(yè)掛起qrls111.node1作業(yè)掛起及取消2.4.5PBS作業(yè)其他操作30[dawning@node1~]$qstat掛起作業(yè):[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg
vasp0Edefault111.node1structureamber0Qdefault更改作業(yè)2.4.5PBS作業(yè)其他操作更改作業(yè)運(yùn)行隊(duì)列:qmovehigh111.node1更改作業(yè)資源屬性:qalter-lwalltime=10:00:00111.node131[dawning@node1~]$qstat更改作業(yè)2交換作業(yè)順序2.4.5PBS作業(yè)其他操作[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg
vasp0Edefault111.node1structureamber0Qdefault112.node1gaussiangauss0Qdefault交換兩個(gè)作業(yè)的排隊(duì)順序:qorder111.node1112.node1[dawning@node1~]$qstat
JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg
vasp0Edefault112.node1gaussiangauss0Qdefault111.node1structureamber0Qdefault32交換作業(yè)順序2.4.5PBS作業(yè)其他操作[dawning2.4.5PBS作業(yè)其他操作PBS腳本中可以指定多個(gè)作業(yè)之間的依賴關(guān)系,比如作業(yè)提交前另一個(gè)作業(yè)必須完成,否則處于排隊(duì)狀態(tài)#PBS-Nstep2#PBS-lnodes=4:ppn=4#PBS-qhigh#PBS-Wdepend=after:<JOB_ID>…#PBS-Njob_rerun#PBS-lnodes=4:ppn=4#PBS-qhigh#PBS-Wdepend=afternotok:<JOB_ID>…當(dāng)指定作業(yè)非正常結(jié)束,作業(yè)才能提交運(yùn)行332.4.5PBS作業(yè)其他操作PBS腳本中可以指定多個(gè)作業(yè)作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A
提綱34作業(yè)調(diào)度系統(tǒng)概述提綱34Torque帶有自己的默認(rèn)調(diào)度策略器(pbs_sched),但是這個(gè)最基本的調(diào)度策略并不高級(jí)。它根據(jù)fifo的原則安排作業(yè),對(duì)一般的集群管理應(yīng)該是足夠了,但如果你的集群有幾百個(gè)以上節(jié)點(diǎn),分成若干個(gè)隊(duì)列,那pbs_sched就力不從心了。
為此,可以使用一系列第三方的調(diào)度策略進(jìn)行補(bǔ)充。Maui就是被廣泛使用的調(diào)度策略之一。3.1Maui調(diào)度器介紹35Torque帶有自己的默認(rèn)調(diào)度策略器(pbs_s3.1Maui調(diào)度器介紹Maui采用積極的調(diào)度策略優(yōu)化資源的利用和減少作業(yè)的響應(yīng)時(shí)間。Maui的資源和負(fù)載管理允許高級(jí)的參數(shù)配置:作業(yè)優(yōu)先級(jí)(JobPriority)、調(diào)度和分配(SchedulingandAllocation)、公平性和公平共享(FairnessandFairshare)和預(yù)留策略(ReservationPolicy)。Maui的QoS機(jī)制允許資源和服務(wù)的直接傳遞、策略解除(PolicyExemption)和指定特征的受限訪問(wèn)。Maui需要資源管理器和其配合使用。我們可以把Maui想象為PBS中的一個(gè)插入部件。363.1Maui調(diào)度器介紹Maui采用積極的調(diào)度策集群已安裝配置好Torque解壓源文件包
tarzxvfmaui-3.2.6p17.tar.gz
編譯設(shè)置
cdmaui-3.2.6p17./configure--with-pbs=/usr/local
--with-pbs指定Torque安裝目錄編譯和安裝
make makeinstall3.1Maui安裝(Server)37集群已安裝配置好Torque3.1Maui安裝(Serve編輯啟動(dòng)腳本cdmaui-3.2.6p17cpetc/maui.d/etc/init.d/vim/etc/init.d/maui.d
修改其中的”
MAUI_PREFIX=/usr/local/maui”(maui的安裝目錄)停用pbs_sched,啟用mauichkconfigpbs_schedoffchkconfigmaui.donservicepbs_schedstopservicemaui.dstart3.1Maui安裝(Server)38編輯啟動(dòng)腳本3.1Maui安裝(Server)38Maui的配置參數(shù)都寫在配置文件maui.cfg中,配置參數(shù)可以參考官方手冊(cè)MauiAdministrator'sGuide主要參數(shù)如下:vimmaui.cfg#設(shè)置Maui服務(wù)器主機(jī)名
SERVERHOST
server#一級(jí)權(quán)限用戶,擁有Maui所有控制權(quán)限,包括更改調(diào)度策略,更改作業(yè)屬性
ADMIN1
root#二級(jí)權(quán)限用戶,不能更改調(diào)度策略,但能更改作業(yè)屬性ADMIN2zhangwangzhao#三級(jí)權(quán)限用戶,只有查看權(quán)限,ALL表示所有賬戶ADMIN3ALL3.2Maui配置39Maui的配置參數(shù)都寫在配置文件maui.cfg中,配置參數(shù)#定義資源管理器(ResourceManager),指定類型為PBS,以及Torque服務(wù)器主機(jī)名,刷新資源信息的時(shí)間,端口號(hào)
RMCFG[0]TYPE=PBSHOST=server
RMPOLLINTERVAL
00:00:30
SERVERPORT
42559
SERVERMODE
NORMAL#日志設(shè)置
LOGFILE
maui.log
LOGFILEMAXSIZE
10000000
LOGLEVEL
3
3.2Maui配置40#定義資源管理器(ResourceManager),指定#設(shè)置Fairshare策略
#FSPOLICY
PSDEDICATED
#FSDEPTH
7
#FSINTERVAL
86400
#FSDECAY
0.80#設(shè)置回填(Backfill)策略
BACKFILLPOLICY
FIRSTFIT
RESERVATIONPOLICY
CURRENTHIGHEST#節(jié)點(diǎn)分配策略
#NODEALLOCATIONPOLICY
MINRESOURCE
#NODEALLOCATIONPOLICY
CPULOAD #NODEALLOCATIONPOLICY
SHARED
NODEALLOCATIONPOLICY
FIRSTAVAILABLE
3.2Maui配置41#設(shè)置Fairshare策略3.2Maui配置41#QOS配置QOSCFG[preemptor]QFLAGS=PREEMPTORQOSCFG[preemptee]QFLAGS=PREEMPTEECLASSCFG[high]PRIORITY=11000QDEF=preemptorCLASSCFG[low]PRIORITY=6000QDEF=preempteeCLASSCFG[middle]PRIORITY=9000QDEF=preemptee#用戶優(yōu)先級(jí)設(shè)置USERCFG[root]MAXPROC=400MAXNODE=100MAXJOB=100USERCFG[test]PRIORITY=100MAXPROC=200MAXJOB=10USERCFG[DEFAULT]PRIORITY=100MAXPROC=100MAXJOB=43.2Maui配置42#QOS配置3.2Maui配置42作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A
提綱43作業(yè)調(diào)度系統(tǒng)概述提綱43
4曙光Gridview作業(yè)調(diào)度中間件介紹功能中間件應(yīng)用使用方法444曙光Gridview作業(yè)調(diào)度中間件介紹功能中間件應(yīng)用使作業(yè)調(diào)度中間件結(jié)構(gòu)圖4.1曙光Gridview作業(yè)調(diào)度中間件45作業(yè)調(diào)度中間件結(jié)構(gòu)圖4.1曙光Gridview作業(yè)調(diào)度中間增加節(jié)點(diǎn)修改節(jié)點(diǎn)刪除節(jié)點(diǎn)創(chuàng)建隊(duì)列修改隊(duì)列刪除隊(duì)列隊(duì)列節(jié)點(diǎn)用戶修改用戶身份修改用戶等級(jí)修改用戶權(quán)限強(qiáng)大的資源管理4.2作業(yè)調(diào)度中間件功能46增加節(jié)點(diǎn)創(chuàng)建隊(duì)列隊(duì)列節(jié)點(diǎn)用戶修改用戶身份強(qiáng)大的資源管理4.2基于WEB圖形界面集成度高,嵌入到Gridview中流程簡(jiǎn)單界面友好1423輕巧的專業(yè)應(yīng)用提交4.2作業(yè)調(diào)度中間件功能47基于WEB圖形界面集成度高,嵌入到Gridview中流程簡(jiǎn)單管理多個(gè)集群1提供完善的參數(shù)設(shè)置2靈活的提交方式34.2作業(yè)調(diào)度中間件功能作業(yè)提交48管理多個(gè)集群1提供完善的參數(shù)設(shè)置2靈活的提交方式34.2作提供作業(yè)監(jiān)控功能1提供修改作業(yè)狀態(tài)功能2提供多集群作業(yè)監(jiān)控34.2作業(yè)調(diào)度中間件功能作業(yè)管理49提供作業(yè)監(jiān)控功能1提供修改作業(yè)狀態(tài)功能2提供多集群作業(yè)監(jiān)控3提供多個(gè)時(shí)間段的報(bào)表提供多種存儲(chǔ)格式實(shí)用的用戶管理和記賬功能4.2作業(yè)調(diào)度中間件功能50提供多個(gè)時(shí)間段的報(bào)表提供多種存儲(chǔ)格式實(shí)用的用戶管理和記賬功能穩(wěn)定性高4.2作業(yè)調(diào)度中間件功能代碼保護(hù)審查嚴(yán)格備份作業(yè)調(diào)度系統(tǒng)恢復(fù)作業(yè)調(diào)度系統(tǒng)功能穩(wěn)定01測(cè)試嚴(yán)格02具有備份功能單元測(cè)試嚴(yán)格集成測(cè)試嚴(yán)格兼容性測(cè)試嚴(yán)格0351穩(wěn)定性高4.2作業(yè)調(diào)度中間件功能代碼保護(hù)備份作業(yè)調(diào)度系統(tǒng)功MPI程序,例如:Vasp、WRF、mpiBLAST
等等典型的商業(yè)軟件,例如:Gaussian、Fluent、Ansys等等應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合常用的mpi程序常用的商業(yè)軟件用戶自己開發(fā)的串行并行程序4.3GridView作業(yè)調(diào)度的應(yīng)用52MPI程序,例如:典型的商業(yè)軟件,例如:應(yīng)用與作業(yè)調(diào)度系統(tǒng)相常用軟件DOCKMPIBLAST···常用軟件常用軟件工程量子力學(xué)生物常用軟件AMBERCHARMMGROMACSNAMDLAMMPS···分子動(dòng)力學(xué)應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合高性能主要領(lǐng)域主要業(yè)務(wù)軟件得到各個(gè)領(lǐng)域的首席工程師的驗(yàn)證4.3GridView作業(yè)調(diào)度的應(yīng)用ANSYSLSDYNACFXCOMSOLFLUENT···ABINITGAUSSIANPWSCFVASP···53常用軟件DOCK常用軟件常用軟件工程量子力學(xué)生物常用軟件A4.4GridView作業(yè)調(diào)度的使用544.4GridView作業(yè)調(diào)度的使用544.4.1節(jié)點(diǎn)監(jiān)控節(jié)點(diǎn)監(jiān)控提供以下幾個(gè)功能(1)監(jiān)控節(jié)點(diǎn)狀態(tài)(2)增加節(jié)點(diǎn)(3)刪除節(jié)點(diǎn)(4)重啟節(jié)點(diǎn)進(jìn)程554.4.1節(jié)點(diǎn)監(jiān)控節(jié)點(diǎn)監(jiān)控提供以下幾個(gè)功能554.4.1節(jié)點(diǎn)監(jiān)控564.4.1節(jié)點(diǎn)監(jiān)控564.4.2隊(duì)列管理隊(duì)列管理主要包含對(duì)隊(duì)列的創(chuàng)建、刪除、修改和查看等操作。只有root用戶和用戶管理中規(guī)定的管理員才能打開隊(duì)列管理的主頁(yè)面,從而操作控制隊(duì)列。574.4.2隊(duì)列管理隊(duì)列管理主要包含對(duì)隊(duì)列的4.4.2隊(duì)列管理584.4.2隊(duì)列管理584.4.2隊(duì)列管理594.4.2隊(duì)列管理594.4.3用戶設(shè)置用戶管理主要是對(duì)用戶在作業(yè)調(diào)度系統(tǒng)中的身份、優(yōu)先級(jí),以及在作業(yè)調(diào)度系統(tǒng)對(duì)資源的使用和使用上限進(jìn)行設(shè)置、修改和查看。這里的用戶是指已經(jīng)存在于操作系統(tǒng)中的一般用戶,不包括root用戶和用戶ID小于500的系統(tǒng)用戶。604.4.3用戶設(shè)置用戶管理主要是對(duì)用戶在作業(yè)4.4.3用戶設(shè)置614.4.3用戶設(shè)置614.4.4作業(yè)提交
該作業(yè)調(diào)度系統(tǒng)主要通過(guò)web頁(yè)面將作業(yè)提交給調(diào)度器。系統(tǒng)中有三種提交方式:(1)Portal提交(2)腳本方式提交(3)命令行方式提交每次只能選擇一種方式提交,在打開提交窗口時(shí),默認(rèn)是第一種提交方式。624.4.4作業(yè)提交624.4.4.1portal提交根據(jù)應(yīng)用特點(diǎn)定制,目前集成了19種軟件,具體使用方法見手冊(cè)《Gridview_應(yīng)用Portal_用戶手冊(cè)》634.4.4.1portal提交根據(jù)應(yīng)用4.4.4.1portal提交644.4.4.1portal提交644.4.4.1portal提交用戶針對(duì)應(yīng)用特殊配置每個(gè)應(yīng)用在$HOME/.clusportal/目錄下有個(gè)對(duì)應(yīng)的.setting文件,前綴為應(yīng)用名。Fluentfluent.setting##runsettingprog_default=/public/software/ansys_inc/v121/fluent/bin/fluentprog_list=/public/software/ansys_inc/v121/fluent/bin/fluent:##runfilesettingFluent_ENVFILE=/public/software/profile.d/fluent-env.sh654.4.4.1portal提交用戶針對(duì)應(yīng)用特殊配置Flu4.4.4.2腳本和命令行提交664.4.4.2腳本和命令行提交664.4.4.2腳本和命令行提交674.4.4.2腳本和命令行提交674.4.4.1portal提交機(jī)群上作業(yè)情況myjobidis326.node1runnodesisfollowing:node4node4node4node4begintimeisTueAug2111:09:34CST2012/public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent-r12.1.42d-g-t4-cnf=/opt/gridview//pbs//dispatcher/aux//326.node1-ssh-mpi=openmpi-i/home/shenj/work/fluent/3/cavity.jou……>parallel/timer/usagePerformanceTimerfor300iterationson4computenodesAveragewall-clocktimeperiteration:0.002secGlobalreductionsperiteration:53opsGlobalreductionstimeperiteration:0.000sec(0.0%)……Totalwall-clocktime:0.560secTotalCPUtime:2.300sec……endtimeisTueAug2111:09:51CST2012684.4.4.1portal提交機(jī)群上作業(yè)情況myjob實(shí)現(xiàn)了平臺(tái)無(wú)關(guān)的單一系統(tǒng)映像,減小了用戶的軟件安裝以及跨平臺(tái)使用的學(xué)習(xí)成本。實(shí)現(xiàn)了對(duì)高性能計(jì)算的完美封裝。實(shí)現(xiàn)了對(duì)應(yīng)用的性能提升。實(shí)現(xiàn)了對(duì)應(yīng)用的高度優(yōu)化,包括通信方式、網(wǎng)絡(luò)連接等多種并行計(jì)算參數(shù),為用戶提供了計(jì)算性能的自動(dòng)優(yōu)化。高容錯(cuò)性保障。實(shí)現(xiàn)了對(duì)用戶輸入、系統(tǒng)命令、文件權(quán)限、作業(yè)調(diào)度系統(tǒng)等多方面的檢查與確認(rèn)功能,提高用戶作業(yè)的成功率?;趙eb方式的提交。提交方式的限制,可降低用戶操作難度,減少用戶操作帶來(lái)的系統(tǒng)不穩(wěn)定因素,同時(shí)提高高性能和計(jì)算內(nèi)部網(wǎng)絡(luò)的安全性。支持用戶定制開發(fā)。GridviewWebPortal優(yōu)勢(shì)69實(shí)現(xiàn)了平臺(tái)無(wú)關(guān)的單一系統(tǒng)映像,減小了用戶的軟件安裝以及跨平臺(tái)“VNC管理”提供了查詢、打開和刪除等管理操作的功能。root和Gridview管理員可以查詢或者打開所有的VNC會(huì)話,而普通用戶僅能查詢和打開自身的VNC會(huì)話。按鈕區(qū)域集群列表會(huì)話列表4.4.5VNC集成功能70“VNC管理”按鈕區(qū)域集群列表會(huì)話列表4.4.5VNC集打開VNC會(huì)話選中某一個(gè)VNC會(huì)話,然后單擊“打開會(huì)話”按鈕,這時(shí)系統(tǒng)會(huì)打開一個(gè)新的“VNC打開”Tab頁(yè)來(lái)呈現(xiàn)當(dāng)前選中的VNC會(huì)話的窗口內(nèi)容。4.4.5VNC集成功能71打開VNC會(huì)話選中某一個(gè)VNC會(huì)話,然后單擊“打開會(huì)話”按鈕刪除VNC會(huì)話刪除會(huì)話用戶可以一次選中一個(gè)或者多個(gè)會(huì)話,刪除會(huì)話。注意:如果被刪除的會(huì)話正在被用戶打開使用,刪除之后那些打開的VNC窗口會(huì)被關(guān)閉,并且提示網(wǎng)絡(luò)錯(cuò)誤。4.4.5VNC集成功能72刪除VNC會(huì)話刪除會(huì)話注意:4.4.5VNC集成功能724.4.6作業(yè)管理作業(yè)管理主要包含對(duì)作業(yè)的查詢、控制和刪除等操作。對(duì)作業(yè)的控制包括保留、釋放、掛起、恢復(fù)、重新運(yùn)行等操作。新作業(yè)查詢功能管理員可以刪除任何作業(yè);普通用戶只能刪除自己的作業(yè),可以選擇多個(gè)作業(yè)同時(shí)刪除。734.4.6作業(yè)管理作業(yè)管理主要包含對(duì)作業(yè)的查詢4.4.7歷史作業(yè)744.4.7歷史作業(yè)74主要特點(diǎn)支持管理員和普通用戶報(bào)表權(quán)限區(qū)分管理員可統(tǒng)計(jì)所有數(shù)據(jù)普通用戶僅可統(tǒng)計(jì)自身數(shù)據(jù)支持多種導(dǎo)出方式PDF、EXCEL、HTML支持多個(gè)字段的復(fù)合邏輯查詢字段包括時(shí)間、用戶、關(guān)鍵字等邏輯關(guān)系包括“與”、“或”支持從不同的角度進(jìn)行統(tǒng)計(jì)用戶統(tǒng)計(jì)、節(jié)點(diǎn)統(tǒng)計(jì)、作業(yè)統(tǒng)計(jì)、集群統(tǒng)計(jì)提供總表和詳表方便匯報(bào)和對(duì)賬
4.4.8作業(yè)記賬75主要特點(diǎn)4.4.8作業(yè)記賬754.4.8作業(yè)記賬查詢條件支持多個(gè)字段時(shí)間用戶名作業(yè)名應(yīng)用類型關(guān)鍵字…支持與或邏輯允許設(shè)置字段間的與或關(guān)系支持精確/模糊匹配允許設(shè)置匹配方式764.4.8作業(yè)記賬查詢條件764.4.8作業(yè)記賬用戶作業(yè)統(tǒng)計(jì)總表用戶作業(yè)統(tǒng)計(jì)詳表4.4.8作業(yè)記賬用戶作業(yè)統(tǒng)計(jì)總表用戶作業(yè)統(tǒng)計(jì)詳表4.4.8作業(yè)記賬節(jié)點(diǎn)使用統(tǒng)計(jì)詳表節(jié)點(diǎn)使用統(tǒng)計(jì)總表784.4.8作業(yè)記賬節(jié)點(diǎn)使用統(tǒng)計(jì)詳表節(jié)點(diǎn)使用統(tǒng)計(jì)總表784.4.8作業(yè)記賬CPU使用時(shí)間統(tǒng)計(jì)794.4.8作業(yè)記賬CPU使用時(shí)間統(tǒng)計(jì)794.4.8作業(yè)記賬歷史作業(yè)詳表歷史作業(yè)總表4.4.8作業(yè)記賬歷史作業(yè)詳表歷史作業(yè)總表4.4.9統(tǒng)計(jì)視圖814.4.9統(tǒng)計(jì)視圖81Q&A82Q&A82謝謝!83謝謝!83高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司84高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1
提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A85提綱作業(yè)調(diào)度系統(tǒng)概述21.1集群使用中存在的問(wèn)題節(jié)點(diǎn)多用戶多任務(wù)多861.1集群使用中存在的問(wèn)題節(jié)點(diǎn)多用戶多任務(wù)多3系統(tǒng)資源整合異構(gòu)資源,軟硬件資源的整合任務(wù)綜合管理用戶提交的任務(wù)的統(tǒng)一安排用戶權(quán)限的管理對(duì)用戶進(jìn)行各類權(quán)限控制1.2作業(yè)調(diào)度系統(tǒng)的功能871.2作業(yè)調(diào)度系統(tǒng)的功能4資源管理器: 管理集群的軟硬件資源及認(rèn)證信息等隊(duì)列管理器: 管理當(dāng)前所有已提交但還未完成的作業(yè)調(diào)度器: 為作業(yè)分配資源1.3作業(yè)調(diào)度系統(tǒng)的組成88資源管理器:1.3作業(yè)調(diào)度系統(tǒng)的組成5作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成89作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成61.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史901.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史7
提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A91提綱作業(yè)調(diào)度系統(tǒng)概述8
PBS(PortableBatchSystem),最初由NASA的Ames研究中心開發(fā),設(shè)計(jì)為一個(gè)能滿足異構(gòu)計(jì)算網(wǎng)絡(luò)需要的軟件包。它力求提供對(duì)批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機(jī)間的路由。
PBS的開源版本為OpenPBS,目前已經(jīng)停止開發(fā)。PBS的商業(yè)版為PBSPro,由Altair公司開發(fā)和維護(hù)。TORQUE(Tera-scaleOpen-sourceResourceandQueuemanager)為OpenPBS的后續(xù)開源版本,修正了OpenPBS的很多bug,功能和可擴(kuò)展性都有很大提高。2.1PBS作業(yè)調(diào)度系統(tǒng)92PBS(PortableBatchSystem服務(wù)器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom2.2PBS的組成93服務(wù)器:pbs_server2.2PBS的組成10解壓源文件包
tarzxvftorque-2.5.12.tar.gz編譯設(shè)置
cdtorque-2.5.12./configure--prefix=/usr/local\
--with-server-home=/var/spool/torque\
--enable-syslog\
--with-scp\
--enable-docs
默認(rèn)情況下,TORQUE將可執(zhí)行文件安裝在/usr/local/bin和/usr/local/sbin下。其余的配置文件和運(yùn)行時(shí)環(huán)境將安裝在/var/spool/torque下編譯和安裝
make makeinstall2.3
PBS的安裝(TorqueServer端)94解壓源文件包2.3PBS的安裝(TorqueServe節(jié)點(diǎn)操作系統(tǒng)相同,可以用如下SHELL腳本在計(jì)算節(jié)點(diǎn)(torque客戶端)上安裝#在管理節(jié)點(diǎn)上makepackages#!/bin/bashforiin`seq120`;doecho=====node$i=====
ssh
node$i/public/sourcecode/torque-2.5.12/\torque-package-mom-linux-*.sh--installDone2.3PBS的安裝(TorqueClient端)95節(jié)點(diǎn)操作系統(tǒng)相同,可以用如下SHELL腳本在計(jì)算節(jié)點(diǎn)(tor以root作為torque的管理員賬號(hào)創(chuàng)建作業(yè)隊(duì)列 在torque的安裝源文件根目錄中,執(zhí)行
./torque.setuprootServer配置目錄/var/spool/torque/server_priv/計(jì)算節(jié)點(diǎn)列表及屬性:/var/spool/torque/server_priv/nodes node2np=12amdchem node3np=12amdchem node4np=8intelchem node5np=8intelchem node6np=4intelbiogpu node7np=4intelbiogpu2.3PBS
Server配置96以root作為torque的管理員賬號(hào)創(chuàng)建作業(yè)隊(duì)列2.3PServer的系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_serverScheduler系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_schedMom系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_momTorque服務(wù)端chkconfigpbs_serveronchkconfigpbs_schedonservicepbs_serverstartservicepbs_schedstartTorque客戶端chkconfigpbs_momonservicepbs_momstart2.3
PBS系統(tǒng)服務(wù)97Server的系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_2.4
PBS主要操作隊(duì)列設(shè)置節(jié)點(diǎn)查看提交作業(yè)查看作業(yè)作業(yè)其他操作982.4PBS主要操作隊(duì)列設(shè)置節(jié)點(diǎn)查看提交作業(yè)查看作業(yè)作業(yè)其PBS要能正常運(yùn)行還需要通過(guò)qmgr命令在server進(jìn)行配置,設(shè)置一些屬性。輸入qmgr命令進(jìn)入配置交互命令,格式為
qmgr動(dòng)作對(duì)象類型和操作符
動(dòng)作對(duì)象類型對(duì)象名屬性操作符值(,屬性操作符值)……create創(chuàng)建一個(gè)對(duì)象delete刪除一個(gè)對(duì)象set設(shè)置對(duì)象的屬性u(píng)nset除去對(duì)象的屬性print打印對(duì)象的屬性list列出對(duì)象的屬性server服務(wù)器=queue隊(duì)列+=node節(jié)點(diǎn)-=2.4.1PBS的隊(duì)列設(shè)置99PBS要能正常運(yùn)行還需要通過(guò)qmgr命令在server進(jìn)行配創(chuàng)建隊(duì)列createqueue隊(duì)列名queue_type=execution打開和啟動(dòng)隊(duì)列setqueue隊(duì)列名enable=t,started=t打開調(diào)度setserverscheduling=t設(shè)置默認(rèn)隊(duì)列setserverdefault_queue=隊(duì)列名2.4.1PBS的隊(duì)列設(shè)置下面是讓PBS可以正常運(yùn)行的基本設(shè)置100創(chuàng)建隊(duì)列createqueue隊(duì)列名queue_typ導(dǎo)入server配置文件
qmgr<queue.conf備份配置文件
qmgr-c“printserver”>queue.conf配置文件例子
createqueuedefaultsetqueuedefaultqueue_type=executionsetqueuedefaultmax_running=10setqueuedefaultenabled=Truesetqueuedefaultstarted=Truesetserverscheduling=Truesetserverdefault_queue=defaultsetserverquery_other_jobs=True2.4.1PBS的隊(duì)列設(shè)置101導(dǎo)入server配置文件createqueuede資源和用戶限制
resources_default.cput該隊(duì)列默認(rèn)的作業(yè)的CPU時(shí)間,格式:時(shí):分:秒注意:該CPU時(shí)間為:進(jìn)程數(shù)*(結(jié)束時(shí)間-開始時(shí)間)resources_default.walltime該隊(duì)列默認(rèn)的墻上時(shí)間,格式:時(shí):分:秒max_running某隊(duì)列最多可運(yùn)行的作業(yè)數(shù),如果該項(xiàng)為0或沒(méi)有該項(xiàng),表示沒(méi)有限制max_user_run一個(gè)用戶最多可以運(yùn)行的作業(yè)數(shù)acl_user_enable是否啟用用戶訪問(wèn)控制,如果acl_user_enable=True,則在acl_users中列出的用戶才能使用該隊(duì)列acl_users格式:<用戶名@主機(jī)名>,用戶名不接受通配符acl_host_enable如果acl_host_enable=True,則acl_hosts屬性中列出的主機(jī)才能使用該隊(duì)列acl_hosts該隊(duì)列可以使用的節(jié)點(diǎn)列表2.4.1PBS的隊(duì)列設(shè)置102資源和用戶限制 resources_default.cput[dawning@node1~]$pbsnodes-anode2
state=free
np=12
ntype=clusterstatus=rectime=1347344839,varattr=,jobs=,state=free,netload=1994804223313,gres=,loadave=0.15,ncpus=32,physmem=132133404kb,availmem=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linuxnode22.6.32-220.el6.x86_64#1SMPWedNov908:03:13EST2011x86_64,opsys=linux
gpus=0node3state=down
np=12
ntype=cluster…2.4.2PBS查看節(jié)點(diǎn)狀態(tài)103[dawning@node1~]$pbsnodes-apbsnodes命令的主要參數(shù)-a列出所有結(jié)點(diǎn)及其屬性,屬性包括“state”和“status”-o將指定結(jié)點(diǎn)的狀態(tài)標(biāo)記為“offline”。這將幫助管理員暫時(shí)停止某些結(jié)點(diǎn)的服務(wù)-l以行的方式列出被標(biāo)記的結(jié)點(diǎn)的狀態(tài),如-lfree,-loffline-c清除結(jié)點(diǎn)列表中的“offline”或“down”狀態(tài)設(shè)置,使結(jié)點(diǎn)可以被分配給作業(yè)-r清除指定結(jié)點(diǎn)的“offline”狀態(tài)2.4.2PBS查看節(jié)點(diǎn)狀態(tài)104pbsnodes命令的主要參數(shù)2.4.2PBS查看節(jié)點(diǎn)狀態(tài)步驟:準(zhǔn)備:編寫描述該作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器排隊(duì):服務(wù)器將該任務(wù)排入適當(dāng)?shù)年?duì)列調(diào)度:服務(wù)器檢查各工作節(jié)點(diǎn)的狀態(tài)是否符合該作業(yè)的要求,并進(jìn)行調(diào)度。執(zhí)行:當(dāng)條件滿足時(shí),作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運(yùn)行時(shí)執(zhí)行服務(wù)器會(huì)收集程序的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤流,等程序結(jié)束時(shí),將這些信息返回給用戶。查詢和調(diào)整:當(dāng)作業(yè)在運(yùn)行時(shí),用戶可以使用qstat進(jìn)行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯(cuò)誤時(shí),可以使用qdel刪除正在運(yùn)行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯(cuò)誤信息顯示。2.4.3PBS作業(yè)提交105步驟:2.4.3PBS作業(yè)提交22在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序。用戶運(yùn)行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,如下qsub<PBS作業(yè)腳本>2.4.3PBS作業(yè)提交基本命令#PBS-Nvasp#PBS-lnodes=2:ppn=1#PBS-lwalltime=12:00:00#PBS-qdefaultcd$PBS_O_WORKDIR./test.exe作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運(yùn)行106在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序運(yùn)行參數(shù)說(shuō)明-a<作業(yè)開始運(yùn)行的時(shí)間>向PBS系統(tǒng)指定作業(yè)運(yùn)行的開始時(shí)間。作業(yè)運(yùn)行時(shí)間格式為:[[[[CC]YY]MM]DD]hhmm[.SS]-A<用戶名>使用不同的用戶來(lái)提交作業(yè),缺省使用當(dāng)前用戶名-o<標(biāo)準(zhǔn)輸出文件的路徑>-e<標(biāo)準(zhǔn)錯(cuò)誤輸出的路徑>該參數(shù)指定標(biāo)準(zhǔn)錯(cuò)誤輸出的位置,缺省的情況下,PBS系統(tǒng)把標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤輸出放在用戶qsub命令提交作業(yè)的目錄下。標(biāo)準(zhǔn)錯(cuò)誤輸出:<作業(yè)名>.o<作業(yè)號(hào)>標(biāo)準(zhǔn)錯(cuò)誤輸出:<作業(yè)名>.e<作業(yè)號(hào)>路徑使用如下格式標(biāo)準(zhǔn):[<節(jié)點(diǎn)名>:]<路徑名>-N<作業(yè)名>指定提交的作業(yè)名-q<目標(biāo)隊(duì)列>指定作業(yè)提交的目標(biāo)隊(duì)列。如果該參數(shù)沒(méi)有指定,命令qsub會(huì)把作業(yè)腳本提交到缺省的隊(duì)列中。-l<申請(qǐng)資源列表>該參數(shù)指定作業(yè)腳本申請(qǐng)的PBS系統(tǒng)資源列表。申請(qǐng)資源列表使用如下格式:
<資源名>[=[<數(shù)量>]][,資源名[=[<數(shù)量>]],…..]例如作業(yè)希望申請(qǐng)?jiān)陔p路節(jié)點(diǎn)上申請(qǐng)4個(gè)CPU資源的情況,則可以在腳本中如下:#PBS–lnodes=2:ppn=2運(yùn)行參數(shù)在PBS腳本和qsub命令行中均有效,qsub命令行參數(shù)的優(yōu)先級(jí)更高2.4.3PBS運(yùn)行參數(shù)107運(yùn)行參數(shù)說(shuō)明-a<作業(yè)開始運(yùn)行的時(shí)間>向變量名說(shuō)明登陸SHELL繼承來(lái)的變量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的節(jié)點(diǎn)名稱$PBS_O_QUEUEqsub提交的作業(yè)的最初隊(duì)列名稱$PBS_O_WORKDIRqsub提交的作業(yè)的絕對(duì)路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號(hào)$PBS_JOBNAME用戶指定的作業(yè)名,可以在作業(yè)提交的時(shí)候用qsub–N<作業(yè)名>指定,或者在PBS腳本中加入#PBS–N<作業(yè)名>。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。該變量在并行機(jī)和機(jī)群中使用。當(dāng)在PBS腳本中用#PBS–lnodes=2:ppn=2指定程序運(yùn)行的節(jié)點(diǎn)數(shù)時(shí),可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE<程序名>$PBS_QUEUEPBS腳本在執(zhí)行時(shí)的隊(duì)列名2.4.3PBS環(huán)境變量108變量名說(shuō)明登陸SHELL繼承來(lái)的變量包括$H#這是一個(gè)串行作業(yè)腳本的例子#PBS-Ntest#PBS-lnodes=1:ppn=1cd$HOME/test/./a.out>$HOME/result/a.result#這是一個(gè)并行作業(yè)腳本的例子#PBS-Nvasp_job#PBS-lnodes=2:ppn=2#PBS-qlowechoThisjobis$PBS_JOBID@$PBS_QUEUEcd
$PBS_O_WORKDIRmpirun-np16-machinefile
$PBS_NODEFILE./vasp2.4.3PBS腳本舉例#PBS-lnodes=2:ppn=4:amd:chem#PBS-lnodes=1:ppn=8:chem+1:ppn=8:bio#PBS-lnodes=node1:ppn=8+node2:ppn=8指定節(jié)點(diǎn)特性109#這是一個(gè)串行作業(yè)腳本的例子#這是一個(gè)并行作業(yè)腳本的例子一些軟件有特殊的節(jié)點(diǎn)指定格
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 優(yōu)待證合作協(xié)議文本
- 2025版土地抵押權(quán)抵押權(quán)抵押權(quán)抵押資產(chǎn)證券化合同模板3篇
- 2025年度智能家居系統(tǒng)研發(fā)與裝修設(shè)計(jì)合同2篇
- 2025年全球及中國(guó)1-戊基-1H-吲哚行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)汽車雙面膠帶行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)流媒體音視頻產(chǎn)品行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球船底噴氣推進(jìn)系統(tǒng)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)游戲設(shè)計(jì)服務(wù)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年度股權(quán)代持與風(fēng)險(xiǎn)控制協(xié)議書(個(gè)人股權(quán)轉(zhuǎn)讓與代持)4篇
- 2025年度大學(xué)學(xué)生心理健康服務(wù)合作協(xié)議
- 2025屆廈門高三1月質(zhì)檢期末聯(lián)考數(shù)學(xué)答案
- 音樂(lè)作品錄制許可
- 江蘇省無(wú)錫市2023-2024學(xué)年高三上學(xué)期期終教學(xué)質(zhì)量調(diào)研測(cè)試語(yǔ)文試題(解析版)
- 拉薩市2025屆高三第一次聯(lián)考(一模)英語(yǔ)試卷(含答案解析)
- 開題報(bào)告:AIGC背景下大學(xué)英語(yǔ)教學(xué)設(shè)計(jì)重構(gòu)研究
- 師德標(biāo)兵先進(jìn)事跡材料師德標(biāo)兵個(gè)人主要事跡
- 連鎖商務(wù)酒店述職報(bào)告
- 石油化工企業(yè)環(huán)境保護(hù)管理制度預(yù)案
- 2024年山東省煙臺(tái)市初中學(xué)業(yè)水平考試地理試卷含答案
- 《實(shí)踐論》(原文)毛澤東
- 抗腫瘤治療所致惡心嘔吐護(hù)理
評(píng)論
0/150
提交評(píng)論