高性能集群作業(yè)調(diào)度系統(tǒng)課件_第1頁
高性能集群作業(yè)調(diào)度系統(tǒng)課件_第2頁
高性能集群作業(yè)調(diào)度系統(tǒng)課件_第3頁
高性能集群作業(yè)調(diào)度系統(tǒng)課件_第4頁
高性能集群作業(yè)調(diào)度系統(tǒng)課件_第5頁
已閱讀5頁,還剩161頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1

提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A2提綱作業(yè)調(diào)度系統(tǒng)概述21.1集群使用中存在的問題節(jié)點多用戶多任務(wù)多31.1集群使用中存在的問題節(jié)點多用戶多任務(wù)多3系統(tǒng)資源整合異構(gòu)資源,軟硬件資源的整合任務(wù)綜合管理用戶提交的任務(wù)的統(tǒng)一安排用戶權(quán)限的管理對用戶進行各類權(quán)限控制1.2作業(yè)調(diào)度系統(tǒng)的功能41.2作業(yè)調(diào)度系統(tǒng)的功能4資源管理器: 管理集群的軟硬件資源及認證信息等隊列管理器: 管理當前所有已提交但還未完成的作業(yè)調(diào)度器: 為作業(yè)分配資源1.3作業(yè)調(diào)度系統(tǒng)的組成5資源管理器:1.3作業(yè)調(diào)度系統(tǒng)的組成5作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成6作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成61.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史71.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史7

提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A8提綱作業(yè)調(diào)度系統(tǒng)概述8

PBS(PortableBatchSystem),最初由NASA的Ames研究中心開發(fā),設(shè)計為一個能滿足異構(gòu)計算網(wǎng)絡(luò)需要的軟件包。它力求提供對批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機間的路由。

PBS的開源版本為OpenPBS,目前已經(jīng)停止開發(fā)。PBS的商業(yè)版為PBSPro,由Altair公司開發(fā)和維護。TORQUE(Tera-scaleOpen-sourceResourceandQueuemanager)為OpenPBS的后續(xù)開源版本,修正了OpenPBS的很多bug,功能和可擴展性都有很大提高。2.1PBS作業(yè)調(diào)度系統(tǒng)9PBS(PortableBatchSystem服務(wù)器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom2.2PBS的組成10服務(wù)器:pbs_server2.2PBS的組成10解壓源文件包

tarzxvftorque-2.5.12.tar.gz編譯設(shè)置

cdtorque-2.5.12./configure--prefix=/usr/local\

--with-server-home=/var/spool/torque\

--enable-syslog\

--with-scp\

--enable-docs

默認情況下,TORQUE將可執(zhí)行文件安裝在/usr/local/bin和/usr/local/sbin下。其余的配置文件和運行時環(huán)境將安裝在/var/spool/torque下編譯和安裝

make makeinstall2.3

PBS的安裝(TorqueServer端)11解壓源文件包2.3PBS的安裝(TorqueServe節(jié)點操作系統(tǒng)相同,可以用如下SHELL腳本在計算節(jié)點(torque客戶端)上安裝#在管理節(jié)點上makepackages#!/bin/bashforiin`seq120`;doecho=====node$i=====

ssh

node$i/public/sourcecode/torque-2.5.12/\torque-package-mom-linux-*.sh--installDone2.3PBS的安裝(TorqueClient端)12節(jié)點操作系統(tǒng)相同,可以用如下SHELL腳本在計算節(jié)點(tor以root作為torque的管理員賬號創(chuàng)建作業(yè)隊列 在torque的安裝源文件根目錄中,執(zhí)行

./torque.setuprootServer配置目錄/var/spool/torque/server_priv/計算節(jié)點列表及屬性:/var/spool/torque/server_priv/nodes node2np=12amdchem node3np=12amdchem node4np=8intelchem node5np=8intelchem node6np=4intelbiogpu node7np=4intelbiogpu2.3PBS

Server配置13以root作為torque的管理員賬號創(chuàng)建作業(yè)隊列2.3PServer的系統(tǒng)啟動腳本/etc/init.d/pbs_serverScheduler系統(tǒng)啟動腳本/etc/init.d/pbs_schedMom系統(tǒng)啟動腳本/etc/init.d/pbs_momTorque服務(wù)端chkconfigpbs_serveronchkconfigpbs_schedonservicepbs_serverstartservicepbs_schedstartTorque客戶端chkconfigpbs_momonservicepbs_momstart2.3

PBS系統(tǒng)服務(wù)14Server的系統(tǒng)啟動腳本/etc/init.d/pbs_2.4

PBS主要操作隊列設(shè)置節(jié)點查看提交作業(yè)查看作業(yè)作業(yè)其他操作152.4PBS主要操作隊列設(shè)置節(jié)點查看提交作業(yè)查看作業(yè)作業(yè)其PBS要能正常運行還需要通過qmgr命令在server進行配置,設(shè)置一些屬性。輸入qmgr命令進入配置交互命令,格式為

qmgr動作對象類型和操作符

動作對象類型對象名屬性操作符值(,屬性操作符值)……create創(chuàng)建一個對象delete刪除一個對象set設(shè)置對象的屬性unset除去對象的屬性print打印對象的屬性list列出對象的屬性server服務(wù)器=queue隊列+=node節(jié)點-=2.4.1PBS的隊列設(shè)置16PBS要能正常運行還需要通過qmgr命令在server進行配創(chuàng)建隊列createqueue隊列名queue_type=execution打開和啟動隊列setqueue隊列名enable=t,started=t打開調(diào)度setserverscheduling=t設(shè)置默認隊列setserverdefault_queue=隊列名2.4.1PBS的隊列設(shè)置下面是讓PBS可以正常運行的基本設(shè)置17創(chuàng)建隊列createqueue隊列名queue_typ導入server配置文件

qmgr<queue.conf備份配置文件

qmgr-c“printserver”>queue.conf配置文件例子

createqueuedefaultsetqueuedefaultqueue_type=executionsetqueuedefaultmax_running=10setqueuedefaultenabled=Truesetqueuedefaultstarted=Truesetserverscheduling=Truesetserverdefault_queue=defaultsetserverquery_other_jobs=True2.4.1PBS的隊列設(shè)置18導入server配置文件createqueuede資源和用戶限制

resources_default.cput該隊列默認的作業(yè)的CPU時間,格式:時:分:秒注意:該CPU時間為:進程數(shù)*(結(jié)束時間-開始時間)resources_default.walltime該隊列默認的墻上時間,格式:時:分:秒max_running某隊列最多可運行的作業(yè)數(shù),如果該項為0或沒有該項,表示沒有限制max_user_run一個用戶最多可以運行的作業(yè)數(shù)acl_user_enable是否啟用用戶訪問控制,如果acl_user_enable=True,則在acl_users中列出的用戶才能使用該隊列acl_users格式:<用戶名@主機名>,用戶名不接受通配符acl_host_enable如果acl_host_enable=True,則acl_hosts屬性中列出的主機才能使用該隊列acl_hosts該隊列可以使用的節(jié)點列表2.4.1PBS的隊列設(shè)置19資源和用戶限制 resources_default.cput[dawning@node1~]$pbsnodes-anode2

state=free

np=12

ntype=clusterstatus=rectime=1347344839,varattr=,jobs=,state=free,netload=1994804223313,gres=,loadave=0.15,ncpus=32,physmem=132133404kb,availmem=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linuxnode22.6.32-220.el6.x86_64#1SMPWedNov908:03:13EST2011x86_64,opsys=linux

gpus=0node3state=down

np=12

ntype=cluster…2.4.2PBS查看節(jié)點狀態(tài)20[dawning@node1~]$pbsnodes-apbsnodes命令的主要參數(shù)-a列出所有結(jié)點及其屬性,屬性包括“state”和“status”-o將指定結(jié)點的狀態(tài)標記為“offline”。這將幫助管理員暫時停止某些結(jié)點的服務(wù)-l以行的方式列出被標記的結(jié)點的狀態(tài),如-lfree,-loffline-c清除結(jié)點列表中的“offline”或“down”狀態(tài)設(shè)置,使結(jié)點可以被分配給作業(yè)-r清除指定結(jié)點的“offline”狀態(tài)2.4.2PBS查看節(jié)點狀態(tài)21pbsnodes命令的主要參數(shù)2.4.2PBS查看節(jié)點狀態(tài)步驟:準備:編寫描述該作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器排隊:服務(wù)器將該任務(wù)排入適當?shù)年犃姓{(diào)度:服務(wù)器檢查各工作節(jié)點的狀態(tài)是否符合該作業(yè)的要求,并進行調(diào)度。執(zhí)行:當條件滿足時,作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運行時執(zhí)行服務(wù)器會收集程序的標準輸出和標準錯誤流,等程序結(jié)束時,將這些信息返回給用戶。查詢和調(diào)整:當作業(yè)在運行時,用戶可以使用qstat進行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯誤時,可以使用qdel刪除正在運行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯誤信息顯示。2.4.3PBS作業(yè)提交22步驟:2.4.3PBS作業(yè)提交22在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序。用戶運行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,如下qsub<PBS作業(yè)腳本>2.4.3PBS作業(yè)提交基本命令#PBS-Nvasp#PBS-lnodes=2:ppn=1#PBS-lwalltime=12:00:00#PBS-qdefaultcd$PBS_O_WORKDIR./test.exe作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運行23在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序運行參數(shù)說明-a<作業(yè)開始運行的時間>向PBS系統(tǒng)指定作業(yè)運行的開始時間。作業(yè)運行時間格式為:[[[[CC]YY]MM]DD]hhmm[.SS]-A<用戶名>使用不同的用戶來提交作業(yè),缺省使用當前用戶名-o<標準輸出文件的路徑>-e<標準錯誤輸出的路徑>該參數(shù)指定標準錯誤輸出的位置,缺省的情況下,PBS系統(tǒng)把標準輸出和標準錯誤輸出放在用戶qsub命令提交作業(yè)的目錄下。標準錯誤輸出:<作業(yè)名>.o<作業(yè)號>標準錯誤輸出:<作業(yè)名>.e<作業(yè)號>路徑使用如下格式標準:[<節(jié)點名>:]<路徑名>-N<作業(yè)名>指定提交的作業(yè)名-q<目標隊列>指定作業(yè)提交的目標隊列。如果該參數(shù)沒有指定,命令qsub會把作業(yè)腳本提交到缺省的隊列中。-l<申請資源列表>該參數(shù)指定作業(yè)腳本申請的PBS系統(tǒng)資源列表。申請資源列表使用如下格式:

<資源名>[=[<數(shù)量>]][,資源名[=[<數(shù)量>]],…..]例如作業(yè)希望申請在雙路節(jié)點上申請4個CPU資源的情況,則可以在腳本中如下:#PBS–lnodes=2:ppn=2運行參數(shù)在PBS腳本和qsub命令行中均有效,qsub命令行參數(shù)的優(yōu)先級更高2.4.3PBS運行參數(shù)24運行參數(shù)說明-a<作業(yè)開始運行的時間>向變量名說明登陸SHELL繼承來的變量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的節(jié)點名稱$PBS_O_QUEUEqsub提交的作業(yè)的最初隊列名稱$PBS_O_WORKDIRqsub提交的作業(yè)的絕對路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號$PBS_JOBNAME用戶指定的作業(yè)名,可以在作業(yè)提交的時候用qsub–N<作業(yè)名>指定,或者在PBS腳本中加入#PBS–N<作業(yè)名>。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運行的節(jié)點名。該變量在并行機和機群中使用。當在PBS腳本中用#PBS–lnodes=2:ppn=2指定程序運行的節(jié)點數(shù)時,可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運行的節(jié)點名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE<程序名>$PBS_QUEUEPBS腳本在執(zhí)行時的隊列名2.4.3PBS環(huán)境變量25變量名說明登陸SHELL繼承來的變量包括$H#這是一個串行作業(yè)腳本的例子#PBS-Ntest#PBS-lnodes=1:ppn=1cd$HOME/test/./a.out>$HOME/result/a.result#這是一個并行作業(yè)腳本的例子#PBS-Nvasp_job#PBS-lnodes=2:ppn=2#PBS-qlowechoThisjobis$PBS_JOBID@$PBS_QUEUEcd

$PBS_O_WORKDIRmpirun-np16-machinefile

$PBS_NODEFILE./vasp2.4.3PBS腳本舉例#PBS-lnodes=2:ppn=4:amd:chem#PBS-lnodes=1:ppn=8:chem+1:ppn=8:bio#PBS-lnodes=node1:ppn=8+node2:ppn=8指定節(jié)點特性26#這是一個串行作業(yè)腳本的例子#這是一個并行作業(yè)腳本的例子一些軟件有特殊的節(jié)點指定格式,比如ANSYS的命令行參數(shù)格式為:

ansys121-dis-machinesnode1:2:node2:2

-itest.inp-otest.log這時我們可以對

$PBS_NODEFILE進行字符處理,得到需要的格式2.4.3PBS腳本舉例#這是一個ANSYS并行作業(yè)的例子#PBS-Nansys_job#PBS-lnodes=2:ppn=8#PBS-qlowINPUTFILE=test.inpOUTPUTFILE=test.loghosts=`cat$PBS_NODEFILE|uniq-c|awk'{print$2":"$1}'|tr'\n'':'|sed's/:$//'`cd$PBS_O_WORKDIRansys121-dis-machines$hosts

-i$INPUTFILE-o$OUTPUTFILE27一些軟件有特殊的節(jié)點指定格式,比如ANSYS的命令行參數(shù)格式作業(yè)提交后,會生成一個作業(yè)號,如:[dawning@node1~]$qsubtest.pbs93.node1查看集群作業(yè)運行狀態(tài):[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbstest0Rdefault95.node1vasp.Hg

vasp0Edefault111.node1structureamber0Qdefault2.4.4PBS查看作業(yè)狀態(tài)E:退出Q:排隊H:掛起R:運行C:結(jié)束查詢某個作業(yè)運行狀態(tài):qstat93.node1(或者qstat93)顯示作業(yè)運行在哪些節(jié)點上:qstat

-n93.node1顯示作業(yè)運行詳細信息:qstat

-f93.node128作業(yè)提交后,會生成一個作業(yè)號,如:2.4.4PBS查看作[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg

vasp0Edefault111.node1structureamber0Qdefaultqdel93.node1注:用戶只能刪除自己的作業(yè),管理員可以刪除所有用戶作業(yè)2.4.5PBS作業(yè)其他操作刪除作業(yè)29[dawning@node1~]$qstatqdel[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg

vasp0Edefault111.node1structureamber0Qdefault掛起作業(yè):qhold111.node1取消作業(yè)掛起qrls111.node1作業(yè)掛起及取消2.4.5PBS作業(yè)其他操作30[dawning@node1~]$qstat掛起作業(yè):[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg

vasp0Edefault111.node1structureamber0Qdefault更改作業(yè)2.4.5PBS作業(yè)其他操作更改作業(yè)運行隊列:qmovehigh111.node1更改作業(yè)資源屬性:qalter-lwalltime=10:00:00111.node131[dawning@node1~]$qstat更改作業(yè)2交換作業(yè)順序2.4.5PBS作業(yè)其他操作[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg

vasp0Edefault111.node1structureamber0Qdefault112.node1gaussiangauss0Qdefault交換兩個作業(yè)的排隊順序:qorder111.node1112.node1[dawning@node1~]$qstat

JobidNameUserTimeUseSQueue--------------------------------------------------------------93.node1test.pbszhaocs0Rdefault95.node1vasp.Hg

vasp0Edefault112.node1gaussiangauss0Qdefault111.node1structureamber0Qdefault32交換作業(yè)順序2.4.5PBS作業(yè)其他操作[dawning2.4.5PBS作業(yè)其他操作PBS腳本中可以指定多個作業(yè)之間的依賴關(guān)系,比如作業(yè)提交前另一個作業(yè)必須完成,否則處于排隊狀態(tài)#PBS-Nstep2#PBS-lnodes=4:ppn=4#PBS-qhigh#PBS-Wdepend=after:<JOB_ID>…#PBS-Njob_rerun#PBS-lnodes=4:ppn=4#PBS-qhigh#PBS-Wdepend=afternotok:<JOB_ID>…當指定作業(yè)非正常結(jié)束,作業(yè)才能提交運行332.4.5PBS作業(yè)其他操作PBS腳本中可以指定多個作業(yè)作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A

提綱34作業(yè)調(diào)度系統(tǒng)概述提綱34Torque帶有自己的默認調(diào)度策略器(pbs_sched),但是這個最基本的調(diào)度策略并不高級。它根據(jù)fifo的原則安排作業(yè),對一般的集群管理應(yīng)該是足夠了,但如果你的集群有幾百個以上節(jié)點,分成若干個隊列,那pbs_sched就力不從心了。

為此,可以使用一系列第三方的調(diào)度策略進行補充。Maui就是被廣泛使用的調(diào)度策略之一。3.1Maui調(diào)度器介紹35Torque帶有自己的默認調(diào)度策略器(pbs_s3.1Maui調(diào)度器介紹Maui采用積極的調(diào)度策略優(yōu)化資源的利用和減少作業(yè)的響應(yīng)時間。Maui的資源和負載管理允許高級的參數(shù)配置:作業(yè)優(yōu)先級(JobPriority)、調(diào)度和分配(SchedulingandAllocation)、公平性和公平共享(FairnessandFairshare)和預留策略(ReservationPolicy)。Maui的QoS機制允許資源和服務(wù)的直接傳遞、策略解除(PolicyExemption)和指定特征的受限訪問。Maui需要資源管理器和其配合使用。我們可以把Maui想象為PBS中的一個插入部件。363.1Maui調(diào)度器介紹Maui采用積極的調(diào)度策集群已安裝配置好Torque解壓源文件包

tarzxvfmaui-3.2.6p17.tar.gz

編譯設(shè)置

cdmaui-3.2.6p17./configure--with-pbs=/usr/local

--with-pbs指定Torque安裝目錄編譯和安裝

make makeinstall3.1Maui安裝(Server)37集群已安裝配置好Torque3.1Maui安裝(Serve編輯啟動腳本cdmaui-3.2.6p17cpetc/maui.d/etc/init.d/vim/etc/init.d/maui.d

修改其中的”

MAUI_PREFIX=/usr/local/maui”(maui的安裝目錄)停用pbs_sched,啟用mauichkconfigpbs_schedoffchkconfigmaui.donservicepbs_schedstopservicemaui.dstart3.1Maui安裝(Server)38編輯啟動腳本3.1Maui安裝(Server)38Maui的配置參數(shù)都寫在配置文件maui.cfg中,配置參數(shù)可以參考官方手冊MauiAdministrator'sGuide主要參數(shù)如下:vimmaui.cfg#設(shè)置Maui服務(wù)器主機名

SERVERHOST

server#一級權(quán)限用戶,擁有Maui所有控制權(quán)限,包括更改調(diào)度策略,更改作業(yè)屬性

ADMIN1

root#二級權(quán)限用戶,不能更改調(diào)度策略,但能更改作業(yè)屬性ADMIN2zhangwangzhao#三級權(quán)限用戶,只有查看權(quán)限,ALL表示所有賬戶ADMIN3ALL3.2Maui配置39Maui的配置參數(shù)都寫在配置文件maui.cfg中,配置參數(shù)#定義資源管理器(ResourceManager),指定類型為PBS,以及Torque服務(wù)器主機名,刷新資源信息的時間,端口號

RMCFG[0]TYPE=PBSHOST=server

RMPOLLINTERVAL

00:00:30

SERVERPORT

42559

SERVERMODE

NORMAL#日志設(shè)置

LOGFILE

maui.log

LOGFILEMAXSIZE

10000000

LOGLEVEL

3

3.2Maui配置40#定義資源管理器(ResourceManager),指定#設(shè)置Fairshare策略

#FSPOLICY

PSDEDICATED

#FSDEPTH

7

#FSINTERVAL

86400

#FSDECAY

0.80#設(shè)置回填(Backfill)策略

BACKFILLPOLICY

FIRSTFIT

RESERVATIONPOLICY

CURRENTHIGHEST#節(jié)點分配策略

#NODEALLOCATIONPOLICY

MINRESOURCE

#NODEALLOCATIONPOLICY

CPULOAD #NODEALLOCATIONPOLICY

SHARED

NODEALLOCATIONPOLICY

FIRSTAVAILABLE

3.2Maui配置41#設(shè)置Fairshare策略3.2Maui配置41#QOS配置QOSCFG[preemptor]QFLAGS=PREEMPTORQOSCFG[preemptee]QFLAGS=PREEMPTEECLASSCFG[high]PRIORITY=11000QDEF=preemptorCLASSCFG[low]PRIORITY=6000QDEF=preempteeCLASSCFG[middle]PRIORITY=9000QDEF=preemptee#用戶優(yōu)先級設(shè)置USERCFG[root]MAXPROC=400MAXNODE=100MAXJOB=100USERCFG[test]PRIORITY=100MAXPROC=200MAXJOB=10USERCFG[DEFAULT]PRIORITY=100MAXPROC=100MAXJOB=43.2Maui配置42#QOS配置3.2Maui配置42作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A

提綱43作業(yè)調(diào)度系統(tǒng)概述提綱43

4曙光Gridview作業(yè)調(diào)度中間件介紹功能中間件應(yīng)用使用方法444曙光Gridview作業(yè)調(diào)度中間件介紹功能中間件應(yīng)用使作業(yè)調(diào)度中間件結(jié)構(gòu)圖4.1曙光Gridview作業(yè)調(diào)度中間件45作業(yè)調(diào)度中間件結(jié)構(gòu)圖4.1曙光Gridview作業(yè)調(diào)度中間增加節(jié)點修改節(jié)點刪除節(jié)點創(chuàng)建隊列修改隊列刪除隊列隊列節(jié)點用戶修改用戶身份修改用戶等級修改用戶權(quán)限強大的資源管理4.2作業(yè)調(diào)度中間件功能46增加節(jié)點創(chuàng)建隊列隊列節(jié)點用戶修改用戶身份強大的資源管理4.2基于WEB圖形界面集成度高,嵌入到Gridview中流程簡單界面友好1423輕巧的專業(yè)應(yīng)用提交4.2作業(yè)調(diào)度中間件功能47基于WEB圖形界面集成度高,嵌入到Gridview中流程簡單管理多個集群1提供完善的參數(shù)設(shè)置2靈活的提交方式34.2作業(yè)調(diào)度中間件功能作業(yè)提交48管理多個集群1提供完善的參數(shù)設(shè)置2靈活的提交方式34.2作提供作業(yè)監(jiān)控功能1提供修改作業(yè)狀態(tài)功能2提供多集群作業(yè)監(jiān)控34.2作業(yè)調(diào)度中間件功能作業(yè)管理49提供作業(yè)監(jiān)控功能1提供修改作業(yè)狀態(tài)功能2提供多集群作業(yè)監(jiān)控3提供多個時間段的報表提供多種存儲格式實用的用戶管理和記賬功能4.2作業(yè)調(diào)度中間件功能50提供多個時間段的報表提供多種存儲格式實用的用戶管理和記賬功能穩(wěn)定性高4.2作業(yè)調(diào)度中間件功能代碼保護審查嚴格備份作業(yè)調(diào)度系統(tǒng)恢復作業(yè)調(diào)度系統(tǒng)功能穩(wěn)定01測試嚴格02具有備份功能單元測試嚴格集成測試嚴格兼容性測試嚴格0351穩(wěn)定性高4.2作業(yè)調(diào)度中間件功能代碼保護備份作業(yè)調(diào)度系統(tǒng)功MPI程序,例如:Vasp、WRF、mpiBLAST

等等典型的商業(yè)軟件,例如:Gaussian、Fluent、Ansys等等應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合常用的mpi程序常用的商業(yè)軟件用戶自己開發(fā)的串行并行程序4.3GridView作業(yè)調(diào)度的應(yīng)用52MPI程序,例如:典型的商業(yè)軟件,例如:應(yīng)用與作業(yè)調(diào)度系統(tǒng)相常用軟件DOCKMPIBLAST···常用軟件常用軟件工程量子力學生物常用軟件AMBERCHARMMGROMACSNAMDLAMMPS···分子動力學應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合高性能主要領(lǐng)域主要業(yè)務(wù)軟件得到各個領(lǐng)域的首席工程師的驗證4.3GridView作業(yè)調(diào)度的應(yīng)用ANSYSLSDYNACFXCOMSOLFLUENT···ABINITGAUSSIANPWSCFVASP···53常用軟件DOCK常用軟件常用軟件工程量子力學生物常用軟件A4.4GridView作業(yè)調(diào)度的使用544.4GridView作業(yè)調(diào)度的使用544.4.1節(jié)點監(jiān)控節(jié)點監(jiān)控提供以下幾個功能(1)監(jiān)控節(jié)點狀態(tài)(2)增加節(jié)點(3)刪除節(jié)點(4)重啟節(jié)點進程554.4.1節(jié)點監(jiān)控節(jié)點監(jiān)控提供以下幾個功能554.4.1節(jié)點監(jiān)控564.4.1節(jié)點監(jiān)控564.4.2隊列管理隊列管理主要包含對隊列的創(chuàng)建、刪除、修改和查看等操作。只有root用戶和用戶管理中規(guī)定的管理員才能打開隊列管理的主頁面,從而操作控制隊列。574.4.2隊列管理隊列管理主要包含對隊列的4.4.2隊列管理584.4.2隊列管理584.4.2隊列管理594.4.2隊列管理594.4.3用戶設(shè)置用戶管理主要是對用戶在作業(yè)調(diào)度系統(tǒng)中的身份、優(yōu)先級,以及在作業(yè)調(diào)度系統(tǒng)對資源的使用和使用上限進行設(shè)置、修改和查看。這里的用戶是指已經(jīng)存在于操作系統(tǒng)中的一般用戶,不包括root用戶和用戶ID小于500的系統(tǒng)用戶。604.4.3用戶設(shè)置用戶管理主要是對用戶在作業(yè)4.4.3用戶設(shè)置614.4.3用戶設(shè)置614.4.4作業(yè)提交

該作業(yè)調(diào)度系統(tǒng)主要通過web頁面將作業(yè)提交給調(diào)度器。系統(tǒng)中有三種提交方式:(1)Portal提交(2)腳本方式提交(3)命令行方式提交每次只能選擇一種方式提交,在打開提交窗口時,默認是第一種提交方式。624.4.4作業(yè)提交624.4.4.1portal提交根據(jù)應(yīng)用特點定制,目前集成了19種軟件,具體使用方法見手冊《Gridview_應(yīng)用Portal_用戶手冊》634.4.4.1portal提交根據(jù)應(yīng)用4.4.4.1portal提交644.4.4.1portal提交644.4.4.1portal提交用戶針對應(yīng)用特殊配置每個應(yīng)用在$HOME/.clusportal/目錄下有個對應(yīng)的.setting文件,前綴為應(yīng)用名。Fluentfluent.setting##runsettingprog_default=/public/software/ansys_inc/v121/fluent/bin/fluentprog_list=/public/software/ansys_inc/v121/fluent/bin/fluent:##runfilesettingFluent_ENVFILE=/public/software/profile.d/fluent-env.sh654.4.4.1portal提交用戶針對應(yīng)用特殊配置Flu4.4.4.2腳本和命令行提交664.4.4.2腳本和命令行提交664.4.4.2腳本和命令行提交674.4.4.2腳本和命令行提交674.4.4.1portal提交機群上作業(yè)情況myjobidis326.node1runnodesisfollowing:node4node4node4node4begintimeisTueAug2111:09:34CST2012/public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent-r12.1.42d-g-t4-cnf=/opt/gridview//pbs//dispatcher/aux//326.node1-ssh-mpi=openmpi-i/home/shenj/work/fluent/3/cavity.jou……>parallel/timer/usagePerformanceTimerfor300iterationson4computenodesAveragewall-clocktimeperiteration:0.002secGlobalreductionsperiteration:53opsGlobalreductionstimeperiteration:0.000sec(0.0%)……Totalwall-clocktime:0.560secTotalCPUtime:2.300sec……endtimeisTueAug2111:09:51CST2012684.4.4.1portal提交機群上作業(yè)情況myjob實現(xiàn)了平臺無關(guān)的單一系統(tǒng)映像,減小了用戶的軟件安裝以及跨平臺使用的學習成本。實現(xiàn)了對高性能計算的完美封裝。實現(xiàn)了對應(yīng)用的性能提升。實現(xiàn)了對應(yīng)用的高度優(yōu)化,包括通信方式、網(wǎng)絡(luò)連接等多種并行計算參數(shù),為用戶提供了計算性能的自動優(yōu)化。高容錯性保障。實現(xiàn)了對用戶輸入、系統(tǒng)命令、文件權(quán)限、作業(yè)調(diào)度系統(tǒng)等多方面的檢查與確認功能,提高用戶作業(yè)的成功率。基于web方式的提交。提交方式的限制,可降低用戶操作難度,減少用戶操作帶來的系統(tǒng)不穩(wěn)定因素,同時提高高性能和計算內(nèi)部網(wǎng)絡(luò)的安全性。支持用戶定制開發(fā)。GridviewWebPortal優(yōu)勢69實現(xiàn)了平臺無關(guān)的單一系統(tǒng)映像,減小了用戶的軟件安裝以及跨平臺“VNC管理”提供了查詢、打開和刪除等管理操作的功能。root和Gridview管理員可以查詢或者打開所有的VNC會話,而普通用戶僅能查詢和打開自身的VNC會話。按鈕區(qū)域集群列表會話列表4.4.5VNC集成功能70“VNC管理”按鈕區(qū)域集群列表會話列表4.4.5VNC集打開VNC會話選中某一個VNC會話,然后單擊“打開會話”按鈕,這時系統(tǒng)會打開一個新的“VNC打開”Tab頁來呈現(xiàn)當前選中的VNC會話的窗口內(nèi)容。4.4.5VNC集成功能71打開VNC會話選中某一個VNC會話,然后單擊“打開會話”按鈕刪除VNC會話刪除會話用戶可以一次選中一個或者多個會話,刪除會話。注意:如果被刪除的會話正在被用戶打開使用,刪除之后那些打開的VNC窗口會被關(guān)閉,并且提示網(wǎng)絡(luò)錯誤。4.4.5VNC集成功能72刪除VNC會話刪除會話注意:4.4.5VNC集成功能724.4.6作業(yè)管理作業(yè)管理主要包含對作業(yè)的查詢、控制和刪除等操作。對作業(yè)的控制包括保留、釋放、掛起、恢復、重新運行等操作。新作業(yè)查詢功能管理員可以刪除任何作業(yè);普通用戶只能刪除自己的作業(yè),可以選擇多個作業(yè)同時刪除。734.4.6作業(yè)管理作業(yè)管理主要包含對作業(yè)的查詢4.4.7歷史作業(yè)744.4.7歷史作業(yè)74主要特點支持管理員和普通用戶報表權(quán)限區(qū)分管理員可統(tǒng)計所有數(shù)據(jù)普通用戶僅可統(tǒng)計自身數(shù)據(jù)支持多種導出方式PDF、EXCEL、HTML支持多個字段的復合邏輯查詢字段包括時間、用戶、關(guān)鍵字等邏輯關(guān)系包括“與”、“或”支持從不同的角度進行統(tǒng)計用戶統(tǒng)計、節(jié)點統(tǒng)計、作業(yè)統(tǒng)計、集群統(tǒng)計提供總表和詳表方便匯報和對賬

4.4.8作業(yè)記賬75主要特點4.4.8作業(yè)記賬754.4.8作業(yè)記賬查詢條件支持多個字段時間用戶名作業(yè)名應(yīng)用類型關(guān)鍵字…支持與或邏輯允許設(shè)置字段間的與或關(guān)系支持精確/模糊匹配允許設(shè)置匹配方式764.4.8作業(yè)記賬查詢條件764.4.8作業(yè)記賬用戶作業(yè)統(tǒng)計總表用戶作業(yè)統(tǒng)計詳表4.4.8作業(yè)記賬用戶作業(yè)統(tǒng)計總表用戶作業(yè)統(tǒng)計詳表4.4.8作業(yè)記賬節(jié)點使用統(tǒng)計詳表節(jié)點使用統(tǒng)計總表784.4.8作業(yè)記賬節(jié)點使用統(tǒng)計詳表節(jié)點使用統(tǒng)計總表784.4.8作業(yè)記賬CPU使用時間統(tǒng)計794.4.8作業(yè)記賬CPU使用時間統(tǒng)計794.4.8作業(yè)記賬歷史作業(yè)詳表歷史作業(yè)總表4.4.8作業(yè)記賬歷史作業(yè)詳表歷史作業(yè)總表4.4.9統(tǒng)計視圖814.4.9統(tǒng)計視圖81Q&A82Q&A82謝謝!83謝謝!83高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司84高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司1

提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A85提綱作業(yè)調(diào)度系統(tǒng)概述21.1集群使用中存在的問題節(jié)點多用戶多任務(wù)多861.1集群使用中存在的問題節(jié)點多用戶多任務(wù)多3系統(tǒng)資源整合異構(gòu)資源,軟硬件資源的整合任務(wù)綜合管理用戶提交的任務(wù)的統(tǒng)一安排用戶權(quán)限的管理對用戶進行各類權(quán)限控制1.2作業(yè)調(diào)度系統(tǒng)的功能871.2作業(yè)調(diào)度系統(tǒng)的功能4資源管理器: 管理集群的軟硬件資源及認證信息等隊列管理器: 管理當前所有已提交但還未完成的作業(yè)調(diào)度器: 為作業(yè)分配資源1.3作業(yè)調(diào)度系統(tǒng)的組成88資源管理器:1.3作業(yè)調(diào)度系統(tǒng)的組成5作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成89作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3作業(yè)調(diào)度系統(tǒng)的組成61.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史901.4作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史7

提綱作業(yè)調(diào)度系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)Maui調(diào)度器曙光Gridview作業(yè)調(diào)度中間件Q&A91提綱作業(yè)調(diào)度系統(tǒng)概述8

PBS(PortableBatchSystem),最初由NASA的Ames研究中心開發(fā),設(shè)計為一個能滿足異構(gòu)計算網(wǎng)絡(luò)需要的軟件包。它力求提供對批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機間的路由。

PBS的開源版本為OpenPBS,目前已經(jīng)停止開發(fā)。PBS的商業(yè)版為PBSPro,由Altair公司開發(fā)和維護。TORQUE(Tera-scaleOpen-sourceResourceandQueuemanager)為OpenPBS的后續(xù)開源版本,修正了OpenPBS的很多bug,功能和可擴展性都有很大提高。2.1PBS作業(yè)調(diào)度系統(tǒng)92PBS(PortableBatchSystem服務(wù)器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom2.2PBS的組成93服務(wù)器:pbs_server2.2PBS的組成10解壓源文件包

tarzxvftorque-2.5.12.tar.gz編譯設(shè)置

cdtorque-2.5.12./configure--prefix=/usr/local\

--with-server-home=/var/spool/torque\

--enable-syslog\

--with-scp\

--enable-docs

默認情況下,TORQUE將可執(zhí)行文件安裝在/usr/local/bin和/usr/local/sbin下。其余的配置文件和運行時環(huán)境將安裝在/var/spool/torque下編譯和安裝

make makeinstall2.3

PBS的安裝(TorqueServer端)94解壓源文件包2.3PBS的安裝(TorqueServe節(jié)點操作系統(tǒng)相同,可以用如下SHELL腳本在計算節(jié)點(torque客戶端)上安裝#在管理節(jié)點上makepackages#!/bin/bashforiin`seq120`;doecho=====node$i=====

ssh

node$i/public/sourcecode/torque-2.5.12/\torque-package-mom-linux-*.sh--installDone2.3PBS的安裝(TorqueClient端)95節(jié)點操作系統(tǒng)相同,可以用如下SHELL腳本在計算節(jié)點(tor以root作為torque的管理員賬號創(chuàng)建作業(yè)隊列 在torque的安裝源文件根目錄中,執(zhí)行

./torque.setuprootServer配置目錄/var/spool/torque/server_priv/計算節(jié)點列表及屬性:/var/spool/torque/server_priv/nodes node2np=12amdchem node3np=12amdchem node4np=8intelchem node5np=8intelchem node6np=4intelbiogpu node7np=4intelbiogpu2.3PBS

Server配置96以root作為torque的管理員賬號創(chuàng)建作業(yè)隊列2.3PServer的系統(tǒng)啟動腳本/etc/init.d/pbs_serverScheduler系統(tǒng)啟動腳本/etc/init.d/pbs_schedMom系統(tǒng)啟動腳本/etc/init.d/pbs_momTorque服務(wù)端chkconfigpbs_serveronchkconfigpbs_schedonservicepbs_serverstartservicepbs_schedstartTorque客戶端chkconfigpbs_momonservicepbs_momstart2.3

PBS系統(tǒng)服務(wù)97Server的系統(tǒng)啟動腳本/etc/init.d/pbs_2.4

PBS主要操作隊列設(shè)置節(jié)點查看提交作業(yè)查看作業(yè)作業(yè)其他操作982.4PBS主要操作隊列設(shè)置節(jié)點查看提交作業(yè)查看作業(yè)作業(yè)其PBS要能正常運行還需要通過qmgr命令在server進行配置,設(shè)置一些屬性。輸入qmgr命令進入配置交互命令,格式為

qmgr動作對象類型和操作符

動作對象類型對象名屬性操作符值(,屬性操作符值)……create創(chuàng)建一個對象delete刪除一個對象set設(shè)置對象的屬性unset除去對象的屬性print打印對象的屬性list列出對象的屬性server服務(wù)器=queue隊列+=node節(jié)點-=2.4.1PBS的隊列設(shè)置99PBS要能正常運行還需要通過qmgr命令在server進行配創(chuàng)建隊列createqueue隊列名queue_type=execution打開和啟動隊列setqueue隊列名enable=t,started=t打開調(diào)度setserverscheduling=t設(shè)置默認隊列setserverdefault_queue=隊列名2.4.1PBS的隊列設(shè)置下面是讓PBS可以正常運行的基本設(shè)置100創(chuàng)建隊列createqueue隊列名queue_typ導入server配置文件

qmgr<queue.conf備份配置文件

qmgr-c“printserver”>queue.conf配置文件例子

createqueuedefaultsetqueuedefaultqueue_type=executionsetqueuedefaultmax_running=10setqueuedefaultenabled=Truesetqueuedefaultstarted=Truesetserverscheduling=Truesetserverdefault_queue=defaultsetserverquery_other_jobs=True2.4.1PBS的隊列設(shè)置101導入server配置文件createqueuede資源和用戶限制

resources_default.cput該隊列默認的作業(yè)的CPU時間,格式:時:分:秒注意:該CPU時間為:進程數(shù)*(結(jié)束時間-開始時間)resources_default.walltime該隊列默認的墻上時間,格式:時:分:秒max_running某隊列最多可運行的作業(yè)數(shù),如果該項為0或沒有該項,表示沒有限制max_user_run一個用戶最多可以運行的作業(yè)數(shù)acl_user_enable是否啟用用戶訪問控制,如果acl_user_enable=True,則在acl_users中列出的用戶才能使用該隊列acl_users格式:<用戶名@主機名>,用戶名不接受通配符acl_host_enable如果acl_host_enable=True,則acl_hosts屬性中列出的主機才能使用該隊列acl_hosts該隊列可以使用的節(jié)點列表2.4.1PBS的隊列設(shè)置102資源和用戶限制 resources_default.cput[dawning@node1~]$pbsnodes-anode2

state=free

np=12

ntype=clusterstatus=rectime=1347344839,varattr=,jobs=,state=free,netload=1994804223313,gres=,loadave=0.15,ncpus=32,physmem=132133404kb,availmem=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linuxnode22.6.32-220.el6.x86_64#1SMPWedNov908:03:13EST2011x86_64,opsys=linux

gpus=0node3state=down

np=12

ntype=cluster…2.4.2PBS查看節(jié)點狀態(tài)103[dawning@node1~]$pbsnodes-apbsnodes命令的主要參數(shù)-a列出所有結(jié)點及其屬性,屬性包括“state”和“status”-o將指定結(jié)點的狀態(tài)標記為“offline”。這將幫助管理員暫時停止某些結(jié)點的服務(wù)-l以行的方式列出被標記的結(jié)點的狀態(tài),如-lfree,-loffline-c清除結(jié)點列表中的“offline”或“down”狀態(tài)設(shè)置,使結(jié)點可以被分配給作業(yè)-r清除指定結(jié)點的“offline”狀態(tài)2.4.2PBS查看節(jié)點狀態(tài)104pbsnodes命令的主要參數(shù)2.4.2PBS查看節(jié)點狀態(tài)步驟:準備:編寫描述該作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器排隊:服務(wù)器將該任務(wù)排入適當?shù)年犃姓{(diào)度:服務(wù)器檢查各工作節(jié)點的狀態(tài)是否符合該作業(yè)的要求,并進行調(diào)度。執(zhí)行:當條件滿足時,作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運行時執(zhí)行服務(wù)器會收集程序的標準輸出和標準錯誤流,等程序結(jié)束時,將這些信息返回給用戶。查詢和調(diào)整:當作業(yè)在運行時,用戶可以使用qstat進行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯誤時,可以使用qdel刪除正在運行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯誤信息顯示。2.4.3PBS作業(yè)提交105步驟:2.4.3PBS作業(yè)提交22在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序。用戶運行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,如下qsub<PBS作業(yè)腳本>2.4.3PBS作業(yè)提交基本命令#PBS-Nvasp#PBS-lnodes=2:ppn=1#PBS-lwalltime=12:00:00#PBS-qdefaultcd$PBS_O_WORKDIR./test.exe作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運行106在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序運行參數(shù)說明-a<作業(yè)開始運行的時間>向PBS系統(tǒng)指定作業(yè)運行的開始時間。作業(yè)運行時間格式為:[[[[CC]YY]MM]DD]hhmm[.SS]-A<用戶名>使用不同的用戶來提交作業(yè),缺省使用當前用戶名-o<標準輸出文件的路徑>-e<標準錯誤輸出的路徑>該參數(shù)指定標準錯誤輸出的位置,缺省的情況下,PBS系統(tǒng)把標準輸出和標準錯誤輸出放在用戶qsub命令提交作業(yè)的目錄下。標準錯誤輸出:<作業(yè)名>.o<作業(yè)號>標準錯誤輸出:<作業(yè)名>.e<作業(yè)號>路徑使用如下格式標準:[<節(jié)點名>:]<路徑名>-N<作業(yè)名>指定提交的作業(yè)名-q<目標隊列>指定作業(yè)提交的目標隊列。如果該參數(shù)沒有指定,命令qsub會把作業(yè)腳本提交到缺省的隊列中。-l<申請資源列表>該參數(shù)指定作業(yè)腳本申請的PBS系統(tǒng)資源列表。申請資源列表使用如下格式:

<資源名>[=[<數(shù)量>]][,資源名[=[<數(shù)量>]],…..]例如作業(yè)希望申請在雙路節(jié)點上申請4個CPU資源的情況,則可以在腳本中如下:#PBS–lnodes=2:ppn=2運行參數(shù)在PBS腳本和qsub命令行中均有效,qsub命令行參數(shù)的優(yōu)先級更高2.4.3PBS運行參數(shù)107運行參數(shù)說明-a<作業(yè)開始運行的時間>向變量名說明登陸SHELL繼承來的變量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的節(jié)點名稱$PBS_O_QUEUEqsub提交的作業(yè)的最初隊列名稱$PBS_O_WORKDIRqsub提交的作業(yè)的絕對路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號$PBS_JOBNAME用戶指定的作業(yè)名,可以在作業(yè)提交的時候用qsub–N<作業(yè)名>指定,或者在PBS腳本中加入#PBS–N<作業(yè)名>。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運行的節(jié)點名。該變量在并行機和機群中使用。當在PBS腳本中用#PBS–lnodes=2:ppn=2指定程序運行的節(jié)點數(shù)時,可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運行的節(jié)點名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE<程序名>$PBS_QUEUEPBS腳本在執(zhí)行時的隊列名2.4.3PBS環(huán)境變量108變量名說明登陸SHELL繼承來的變量包括$H#這是一個串行作業(yè)腳本的例子#PBS-Ntest#PBS-lnodes=1:ppn=1cd$HOME/test/./a.out>$HOME/result/a.result#這是一個并行作業(yè)腳本的例子#PBS-Nvasp_job#PBS-lnodes=2:ppn=2#PBS-qlowechoThisjobis$PBS_JOBID@$PBS_QUEUEcd

$PBS_O_WORKDIRmpirun-np16-machinefile

$PBS_NODEFILE./vasp2.4.3PBS腳本舉例#PBS-lnodes=2:ppn=4:amd:chem#PBS-lnodes=1:ppn=8:chem+1:ppn=8:bio#PBS-lnodes=node1:ppn=8+node2:ppn=8指定節(jié)點特性109#這是一個串行作業(yè)腳本的例子#這是一個并行作業(yè)腳本的例子一些軟件有特殊的節(jié)點指定格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論