版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 某高校高性能計(jì)算集群部署文檔(瘦節(jié)點(diǎn)部分)2012年11月25日目錄1.文檔更新歷史42.集群概覽53.準(zhǔn)備工作53.1.對所有節(jié)點(diǎn)的內(nèi)置硬盤建立raid53.2.收集物理信息64.部署管理節(jié)點(diǎn)操作系統(tǒng)64.1.安裝操作系統(tǒng)64.2.系統(tǒng)安裝完之后配置75.安裝配置platform hpc集群管理軟件75.1.安裝包準(zhǔn)備85.2.執(zhí)行安裝程序85.3.安裝過程中的操作86.使用platform hpc做操作系統(tǒng)分發(fā)96.1.配置網(wǎng)絡(luò)接口96.2.為刀片機(jī)hs22操作系統(tǒng)分發(fā)126.3.對刀片組hs12操作系統(tǒng)分發(fā)166.4.對io節(jié)點(diǎn)做系統(tǒng)分發(fā)206.5.對login節(jié)點(diǎn)做系統(tǒng)分發(fā)237.使
2、用platform hpc維護(hù)操作系統(tǒng)分發(fā)267.1.移除已經(jīng)部署的操作系統(tǒng)267.2.重新部署操作系統(tǒng)277.3.部署新的機(jī)器277.4.維護(hù)部署模板內(nèi)容288.gpfs配置方法298.1.xiv近線存儲劃分298.2.xiv存儲驅(qū)動安裝298.3.安裝gpfs298.4.創(chuàng)建gpfs集群298.5.創(chuàng)建gpfs網(wǎng)絡(luò)共享磁盤(nsd)338.6.創(chuàng)建gpfs文件系統(tǒng)349.集群測試和作業(yè)提交369.1.集群啟動379.2.集群狀態(tài)管理379.3.創(chuàng)建用戶399.4.為新管理員分配管理員權(quán)限399.5.提交作業(yè)399.6.查看作業(yè)錯(cuò)誤!未定義書簽。9.7.mpi測試作業(yè)4010.集群網(wǎng)絡(luò)配置4
3、111.安裝文件目錄說明4112.常見問題4212.1.新增系統(tǒng)用戶4212.2.新增gpfs節(jié)點(diǎn)4212.3.共享目錄沒有內(nèi)容4212.4.platform hpc安裝時(shí)遇到錯(cuò)誤4212.5.如正在分發(fā)的節(jié)點(diǎn)遇到“error downloading kickstart file”錯(cuò)誤4212.6.網(wǎng)絡(luò)無法連通4312.7.密碼無法登錄431. 本集群硬件及規(guī)劃簡介ibm 機(jī)柜6個(gè),h型刀籠18個(gè),hs12刀片(計(jì)算節(jié)點(diǎn))200個(gè),hs22刀片(計(jì)算節(jié)點(diǎn))50個(gè),配置為雙硬盤,做raid1,10g以太網(wǎng)卡+40g ib網(wǎng)卡;3650 pc server 9臺,一臺做管理節(jié)點(diǎn)(標(biāo)配),其他8臺做
4、io節(jié)點(diǎn),配置1g以太網(wǎng)卡+40g ib網(wǎng)卡+兩塊8g hba卡,雙通道連xiv(60tb,san外儲),并行文件系統(tǒng)gpfs用;3620 4臺,配置1塊10g以太網(wǎng)卡,做登錄節(jié)點(diǎn)。10g和1g以太交換機(jī)各一臺,8g san 交換機(jī)兩臺,40g ib 交換機(jī)7臺,kvm switch 2臺。計(jì)算節(jié)點(diǎn)、管理節(jié)點(diǎn)、io節(jié)點(diǎn)、登錄節(jié)點(diǎn)的private網(wǎng)段為/16;計(jì)算節(jié)點(diǎn)、io節(jié)點(diǎn)的ib網(wǎng)段為/16;計(jì)算節(jié)點(diǎn)、管理節(jié)點(diǎn)、io節(jié)點(diǎn)、登錄節(jié)點(diǎn)及外圍設(shè)備的管理網(wǎng)段為/16;管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)的public網(wǎng)段為/16。2. 集
5、群概覽搭建高性能計(jì)算集群,大致可分為準(zhǔn)備工作、部署操作系統(tǒng)、部署系統(tǒng)級軟件以及測試四個(gè)階段。本實(shí)施文檔也按照這四個(gè)階段來組織,具體如下表:工作階段工作項(xiàng)目工作簡述準(zhǔn)備工作收集物理設(shè)備信息收集ip地址劃分,mac地址,機(jī)器命名規(guī)則等信息;確認(rèn)組網(wǎng)情況,以及設(shè)備的工作狀態(tài)收集管理amm和imm的信息收集amm和imm的管理信息檢查內(nèi)置硬盤創(chuàng)建raid情況為節(jié)點(diǎn)內(nèi)置硬盤創(chuàng)建raid,提高系統(tǒng)的可靠性以及性能配置xiv存儲配置集群需要的存儲設(shè)備部署操作系統(tǒng)為管理節(jié)點(diǎn)安裝操作系統(tǒng)安裝rhel6.2操作系統(tǒng)安裝配置platform hpc在管理節(jié)點(diǎn)安裝配置platform hpc3.2,為其他節(jié)點(diǎn)部署操作
6、系統(tǒng)做準(zhǔn)備利用platform hpc部署操作系統(tǒng)通過hpc管理界面,創(chuàng)建network和node group,部署計(jì)算節(jié)點(diǎn),io節(jié)點(diǎn),登錄節(jié)點(diǎn)若干收尾工作檢查服務(wù)器的運(yùn)行狀態(tài),收集故障原因等部署系統(tǒng)軟件配置infiniband安裝ib驅(qū)動,為ib配置ip安裝配置gpfs在io節(jié)點(diǎn)及所有計(jì)算節(jié)點(diǎn)安裝配置gpfs集群配置和測試集群配置檢查和配置集群的配置信息,比如禁止在io服務(wù)器和登錄節(jié)點(diǎn)運(yùn)行作業(yè)集群測試測試集群的作業(yè)運(yùn)行狀態(tài)3. 準(zhǔn)備工作3.1. 對所有節(jié)點(diǎn)的內(nèi)置硬盤建立raid 每個(gè)節(jié)點(diǎn)都配置不止一塊硬盤,為了提高系統(tǒng)的可靠性,我們?yōu)樗泄?jié)點(diǎn)的內(nèi)置硬盤建立raid,配置情況如下表所示:節(jié)點(diǎn)硬
7、盤配置raid配置50臺hs22刀片節(jié)點(diǎn)2塊1tb hdraid1200臺hs12刀片節(jié)點(diǎn)2塊1tb hdraid11臺管理節(jié)點(diǎn)x36502塊1tb hdraid18臺i/o節(jié)點(diǎn)x36502塊1tb hdraid14臺登錄節(jié)點(diǎn)x36202塊1tb hdraid13.2. 收集物理信息 如下文件是添加機(jī)器 時(shí)所需的host configuration files。如下文檔主要包括的內(nèi)容和格式為:mac,ip,hostname如下所示:00:00:00:00:00:00,,cn-22-00111:11:11:11:11:11,,cn-22-00222:22:
8、22:22:22:22,,cn-22-00333:33:33:33:33:33,,cn-22-00444:44:44:44:44:44,,cn-22-00555:55:55:55:55:55,,cn-22-00666:66:66:66:66:74,,cn-22-00777:77:77:77:77:77,,cn-22-00888:88:88:88:88:88,,cn-22-00999:99:99:99:99:99,0,cn-22-010以
9、上mac地址為舉例,應(yīng)以實(shí)際地址為準(zhǔn)。4. 部署管理節(jié)點(diǎn)操作系統(tǒng)4.1. 安裝操作系統(tǒng)用rhel6.2 x64光盤安裝管理節(jié)點(diǎn)。安裝時(shí)要注意以下兩點(diǎn): 當(dāng)詢問hostname時(shí)輸入全域名(fqdn),例如mn- 手動配置靜態(tài)ip地址。eth0: 54/16 gateway 無, eth1: 54/16 gateway 當(dāng)詢問安裝軟件集時(shí)選擇“basic server” 當(dāng)詢問是否創(chuàng)建用戶時(shí)選擇”不創(chuàng)建”。創(chuàng)建用戶需在hpc裝完之后,以同步到所有計(jì)算節(jié)點(diǎn)。 root密碼設(shè)置為: *4.2. 系統(tǒng)安裝完之后配置1. 安裝createre
10、po包a) mount rhel6.2x64安裝介質(zhì):mount /dev/cdrom /mnt b) 在/etc/yum.repos.d/下創(chuàng)建local.repo文件內(nèi)容如下: local-servername=rhel-local-server baseurl=file:/mnt/server enabled=1 gpgcheck=0c) 運(yùn)行yum install createrepo 安裝createrepo包2. platform hpc用md5為認(rèn)證方式,在系統(tǒng)中使用如下命令修改并重新輸入root密碼:# authconfig -enableshadow -enablemd5 -
11、passalgo=md5 -update# passwd root3. disable selinux,在/etc/selinux/config 中設(shè)置“selinux=disabled”.4. 確認(rèn)沒有安裝如下rpms# rpm qa|grep python-ipy # rpm qa|grep python-sqlalchemy # rpm qa|grep python-sqlite2 如包含,用rpm e全部刪除。5. 停止networkmanager# /etc/init.d/networkmanager stop6. 停止usb ethernet 在bios中禁用usb網(wǎng)卡或者執(zhí)行以下
12、命令移除usb ethernet模塊 # rmmod cdc_ether # rmmod usbnet5. 安裝配置platform hpc集群管理軟件插入安裝光盤,platform hpc 3.2安裝iso文件保存在/home/platform/下。# mount /dev/cdrom /mnt/# mkdir /home/platform/# cp /mnt/hpc-3.2-with-pcm.rhel.iso /home/platform/5.1. 安裝包準(zhǔn)備在/home/platform/下建立hpc-install目錄然后將安裝包iso文件掛載于此目錄。然后執(zhí)行如下命令:# mkdir
13、 /home/platform/hpc-install# mount -o loop /home/platform/hpc-3.2-with-pcm.rhel.iso /home/platform/hpc-install5.2. 執(zhí)行安裝程序進(jìn)入掛載目錄執(zhí)行安裝程序pcm-installer。# cd /root/hpc-install# ./pcm-installer5.3. 安裝過程中的操作安裝過程中需做以下設(shè)置: 如安裝程序提示找到現(xiàn)有dns設(shè)置如果繼續(xù)會覆蓋現(xiàn)有配置是選擇y繼續(xù) 如安裝程序提示找到現(xiàn)有dhcp設(shè)置如果繼續(xù)會覆蓋現(xiàn)有配置是選擇y繼續(xù) 提示配置dns服務(wù)器時(shí)輸入: 172.
14、16.1.254 提示選擇provisioning network時(shí)選擇0 提示選擇public network時(shí)選擇1 提示輸入private cluster domain時(shí)直接回車 提示enable hpc ha now時(shí)選n或默認(rèn)回車 提示輸入/depot掛載點(diǎn)時(shí)選擇“/home”為掛載點(diǎn) 提示選擇操作系統(tǒng)媒體時(shí)選擇1或者21) dvd drive, 注意這時(shí)要把操作系統(tǒng)安裝碟放置于光盤驅(qū)動器內(nèi)2) iso image or mount point種iso文件的方式,需要指定詳細(xì)路徑/home/platform/rhel-server-6.2-x86_64-dvd.iso 待操作系統(tǒng)內(nèi)容
15、拷貝完畢后系統(tǒng)提示您期望下一步的操作步驟,共有4項(xiàng)可選。輸入4繼續(xù)安裝 安裝完成后執(zhí)行source /opt/kusu/bin/pcmenv.sh命令設(shè)置系統(tǒng)運(yùn)行環(huán)境6. 使用platform hpc做操作系統(tǒng)分發(fā)登錄54 輸入管理員的用戶名和密碼。6.1. 配置網(wǎng)絡(luò)接口通過分析網(wǎng)絡(luò)信息,整個(gè)集群需要配置eth0,eth1,ib0三個(gè)網(wǎng)絡(luò)接口。計(jì)算節(jié)點(diǎn)需要用到eth0+ib0;登錄節(jié)點(diǎn)需要eth0+eth1;io節(jié)點(diǎn)需要eth0+ib0;1. 配置eth0網(wǎng)絡(luò)接口單擊“resource-host provisioning-networks”在網(wǎng)絡(luò)配置界面上,單擊
16、“add”按鈕,增加eth0接口,檢查配置信息,修改如下信息然后單擊“ok”保存。(1)starting ip address:從那個(gè)ip地址開始分配(2)ip increment:ip地址的增量2. 配置eth1網(wǎng)絡(luò)接口單擊“resource-host provisioning-networks”在網(wǎng)絡(luò)配置界面上,單擊“add”按鈕,增加eth1接口,檢查配置信息,修改如下信息然后單擊“ok”保存。(1)starting ip address:從那個(gè)ip地址開始分配(2)ip increment:ip地址的增量3. 配置ib0網(wǎng)絡(luò)接口單擊“resource-host provisioning
17、-networks”在網(wǎng)絡(luò)配置界面上,單擊“add”按鈕,增加ib0接口,檢查配置信息,修改如下信息然后單擊“ok”保存。(1)starting ip address:從那個(gè)ip地址開始分配(2)ip increment:ip地址的增量6.2. 為刀片機(jī)hs22操作系統(tǒng)分發(fā)1. 配置部署模板,添加所需分發(fā)的機(jī)器單擊“resource-host provisioning-provisioning template”,在列表中選擇compute-rhel-6.2-x86_64,單擊“copy”按鈕,輸入compute-rhel-6.2-x86_64_cn-22,單擊“ok”保存。單擊“modify
18、”進(jìn)行修改,修改general信息,如下圖所示:修改networks信息,如下圖所示。對于計(jì)算節(jié)點(diǎn)主要需要eth0+ib0,然后單擊“ok”,選擇eth0為lsf cluster的網(wǎng)絡(luò)接口。成功保存provisioning template后,回到provisioning template列表界面,選擇剛才創(chuàng)建的模板,單擊“provision hosts”按鈕,進(jìn)入添加部署機(jī)器信息的界面,選擇pre-defined file模式,然后選擇所需的host configuration file(cn-22_hostlist.txt) ,然后單擊“add”按鈕,如下圖所示,至此完成了添加所需要部署機(jī)
19、器的過程;host configuration file (cn-22_hostlist.txt)文件列出了我們所需要部署的機(jī)器信息,包括mac地址,ip地址和機(jī)器名;如下所示:2. 設(shè)置待分發(fā)機(jī)器的啟動方式,并啟動通過amm模板,選擇blade task-configuration-bios sequence,選擇其中一個(gè)刀片機(jī),修改啟動方式為network,然后應(yīng)用到所有刀片機(jī)。然后在blade task-power/start 啟動所有的刀片機(jī)。系統(tǒng)將自動分發(fā)所有的操作系統(tǒng)。系統(tǒng)自動分發(fā)完操作系統(tǒng)后,請保留bios的啟動順序設(shè)置,不需要進(jìn)行修改即可。6.3. 對刀片組hs12操作系統(tǒng)分發(fā)
20、1. 配置部署模板,添加所需分發(fā)的機(jī)器單擊“resource-host provisioning-provisioning template”,在列表中選擇compute-rhel-6.2-x86_64,單擊“copy”按鈕,輸入compute-rhel-6.2-x86_64_cn-12,單擊“ok”保存。 單擊“modify”進(jìn)行修改,修改general信息,如下圖所示: 修改networks信息,對于計(jì)算節(jié)點(diǎn)主要需要eth0+ib0,然后單擊“ok”,選擇eth0為lsf cluster的網(wǎng)絡(luò)接口,如下圖所示: 回到provisioning template列表界面,選擇剛才創(chuàng)建的模板,單
21、擊“provision hosts”按鈕,進(jìn)入添加部署機(jī)器信息的界面,選擇pre-defined file模式,然后選擇所需的host configuration file (cn-12_hostlist.txt),然后單擊“add”按鈕,如下圖所示,至此完成了添加所需要部署機(jī)器的過程; host configuration file(cn-12_hostlist.txt) 文件列出了我們所需要部署的機(jī)器信息,包括mac地址,ip地址和機(jī)器名;如下所示: 2. 設(shè)置待分發(fā)機(jī)器的啟動方式,并啟動通過amm模板,選擇blade task-configuration-bios sequence,選擇
22、其中一個(gè)刀片機(jī),修改啟動方式為network,然后應(yīng)用到所有刀片機(jī)。然后在blade task-power/start 啟動所有的刀片機(jī)。系統(tǒng)將自動分發(fā)所有的操作系統(tǒng)。系統(tǒng)自動分發(fā)完操作系統(tǒng)后,請保留bios的啟動順序設(shè)置,不需要進(jìn)行修改即可。6.4. 對io節(jié)點(diǎn)做系統(tǒng)分發(fā)1. 修改ib0網(wǎng)絡(luò)接口由于ib0的ip地址沒有和計(jì)算節(jié)點(diǎn)連續(xù),需要重新設(shè)置starting ip address的地址。2. 配置部署模板,添加所需分發(fā)的機(jī)器單擊“resource-host provisioning-provisioning template”,在列表中選擇compute-rhel-6.2-x86_64,
23、單擊“copy”按鈕,輸入compute-rhel-6.2-x86_64_io-3650,單擊“ok”保存。 單擊“modify”進(jìn)行修改,修改general信息,如下圖所示:修改networks信息,如下圖所示。對于i/o節(jié)點(diǎn)主要需要eth0+ib0,然后單擊“ok”,選擇eth0為lsf cluster的網(wǎng)絡(luò)接口。 成功保存provisioning template后,回到provisioning template列表界面,選擇剛才創(chuàng)建的模板,單擊“provision hosts”按鈕,進(jìn)入添加部署機(jī)器信息的界面,選擇pre-defined file模式,然后選擇所需的host confi
24、guration file(io-3650_hostlist.txt) ,然后單擊“add”按鈕,如下圖所示,至此完成了添加所需要部署機(jī)器的過程; host configuration file (io-3650_hostlist.txt)文件列出了我們所需要部署的機(jī)器信息,包括mac地址,ip地址和機(jī)器名,見前面例子。3. 設(shè)置待分發(fā)機(jī)器的啟動方式,并啟動設(shè)置啟動方式為network,重新啟動io節(jié)點(diǎn),系統(tǒng)將自動分發(fā)所有的操作系統(tǒng)。6.5. 對login節(jié)點(diǎn)做系統(tǒng)分發(fā)1. 配置部署模板,添加所需分發(fā)的機(jī)器單擊“resource-host provisioning-provisioning t
25、emplate”,在列表中選擇compute-rhel-6.2-x86_64,單擊“copy”按鈕,輸入compute-rhel-6.2-x86_64_ln-3625,單擊“ok”保存。 單擊“modify”進(jìn)行修改,修改general信息,如下圖所示:修改networks信息,如下圖所示。對于login節(jié)點(diǎn)主要需要eth0+eth1,然后單擊“ok”,選擇eth0為lsf cluster的網(wǎng)絡(luò)接口。 成功保存provisioning template后,回到provisioning template列表界面,選擇剛才創(chuàng)建的模板,單擊“provision hosts”按鈕,進(jìn)入添加部署機(jī)器信息
26、的界面,選擇pre-defined file模式,然后選擇所需的host configuration file(ln-3620_hostlist.txt) ,然后單擊“add”按鈕,如下圖所示,至此完成了添加所需要部署機(jī)器的過程; host configuration file (ln-3620_hostlist.txt)文件列出了我們所需要部署的機(jī)器信息,包括mac地址,ip地址和機(jī)器名。2. 設(shè)置待分發(fā)機(jī)器的啟動方式,并啟動設(shè)置啟動方式為network,重新啟動登錄節(jié)點(diǎn),系統(tǒng)將自動分發(fā)所有的操作系統(tǒng)。7. 使用platform hpc維護(hù)操作系統(tǒng)分發(fā)7.1. 移除已經(jīng)部署的操作系統(tǒng) 選擇“
27、 resource-devices-hosts-by provisioning template-某一部署模板”,選擇已經(jīng)部署好的、想要移除的機(jī)器,單擊下拉框manage-remove,然后確定,這樣就可以移除掉已經(jīng)部署的操作系統(tǒng)。7.2. 重新部署操作系統(tǒng) 選擇“ resource-devices-hosts-by provisioning template-某一部署模板”,選擇已經(jīng)部署好的、想要重新部署的機(jī)器,單擊下拉框manage-reinstall,然后確定。同時(shí)“重新啟動”該服務(wù)器,這樣就可以重新部署操作系統(tǒng)。7.3. 部署新的機(jī)器 選擇“ resource-devices-host
28、s-by provisioning template-某一部署模板”。在機(jī)器列表中,然后單擊“add”按鈕,在添加機(jī)器的界面上,選擇pre-defined file模式,然后選擇host configuration file,如下圖所示。 host configuration file (cn-22-xxx_hostlist.txt)文件列出了我們所需要部署的機(jī)器信息,包括mac地址,ip地址和機(jī)器名;內(nèi)容如下所示:xx:xx:xx:xx:xx:xx,172.16.x.xxx,cn-22-xxxxx:xx:xx:xx:xx:xx,172.16.x.xxx,cn-22-xxxxx:xx:xx:x
29、x:xx:xx,172.16.x.xxx,cn-22-xxx同時(shí)“重新啟動”該服務(wù)器,這樣就可以重新部署操作系統(tǒng)。7.4. 維護(hù)部署模板內(nèi)容如果需要為某一部署模板下面的“所有機(jī)器”進(jìn)行修改和打patch,我們可以通過修改部署模板(general, compoents, package, partitions, networks, post-install scripts),保存模板的方式來自動同步所有的機(jī)器。比如某一部署模板的網(wǎng)絡(luò)(networks)沒有選擇ib0,導(dǎo)致其下面的所有機(jī)器都沒有配置ib0;如果有一天希望該模板相關(guān)的機(jī)器都添加ib0,我們可以修改該模板,添加所需的ib0網(wǎng)絡(luò)接口(使
30、用之前請檢查ib0網(wǎng)絡(luò)是否滿足要求,starting ip address是否滿足要求),然后保存,系統(tǒng)會自動同步所有的節(jié)點(diǎn),并創(chuàng)建ib0的相信息。7.5. 文件系統(tǒng)大小、類型、mount點(diǎn)的定制7.6. 用platform推送各種應(yīng)用系統(tǒng)7.7. 選擇platform功能包7.8. 選擇要安裝rhel6.3的其他相關(guān)包8. 集群測試和作業(yè)提交8.1. 集群的配置1. 配置 enable job slot在/opt/lsf/conf/lsbatch/mn-3650_cluster1/configdir/lsb.params 中設(shè)置parallel_sched_by_slot=yrootmn-3
31、650 configdir#badmin reconfigrootmn-3650 configdir#kusu-cfmsync -f lsb.hosts2. 關(guān)閉io節(jié)點(diǎn),登錄節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)修改/opt/lsf/conf/lsbatch/mn-3650_cluster1/configdir/lsb.hostsmn-3650 0 () () () () () # exampleio-3650-1 0 () () () () () # exampleio-3650-2 0 () () () () () # exampleio-3650-3 0 () () () () () # exampleio-
32、3650-4 0 () () () () () # exampleio-3650-5 0 () () () () () # exampleio-3650-6 0 () () () () () # exampleio-3650-7 0 () () () () () # exampleio-3650-8 0 () () () () () # exampleln-3620-1 0 () () () () () # exampleln-3620-2 0 () () () () () # exampleln-3620-3 0 () () () () () # exampleln-3620-4 0 ()
33、() () () () # examplerootmn-3650 configdir#badmin reconfigrootmn-3650 configdir#kusu-cfmsync -f lsb.hosts8.2. 集群啟動1. 啟動/關(guān)閉/查詢 hpc服務(wù)rootmn-3650 pmcadmin start | stop | list2. 關(guān)閉lsf集群:rootmn-3650 #lsfshutdown3. 啟動lsf集群rootmn-3650 #lsfstartup所有選項(xiàng),選擇yes4. 啟動一個(gè)或多個(gè)節(jié)點(diǎn)hosta8.3. 集群狀態(tài)管理1. web 方式在能夠連接到管理節(jié)點(diǎn)的瀏覽器
34、上打開54根據(jù)提示輸入管理員用戶名和密碼。2. 命令行方式rootmn-3650 # bhostshost_name status jl/u max njobs run ssusp ususp rsv cn-12-051 ok - 4 0 0 0 0 0cn-12-052 ok - 4 0 0 0 0 0cn-12-053 ok - 4 0 0 0 0 0cn-12-054 ok - 4 0 0 0 0 0cn-12-055 ok - 4 0 0 0 0 0cn-12-056 ok - 4 0 0 0 0 0cn-12-057 unavail - 1 0 0 0
35、 0 0 rootmn-3650 # lsloadhost_name status r15s r1m r15m ut pg ls it tmp swp memcn-22-001 ok 0.0 0.0 0.0 0% 0.0 0 61 9600m 2g 31gcn-22-002 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-003 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-005 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-006 ok 0.0 0.
36、0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-007 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-010 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31gcn-22-013 ok 0.0 0.0 0.0 0% 0.0 0 3694 9600m 2g 31g8.4. 創(chuàng)建用戶# useradd # passwd # kusu-cfmsync f8.5. 為新管理員分配管理員權(quán)限以管理員身份登錄hpc portal,選擇settings-administrators,選擇用戶,然后sa
37、ve即可。8.6. 提交作業(yè)1. web 方式2. 通過命令行提交(1 )bsub -j test1 -r rusagemem=99 sleep 100(2) bsub -j test1-10 sleep 100 (3) $ bsub -n 16 -r spanhosts=1 sleep 100 /所有的處理器要求在一個(gè)機(jī)器上得到滿足$ bsub -n 16 -r spanptile=2 sleep 100 /每個(gè)機(jī)器要求最多分配2個(gè)處理器,所以至少需要8個(gè)機(jī)器(4) 作業(yè)的依賴關(guān)系bsub -j first1 sleep 10bsub -j first2 -w done(first1) sl
38、eep 108.7. mpi測試作業(yè)1. 設(shè)置mpi環(huán)境$ module load pmpi/modulefile2. 編譯mpicc mpi64 /opt/platform_mpi/help/hello_world.c o /data/hello_world3. 提交作業(yè)$ mpirun -np 4 /home/hello_world或者$ bsub -n 4 -e err -o out -j hello world mpirun /data/hello_world或者更多參數(shù)$ /opt/platform_mpi/bin/mpirun -np 120 -ibv -hostlist cn-22-001 cn-22-002 cn-22-003 cn-22-004 cn-22-005 cn-22-006 cn-22-007 cn-22-008 cn-22-009 cn-22-010 /data/hello_world如果希望 mpi作業(yè)以root用戶運(yùn)行,修改mpi_uself環(huán)境變量為n關(guān)于m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024面向智能制造專業(yè)領(lǐng)域的服務(wù)內(nèi)容資源跨媒體關(guān)聯(lián)規(guī)范
- 《食品生物化學(xué)》題集
- 職工薪酬的會計(jì)處理分錄-記賬實(shí)操
- WPS辦公應(yīng)用(高級)習(xí)題及答案匯 ch1 文字文檔的高級處理-ch4 WPS協(xié)作辦公
- 三維數(shù)字內(nèi)容制作-三維動畫場景搭建制作流程規(guī)范
- 專項(xiàng)24-正多邊形與圓-重難點(diǎn)題型
- 音樂教學(xué)期末總結(jié)
- 飯店服務(wù)員聘用合同書(33篇)
- 生物組教研工作計(jì)劃8篇
- 高三工作計(jì)劃(17篇)
- 2024-2030年中國凈菜加工行業(yè)產(chǎn)銷量預(yù)測及未來發(fā)展?jié)摿Ψ治鰣?bào)告
- 多圖中華民族共同體概論課件第十一講 中華一家與中華民族格局底定(清前中期)根據(jù)高等教育出版社教材制作
- 生涯發(fā)展報(bào)告 (修改版)
- 求職能力展示
- 中國馬克思主義與當(dāng)代思考題(附答案)
- 金屬風(fēng)管支架重量計(jì)算表
- 趣味數(shù)學(xué)推理小故事PPT精品文檔
- Excel支票打印模板2021
- 《危險(xiǎn)游戲莫玩?!稰PT課件.ppt
- 自-銑削用量進(jìn)給量進(jìn)給速度(精編版)
- 技術(shù)標(biāo)書綜合說明
評論
0/150
提交評論