(零收費(fèi))AIX系統(tǒng)日常維護(hù)與故障的解決_第1頁
(零收費(fèi))AIX系統(tǒng)日常維護(hù)與故障的解決_第2頁
(零收費(fèi))AIX系統(tǒng)日常維護(hù)與故障的解決_第3頁
(零收費(fèi))AIX系統(tǒng)日常維護(hù)與故障的解決_第4頁
(零收費(fèi))AIX系統(tǒng)日常維護(hù)與故障的解決_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、IBM Systems & Technology Group 2006 IBM CorporationAIXAIX 日常日常維護(hù)與故障的處理維護(hù)與故障的處理IBM Systems & Technology Group 2003 IBM Corporation2 第一章:日常維護(hù)部分第一章:日常維護(hù)部分 1、 AIX系統(tǒng)管理日常健康檢查系統(tǒng)管理日常健康檢查 2、 AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 第二章:故障處理部分第二章:故障處理部分 1、 硬件故障的定位與排除硬件故障的定位與排除 2、 系統(tǒng)故障的處理方法系統(tǒng)故障的處理方法 3、 HACMP雙機(jī)系統(tǒng)故障排錯(cuò)雙機(jī)系

2、統(tǒng)故障排錯(cuò) 第三章第三章 :備份與恢復(fù):備份與恢復(fù) 第四章:第四章: 性能監(jiān)控與優(yōu)化性能監(jiān)控與優(yōu)化 概要概要IBM Systems & Technology Group 2006 IBM Corporation第一章:日常維護(hù)部分第一章:日常維護(hù)部分IBM Systems & Technology Group 2003 IBM Corporation4AIX 系統(tǒng)的日常維護(hù)系統(tǒng)的日常維護(hù)AIXAIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控IBM Systems & Technology Group 2003 IBM Corporation5AIX系統(tǒng)管理日常

3、健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控機(jī)房環(huán)境檢查機(jī)房環(huán)境檢查電源線的母頭是否為左零右火電壓值是否為240V零地電壓是否小于1V溫度(攝氏 )10 40濕度(%)8% 80%查看硬件情況查看硬件情況檢查設(shè)備故障燈,一般為紅色或黃色報(bào)警燈常亮。 有沒有異常聲響,如硬盤、風(fēng)扇等。有沒有破損的電纜等IBM Systems & Technology Group 2003 IBM Corporation6AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 檢查文件系統(tǒng)檢查文件系統(tǒng) 查看有沒有“滿”的文件系統(tǒng)。文件系統(tǒng)滿可導(dǎo)致系統(tǒng)不能正常工作,尤其是AIX的基本文件系統(tǒng)。如/ (根文件系

4、統(tǒng))滿則會(huì)導(dǎo)致用戶不能登錄。# df -k (查看AIX的基本文件系統(tǒng))Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95%95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /homeIBM Systems & T

5、echnology Group 2003 IBM Corporation7AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 除/usr文件系統(tǒng),其他文件系統(tǒng)都不應(yīng)太滿,一般不超過80%。 處理方法1:找出(刪除)垃圾文件 # du -sk * |sort r n |head 查找出當(dāng)前目錄下占空間最大的子目錄,逐層往下直到找出占空間最大的文件。(要區(qū)分哪些目錄是文件系統(tǒng)的 mount point,哪些是文件系統(tǒng)的子目錄)刪除文件,釋放空間。有時(shí)刪除文件后空間并不馬上釋放,這是由于你刪除的文件正被某個(gè)程序打開。只有當(dāng)這個(gè)程序停止后空間才釋放,有時(shí)甚至需要重起系統(tǒng)。IBM Systems

6、 & Technology Group 2003 IBM Corporation8 處理方法處理方法2:增加文件系統(tǒng)大?。涸黾游募到y(tǒng)大小 # smitty chfs 文件系統(tǒng)可以在任何時(shí)候加大,前提是卷組(VG)中有剩余空間。 檢查文件系統(tǒng)的完整性檢查文件系統(tǒng)的完整性 # umount filesystem_name # fsck filesystem_name # fsck -y filesystem_name 注意:文件系統(tǒng)必須先注意:文件系統(tǒng)必須先umount,再做檢查和修復(fù),否則可導(dǎo)致未知的,再做檢查和修復(fù),否則可導(dǎo)致未知的后果。后果。AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理

7、日常健康檢查與監(jiān)控IBM Systems & Technology Group 2003 IBM Corporation9AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 查看卷組信息查看卷組信息 lsvg -l vg_name 有沒有stale狀態(tài)的邏輯卷。 用syncvg 命令修復(fù)。# smitty syncvgLV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2

8、 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tmphd1 jfs 1 2 2 open/syncd /homeIBM Systems & Technology Group 2003 IBM Corporation10AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 檢查內(nèi)存交換區(qū)檢查內(nèi)存交換區(qū)(pag

9、ing space)使用率使用率 # lsps -s 使用率不要超過70%。 增加交換區(qū),或增加內(nèi)存。 觀察內(nèi)存大小的命令:lsattr El mem0 #lsps -sTotal Paging Space Percent Used 2048MB 15%#lsps aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 2048MB 15 yes yes lvIBM Systems & Technology Group 2003 IBM Corporation11AIX系

10、統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 網(wǎng)絡(luò)檢查網(wǎng)絡(luò)檢查 netstat -i 查看網(wǎng)卡狀態(tài) Ierrs/Ipkts 和 Oerrs/Opkts是否1%注:Oerrs是指從這個(gè)網(wǎng)卡發(fā)出去錯(cuò)誤包數(shù)目的統(tǒng)計(jì)Opkts是指從這個(gè)網(wǎng)卡發(fā)出去的ip包個(gè)數(shù)的統(tǒng)計(jì)??此鼈兪欠?%應(yīng)該是指網(wǎng)絡(luò)質(zhì)量好壞。 ping host_name /IP Address 查看是否通和是否有丟包。 路由表 #netstat -rn 查看路由表是否正確,ping 各路由器是否通。 核 對(duì) 主 機(jī) 名 #hostnameIBM Systems & Technology Group 2003 IBM Corpo

11、ration12AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 #ifconfig -aen0: flags=4e080863inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0: flags=e08084binet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.255inet6 :1/0 #ifconfig #ifconfig 用法用法 ifconfig en0 inet 11.0.0.1 up ifconfig en0 ns 110:02.60

12、.8c.2c.a4.98 up (還有很多)IBM Systems & Technology Group 2003 IBM Corporation13AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 #lsattr El ent0authm 65536 Authentication Methods Truehostname qtsms Host Name Truegateway Gateway Trueroute net,0,172.40.10.1,0,172.40.10.1 Route Truebootup_option no Serial Optical Network

13、Interface Truerout6 FDDI Network Interface Trueroute屬性是否有相應(yīng)的路由信息。格式為:net,0,172.16.23.81如果沒有缺省路由,執(zhí)行命令:#chdev l inet0 a route=0,172.16.23.81其中172.16.23.81為網(wǎng)關(guān)如果缺省路由不正確,則先刪除路由,再增加缺省路由:#chdev l inet0 a delroute= net,0,133.16.23.81#chdev l inet0 a route=0,172.16.23.81IBM Systems & Technology Group 200

14、3 IBM Corporation14AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 系統(tǒng)故障記錄系統(tǒng)故障記錄(errorlog) errdemon 進(jìn)程在系統(tǒng)啟動(dòng)時(shí)自動(dòng)運(yùn)行 記錄包括硬件、軟件及其他操作信息 故障記錄文件為/var/adm/ras/errlog,可備份下來或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶權(quán)限也可使用)IBM Systems & Technology Group 2003 IBM Corporation15AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控#errpt |more 列出簡短出錯(cuò)信息ERROR_ID TIMEST

15、AMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONT

16、IMESTAMP: MMDDHHMMYY (月日時(shí)分年)T(類型): P 永久; T 臨時(shí); U 未知(永久性的錯(cuò)誤應(yīng)引起重視)C(分類): H 硬件; S 軟件; O 用戶; U未知#errpt -d H 列出所有硬件出錯(cuò)信息#errpt -d S 列出所有軟件出錯(cuò)信息#errpt -aj ERROR_ID 列出詳細(xì)出錯(cuò)信息IBM Systems & Technology Group 2003 IBM Corporation16錯(cuò)誤日志的目的 在監(jiān)測到硬件、軟件和操作錯(cuò)誤時(shí)記錄相應(yīng)的信息在監(jiān)測到硬件、軟件和操作錯(cuò)誤時(shí)記錄相應(yīng)的信息 用戶其他的相關(guān)信息被記錄下來用戶其他的相關(guān)信息被記錄

17、下來 報(bào)告通過記錄產(chǎn)生報(bào)告通過記錄產(chǎn)生 用戶能夠客戶化錯(cuò)誤信息用戶能夠客戶化錯(cuò)誤信息 當(dāng)發(fā)生某些特定的錯(cuò)誤時(shí),系統(tǒng)發(fā)出指定信息當(dāng)發(fā)生某些特定的錯(cuò)誤時(shí),系統(tǒng)發(fā)出指定信息 可以查詢到建議操作可以查詢到建議操作IBM Systems & Technology Group 2003 IBM Corporation17通過smit產(chǎn)生錯(cuò)誤報(bào)告 顯示所有的錯(cuò)誤報(bào)告顯示所有的錯(cuò)誤報(bào)告 # errpt 打印錯(cuò)誤報(bào)告的模板打印錯(cuò)誤報(bào)告的模板 # errpt -t 按時(shí)間產(chǎn)生報(bào)告按時(shí)間產(chǎn)生報(bào)告 # errpt -a -s mmddhhmmyy 只報(bào)告硬件錯(cuò)誤只報(bào)告硬件錯(cuò)誤 # errpt -d -H 描述

18、描述ID為為F49E2A17的錯(cuò)誤報(bào)告的錯(cuò)誤報(bào)告 # errpt -a -j F49E2A17IBM Systems & Technology Group 2003 IBM Corporation18報(bào)告實(shí)例IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION192AC071 0106141400 T O errdemon ERROR LOGGING TURNED OFF1581762B 0106115000 T H cd0 DISK OPERATION ERROR1581762B 0106100100 T H cd0 DISK OPER

19、ATION ERROR1581762B 0105152300 T H cd0 DISK OPERATION ERROR2CCF66F7 0105111300 T H bl0 DEVICE ERROR2BFA76F6 0105111100 T S SYSPROC SYSTEM SHUTDOWN BY USER9DBCFDEE 0105111300 T O errdemon ERROR LOGGING TURNED ON192AC071 0104174500 T O errdemon ERROR LOGGING TURNED OFF2CCF66F7 0104143300 T H bl0 DEVIC

20、E ERROR2BFA76F6 0104143100 T S SYSPROC SYSTEM SHUTDOWN BY USER9DBCFDEE 0104143300 T O errdemon ERROR LOGGING TURNED ON192AC071 0104143000 T O errdemon ERROR LOGGING TURNED OFFC60BB505 0104105800 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED# errpt IBM Systems & Technology Group 2003 IBM Cor

21、poration19參數(shù)詳解 標(biāo)識(shí)標(biāo)識(shí)C:錯(cuò)誤歸類:錯(cuò)誤歸類 H:硬件 S:軟件 O:系統(tǒng)信息已經(jīng)記錄 U:不能確定 標(biāo)識(shí)標(biāo)識(shí)T:錯(cuò)誤類型:錯(cuò)誤類型 PERM(并且C為H):顯示系統(tǒng)遇到硬件問題并且無法自動(dòng)修復(fù) PERD(并且C為H):系統(tǒng)硬件變?yōu)椴豢捎貌⒁鹨幌盗绣e(cuò)誤系統(tǒng) PERM(并且C為S):顯示系統(tǒng)遇到軟件問題并且無法自動(dòng)修復(fù) TEMP(并且C為S):顯示系統(tǒng)遇到軟件問題并且已經(jīng)自動(dòng)修復(fù)IBM Systems & Technology Group 2003 IBM Corporation20磁盤錯(cuò)誤的處理 診斷程序診斷程序 幫助確定問題的嚴(yán)重性 可以格式化磁盤或進(jìn)行磁盤片的檢查

22、 磁盤片的檢查磁盤片的檢查 檢查在磁盤上的每一個(gè)塊 報(bào)告磁盤全面狀況總結(jié)報(bào)告 三種應(yīng)該更換磁盤的情況三種應(yīng)該更換磁盤的情況 噪聲很大(Noise) 經(jīng)常出錯(cuò) 錯(cuò)誤嚴(yán)重IBM Systems & Technology Group 2003 IBM Corporation21錯(cuò)誤日志的清除 root用戶通過手工命令用戶通過手工命令errclear直接清除錯(cuò)誤日志直接清除錯(cuò)誤日志 # errclear 10 清除10天以前的所有日志 # errclear -d H 0 清除所有硬件的錯(cuò)誤 # errclear -N disk 0 刪除所有資源組為disk的記錄 # errclear -T U

23、NKN 0 刪除所有類型為unknown的記錄 # errclear 0 刪除所有記錄IBM Systems & Technology Group 2003 IBM Corporation22通過errdemon命令管理錯(cuò)誤日志 改變錯(cuò)誤日志的存放文件改變錯(cuò)誤日志的存放文件 # /usr/lib/errdemon -i filename 改變文件的大小改變文件的大小 # /usr/lib/errdemon -s logsize 改變內(nèi)存緩沖區(qū)的大小改變內(nèi)存緩沖區(qū)的大小 # /usr/lib/errdemon -B buffersizeIBM Systems & Technolo

24、gy Group 2003 IBM Corporation23AIX系統(tǒng)管理日常健康檢查與監(jiān)控系統(tǒng)管理日常健康檢查與監(jiān)控 磁帶機(jī)磁帶機(jī) 磁帶機(jī)應(yīng)定期清潔,每使用30小時(shí)或至少每月清潔一次,不要等故障燈亮起后再清潔。 不同類型的帶機(jī)用要不同的清洗帶,不要混用。 用 /usr/lpp/diagnostics/bin/utape -c -d rmt0 -n 可查看磁帶機(jī)使用時(shí)數(shù)。 4mm DDS3磁帶機(jī)可讀寫DDS2,但對(duì)DDS1只能讀。IBM Systems & Technology Group 2003 IBM Corporation24AIX 系統(tǒng)的日常維護(hù)系統(tǒng)的日常維護(hù)AIX系統(tǒng)日常

25、管理常用操作系統(tǒng)日常管理常用操作IBM Systems & Technology Group 2003 IBM Corporation25AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 查看機(jī)器上有幾條內(nèi)存及容量的方法:查看機(jī)器上有幾條內(nèi)存及容量的方法: # lscfg -vp | grep Size Size.256 Size.256 Size.256 Size.256# lscfg -vp | grep DIMM | wc -l 4 P570上每個(gè)Processor Card上有8個(gè)DDR memory DIMM slots,所以可以通過lscfg -vp|grep Process

26、or看有幾個(gè)Processor Card,如下所示,有4個(gè)Procssor Card,共應(yīng)該有32個(gè)slots。 IBM Systems & Technology Group 2003 IBM Corporation26AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 #lscfg -vp|grep Processor Model Implementation: Multiple Processor, PCI bus proc0 U0.1-P1-C1 Processor proc1 U0.1-P1-C1 Processor proc2 U0.1-P1-C2 Processor proc3

27、 U0.1-P1-C2 Processor proc4 U0.1-P1-C4 Processor proc5 U0.1-P1-C4 Processor proc6 U0.1-P1-C3 Processor proc7 U0.1-P1-C3 Processor 然后再看使用了多少個(gè)然后再看使用了多少個(gè)Slots: 數(shù)其中的數(shù)其中的memory-module的數(shù)量就可以了。的數(shù)量就可以了。 #lscfg -vp|grep -p memory Name: memory-controller Model: IBM, Outrigger, Rev-id 4 Node: memory-controller

28、7000000000000 Physical Location: U0.1-P1-C1 Name: memory-controller Model: IBM, Outrigger, Rev-id 4 Node: memory-controller7000000000010 Physical Location: U0.1-P1-C2 IBM Systems & Technology Group 2003 IBM Corporation27AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 查看每個(gè)硬盤(查看每個(gè)硬盤(PV)的容量方法:)的容量方法: Bootinfo s hdisk* 查看查

29、看HBA卡的卡的 產(chǎn)品數(shù)據(jù)(產(chǎn)品數(shù)據(jù)(VPD)信息)信息 # lscfg -vl fcs0 fcs0 U787B.001.DNW7603-P1-C4-T1 FC Adapter Part Number.03N6441 EC Level.A Serial Number.1B549045A3 Manufacturer.001B Feature Code/Marketing ID.280B FRU Number. 03N6441 Device Specific.(ZM).3 Network Address.10000000C94CD380IBM Systems & Technology Gr

30、oup 2003 IBM Corporation28AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 系統(tǒng)備份系統(tǒng)備份 除每日進(jìn)行正常的用戶數(shù)據(jù)備份外,建議定期進(jìn)行系統(tǒng)備份。 備份前先停止業(yè)務(wù)系統(tǒng)軟件和HACMP 軟件的運(yùn)行。其他無關(guān)的用戶退出 ,停止無關(guān)的操作。 系統(tǒng)備份只備份 ROOTVG,除系統(tǒng) 基本的5個(gè)文件系統(tǒng)外,其他 ROOTVG上已 mount 上的文件系統(tǒng)也會(huì)被備份。 用 smitty mksysb 命令進(jìn)行系統(tǒng)備份,備份前先清掉root的密碼。 每當(dāng)系統(tǒng)作變更(安裝新軟件、補(bǔ)丁程序等)前后,都需要做系統(tǒng)備份。IBM Systems & Technology Group

31、2003 IBM Corporation29AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 Back Up the System* Backup DEVICE or FILE /dev/rmt0 +/ Create MAP files? no + EXCLUDE files? no + List files as they are backed up? no + Generate new /image.data file? yes + EXPAND /tmp if needed? yes + Disable software packing of backup? no +MORE.2F1=He

32、lp F2=Refresh F3=Cancel F4=ListEsc+5=Reset Esc+6=Command Esc+7=Edit Esc+8=ImageEsc+9=Shell Esc+0=Exit Enter=Do位置:/etc/exclude.rootvg IBM Systems & Technology Group 2003 IBM Corporation30AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 檢查系統(tǒng)備份帶是否有效 用備份帶啟動(dòng)機(jī)器,但不要進(jìn)行安裝,我們只是驗(yàn)證系統(tǒng)備份帶是否能用于啟動(dòng)。出現(xiàn)以下菜單后,關(guān)機(jī)即可。Welcome to Base Operating

33、 System Installation and Maintenance Type the number of your choice and press Enter. 1 Start Installation Now with Default Settings 2 Change/Show Installation Settings and Install3 Start Maintenance Mode for System Recovery 88 Help ? 99 Previous MenuIBM Systems & Technology Group 2003 IBM Corpor

34、ation31AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 #smitty lsmksysb;檢查系統(tǒng)備份帶的內(nèi)容。檢查系統(tǒng)備份帶的內(nèi)容。 系統(tǒng)備份不是萬能的。備份最好有兩份。系統(tǒng)備份不是萬能的。備份最好有兩份。 用戶數(shù)據(jù)備份用戶數(shù)據(jù)備份 文件系統(tǒng)可用 tar 命令。 數(shù)據(jù)庫可用數(shù)據(jù)庫的備份方式備。 邏輯卷(LV)可用dd 命令。 smitty savevg 用戶卷組備份 只備份mount起的文件系統(tǒng)。 注意:不備份邏輯卷(裸設(shè)備) 。IBM Systems & Technology Group 2003 IBM Corporation32AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操

35、作 鏡像鏡像(rootvg) extendvg rootvg hdisk1 將hdisk1加入到rootvg中 mirrorvg -c 2 rootvg 在rootvg中使兩塊盤做一個(gè)鏡像 bosboot -ad /dev/hdisk1 將新加的硬盤加到引導(dǎo)列表里, 否則第 二塊盤無法引導(dǎo)系統(tǒng)。 bosboot -ad /dev/hdisk2 bootlist -m normal hdisk0 hdisk1 cd0 設(shè)置啟動(dòng)順序 依次是 hdisk0 hdisk1 光驅(qū) IBM Systems & Technology Group 2003 IBM Corporation33AIX系統(tǒng)

36、日常管理常用操作系統(tǒng)日常管理常用操作 拆鏡像(拆鏡像(rootvg) lsvg M rootvg ; 檢查有效的pv, 確認(rèn)hdisk1壞 unmirrorvg rootvg hdisk1 bosboot a d /dev/hdisk0 bootlist m normal hdisk0 cd0 mkboot c d /dev/hdisk1IBM Systems & Technology Group 2003 IBM Corporation34AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理常用操作 HACMP的操作的操作啟動(dòng):smitty clstart停止:smitty clstop 啟動(dòng)/停

37、止過程可以查看/tmp/hacmp.out文件:#tail f /tmp/hacmp.out 檢查Cluster是否運(yùn)行正常 Cluster進(jìn)程是否運(yùn)行:#lssrc g cluster,至少兩個(gè)進(jìn)程,且為active。 IP地址是否獲?。?netstat i,看boot IP是否變?yōu)閟ervice ip。 VG是否varyon:#lsvg o 文件系統(tǒng)是否mount:#mount 應(yīng)用進(jìn)程是否啟動(dòng):#ps ef | grep app_nameIBM Systems & Technology Group 2003 IBM Corporation35AIX系統(tǒng)日常管理常用操作系統(tǒng)日常管理

38、常用操作 HACMP相關(guān)日志相關(guān)日志 /usr/es/adm/cluster.log; 以事件為單位的紀(jì)錄 /tmp/hacmp.out; 詳細(xì)記錄 /usr/sbin/cluster/history/cluster.IBM Systems & Technology Group 2006 IBM Corporation第二章:故障處理部分第二章:故障處理部分IBM Systems & Technology Group 2003 IBM Corporation37故障處理部分 弄清楚系統(tǒng)發(fā)生了什么問題弄清楚系統(tǒng)發(fā)生了什么問題 系統(tǒng)現(xiàn)在能做什么?不能做什么? 故障什么時(shí)候發(fā)生的?

39、有沒有做平時(shí)不同的操作? 故障有沒有規(guī)律?定時(shí)還是不定時(shí)?發(fā)生的頻率有多高? 是一臺(tái)機(jī)器出現(xiàn)故障還是多臺(tái)機(jī)器故障?故障現(xiàn)象是否相同? 最近有沒有做改動(dòng)?如安裝了新的硬件、軟件,改變了系統(tǒng)的一些設(shè)置(如 HACMP配置)等 。IBM Systems & Technology Group 2003 IBM Corporation38故障處理部分 收集故障信息對(duì)于判斷、診斷故障原因,修復(fù)系統(tǒng)非常重要。收集故障信息對(duì)于判斷、診斷故障原因,修復(fù)系統(tǒng)非常重要。 系統(tǒng)故障記錄系統(tǒng)故障記錄(errorlog) errdemon 進(jìn)程在系統(tǒng)啟動(dòng)時(shí)自動(dòng)運(yùn)行 記錄包括硬件、軟件及其他操作信息 故障記錄文件為

40、/var/adm/ras/errlog,可備份下來或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶權(quán)限也可使用)IBM Systems & Technology Group 2003 IBM Corporation39故障處理部分 控制面板上的控制面板上的LED 代碼代碼 8 位代碼,通常系統(tǒng)故障燈會(huì)同時(shí)亮起。某些機(jī)型還會(huì)同時(shí)顯示故障設(shè)備位置代碼。(注:S85正常啟動(dòng)過程中有合法的8位代碼。) 4 位代碼,通常是Exxx。 3 位代碼,通常為0yyy,只看后3位。 8 位和4位代碼可查看系統(tǒng)服務(wù)手冊(cè) (Service Guide)。 3 位代碼可查看系統(tǒng)診斷手冊(cè)(Diagnos

41、tic Information for Multiple Bus System)。IBM Systems & Technology Group 2003 IBM Corporation40故障處理部分 其他用于收集系統(tǒng)信息的命令其他用于收集系統(tǒng)信息的命令 lsdev -C 系統(tǒng)設(shè)備信息 #lsdev -Cc disk hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 0

42、0-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷組信息IBM Systems & Technology Group 2003 IBM Corporation41故障處理部分#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: activ

43、e PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootv

44、grootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm IBM Systems & Technology Group 2003 IBM Corporation42故障處理部分l sl pp 查看文件組信息# lslpp -L |grep 231000

45、20.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某個(gè)文件組是否已安裝,如以太網(wǎng)卡驅(qū)動(dòng)。也用于查詢補(bǔ)丁程序的版本。l sattr查看設(shè)備參數(shù)設(shè)置# lsattr -El ent2busio 0 x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256

46、 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0 x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True IBM Systems & Technology Group 2003 IB

47、M Corporation43故障處理部分l scf g查看VPD 信息(Vi rtual Product D ata)# lscfg -vl ssa1 DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500) Part Number.097H0645 FRU Number.097H0645 - 備件號(hào) Serial Number.C8217227 EC Level.0000F20825 Manufacturer.IBM053 ROS Level and ID.7201 - 微碼版本 Load

48、able Microcode Level.04 Device Driver Level.00 Displayable Message.SSA-ADAPTER Device Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0 Device Specific.(Z2).000000062955dab2 Device Specific.(YL).P2-I7 C32/C33 檢測所有的硬盤、設(shè)備,更新ODM等 570: SCSI 硬盤 80C: SSA 硬盤 581: TCP/IP 子系統(tǒng)Stage 1Stage 2Stage 3IBM System

49、s & Technology Group 2003 IBM Corporation46故障處理部分 系統(tǒng)停在系統(tǒng)停在Stage 1,可能為電源、系統(tǒng)板、,可能為電源、系統(tǒng)板、CPU、內(nèi)存等硬件故障。、內(nèi)存等硬件故障。記錄故障代碼通知記錄故障代碼通知IBM工程師。工程師。 系統(tǒng)停在系統(tǒng)停在Stage 2,可能是啟動(dòng)順序表,可能是啟動(dòng)順序表(bootlist)損壞或損壞或I/O子系統(tǒng)故子系統(tǒng)故障??蓢L試進(jìn)入障??蓢L試進(jìn)入SMS 菜單檢查啟動(dòng)順序表,并修改。菜單檢查啟動(dòng)順序表,并修改。 若在選擇若在選擇bootlist時(shí)沒有硬盤設(shè)備可選或顯示的硬盤信息不正時(shí)沒有硬盤設(shè)備可選或顯示的硬盤信息不

50、正確則可能是硬盤故障。確則可能是硬盤故障。 若根本沒有若根本沒有SCSI設(shè)備可選則鏈路有問題。設(shè)備可選則鏈路有問題。 系統(tǒng)停在系統(tǒng)停在Stage3,可能是硬盤數(shù)據(jù)損壞,系統(tǒng)設(shè)置文件出錯(cuò),或,可能是硬盤數(shù)據(jù)損壞,系統(tǒng)設(shè)置文件出錯(cuò),或I/O子系統(tǒng)故障。子系統(tǒng)故障。IBM Systems & Technology Group 2003 IBM Corporation47故障處理部分 發(fā)生在系統(tǒng)啟動(dòng)的第三階段發(fā)生在系統(tǒng)啟動(dòng)的第三階段 (Stage 3),可能是:,可能是: 文件系統(tǒng)損壞 文件系統(tǒng)日志(jfslog)損壞 rootvg中有壞硬盤 修復(fù)方法修復(fù)方法 用系統(tǒng)光盤或系統(tǒng)備份帶啟動(dòng)(必須

51、與硬盤中的操作系統(tǒng)版本一致) 啟動(dòng)后選擇選項(xiàng)3 Start Maintenance Mode for System Recovery Access a Root Volume Group Access this volume group and start a shell before mounting the file systemsIBM Systems & Technology Group 2003 IBM Corporation48故障處理部分 格式化文件系統(tǒng)日志(jfslog) # /usr/sbin/logform /dev/hd8 檢查修復(fù)文件系統(tǒng) # fsck -y /

52、dev/hd1 (/home 文件系統(tǒng)) # fsck -y /dev/hd2(/usr 文件系統(tǒng)) # fsck -y /dev/hd3(/tmp 文件系統(tǒng)) # fsck -y /dev/hd4(/ 文件系統(tǒng)) # fsck -y /dev/hd9var(/var 文件系統(tǒng)) . . 用 exit 命令退出,文件系統(tǒng)會(huì)自動(dòng) mount 起來。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盤,如hdisk0 # bosboot -ad /dev/hdisk0 # bootlist -m normal /dev/hdisk0 重建啟動(dòng)順序表。IBM Sys

53、tems & Technology Group 2003 IBM Corporation49故障處理部分 重啟動(dòng)系統(tǒng) # shutdown -Fr 如上述步驟不奏效如上述步驟不奏效 用系統(tǒng)備份帶恢復(fù)系統(tǒng)。 如備份帶不能恢復(fù),用診斷光盤(Diagnostic CDROM)檢查是否壞硬盤。 通知IBM工程師。IBM Systems & Technology Group 2003 IBM Corporation50 CDE 運(yùn)行時(shí)不要更改網(wǎng)絡(luò)參數(shù)(如:主機(jī)名和運(yùn)行時(shí)不要更改網(wǎng)絡(luò)參數(shù)(如:主機(jī)名和IP 地址)更地址)更改網(wǎng)卡設(shè)置,請(qǐng)先退出改網(wǎng)卡設(shè)置,請(qǐng)先退出CDE圖形環(huán)境,選擇命令行方

54、式登圖形環(huán)境,選擇命令行方式登錄,在字符界面下更改。錄,在字符界面下更改。 如如CDE 已經(jīng)掛死已經(jīng)掛死 遠(yuǎn)程 telnet 登錄 找出所有dt有關(guān)的進(jìn)程用kill命令殺掉 # ps -ef |grep dt . . # kill PID 檢查當(dāng)前主機(jī)名 # hostname uname -a tscf50IBM Systems & Technology Group 2003 IBM Corporation51 查看主機(jī)名是否對(duì)應(yīng)有效的IP地址 # netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

55、更改主機(jī)名或IP地址,使主機(jī)名與當(dāng)前有效的IP地址存在對(duì)應(yīng)關(guān)系。 # smitty tcpip 重新啟動(dòng)CDE界面 # /etc/rc.dt HACMP環(huán)境下可把主機(jī)名alias到127.0.0.1上 # cat /etc/hosts 127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvgIBM Systems & Technology Group 2003 IBM Corporation52 發(fā)生在系統(tǒng)崩潰時(shí),發(fā)生在系統(tǒng)崩潰時(shí),AIX會(huì)做會(huì)做dump(系統(tǒng)內(nèi)存的快照系統(tǒng)內(nèi)存的快照)。 此時(shí)機(jī)器會(huì)顯示閃動(dòng)

56、的此時(shí)機(jī)器會(huì)顯示閃動(dòng)的888 102 xxx 0cx 代碼:代碼: 0c9系統(tǒng)dump 進(jìn)行中。0c9狀態(tài)可能會(huì)維持超過2分鐘,不要關(guān)電和按reset, 等待dump做完。 0c0dump 成功完成,這時(shí)可以斷電重起。 0c2 手動(dòng)啟動(dòng)dump 功能 0c4dump 設(shè)備空間不足,只有部分信息保存下來 0c5 不明原因?qū)е耫ump 失敗 mostly hdisk or sysplaner errorIBM Systems & Technology Group 2003 IBM Corporation53 一般一般dump是由于軟件出錯(cuò)引起,機(jī)器通??梢灾貑ⅰV貑⑹怯捎谲浖鲥e(cuò)引起,機(jī)器

57、通??梢灾貑?。重啟時(shí)可能提示用戶插入磁帶拷貝時(shí)可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,文件,不要選擇退出,這樣會(huì)丟失重要的故障信息。這樣會(huì)丟失重要的故障信息。IBM Systems & Technology Group 2003 IBM Corporation54 dump打包打包 # snap -a -o /dev/rmt#或 # snap -a -c 把/tmp/ibmsupt目錄做成一個(gè)壓縮文件 snap.tar.Z如果/tmp文件系統(tǒng)空間不夠,可用-d directory 參數(shù)指定別的目錄代替/tmp/ibmsupt #smitty dumpIBM Systems

58、& Technology Group 2003 IBM Corporation55 運(yùn)行故障診斷程序運(yùn)行故障診斷程序(Diagnostic),對(duì)系統(tǒng)硬件進(jìn)行檢查和診斷。,對(duì)系統(tǒng)硬件進(jìn)行檢查和診斷。當(dāng)發(fā)現(xiàn)有硬件故障時(shí)應(yīng)立即使用diag #diag 選高級(jí)診斷(Advance Diagnostic) 選問題診斷(Problem Determination) 或 選系統(tǒng)檢查(System Verification) (選PD 會(huì)對(duì)系統(tǒng)錯(cuò)誤記錄進(jìn)行分析)diag運(yùn)行后會(huì)給出SRN 代碼,故障設(shè)備名稱及百分比,地址代碼等。IBM Systems & Technology Group 20

59、03 IBM Corporation56 concurrent 模式模式 多用戶模式下(系統(tǒng)正常運(yùn)行時(shí))運(yùn)行硬盤上的診斷多用戶模式下(系統(tǒng)正常運(yùn)行時(shí))運(yùn)行硬盤上的診斷程序。如果可能盡量使用該模式程序。如果可能盡量使用該模式(但不要在應(yīng)用程序運(yùn)行時(shí)但不要在應(yīng)用程序運(yùn)行時(shí)使用)。使用)。 # diag運(yùn)行該命令需要root權(quán)限 Diagnostic CDROM 用診斷光盤啟動(dòng),通常在硬盤無法啟動(dòng)時(shí)使用。IBM Systems & Technology Group 2003 IBM Corporation57FUNCTION SELECTION 801002Move cursor to se

60、lection, then press Enter. Diagnostic Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will not be used. Advanced Diagnostics Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will be used. Task Selection(Diagnostics, Advanced Diagnostics, Service Aids, etc.) This selection will list the tasks supported by these procedures. Once a task is selected, a resource menu may be presented showing all resources supported by the task. Resource Sel

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論