版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、R RS S/ / 6 60 00 00 0R RS S/ / 6 60 00 00 0 系系統(tǒng)統(tǒng) 系系統(tǒng)統(tǒng)日日常常管管理理與與日日常常管管理理與與故故障障的的處處理理故故障障的的處處理理RS/ 6000 A dm i n & PDRS/ 6000 A dm i n & PD內(nèi)容提要內(nèi)容提要系統(tǒng)健康檢查常用操作故障的處理IBM 服務(wù)熱線系統(tǒng)健康檢查系統(tǒng)健康檢查系統(tǒng)健康檢查系統(tǒng)健康檢查機(jī)房環(huán)境檢查電源線的母頭是否為左零右火電壓值是否為240V零地電壓是否小于1V溫度(攝氏 )10 40濕度(%)8% 80%查看硬件情況檢查設(shè)備故障燈,一般為橙色并有 標(biāo)志。 有沒有異常聲響,如硬盤
2、、風(fēng)扇等。有沒有破損的電纜等系統(tǒng)健康檢查系統(tǒng)健康檢查檢查文件系統(tǒng) 查看有沒有“滿”的文件系統(tǒng)。文件系統(tǒng)滿可導(dǎo)致系統(tǒng)不能正常工作,尤其是AIX的基本文件系統(tǒng)。如/ (根文件系統(tǒng))滿則會導(dǎo)致用戶不能登錄。# df -k (查看AIX的基本文件系統(tǒng))Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95%95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd
3、3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home系統(tǒng)健康檢查系統(tǒng)健康檢查除/usr文件系統(tǒng),其他文件系統(tǒng)都不應(yīng)太滿,一般不超過80%。處理方法1:找出(刪除)垃圾文件 # du -sk * |sort r n |head 查找出當(dāng)前目錄下占空間最大的子目錄,逐層往下直到找出占空間最大的文件。(要區(qū)分哪些目錄是文件系統(tǒng)的 mount point,哪些是文件系統(tǒng)的子目錄)刪除文件,釋放空間。有時刪除文件后空間并不馬上釋放,這是由于你刪除的文件正被某個程序打開。只有當(dāng)這個程序停止后空間才釋放,有時甚至需要重起系統(tǒng)。
4、系統(tǒng)健康檢查系統(tǒng)健康檢查處理方法2:增加文件系統(tǒng)大小 # smitty chjfs 文件系統(tǒng)可以在任何時候加大,前提是卷組(VG)中有剩余空間。檢查文件系統(tǒng)的完整性 # umount filesystem_name # fsck filesystem_name # fsck -y filesystem_name注意:文件系統(tǒng)必須先umount,再做檢查和修復(fù),否則可導(dǎo)致未知的后果。系統(tǒng)健康檢查系統(tǒng)健康檢查查看卷組信息 lsvg -l vg_name 有沒有stale狀態(tài)的邏輯卷。 用syncvg 命令修復(fù)。# smitty syncvgLV NAME TYPE LPs PPs PVs LV S
5、TATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tmphd1 jfs 1 2 2 open/syncd /home系統(tǒng)
6、健康檢查系統(tǒng)健康檢查檢查內(nèi)存交換區(qū)(paging space)使用率 # lsps -s 使用率不要超過70%。 增加交換區(qū),或增加內(nèi)存。 觀察內(nèi)存大小的命令:lsattr El mem0 #lsps -sTotal Paging Space Percent Used 2048MB 15%#lsps aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 2048MB 15 yes yes lv系統(tǒng)健康檢查系統(tǒng)健康檢查網(wǎng)絡(luò)檢查 netstat -i 查看網(wǎng)卡狀態(tài) Ierrs/Ip
7、kts 和 Oerrs/Opkts是否1% ping host_name /IP Address 查看是否通和是否有丟包。 路由表 #netstat -rn 查看路由表是否正確,ping 各路由器是否通。 核 對 主 機(jī) 名 #hostname系統(tǒng)健康檢查系統(tǒng)健康檢查#ifconfig -aen0: flags=4e080863inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0: flags=e08084binet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.25
8、5.255inet6 :1/0#ifconfig 用法ifconfig en0 inet 11.0.0.1 upifconfig en0 ns 110:02.60.8c.2c.a4.98 up(還有很多)系統(tǒng)健康檢查系統(tǒng)健康檢查#lsattr El inet0#lsattr El inet0authm 65536 Authentication Methods Truehostname qtsms Host Name Truegateway Gateway Trueroute net,0,172.40.10.1,0,172.40.10.1 Route Truebootup_option no S
9、erial Optical Network Interface Truerout6 FDDI Network Interface Trueroute屬性是否有相應(yīng)的路由信息。格式為:net,0,172.16.23.81如果沒有缺省路由,執(zhí)行命令:#chdev l inet0 a route=0,172.16.23.81其中172.16.23.81為網(wǎng)關(guān)如果缺省路由不正確,則先刪除路由,再增加缺省路由:#chdev l inet0 a delroute= net,0,133.16.23.81#chdev l inet0 a route=0,172.16.23.81系統(tǒng)健康檢查系統(tǒng)健康檢查檢查du
10、mp設(shè)置#sysdumpdev l primary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression OFF 若不正確請用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull系統(tǒng)健康檢查系統(tǒng)健康檢查系統(tǒng)故障記錄(errorlog) errdemon 進(jìn)程在系統(tǒng)啟動時自動運(yùn)行 記錄包括硬件、軟件及其他操作信息 故障記錄文件為/var/adm/ras/errlo
11、g,可備份下來或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶權(quán)限也可使用)系統(tǒng)健康檢查系統(tǒng)健康檢查#errpt |more 列出簡短出錯信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 062413
12、1000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日時分年)T(類型): P 永久; T 臨時; U 未知(永久性的錯誤應(yīng)引起重視)C(分類): H 硬件; S 軟件; O 用戶; U未知#errpt -d H 列出所有硬件出錯信息#errpt -d S 列出所有軟件出錯信息#errpt -aj ERROR_ID 列出詳細(xì)出錯信息系統(tǒng)健康檢查系統(tǒng)健康檢查# errpt -aj 0502f666- ERROR_ID用大小寫
13、均可LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 1 Start Installation Now with Default Settings 2 Change/Show Installation Settings and
14、 Install3 Start Maintenance Mode for System Recovery 88 Help ? 99 Previous Menu常用操作常用操作-系統(tǒng)備份系統(tǒng)備份#smitty lsmksysb ;檢查系統(tǒng)備份帶的內(nèi)容。系統(tǒng)備份不是萬能的。備份最好有兩份。用戶數(shù)據(jù)備份 文件系統(tǒng)可用 tar 命令,切記不要使用絕對路徑。 數(shù)據(jù)庫可用數(shù)據(jù)庫的備份方式備。 邏輯卷(LV)可用dd 命令。 smitty savevg 用戶卷組備份 只備份mount起的文件系統(tǒng)。 注意:不備份邏輯卷(裸設(shè)備) 。常用操作常用操作-系統(tǒng)備份系統(tǒng)備份磁帶機(jī)卡帶子時可嘗試RESET磁帶機(jī)。 按住
15、磁帶機(jī)的彈出按鈕1530秒, 直到磁帶機(jī)液晶面板顯示RESET。磁帶RESET后磁帶應(yīng)能彈出。(此方法僅適用于8mm20GB磁帶機(jī)) # diag -cd rmt0 # tctl -f /dev/rmt0 reset 如果上述方法均不奏效,則只有重起機(jī)器。常用操作常用操作-鏡像鏡像鏡像(rootvg) lspv, lsvg l rootvg, lsvg rootvg, lsvg p rootvg, lslv m lv_name, lsvg M rootvg extendvg f rootvg hdisk1 chvg a y Q n rootvg mirrorvg S rootvg hdisk0
16、 hdisk1 bosboot a l /dev/hd5 d /dev/hdisk1 bootlist m normal hdisk0 hdisk1 syncvg v rootvg常用操作常用操作-鏡像鏡像拆鏡像(rootvg) lsvg M rootvg ; 檢查有效的pv, 確認(rèn)hdisk1壞 unmirrorvg rootvg hdisk1 bosboot a d /dev/hdisk0 bootlist m normal hdisk0 cd0 mkboot c d /dev/hdisk1 sysdumpdev l ; 檢查dump所在的lv(缺省hd6) sysdumpdev P p
17、/dev/hd6; reducevg rootvg hdisk1 rmdev dl hdisk1 shutdown -Fr常用操作常用操作-HACMP的操作的操作HACMP的操作啟動:smitty clstart停止:smitty clstop 啟動/停止過程可以查看/tmp/hacmp.out文件:#tail f /tmp/hacmp.out 檢查檢查Cluster是否運(yùn)行正常是否運(yùn)行正常 Cluster進(jìn)程是否運(yùn)行:#lssrc g cluster,至少兩個進(jìn)程,且為active。 IP地址是否獲?。?netstat i,看boot IP是否變?yōu)閟ervice ip。 VG是否varyon
18、:#lsvg o 文件系統(tǒng)是否mount:#mount 應(yīng)用進(jìn)程是否啟動:#ps ef | grep app_name常用操作常用操作-HACMP的操作的操作HACMP相關(guān)日志 /usr/adm/cluster.log; 以事件為單位的紀(jì)錄 /tmp/hacmp.out; 詳細(xì)記錄 /usr/sbin/cluster/history/cluster.常用操作常用操作-dump設(shè)置設(shè)置dump的有關(guān)設(shè)置 估算系統(tǒng)dump的大小,在系統(tǒng)最繁忙時(內(nèi)存使用最多)# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376 # lsps
19、-aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes 當(dāng)前的設(shè)置#sysdumpdev -lprimary /dev/hd6- dump的主設(shè)備secondary /dev/sysdumpnullcopy directory /var/adm/ras- dump拷貝的目錄forced copy flag TRUEalways allow dump TRUE hd6應(yīng)比估算值稍大。常用操作常用操作-dump
20、設(shè)置設(shè)置 /var/adm/ras 是默認(rèn)的dump拷貝目錄,比較估算值,保證/var文件系統(tǒng)有足夠的剩余空間拷貝dump文件。否則機(jī)器重起時會提示用戶插入磁帶。 dump文件名為vmcore.# 建立一個新的dump設(shè)備#smitty lv例如:lv_name= dump_lv, type=sysdump#sysdumpdev P p /dev/dump_lv故障處理故障處理故障處理故障處理-故障的定義故障的定義弄清楚系統(tǒng)發(fā)生了什么問題 系統(tǒng)現(xiàn)在能做什么?不能做什么? 故障什么時候發(fā)生的? 有沒有做平時不同的操作? 故障有沒有規(guī)律?定時還是不定時?發(fā)生的頻率有多高? 是一臺機(jī)器出現(xiàn)故障還是多
21、臺機(jī)器故障?故障現(xiàn)象是否相同? 最近有沒有做改動?如安裝了新的硬件、軟件,改變了系統(tǒng)的一些設(shè)置(如 HACMP配置)等 。故障處理故障處理-故障信息的收集故障信息的收集收集故障信息對于判斷、診斷故障原因,修復(fù)系統(tǒng)非常重要。系統(tǒng)故障記錄(errorlog) errdemon 進(jìn)程在系統(tǒng)啟動時自動運(yùn)行 記錄包括硬件、軟件及其他操作信息 故障記錄文件為/var/adm/ras/errlog,可備份下來或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶權(quán)限也可使用)故障處理故障處理-故障信息的收集故障信息的收集控制面板上的LED 代碼 8 位代碼,通常系統(tǒng)故障燈會同時亮起。某些機(jī)型還會同時顯示故
22、障設(shè)備位置代碼。(注:S85正常啟動過程中有合法的8位代碼。) 4 位代碼,通常是Exxx。 3 位代碼,通常為0yyy,只看后3位。 8 位和4位代碼可查看系統(tǒng)服務(wù)手冊 (Service Guide)。 3 位代碼可查看系統(tǒng)診斷手冊(Diagnostic Information for Multiple Bus System)。故障處理故障處理-故障信息的收集故障信息的收集 控制面板上的LED 代碼 查看Diagnostic Information for Multiple Bus Systems手冊故障處理故障處理-故障信息的收集故障信息的收集控制面板上的LED 代碼 (續(xù)) 閃動的 88
23、8, 系統(tǒng)崩潰,硬件或軟件原因造成。按reset 鍵會顯示更多內(nèi)容。 888-102 一般為軟件故障(888-102-207 例外) 系統(tǒng)會產(chǎn)生一個dump。 888-102-xxx-0C9 系統(tǒng)正在做dump, 請等待。 888-102-xxx-0C0 系統(tǒng)dump完成,可關(guān)電重啟。 888-103 或 105 硬件故障,一般有 SRN 代碼及位置代碼。故障處理故障處理-故障信息的收集故障信息的收集SMS (System Management Service) 故障記錄 如何進(jìn)入SMS 菜單當(dāng)主控臺出現(xiàn)鍵盤圖標(biāo)后(LED 顯示E1F1時)按F1鍵。字符終端按1鍵。(X80 機(jī)型則無論是字符主
24、控還是圖形主空臺,一律按鍵盤左上角的1鍵) 選擇Utilities“,選擇Error Log, 抄下8位故障代碼 在SMS 中還可以更改系統(tǒng)啟動順序表#mail系統(tǒng)會向root用戶發(fā)mail報(bào)告出錯信息。通常系統(tǒng)出現(xiàn)故障后沒有進(jìn)行檢查修復(fù),系統(tǒng)會定時提醒root故障處理故障處理-故障信息的收集故障信息的收集其他用于收集系統(tǒng)信息的命令 lsdev -C 系統(tǒng)設(shè)備信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit
25、 SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavg lsvg 查看卷組信息故障處理故障處理-故障信息的收集故障信息的收集#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4
26、 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV N
27、AME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm 故障處理故障處理-故障信息的收集故障信息的收集l sl pp 查看文件組信息# lslpp -L |grep 23100020.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100
28、 Ethernet Adapt看某個文件組是否已安裝,如以太網(wǎng)卡驅(qū)動。也用于查詢補(bǔ)丁程序的版本。l sattr查看設(shè)備參數(shù)設(shè)置# lsattr -El ent2busio 0 x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE
29、buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0 x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True 故障處理故障處理-故障信息的收集故障信息的收集l scf g查看VPD 信息(Vi rtual Product D ata)# lscfg -vl ssa1 DEVICE LOCATION
30、 DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500) Part Number.097H0645 FRU Number.097H0645 - 備件號 Serial Number.C8217227 EC Level.0000F20825 Manufacturer.IBM053 ROS Level and ID.7201 - 微碼版本 Loadable Microcode Level.04 Device Driver Level.00 Displayable Message.SSA-ADAPTER Device Specif
31、ic.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0 Device Specific.(Z2).000000062955dab2 Device Specific.(YL).P2-I7 C32/C33 檢測所有的硬盤、設(shè)備,更新ODM等 570: SCSI 硬盤 80C: SSA 硬盤 581: TCP/IP 子系統(tǒng)Stage 1Stage 2Stage 3故障處理故障處理-系統(tǒng)不能啟動系統(tǒng)不能啟動 系統(tǒng)停在Stage 1,可能為電源、系統(tǒng)板、CPU、內(nèi)存等硬件故障。記錄故障代碼通知IBM工程師。 系統(tǒng)停在Stage 2,可能是啟動順序表(bootlist)
32、損壞或I/O子系統(tǒng)故障??蓢L試進(jìn)入SMS 菜單檢查啟動順序表,并修改。 若在選擇bootlist時沒有硬盤設(shè)備可選或顯示的硬盤信息不正確則可能是硬盤故障。 若根本沒有SCSI設(shè)備可選則鏈路有問題。 系統(tǒng)停在Stage3,可能是硬盤數(shù)據(jù)損壞,系統(tǒng)設(shè)置文件出錯,或I/O子系統(tǒng)故障。故障處理故障處理-系統(tǒng)停在系統(tǒng)停在551,555或或557發(fā)生在系統(tǒng)啟動的第三階段 (Stage 3),可能是: 文件系統(tǒng)損壞 文件系統(tǒng)日志(jfslog)損壞 rootvg中有壞硬盤修復(fù)方法 用系統(tǒng)光盤或系統(tǒng)備份帶啟動(必須與硬盤中的操作系統(tǒng)版本一致) 啟動后選擇選項(xiàng)3Start Maintenance Mode fo
33、r System Recovery Access a Root Volume Group Access this volume group and start a shell before mounting the file systems故障處理故障處理-系統(tǒng)停在系統(tǒng)停在551,555或或557 格式化文件系統(tǒng)日志(jfslog)# /usr/sbin/logform /dev/hd8 檢查修復(fù)文件系統(tǒng)# fsck -y /dev/hd1 (/home 文件系統(tǒng))# fsck -y /dev/hd2(/usr 文件系統(tǒng))# fsck -y /dev/hd3(/tmp 文件系統(tǒng))# fsck
34、-y /dev/hd4(/ 文件系統(tǒng))# fsck -y /dev/hd9var(/var 文件系統(tǒng)). .用 exit 命令退出,文件系統(tǒng)會自動 mount 起來。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盤,如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動順序表。故障處理故障處理-系統(tǒng)停在系統(tǒng)停在551,555或或557 重啟動系統(tǒng)# shutdown -Fr如上述步驟不奏效 用系統(tǒng)備份帶恢復(fù)系統(tǒng)。 如備份帶不能恢復(fù),用診斷光盤(Diagnostic CDRO
35、M)檢查是否壞硬盤。 通知IBM工程師。故障處理故障處理-主控臺不能登錄主控臺不能登錄 字符終端有時會出現(xiàn)不能登錄的情形,可先嘗字符終端有時會出現(xiàn)不能登錄的情形,可先嘗試關(guān)掉終端,重開。如果不行則可能是試關(guān)掉終端,重開。如果不行則可能是getty進(jìn)程進(jìn)程運(yùn)行不正常。運(yùn)行不正常。遠(yuǎn)程 telnet 登錄檢查getty進(jìn)程是否運(yùn)行正常# ps -ef |grep consoleroot 29170 1 0 Jul 24 lft0 0:00 /usr/sbin/getty /dev/console如getty正常,查看主控臺端口是否正確# lscons查看主控臺設(shè)備/dev/tty0# lsdev
36、-C -l tty0查看端口是否可用,連線是否正確tty0 Available 01-S1-00-00 Asynchronous Terminal# lsattr -El tty0 看端口參數(shù)是否正確,如波特率故障處理故障處理-主控臺不能登錄主控臺不能登錄如getty沒有運(yùn)行在主控臺上,檢查/etc/inittab文件有否cons:0123456789:respawn:/etc/getty /dev/console更正后運(yùn)行init Q 命令激活主控端口。如getty確實(shí)在運(yùn)行,則可能是終端的硬件問題。故障處理故障處理-CDE圖形界面掛死圖形界面掛死CDE 運(yùn)行時不要更改網(wǎng)絡(luò)參數(shù)(如:主機(jī)名和
37、IP 地址)更改網(wǎng)卡設(shè)置,請先退出CDE圖形環(huán)境,選擇命令行方式登錄,在字符界面下更改。如CDE 已經(jīng)掛死 遠(yuǎn)程 telnet 登錄 找出所有dt有關(guān)的進(jìn)程用kill命令殺掉# ps -ef |grep dt . .# kill PID 檢查當(dāng)前主機(jī)名# hostname uname -atscf50故障處理故障處理-CDE圖形界面掛死圖形界面掛死 查看主機(jī)名是否對應(yīng)有效的IP地址# netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0 更改主機(jī)名或IP地址,使主機(jī)名與當(dāng)前有效的IP地址存在對應(yīng)關(guān)系。# smi
38、tty tcpip 重新啟動CDE界面# /etc/rc.dt HACMP環(huán)境下可把主機(jī)名alias到127.0.0.1上# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg故障處理故障處理-系統(tǒng)系統(tǒng)dump發(fā)生在系統(tǒng)崩潰時,AIX會做dump(系統(tǒng)內(nèi)存的快照)。此時機(jī)器會顯示閃動的888 102 xxx 0cx 代碼:0c9系統(tǒng)dump 進(jìn)行中。0c9狀態(tài)可能會維持超過2分鐘,不要關(guān)電和按reset, 等待dump做完。0c0dump 成功完成,這時可以斷電重起。0c2 手動啟
39、動dump 功能0c4dump 設(shè)備空間不足,只有部分信息保存下來0c5 不明原因?qū)е耫ump 失敗 mostly hdisk or sysplaner error故障處理故障處理-系統(tǒng)系統(tǒng)dump一般dump是由于軟件出錯引起(888-102-207 除外),機(jī)器通??梢灾貑?。重啟時可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,這樣會丟失重要的故障信息。故障處理故障處理-系統(tǒng)系統(tǒng)dumpdump打包# snap -a -o /dev/rmt# 或# snap -a -c 把/tmp/ibmsupt目錄做成一個壓縮文件 snap.tar.Z如果/tmp文件系統(tǒng)空間不夠,可用-d dire
40、ctory 參數(shù)指定別的目錄代替/tmp/ibmsupt#smitty dump故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用運(yùn)行故障診斷程序(Diagnostic),對系統(tǒng)硬件進(jìn)行檢查和診斷。 當(dāng)發(fā)現(xiàn)有硬件故障時應(yīng)立即使用diag#diag 選高級診斷(Advance Diagnostic) 選問題診斷(Problem Determination) 或 選系統(tǒng)檢查(System Verification)(選PD 會對系統(tǒng)錯誤記錄進(jìn)行分析) diag運(yùn)行后會給出SRN 代碼,故障設(shè)備名稱及百分比,地址代碼等。 對于PCI機(jī)型應(yīng)在系統(tǒng)報(bào)錯7天之內(nèi)運(yùn)行diag程序?qū)Τ鲥e記錄里的sen
41、se數(shù)據(jù)進(jìn)行分析。故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用concurrent 模式 多用戶模式下(系統(tǒng)正常運(yùn)行時)運(yùn)行硬盤上的診斷程序。如果可能盡量使用該模式(但不要在應(yīng)用程序運(yùn)行時使用)。 # diag運(yùn)行該命令需要root權(quán)限Stand-alone 模式 用硬盤上的診斷程序,在機(jī)器啟動時鑰匙打到Service 位置(MCA機(jī)型)或按F6/6(PCI機(jī)型)。系統(tǒng)啟動后自動運(yùn)行診斷程序。Diagnostic CDROM 用診斷光盤啟動,通常在硬盤無法啟動時使用。故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用FUNCTION SELECTION 801002Mov
42、e cursor to selection, then press Enter. Diagnostic Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will not be used. Advanced Diagnostics Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will be used. Tas
43、k Selection(Diagnostics, Advanced Diagnostics, Service Aids, etc.) This selection will list the tasks supported by these procedures. Once a task is selected, a resource menu may be presented showing all resources supported by the task. Resource Selection This selection will list the resources in the
44、 system that are supported by these procedures. Once a resource is selected, a task menu will be presented showing all tasks that can be run on the resource(s).F1=Help Esc+0=Exit F3=Previous Menu 故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用選擇診斷或高級診斷進(jìn)入以下菜單:DIAGNOSTIC MODE SELECTION 801003Move cursor to selection, t
45、hen press Enter. System Verification This selection will test the system, but will not analyze the error log. Use this option to verify that the machine is functioning correctly after completing a repair or an upgrade. Problem Determination This selection tests the system and analyzes the error log
46、if one is available. Use this option when a problem is suspected on the machine.系統(tǒng)檢查(System Verification)只檢查設(shè)備的當(dāng)前狀態(tài),并不分析故障記錄問題診斷(Problem Determination)檢測設(shè)備并分析故障記錄,解讀sense數(shù)據(jù),給出SRN代碼。PCI機(jī)型出現(xiàn)machine check checkstop 故障,必須在7天內(nèi)運(yùn)行故障診斷。故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用定時的mail報(bào)錯信息的處理 每天定時收到mail報(bào)錯信息,而所指的硬件確實(shí)是好的。這
47、種情況經(jīng)常發(fā)生在系統(tǒng)意外掉電后,或更換設(shè)備后沒有運(yùn)行診斷程序。 處理方法 #diag 選高級診斷(Advanced Diagnostics Routines) 選系統(tǒng)檢查(System Verfication) 選mail里所指的設(shè)備,如果報(bào)電源、風(fēng)扇故障,選擇 sysplanar0 進(jìn)行檢查。 如果硬件確實(shí)沒有問題,診斷程序會提示該設(shè)備曾 經(jīng)有出錯信息,問是否已更換或更正?選中該設(shè)備 按F7 確認(rèn)。 退出診斷程序,如果還是繼續(xù)收到mail,通知IBM故障處理故障處理-診斷程序診斷程序(Diag)的使用的使用ADVANCED DIAGNOSTIC SELECTION 801006From the list below, select any number of resources by movingthe cursor to the resource and pressing Enter. -用回車選中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版商務(wù)車租賃合同(含保險(xiǎn)責(zé)任條款)
- 二零二五版合作開發(fā)房地產(chǎn)合同綠色建筑認(rèn)證3篇
- 2025年綠色建筑土石方工程承包合同樣本2篇
- 2025年度菜園大棚蔬菜種植與農(nóng)業(yè)科技研發(fā)合同3篇
- 2025版路燈設(shè)施安全檢查與應(yīng)急搶修服務(wù)合同4篇
- 二零二四年醫(yī)療耗材配件銷售代理合同樣本3篇
- 2025年度工業(yè)用地場地租賃及使用權(quán)轉(zhuǎn)讓合同3篇
- 2025年度車輛租賃與道路救援服務(wù)合同3篇
- 2025年新能源汽車專用車位租賃與充電服務(wù)合同2篇
- 2025年度房地產(chǎn)項(xiàng)目融資合同8篇
- 家庭年度盤點(diǎn)模板
- 河南省鄭州市2023-2024學(xué)年高二上學(xué)期期末考試 數(shù)學(xué) 含答案
- 2024年資格考試-WSET二級認(rèn)證考試近5年真題集錦(頻考類試題)帶答案
- 試卷中國電子學(xué)會青少年軟件編程等級考試標(biāo)準(zhǔn)python三級練習(xí)
- 公益慈善機(jī)構(gòu)數(shù)字化轉(zhuǎn)型行業(yè)三年發(fā)展洞察報(bào)告
- 飼料廠現(xiàn)場管理類隱患排查治理清單
- 【名著閱讀】《紅巖》30題(附答案解析)
- Starter Unit 2 同步練習(xí)人教版2024七年級英語上冊
- 分?jǐn)?shù)的加法、減法、乘法和除法運(yùn)算規(guī)律
- 2024年江蘇鑫財(cái)國有資產(chǎn)運(yùn)營有限公司招聘筆試沖刺題(帶答案解析)
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫含答案
評論
0/150
提交評論