rs6000小型機(jī)故障的基本定位方法_第1頁(yè)
rs6000小型機(jī)故障的基本定位方法_第2頁(yè)
rs6000小型機(jī)故障的基本定位方法_第3頁(yè)
rs6000小型機(jī)故障的基本定位方法_第4頁(yè)
rs6000小型機(jī)故障的基本定位方法_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、RS/6000小型機(jī)故障的基本定位方法一故障的定義.弄清楚系統(tǒng)發(fā)生了什么問(wèn)題.系統(tǒng)現(xiàn)在能做什么不能做什么 .故障什么時(shí)候發(fā)生的.有沒(méi)有做平時(shí)不同的操作.故障有沒(méi)有規(guī)律定時(shí)還是不定時(shí)發(fā)生的頻率有多高 .是一臺(tái)機(jī)器出現(xiàn)故障還是多臺(tái)機(jī)器故障故障現(xiàn)象是否相同 .最近有沒(méi)有做改動(dòng)如安裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置二故障信息的收集1收集故障信息對(duì)于判斷診斷故障原因修復(fù)系統(tǒng)非常重要2系統(tǒng)故障記錄(errorlogerrdemon進(jìn)程在系統(tǒng)啟動(dòng)時(shí)自動(dòng)運(yùn)行記錄包括硬件軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog可備份下來(lái)或拷貝到別的機(jī)器上分析 errpt 命令的使用(普通用戶(hù)權(quán)限

2、也可使用#errpt |more 列出簡(jiǎn)短出錯(cuò)信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 040513

3、0900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日時(shí)分年T類(lèi)型: P 永久; T 臨時(shí); U 未知永久性的錯(cuò)誤應(yīng)引起重視 C分類(lèi): H 硬件; S 軟件; O 用戶(hù); U未知#errpt -d H 列出所有硬件出錯(cuò)信息#errpt -d S 列出所有軟件出錯(cuò)信息#errpt -aj ERROR_ID 列出詳細(xì)出錯(cuò)信息# errpt -aj 0502f666<- ERROR_ID用大小寫(xiě)均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequenc

4、e Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD:<- Virtal Product DataDevice Driver Level (00Diagnostic Level (00Displayable Message.SCSIEC Level.C25928FRU Number.30F8834 Manufacturer.IBM97FPart Number.59F4566Serial Num

5、ber (00002849ROS Level and ID (24Read/Write Register Ptr (0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DA

6、TA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003控制面板上的LED 代碼.8 位代碼通常系統(tǒng)故障燈會(huì)同時(shí)亮起某些機(jī)型還會(huì)同時(shí)顯示故障設(shè)備位置代 碼.4 位代碼通常是Exxx.3 位代碼通常為0yyy只看后3位.8 位和4位代碼可查看系統(tǒng)服務(wù)手冊(cè) (Service Guide3 位代碼可查看系統(tǒng)診斷手冊(cè)(Diagnostic Information for Multiple Bus System.閃動(dòng)的 888, 系統(tǒng)崩潰硬件或軟件原因造成按reset 鍵會(huì)顯示更多內(nèi)容 888-102 一般為軟件故障888-102-20

7、7 例外系統(tǒng)會(huì)產(chǎn)生一個(gè)dump888-102-xxx-0C9 系統(tǒng)正在做dump, 請(qǐng)等待888-102-xxx-0C0 系統(tǒng)dump完成可關(guān)電重啟888-103 或105硬件故障一般有 SRN 代碼及位置代碼 4SMS (System Management Service 故障記錄如何進(jìn)入SMS 菜單當(dāng)主控臺(tái)出現(xiàn)鍵盤(pán)圖標(biāo)后(LED 顯示E1F1時(shí)按1鍵選擇"Utilities"選擇"Error Log", 抄下8位故障代碼在SMS 中還可以更改系統(tǒng)啟動(dòng)順序表5 MAIL#mail系統(tǒng)會(huì)向root用戶(hù)發(fā)mail報(bào)告出錯(cuò)信息通常系統(tǒng)出現(xiàn)故障后沒(méi)有進(jìn)行檢查

8、修復(fù)系統(tǒng)會(huì)定時(shí)提醒root6運(yùn)行故障診斷程序(Diagnostic對(duì)系統(tǒng)硬件進(jìn)行檢查和診斷 當(dāng)發(fā)現(xiàn)有硬件故障時(shí)應(yīng)立即使用diag#diag> 選高級(jí)診斷Advance Diagnostic> 選問(wèn)題診斷Problem Determination 或選系統(tǒng)檢查System Verification(選PD 會(huì)對(duì)系統(tǒng)錯(cuò)誤記錄進(jìn)行分析diag運(yùn)行后會(huì)給出SRN 代碼故障設(shè)備名稱(chēng)及百分比地址代碼等對(duì)于PCI機(jī)型應(yīng)在系統(tǒng)報(bào)錯(cuò)7天之內(nèi)運(yùn)行diag程序?qū)Τ鲥e(cuò)記錄里的sense數(shù)據(jù)進(jìn)行分析7其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設(shè)備信息#lsdev -Cc diskhdisk0 Avai

9、lable 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷組信息#lsvg datavgVOLUME GROUP:

10、 datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AU

11、TO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 111 closed/syncd N/A.lv00 jfs 51102 1 closed/stale /ibmcxxlv01 jfs 111 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件組信息# lslpp -L |grep 23100020.devices.pci.23

12、100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt 看某個(gè)文件組是否已安裝如以太網(wǎng)卡驅(qū)動(dòng)也用于查詢(xún)補(bǔ)丁程序的版本lsattr查看設(shè)備參數(shù)設(shè)置# lsattr -El ent2busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size

13、 True rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True use_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True lscfg查看VPD信息Virtual Product Data# lscfg -vl ssa1DEVICE LOCA

14、TION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500Part Number.097H0645FRU Number.097H0645 <- 備件號(hào)Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.7201 <- 微碼版本Loadable Microcode Level (04Device Driver Level (00Displayable Message.SSA-ADAPTERDevice Speci

15、fic.(Z0.DRAM=032Device Specific.(Z1.CACHE=0Device Specific.(Z2.000000062955dab2Device Specific.(YL.P2-I7 <- 槽號(hào)不同的硬件設(shè)備有不同的VPD所含的格式和信息都不一樣通常備件號(hào)和微碼版本最有參考價(jià)值注FRU(Field Replace Unit才是真正的備件號(hào)三硬件故障定位方法IBM 小型機(jī)故障定位方法包括小型機(jī)I/O柜上的顯示面板上的Checkpoints信息 Error Code 和SRNsCheckpoints 檢查點(diǎn)是系統(tǒng)加電CMOS初始化程序(initial program

16、 load (IPL運(yùn)Checkpoints行后顯示在 I/O柜的顯示面板上一系列信息IPL 流程當(dāng)交流電源接到系統(tǒng)后IPL流程就開(kāi)始了IPL流程包括四個(gè)步驟 Phase 1: Service Processor 的初始化. PhasePhase 1開(kāi)始于交流電源接到系統(tǒng)后直到OK顯示在I/O柜上的顯示面板上為止 在這個(gè)步驟會(huì)顯示 8xxx 或9xxx checkpoints代碼 Phase 2: 由 Service Processor 引導(dǎo)的硬件初始化. Phase 2:Phase 2 開(kāi)始于按下I/O柜上的白色電源開(kāi)關(guān)在這個(gè)步驟會(huì)顯示 9xxx checkpoints 91FF 是最后的代

17、碼標(biāo)志著第三步驟的開(kāi)始Phase 3: 系統(tǒng)固件的初始化. Phase 3:在 Phase 3, 一個(gè)系統(tǒng)處理器接管控制并繼續(xù)初始化系統(tǒng)資源在這個(gè)步驟會(huì)顯 示 Exxx E105是最后的代碼標(biāo)志著第四步驟AIX啟動(dòng)的開(kāi)始在這個(gè)過(guò)程中還會(huì)顯示各種位置碼位置碼代表著系統(tǒng)的每一個(gè)部分Phase 4: AIX 啟動(dòng). Phase 4: AIX當(dāng)AIX開(kāi)始啟動(dòng)時(shí)顯示面板上的代碼為 0xxx 同時(shí)位置碼會(huì)出現(xiàn)在第二行當(dāng)AIX 的登錄窗口出現(xiàn)在控制臺(tái)上時(shí)第四步驟結(jié)束同時(shí)顯示面板上再無(wú)任何信息出現(xiàn)Error Code 當(dāng)系統(tǒng)運(yùn)行有錯(cuò)誤發(fā)現(xiàn)時(shí)一個(gè)8位碼會(huì)顯示在顯示面板上同時(shí)在第二行顯示相對(duì)應(yīng)問(wèn)題硬件的位置碼SR

18、Ns Service request numbers,服務(wù)請(qǐng)求碼當(dāng)系統(tǒng)運(yùn)行有錯(cuò)誤發(fā)現(xiàn)時(shí)SRNs 碼會(huì)以 xxx-xxx的形式顯示在顯示面板上同時(shí)在AIX的error log中也會(huì)有記載以上所有代碼都會(huì)有相應(yīng)的步驟解決由于代碼繁多請(qǐng)?jiān)诔霈F(xiàn)問(wèn)題后記錄下代碼并致電IBM服務(wù)熱線系統(tǒng)的啟動(dòng)順序: .系統(tǒng)不能啟動(dòng)系統(tǒng)停在Stage 1可能為電源系統(tǒng)板CPU內(nèi)存等硬件故障記錄故障代碼通知IBM工程師系統(tǒng)停在Stage 2可能是啟動(dòng)順序表(bootlist損壞或I/O子系統(tǒng)故障可嘗試進(jìn)入SMS 菜單檢查啟動(dòng)順序表并修改若在選擇bootlist時(shí)沒(méi)有硬盤(pán)設(shè)備可選或顯示的硬盤(pán)信息不正確則可能是硬盤(pán)故障若根本沒(méi)有

19、SCSI設(shè)備可選則鏈路有問(wèn)題系統(tǒng)停在Stage3可能是硬盤(pán)數(shù)據(jù)損壞系統(tǒng)設(shè)置文件出錯(cuò)或I/O子系統(tǒng)故 障 .系統(tǒng)停在551555或557發(fā)生在系統(tǒng)啟動(dòng)的第三階段 (Stage 3可能是文件系統(tǒng)損壞文件系統(tǒng)日志(jfslog損壞rootvg中有壞硬盤(pán)修復(fù)方法用系統(tǒng)光盤(pán)或系統(tǒng)備份帶啟動(dòng)必須與硬盤(pán)中的操作系統(tǒng)版本一致 啟動(dòng)后選擇選項(xiàng)3"Start Maintenance Mode for System Recovery"> "Access a Root Volume Group"> "Access this volume group and

20、 start a shellbefore mounting the file systems"格式化文件系統(tǒng)日志(jfslog# /usr/sbin/logform /dev/hd8檢查修復(fù)文件系統(tǒng)# fsck -y /dev/hd1/home 文件系統(tǒng)# fsck -y /dev/hd2/usr 文件系統(tǒng) # fsck -y /dev/hd3/tmp 文件系統(tǒng) # fsck -y /dev/hd4/ 文件系統(tǒng) # fsck -y /dev/hd9var/var 文件系統(tǒng) . .用 exit 命令退出文件系統(tǒng)會(huì)自動(dòng) mount 起來(lái) 重建bootimage# lslv -m hd5找

21、出bootimage所在的硬盤(pán)如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動(dòng)順序表 重啟動(dòng)系統(tǒng)# shutdown -Fr如上述步驟不奏效用系統(tǒng)備份帶恢復(fù)系統(tǒng)如備份帶不能恢復(fù)用診斷光盤(pán)Diagnostic CDROM檢查是否壞硬盤(pán).CDE圖形界面掛死CDE 運(yùn)行時(shí)不要更改網(wǎng)絡(luò)參數(shù)如主機(jī)名和IP 地址 更改網(wǎng)卡設(shè)置請(qǐng)先退出CDE圖形環(huán)境選擇命令行方式登錄在字符界面下 更改如CDE 已經(jīng)掛死遠(yuǎn)程 telnet 登錄找出所有dt有關(guān)的進(jìn)程用kill命令殺掉# ps -ef |grep dt. .# kill

22、PID檢查當(dāng)前主機(jī)名# hostnametscf50查看主機(jī)名是否對(duì)應(yīng)有效的IP地址# netstat -i |grep tscf50tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主機(jī)名或IP地址使主機(jī)名與當(dāng)前有效的IP地址存在對(duì)應(yīng)關(guān)系# smitty tcpip重新啟動(dòng)CDE界面# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0 name/addressbvg.系統(tǒng)dump發(fā)生在系統(tǒng)崩潰時(shí)AIX會(huì)做dump(系統(tǒng)內(nèi)存的快照此時(shí)機(jī)器會(huì)顯示閃動(dòng)的888 102 xxx

23、 0cx 代碼0c9系統(tǒng)dump 進(jìn)行中0c9狀態(tài)可能會(huì)維持超過(guò)2分鐘不要關(guān)電和按reset, 等待dump做完0c0dump 成功完成這時(shí)可以斷電重起 0c2 手動(dòng)啟動(dòng)dump 功能0c4dump 設(shè)備空間不足只有部分信息保存下來(lái)0c5 不明原因?qū)е耫ump 失敗一般dump是由于軟件出錯(cuò)引起(888-102-207 除外機(jī)器通常可以重啟重啟時(shí)可能提示用戶(hù)插入磁帶拷貝dump文件不要選擇退出這樣會(huì)丟失重要的故障信息dump的有關(guān)設(shè)置估算系統(tǒng)dump的大小在系統(tǒng)最繁忙時(shí)內(nèi)存使用最多 # sysdumpdev -e0453-041 Estimated dump size in bytes: 53

24、477376# lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes當(dāng)前的設(shè)置#sysdumpdev -lprimary /dev/hd6<- dump的主設(shè)備secondary /dev/sysdumpnullcopy directory /var/adm/ras<- dump拷貝的目錄forced copy flag TRUEalways allow dump TRUEhd6應(yīng)比

25、估算值稍大/var/adm/ras 是默認(rèn)的dump拷貝目錄比較估算值保證/var文件系統(tǒng)有足夠的 剩余空間拷貝dump文件否則機(jī)器重起時(shí)會(huì)提示用戶(hù)插入磁帶dump文件名為vmcore.#對(duì)PCI機(jī)型如要手動(dòng)做dump須把" always allow dump" 先設(shè)成true# sysdumpdev -Kdump打包# snap -a -o /dev/rmt#或# snap -a -c 把/tmp/ibmsupt目錄做成一個(gè)壓縮文件可用-d directory 參數(shù)指定別的目錄代替/tmp/ibmsupt四 7133-D40 SSA磁盤(pán)柜的故障定位當(dāng)SSA磁盤(pán)柜出現(xiàn)故障時(shí)

26、在磁盤(pán)柜前面板的液晶顯示屏上會(huì)顯示相應(yīng)的SRNsSRNs,同時(shí)黃色的顯示燈會(huì)閃動(dòng)在AIX的error log中也會(huì)有記載錯(cuò)誤信息如DISK_ERR1 DISK_ERR4SSA_ARRAY_ERROR等請(qǐng)?jiān)诔霈F(xiàn)問(wèn)題后記錄下代碼并致電IBM服務(wù)熱 線 五軟件故障定位方法軟件故障情況錯(cuò)綜復(fù)雜下面列舉幾個(gè)常見(jiàn)案例的故障處理方法1 文件系統(tǒng)空間不夠查看有沒(méi)有 滿(mǎn) 的文件系統(tǒng)特別是/var/tmp不要超過(guò)90%文件系統(tǒng) 滿(mǎn)可導(dǎo)致系統(tǒng)不能正常工作尤其是AIX的基本文件系統(tǒng)如/ (根文件系統(tǒng)滿(mǎn)則會(huì)導(dǎo)致用戶(hù)不能登錄用df k 查看# df -k (查看AIX的基本文件系統(tǒng)Filesystem 1024-bloc

27、ks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd116384 5332 68% 1402 35% /home除/usr文件系統(tǒng)其他文件系統(tǒng)都不應(yīng)太滿(mǎn)一般不超過(guò)80%處理方法1刪除垃圾文件# du -sk * |sort -rn |head查找出當(dāng)前目錄下占空間最大的

28、子目錄逐層往下直到找出占空間最大的文件要區(qū)分哪些目錄是文件系統(tǒng)的 mount point哪些是文件系統(tǒng)的子目錄刪除文件釋放空間有時(shí)刪除文件后空間并不馬上釋放這是由于你刪除的文件正被某個(gè)程序打開(kāi)只有當(dāng)這個(gè)程序停止后空間才釋放有時(shí)甚至需要重起系統(tǒng)處理方法2增加文件系統(tǒng)大小# smitty chjfs文件系統(tǒng)可以在任何時(shí)候加大前提是卷組(VG中有剩余空間 2 檢查文件系統(tǒng)的完整性# umount filesystem_name# fsck -y filesystem_name注意文件系統(tǒng)必須先umount再做檢查和修復(fù)否則可導(dǎo)致未知的后果3查看卷組信息(lsvg -l vg_name有沒(méi)有"

29、;stale"狀態(tài)的邏輯卷若有用syncvg 命令修復(fù)"stale"邏輯卷4檢查內(nèi)存交換區(qū)(paging space使用率(lsps -s使用率是否超過(guò)70%若有則用chps sX pgname增加X(jué)個(gè)PP或用 mkps a n sX myvg在myvg上增加一個(gè)PP數(shù)為X的內(nèi)存交換區(qū)5小型機(jī)內(nèi)存泄漏問(wèn)題小型機(jī)出現(xiàn)內(nèi)存泄漏即系統(tǒng)或應(yīng)用進(jìn)程無(wú)法將使用過(guò)的內(nèi)存釋放使可用內(nèi)存的容量逐漸減少如果可用內(nèi)存降到某最小值將造成系統(tǒng)或應(yīng)用程序無(wú)法FORK子進(jìn)程就會(huì)造成系統(tǒng)癱瘓通常我們可以用ps 和sar 命令來(lái)查看小型機(jī)內(nèi)存和CPU 占用率的大概情況以及各進(jìn)程的內(nèi)存和CPU 占用

30、率的發(fā)展趨勢(shì)(a ps# ps gv|head -n 1; ps gv|egrep -v "RSS" | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS SIZE RSS SIZE RSS LIM TSIZ TRS %CPU %MEM %MEM4.0 ./backups 10256 pts/1 A 0:00 0 5692 15628 15692 32768 5 24 0.0 .04.0 kproc SIZESIZE virtual size (in the pagingspace, in kilobyt

31、es,RSSRSS real-memory (resident set size in kilobytes of the process.通過(guò)不同時(shí)間輸出的比較就能觀察出內(nèi)存和CPU 占用率的基本情況找出其中占用內(nèi)存數(shù)不斷變大的進(jìn)程這個(gè)進(jìn)程可能就已經(jīng)發(fā)生了內(nèi)存泄漏(b sar 指令也可以查看CPU 占用率但統(tǒng)計(jì)的結(jié)果不是很準(zhǔn)確通常使用sar 令的格式為#sar -P ALL 2 1009:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 42 91- 2 3 4

32、 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 12 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 35112 2 55 32- 8 4 55 3309:29:57 0 16 8 14 6

33、4115 9 11 65- 15 8 12 64Average 0 3 2 10 851 4 3 8 85- 4 2 9 85表示2秒鐘輸出一次結(jié)果總共有10次結(jié)果然后平均 目前如果發(fā)現(xiàn)內(nèi)存泄漏最好重新啟動(dòng)系統(tǒng)六 HACMP環(huán)境下的排錯(cuò)在一般情況下,HACMP軟件很少需要手工干預(yù),但一旦有問(wèn)題發(fā)生,診斷和恢復(fù)的技巧是很重要的.需要能很快地?cái)喽▎?wèn)題然后運(yùn)用你對(duì)HACMP的理解來(lái)恢復(fù)HACMP 的正常運(yùn)作.一般地,HACMP環(huán)境下的排錯(cuò)包括:.了解問(wèn)題的存在.判斷問(wèn)題的出處.解決問(wèn)題.一了解問(wèn)題的存在您可以通過(guò)以下途徑了解到一個(gè)CLUSTER環(huán)境下出現(xiàn)了問(wèn)題.最終用戶(hù)的投訴,他們無(wú)法訪問(wèn)應(yīng)用程序.

34、控制臺(tái)上出現(xiàn)一些HACMP的信息.最終用戶(hù)的抱怨通常預(yù)示CLUSTER出現(xiàn)了問(wèn)題.他們無(wú)法正常執(zhí)行應(yīng)用或是無(wú)法登錄到系統(tǒng).我們必須采集到詳細(xì)的信息以判斷到底那里出現(xiàn)了問(wèn)題.是否有錯(cuò)誤的信息提示?如果可能的話(huà),讓用戶(hù)重復(fù)步驟以確定那里是錯(cuò)誤的開(kāi)始.您也可以在自己的系統(tǒng)上重復(fù).要知道用戶(hù)應(yīng)用不可用并不代表HACMP有問(wèn)題.問(wèn)題可能出現(xiàn)在應(yīng)用程序本身或是它的啟動(dòng)或終止腳本出現(xiàn)了問(wèn)題.因此應(yīng)用程序本身的排錯(cuò)也應(yīng)是HA排錯(cuò)的一部分.在HACMP啟動(dòng),終止或出錯(cuò)時(shí),控制臺(tái)上會(huì)出現(xiàn)一些HACMP的信息,同時(shí)也會(huì)寫(xiě)入相應(yīng)的文件中.二判斷問(wèn)題的出處當(dāng)錯(cuò)誤出現(xiàn)時(shí),我們應(yīng)嘗試發(fā)現(xiàn)錯(cuò)誤的所在.但我們常常被錯(cuò)誤的表面所

35、誤導(dǎo).以下的步驟可以使我們得到更詳細(xì)的信息.1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log.因?yàn)樗鼈兛赡鼙桓采w.2.仔細(xì)檢查HACMP所產(chǎn)生的LOG文件.它們能提供最初的判斷線索.3.用HACMP的工具和AIX的命令來(lái)檢查HACMP的部件是否正常.4.打開(kāi)HACMP的跟蹤工具來(lái)產(chǎn)生更詳細(xì)的信息.HACMP的LOG文件:以下文件都是文本文件,可以用VI來(lái)看.每個(gè)日志文件都含有每個(gè)信息的產(chǎn)生時(shí)間./usr/adm/cluster.log :記錄了HACMP的狀態(tài),由HA的守護(hù)進(jìn)程所產(chǎn)生./tmp/hacmp.out :記錄了HA的詳細(xì)腳本./usr/s

36、bin/cluster/history/cluster.mmdd :記錄了HA的各個(gè)事件的發(fā)生./tmp/cm.log :由clstrmgr進(jìn)程產(chǎn)生,每次HA重起時(shí)會(huì)被覆蓋.HACMP FOR AIX的結(jié)構(gòu)應(yīng)用層HACMP軟件層LVM & TCPIP 層AIX 層物理網(wǎng)絡(luò)層物理硬盤(pán)層硬件層在物理網(wǎng)絡(luò)層,物理硬盤(pán)層,硬件層,LVM & TCPIP 層,AIX 層我們可以用AIX 系統(tǒng)命令來(lái)看是否硬件和系統(tǒng)出現(xiàn)了問(wèn)題.一般地,在用errpt命令來(lái)看沒(méi)有類(lèi)型為PH的錯(cuò)誤,lsvg -o 來(lái)看我們所須的VG已varyon,mount來(lái)看我們所須的文件系統(tǒng)已安裝, netstat -i來(lái)

37、看我們所須的service IP是UP的狀態(tài)(或用ifconfig en*,cluster node 之間的service 與service IP ,standby與 standby IP 互相可以ping通.在各個(gè)節(jié)點(diǎn)上執(zhí)行stty<</dev/tty* 有相應(yīng)的信息出現(xiàn).說(shuō)明硬件層,LVM & TCPIP 層,AIX 層沒(méi)有問(wèn)題,問(wèn)題可能出現(xiàn)在應(yīng)用層與HACMP軟件層上.否則問(wèn)題就出現(xiàn)在相應(yīng)的層次上.在HACMP軟件層上,我們可以用vi /tmp/hacmp.out來(lái)看,如果出現(xiàn)event failed的字段,則有可能問(wèn)題出現(xiàn)在該層,如果在問(wèn)題出現(xiàn)的時(shí)段,hacmp.o

38、ut無(wú)信息出現(xiàn),則問(wèn)題可能出現(xiàn)在應(yīng)用層.以下是HA排錯(cuò)的一些守則:.在第一時(shí)間保存好相關(guān)的日志文件,特別是那些會(huì)被覆蓋的文件.嘗試去重復(fù)問(wèn)題的出現(xiàn).不要被用戶(hù)所反映的問(wèn)題迷惑.漸進(jìn)地去重復(fù)問(wèn)題,如果有多個(gè)可能導(dǎo)致問(wèn)題的出現(xiàn),一個(gè)一個(gè)地去重復(fù),而不要一次重復(fù)多個(gè)可能.不要憑經(jīng)驗(yàn)來(lái)判斷問(wèn)題,而是要在各種測(cè)試后,由結(jié)果來(lái)判斷.隔離問(wèn)題的來(lái)源,根據(jù)我們上面所敘述的層次關(guān)系,至頂向下地診斷.由簡(jiǎn)到繁地做測(cè)試,我們先從一個(gè)簡(jiǎn)單的環(huán)境來(lái)做測(cè)試,不要嘗試在一個(gè)復(fù)雜的環(huán)境中測(cè)試.一次做一次改動(dòng),否則我們無(wú)法知道是那個(gè)改動(dòng)解決了問(wèn)題.不要忽略各種可能,因小可失大,留心系統(tǒng)的每一個(gè)細(xì)節(jié),包括電源,插頭,連線等. .

39、保持各種測(cè)試的記錄以及解決的步驟,用做將來(lái)排錯(cuò)的參考.撥打IBM服務(wù)熱線,將問(wèn)題現(xiàn)象和您所做的測(cè)試結(jié)果告訴IBM的工程師,他們將在CALL CENTER的測(cè)試中心重復(fù)試驗(yàn),必要時(shí)會(huì)派工程師到場(chǎng)解決問(wèn)題.三 IBM HACMP 雙機(jī)系統(tǒng)的管理和維護(hù)本節(jié)將說(shuō)明HACMP 雙機(jī)軟件的一些基本管理和維護(hù)命令這些命令將會(huì)在HACMP 雙機(jī)系統(tǒng)的日常工作中經(jīng)常用到.1 HACMP 雙機(jī)系統(tǒng)的啟動(dòng)要啟動(dòng)HACMP 雙機(jī)系統(tǒng)必須要有root 用戶(hù)的特權(quán)分別進(jìn)入到系統(tǒng)各節(jié)點(diǎn)主機(jī)在命令行上執(zhí)行下述命令即可.# smit clstart或# /usr/sbin/cluster/etc/rc.cluster -boo

40、t -N I需要注意的是在雙機(jī)系統(tǒng)中HACMP 雙機(jī)軟件先啟動(dòng)的節(jié)點(diǎn)將成為主節(jié)點(diǎn)擁有資源并對(duì)外提供關(guān)鍵服務(wù)后啟動(dòng)的節(jié)點(diǎn)將成為備節(jié)點(diǎn).另外在啟動(dòng)HACMP 前需要啟動(dòng)雙機(jī)上的INFORMIX 和SCP 應(yīng)用.2 HACMP 雙機(jī)系統(tǒng)的關(guān)閉要關(guān)閉某節(jié)點(diǎn)上的HACMP 雙機(jī)軟件必須要有該節(jié)點(diǎn)root 用戶(hù)的特權(quán)以root 用戶(hù)進(jìn)入到該節(jié)點(diǎn)主機(jī)在命令行上執(zhí)行下述命令即可.# smit clstop或# clstop -gr需要注意的是若該節(jié)點(diǎn)是主節(jié)點(diǎn)并且備節(jié)點(diǎn)上的HACMP 軟件亦正常運(yùn)行則需注意clstop 關(guān)閉模式的三種選項(xiàng)的不同1 forced 是指立即關(guān)閉雙機(jī)軟件不調(diào)用任何客戶(hù)應(yīng)用的則關(guān)閉模式

41、選項(xiàng)沒(méi)有多大意義.另外關(guān)閉HACMP 將關(guān)閉manager 和informix.3 查詢(xún)HACMP 雙機(jī)系統(tǒng)的狀態(tài)在雙機(jī)系統(tǒng)的運(yùn)行當(dāng)中操作員經(jīng)常需要知道雙機(jī)系統(tǒng)的當(dāng)前狀態(tài)才有可能對(duì)雙機(jī)系統(tǒng)出現(xiàn)的異常情況進(jìn)行恢復(fù)處理才能保證雙機(jī)系統(tǒng)的高可用性和高容錯(cuò)性.查詢(xún)HACMP 雙機(jī)系統(tǒng)的狀態(tài)只需以root 用戶(hù)進(jìn)入需要查詢(xún)的節(jié)點(diǎn)進(jìn)行下列操作首先檢查HACMP 雙機(jī)軟件在該節(jié)點(diǎn)是否已啟動(dòng)命令如下# lssrc -g cluster若是系統(tǒng)顯示出下面類(lèi)似的信息則說(shuō)明HACMP 雙機(jī)軟件已正常啟動(dòng).Subsystem Group PID Statusclstrmgr cluster 22500 activec

42、lsmuxpd cluster 23674 activeclinfo cluster 28674 active在已確認(rèn)雙機(jī)軟件HACMP 正常啟動(dòng)的情況下在命令行執(zhí)行下述命令來(lái)察看雙機(jī)系統(tǒng)的當(dāng)前狀態(tài)# /usr/sbin/cluster/clstat -a如果雙機(jī)系統(tǒng)一切工作正常則系統(tǒng)將顯示下述類(lèi)似信息clstat - HACMP for AIX Cluster Status Monitor-Cluster: scp_cluster(80 Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: mscp1 St

43、ate: UPState: UPState: UPNode: mscp2 State: UPState: UPState: UP七常用的系統(tǒng)狀態(tài)查詢(xún)命令 # lsdev C s scsi列出各個(gè)SCSI設(shè)備的所有相關(guān)信息如邏輯單元號(hào)硬件地址及設(shè)備文件名等# ps -ef列出正在運(yùn)行的所有進(jìn)程的各種信息如進(jìn)程號(hào)及進(jìn)程名等 # netstat -rn列出網(wǎng)卡狀態(tài)及路由信息等# netstat -in列出網(wǎng)卡狀態(tài)及網(wǎng)絡(luò)配置信息# df -k列出已加載的邏輯卷及其大小信息# mount列出已加載的邏輯卷及其加載位置# uname -a列出系統(tǒng)ID 號(hào)系統(tǒng)名稱(chēng)OS版本等信息# hostname列出系統(tǒng)網(wǎng)

44、絡(luò)名稱(chēng)# lsvg l rootvg,lsvg p rootvg顯示邏輯卷組信息如包含哪些物理盤(pán)及邏輯卷等 # lslv l datalv,lslv p datalv顯示邏輯卷各種信息如包含哪些盤(pán)是否有鏡像等 八網(wǎng)絡(luò)故障定位方法網(wǎng)絡(luò)不通的診斷過(guò)程ifconfig 查看網(wǎng)卡是否啟動(dòng) (upnetstat i 查看網(wǎng)卡狀態(tài)Ierrs/Ipkts 和 Oerrs/Opkts是否>1%ping自己網(wǎng)卡地址 (ip 地址ping其它機(jī)器地址如不通在其機(jī)器上用diag檢測(cè)網(wǎng)卡是否有問(wèn)題 在同一網(wǎng)中 subnetmask 應(yīng)一致網(wǎng)絡(luò)配置的基本方法(1 如需修改網(wǎng)絡(luò)地址主機(jī)名等一定要用 chdev 命令

45、# chdev l inet0 a hostname=myhost(2 查看網(wǎng)卡狀態(tài)# lsdev Cc if(3 確認(rèn)網(wǎng)絡(luò)地址# ifconfig en0(4 啟動(dòng)網(wǎng)卡# ifconfig en0 up(5 配置路由有兩種方式加入路由永久路由臨時(shí)路由用命令 netstat -rn 查看路由表附常用命令列表! ! " #"$ %& ! " ' # ($ %&!# *" " +, !# * %- * ! * '!*" !*"&&&& ! $ ' *$+ !

46、* ,&&&&& !* $ '' ' !* ' #' ' !# . !(!# $ * (. %'$ ! && $ ! ' ' (&& / 00 * ! $! ! $1 # !* ' * , '1 2 !* ' , '! ! #! ! $ * ( ! % !(% $ * ,345 (, ( 5' ! ! $ ' $ * '' ! # ( %+6 $' ! ! #! % 78! %99

47、 ! & 99* 99 ! & 99!' ''' ! ' , ' : (, ! ! ''! ; $ ! $! < ! +( , ! 8 ! *!< ! +! = != ! 3 ! '!= 3 ! ' 3 !< 3 ! ' +' ! *$ * $! % $ %! % % #! ! * > ,+55 4+55 " ?43 ,+55$ ! * $ $ ($ ! * $& ! % 0 ! & *$% !# ! $ % 00$% !# 4- &

48、quot; #" ! $% &! !# * AB3 C - " #" 3 ! 3! .! ! .! !D &&&&&& ! ' # !E ! ! ! $ * ( # # !E ' 33!3 !# !E &&&&& !F ! # (&&& %# !E ! # ( # !E ! # !E ! # !E ! #! $ '' ! $ * ( ' ' ! ' ! $ 0E $' !# ! &#

49、39; # +( 3 $ % ' !# 3 ! $ $ " 8;0! 1 G G! ' H 7ID= !# ! $ C ! # #,! ! $ % # ' '! ! $ % # ' '# ! $ $ # $ % ! # ! $ % ! ' # ' %! !#' ! # '#' ! ! % # ' (&&&&& # ! $ & +' ! ! ' $ $ ( ' ! , , ! $ ' 0 8;0 $ ( # (

50、$ ! # ! $ * # (J+4+5 # ' ! & +! % # $ * /! % # $ * /! ' ! % '* ! *$! ! # . *# ! ! # # ! ! ! # # ! # ! # * $ $ #>*A !* ( # AD 1 % ! * $ 8DK% !% & $! * $ 8DK $< ! %* ! * # * < * *( * $ D & ! & & & & ( 1 ! # *!( % + $! * $ (=7K ! * $ *! * $ /! # " #" " !* " #! # " #" !* #! " #" * ! * . <! " #" +, J ! * # K!6 ! # (!6 ' ! #. ! %' * $!$ * ' 0 $ *# ! #! E0L % .* $ # . !, ($ * 4 ($

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論