




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 江西建行IBM小型機日常維護 第一篇:日常維護部分 第二篇:故障處理部分 第三篇:安圖特公司技術(shù)支持電話第一篇 日常維護部分目 錄第1章AIX系統(tǒng)管理日常工作(檢查篇)11.1常用的命令11.2語法介紹11.2.1vmstat:檢查內(nèi)存、CPU、進(jìn)程狀態(tài)11.2.2sar:檢查CPU、IO21.2.3PS:檢查進(jìn)程狀態(tài)命令31.2.4svmon:顯示進(jìn)程占用內(nèi)存31.2.5iostat:顯示磁盤IO41.2.6netstat, entstat:顯示網(wǎng)卡信息41.2.7no:顯示tcpip參數(shù)設(shè)置51.2.8其它命令5第2章AIX系統(tǒng)管理日常工作(LV篇)62.1IBM AIX系統(tǒng)管理的日常工
2、作62.1.1開關(guān)機步驟62.1.2用戶組及用戶管理62.1.3文件系統(tǒng)維護62.1.4系統(tǒng)日常管理72.1.5系統(tǒng)備份72.1.6定時清洗磁帶機72.1.7定時檢查設(shè)備指示燈狀態(tài)72.1.8簡單故障的判斷72.1.9熟悉ibm aix操作系統(tǒng)72.2關(guān)于IBM AIX的邏輯卷管理72.3LVM命令8第3章AIX系統(tǒng)管理日常工作(關(guān)鍵參數(shù)檢查篇)103.1AIO參數(shù)檢查103.2磁盤陣列queue_depth參數(shù)檢查113.3用戶參數(shù)檢查113.4激活SSA Fast-Write Cache123.5IO參數(shù)設(shè)置123.6syncd daemon的數(shù)據(jù)刷新頻率123.7檢查系統(tǒng)硬盤的鏡像12第
3、4章AIX系統(tǒng)管理日常工作(性能分析篇)134.1性能瓶頸定義134.2性能范圍14第5章AIX系統(tǒng)管理日常工作(SHUTDOWN篇)145.1概念145.2關(guān)機命令14第6章AIX系統(tǒng)管理日常工作(備份與恢復(fù)篇)156.1用SMIT備份156.2手工備份156.3恢復(fù)系統(tǒng)15第7章HACMP的 雙機系統(tǒng)的管理和維護157.1HACMP 雙機系統(tǒng)的啟動157.2HACMP 雙機系統(tǒng)的關(guān)閉167.3察看雙機系統(tǒng)的當(dāng)前狀態(tài)167.4HACMP環(huán)境下的排錯177.4.1了解問題的存在177.4.2判斷問題的出處18第1章 AIX系統(tǒng)管理日常工作(檢查篇)1.1 常用的命令CPUMemoryDiskN
4、etwork標(biāo)準(zhǔn)UNIX命令(包括HP、SUN等)vmstat, sar, psvmstat, psiostat, sar, vmstat, netstat, nfsstatAIX 詳細(xì)輸出Tprofsvmon, rmssfilemon, fileplaceentstatAIX 非常詳細(xì)輸出syscalls, trace, emstat tracetracetrace, iptrace分析工具topastopastopasTopas1.2 語法介紹1.2.1 vmstat:檢查內(nèi)存、CPU、進(jìn)程狀態(tài)# vmstat 1 15 kthr memory page faults cpu - - -
5、- - r b avm fre re pi po fr sr cy in sy cs us sy id wa 1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 34 0 2 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 120 317 126 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 0 0
6、2 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 135 316 127 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 133 304 127 99 0 0 0r:正在運行的進(jìn)程b:被阻擋的進(jìn)程avm:活動的虛內(nèi)存,單位4kbfre:自由列表,位4kbpo:頁換出pi:頁換入sy:系統(tǒng)占用CPUid:空閑CPUwa:等待的CPU1.2.2 sar:檢查CPU、IO例如
7、:sar -u 1 30sar -P ALL 1 10語法:sar -abckmqruvwyA inteval repetition-b buffer 活動-c 系統(tǒng)調(diào)用-k 內(nèi)核進(jìn)程統(tǒng)計.-m 消息及信號量活動-q 正在運行的隊列數(shù)及等待隊列數(shù)-r 頁交換統(tǒng)計-u CPU利用-P CPU負(fù)載.1.2.3 PS:檢查進(jìn)程狀態(tài)命令ps:顯示當(dāng)前SHELL重所有進(jìn)程ps -ef :顯示系統(tǒng)中所有進(jìn)程,f顯示更詳細(xì)信息ps -u oracle: 顯示oracle用戶進(jìn)程ps emo THREAD:顯示線程信息ps au;ps vg:按使用時間顯示進(jìn)程(最近一次調(diào)用)ps aux:按使用時間顯示進(jìn)程(
8、進(jìn)程啟動)1.2.4 svmon:顯示進(jìn)程占用內(nèi)存svmon G:顯示系統(tǒng)占用內(nèi)存svmon -C command_name:顯示某個用戶進(jìn)程占用內(nèi)存svmon -P pid顯示某個進(jìn)程占用內(nèi)存svmon S:顯示段占用內(nèi)存1.2.5 iostat:顯示磁盤IOtty: tin tout avg-cpu: % user % sys % idle % iowait0.0 4.0 0.9 1.3 95.4 2.5 Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 4
9、28 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6 netstat, entstat:顯示網(wǎng)卡信息netstat en0:顯示
10、en0信息netstat s:顯示網(wǎng)絡(luò)信息netstat -m顯示網(wǎng)絡(luò) stat -i顯示網(wǎng)卡狀態(tài)netstat -I en0 1顯示eno網(wǎng)卡塞(1秒間隔)1.2.7 no:顯示tcpip參數(shù)設(shè)置no a:顯示tcpip所有參數(shù)當(dāng)前設(shè)置no -o tcp_keepalivetime=7200000設(shè)置tcp_keepalivetime等于3600000秒no d 恢復(fù)默認(rèn)值注:該方法在重啟后失效1.2.8 其它命令檢查文件系統(tǒng)df -k檢查設(shè)備lsdev -C檢查物理卷lspv檢查交換區(qū)lsps -a檢查配置lscfg -vp檢查軟件lslpp -l檢查用戶who第2章
11、 AIX系統(tǒng)管理日常工作(LV篇)2.1 IBM AIX系統(tǒng)管理的日常工作系統(tǒng)管理員對小型機系統(tǒng)的正確管理是系統(tǒng)穩(wěn)定運行的保障,作為系統(tǒng)管理員應(yīng)注意以下幾個方面:2.1.1 開關(guān)機步驟在系統(tǒng)管理員控制下進(jìn)行正確的操作。(第5章有專門介紹)2.1.2 用戶組及用戶管理2.1.3 文件系統(tǒng)維護發(fā)現(xiàn)文件系統(tǒng)已滿,應(yīng)及時刪除無用文件或擴大文件系統(tǒng)。查看文件系統(tǒng)使用率命令:df k ,查看%Used和%IusedFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 32768 20180 39% 2070 13% /dev/h
12、d2 2293760 1230984 47% 33045 6% /usr/dev/hd9var 32768 15832 52% 367 5% /var/dev/hd3 32768 23300 29% 110 2% /tmp/dev/hd1 32768 31384 5% 72 1% /home/dev/informixlv 524288 199060 63% 3521 3% /home/informix注意系統(tǒng)文件系統(tǒng)中的/ /var /tmp使用率不要超過902.1.4 系統(tǒng)日常管理系統(tǒng)管理員最好用 smit來進(jìn)行系 統(tǒng)管理。Smit是以菜單方式工作的工具包,它包括了日常管理工作的所有命令,操
13、作簡便。2.1.5 系統(tǒng)備份備份是保護用戶數(shù)據(jù)不丟失的重要手段。一般系統(tǒng)備份的要求如下:A. 每一臺機器的操作系統(tǒng)至少有一個全備份。B. 每天備份用戶數(shù)據(jù)。C. 操作系統(tǒng)配置修改后重新備份操作系統(tǒng)。(系統(tǒng)備份方法在第六章專門介紹)2.1.6 定時清洗磁帶機可以每月定時清洗一次,將清洗帶插入磁帶機,清洗完畢后會自動退出磁帶。當(dāng)磁帶機需要清洗時,磁帶機左邊第一個起綠色指示燈會亮。2.1.7 定時檢查設(shè)備指示燈狀態(tài)RS6000小型機出現(xiàn)硬件故障時,系統(tǒng)前面板上會亮一個橙色的告警燈。液晶面板上面會有顯示錯誤代碼2.1.8 簡單故障的判斷詳細(xì)信息見“第二部分:故障處理指導(dǎo)書”2.1.9 熟悉ibm ai
14、x操作系統(tǒng)2.2 關(guān)于IBM AIX的邏輯卷管理IBM AIX 存儲管理的五個基本概念:物理卷Physical Volume,稱為PV:指物理上硬盤,一個硬盤就是一個PV,名字為HDISK0、HDISK1。物理分區(qū)(Physical Partitions):物理卷被劃分成大小一樣的物理分區(qū)PPs邏輯卷組 Logical Volume Group,稱為VG:一個VG包含整數(shù)個PV,可理解為一個大硬盤。邏輯卷 Logical Volume,稱為LV:相當(dāng)于對大硬盤進(jìn)行邏輯分區(qū), 一個VG里可有若干個LV,對用戶講,LV上的數(shù)據(jù)是連續(xù)的,但PV上的數(shù)據(jù)可能是分散的。邏輯分區(qū)(Logical Part
15、itions):每個LV有若干邏輯分區(qū)(LPs)組成,每個邏輯分區(qū)至少有一個PV組成。文件系統(tǒng) File System:在邏輯卷的基礎(chǔ)上,可建立文件系統(tǒng)JFS,然后 MOUNT到一個目錄下,這樣就可以文件存取的方式來使用這塊硬盤了。當(dāng)然,您也可以不建文件系統(tǒng),而直接把LV當(dāng)作裸設(shè)備,以TRUNK方式來存取數(shù)據(jù),許多數(shù)據(jù)庫都是用這種方式存取數(shù)據(jù)。LVM的關(guān)系如下圖:2.3 LVM命令一般采用smit命令可對PV、VG、LV、JFS等進(jìn)行圖形化管理,命令如下:smit lvm屏幕顯示如下:Add a Logical Volume Logical volume NAME scratch* VOLUM
16、E GROUP name testvg* Number of LOGICAL PARTITIONS 64 # PHYSICAL VOLUME names hdisk1 hdisk2 hdisk3 +Logical volume TYPE jfsPOSITION on physical volume middle +RANGE of physical volumes minimum +MAXIMUM NUMBER of PHYSICAL VOLUMES #to use for allocationNumber of COPIES of each logical 2 +partitionMirro
17、r Write Consistency? yes +Allocate each logical partition copy yes +on a SEPARATE physical volume?RELOCATE the logical volume during yes +reorganization?Logical volume LABEL MAXIMUM NUMBER of LOGICAL PARTITIONS 512 #Enable BAD BLOCK relocation? yes +SCHEDULING POLICY for reading/writing parallel +lo
18、gical partition copiesEnable WRITE VERIFY? no +File containing ALLOCATION MAP Stripe Size? 64K 行命令:.lsvg:查看vg名字查看vg詳細(xì)信息: lsvg <vgname>查看vg內(nèi)的LVs: lsvg -l <vgname>查看vg內(nèi)的PV: lsvg -p <vgname>查看激活的VG: lsvg o. lspv:查看物理卷組pg名字查看PV 詳細(xì)信息: lspv hdiskN查看PV內(nèi)的LVs lspv -l hdiskN查看PV內(nèi)的PP : lspv -
19、p hdiskN. lslv:查看LV的信息查看 LV 名字: lsvg -l <vgname>查看LV 詳細(xì)信息: lslv <lvname>查看PV 內(nèi)的LVs : lslv -l <lvname>查看PV 內(nèi)的 PP : lslv -p <pvname>查看鏡像的 LV: lslv -m <lvname>第3章 AIX系統(tǒng)管理日常工作(關(guān)鍵參數(shù)檢查篇)3.1 AIO參數(shù)檢查# lsattr -El aio0minservers X MINIMUM number of servers Truemaxservers 80 MAXIM
20、UM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart Truefastpath enable State of fast path Truel MaxServers = 10 * number of disks l MinServers = MaxServers /2 其中MaxServers最大為80可用命令#smitty
21、 aioà Change / Show Characteristics of Asynchronous I/O修改相應(yīng)的值。3.2 磁盤陣列queue_depth參數(shù)檢查假設(shè)DATAVG的RAID盤為hdisk2# lsattr -El hdisk2pvid 00019081a0dc91ea0000000000000000 Physical volume identifier Falqueue_depth 8 Queue depth Truequeue_depth值設(shè)置為7133硬盤個數(shù)可用命令#chdev l hdisk2 a queue_depth=x修改,但VG必須為VARYO
22、FF狀態(tài)。3.3 用戶參數(shù)檢查#smitty chlicense修改Maximum number of FIXED licenses為10#lsattr -El sys0|grep maxuprocmaxuproc 200 Maximum number of PROCESSES allowed per user True用#smitty chgsys修改利用lsattr -Elsys0 檢查maxuproc, minpout, maxpout等參數(shù)的大小。maxuproc為每個用戶的最大進(jìn)程數(shù),當(dāng)應(yīng)用涉及大量的順序讀寫而影響前臺程序響應(yīng)時間時,可考慮將maxpout設(shè)為33, minpout設(shè)
23、為16,利用smitty chgsys來設(shè)置。3.4 激活SSA Fast-Write Cache利用smitty ssafastw來激活每一個邏輯盤hdiskn的Fast-Write Cache:選擇硬盤后,把Enable Fast-Write一項改為Yes后回車即可。對于OPS必須關(guān)閉,對于GAILOVER或單機必須打開。3.5 IO參數(shù)設(shè)置 High water mark for pending write I/Os per file(maxpout) 和Low water mark for pending write I/Os per file它們?nèi)笔≈禐?,在雙機環(huán)境中一般應(yīng)設(shè)Hig
24、h water mark為33,Low water mark為24,這兩個參數(shù)可用smitty chgsys來設(shè)置。3.6 syncd daemon的數(shù)據(jù)刷新頻率該值表示刷新內(nèi)存數(shù)據(jù)到硬盤的頻率,缺省為60,一般可改為20,也可根據(jù)實際情況更改。該參數(shù)通過vi /sbin/rc.boot更改,其中一行如下:nohup /usr/sbin/syncd 60 >/dev/null 2>&1 & 改為:nohup /usr/sbin/syncd 20 >/dev/null 2>&1 &3.7 檢查系統(tǒng)硬盤的鏡像#lsvg l rootvgroo
25、tvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tm
26、phd1 jfs 1 2 2 open/syncd /home注意:PPs 為LPs的兩倍,PVs為2如果系統(tǒng)盤未鏡像,而系統(tǒng)盤為18G盤,用命令鏡像# mirrorvg rootvg hdisk0 hdisk1(對rootvg進(jìn)行鏡像)# bosboot a(在兩塊盤上重建bootimage)# bootlist m normal hdisk0 hdisk1(設(shè)置機器的啟動順序)第4章 AIX系統(tǒng)管理日常工作(性能分析篇)4.1 性能瓶頸定義項目 檢查命令 判斷標(biāo)準(zhǔn)CPU vmstat %user + %sys greater 大于 75%Disk I/O vmstat %iowait 大于
27、 30% (AIX 4.3.3 or later)應(yīng)用程序磁盤 iostat %tm_act 大于 60%交換區(qū) lsps -a 大于60% 頁交換數(shù)量 iostat vmstat 大于10×CPU數(shù)量 4.2 性能范圍 好 壞 極差CPU 60% 75% 90%+Disk <30% <40% <50%+Memory 0 10 pages/秒CPU >50第5章 AIX系統(tǒng)管理日常工作(SHUTDOWN篇)5.1 概念I(lǐng)BM AIX的啟動分為多用戶(normal)和單用戶(service)模式,在正常情況下,一般選擇多用戶模式。5.2 關(guān)機命令快速關(guān)機,不警告
28、用戶shutdown -F ;halt快速關(guān)機并重啟shutdown Fr;reboot警告一分鐘后關(guān)機并重啟shutdown -r 發(fā)送關(guān)機命令,但不關(guān)機shutdown -k關(guān)機并警告用戶推出Shutdown now關(guān)機到單用戶模式Shutdown m;init s;telinit s第6章 AIX系統(tǒng)管理日常工作(備份與恢復(fù)篇)6.1 用SMIT備份#smitty mksysb進(jìn)行系統(tǒng)備份當(dāng)COMMAND STATUS頁面中Command: OK出現(xiàn)后,表示備份成功。取出制作完畢的磁帶,在磁帶上的標(biāo)簽上注明備份機器的名稱和序列號6.2 手工備份# mksysb i /dev/rmt06.
29、3 恢復(fù)系統(tǒng)bootinfo e檢查系統(tǒng)所帶的磁帶機是否能啟動系統(tǒng),如果返回值是1,表示該磁帶機支持啟動系統(tǒng),如果返回值是0,就是不支持。插入備份帶,檢查設(shè)備啟動順序:bootlist m service o如果需要,將啟動順序改為從磁帶啟動:bootlist m service rmt0重啟機器,系統(tǒng)從磁帶讀數(shù)據(jù),根據(jù)提示恢復(fù)系統(tǒng)。第7章 HACMP的 雙機系統(tǒng)的管理和維護7.1 HACMP 雙機系統(tǒng)的啟動要啟動HACMP 雙機系統(tǒng)必須要有root 用戶的特權(quán)分別進(jìn)入到系統(tǒng)各節(jié)點主機在命令 行上執(zhí)行下述命令即可。 # smit clstart 或 # /usr/sbin/cluster/et
30、c/rc.cluster -boot -N -i注:在雙機系統(tǒng)中HACMP 雙機軟件先啟動的節(jié)點將成為主節(jié)點擁有資源,后啟動的節(jié)點將成為備用節(jié)點。7.2 HACMP 雙機系統(tǒng)的關(guān)閉要關(guān)閉某節(jié)點上的HACMP 雙機軟件必須要有該節(jié)點root 用戶的特權(quán),以root 用戶進(jìn)入到該節(jié)點主機在命令行上執(zhí)行下述命令即可。 # smit clstop 或 # clstop -gr 說明:若該節(jié)點是主節(jié)點并且備節(jié)點上的HACMP 軟件亦正常運行,則clstop 關(guān)閉模式的三種選項行為不同。 。 forced: 是指立即關(guān)閉雙機軟件不調(diào)用任何客戶應(yīng)用的善后處理例程。 。graceful 是指在關(guān)閉雙機軟件時將
31、調(diào)用客戶應(yīng)用預(yù)定義的善后處理例程。 。takeover 是指該節(jié)點將關(guān)閉雙機軟件并釋放資源請求備節(jié)點進(jìn)行接管。 檢查HACMP 雙機軟件在該節(jié)點是否已啟,動命令如下: # lssrc -g cluster 若是系統(tǒng)顯示出下面類似的信息則說明HACMP 雙機軟件已正常啟動. Subsystem Group PID Status Clstrmgr cluster 22500 active Clsmuxpd cluster 23674 active Clinfo cluster 28674 active7.3 察看雙機系統(tǒng)的當(dāng)前狀態(tài) # /usr/sbin/cluster/clstat -a 如果雙
32、機系統(tǒng)一切工作正常則系統(tǒng)將顯示下述類似信息:clstat - HACMP for AIX Cluster Status Monitor-Cluster: cluster(80) Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: oracle1 State: UPInterface: oracle1_svc (0) Address: 1State: UPInterface: oracle1_tty (1) Address: State: UPNode: oracle2 Sta
33、te: UPInterface: oracle2_svc (0) Address: 1State: UPInterface: oracle2_tty (1) Address: State: UP7.4 HACMP環(huán)境下的排錯在一般情況下,HACMP 軟件很少需要手工干預(yù),但一旦有問題發(fā)生,診斷和恢復(fù)的技巧是很重要的.需要能很快地斷定問題然后運用你對HACMP 的理解來恢復(fù)HACMP的正常運作.一般地,HACMP 環(huán)境下的排錯包括:.了解問題的存在.判斷問題的出處.解決問題.7.4.1 了解問題的存在您可以通過以下途徑了解到一個CLUSTER 環(huán)境下出現(xiàn)了問題.最
34、終用戶的投訴,他們無法訪問應(yīng)用程序.控制臺上出現(xiàn)一些HACMP 的信息.1.應(yīng)用服務(wù)無法訪問最終用戶的抱怨通常預(yù)示CLUSTER 出現(xiàn)了問題.他們無法正常執(zhí)行應(yīng)用或是無法登錄到系統(tǒng).我們必須采集到詳細(xì)的信息以判斷到底那里出現(xiàn)了問題.是否有錯誤的信息提示?如果可能的話,讓用戶重復(fù)步驟以確定那里是錯誤的開始.您也可以在自己的系統(tǒng)上重復(fù).要知道用戶應(yīng)用不可用并不代表HACMP 有問題.問題可能出現(xiàn)在應(yīng)用程序本身或是它的啟動或終止腳本出現(xiàn)了問題.因此應(yīng)用程序本身的排錯也應(yīng)是HA 排錯的一部分.2.控制臺上出現(xiàn)一些HACMP 的信息在HACMP 啟動,終止或出錯時,控制臺上會出現(xiàn)一些HACMP 的信息,
35、同時也會寫入相應(yīng)的文件中.7.4.2 判斷問題的出處當(dāng)錯誤出現(xiàn)時,我們應(yīng)嘗試發(fā)現(xiàn)錯誤的所在.但我們常常被錯誤的表面所誤導(dǎo).以下的步驟可以使我們得到更詳細(xì)的信息.1.保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log).因為它們可能被覆蓋.2.仔細(xì)檢查HACMP 所產(chǎn)生的LOG 文件.它們能提供最初的判斷線索.3.用HACMP 的工具和AIX 的命令來檢查HACMP 的部件是否正常.4.打開HACMP 的跟蹤工具來產(chǎn)生更詳細(xì)的信息.HACMP 的LOG 文件:以下文件都是文本文件,可以用VI 來看.每個日志文件都含有每個信息的產(chǎn)生時間./usr/adm/c
36、luster.log :記錄了HACMP 的狀態(tài),由HA 的守護進(jìn)程所產(chǎn)生./tmp/hacmp.out :記錄了HA 的詳細(xì)腳本./usr/sbin/cluster/history/cluster.mmdd :記錄了HA 的各個事件的發(fā)生./tmp/cm.log :由clstrmgr 進(jìn)程產(chǎn)生,每次HA 重起時會被覆蓋.HACMP FOR AIX 的結(jié)構(gòu)應(yīng)用層HACMP 軟件層LVM & TCPIP 層AIX 層物理網(wǎng)絡(luò)層物理硬盤層硬件層在物理網(wǎng)絡(luò)層,物理硬盤層,硬件層,LVM & TCPIP 層,AIX 層我們可以用AIX系統(tǒng)命令來看是否硬件和系統(tǒng)出現(xiàn)了問題.一般地,在用e
37、rrpt 命令來看沒有類型為PH 的錯誤,lsvg -o 來看我們所須的VG 已varyon,mount 來看我們所須的文件系統(tǒng)已安裝, netstat -i 來看我們所須的service IP 是UP 的狀態(tài)(或用ifconfigen*),cluster node 之間的service 與service IP ,standby 與standby IP 互相可以ping 通.在各個節(jié)點上執(zhí)行stty<</dev/tty* 有相應(yīng)的信息出現(xiàn).說明硬件層,LVM & TCPIP 層,AIX 層沒有問題,問題可能出現(xiàn)在應(yīng)用層與HACMP 軟件層上.否則問題就出現(xiàn)在相應(yīng)的層次上.在
38、HACMP 軟件層上,我們可以用vi /tmp/hacmp.out 來看,如果出現(xiàn)eventfailed 的字段,則有可能問題出現(xiàn)在該層,如果在問題出現(xiàn)的時段,hacmp.out 無信息出現(xiàn),則問題可能出現(xiàn)在應(yīng)用層.以下是HA 排錯的一些守則:.在第一時間保存好相關(guān)的日志文件,特別是那些會被覆蓋的文件.嘗試去重復(fù)問題的出現(xiàn).不要被用戶所反映的問題迷惑.漸進(jìn)地去重復(fù)問題,如果有多個可能導(dǎo)致問題的出現(xiàn),一個一個地去重復(fù),而不要一次重復(fù)多個可能.不要憑經(jīng)驗來判斷問題,而是要在各種測試后,由結(jié)果來判斷.隔離問題的來源,根據(jù)我們上面所敘述的層次關(guān)系,至頂向下地診斷.由簡到繁地做測試,我們先從一個簡單的環(huán)
39、境來做測試,不要嘗試在一個復(fù)雜的環(huán)境中測試.一次做一次改動,否則我們無法知道是那個改動解決了問題.不要忽略各種可能,因小可失大,留心系統(tǒng)的每一個細(xì)節(jié),包括電源,插頭,連線等.保持各種測試的記錄以及解決的步驟,用做將來排錯的參考.。撥打技術(shù)支持工程師電話,到現(xiàn)場解決問題。第二篇:故障處理部分目 錄第1章故障的定義21第2章故障信息的收集222.1收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要222.2系統(tǒng)故障記錄(errorlog)222.3控制面板上的LED 代碼242.4SMS (System Management Service) 故障記錄252.5MAIL252.6運行故障診斷程序(D
40、iagnostic) 對系統(tǒng)硬件進(jìn)行檢查和診斷252.7其他用于收集系統(tǒng)信息的命令25第3章硬件故障定位方法283.1IPL 流程283.2系統(tǒng)的啟動順序:293.3系統(tǒng)不能啟動303.4系統(tǒng)停在551555或557303.5CDE圖形界面掛死313.6系統(tǒng)dump32第4章7133-D40SSA磁盤柜的故障定位33第5章軟件故障定位方法345.1文件系統(tǒng)空間不夠345.2檢查文件系統(tǒng)的完整性355.3查看卷組信息(lsvg-lvg_name)355.4檢查內(nèi)存交換區(qū)(pagingspace)使用率(lsps-s)355.5小型機內(nèi)存泄漏問題35第6章常用的系統(tǒng)狀態(tài)查詢命令37第7章網(wǎng)絡(luò)故障定
41、位方法387.1網(wǎng)絡(luò)不通的診斷過程387.2網(wǎng)絡(luò)配置的基本方法38第8章HACMP環(huán)境下的排錯398.1了解問題的存在398.2判斷問題的出處40第9章附常用命令列表錯誤!未定義書簽。第1章 故障的定義根據(jù)以下這些方面來考慮故障定位:弄清楚系統(tǒng)發(fā)生了什么問題系統(tǒng)現(xiàn)在能做什么不能做什么故障什么時候發(fā)生的有沒有做平時不同的操作故障有沒有規(guī)律定時還是不定時發(fā)生的頻率有多高是一臺機器出現(xiàn)故障還是多臺機器故障故障現(xiàn)象是否相同最近有沒有做改動如安裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置第2章 故障信息的收集2.1 收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要2.2 系統(tǒng)故障記錄(errorlog)errd
42、emon 進(jìn)程在系統(tǒng)啟動時自動運行記錄包括硬件軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog 可備份下來或拷貝到別的機器上分析errpt 命令的使用(普通用戶權(quán)限也可使用)#errpt |more 列出簡短出錯信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 err
43、demon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日時分年T 類型: P 永久; T 臨時; U 未知永久性的錯誤應(yīng)引起重視C 分類: H 硬件; S 軟件; O 用戶; U未知#errpt -d H 列出所有硬件出錯信息#errpt -d S 列出所有軟件出錯信息#errpt -aj ERROR_ID 列出詳細(xì)出錯信息# errpt
44、 -aj 0502f666 <- ERROR_ID用大小寫均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product DataDevice Driver Level00Diagnos
45、tic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVEReco
46、mmended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00002.3 控制面板上的LED 代碼8 位代碼通常系統(tǒng)故障燈會同時亮起某些機型還會同時顯示故障設(shè)備位置代碼4 位代碼通常是Exxx3 位代碼通常為0yyy 只看后3位8 位和4位代碼可查看系統(tǒng)服務(wù)手冊(Service Guide)3 位代碼可查看系統(tǒng)診斷手冊(Diagno
47、stic Information for Multiple BusSystem)閃動的888, 系統(tǒng)崩潰硬件或軟件原因造成按reset 鍵會顯示更多內(nèi)容888-102 一般為軟件故障888-102-207 例外系統(tǒng)會產(chǎn)生一個dump888-102-xxx-0C9 系統(tǒng)正在做dump, 請等待888-102-xxx-0C0 系統(tǒng)dump完成可關(guān)電重啟888-103 或105硬件故障一般有SRN 代碼及位置代碼2.4 SMS (System Management Service) 故障記錄如何進(jìn)入SMS 菜單當(dāng)主控臺出現(xiàn)鍵盤圖標(biāo)后(LED 顯示E1F1時)按1鍵選擇"Utilities&
48、quot;選擇"Error Log", 抄下8位故障代碼在SMS 中還可以更改系統(tǒng)啟動順序表2.5 MAIL#mail系統(tǒng)會向root用戶發(fā)mail報告出錯信息通常系統(tǒng)出現(xiàn)故障后沒有進(jìn)行檢查修復(fù)系統(tǒng)會定時提醒root2.6 運行故障診斷程序(Diagnostic) 對系統(tǒng)硬件進(jìn)行檢查和診斷當(dāng)發(fā)現(xiàn)有硬件故障時應(yīng)立即使用diag#diag> 選高級診斷Advance Diagnostic)> 選問題診斷Problem Determination) 或選系統(tǒng)檢查System Verification)(選PD 會對系統(tǒng)錯誤記錄進(jìn)行分析)diag運行后會給出SRN 代碼故障設(shè)備名稱及百分比地址代碼等對于PCI機型應(yīng)在系統(tǒng)報錯7天之內(nèi)運行diag程序?qū)Τ鲥e記錄里的sense數(shù)據(jù)進(jìn)行分析2.7 其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設(shè)備信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國棉花打包機行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國分離機篩筐行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國兒童益智玩具積木行業(yè)投資前景及策略咨詢研究報告
- 2025至2030年中國裝飾小燈數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國腸衣用鹽數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國綜合行業(yè)分銷連鎖管理軟件數(shù)據(jù)監(jiān)測研究報告
- 彭水石紋格柵吊頂施工方案
- 2025至2030年中國平開口電子提花機數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國彎鋼化鍍膜玻璃數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國天然提取物精粉數(shù)據(jù)監(jiān)測研究報告
- 中國氫內(nèi)燃機行業(yè)發(fā)展環(huán)境、市場運行格局及前景研究報告-智研咨詢(2024版)
- 開學(xué)季初三沖刺中考開學(xué)第一課為夢想加油課件
- 《自然保護區(qū)劃分》課件
- 2025年四川綿陽科技城新區(qū)投資控股集團有限公司招聘筆試參考題庫附帶答案詳解
- 2025年普通卷釘項目可行性研究報告
- 2025年人教版英語五年級下冊教學(xué)進(jìn)度安排表
- 2025年建筑施工春節(jié)節(jié)后復(fù)工復(fù)產(chǎn)工作專項方案
- 學(xué)校食堂餐廳管理者食堂安全考試題附答案
- 2025延長石油(集團)限責(zé)任公司社會招聘高頻重點提升(共500題)附帶答案詳解
- 《商用車預(yù)見性巡航系統(tǒng)技術(shù)規(guī)范》
- 病原微生物安全
評論
0/150
提交評論