![IBM服務(wù)器維護(hù)手冊(cè)_第1頁(yè)](http://file4.renrendoc.com/view/65c3b1e40de131d8fe4ab2cc843a6f17/65c3b1e40de131d8fe4ab2cc843a6f171.gif)
![IBM服務(wù)器維護(hù)手冊(cè)_第2頁(yè)](http://file4.renrendoc.com/view/65c3b1e40de131d8fe4ab2cc843a6f17/65c3b1e40de131d8fe4ab2cc843a6f172.gif)
![IBM服務(wù)器維護(hù)手冊(cè)_第3頁(yè)](http://file4.renrendoc.com/view/65c3b1e40de131d8fe4ab2cc843a6f17/65c3b1e40de131d8fe4ab2cc843a6f173.gif)
![IBM服務(wù)器維護(hù)手冊(cè)_第4頁(yè)](http://file4.renrendoc.com/view/65c3b1e40de131d8fe4ab2cc843a6f17/65c3b1e40de131d8fe4ab2cc843a6f174.gif)
![IBM服務(wù)器維護(hù)手冊(cè)_第5頁(yè)](http://file4.renrendoc.com/view/65c3b1e40de131d8fe4ab2cc843a6f17/65c3b1e40de131d8fe4ab2cc843a6f175.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一類(lèi)、機(jī)房環(huán)境及物理檢查
一、機(jī)房?jī)?nèi)環(huán)境規(guī)定
1.
溫度與濕度:
最佳工作溫度:20-25攝氏度
極限工作溫度:10-40攝氏度
濕度:8-80%(在23攝氏度條件下)
如果不是工作在最佳溫度,請(qǐng)注意改善機(jī)房環(huán)境
2.
同時(shí)機(jī)房要確保清潔.
機(jī)房應(yīng)保持清潔,若空氣灰塵過(guò)多,很容易造成資源讀寫(xiě)錯(cuò)誤及磁盤(pán)機(jī)中磁盤(pán)或讀寫(xiě)磁頭毀損。
二、電源規(guī)定
電
壓:
規(guī)定電壓穩(wěn)定,尖峰電壓會(huì)損壞設(shè)備
電壓范疇:
220V+/-10%,即200-240V,50-60Hz
電源功率:
視機(jī)器類(lèi)型和系統(tǒng)配備而定
電源線(xiàn)
:
原則的零,地,火三相電,其中零,地電壓不得超出.
電源接駁:
用符合電流規(guī)定的空氣開(kāi)關(guān)或其它設(shè)備和主機(jī)電源線(xiàn)接駁,確保計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機(jī)組;對(duì)于冗于電源的接入,建議采用兩路單獨(dú)輸入.
三、硬件檢查
]檢查服務(wù)器、磁陣的安裝、電源線(xiàn)、7133和主機(jī)接線(xiàn)符合規(guī)定。
服務(wù)器狀態(tài)檢查:
1.
當(dāng)服務(wù)器處在啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無(wú)信息顯示。
2.
當(dāng)液晶顯示屏上出現(xiàn)帶數(shù)字和字母的信息時(shí),闡明有硬件告警。能夠通過(guò)查詢(xún)有關(guān)機(jī)型的ServiceGuide查到對(duì)應(yīng)告警因素,狀況嚴(yán)重的,則要立刻告知IBM技術(shù)專(zhuān)家進(jìn)行問(wèn)題排查。
7133狀態(tài)檢查:
磁陣前面板上有7133機(jī)柜的狀態(tài)燈(與電源燈并排)和各硬盤(pán)的狀態(tài)燈(一排小燈,與各硬盤(pán)位置一一對(duì)應(yīng))。
1.當(dāng)機(jī)柜的狀態(tài)燈出現(xiàn)橙黃色時(shí),闡明有硬件告警,此時(shí)要檢查磁柜的電源、接線(xiàn)、硬盤(pán)等。如果有硬件故障則立刻進(jìn)行更換和改正,如果查不出具體問(wèn)題,則需要聯(lián)系有關(guān)專(zhuān)家進(jìn)一步診療。
2.當(dāng)硬盤(pán)工作正常時(shí),與各硬盤(pán)對(duì)應(yīng)的硬盤(pán)燈會(huì)呈綠色,如無(wú)讀寫(xiě),則綠燈始終亮,如該硬盤(pán)有讀寫(xiě)操作,則綠燈會(huì)不規(guī)則閃爍,當(dāng)硬盤(pán)損壞時(shí)或SSA環(huán)路出現(xiàn)問(wèn)題時(shí),則硬盤(pán)狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍
第二類(lèi)、系統(tǒng)日常維護(hù)流程
系統(tǒng)啟動(dòng)
系統(tǒng)啟動(dòng)正常次序以下:
首先對(duì)外設(shè)(磁盤(pán)陣列、磁帶庫(kù)等)加電。
待全部外設(shè)加電自檢完畢后,主機(jī)加電正常起機(jī)。主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示”ok”后,才干按白色POWER鍵起機(jī).
啟動(dòng)主機(jī)HACMP,啟動(dòng)后可用命令tail-f/tmp/來(lái)檢查啟動(dòng)狀況,在HACMP未完全啟動(dòng)前不要進(jìn)行下一步。
檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文獻(xiàn)系統(tǒng),邏輯卷(可用mount,lsvg-o等)。
檢查各項(xiàng)應(yīng)用與否工作正常。
系統(tǒng)關(guān)閉
停止HACMP
(smittyclstop)。
查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文獻(xiàn)系統(tǒng),邏輯卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要進(jìn)行下一步。
關(guān)閉主機(jī)(shutdown–F)。重啟系統(tǒng)能夠使用:shutdown-Fr
如有必要的話(huà),按磁盤(pán)陣列前方的白色按鈕關(guān)閉磁盤(pán)陣列。
查看系統(tǒng)的錯(cuò)誤統(tǒng)計(jì)
在系統(tǒng)運(yùn)行時(shí),某些系統(tǒng)錯(cuò)誤會(huì)統(tǒng)計(jì)在errlog中,其中有些錯(cuò)誤還會(huì)在終端上顯示。檢查錯(cuò)誤日志可用下列命令:
#errpt|more查看系統(tǒng)全部的統(tǒng)計(jì)
IDENTIFIER
TIMESTAMP
T
C
RESOURCE_NAME
DESCRIPTION
E85C5C4C
09
P
S
CFGLFT
SOFTWAREPROGRAMERROR
2BFA76F6
09
T
S
SYSPROC
SYSTEMSHUTDOWNBYUSER
9D4CF6E7
09
T
O
errdemon
ERRORLOGGINGTURNEDON
1E2AC07E
09
T
O
errdemon
ERRORLOGGINGTURNEDOFF
1E5EER4T
09
T
O
clstrmgr
OPERATORNOTIFICATION
其中
IDENTIFIER為錯(cuò)誤編號(hào),當(dāng)需要檢查具體信息時(shí)常會(huì)用到。
TIMESTAMP為時(shí)間標(biāo)簽,它統(tǒng)計(jì)的是出錯(cuò)時(shí)間,其格式:月月日日時(shí)時(shí)分分年年
T為T(mén)ype,它統(tǒng)計(jì)的是錯(cuò)誤類(lèi)型
P:為永久錯(cuò)誤,需引發(fā)注意
T:為臨時(shí)錯(cuò)誤。
C為Class,
它統(tǒng)計(jì)的是錯(cuò)誤種類(lèi),如
H:Hardware
S:Software
O:Errlogercommandmessages
U:undetermined
RESOURCE_NAME
為錯(cuò)誤來(lái)源
DESCRIPTION為錯(cuò)誤描述
#errpt-aj<IDENTIFIER>查看系統(tǒng)具體統(tǒng)計(jì)內(nèi)容
其中IDENTIFIER為錯(cuò)誤編號(hào),如#errpt-aj09
#errpt-dH
查看系統(tǒng)全部的硬件出錯(cuò)統(tǒng)計(jì)
系統(tǒng)與數(shù)據(jù)備份
有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文獻(xiàn)系統(tǒng)被嚴(yán)重?fù)p壞或硬盤(pán)損壞時(shí),常需要使用系統(tǒng)備份來(lái)恢復(fù)系統(tǒng)。在下列狀況下應(yīng)做系統(tǒng)備份:
1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完畢后,應(yīng)做系統(tǒng)備份。
2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。
3、定時(shí)備份。對(duì)系統(tǒng)進(jìn)行定時(shí)備份,最佳每?jī)苫蛉齻€(gè)月做一次備份
備份注意事項(xiàng):
進(jìn)行系統(tǒng)備份不必停止業(yè)務(wù),業(yè)務(wù)能夠繼續(xù)進(jìn)行。
建議客戶(hù)進(jìn)行定時(shí)的系統(tǒng)備份(使用命令smittymksysb)。客戶(hù)也可根據(jù)需要運(yùn)用SMIT對(duì)系統(tǒng)的特定的VG或FS進(jìn)行備份。
smittymksysb只備份rootvg中mount起來(lái)的文獻(xiàn)系統(tǒng),其它文獻(xiàn)系統(tǒng)或數(shù)據(jù)并沒(méi)有做備份,因此數(shù)據(jù)備份需要另外完畢(建議客戶(hù)使用TAR格式)
在條件允許的狀況下,最佳有一盤(pán)以上備份帶,以避免磁帶損壞。
系統(tǒng)備份過(guò)程中有時(shí)候會(huì)提示有些/tmp目錄下的文獻(xiàn)無(wú)法備份,顯示以下:
Creatinglistoffilestobackup...
Backingup34025files
1694of34025files(4%)
2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./
tmp/:Afileordirectoryinthepathnamedoesnotexist.
backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirector
yinthepathnamedoesnotexist.
backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirector
yinthepathnamedoesnotexist.
15458of34025files(45%)
31920of34025files(93%)
0512-003mksysbmaynothavebeenabletoarchivesomefiles.
ThemessagesdisplayedontheStandardErrorcontainedadditional
information.
這是正?,F(xiàn)象,備份成功。
系統(tǒng)恢復(fù)
當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采用普通性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶(hù)進(jìn)行蹉商后,可將近來(lái)一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全方面恢復(fù)系統(tǒng)到近來(lái)一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)天的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,客戶(hù)應(yīng)當(dāng)與IBM工程師再進(jìn)行整個(gè)事件的全方面分析與回顧,以期找到故障發(fā)生的因素,并采用對(duì)應(yīng)方法以杜絕類(lèi)似事件再次發(fā)生。
DUMP
當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障造成系統(tǒng)down機(jī)時(shí),機(jī)器的液晶顯示屏?xí)霈F(xiàn)888102xxx0c0(xxx可能為700或其它),AIX常會(huì)將當(dāng)時(shí)系統(tǒng)的運(yùn)行狀況統(tǒng)計(jì)下來(lái),這就是DUMP。
當(dāng)DUMP產(chǎn)生后,請(qǐng)將磁帶放入磁帶機(jī),用命令#snap-a-o/dev/rmt0將DUMP文獻(xiàn)拷貝到磁帶設(shè)備/dev/rmt0中。注明磁帶機(jī)的blocksize,DUMP產(chǎn)生的日期和機(jī)器的型號(hào)及序列號(hào)。同時(shí),請(qǐng)用#errpt-a>/tmp/將errorlog記在/tmp/中,并將/tmp/和/tmp/hacmp.*拷貝到軟盤(pán)或磁帶上。將磁帶和軟盤(pán)交給IBM工程師。
日常檢查服務(wù)器狀態(tài)的項(xiàng)目及其有關(guān)命令
1運(yùn)行l(wèi)sdev命令配以多個(gè)參數(shù),所列多個(gè)設(shè)備狀態(tài)都應(yīng)為Available。#
lsdev–C–H–Sa
列出系統(tǒng)中可用設(shè)備。
#lsdev–Ccprocessor
列出系統(tǒng)中的全部CPU。
#lsdev–Ccmemory
列出系統(tǒng)中的全部?jī)?nèi)存。
#lsdev–Ccdisk
列出系統(tǒng)中的全部硬盤(pán)。
#lsdev-Ccadapter|grepent
列出系統(tǒng)中的全部網(wǎng)卡
#lsdev-Ccadapter|grepscsi
列出系統(tǒng)中的全部SCSI卡。
#lsdev-Ccadapter|grepssa
列出系統(tǒng)中的全部SSA卡。
2lspv命令
#lspv
顯示系統(tǒng)中可用的PV。
#lspvhdiskn
顯示hdiskn的具體信息。
#lsdev–Ccpdisk
顯示磁盤(pán)陣列的硬盤(pán)的具體信息。
對(duì)SSA硬盤(pán)的檢測(cè):在對(duì)主機(jī)進(jìn)行工作之前能夠先把磁盤(pán)陣列上電,等主機(jī)完全啟動(dòng)后,登錄到主機(jī)上,運(yùn)行下列命令“l(fā)sdev–Ccpdisk“,應(yīng)當(dāng)能夠看到全部SSA硬盤(pán),并且狀態(tài)應(yīng)為Available.。
3
lsattr命令
#lsattr–E–lmem0
列出系統(tǒng)中內(nèi)存mem0的大小,本項(xiàng)目中內(nèi)存有4GB。
4
lsvg命令
#lsvg
列出系統(tǒng)中全部的vg。
#lsvgrootvg
列出rootvg的具體信息。
#lsvg–o
列出激活的vg
5
oslevel命令
#oslevel
顯示操作系統(tǒng)版本信息。
6
netstat命令
#netstat–in
顯示系統(tǒng)中各網(wǎng)卡的配備。可查看網(wǎng)卡的IP配備好了沒(méi)有。
7
#diag命令
運(yùn)行硬件診療程序檢測(cè)主機(jī)內(nèi)全部硬件,檢測(cè)成果為“Notroublefound”顯示各部分工作正常。
8
使用#diag命令
(選擇:TaskSelection->SSAServiceAids)對(duì)SSA硬盤(pán)鏈路連接的校驗(yàn),能夠通過(guò)SSA工具里的LinkVerification來(lái)檢測(cè)。如有必要,能夠用CertifyDisk運(yùn)行硬盤(pán)診療部分進(jìn)行硬盤(pán)的表面分析測(cè)試,由1%至100%,檢測(cè)成果顯示主機(jī)內(nèi)置硬盤(pán)的全部扇區(qū)均讀寫(xiě)正常。
9
lsps–a
查看PAGINGSPACE的使用狀況,如果使用率超出70%,就需要采用方法。
10
lsvg–o|lsvg–il|grep–istale
查看有無(wú)stale的lv,如果輸入該命令之后有輸出成果,就需要采用方法
11
有否發(fā)給root顧客的錯(cuò)誤報(bào)告(mail)。
12
檢查雙機(jī)狀態(tài):lssrc–gcluster
檢查ha三個(gè)工作進(jìn)程與否激活,/usr/sbin/cluster/clstat–a檢查雙機(jī)狀態(tài)與否up,并檢查日志,看與否有異常信息。
13
用vmstat,topas,sar命令
檢查系統(tǒng)性能,檢查cpu\memoyr\IO,與否存在性能瓶頸。
14
檢查能否順利進(jìn)入CDE界面,如果不能進(jìn)入的話(huà),要檢查/etc/hosts表中有否錯(cuò)誤的項(xiàng)目。
15
用smittyssaraid查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)與否是Good。如果是degrade或其它狀態(tài)表達(dá)RAID盤(pán)出現(xiàn)問(wèn)題了
16
用sysdumpdev–l查看系統(tǒng)的DUMP設(shè)立與否正常。
17
用instfix–ik|grepML現(xiàn)在操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)與否滿(mǎn)足穩(wěn)定運(yùn)行的需要。普通規(guī)定433操作系統(tǒng)補(bǔ)丁要打到10以上,操作系統(tǒng)補(bǔ)丁要打到5以上
18
使用df–kP查看磁盤(pán)空間占用率,請(qǐng)確保下列文獻(xiàn)系統(tǒng)的占用率高于80%立刻上報(bào):
性能監(jiān)控與調(diào)優(yōu)
通過(guò)命令vmstat1來(lái)觀(guān)察.
kthr
memory
page
faults
cpu
r
b
avm
fre
re
pi
po
fr
sr
cy
in
sy
csussyidwa
命令解析:vmstat命令的輸出能夠反映系統(tǒng)整體運(yùn)行狀況,涉及cpu、內(nèi)存、虛擬頁(yè)面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用狀況。
檢查CPU與否為瓶頸,分別檢查CPU的四項(xiàng)數(shù)值和kthr的兩項(xiàng)數(shù)值.
檢查MEM與否為瓶頸,分別檢查Memory的兩項(xiàng)數(shù)值和Page的六項(xiàng)數(shù)值.
通過(guò)命令sar–mu–PALL來(lái)觀(guān)察。
命令解析:
sar能夠用來(lái)收集反映系統(tǒng)運(yùn)行狀況,在這里重要是查看CPU的運(yùn)行狀況,CPU與否負(fù)載均衡,與否存在分派不均的狀況。
通過(guò)命令psgv|more來(lái)觀(guān)察。
PID
TTYSTAT
TIMEPGIN
SIZE
RSS
LIM
TSIZ
TRS%CPU%MEMCOMMAND
0
-A
4:20
7
1214516
xx
014504
swapper
1
-A
1:33
103789527904432768
25
36
/etc/ini
命令解析:ps能夠用來(lái)查看進(jìn)程的現(xiàn)在狀態(tài)。在這里通過(guò)參數(shù)的配搭,能夠觀(guān)察現(xiàn)在正在運(yùn)行的進(jìn)程所耗的時(shí)間,CPU和memory量.其中,%CPU表達(dá)進(jìn)程所占用的CPU資源狀況,%MEM表達(dá)進(jìn)程所占用的內(nèi)存狀況。重要檢查與否有標(biāo)示為<defunc>的僵尸進(jìn)程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫(kù)的oninit進(jìn)程的系統(tǒng)消耗狀況。
在機(jī)器上用dd命令進(jìn)行磁盤(pán)陣列的寫(xiě)操作校驗(yàn),與此同時(shí)用iostat1–d
hdiskX觀(guān)察磁盤(pán)。
Disks:
%tm_act
Kbps
tps
Kb_read
Kb_wrtn
命令解析:iostat能夠用來(lái)查看系統(tǒng)的I/O的輸入輸出狀況,在這里重要查看陣列上的硬盤(pán)的每秒讀寫(xiě)量,同時(shí)估算磁盤(pán)陣列讀寫(xiě)速度HHhHhh
。
通過(guò)命令netstat–a
進(jìn)行查看。
ActiveInternetconnections(includingservers)
Proto
Recv-Q
Send-Q
LocalAddress
ForeignAddress
(state
命令解析:netstat能夠用來(lái)查看系統(tǒng)的網(wǎng)絡(luò)狀況,在這里重要是查看網(wǎng)絡(luò)客戶(hù)端連接的狀況和開(kāi)銷(xiāo),檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait,這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而造成網(wǎng)絡(luò)性能下降構(gòu)成瓶頸。
安全工作守則
a.系統(tǒng)定時(shí)進(jìn)行系統(tǒng)備份,系統(tǒng)盤(pán)建議鏡像。
b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份。
c.在7133和shark發(fā)現(xiàn)有硬盤(pán)故障的時(shí)候,請(qǐng)?zhí)崾究蛻?hù)注意當(dāng)天的數(shù)據(jù)備份。在更換硬盤(pán)的時(shí)候,請(qǐng)確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完畢。
d.在更換敏感的電子元件,時(shí)候一定要防靜電。
e.在插拔外圍設(shè)備的時(shí)候,請(qǐng)把外圍設(shè)備下電。
f.在進(jìn)行主機(jī)微碼升級(jí)時(shí)候,請(qǐng)留心微碼的完整性。
g.在進(jìn)行文獻(xiàn)刪除的時(shí)候,請(qǐng)留心現(xiàn)在途徑與否對(duì)的。
h.在進(jìn)行文獻(xiàn)解壓縮的時(shí)候,請(qǐng)留心參數(shù)和途徑。
維護(hù)電話(huà)
在日常維護(hù)中碰到問(wèn)題和疑難,能夠致電:
IBM免費(fèi)技術(shù)支持保修熱線(xiàn):
800-810-6677
0100
客戶(hù)技術(shù)咨詢(xún)熱線(xiàn):
800-810-1818
IBM廣州分公司聯(lián)系電話(huà):
[本帖最后由mfkqwyc86于-11-412:32編輯]
__________________################################################################################################
君子務(wù)本,本立而道生。mfkqwyc86,飛鷹工作室
ITPUT個(gè)人空間:
01.【OracleRAC】Linux+Oracle11gR2RAC安裝配備具體過(guò)程
02.【OracleRAC】OracleRAC更改VIPIP地址_2節(jié)點(diǎn)的實(shí)驗(yàn)
03.【OracleRAC】OracleRAC刪除一種節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)
04.【OracleRAC】OracleRAC增加一種節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)
05.【OracleRAC+DG】OracleRAC+ASM+DataGuard配備實(shí)驗(yàn)統(tǒng)計(jì)
06.【OracleRAC】OracleRACCRS、OCR、Voting破壞重建
07.【Oracle表分區(qū)管理】OraclePartition表分區(qū)與分區(qū)索引幾個(gè)方式的實(shí)驗(yàn)操作
08.【IBMDB2表空間管理】db2表空間管理—實(shí)例解說(shuō)之精髓
09.【IBMDB2補(bǔ)丁升級(jí)】從升級(jí)到DB2
10.【中間件資料下載匯總】WebSphere,MQ,Portal,WebLogic資料下載匯總【PDF格式-共51類(lèi)】
只看該作者
mfkqwyc86
飛鷹工作室
精髓貼數(shù)1
個(gè)人空間400
技術(shù)積分826(3079)
社區(qū)積分28(9086)
注冊(cè)日期-4-28
論壇徽章:1
#2使用道具
發(fā)表于-11-412:22
跟貼闡明:
大家看了下列日常維護(hù)及故障解決匯總辦法后,請(qǐng)大家在貼后跟上自己碰到過(guò)的錯(cuò)誤問(wèn)題,及解決辦法!!
第三類(lèi)、故障定位、故障排除
根據(jù)我們?cè)趯?shí)際商用系統(tǒng)中碰到問(wèn)題,我們總結(jié)出了下列幾個(gè)常見(jiàn)故障及其定位方式和解決辦法。
硬件故障
硬件故障有諸多個(gè),對(duì)系統(tǒng)產(chǎn)生的影響也不同,這里按其故障對(duì)系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功效的硬件故障兩類(lèi)進(jìn)行硬件分類(lèi):
其損壞對(duì)系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無(wú)法啟動(dòng))的硬件涉及:
主板、CPU、I/O柜(包含本地盤(pán)、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜與CEC柜的接線(xiàn)、電源模塊、電扇、本地硬盤(pán)、內(nèi)存損壞等等
注:I/O柜和CEC柜普通在比較高端的小型機(jī)才有,如M80,低端的是合一的。
這些設(shè)備的損壞等將使系統(tǒng)無(wú)法完畢自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對(duì)照ServiceGuide查的錯(cuò)誤因素,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機(jī)。
其損壞對(duì)僅對(duì)系統(tǒng)產(chǎn)生功效影響(機(jī)器不會(huì)宕機(jī)并能正常啟動(dòng))的硬件涉及:
網(wǎng)卡、本地硬盤(pán)有壞塊、顯卡、SSA卡和其它外圍設(shè)備
這些設(shè)備的損壞只影響特定功效,如網(wǎng)絡(luò)功效、顯示功效、訪(fǎng)問(wèn)磁陣的功效等,對(duì)于本地硬盤(pán)有壞塊的狀況,則要看壞塊中與否包含了重要的系統(tǒng)文獻(xiàn),如果不是重要系統(tǒng)文獻(xiàn),則系統(tǒng)功效不受影響,但也建議立刻更換該硬盤(pán)。
故障定位和排除:
以上硬件故障信息都能夠使用:
液晶屏上的錯(cuò)誤碼或:
errpt–dH查看到
根據(jù)錯(cuò)誤碼擬定是什么硬件出了故障,對(duì)商用系統(tǒng)來(lái)講,由于是雙機(jī)系統(tǒng),如果損壞機(jī)器是主機(jī)能夠?qū)⒋朔?wù)器切換成備機(jī),然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。
磁陣故障
磁陣引發(fā)的故障是現(xiàn)在碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70%以上,具體來(lái)講,可能引發(fā)磁陣故障的環(huán)節(jié)涉及:
磁陣硬盤(pán)、7133柜子、主機(jī)上的SSA卡、連接7133與主機(jī)的SSA線(xiàn)、硬盤(pán)的位置和ssa線(xiàn)的接線(xiàn)方式、以及盤(pán)柜使用的電壓及周邊磁場(chǎng)、磁陣/硬盤(pán)/ssa卡的微碼等
都可能造成7133的異常。
7133磁陣的問(wèn)題是最復(fù)雜的,普通有物理?yè)p壞的因素也有環(huán)境因素,這是主因,如接線(xiàn)、插盤(pán)位置不符合規(guī)定、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經(jīng)驗(yàn),不管是什么硬件故障造成7133故障,系統(tǒng)都會(huì)產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問(wèn)題并采用方法,普通都能避免故障的發(fā)生。
故障定位:
7133硬件故障也能夠使用:
errpt–dH查看到
隨著的錯(cuò)誤碼有:
B4C00618
04PHssa0
RESOURCEUNAVAILABLE
FE9E9357
04PHssa0
DISKOPERATIONERROR
FE9E9357
03PHpdisk3
DISKOPERATIONERROR
03913B94
03UHLVDD
HARDWAREDISKBLOCKRELOCATIONACHIEVED
613E5F38
03PHLVDD
I/OERRORDETECTEDBYLVM
625E6B9A
04PHssa0
ADAPTERDETECTEDOPENSERIALLINK
26CA120B
04PHssa0
CACHESTORAGECARD
全部的錯(cuò)誤碼都預(yù)示著7133有異常,紅色部分則表達(dá)必定出現(xiàn)了硬件故障,需要立刻進(jìn)行檢查并采用方法,否則磁陣將很快不能訪(fǎng)問(wèn)。對(duì)于藍(lán)色部分:
625E6B9A
04PHssa0
ADAPTERDETECTEDOPENSERIALLINK
表達(dá)ssa出現(xiàn)了開(kāi)環(huán),出現(xiàn)開(kāi)環(huán)不僅影響IO性能,也增加了風(fēng)險(xiǎn),即如果另一種環(huán)路也出現(xiàn)問(wèn)題,將不能訪(fǎng)問(wèn)磁陣。
開(kāi)環(huán)普通有兩種狀況:1)如果625E6B9A報(bào)錯(cuò)比較頻繁,如每天幾次,則表達(dá)系統(tǒng)很有可能出了硬件故障,即使不會(huì)造成訪(fǎng)問(wèn)磁陣失敗,但需要立刻查出原因并解決。查錯(cuò)辦法能夠參考下面的描述。2)如果625E6B9A錯(cuò)誤偶然報(bào)一次,則要具體狀況具體看待,有可能是讀寫(xiě)忙出現(xiàn)的誤報(bào),也按下面辦法進(jìn)行排查,如果沒(méi)有查出具體的因素,則能夠繼續(xù)觀(guān)察。
26CA120B
04PHssa0
CACHESTORAGECARD
該錯(cuò)誤普通是在:SSA卡帶writecache并打開(kāi)FastWrite,而ssa卡上用于writecache供電的可充電鎳鎘電池達(dá)成或靠近安全壽命的狀況下產(chǎn)生的。這類(lèi)錯(cuò)誤產(chǎn)生將影響IO寫(xiě)性能,并且由于在FastWrite打開(kāi)的狀況下,主備機(jī)需要同時(shí)ssa卡上的writecache,因此甚至?xí)绊懙街鱾錂C(jī)同時(shí)。具體解決辦法可參考下文。
故障排除:
對(duì)于紅色部分錯(cuò)誤的問(wèn)題排除,普通能夠使用diag命令進(jìn)行進(jìn)一步診療:
#diag->TaskSelection->SSAServiceAids->LinkVerification
檢查環(huán)路中與否出現(xiàn)了的盤(pán)符或狀態(tài)不是good的硬盤(pán)
或使用:
#smittyssaraid->ListAllDefinedSSARAIDArrays
查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)與否是Good。如果是degrade或其它狀態(tài)表達(dá)RAID盤(pán)出現(xiàn)問(wèn)題了
這時(shí)候不建議再進(jìn)行單獨(dú)硬盤(pán)的Certify,而是趕快告知IBM準(zhǔn)備好相似型號(hào)和大小的硬盤(pán)(最少兩塊)到現(xiàn)場(chǎng)進(jìn)行進(jìn)一步的診療和壞盤(pán)更換。
625E6B9A
04PHssa0
ADAPTERDETECTEDOPENSERIALLINK
的排查辦法:
1、規(guī)定將7133中未插硬盤(pán)的槽位全部插上dummy盤(pán)。(dummy盤(pán):啞元盤(pán),就是那個(gè)空殼子,相稱(chēng)于替代SSA硬盤(pán)裝在磁盤(pán)陣列的塑料模型,當(dāng)磁盤(pán)陣列的16個(gè)槽位沒(méi)有被SSA硬盤(pán)插滿(mǎn)時(shí)才用到.)
2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的兩列數(shù)字是持續(xù)不間斷的排列,且Status都為good,如果Physical列有符號(hào).或Status不是good,則說(shuō)明已經(jīng)存在硬盤(pán)或鏈路故障,這種狀況則要立刻采用行動(dòng),做進(jìn)一步檢查以擬定與否要更換硬盤(pán)。檢查單盤(pán)與否有問(wèn)題的辦法以下:
diag>TaskSelection-->SSAServiceAids-->CertifyDisk
選擇認(rèn)為存在故障的硬盤(pán)進(jìn)行檢查
3、如果7133存在硬件故障時(shí),可從狀態(tài)燈上觀(guān)察到:
當(dāng)單塊硬盤(pán)出現(xiàn)故障或未被使用時(shí),其面板上的硬盤(pán)狀態(tài)燈會(huì)不亮
陣列的狀態(tài)燈黃燈會(huì)亮
或接SSA線(xiàn)的端口的批示燈也會(huì)熄滅
如果通過(guò)以上三種辦法都未發(fā)現(xiàn)問(wèn)題,而系統(tǒng)仍報(bào)OpenSerialLink錯(cuò)誤,建議繼續(xù)跟蹤。
26CA120B
04PHssa0
CACHESTORAGECARD
的解決辦法:
背景介紹:
IBM小型機(jī)上連接7133磁陣所配備的SSA卡普通都帶有一塊充電電池,該電池用于在忽然停電的狀況下保護(hù)ssa卡上的fastwritecache中的信息不丟失,這塊電池的安全壽命普通是2小時(shí),差不多兩年半的時(shí)間,也就是說(shuō),當(dāng)fastwrite模式啟動(dòng)的狀況下,普通兩年半后來(lái)需要更換這塊電池。
問(wèn)題體現(xiàn):
對(duì)ssa卡上的電池保護(hù)是通過(guò)卡上的一種計(jì)數(shù)器實(shí)現(xiàn)的,每運(yùn)行一小時(shí)該計(jì)數(shù)器會(huì)增加一,當(dāng)該計(jì)數(shù)靠近或超出2時(shí),系統(tǒng)會(huì)有26CA120B硬件報(bào)警:
26CA120B
04PHssa1
CACHESTORAGECARD
能夠用以下命令檢查ssa卡上的狀態(tài):(-a后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0)
ssa_fw_status-assa0
-p
(檢查電池已經(jīng)工作的時(shí)間,小時(shí)為單位)
ssa_fw_status-assa0
-l
(檢查電池安全工作壽命,小時(shí)為單位)
ssa_fw_status-assa0
-c
(檢查ssa卡上的fastwrite功效與否被激活)
解決環(huán)節(jié):(按優(yōu)選方式列出,從中選擇一種即可)
1)更換電池
選擇系統(tǒng)閑時(shí),更換主備機(jī)ssa卡電池,能夠采用:
停備機(jī)-》更換備機(jī)ssa卡電池-》起備機(jī)(雙機(jī)服務(wù))-》主備倒換-》
停原主機(jī)-》更換原主機(jī)ssa卡電池-》起原主機(jī)(雙機(jī)服務(wù))
2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status-assa0
-c檢查主用ssa卡(普通是ssa0)的FastWrite與否處在inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行以下命令:
ssa_format-lssa0-b
errclear0
/usr/lib/errstop
/usr/lib/errdemon
能夠暫緩更換電池時(shí)間,等有電池后再更換,但這段時(shí)間對(duì)磁陣讀寫(xiě)性能會(huì)有所影響。
3)如果短期內(nèi)不能更換電池,同時(shí)主機(jī)主用卡的FastWrite仍然處在Active狀態(tài),建議手工屏蔽fastwrite功效
1)先停止雙機(jī)
2)在1號(hào)機(jī)修改hdisk該屬性:
smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]
3)在1號(hào)機(jī)激活卷組
varyonvgzxinvg
4)在1號(hào)機(jī)去激活卷組
varyoffvgzxinvg
5)在2號(hào)機(jī)上執(zhí)行
smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]
檢查fastwrite與否已經(jīng)改為no(只要1號(hào)機(jī)做了2好機(jī)就不用再修改了)
6)在2號(hào)機(jī)上執(zhí)行
rmdev-dlhdisk2
cfgmgr-v
7)在2號(hào)機(jī)上執(zhí)行
lspv
(查看hdisk2與否已找到)
8)然后執(zhí)行
varyonvgzxinvg
varyoffvgzxinvg
9)重新啟動(dòng)雙機(jī)
B4C00618
04PHssa0
RESOURCEUNAVAILABLE
而不隨著其它紅色標(biāo)出錯(cuò)誤的狀況,則通過(guò)下列方式排查:
可能是hdisk中將‘enableuserofhotspare’打開(kāi)了,而實(shí)際并沒(méi)有配備hotspare盤(pán),
能夠通過(guò)以下方式解決:
檢查RAID的狀態(tài):
#smittyssaraid
listalldefinedSSARAIDarrays:allareinstatusgood(ssa0)
檢查與否配備了hotspare:
list/identifySSAPhysicaldisks-->Listhotspares:none
修改每個(gè)ssa卡所配備的hdisk的屬性:
:set"enableuseofhotspare"to"no"
然后再執(zhí)行:
#/usr/lib/errstop
#cp/var/adm/ras/errlog
/var/adm/ras/
#/usr/lib/errdemon
#errclear0
對(duì)于物理硬盤(pán)的接法可參考以下闡明:(有可能老局未配備hotspare,則連線(xiàn)辦法按未配備hotspare盤(pán)的個(gè)數(shù)計(jì)算)
分下列幾個(gè)狀況講述:
1)
數(shù)據(jù)盤(pán)不大于等于6塊,建議配備一塊hotspare
2)
數(shù)據(jù)盤(pán)不不大于等于8塊不大于等于10塊,建議配備兩塊hotspare
3)
數(shù)據(jù)盤(pán)不不大于等于12塊不大于等于14塊,建議配備兩塊hotspare
l
數(shù)據(jù)盤(pán)不大于等于6塊,配備一塊hotspare的接線(xiàn)和配備規(guī)則:
a)
主機(jī)A1、A2接磁陣1、8位置;備機(jī)A1、A2接磁陣4、5位置
b)
確保磁陣前排1\4\5\8硬盤(pán)位置一定要插盤(pán),其它的盤(pán)能夠挑空位插,注意1-4、5-8兩側(cè)的數(shù)據(jù)盤(pán)保持軸對(duì)稱(chēng)關(guān)系插入(如1和8是軸對(duì)稱(chēng)的、4和5是軸對(duì)稱(chēng)的)
c)
沒(méi)有插硬盤(pán)的位置一定要插上dummy盤(pán)
d)
做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-4、5-8以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,舉例以下:
ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:
pdisk0
Available-PSSA160PhysicalDiskDrive
pdisk1
Available-PSSA160PhysicalDiskDrive
pdisk2
Available-PSSA160PhysicalDiskDrive
pdisk3
Available-PSSA160PhysicalDiskDrive
看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)
pdisk0-pdisk3對(duì)應(yīng)的物理槽位分別是前排1\5\4\8的位置,因此在使用smittyssaraid做RAID0+1時(shí),需將1\8位置的硬盤(pán)(pdisk0/pdisk3)做成鏡像、4\5位置的硬盤(pán)(pdisk2/pdisk1)做成鏡像,因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:
smittyssaraid->AddanSSARAIDArray->...
PrimaryDisks
[需要選擇:pdisk0pdisk2]
--1\4槽位的硬盤(pán)作為主盤(pán)
SecondaryDisks
[需要選擇:pdisk3pdisk1]
--8\5槽位的硬盤(pán)作為從盤(pán)
該規(guī)定只是從性能考慮,并不增加其它特性。
e)
hotspare盤(pán)插入位置能夠找前排8個(gè)位置中的空位插入即可。無(wú)特殊位置規(guī)定,制作辦法以下:使用lsdev-C|greppdisk方式找出其pdisk號(hào),如pdisk5然后使用以下方式將其做成hotspare盤(pán)。
smittyssaraid->ChangeUseofMultipleSSAPhysicalDisks->選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)
->選擇作為hotspare的pdisk,如pdisk6->NewUse->選擇hotspare按回車(chē)創(chuàng)立刻可
l
數(shù)據(jù)盤(pán)不不大于等于8塊不大于等于10塊,配備兩塊hotspare的接線(xiàn)和配備規(guī)則:
a)
主機(jī)A1、A2接磁陣1、12位置;備機(jī)A1、A2接磁陣8、9位置
b)
確保磁陣前排1-8位置插滿(mǎn)數(shù)據(jù)盤(pán),9-12位置的數(shù)據(jù)盤(pán)和hotspare盤(pán)位置可任意。
c)
沒(méi)有插硬盤(pán)的位置一定要插上dummy盤(pán)
d)
做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-4、5-8以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,
9-12位置中有數(shù)據(jù)盤(pán)的,將其對(duì)應(yīng)做鏡像,其它兩塊做hotspare,舉例以下:
ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:
pdisk0
Available-PSSA160PhysicalDiskDrive
pdisk1
Available-PSSA160PhysicalDiskDrive
pdisk2
Available-PSSA160PhysicalDiskDrive
pdisk3
Available-PSSA160PhysicalDiskDrive
pdisk4
Available-PSSA160PhysicalDiskDrive
pdisk5
Available-PSSA160PhysicalDiskDrive
pdisk6
Available-PSSA160PhysicalDiskDrive
pdisk7
Available-PSSA160PhysicalDiskDrive
pdisk8
Available-PSSA160PhysicalDiskDrive
pdisk9
Available-PSSA160PhysicalDiskDrive
pdisk10
Available-PSSA160PhysicalDiskDrive
pdisk11
Available-PSSA160PhysicalDiskDrive
看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)
pdisk0-pdisk11對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12的位置,因此在使用smittyssaraid做RAID0+1時(shí),前面八塊盤(pán)按1-4、5-8軸對(duì)稱(chēng)方式對(duì)應(yīng)做mirror,9-12中如選擇9(pdisk8)/12(pdisk11)位置做mirror
因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:
smittyssaraid->AddanSSARAIDArray->...
PrimaryDisks
[選擇:pdisk0pdisk4pdisk5pdisk2pdisk8]物理1-4,9槽位
SecondaryDisks
[選擇:pdisk3pdisk6pdisk7pdisk1pdisk11]物理8-5,12槽位
該規(guī)定只是從性能考慮,并不增加其它特性。
e)
剩余物理位置10(pdisk10)/11(pdisk9)盤(pán)做成hotspare,辦法同上e)環(huán)節(jié)
l
數(shù)據(jù)盤(pán)不不大于等于12塊不大于等于14塊,配備兩塊hotspare的接線(xiàn)和配備規(guī)則:
a)
主機(jī)A1、A2接磁陣1、16位置;備機(jī)A1、A2接磁陣8、9位置
b)
空出3、14位置插hotspare,如果是12塊數(shù)據(jù)盤(pán),空出2、15位置插dummy盤(pán),其它都插入數(shù)據(jù)盤(pán);如果是14塊數(shù)據(jù)盤(pán),則將剩余的14個(gè)位置全部插上數(shù)據(jù)盤(pán)
c)
做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-8、9-16以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,hotspare也滿(mǎn)足軸對(duì)稱(chēng)關(guān)系,舉例以下:
ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:
pdisk0
Available-PSSA160PhysicalDiskDrive
pdisk1
Available-PSSA160PhysicalDiskDrive
pdisk2
Available-PSSA160PhysicalDiskDrive
pdisk3
Available-PSSA160PhysicalDiskDrive
pdisk4
Available-PSSA160PhysicalDiskDrive
pdisk5
Available-PSSA160PhysicalDiskDrive
pdisk6
Available-PSSA160PhysicalDiskDrive
pdisk7
Available-PSSA160PhysicalDiskDrive
pdisk8
Available-PSSA160PhysicalDiskDrive
pdisk9
Available-PSSA160PhysicalDiskDrive
pdisk10
Available-PSSA160PhysicalDiskDrive
pdisk11
Available-PSSA160PhysicalDiskDrive
pdisk12
Available-PSSA160PhysicalDiskDrive
pdisk13
Available-PSSA160PhysicalDiskDrive
pdisk14
Available-PSSA160PhysicalDiskDrive
pdisk15
Available-PSSA160PhysicalDiskDrive
看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)
pdisk0-pdisk15對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,因此在使用smittyssaraid做RAID0+1時(shí),以1-8、9-16以軸對(duì)稱(chēng)創(chuàng)立mirror因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:
smittyssaraid->AddanSSARAIDArray->...
PrimaryDisks
[選擇:pdisk0pdisk4pdisk2pdisk1pdisk7pdisk6pdisk3]
物理1-8槽位,除3位置以外
SecondaryDisks[選擇:pdisk12pdisk14pdisk13pdisk11pdisk9pdisk10pdisk8]
物理16-9槽位,除14位置以外
該規(guī)定只是從性能考慮,并不增加其它特性。
剩余物理位置3(pdisk5)/14(pdisk15)盤(pán)做成hotspare,辦法同上e)環(huán)節(jié)
網(wǎng)絡(luò)故障
由于我們應(yīng)用對(duì)網(wǎng)絡(luò)依賴(lài)很強(qiáng),因此當(dāng)網(wǎng)絡(luò)出現(xiàn)全阻或瞬斷都將對(duì)系統(tǒng)產(chǎn)生重大影響,網(wǎng)絡(luò)故障普通可分為硬件故障(如網(wǎng)卡故障和交換機(jī)、路由器故障)和軟件故障(網(wǎng)絡(luò)中有IP包攻擊或網(wǎng)絡(luò)擁塞)兩種狀況。
硬件故障:
1.網(wǎng)卡
對(duì)于網(wǎng)卡故障,由于商用系統(tǒng)中都是采用IBM的HA雙機(jī)系統(tǒng),并且每臺(tái)機(jī)器都配備有最少兩塊網(wǎng)卡,因此當(dāng)單塊網(wǎng)卡或網(wǎng)線(xiàn)出現(xiàn)問(wèn)題時(shí),HA軟件都將采用方法實(shí)現(xiàn)ServiceIP切換。
網(wǎng)卡故障定位辦法:使用errpt–dH可查看到網(wǎng)卡服務(wù)中斷的錯(cuò)誤,再使用diag進(jìn)行網(wǎng)卡診療
網(wǎng)卡故障排查辦法:如果診療出網(wǎng)卡有問(wèn)題,則關(guān)閉系統(tǒng)后進(jìn)行更換。(如果是主機(jī),則先手工切換為備機(jī)后再操作)
2.交換機(jī)
我們的網(wǎng)絡(luò)普通都采用雙網(wǎng)雙平面的構(gòu)造,因此當(dāng)一種網(wǎng)絡(luò)平面的交換機(jī)出現(xiàn)問(wèn)題時(shí),也不會(huì)中斷網(wǎng)絡(luò)服務(wù),但值得重視的是:主、備交換機(jī)之間的直連線(xiàn)要保持暢通,否則一單發(fā)生IBM服務(wù)器主機(jī)或SIU主機(jī)的網(wǎng)卡切換,將造成IBM服務(wù)器主機(jī)和SIU主機(jī)斷鏈,從而造成業(yè)務(wù)全阻。
尚有一種狀況,有些地方為了網(wǎng)絡(luò)安全,對(duì)連到switch上的不同設(shè)備劃分了不同的VLAN,同時(shí)又將主、備switch之間改成通過(guò)兩個(gè)口連接,并劃分在一種channelgroup里,當(dāng)時(shí)碰到的一種狀況是:
1)當(dāng)時(shí)IBM服務(wù)器的主網(wǎng)卡從缺省VLAN0到VLAN6實(shí)現(xiàn)遷移時(shí),網(wǎng)絡(luò)將出現(xiàn)15秒~30秒的瞬斷
2)當(dāng)時(shí)主、備交換機(jī)之間的channelgroup工作不正常,鏈路不通。
當(dāng)1)發(fā)生時(shí),IBM雙機(jī)發(fā)生主、備網(wǎng)卡倒換,但由于2)的問(wèn)題,造成IBM主機(jī)無(wú)法與SIU建鏈。
問(wèn)題排查及建議:
1)
建議開(kāi)局時(shí)一定要做雙網(wǎng)雙平面中一種平面的swith發(fā)生掉電的故障測(cè)試
2)
建議一定要做主、備交換機(jī)之間的設(shè)備之間的網(wǎng)絡(luò)互訪(fǎng)測(cè)試,確保暢通
3)
盡量不要在白天在switch上進(jìn)行配備修改,如果需要修改,也要在晚上進(jìn)行,并有嚴(yán)格的方案
軟件故障:
1.網(wǎng)絡(luò)擁塞
由于系統(tǒng)在封閉網(wǎng)絡(luò)中運(yùn)行,因此發(fā)生網(wǎng)絡(luò)擁塞的可能性比較小,但如果網(wǎng)絡(luò)拓?fù)浔容^復(fù)雜的話(huà),也可能發(fā)生這種狀況,在主機(jī)上的體現(xiàn)為ping主機(jī)丟包嚴(yán)重,主機(jī)到SIU之間鏈路時(shí)通時(shí)斷,數(shù)據(jù)包丟失,設(shè)備功效異常。
問(wèn)題排查及建議:
1)
盡量使NT/的機(jī)器從網(wǎng)絡(luò)上隔離出去
2)
如果狀況仍未改善,建議啟動(dòng)SIU應(yīng)急流程
3)
在恢復(fù)呼喊的前提下,使用網(wǎng)絡(luò)工具抓包,找出攻擊源、逐步將設(shè)備恢復(fù)到網(wǎng)絡(luò)。
2.切換失敗
現(xiàn)場(chǎng)碰到過(guò)一種狀況,當(dāng)發(fā)生主、備機(jī)切換時(shí)老是切換不成功,檢查發(fā)現(xiàn)是備機(jī)的主網(wǎng)卡綁定浮動(dòng)IP老是失敗,再進(jìn)一步排查,發(fā)現(xiàn)失敗的因素是備機(jī)主網(wǎng)卡綁定MAX地址失敗,由于IBM雙機(jī)配備時(shí)需要將ServiceIP配備為一種固定的MAC地址,規(guī)則是取主機(jī)主網(wǎng)卡的MAC地址,將最后兩位改為固定的兩個(gè)數(shù)字(規(guī)定與原主網(wǎng)卡地址不同,如定制為89)。但這樣的規(guī)則在現(xiàn)場(chǎng)不成功
問(wèn)題排除:最后修改了HA拓?fù)鋱D中以太網(wǎng)配備中ServiceAdapter配備,去掉MAC地址的配備(置為空),讓后同時(shí)雙機(jī),再進(jìn)行倒換,一切OK
由于網(wǎng)絡(luò)故障出現(xiàn)會(huì)造成遠(yuǎn)程登錄失效,因此無(wú)法進(jìn)行系統(tǒng)維護(hù)。因此建議任何一套IBM服務(wù)器都要配備一種維護(hù)臺(tái)。
OS故障
AIX是一種比較穩(wěn)定的操作系統(tǒng),出現(xiàn)故障普通是人為因素引發(fā)的:
1.
沒(méi)按規(guī)定打OS補(bǔ)丁,如433打了09的補(bǔ)丁造成內(nèi)存泄漏
2.
應(yīng)用程序或數(shù)據(jù)庫(kù)消耗內(nèi)存太多或存在內(nèi)存泄漏造成物理內(nèi)存和pagingspace被耗盡造成系統(tǒng)掛起
3.
人為刪除了重要的目錄或文獻(xiàn),如:/dev、/usr、/bin、/sbin、/etc等
故障排查:
1.查操作系統(tǒng)補(bǔ)丁與否符合規(guī)定(433規(guī)定10以上,規(guī)定5以上)
2.檢查內(nèi)存、pagingspace的使用狀況(使用lsps–a查看使用率要不大于20%)
3.檢查shell命令執(zhí)行時(shí)與否有報(bào)錯(cuò),errpt有無(wú)有關(guān)報(bào)錯(cuò)
HA故障
對(duì)于HA安裝時(shí)出現(xiàn)的故障,猶如步拓?fù)鋱D失敗,規(guī)定檢查下列條款看與否符合規(guī)定:
1.對(duì)于版本的HA一定要打上15以上的補(bǔ)丁,版本的HA規(guī)定打上9以上的補(bǔ)丁
2.網(wǎng)絡(luò)有關(guān)的配備文獻(xiàn)一定要按照安裝手冊(cè)去設(shè)立
3.網(wǎng)絡(luò)ip配備要對(duì)的并且確保物理鏈路暢通
4.全部、版本一律使用原則版
5.不能在同一臺(tái)機(jī)器中同時(shí)安裝原則版或ES版
6.打補(bǔ)丁時(shí)請(qǐng)使用smittyupdate_all方式,不要選擇打全部補(bǔ)丁,由于原則版和ES版的補(bǔ)丁往往在一起,這樣會(huì)造成版本不一致
如果是新開(kāi)局,一定要確保做雙機(jī)倒換測(cè)試并確保成功。
如果在后續(xù)使用中,進(jìn)行了以下操作,后來(lái)再做雙機(jī)切換會(huì)失?。?/p>
1.在主機(jī)上做過(guò)磁陣RAID或共享VG有關(guān)信息的修改,如:增加了新的RAID盤(pán),修改了共享VG的配備
2.在共享VG中增加了新的FS、增加了新LV
3.以上配備或修改只在主機(jī)上進(jìn)行了操作,而未將共享VG信息及時(shí)同時(shí)到備機(jī)
4.備機(jī)即使導(dǎo)入了新的共享VG信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年農(nóng)村集體土地承包合同示例
- 2025年勞動(dòng)合同與勞務(wù)合同差異對(duì)比
- 2025年航空備品項(xiàng)目提案報(bào)告
- 2025年分析儀器及裝置項(xiàng)目提案報(bào)告模板
- 2025年精細(xì)藥液過(guò)濾器項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模板
- 2025年臨時(shí)辦公租賃合同范本
- 2025年區(qū)域航空維修合作與發(fā)展協(xié)議
- 2025年合作伙伴商鋪經(jīng)營(yíng)合同
- 2025年企業(yè)商業(yè)保密合同
- 2025年交通服務(wù)費(fèi)用回收協(xié)議
- 2024-2030年中國(guó)紫蘇市場(chǎng)深度局勢(shì)分析及未來(lái)5發(fā)展趨勢(shì)報(bào)告
- 銷(xiāo)售人員課件教學(xué)課件
- LED大屏技術(shù)方案(適用于簡(jiǎn)單的項(xiàng)目)
- 城市自來(lái)水廠(chǎng)課程設(shè)計(jì)
- 2024智慧城市數(shù)據(jù)采集標(biāo)準(zhǔn)規(guī)范
- Lesson 6 What colour is it(教學(xué)設(shè)計(jì))-2023-2024學(xué)年接力版英語(yǔ)三年級(jí)下冊(cè)
- 歷年國(guó)家二級(jí)(Python)機(jī)試真題匯編(含答案)
- 第五單元任務(wù)二《準(zhǔn)備與排練》教學(xué)設(shè)計(jì) 統(tǒng)編版語(yǔ)文九年級(jí)下冊(cè)
- 虧損企業(yè)減虧專(zhuān)項(xiàng)治理方案
- 《垃圾發(fā)電廠(chǎng)爐渣處理技術(shù)規(guī)范》
- 設(shè)計(jì)質(zhì)量、進(jìn)度、服務(wù)保證措施
評(píng)論
0/150
提交評(píng)論