IBM服務(wù)器維護(hù)手冊(cè)_第1頁(yè)
IBM服務(wù)器維護(hù)手冊(cè)_第2頁(yè)
IBM服務(wù)器維護(hù)手冊(cè)_第3頁(yè)
IBM服務(wù)器維護(hù)手冊(cè)_第4頁(yè)
IBM服務(wù)器維護(hù)手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一類(lèi)、機(jī)房環(huán)境及物理檢查

一、機(jī)房?jī)?nèi)環(huán)境規(guī)定

1.

溫度與濕度:

最佳工作溫度:20-25攝氏度

極限工作溫度:10-40攝氏度

濕度:8-80%(在23攝氏度條件下)

如果不是工作在最佳溫度,請(qǐng)注意改善機(jī)房環(huán)境

2.

同時(shí)機(jī)房要確保清潔.

機(jī)房應(yīng)保持清潔,若空氣灰塵過(guò)多,很容易造成資源讀寫(xiě)錯(cuò)誤及磁盤(pán)機(jī)中磁盤(pán)或讀寫(xiě)磁頭毀損。

二、電源規(guī)定

壓:

規(guī)定電壓穩(wěn)定,尖峰電壓會(huì)損壞設(shè)備

電壓范疇:

220V+/-10%,即200-240V,50-60Hz

電源功率:

視機(jī)器類(lèi)型和系統(tǒng)配備而定

電源線(xiàn)

:

原則的零,地,火三相電,其中零,地電壓不得超出.

電源接駁:

用符合電流規(guī)定的空氣開(kāi)關(guān)或其它設(shè)備和主機(jī)電源線(xiàn)接駁,確保計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機(jī)組;對(duì)于冗于電源的接入,建議采用兩路單獨(dú)輸入.

三、硬件檢查

]檢查服務(wù)器、磁陣的安裝、電源線(xiàn)、7133和主機(jī)接線(xiàn)符合規(guī)定。

服務(wù)器狀態(tài)檢查:

1.

當(dāng)服務(wù)器處在啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無(wú)信息顯示。

2.

當(dāng)液晶顯示屏上出現(xiàn)帶數(shù)字和字母的信息時(shí),闡明有硬件告警。能夠通過(guò)查詢(xún)有關(guān)機(jī)型的ServiceGuide查到對(duì)應(yīng)告警因素,狀況嚴(yán)重的,則要立刻告知IBM技術(shù)專(zhuān)家進(jìn)行問(wèn)題排查。

7133狀態(tài)檢查:

磁陣前面板上有7133機(jī)柜的狀態(tài)燈(與電源燈并排)和各硬盤(pán)的狀態(tài)燈(一排小燈,與各硬盤(pán)位置一一對(duì)應(yīng))。

1.當(dāng)機(jī)柜的狀態(tài)燈出現(xiàn)橙黃色時(shí),闡明有硬件告警,此時(shí)要檢查磁柜的電源、接線(xiàn)、硬盤(pán)等。如果有硬件故障則立刻進(jìn)行更換和改正,如果查不出具體問(wèn)題,則需要聯(lián)系有關(guān)專(zhuān)家進(jìn)一步診療。

2.當(dāng)硬盤(pán)工作正常時(shí),與各硬盤(pán)對(duì)應(yīng)的硬盤(pán)燈會(huì)呈綠色,如無(wú)讀寫(xiě),則綠燈始終亮,如該硬盤(pán)有讀寫(xiě)操作,則綠燈會(huì)不規(guī)則閃爍,當(dāng)硬盤(pán)損壞時(shí)或SSA環(huán)路出現(xiàn)問(wèn)題時(shí),則硬盤(pán)狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍

第二類(lèi)、系統(tǒng)日常維護(hù)流程

系統(tǒng)啟動(dòng)

系統(tǒng)啟動(dòng)正常次序以下:

首先對(duì)外設(shè)(磁盤(pán)陣列、磁帶庫(kù)等)加電。

待全部外設(shè)加電自檢完畢后,主機(jī)加電正常起機(jī)。主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示”ok”后,才干按白色POWER鍵起機(jī).

啟動(dòng)主機(jī)HACMP,啟動(dòng)后可用命令tail-f/tmp/來(lái)檢查啟動(dòng)狀況,在HACMP未完全啟動(dòng)前不要進(jìn)行下一步。

檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文獻(xiàn)系統(tǒng),邏輯卷(可用mount,lsvg-o等)。

檢查各項(xiàng)應(yīng)用與否工作正常。

系統(tǒng)關(guān)閉

停止HACMP

(smittyclstop)。

查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文獻(xiàn)系統(tǒng),邏輯卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要進(jìn)行下一步。

關(guān)閉主機(jī)(shutdown–F)。重啟系統(tǒng)能夠使用:shutdown-Fr

如有必要的話(huà),按磁盤(pán)陣列前方的白色按鈕關(guān)閉磁盤(pán)陣列。

查看系統(tǒng)的錯(cuò)誤統(tǒng)計(jì)

在系統(tǒng)運(yùn)行時(shí),某些系統(tǒng)錯(cuò)誤會(huì)統(tǒng)計(jì)在errlog中,其中有些錯(cuò)誤還會(huì)在終端上顯示。檢查錯(cuò)誤日志可用下列命令:

#errpt|more查看系統(tǒng)全部的統(tǒng)計(jì)

IDENTIFIER

TIMESTAMP

T

C

RESOURCE_NAME

DESCRIPTION

E85C5C4C

09

P

S

CFGLFT

SOFTWAREPROGRAMERROR

2BFA76F6

09

T

S

SYSPROC

SYSTEMSHUTDOWNBYUSER

9D4CF6E7

09

T

O

errdemon

ERRORLOGGINGTURNEDON

1E2AC07E

09

T

O

errdemon

ERRORLOGGINGTURNEDOFF

1E5EER4T

09

T

O

clstrmgr

OPERATORNOTIFICATION

其中

IDENTIFIER為錯(cuò)誤編號(hào),當(dāng)需要檢查具體信息時(shí)常會(huì)用到。

TIMESTAMP為時(shí)間標(biāo)簽,它統(tǒng)計(jì)的是出錯(cuò)時(shí)間,其格式:月月日日時(shí)時(shí)分分年年

T為T(mén)ype,它統(tǒng)計(jì)的是錯(cuò)誤類(lèi)型

P:為永久錯(cuò)誤,需引發(fā)注意

T:為臨時(shí)錯(cuò)誤。

C為Class,

它統(tǒng)計(jì)的是錯(cuò)誤種類(lèi),如

H:Hardware

S:Software

O:Errlogercommandmessages

U:undetermined

RESOURCE_NAME

為錯(cuò)誤來(lái)源

DESCRIPTION為錯(cuò)誤描述

#errpt-aj<IDENTIFIER>查看系統(tǒng)具體統(tǒng)計(jì)內(nèi)容

其中IDENTIFIER為錯(cuò)誤編號(hào),如#errpt-aj09

#errpt-dH

查看系統(tǒng)全部的硬件出錯(cuò)統(tǒng)計(jì)

系統(tǒng)與數(shù)據(jù)備份

有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文獻(xiàn)系統(tǒng)被嚴(yán)重?fù)p壞或硬盤(pán)損壞時(shí),常需要使用系統(tǒng)備份來(lái)恢復(fù)系統(tǒng)。在下列狀況下應(yīng)做系統(tǒng)備份:

1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完畢后,應(yīng)做系統(tǒng)備份。

2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。

3、定時(shí)備份。對(duì)系統(tǒng)進(jìn)行定時(shí)備份,最佳每?jī)苫蛉齻€(gè)月做一次備份

備份注意事項(xiàng):

進(jìn)行系統(tǒng)備份不必停止業(yè)務(wù),業(yè)務(wù)能夠繼續(xù)進(jìn)行。

建議客戶(hù)進(jìn)行定時(shí)的系統(tǒng)備份(使用命令smittymksysb)。客戶(hù)也可根據(jù)需要運(yùn)用SMIT對(duì)系統(tǒng)的特定的VG或FS進(jìn)行備份。

smittymksysb只備份rootvg中mount起來(lái)的文獻(xiàn)系統(tǒng),其它文獻(xiàn)系統(tǒng)或數(shù)據(jù)并沒(méi)有做備份,因此數(shù)據(jù)備份需要另外完畢(建議客戶(hù)使用TAR格式)

在條件允許的狀況下,最佳有一盤(pán)以上備份帶,以避免磁帶損壞。

系統(tǒng)備份過(guò)程中有時(shí)候會(huì)提示有些/tmp目錄下的文獻(xiàn)無(wú)法備份,顯示以下:

Creatinglistoffilestobackup...

Backingup34025files

1694of34025files(4%)

2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./

tmp/:Afileordirectoryinthepathnamedoesnotexist.

backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirector

yinthepathnamedoesnotexist.

backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirector

yinthepathnamedoesnotexist.

15458of34025files(45%)

31920of34025files(93%)

0512-003mksysbmaynothavebeenabletoarchivesomefiles.

ThemessagesdisplayedontheStandardErrorcontainedadditional

information.

這是正?,F(xiàn)象,備份成功。

系統(tǒng)恢復(fù)

當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采用普通性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶(hù)進(jìn)行蹉商后,可將近來(lái)一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全方面恢復(fù)系統(tǒng)到近來(lái)一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)天的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,客戶(hù)應(yīng)當(dāng)與IBM工程師再進(jìn)行整個(gè)事件的全方面分析與回顧,以期找到故障發(fā)生的因素,并采用對(duì)應(yīng)方法以杜絕類(lèi)似事件再次發(fā)生。

DUMP

當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障造成系統(tǒng)down機(jī)時(shí),機(jī)器的液晶顯示屏?xí)霈F(xiàn)888102xxx0c0(xxx可能為700或其它),AIX常會(huì)將當(dāng)時(shí)系統(tǒng)的運(yùn)行狀況統(tǒng)計(jì)下來(lái),這就是DUMP。

當(dāng)DUMP產(chǎn)生后,請(qǐng)將磁帶放入磁帶機(jī),用命令#snap-a-o/dev/rmt0將DUMP文獻(xiàn)拷貝到磁帶設(shè)備/dev/rmt0中。注明磁帶機(jī)的blocksize,DUMP產(chǎn)生的日期和機(jī)器的型號(hào)及序列號(hào)。同時(shí),請(qǐng)用#errpt-a>/tmp/將errorlog記在/tmp/中,并將/tmp/和/tmp/hacmp.*拷貝到軟盤(pán)或磁帶上。將磁帶和軟盤(pán)交給IBM工程師。

日常檢查服務(wù)器狀態(tài)的項(xiàng)目及其有關(guān)命令

1運(yùn)行l(wèi)sdev命令配以多個(gè)參數(shù),所列多個(gè)設(shè)備狀態(tài)都應(yīng)為Available。#

lsdev–C–H–Sa

列出系統(tǒng)中可用設(shè)備。

#lsdev–Ccprocessor

列出系統(tǒng)中的全部CPU。

#lsdev–Ccmemory

列出系統(tǒng)中的全部?jī)?nèi)存。

#lsdev–Ccdisk

列出系統(tǒng)中的全部硬盤(pán)。

#lsdev-Ccadapter|grepent

列出系統(tǒng)中的全部網(wǎng)卡

#lsdev-Ccadapter|grepscsi

列出系統(tǒng)中的全部SCSI卡。

#lsdev-Ccadapter|grepssa

列出系統(tǒng)中的全部SSA卡。

2lspv命令

#lspv

顯示系統(tǒng)中可用的PV。

#lspvhdiskn

顯示hdiskn的具體信息。

#lsdev–Ccpdisk

顯示磁盤(pán)陣列的硬盤(pán)的具體信息。

對(duì)SSA硬盤(pán)的檢測(cè):在對(duì)主機(jī)進(jìn)行工作之前能夠先把磁盤(pán)陣列上電,等主機(jī)完全啟動(dòng)后,登錄到主機(jī)上,運(yùn)行下列命令“l(fā)sdev–Ccpdisk“,應(yīng)當(dāng)能夠看到全部SSA硬盤(pán),并且狀態(tài)應(yīng)為Available.。

3

lsattr命令

#lsattr–E–lmem0

列出系統(tǒng)中內(nèi)存mem0的大小,本項(xiàng)目中內(nèi)存有4GB。

4

lsvg命令

#lsvg

列出系統(tǒng)中全部的vg。

#lsvgrootvg

列出rootvg的具體信息。

#lsvg–o

列出激活的vg

5

oslevel命令

#oslevel

顯示操作系統(tǒng)版本信息。

6

netstat命令

#netstat–in

顯示系統(tǒng)中各網(wǎng)卡的配備。可查看網(wǎng)卡的IP配備好了沒(méi)有。

7

#diag命令

運(yùn)行硬件診療程序檢測(cè)主機(jī)內(nèi)全部硬件,檢測(cè)成果為“Notroublefound”顯示各部分工作正常。

8

使用#diag命令

(選擇:TaskSelection->SSAServiceAids)對(duì)SSA硬盤(pán)鏈路連接的校驗(yàn),能夠通過(guò)SSA工具里的LinkVerification來(lái)檢測(cè)。如有必要,能夠用CertifyDisk運(yùn)行硬盤(pán)診療部分進(jìn)行硬盤(pán)的表面分析測(cè)試,由1%至100%,檢測(cè)成果顯示主機(jī)內(nèi)置硬盤(pán)的全部扇區(qū)均讀寫(xiě)正常。

9

lsps–a

查看PAGINGSPACE的使用狀況,如果使用率超出70%,就需要采用方法。

10

lsvg–o|lsvg–il|grep–istale

查看有無(wú)stale的lv,如果輸入該命令之后有輸出成果,就需要采用方法

11

有否發(fā)給root顧客的錯(cuò)誤報(bào)告(mail)。

12

檢查雙機(jī)狀態(tài):lssrc–gcluster

檢查ha三個(gè)工作進(jìn)程與否激活,/usr/sbin/cluster/clstat–a檢查雙機(jī)狀態(tài)與否up,并檢查日志,看與否有異常信息。

13

用vmstat,topas,sar命令

檢查系統(tǒng)性能,檢查cpu\memoyr\IO,與否存在性能瓶頸。

14

檢查能否順利進(jìn)入CDE界面,如果不能進(jìn)入的話(huà),要檢查/etc/hosts表中有否錯(cuò)誤的項(xiàng)目。

15

用smittyssaraid查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)與否是Good。如果是degrade或其它狀態(tài)表達(dá)RAID盤(pán)出現(xiàn)問(wèn)題了

16

用sysdumpdev–l查看系統(tǒng)的DUMP設(shè)立與否正常。

17

用instfix–ik|grepML現(xiàn)在操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)與否滿(mǎn)足穩(wěn)定運(yùn)行的需要。普通規(guī)定433操作系統(tǒng)補(bǔ)丁要打到10以上,操作系統(tǒng)補(bǔ)丁要打到5以上

18

使用df–kP查看磁盤(pán)空間占用率,請(qǐng)確保下列文獻(xiàn)系統(tǒng)的占用率高于80%立刻上報(bào):

性能監(jiān)控與調(diào)優(yōu)

通過(guò)命令vmstat1來(lái)觀(guān)察.

kthr

memory

page

faults

cpu

r

b

avm

fre

re

pi

po

fr

sr

cy

in

sy

csussyidwa

命令解析:vmstat命令的輸出能夠反映系統(tǒng)整體運(yùn)行狀況,涉及cpu、內(nèi)存、虛擬頁(yè)面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用狀況。

檢查CPU與否為瓶頸,分別檢查CPU的四項(xiàng)數(shù)值和kthr的兩項(xiàng)數(shù)值.

檢查MEM與否為瓶頸,分別檢查Memory的兩項(xiàng)數(shù)值和Page的六項(xiàng)數(shù)值.

通過(guò)命令sar–mu–PALL來(lái)觀(guān)察。

命令解析:

sar能夠用來(lái)收集反映系統(tǒng)運(yùn)行狀況,在這里重要是查看CPU的運(yùn)行狀況,CPU與否負(fù)載均衡,與否存在分派不均的狀況。

通過(guò)命令psgv|more來(lái)觀(guān)察。

PID

TTYSTAT

TIMEPGIN

SIZE

RSS

LIM

TSIZ

TRS%CPU%MEMCOMMAND

0

-A

4:20

7

1214516

xx

014504

swapper

1

-A

1:33

103789527904432768

25

36

/etc/ini

命令解析:ps能夠用來(lái)查看進(jìn)程的現(xiàn)在狀態(tài)。在這里通過(guò)參數(shù)的配搭,能夠觀(guān)察現(xiàn)在正在運(yùn)行的進(jìn)程所耗的時(shí)間,CPU和memory量.其中,%CPU表達(dá)進(jìn)程所占用的CPU資源狀況,%MEM表達(dá)進(jìn)程所占用的內(nèi)存狀況。重要檢查與否有標(biāo)示為<defunc>的僵尸進(jìn)程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫(kù)的oninit進(jìn)程的系統(tǒng)消耗狀況。

在機(jī)器上用dd命令進(jìn)行磁盤(pán)陣列的寫(xiě)操作校驗(yàn),與此同時(shí)用iostat1–d

hdiskX觀(guān)察磁盤(pán)。

Disks:

%tm_act

Kbps

tps

Kb_read

Kb_wrtn

命令解析:iostat能夠用來(lái)查看系統(tǒng)的I/O的輸入輸出狀況,在這里重要查看陣列上的硬盤(pán)的每秒讀寫(xiě)量,同時(shí)估算磁盤(pán)陣列讀寫(xiě)速度HHhHhh

通過(guò)命令netstat–a

進(jìn)行查看。

ActiveInternetconnections(includingservers)

Proto

Recv-Q

Send-Q

LocalAddress

ForeignAddress

(state

命令解析:netstat能夠用來(lái)查看系統(tǒng)的網(wǎng)絡(luò)狀況,在這里重要是查看網(wǎng)絡(luò)客戶(hù)端連接的狀況和開(kāi)銷(xiāo),檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait,這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而造成網(wǎng)絡(luò)性能下降構(gòu)成瓶頸。

安全工作守則

a.系統(tǒng)定時(shí)進(jìn)行系統(tǒng)備份,系統(tǒng)盤(pán)建議鏡像。

b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份。

c.在7133和shark發(fā)現(xiàn)有硬盤(pán)故障的時(shí)候,請(qǐng)?zhí)崾究蛻?hù)注意當(dāng)天的數(shù)據(jù)備份。在更換硬盤(pán)的時(shí)候,請(qǐng)確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完畢。

d.在更換敏感的電子元件,時(shí)候一定要防靜電。

e.在插拔外圍設(shè)備的時(shí)候,請(qǐng)把外圍設(shè)備下電。

f.在進(jìn)行主機(jī)微碼升級(jí)時(shí)候,請(qǐng)留心微碼的完整性。

g.在進(jìn)行文獻(xiàn)刪除的時(shí)候,請(qǐng)留心現(xiàn)在途徑與否對(duì)的。

h.在進(jìn)行文獻(xiàn)解壓縮的時(shí)候,請(qǐng)留心參數(shù)和途徑。

維護(hù)電話(huà)

在日常維護(hù)中碰到問(wèn)題和疑難,能夠致電:

IBM免費(fèi)技術(shù)支持保修熱線(xiàn):

800-810-6677

0100

客戶(hù)技術(shù)咨詢(xún)熱線(xiàn):

800-810-1818

IBM廣州分公司聯(lián)系電話(huà):

[本帖最后由mfkqwyc86于-11-412:32編輯]

__________________################################################################################################

君子務(wù)本,本立而道生。mfkqwyc86,飛鷹工作室

ITPUT個(gè)人空間:

01.【OracleRAC】Linux+Oracle11gR2RAC安裝配備具體過(guò)程

02.【OracleRAC】OracleRAC更改VIPIP地址_2節(jié)點(diǎn)的實(shí)驗(yàn)

03.【OracleRAC】OracleRAC刪除一種節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)

04.【OracleRAC】OracleRAC增加一種節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)

05.【OracleRAC+DG】OracleRAC+ASM+DataGuard配備實(shí)驗(yàn)統(tǒng)計(jì)

06.【OracleRAC】OracleRACCRS、OCR、Voting破壞重建

07.【Oracle表分區(qū)管理】OraclePartition表分區(qū)與分區(qū)索引幾個(gè)方式的實(shí)驗(yàn)操作

08.【IBMDB2表空間管理】db2表空間管理—實(shí)例解說(shuō)之精髓

09.【IBMDB2補(bǔ)丁升級(jí)】從升級(jí)到DB2

10.【中間件資料下載匯總】WebSphere,MQ,Portal,WebLogic資料下載匯總【PDF格式-共51類(lèi)】

只看該作者

mfkqwyc86

飛鷹工作室

精髓貼數(shù)1

個(gè)人空間400

技術(shù)積分826(3079)

社區(qū)積分28(9086)

注冊(cè)日期-4-28

論壇徽章:1

#2使用道具

發(fā)表于-11-412:22

跟貼闡明:

大家看了下列日常維護(hù)及故障解決匯總辦法后,請(qǐng)大家在貼后跟上自己碰到過(guò)的錯(cuò)誤問(wèn)題,及解決辦法!!

第三類(lèi)、故障定位、故障排除

根據(jù)我們?cè)趯?shí)際商用系統(tǒng)中碰到問(wèn)題,我們總結(jié)出了下列幾個(gè)常見(jiàn)故障及其定位方式和解決辦法。

硬件故障

硬件故障有諸多個(gè),對(duì)系統(tǒng)產(chǎn)生的影響也不同,這里按其故障對(duì)系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功效的硬件故障兩類(lèi)進(jìn)行硬件分類(lèi):

其損壞對(duì)系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無(wú)法啟動(dòng))的硬件涉及:

主板、CPU、I/O柜(包含本地盤(pán)、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜與CEC柜的接線(xiàn)、電源模塊、電扇、本地硬盤(pán)、內(nèi)存損壞等等

注:I/O柜和CEC柜普通在比較高端的小型機(jī)才有,如M80,低端的是合一的。

這些設(shè)備的損壞等將使系統(tǒng)無(wú)法完畢自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對(duì)照ServiceGuide查的錯(cuò)誤因素,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機(jī)。

其損壞對(duì)僅對(duì)系統(tǒng)產(chǎn)生功效影響(機(jī)器不會(huì)宕機(jī)并能正常啟動(dòng))的硬件涉及:

網(wǎng)卡、本地硬盤(pán)有壞塊、顯卡、SSA卡和其它外圍設(shè)備

這些設(shè)備的損壞只影響特定功效,如網(wǎng)絡(luò)功效、顯示功效、訪(fǎng)問(wèn)磁陣的功效等,對(duì)于本地硬盤(pán)有壞塊的狀況,則要看壞塊中與否包含了重要的系統(tǒng)文獻(xiàn),如果不是重要系統(tǒng)文獻(xiàn),則系統(tǒng)功效不受影響,但也建議立刻更換該硬盤(pán)。

故障定位和排除:

以上硬件故障信息都能夠使用:

液晶屏上的錯(cuò)誤碼或:

errpt–dH查看到

根據(jù)錯(cuò)誤碼擬定是什么硬件出了故障,對(duì)商用系統(tǒng)來(lái)講,由于是雙機(jī)系統(tǒng),如果損壞機(jī)器是主機(jī)能夠?qū)⒋朔?wù)器切換成備機(jī),然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。

磁陣故障

磁陣引發(fā)的故障是現(xiàn)在碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70%以上,具體來(lái)講,可能引發(fā)磁陣故障的環(huán)節(jié)涉及:

磁陣硬盤(pán)、7133柜子、主機(jī)上的SSA卡、連接7133與主機(jī)的SSA線(xiàn)、硬盤(pán)的位置和ssa線(xiàn)的接線(xiàn)方式、以及盤(pán)柜使用的電壓及周邊磁場(chǎng)、磁陣/硬盤(pán)/ssa卡的微碼等

都可能造成7133的異常。

7133磁陣的問(wèn)題是最復(fù)雜的,普通有物理?yè)p壞的因素也有環(huán)境因素,這是主因,如接線(xiàn)、插盤(pán)位置不符合規(guī)定、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經(jīng)驗(yàn),不管是什么硬件故障造成7133故障,系統(tǒng)都會(huì)產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問(wèn)題并采用方法,普通都能避免故障的發(fā)生。

故障定位:

7133硬件故障也能夠使用:

errpt–dH查看到

隨著的錯(cuò)誤碼有:

B4C00618

04PHssa0

RESOURCEUNAVAILABLE

FE9E9357

04PHssa0

DISKOPERATIONERROR

FE9E9357

03PHpdisk3

DISKOPERATIONERROR

03913B94

03UHLVDD

HARDWAREDISKBLOCKRELOCATIONACHIEVED

613E5F38

03PHLVDD

I/OERRORDETECTEDBYLVM

625E6B9A

04PHssa0

ADAPTERDETECTEDOPENSERIALLINK

26CA120B

04PHssa0

CACHESTORAGECARD

全部的錯(cuò)誤碼都預(yù)示著7133有異常,紅色部分則表達(dá)必定出現(xiàn)了硬件故障,需要立刻進(jìn)行檢查并采用方法,否則磁陣將很快不能訪(fǎng)問(wèn)。對(duì)于藍(lán)色部分:

625E6B9A

04PHssa0

ADAPTERDETECTEDOPENSERIALLINK

表達(dá)ssa出現(xiàn)了開(kāi)環(huán),出現(xiàn)開(kāi)環(huán)不僅影響IO性能,也增加了風(fēng)險(xiǎn),即如果另一種環(huán)路也出現(xiàn)問(wèn)題,將不能訪(fǎng)問(wèn)磁陣。

開(kāi)環(huán)普通有兩種狀況:1)如果625E6B9A報(bào)錯(cuò)比較頻繁,如每天幾次,則表達(dá)系統(tǒng)很有可能出了硬件故障,即使不會(huì)造成訪(fǎng)問(wèn)磁陣失敗,但需要立刻查出原因并解決。查錯(cuò)辦法能夠參考下面的描述。2)如果625E6B9A錯(cuò)誤偶然報(bào)一次,則要具體狀況具體看待,有可能是讀寫(xiě)忙出現(xiàn)的誤報(bào),也按下面辦法進(jìn)行排查,如果沒(méi)有查出具體的因素,則能夠繼續(xù)觀(guān)察。

26CA120B

04PHssa0

CACHESTORAGECARD

該錯(cuò)誤普通是在:SSA卡帶writecache并打開(kāi)FastWrite,而ssa卡上用于writecache供電的可充電鎳鎘電池達(dá)成或靠近安全壽命的狀況下產(chǎn)生的。這類(lèi)錯(cuò)誤產(chǎn)生將影響IO寫(xiě)性能,并且由于在FastWrite打開(kāi)的狀況下,主備機(jī)需要同時(shí)ssa卡上的writecache,因此甚至?xí)绊懙街鱾錂C(jī)同時(shí)。具體解決辦法可參考下文。

故障排除:

對(duì)于紅色部分錯(cuò)誤的問(wèn)題排除,普通能夠使用diag命令進(jìn)行進(jìn)一步診療:

#diag->TaskSelection->SSAServiceAids->LinkVerification

檢查環(huán)路中與否出現(xiàn)了的盤(pán)符或狀態(tài)不是good的硬盤(pán)

或使用:

#smittyssaraid->ListAllDefinedSSARAIDArrays

查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)與否是Good。如果是degrade或其它狀態(tài)表達(dá)RAID盤(pán)出現(xiàn)問(wèn)題了

這時(shí)候不建議再進(jìn)行單獨(dú)硬盤(pán)的Certify,而是趕快告知IBM準(zhǔn)備好相似型號(hào)和大小的硬盤(pán)(最少兩塊)到現(xiàn)場(chǎng)進(jìn)行進(jìn)一步的診療和壞盤(pán)更換。

625E6B9A

04PHssa0

ADAPTERDETECTEDOPENSERIALLINK

的排查辦法:

1、規(guī)定將7133中未插硬盤(pán)的槽位全部插上dummy盤(pán)。(dummy盤(pán):啞元盤(pán),就是那個(gè)空殼子,相稱(chēng)于替代SSA硬盤(pán)裝在磁盤(pán)陣列的塑料模型,當(dāng)磁盤(pán)陣列的16個(gè)槽位沒(méi)有被SSA硬盤(pán)插滿(mǎn)時(shí)才用到.)

2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的兩列數(shù)字是持續(xù)不間斷的排列,且Status都為good,如果Physical列有符號(hào).或Status不是good,則說(shuō)明已經(jīng)存在硬盤(pán)或鏈路故障,這種狀況則要立刻采用行動(dòng),做進(jìn)一步檢查以擬定與否要更換硬盤(pán)。檢查單盤(pán)與否有問(wèn)題的辦法以下:

diag>TaskSelection-->SSAServiceAids-->CertifyDisk

選擇認(rèn)為存在故障的硬盤(pán)進(jìn)行檢查

3、如果7133存在硬件故障時(shí),可從狀態(tài)燈上觀(guān)察到:

當(dāng)單塊硬盤(pán)出現(xiàn)故障或未被使用時(shí),其面板上的硬盤(pán)狀態(tài)燈會(huì)不亮

陣列的狀態(tài)燈黃燈會(huì)亮

或接SSA線(xiàn)的端口的批示燈也會(huì)熄滅

如果通過(guò)以上三種辦法都未發(fā)現(xiàn)問(wèn)題,而系統(tǒng)仍報(bào)OpenSerialLink錯(cuò)誤,建議繼續(xù)跟蹤。

26CA120B

04PHssa0

CACHESTORAGECARD

的解決辦法:

背景介紹:

IBM小型機(jī)上連接7133磁陣所配備的SSA卡普通都帶有一塊充電電池,該電池用于在忽然停電的狀況下保護(hù)ssa卡上的fastwritecache中的信息不丟失,這塊電池的安全壽命普通是2小時(shí),差不多兩年半的時(shí)間,也就是說(shuō),當(dāng)fastwrite模式啟動(dòng)的狀況下,普通兩年半后來(lái)需要更換這塊電池。

問(wèn)題體現(xiàn):

對(duì)ssa卡上的電池保護(hù)是通過(guò)卡上的一種計(jì)數(shù)器實(shí)現(xiàn)的,每運(yùn)行一小時(shí)該計(jì)數(shù)器會(huì)增加一,當(dāng)該計(jì)數(shù)靠近或超出2時(shí),系統(tǒng)會(huì)有26CA120B硬件報(bào)警:

26CA120B

04PHssa1

CACHESTORAGECARD

能夠用以下命令檢查ssa卡上的狀態(tài):(-a后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0)

ssa_fw_status-assa0

-p

(檢查電池已經(jīng)工作的時(shí)間,小時(shí)為單位)

ssa_fw_status-assa0

-l

(檢查電池安全工作壽命,小時(shí)為單位)

ssa_fw_status-assa0

-c

(檢查ssa卡上的fastwrite功效與否被激活)

解決環(huán)節(jié):(按優(yōu)選方式列出,從中選擇一種即可)

1)更換電池

選擇系統(tǒng)閑時(shí),更換主備機(jī)ssa卡電池,能夠采用:

停備機(jī)-》更換備機(jī)ssa卡電池-》起備機(jī)(雙機(jī)服務(wù))-》主備倒換-》

停原主機(jī)-》更換原主機(jī)ssa卡電池-》起原主機(jī)(雙機(jī)服務(wù))

2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status-assa0

-c檢查主用ssa卡(普通是ssa0)的FastWrite與否處在inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行以下命令:

ssa_format-lssa0-b

errclear0

/usr/lib/errstop

/usr/lib/errdemon

能夠暫緩更換電池時(shí)間,等有電池后再更換,但這段時(shí)間對(duì)磁陣讀寫(xiě)性能會(huì)有所影響。

3)如果短期內(nèi)不能更換電池,同時(shí)主機(jī)主用卡的FastWrite仍然處在Active狀態(tài),建議手工屏蔽fastwrite功效

1)先停止雙機(jī)

2)在1號(hào)機(jī)修改hdisk該屬性:

smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]

3)在1號(hào)機(jī)激活卷組

varyonvgzxinvg

4)在1號(hào)機(jī)去激活卷組

varyoffvgzxinvg

5)在2號(hào)機(jī)上執(zhí)行

smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]

檢查fastwrite與否已經(jīng)改為no(只要1號(hào)機(jī)做了2好機(jī)就不用再修改了)

6)在2號(hào)機(jī)上執(zhí)行

rmdev-dlhdisk2

cfgmgr-v

7)在2號(hào)機(jī)上執(zhí)行

lspv

(查看hdisk2與否已找到)

8)然后執(zhí)行

varyonvgzxinvg

varyoffvgzxinvg

9)重新啟動(dòng)雙機(jī)

B4C00618

04PHssa0

RESOURCEUNAVAILABLE

而不隨著其它紅色標(biāo)出錯(cuò)誤的狀況,則通過(guò)下列方式排查:

可能是hdisk中將‘enableuserofhotspare’打開(kāi)了,而實(shí)際并沒(méi)有配備hotspare盤(pán),

能夠通過(guò)以下方式解決:

檢查RAID的狀態(tài):

#smittyssaraid

listalldefinedSSARAIDarrays:allareinstatusgood(ssa0)

檢查與否配備了hotspare:

list/identifySSAPhysicaldisks-->Listhotspares:none

修改每個(gè)ssa卡所配備的hdisk的屬性:

:set"enableuseofhotspare"to"no"

然后再執(zhí)行:

#/usr/lib/errstop

#cp/var/adm/ras/errlog

/var/adm/ras/

#/usr/lib/errdemon

#errclear0

對(duì)于物理硬盤(pán)的接法可參考以下闡明:(有可能老局未配備hotspare,則連線(xiàn)辦法按未配備hotspare盤(pán)的個(gè)數(shù)計(jì)算)

分下列幾個(gè)狀況講述:

1)

數(shù)據(jù)盤(pán)不大于等于6塊,建議配備一塊hotspare

2)

數(shù)據(jù)盤(pán)不不大于等于8塊不大于等于10塊,建議配備兩塊hotspare

3)

數(shù)據(jù)盤(pán)不不大于等于12塊不大于等于14塊,建議配備兩塊hotspare

l

數(shù)據(jù)盤(pán)不大于等于6塊,配備一塊hotspare的接線(xiàn)和配備規(guī)則:

a)

主機(jī)A1、A2接磁陣1、8位置;備機(jī)A1、A2接磁陣4、5位置

b)

確保磁陣前排1\4\5\8硬盤(pán)位置一定要插盤(pán),其它的盤(pán)能夠挑空位插,注意1-4、5-8兩側(cè)的數(shù)據(jù)盤(pán)保持軸對(duì)稱(chēng)關(guān)系插入(如1和8是軸對(duì)稱(chēng)的、4和5是軸對(duì)稱(chēng)的)

c)

沒(méi)有插硬盤(pán)的位置一定要插上dummy盤(pán)

d)

做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-4、5-8以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,舉例以下:

ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:

pdisk0

Available-PSSA160PhysicalDiskDrive

pdisk1

Available-PSSA160PhysicalDiskDrive

pdisk2

Available-PSSA160PhysicalDiskDrive

pdisk3

Available-PSSA160PhysicalDiskDrive

看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)

pdisk0-pdisk3對(duì)應(yīng)的物理槽位分別是前排1\5\4\8的位置,因此在使用smittyssaraid做RAID0+1時(shí),需將1\8位置的硬盤(pán)(pdisk0/pdisk3)做成鏡像、4\5位置的硬盤(pán)(pdisk2/pdisk1)做成鏡像,因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:

smittyssaraid->AddanSSARAIDArray->...

PrimaryDisks

[需要選擇:pdisk0pdisk2]

--1\4槽位的硬盤(pán)作為主盤(pán)

SecondaryDisks

[需要選擇:pdisk3pdisk1]

--8\5槽位的硬盤(pán)作為從盤(pán)

該規(guī)定只是從性能考慮,并不增加其它特性。

e)

hotspare盤(pán)插入位置能夠找前排8個(gè)位置中的空位插入即可。無(wú)特殊位置規(guī)定,制作辦法以下:使用lsdev-C|greppdisk方式找出其pdisk號(hào),如pdisk5然后使用以下方式將其做成hotspare盤(pán)。

smittyssaraid->ChangeUseofMultipleSSAPhysicalDisks->選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)

->選擇作為hotspare的pdisk,如pdisk6->NewUse->選擇hotspare按回車(chē)創(chuàng)立刻可

l

數(shù)據(jù)盤(pán)不不大于等于8塊不大于等于10塊,配備兩塊hotspare的接線(xiàn)和配備規(guī)則:

a)

主機(jī)A1、A2接磁陣1、12位置;備機(jī)A1、A2接磁陣8、9位置

b)

確保磁陣前排1-8位置插滿(mǎn)數(shù)據(jù)盤(pán),9-12位置的數(shù)據(jù)盤(pán)和hotspare盤(pán)位置可任意。

c)

沒(méi)有插硬盤(pán)的位置一定要插上dummy盤(pán)

d)

做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-4、5-8以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,

9-12位置中有數(shù)據(jù)盤(pán)的,將其對(duì)應(yīng)做鏡像,其它兩塊做hotspare,舉例以下:

ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:

pdisk0

Available-PSSA160PhysicalDiskDrive

pdisk1

Available-PSSA160PhysicalDiskDrive

pdisk2

Available-PSSA160PhysicalDiskDrive

pdisk3

Available-PSSA160PhysicalDiskDrive

pdisk4

Available-PSSA160PhysicalDiskDrive

pdisk5

Available-PSSA160PhysicalDiskDrive

pdisk6

Available-PSSA160PhysicalDiskDrive

pdisk7

Available-PSSA160PhysicalDiskDrive

pdisk8

Available-PSSA160PhysicalDiskDrive

pdisk9

Available-PSSA160PhysicalDiskDrive

pdisk10

Available-PSSA160PhysicalDiskDrive

pdisk11

Available-PSSA160PhysicalDiskDrive

看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)

pdisk0-pdisk11對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12的位置,因此在使用smittyssaraid做RAID0+1時(shí),前面八塊盤(pán)按1-4、5-8軸對(duì)稱(chēng)方式對(duì)應(yīng)做mirror,9-12中如選擇9(pdisk8)/12(pdisk11)位置做mirror

因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:

smittyssaraid->AddanSSARAIDArray->...

PrimaryDisks

[選擇:pdisk0pdisk4pdisk5pdisk2pdisk8]物理1-4,9槽位

SecondaryDisks

[選擇:pdisk3pdisk6pdisk7pdisk1pdisk11]物理8-5,12槽位

該規(guī)定只是從性能考慮,并不增加其它特性。

e)

剩余物理位置10(pdisk10)/11(pdisk9)盤(pán)做成hotspare,辦法同上e)環(huán)節(jié)

l

數(shù)據(jù)盤(pán)不不大于等于12塊不大于等于14塊,配備兩塊hotspare的接線(xiàn)和配備規(guī)則:

a)

主機(jī)A1、A2接磁陣1、16位置;備機(jī)A1、A2接磁陣8、9位置

b)

空出3、14位置插hotspare,如果是12塊數(shù)據(jù)盤(pán),空出2、15位置插dummy盤(pán),其它都插入數(shù)據(jù)盤(pán);如果是14塊數(shù)據(jù)盤(pán),則將剩余的14個(gè)位置全部插上數(shù)據(jù)盤(pán)

c)

做RAID0+1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-8、9-16以軸對(duì)稱(chēng)方式一一對(duì)應(yīng)做硬盤(pán)鏡像,hotspare也滿(mǎn)足軸對(duì)稱(chēng)關(guān)系,舉例以下:

ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,因此必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并統(tǒng)計(jì)下來(lái),如:

pdisk0

Available-PSSA160PhysicalDiskDrive

pdisk1

Available-PSSA160PhysicalDiskDrive

pdisk2

Available-PSSA160PhysicalDiskDrive

pdisk3

Available-PSSA160PhysicalDiskDrive

pdisk4

Available-PSSA160PhysicalDiskDrive

pdisk5

Available-PSSA160PhysicalDiskDrive

pdisk6

Available-PSSA160PhysicalDiskDrive

pdisk7

Available-PSSA160PhysicalDiskDrive

pdisk8

Available-PSSA160PhysicalDiskDrive

pdisk9

Available-PSSA160PhysicalDiskDrive

pdisk10

Available-PSSA160PhysicalDiskDrive

pdisk11

Available-PSSA160PhysicalDiskDrive

pdisk12

Available-PSSA160PhysicalDiskDrive

pdisk13

Available-PSSA160PhysicalDiskDrive

pdisk14

Available-PSSA160PhysicalDiskDrive

pdisk15

Available-PSSA160PhysicalDiskDrive

看第三列中間字符中有-01-的字樣,表達(dá)其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表達(dá)

pdisk0-pdisk15對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,因此在使用smittyssaraid做RAID0+1時(shí),以1-8、9-16以軸對(duì)稱(chēng)創(chuàng)立mirror因此選擇PrimaryDisks/SecondaryDisks時(shí)以下:

smittyssaraid->AddanSSARAIDArray->...

PrimaryDisks

[選擇:pdisk0pdisk4pdisk2pdisk1pdisk7pdisk6pdisk3]

物理1-8槽位,除3位置以外

SecondaryDisks[選擇:pdisk12pdisk14pdisk13pdisk11pdisk9pdisk10pdisk8]

物理16-9槽位,除14位置以外

該規(guī)定只是從性能考慮,并不增加其它特性。

剩余物理位置3(pdisk5)/14(pdisk15)盤(pán)做成hotspare,辦法同上e)環(huán)節(jié)

網(wǎng)絡(luò)故障

由于我們應(yīng)用對(duì)網(wǎng)絡(luò)依賴(lài)很強(qiáng),因此當(dāng)網(wǎng)絡(luò)出現(xiàn)全阻或瞬斷都將對(duì)系統(tǒng)產(chǎn)生重大影響,網(wǎng)絡(luò)故障普通可分為硬件故障(如網(wǎng)卡故障和交換機(jī)、路由器故障)和軟件故障(網(wǎng)絡(luò)中有IP包攻擊或網(wǎng)絡(luò)擁塞)兩種狀況。

硬件故障:

1.網(wǎng)卡

對(duì)于網(wǎng)卡故障,由于商用系統(tǒng)中都是采用IBM的HA雙機(jī)系統(tǒng),并且每臺(tái)機(jī)器都配備有最少兩塊網(wǎng)卡,因此當(dāng)單塊網(wǎng)卡或網(wǎng)線(xiàn)出現(xiàn)問(wèn)題時(shí),HA軟件都將采用方法實(shí)現(xiàn)ServiceIP切換。

網(wǎng)卡故障定位辦法:使用errpt–dH可查看到網(wǎng)卡服務(wù)中斷的錯(cuò)誤,再使用diag進(jìn)行網(wǎng)卡診療

網(wǎng)卡故障排查辦法:如果診療出網(wǎng)卡有問(wèn)題,則關(guān)閉系統(tǒng)后進(jìn)行更換。(如果是主機(jī),則先手工切換為備機(jī)后再操作)

2.交換機(jī)

我們的網(wǎng)絡(luò)普通都采用雙網(wǎng)雙平面的構(gòu)造,因此當(dāng)一種網(wǎng)絡(luò)平面的交換機(jī)出現(xiàn)問(wèn)題時(shí),也不會(huì)中斷網(wǎng)絡(luò)服務(wù),但值得重視的是:主、備交換機(jī)之間的直連線(xiàn)要保持暢通,否則一單發(fā)生IBM服務(wù)器主機(jī)或SIU主機(jī)的網(wǎng)卡切換,將造成IBM服務(wù)器主機(jī)和SIU主機(jī)斷鏈,從而造成業(yè)務(wù)全阻。

尚有一種狀況,有些地方為了網(wǎng)絡(luò)安全,對(duì)連到switch上的不同設(shè)備劃分了不同的VLAN,同時(shí)又將主、備switch之間改成通過(guò)兩個(gè)口連接,并劃分在一種channelgroup里,當(dāng)時(shí)碰到的一種狀況是:

1)當(dāng)時(shí)IBM服務(wù)器的主網(wǎng)卡從缺省VLAN0到VLAN6實(shí)現(xiàn)遷移時(shí),網(wǎng)絡(luò)將出現(xiàn)15秒~30秒的瞬斷

2)當(dāng)時(shí)主、備交換機(jī)之間的channelgroup工作不正常,鏈路不通。

當(dāng)1)發(fā)生時(shí),IBM雙機(jī)發(fā)生主、備網(wǎng)卡倒換,但由于2)的問(wèn)題,造成IBM主機(jī)無(wú)法與SIU建鏈。

問(wèn)題排查及建議:

1)

建議開(kāi)局時(shí)一定要做雙網(wǎng)雙平面中一種平面的swith發(fā)生掉電的故障測(cè)試

2)

建議一定要做主、備交換機(jī)之間的設(shè)備之間的網(wǎng)絡(luò)互訪(fǎng)測(cè)試,確保暢通

3)

盡量不要在白天在switch上進(jìn)行配備修改,如果需要修改,也要在晚上進(jìn)行,并有嚴(yán)格的方案

軟件故障:

1.網(wǎng)絡(luò)擁塞

由于系統(tǒng)在封閉網(wǎng)絡(luò)中運(yùn)行,因此發(fā)生網(wǎng)絡(luò)擁塞的可能性比較小,但如果網(wǎng)絡(luò)拓?fù)浔容^復(fù)雜的話(huà),也可能發(fā)生這種狀況,在主機(jī)上的體現(xiàn)為ping主機(jī)丟包嚴(yán)重,主機(jī)到SIU之間鏈路時(shí)通時(shí)斷,數(shù)據(jù)包丟失,設(shè)備功效異常。

問(wèn)題排查及建議:

1)

盡量使NT/的機(jī)器從網(wǎng)絡(luò)上隔離出去

2)

如果狀況仍未改善,建議啟動(dòng)SIU應(yīng)急流程

3)

在恢復(fù)呼喊的前提下,使用網(wǎng)絡(luò)工具抓包,找出攻擊源、逐步將設(shè)備恢復(fù)到網(wǎng)絡(luò)。

2.切換失敗

現(xiàn)場(chǎng)碰到過(guò)一種狀況,當(dāng)發(fā)生主、備機(jī)切換時(shí)老是切換不成功,檢查發(fā)現(xiàn)是備機(jī)的主網(wǎng)卡綁定浮動(dòng)IP老是失敗,再進(jìn)一步排查,發(fā)現(xiàn)失敗的因素是備機(jī)主網(wǎng)卡綁定MAX地址失敗,由于IBM雙機(jī)配備時(shí)需要將ServiceIP配備為一種固定的MAC地址,規(guī)則是取主機(jī)主網(wǎng)卡的MAC地址,將最后兩位改為固定的兩個(gè)數(shù)字(規(guī)定與原主網(wǎng)卡地址不同,如定制為89)。但這樣的規(guī)則在現(xiàn)場(chǎng)不成功

問(wèn)題排除:最后修改了HA拓?fù)鋱D中以太網(wǎng)配備中ServiceAdapter配備,去掉MAC地址的配備(置為空),讓后同時(shí)雙機(jī),再進(jìn)行倒換,一切OK

由于網(wǎng)絡(luò)故障出現(xiàn)會(huì)造成遠(yuǎn)程登錄失效,因此無(wú)法進(jìn)行系統(tǒng)維護(hù)。因此建議任何一套IBM服務(wù)器都要配備一種維護(hù)臺(tái)。

OS故障

AIX是一種比較穩(wěn)定的操作系統(tǒng),出現(xiàn)故障普通是人為因素引發(fā)的:

1.

沒(méi)按規(guī)定打OS補(bǔ)丁,如433打了09的補(bǔ)丁造成內(nèi)存泄漏

2.

應(yīng)用程序或數(shù)據(jù)庫(kù)消耗內(nèi)存太多或存在內(nèi)存泄漏造成物理內(nèi)存和pagingspace被耗盡造成系統(tǒng)掛起

3.

人為刪除了重要的目錄或文獻(xiàn),如:/dev、/usr、/bin、/sbin、/etc等

故障排查:

1.查操作系統(tǒng)補(bǔ)丁與否符合規(guī)定(433規(guī)定10以上,規(guī)定5以上)

2.檢查內(nèi)存、pagingspace的使用狀況(使用lsps–a查看使用率要不大于20%)

3.檢查shell命令執(zhí)行時(shí)與否有報(bào)錯(cuò),errpt有無(wú)有關(guān)報(bào)錯(cuò)

HA故障

對(duì)于HA安裝時(shí)出現(xiàn)的故障,猶如步拓?fù)鋱D失敗,規(guī)定檢查下列條款看與否符合規(guī)定:

1.對(duì)于版本的HA一定要打上15以上的補(bǔ)丁,版本的HA規(guī)定打上9以上的補(bǔ)丁

2.網(wǎng)絡(luò)有關(guān)的配備文獻(xiàn)一定要按照安裝手冊(cè)去設(shè)立

3.網(wǎng)絡(luò)ip配備要對(duì)的并且確保物理鏈路暢通

4.全部、版本一律使用原則版

5.不能在同一臺(tái)機(jī)器中同時(shí)安裝原則版或ES版

6.打補(bǔ)丁時(shí)請(qǐng)使用smittyupdate_all方式,不要選擇打全部補(bǔ)丁,由于原則版和ES版的補(bǔ)丁往往在一起,這樣會(huì)造成版本不一致

如果是新開(kāi)局,一定要確保做雙機(jī)倒換測(cè)試并確保成功。

如果在后續(xù)使用中,進(jìn)行了以下操作,后來(lái)再做雙機(jī)切換會(huì)失?。?/p>

1.在主機(jī)上做過(guò)磁陣RAID或共享VG有關(guān)信息的修改,如:增加了新的RAID盤(pán),修改了共享VG的配備

2.在共享VG中增加了新的FS、增加了新LV

3.以上配備或修改只在主機(jī)上進(jìn)行了操作,而未將共享VG信息及時(shí)同時(shí)到備機(jī)

4.備機(jī)即使導(dǎo)入了新的共享VG信

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論