下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一類(lèi)、機(jī)房環(huán)境及物理檢查一、機(jī)房?jī)?nèi)環(huán)境要求溫度與濕度:最正確工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度濕度:8-80%〔在23攝氏度條件下〕如果不是工作在最正確溫度,請(qǐng)注意改善機(jī)房環(huán)境同時(shí)機(jī)房要保證清潔.機(jī)房應(yīng)保持清潔,假設(shè)空氣灰塵過(guò)多,很容易造成資源讀寫(xiě)錯(cuò)誤及磁盤(pán)機(jī)中磁盤(pán)或讀寫(xiě)磁頭毀損.二、電源要求電壓:要求電壓穩(wěn)定,尖峰電壓會(huì)損壞設(shè)備電壓范圍:220V+/-10%,即200-240V,50-60Hz電源功率:視機(jī)器類(lèi)型和系統(tǒng)配置而定電源線:標(biāo)準(zhǔn)的零,地,火三相電,其中零,地電壓不得超過(guò).電源接駁:用符合電流要求的空氣開(kāi)關(guān)或其他設(shè)備和主機(jī)電源線接駁保證計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和ups并建議配備發(fā)電機(jī)組對(duì)于冗于電源的接入,建議采用兩路單獨(dú)輸入.三、硬件檢查]檢查效勞器、磁陣的安裝、電源線、7133和主機(jī)接線符合要求.效勞器狀態(tài)檢查:當(dāng)效勞器處于啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無(wú)信息顯示.當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時(shí),說(shuō)明有硬件告警.可以通過(guò)查詢相關(guān)機(jī)型的ServiceGuide查到相應(yīng)告警原因,情況嚴(yán)重的,那么要立即通知舊M技術(shù)專(zhuān)家進(jìn)行問(wèn)題排查.7133狀態(tài)檢查:磁陣前面板上有7133機(jī)柜的狀態(tài)燈〔與電源燈并排〕和各硬盤(pán)的狀態(tài)燈〔一排小燈,與各硬盤(pán)位置一一對(duì)應(yīng)〕..當(dāng)機(jī)柜的狀態(tài)燈出現(xiàn)橙黃色時(shí),說(shuō)明有硬件告警,此時(shí)要檢查磁柜的電源、接線、硬盤(pán)等.如果有硬件故障那么立即進(jìn)行更換和更正,如果查不出具體問(wèn)題,那么需要聯(lián)系相關(guān)專(zhuān)家進(jìn)一步診斷..當(dāng)硬盤(pán)工作正常時(shí),與各硬盤(pán)對(duì)應(yīng)的硬盤(pán)燈會(huì)呈綠色,如無(wú)讀寫(xiě),那么綠燈一直亮,如該硬盤(pán)有讀寫(xiě)操作,那么綠燈會(huì)不規(guī)那么閃爍,當(dāng)硬盤(pán)損壞時(shí)或SS心路出現(xiàn)問(wèn)題時(shí),那么硬盤(pán)狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1?3秒的頻率有規(guī)律地、不停地閃爍第二類(lèi)、系統(tǒng)日常維護(hù)流程系統(tǒng)啟動(dòng)系統(tǒng)啟動(dòng)正常順序如下:首先對(duì)外設(shè)〔磁盤(pán)陣列、磁帶庫(kù)等〕加電待所有外設(shè)加電自檢完成后,主機(jī)加電正常起機(jī).主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示“ok〞后,才能按白色POWE鍵起機(jī).啟動(dòng)主機(jī)HACM,P啟動(dòng)后可用命令tail-f/tmp/來(lái)檢查啟動(dòng)情況,在HACM床完全啟動(dòng)前不要進(jìn)行下一步.檢查效勞器的網(wǎng)絡(luò)地址,路由表〔可用netstat-i,netstat-rn等〕,檢查文件系統(tǒng),邏輯卷〔可用mount,lsvg-o等〕.檢查各項(xiàng)應(yīng)用是否工作正常.系統(tǒng)關(guān)閉停止HACMP〔smittyclstop〕.查看HACM的狀態(tài),檢查效勞器的網(wǎng)絡(luò)地址,路由表〔可用netstat-i,netstat-rn等〕,檢查文件系統(tǒng),邏輯卷〔可用mount,lsvg-o等〕在HACM床完全停止前不要進(jìn)行下一步.關(guān)閉主機(jī)〔shutdown-F〕.重啟系統(tǒng)可以使用:shutdown-Fr如有必要的話,按磁盤(pán)陣列前方的白色按鈕關(guān)閉磁盤(pán)陣列.
查看系統(tǒng)的錯(cuò)誤記錄在系統(tǒng)運(yùn)行時(shí),一些系統(tǒng)錯(cuò)誤會(huì)記錄在errlog中,其中有些錯(cuò)誤還會(huì)在終端上顯示.檢查錯(cuò)誤日志可用以下命令:#errpt|more查看系統(tǒng)所有的記錄IDIDENTIFIERTIMESTAMPTCRESPTCRESOURCENAMEDESCRIPTIONE85C5C4C09CFGLFTSOFTWAREPROGRAMERROR2BFA72BFA76F609TSHUTDOWNBYUSER9D4CF6E709TSSYSPROCOerrdemonSYSTEMERRORLOGGINGTURNEDON1E2AC07E09TOerrdemonERRORLOGGINGTURNEDOFF1E5EER4T09TOclstrmgrOPERATORNOTIFICATION其中IDENTIFIER為錯(cuò)誤編號(hào),當(dāng)需要檢查詳細(xì)信息時(shí)常會(huì)用到.TIMESTAMP%時(shí)間標(biāo)簽,它記錄的是出錯(cuò)時(shí)間,其格式:月月日日時(shí)時(shí)分分年年T為T(mén)ype,它記錄的是錯(cuò)誤類(lèi)型P:為永久錯(cuò)誤,需引起注意T:為臨時(shí)錯(cuò)誤.C為Class,它記錄的是錯(cuò)誤種類(lèi),如
H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAME為錯(cuò)誤來(lái)源DESCRIPTIONS錯(cuò)誤描述#errpt-aj〈IDENTIFIER?查看系統(tǒng)詳細(xì)記錄內(nèi)容其中IDENTIFIER為錯(cuò)誤編號(hào),如#errpt-aj09#e#errpt-dH查看系統(tǒng)所有的硬件出錯(cuò)記錄系統(tǒng)與數(shù)據(jù)備份有效及時(shí)的系統(tǒng)備份是系統(tǒng)治理的非常重要的一環(huán).當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤(pán)損壞時(shí),常需要使用系統(tǒng)備份來(lái)恢復(fù)系統(tǒng).在以下情況下應(yīng)做系統(tǒng)備份:1、新裝機(jī).在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份.2、軟件改動(dòng).系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份.3、定期備份.對(duì)系統(tǒng)進(jìn)行定期備份,最好每?jī)苫蛉齻€(gè)月做一次備份備份考前須知:進(jìn)行系統(tǒng)備份無(wú)須停止業(yè)務(wù),業(yè)務(wù)可以繼續(xù)進(jìn)行.建議客戶進(jìn)行定期的系統(tǒng)備份〔使用命令smittymksysb〕.客戶也可根據(jù)需要利用SMIT對(duì)系統(tǒng)的特定的VG或FS進(jìn)行備份.smittymksysb只備份rootvg中mount起來(lái)的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒(méi)有做備份,所以數(shù)據(jù)備份需要另外完成〔建議客戶使用TAR&式〕在條件允許的情況下,最好有一盤(pán)以上備份帶,以預(yù)防磁帶損壞.系統(tǒng)備份過(guò)程中有時(shí)候會(huì)提示有些/tmp目錄下的文件無(wú)法備份,顯示如下:Creatinglistoffilestobackup...Backingup34025files1694of34025files(4%)2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.15458of34025files(45%)31920of34025files(93%)0512-003mksysbmaynothavebeenabletoarchivesomefiles.ThemessagesdisplayedontheStandardErrorcontainedadditionalinformation.這是正?,F(xiàn)象,備份成功系統(tǒng)恢復(fù)當(dāng)系統(tǒng)發(fā)生比擬嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶進(jìn)行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最近一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi).至此,系統(tǒng)可恢復(fù)正常運(yùn)行.此后,客戶應(yīng)當(dāng)與舊M工程師再進(jìn)行整個(gè)事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)舉措以杜絕類(lèi)似事件再次發(fā)生.DUMP當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障導(dǎo)致系統(tǒng)down機(jī)時(shí),機(jī)器的液晶顯示器會(huì)出現(xiàn)888102xxx0c0〔xxx可能為700或其它〕,AIX常會(huì)將當(dāng)時(shí)系統(tǒng)的運(yùn)行情況記錄下來(lái),這就是DUMP當(dāng)DUMP^生后,請(qǐng)將磁帶放入磁帶機(jī),用命令#snap-a-o/dev/rmt0將DUM改件拷貝到磁帶設(shè)備/dev/rmt0中.注明磁帶機(jī)的blocksize,DUM產(chǎn)生的日期和機(jī)器的型號(hào)及序列號(hào).同時(shí),請(qǐng)用#errpt-a>/tmp/將errorlog記在/tmp/中,并將/tmp/和/tmp/hacmp.*拷貝到軟盤(pán)或磁帶上.將磁帶和軟盤(pán)交給舊M工程師.日常檢查效勞器狀態(tài)的工程及其相關(guān)命令1運(yùn)行l(wèi)sdev命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應(yīng)為Available.#lsdev-C-H-Sa列出系統(tǒng)中可用設(shè)備.#lsdev-Ccprocessor列出系統(tǒng)中的所有CPU
#lsdev—C#lsdev—Ccmemory列出系統(tǒng)中的所有內(nèi)存.#lsdev-Ccdisk列出系統(tǒng)中的所有硬盤(pán).#lsdev-Ccadapter|grepent列出系統(tǒng)中的所有網(wǎng)卡#lsdev-Ccadapter|grepscsi列出系統(tǒng)中的所有SCSI卡.#lsdev-Ccadapter|grepssa列出系統(tǒng)中的所有SSA卡.2lspv命令#lspv顯示系統(tǒng)中可用的#lspv#lsp#lspvhdiskn顯示hdiskn的具體信息.#lsdev-Ccpdisk顯示磁盤(pán)陣列的硬盤(pán)的具體信息.對(duì)SSA硬盤(pán)的檢測(cè):在對(duì)主機(jī)進(jìn)行工作之前可以先把磁盤(pán)陣列上電,等主機(jī)完機(jī)完全啟動(dòng)后,登錄到主機(jī)上,運(yùn)行以下命令〞lsdev—Ccpdisk應(yīng)該可以看到所有SSA硬盤(pán),并且狀態(tài)應(yīng)為Available.Isattr命令#Isattr-E-lmem0列出系統(tǒng)中內(nèi)存mem0勺大小,本工程中內(nèi)存有4GB4lsvg命令#lsvg列出系統(tǒng)中所有的#lsvg#l#lsvgrootvg列出rootvg的詳細(xì)信息列出激列出激活的vg#oslevel顯示操作系統(tǒng)版本信息#lsvg—o5oslevel命令netstat命令#netstat-in顯示系統(tǒng)中各網(wǎng)卡的配置.可查看網(wǎng)卡的IP配置好了沒(méi)有.#diag命令運(yùn)行硬件診斷程序檢測(cè)主機(jī)內(nèi)所有硬件,檢測(cè)結(jié)果為“Notroublefound〞顯示各局部工作正常.使用#diag命令〔選擇:TaskSelection-〉SSAServiceAids〕對(duì)SSAM盤(pán)鏈路連接的校驗(yàn),可以通過(guò)SSA工具里的LinkVerification來(lái)檢測(cè).如有必要,可以用CertifyDisk運(yùn)行硬盤(pán)診斷局部進(jìn)行硬盤(pán)的外表分析測(cè)試,由1%至100%檢測(cè)結(jié)果顯示主機(jī)內(nèi)置硬盤(pán)的所有扇區(qū)均讀寫(xiě)正常.lsps-a查看PAGINGSPACE使用情況,如果使用率超過(guò)70%就需要采取舉措Isvg-o|Isvg-il|grep-istale查看有無(wú)stale的Iv,如果輸入該命令之后有輸出結(jié)果,就需要采取舉措有否發(fā)給root用戶的錯(cuò)誤報(bào)告(mail).檢查雙機(jī)狀態(tài):lssrc-gcluster檢查ha三個(gè)工作進(jìn)程是否激活,/usr/sbin/cluster/clstat-a檢查雙機(jī)狀態(tài)是否up,并檢查日志,看是否有異常信息.用vmstat,topas,sar命令檢查系統(tǒng)性能,檢查cpu\memoyr\IO,是否存在性能瓶頸.檢查能否順利進(jìn)入CDE^W,如果不能進(jìn)入的話,要檢查/etc/hosts表中有否錯(cuò)誤的工程.用smittyssaraid查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)是否是Good如果是degrade或其他狀態(tài)表示RAID盤(pán)出現(xiàn)問(wèn)題了用sysdumpdev-l查看系統(tǒng)的DUM股置是否正常.用insfix-ik|grepML當(dāng)前操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)是否滿足穩(wěn)定運(yùn)行的需要.一般要求433操作系統(tǒng)補(bǔ)丁要打到10以上,操作系統(tǒng)補(bǔ)丁要打到5以上使用df-kP查看磁盤(pán)空間占用率,請(qǐng)保證以下文件系統(tǒng)的占用率高于80%:即上報(bào):性能監(jiān)控與調(diào)優(yōu)通過(guò)命令vmstat1來(lái)觀察.
kthrmemorypagefaultscpurbavmfrerepipofrsrcyinsycsussyidwa命令解析:vmstat命令的輸出可以反映系統(tǒng)整體運(yùn)行狀況,包括cpu、內(nèi)存、虛擬頁(yè)面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用情況.檢查CPU^否為瓶頸,分別檢查CPU勺四項(xiàng)數(shù)值和kthr的兩項(xiàng)數(shù)值.檢查ME皿否為瓶頸,分別檢查Memory的兩項(xiàng)數(shù)值和Page的六項(xiàng)數(shù)值.通過(guò)命令sar-mu-PALL來(lái)觀察.命令解析:sar可以用來(lái)收集反映系統(tǒng)運(yùn)行狀況,在這里主要是查看CPU勺運(yùn)行X犬況,CPU^否負(fù)載均衡,是否存在分配不均的情況.通過(guò)命令psgv|more來(lái)觀察.PIDTTYSTATTIMEPGINPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND0-A4:2071214516xx014504swapper1-A1:331037895279044327682536/etc/ini命令解析:ps可以用來(lái)查看進(jìn)程的當(dāng)前狀態(tài).在這里通過(guò)參數(shù)的配搭,可以觀察目前正在運(yùn)行的進(jìn)程所耗的時(shí)間,CPU和memory量.其中,%CPUt示進(jìn)程所占用的CPUS源情況,%MEME示進(jìn)程所占用的內(nèi)存情況.主要檢查是否有標(biāo)示為<defunc>的僵尸進(jìn)程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫(kù)的oninit進(jìn)程的系統(tǒng)消耗情況.在機(jī)器上用dd命令進(jìn)行磁盤(pán)陣列的寫(xiě)操作校驗(yàn),與此同時(shí)用iostat1-dhdiskX觀察磁盤(pán).Disks:%tm_actKbpstpsKb_readKb_wrtn命令解析:iostat可以用來(lái)查看系統(tǒng)的I/O的輸入輸出情況,在這里主要查看陣列上的硬盤(pán)的每秒讀寫(xiě)量,同時(shí)估算磁盤(pán)陣列讀寫(xiě)速度HHhHhh通過(guò)通過(guò)命令netstat-a進(jìn)行查看ActiveInternetconnections(includingservers)ProtoRecv-QSend-QLocalAddressForeignAddress(state命令解析:netstat可以用來(lái)查看系統(tǒng)的網(wǎng)絡(luò)情況,在這里主要是查看網(wǎng)絡(luò)客戶端連接的情況和開(kāi)銷(xiāo),檢查參數(shù)為state,如有死連接,state狀態(tài)為巾n_wait,這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而導(dǎo)致網(wǎng)絡(luò)性能下降構(gòu)成瓶頸.平安工作守那么a.系統(tǒng)定期進(jìn)行系統(tǒng)備份,系統(tǒng)盤(pán)建議鏡像.b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份.c.在7133和shark發(fā)現(xiàn)有硬盤(pán)故障的時(shí)候,請(qǐng)?zhí)嵝芽蛻糇⒁猱?dāng)天的數(shù)據(jù)備份.在更換硬盤(pán)的時(shí)候,請(qǐng)確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完成.d.在更換敏感的電子元件,時(shí)候一定要防靜電.e.在插拔外圍設(shè)備的時(shí)候,請(qǐng)把外圍設(shè)備下電.f.在進(jìn)行主機(jī)微碼升級(jí)時(shí)候,請(qǐng)留意微碼的完整性.g.在進(jìn)行文件刪除的時(shí)候,請(qǐng)留意當(dāng)前路徑是否正確.h.在進(jìn)行文件解壓縮的時(shí)候,請(qǐng)留意參數(shù)和路徑.維護(hù)在日常維護(hù)中碰到問(wèn)題和疑難,可以致電:IBM免費(fèi)技術(shù)支持保修熱線:800-810-66770100客戶技術(shù)咨詢熱線:800-810-1818IBM廣州分公司聯(lián)系:[本帖最后由mfkqwyc86于2021-11-412:32編輯],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,7TfffjTTfjiiTTTTufiTTufiTTuuTTTTnuTTnnTT'ii11TTTTn11TT'fifiTTTnTTTTT1111TT7T7TTr7TTTTTTT7T7T7TT>ititTTii11TTTTTTTTTrnnTiTiffTiTiffTiTiTiffTiTiffTiTiffTiTiTiffTiTiffTiTiffTiTiTiffTiTiffTiTiffTiTiTiffTiTiffTiTiffTiTiTiffTiTiffTiTiffTiTiTiffTiTT^iTi################################君子務(wù)本,本立而道生.mfkqwyc86,飛鷹工作室ITPUT個(gè)人空間:0[OracleRACLinux+Oracle11gR2RAC安裝配置詳細(xì)過(guò)程02.[OracleRAC]OracleRAC更改VIPIP地址_2節(jié)點(diǎn)的實(shí)驗(yàn)03.[OracleRACOracleRACi除一個(gè)節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)04.【OracleRACOracleRAG曾力口一個(gè)節(jié)點(diǎn)_3節(jié)點(diǎn)的實(shí)驗(yàn)05.[OracleRAC+DGOracleRAC+ASM+DataGuard置實(shí)驗(yàn)t己錄06.[OracleRACOracleRACCRSOCRVoting破壞重建07.[Oracle表分區(qū)治理】OraclePartition表分區(qū)與分區(qū)索引幾種方式的實(shí)驗(yàn)操作08.【IBMDB2表空間治理】db2表空間治理一實(shí)例講解之精華09.[IBMDB2補(bǔ)丁升級(jí)】從升級(jí)到DB210.【中間件資料下載匯總】WebSphere,MQ,Portal,WebLogic資料下載匯總【PDF格式-共51類(lèi)】只看該作者命mfkqw#2yc86使用道具發(fā)表于2021-發(fā)表于2021-11-412:22作室跟貼說(shuō)明:
數(shù)1個(gè)人空問(wèn)400技術(shù)積分826〔3079〕社區(qū)積分2數(shù)1個(gè)人空問(wèn)400技術(shù)積分826〔3079〕社區(qū)積分28〔9086〕注冊(cè)日期2007-428論壇徽章:1自己遇到過(guò)的錯(cuò)誤問(wèn)題,及解決方法?。〉谌?lèi)、故障定位、故障排除根據(jù)我們?cè)趯?shí)際商用系統(tǒng)中碰到問(wèn)題,我們總結(jié)出了以下幾種常見(jiàn)故障及其定位方式和解決方法.硬件故障硬件故障有很多種,對(duì)系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對(duì)系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類(lèi)進(jìn)行硬件分類(lèi):其損壞對(duì)系統(tǒng)產(chǎn)生致命影響〔將使機(jī)器宕機(jī)或無(wú)法啟動(dòng)〕的硬件包括:主板、CPUI/O柜〔包含本地盤(pán)、光驅(qū)、PCI插槽等的柜子〕或CEC巨〔包含CPU/MEMOIO的柜子〕、I/O柜與CEC巨的接線、電源模塊、風(fēng)扇、本地硬盤(pán)、內(nèi)存損壞等等注:I/O柜和CEC巨一般在比擬高端的小型機(jī)才有,如M80低端的是合一的.這些設(shè)備的損壞等將使系統(tǒng)無(wú)法完成自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對(duì)照ServiceGuide查的錯(cuò)誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,那么系統(tǒng)將被掛起或宕機(jī).其損壞對(duì)僅對(duì)系統(tǒng)產(chǎn)生功能影響〔機(jī)器不會(huì)宕機(jī)并能正常啟動(dòng)〕的硬件包括:網(wǎng)卡、本地硬盤(pán)有壞塊、顯卡、SS/卡和其他外圍設(shè)備這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問(wèn)磁陣的功能等,對(duì)于本地硬盤(pán)有壞塊的情況,那么要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,那么系統(tǒng)功能不受影響,但也建議立即更換該硬盤(pán).故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯(cuò)誤碼或:errpt-dH查看到根據(jù)錯(cuò)errpt-dH查看到障,對(duì)商用系統(tǒng)來(lái)講,由于是雙機(jī)系統(tǒng),如果損壞機(jī)器是主機(jī)可以將此效勞器切換成備機(jī),然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng).磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70犯上,具體來(lái)講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤(pán)、7133柜子、主機(jī)上的SSA卡、連接7133與主機(jī)的SSA線、硬盤(pán)白位置和ssa線的接線方式、以及盤(pán)柜使用的電壓及周?chē)艌?chǎng)、磁陣/硬盤(pán)/ssa卡的微碼等都可能造成7133的異常.7133磁陣的問(wèn)題是最復(fù)雜的,一般有物理?yè)p壞的原因也有環(huán)境原因,這是主因,如接線、插盤(pán)位置不符合要求、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因.按照我們的經(jīng)驗(yàn),不管是什么硬件故障導(dǎo)致7133故障,系統(tǒng)都會(huì)產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問(wèn)題并采取舉措,一般都能預(yù)防故障的發(fā)生.故障定位:7133硬件故障也可以使用:errpt-dH查看到伴隨的錯(cuò)誤碼有:B4C0061804PHssa0RESOURCEUNAVAILABLEFE9E935704PHssa0DISKOPERATIONERRORFE9E935703PHpdisk3DISKREOPERATIONRROR03913B9403UHLVDDHARDWREDISKBLOCKRELOCATIONACHIEVED613E5F3803PHLVDDI/OERRORDETECTEDBYLVM625E6B9A04PHssa0ADAPTERDETECTEDOPENSERIALLINK26CA120B04PHssa0CACHESTORAGECARD所有的錯(cuò)誤碼都預(yù)示著7133有異常,紅色局部那么表示肯定出現(xiàn)了硬件故障,需要立即進(jìn)行檢查并采取舉措,否那么磁陣將很快不能訪問(wèn).對(duì)于藍(lán)色局部:625E6B9A04PHssa0ADAPTERDETECTEDOPENSERIALLINK表示ssa出現(xiàn)了開(kāi)環(huán),出現(xiàn)開(kāi)環(huán)不僅影響IO性能,也增加了風(fēng)險(xiǎn),即如果另一個(gè)環(huán)路也出現(xiàn)問(wèn)題,將不能訪問(wèn)磁陣.開(kāi)環(huán)一般有兩種情況:1〕如果625E6B9A?錯(cuò)比擬頻繁,如每天幾次,那么表示系統(tǒng)很有可能出了硬件故障,雖然不會(huì)導(dǎo)致訪問(wèn)磁陣失敗,但需要立即查出原因并解決.查錯(cuò)方法可以參考下面的描述.2〕如果625E6B9A錯(cuò)誤偶爾報(bào)一次,那么要具體情況具體對(duì)待,有可能是讀寫(xiě)忙出現(xiàn)的誤報(bào),也按下面方法進(jìn)行排查,如果沒(méi)有查出具體的原因,那么可以繼續(xù)觀察.26CA120B04PHssa0CACHSTORAGEARD該錯(cuò)誤一般是在:SSA卡帶writecache并翻開(kāi)FastWrite,而ssa卡上用于writecache供電的可充電鍥鎘電池到達(dá)或接近平安壽命的情況下產(chǎn)生的.這類(lèi)錯(cuò)誤產(chǎn)生將影響IO寫(xiě)性能,并且由于在FastWrite翻開(kāi)的情況下,主備機(jī)需要同步ssa卡上的writecache,所以甚至?xí)绊懙街鱾錂C(jī)同步.具體解決方法可參考下文.故障排除:對(duì)于紅色局部錯(cuò)誤的問(wèn)題排除,一般可以使用diag命令進(jìn)行進(jìn)一步診斷:#diag->TaskSelection->SSAServiceAids->LinkVerification檢查環(huán)路中是否出現(xiàn)了的盤(pán)符或狀態(tài)不是good的硬盤(pán)或使用:#smittyssaraid->ListAllDefinedSSARAIDArrays查看磁盤(pán)陣列RAID盤(pán)的狀態(tài)是否是Good如果是degrade或其他狀態(tài)表示RAID盤(pán)出現(xiàn)問(wèn)題了這時(shí)候不建議再進(jìn)行單獨(dú)硬盤(pán)的Certify,而是趕緊通知舊M準(zhǔn)備好相同型號(hào)和大小的硬盤(pán)〔至少兩塊〕到現(xiàn)場(chǎng)進(jìn)行進(jìn)一步的診斷和壞盤(pán)更換.625E6B9A04PHssa0ADAPTERDETECTEOPENSERIALLINK的排查方法:1、要求將7133中未插硬盤(pán)的槽位全部插上dummy!.〔dummy盤(pán):?jiǎn)≡P(pán),就是那個(gè)空殼子,相當(dāng)于代替SSA?盤(pán)裝在磁盤(pán)陣列的塑料模型,當(dāng)磁盤(pán)陣列的16個(gè)槽位沒(méi)有被SSA硬盤(pán)插滿時(shí)才用到.〕2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification,正常AdapterPort下的兩列數(shù)字是連續(xù)不間斷的排歹!J,且Status都為good,如果Physical列有符號(hào),或Status不是good,那么說(shuō)明已經(jīng)存在硬盤(pán)或鏈路故障,這種情況那么要立即采取行動(dòng),做進(jìn)一步檢查以確定是否要更換硬盤(pán).檢查單盤(pán)是否有問(wèn)題的方法如下:diag>TaskSelection-->SSAServiceAids-->CertifyDisk選擇認(rèn)為存在故障的硬盤(pán)進(jìn)行檢查3、如果7133存在硬件故障時(shí),可從狀態(tài)燈上觀察到:當(dāng)單塊硬盤(pán)出現(xiàn)故障或未被使用時(shí),其面板上的硬盤(pán)狀態(tài)燈會(huì)不亮陣列的狀態(tài)燈黃燈會(huì)亮或接SSAy勺端口的指示燈也會(huì)熄滅如果通過(guò)以上三種方法都未發(fā)現(xiàn)問(wèn)題,而系統(tǒng)仍報(bào)OpenSerialLink錯(cuò)誤,建議繼續(xù)跟蹤.26CA120B04PHssa0CACHESTORAGECARD的處理方法:背景介紹:舊M小型機(jī)上連接7133磁陣所配置的SSA卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下保護(hù)ssa卡上的fastwritecache中的信息不喪失,這塊電池的平安壽命一般是22000小時(shí),差不多兩年半的時(shí)間,也就是說(shuō),當(dāng)fastwrite模式啟動(dòng)的情況下,一般兩年半以后需要更換這塊電池.問(wèn)題表現(xiàn):對(duì)ssa卡上的電池保護(hù)是通過(guò)卡上的一個(gè)計(jì)數(shù)器實(shí)現(xiàn)的,每運(yùn)行一小時(shí)該計(jì)數(shù)器會(huì)增加一,當(dāng)該計(jì)數(shù)接近或超過(guò)22000時(shí),系統(tǒng)會(huì)有26CA120EBM件報(bào)警:GE26CA120B04PHssa1CACHESTORGECARD可以用如下命令檢查ssa卡上的狀態(tài):〔-a后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0〕ssa_fw_status-assa0-p〔檢查電池已經(jīng)工作的時(shí)間,小時(shí)為單位〕ssa_fw_status-assa0-l〔檢查電池安全工作壽命,小時(shí)為單位〕ssa_fw_status-assa0-c〔檢查ssa卡上的fastwrite功能是否被激活〕處理步驟:〔按優(yōu)選方式列出,從中選擇一種即可〕1〕更換電池選擇系統(tǒng)閑時(shí),更換主備機(jī)ssa卡電池,可以采用:停備機(jī)—?更換備機(jī)ssa卡電池―?起備機(jī)〔雙機(jī)效勞〕—?主備倒換一?停原主機(jī)—?更換原主機(jī)ssa卡電池—?起原主機(jī)〔雙機(jī)效勞〕2〕如果系統(tǒng)出現(xiàn)26CA120B6池告警,使用ssa_fw_status-assa0-c檢查主用ssa卡〔一般是ssa0〕的FastWrite是否處于inactive〔未被激活〕狀態(tài),如果是,那么以root執(zhí)行如下命令:ssa_format-lssa0-berrclear0/usr/lib/errstop/usr/lib/errdemon可以暫緩更換電池時(shí)間,等有電池后再更換,但這段時(shí)間對(duì)磁陣讀寫(xiě)性能會(huì)有所影響.3〕如果短期內(nèi)不能更換電池,同時(shí)主機(jī)主用卡的FastWrite仍然處于Active狀態(tài),建議手工屏蔽fastwrite功能1〕先停止雙機(jī)2〕在1號(hào)機(jī)修改hdisk該屬性:smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]3〕在1號(hào)機(jī)激活卷組varyonvgzxinvg4〕在1號(hào)機(jī)去激活卷組varyoffvgzxinvg5〕在2號(hào)機(jī)上執(zhí)行smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]檢查fastwrite是否已經(jīng)改為no〔只要1號(hào)機(jī)做了2好機(jī)就不用再修改了〕6〕在2號(hào)機(jī)上執(zhí)行rmdev-dlhdisk2cfgmgr-v7)在2號(hào)機(jī)上執(zhí)行l(wèi)spv(查看hdisk2是否已找到)8)然后執(zhí)行varyonvgzxinvgvaryoffvgzxinvg9)重新啟動(dòng)雙機(jī)B4c0061804PHssa0RESOURCEUNAVAILABLE而不伴隨其他紅色標(biāo)出錯(cuò)誤的情況,那么通過(guò)以下方式排查:可能是hdisk中將‘enableuserofhotspare'翻開(kāi)了,而實(shí)際并沒(méi)有配置hotspare盤(pán),可以通過(guò)如下方式解決:檢查RAID的狀態(tài):#smittyssaraidlistalldefinedSSARAIDarrays:allareinstatusgood(ssa0)檢查是否配置了hotspare:list/identifySSAPhysicaldisks-->Listhotspares:none修改每個(gè)ssa卡所配置的hdisk的屬性::setTOC\o"1-5"\h\z"enableuseofhotspare"to"no"然后再執(zhí)行:#/usr/lib/errstop#cp/var/adm/ras/errlog/var/adm/ras/#/usr/lib/errdemon\o"CurrentDocument"#errclear0對(duì)于物理硬盤(pán)的接法可參考如下說(shuō)明:(有可能老局未配置hotspare,那么連線方法按未配置hotspare盤(pán)的個(gè)數(shù)計(jì)算)分以下幾種情況講述:1)數(shù)據(jù)盤(pán)小于等于6塊,建議配置一塊hotspare2)數(shù)據(jù)盤(pán)大于等于8塊小于等于10塊,建議配置兩塊hotspare3)數(shù)據(jù)盤(pán)大于等于12塊小于等于14塊,建議配置兩塊hotsparel數(shù)據(jù)盤(pán)小于等于6塊,配置一塊hotspare的接線和配置規(guī)那么:a)主機(jī)A1、A2接磁陣1、8位置;備機(jī)A1、A2接磁陣4、5位置b)保證磁陣前排1\4\5\8硬盤(pán)位置一定要插盤(pán),其余的盤(pán)可以挑空位插,
注意1-4、5-8兩側(cè)的數(shù)據(jù)盤(pán)保持軸對(duì)稱關(guān)系插入(如1和8是軸對(duì)稱的、4和5是軸對(duì)稱的)c)沒(méi)有插硬盤(pán)的位置一定要插上dumm溫d)做RAID計(jì)1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-4、pdisk05-8以軸對(duì)稱方式一一對(duì)應(yīng)做硬盤(pán)鏡像,舉例如下:ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,所以必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并記錄下來(lái)pdisk0Available-PSSA160PhysicalDiskDrivepdisk1Available-PSSA160PhysicalDiskDrivepdisk2Available-PSSA160PhysicalDiskDrivepdisk3Available-PSSA160PhysicalDiskDrive看第三列中間字符中有-01-的字樣,表示其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表示pdisk0-pdisk3對(duì)應(yīng)的物理槽位分別是前排1\5\4\8的位置,所以在使用smittyssaraid做RAID0+1時(shí),需將1\8位置的硬盤(pán)(pdisk0/pdisk3)做成鏡像、4\5位置的硬盤(pán)(pdisk2/pdisk1)做成鏡像,所以選擇PrimaryDisks/SecondaryDisks時(shí)如下:smittyssaraid->AddanSSARAIDArray->...PrimaryDisks[需要選擇:pdisk0pdisk2]--1\4槽位的硬盤(pán)作為主盤(pán)SecondaryDisks[需要選擇:pdisk3pdisk1]--8\5槽位的硬盤(pán)作為從盤(pán)該要求只是從性能考慮,并不增加其他特性.e)hotspare盤(pán)插入位置可以找前排8個(gè)位置中的空位插入即可.無(wú)特殊位置要求,制作方法如下:使用lsdev-C|greppdisk方式找出其pdisk號(hào),如pdisk5然后使用如下方式將其做成hotspare盤(pán).smittyssaraid->ChangeUseofMultipleSSAPhysicalDisks->選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)->選擇彳^為hotspare的pdisk,如pdisk6->Use->選擇hotspare接回車(chē)創(chuàng)立即可l數(shù)據(jù)盤(pán)大于等于8塊小于等于10塊,配置兩塊hotspare的接線和配置規(guī)那么:a)主機(jī)A1、A2接磁陣1、12位置;備機(jī)A1、A2接磁陣8、9位置b)保證磁陣前排1-8位置插滿數(shù)據(jù)盤(pán),9-12位置的數(shù)據(jù)盤(pán)和hotspare盤(pán)位置可任意.c)沒(méi)有插硬盤(pán)的位置一定要插上dummyad)做RAID計(jì)1時(shí),考慮到性能問(wèn)題,tf將1-4、5-8以軸對(duì)稱方式一一對(duì)應(yīng)做硬盤(pán)鏡像,9-12位置中有數(shù)據(jù)盤(pán)的,將其對(duì)應(yīng)做鏡像,其余兩塊做hotspare,舉例如下:ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,所以必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并記錄下來(lái),如:pdisk0Available-PSSA160PhysicalDiskDrivDrivepdisk1DiskDrivepdisk2PhysicalDiskDriveSSA160PhysicalDiskDrive-PSSA160PhysicalDiskDrivepdisk5DiskDrivepdisk6PhysicalDiskDriveSSA160PhysicalDiskDrive-PSSA160PhysicalDiskDrivepdisk9DiskDrivepdisk10PhysicalDiskDriveSSA160PhysicalDiskDriveAvailable-PSSA160PhysicalAvailable-PSSA160Available-Ppdisk4AvailableAvailable-PSSA160PhysicalAvailable-PSSA160Available-Ppdisk8AvailableAvailable-PSSA160PhysicalAvailable-PSSA160pdisk11Available-P看第三列中間字符中有pdisk3pdisk7-01-的字樣,表示其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表示pdisk0-pdisk11對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12的位置,所以在使用smittyssaraid做RAID0+1時(shí),前面八塊盤(pán)按1-4、5-8軸對(duì)稱方式對(duì)應(yīng)做mirror,9-12中如選擇9(pdisk8)/12(pdisk11)位置做mirror所以選擇PrimaryDisks/SecondaryDisks時(shí)如下:smittyssaraid->AddanSSARAIDArray->…PrimaryDisks[選擇:pdisk0pdisk4pdisk5pdisk2pdisk8]物理1-4,9槽位SecondaryDisks[選擇:pdisk3pdisk6pdisk7pdisk1pdisk11]物理8-5,12槽位該要求只是從性能考慮,并不增加其他特性.e)剩余物理位置10(pdisk10)/11(pdisk9)盤(pán)做成hotspare,方法同上e)步驟l數(shù)據(jù)盤(pán)大于等于12塊小于等于14塊,配置兩塊hotspare的接線和配置規(guī)那么:a)主機(jī)A1、A2接磁陣1、16位置;備機(jī)A1、A2接磁陣8、9位置b)空出3、14位置插hotspare,如果是12塊數(shù)據(jù)盤(pán),空出2、15位置插dummy^,其余都插入數(shù)據(jù)盤(pán);如果是14塊數(shù)據(jù)盤(pán),那么將剩余的14個(gè)位置全部插上數(shù)據(jù)盤(pán)c)做RAID計(jì)1時(shí),考慮到性能問(wèn)題,請(qǐng)將1-8、9-16以軸對(duì)稱方式一一對(duì)應(yīng)做硬盤(pán)鏡像,hotspare也滿足軸對(duì)稱關(guān)系,舉例如下:ibm對(duì)pdisk的排序與實(shí)際的物理位置是不同的,所以必須先通過(guò)lsdev-C|greppdisk的方式找出其對(duì)應(yīng)關(guān)系并記錄下來(lái),如:pdisk0Available-PSSA160PhysicalDiskDrivepdisk1Available-PSSA160PhysicalDiskDrivepdisk2Available-P-PSSA160PhysicalDiskDrivepdisk3DiskDrivepdisk4Available-PSSA160PhysicalAvailable-PSSA160PhysicalDiskDrivepdisk5Available-PSPhysicalDiskDrivepdisk5Available-PSSA160PhysicalDiskDrivepdisk6Available-PSSA160PhysicalDiskDrivepdisk7Available-PSSA160PhysicalDiskDrivepdisk8Available-PSSA160PhysicalDiskDrivepdisk9Available-PSSA160PhysicalDiskDrivepdisk10Available-PSSA160PhysicalDiskDrivepdisk11Available-PSSA160PhysicalDiskDrivepdisk12Available-PSSA160PhysicalDiskDrivepdisk13Available-PSSA160PhysicalDiskDrivepdisk14Available-PSSA160PhysicalDiskDrivepdisk15Available-PSSA160PhysicalDiskDrive看第三列中間字符中有-01-的字樣,表示其物理硬盤(pán)位置,以上對(duì)應(yīng)關(guān)系表示pdisk0-pdisk15對(duì)應(yīng)的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,所以在使用smittyssaraid做RAID0+1時(shí),以1-8、9-16以軸對(duì)稱創(chuàng)立mirror所以選擇PrimaryDisks/SecondaryDisks時(shí)如下:smittyssaraid->AddanSSARAIDArray->...PrimaryDisks[選擇:pdisk0pdisk4pdisk2pdisk1pdisk7pdisk6pdisk3]物理1-8槽位,除3位置以外SecondaryDisks[選擇:pdisk12pdisk14pdisk13pdisk11pdisk9pdisk10pdisk8]物理16-9槽位,除14位置以外該要求只是從性能考慮,并不增加其他特性.剩余物理位置3(pdisk5)/14(pdisk15)盤(pán)做成hotspare,方法同上e)步驟網(wǎng)絡(luò)故障由于我們應(yīng)用對(duì)網(wǎng)絡(luò)依賴很強(qiáng),所以當(dāng)網(wǎng)絡(luò)出現(xiàn)全阻或瞬斷都將對(duì)系統(tǒng)產(chǎn)生重大影響,網(wǎng)絡(luò)故障一般可分為硬件故障〔如網(wǎng)卡故障和交換機(jī)、路由器故障〕和軟件故障〔網(wǎng)絡(luò)中有IP包攻擊或網(wǎng)絡(luò)擁塞〕兩種情況.硬件故障:1.網(wǎng)卡對(duì)于網(wǎng)卡故障,由于商用系統(tǒng)中都是采用舊M的HA雙機(jī)系統(tǒng),而且每臺(tái)機(jī)器都配置有至少兩塊網(wǎng)卡,所以當(dāng)單塊網(wǎng)卡或網(wǎng)線出現(xiàn)問(wèn)題時(shí),HA軟件都將采取舉措實(shí)現(xiàn)ServiceIP切換.網(wǎng)卡故障定位方法:使用errpt-dH可查看到網(wǎng)卡效勞中斷的錯(cuò)誤,再使用diag進(jìn)行網(wǎng)卡診斷網(wǎng)卡故障排查方法:如果診斷出網(wǎng)卡有問(wèn)題,那么關(guān)閉系統(tǒng)后進(jìn)行更換.〔如果是主機(jī),那么先手工切換為備機(jī)后再操作〕2.交換機(jī)我們的網(wǎng)絡(luò)一般都采取雙網(wǎng)雙平面的結(jié)構(gòu),所以當(dāng)一個(gè)網(wǎng)絡(luò)平面的交換機(jī)出現(xiàn)問(wèn)題時(shí),也不會(huì)中斷網(wǎng)絡(luò)效勞,但值得重視的是:主、備交換機(jī)之間的直連線要保持暢通,否那么一單發(fā)生舊M效勞器主機(jī)或SIU主機(jī)的網(wǎng)卡切換,將導(dǎo)致舊M服務(wù)器主機(jī)和SIU主機(jī)斷鏈,從而導(dǎo)致業(yè)務(wù)全阻.還有一種情況,有些地方為了網(wǎng)絡(luò)平安,對(duì)連到switch上的不同設(shè)備劃分了不同的VLAN同時(shí)又將主、備switch之間改成通過(guò)兩個(gè)口連接,并劃分在一個(gè)channelgroupM,當(dāng)時(shí)碰到的一種情況是:1〕當(dāng)時(shí)舊M效勞器的主網(wǎng)卡從缺省VLANCEiJVLAN斂現(xiàn)遷移時(shí),網(wǎng)絡(luò)將出現(xiàn)15秒?30秒的瞬斷2〕當(dāng)時(shí)主、備交換機(jī)之間的channelgroup工作不正常,鏈路不通.當(dāng)1〕發(fā)生時(shí),舊M雙機(jī)發(fā)生主、備網(wǎng)卡倒換,但由于2〕的問(wèn)題,導(dǎo)致舊M主機(jī)無(wú)法與SIU建鏈.問(wèn)題排查及建議:1〕建議開(kāi)局時(shí)一定要做雙網(wǎng)雙平面中一個(gè)平面的swith發(fā)生掉電的故障測(cè)試2〕建議一定要做主、備交換機(jī)之間的設(shè)備之間的網(wǎng)絡(luò)互訪測(cè)試,保證暢通3〕盡量不要在白天在switch上進(jìn)行配置修改,如果需要修改,也要在晚上進(jìn)行,并有嚴(yán)格的方案軟件故障:1.網(wǎng)絡(luò)擁塞由于系統(tǒng)在封閉網(wǎng)絡(luò)中運(yùn)行,所以發(fā)生網(wǎng)絡(luò)擁塞的可能性比擬小,但如果網(wǎng)絡(luò)拓?fù)浔葦M復(fù)雜的話,也可能發(fā)生這種情況,在主機(jī)上的表現(xiàn)為ping主機(jī)丟包嚴(yán)重,主機(jī)到SIU之間鏈路時(shí)通時(shí)斷,數(shù)據(jù)包喪失,設(shè)備功能異常.問(wèn)題排查及建議:1〕盡量使NT/2000的機(jī)器從網(wǎng)絡(luò)上隔離出去2〕如果情況仍未改善,建議啟動(dòng)SIU應(yīng)急流程3〕在恢復(fù)呼叫的前提下,使用網(wǎng)絡(luò)工具抓包,找出攻擊源、逐步將設(shè)備恢復(fù)到網(wǎng)絡(luò).2.切換失敗現(xiàn)場(chǎng)碰到過(guò)一種情況,當(dāng)發(fā)生主、備機(jī)切換時(shí)老是切換不成功,檢查發(fā)現(xiàn)是備機(jī)的主網(wǎng)卡綁定浮動(dòng)IP老是失敗,再進(jìn)一步排查,發(fā)現(xiàn)失敗的原因是備機(jī)主網(wǎng)卡綁定MAX地址失敗,由于舊M雙機(jī)配置時(shí)需要將ServiceIP配置為一個(gè)固定的MA04址,規(guī)那么是取主機(jī)主網(wǎng)卡的MA04址,將最后兩位改為固定的兩個(gè)數(shù)字〔要求與原主網(wǎng)卡地址不同,如定制為89〕.但這樣的規(guī)那么在現(xiàn)場(chǎng)不成功問(wèn)題排除:最后修改了HA拓?fù)鋱D中以太網(wǎng)配置中ServiceAdapter配置,去掉MAO址的配置〔置為空〕,讓后同步雙機(jī),再進(jìn)行倒換,一切OK由于網(wǎng)絡(luò)故障出現(xiàn)會(huì)導(dǎo)致遠(yuǎn)程登錄失效,所以無(wú)法進(jìn)行系統(tǒng)維護(hù).所以建議任何一套舊M效勞器都要配置一個(gè)維護(hù)臺(tái).OS故障AIX是一個(gè)比擬穩(wěn)定的操作系統(tǒng),出現(xiàn)故障一般是人為因素引起的:1.沒(méi)按要求打OS補(bǔ)丁,如433打了09的補(bǔ)丁造成內(nèi)存泄漏2.應(yīng)用程序或數(shù)據(jù)庫(kù)消耗內(nèi)存太多或存在內(nèi)存泄漏導(dǎo)致物理內(nèi)存和pagingspace被耗盡導(dǎo)致系統(tǒng)掛起3.人為刪除了重要的目錄或文件,如:/dev、/usr、/bin、/sbin、/etc等故障排查:1.查操作系統(tǒng)補(bǔ)丁是否符合要求〔433要求10以上,要求5以上〕2.檢查內(nèi)存、pagingspace的使用情況〔使用lsps-a查看使用率要小于20%3.檢查shell命令執(zhí)行時(shí)是否有報(bào)錯(cuò),errpt有無(wú)相關(guān)報(bào)錯(cuò)HA故障對(duì)于HA安裝時(shí)出現(xiàn)的故障,如同步拓?fù)鋱D失敗,要求檢查以下條款看是否符合要求:1.對(duì)于版本的HA一定要打上15以上的補(bǔ)丁,版本的HA要求打上9以上的補(bǔ)丁2.網(wǎng)絡(luò)相關(guān)的配置文件一定要根據(jù)安裝手冊(cè)去設(shè)置3.網(wǎng)絡(luò)ip配置要正確并且保證物理鏈路暢通4.所有、版本一律使用標(biāo)準(zhǔn)版5.不能在同一臺(tái)機(jī)器中同時(shí)安裝標(biāo)準(zhǔn)版或ES版6.打補(bǔ)丁時(shí)請(qǐng)使用smittyupdate_all方式,不要選擇打所有補(bǔ)丁,由于標(biāo)準(zhǔn)版和ES版的補(bǔ)丁往往在一起,這樣會(huì)導(dǎo)致版本不一致如果是新開(kāi)局,一定要保證做雙機(jī)倒換測(cè)試并保證成功.如果在后續(xù)使用中,進(jìn)行了如下操作,以后再做雙機(jī)切換會(huì)失?。?.在主機(jī)上做過(guò)磁陣RAID或共享VGffi關(guān)信息的修改,如:增加了新的RAID盤(pán),修改了共享VG的配置2.在共享VG中增加了新的FS增加了新LV3.以上配置或修改只在主機(jī)上進(jìn)行了操作,而未將共享VG?息及時(shí)同步到備機(jī)4.備機(jī)雖然導(dǎo)入了新的共享VG1F息,但未修改共享VG屬性為系統(tǒng)啟動(dòng)時(shí)不自動(dòng)啟動(dòng)5.未在共享VG?活、共享
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 春節(jié)停工停產(chǎn)方案
- 腳手架鋼管購(gòu)銷(xiāo)合同
- 信息行業(yè)大數(shù)據(jù)與人工智能應(yīng)用方案
- 政府機(jī)構(gòu)政務(wù)服務(wù)平臺(tái)建設(shè)及優(yōu)化方案設(shè)計(jì)
- 法院的離婚協(xié)議書(shū)
- 房地產(chǎn)中介服務(wù)合同中介住房合同
- 安裝工程勞動(dòng)合同
- 連帶責(zé)任保證擔(dān)保合同
- 交通物流業(yè)貨物追蹤系統(tǒng)建設(shè)方案
- 購(gòu)買(mǎi)公司股份協(xié)議書(shū)十
- 酒店住宿水單模板1
- 《世界遺產(chǎn)背景下的影響評(píng)估指南和工具包》
- 采購(gòu)項(xiàng)目需求論證報(bào)告模板
- 四川省中小流域暴雨洪水計(jì)算表格(尾礦庫(kù)洪水計(jì)算)
- 人教版五年級(jí)下冊(cè)英語(yǔ)課件U1-B Let's check Let's wrap it up
- 水泥的檢測(cè)及應(yīng)用-水泥的技術(shù)性能及檢測(cè)(建筑材料)
- 動(dòng)物檢疫技術(shù)-臨診檢疫技術(shù)(動(dòng)物防疫與檢疫技術(shù))
- 《華夏幸福房地產(chǎn)公司人才流失現(xiàn)狀、原因及應(yīng)對(duì)策略》開(kāi)題報(bào)告(文獻(xiàn)綜述)3400字
- 小型混凝土攪拌機(jī)-畢業(yè)設(shè)計(jì)
- 部編人教版二年級(jí)下冊(cè)語(yǔ)文 愿望的實(shí)現(xiàn) 教學(xué)課件
- GB/T 17614.1-2015工業(yè)過(guò)程控制系統(tǒng)用變送器第1部分:性能評(píng)定方法
評(píng)論
0/150
提交評(píng)論