版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
p系列、系統(tǒng)p預(yù)防性維護說明pp預(yù)防性維護說明國際商業(yè)機器〔中國〕文檔編號:當前版本號:最初公布日期最修訂日期:
3.12022年12月13日2022年9月2日IBM中國維護與技術(shù)效勞 1p系列、系統(tǒng)p預(yù)防性維護說明IBM中國維護與技術(shù)效勞 2p系列、系統(tǒng)p預(yù)防性維護說明一、硬件維護局部:檢查機房環(huán)境:〔請參照IBM機房條件及各機型的具體要求〕溫度:室內(nèi)溫度建議保持在22±2℃濕度:相對濕度應(yīng)保持在50±5%電源:依據(jù)不同機型使用的電源有:200~240V溝通單相;380~415V溝通三相;-48V±5%直流,實測電壓不應(yīng)超出允許的范圍。零線與火線不能反接,通常是面對插座的左邊為零線,右邊為火線。機器必需有良好的接地保護,地線的接地電阻要求小于1歐姆。因接地電阻測量需要專業(yè)儀器,因此以客戶供給的測量數(shù)值為準,工程師只要確保機柜電源線的地線、機殼〔接上電源線后〕到建筑物接地端的電阻小于1(此處指的是雙動力源供電,比方電力供給來自不同的發(fā)電廠,而不是指設(shè)備是不是有冗余電源),此外,需要記錄假設(shè)是雙動力源是否部署在了各自獨立的PDU或者UPS上。干凈度:機房應(yīng)保持清潔且有良好的治理與維護。如機房太臟應(yīng)提示客戶留意。設(shè)備散熱:設(shè)備進風(fēng)口溫度是否夠低并有足夠的氣流。機房內(nèi)設(shè)備的擺放是否符合冷熱通道原則〔確定不能讓設(shè)備排出的熱空氣排向其它設(shè)備的進風(fēng)口〕。隨機工具:對于59X/FHAR&V時需要用到的平臺,滑軌等工具,巡檢時應(yīng)確認隨機工具的當前存儲狀態(tài),以備不時之需。檢查系統(tǒng)硬件狀況:先從外觀上檢查硬件狀況,檢查設(shè)備故障燈是否有亮。各種設(shè)備上都有故障指示燈,通常為橙色并有標記。高端效勞器,如p670/p690/p59x/FHA,應(yīng)檢查UEPO開關(guān)上的系統(tǒng)故障指示燈是否亮。同時檢查BPCBPDBPRDCAMDA等電源子系統(tǒng)的Power-onPower-inPower-outEnableGreenLED等是否長亮。還要檢查部件故障燈,如I/Odrawer、PCI卡,硬盤等。檢查是否有人改裝過IBM設(shè)備〔如拆掉面板、開口、拆掉過濾網(wǎng)、轉(zhuǎn)變網(wǎng)絡(luò)連接等〕。這些改裝可能會影響設(shè)備的穩(wěn)定運行,甚至帶來嚴峻后果。對于高端Power5/Power6效勞器,還應(yīng)檢查其正面Lightstrip和反面Lightstrip。有安裝的部件〔如CPUbook〕所對應(yīng)的綠色LED應(yīng)長亮。任何故障指示燈〔橙色〕都應(yīng)不亮。同時留意主機的OperatorPanel,高端Power5/Power6或其它由HMC治理的機器應(yīng)檢查HMC圖形界面的虛擬OperatorPanel。設(shè)備發(fā)生故障時通常伴有出錯代碼,必需把全部故障代碼記錄下來。除此以外還應(yīng)留意有否其他特別狀況〔如硬盤、風(fēng)扇特別的聲音、電纜破損、系統(tǒng)出風(fēng)是否順暢、氣流是否由于異物遮擋而影響散熱效果等〕。?IBM中國維護與技術(shù)效勞 3p系列、系統(tǒng)p預(yù)防性維護說明檢查硬件錯誤報告errorlog:無HMC治理的系統(tǒng)可登錄到AIXerrpt–dH”errpt–ajerr_id|more”diag-edhdisk1”。診斷程序可對故障記錄中的SENSEDATA進展分析并給出SRN、SRC、FRU等。注:假設(shè)故障記錄太多,應(yīng)將故障報告取回作進一步分析??捎妹睿骸皊nap–r;snap–gc”用“mail”命令查看有否發(fā)給root用戶的錯誤報告。用“alog–otboot”命令和“alog–otconsole”命令檢查系統(tǒng)的啟動記錄和主控臺的出錯信息。對于Power5shutdown〔ServiceProcessor〕菜單檢查故障記錄。對于Power5、Power6、Power7主機,無須shutdown分區(qū)就可以進入ASMI菜單進行檢查。有HMC治理的系統(tǒng),可進入ServiceFocalPoint進展檢查。HMCV6步驟如下:在ServiceFocalPoint名目下點擊ManageEvents翻開ManageServiceableEvents窗口。單擊OK,進入ServiceableEventsOverview窗口,里面記載了最近的錯誤日志。單擊一條記錄,再選擇Selected菜單,選擇ViewDetails,觀察錯誤具體信息。IBM中國維護與技術(shù)效勞 4p系列、系統(tǒng)p預(yù)防性維護說明里Selected菜單,選擇CloseEvent,關(guān)閉錯誤具體信息。HMCV7步驟如下:登錄后直接點擊屏幕左下角的扳手圖標,接下來的步驟就跟HMCV6一樣了。確認硬件問題解決后應(yīng)關(guān)閉SystemAttentionLightHMCAIXdiagTaskSelection->選擇IdentifyandAttentionIndicators->選擇SetSystemAttentionIndicatortoNormal。有HMC治理的主機在圖形界面下deactivate相關(guān)主機的AttentionLED.檢查機器清潔度檢查機器的清潔程度,如面板上會不會有很多灰塵。假設(shè)機器比較臟,或金屬部件有腐蝕的跡象,則需要提示客戶留意改善機房環(huán)境。有需要的話可以請IPR進展專業(yè)檢測。IBM中國維護與技術(shù)效勞 5p系列、系統(tǒng)p預(yù)防性維護說明某些機型有空氣過濾網(wǎng),如7040/9119,長期使用可能需要更換,否則過濾網(wǎng)堵塞會影響散熱效果。請依據(jù)實際狀況打算是否更換。9119的過濾網(wǎng)安裝在機柜前門,要確保3塊過濾網(wǎng)都安裝到位,并且機柜正面上下沒有開口,全部冷卻氣流都應(yīng)當經(jīng)過濾網(wǎng)進入。風(fēng)扇轉(zhuǎn)動狀況:從機器相應(yīng)的散熱口檢查冷卻氣流的狀態(tài),特別需要留意是否風(fēng)量小或者無冷卻風(fēng)。如有特別,應(yīng)收IQYY并開出對應(yīng)PMH。規(guī)律卷/硬盤檢查用“l(fā)svg–o|lsvg–il|grepstale”檢查是否有stalestale狀態(tài)規(guī)律卷應(yīng)馬上進展同步修復(fù)。是否有deconfig硬件資源:Power5以前的主機用“bindprocessor–q”命令檢查是否有CPUdisable。用“l(fā)sattr–Elsys0”命令CPUGUARD是否設(shè)置正確。AIX5.2以前的版本CPUGUARDdisable的。通常系統(tǒng)/分區(qū)CPU數(shù)目≥3的就應(yīng)當enableCPUGUARD〔AIX5.2或以上則CPU≥2時就應(yīng)當enableCPUGUARD〕。內(nèi)存用命令lsattr–Elmem0查看。有分區(qū)的機器有肯定內(nèi)存overhead,具體計算參考pSeriesPlanningforPartitioned-SystemOperationsSA38-0626-00Power5、Power6、Power7主機登入ASMmenu->SystemConfiguration->HardwareDeconfiguration->ProcessorDeconfiguration和MemoryDeconfiguration檢查是否有被deconfigured的CPU或內(nèi)存。同時檢查有無其他部件被deconfigured并做相應(yīng)記錄。DUMP信息〔具體請參考《AIX操作系統(tǒng)DUMP設(shè)置及收集指南》〕:DUMP設(shè)備應(yīng)當有足夠大的空間,可用“sysdumpdev–eDUMP的大小以檢驗DUMPDUMP〔假設(shè)系統(tǒng)內(nèi)存大于4GB,AIX5L會自動建立專用的DUMP設(shè)備:/dev/lg_dumplv〕。檢查DUMP的拷貝名目〔文件系統(tǒng)〕是否有足夠的空間〔PrimaryDUMPDUMP〔文件系統(tǒng)ROOTVG上。為確保系統(tǒng)掛機時可以做強制DUMP,請把“alwaysallowdump”設(shè)成“TURE”,可在線修改。DUMP壓縮功能除了可以節(jié)約空間外AIX做DUMP(默認是關(guān)閉),命令為sysdumpdevC,可在線修改。網(wǎng)絡(luò)通信:檢查網(wǎng)卡狀態(tài)、IP地址是否正常。通常不建議使用自適應(yīng)速率〔千兆以太網(wǎng)除外〕,網(wǎng)卡的設(shè)置應(yīng)與交換機端口的設(shè)置匹配。用“ping”命令檢查網(wǎng)卡通信是否正常,如是否丟包,速度是否正常等。用“netstat–rn”檢查路由表是否正常。檢查/etc/hosts文件或DNS設(shè)置是否正常。SSA/SCSI/SASRAID狀態(tài)〔IBM存儲效勞器請參考存儲設(shè)備檢查指南〕:IBM中國維護與技術(shù)效勞 6p系列、系統(tǒng)p預(yù)防性維護說明磁盤陣列通常承受RAID1/RAID5/RAID10等數(shù)據(jù)保護方式。不建議客戶使用RAID0的方式,在RAID0方式下數(shù)據(jù)沒有任何保護。檢查磁盤陣列中的RAID盤是否有壞盤,是否有degrade的狀況。檢查磁盤陣列的cache是否翻開。熱備盤〔hotspare〕盤可以提高磁盤陣列的牢靠性,猛烈建議設(shè)置熱備盤。以內(nèi)置SASRAID為例步驟如下:檢查DiskArray狀態(tài):#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->ListIBMSASDiskArrayConfiguration檢查SAS通道狀態(tài):#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->DiagnosticsandRecoveryOptions->ShowSASControllerPhysicalResources檢查cache電池狀態(tài):#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->DiagnosticsandRecoveryOptions->ControllerRechargeableBatteryMaintenance->DisplayControllerRechargeableBatteryInformationLIC版本信息查看并且記錄系統(tǒng)當前的微碼版本以及HMC〔BPA的微碼版本〕RIO連接狀況HMC上查看RIOTopology狀態(tài),留意檢查環(huán)路狀態(tài)及速率。磁帶機是否需要清洗:磁帶機/磁帶庫是重要的數(shù)據(jù)備份設(shè)備,應(yīng)定期清洗。不同的磁帶機/磁帶庫有不同的清洗間隔,請查閱相關(guān)手冊。某些磁帶機可用“/usr/lpp/diagnostics/bin/utape-cdrmt0-n“命令查看磁帶機使用時數(shù)。Systemreadinesscheck檢查〔power5及以后機型〕Power5及以后機型需要做systemreadinesscheck并記錄結(jié)果。強制ECA信息依據(jù)不同階段公布的ECA列表,檢查對應(yīng)機器是否存在需要進展的強制ECA,應(yīng)記錄對應(yīng)的ECA號碼及完成狀態(tài)。ServiceAgent是否設(shè)置:我們建議給全部的保修期/MA客戶都安裝ServiceAgent,并激活其自動報修功能。ServiceAgent安裝后應(yīng)保持可以與IBMSDRcallhomeemailnotification,SNMPIBM中國維護與技術(shù)效勞 7p系列、系統(tǒng)p預(yù)防性維護說明監(jiān)控或者SystemDirector監(jiān)控。以下數(shù)據(jù)是否已經(jīng)收集:AIXsnap文件ASMIerrlog文件RIOTopology文件硬件dump文件其他日志文件〔iqyy等〕硬件檢查完成后必需填寫《RS/6000及p系列系統(tǒng)預(yù)防性維護效勞報告單〔硬件局部〕》,對于檢查中覺察的問題必需準時解決。IBM中國維護與技術(shù)效勞 8p系列、系統(tǒng)p預(yù)防性維護說明二、軟件維護局部〔僅適用于有軟件維護協(xié)議的客戶〕:軟件錯誤報告:用“errpt–dS”命令檢查系統(tǒng)的軟件出錯報告。假設(shè)故障記錄太多,應(yīng)將故障報告取回,作進一步分析。用“mail”命令查看有否發(fā)給root用戶的錯誤報告。用“alog–otboot”命令和“alog–otconsole”命令檢查系統(tǒng)的啟動紀錄和主控臺的出錯信息。檢查HACMP、TSM等軟件的LOG看有否不正常的地方。檢查文件系統(tǒng)查看有沒有“滿”AIX的根本文件系統(tǒng)。如/(根文件系統(tǒng))滿則會導(dǎo)致用戶不能登錄。關(guān)鍵文件系統(tǒng)的使用率不應(yīng)當超過80%(/usr除外),且剩余空間最好大于200MB系統(tǒng)有關(guān)于文件系統(tǒng)錯誤的報告則應(yīng)用“fsck”命令對文件系統(tǒng)進展檢查修復(fù)。JFSLOG的大小與文件系統(tǒng)的比例應(yīng)為:1個PP的LOG治理512個PP的文件系統(tǒng)。假設(shè)JFSLOG不夠大則應(yīng)擴大,但JFSLOG不應(yīng)超過256MB。假設(shè)太多的文件系統(tǒng)使用同一個LOG則會影響性能,應(yīng)考慮不同的文件系統(tǒng)使用不通的JFSLOG。檢查規(guī)律卷:用“l(fā)svg–o|lsvg–il|grepstale”檢查是否有stale狀態(tài)的規(guī)律卷。如有stale狀態(tài)規(guī)律卷應(yīng)馬上進展同步修復(fù)。內(nèi)存交換區(qū)(pagingspace):AIX4.3.3以后對內(nèi)存交換區(qū)的使用機制與舊版本已經(jīng)不一樣。內(nèi)存交換區(qū)的大小與物理內(nèi)存的大小并用率超過70%,則需要擴大。某些數(shù)據(jù)庫廠家或應(yīng)用開發(fā)商可能對內(nèi)存交換區(qū)有特別要求,請詢問相關(guān)廠商或開發(fā)商。增加內(nèi)存交換區(qū)并不會提高性能,內(nèi)存交換區(qū)使用偏高通常是由于物理內(nèi)存缺乏造成的,所以升級物理內(nèi)存才是解決之道。交換區(qū)不應(yīng)設(shè)置在rootvg以外的卷組。從性能上考慮,每個硬盤上應(yīng)當只有一個內(nèi)存交換區(qū),并且全部內(nèi)存交換區(qū)的大小應(yīng)當全都。假設(shè)rootvg是承受鏡像保護的,則內(nèi)存交換區(qū)也必需鏡像。假設(shè)rootvg有固態(tài)硬盤則建議把內(nèi)存交換區(qū)放在固態(tài)硬盤上以提高性能。IBM中國維護與技術(shù)效勞 9p系列、系統(tǒng)p預(yù)防性維護說明bootimage是否修改正而沒有重啟:bootimage修改正應(yīng)當重啟AIX,比方安裝了的補丁或者運行了bosboot命令等。有些案例,客戶做了某些修改而沒有重啟AIX,等幾個月之后重啟AIX的時候才覺察無法啟動。這時候已經(jīng)想不起來做過什么修改了,造成PD很困難。運行命令:uptime和ls–l/etc/bosboot.sum,uptime應(yīng)當小于/etc/bosboot.sum文件日期到當前的時間,否則就代表bootimage修改正后沒有重啟。系統(tǒng)性能:用vmstat、topas等命令進展簡潔的性能分析,檢查是否有性能瓶頸。數(shù)據(jù)備份:ROOTVG的備份。系統(tǒng)備份要準時,它應(yīng)能恢復(fù)操作系統(tǒng)崩潰前的正常工作狀態(tài)。因此每當系統(tǒng)轉(zhuǎn)變設(shè)置,安裝PTF,調(diào)整應(yīng)用程序等的前后都應(yīng)做好系統(tǒng)備份。系統(tǒng)備份建議至少每季度做一次,手頭至少保存兩份系統(tǒng)備份帶。TSM數(shù)據(jù)庫備份等。用戶數(shù)質(zhì)是否標簽明確、保存妥當。通信:用“ping”命令檢查通信是否正常。用“netstat–rn”檢查路由表是否正常。檢查/etc/hosts文件或DNS設(shè)置是否正常。數(shù)據(jù)是否已作保護為保證系統(tǒng)高可用性,建議ROOTVG承受鏡像保護方式。用“l(fā)svg–lrootvg”檢查是否ROOTVG上全部的規(guī)律卷已鏡像。用“l(fā)slv–llvname”命令檢查規(guī)律卷的兩份拷貝是否在不同的物理硬盤上。用戶數(shù)據(jù)也應(yīng)實行適當?shù)谋Wo方式,如RAID1/5/10、規(guī)律卷鏡像和規(guī)律卷0+1等。假設(shè)客戶承受規(guī)律卷鏡像或規(guī)律卷0+1的方式,則應(yīng)檢查其建的規(guī)律卷是否設(shè)置正確。系統(tǒng)DUMP設(shè)置〔具體請參考《AIX操作系統(tǒng)DUMP設(shè)置及收集指南》〕:系統(tǒng)DUMPsysdumpdev–e”命令估量系統(tǒng)DUMP的大小以檢驗DUMPDUM〔4G會自動建立專用的DUMP設(shè)備:/dev/lg_dumplv〕。IBM中國維護與技術(shù)效勞 10p系列、系統(tǒng)p預(yù)防性維護說明檢查DUMP的拷貝名目〔文件系統(tǒng)〕是否有足夠的空間〔PrimaryDUMP設(shè)備,則無此要求〕。假設(shè)要轉(zhuǎn)變DUMP的拷貝名目〔文件系統(tǒng)〕則必需保證其建立在ROOTVG上。為確保系統(tǒng)掛機時可以做強制DUMP,請把“alwaysallowdump”設(shè)成“TURE”,可在線修改。DUMP壓縮功能除了可以節(jié)約空間外,還可以大大縮短AIX做DUMP的時間,建議翻開(默認是關(guān)閉),命令為sysdumpdevC,可在線修改。補丁程序(PTF)檢查檢查的范圍包括操作系統(tǒng)補丁、HACMP補丁、TSM補丁等。檢查系統(tǒng)補丁是否符合客戶Fixes策略要求。具體承受什么版本請參考最的《FixesSuggestionLetter》,并與客戶協(xié)商打算。收集snappackage存檔運行“snap-r;snap–gfkbLc”,取回/tmp/ibmsupt/snap.tar.Z或/tmp/ibmsupt/snap.pax.Z文件存檔。收集LVM信息(主要是LVMAPING信息)有助于日后系統(tǒng)出問題時數(shù)據(jù)恢復(fù)。留意:檢查/tmp文件系統(tǒng)剩余空間最好不要小于200M。IBM中國維護與技術(shù)效勞 11p系列、系統(tǒng)p預(yù)防性維護說明不同預(yù)防性維護周期建議的工作內(nèi)容的是每個月。不同的預(yù)防性維護周期建議承受不同的維護內(nèi)容,具體入下表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度出租車租賃合同范本(含乘客投訴處理流程)4篇
- 2025年度工業(yè)場地環(huán)境治理與修復(fù)服務(wù)合同4篇
- 2025年新能源充電樁建設(shè)個人施工合同4篇
- 2025年醫(yī)藥產(chǎn)品銷售合同臨床研究與市場準入策略4篇
- 二零二五版民間借貸利息計算標準合同4篇
- 二零二五年建筑行業(yè)施工工具租賃及施工效率提升合同3篇
- 2025年度全面升級出納員服務(wù)合同范本4篇
- 發(fā)電機組在自然災(zāi)害應(yīng)對考核試卷
- 二零二五年度大型機械設(shè)備運輸協(xié)調(diào)協(xié)議3篇
- 冷藏車運輸與國際標準對接考核試卷
- 2024年采購員年終總結(jié)
- 2024年新疆區(qū)公務(wù)員錄用考試《行測》試題及答案解析
- 肺動脈高壓的護理查房課件
- 2025屆北京巿通州區(qū)英語高三上期末綜合測試試題含解析
- 公婆贈予兒媳婦的房產(chǎn)協(xié)議書(2篇)
- 煤炭行業(yè)智能化煤炭篩分與洗選方案
- 2024年機修鉗工(初級)考試題庫附答案
- Unit 5 同步練習(xí)人教版2024七年級英語上冊
- 矽塵對神經(jīng)系統(tǒng)的影響研究
- 分潤模式合同模板
- 海南省汽車租賃合同
評論
0/150
提交評論