系統(tǒng)出現(xiàn)宕機的解決方案_第1頁
系統(tǒng)出現(xiàn)宕機的解決方案_第2頁
系統(tǒng)出現(xiàn)宕機的解決方案_第3頁
系統(tǒng)出現(xiàn)宕機的解決方案_第4頁
系統(tǒng)出現(xiàn)宕機的解決方案_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、HPIntegrity,9000服務器-如何處理;問題;如何處理HP服務器系統(tǒng)宕機的故障;解決方案; 系統(tǒng)宕機,分為幾種情況:1.系統(tǒng)不能啟動 機器宕掉后重新加電可以啟動 系統(tǒng)自己重啟。相比第一種情況,后兩種情況處理起來容易一些。機器不能啟動時,先檢查啟動停在了什么位置。從時間順序分為:不能加電;加電后自檢失敗,不能進入BCH或者EFI;可以進入BCH或者EFI,但是不能啟動系統(tǒng)。1) 不能加電按power鈕沒有反應,或者是按完power鈕聽到風扇轉(zhuǎn)動但是馬上又停掉。這種情況,在MP卡里用PS命令查看機器狀態(tài),看看是不是有某些備件出了問題。比如BPS、FAN、CELL、SYSBoard等等。并

2、且檢查機器各個指示燈的狀態(tài)(前后都要看),看看有哪個燈是黃、紅或者不亮。檢查MP日志,分析值得懷疑的問題。如果前兩項工作不能確定問題,就做最小化測試。cpu、memory、bps、板卡。最壞的結果可能是做了最小化測試也不能確定出是什么備件的問題。這項工作最好交給HP響應中心的工程師處理。2. 加電后自檢失敗,不能進入BCH或者EFI。1. 注意觀查自檢是停到什么地方的,或者是自檢到什么位置后又自動重啟了。 例如,自檢反復進行,到CPU自檢時就重啟了。通過記錄console日志,來找到自檢反復進行的規(guī)律。反正機器已經(jīng)不能用了,要是看不清楚就停掉它,然后重新啟動,這樣你會看到非常清晰的過程日志。然

3、后記住自檢的第一條是什么,再找到下一條相同的信息,它前面的就是重啟前的信息了。2. 檢查MP日志,如果報錯信息能和自檢停止的設備對應上,那問題就診斷出來了。如果不能對應,就要具體分析兩者之間的關系。例如,自檢在CPU處重啟了,而MP報的是I/O的錯誤。那很有可能是CPU的自檢已經(jīng)結果了,而I/O的自檢不能開始。這樣也可以判斷出是I/O出現(xiàn)的問題。通常情況下,MP日志會報出具體出錯的備件。換了再說!3. 如果不能確定問題,還是要做最小化測試。但是最小化測試也要有目的性。不能和前面提到的供電問題等同。通過自檢和MP日志,首先要確定一個大方向,比如懷疑可能是CPU,也或者是內(nèi)存,也可能是I/O和CP

4、U。這時候做最小化測試是可以進入BCH或者是EFI的。這種情況下,把懷疑的備件一個一個的加回來,直到問題又出現(xiàn),這樣故障點就找到了。之所以要確定大方向,就是要在最小化成功后,盡快的把問題備件找到。3. 可以進入BCH或者EFI,但是不能啟動系統(tǒng)。這種情況,可能是軟件,也可能是硬件問題導致的,處理起來,稍復雜一些。我們以根有mirror為例。1. 如果兩條引導路徑都找不到那就可能是I/O的硬件問題了。用SEA(PA)或者是MAP(IA)來查看所有的硬盤的路徑。如果找不到了,那肯定是硬件問題。如果可以找到,但是和配置信息中的引導路徑不同??赡苁怯脩糇约盒薷牧艘龑窂?,也或者是由于硬件問題導致路徑地

5、址發(fā)生變化。這時請檢查block圖。如果引導硬盤的槽位地址和block中的地址不同,那么考慮scsi鏈路的硬件問題(disk midplane,core i/o都可能有問題,corei/o的可能性很大)。如果硬盤地址和block相同,而配置引導路徑不同,那么顯然是配置錯誤,修改好它就可以。2. 如果有一條引導路徑找不到看看從另外的路徑上能不能啟動。如果另外的路徑能啟動,那么就是找不到路徑的這塊盤有問題,或者是disk midplane有問題。做個交叉測試,確定是硬盤的問題還是disk midplane的問題。3. 如果兩條路徑都可以找到分別從不同的路徑引導。如果其中一個可以成功,用交叉測試的辦

6、法來確定是硬盤還是disk midplane問題。如果兩條路徑都不能啟動,那么通常報錯會是一樣的??赡艿脑蚴莍/o硬件問題、軟件問題。i/o硬件問題拔掉所有的外設后重啟。如果拔掉外設后啟動成功,就要定位是哪一個外設引起的。經(jīng)常出現(xiàn)的情況是,scsi設備或者是光纖設備有問題。如果還不能啟動,做最小化測試。這種最小化測試,范圍定在與i/o有關的設備就可以了。例如,core i/o、板卡等。 軟件問題通常有幾種情況:內(nèi)核文件問題、文件系統(tǒng)問題、系統(tǒng)數(shù)據(jù)問題。 內(nèi)核文件問題,問清楚用戶之前做過什么操作并嘗試從備份內(nèi)核啟動。如果失敗,嘗試用光盤恢復內(nèi)核。最后的辦法就是備份帶恢復。 文件系統(tǒng)問題,會在啟

7、動時報出詳細的錯誤,比如某個文件系統(tǒng)滿、文件系統(tǒng)檢查失敗,文件系統(tǒng)丟失等等。這種情況下,進入單用戶狀態(tài)去解決。需要注意的事,如果是文件系統(tǒng)檢查失敗,不要輕易做fsck -o full操作。如果是/usr這種比較重要的文件系統(tǒng),可以嘗試用只讀方式mount,贏得備份機會。例如,由于/usr文件系統(tǒng)自檢失敗,導致系統(tǒng)不能啟動。這時首先進入單用戶,用mount -o ro把/usr掛載上。用剩余空間新建LV,把/usr的數(shù)據(jù)復制到新LV上。修改mount table,新/usr指向新LV。如果重啟機器后還是不能啟動,找備份帶吧。系統(tǒng)數(shù)據(jù)問題,由于用戶誤操作刪除了數(shù)據(jù),導致系統(tǒng)不能啟動。比如誤刪除了/

8、etc下的一些配置文件。從單用戶啟動,去/usr/newconfig/etc下找對應的文件復制回來。這里的文件,只是一些簡單的配置,還需要手工修改。如果不能確定出哪些文件丟失,還是要用備份帶恢復。機器down掉后重新加電可以啟動機器down掉了,按電源開關后機器可以正常啟動。這種情況下,檢查HPMC和MP日志。一般都是HPMC或者超溫造成的。如果是超溫,有可能按電源開關沒有反應,這時要拔掉電源線,等機器冷卻后再加電。在系統(tǒng)正常啟動后,檢查系統(tǒng)日志:shutdownlog、eventlog、oldsyslog等。 還有的情況是機器并沒有down掉,而是panic。這時候做TOC就可以了。系統(tǒng)自己重啟檢查系統(tǒng)日志、HPMC和MP日志。如果運行雙機,還要檢查雙機日志。雙機的鎖盤或者心跳出現(xiàn)問題的時候,都有可能導致系統(tǒng)重啟。講這些日志信息發(fā)送給HP響應中心工程師分析即可。上面提到的系統(tǒng)日志,主要包括:/var/adm/syslog/syslog.log/var/adm/syslog/OLDsyslog.log/var/tombstones/ts99 (pa)/var/tombstones/MCA* (ia)/var/op

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論