服務器硬件維護_第1頁
服務器硬件維護_第2頁
服務器硬件維護_第3頁
服務器硬件維護_第4頁
服務器硬件維護_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二講(第二講(4):服務器硬件日常維護及常見故障排):服務器硬件日常維護及常見故障排 除方法除方法 故障維修注意事項 常見故障處理及調試主要內容 服務器故障排錯的基本原則 服務器硬件維護注意事項 關于最小化和還原出廠配置故障維修注意事項 1. 盡量恢復系統(tǒng)缺省配置a:硬件配置:去除第三方廠商備件和非標配備件;b:資源配置:清除CMOS,恢復資源初始配置;c: BIOS,F(xiàn)/W,驅動程序:升級最新的BIOS,F(xiàn)/W和相關驅動程序;d: TPL:擴展的第三方的I/O卡屬于該機型的硬件兼容列表(TPL)嗎? 2. 從基本到復雜a:系統(tǒng)上從個體到網(wǎng)絡:首先將存在故障的服務器獨立運行,待測試正常后再接

2、入網(wǎng)絡運行,觀察故障現(xiàn)象變化并處理。b:硬件上從最小系統(tǒng)到現(xiàn)實系統(tǒng):指從可以運行的硬件開始逐步到現(xiàn)實系統(tǒng)為止。c: 軟件上從基本系統(tǒng)到現(xiàn)實系統(tǒng):指從基本操作系統(tǒng)開始逐步到現(xiàn)實系統(tǒng)為止。 3. 交換對比a:在最大可能相同的條件下,交換操作簡單效果明顯的部件;b: 交換NOS載體,既交換軟件環(huán)境;c:交換硬件,既交換硬件環(huán)境;d:交換整機,既交換整體環(huán)境服務器故障排錯的基本原則 只有合格的技術人員才可以對主板進行設置 系統(tǒng)電源開關:系統(tǒng)前面板上的直流電源開關并不能關閉系統(tǒng)電源的交流輸入,系統(tǒng)中尚有8mA的伺服電流,在設置之前,必須拔下系統(tǒng)交流電源電纜 系統(tǒng)外界設備:必須拔下系統(tǒng)外接網(wǎng)線和Modem

3、等外接設備,否則可能會對人員或設備造成意外傷害 靜電釋放和靜電釋放保護措施:靜電釋放會對主板、硬盤、板卡和系統(tǒng)的其它部件造成損害,在您要對系統(tǒng)硬件進行設置時,最好在防靜電環(huán)境下進行(一端接地) 靜電釋放和板卡持拿:因為板卡上的芯片對靜電特別敏感,持拿板卡必須小心,只能接觸主板的邊沿。當板卡暫時不用時,必須把它放回專用的防靜電袋中,芯片朝上放在接地平臺上 機箱蓋:為了系統(tǒng)正常散熱和空氣流通,在系統(tǒng)上電前一定要安裝機箱蓋,否則會對系統(tǒng)部件造成損害,機架式服務器要特別注意服務器硬件維護注意事項 確保在機箱和主板之間不存在短路 把和主板相連接的線纜斷掉,包括鍵盤和鼠標 移走所有的外插板卡 安裝一顆 C

4、PU (確保安裝牢固) 連接機箱揚聲器連線和電源指示燈LED連線到主板 檢查主板等部件的跳線設置是否正確硬件維修注意事項 遇到復雜問題時,需要進行機器的最小化操作來進行問題定位,籠統(tǒng)的講,最小化指單cpu、單內存或雙內存(根據(jù)主板要求決定)、主板、電源接顯示器開機測試,其他的板卡、跳線等都去掉。 但由于機型的差異,通過一些案例分析,我們真正做到最小化了么? 還原到出廠配置要求保證原廠的部件,去掉用戶自己擴配的部件,甚至要求bios版本的還原。關于最小化和還原出廠配置 硬件故障并不單單指硬件有問題,它也指硬件之間不兼容。因為服務器的正常運作需要各部件之間的大力協(xié)調。建議大家在采購各元件時,都采用

5、同一品牌原裝的,并且要采用能發(fā)揮服務器性能的元件(上例中的舊式網(wǎng)卡即使正常也會嚴重影響服務器性能),這樣才不會發(fā)生莫明其妙的故障排除非標準部件干擾非常重要外設故障不可小看這些外設部件往往是最容易被忽略的,但這些故障會被引起以下故障:藍屏-切換器導致開機報錯-鍵盤導致開機報警-鼠標線纜被老鼠咬了!-鍵盤故障顯示器-安裝as4.6死機,安裝其他系統(tǒng)沒問題。必要時要替換測試 故障維修注意事項 常見故障處理及調試主要內容 硬盤相關故障硬盤相關故障 開機無顯 機器不加電 意外重啟 風扇故障 前面板狀態(tài)燈相關說明 系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故障處理及調試硬盤相關故障硬盤無法識別硬盤無法識

6、別1.檢測不到硬盤2.可檢測到硬盤數(shù)量不正確3.開機自檢硬盤報錯檢測到硬盤時報錯:smart error 或disk I/O error4.硬盤亮紅燈5.陣列中硬盤頻繁掉線硬盤無法識別問題可從以下幾個方面考慮1.重新拔插硬盤電源及數(shù)據(jù)線纜 ,注意是否有接觸不良的問題。2.更換硬盤至原先可正常檢測到的槽位,如果仍然檢測不到則可能存在硬盤損壞故障。3.可檢測到硬盤數(shù)量不正確實的情況要注意先確定bios中是否設置了正確的參數(shù),然后再排除上述1.2問題。4.硬盤背板故障。5.磁盤控制器可能存在故障。硬盤相關故障:硬盤檢測問題 Sata硬盤的識別問題更多表現(xiàn)在bios設置上,例如bios中相關sata參

7、數(shù)設置硬盤相關故障:硬盤檢測問題 例如bios中相關sata參數(shù)設置硬盤相關故障:硬盤檢測問題 檢測到硬盤時報錯:smart error 、disk I/O error 或預期錯誤1.使用現(xiàn)有的硬盤控制器校驗硬盤。2.出現(xiàn)此類報錯時背板或主板也是故障原因但幾率較小。硬盤相關故障:開機自檢硬盤報錯 很多機器背板有硬盤故障檢測功能,如硬盤亮紅燈一般意味著硬盤掉線、背板檢測到硬盤存在故障隱患,此時可以從raid卡配置界面中查看硬盤的狀態(tài),如果處于非掉線狀態(tài),需要安裝對應的管理軟件, 從管理軟件中查看是否有磁盤media error,有一點需要強調,硬盤亮紅燈并不一定意味著硬盤掉線。磁盤相關故障硬盤亮

8、紅燈硬盤相關故障硬盤掉線對于硬盤頻繁掉線的故障,首先校驗硬盤是否有壞道,如確定有壞道建議立即更換而不是通過其他修正的方法經(jīng)過校驗確認硬盤沒有壞道,但此硬盤頻繁掉線,同樣需要更換硬盤,然后依次考慮背板、主板或raid卡、數(shù)據(jù)線、終結器故障。常見故障處理及調試硬盤相關故障開機無顯開機無顯機器不加電意外重啟風扇故障前面板狀態(tài)燈相關說明系統(tǒng)相關故障數(shù)據(jù)讀寫緩慢網(wǎng)絡相關故障 Clear CMOS 檢查供電環(huán)境,零-火;零-地電壓? 檢查電源指示燈,如果亮,正常嗎? 按下電源開關時,鍵盤上指示燈亮嗎?風扇全部轉動嗎? 是否更換過顯示器,更換另一臺顯示器。 去掉增加內存 去掉增加的CPU 去掉增加的第三方I

9、/O卡 檢查內存和CPU 插的是否牢靠 主板是否有顯示屏蔽的跳線 更換主要備件,如主板,內存和CPU開機無顯的維護思路 清cmos方法:用跳線帽將跳線2的bc短接,保持5秒鐘;重啟機器使設置生效;關掉機器,將跳線帽接回原先位置即可。開機無顯-清cmos 清cmos方法:用金屬物體(如小螺絲刀)將JBT1的兩個腳點短接即可。開機無顯清cmos 單條內存插法:1. 單內存插在靠近主板邊緣的A1或B1槽位2. 單內存插在靠近主板內部的DIMM 1A槽位上 主板power開關跳線位置:開機無顯內存最小化 常見故障處理及調試硬盤相關故障開機無顯機器不加電機器不加電意外重啟風扇故障前面板狀態(tài)燈相關說明系統(tǒng)

10、相關故障數(shù)據(jù)讀寫緩慢網(wǎng)絡相關故障 確定外插電源線是否正常,更換電源線測試 清cmos、最小化 拔插相關部件 在確定外部電源沒有問題的情況下,將電源單獨取出,插上電源線后短接電源24針插座的綠、黑接口,看電源風扇是否轉動來確認電源故障。(臺達的一些電源有空載保護機制,不能通過此方法進行測試,還有一些電源有節(jié)電功能,必須在電源內部溫度達到一定閥值才啟動風扇,如NP110D共享工程機器,所以也不能用此方法測試) 更換主板測試,(依照現(xiàn)場更換情況定位最終故障)主機不加電 硬盤相關故障 開機無顯 機器不加電 意外重啟意外重啟 風扇故障 前面板狀態(tài)燈相關說明 系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故

11、障處理及調試 查看bios相關日志及系統(tǒng)日志考慮相關因素 如果是藍屏重啟,可查看dump日志進行分析 與系統(tǒng)有關,重裝系統(tǒng) 內存和主板是導致硬件藍屏的主要原因,可對內存進行校驗,或對內存進行最小化測試意外重啟 殺毒軟件原因 瑞星,天網(wǎng)等殺毒軟件或防火墻軟件。 驅動問題 硬件故障 實例:接網(wǎng)線藍屏stop:0 x000000FC(f78ae884, 2fbf0963, f78ae7f0, 00000000) 100s重啟,不接網(wǎng)線運行正常。使用winDbg分析結果:Probably caused by : BlackDrv.sys ( BlackDrv+11c6 ) 安裝了BlackICE(黑冰

12、)防火墻,卸載后正常案例分析講解 硬盤相關故障 開機無顯 機器不加電 意外重啟 風扇故障風扇故障 前面板狀態(tài)燈相關說明 系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故障處理及調試風扇相關故障風扇轉速問題:1. 一些機型有針對不同操作系統(tǒng)的降速調節(jié)軟件2. 可通過修正bios中相關參數(shù)實現(xiàn)自動調節(jié)降速3.也可通過bios修改來實現(xiàn)對風扇轉速的控制風扇故障會造成內部溫度過高,出現(xiàn)cpu過熱而使系統(tǒng)自動斷電的情況,可從bios監(jiān)控頁面查看風扇轉速或查看bios事件日志是否有相關信息。高端機型機箱風扇本身有狀態(tài)指示燈,當風扇本身異常時燈狀態(tài)會有變化,正常狀態(tài)下風扇指示燈為綠色,故障時會變?yōu)槌燃t色,預示

13、風扇可能存在異常。有時風扇故障可能由槽位或其他因素引起,所以對于多個冗余風扇的情況下,盡可能現(xiàn)場交換風扇測試確定可能性原因。 硬盤相關故障 開機無顯 機器不加電 意外重啟 風扇故障 前面板狀態(tài)燈相關說明前面板狀態(tài)燈相關說明 系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故障處理及調試 首先要明確狀態(tài)燈的不同含義,比如服務器的網(wǎng)卡,有兩個狀態(tài)燈,一個為綠色,加電后常亮,代表網(wǎng)卡通電,另外一個是網(wǎng)絡連接狀態(tài)燈,不亮代表處于10m連同狀態(tài),綠色代表100m連接狀態(tài),紅色代表千兆連接狀態(tài),閃爍代表正在進行數(shù)據(jù)交換。 高端服務器一般都有系統(tǒng)狀態(tài)指示燈,不同機器指示燈含義是不同的,正常情況下是綠色,系統(tǒng)異常

14、時表現(xiàn)為紅色,而有點正常情況下是綠色常亮,非緊急故障狀態(tài)為綠色閃爍,緊急故障情況下是橙色常亮。 根據(jù)不同狀態(tài)的變化,系統(tǒng)在報警的同時也進行日志記錄,此時可參考系統(tǒng)日志、bmc日志燈進行問題的診斷和分析。關于故障指示燈 前面板狀態(tài)燈前面板狀態(tài)燈前面板狀態(tài)燈說明 硬盤相關故障 開機無顯 機器不加電 意外重啟 風扇故障 前面板狀態(tài)燈相關說明 系統(tǒng)相關故障系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故障處理及調試 系統(tǒng)不能正常啟動1.可能是系統(tǒng)本身故障,重裝系統(tǒng)測試2.查看系統(tǒng)相關日志和啟動信息,測試相關部件 分區(qū)不能掛載1.掛載設備是否正確連接?是否工作正常?2.系統(tǒng)相關參數(shù)是否設置正確?3.硬盤為

15、只讀時需要進行單獨格式化后重新掛載。 系統(tǒng)安裝問題1.驅動制作不正常或驅動錯誤導致安裝系統(tǒng)時藍屏或找不到硬盤2.由于一些機型對傳統(tǒng)ide通道的顛覆,在linux系統(tǒng)安裝時需要添加引導參數(shù),并且在安裝后修改相應文件3.對系統(tǒng)安裝版本的要求,有些芯片組要求安裝windows 2003必須是集成sp1的,windows 2000必須是集成sp4的,否則安裝時藍屏,而象有點機種必須在windows 2003系統(tǒng)安裝時保證沒有外插hba卡,否則安裝過程中提示找不到光盤。4.oem 2003光盤在系統(tǒng)安裝時需要添加的驅動和普通2003系統(tǒng)光盤需要的驅動是不一樣的,要將驅動軟盤文件目錄中加新目錄:$OEM$

16、/TEXTMODE將驅動拷貝進入此目錄 系統(tǒng)相關故障 硬盤相關故障 開機無顯 機器不加電 意外重啟 風扇故障 前面板狀態(tài)燈相關說明 系統(tǒng)相關故障 數(shù)據(jù)讀寫緩慢數(shù)據(jù)讀寫緩慢 網(wǎng)絡相關故障常見故障處理及調試 1.硬盤掉線,后臺正在rebuild,或raid陣列正在進行一致性校驗。2.病毒導致,從任務管理器看出,cpu占用率達100,一般與蠕蟲類病毒嚴重占用系統(tǒng)資源有關。3.磁盤控制器驅動問題,使磁盤性能不能得到穩(wěn)定發(fā)揮或存在bug,導致讀寫緩慢。4.數(shù)據(jù)庫相關,數(shù)據(jù)庫優(yōu)化或程測試序有問題,導致程序執(zhí)行時不能正常獲取相關信息,表現(xiàn)為硬盤讀寫慢。5.硬件故障,包括硬盤、背板、線纜和硬盤控制器。6.ra

17、id卡設置相關,磁盤性能參數(shù)是否已經(jīng)設置到最優(yōu)化? 使用磁盤性能工具進行對磁盤讀寫性能進行測試,如iometer或hdtune等,評估磁盤性能優(yōu)劣。導致數(shù)據(jù)讀寫緩慢的原因 針對LSI SATA / SCSI raid卡配置多塊硬盤時出現(xiàn)的數(shù)據(jù)讀寫緩慢問題的說明:RAID卡進行一次寫操作需要以下過程:首先是控制器和緩存之間進行數(shù)據(jù)的通信,然后緩存再將數(shù)據(jù)寫入硬盤,完成一次寫操作。RAID卡寫策略分為兩種:write back、write through。寫策略設置為write back時,當控制器的緩存接收到一次交易的數(shù)據(jù)后,控制器發(fā)出傳輸完成的信號給host 主機,之后緩存和硬盤進行數(shù)據(jù)的通訊,完成寫的結束。而設置write through時,只有當硬盤接收到一次交易的數(shù)據(jù)后控制器才可以發(fā)送傳輸完成的信號給host 主機。相比較而言,前者的效率更高,之前的Firmware無法使用write back策略,導致寫性能很低,升級至新的Firmware后,write back策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論