




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0修訂記錄課程編碼課程編碼適用產(chǎn)品適用產(chǎn)品產(chǎn)品版本產(chǎn)品版本課程版本課程版本ISSUEHC1309114統(tǒng)一存儲V1V1.0開發(fā)開發(fā)/優(yōu)化者優(yōu)化者時間時間審核人審核人開發(fā)類型(新開發(fā)開發(fā)類型(新開發(fā)/優(yōu)化)優(yōu)化)吳昊旻2014年3月14日張博新開發(fā)本頁不打印Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1309114統(tǒng)一存儲維護與故障統(tǒng)一存儲維護與故障診斷診斷Copy
2、right 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2l學(xué)習完本章節(jié)后,您將能夠:p掌握存儲系統(tǒng)開工失敗的處理流程p掌握存儲控制器故障的處理流程p掌握RAID組故障的處理流程p掌握鏈路異常的處理流程p了解MSCS的原理以及安裝部署流程目標Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3目錄1. 陣列開工失敗陣列開工失敗2. 控制器故障3. RAID故障4. 鏈路異常5. 硬盤故障6. MSCS介紹Copyright 2
3、013 Huawei Technologies Co., Ltd. All rights reserved. Page 4 陣列開工失敗l陣列開工失敗現(xiàn)象描述現(xiàn)象描述可能原因可能原因故障闡述故障闡述l開工失敗通常發(fā)生在系統(tǒng)異常掉電后自動恢復(fù)的過程中,機房搬遷后重新上電,或者是在更換控制框后。l陣列開工失敗表現(xiàn)未ISM無法連接陣列進行管理,控制器狀態(tài)指示燈綠燈閃爍,通過命令行登陸提示“system is not ready please wait”。l保險箱盤所在硬盤框MAC地址和DB中記錄不一致;l主備控內(nèi)存大小不一致;l保險箱硬盤不在位;l系統(tǒng)損壞;Copyright 2013 Huawei
4、 Technologies Co., Ltd. All rights reserved. Page 5陣列開工失敗診斷思路NoImageCopyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6控制器故障l常見開工失敗處理策略p“master start VAULT failed” 主控啟動保險箱失敗p“master DEV start VAULT failed”設(shè)備管理啟動保險箱失敗p“read db failed”控制器讀DB失敗p“master start DEV failed”主控啟動設(shè)備管理失敗Co
5、pyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7目錄1. 陣列開工失敗2. 控制器故障控制器故障3. RAID故障4. 鏈路異常5. 硬盤故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8故障診斷原則先外部,后內(nèi)部先外部,后內(nèi)部先整體,后局部先整體,后局部先高級,后低級先高級,后低級故障診故障診斷原則斷原則Copyright 2013 Huawei Technologies Co., Lt
6、d. All rights reserved. Page 9控制器故障l檢查控制器狀態(tài)檢查控制器狀態(tài)p控制器是能夠完成存儲業(yè)務(wù)處理、實現(xiàn)RAID、LUN映射、分條設(shè)置或其他業(yè)務(wù)和故障告警等功能的部件。通過瀏覽控制器信息,可以檢查控制器的健康狀態(tài)和運行狀態(tài)信息。l對系統(tǒng)的影響對系統(tǒng)的影響p如果控制器出現(xiàn)故障,可能會導(dǎo)致讀寫性能和可靠性降低,甚至業(yè)務(wù)中斷、數(shù)據(jù)丟失。l參考標準參考標準p在ISM管理軟件中:p控制器的健康狀態(tài)為“正?!?,運行狀態(tài)為“在線”。 p“事件管理”對話框中沒有新增與控制器相關(guān)的故障信息。Copyright 2013 Huawei Technologies Co., Ltd.
7、All rights reserved. Page 10控制器故障l控制器故障排查思路控制器故障排查思路p按照前面提到的先外部后內(nèi)部,先整體后局部的原則,首先應(yīng)該檢查系統(tǒng)指示燈和聲音告警,然后在檢查各個FRU部件的指示燈。若是控制器故障我們可以看到系統(tǒng)指示燈和控制器告警指示燈都紅燈常亮。最后再登陸ISM管理軟件檢查告警信息確認控制器故障。l更換控制器更換控制器p在拔插控制器前需要確認業(yè)務(wù)已經(jīng)停止或業(yè)務(wù)已切換至對端,并檢查主機多路徑是否工作正常;p檢查控制器緩存中的數(shù)據(jù)是否已寫入硬盤,如果沒有進行寫盤操作可以對控制器執(zhí)行offline操作,觸發(fā)寫盤操作。 p更換控制器時,如果兩個控制版本不一致,
8、在更換過程中會自動進行同步,此時需要時間較長,并可能出現(xiàn)控制器亮紅燈或者多次重啟現(xiàn)象。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11目錄1. 陣列開工失敗2. 控制器故障3. RAID故障故障4. 鏈路異常5. 硬盤故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 12 RAID組故障現(xiàn)象描述現(xiàn)象描述可能原因可能原因故障闡述故障闡述lRAID組故障與成員盤狀態(tài)有關(guān)。該RAID組故障時
9、不能承載業(yè)務(wù),導(dǎo)致業(yè)務(wù)數(shù)據(jù)丟失。l在ISM導(dǎo)航樹展開“存儲資源”節(jié)點,單擊“RAID組”。在右側(cè)的信息展示區(qū),故障的RAID組的“健康狀態(tài)”顯示為“故障”且“運行狀態(tài)”顯示為“離線”。l硬盤框意外掉電 lRAID組成員盤被拔出 lRAID組成員盤被其他硬盤替換 lRAID組成員盤出現(xiàn)壞道或其他導(dǎo)致讀寫失敗的故障l RAID組故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13RAID組故障lRAID組故障排查思路Copyright 2013 Huawei Technologies Co., Ltd
10、. All rights reserved. Page 14RAID組故障lRAID組故障排查思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15RAID組故障(RAID5雙盤失效處理)l定位思路定位思路 p在未修復(fù)RAID之前,切勿拔插任何硬盤,避免搞混硬盤故障時間和硬盤位置。 p優(yōu)先修復(fù)RAID,再修復(fù)文件系統(tǒng)(若文件系統(tǒng)損壞的話),最后恢復(fù)業(yè)務(wù)。 p全部恢復(fù)正常后,更換故障硬盤。l處理過程處理過程p確定硬盤失效順序和時間。p檢查失效硬盤的物理和邏輯狀態(tài),如果失效硬盤物理狀態(tài)未fault則需要
11、嘗試將其拔插以恢復(fù)物理狀態(tài)為normal。p通過review命令恢復(fù)最后失效硬盤邏輯狀態(tài)為normal,使RAID組變?yōu)榻导墵顟B(tài)。p更換未恢復(fù)的故障硬盤,是RAID組開始重構(gòu)。p重構(gòu)完成后更換review命令恢復(fù)的硬盤。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 16RAID組故障(RAID5雙盤失效處理)l定位思路定位思路 p在未修復(fù)RAID之前,切勿拔插任何硬盤,避免搞混硬盤故障時間和硬盤位置。 p優(yōu)先修復(fù)RAID,再修復(fù)文件系統(tǒng)(若文件系統(tǒng)損壞的話),最后恢復(fù)業(yè)務(wù)。 p全部恢復(fù)正常后,更換故
12、障硬盤。l處理過程處理過程p確定硬盤失效順序和時間。p檢查失效硬盤的物理和邏輯狀態(tài),如果失效硬盤物理狀態(tài)未fault則需要嘗試將其拔插以恢復(fù)物理狀態(tài)為normal。p通過revive命令恢復(fù)最后失效硬盤邏輯狀態(tài)為normal,使RAID組變?yōu)榻导墵顟B(tài)。p更換未恢復(fù)的故障硬盤,是RAID組開始重構(gòu)。p重構(gòu)完成后更換revive命令恢復(fù)的硬盤。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 17目錄1. 陣列開工失敗2. 控制器故障3. RAID故障4. 鏈路異常鏈路異常5. 硬盤故障6. MSCS介紹C
13、opyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 18FC鏈路異常診斷思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 19FC鏈路異常處理步驟序號 問題 解決方案 1陣列主機口與光纖交換機協(xié)商失敗1.更改陣列主機端口模式為點對點或者交換機模式,再重新連接2.更改陣列主機端口速率為1G、2G或者4G再重新連接 3.升級陣列版本2交換機zone配置問題1.刪除原來的zone; 2.重新創(chuàng)建zone,保證陣列主機口
14、和業(yè)務(wù)服務(wù)器的HBA卡在一個zone里; 3HBA卡驅(qū)動問題1.卸載原有的HBA卡驅(qū)動2.重新安裝新的HBA卡驅(qū)動4硬件故障采用替換法確定故障點,是光模塊還是光纖還是HBA卡故障,確定后更換。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 20FC鏈路異常處理步驟序號序號問題問題解決方案解決方案5 存儲單元端FC誤碼率過高登錄管理界面查看光纖端口誤碼情況,如果誤碼率持續(xù)增長,表示誤碼率過高,如果誤碼持續(xù)增長,屬于非正常情況,應(yīng)該從以下幾個方面排除誤碼: 1)查看存儲側(cè)是否有光模塊告警信息。2)更換光
15、纖線。3)更換主機端口。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21iSCSI鏈路異常診斷思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22iSCSI鏈路異常處理步驟序號序號問題問題解決方案解決方案1 iSCSI主機端口IP地址或應(yīng)用服務(wù)器業(yè)務(wù)網(wǎng)口IP地址配置錯誤1.確認在應(yīng)用服務(wù)器上是否可以ping通iSCSI主機端口IP地址。2.確認現(xiàn)場組網(wǎng)環(huán)境是直連組網(wǎng)還是交換機組網(wǎng)。直連組網(wǎng) = 步驟3
16、。交換機組網(wǎng) = 步驟4。3.修改iSCSI主機端口IP地址,使iSCSI主機端口IP地址與應(yīng)用服務(wù)器業(yè)務(wù)網(wǎng)口IP地址在同一個網(wǎng)段,然后轉(zhuǎn)至步驟5。您也可以在應(yīng)用服務(wù)器上修改應(yīng)用服務(wù)器的業(yè)務(wù)網(wǎng)口IP地址,使其與iSCSI主機端口IP地址在同一個網(wǎng)段上。4.分別為iSCSI主機端口和應(yīng)用服務(wù)器添加路由,使iSCSI主機端口和應(yīng)用服務(wù)器能夠通信,然后轉(zhuǎn)至步驟5。5.請在應(yīng)用服務(wù)器上運行ping命令查看網(wǎng)絡(luò)鏈路是否可以通,其中目的地址為存儲系統(tǒng)iSCSI主機端口IP地址。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved.
17、 Page 23iSCSI鏈路異常處理步驟序號序號問題問題解決方案解決方案2應(yīng)用服務(wù)器與存儲系統(tǒng)之間的線纜松動或損壞1.拔插或更換連接存儲系統(tǒng)與應(yīng)用服務(wù)器之間的網(wǎng)線。2.操作結(jié)束后,請在應(yīng)用服務(wù)器上運行ping命令查看網(wǎng)絡(luò)鏈路是否可以通,其中目的地址為存儲系統(tǒng)iSCSI主機端口IP地址。3.操作結(jié)束后,iSCSI主機端口的link指示燈是否亮綠色或藍色,且在ISM中該主機端口的“運行狀態(tài)”顯示為“連接”。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24目錄1. 陣列開工失敗2. 控制器故障3. R
18、AID故障4. 鏈路異常5. 硬盤故障硬盤故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 25 硬盤故障現(xiàn)象描述現(xiàn)象描述可能原因可能原因故故障類型障類型l場景的硬盤故障主要包括:p無法識別;p介質(zhì)故障;p即將失效;p物理故障;l出現(xiàn)硬盤故障時,硬盤指示燈都將紅燈常亮,并產(chǎn)生相應(yīng)告警,硬盤故障時會導(dǎo)致RAID組降級甚至失效。出現(xiàn)介質(zhì)故障時可能會導(dǎo)致部分數(shù)據(jù)損壞。l硬盤與槽位接觸不良或硬盤故障l硬盤出現(xiàn)不可修復(fù)的壞道l硬盤可修復(fù)壞道達到閾值l硬盤磁頭、電機等故障l故障場景Copyri
19、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 26 硬盤故障l存儲系統(tǒng)硬盤故障排查思路注:這里除接觸不良外都可以通過更換硬盤的方式解決,如果涉及到RAID失效時,請參考RAID故障進行處理。所有更換的硬盤必需是經(jīng)過華為認證且和產(chǎn)品型號對應(yīng)的硬盤,其他途徑獲取的硬盤存儲系統(tǒng)無法識別。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 27 硬盤故障l硬盤SMART信息簡介p硬盤SMART信息是硬盤生產(chǎn)商們建立的,硬盤上保存的
20、跟執(zhí)行情況、可靠程度、讀寫錯誤率等屬性相關(guān)的數(shù)據(jù);這些屬性反應(yīng)了硬盤當前的健康狀態(tài),通過分析這些數(shù)據(jù)能判斷該硬盤是否具有風險,比如硬盤即將失效就是通過SMART信息來判斷的,SMART信息中有如下常用的屬性:Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 28 硬盤故障硬盤SMART信息簡介smartsmart判斷標準判斷標準Informational Exceptions log page正常情況該log page內(nèi)容在smart信息中為:IE asc = 0 x00 ascq = 0 x00 No
21、 additional sense information若為其他打印,如asc和ascq為其他值,則說明硬盤存在異常,如溫度超標,或者硬盤出現(xiàn)即將失效的故障Total uncorrected errors正常情況該內(nèi)容在smart信息中為:Total uncorrected errors = 0若不為0,且為一個較大的值,則說明該盤存在介質(zhì)故障的風險Grown Defect List正常情況該內(nèi)容在smart信息中為:Grown Defect List is empty,即Grown Defect List為空。若 “0 x000084-00-000004D3”這樣格式的打印,若行數(shù)較多,則
22、說明存在介質(zhì)故障風險。Invalid DWORD count正常情況該內(nèi)容在smart信息中為:Invalid DWORD count = 0若為一個較大的值則說明該盤存在鏈路故障的風險Running disparity error count正常情況該內(nèi)容在smart信息中為:Running disparity error count = 0若該值不為0則說明該盤存在鏈路故障的風險Loss of DWORD synchronization正常情況該內(nèi)容在smart信息中為:Loss of DWORD synchronization = 0若為一個較大的值則說明該盤存在鏈路故障的風險Copyright 2013 Huawei
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物化學(xué)(第4版)課件 第7章 脂質(zhì)代謝
- 超高性能混凝土框架節(jié)點抗震性能研究
- 兒童健康檢查培訓(xùn)
- 盧桑斯的權(quán)變管理理論
- 黃疸的問診要點與護理診斷
- 頸部疾病病人護理課件
- 我的健康早餐分享
- 幼兒春游欣賞活動方案設(shè)計
- 健康素養(yǎng)大講堂
- 預(yù)防網(wǎng)絡(luò)詐騙班會課件
- 美國技術(shù)服務(wù)合同英文翻譯
- 企業(yè)數(shù)字化生存指南
- 醫(yī)院醫(yī)療器械臨床試驗項目資料備案清單
- YDT 5206-2023寬帶光纖接入工程技術(shù)規(guī)范
- 新疆警察學(xué)院面試問題及答案
- 小學(xué)三到六年級全冊單詞默寫(素材)-2023-2024學(xué)年譯林版(三起)小學(xué)英語
- 鐵嶺市高校畢業(yè)生“三支一扶”計劃招募筆試真題2022
- 天然氣泄漏事故演練方案及評估
- 《養(yǎng)老機構(gòu)認知障礙照護專區(qū)設(shè)置與服務(wù)規(guī)范》
- 婦科炎癥健康教育課件
- 兒科護理學(xué)(高職)全套教學(xué)課件
評論
0/150
提交評論