版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
修訂記錄課程編碼適用產(chǎn)品產(chǎn)品版本課程版本ISSUE開發(fā)/優(yōu)化者時間審核人開發(fā)類型(新開發(fā)/優(yōu)化)本頁不打印第五章SAN存儲系統(tǒng)故障診斷與排除目標學完本課程后,您將能夠:熟悉SAN存儲系統(tǒng)故障處理流程、規(guī)范、工具和資源了解存儲系統(tǒng)故障定義和主要分類掌握存儲陣列設(shè)備典型場景故障診斷思路和處理方法掌握SAN網(wǎng)絡(luò)故障診斷思路和處理方法掌握SAN存儲主機側(cè)典型故障診斷思路和處理方法目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)1.1
SAN存儲系統(tǒng)故障診斷基本概念;1.2SAN存儲系統(tǒng)故障診斷基本流程和工具軟件。SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除故障管理定義故障管理定義:指系統(tǒng)出現(xiàn)異常以及為預(yù)防系統(tǒng)出現(xiàn)異常所進行的管理操作,是用來動態(tài)地維持系統(tǒng)或網(wǎng)絡(luò)正常運行并達到一定的服務(wù)水平的一系列活動。故障驅(qū)動型維護:遇到問題時、系統(tǒng)出現(xiàn)性能故障時或者接到系統(tǒng)故障事故報告后才去進行維護的方法??赡軙鲆晫ο到y(tǒng)和網(wǎng)絡(luò)健康性很重要的長期維護任務(wù)??赡懿粫凑站S護任務(wù)的優(yōu)先級或緊急程度來執(zhí)行維護任務(wù)。不能防患于未然。主動維護:時時監(jiān)控系統(tǒng)狀態(tài)、日志告警,分析系統(tǒng)潛在或可能出現(xiàn)的問題或異常,提前或及時修復處理,減少系統(tǒng)異常帶來客戶業(yè)務(wù)和數(shù)據(jù)的損失。結(jié)構(gòu)化故障管理采取預(yù)定義的網(wǎng)絡(luò)維護步驟和維護流程來進行主動的網(wǎng)絡(luò)維護。很多組織制定了相關(guān)的維護方法并形成知識體系。服務(wù)臺事件管理問題管理配置管理變更管理發(fā)布管理故障管理配置管理計費管理性能管理安全管理性能管理故障管理配置管理計費管理安全管理FCAPSTMN(電信類)ITIL故障診斷與處理素質(zhì)觀察全局謹慎行事數(shù)據(jù)備份保持冷靜保持溝通技術(shù)和經(jīng)驗責任心、客戶數(shù)據(jù)與業(yè)務(wù)至上流程規(guī)范故障處理規(guī)范與要求1、了解客戶現(xiàn)場情況2、查看設(shè)備檔案信息3、了解問題單目前的處理接口人4、和客戶溝通到達現(xiàn)場時間5、準備好相應(yīng)的備件、工具、軟件和文檔6、配置和和必要業(yè)務(wù)數(shù)據(jù)備份1、和客戶溝通故障處理的流程和方案2、協(xié)助遠程維護人員搭建遠程環(huán)境3、收集詳細故障信息4、按照方案進行故障維護的操作1、配置數(shù)據(jù)備份2、確認業(yè)務(wù)恢復情況3、分析問題產(chǎn)生的根本原因并提出整改方案4、更新設(shè)備檔案5、建議客戶修改密碼維護前維護中維護后故障處理常用方法替換法替換法就是使用一個工作正常的部件去替換一個懷疑工作不正常的部件,從而達到定位故障、排除故障的目的。這里的部件,可以是一段光纖跳線、一根網(wǎng)線、一個控制器或者一個級聯(lián)模塊。告警信息分析法系統(tǒng)發(fā)生故障時,一般會伴隨有大量的告警信息產(chǎn)生,通過查看告警信并配合對性能數(shù)據(jù)的分析,可大概判斷出所發(fā)生故障的類型和位置。最小測試法拔去懷疑有故障的板卡和設(shè)備,并根據(jù)機器在此前和此后的運行情況對比,判斷定位故障所在。拔插板卡和設(shè)備的基本要求是保留系統(tǒng)工作的最小配置,以便縮小故障的范圍。
故障處理常用方法替換法替換法就是使用一個工作正常的部件去替換一個懷疑工作不正常的部件,從而達到定位故障、排除故障的目的。這里的部件,可以是一段光纖跳線、一根網(wǎng)線、一個控制器或者一個級聯(lián)模塊。告警信息分析法系統(tǒng)發(fā)生故障時,一般會伴隨有大量的告警信息產(chǎn)生,通過查看告警信并配合對性能數(shù)據(jù)的分析,可大概判斷出所發(fā)生故障的類型和位置。最小測試法拔去懷疑有故障的板卡和設(shè)備,并根據(jù)機器在此前和此后的運行情況對比,判斷定位故障所在。拔插板卡和設(shè)備的基本要求是保留系統(tǒng)工作的最小配置,以便縮小故障的范圍。
目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)1.1
SAN存儲系統(tǒng)故障診斷基本概念1.2SAN存儲系統(tǒng)故障診斷基本流程和工具軟件SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除故障處理一般進程了解故障基本信息收集詳細信息分析原因故障處理驗證恢復故障排除編制和更新文檔循環(huán)2循環(huán)1YN存儲系統(tǒng)與網(wǎng)絡(luò)故障診斷工具存儲設(shè)備維護工具軟件網(wǎng)絡(luò)維護工具軟件性能測試工具軟件業(yè)務(wù)分析軟件對存儲端設(shè)備進行信息收集和日志分析的工具軟件,可以從華為的官方網(wǎng)站上下載網(wǎng)絡(luò)抓包的工具軟件,可以從相應(yīng)軟件的官網(wǎng)上下載,比如Packetyzer、WireShark可以對存儲空間的性能進行測試的工具軟件,可以從相應(yīng)的網(wǎng)站上下載,比如iomter、iozone操作系統(tǒng)或者業(yè)務(wù)軟件自帶的信息查看和收集工具配置異常顯示此系統(tǒng)故障的信息顯示日志分析演示網(wǎng)絡(luò)維護工具故障診斷文檔資源文檔資源備件BOM信息信息收集指導書產(chǎn)品文檔兼容性信息設(shè)備檔案信息案例和預(yù)警信息預(yù)警發(fā)布與處理預(yù)警的發(fā)布預(yù)警的處理預(yù)警預(yù)警的獲取華為的官方網(wǎng)站上可以獲取已發(fā)布的預(yù)警信息華為會不定期的發(fā)布有關(guān)產(chǎn)品的預(yù)警信息根據(jù)預(yù)警的緊急程度安排整改或升級的計劃存儲系統(tǒng)與網(wǎng)絡(luò)常用故障診斷命令showctrlinfo-控制器狀態(tài)showsys-系統(tǒng)狀態(tài)showrg-RAID狀態(tài)showlun-LUN狀態(tài)ethtool-網(wǎng)卡物理狀態(tài)
陣列常見命令目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除2.1SAN存儲陣列故障分類和定義2.2SAN存儲陣列故障診斷流程2.3SAN存儲陣列典型故障診斷思路和方法SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除SAN存儲系統(tǒng)故障分類-硬件SAN存儲系統(tǒng)故障主要分為:硬件類故障控制器故障(異常)硬盤故障電源故障風扇故障電池故障鏈路故障管理網(wǎng)口異常光模塊異常接口卡故障軟件類故障系統(tǒng)配置異常(不一致)RAID組降級RAID組失效重構(gòu)異常Copyback異常性能問題軟件BUGSAN存儲系統(tǒng)故障分類-軟件SAN存儲系統(tǒng)故障主要分為:硬件類故障控制器故障(異常)硬盤故障電源故障風扇故障電池故障鏈路故障管理網(wǎng)口異常光模塊異常接口卡故障軟件類故障系統(tǒng)配置異常(不一致)RAID組降級RAID組失效重構(gòu)異常Copyback異常性能問題軟件BUG目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除2.1SAN存儲陣列故障分類和定義2.2SAN存儲陣列故障診斷流程2.3SAN存儲陣列典型故障診斷思路和方法SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除SAN存儲陣列故障診斷流程SAN存儲日志系統(tǒng)1日志在位置1、登錄存儲CLI進入debug模式;2、在/OSM下面有l(wèi)og、log_conf_local兩個目錄存放存儲的調(diào)試日志,通過信息收集工具收集的也包括這兩部分。SAN存儲日志系統(tǒng)2A部分是系統(tǒng)配置數(shù)據(jù)B部分包括debug和backup_info;
Debug_information目錄含控制器當前message和SESlog。OSM目錄的log_conf_local含控制器的歷史日志。OSM目錄的log_conf_mirror只含對端控制器日志信息。C部分為硬盤smart信息其它為系統(tǒng)當前(收集日志時)運行狀態(tài)信息以及配置信息
SAN存儲日志系統(tǒng)3Debug_information目錄下最重要的信息為message和SES_log。log_reset.txt記錄系統(tǒng)重啟次數(shù)和原因。log_debug.txt記錄系統(tǒng)內(nèi)核日志信息。通過ISM日志無法分析定位的故障可以分析以上3個日志文件。目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除2.1SAN存儲陣列故障分類和定義2.2SAN存儲陣列故障診斷流程2.3SAN存儲陣列典型故障診斷思路和方法SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除SAN存儲陣列故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗RAID/LUN組失效故障診斷思路RAID/LUN故障處理步驟1序號問題解決方案1硬盤故障1、查看控制器版本是否帶BST功能,如果有則打開BST功能;如果控制器版本沒有BST功能,需要升級控制器軟件版本到帶BST功能版本S2600、S5000V1R5及其以上版本,S5000TV1R1及其以上版本帶BST功能;2、更換故障硬盤,完成重構(gòu)或回拷;2雙盤失效引起RAID失效1、進入MML查看控制器版本是否帶BST功能,要求打開BST功能。如果不帶BST功能需要升級控制器軟件版本至V100R005;MML>bstenable3,顯示Status:1(1-enable2-disable)2、設(shè)置系統(tǒng)中所有熱備盤為空閑盤,避免在處理故障過程,系統(tǒng)系統(tǒng)自動重構(gòu)3、通過分析故障硬盤日志,確定硬盤故障順序,先revive后失效硬盤和lun舉例:MML>revivedisk03//revive(0.3)硬盤MML>revivelun2//revivelunid=2的lunMML>reviveraidlun0//reviveraid組0下所有l(wèi)un4、用備件硬盤更換最先失效硬盤,啟動自動重構(gòu),5、恢復熱備盤狀態(tài);RAID/LUN故障處理步驟2序號問題解決方案3硬盤被拔出1、在ISM管理軟件中查看硬盤被拔插先后順序,記下先失效硬盤槽位;2、使用在CLI執(zhí)行showdisk–p查看所有硬盤是否在位;3、插入后失效的硬盤,revivie硬盤和失效RAID組下的LUN;4、將后拔出的硬盤插入系統(tǒng)框,啟動重構(gòu);4級聯(lián)框異常查看ISM日志確認級聯(lián)框是否掉電,將級聯(lián)框上電,RAID組和lun一般會自動恢復如果RAID組成員盤有跨兩個框的情況,需要按照硬盤被拔出的操作方式恢復RAID5控制框異常掉電1、revive失效硬盤(熱備盤除外)、LUN,(第03塊盤后故障)舉例:MML>revivedisk03//revive(0.3)硬盤MML>revivelun2//revivelunid=2的LUNMML>reviveraidlun0//reviveraid組0下所有LUN2、更換先失效硬盤,啟動自動重構(gòu)至本地;3、revive熱備盤、恢復熱備盤狀態(tài);6LUN失效RAID正常1、升級存儲系統(tǒng)軟件,打開BST功能;2、檢查系統(tǒng)熱備盤是否正常;3、revivie失效的lun,拔插先失效硬盤啟動重構(gòu);RAID/LUN故障診斷總結(jié)對于RAID/LUN故障,務(wù)必要有正確的診斷思路:登錄管理頁面ISM/OSM查看告警日志;收集存儲底層日志,定位RAID/LUN失效原因及硬盤失效先后順序;擬定RAID/LUN恢復方案以及恢復失敗時保全數(shù)據(jù)安全的補救措施;恢復RAID/LUN基本原則:revive后失效硬盤,重構(gòu)先失效硬盤;重構(gòu)前先打開控制器軟件BST功能,啟動硬盤壞道標記功能;沒有BST功能的版本需要先做存儲系統(tǒng)軟件升級;硬盤的物理狀態(tài)為normal才能在MML下恢復邏輯狀態(tài);RAID/LUN故障案例分享雙盤失效問題:描述問題某局點一臺S2600在運行過程中系統(tǒng)狀態(tài)指示燈,兩塊硬盤故障指示燈亮紅燈,主機側(cè)存儲資源丟失導致業(yè)務(wù)中斷。分析原因LUN狀態(tài)為fault(CLI:showlun)RAID組狀態(tài)為fault(CLI:showrg)同一RAID組中有兩塊以上硬盤邏輯狀態(tài)fault(CLI:showdisk–l)告警:有兩塊以上硬盤失效,失效原因為HardwareError的告警。解決步驟:詳細操作步驟見備注。SAN存儲陣列故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異常或失敗2.3.10升級失敗2.3.11硬盤框擴容失敗控制器故障診斷思路控制器故障原因分析和處理方法序號問題解決方案1控制器異常復位如何收集日志可用下面兩種方式收集日志1、通過信息收集工具收集存儲系統(tǒng)日志2、debug下運行os_backupinfo.shfalse命令收集2如何查看控制器啟動失敗mml下S2600R1執(zhí)行devkeyvar、S2600R2&R5執(zhí)行devstatus、S5000R1執(zhí)行devfailreason、S5000R2&R5執(zhí)行devstatus查看3串口無打印如果串口無打印,要使用COM1和COM2兩個串口進行綜合判斷,在滿足下面幾個條件時可以判斷為控制器故障。1、確保串口線無問題2、確保存儲已上電3、確保波特率等已配置正確重啟控制器后依舊故障,更換控制器??刂破鞴收显\斷總結(jié)對于控制器故障,務(wù)必要有正確的診斷思路:查看控制器指示燈查看管理軟件告警信息控制器重啟,通過CLI觀察啟動狀態(tài),記錄啟動異常界面和錯誤在故障診斷過程中,需要注意以下幾點:在拔插控制器之前,務(wù)必保證業(yè)務(wù)已停止或者已切換到對端控制器在切換業(yè)務(wù)到對端控制器后,務(wù)必在主機側(cè)檢查系統(tǒng)中多路徑軟件已安裝且生效確認cahce臟數(shù)據(jù)是否已經(jīng)保存,見備注;控制器故障診斷案例分享描述問題:某局點S2600控制器B亮紅燈、系統(tǒng)狀態(tài)指示燈亮紅燈,業(yè)務(wù)切換至A控。分析原因:控制器B硬件故障解決步驟:登錄ISM軟件,發(fā)現(xiàn)有緊急告警:控制器B離線;用信息收集工具收集日志,從日志中發(fā)現(xiàn)以下信息:Jan401:12:13linuxkernel:[8698236497]SYS_ERR:SystemisalreadyinSingleControllerstatus@[jif=8698236497]SYS_EmmFanSingleFault:5805Jan401:11:43linuxkernel:[8698206379]SYS_ERR:Synchronizefaultrecordfailforcontrolleroffline初步判斷控制器B故障;拔插控制器、拔插電源,B控均無法上電,判定控制器故障;申請備件,更換控制器,根據(jù)故障組網(wǎng)恢復主機端口連接,檢查路和業(yè)務(wù)狀態(tài);驗證恢復:檢查控制器指示燈是否綠燈常亮;在ISM管理軟件上檢查控制器是否在線,狀態(tài)是否為normal,確認業(yè)務(wù)正常切換至B控;SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異常或失敗2.3.10升級失敗2.3.11硬盤框擴容失敗電源、風扇、電池故障診斷思路電源/風扇/電池故障原因分析和處理方法序號問題解決方案1電源,電池故障1、觀察指示燈確認電源輸入輸出狀態(tài)是否正常,用萬用表檢查機房供電是否正常;2、在命令行下運行showpower、showbattery電源、電池狀態(tài)是否為:normal,異常狀態(tài)時,重新拔插,故障依舊則更換;2查看電池壽命admin:/>showbattery參數(shù)RemainLife(days)顯示電池生命剩余天數(shù)3更換電源電池模塊1、插拔電源模塊時用力要均勻,避免用力過大或強行插拔等操作,以免損壞部件或?qū)е陆硬寮收?、更換電源模塊時,拆卸和安裝電源模塊的時間建議控制器在2分鐘內(nèi),特別是風扇模塊;具體操作步驟詳見相關(guān)產(chǎn)品文檔《OceanstorS2600存儲系統(tǒng)故障處理-(V100R003_01).pdf》5.3章節(jié)SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗License問題原因分析和處理方法License注冊失敗問題小結(jié):查看license文件,是否缺失功能項查看license文件中的SN是否與物理陣列SN匹配收集日志,反饋給400工程師協(xié)助定位注意:在申請license文件時,反饋的LAC、ESN務(wù)必核實準確序號問題解決方案1License注冊失敗或啟用失敗1、確認ISM版本是否最新版本;2、使用寫字板打開license文件,查看Resource項是否與項目需求配置一致;3、查看ESN號是否與當前設(shè)備序列號匹配;4、是否存在合并license;License問題故障診斷案例分享描述問題:某局點S5500新擴容LUN虛擬快照功能,導入擴容license后在ISM軟件上查看虛擬快照為未啟用。分析原因:查看客戶申請的license文件,發(fā)現(xiàn)文件中缺失function信息。解決步驟:啟動license回退流程,重新申請license文件。驗證恢復:在CLI命令行下查看license信息。admin:/>showlicensefunction==============================================================LicenseFunctionList--------------------------------------------------------------FeatureName|HyperImageDeadlineforrunning|PermanentFunctioninformationname|LCC3SNAPC01SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗主機發(fā)現(xiàn)LUN失敗故障診斷思路主機發(fā)現(xiàn)LUN失敗原因分析和處理步驟序號問題解決方案1iSCSI鏈路故障1、檢查主機網(wǎng)口、存儲主機端口指示燈是否正常2、檢查網(wǎng)線是否存在質(zhì)量問題(替換法)3、排查主機是否能ping通存儲業(yè)務(wù)IP,端口是否telnet成功telnet0032602FC鏈路故障1、檢查主機HBA卡指示燈是否顯示正常2、檢查存儲光模塊指示燈是否正常3、檢查FC速率和端口模式是否匹配4、檢查主機側(cè)HBA卡驅(qū)動版本和加載狀態(tài)3iSCSI配置問題1、檢查啟動器配置是否已添加存儲目標器信息,是否登錄成功2、檢查存儲是否為主機添加正確啟動器端口3、檢查存儲是否為主機添加lun映射4FC配置問題1、檢查存儲是否為主機添加正確端口信息2、檢查存儲是否為主機添加正確lun映射主機發(fā)現(xiàn)LUN失敗故障診斷總結(jié)在遇到主機發(fā)現(xiàn)lun失敗問題是,應(yīng)從以下幾個方面去排查問題:鏈路是否正常,交換機配置是否正常iSCSI啟動器配置是否正確HBA卡驅(qū)動是否正確、速率是否匹配光纖模塊是否正常存儲端主機映射是否正確主機發(fā)現(xiàn)LUN失敗案例分享描述問題:某局點S2600存儲映射一個LUN給一臺Windows2003主機,在主機端掃描不到LUN操作系統(tǒng)版本:windows2003R232bitHBA卡:HPFC2142SRHBA卡驅(qū)動版本:
服務(wù)器型號:HPDE580G7分析原因:HBA卡驅(qū)動加載異常。解決步驟:排查光纖連接狀態(tài),指示燈狀態(tài)正常檢查HBA卡狀態(tài),設(shè)備管理否有帶問號的未知設(shè)備,如果有HBA驅(qū)動未加載重裝HBA卡驅(qū)動,并重啟服務(wù)器,重新發(fā)現(xiàn)設(shè)備成功SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗登錄ISM失敗故障診斷思路圖2-5登錄ISM失敗故障診斷思路登錄ISM失敗原因分析和處理步驟序號問題解決方案1主機ISM端口是否被占用在windows主機的DOS命令模式下輸入netstat–nab查看哪個進程占用了80,5988,5989,7890,8000-8090,8901等端口,確認占用端口的服務(wù)可以停止,在任務(wù)管理器中結(jié)束掉占用此端口的應(yīng)用程序。2ISM服務(wù)未啟動1在陣列debug模式下切換目錄到“/ISM/ism_cs/sbin”.輸入命令Service.shshow,運行該命令,命令行顯示lighttpdserviceisrunning,則表明WEB服務(wù)正常;不正常需要重啟服務(wù)service.shstart。2執(zhí)行Storage:/ISM/ism_ap/agent/conf#./show_agent.sh,查看agent是否啟動,沒有啟動成功需要重啟3加載或雙擊ISM后,能否正常彈出ISM修改本機JWS緩存文件:檢查本機JAVA虛擬機是否申請的最大內(nèi)容能否為512M,如果能否申請到,將會顯示當前的java版本信息。如果申請不到,需要手動釋放PC機的一些資源。登錄ISM失敗故障診斷總結(jié)導致ISM登錄失敗主要有下面幾種原因:端口被占用服務(wù)未正常啟動客戶機JRE環(huán)境異?;騄AVA版本不匹配,查看本地java版本命令:java–versionISM版本兼容性問題登錄ISM失敗案例分享描述問題:江蘇某局點S6800E在開局過程中ISM登錄失敗,管理口可以ping通,SSH也可以登錄到控制器命令行。分析原因:工程師在使用筆記本上自帶ISM軟件登錄,ISM版本與控制器內(nèi)自帶ISM版本不兼容造成解決步驟:筆記本與存儲S6800E管理口可以通信的情況下,在瀏覽器輸入管理口ip地址,下載S6800E控制器自帶ISM軟件并安裝登錄即可。驗證恢復:重新登錄ISM軟件成功,功能選項顯示正常。SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗主機IO錯誤或超時故障診斷思路主機IO錯誤或超時失敗故障診斷總結(jié)對于FCSAN建議在存儲側(cè)打開端口統(tǒng)計查看FC端口是否有誤碼網(wǎng)絡(luò)阻塞可以通過PING命令查看網(wǎng)絡(luò)響應(yīng)時間,一般出現(xiàn)丟包或者延遲較大可以初步判斷為網(wǎng)絡(luò)阻塞;通過直連主機與存儲設(shè)備測試,排查是交換網(wǎng)絡(luò)阻塞還是存儲原因?qū)е麓鎯σ鸬腎O超時問題一般都是硬盤故障引起,登錄至控制器并進入debug模式,使用iostat–x–d1命令查看磁盤的io情況,當觀察到某些磁盤的平均服務(wù)時間(svctm)在一段時間內(nèi)明顯大于其它磁盤,或者利用率(%util)接近100%(而其它盤較空閑),說明該盤可能是瓶頸。主機IO錯誤或超時失敗案例分享描述問題:在客戶測試的時候登錄存儲的debug下查看IO情況,執(zhí)行iostat–xd2命令,查看成員盤的讀寫狀態(tài)數(shù)據(jù)await(平均等待時間)和util(利用率),一般觀察時間為30S。分析解決:確認sddg硬盤在統(tǒng)計數(shù)據(jù)中出現(xiàn)了await在一段時間明顯大于其他硬盤且util值為100%。可以看出該盤性能明顯低于其它硬盤,該硬盤為慢盤。直接更換該硬盤,待重構(gòu)完成后,再測試此問題是否解決。SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗DB/配置類問題診斷思路DB/配置類問題分析和處理步驟序號問題解決方案1DB不一致
1、先確認是否備份DB,沒有備份手動導出DB,清除后再重新導入exportcofferdb-i-di0-uadmin-p123456-f/tmp/disk0.dat(將4塊保險箱盤的DB都導出)
2、清除存儲系統(tǒng)DB(在線系統(tǒng)需要謹慎操作)S5000V1R1:claencofferdbormml:syscleardbS5000V1R2:mml:vaultsysclearS5000S2600V1R5:claercofferdbormml:vaultsysclearS5600T:mml>nvramclearheadS5500T:mml>vaultsysclear3、在ISM導入備份DB,檢查系統(tǒng)配置是否恢復;2DB丟失
如果沒有備份DB,出現(xiàn)系統(tǒng)配置丟失,可以通過查看run_log獲取所有創(chuàng)建RAID組LUN的信息,從中分析出現(xiàn)在設(shè)備應(yīng)該包含的RAID及LUN的配置信息。確定RAID組包含的硬盤、RAID級別、名稱、RAIDID,該RAID組下創(chuàng)建的LUN的大小,分條深度、LUN名稱、創(chuàng)建順序(以上信息務(wù)必準確,一旦與原配置有差別,可能造成數(shù)據(jù)丟失)DB配置類案例分享升級前后版本DB結(jié)構(gòu)不一致導致配置丟失問題描述對設(shè)備進行過上下電操作或升級操作;設(shè)備重新上電起來后,業(yè)務(wù)配置RAID、LuN等配置信息丟失。故障處理將預(yù)先導出備份的DB重新導入系統(tǒng),重新導入后系統(tǒng)會復位;在未備份DB的情況下,使用下面的方法恢復:根據(jù)先前保存的運行數(shù)據(jù)整理RAID組以及LUN的配置過程;確認當前版本是否支持創(chuàng)建LUN不格式化的命令,如果不支持,需要先升級到支持該命令的版本再做下面的操作。支持創(chuàng)建LUN不格式化的命令的版本如下備注:嚴格按照整理的RAID組及LUN的配置過程,重新創(chuàng)建RAID組和LUN,注意創(chuàng)建LUN需要使用創(chuàng)建LUN不格式化的命令創(chuàng)建(在創(chuàng)建LUN的命令最后加-f,如createlun-i0-nLun005-s20000-u64-ca–f;將LUN重新映射給主機,并恢復主機側(cè)業(yè)務(wù)。SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異常或失敗2.3.10升級失敗2.3.11硬盤框擴容失敗SAN存儲系統(tǒng)啟動問題診斷思路SAN存儲系統(tǒng)啟動問題分析和處理步驟如何確定系統(tǒng)是否啟動失敗從系統(tǒng)上電后15分鐘內(nèi)控制框還未正常啟動(系統(tǒng)狀態(tài)指示燈一直閃橘黃色),初步可以判斷系統(tǒng)上電失敗。進入MML模式下sysstatus查看系統(tǒng)狀態(tài),SystemRunningStatus:[normalmode]normalmode表明系統(tǒng)上電是成功的.如果不是normalmode,可以判斷為系統(tǒng)上電失敗.如果SystemRunningStatus的狀態(tài)為flashcache,則此時是刷臟數(shù)據(jù)的過程,屬于正常狀態(tài),待刷盤完成就顯示正常模式。SAN存儲系統(tǒng)啟動問題分析和處理步驟存儲S2600S5000V1R5版本及S5000T系列,通過mml>sysstatus檢查Systemerrorreason,判斷系統(tǒng)啟動失敗原因。
序號Systemerrorreason定位方法定位結(jié)果1.01masterDEVstartVAULTfailed查看設(shè)備管理啟動情況設(shè)備管理啟動保險箱失敗1.02masterstartVAULTfailed查看設(shè)備管理啟動情況主控啟動保險箱失敗1.03readdbfailed查看設(shè)備管理啟動情況設(shè)備管理啟動成功,讀DB失敗1.04masterstartDEVfailed查看設(shè)備管理啟動情況設(shè)備管理啟動失敗SAN存儲系統(tǒng)啟動問題分析和處理步驟檢查設(shè)備管理開工狀態(tài)通過mml>devstate請檢查failreason:devispoweron表示設(shè)備管理正在啟動。說明:查詢設(shè)備管理啟動具體狀態(tài),根據(jù)錯誤代碼查詢啟動失敗處理方法。
SAN存儲系統(tǒng)啟動問題分析和處理步驟檢查框的狀態(tài)命令行:mml>devframeinfo主要是檢查框當前的狀態(tài),框的MAC,F(xiàn)WWN,WWN,SN以及框的SCSIAddr,當前框上盤的數(shù)量以及SCSIADDRSAN存儲系統(tǒng)啟動問題分析和處理步驟檢查硬盤狀態(tài)mml>devdiskinfo檢查當前所有盤的狀態(tài),盤所在的框號和槽號,綜合狀態(tài),本端和對端狀態(tài),WWN以及盤的類型,廠商,是否被隔離,是否即將失效。SAN存儲系統(tǒng)啟動問題分析和處理步驟檢查接口板的狀態(tài)mml>devboardinfo檢查當前所有板的WWN,板的框號和槽號,綜合狀態(tài),A控和B控狀態(tài)以及板的電子標簽。SAN存儲系統(tǒng)啟動問題分析和處理步驟檢查當前DB中設(shè)備管理記錄信息mml>devgetdbdevinfo查看DB中記錄的控制框產(chǎn)品型號以及SN。mml>devframerecord查看DB中記錄的框MAC地址。SAN存儲系統(tǒng)啟動問題分析和處理步驟序號打印描述定位方法解決方法1failreasonid為3:0&1or2&3disk--->notexist,ormaybediskinvalid請檢查4塊保險箱盤是否插入保證0&1號槽位和2&3號槽位至少有一個保險箱盤確認保險箱槽位硬盤狀態(tài)2failreasonid為8:processvaultdisk20minutetimeout1.請檢查保險箱所在的框是否插入。2.請檢查保險箱所在的框接的接口卡是否插在控制框A0和B0槽位。3.請檢查保險箱所在的框連接的接口卡端口是否為第一個下行級聯(lián)口,及狀態(tài)4.請檢查級聯(lián)線是否連接保險箱所在的框的上行級聯(lián)口1.連接保險箱所在為的接口卡必須插在A0和B0槽位。2.級聯(lián)線必須插在接口卡的第一個下行級聯(lián)口。3.級聯(lián)線必須連接級聯(lián)框的上行級聯(lián)口及從左數(shù)第一個端口。SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗升級失敗問題診斷思路升級失敗問題總結(jié)S5000V1R1升級到V1R2注意:格式化未完成不允許升級;管理口IP、日志、License丟失,升級后需要重新添加;S5000V1R2升級到V1R5能做到平滑升級S5000V1R1升級到V1R5,需要下先升級到V1R2,再升級到V1R5,直接由V1R1升級到V1R5可能導致DB丟失、管理口IP、日志、License丟失DB原始數(shù)據(jù)還在,可通過回退版本恢復S5000V1R5和S5000TV1R1后續(xù)版本均可實現(xiàn)平滑升級,不需要升級中間版本;升級失敗問題案例分享描述問題與分析S2600R1直接升級到S2600R5,未先升級到S2600R2過渡;S2600R1升級到S2600R5未轉(zhuǎn)換DB配置數(shù)據(jù),升級成功后會發(fā)現(xiàn)DB配置丟失。解決方法參考備注SAN存儲系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風扇、電池故障2.3.4License問題2.3.5主機發(fā)現(xiàn)存儲設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機IO錯誤或超時2.3.8DB/配置丟失或不一致2.3.9SAN存儲系統(tǒng)啟動異?;蚴?.3.10升級失敗2.3.11硬盤框擴容失敗硬盤框擴容失敗問題診斷思路描述問題某局點S5000在線擴容硬盤框,接入新硬盤框前,存儲設(shè)備運行正常,接入硬盤框后所有硬盤上報失效,在線擴容失敗。分析原因新接入的硬盤框與環(huán)路速率不匹配導致FC環(huán)路故障解決方法參考備注硬盤框擴容失敗問題案例分享思考題存儲系統(tǒng)故障分類中,請描述控制器、硬盤、RAID主要故障分類和特征?存儲系統(tǒng)故障診斷流程中,一般從哪些方面進行排查系統(tǒng)故障?存儲側(cè)CLI常用的狀態(tài)查詢命令有哪些?SAN存儲系統(tǒng)的日志通常有哪些文件組成?Debug_information下常用的兩個文件是?RAID失效恢復中,為什么需要先恢復后失效的硬盤?RAID失效故障處理中需要重點注意哪些事項?控制器故障后,一般最直接查看狀態(tài)和關(guān)鍵錯誤信息的方式是哪種?主機發(fā)現(xiàn)LUN失敗,主要的一個原因是鏈路故障,請問一般如何快速診斷?FC和iSCSI有什么區(qū)別?導致ISM登錄失敗的原因,你能說出常見的幾種嗎?查看主機IO狀態(tài)的命令有哪些?一般如何使用?如何判斷存儲系統(tǒng)啟動失敗,通過哪些關(guān)鍵信息斷定?實驗8-1:主機LUN業(yè)務(wù)異常故障診斷實驗實驗內(nèi)容與目標完成本實驗,您應(yīng)該能夠:掌握主機LUN異常,引起業(yè)務(wù)異常故障診斷與處理實驗時間2h實驗硬件、軟件版本與組網(wǎng)IPSAN組網(wǎng):每套IPSAN包含1臺Windows或Linux主機,主機分別用1個GE網(wǎng)口連接1臺交換機,陣列的每個控制器都與交換機相連,組成多路徑組網(wǎng)。實驗8-2:SAN存儲系統(tǒng)登錄失敗診斷實驗實驗內(nèi)容與目標完成本實驗,您應(yīng)該能夠:掌握存儲管理登錄失敗問題或故障診斷與處理實驗時間1h實驗硬件、軟件版本與組網(wǎng)IPSAN組網(wǎng):每套IPSAN包含1臺Windows或Linux主機,主機分別用1個GE網(wǎng)口連接1臺交換機,陣列的每個控制器都與交換機相連,組成多路徑組網(wǎng)。目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲主機軟件與主機側(cè)故障診斷與排除SAN網(wǎng)絡(luò)故障分類和定義按故障對象不同分:IPSAN:1)IP無法連通;2)端口限制:3)VLAN設(shè)置不合理:4)交換機端口故障:5)網(wǎng)卡故障:FCSAN:1)端口模式不匹配;2)端口速率不匹配;3)兼容性;4)SFP光功率不足;5)光纖或端口物理故障;6)HBA卡驅(qū)動加載異常;按故障性質(zhì)分:物理故障:硬件設(shè)備或者物理設(shè)備出現(xiàn)異常,無法正常工作;邏輯故障:設(shè)備邏輯狀態(tài)異常;例如驅(qū)動或模塊加載異常;配置異常:鏈路通信參數(shù)(速率、模式)配置不合理導致異常;SAN網(wǎng)絡(luò)故障診斷整體流程目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲主機軟件與主機側(cè)故障診斷與排除FCSAN網(wǎng)絡(luò)不通問題診斷思路FCSAN網(wǎng)絡(luò)不通問題分析與處理序號問題解決方案1陣列主機口與光纖交換機協(xié)商失敗1、更改陣列主機端口模式為點對點或者交換機模式,再重新連接
2、更改陣列主機端口速率為1G、2G或者4G再重新連接
3、升級陣列版本2交換機zone配置問題1、刪除原來的zone;
2、重新創(chuàng)建zone,保證陣列主機口和業(yè)務(wù)服務(wù)器的HBA卡在一個zone里;3HBA卡驅(qū)動問題1、卸載原有的HBA卡驅(qū)動
2、重新安裝新的HBA卡驅(qū)動4硬件故障采用替換法確定故障點,是光模塊還是光纖還是HBA卡故障,確定后更換。FCSAN網(wǎng)絡(luò)不通問題分析與處理序號問題解決方案5存儲單元端FC誤碼率過高登錄管理界面查看光纖端口誤碼情況,如果誤碼率持續(xù)增長,表示誤碼率過高,如果誤碼持續(xù)增長,屬于非正常情況,應(yīng)該從以下幾個方面排除誤碼:1)查看存儲側(cè)是否有光模塊告警信息。如是否有告警信息,存儲側(cè)光模塊工作不正常,會出現(xiàn)大量誤碼,應(yīng)及時更換存儲對應(yīng)端口光模塊或與之連接的主機側(cè)光模塊。2)更換光纖線。某些情況下,光纖線彎曲過大,會導致光纖內(nèi)部斷裂;光纖出口有沾污會導致接收光或發(fā)射光信號質(zhì)量下降,這些都有可能導致數(shù)據(jù)傳輸中產(chǎn)生誤碼。3)更換主機端口。某些情況下,主機HBA卡與光纖線接觸不好,可能造成光信號傳輸質(zhì)量不好;另外,主機側(cè)光模塊工作不正常也有可能制造誤碼。FCSAN網(wǎng)絡(luò)不通問題案例分享描述問題通過OSM或ISM或CLI查看FC主機端口誤碼數(shù)過高,且持續(xù)增長;有光模塊工作參數(shù)異常告警;通過CLI命令showfibermodel查看FC主機端口信息可以看到接收光功率過低;查看光纖線路徑,有過度彎折或束線過緊。分析原因使用光功率測試議測試光纖線兩端光功率看是否有異常;如果沒有光功率測試議,可采用交插換線的方式,將問題光纖插入別的端口進行測試在檢查完光纖線沒有問題后,通過更換光模塊的方式判斷光模塊是否有問題;更換有問題的光模塊或線后,清空FC主機端口誤碼統(tǒng)計;手動清楚告警,恢復業(yè)務(wù)或起讀寫,觀察是否仍然有誤碼產(chǎn)生;FCSAN網(wǎng)絡(luò)不通問題案例分享解決方法將S5600和光纖交換機的端口速率都調(diào)整到2Gbit/s,狀態(tài)異常。將S5600和光纖交換機的端口模式固定為L_Port,狀態(tài)異常。將同一主機端口模塊的FC0和FC1的2條鏈路斷開其中1條,狀態(tài)正常。將同一主機端口模塊的FC0和FC1的2條鏈路,分別連接到FC0和FC2,狀態(tài)正常。經(jīng)驗總結(jié)S5600存儲設(shè)備(含部分其它存儲設(shè)備)的同一主機端口模塊上,相鄰的2個FC端口由同一FC芯片控制,在連接光纖交換機時,同一芯片的2個FC口不能同時連接到同臺光纖交換機的同一個zone。目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲主機軟件與主機側(cè)故障診斷與排除IPSAN網(wǎng)絡(luò)不通問題診斷思路IPSAN網(wǎng)絡(luò)不通問題診斷思路序號問題解決方案1檢查速度和雙工模式是否為autoWindows平臺:打開網(wǎng)絡(luò)連接,本地連接狀態(tài),查看連接速度;打開設(shè)備管理器,網(wǎng)卡屬性,查看雙工模式。Linux平臺:使用命令ethtooleth0查看連接速度和雙工模式。2檢查虛擬交換機配置1、確保虛擬交換機使用的物理網(wǎng)卡和存儲業(yè)務(wù)網(wǎng)絡(luò)連通2、確保虛擬機網(wǎng)卡選擇了正確的虛擬網(wǎng)絡(luò)3檢查iSCSI主機端口配置存儲業(yè)務(wù)IP如果和主機IP地址不在同一子網(wǎng),必須設(shè)置網(wǎng)關(guān),確保路由可達。IPSAN網(wǎng)絡(luò)不通問題案例分享問題描述某局點,Windows2003服務(wù)器通過iSCSI連接存儲,在Initiator軟件添加目標端,報“ConnectionFailed.”錯誤。分析原因檢查服務(wù)器端配置,可以ping通存儲目標端IP地址;檢查存儲端配置正常,Raid組和映射沒有問題;檢查交換機配置,服務(wù)器和存儲在同一個VLAN;檢查防火墻配置,發(fā)現(xiàn)防火墻沒有開放3260端口;解決步驟在防火墻上開放服務(wù)器和存儲間3260端口驗證恢復在Initiator軟件重新添加目標端并掃描磁盤成功IPSAN網(wǎng)絡(luò)不通問題案例分享問題描述某局點客戶無法通過iSCSI掛載硬盤。通過執(zhí)行iscsiadm-mdiscovery-tst-ptargetip命令可以發(fā)現(xiàn)啟動器名稱,但是執(zhí)行iscsiadm–mnode–ptargetip–l命令卻無法login,提示iscsi驅(qū)動有問題。S2600V1R5,操作系統(tǒng)版本為RedHat5.0分析原因執(zhí)行iscsiadm-mdiscovery-tst-ptargetip可以發(fā)現(xiàn)啟動器名稱。執(zhí)行iscsiadm–mnode–ptargetip–l卻無法login。由此得出結(jié)論:openiscsi版本不一致導致S2600無法通過iSCSI連接到應(yīng)用服務(wù)器解決步驟安裝RedHat5.0第一張光盤里的openiscsi安裝包。安裝完成后,執(zhí)行iscsiadm–mnode–ptargetip–l命令使啟動器生效。實驗9-1:FCSAN網(wǎng)絡(luò)故障診斷實驗實驗內(nèi)容與目標完成本實驗,您應(yīng)該能夠:掌握FCSAN交換端口/Zone/鏈路等異常問題診斷和處理方法實驗時間1h實驗硬件、軟件版本與組網(wǎng)本實驗一臺裝有SuSE10的服務(wù)器,通過1根FC光纖線分別連接到NS2120光纖交換機,存儲設(shè)備選S2600或S5000R5,通過2跟光纖線分別連接到兩臺SNS2120光纖交換機,服務(wù)器和存儲組成了多路徑FCSAN網(wǎng)絡(luò)。實驗9-2:IPSAN故障診斷實驗實驗內(nèi)容與目標完成本實驗,您應(yīng)該能夠:掌握IPSAN網(wǎng)卡/VLAN等異常問題診斷和處理方法實驗時間1h實驗硬件、軟件版本與組網(wǎng)本實驗一臺裝有SuSE10的服務(wù)器,通過1根網(wǎng)線分別連接到GE交換機,存儲選S2600或S5000R5,通過2跟網(wǎng)線分別連接到GE交換機,服務(wù)器和存儲組成了多路徑IPSAN網(wǎng)絡(luò)。目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除4.1SAN存儲系統(tǒng)主機側(cè)故障診斷基礎(chǔ)4.2主機故障診斷流程和信息收集4.3主機故障診斷和排除存儲主機側(cè)故障分類和定義多路徑安裝失敗
多路徑包異常安裝失敗、安裝環(huán)境異常、兼容性問題安裝失敗。多路徑failover異常多路徑組網(wǎng)情況下,一條路徑故障后,failover失敗,業(yè)務(wù)受影響。多路徑failback異常多路徑failover后,多路徑無法成功failback的故障與win/linux/AIX主機兼容性問題主機軟件與OS含補丁版本、HBA含驅(qū)動、iSCSI驅(qū)動、存儲系統(tǒng)軟件間的兼容性問題和版本配套不合理帶來的問題。目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除4.1SAN存儲系統(tǒng)主機側(cè)故障診斷基礎(chǔ)4.2主機故障診斷流程和信息收集4.3主機故障診斷和排除主機側(cè)與主要軟件故障診斷流程Window平臺下Ultrapath狀態(tài)查詢命令Windows2003/2008下多路徑查詢命令命令功能upadm.exeverson顯示版本信息。upadm.exeshowdiskMap磁盤映射信息。upadm.exeshowarray服務(wù)器連接的陣列信息。upadm.exeshowarrayCtrl服務(wù)器連接控制器信息。upadm.exeshowlunIo虛擬LUNIO統(tǒng)計信息upadm.exeshowlunScsi顯示虛擬LUN詳細信息。upadm.exeshowconfig查詢多路徑配置信息Windows7/Solaris下多路徑查詢命令命令功能upadmhelp顯示幫助信息upadmshowversion查詢版本信息upadmshowarrays查詢連接的陣列信息upadmshowvluns所有映射的LUN信息。upadmshowvlunid=<ID1,ID2,...>查詢指定LUN的信息upadmshowluntrespass查看當前LUN切換功能的狀態(tài)Linux平臺下Ultrapath常用命令Liunx常用命令列表命令功能up_esn查看設(shè)備序列號信息upadmhelp查看簡要幫助信息。upadmchconfig檢查系統(tǒng)相關(guān)配置。upadmshowpath查看路徑信息。upadmshowarray查看管理的陣列信息。upadmshowversion查看版本信息。upadmshowconnectarray查看連接到服務(wù)器上的所有存儲系統(tǒng)信息upadmshowiostatarray=array_id{lun=lun_idinterval=seconds}查看IO性能統(tǒng)計upadmstarthotscan動態(tài)識別LUNupadmstartfailback手動啟動Failback功能upadmstartforcerebalance強制切換LUN的工作控制器為歸屬控制器AIX平臺下Ultrapath狀態(tài)查詢命令A(yù)IX平臺下Ultrapath狀態(tài)查詢命令命令功能upadmhelp顯示簡要幫助信息。upadmshowversion查詢軟件版本信息。upadmshowdaemon查詢守護進程運行狀態(tài)。upadmshowoption查看可配置選項。cfgmgr掃描硬盤。lspv查看硬盤的概要信息。upadmshowlun[dev=updiskxx]查看虛擬硬盤的詳細信息。lspath-F查看硬盤的路徑信息。lspath查看路徑的優(yōu)先級屬性。主機信息收集-Windows平臺(1/4)準備主機側(cè)信息收集工具,并上傳到主機側(cè)。雙擊”HostInfoTools-1.4.EXE”。信息收集完成后收集到的信息包將會自動彈出,在C:\WINDOWS\Upreports\collection\ZIP目錄下,壓縮包名稱為:XXXX_20111205_1727_Uprptv31_x86.zip,其中XXXX為主機名。包含下面三個文件夾。HBAINFO目錄下主要包含主機HBA卡相關(guān)信息。HOST目錄下主要包含主機及操作系統(tǒng)相關(guān)信息。UPINFO目錄下主要包含多路徑相關(guān)信息。主機信息收集-Windows平臺(2/4)HBAINFO目錄下主要包含主機HBA卡相關(guān)信息。HBA_INFO.TXT文件包含HBA卡的型號、Firmware和驅(qū)動版本信息。Qlogic_INFO.TXT文件包含HBA卡的相關(guān)配置信息。注:以主機HBA卡為Qlogic卡為例。主機信息收集-Windows平臺(3/4)HOST目錄下主要包含:MEMERY.DMP文件是操作系統(tǒng)藍屏時產(chǎn)生的內(nèi)存轉(zhuǎn)儲文件,用于定位系統(tǒng)藍屏問題。Application.evt和APPLACATION_EVENTLOG.TXT文件包含主機應(yīng)用程序日志信息。System.evt和SYSTEM_EVENTLOG.TXT
文件包含主機系統(tǒng)日志信息。Winmsd.nfo和winmsd.txt文件包含主機系統(tǒng)信息。主機信息收集-Windows平臺(4/4)UPINFO目錄下主要包含:cfg文件夾主要包含多路徑的相關(guān)配置文件Log文件夾主要包含多路徑相關(guān)的日志文件InstallationLog.txt文件包含多路徑的安裝和卸載日志信息。UPLOG_x.txt文件包含多路徑的運行日志信息,通過日志里wwn、failover、switchlun、removepending、MPGdeleted!等關(guān)鍵字可以定位LUN的上報、failover、切換工作控制器、主機刪除鏈路、主機刪除虛擬盤等信息,通過日志里的check關(guān)鍵字可以定位鏈路IO錯誤、超時以及對應(yīng)的錯誤碼等信息。主機信息收集-Linux平臺(1/5)準備主機側(cè)信息收集腳本,并上傳到主機。
腳本文件如下:安裝包目錄\Linux\Tools\HostInfoTools-1.2.sh轉(zhuǎn)換該腳本格式:dos2unixHostInfoTools-1.2.sh,修改腳本權(quán)限為可執(zhí)行:chmod+xHostInfoTools-1.2.sh,執(zhí)行腳本:./HostInfoTools-1.2.sh腳本運行完成后,將會將運行該腳本的當前目錄下生成output.tar.gz文件,將該文件從主機上下載下來。主機信息收集-Linux平臺(2/5)注:以主機HBA卡位Qlogic卡為例。解壓output.tar.gz后,文件內(nèi)容如下:主機信息收集-Linux平臺(3/5)ARRAY_INFO.txt主機到陣列控制器上路徑條數(shù)、路徑好壞信息。與主機相連所有陣列陣列信息、陣列上LUN信息和控制器信息。FS_INFO.txtscsi設(shè)備信息、磁盤掛載信息、磁盤容量信息等。HARDWARE_INFO.txtCPU信息。內(nèi)存信息。PCI信息。HBA_INFO.txtHBA卡信息,比如版本號等。主機信息收集-Linux平臺(4/5)HISTORY.txt控制臺歷史命令信息。LOG_INFO.txt主機message日志。MENULST_INFO.txt主機menu.lst信息。MPP_INFO.txt物理LUN設(shè)備IO統(tǒng)計、設(shè)備狀態(tài)、控制器狀態(tài)等。虛擬LUN設(shè)備IO統(tǒng)計。OS_TYPE_INFO.txt主機版本、內(nèi)核版本、系統(tǒng)位數(shù)、主機名等。主機信息收集-Linux平臺(5/5)PROC.txt/proc/mpp目錄下陣列信息,包括控制器信息、主機到控制器的路徑信息、物理LUN和虛擬LUN信息。SOFTWARE_INFO.txt已經(jīng)安裝的RPM包列表。已經(jīng)加載的模塊列表,可以查看是否加載多路徑模塊。UP_INFO.txt多路徑版本號信息。upUpper.ko和upVhba.ko多路徑內(nèi)核模塊。主機信息收集-AIX平臺(1/2)解壓HostInfoTools-1.3.tar后,當前目錄結(jié)構(gòu)如下:確認確定此目錄下的文件具有可執(zhí)行權(quán)限chmod–R+xdirName運行:./HostInfoTools-1.3.sh,運行完畢后當前目錄結(jié)構(gòu)如下:其中收集的信息備份在outputs目錄中,其為壓縮包:主機信息收集-AIX平臺(2/2)將收集的信息拷貝到windows上,解壓后目錄結(jié)構(gòu)如右:Aix_UltraPath目錄中文件如下
:主機軟件信息收集-HostAgentHostAgent軟件由下面組件組成:ConsistenAgent、InbandAgent、Hypermanager,各組件的日志如下:ConsistentAgent:收集其安裝目錄下的log文件夾下的所有文件和對應(yīng)的所有的.log文件。InbandAgent:收集其安裝目錄下的log文件下的所有文件和bi下的InbandAgent.log文件。HyperManager:收集其安裝目錄下的.log文件。
目錄SAN存儲系統(tǒng)故障處理基礎(chǔ)SAN存儲陣列故障診斷與排除SAN存儲網(wǎng)絡(luò)故障診斷與排除SAN存儲主機軟件與主機側(cè)故障診斷與排除4.1SAN存儲系統(tǒng)主機側(cè)故障診斷基礎(chǔ)4.2主機故障診斷流程和信息收集4.3主機故障診斷和排除存儲主機側(cè)典型故障診斷4.3.1多路徑安裝失敗問題4.3.2多路徑運行過程問題(failover/failback異常)4.3.3與Win/Linux/AIX主機兼容性問題4.3.4HostAgent部署異常問題多路徑安裝失敗問題診斷forWindows多路徑安裝失敗問題處理for
Windows序號問題解決方案1多路徑重復安裝,安裝時提示“已安裝”1在注冊表中存在殘留安裝信息,搜索‘UltraPath’關(guān)鍵字的注冊項,刪除注冊表中UltraPath相關(guān)的鍵值。2刪除當前安裝程序中的UltraPathforWindows,重新安裝2安裝時提示reg.exe未安裝1系統(tǒng)文件reg.exe丟失,在安裝盤SUPPORT\TOOLS下運行Setup.exe,資源工具包的安裝,安裝reg.exe注冊表程序2由于在資源工具包的安裝過程中,程序自動將資源工具包的路徑添加到WindowsXP的“PATH”變量下,因此安裝完成后,用戶可以直接在DOS命令行下運行reg.exe;3安裝提示沒有環(huán)境變量可能出現(xiàn)用戶手動修改環(huán)境變量時刪除了系統(tǒng)的環(huán)境變量,在系統(tǒng)環(huán)境變量Path的值中添加“%SystemRoot%\system32;%SystemRoot%;”重新安裝。4SANboot場景安裝多路徑出現(xiàn)藍屏或其他環(huán)境出現(xiàn)藍屏1、多數(shù)情況屬于OS系統(tǒng)未安裝SP1/SP2補丁,先安裝SP1/SP2補丁以后再安裝多路徑。2、如果系統(tǒng)已經(jīng)安裝SP1/SP2補丁,則需要分析藍屏時產(chǎn)生的MEMERY.DMP文件,確認藍屏發(fā)生的原因。多路徑安裝失敗問題診斷forLinux多路徑安裝失敗問題處理forLinux
序號問題解決方案1安裝時提示多路徑已安裝該主機已經(jīng)安裝了多路,先卸載再安裝。1、執(zhí)行rpm-qUltraPath查詢已安裝的多路徑版本。2、卸載舊版本的多路徑。例如,執(zhí)行rpm-eUltraPath。3、安裝新版本的多路徑。例如,執(zhí)行rpm-ivhUltraPath*.rpm。如果不能解決問題,執(zhí)行rpm-e-allmatchesXXX.rpm,清除與多路徑相關(guān)的文件,重新安裝。2使用光盤安裝報錯,提示找不到安裝源(安裝路徑問題)1、將光盤中的多路徑安裝包拷貝到OS系統(tǒng)其它目錄下。2、將小寫的路徑名稱修改為正確路徑名(區(qū)分大小寫),再重新安裝。3安裝時提示安裝rpm包Error檢查多路徑安裝包格式是否為正確,執(zhí)行dos2unixXXX.rpm或者重新獲取原始格式的多路徑安裝包。多路徑安裝失敗問題處理forLinux
序號問題解決方案4多路徑查詢或卸載失敗rpm管理器失敗可能出現(xiàn)rpm數(shù)據(jù)庫損壞,執(zhí)行rpm-rebuilddb,修復rpm數(shù)據(jù)庫,重新執(zhí)行查詢或者卸載。5重啟系統(tǒng)后多路徑?jīng)]有自動加載1、查看/boot/grub/menu.lst文件中,確定存在多路徑啟動選項“LinuxwithUltraPath”并且default的值指向該多路徑啟動選項“LinuxwithUltraPath”。如果不是,則先卸載掉多路徑,修改/boot/grub/menu.lst,把default的指向值改為default0,再重新安裝多路徑。2、確定/boot/grub/menu.lst文件中“LinuxwithUltraPath”啟動項中“initrd(hd0,5)/boot/mpp-***-smp.img”中的文件“mpp-***-smp.img”在本地硬盤的/boot目錄下存在。多路徑安裝失敗問題診斷(AIX)多路徑安裝失敗問題處理forAIX序號問題解決方案1安裝失敗,bin用戶被屏蔽1、檢查/etc/passwd,去掉“#bin:*:8:2::/bin:/usr/bin/ksh”的#。2、沒有bin用戶時,需手動添加bin用戶。2bosboot驗證未通過跳過bosboot校驗方式安裝1、將/usr/sbin/下備份bosboot文件為bosboot.bak,修改bosboot在第二行添加exit02、成功安裝多路徑以后,恢復bosboot文件。參見案例。多路徑安裝失敗診斷總結(jié)對于多路徑安裝失敗,務(wù)必要有正確的診斷思路:首先確認是否存在兼容性問題。根據(jù)多路徑安裝失敗提示,檢查OS系統(tǒng)環(huán)境和配置參數(shù)。查看多路徑安裝日志信息,查看安裝日志信息診斷。參考多路徑升級指導書(一般在多路徑軟件包中有多路徑升級指導),制定安裝方案以及安裝失敗時的補救措施。多路徑安裝失敗案例分享描述問題AIX主機,安裝多路徑軟件時提示如下錯誤:0503-409installp:
bosbootverificationstarting...0503-497installp:
Anerroroccurredduringbosbootverificationprocessing.ERROR:installfailed!pleaseaccordingtoerrorinfotocheck!原因分析bosboot驗證未通過,該命令用于保存磁盤的設(shè)備配置數(shù)據(jù).“bosboot:/unixand/usr/lib/boot/unixmustlinktothesamekernelfile.”,即/unix和/usr/lib/boot/unix指向的必須是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玩具鐘琴細分市場深度研究報告
- 2024年吉林省省直事業(yè)單位公開招聘工作人員13號(29人)筆試模擬試題及答案解析
- 2024年白城市市直事業(yè)單位公開招聘高層次人才(7人)筆試模擬試題及答案解析
- 才藝展示班主任的才藝展示計劃
- 制定投資回報率評估標準計劃
- 兒童火災(zāi)安全知識普及培訓
- 師生關(guān)系融洽對教育的影響計劃
- 學習型組織與合作氛圍構(gòu)建計劃
- 拓展影響社團工作影響計劃
- 歷史事件與現(xiàn)實意義-歷史研究員的視角
- 寧波大學機械原理考研歷年真題(共23頁)
- 新小學數(shù)學三年級上冊《一個因數(shù)中間有零的乘法》ppt課件
- 乒乓球比賽分組對陣表(8人、16人、32人)
- 新版報關(guān)單格式
- 《電子商務(wù)基礎(chǔ)》試題全庫
- 中英文版戰(zhàn)略合作協(xié)議CooperationAgreement
- 作文考試專用稿紙_(A3完美打印版)
- 重點用能單位能源計量審查規(guī)范
- 小班粘貼畫小魚教案
- 縮短患者平均住院日的管理制度與考核指標
- 新檢驗批填表說明
評論
0/150
提交評論