云平臺服務器存儲應急預案.doc_第1頁
云平臺服務器存儲應急預案.doc_第2頁
云平臺服務器存儲應急預案.doc_第3頁
云平臺服務器存儲應急預案.doc_第4頁
云平臺服務器存儲應急預案.doc_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

精品文檔云平臺服務器存儲應急預案目錄1目的32適用范圍33規(guī)范內容33.1故障分類33.2應急準備33.3具體措施34故障處理規(guī)范44.1機房停電44.2主機故障44.3存儲系統(tǒng)故障44.4云平臺軟件系統(tǒng)故障44.5云平臺管理服務器故障預防54.6云平臺日常告警故障排除55硬件故障預防與排除55.1故障預防55.2故障排除55.3故障處理61 目的為提高云平臺服務器、存儲故障處理能力,形成科學、有效、反應迅速的日常管理流程和應急處理機制,確保平臺的安全和穩(wěn)定運行,最大限度地減小故障對生產的影響,降低業(yè)務中斷風險,特制定本規(guī)范。2 適用范圍本規(guī)范適用于提供云計算虛擬化平臺服務的服務器、存儲管理,應對發(fā)生和可能發(fā)生的故障。3 規(guī)范內容服務器運維和應急處理應包括風險評估,檢測體系和應急處理三個環(huán)節(jié),合理有效的執(zhí)行控制將防止故障影響擴大。3.1 故障分類平臺故障包括服務器硬件和存儲系統(tǒng)故障;自然災害(水、火、電等)造成的物理破壞;人為誤操作造成的損害等。3.2 應急準備部門責任人員明確職責和管理范圍,根據實際情況,安排應急值班,確保到崗到人,聯(lián)絡暢通,處理及時準確。3.3 具體措施(1) 建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng)。(2) 虛擬化平臺服務器應采用可靠、穩(wěn)定、兼容性硬件,落實責任管理機制,遵守安全操作規(guī)范;對虛擬機和管理服務器進行定時備份;采用有效的虛擬化監(jiān)控工具,及時發(fā)現(xiàn)問題和日報告。4 故障處理規(guī)范4.1 機房停電接到停電通知后,相關人員應及時部署應對具體措施,啟動備用電源,保證服務器正常運行。4.2 主機故障 (1) 平臺服務器出現(xiàn)硬件告警需要停機維護,服務器責任人應立即通知相關人員,將業(yè)務虛機遷移到集群中其他服務器主機上,再將故障服務器切換至維護模式并從HA集群中移除,負責陪同硬件廠家現(xiàn)場更換至成功恢復。 (2) 若服務器硬件24小時內無法恢復,服務器責任人需書面報告原因并立即通知業(yè)務管理人員進行數(shù)據應急備份,防止災難擴大。 (3)若虛擬化存儲硬件出現(xiàn)告警,第一目擊人應立即通知存儲管理員,并上報主管領導,存儲管理員應在報告1小時內聯(lián)系廠家到場處理,處理完成后因報告原因,找到解決方法;并立即對數(shù)據做完整性檢查,消除重復發(fā)生隱患。4.3 存儲系統(tǒng)故障 (1)做好存儲系統(tǒng)的定時備份,一旦出現(xiàn)數(shù)據損壞、丟失,能夠及時恢復系統(tǒng)。(2)發(fā)生存儲系統(tǒng)故障后,相關人員應檢查出現(xiàn)故障的原因并盡快排除。(3)如遇系統(tǒng)崩潰,數(shù)據丟失,應啟用備份文件進行數(shù)據恢復。4.4 云平臺軟件系統(tǒng)故障(1)日常做好虛擬機的定時備份和快照,系統(tǒng)崩潰后,能夠及時恢復虛擬機。(2)發(fā)生虛擬機系統(tǒng)故障后,相關人員應及時通知業(yè)務人員檢查出現(xiàn)故障的原因并盡快排除。(3)如遇虛擬機系統(tǒng)需要啟用備份系統(tǒng)進行恢復時,應在恢復后和業(yè)務管理員仔細檢查業(yè)務是否恢復并做好恢復記錄。4.5 云平臺管理服務器故障預防虛擬化服務器采用群集配置。配套管理軟件對虛擬數(shù)據中心管理單元進行集中管理,系統(tǒng)平臺常年24小時運行,每天將產生大量的任務日志和記錄信息。同時管理服務器擔任了整個平臺主機管理和集中配置的角色,使用率極高。為了安全,應定期備份配置數(shù)據庫,定期檢查告警日志。4.6 云平臺日常告警故障排除當虛擬化平臺出現(xiàn)告警信息,通過以下步驟排除:1. 確定故障原因。查看已觸發(fā)的警報內容,確定故障前操作是否是引發(fā)該故障的原因,對合規(guī)操作引起的告警,進行消除。2. 對提示硬件產生的告警,應查看硬件狀態(tài)信息,對確認是硬件的問題按硬件維護預案處理。3. 對提示因資源不足或性能引發(fā)的告警,因查看近期性能圖表,找出原因,消除故障提示。4. 對于無法判斷的故障,可導出系統(tǒng)日志發(fā)給廠家分析處理。5 硬件故障預防與排除5.1 故障預防保持雙機運行狀態(tài)正常,單機出現(xiàn)故障后,及時對故障單機進行修復。5.2 故障排除當服務器出現(xiàn)硬件故障,通過以下步驟排除:(1)確定故障原因。依次查看電源、硬盤、內存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。(2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件。5.3 故障處理(1)硬盤故障處理:當硬盤出現(xiàn)黃燈提示預警時,應先查看硬盤數(shù)據是否丟失,如數(shù)據存在應先做好數(shù)據備份,將此服務器各應用迅速轉移,然后排查報警具體原因,如由于錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便操作,可向售后服務咨詢處理。(2)內存故障:由于我們的服務器有多組內存,單條內存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發(fā)現(xiàn)內存條損壞時,安排時間將損壞的內存條替換掉即可。(3)RAID卡故障:服務器的RAID卡出現(xiàn)故障時,系統(tǒng)會無法識別出硬盤,服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產網絡后更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息后即可恢復使用。(4)電源故障:現(xiàn)階段我們的服務器都是雙電,如果單路電源故障不影響運行,如果長期單路停電運行需準備備用電源。(5)CPU故障:我們的服務器多為8路CPU,所以在CPU故障時同內存一樣,只會對服務器性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論