信息網(wǎng)絡運行維護管理規(guī)范_第1頁
信息網(wǎng)絡運行維護管理規(guī)范_第2頁
信息網(wǎng)絡運行維護管理規(guī)范_第3頁
信息網(wǎng)絡運行維護管理規(guī)范_第4頁
信息網(wǎng)絡運行維護管理規(guī)范_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、 信息系統(tǒng)運維事件管理規(guī)范1.1 適用范圍本規(guī)范適用于信息系統(tǒng)運維事件,包括對信息系統(tǒng)的使用咨詢,系統(tǒng)故障,以及有關業(yè)務應用的支持要求。1.2 定義與術語術語術語解釋崗位AB角一個崗位安排兩個人,其中一個主要負責,稱為A角,當A角不能履行職責時,由B角替代。呼叫中心接收用戶運維請求的受理平臺。事件管理和呼叫中心一起組成事件處理流程,有效解決各類IT突發(fā)事件,盡快恢復IT服務。配置管理管理各IT資產(chǎn)系統(tǒng)(配置元素,配置項)的流程,包括相互間的關聯(lián)與依賴關系。配置管理數(shù)據(jù)庫對所有IT組件、組件的不同版本和狀態(tài)以及組件之間的相互關系進行跟蹤、記錄。運維管理知識庫操作指南,開發(fā)文檔、技術文檔、驗收文檔

2、等技術資料的集合。影響程度問題造成對IT環(huán)境的影響范圍,包括對其他IT系統(tǒng),對相關人員等。優(yōu)先級問題需要找到解決方法和處理措施的緊急程度。重大故障在各系統(tǒng)的系統(tǒng)故障分級中定義為一級故障的故障現(xiàn)象,均視為重大故障。一般故障在各系統(tǒng)的系統(tǒng)故障分級中定義為二、三級故障的故障現(xiàn)象,視為一般故障。1.3 角色與職責本過程設立運維負責人、支持受理人、問題反映人、各系統(tǒng)管理崗,崗位設立AB角,負責信息系統(tǒng)運維事件的管理,具體職責要求如下:序號角色名稱定義/職責1運維負責人1. 全面負責運維各項工作。2. 審核審批各項運行維護制度規(guī)范和工作流程,負責協(xié)調(diào)各部門間的工作。3. 負責與其他部門間的協(xié)調(diào)工作。4.

3、負責建立健全本級運維與上級運維部門、本級運維與下級運維之間高級技術支持之間的順暢溝通機制。5. 負責本級運維隊伍的管理、培訓工作。6. 負責落實上級運維部門提出的運行維護任務。7. 管理運行維護部門員工的工作。8. 通過呼叫中心事件管理報告,監(jiān)控事件管理的效率,改善運維服務質(zhì)量。9. 負責系統(tǒng)重大故障及緊急事件的處理,并負責組織進行相關事故原因的調(diào)查分析,形成事故分析報告和相應的解決方案。10. 在業(yè)務部門,信息中心領導,以及信息中心內(nèi)部維持良好的溝通渠道。11. 完善和維護事件管理系統(tǒng)。2支持受理人1. 負責接收用戶反映的信息系統(tǒng)問題,并對問題記錄、整理。2. 負責對事件分類和提供初始的支持

4、。3. 將問題的解決步驟文檔化。4. 將服務請求分派給適當?shù)墓ぷ鹘M。5. 跟蹤服務請求的處理過程以確保在規(guī)定的時間內(nèi)解決問題,同時在系統(tǒng)里更新相應信息。6. 對于無法解答的技術問題,及時轉(zhuǎn)送其他相關人員;對于無法解答的業(yè)務問題,及時提交運維負責人。7. 與服務請求的提交者進行直接的溝通,通報事件的處理情況。8. 在結(jié)束事件之前要確認服務請求的提交者對事件的解決過程及結(jié)果是否滿意。9. 作為事件的責任人,監(jiān)控,跟蹤所有的事件處理過程,并作為和客戶溝通的唯一聯(lián)系點。10. 編制管理信息報告。3問題反應人1. 對于本級運維解決有困難的問題,負責向上級運維中心、高級技術支持或國家電網(wǎng)運維部門及時準確地

5、上報。2. 對于緊急、重大故障問題,負責向上級運維中心、高級技術支持或國家電網(wǎng)運維部門及時準確地上報。3. 負責全程配合、協(xié)助國家電網(wǎng)解決上報問題,并跟蹤問題的進展、解決、落實過程。4系統(tǒng)管理員1. 在規(guī)定的時間內(nèi)解決服務請求。2. 對利用“臨時方案"解決的服務需求,在資源及時間允許時應找到問題根源。3. 在需要時(有重大故障及升級需求時),及時利用其它資源(開發(fā)商或供應商)幫助用戶解決問題。4. 將服務請求的解決方案的步驟文檔化,并錄入系統(tǒng)。5. 更新文檔記錄。6. 和主機管理人、存儲管理人、數(shù)據(jù)庫管理人、中間件管理人一道,對業(yè)務系統(tǒng)實行全方位的管理。1.4 工作流程與活動參與事件

6、管理、服務請求管理、重大故障處理、事件升級、一般事件處理、服務報告管理流程涉及的系統(tǒng)運維工作。具體工作內(nèi)容如下:1.3.1 事件管理運維事件管理的總體流程如圖1問題響應管理總體流程所示:1. 支持受理人接受來自各種渠道的服務請求、告警、故障事件等;2. 通過服務請求管理系統(tǒng)將事件進行記錄、分類、確定優(yōu)先級;3. 根據(jù)預定義的重大故障分類,判斷是否啟動重大故障處理流程(見圖3);4. 如遇緊急事件,則直接執(zhí)行升級流程(見圖4),由運維負責人直接調(diào)用適當資源盡快處理; 一般事件則執(zhí)行一般事件處理流程(見圖5)。(圖1 問題響應管理總體流程)1.3.2 服務請求管理1. 支持受理人接受來自各種渠道提

7、交的有關信息系統(tǒng)運維的服務請求、告警、故障事件等;2. 確認事件請求人是否屬于服務對象。如果不是,則拒絕服務轉(zhuǎn)交其它部門處理;問題概要需要在服務請求記錄表(見附錄1)中進行詳細的記錄,如詳細情況描述;1) 按照預定義的“系統(tǒng)服務分類”對事件涉及的系統(tǒng)進行分類,如:網(wǎng)絡系統(tǒng),主機系統(tǒng)、營銷系統(tǒng)等;2) 根據(jù)預定義的配置管理數(shù)據(jù)庫的相關內(nèi)容,將事件與配置項聯(lián)系起來;3) 選擇事件的影響程度:ü 低:造成個別用戶不能正常訪問。ü 中:局域網(wǎng)內(nèi)超過5的用戶不能正常訪問。ü 高:營銷系統(tǒng)、“95598”系統(tǒng)等核心業(yè)務系統(tǒng)大面積癱瘓,不能正常對公眾提供服務,造成負面的社會影響

8、。4) 選擇優(yōu)先級:ü 無優(yōu)先級:無時限要求,在方便的時候排除故障。ü 低:24小時內(nèi)排除故障。ü 中:8小時內(nèi)排除故障。ü 高:4小時內(nèi)排除故障。ü 最高:2小時內(nèi)排除故障。服務請求管理流程如圖4所示。(圖2 服務請求流程)1.3.3 重大故障管理支持受理人完成服務請求流程后,如果事件是屬于影響程度最高的故障,則即刻啟動重大故障處理流程;1. 向最終用戶發(fā)出服務中斷通知;2. 支持受理人同時要盡快將故障情況向運維負責人匯報;3. 運維負責人應立刻通知相關領導以及災難恢復領導小組(由主要業(yè)務部門領導,信息中心領導,主管領導等組成),決定本故障是

9、否通過上級運維部門才能解決,如果是,則由問題反映者聯(lián)系上級運維中心,上級運維部門根據(jù)有關流程予以解決;4. 如果不用上級運維部門解決,則根據(jù)恢復時間標準確定是否啟動應急預案;確定需要啟動應急預案后,由應急預案小組執(zhí)行恢復計劃,使系統(tǒng)盡快恢復運作;5. 同時運維負責人要召集所有相關技術專家(項目組技術負責人,服務商,廠商以及各系統(tǒng)管理員)進行集中診斷,制定系統(tǒng)修復方案。并由相關系統(tǒng)管理人聯(lián)合服務商一起執(zhí)行系統(tǒng)修復方案;6. 系統(tǒng)修復并經(jīng)測試成功后,支持受理人發(fā)布系統(tǒng)服務恢復通告;7. 聯(lián)合系統(tǒng)管理員在服務請求系統(tǒng)中將故障的所有信息進行更新,如解決方案,關閉代碼,如果在呼叫登記階段錄入的配置項目,

10、分類等有誤,需要一并修正;8. 聯(lián)合相關系統(tǒng)管理員準備“重大故障責任報告”并提出整改措施;9. 運維負責人負責審閱批準重大事件責任報告,并向相關領導分發(fā)此報告;10. 運維負責人負責跟進整改措施。重大故障管理流程如圖5所示。(圖(圖3 重大故障處理流程)1.3.4 事件升級如果支持受理人接到緊急的服務請求(優(yōu)先級最高),或在一般事件處理流程中,事件的完成時限超過了承諾的服務時限時,支持受理人可以啟動升級流程。1. 支持受理人通知運維負責人,請求支持;2. 運維負責人協(xié)調(diào)相關資源解決問題;3. 支持受理人負責跟蹤事件進度以及確定事件狀態(tài);4. 事件解決后,由支持受理人與服務請求者確認并更新事件記

11、錄;5. 支持受理人關閉事件。事件升級流程如圖4所示。(圖4 事件升級流程)1.3.5 一般事件處理1、支持受理人接受的服務請求如果不屬于“重大故障”或“緊急事件”,按照一般事件處理流程完成事件的處理。一般事件處理流程如圖6所示。2、如果服務請求屬于指定工作組的責任,支持受理人直接將服務請求分派給各工作組。對分派給指定工作組的事件,支持受理人要負責跟蹤事件的解決狀態(tài),并定期監(jiān)督相關服務人員盡快完成。如果相關服務組在接近服務時限(可定為超過服務時限的80的時間)仍沒有確定的解決方案,支持受理人需請求相關專家協(xié)助完成。對不能在服務時限內(nèi)完成的事件,支持受理人應通過升級流程加快事件的解決速度。事件解

12、決后, 支持受理人通過電話等方式與呼叫者進行確認,并更新事件記錄,關閉事件。3、對于非指定工作組處理的事件,支持受理人對事件進行診斷分析,嘗試解決。4、對不能在線及時解決的事件,支持受理人應先在運維管理知識庫中查找相應解決方案,找到解決方案后,盡快完成服務請求。不能解決的事件,請盡快根據(jù)服務范圍職責劃分(服務支持流程人員表),將事件升級給二線支持人員,并跟蹤事件處理狀態(tài)。如果相關二線支持服務組在接近服務時限的最后期限(可定為超過服務時限的80的時間)仍沒有確定的解決方案,相應系統(tǒng)管理人則需判斷是否需要報請上級運維部門予以解決。如果需要,則通過問題反映者向上級運維部門報告,上級運維部門則按有關流

13、程予以解決,如果不需要則請求三線支持人員協(xié)助完成。對不能在服務時限內(nèi)完成的事件,支持受理人應通過升級流程加快事件的解決。事件解決后,支持受理人通過電話等方式與服務請求者進行確認,并更新事件記錄,關閉事件。(圖5 一般事件處理流程)ü 支持受理人是事件管理流程的一線支持。ü 各應用系統(tǒng)管理員、網(wǎng)絡管理員、主機管理員等是事件管理流程的二線支持工程師。ü 開發(fā)商、集成商、設備供應商等外部服務專家是事件管理流程的三線支持。1.3.6 服務報告管理服務主管每月利用服務記錄表,按照服務管理的指標分類整理各類數(shù)據(jù),形成服務請求管理報告,提交給運維負責人進行審閱。運維負責人負責與

14、相關部門及業(yè)務部門針對服務管理報告進行溝通,如果必要提出諸如用戶培訓、系統(tǒng)優(yōu)化等建議,并負責跟進改進計劃。1.5 管理原則1、運維中心應設立呼叫中心,做為IT服務管理與用戶的接口,受理并處理用戶的服務請求。沒條件設立呼叫中心的服務機構(gòu)應設立服務熱線。2、除非特別的服務說明,任何事件處理不應繞過服務熱線來解決。3、所有最終用戶的服務請求應由統(tǒng)一的系統(tǒng)記錄在案,并通過系統(tǒng)完成工作分派,監(jiān)測跟蹤,事件升級管理和質(zhì)量管理。4、呼叫系統(tǒng)應包含對事件處理進行跟蹤及監(jiān)控的流程。5、負責呼叫系統(tǒng)的員工應盡最大可能在一線解決用戶的問題。6、對所有問題的解決方法應在呼叫系統(tǒng)所使用的系統(tǒng)工具中存檔。7、應盡量將服務

15、請求與配置項目聯(lián)系起來。8、應及時向提交問題的最終用戶通報問題的處理情況,系統(tǒng)維護服務的進度和情況也應由服務請求支持員工與最終用戶進行溝通。9、服務請求完成后應確定最終用戶對事件解決方案的滿意程度。10、應完整的描述和記錄當前信息中心為其它部門所提供的服務、服務級別、以及提供響應的流程文檔。1.6 附錄1.6.1 附表1 服務請求記錄表服務請求記錄表請求信息報 修 時 間故 障 地 點客 戶 電 話IP 地 址記 錄 人系統(tǒng)服務分類: 網(wǎng)絡系統(tǒng) 安全系統(tǒng) 主機系統(tǒng) 存儲備份系統(tǒng) “95598”系統(tǒng) 營銷系統(tǒng) 生產(chǎn)管理系統(tǒng) OA系統(tǒng) 人力資源系統(tǒng) 財務系統(tǒng)事件影響程度: 高 中 低優(yōu) 先 級:

16、最高 高 中 低 無優(yōu)先級 故障現(xiàn)象處理過程:信息系統(tǒng)網(wǎng)絡管理規(guī)范3.1 適用范圍本規(guī)范適用于公司本部和基層單位主機房內(nèi)的網(wǎng)絡設備,包括各種路由器、交換機、防火墻、樓層交換機以及邊界路由器和將來投入使用的網(wǎng)絡設備的管理工作。3.2 定于與術語術語術語解釋崗位AB角一個崗位安排兩個人,其中一個主要負責,稱為A角,當A角不能履行職責時,由B角替代。網(wǎng)絡事件由于網(wǎng)絡故障,如路由故障、交換故障、IP地址沖突,線路故障、網(wǎng)絡設備故障等造成網(wǎng)絡中斷或服務質(zhì)量下降的任何事件。3.3 角色與職責設立網(wǎng)絡管理崗,崗位設立AB角,負責網(wǎng)絡和網(wǎng)絡設備的運行維護管理和監(jiān)控,保障網(wǎng)絡通訊的暢通。具體職責要求如下:序號角

17、色職責1支持受理人將服務請求分派給適當?shù)墓芾砣藛T。2網(wǎng)絡管理員1、負責網(wǎng)絡基礎運維工作,包括參與網(wǎng)絡規(guī)劃與建設;版本發(fā)布;網(wǎng)絡設備用戶管理;負責IP地址規(guī)劃、分配和管理;協(xié)助安全管理員對網(wǎng)絡安全狀況進行評估,提出安全解決方案;參與網(wǎng)絡災備管理;定期向運維負責人提交網(wǎng)絡系統(tǒng)運行管理報告等。2、完成網(wǎng)絡配置工作,如:路由、交換協(xié)議的配置等;負責IP地址的規(guī)劃、分配和管理;進行網(wǎng)絡設備用戶管理。3、分析解決網(wǎng)絡故障;對于重大、緊急網(wǎng)絡問題,應立即向運維負責人匯報。對于外部(例如電信局)原因造成的網(wǎng)絡故障,應立即向運維負責人匯報,并及時通知有關部門予以解決。4、定期進行網(wǎng)絡檢查,檢查的內(nèi)容應包括:網(wǎng)絡

18、設備狀況、網(wǎng)絡設備日志錯誤報告、網(wǎng)絡設備配置備份、IOS版本、補丁級別等。5、定期編寫網(wǎng)絡維護報告,主要包括網(wǎng)絡帶寬性能報告,網(wǎng)絡設備預防性維護報告,網(wǎng)絡資源調(diào)整報告。6、配置信息管理:對目前使用的網(wǎng)絡設備進行配置管理,記錄設備的基本信息,如:主機名、序列號、操作系統(tǒng)和版本號、內(nèi)存、容量、模塊信息、剩余插槽、管理IP、端口IP、端口的連接信息等;記錄設備的維護信息,如:購買時間、上線時間、退役時間、廠商、集成商、服務提供商、維修記錄等;及時變更配置信息。7、故障監(jiān)控:監(jiān)控所有網(wǎng)絡環(huán)境內(nèi)設備的拓撲信息和監(jiān)控關鍵鏈路的狀態(tài);接收網(wǎng)絡設備發(fā)送的trap信息和日志,并進行分析、報警。監(jiān)控的網(wǎng)絡設備的事

19、件應至少包括:鏈路狀態(tài):通/斷,網(wǎng)絡設備:DOWN /UP,網(wǎng)絡設備故障:如模塊down,電源、風扇故障,性能監(jiān)控中超出閾值的事件,重復IP等。8、性能監(jiān)控:監(jiān)控廣域網(wǎng)鏈路的性能,性能指標應包括流量、丟包、錯包、ping延遲等;監(jiān)控網(wǎng)絡設備的性能,性能指標應包括CPU利用率、內(nèi)存等。9、網(wǎng)絡管理員為應用、操作系統(tǒng)管理員提供網(wǎng)絡方面的支持。10、網(wǎng)絡管理員應配合安全管理員定期檢查非法訪問、網(wǎng)絡入侵檢測工作,如,失敗的非法登錄、網(wǎng)絡流量分析等,并保留記錄,歸檔備查。9、其他相關網(wǎng)絡管理工作。3運維負責人負責組織相關資源對重大故障及緊急故障進行事故原因的調(diào)查分析。3.4 網(wǎng)絡系統(tǒng)當前配置基線3.3.

20、1 網(wǎng)絡設備資產(chǎn)信息網(wǎng)絡設備實行分級管理的原則,分為核心層設備,匯聚層設備,接入層設備。其中核心層設備是網(wǎng)絡流量的最終承受者和匯聚者,包括網(wǎng)絡中的核心交換機和路由器設備(如公司本部的Quidway S8512,CISCO 6509交換機,C7206,7513MX是網(wǎng)絡核心層設備),保障核心層網(wǎng)絡設備的正常運行是網(wǎng)絡運維工作的核心所在。匯聚層設備用于為核心層和接入層提供橋梁作用,通常實現(xiàn)網(wǎng)絡管理,防止廣播風暴,快速交換數(shù)據(jù)包等功能,公司本部匯聚層設備為所有邊界路由器。接入層主要功能是為最終用戶提供對網(wǎng)絡訪問的途徑,接入層設備包括各設備間接入交換機。網(wǎng)絡設備資產(chǎn)配置基線詳見附表1網(wǎng)絡設備資產(chǎn)列表3

21、.3.2 核心層網(wǎng)絡設備配置信息保障核心層設備的正常工作是運維工作的重中之中,核心層網(wǎng)絡設備配置表的通常目標是為了更好的維護核心層設備,提供網(wǎng)絡中使用的核心硬件和軟件組成的列表,其組成詳見附表2核心層網(wǎng)絡設備配置表 3.3.3 網(wǎng)絡拓撲圖1. 廣域網(wǎng)拓撲結(jié)構(gòu)2. 公司本部局域網(wǎng)拓撲結(jié)構(gòu)3.5 工作流程與活動3.5.1 網(wǎng)絡事件管理1. 服務請求受理人接收用戶報告的網(wǎng)絡相關事件,根據(jù)問題響應流程-服務請求流程將事件分派給網(wǎng)絡管理員。2. 網(wǎng)絡管理員根據(jù)事件的范圍、影響和緊急程度對網(wǎng)絡事件進行分級。(1)一級故障:廣域網(wǎng)絡因鏈路中斷或質(zhì)量嚴重下降(丟包率>50%),網(wǎng)管、業(yè)務不可用,且持續(xù)等

22、效停機時間4小時。局域網(wǎng)絡由于設備或鏈路故障造成關鍵應用不能被訪問,業(yè)務中斷時間4小時。(2)二級故障:廣域網(wǎng)絡因鏈路中斷或質(zhì)量嚴重下降(丟包率>50%),業(yè)務不可用,且持續(xù)等效停機時間2小時。局域網(wǎng)絡由于設備或鏈路故障造成關鍵應用不能被訪問,業(yè)務中斷時間2小時。(3)三級故障:廣域網(wǎng)絡因鏈路中斷或質(zhì)量嚴重下降(丟包率>50%),業(yè)務不可用,且持續(xù)等效停機時間0.5小時。局域網(wǎng)絡由于設備或鏈路故障造成業(yè)務中斷時間0.5小時。3. 遇有一、二級網(wǎng)絡故障,網(wǎng)絡管理員須立刻將事件升級到信息中心運維負責人。4. 運維負責人協(xié)調(diào)、組織相關資源,處理網(wǎng)絡事件,并通告相關部門。(1) 事件受理人

23、向用戶發(fā)出通知,通報發(fā)生的網(wǎng)絡事件及進展。(2) 網(wǎng)絡管理員聯(lián)合系統(tǒng)服務商,各系統(tǒng)管理員負責相應的系統(tǒng),對事件進行診斷、定位,查找問題根源。(3) 找到原因后需要確定受影響的系統(tǒng)范圍,進行緊急修復,如系統(tǒng)隔離、設置防火墻、路由器規(guī)則,更新系統(tǒng)補丁等。在進行修復時應注意采取措施進行證據(jù)的收集和保全,記錄或復制入侵證據(jù)、破壞和損失,歸檔備查。(4) 恢復系統(tǒng)服務和數(shù)據(jù),網(wǎng)絡管理員聯(lián)合網(wǎng)絡服務商和系統(tǒng)管理員對受到影響的系統(tǒng)進行全面評估,并對存在類似隱患的所有系統(tǒng)進行分析統(tǒng)計,制定相應的解決方案,并由網(wǎng)絡管理員負責跟進落實。5. 對于三級網(wǎng)絡故障,由網(wǎng)絡管理員進行調(diào)查處理,必要時聯(lián)合系統(tǒng)服務商和各系統(tǒng)

24、管理員。6. 進行網(wǎng)絡故障修復、加固防護所進行的配置和更改工作,都需要進行相關測試。故障恢復后要網(wǎng)絡管理員要負責填寫并維護網(wǎng)絡系統(tǒng)故障登記表,負責網(wǎng)絡事件的跟蹤管理。3.5.2 網(wǎng)絡基礎運維管理1、規(guī)劃與建設。參與網(wǎng)絡的規(guī)劃、建設工作,對網(wǎng)絡建設中的一些重大問題提出參考意見、建議。提出具體實施方案并負責執(zhí)行。2、版本發(fā)布。網(wǎng)絡管理員參與項目的測試和發(fā)布,根據(jù)項目要求完成測試網(wǎng)絡環(huán)境的搭建、測試及維護工作。3、管理報告。網(wǎng)絡管理員定期向運維負責人提交網(wǎng)絡運行狀況報告,報告的內(nèi)容包括當期網(wǎng)絡故障情況、帶寬的使用率和網(wǎng)絡維護的任務完成情況等。4、災備計劃。網(wǎng)絡管理員參與災備管理工作,在創(chuàng)建網(wǎng)絡的災難

25、恢復計劃時,負責制定有關網(wǎng)絡層面的災難恢復計劃及測試該計劃;在災難恢復計劃的演練時,負責網(wǎng)絡的恢復演練;在網(wǎng)絡有大的變更時,負責更新災難恢復計劃的相應部分;災難發(fā)生時,負責網(wǎng)絡的恢復、切換工作。網(wǎng)絡災備計劃參見網(wǎng)絡應急預案。5、系統(tǒng)資源變更。在操作系統(tǒng),數(shù)據(jù)庫或各應用系統(tǒng)等提出變更需求時,若需要網(wǎng)絡作相應變更,網(wǎng)絡管理員協(xié)助完成相關變更。6、用戶管理。創(chuàng)建和維護網(wǎng)絡設備的用戶帳號,定期檢查網(wǎng)絡設備用戶權(quán)限,對網(wǎng)絡設備的用戶密碼進行變更。7、安全管理。網(wǎng)絡管理員應定期評估網(wǎng)絡設備及相關協(xié)議的的安全性,更新IOS補丁,使用訪問控制列表對協(xié)議、端口進行配置。8、配置管理。網(wǎng)絡管理員定期備份網(wǎng)絡設備配

26、置文件,按照配置管理的要求提供網(wǎng)絡的操作系統(tǒng),硬件和配置信息,并以書面形式和電子文檔形式交給機房值班人員保管,當配置信息變更時,及時更新。對于需要保密的部分信息可以采取加密等適當?shù)姆绞竭M行保護。3.5.3 網(wǎng)絡巡查管理3.5.4.1 每天例行工作內(nèi)容檢查核心層設備硬件運行情況,巡查的內(nèi)容包括:硬件設備狀況,路由狀態(tài)、VLAN狀態(tài)、VRRP狀態(tài)、端口狀態(tài)等。網(wǎng)絡管理員巡查結(jié)束后提交網(wǎng)絡設備巡查報告給運維負責人,并抄送信息中心負責人。3.5.4.2 每周例行工作內(nèi)容檢查網(wǎng)絡匯聚層硬件運行情況,巡查的內(nèi)容包括:硬件設備狀況,路由狀態(tài)、VLAN狀態(tài)、端口狀態(tài)等。網(wǎng)絡管理員巡查結(jié)束后提交網(wǎng)絡設備巡查報告

27、給運維負責人,并抄送信息中心負責人。3.5.4.3 每月例行工作內(nèi)容對本單位核心層和匯聚層設備進行全面檢查,檢查內(nèi)容包括硬件運行情況,日志錯誤報告,網(wǎng)絡設備配置備份,IOS版本等。網(wǎng)絡管理員巡查結(jié)束后提交網(wǎng)絡設備巡查報告給運維負責人,并抄送信息中心負責人。對接入層設備進行抽查,檢查內(nèi)容包括接入層設備硬件運行情況,指示燈狀態(tài),網(wǎng)絡連通狀態(tài)等。3.5.4 網(wǎng)絡故障處理網(wǎng)絡管理員分析和解決由支持受理人或機房值班員分派的網(wǎng)絡故障。故障解決后,將故障原因,解決辦法等信息反饋給支持受理人或機房值班員。并根據(jù)需要維護運維管理知識庫相關內(nèi)容。一級故障需在故障恢復后填寫附表4網(wǎng)絡系統(tǒng)故障處理報告,提交給運維負責

28、人。3.5.4.1 故障處理步驟(1)收集故障癥狀,判斷故障原因1) 分析現(xiàn)存癥狀 2) 判斷所屬 3) 窄化范圍 4) 判定癥狀 5) 記錄癥狀 (2) 分離問題 1) 從物理層開始向上排查,直到應用層。常用于懷疑問題發(fā)生在物理層,或在處理復雜網(wǎng)絡問題時使用。 2) 從應用層開始向下排查故障,用于懷疑問題發(fā)生在軟件部分。3) 選擇OSI模型的特定層(數(shù)據(jù)鏈路層、網(wǎng)絡層、傳輸層)開始故障處理,確定問題是在該層、還是上層或下層。(3)糾正問題3.5.4.2 線路故障處理方法1. 當線路發(fā)生故障時,首先通過使用ping命令快速判斷是線路運營商方面的原因,還是用戶方面的原因,以便分清責任,盡快加以解

29、決。2. 若屬于線路運營商方面的原因,網(wǎng)絡管理員應及時通知運營商對問題進行診斷,定位,并協(xié)助運營商查找問題根源,恢復網(wǎng)絡。3. 若鏈路故障是因為對端網(wǎng)絡中斷引起的,網(wǎng)絡管理員應及時通知對端網(wǎng)絡管理員對問題進行診斷,定位,并協(xié)助對端網(wǎng)絡管理員查找問題根源,恢復網(wǎng)絡4. 若鏈路故障是因本端網(wǎng)絡引起的,網(wǎng)絡管理員應對問題進行診斷、定位、查找問題根源。5. 執(zhí)行系統(tǒng)修復和測試。詳細操作步驟可參見附表73.5.4.3 設備故障處理方法1. 當發(fā)生設備故障時,網(wǎng)絡管理員首先確認是軟件故障還是硬件故障。2. 如判斷為軟件故障,如配置文件丟失或非法更改,網(wǎng)絡管理員利用事先的備份配置文件重新配置設備并進行測試。

30、3. 如判斷為硬件故障,首先檢查設備的端口的LED狀態(tài)指示燈是否正常,如端口指示燈顯示故障,將該端口網(wǎng)線連接到其他冗余端口,如端口指示燈正常,則需要繼續(xù)查找。4. 其次查看特定部件,如為板卡故障,切換到備用板卡并進行配置和測試,故障板卡報修;5. 如為主引擎故障,緊急切換到備用交換機,并進行相應配置和測試,整機進行保修。6. 執(zhí)行系統(tǒng)修復和測試。詳細操作步驟可參見附表7。3.6 考核辦法3.7.2 考核目的信息網(wǎng)絡系統(tǒng)作為四川電力公司信息化系統(tǒng)基礎設施,在電力系統(tǒng)已起到至關重要的作用。為保障網(wǎng)絡系統(tǒng)的正常運行以及確保本規(guī)范明確的各項工作要求在實際工作中得到貫徹和落實,信息網(wǎng)絡系統(tǒng)運維知識的培訓

31、、管理、考核工作應是必不可少的。3.7.2 考核內(nèi)容網(wǎng)絡系統(tǒng)管理員的考核是由部門運維負責人直接考核,其主要內(nèi)容應包含:(1) 是否對信息網(wǎng)絡系統(tǒng)進行監(jiān)控與巡查,并嚴格按照規(guī)定記錄相關信息;(2) 是否對故障以及問題進行及時的解決;(3) 是否按照規(guī)定對系統(tǒng)進行備份;(4) 在維護流程中是否按照規(guī)定,進行書面申請或記錄;3.7 附錄3.8.1 附表1 網(wǎng)絡設備資產(chǎn)列表網(wǎng)絡設備資產(chǎn)列表序號設備分級設備分類設備型號序列號管理IPIOS版本位置管理人/使用人維護合同設備原廠商/聯(lián)系方式集成商/聯(lián)系方式開始使用時間結(jié)束使用時間備注1核心層交換機Quidway S8512公司本部中心機房華為/2交換機c6

32、509公司本部中心機房CISCO 3路由器C7206公司本部中心機房CISCO4路由器R7513MX梨花街CISCO5匯聚層6接入層7防火墻8入侵檢測設備9許可證軟件103.8.2 附表2 核心層網(wǎng)絡設備配置表核心層網(wǎng)絡設備配置表分級 項目 詳細信息備注一般信息設備名稱設備型號CPU類型FLASHDRAM接口描述用戶名口令第1層介質(zhì)類型速率雙工模式接口號連接插座或端口第2層 MAC地址STP狀態(tài)STP根橋速端口信息VLANEtherchannel配置封裝中繼狀態(tài)接口類型端口安全VTP狀態(tài)VTP模式第3層IP地址HSRP地址子網(wǎng)掩碼路由協(xié)議ACL隧道信息環(huán)路接口附:收集配置信息操作指南(以CIS

33、CO設備為例):1、收集路由器和第3層交換機網(wǎng)絡配置信息 show version ;顯示設備型號、Flash、DRAM、IOS版本 show ip interface brief ;顯示接口簡要信息(類型、狀態(tài)、協(xié)議狀態(tài)、IP地址) show interface e0/0 ;顯示某接口詳細信息(MAC、IP、MASK、) show ip protocols ;顯示IP路由協(xié)議信息 show ip interface e0/0 ;顯示接口的IP協(xié)議信息(狀態(tài)、IP地址、ACL、) 2、收集交換機配置信息 交換機網(wǎng)絡配置表包含的信息:設備名、型號、位置、Flash、DRAM、CATOS版本、管理

34、地址、VTP域、VTP模式、端口號、端口速率、端口雙工、VLAN、STP狀態(tài)、速端口狀態(tài)、中繼狀態(tài)、 show version ;顯示IOS或CATOS版本、DRAM、Flash show vtp domain ;(CatOS)顯示VTP域和VTP模式 show vtp status ;(IOS) show interface ;(CatOS)顯示管理接口信息 show port ;(CatOS)顯示每個端口的簡要信息(號、VLAN、雙工、) show interface ;(IOS) show trunk ;(CatOS)顯示中繼信息(模式、封裝、允許端口、剪裁、) show interfa

35、ce trunk ;(IOS) show spantree 45 ;(CatOS)顯示端口的STP模式、類型、狀態(tài)、速端口、) show spanning-tree 45 ;(IOS) 3、發(fā)現(xiàn)相鄰CISCO設備的信息 CDP(Cisco Discovery Protocol)是CISCO的專用協(xié)議,用于識別直接相鄰的CISCO設備信息,CDP工作在第2層。 Show cdp neighbor ;顯示相鄰CISCO設備的簡要信息(ID、相鄰接口、平臺、) Show cdp neighbor detail;顯示相鄰CISCO設備的詳細信息(包含第3層信息)3.8.3 附表3 網(wǎng)絡系統(tǒng)巡檢報告1、

36、網(wǎng)絡系統(tǒng)每天例行巡檢報告設備型號:核心層設備型號名稱巡檢時間:每天例行巡檢內(nèi)容巡查項目正常不正常設備運行狀態(tài)燈:設備各模塊狀況:設備運行溫度:CPU利用率及內(nèi)存利用率:路由狀況檢查:HSRP狀態(tài)檢查:VLAN狀態(tài)檢查:Trunk和Channel:動態(tài)路由狀態(tài)檢查:spanning tree 檢查:以太接口故障檢查:路由器廣域口故障檢查:網(wǎng)絡連通性檢查(采用PING和tracert命令):網(wǎng)絡流量檢查(合法流量和非法流量):本次巡撿發(fā)現(xiàn)的問題解決方法及措施巡撿人:簽字: 年 月 日運維負責人:簽字: 年 月 日2、網(wǎng)絡系統(tǒng)每周例行巡檢報告設備型號:匯聚層設備型號巡檢時間:每周例行巡檢內(nèi)容巡查項目

37、正常不正常設備運行狀態(tài)燈:設備各模塊狀況:路由狀況檢查:路由器廣域口故障檢查:網(wǎng)絡連通性檢查(采用PING和tracert命令):網(wǎng)絡流量檢查(合法流量和非法流量):本次巡撿發(fā)現(xiàn)的問題解決方法及措施巡撿人:簽字: 年 月 日運維負責人:簽字: 年 月 日3、網(wǎng)絡系統(tǒng)每月例行巡檢報告設備型號:巡檢時間:每月例行巡檢內(nèi)容巡查項目正常不正常設備運行是否正常是否對IOS及系統(tǒng)配置進行備份是否有多余設備連接到網(wǎng)絡中設備重啟是否有異常報錯或者無法正常重啟本次巡撿發(fā)現(xiàn)的問題解決方法及措施巡撿人:簽字: 年 月 日運維負責人:簽字: 年 月 日3.8.4 附表4 網(wǎng)絡系統(tǒng)故障處理報告網(wǎng)絡系統(tǒng)故障處理報告故障基

38、本信息設備名稱設備型號/序列號故障日期年 月 日發(fā)生具體時間時 分 秒登記日期年 月 日登記人故障類別線路故障 設備故障 病毒攻擊 網(wǎng)絡入侵 其他故障現(xiàn)象描述故障恢復情況故障原因分析故障恢復步驟故障恢復結(jié)果故障恢復時間系統(tǒng)管理員意見簽字: 年 月 日運維負責人意見簽字: 年 月 日3.8.5 附表5 計劃性維護申請表計劃性維護申請表申請人申請日期年 月 日維護設備網(wǎng)絡設備 服務器設備 精密空調(diào) UPS 其他設備名稱網(wǎng)絡中斷時間網(wǎng)絡恢復時間檢查項目操作步驟維護結(jié)果系統(tǒng)管理員年 月 日運維負責人年 月 日3.8.6 附表6 常用網(wǎng)絡維護命令1、 識別數(shù)據(jù)鏈路層問題的癥狀 數(shù)據(jù)鏈路層問題包括:不正常

39、的幀類型(不相符的封裝)、重復的MAC地址、換換層設備的不當行為。 第2層和第3層測試工具(CDP、PING)可以幫助檢驗并校驗數(shù)據(jù)鏈路層問題。2、 用于識別物理層和數(shù)據(jù)鏈路層問題的命令: (1) 通用命令: Ping host|ip-address ; Arp a ; Netstat rn ; Ipconfig /all ; Tracert ; Winipcfg ; Ifconfig a ; Traceroute ; (2) Cisco IOS命令 Ping ; Traceroute ; Debug ; Show version ; Show ip interface brief ; Sho

40、w interface e 1 ; Show cdp neighbor detail ; Show controllers ; Show arp ; Debug arp|lapb|stun ; 3、 識別并糾正網(wǎng)絡層問題 1) 通用命令: ping arp a netstat 2) WINDOWS Route print Ipconfig /all Tracert Winipcfg 3) UNIX&MAC Ifconfig a Traceroute Route n 4) 分離網(wǎng)絡層問題的Cisco IOS命令 1) 通用: ping trace debug show running-c

41、onfig 2) ARP Show ip arp Debug arp 3) 路由表 show ip route debug ip routing 4) IP接口 Show ip interface brief 5) IP流量 Show ip traffic Debug ip icmp Debug ip packet 6) IP訪問列表 Show ip access-list 3.8.7 附表7 常見故障處理方法(1)線路故障處理方法當線路發(fā)生故障時,首先要快速判斷是線路運營商方面的原因,還是用戶方面的原因,以便分清責任,盡快加以解決。1)登錄到路由器或三層交換機,使用擴展Ping命令,向?qū)Χ寺?/p>

42、由器廣域口地址發(fā)送大量數(shù)據(jù)包進行測試。如果上述測試沒有發(fā)生丟包現(xiàn)象,則說明線路運營商提供的線路是好的,引起故障的原因在于用戶自身,需要進一步查找。如果上述測試發(fā)生丟包現(xiàn)象,則說明故障是由線路供應商提供的線路引起的,需要與線路供應商聯(lián)系盡快解決。 2)當確定引起線路故障的原因是用戶方面的原因時,需要進一步判斷到底是廣域網(wǎng)線路哪一端用戶的原因。可以使用“Ping 本地網(wǎng)關 t”命令,檢查本端計算機到本端網(wǎng)關的連通性。如果此測試發(fā)生丟包現(xiàn)象,則說明故障是由本端引起的,需要進一步查找。否則說明故障是由對端引起的,需要對端用戶進一步查找。 3)在確認故障是由線路的某一端引起之后,可以采取以下兩種方法快速

43、準確地定位引起故障的具體位置所在。一是采用“設備替換”法,利用一臺新的路由器、交換機等網(wǎng)絡設備替換現(xiàn)有的網(wǎng)絡設備,如果線路恢復正常,則說明是該網(wǎng)絡設備發(fā)生故障。否則需要繼續(xù)查找。二是采用“網(wǎng)線插拔”法,利用一臺運行正常的計算機,輸入“ping對方計算機t”命令,同時逐一插拔路由器或交換機上的每一根網(wǎng)線。如果看到在斷開某一根網(wǎng)線后整個線路恢復正常,則說明故障和這個端口有直接關系。再將這根網(wǎng)線插到交換機上的其它端口進行測試,如果線路恢復正常,則說明是交換機上的這個端口發(fā)生故障。否則說明連接這個端口的計算機或網(wǎng)線發(fā)生故障,需要繼續(xù)查找。4)在將故障定位到交換機上的具體某個端口以后,首先檢查與該端口相

44、連接的計算機運行是否正常。可以雙擊網(wǎng)卡,查看該網(wǎng)卡的發(fā)送包和接收包的數(shù)量,如果發(fā)現(xiàn)網(wǎng)卡的發(fā)包數(shù)在快速增加,則說明這臺計算機感染了蠕蟲病毒,應立即切斷該計算機與網(wǎng)絡的連接,進行病毒的查殺處理。否則說明該計算機的網(wǎng)卡或網(wǎng)線發(fā)生故障,需要更換新的網(wǎng)卡或網(wǎng)線。 (2)設備故障處理方法當發(fā)生設備故障時,網(wǎng)絡管理員首先確認是軟件故障還是硬件故障。如判斷為軟件故障,如配置文件丟失或非法更改,網(wǎng)絡管理員利用事先的備份配置文件重新配置設備并進行測試。如判斷為硬件故障,首先檢查設備的端口的LED狀態(tài)指示燈是否正常,在正常工作時一般狀態(tài)指示燈為綠色常亮,故障時LED狀態(tài)將關閉、閃爍或其它顏色。如端口指示燈顯示故障,

45、將該端口網(wǎng)線連接到其他冗余端口,如端口指示燈正常,則說明原端口故障,否則需要繼續(xù)查找。其次查看特定部件,如為板卡故障,切換到備用板卡并進行配置和測試,故障板卡報修;如為主引擎故障,緊急切換到備用交換機,并進行相應配置和測試,整機進行保修。(3)路由器接口故障處理方法1)串口故障當路由器串口出現(xiàn)連通性問題時,為了排除串口故障,一般是從show interface serial命令開始,分析它的屏幕輸出報告內(nèi)容,找出問題之所在。串口報告的開始提供了該接口狀態(tài)和線路協(xié)議狀態(tài)。接口和線路協(xié)議的可能組合有以下幾種:1串口運行、線路協(xié)議運行,這是完全的工作條件。該串口和線路協(xié)議已經(jīng)初始化,并正在交換協(xié)議的

46、存活信息。2串口運行、線路協(xié)議關閉,這個顯示說明路由器與提供載波檢測信號的設備連接,表明載波信號出現(xiàn)在本地和遠程的調(diào)制解調(diào)器之間,但沒有正確交換連接兩端的協(xié)議存活信息??赡艿墓收习l(fā)生在路由器配置問題、線路問題或遠程路由器故障。 3串口和線路協(xié)議都關閉,可能是電信部門的線路故障、電纜故障。4串口管理性關閉和線路協(xié)議關閉,這種情況是在接口配置中輸入了shutdown命令。通過輸入no shutdown命令,打開管理性關閉。5接口和線路協(xié)議都運行的狀況下,雖然串口鏈路的基本通信建立起來了,但仍然可能由于信息包丟失和信息包錯誤時會出現(xiàn)許多潛在的故障問題。正常通信時接口輸入或輸出信息包不應該丟失,或者丟

47、失的量非常小,而且不會增加。如果信息包丟失有規(guī)律性增加,表明 通過該接口傳輸?shù)耐ㄐ帕砍^接口所能處理的通信量。解決的辦法是增加線路容量。查找其它原因發(fā)生的信息包丟失,查看show interface serial命令的輸出報告中的輸入輸出保持隊列的狀態(tài)。當發(fā)現(xiàn)保持隊列中信息包數(shù)量達到了信息的最大允許值,可以增加保持隊列設置的大小。2)以太網(wǎng)接口故障以太接口的典型故障問題是:帶寬的過分利用;碰撞沖突次數(shù)頻繁;使用不兼容的幀類型。使用show interface ethernet命令可以查看該接口的吞吐量、碰撞沖突、信息包丟失、和幀類型的有關內(nèi)容等。通過查看接口的吞吐量可以檢測網(wǎng)絡的帶寬利用狀況。

48、如果網(wǎng)絡廣播信息包的百分比很高,網(wǎng)絡性能開始下降。光纖網(wǎng)轉(zhuǎn)換到以太網(wǎng)段的信息包可能會淹沒以太口。互聯(lián)網(wǎng)發(fā)生這種情況可以采用優(yōu)化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速轉(zhuǎn)換,并且調(diào)整緩沖區(qū)和保持隊列的設置。機房值班管理規(guī)范4.1 適用范圍本規(guī)范適用于公司本部及基層單位中心機房內(nèi)的設備、網(wǎng)絡、主機以及應用系統(tǒng)等日常操作管理工作。4.2 角色與職責機房值班管理設立機房管理/監(jiān)控崗,負責對機房的設備進行日常管理以及負責完成各信息系統(tǒng)的日常操作管理工作,崗位設立AB崗。具體職責如下:1序號角色職責1機房值班員1、執(zhí)行規(guī)定的操作任務,包括日常手工操作,系統(tǒng)手工監(jiān)控等。2

49、、對機房環(huán)境狀況進行監(jiān)控,對機房進出人員、設備進行登記等。3、根據(jù)設置好的備份/歸檔任務,進行備份介質(zhì)的管理及對備份介質(zhì)的驗證。4、執(zhí)行由本單位運維部門分配的任務。5、根據(jù)監(jiān)控系統(tǒng)產(chǎn)生的事件,執(zhí)行相應的操作,如重新啟動操作系統(tǒng),對應用系統(tǒng)進行檢查和基本的故障處理等。4.3 工作流程與活動4.4.1 每天例行工作內(nèi)容1、機房環(huán)境狀況檢查。每次當班人員負責檢查計算機機房內(nèi)設備的運行情況并記錄相關設備的狀況,例如空調(diào)機的溫度和濕度情況、消防、閉路監(jiān)控系統(tǒng)報警情況、UPS供配電情況及漏水檢測報警等,詳見中心機房狀況日志。2、系統(tǒng)檢查。使用適當?shù)募夹g手段對服務器系統(tǒng)情況、應用系統(tǒng)情況、應用系統(tǒng)備份情況進行檢查,如有異常情況及時記錄到值班記錄表并通知系統(tǒng)管理員。3、負責計算機機房出入人員的管理登記工作。非計算機信息中心人員應登記來人單位和陪同的人員。4.4.2 每周例行工作內(nèi)容根據(jù)有關系統(tǒng)的系統(tǒng)管理員的要求,每周定期由值班員做相關工作。4.4.3 每月例行工作內(nèi)容1、每月定期由值班人員負責組織空調(diào)檢修人員對機房空調(diào)進行檢修。2、每月定期由值班人員負責組織清潔人員,對機房抗靜電地板表面、墻面、天花板以及各類設備表面進行除塵。4.4.4 每季例行工作內(nèi)容每季定期由值班人員負

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論