




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、淺談建立科學(xué)的運(yùn)行維護(hù)與管理體系一、 背景說明 隨著IT技術(shù)在企業(yè)的應(yīng)用,尤其是航空企業(yè)大都已經(jīng)建立了基于IT的核心業(yè)務(wù)系統(tǒng),如我們南航有SOC、OA、數(shù)據(jù)倉庫、收益管理、電子商務(wù)、貨運(yùn)唐翼、地服坤翔、機(jī)務(wù)M&E等。業(yè)務(wù)策略驅(qū)動(dòng)IT策略的建立,IT策略支持業(yè)務(wù)策略。許多企業(yè)的運(yùn)作已經(jīng)離不開IT系統(tǒng)了,因此任何一個(gè)故障造成的損失,影響面是比較大,甚至影響整個(gè)企業(yè)的業(yè)務(wù)(如06年10月11日13:3514:20中航信離港系統(tǒng)主機(jī)發(fā)生故障,引致全國機(jī)場離港系統(tǒng)癱瘓。僅首都機(jī)場就有33個(gè)航班、廣州白云機(jī)場20個(gè)航班、深圳寶安14個(gè)航班延誤,滯留數(shù)千旅客)。而傳統(tǒng)的運(yùn)行維護(hù)管理模式比較被動(dòng),即只有當(dāng)系統(tǒng)
2、出問題時(shí), 才會(huì)引起注意和得到解決, 或者當(dāng)業(yè)務(wù)受影響, 并被業(yè)務(wù)部門匯報(bào)投訴,才發(fā)現(xiàn)問題。 這種管理模式已經(jīng)不能適應(yīng)目前環(huán)境下業(yè)務(wù)的需求。其次,從生命周期的角度看,無論是硬件還是軟件,大致可分為規(guī)劃和設(shè)計(jì)、開發(fā)和測(cè)試、實(shí)施、運(yùn)營和終止等5個(gè)階段。前面3階段從時(shí)間的角度看,只占生命周期的20,其余80的時(shí)間基本上是運(yùn)維服務(wù),如果整個(gè)IT的運(yùn)維做得不好,那么這些花費(fèi)大筆投資建立起來的系統(tǒng),無法帶來預(yù)期的效益,甚至于無法使用。根據(jù)Gartner Group調(diào)查發(fā)現(xiàn),在經(jīng)常出現(xiàn)的問題中,源自技術(shù)和產(chǎn)品方面的其實(shí)只占了20,流程失誤占40,人員疏失占40。流程失誤包括變更管理沒有做好、超載、沒有測(cè)試等
3、流程上的失誤或不完整。人員疏失包括遺忘、訓(xùn)練不足、備份錯(cuò)誤及安全疏忽等。這就說明IT運(yùn)維方面的問題,更多的不是技術(shù)問題,而是來自管理方面(80%)。因此對(duì)IT系統(tǒng)需要一套管理系統(tǒng)來支撐,這就是運(yùn)行維護(hù)系統(tǒng)。二、 信息系統(tǒng)運(yùn)行維護(hù)面臨的挑戰(zhàn) 一般信息系統(tǒng)架構(gòu)的層次如下: 應(yīng)用層 網(wǎng)絡(luò)層 基礎(chǔ)設(shè)施由此,我們可以看到,為了保證應(yīng)用系統(tǒng)的可用性,不但要保證應(yīng)用程序本身的正確性和健壯性,同時(shí)還要保證從網(wǎng)絡(luò)到應(yīng)用程序端到端的可用性。為此,從運(yùn)行維護(hù)的角度來看,必須從整體的角度來規(guī)劃,對(duì)與應(yīng)用系統(tǒng)相關(guān)的IT基礎(chǔ)設(shè)施、支撐平臺(tái)進(jìn)行集中監(jiān)控,并與應(yīng)用系統(tǒng)進(jìn)行關(guān)聯(lián),一旦出現(xiàn)故障,可以迅速定位并解決;同時(shí)定義相關(guān)的
4、流程保證一個(gè)應(yīng)用的變更不會(huì)對(duì)其他應(yīng)用產(chǎn)生影響,對(duì)出現(xiàn)的問題從根源上找出原因,并進(jìn)行解決,從而保證系統(tǒng)的高可用性。下面基于對(duì)信息系統(tǒng)運(yùn)行維護(hù)與管理的理解,基于ITIL的框架,提出運(yùn)行維護(hù)系統(tǒng)建立的一些想法。三、 運(yùn)行維護(hù)系統(tǒng)的設(shè)計(jì)那么如何設(shè)計(jì)IT運(yùn)行維護(hù)系統(tǒng)呢?主要從兩方面著手:一是管理流程的設(shè)計(jì)。二是系統(tǒng)監(jiān)控的設(shè)計(jì)。在管理流程方面,目前ITIL(IT基礎(chǔ)架構(gòu)庫IT Infrastruct Library為企業(yè)的IT服務(wù)管理實(shí)踐提供了一個(gè)客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范。是英國中央計(jì)算機(jī)與電信總局于1980年開發(fā)的一套IT服務(wù)管理標(biāo)準(zhǔn)庫。ITIL主要包括六個(gè)模塊,即業(yè)務(wù)管理、服務(wù)管理、基礎(chǔ)架構(gòu)管理
5、、IT服務(wù)管理規(guī)劃與實(shí)施、應(yīng)用管理和安全管理。其中服務(wù)管理是其最核心的模塊,該模塊包括“服務(wù)提供”和“服務(wù)支持”兩個(gè)流程組。ITIL的核心就是“以服務(wù)為中心”的IT管理)基本上成為事實(shí)上的標(biāo)準(zhǔn),它是最佳實(shí)踐的結(jié)晶;在系統(tǒng)監(jiān)控方面包括從IT基礎(chǔ)設(shè)施應(yīng)用系統(tǒng)進(jìn)行監(jiān)控,并實(shí)現(xiàn)事件的關(guān)聯(lián),以實(shí)現(xiàn)主動(dòng)的監(jiān)控,實(shí)現(xiàn)故障的快速定位和預(yù)警,下面具體說明。(一) 運(yùn)維系統(tǒng)的設(shè)計(jì)理念 基于ITIL-IT服務(wù)管理框架的運(yùn)維系統(tǒng)設(shè)計(jì)理念,將IT 服務(wù)管理分為:信息和通信基礎(chǔ)框架管理,這部份將更側(cè)重于技術(shù)視角。服務(wù)管理,包括“提供IT 服務(wù)” 和“支持IT ”服務(wù)兩部分,關(guān)注在提供IT 服務(wù)過程中,監(jiān)控和管理,處理解決
6、問題的整個(gè)過程。業(yè)務(wù)的管理,將從業(yè)務(wù)的視角來看管理,將管理IT 服務(wù)與IT 服務(wù)所支撐的業(yè)務(wù)關(guān)聯(lián)。 1、 信息和通信基礎(chǔ)框架管理 IT 基礎(chǔ)框架的智能管理是服務(wù)保障的基礎(chǔ),應(yīng)該是一個(gè)可以全面管理IT 基礎(chǔ)框架中所有產(chǎn)品和技術(shù)的平臺(tái),并通過提供從網(wǎng)絡(luò)到系統(tǒng)、應(yīng)用、業(yè)務(wù)的監(jiān)控管理以及面向IT運(yùn)維的事件壓縮、事件相關(guān)性分析、故障診斷、根源故障分析、自動(dòng)化的故障處理等一系列功能和工具達(dá)到真正的業(yè)務(wù)價(jià)值、真正的投資回報(bào)、保障安全生產(chǎn),提高服務(wù)水平。 2、服務(wù)管理今天,正進(jìn)行著服務(wù)管理的革命。幾乎所有企業(yè)的IT 部門都正在向面向業(yè)務(wù)的服務(wù)提供者的轉(zhuǎn)變。IT部門就像一個(gè)合作伙伴一樣參與到企業(yè)的業(yè)務(wù)過程,主動(dòng)
7、的提供服務(wù)職能,并向它的客戶-業(yè)務(wù)部門負(fù)責(zé)。 ITIL 將企業(yè)的IT 服務(wù)管理分為:提供IT服務(wù),關(guān)注在提供IT 服務(wù)過程中和管理行為和手段:制定規(guī)劃,為業(yè)務(wù)部門按計(jì)劃和服務(wù)質(zhì)量提供服務(wù) 保障提供服務(wù)的持續(xù)性。在服務(wù)提供體系實(shí)現(xiàn)的主要任務(wù)是:服務(wù)水平管理;可用性管理;容量管理;成本管理;應(yīng)急方案支持IT 服務(wù), 關(guān)注在支持IT 服務(wù)過程中,處理問題,變更等的動(dòng)作和流程。包括:為達(dá)到服務(wù)目標(biāo)提供相關(guān)管理信息。為實(shí)現(xiàn)服務(wù)目標(biāo)提供相應(yīng)的支撐機(jī)制。支持IT 服務(wù)服務(wù)支持體系實(shí)現(xiàn)的主要任務(wù)是: 配置管理 ;幫助臺(tái)管理; 問題管理; 變更管理 ;軟件控制和分發(fā)管理 3. 面向業(yè)務(wù)的管理 面向業(yè)務(wù)的IT 管
8、理是從客戶視角的端到端服務(wù)監(jiān)控管理,它的特點(diǎn)是:提供直觀的監(jiān)控視圖,能夠?qū)崟r(shí)判斷通信和IT 基礎(chǔ)框架故障對(duì)業(yè)務(wù)的影響;在發(fā)生影響業(yè)務(wù)的故障時(shí),IT服務(wù)保障部門能夠最快的獲知問題的發(fā)生,并迅速采取行動(dòng);根據(jù)故障對(duì)業(yè)務(wù)的影響情況,決定處理的優(yōu)先級(jí); 當(dāng)業(yè)務(wù)服務(wù)發(fā)生問題時(shí)能夠確定故障所在的基礎(chǔ)框架層次; 通知相關(guān)客戶服務(wù)系統(tǒng)或大客戶,告知問題的狀況和解決進(jìn)展; 面向客戶業(yè)務(wù)服務(wù),提供基于Web 的多種視圖,包括端到端服務(wù)監(jiān)控層次模型,和監(jiān)控構(gòu)成服務(wù)系統(tǒng)的各個(gè)組件;面向業(yè)務(wù)管理的宗旨是通過全面的業(yè)務(wù)系統(tǒng)和IT 框架系統(tǒng)監(jiān)控,增強(qiáng)管理,提高管理水平,并最終保障業(yè)務(wù)的成功運(yùn)行。實(shí)現(xiàn)IT基礎(chǔ)框架端到端的監(jiān)控
9、和與業(yè)務(wù)的關(guān)聯(lián)。(二)運(yùn)維系統(tǒng)的設(shè)計(jì)目標(biāo) 確保IT流程支撐業(yè)務(wù)流程, 整體提高業(yè)務(wù)運(yùn)營的質(zhì)量。提高用戶的滿意度, 提升企業(yè)的社會(huì)效益和經(jīng)濟(jì)效益。 實(shí)時(shí)實(shí)現(xiàn)對(duì)從IT的基礎(chǔ)架構(gòu)到應(yīng)用系統(tǒng)的端到端的運(yùn)行情況進(jìn)行監(jiān)控。 提供從業(yè)務(wù)角度分析IT基礎(chǔ)設(shè)施(包括系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫、應(yīng)用服務(wù)器)的能力。 建立完善的支持服務(wù)流程和支持模式。(三)基于ITIL的理念建立規(guī)范的處理流程 在ITIL中要建立許多管理流程,在實(shí)際應(yīng)用中,至少需要建立下面幾個(gè)流程:(1)問題管理 建立并應(yīng)用問題處理程序,以實(shí)現(xiàn)對(duì)問題診斷和確定解決問題的方案, 并將解決方案記錄在配置數(shù)據(jù)庫中,針對(duì)服務(wù)水平管理確定并實(shí)現(xiàn)內(nèi)部的問題升級(jí)時(shí)間標(biāo)準(zhǔn)
10、。 (2)資產(chǎn)管理 對(duì)于每天發(fā)生的事件, 問題, 變更處理, 新服務(wù)的配置, 各個(gè)組件的信息,資產(chǎn)管理的職責(zé)就是提供和維護(hù)這些信息, 它是與服務(wù)管理相關(guān)的最重要的任務(wù)之一。 (3)Help Desk管理 擔(dān)當(dāng)服務(wù)中與業(yè)務(wù)部門和客戶的主要接觸點(diǎn)(point-of-contac)。存儲(chǔ)事件, 確定問題嚴(yán)重級(jí)別, 綜合支持團(tuán)隊(duì)的努力, 確保及時(shí)準(zhǔn)確地解決問題, 并提供SLA(Service Level Agreement)即服務(wù)水平協(xié)議,即把承諾的服務(wù)進(jìn)行量化統(tǒng)計(jì), 證明能夠達(dá)到預(yù)期的服務(wù)級(jí)別。(4)變更管理 保證清楚的了解變更針對(duì)一個(gè)服務(wù)中任何組件的影響, 并保證對(duì)服務(wù)水平的影響最小, 變更管理包
11、括SLA文檔和服務(wù)目錄的變更, 以及組織變更和針對(duì)軟件和硬件的變更。(5)故障管理 故障管理的主要目標(biāo)是盡可能快地恢復(fù)服務(wù)至服務(wù)級(jí)別協(xié)議(SLA)要求的水準(zhǔn),盡可能減少故障對(duì)服務(wù)運(yùn)營的不利影響,以確保最好的服務(wù)質(zhì)量和可用性級(jí)別。(四)運(yùn)維系統(tǒng)的組成在一般的運(yùn)維系統(tǒng)中,需要一個(gè)大房間,在大房間中分成以下幾個(gè)部分,每個(gè)部分都扮演相應(yīng)的角色:第一層:大屏幕分別顯示有,基于業(yè)務(wù)的視圖,基于IT基礎(chǔ)架構(gòu)的視圖,基于網(wǎng)絡(luò)的視圖,當(dāng)故障出現(xiàn)時(shí)能夠以特定的顏色顯示出來,同時(shí)可以顯示一些公司需要直觀顯示的數(shù)據(jù)。 第二層:服務(wù)臺(tái)(Help Desk),主要提供:接受客戶的請(qǐng)求 提供客戶使用上的問題咨詢提供客戶業(yè)務(wù)
12、咨詢 記錄并跟蹤故障和客戶意見根據(jù)知識(shí)庫,盡快解決問題 及時(shí)通知客戶其請(qǐng)求的當(dāng)前狀況和最新進(jìn)展 根據(jù)服務(wù)級(jí)別協(xié)議,初步評(píng)估請(qǐng)求,經(jīng)歷解決它們或安排給一線工程師解決對(duì)客戶的故障從提出到驗(yàn)證及終止的整個(gè)過程進(jìn)行管理協(xié)調(diào)一線工程師和值班工程師第三層:一線支持工程師根據(jù)提供的監(jiān)控界面迅速定位問題并解決 對(duì)于臨時(shí)的解決辦法,還要把故障提交給問題處理流程根據(jù)服務(wù)級(jí)別,在問題未能及時(shí)解決時(shí)及時(shí)把問題提交給值班經(jīng)理 第四層:值班經(jīng)理個(gè)人 協(xié)調(diào)技術(shù)專家,根據(jù)服務(wù)協(xié)議的時(shí)間要求,解決問題 協(xié)調(diào)供應(yīng)商,根據(jù)維護(hù)協(xié)議要求,解決問題 (五)運(yùn)維系統(tǒng)的功能設(shè)計(jì) 基于ITIL設(shè)計(jì)理念,我們把ECC(error checki
13、ng and correcting)的實(shí)時(shí)監(jiān)控部分設(shè)計(jì)成層次架構(gòu),如下圖:事件采集層 事件處理層業(yè)務(wù)關(guān)聯(lián)層呈現(xiàn)層報(bào)表處理層1. 事件采集層在最基本的層次上,需要從被管理的IT基礎(chǔ)設(shè)施中獲取廣泛的,實(shí)時(shí)的數(shù)據(jù),能夠從網(wǎng)絡(luò)、系統(tǒng)和應(yīng)用層中捕獲、匯聚并處理大量數(shù)據(jù)的能力,我們通常稱之為事件管理。事件管理是整個(gè)面向服務(wù)管理系統(tǒng)的核心,在數(shù)據(jù)采集階段(包括網(wǎng)絡(luò)、系統(tǒng)和應(yīng)用層)采集的信息,只有經(jīng)過事件管理服務(wù)器,轉(zhuǎn)變?yōu)榻y(tǒng)一的格式,再流入智能化的管理層,實(shí)現(xiàn)事件的相關(guān)性分析。數(shù)據(jù)采集層是整個(gè)管理系統(tǒng)進(jìn)行信息處理和智能化分析的基礎(chǔ),因此需要充分獲得準(zhǔn)確、實(shí)時(shí)、完整的管理數(shù)據(jù)。在數(shù)據(jù)采集層,應(yīng)該進(jìn)行原始數(shù)據(jù)的過
14、濾、分類、分級(jí)等預(yù)處理操作,從中提煉出重要的管理信息。數(shù)據(jù)采集層獲取信息的實(shí)時(shí)和準(zhǔn)確性,以及對(duì)原始信息的預(yù)處理能力,將在很大程度上影響整個(gè)管理系統(tǒng)的管理能力和效率。2.事件處理層 數(shù)據(jù)收集僅僅是實(shí)現(xiàn)業(yè)務(wù)和通信及IT基礎(chǔ)框架管理的基礎(chǔ),需求最簡單的先決條件。實(shí)現(xiàn)真正的基礎(chǔ)框架智能化意味著能夠從整個(gè)基礎(chǔ)框架產(chǎn)生的大量數(shù)據(jù)中,通過采用一系列先進(jìn)的過濾,事件壓縮,關(guān)聯(lián)和診斷的技術(shù)進(jìn)行處理,抽取管理人員需要關(guān)注的重要信息。好的基礎(chǔ)框架監(jiān)控管理系統(tǒng)能夠?qū)⒕W(wǎng)絡(luò)以至IT系統(tǒng)的專業(yè)化知識(shí)融入在管理系統(tǒng)中,根據(jù)基礎(chǔ)框架層各組成資源的特點(diǎn),從原始的管理數(shù)據(jù)中智能分析系統(tǒng)的真實(shí)狀況,判斷資源實(shí)際的運(yùn)行狀態(tài),分析故障發(fā)
15、生的根源并提出解決建議,使運(yùn)維人員解決問題更加準(zhǔn)確和有效。一般包含以下功能:(1)事件的存儲(chǔ) 將運(yùn)行維護(hù)數(shù)據(jù)與歷史數(shù)據(jù)分開存儲(chǔ),以確保管理的效率。 一般管理信息需要保留6個(gè)月甚至更長的數(shù)據(jù),以進(jìn)行統(tǒng)計(jì)分析和存檔。 而在日常運(yùn)行管理中,一般只需要查看最近一周甚至更短的信息, 一般采用運(yùn)行數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)分開存儲(chǔ), 運(yùn)行數(shù)據(jù)采用高速的內(nèi)存數(shù)據(jù)庫保證事件處理的實(shí)時(shí)性, 歷史數(shù)據(jù)采用穩(wěn)定的關(guān)系型數(shù)據(jù)庫保證事件存儲(chǔ)的可靠性和容量,這種結(jié)構(gòu)使事件的處理更加合理。 (2)事件壓縮 IT資源事件中有很多重復(fù)事件, 尤其在系統(tǒng)組件不穩(wěn)定時(shí),有可能會(huì)產(chǎn)生事件風(fēng)暴。過多的事件會(huì)使管理員的桌面上羅列大量事件條目,管理員
16、無法獲取真正需要關(guān)注的重要事件,因此對(duì)重復(fù)事件進(jìn)行合并使事件條目清晰, 幫助管理員快速找到需要處理的故障是非常重要的。重復(fù)事件壓縮就是這樣的一個(gè)過程: 通過將從下層數(shù)據(jù)源所報(bào)告的相似事件加以匯總,合并成一條事件,該事件的內(nèi)容包含了該事件重復(fù)的次數(shù)以及發(fā)生的起止時(shí)間。 (3)事件自動(dòng)化處理 可以對(duì)各類事件信息進(jìn)行邏輯判斷, 并做出相應(yīng)的動(dòng)作: 如及時(shí)刪除不必要的信息、完成不同事件之間的關(guān)聯(lián)、對(duì)嚴(yán)重事件采用明顯的聲音報(bào)警、自動(dòng)升級(jí)警告級(jí)別如果嚴(yán)重事件在一段時(shí)間內(nèi)沒有人響應(yīng)、發(fā)送郵件進(jìn)行自動(dòng)通知等等。 (4)可用性的計(jì)算方法 根據(jù)故障樹分析FTA(Fault Tree Analysis)方法,結(jié)合可
17、用性的計(jì)算方法,來計(jì)算服務(wù)的可用性。 組件可用率的計(jì)算方法:組件可用率 = (AST-DT)/AST*100% AST約定服務(wù)時(shí)間(Agreed service time) DT在約定時(shí)間內(nèi)的實(shí)際停機(jī)時(shí)間(Actual downtime) (5)可用性的評(píng)估指標(biāo) 通常我們采用下面幾個(gè)指標(biāo)來對(duì)可用性進(jìn)行評(píng)估: 平均無故障時(shí)間(MTBF-Mean Time Between Falures),它指的是從某次事故修復(fù)到下次事故發(fā)生之間的平均間隔時(shí)間,又稱為正常運(yùn)營時(shí)間(Uptime),它是用來描述服務(wù)的可靠性。 平均修復(fù)時(shí)間(MTTR-Mean Time To Repair),它指的是事故發(fā)生到服務(wù)恢
18、復(fù)之間的平均間隔時(shí)間,又稱為停機(jī)時(shí)間(Downtime),它是用來描述服務(wù)的可維護(hù)性和適用性。(略去) 3.業(yè)務(wù)關(guān)聯(lián)層 業(yè)務(wù)影響分析, 基于CFIA等分析法,定義事件和業(yè)務(wù)系統(tǒng)的關(guān)聯(lián)關(guān)系,自動(dòng)找到故障所影響的業(yè)務(wù)和服務(wù), 并根據(jù)關(guān)聯(lián)結(jié)果創(chuàng)建新的服務(wù)事件報(bào)警。4.呈現(xiàn)層 提供基于Web方式的監(jiān)控視圖, 可以為不同的管理人員提供不同的監(jiān)控窗口, 以實(shí)時(shí)監(jiān)控相關(guān)的事件信息,事件窗口可以通過分組顯示不同類型、級(jí)別、源、時(shí)間段內(nèi)的事件信息, 管理員可以一目了然的看到目前是否有事件發(fā)生, 級(jí)別如何, 并對(duì)事件進(jìn)行一系列的處理工作。 5.報(bào)表處理層 各種監(jiān)控信息存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,可以利用報(bào)表工具進(jìn)行信息統(tǒng)
19、計(jì)分析,生成各種格式的報(bào)表。報(bào)表應(yīng)用可以與實(shí)時(shí)故障監(jiān)視環(huán)境實(shí)現(xiàn)無縫集成,為運(yùn)維提供一種長期的綜合視圖。報(bào)表應(yīng)用幫助管理人員了解其各種基礎(chǔ)設(shè)施在各種不同期間的行為特點(diǎn),從不同設(shè)備、系統(tǒng)和服務(wù)的層次上對(duì)各種基礎(chǔ)架構(gòu)的長期行為特點(diǎn)進(jìn)行查看和分析。(六)運(yùn)維系統(tǒng)的設(shè)計(jì)要求 1.基于ITIL框架設(shè)計(jì)運(yùn)維系統(tǒng)的設(shè)計(jì)要求基于ITIL的框架, ITIL的框架是最佳實(shí)踐的結(jié)晶。 2.可擴(kuò)展性 如果需要一個(gè)新的展示層或者事件關(guān)聯(lián),必須能夠無縫擴(kuò)充或集成到現(xiàn)有的管理框架中。為了保證隨著系統(tǒng)架構(gòu)的延伸擴(kuò)展而產(chǎn)生的越來越多的事件信息的處理性能,在任意一個(gè)層次增加都不會(huì)影響整體框架結(jié)構(gòu)。3.集成性集成企業(yè)現(xiàn)有以及未來可能
20、要擴(kuò)充的設(shè)備和管理系統(tǒng)。如果需要增加新的監(jiān)控對(duì)象,則最多只需簡單地增加一個(gè)探針,或增加一個(gè)新的關(guān)聯(lián)層 。4.集中化 已經(jīng)處理的事件(重復(fù)壓縮和事件關(guān)聯(lián))集中在一個(gè)地方。因此管理員可以共享整個(gè)系統(tǒng)的事件信息。 5.關(guān)聯(lián) 因?yàn)槭录P(guān)聯(lián)功能在整個(gè)系統(tǒng)管理中是分布的,因此為一個(gè)新服務(wù)增加新的事件關(guān)聯(lián)是非常容易的。 6.冗余 數(shù)據(jù)顯示層和關(guān)聯(lián)層的設(shè)計(jì)將考慮冗余設(shè)計(jì),當(dāng)任何一個(gè)服務(wù)器失敗,數(shù)據(jù)采集層的探針將會(huì)自動(dòng)切換到另一個(gè)服務(wù)器。 綜上所述,運(yùn)維系統(tǒng)的設(shè)計(jì),主要從兩個(gè)方面來實(shí)現(xiàn),一是管理流程的設(shè)計(jì),二是系統(tǒng)監(jiān)控的設(shè)計(jì)。通過上面的描述,我們看到,系統(tǒng)監(jiān)控的作用:當(dāng)系統(tǒng)出現(xiàn)故障時(shí)通過對(duì)系統(tǒng)各個(gè)層面的監(jiān)控以及
21、事件的關(guān)聯(lián),能夠保證快速定位故障,從而快速解決故障,使得故障對(duì)業(yè)務(wù)的影響降到最小,同時(shí)通過對(duì)系統(tǒng)性能的監(jiān)控,進(jìn)行預(yù)警,可以做到防范于未然,防范故障于萌芽狀態(tài),保證系統(tǒng)的可用性;而規(guī)范的管理流程,保證所有的問題在每一個(gè)階段得到有效的處理。在現(xiàn)階段我們運(yùn)維應(yīng)把重點(diǎn)放在以下幾個(gè)方面:日常維護(hù)體系運(yùn)維保障體系系故障預(yù)防體系故障處理快速反應(yīng)體系故障信息處理體系人員素質(zhì)培養(yǎng)體系技術(shù)交流研究體系一、 建立日常維護(hù)體系日常維護(hù)體系就是在日常的維護(hù)工作中建立一套行之有效的維護(hù)方法、程序、系統(tǒng)。維護(hù)工作不能走一步、看一步,而應(yīng)是有計(jì)劃、有目的的。為保證日常維護(hù)工作的進(jìn)行,就要制定與之相適應(yīng)的規(guī)章制度、維護(hù)規(guī)程、測(cè)
22、試方法,使維護(hù)工作走上有法可依、有據(jù)可尋的軌道。例如,運(yùn)維總體的、,使各崗位人員明確其職責(zé)和任務(wù),以避免責(zé)任不清、任務(wù)不明,并針對(duì)24小時(shí)值班人員的特點(diǎn)制定了,以避免交接班中所存在的漏洞。同時(shí),為避免人員操作失誤,還可根據(jù)各應(yīng)用系統(tǒng)的維護(hù)要求制定,規(guī)定了各應(yīng)用系統(tǒng)維護(hù)方面的具體問題。保證各系統(tǒng)的暢通、設(shè)備的正常運(yùn)行,測(cè)試是必不可少的環(huán)節(jié)。為此,可根據(jù)具體情況制定相應(yīng)的測(cè)試要求。例如,日測(cè)試表、周測(cè)試表、月測(cè)試和統(tǒng)計(jì)表、季度測(cè)試表和半年測(cè)試表,每個(gè)表都詳細(xì)列出了具體的測(cè)試要求和測(cè)試項(xiàng)目,要具有很強(qiáng)的操作性,從而規(guī)范和擴(kuò)展了各系統(tǒng)的日常維護(hù)工作,有效保證了其正常運(yùn)行。由此可見,建立與系統(tǒng)、設(shè)備維護(hù)
23、工作相適應(yīng)的規(guī)章制度、維護(hù)規(guī)程、測(cè)試方法能有效避免維護(hù)工作中存在的隨意性和被動(dòng)局面,從而使維護(hù)管理工作更加規(guī)范化、程序化和正規(guī)化。二、 建立故障預(yù)防體系安全可靠是信息工作永恒的主題,在信息系統(tǒng)維護(hù)工作中要始終貫穿“安全第一、預(yù)防為主”的思想,其中“預(yù)防為主”又是重中之重,所謂“防范于未然”或“安全防范關(guān)口前移”等就是要在充分了解系統(tǒng)、設(shè)備性能的基礎(chǔ)上,對(duì)可能出現(xiàn)和容易出現(xiàn)的故障設(shè)備、故障點(diǎn)逐一列出并建立與之相對(duì)應(yīng)的故障防范方法及應(yīng)對(duì)措施,將可能發(fā)生的故障次數(shù)降到最低限度。例如,可對(duì)所有與重要部門有關(guān)的應(yīng)用系統(tǒng)及其終端用戶都實(shí)行定期檢測(cè),主動(dòng)檢查。同時(shí),要提供備份手段,以確保系統(tǒng)及終端在任何情況
24、下的暢通無阻。故障預(yù)防體系之所以要單獨(dú)提出,就是要強(qiáng)調(diào)預(yù)防工作的重要性,在平時(shí)的工作中預(yù)想到可能出現(xiàn)的故障,從而將故障可能造成大的影響降到最低限度。三、 建立故障處理的快速反應(yīng)體系任何設(shè)備、系統(tǒng)都不可能沒有故障,那么,在故障出現(xiàn)時(shí),如何在最短的時(shí)間內(nèi),用最快的速度將故障修復(fù)就是非常重要的問題。建立故障處理的快速反應(yīng)體系的目的就是用科學(xué)的方法建立一套行之有效的故障處理程序,從而避免故障處理過程中的盲目性和隨意性,使得“無從下手”變成“有的放矢、有法可依”,以最快的速度排除故障,保證系統(tǒng)正常運(yùn)行。例如,可制定網(wǎng)絡(luò)故障處理流程圖,具體說明了在網(wǎng)絡(luò)發(fā)生各類故障時(shí)的處理過程,以及各種情況下的應(yīng)對(duì)措施。建
25、立各應(yīng)用系統(tǒng)及通信設(shè)備維護(hù)流程圖及應(yīng)急措施和相應(yīng)的處理時(shí)限,這些都是對(duì)日常維護(hù)和故障處理的總結(jié)和歸納。在流程圖及應(yīng)急措施中,即可以看到維護(hù)工作的全貌,對(duì)維護(hù)工作有一個(gè)整體了解;又可以找到故障處理的具體方法,使得每位維護(hù)人員都能根據(jù)流程圖和應(yīng)急措施作出快速反應(yīng),從而判明故障,在最短的時(shí)間內(nèi)排除故障,保證設(shè)備的正常運(yùn)行??焖俜磻?yīng)體系要強(qiáng)調(diào)“快速”,即在任何情況下都要有相應(yīng)的應(yīng)對(duì)措施,將故障的處理時(shí)間降到最低。四、 建立故障信息處理體系保證設(shè)備的正常運(yùn)行就是保證設(shè)備不出故障、少出故障。出現(xiàn)故障雖然不是好事,但如果我們認(rèn)真對(duì)待它、充分利用它,也可以將這一不利因素轉(zhuǎn)換成為有利因素。因?yàn)槊刻幚硪淮喂收隙际?/p>
26、對(duì)系統(tǒng)設(shè)備更加深入學(xué)習(xí)、了解的過程,所以,每次故障處理的過程、方法、結(jié)果及原因分析都是非常寶貴的財(cái)富,也是大家進(jìn)行業(yè)務(wù)學(xué)習(xí)的非常好的現(xiàn)場材料。因而對(duì)故障處理情況的收集、分類、整理也是非常有必要的。例如,運(yùn)維室可建立故障登記制度,對(duì)系統(tǒng)方面的故障、修改進(jìn)行分類、整理、登記。這樣,一方面,翻開記錄本(電腦記錄),就可以對(duì)整個(gè)系統(tǒng)的參數(shù)調(diào)整、修改工作和故障發(fā)生、處理情況有一個(gè)全面的、詳細(xì)的了解;另一方面,遇到類似的故障,也能與從前的處理情況進(jìn)行對(duì)比,從而為今后的工作積累寶貴的資料和經(jīng)驗(yàn)。還可將以往的故障處理情況都輸入微機(jī),進(jìn)行更加細(xì)致的分類和保存,為后續(xù)的故障處理工作提供可靠的依據(jù)。故障的信息處理體
27、系的建成也將會(huì)促進(jìn)快速反應(yīng)體系的運(yùn)轉(zhuǎn),從而形成故障處理的良性循環(huán)。五、 建立人員素質(zhì)培養(yǎng)體系在運(yùn)行保障體系中,人是最積極、也是唯一具有主觀性的因素。維護(hù)人員的業(yè)務(wù)技術(shù)水平直接影響著系統(tǒng)、設(shè)備維護(hù)水平,影響著系統(tǒng)保障的可靠性。如何調(diào)動(dòng)起維護(hù)人員的積極性和主觀能動(dòng)性,使維護(hù)工作從被動(dòng)局面轉(zhuǎn)化為主動(dòng)局面,是維護(hù)保障體系中非常重要的環(huán)節(jié)。只有不斷提高人員的業(yè)務(wù)技術(shù)素質(zhì),激發(fā)維護(hù)人員的創(chuàng)造性和工作熱情,才能為維護(hù)管理工作提供有力的保證。這可以從以下幾個(gè)方面進(jìn)行:首先,要保證維護(hù)人員的基本素質(zhì),使他們能獨(dú)立完成維護(hù)工作中的基本操作。例如,可根據(jù)機(jī)房值班及維護(hù)人員的實(shí)際情況制定學(xué)習(xí)計(jì)劃,定期組織學(xué)習(xí),講授各系統(tǒng)的功能、作用及常見故障的處理,學(xué)習(xí)結(jié)束后,進(jìn)行嚴(yán)格考核,從而保證了維護(hù)人員的基本素質(zhì)。其次,要注重業(yè)務(wù)技術(shù)骨干的培養(yǎng)。這些業(yè)務(wù)技術(shù)骨干一般都具有較好的技術(shù)知識(shí)基礎(chǔ)和外語基礎(chǔ),能夠主動(dòng)學(xué)習(xí)業(yè)務(wù)技術(shù)知識(shí),提高自身水平,具有很大的潛力,因此,一定要調(diào)動(dòng)好他們的積極性和創(chuàng)造性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 關(guān)于辦公資源采購的申請(qǐng)說明及審批報(bào)告書
- 新媒體內(nèi)容創(chuàng)意與運(yùn)營手冊(cè)
- 風(fēng)險(xiǎn)管理與合規(guī)手冊(cè)
- 高爾夫運(yùn)動(dòng)與球場管理作業(yè)指導(dǎo)書
- 食品加工設(shè)備行業(yè)智能化食品加工設(shè)備開發(fā)方案
- 電力電纜終端頭固定扭矩控制措施
- 低碳環(huán)保政策與實(shí)施策略
- 智能安防系統(tǒng)建設(shè)手冊(cè)
- 智能財(cái)稅綜合實(shí)訓(xùn) 上篇 社會(huì)共享初級(jí)代理實(shí)務(wù)工作領(lǐng)域四
- 解決方案與優(yōu)化措施
- 綜合門診部全科醫(yī)療科設(shè)置基本標(biāo)準(zhǔn)
- GB 15603-1995常用化學(xué)危險(xiǎn)品貯存通則
- FZ/T 07019-2021針織印染面料單位產(chǎn)品能源消耗限額
- 北師大版高中英語必修二《New-Zealand-Fact-File》reading-課件-
- 豎彎鉤的書寫課件
- 幼兒園小班植樹節(jié)課件:《栽樹》
- 初中英語《Unit5-Do-you-remember-what-you-were-doing》教學(xué)課件設(shè)計(jì)
- 幼兒園大班數(shù)學(xué)口算練習(xí)題可打印
- 小學(xué)班會(huì)課件-端午節(jié)主題班會(huì)(共19張PPT)通用版 PPT課件
- 細(xì)菌性痢疾流行病學(xué)個(gè)案調(diào)查表
- 員工年終述職報(bào)告工作總結(jié)PPT模板
評(píng)論
0/150
提交評(píng)論