




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 金融行業(yè)IT運(yùn)維監(jiān)控體系的建設(shè)實(shí)踐目 錄 TOC o 1-3 h z u HYPERLINK l _Toc33352485 一、監(jiān)控體系分層 PAGEREF _Toc33352485 h 6 HYPERLINK l _Toc33352486 1、概述 PAGEREF _Toc33352486 h 6 HYPERLINK l _Toc33352487 2、分層方式 PAGEREF _Toc33352487 h 7 HYPERLINK l _Toc33352488 3、各層職責(zé) PAGEREF _Toc33352488 h 9 HYPERLINK l _Toc33352489 二、監(jiān)控整合 PA
2、GEREF _Toc33352489 h 11 HYPERLINK l _Toc33352490 1、事件匯總 PAGEREF _Toc33352490 h 12 HYPERLINK l _Toc33352491 2、統(tǒng)一可視 PAGEREF _Toc33352491 h 13 HYPERLINK l _Toc33352492 3、整合標(biāo)準(zhǔn) PAGEREF _Toc33352492 h 14 HYPERLINK l _Toc33352493 三、監(jiān)控指標(biāo) PAGEREF _Toc33352493 h 15 HYPERLINK l _Toc33352494 1、指標(biāo)分類(lèi) PAGEREF _Toc
3、33352494 h 15 HYPERLINK l _Toc33352495 2、指標(biāo)分級(jí) PAGEREF _Toc33352495 h 17 HYPERLINK l _Toc33352496 3、指標(biāo)基線(xiàn) PAGEREF _Toc33352496 h 18 HYPERLINK l _Toc33352497 四、監(jiān)控事件 PAGEREF _Toc33352497 h 18 HYPERLINK l _Toc33352498 1、監(jiān)控事件 PAGEREF _Toc33352498 h 19 HYPERLINK l _Toc33352499 2、事件標(biāo)準(zhǔn) PAGEREF _Toc33352499 h
4、 19 HYPERLINK l _Toc33352500 3、事件關(guān)聯(lián) PAGEREF _Toc33352500 h 22 HYPERLINK l _Toc33352501 4、事件應(yīng)急 PAGEREF _Toc33352501 h 25 HYPERLINK l _Toc33352502 五、持續(xù)優(yōu)化 PAGEREF _Toc33352502 h 28 HYPERLINK l _Toc33352503 1、思路 PAGEREF _Toc33352503 h 29 HYPERLINK l _Toc33352504 2、措施 PAGEREF _Toc33352504 h 29 HYPERLINK
5、l _Toc33352505 3、團(tuán)隊(duì)建設(shè) PAGEREF _Toc33352505 h 32IT運(yùn)維體系的架構(gòu)中,IT運(yùn)維監(jiān)控是IT運(yùn)維體系中重要的組成部分,作為運(yùn)維的生命線(xiàn),安全生產(chǎn)保障的生命線(xiàn)仍需強(qiáng)調(diào)。運(yùn)維的安全生產(chǎn)保障,主要以“監(jiān)、管、控”為核心,其中“監(jiān)”則主要指的是監(jiān)控。在金融行業(yè)工作過(guò)程中積累的監(jiān)控體系建設(shè)知識(shí)進(jìn)行總結(jié),梳理成體系,思維導(dǎo)圖如下:一、監(jiān)控體系分層1、概述多年運(yùn)維經(jīng)驗(yàn)的積累,往往己沉淀下來(lái)不少監(jiān)控工具,同時(shí)也有不同專(zhuān)業(yè)線(xiàn)條的工具,在基礎(chǔ)架構(gòu)、系統(tǒng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用層面等采用不同的監(jiān)控工具。對(duì)于這些工具,通常采用以下方式處理:1)建立集中監(jiān)控平臺(tái):在一體化運(yùn)維
6、體系中,監(jiān)控平臺(tái)貫穿所有環(huán)節(jié),可以對(duì)生產(chǎn)系統(tǒng)涉及的各種環(huán)境的實(shí)時(shí)運(yùn)行狀況監(jiān)控,監(jiān)控平臺(tái)事件驅(qū)動(dòng)的特性也為一體化運(yùn)維體系起到驅(qū)動(dòng)的作用。為了提高投入效率,減少重復(fù)投入,建立集中監(jiān)控平臺(tái)實(shí)現(xiàn)統(tǒng)一展示、統(tǒng)一管理是迫切需要的,集中監(jiān)控也能夠同時(shí)實(shí)現(xiàn)兩地三中心建設(shè),具備靈活的擴(kuò)展性,支持運(yùn)維數(shù)據(jù)分析等功能;2)完善監(jiān)控工具功能:當(dāng)前并沒(méi)有哪一個(gè)監(jiān)控工具可以覆蓋所有生產(chǎn)系統(tǒng)的運(yùn)行指標(biāo),不同的專(zhuān)業(yè)線(xiàn)條需要不同的監(jiān)控工具,因此需要不斷完善沉淀監(jiān)控工具。另外監(jiān)控平臺(tái)從WEB、APP、到DB均采用了多中心雙活分布式架構(gòu)部署,但為了保證監(jiān)控覆蓋能力,部份重要的環(huán)節(jié)仍建議不僅限一套監(jiān)控工具。3)各專(zhuān)業(yè)條線(xiàn)對(duì)各條線(xiàn)的監(jiān)
7、控負(fù)責(zé):術(shù)業(yè)有專(zhuān)攻,各專(zhuān)業(yè)條線(xiàn)是最清楚自己需要監(jiān)控哪些指標(biāo)的團(tuán)隊(duì),各專(zhuān)業(yè)條線(xiàn)對(duì)監(jiān)控覆蓋率、監(jiān)控準(zhǔn)確率負(fù)責(zé),監(jiān)控平臺(tái)的建設(shè)方負(fù)責(zé)平臺(tái)體系的建設(shè),提供基礎(chǔ)技術(shù)支撐。4)資源整合:不同的專(zhuān)業(yè)條線(xiàn)、不同的分析技術(shù)可以有不同的監(jiān)控工具,采用這種多點(diǎn)開(kāi)花的建設(shè)方式更有助于監(jiān)控面與深度的完善,所有的工具最終需要進(jìn)行標(biāo)準(zhǔn)化的整合。基于上面4個(gè)處理思路,明確主要的建設(shè)目標(biāo)、減少重復(fù)建設(shè),需要對(duì)監(jiān)控工具進(jìn)行體系化管理,體系化管理首先要做的就是進(jìn)行監(jiān)控體系分層。2、分層方式不同的監(jiān)控體系有不同的分層體系,以專(zhuān)業(yè)條線(xiàn)方式分層方式如下:1)基礎(chǔ)架構(gòu)層:包括運(yùn)營(yíng)商網(wǎng)絡(luò)專(zhuān)線(xiàn)、機(jī)房(機(jī)房?jī)?nèi)的設(shè)施,比如制冷、安防等),基礎(chǔ)設(shè)施
8、層的監(jiān)控分為狀態(tài)、性能、質(zhì)量、容量、架構(gòu)等幾個(gè)層面。2)系統(tǒng)網(wǎng)絡(luò)層:包括系統(tǒng)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等服務(wù)器的可用性狀態(tài)。3)數(shù)據(jù)庫(kù)層:主要是指數(shù)據(jù)庫(kù)的使用情況。4)中間件層:主要針對(duì)中間件的使用情況。5)應(yīng)用服務(wù):主要是針對(duì)應(yīng)用服務(wù)可用性、應(yīng)用營(yíng)業(yè)狀態(tài)、應(yīng)用性能幾方面。3、各層職責(zé)1)基礎(chǔ)架構(gòu)層狀態(tài)監(jiān)控包括機(jī)房供電、空調(diào)等軟硬件狀態(tài),如設(shè)備狀態(tài)等;性能監(jiān)控包括設(shè)備的性能情況等;容量監(jiān)控包括設(shè)備負(fù)載使用率、專(zhuān)線(xiàn)帶寬使用率、出口流量分布等;由于基礎(chǔ)設(shè)施硬件往往己有設(shè)備健康性的檢測(cè)機(jī)制,建議向這類(lèi)廠(chǎng)商提要求,將設(shè)備的運(yùn)行事件主動(dòng)送到監(jiān)控平臺(tái)整合。2)系統(tǒng)網(wǎng)絡(luò)層存儲(chǔ):包括存儲(chǔ)設(shè)備,以及設(shè)備上的硬盤(pán)讀寫(xiě)
9、錯(cuò)誤、讀寫(xiě)超時(shí)、硬盤(pán)掉線(xiàn)、硬盤(pán)介質(zhì)錯(cuò)誤網(wǎng)絡(luò)監(jiān)控包括設(shè)備錯(cuò)包、丟包率,針對(duì)網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)鏈路的探測(cè)延時(shí)、丟包率監(jiān)控等;服務(wù)器上的內(nèi)存(內(nèi)存缺失、內(nèi)存配置錯(cuò)誤、內(nèi)存不可用、內(nèi)存校驗(yàn))、網(wǎng)卡(網(wǎng)卡速率;電源:電源電壓、電源模塊是否失效)、風(fēng)扇、Raid卡虛擬機(jī)容器:Docker等存儲(chǔ)、物理設(shè)備、虛擬機(jī)等參考基礎(chǔ)設(shè)施層由廠(chǎng)商主動(dòng)匯總事件到監(jiān)控平臺(tái)。3)數(shù)據(jù)庫(kù)中間件層主要包括中間件、數(shù)據(jù)庫(kù),以及其它開(kāi)源分布式中間件等工具,這方面包括很多,以數(shù)據(jù)庫(kù)為例,包括:CPU(CPU整體使用率、CPU各核使用率、CPU 負(fù)載)、內(nèi)存(應(yīng)用內(nèi)存、整體內(nèi)存、Swap等)、磁盤(pán)IO(讀寫(xiě)速率、IOPS、平均等待延時(shí)、平
10、均服務(wù)延時(shí)等)、連接等。這一層的工具能夠采用成熟工具或自研的方式,可選的空間比較大,建設(shè)過(guò)程中,中間件與數(shù)據(jù)庫(kù)兩塊是值得讓DBA、中間件管理員深度挖掘監(jiān)控指標(biāo)覆蓋面。4)應(yīng)用服務(wù)層服務(wù)可用性監(jiān)控:如服務(wù)、端口是否存在,是否假死等應(yīng)用性能:應(yīng)用處理能力,比如交易量、成功率、失敗率、響應(yīng)率、耗時(shí)二、監(jiān)控整合監(jiān)控的分層方式促進(jìn)了每一個(gè)專(zhuān)業(yè)層的監(jiān)控覆蓋面與深度,防止建設(shè)失控。在監(jiān)控整合上,主要從事件匯總、統(tǒng)一可視、監(jiān)控?cái)?shù)據(jù)匯總?cè)矫孢M(jìn)行梳理。1、事件匯總監(jiān)控應(yīng)該盡可能簡(jiǎn)單地把需要人介入或關(guān)注的信息展示給運(yùn)維團(tuán)隊(duì),能通過(guò)自動(dòng)化自愈解決、分析定位過(guò)程則不在一級(jí)視圖提供。第一部分監(jiān)控分層中提到,完善監(jiān)控工具
11、,這些工具在運(yùn)營(yíng)過(guò)程中每天都會(huì)產(chǎn)生大量事件,為了實(shí)現(xiàn)監(jiān)控集中展示,集中管理,需要建設(shè)一個(gè)事件匯總的模塊實(shí)現(xiàn)事件統(tǒng)一匯總,并對(duì)不同層面、不同專(zhuān)業(yè)角度的事件進(jìn)行關(guān)聯(lián)分析,更全面的感知系統(tǒng)運(yùn)行狀況。從可視化角度看,不同的工具有不同的監(jiān)控事件展示界面,多個(gè)運(yùn)維視圖增加了運(yùn)維技能要求,需要更多的人力去管理生產(chǎn);缺少對(duì)各類(lèi)事件進(jìn)行匯總與數(shù)據(jù)分析,無(wú)法反映生產(chǎn)系統(tǒng)整體的運(yùn)行狀況,如能將這些事件數(shù)據(jù)匯總起來(lái),則可以直觀(guān)地管控應(yīng)用狀況;同一個(gè)生產(chǎn)問(wèn)題往往會(huì)帶來(lái)多個(gè)維度的生產(chǎn)運(yùn)行問(wèn)題,如果監(jiān)控指標(biāo)足夠豐富往往會(huì)有上百條以上,不能準(zhǔn)確、快速定位問(wèn)題根源。每天能觸發(fā)閥值的告警很多,以經(jīng)驗(yàn)的方式很難讓一線(xiàn)監(jiān)控團(tuán)隊(duì)無(wú)時(shí)無(wú)
12、刻能準(zhǔn)確的定位哪些是高優(yōu)先級(jí)的告警,比如磁盤(pán)空間到了70%的確需要有人去關(guān)注,評(píng)估是否進(jìn)行數(shù)據(jù)清理、擴(kuò)容,但這類(lèi)告警屬于低優(yōu)先級(jí)的事件。事件匯總模塊需要有幾個(gè)基本要求:事件匯總:匯總不同層次、不同專(zhuān)業(yè)條線(xiàn)、不同類(lèi)型事件是監(jiān)控集中管理的基礎(chǔ)。事件收斂:前面提到同一個(gè)故障會(huì)觸發(fā)多類(lèi)指標(biāo)的告警,同一個(gè)指標(biāo)在故障未解除前也會(huì)重復(fù)產(chǎn)生大量的告警事件,如果將全部事件都展示出來(lái),那對(duì)于監(jiān)控處理人員將是災(zāi)難性的,所以需要進(jìn)行事件收斂。事件分級(jí):對(duì)于不同的事件需要有適當(dāng)層次的事件分級(jí),事件升級(jí)的策略。事件分級(jí)是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識(shí)顯示,事件升級(jí)是對(duì)于低級(jí)的事件當(dāng)達(dá)到一定的程度,比如處理時(shí)間過(guò)長(zhǎng),則需要進(jìn)行
13、升級(jí)。事件分析:事件分析是建立事件的關(guān)聯(lián)關(guān)系。2、統(tǒng)一可視不同監(jiān)控工具有著不同界面,不同的操作方法,對(duì)工具的掌握程度依賴(lài)于運(yùn)維人員的經(jīng)驗(yàn),監(jiān)控管理很難形成標(biāo)準(zhǔn)化,不利于監(jiān)控的集中管理、釋放人力成本。所以,監(jiān)控事件匯總后,需要有一個(gè)統(tǒng)一的可視化,支持統(tǒng)一展示、多類(lèi)型展示形式、多維用戶(hù)視角、支持按需訂閱的特點(diǎn)。具體包括:支持事件的統(tǒng)一展示:支持不同角色用戶(hù)管理不同的事件,包括事件的受理、分派、督辦、升級(jí)、解除、轉(zhuǎn)工單等閉環(huán)操作,無(wú)需在不同工具上多次操作。多維監(jiān)控:根據(jù)不同機(jī)構(gòu)、不同用戶(hù)的關(guān)注點(diǎn),比如一線(xiàn)運(yùn)維主要關(guān)注實(shí)時(shí)告警,二線(xiàn)運(yùn)維主要關(guān)注事件豐富與故障樹(shù)等輔助定位,值班人員主要關(guān)注當(dāng)天監(jiān)控事件處
14、理情況,團(tuán)隊(duì)管理者主要關(guān)注團(tuán)隊(duì)內(nèi)監(jiān)控事件與重要業(yè)務(wù)系統(tǒng)運(yùn)行狀況,主管經(jīng)理主要關(guān)注整合的運(yùn)行情況與人員處理情況,開(kāi)發(fā)人員需要有協(xié)助處理的視角數(shù)據(jù)等。支持訂閱展示:針對(duì)不同的業(yè)務(wù)運(yùn)營(yíng)場(chǎng)景、不同的用戶(hù)進(jìn)行布局、推送數(shù)據(jù)、監(jiān)控指標(biāo)的訂閱式展示。3、整合標(biāo)準(zhǔn)關(guān)于數(shù)據(jù)整合,需要不同的監(jiān)控線(xiàn)條自行判斷整理不同監(jiān)控工具事件數(shù)據(jù)的整合,主要從告警、日志、報(bào)送幾個(gè)角度分析出發(fā)。三、監(jiān)控指標(biāo)監(jiān)控有賴(lài)于運(yùn)維各專(zhuān)業(yè)條線(xiàn)協(xié)同完善,通過(guò)將監(jiān)控體系進(jìn)行分層、分類(lèi),各專(zhuān)業(yè)條線(xiàn)再去有重點(diǎn)的豐富監(jiān)控指標(biāo)。1、指標(biāo)分類(lèi)1)基礎(chǔ)架構(gòu)層環(huán)境動(dòng)力:暖通系統(tǒng)(如空調(diào)、機(jī)房環(huán)境、漏水等)、電力系統(tǒng)(如配電柜等)、安防系統(tǒng)(如消防、門(mén)禁等)等安
15、全設(shè)備:防火墻、入侵檢測(cè)、防病毒等2)系統(tǒng)網(wǎng)絡(luò)層虛擬化:虛擬網(wǎng)絡(luò)資源、虛擬主機(jī)、虛擬存儲(chǔ)資源等存儲(chǔ)設(shè)備:磁盤(pán)陣列、虛擬帶庫(kù)、物理磁帶庫(kù)、SAN、NAS等服務(wù)器:大中小型機(jī)、X86服務(wù)器網(wǎng)絡(luò)設(shè)備:路由器、網(wǎng)絡(luò)交換機(jī)、多層交換機(jī)、負(fù)載均衡設(shè)備3)數(shù)據(jù)庫(kù)層數(shù)據(jù)庫(kù):ORACLE、MYSQL、SQL SERVER等其它系統(tǒng)軟件:備份軟件4)中間件層中間件:WEBSPHERE、WEBLOGIC、TOMCAT、REDIS等5)應(yīng)用服務(wù)層服務(wù)可用性:服務(wù)狀態(tài)、日志刷新、端口監(jiān)聽(tīng)、網(wǎng)絡(luò)連通性等2、指標(biāo)分級(jí)需要重點(diǎn)強(qiáng)調(diào)一下監(jiān)控指標(biāo)的分級(jí)與上升機(jī)制問(wèn)題,監(jiān)控最重要目標(biāo)是不漏報(bào),為了不漏報(bào)在實(shí)際實(shí)施過(guò)程中會(huì)出現(xiàn)監(jiān)控告
16、警過(guò)多的困難。如何讓運(yùn)維人員在不漏處理監(jiān)控事件,又能快速解決風(fēng)險(xiǎn)最高的事件?則監(jiān)控指標(biāo)需要有明確的分級(jí)與上升機(jī)制:1)分級(jí)與上升機(jī)制有監(jiān)控指標(biāo),就需要針對(duì)監(jiān)控指標(biāo)定義閥值,監(jiān)控閥值的設(shè)立需要有分級(jí)機(jī)制 對(duì)于升級(jí),是指一個(gè)預(yù)警當(dāng)長(zhǎng)時(shí)間未處理時(shí),需要有一個(gè)上升機(jī)制,轉(zhuǎn)化為告警,以督辦運(yùn)維人員完成監(jiān)控事件的處理。分級(jí)與上升需通過(guò)流程管理加以落實(shí)。3、指標(biāo)基線(xiàn)1)基礎(chǔ)基線(xiàn)需要對(duì)系統(tǒng)運(yùn)行的情況設(shè)定一個(gè)基礎(chǔ)基線(xiàn),基線(xiàn)越準(zhǔn)確,誤報(bào)率越低。有些情況判斷一個(gè)監(jiān)控指標(biāo)是否是事件,需要將多個(gè)指標(biāo)放在一起看才能判斷。比如WINDOWS集群下的SQL SERVER進(jìn)程內(nèi)存長(zhǎng)期都占95%以上,如果將內(nèi)存作為基線(xiàn)畫(huà)線(xiàn),就會(huì)
17、是一條高負(fù)載的線(xiàn),所以可以考慮將CPU、內(nèi)存兩個(gè)指標(biāo)合并作為一個(gè)基線(xiàn)指標(biāo)。2)基線(xiàn)的人工調(diào)整系統(tǒng)運(yùn)行過(guò)程中難免會(huì)因?yàn)闃I(yè)務(wù)運(yùn)營(yíng)推廣等導(dǎo)致歷史基線(xiàn)不能反映指標(biāo)是否合理,這時(shí)候需要有一個(gè)人工調(diào)整基線(xiàn)的入口,運(yùn)維人員可以重新繪制基線(xiàn)。四、監(jiān)控事件1、監(jiān)控事件監(jiān)控事件反映的是IT基礎(chǔ)架構(gòu)、中間件、數(shù)據(jù)庫(kù)、應(yīng)用程序等運(yùn)行過(guò)程中發(fā)生的問(wèn)題。監(jiān)控系統(tǒng)通過(guò)采集運(yùn)行數(shù)據(jù),通過(guò)數(shù)據(jù)判斷規(guī)則生成事件,監(jiān)控事件還涉及事件的處理、事件的關(guān)聯(lián)分析,并驅(qū)動(dòng)事件的解決。事件關(guān)聯(lián)、事件應(yīng)急、事件分析、智能處理方面的建設(shè)思路有哪些?2、事件標(biāo)準(zhǔn)1)數(shù)據(jù)模型事件數(shù)據(jù)主要包含數(shù)據(jù)信息、靜態(tài)信息、現(xiàn)場(chǎng)信息、知識(shí)庫(kù)信息、關(guān)聯(lián)信息。靜態(tài)信息
18、包含描述信息,描述信息主要包含相關(guān)人員描述信息、服務(wù)器描述信息、工單信息等,這塊豐富數(shù)據(jù)可以通過(guò)CIMS獲取,這部份豐富數(shù)據(jù)有助于事件處理過(guò)程中關(guān)聯(lián)分析。事件現(xiàn)場(chǎng)信息包含指標(biāo)信息、性能信息、系統(tǒng)資源信息等,這部份信息主要是反映事件的現(xiàn)場(chǎng)數(shù)據(jù)。知識(shí)庫(kù)信息主要指相似歷史事件及其處理方式等信息。關(guān)聯(lián)信息主要包含從屬事件信息、關(guān)聯(lián)影響信息。2)分級(jí)標(biāo)準(zhǔn)分級(jí)是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識(shí)顯示,事件升級(jí)是對(duì)于低級(jí)的事件當(dāng)達(dá)到一定的程度,比如處理時(shí)間過(guò)長(zhǎng),則需要進(jìn)行升級(jí)。我們將監(jiān)控事件等級(jí)事件級(jí)別分為通知、預(yù)警、故障三種:通知:指一般的通知信息類(lèi)事件。預(yù)警:指已經(jīng)出現(xiàn)異常,即將要引起生產(chǎn)故障的事件。故障:指已
19、經(jīng)發(fā)生問(wèn)題,并且已經(jīng)影響到生產(chǎn)流程的事件,如果需要進(jìn)一步細(xì)化故障級(jí)別,可以分為一般故障和緊急故障:一般故障不需要緊急處理的故障,緊急故障需要管理員緊急處理的故障。事件細(xì)分的粒度需根據(jù)各運(yùn)維團(tuán)隊(duì)的管理要求而定。3、事件關(guān)聯(lián)1)事件豐富事件豐富包括事件描述豐富、事件現(xiàn)場(chǎng)豐富(指標(biāo)信息豐富、系統(tǒng)資源信息豐富)、知識(shí)庫(kù)豐富,提高運(yùn)維人員分析問(wèn)題的能力。事件主要豐富方法如下:與第三方監(jiān)控系統(tǒng)對(duì)接,獲取事件相關(guān)信息。如與CIMS系統(tǒng)對(duì)接,獲取服務(wù)器等相關(guān)配置信息進(jìn)行CIMS數(shù)據(jù)豐富;指標(biāo)信息豐富:獲取事件發(fā)生前后一段時(shí)間內(nèi)的相關(guān)指標(biāo)信息數(shù)據(jù)(如CPU/內(nèi)存等),進(jìn)行指標(biāo)信息豐富;相關(guān)事件豐富:根據(jù)拓?fù)潢P(guān)系
20、模型、應(yīng)用關(guān)系關(guān)聯(lián)模型將相近事件時(shí)間范圍內(nèi)的事件進(jìn)行豐富展示;知識(shí)庫(kù)豐富:建立事件處理方案知識(shí)庫(kù),記錄事件處理的方法和流程,為事件處理人提供參考依據(jù),以及為后續(xù)自動(dòng)化運(yùn)維提供理論支撐。2)事件擴(kuò)散事件發(fā)生之后,監(jiān)控系統(tǒng)需要能自動(dòng)分析事件的關(guān)聯(lián)信息,幫助運(yùn)維人員盡可能的還原事件現(xiàn)場(chǎng),提高分析問(wèn)題的能力。3)事件觸發(fā)系統(tǒng)在設(shè)置報(bào)警策略時(shí),可針對(duì)指標(biāo)進(jìn)行觸發(fā)條件設(shè)置,觸發(fā)條件按照類(lèi)型分為閾值觸發(fā)、基線(xiàn)觸發(fā)、智能預(yù)測(cè)。系統(tǒng)根據(jù)不同的觸發(fā)類(lèi)型設(shè)置,采用的判斷方式也不一樣。具體如下:閾值觸發(fā)系統(tǒng)支持指標(biāo)的閾值觸發(fā)設(shè)置,當(dāng)指標(biāo)值達(dá)到設(shè)置的閾值時(shí)即可進(jìn)行報(bào)警。閾值的設(shè)置范圍只能在該指標(biāo)的數(shù)值范圍內(nèi)進(jìn)行設(shè)置。閾
21、值在設(shè)置時(shí)需要指定數(shù)值單位,防止數(shù)值因單位不同出現(xiàn)判斷錯(cuò)誤。在設(shè)置閾值時(shí)系統(tǒng)支持實(shí)時(shí)查看指標(biāo)當(dāng)日折現(xiàn)圖和歷史基線(xiàn),幫助運(yùn)維人員正確判斷閾值的設(shè)置范圍。基線(xiàn)觸發(fā)系統(tǒng)支持指標(biāo)的基線(xiàn)觸發(fā)設(shè)置,當(dāng)指標(biāo)值達(dá)到設(shè)置的基線(xiàn)時(shí)即可進(jìn)行報(bào)警?;€(xiàn)設(shè)置可按照歷史基線(xiàn)進(jìn)行設(shè)置。系統(tǒng)支持在選定的基線(xiàn)基礎(chǔ)上進(jìn)行上浮或下沉幅度的設(shè)置。在設(shè)置基線(xiàn)時(shí)系統(tǒng)支持實(shí)時(shí)查看指標(biāo)當(dāng)日折現(xiàn)圖和歷史基線(xiàn),幫助運(yùn)維人員正確判斷基線(xiàn)的設(shè)置范圍。系統(tǒng)支持按照平均基線(xiàn)進(jìn)行設(shè)置。基線(xiàn)設(shè)置時(shí)需要有一定的歷史數(shù)據(jù)作為依據(jù)。智能預(yù)測(cè)智能預(yù)測(cè)主要是通過(guò)歷史數(shù)據(jù)的分析,通過(guò)智能算法預(yù)測(cè)未來(lái)可能出現(xiàn)的問(wèn)題。4、事件應(yīng)急1)應(yīng)急恢復(fù)運(yùn)維最基本的指標(biāo)就是系統(tǒng)可用性
22、,應(yīng)急恢復(fù)的時(shí)效性是系統(tǒng)可用性的關(guān)鍵指標(biāo)。通常來(lái)講應(yīng)急恢復(fù)的方法有不少,比如:服務(wù)整體性能下降或異常,可以考慮重啟服務(wù);應(yīng)用做過(guò)變更,可以考慮是否需要回切變更;資源不足,可以考慮應(yīng)急擴(kuò)容;應(yīng)用性能問(wèn)題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù);數(shù)據(jù)庫(kù)繁忙,可以考慮通過(guò)數(shù)據(jù)庫(kù)快照分析,優(yōu)化SQL;應(yīng)用功能設(shè)計(jì)有誤,可以考慮緊急關(guān)閉功能菜單;等等2)模擬事故現(xiàn)場(chǎng)故障處理中,理論上應(yīng)該在應(yīng)急前進(jìn)行現(xiàn)場(chǎng)保護(hù)以備問(wèn)題原因排查的跟進(jìn)?,F(xiàn)場(chǎng)信息主要包含進(jìn)程內(nèi)部狀態(tài)信息、日志信息。實(shí)際應(yīng)用過(guò)程中可以結(jié)合工具進(jìn)行現(xiàn)場(chǎng)模擬。3)問(wèn)題排查是否為偶發(fā)性、是否可重現(xiàn)故障現(xiàn)象是否可以重現(xiàn),對(duì)于快速解決問(wèn)題很重要,而且能重現(xiàn)的故障往
23、往可能是服務(wù)異常、變更等工作導(dǎo)致的問(wèn)題。如果故障是偶發(fā)性的,是有極小概率出現(xiàn)的,則比較難排查,這依賴(lài)于系統(tǒng)是否有足夠的故障期間的現(xiàn)場(chǎng)信息來(lái)決定是否可以定位到總是原因。是否進(jìn)行過(guò)相關(guān)變更大部份故障是由于變更導(dǎo)致,確定故障現(xiàn)象后,如果有應(yīng)的變更,有助于從變更角度出現(xiàn)分析是否是變更引起,進(jìn)而快速定位故障并準(zhǔn)備好回切等應(yīng)急方案。關(guān)聯(lián)方配合分析問(wèn)題避免各關(guān)聯(lián)團(tuán)隊(duì)同時(shí)無(wú)頭緒的排查的同時(shí),對(duì)于牽頭方在縮小范圍后需要開(kāi)放的態(tài)度去請(qǐng)求關(guān)聯(lián)方配合定位,而對(duì)于關(guān)聯(lián)方則需要有積極配合的工作態(tài)度。是否有足夠的日志定位故障原因,最常用也最有效的方法就是分析日志,對(duì)運(yùn)維人員不僅需要知道業(yè)務(wù)功能對(duì)應(yīng)哪個(gè)服務(wù)進(jìn)程,還要知道這個(gè)
24、服務(wù)進(jìn)程對(duì)應(yīng)的哪些應(yīng)用日志,并具備一些簡(jiǎn)單的應(yīng)用日志異常錯(cuò)誤的判斷能力。4)文檔管理故障的表現(xiàn)雖然形式多種多樣,但實(shí)際的故障處理過(guò)程中,應(yīng)急措施往往重復(fù)使用幾個(gè)常用的步驟,所以應(yīng)急文檔首先要針對(duì)這些常用的場(chǎng)景。另外,有了應(yīng)急方案,還要保證運(yùn)維人員持續(xù)去更新,這就需要先讓運(yùn)維人員經(jīng)常使用這個(gè)手冊(cè)。如果一個(gè)手冊(cè)沒(méi)有場(chǎng)景可以用,那就需要管理者為運(yùn)維人員創(chuàng)造機(jī)會(huì)去使用這個(gè)手冊(cè),比如應(yīng)急演練。五、持續(xù)優(yōu)化1、思路監(jiān)控系統(tǒng)建設(shè)目標(biāo)是完善監(jiān)控能力,持續(xù)優(yōu)化是必不可少的環(huán)節(jié)。2、措施1)目標(biāo)分解不漏報(bào)漏報(bào)可以從兩個(gè)層面看,一個(gè)是監(jiān)控工具不具備某一方面的監(jiān)控能力;一個(gè)是監(jiān)控工具具備監(jiān)控能力,但因?yàn)槭褂谜呤褂脝?wèn)題導(dǎo)致未覆蓋監(jiān)控。前者需要完善監(jiān)控能力,比如針對(duì)生產(chǎn)故障舉一反三式的優(yōu)化,或由不同專(zhuān)業(yè)條線(xiàn)主動(dòng)增加監(jiān)控能力,后者則需要考慮幾個(gè)問(wèn)題:管理上有沒(méi)有要求指標(biāo)的100%覆蓋率覆蓋率的要求是否確實(shí)可以落地,或功能上是否設(shè)計(jì)極不友好前面兩個(gè)問(wèn)題需要從
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 實(shí)習(xí)實(shí)訓(xùn)基地合作協(xié)議合同范本
- 企業(yè)間的戰(zhàn)略合作伙伴合同
- 全職勞動(dòng)合同參考合同
- 5守株待兔(教學(xué)設(shè)計(jì))-2023-2024學(xué)年語(yǔ)文三年級(jí)下冊(cè)統(tǒng)編版
- Unit 1 How can I get there?Part B(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè)
- 常年法律顧問(wèn)服務(wù)合同
- 11 浮力 第二課時(shí) 教學(xué)設(shè)計(jì)-2024-2025學(xué)年科學(xué)四年級(jí)上冊(cè)蘇教版
- 建筑項(xiàng)目材料檢測(cè)委托合同
- 中保人壽瑞祥養(yǎng)老保險(xiǎn)合同范本
- 標(biāo)準(zhǔn)化苗木購(gòu)銷(xiāo)合同范本詳解
- SH/T 3003-2024 石油化工合理利用能源設(shè)計(jì)導(dǎo)則(正式版)
- 中國(guó)人民大學(xué)613衛(wèi)生統(tǒng)計(jì)歷年真題12-16
- 人事聘用合同范本標(biāo)準(zhǔn)版
- 新疆地方教材可愛(ài)的中國(guó)第二單元教學(xué)設(shè)計(jì)
- 米-伊林《十萬(wàn)個(gè)為什么》閱讀練習(xí)+答案
- 三年級(jí)奧數(shù)專(zhuān)項(xiàng)練習(xí)-和差問(wèn)題
- 強(qiáng)化學(xué)習(xí) 課件 第1章 強(qiáng)化學(xué)習(xí)概述
- 《鄧稼先》省公開(kāi)課一等獎(jiǎng)全國(guó)示范課微課金獎(jiǎng)?wù)n件
- 蘇教版二年級(jí)下冊(cè)科學(xué)全冊(cè)教案
- 挖掘機(jī)操作收藏手冊(cè)
- 教育家精神專(zhuān)題講座課件
評(píng)論
0/150
提交評(píng)論