企業(yè)開源監(jiān)控平臺(tái)實(shí)踐_第1頁(yè)
企業(yè)開源監(jiān)控平臺(tái)實(shí)踐_第2頁(yè)
企業(yè)開源監(jiān)控平臺(tái)實(shí)踐_第3頁(yè)
企業(yè)開源監(jiān)控平臺(tái)實(shí)踐_第4頁(yè)
企業(yè)開源監(jiān)控平臺(tái)實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 企業(yè)開源監(jiān)控平臺(tái)實(shí)踐高可用架構(gòu) 微信號(hào) ArchNotes功能介紹 高可用架構(gòu)公眾號(hào)。提起監(jiān)控,相信大家都不陌生。從馬路上的監(jiān)控探頭、手機(jī)地圖的實(shí)時(shí)路況到特斯拉的自動(dòng)駕駛傳感器,監(jiān)控?zé)o處不在。設(shè)想有一天,路上的監(jiān)控?cái)z像頭都消失了,你還放心讓孩子一個(gè)人過(guò)馬路嗎?IT運(yùn)維領(lǐng)域也是一樣,為保證系統(tǒng)的正常運(yùn)行,便于運(yùn)維人員及時(shí)了解當(dāng)前狀態(tài),必須建設(shè)一套完整的監(jiān)控體系。假設(shè)IT運(yùn)維沒(méi)有監(jiān)控,必然導(dǎo)致事故頻發(fā)(CPU/內(nèi)存使用率、進(jìn)程狀態(tài)無(wú)從知曉)、debug困難(無(wú)法定位問(wèn)題原因)、產(chǎn)品推廣緩慢(用戶指標(biāo)、實(shí)時(shí)業(yè)務(wù)無(wú)法知曉)。到頭來(lái),怎么死的都不知道!筆者就職于中國(guó)人壽數(shù)據(jù)中心,負(fù)責(zé)智能監(jiān)控系統(tǒng)建設(shè),

2、在長(zhǎng)期的工作中對(duì)監(jiān)控體系建設(shè)有一些心得體會(huì),愿與大家分享。一、監(jiān)控體系的金字塔結(jié)構(gòu)我們先來(lái)談?wù)処T運(yùn)維的監(jiān)控結(jié)構(gòu)。這里說(shuō)的IT運(yùn)維監(jiān)控,是在機(jī)房基礎(chǔ)建設(shè)之上的,不包括機(jī)房的風(fēng)、水、電等基礎(chǔ)建設(shè)的監(jiān)控。IT運(yùn)維監(jiān)控主要分為三大領(lǐng)域:基礎(chǔ)環(huán)境監(jiān)控、安全監(jiān)控、應(yīng)用監(jiān)控?;A(chǔ)環(huán)境監(jiān)控指針對(duì)數(shù)據(jù)中心所有運(yùn)行的服務(wù)器、數(shù)據(jù)庫(kù)、存儲(chǔ)、網(wǎng)絡(luò)設(shè)施的運(yùn)行狀態(tài)的監(jiān)控,如CPU/內(nèi)存/磁盤空間使用率、網(wǎng)絡(luò)延遲、帶寬占用、數(shù)據(jù)庫(kù)死鎖、磁盤IOPS等,可理解為IaaS層的監(jiān)控;安全監(jiān)控包括對(duì)內(nèi)網(wǎng)用戶訪問(wèn)的審計(jì)和外部攻擊的監(jiān)控等。對(duì)于金融企業(yè)而言,信息安全永遠(yuǎn)是最重要的話題之一,所以要單獨(dú)把安全監(jiān)控列出來(lái),作為單獨(dú)的一個(gè)領(lǐng)

3、域;應(yīng)用監(jiān)控是在基礎(chǔ)和安全監(jiān)控之上的領(lǐng)域,側(cè)重應(yīng)用系統(tǒng)的運(yùn)行指標(biāo),如訪問(wèn)量、交易時(shí)長(zhǎng)、交易占比、業(yè)務(wù)指標(biāo)等,可理解為PaaS或SaaS層的監(jiān)控。尤其是業(yè)務(wù)指標(biāo),每個(gè)系統(tǒng)的功能不一樣,有業(yè)務(wù)系統(tǒng)、有客戶服務(wù)系統(tǒng)、有辦公系統(tǒng),關(guān)注的業(yè)務(wù)指標(biāo)也不一而足。因此,除了些共性的指標(biāo),針對(duì)每一個(gè)應(yīng)用系統(tǒng)設(shè)計(jì)不同的監(jiān)控指標(biāo),也是一件龐大而復(fù)雜的工作?;A(chǔ)環(huán)境監(jiān)控、安全監(jiān)控、應(yīng)用監(jiān)控室最主要的三大領(lǐng)域,撐起這些領(lǐng)域的,是廣泛部署的監(jiān)控探針。就像汽車的傳感器,道路的攝像頭一樣,探針作為監(jiān)控系統(tǒng)的末梢,接入大量的被采集服務(wù)器,肩負(fù)起了獲取最原始監(jiān)控?cái)?shù)據(jù)的重任。再好的監(jiān)控算法、再牛X的實(shí)時(shí)計(jì)算平臺(tái),若原始數(shù)據(jù)都無(wú)法準(zhǔn)

4、確、實(shí)時(shí)獲取,都是白費(fèi)。很多人問(wèn)筆者如何衡量一套監(jiān)控系統(tǒng)的好壞,筆者的回答是,先看探針!圖一、監(jiān)控系統(tǒng)的金字塔體系二、智能預(yù)警金字塔頂?shù)拿髦樘结?、三大監(jiān)控領(lǐng)域(基礎(chǔ)環(huán)境、安全、應(yīng)用)共同組成了中國(guó)人壽的IT監(jiān)控金字塔體系,不過(guò)我們不能忘了,在塔的頂端,還有一個(gè)領(lǐng)域,這就是需要著重強(qiáng)調(diào)的智能預(yù)警。前文提到的監(jiān)控,均是在系統(tǒng)發(fā)生故障后或指標(biāo)達(dá)到預(yù)設(shè)的閾值后才發(fā)出告警,閾值是事先固定的,例如java進(jìn)程down,CPU使用率超過(guò)85%等,是一個(gè)固定的值,不會(huì)隨著系統(tǒng)及時(shí)間的變化而變化。固定值會(huì)有一個(gè)問(wèn)題:假如我們?cè)O(shè)定CPU使用率超過(guò)85%就告警,那么請(qǐng)問(wèn)系統(tǒng)在凌晨沒(méi)什么人使用的時(shí)候,CPU使用率超過(guò)

5、了50%,系統(tǒng)是正常還是異常的?按照固定閾值算法,CPU使用率未超過(guò)85%,系統(tǒng)正常,不觸發(fā)告警。但是用常識(shí)想一想,業(yè)務(wù)閑時(shí)系統(tǒng)的CPU使用率也超過(guò)50%,明顯不正常??!這個(gè)問(wèn)題怎么破?有人會(huì)說(shuō),把告警閾值動(dòng)態(tài)調(diào)整,閑時(shí)設(shè)低一點(diǎn),忙時(shí)設(shè)高一點(diǎn)。這個(gè)想法不錯(cuò),但是會(huì)有兩個(gè)問(wèn)題:1、怎么識(shí)別閑時(shí)和忙時(shí)?2、每個(gè)指標(biāo)都動(dòng)態(tài)調(diào)整的話,自定義的量太大。所以,智能預(yù)警就非常重要。簡(jiǎn)單地說(shuō),所謂智能預(yù)警,就是根據(jù)該指標(biāo)歷史數(shù)據(jù),動(dòng)態(tài)調(diào)整當(dāng)前的告警閾值,做到早發(fā)現(xiàn)、早追蹤、早處理。智能預(yù)警引入了時(shí)間的維度,利用大數(shù)據(jù)和實(shí)時(shí)計(jì)算技術(shù),將之前幾周甚至幾個(gè)月的指標(biāo)進(jìn)行聚合計(jì)算,得出當(dāng)前時(shí)間的動(dòng)態(tài)告警閾值,并根據(jù)時(shí)間

6、的變化而不斷調(diào)整。如果說(shuō)監(jiān)控是看現(xiàn)在,那么智能預(yù)警就是觀過(guò)去,測(cè)未來(lái)。別小看智能預(yù)警,中國(guó)人壽自主開發(fā)的智能預(yù)警系統(tǒng)“響尾蛇”,在2016年成功預(yù)測(cè)了12起潛在的故障,避免了嚴(yán)重的生產(chǎn)事故。圖二、中國(guó)人壽預(yù)警系統(tǒng)“響尾蛇”智能預(yù)警系統(tǒng)三、監(jiān)控的平臺(tái)化思路監(jiān)控系統(tǒng)是一個(gè)統(tǒng)一的平臺(tái),其輸入為各種原始監(jiān)控?cái)?shù)據(jù)和配置信息,輸出為各類業(yè)務(wù)和告警信息,監(jiān)控系統(tǒng)負(fù)責(zé)將輸入數(shù)據(jù)經(jīng)過(guò)處理和計(jì)算,輸出需要的信息。監(jiān)控系統(tǒng)平臺(tái)化架構(gòu)如下圖所示:圖三、監(jiān)控系統(tǒng)的平臺(tái)化思路其中輸入的監(jiān)控?cái)?shù)據(jù)可通過(guò)本地、遠(yuǎn)程或手工錄入的方式獲取,配置信息(服務(wù)器類別、用途、通知人、聯(lián)系方式等)從CMDB獲??;輸出的信息除發(fā)送至短信、郵件

7、系統(tǒng)外,也可以通過(guò)REST API供第三方系統(tǒng)調(diào)用,或?qū)幼詣?dòng)化運(yùn)維平臺(tái)。平臺(tái)化架構(gòu)的優(yōu)勢(shì)在于開放。除了監(jiān)控系統(tǒng)配套的探針傳來(lái)的數(shù)據(jù),也可以通過(guò)API接收合規(guī)的第三方的數(shù)據(jù),大大拓展了監(jiān)控平臺(tái)的業(yè)務(wù)場(chǎng)景。四、中國(guó)人壽的監(jiān)控選型市場(chǎng)上的監(jiān)控產(chǎn)品種類繁多,收費(fèi)的有,開源的也有。中國(guó)人壽根據(jù)自身特點(diǎn),結(jié)合長(zhǎng)期的運(yùn)維經(jīng)驗(yàn),走出了最適合自身的一條監(jiān)控選型道路?;A(chǔ)環(huán)境監(jiān)控方面,我們選用了zabbix。眾所周知,在開源的服務(wù)器和網(wǎng)絡(luò)監(jiān)控產(chǎn)品中,zabbix是較為突出的一個(gè)。它具有自主發(fā)現(xiàn)服務(wù)器、分布式監(jiān)控、可視化配置等功能。同時(shí)zabbix社區(qū)會(huì)員眾多,一般的問(wèn)題都可以直接解決。同時(shí),我們針對(duì)zabbix

8、進(jìn)行了二次開發(fā),增加了諸如統(tǒng)一告警頁(yè)面、對(duì)接cmdb、對(duì)接云助理(一款內(nèi)部辦公軟件)等功能。目前zabbix已接入近萬(wàn)臺(tái)服務(wù)器,為中國(guó)人壽基礎(chǔ)環(huán)境穩(wěn)定運(yùn)行提供監(jiān)控保障。安全監(jiān)控方面,我們采用了ELK技術(shù)棧對(duì)大量的安全設(shè)備日志進(jìn)行統(tǒng)一采集和管理。ELK是ElasticSearch、Logstash、Kibana三款開源系統(tǒng)的統(tǒng)稱,其一般作為套件統(tǒng)一使用,提供日志檢索服務(wù)。作為國(guó)內(nèi)市值最大的保險(xiǎn)集團(tuán),我們每天都會(huì)受到大量的外部網(wǎng)絡(luò)攻擊,部署的安全設(shè)備每天會(huì)生成大量的防護(hù)日志。因?yàn)槠放撇煌?,日志格式不一致,監(jiān)控界面也不盡相同。因此,我們以ELK為核心,將分布在各品牌安全設(shè)備中的日志統(tǒng)一收集,統(tǒng)一展現(xiàn)

9、,統(tǒng)一管理,提高了公司整體的安全防護(hù)能力。圖四、中國(guó)人壽安全監(jiān)控“大黃蜂”安全監(jiān)控應(yīng)用監(jiān)控方面,針對(duì)不同的業(yè)務(wù)場(chǎng)景,我們選用了兩套不同的方案。對(duì)于運(yùn)維人員,我們采用了和安全監(jiān)控相同的ELK方案,并在此基礎(chǔ)上增加了Filebeat作為agent,采集應(yīng)用系統(tǒng)的access log和server log,并根據(jù)統(tǒng)一模板定制展示。ElasticSearch強(qiáng)大的實(shí)時(shí)搜索能力可在毫秒內(nèi)搜索上億的業(yè)務(wù)日志信息,為告警和展現(xiàn)提供強(qiáng)有力的引擎支撐。同時(shí),我們也自開發(fā)了遠(yuǎn)程采集接口,可以做到無(wú)agent監(jiān)控,減少對(duì)被管機(jī)的壓力。圖五、中國(guó)人壽應(yīng)用監(jiān)控“全球鷹”應(yīng)用監(jiān)控(應(yīng)用監(jiān)控界面)針對(duì)業(yè)務(wù)管理人員,我們自開發(fā)了業(yè)務(wù)監(jiān)控系統(tǒng),展現(xiàn)渠道保費(fèi)、區(qū)域分布、用戶數(shù)量、訪問(wèn)量等信息,便于管理層實(shí)時(shí)決策;同時(shí)大屏監(jiān)控系統(tǒng)在每年開門紅期間(保險(xiǎn)業(yè)的“雙十一”)提供強(qiáng)大的業(yè)務(wù)決策支撐。圖六、中國(guó)人壽應(yīng)用監(jiān)控“全球

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論