下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
#監(jiān)控體系建設(shè)的三個階段概括-第一部分
監(jiān)控體系建設(shè)的三個階段概括-第一部分1.監(jiān)控建設(shè)這是監(jiān)控體系建設(shè)最基礎(chǔ)也是最重要的部分,后續(xù)體系化、智能化部分都依賴于這個階段的建設(shè)。在這個階段中,我們需要挑選合適的監(jiān)控工具,明確我們的監(jiān)控目標(biāo),做好告警配置,提供數(shù)據(jù)展示。當(dāng)這些完成之后,我們就有了一個最基礎(chǔ)的監(jiān)控平臺,大多數(shù)小公司做到這一步就已經(jīng)完成了監(jiān)控的建設(shè),但是這只是開始。1.1監(jiān)控工具,監(jiān)控工具是實(shí)現(xiàn)監(jiān)控功能和監(jiān)控效果最基礎(chǔ)的組件,如同高樓大廈的地基一般,監(jiān)控工具的完善程度直接決定了整套監(jiān)控體系的運(yùn)轉(zhuǎn),那么如何挑選監(jiān)控工具?如何使用監(jiān)控工具?如何發(fā)揮監(jiān)控功能應(yīng)有的作用呢?在選擇基礎(chǔ)監(jiān)控工具的時,必須要先明白基礎(chǔ)監(jiān)控工具的使用范圍。一般來講,會將IDC內(nèi)部的基礎(chǔ)設(shè)施的監(jiān)控歸屬到基礎(chǔ)監(jiān)控工具里面,常見的有zabbix、prometheus、Open-Falcon(Nightingale)等較為流行的開源監(jiān)控工具,還有很多商業(yè)化軟件,就不一一介紹了。在選擇監(jiān)控工具時,需要了解監(jiān)控系統(tǒng)所要部署的網(wǎng)絡(luò)環(huán)境、運(yùn)維架構(gòu)、運(yùn)維規(guī)模等內(nèi)容,也每個監(jiān)控工具的數(shù)據(jù)采集、存儲、計算的方式和特點(diǎn),從而挑選最合適的基礎(chǔ)監(jiān)控工具。監(jiān)控工具選型完成之后進(jìn)行建設(shè),主要考慮以下幾點(diǎn)性能保障:大型IDC的監(jiān)控數(shù)據(jù)日增超過50G,如何保障數(shù)據(jù)的高速讀寫、快速計算、及時告警等事項是最重要的,較為熱門的zabbix和prometheus都有成熟的性能保障解決方案。需要注意的是,前期的數(shù)據(jù)量可能較小,隨著時間的增加監(jiān)控規(guī)模越來越大,在建設(shè)初期盡可能的關(guān)聯(lián)到后續(xù)的發(fā)展需要,避免后期踩坑。高可用:要求在任意組件出現(xiàn)問題時,均能快速恢復(fù)監(jiān)控系統(tǒng)的可用性,無論是集群方案還是keepalived,均要做好充分測試,避免出現(xiàn)短時間不可恢復(fù)的故障時監(jiān)控系統(tǒng)不可用;快速迭代:要求監(jiān)控系統(tǒng)的擴(kuò)大化部署和在需要進(jìn)行更新時能夠迅速完成,減少部署難度、提高自動化水平,可借助ansible等自動化運(yùn)維工具完成。1.2監(jiān)控指標(biāo)在監(jiān)控建設(shè)過程中,監(jiān)控指標(biāo)的設(shè)立是非常重要的,它會告訴我們哪些組件應(yīng)該監(jiān)控哪些指標(biāo),相當(dāng)于監(jiān)控部署說明書?,F(xiàn)在的IDC內(nèi)部組件非常多,一些互聯(lián)網(wǎng)公司的技術(shù)棧甚至超過上百種,那么每一類的監(jiān)控指標(biāo)如何確立呢,建議采用分層的方法進(jìn)行確立。第一層-基礎(chǔ)設(shè)施:包含網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器、防火墻、負(fù)載均衡、專線、CDN等等)、物理服務(wù)器、虛擬服務(wù)器等設(shè)備。第二層-服務(wù)軟件:包含java中間件(Tomcat、Jboss、weblogic等)、消息中間件(kafka、MQ等)、數(shù)據(jù)庫(Mysql、Oracle、PG、ES等等)、運(yùn)維服務(wù)(ansible、pupeet、DNS、NTP等)等等。第三層-應(yīng)用服務(wù):包含應(yīng)用日志、接口調(diào)用(黃金指標(biāo):請求數(shù)量、成功比率、響應(yīng)時間、性能容量標(biāo))及其他一些異常事件。第四層-業(yè)務(wù)場景:包含會員驗證、文件傳輸、賬務(wù)數(shù)據(jù)、訂單數(shù)據(jù)、交易數(shù)據(jù)、異常巡檢等業(yè)務(wù)數(shù)據(jù)的監(jiān)控。第五層-用戶場景:崩潰、卡頓、網(wǎng)絡(luò)錯誤、網(wǎng)絡(luò)性能、交互分析、ANR等內(nèi)容。通過對監(jiān)控進(jìn)行分層,再對每一層的每個組件進(jìn)行解刨,從而獲取完整的監(jiān)控指標(biāo)列表,指標(biāo)的數(shù)量根據(jù)實(shí)際情況進(jìn)行篩選,在保障監(jiān)控系統(tǒng)容量的情況下,宜多不宜少,更多的監(jiān)控指標(biāo)會在產(chǎn)線發(fā)生故障的時候提供參考。1.3告警標(biāo)準(zhǔn)指標(biāo)設(shè)定完成之后,那么重點(diǎn)指標(biāo)需要進(jìn)行告警配置,通常我們會將告警分為幾個等級,不同的閾值對應(yīng)不同的告警等級,從而經(jīng)由不同的告警通道投遞給不同的人員。在設(shè)立告警的時候,我們要注意以下幾點(diǎn):等級區(qū)分:不同的告警級別之前的設(shè)立依據(jù)是要有區(qū)分的,比如嚴(yán)重告警等級的設(shè)立是為了標(biāo)識產(chǎn)線已經(jīng)出現(xiàn)異常,讓負(fù)責(zé)人員快速響應(yīng),而警告告警等級的設(shè)立則是為了標(biāo)識產(chǎn)線的一個基礎(chǔ)事件,只是通知負(fù)責(zé)人注意處理,避免產(chǎn)生異常。通過告警等級的區(qū)分,標(biāo)識出不同事件的嚴(yán)重性。告警通道:建議不同等級的監(jiān)控告警采用不同的告警通道,此舉是在節(jié)約成本的前提下,盡可能的提高處理效率,例如警告告警,只需要通過微信或者釘釘通知、一般嚴(yán)重告警則需要短信通知、嚴(yán)重告警則需要電話外呼。告警負(fù)責(zé)人:建議不同等級的監(jiān)控告警通知的人員也有所區(qū)分,此舉依舊是促進(jìn)提升監(jiān)控告警的恢復(fù)效率,例如警告告警,只需要通知給值班人員或者一線責(zé)任人,一般嚴(yán)重告警除了上述人員外還需要通知給二線責(zé)任人,嚴(yán)重告警則需要通知到相關(guān)的領(lǐng)導(dǎo)人員。1.4數(shù)據(jù)展示在監(jiān)控系統(tǒng)建設(shè)、指標(biāo)確認(rèn)、告警標(biāo)準(zhǔn)都完成之后,那么就要考慮對采集到的數(shù)據(jù)進(jìn)行展示了,方便系統(tǒng)管理員和相關(guān)人員查看數(shù)據(jù),一般來講,我們需要做到以下的數(shù)據(jù)展示:采樣數(shù)據(jù):采樣數(shù)據(jù)是指監(jiān)控系統(tǒng)根據(jù)指標(biāo)設(shè)定所采集到的數(shù)據(jù),對此類數(shù)據(jù)展示以圖形為主,基本都會繪制為時序折線圖,方便查看數(shù)據(jù)的變化趨勢,我們所要注意的是,單個指標(biāo)的數(shù)據(jù)查詢及指標(biāo)切換是較為麻煩的,開源軟件Grafana很好的幫我們解決了這個問題,可以繪制數(shù)據(jù)大盤,集中化展示我們所關(guān)注的數(shù)據(jù)。歷史數(shù)據(jù):歷史數(shù)據(jù)一般為采樣數(shù)據(jù)的降準(zhǔn)表現(xiàn)(純粹的保存實(shí)時采樣數(shù)據(jù)對數(shù)據(jù)存儲成本依賴較大),例如將分鐘級的數(shù)據(jù)降準(zhǔn)為小時級的數(shù)據(jù)。歷史數(shù)據(jù)的展示可以幫助系統(tǒng)負(fù)責(zé)人分析數(shù)據(jù)走勢、管理系統(tǒng)容量、產(chǎn)線故障review等,告警大盤:告警大盤為監(jiān)控
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 報廢食品銷售合同
- 舞蹈表演培訓(xùn)課程
- 山西省2024八年級物理上冊第二章聲現(xiàn)象第2節(jié)聲音的特性課件新版新人教版
- 河北省唐山市部分學(xué)校2024-2025學(xué)年高一上學(xué)期11月期中聯(lián)考化學(xué)試卷(含答案)
- 《麻紡織品中木質(zhì)素含量的測定 硫酸溶解法》
- 鋼業(yè)生產(chǎn)安全防范
- 福建省漳州第一中學(xué)2024-2025學(xué)年七年級上學(xué)期11月期中歷史試題
- 企業(yè)植樹節(jié)活動方案
- 城市燃?xì)庀嚓P(guān)行業(yè)投資方案范本
- 老年體位性低血壓的護(hù)理
- 心衰合并胸腔積液的護(hù)理Ppt
- 廉潔風(fēng)險防控手冊(醫(yī)院)
- 酒精戒斷綜合征護(hù)理查房課件
- 中國古代陶瓷鑒賞
- 計算機(jī)應(yīng)用與人工智能基礎(chǔ)項目9 人工智能
- 編譯原理考試題及答案匯總
- 人教版九年級化學(xué)上冊第六單元課題3-二氧化碳和一氧化碳說課稿
- 中國成人患者腸外腸內(nèi)營養(yǎng)臨床應(yīng)用指南(2023版)
- 物業(yè)管理應(yīng)急響應(yīng)能力提升及案例分析
- 水產(chǎn)養(yǎng)殖學(xué)專業(yè)大學(xué)生職業(yè)生涯規(guī)劃書
- 森林防火應(yīng)對工作預(yù)案
評論
0/150
提交評論