混合云全景可觀測技術(shù)架構(gòu)探索和實(shí)踐-阿里云+王肇剛_第1頁
混合云全景可觀測技術(shù)架構(gòu)探索和實(shí)踐-阿里云+王肇剛_第2頁
混合云全景可觀測技術(shù)架構(gòu)探索和實(shí)踐-阿里云+王肇剛_第3頁
混合云全景可觀測技術(shù)架構(gòu)探索和實(shí)踐-阿里云+王肇剛_第4頁
混合云全景可觀測技術(shù)架構(gòu)探索和實(shí)踐-阿里云+王肇剛_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

王肇剛(梓弋)品事業(yè)部-混合云平臺里云高級技術(shù)專家王肇剛(花名:梓弋)王肇剛(花名:梓弋),阿里云基礎(chǔ)產(chǎn)品事件部混合云全景監(jiān)控平臺團(tuán)隊(duì)(前阿里集團(tuán)監(jiān)控平臺Sunfire團(tuán)隊(duì))及混合云云+應(yīng)用一體化運(yùn)維項(xiàng)目負(fù)責(zé)人。在智能監(jiān)控、運(yùn)維領(lǐng)域工作多年,一直在努力通過產(chǎn)品化、智能化的方式提升監(jiān)控、運(yùn)維的效率和能力。?混合云場景下落地可觀測能力的技術(shù)挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術(shù)架構(gòu)探索?混合云可觀測實(shí)戰(zhàn)案例從監(jiān)控到可觀測控通過采集、分析和使用特定.vs.測通過分析系統(tǒng)主動(dòng)暴露或生成的數(shù)據(jù)被動(dòng)施加關(guān)注具體指標(biāo)和現(xiàn)象關(guān)注報(bào)警和概況從外掛式監(jiān)控到內(nèi)置式監(jiān)控從孤立、割裂的指標(biāo)、事件到全景、全棧化的態(tài)勢感知和關(guān)聯(lián)分析分析從報(bào)警響應(yīng)到故障全聲明周期的問題排查、處置和長期優(yōu)化主動(dòng)透出關(guān)注上下文和背后原因關(guān)注根因和處置方案棧可觀測景可觀測一體??捎^測景可觀測一體云平臺、基礎(chǔ)位一體、處置一體化混合云行業(yè)增長趨勢明顯,目前處于攻堅(jiān)期受監(jiān)控(可觀測)產(chǎn)品自身技術(shù)演進(jìn)趨勢影響眾多的NPM和APM廠商進(jìn)入ITIM(IT基礎(chǔ)設(shè)施監(jiān)控)領(lǐng)域,監(jiān)控產(chǎn)品供應(yīng)商之間的界限越發(fā)模糊注重分析監(jiān)控工具更多地關(guān)注數(shù)據(jù)采集(收集)和展示,棧監(jiān)控受客戶IT技術(shù)形態(tài)演進(jìn)趨勢影響監(jiān)控領(lǐng)域的客戶更多關(guān)注在混合基礎(chǔ)架構(gòu)(多云、異構(gòu)網(wǎng)絡(luò)、物聯(lián)網(wǎng))等領(lǐng)域的監(jiān)控能力成本運(yùn)營運(yùn)維人員希望通過一起使用ITIM工具和云原生監(jiān)控能力,來達(dá)成(成本)優(yōu)化的目標(biāo)。混合架構(gòu)混合云客戶對可觀測能力的三大需求服務(wù)于故障處理全聲明周期的可觀測能力服務(wù)于故障處理全聲明周期的可觀測能力如何進(jìn)行監(jiān)控元數(shù)據(jù)如何兼容監(jiān)控視角和數(shù)據(jù)采集、聚合維度如何滿足應(yīng)用性能監(jiān)如何觀測應(yīng)用自身的如何基于應(yīng)用暴露業(yè)如何進(jìn)行監(jiān)控元數(shù)據(jù)如何兼容監(jiān)控視角和數(shù)據(jù)采集、聚合維度如何滿足應(yīng)用性能監(jiān)如何觀測應(yīng)用自身的如何基于應(yīng)用暴露業(yè)如何在混合架構(gòu)下度應(yīng)用架構(gòu)差異傳統(tǒng)應(yīng)用架構(gòu)微服務(wù)架構(gòu)技術(shù)棧差異發(fā)語言差異技術(shù)框架差異研發(fā)模式差異運(yùn)維模式差異基于物理機(jī)/基于容器/K8S虛擬機(jī)運(yùn)維虛擬機(jī)運(yùn)維技術(shù)環(huán)境差異導(dǎo)致全棧監(jiān)控落地困難如何讓監(jiān)控、運(yùn)維同災(zāi)……割裂層之二:平臺運(yùn)營和平臺運(yùn)維之間的割裂割裂層之三:監(jiān)控報(bào)警和應(yīng)急處置之間的割裂割裂層之四:不同的垂直應(yīng)用系統(tǒng)之間的割裂如何在割裂的運(yùn)維體系下落地全景可觀測災(zāi)……割裂層之二:平臺運(yùn)營和平臺運(yùn)維之間的割裂割裂層之三:監(jiān)控報(bào)警和應(yīng)急處置之間的割裂割裂層之四:不同的垂直應(yīng)用系統(tǒng)之間的割裂遲延成功率成成功率支付網(wǎng)關(guān)政務(wù)業(yè)務(wù)政務(wù)中臺門戶網(wǎng)站政企業(yè)務(wù)2政企業(yè)務(wù)2應(yīng)門戶網(wǎng)站政企業(yè)務(wù)2政企業(yè)務(wù)2租戶側(cè)contractbusinesscontractbusiness)政企應(yīng)用2c政企應(yīng)用2政企應(yīng)用1Container/ECSContainer/ECSOSS管控OSS管控存儲安全平臺運(yùn)維平臺側(cè)云平臺層運(yùn)維應(yīng)用/業(yè)務(wù)監(jiān)控獲取拓?fù)淅щy運(yùn)維應(yīng)用/業(yè)務(wù)監(jiān)控獲取拓?fù)淅щy?業(yè)務(wù)和業(yè)務(wù)之間的橫向拓?fù)?業(yè)務(wù)和應(yīng)用之間的縱向拓?fù)?應(yīng)用與應(yīng)用之間的橫向拓?fù)?應(yīng)用與云產(chǎn)品實(shí)例(中間件、DB)之間的縱向拓?fù)?云產(chǎn)品實(shí)例和云平臺組件之間的縱向拓?fù)淙绾巫尡O(jiān)控報(bào)警更好地服務(wù)于故障定界和處置 故障發(fā)現(xiàn)故障定級故障快恢故障定界快恢預(yù)案告警服務(wù)于故障發(fā)現(xiàn)告警服務(wù)于故障快恢報(bào)警風(fēng)暴掩蓋關(guān)鍵業(yè)務(wù)告警告警服務(wù)于故障定級故障定級難以綜合技術(shù)容災(zāi)能力和業(yè)務(wù)影響告警服務(wù)于故障定界告警和快恢入口割裂,快恢決策依賴人工判斷針對不同監(jiān)控對象的告警雜亂發(fā)送,無法結(jié)構(gòu)化地服務(wù)于故障定界?混合云場景下落地可觀測能力的技術(shù)挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術(shù)架構(gòu)探索?混合云可觀測實(shí)戰(zhàn)案例KPI看板析自愈化定級量預(yù)測應(yīng)急指揮編排智能診斷場景略管理應(yīng)急快恢能力集成應(yīng)急業(yè)務(wù)視圖應(yīng)急應(yīng)用視圖應(yīng)急盯屏應(yīng)急預(yù)案應(yīng)急協(xié)同應(yīng)用監(jiān)控業(yè)務(wù)監(jiān)控景視圖應(yīng)用全局拓?fù)涿爰壉O(jiān)控計(jì)算類云實(shí)例應(yīng)用視角云資源池監(jiān)控API控應(yīng)用健康畫像容器&經(jīng)典應(yīng)用程調(diào)用監(jiān)控盤KPI看板析自愈化定級量預(yù)測應(yīng)急指揮編排智能診斷場景略管理應(yīng)急快恢能力集成應(yīng)急業(yè)務(wù)視圖應(yīng)急應(yīng)用視圖應(yīng)急盯屏應(yīng)急預(yù)案應(yīng)急協(xié)同應(yīng)用監(jiān)控業(yè)務(wù)監(jiān)控景視圖應(yīng)用全局拓?fù)涿爰壉O(jiān)控計(jì)算類云實(shí)例應(yīng)用視角云資源池監(jiān)控API控應(yīng)用健康畫像容器&經(jīng)典應(yīng)用程調(diào)用監(jiān)控盤代碼級診斷應(yīng)用Trace分析數(shù)據(jù)庫調(diào)用監(jiān)控應(yīng)用核心鏈路Prometheus數(shù)據(jù)庫類云實(shí)例race智能基線檢測成JAVA異常監(jiān)控景檢測集成集成景檢測據(jù)管理一存儲管控計(jì)算引擎一采控框架場景化監(jiān)控能力驗(yàn)分析報(bào)告演練集成應(yīng)用云實(shí)例拓?fù)浼纱鎯︻愒茖?shí)例應(yīng)用云實(shí)例拓?fù)浼纱鎯︻愒茖?shí)例康畫像控控系挖掘警模板注入統(tǒng)一采控平臺代理管理統(tǒng)物理服務(wù)器據(jù)庫應(yīng)用系統(tǒng)虛擬機(jī)&容器業(yè)務(wù)應(yīng)用應(yīng)用一體化運(yùn)維對業(yè)務(wù)應(yīng)用應(yīng)用一體化運(yùn)維對象云平臺安全生產(chǎn)業(yè)務(wù)場景故障發(fā)現(xiàn)故障定界故障處理事件定級1.集中式調(diào)度2.消息驅(qū)動(dòng)3.守護(hù)&監(jiān)護(hù)Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm混合云可觀測架構(gòu)實(shí)現(xiàn)路徑1.集中式調(diào)度2.消息驅(qū)動(dòng)3.守護(hù)&監(jiān)護(hù)Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm起點(diǎn):阿里集團(tuán)監(jiān)控平臺(Sunfire)技術(shù)架構(gòu)SunfiremetaSunfirecomputeAlibabaAlibabaCMDBSunfireWEBUI&APISunfireMQLSunfireMQL計(jì)算核心業(yè)務(wù)指標(biāo),不超過4.7秒的數(shù)據(jù)遲延監(jiān)控集群自身規(guī)模(節(jié)點(diǎn)數(shù)量)過萬~分布在阿里集團(tuán)多個(gè)數(shù)據(jù)中心,生產(chǎn)突襲驗(yàn)證全局高可用基于消息的異步調(diào)度租戶隔離的分布式部署準(zhǔn)確拉模式下的數(shù)據(jù)齊全度保障?客訴量?輿情?輿情反饋?輿情監(jiān)控方案?在線客訴監(jiān)控方案?熱線客訴監(jiān)控方案阿里云ECS宕機(jī)數(shù)客戶端監(jiān)控APP監(jiān)控方案?Crash率、Crash數(shù)(各維度?客訴量?輿情?輿情反饋?輿情監(jiān)控方案?在線客訴監(jiān)控方案?熱線客訴監(jiān)控方案阿里云ECS宕機(jī)數(shù)客戶端監(jiān)控APP監(jiān)控方案?Crash率、Crash數(shù)(各維度)…業(yè)務(wù)總量、成功率、耗API…服務(wù)端監(jiān)控?日志監(jiān)控解決方案?智能監(jiān)控報(bào)警策略方案?端監(jiān)控指標(biāo)業(yè)務(wù)指標(biāo)釘釘文本消息量優(yōu)酷視頻全國播放量進(jìn)程容量性能系統(tǒng)監(jiān)控基礎(chǔ)指標(biāo)監(jiān)控方案應(yīng)用監(jiān)控?應(yīng)用服務(wù)監(jiān)控方案?HTP、JVM…集團(tuán)故障應(yīng)急由業(yè)務(wù)監(jiān)控而非系統(tǒng)/應(yīng)用監(jiān)控觸發(fā)直接根據(jù)業(yè)務(wù)影響面和影響程度進(jìn)行實(shí)時(shí)故障級別判定和指揮調(diào)度?基礎(chǔ)服務(wù)?網(wǎng)絡(luò)?機(jī)房?基礎(chǔ)服務(wù)監(jiān)控標(biāo)準(zhǔn)方案?網(wǎng)絡(luò)監(jiān)控方案系統(tǒng)應(yīng)用監(jiān)控基礎(chǔ)設(shè)施監(jiān)控服務(wù)端業(yè)務(wù)監(jiān)控起源:阿里集團(tuán)全局故障應(yīng)急背景下的監(jiān)控方案 監(jiān)控重點(diǎn) 監(jiān)控重點(diǎn)監(jiān)控解決方案淘寶交易創(chuàng)建量用戶反饋監(jiān)控客戶端業(yè)務(wù)監(jiān)控客戶端業(yè)務(wù)監(jiān)控不影響業(yè)務(wù)的系統(tǒng)/應(yīng)用報(bào)警不觸發(fā)全局的故障應(yīng)急調(diào)度不影響業(yè)務(wù)的系統(tǒng)/應(yīng)用報(bào)警不觸發(fā)全局的故障應(yīng)急調(diào)度故故障定義業(yè)務(wù)監(jiān)控風(fēng)險(xiǎn)預(yù)警故障通告故障快恢應(yīng)急協(xié)同故障復(fù)盤混合云可觀測架構(gòu)實(shí)現(xiàn)路徑—阿里集團(tuán)監(jiān)控平臺轉(zhuǎn)型之痛直面Sunfire轉(zhuǎn)型之痛大規(guī)模監(jiān)控計(jì)算調(diào)度和在混合云現(xiàn)有客戶場景客戶普遍缺失業(yè)務(wù)監(jiān)控的理念……急需補(bǔ)全的能力客戶側(cè)專有云資源嚴(yán)格規(guī)劃,小型化瘦身和部署能力增強(qiáng)是當(dāng)務(wù)之急需要兼容全棧監(jiān)控能力,增加鏈路監(jiān)控和日志集成和兼容客戶側(cè)多樣監(jiān)控?cái)?shù)據(jù)源和監(jiān)控工具……業(yè)務(wù)應(yīng)用云可觀測架構(gòu)演進(jìn)路線圖業(yè)務(wù)應(yīng)用云+應(yīng)用一云平云平臺安全生產(chǎn)業(yè)務(wù)場景故障發(fā)現(xiàn)故障定界故障處理事件定級化運(yùn)維對象實(shí)時(shí)計(jì)算架構(gòu)和實(shí)時(shí)計(jì)算架構(gòu)和Prometheus架構(gòu)兼容智能化框架融合和演進(jìn)指標(biāo)監(jiān)控和開源鏈路監(jiān)控系統(tǒng)集成業(yè)務(wù)監(jiān)控向三層全景監(jiān)控架構(gòu)演進(jìn)面向一體化定級的事件中心架構(gòu)演進(jìn)計(jì)算架構(gòu)和Prometheus架構(gòu)融合 Map-Reduce融合Prometheus計(jì)算架構(gòu)和Prometheus架構(gòu)融合 Map-Reduce融合Prometheus要點(diǎn)?將Promethues原生架構(gòu)的計(jì)算能力和Sunfire計(jì)算、存儲進(jìn)行有機(jī)結(jié)合?通過擴(kuò)展設(shè)計(jì),提升了Prometheus的高可用能力。 HAPrometheusGroup指標(biāo)監(jiān)控和開源鏈路監(jiān)控系統(tǒng)(Skywalking)集成SunfireSunfire*Prometheus*SkyWalking->云原生可觀測性架構(gòu)演進(jìn)要點(diǎn)調(diào)用鏈信息與應(yīng)用性能監(jiān)控指標(biāo)聯(lián)動(dòng)不需要在JavaAgent端加指定參數(shù),能做到服務(wù)自發(fā)現(xiàn)檢測邊界可視化線上回溯智能化框架融合和演進(jìn)檢測邊界可視化線上回溯算法功能演進(jìn)從智能基線到黃金指標(biāo)異常檢測,再到智能診斷、智能配置推薦、智能..…智能檢測,根據(jù)歷史推測該時(shí)間點(diǎn)同比智能檢測,根據(jù)歷史推測該時(shí)間點(diǎn)同比下跌40%,異常需要關(guān)注算法產(chǎn)品化能力迭代算算法參數(shù)可配置??算法調(diào)度框架任務(wù)分發(fā)算法中心調(diào)度存儲API任務(wù)執(zhí)行報(bào)警分發(fā)添加算法場景異步回調(diào)回溯算法任務(wù)??算法調(diào)度框架任務(wù)分發(fā)算法中心調(diào)度存儲API任務(wù)執(zhí)行報(bào)警分發(fā)添加算法場景異步回調(diào)回溯算法任務(wù)公共算法層架構(gòu)演進(jìn)要點(diǎn)架構(gòu)演進(jìn)要點(diǎn)存算一體化,降低報(bào)警發(fā)送延遲統(tǒng)一調(diào)度:統(tǒng)一調(diào)度分發(fā)任務(wù),控制錯(cuò)誤重傳等容錯(cuò)機(jī)制,衍生出不同類型的任務(wù)調(diào)度插件滿足不同類型業(yè)務(wù)需求配置存儲時(shí)序存儲算法配置界面算法實(shí)現(xiàn)框架Api層Service層統(tǒng)一事件中心解決方案事件聚合規(guī)事件抑制配報(bào)警收斂報(bào)則置告異構(gòu)事件接入入應(yīng)用層告警事件接入云平臺層告警事件接入異構(gòu)事件配置化接入統(tǒng)一推送API統(tǒng)一拉取事件接入事件抑制按時(shí)間抑制抖動(dòng)抑制變更抑制事件通知事件訂閱事件聚合接收人管理通知策略模板渲染統(tǒng)一事件中心解決方案事件聚合規(guī)事件抑制配報(bào)警收斂報(bào)則置告異構(gòu)事件接入入應(yīng)用層告警事件接入云平臺層告警事件接入異構(gòu)事件配置化接入統(tǒng)一推送API統(tǒng)一拉取事件接入事件抑制按時(shí)間抑制抖動(dòng)抑制變更抑制事件通知事件訂閱事件聚合接收人管理通知策略模板渲染釘釘群通知接收賬號管理逐級通告維度智能聚合Webhook推送渠道管理值班組管理歷史關(guān)聯(lián)聚合通知組管理比例關(guān)聯(lián)就高關(guān)聯(lián)事件關(guān)聯(lián)報(bào)警數(shù)據(jù)多維分析客戶成功分析預(yù)警事件挖掘報(bào)警日報(bào)數(shù)據(jù)導(dǎo)出報(bào)警收斂優(yōu)化報(bào)告事件數(shù)據(jù)分析事件認(rèn)領(lǐng)事件診斷相似事件推薦事件處理記錄事件處置一一體化定級解決方案業(yè)務(wù)視圖應(yīng)用視圖故障定級事件盯屏事件中心產(chǎn)品功能事件去重事件去事件去重 (無狀態(tài))事件去事件去重 (有狀態(tài))事件豐富元元數(shù)據(jù)豐富豐富業(yè)業(yè)務(wù)樹豐富企企業(yè)級能力事件數(shù)據(jù)流租戶管理容量管理統(tǒng)一認(rèn)證權(quán)限發(fā)布數(shù)據(jù)Normandy應(yīng)用變更報(bào)警數(shù)據(jù)SunfireASOPremetheusARMSZabbix渠道管理事件認(rèn)領(lǐng)事件數(shù)據(jù)分析事件診斷處置&分析事件盯屏業(yè)務(wù)視圖應(yīng)用視圖可視化渠道注冊渠道映射Sender事件組聚合通知訂閱渠道分派器發(fā)布數(shù)據(jù)Normandy應(yīng)用變更報(bào)警數(shù)據(jù)SunfireASOPremetheusARMSZabbix渠道管理事件認(rèn)領(lǐng)事件數(shù)據(jù)分析事件診斷處置&分析事件盯屏業(yè)務(wù)視圖應(yīng)用視圖可視化渠道注冊渠道映射Sender事件組聚合通知訂閱渠道分派器事件聚合接入網(wǎng)關(guān)事件豐富事件去重事件關(guān)聯(lián)事件網(wǎng)關(guān)架構(gòu)演進(jìn)要點(diǎn)?通過開放性設(shè)計(jì)和事件模型抽象,提供豐富地南向、北向集成能力。?結(jié)合阿里云專有云的部署方案,支持各種場景下的容災(zāi)能力。技技術(shù)架構(gòu)北北向集成下游渠道釘釘群郵件短信電話Webhook渠道賬戶適配器賬渠道賬戶適配器賬戶系統(tǒng)Uni-manager元數(shù)據(jù)NormandyCMDBSunfire業(yè)務(wù)樹客戶賬戶系統(tǒng)元數(shù)據(jù)適配器客戶CMDB自定義數(shù)據(jù)渲染引擎C?混合云場景下落地可觀測能力的技術(shù)挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術(shù)架構(gòu)探索?混合云可觀測實(shí)戰(zhàn)案例統(tǒng)一事件中心(統(tǒng)一接入、過濾、合并、處理事件)原始消息業(yè)務(wù)指標(biāo)應(yīng)用監(jiān)控微服務(wù)基礎(chǔ)資源云服務(wù)實(shí)例Tracing400+條/天統(tǒng)一事件中心(統(tǒng)一接入、過濾、合并、處理事件)原始消息業(yè)務(wù)指標(biāo)應(yīng)用監(jiān)控微服務(wù)基礎(chǔ)資源云服務(wù)實(shí)例Tracing400+條/天周告警數(shù)據(jù)匯總業(yè)務(wù)監(jiān)控大屏,客戶重點(diǎn)展示和使用控報(bào)警規(guī)則的定義,不僅實(shí)現(xiàn)對每層監(jiān)控的快速發(fā)現(xiàn),快速告警,同時(shí)為監(jiān)控?cái)?shù)據(jù)分析提供全面的數(shù)據(jù)支撐。云平臺底座代扣托收XX聯(lián)網(wǎng)直收渠道信息查詢功能前端微服務(wù)接口務(wù)接口數(shù)據(jù)微服務(wù)接口代扣托收XX聯(lián)網(wǎng)直收渠道信息查詢功能前端微服務(wù)接口務(wù)接口數(shù)據(jù)微服務(wù)接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論