![阿里智能化故障治理流程探索和實踐_第1頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e631.gif)
![阿里智能化故障治理流程探索和實踐_第2頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e632.gif)
![阿里智能化故障治理流程探索和實踐_第3頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e633.gif)
![阿里智能化故障治理流程探索和實踐_第4頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e634.gif)
![阿里智能化故障治理流程探索和實踐_第5頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e635.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、阿里智能化故障治理流程 探索和實踐阿里巴巴故障治理背景介紹阿里巴巴全局故障治理流程基于AIOps的全局故障治理架構(gòu)故障治理實戰(zhàn)案例新零售/云計算等新業(yè)態(tài)給故障治理帶來的挑戰(zhàn)智能運維大圖目錄業(yè)務(wù)環(huán)境給穩(wěn)定性帶來的挑戰(zhàn)業(yè)務(wù)數(shù)量巨大訂單量49.1萬筆/秒業(yè)務(wù)形態(tài)差異較大電商、金融、云計算、物流、新 零售、文娛、社交業(yè)務(wù)關(guān)聯(lián)性復雜用戶行為對業(yè)務(wù)的影響 應用調(diào)用鏈路復雜線上故障需要統(tǒng)一的治理機制業(yè)務(wù)故障統(tǒng)一發(fā)現(xiàn)跨BU故障協(xié)同處理故障的影響面及根因統(tǒng)一收口推送故障快速恢復需要 統(tǒng)一的機制要解決的問題:平衡監(jiān)控準確率和召回率報警規(guī)則維護成本較大故障等級定義仁者見仁故障判斷條件繁多千萬級別的運維事件 哪些與業(yè)
2、務(wù)故障相關(guān)?跨BU故障如何定位根因快速恢復場景稍縱即逝 如何實時決策觸發(fā)切換?如何快速響應并組織故 障處理阿里巴巴全局故障治理流程故障發(fā)現(xiàn)故障定級故障通告故障輔助 定位處理決策故障快速 恢復故障復盤故障演練業(yè)務(wù)流程基于AIOps的全局故障治理架構(gòu)AIOps故障治理產(chǎn)品架構(gòu)監(jiān)控展示異常發(fā)現(xiàn)故障通告根因分析相關(guān)事件推送智能監(jiān)控大盤智能基線多指標關(guān)聯(lián)分析自動化通告智能干系人管理可疑應用分析多維下鉆故障信息檢索快速恢復切換故障自定義分析信息流轉(zhuǎn)故障恢復故障治理生命周期故障治理實戰(zhàn)案例故障發(fā)現(xiàn)故障定級故障通告故障輔助 定位處理決策故障快速 恢復故障復盤故障演練通告排查自動化通告核心故障秒級通告故障知識圖
3、譜智能水位故障自定義分析人工故障通告人工根據(jù)故障 等級定義定級業(yè)務(wù)監(jiān)控報警慢人工判斷故障影響等級并組織通告內(nèi)容發(fā)送一 般在5分鐘左右人工判斷影響 是否達到故障不可靠人的主觀因素會影響故障判級,不能確保故障 通告時效SLA,通告文案可能有錯自動化故障通告故障等級定義結(jié)構(gòu)化智能基線計算跌幅數(shù)據(jù)預處理基線擬合平滑去噪聲Modified STL滑動平均插值補缺故障自動定級 通告95%準確 快速發(fā)出業(yè)務(wù)量下跌count失敗率跌至percent自動化故障通告自動化故障通告通過多條監(jiān)控規(guī)則, 觸發(fā)自動化故障通告生成自動化通告內(nèi) 容,發(fā)送給業(yè)務(wù)方故障概述故障等級影響范圍監(jiān)控等級定義從分鐘級通告到秒級通告故障發(fā)
4、生報警發(fā)出1-2分鐘涵蓋了大部分業(yè)務(wù),在業(yè)務(wù)發(fā)生重大故障時,一 般最快可在1-2分鐘內(nèi)發(fā)出報警,3-5分鐘發(fā)出詳 細故障通告報警發(fā)出快慢與故障持續(xù)時長有直接的關(guān)系分鐘級監(jiān)控部分核心業(yè)務(wù)(如淘寶交易創(chuàng)建、支付寶交易創(chuàng) 建),一旦發(fā)生故障,等到分鐘級報警發(fā)出,即 使立刻發(fā)出通告,報警發(fā)出之前業(yè)務(wù)已經(jīng)產(chǎn)生巨 大損失故障處理需要爭分奪秒減少故障損失縮短故障時長 加快報警發(fā)現(xiàn)改分鐘級監(jiān)控 為秒級監(jiān)控核心故障秒級通告秒級指標波動大,傳統(tǒng)報警策略誤報多減少故障損失縮短故障時長 加快報警發(fā)現(xiàn)接入條件:監(jiān)控指標每秒數(shù)據(jù)量級=500趨勢預測異常發(fā)現(xiàn)通告發(fā)出10-20秒故障發(fā)生準確率:80%召回率:80%零監(jiān)控配置
5、成本異常判 定孤立森林邏輯回歸特征工程集成 策略時序分析N-sigma統(tǒng)計特征One-hot自動反饋調(diào)節(jié)機器學習智能異常檢測故障知識圖譜故障場景復雜多樣,目前暫無法做到所有故障自動化 通告。存在大量人工通告人工故障通告,由值班同學根據(jù)平臺提供的故障信 息,結(jié)合個人經(jīng)驗,組織發(fā)送給處理人。易出錯2、通過非結(jié)構(gòu)化的故障通告, 如何快速找到故障處理人?快速 發(fā)現(xiàn)歷史相關(guān)故障幫助處理?rdma1、人工發(fā)送的通告,出錯率10%。其中90%由錯別字導致WHO?口錯誤通告示例故障知識圖譜歷史故障信息實體識別產(chǎn)品線、BU、人名、 關(guān)鍵詞等實體抽取實體關(guān)系故障知識圖譜新故障通告實體抽取智能糾錯歷史故障匹配 度查
6、詢實體匹配度查 詢原因初步懷疑為RDMA異常故障推薦干系人推薦實體查詢?nèi)斯ねǜ驽e誤率 減少50%智能水位多個系統(tǒng)指標映射為水位指標取值0- 100衡量應用實時容量通過水位發(fā)現(xiàn)業(yè)務(wù)容量瓶頸,提 供擴容依據(jù)不受應用擴縮容影響不受應用流量成分變化影響無需應用壓測極限值作輸入無需預先假設(shè)服務(wù)異常CPU臨界值多維指標映射,部分權(quán)重為線性關(guān)系,部分為非線性(階躍拉升):水位=w*cpu, load, T+f(disk, mem, )業(yè)務(wù)需求水位特點關(guān)鍵業(yè)務(wù)包含的應用成百上千,如何快速發(fā)現(xiàn)應用容量瓶頸故障自定義分析分機房指標 分析查看關(guān)聯(lián)變 更基礎(chǔ)設(shè)施故 障分析全鏈路應用 狀態(tài)分析關(guān)聯(lián)業(yè)務(wù) 分析監(jiān)控、開發(fā)同
7、學根據(jù)經(jīng)驗排查異常容量問題排 查故障發(fā)生人工故障分析故障平均排查時間10分 鐘,影響故障恢復時長排查結(jié)果受不同人影響 較大,不可控往往查詢多個平臺,影 響效率故障自定義分析多維下鉆 分析變更分析跨BU基 礎(chǔ)設(shè)施故 障分析全鏈路應 用分析關(guān)聯(lián)業(yè)務(wù) 分析通用分析自定義分析故障發(fā)生分機房下鉆分門店下鉆變更大盤IDC/網(wǎng)絡(luò)中間件智能異常檢 測智能異常檢測自動化故障 通告故障秒級通告監(jiān)控組故障知識圖譜智能異常檢 測故障平均排查時間1分鐘排查結(jié)論不受經(jīng)驗限制新零售給故障監(jiān)控帶來的挑戰(zhàn)實體店故障給客戶造成 的感受更直接高峰期、活動業(yè)務(wù)不可 用,易引發(fā)社會群體事件業(yè)務(wù)門店零散分布,中心 難及時感知故障及影響面
8、故障分門店下鉆分析-及時啟動應急預案故障分門店下鉆故障定位 20Min2Min故障總時長減少4倍1/4云計算給故障監(jiān)控帶來的挑戰(zhàn)ECSRDSSLBOSSCDN.監(jiān)控 系統(tǒng)GOC故障應急無法統(tǒng) 一查看監(jiān)控、報 警數(shù)據(jù),故障處 理成本高報警發(fā)送云服務(wù)由于業(yè)務(wù)特 性,擁有大量個性 化基礎(chǔ)設(shè)施,無法 統(tǒng)一監(jiān)控統(tǒng)一監(jiān)控網(wǎng)關(guān)ECSRDSSLBOSSCDN.監(jiān)控 系統(tǒng)GOC報警發(fā)送Monitor GW抽象不同監(jiān)控 系統(tǒng)報警/監(jiān)控統(tǒng) 一查看監(jiān)控查看提高故障應急效率通用參數(shù)特定參數(shù)智能運維大圖AIOPS質(zhì)量監(jiān)控時序異常檢測指標相關(guān)性分析報警收斂根因分析故障類型判定歷史故障推薦可疑應用/事件推薦故障自愈自動化觸發(fā)快恢腳本執(zhí)行環(huán)境成本容量容量預測自動
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙教版數(shù)學七年級下冊《3.5 整式的化簡》聽評課記錄1
- 湘教版地理八年級下冊《第一節(jié) 北京市的城市特征與建設(shè)成就》1課時聽課評課記錄
- 八年級道德與法治下冊第二單元理解權(quán)利義務(wù)第四課公民義務(wù)第1框公民基本義務(wù)聽課評課記錄(新人教版)
- 湘教版數(shù)學九年級上冊第一章《反比例函數(shù)》復習聽評課記錄
- 人教部編版九年級歷史上冊:第15課 探尋新航路 聽課評課記錄
- 蘇科版七年級數(shù)學上冊《3.4.2合并同類項》聽評課記錄
- 通??谛W一年級口算測試卷
- 蘇教版四年級數(shù)學下冊期末復習口算練習題一
- 月業(yè)務(wù)經(jīng)理聘用協(xié)議書范本
- 二手房房屋買賣協(xié)議書范本
- 湖北中煙工業(yè)限責任公司2025年招聘(技術(shù)類和業(yè)務(wù)類崗位)【43人】高頻重點提升(共500題)附帶答案詳解
- 石家莊市長安區(qū)學年三年級數(shù)學第一學期期末檢測試題含解析
- 2025年中國一汽招聘筆試參考題庫含答案解析
- 特殊家長課后溝通技巧培訓
- 【MOOC】數(shù)字攝影技術(shù)與藝術(shù)-西南石油大學 中國大學慕課MOOC答案
- 心內(nèi)科心衰一病一品護理成果匯報
- 2025檢驗檢測中心年度工作總結(jié)及工作計劃
- 2024年總經(jīng)理助理年終工作總結(jié)(3篇)
- 2024年考研英語(二)真題及參考答案
- 山西省太原市2023-2024學年高二上學期期末物理試題(含答案)
- B區(qū)地下室碳纖維加固施工方案
評論
0/150
提交評論