螞蟻故障應(yīng)急全流程體系構(gòu)建及應(yīng)用實踐_第1頁
螞蟻故障應(yīng)急全流程體系構(gòu)建及應(yīng)用實踐_第2頁
螞蟻故障應(yīng)急全流程體系構(gòu)建及應(yīng)用實踐_第3頁
螞蟻故障應(yīng)急全流程體系構(gòu)建及應(yīng)用實踐_第4頁
螞蟻故障應(yīng)急全流程體系構(gòu)建及應(yīng)用實踐_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

劉凱寧l螞蟻集團SRE技術(shù)專家l熟悉全鏈路技術(shù)風(fēng)險防控方案,深度參與過容量、資源、壓測、應(yīng)急、變更、資金安全等領(lǐng)域的業(yè)務(wù)布防和能力建設(shè)l多次參與公司級超大型活動的穩(wěn)定性保障,承擔(dān)過大促保障隊長、全鏈路壓測負(fù)責(zé)人、全鏈路資源容量負(fù)責(zé)人、全鏈路資金安全保障負(fù)責(zé)人等角色n誰應(yīng)該為線上穩(wěn)定性負(fù)責(zé)? 在日常運營中,無論什么原因?qū)е挛覀兎?wù)中斷、l用戶服務(wù)體驗下降:故障的核心要關(guān)注用戶感受,可通過客訴輿情獲知用戶投訴,也可以通過監(jiān)控渠道主動推知用戶端的使用情況。l無論什么原因:無論是螞蟻集團自身原因,還是第三方如供應(yīng)商、運營商,或者螞蟻集團調(diào)用了別人的服務(wù)出了問題,影響到用戶,都是故障l不包括的情況:用戶方環(huán)境(沒有聯(lián)網(wǎng)等)或者自身操作引起是故障是故障是故障不是故障M客訴量資損金額客訴量資損金額作為標(biāo)準(zhǔn),評價已經(jīng)發(fā)生的故障等級,對影作為標(biāo)準(zhǔn),評價已經(jīng)發(fā)生的故障等級,對影最終定級針對明確的業(yè)務(wù)故障場景,需要100%監(jiān)控覆蓋,并接入GOC724盯屏,及時發(fā)現(xiàn)異常觸發(fā)應(yīng)急止血SRESRE隨有新業(yè)務(wù)或系統(tǒng)架構(gòu)重大調(diào)整時,各業(yè)務(wù)可時以按需隨時拉起隨有新業(yè)務(wù)或系統(tǒng)架構(gòu)重大調(diào)整時,各業(yè)務(wù)可時以按需隨時拉起review,定稿后郵件公示一般是每半年由GOC同學(xué)發(fā)起進(jìn)行統(tǒng)一review,不同業(yè)務(wù)逐次進(jìn)行故障場景及等級修訂,定稿后郵件公示CCTWSPTWSP1-5-10-301-5-10-30登錄關(guān)鍵功能此處舉例,不代表真實場景,數(shù)字僅供參考風(fēng)公告審批公告發(fā)送公告管理風(fēng)險事件分析改進(jìn)措施跟進(jìn)風(fēng)險事件管理風(fēng)險項掃描風(fēng)險項處理公告審批公告發(fā)送公告管理風(fēng)險事件分析改進(jìn)措施跟進(jìn)風(fēng)險事件管理風(fēng)險項掃描風(fēng)險項處理風(fēng)險治理審計規(guī)則管理審計事件跟進(jìn)運維風(fēng)險審計螞蟻國際財富保險風(fēng)險團隊工作臺支付寶螞蟻國際財富保險風(fēng)險團隊工作臺支付寶個人工作臺個人工作臺數(shù)字科技OB、語雀系統(tǒng)管理工作臺數(shù)字科技OB、語雀系統(tǒng)管理工作臺大安全風(fēng)險運營工作臺風(fēng)險運營工作臺故障管理GOCGOC場景定義故障應(yīng)急協(xié)同故障復(fù)盤故障復(fù)盤改進(jìn)措施跟進(jìn)改進(jìn)措施跟進(jìn)復(fù)盤改進(jìn)應(yīng)急處理復(fù)盤改進(jìn)應(yīng)急處理生命周期管理豐富度升級定義合理跟蹤在線審核公示布防水位管控自動場景演練多站點融合盯屏自動化通告事件自動關(guān)聯(lián)等級輔助判斷應(yīng)急值班管理應(yīng)急托管接入團隊協(xié)同復(fù)盤自動化分析復(fù)盤自動驗收改進(jìn)項標(biāo)準(zhǔn)事件接入措施輔助跟進(jìn)改進(jìn)措施分發(fā)審計功能公告功能場景管理生命周期管理豐富度升級定義合理跟蹤在線審核公示布防水位管控自動場景演練多站點融合盯屏自動化通告事件自動關(guān)聯(lián)等級輔助判斷應(yīng)急值班管理應(yīng)急托管接入團隊協(xié)同復(fù)盤自動化分析復(fù)盤自動驗收改進(jìn)項標(biāo)準(zhǔn)事件接入措施輔助跟進(jìn)改進(jìn)措施分發(fā)審計功能公告功能場景管理風(fēng)險掃描接入風(fēng)險項處理風(fēng)險項通知風(fēng)險統(tǒng)計分析審計規(guī)則制定審計事件分析審計規(guī)則執(zhí)行審計結(jié)果跟進(jìn)公告錄入公告權(quán)限管理公告審批及加簽公告觸達(dá)率分析風(fēng)險治理風(fēng)險掃描接入風(fēng)險項處理風(fēng)險項通知風(fēng)險統(tǒng)計分析審計規(guī)則制定審計事件分析審計規(guī)則執(zhí)行審計結(jié)果跟進(jìn)公告錄入公告權(quán)限管理公告審批及加簽公告觸達(dá)率分析風(fēng)險治理鐘恢復(fù)率技術(shù)風(fēng)險定期評獎技術(shù)風(fēng)險定期評獎生產(chǎn)故障處罰條例全局穩(wěn)定性小組全站應(yīng)急值班長技術(shù)風(fēng)險運營小組應(yīng)急管理制度變更管理制度穩(wěn)定性等級保障制度海豹突擊隊?wèi)?yīng)急值班長體系應(yīng)急體系升級統(tǒng)一應(yīng)急體系統(tǒng)一應(yīng)急體系統(tǒng)一的1-5-10應(yīng)急技術(shù)體系依賴應(yīng)急專家沉淀平臺能力部門應(yīng)急值班長部門業(yè)務(wù)穩(wěn)定性一號位XX一級部門應(yīng)急小組部門應(yīng)急值班長部門業(yè)務(wù)穩(wěn)定性一號位XX一級部門應(yīng)急小組Action分發(fā)和進(jìn)展跟蹤負(fù)責(zé)各部門之間的應(yīng)急協(xié)同負(fù)責(zé)全站故障應(yīng)急指揮負(fù)責(zé)各部門之間的應(yīng)急協(xié)同負(fù)責(zé)本部門故障應(yīng)急指揮負(fù)責(zé)本部門故障應(yīng)急指揮蓋、應(yīng)急快恢能力建設(shè)、應(yīng)急人員培養(yǎng)、風(fēng)險意識培訓(xùn)蓋、應(yīng)急快恢等事項調(diào)調(diào)度、應(yīng)急止血、故障影響消除、螞蟻全局穩(wěn)定性小組成立建立考試制度,持證上崗按年度換屆、穩(wěn)定運行螞蟻全局穩(wěn)定性小組成立建立考試制度,持證上崗按年度換屆、穩(wěn)定運行首次發(fā)布應(yīng)急值班長制度由小組成員挑選出對業(yè)務(wù)有一定了解,有組織力、決策力應(yīng)急止血應(yīng)急組織↑螞蟻應(yīng)急值班長專業(yè)度責(zé)任心認(rèn)同感專業(yè)度責(zé)任心認(rèn)同感告警告警時效性、召回率端智能異常告警端智能異常告警↓基礎(chǔ)運維層(集群)客訴類告警客訴類告警客戶端服務(wù)端基礎(chǔ)設(shè)施層(單機)螞蟻應(yīng)急體系端智能異常告警螞蟻應(yīng)急體系基礎(chǔ)應(yīng)急SLA業(yè)務(wù)應(yīng)用應(yīng)急能力統(tǒng)一運維平臺應(yīng)急資源池物理機房XX站點標(biāo)準(zhǔn)應(yīng)用XX站點標(biāo)準(zhǔn)應(yīng)用主站標(biāo)準(zhǔn)應(yīng)用灰度應(yīng)急資源池主站線上應(yīng)急資源池灰度應(yīng)急資源池主站線上應(yīng)急資源池機房A機房B機房C業(yè)務(wù)整體降級單功能點降級動畫效果降級異步降級風(fēng)控咨詢降級鏈路弱依賴降級調(diào)整任務(wù)速率日志降級基礎(chǔ)運維操作應(yīng)用擴容應(yīng)用重啟應(yīng)用關(guān)流|替換|下線日志清理接口限流/應(yīng)用限流SQL限流DB切主機房級別切流鏈路切流單應(yīng)用切流效果類切流服務(wù)端迭代回滾前端迭代回滾客戶端開關(guān)回滾客戶端版本回滾DRM回滾運營配置回滾DB變更回滾VIP變更回滾一鍵停止壓測一鍵停止自愈查殺數(shù)據(jù)/AI任務(wù)查殺懸掛事務(wù)數(shù)據(jù)預(yù)熱修改業(yè)務(wù)配置數(shù)據(jù)訂正數(shù)據(jù)遷移解決30%+解決60%+解決10%AgentBasicAgentProAgentBench平臺自動評測接口觸發(fā)評測用戶自主評測text2graph數(shù)據(jù)工程預(yù)置OpsGPT-OpsGPT-變更操作記錄監(jiān)控查詢記錄評測數(shù)據(jù)xx動線記錄預(yù)置RAG(Alpha)OpsGPT-OpsGPT-平臺自動評測接口觸發(fā)評測用戶自主評測text2graph數(shù)據(jù)工程預(yù)置OpsGPT-OpsGPT-變更操作記錄監(jiān)控查詢記錄評測數(shù)據(jù)xx動線記錄預(yù)置RAG(Alpha)OpsGPT-OpsGPT-復(fù)盤文檔息抽取息推薦動線數(shù)據(jù)應(yīng)急經(jīng)驗沉淀評測數(shù)據(jù)OpsGPT-Tool(GA)評測數(shù)據(jù)OpsGPT-Tool(GA)OpsGPT-Tool(Beta)預(yù)置Tool(Alpha)團隊文檔轉(zhuǎn)換評

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論