版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
唐磊(小唐)2101概述&背景?客戶訴求?業(yè)務(wù)難點(diǎn)02業(yè)界方案03我們的方案?業(yè)界方案?基于專家規(guī)則的自動(dòng)化運(yùn)維策略?發(fā)展趨勢(shì)?運(yùn)維評(píng)價(jià)?發(fā)布熔斷23概述&背景–客戶訴求維護(hù)成本高?資源利用率低?IT資源管理和運(yùn)維復(fù)雜繁瑣?…無(wú)人值守口客戶用云述求可控制VM:VM:?智能編排?原子操作?自動(dòng)化?監(jiān)控&告警?根因診斷穩(wěn)定&可靠:?穩(wěn)定性SLA幸福感提升幸福感4業(yè)務(wù)難點(diǎn)–基礎(chǔ)設(shè)施規(guī)模大200+可用區(qū)(AZ)3000+28數(shù)據(jù)中心區(qū)域(Region)?云計(jì)算基礎(chǔ)設(shè)施規(guī)模決定了其運(yùn)維復(fù)雜度100,000,000+(CPUs,disksetc.)1,000,000+5000+5業(yè)務(wù)難點(diǎn)–產(chǎn)品形態(tài)多、業(yè)務(wù)領(lǐng)域廣熱遷移(無(wú)感更換物理機(jī))?X86計(jì)算G6通用型R6內(nèi)存型C6計(jì)算型D1NE大數(shù)據(jù)型HFC6高主頻算型I本地SSDR5內(nèi)存型G5業(yè)務(wù)難點(diǎn)–產(chǎn)品形態(tài)多、業(yè)務(wù)領(lǐng)域廣熱遷移(無(wú)感更換物理機(jī))?X86計(jì)算G6通用型R6內(nèi)存型C6計(jì)算型D1NE大數(shù)據(jù)型HFC6高主頻算型I本地SSDR5內(nèi)存型G5通用型C5計(jì)算型HFG頻通用型ENE絡(luò)增強(qiáng)SN1NE計(jì)算網(wǎng)絡(luò)增強(qiáng)SN2NE通用網(wǎng)絡(luò)增強(qiáng)D1大數(shù)據(jù)型F3FPGA計(jì)算型D2大數(shù)據(jù)型I本地SSDGA1GPU可視化型F1FPGA計(jì)算型異構(gòu)計(jì)算裸金屬&高性能計(jì)算 高性能數(shù)據(jù)庫(kù)ed時(shí));圖高性能數(shù)據(jù)庫(kù);高性能網(wǎng)站前端機(jī);售賣形態(tài)多業(yè)務(wù)本地盤(pán)存儲(chǔ)大數(shù)據(jù)業(yè)務(wù)異構(gòu)GPU業(yè)務(wù)異構(gòu)FPGA業(yè)務(wù)SCC超算業(yè)務(wù)監(jiān)控診斷運(yùn)維手段有差異6鏈路長(zhǎng)技術(shù)難度深鏈路長(zhǎng)技術(shù)難度深?LLC一致性?LLC容量QoS?LLC爭(zhēng)搶elMEianSKLICLAtom覆蓋子系統(tǒng)眾覆蓋子系統(tǒng)眾多CPUCPU子系統(tǒng)舉例?IMCfreq?IMCchannel702業(yè)界方案/.anIDGrafanaZabbixWebUI析?OneAgent通用采集?動(dòng)態(tài)閾值告警自動(dòng)分析?APITrace分析析TraceIDusZabbixServerMySQLMetricTSDBResourceZabbixClientZabbixClientZabbixClientAppExporteranIDGrafanaZabbixWebUI析?OneAgent通用采集?動(dòng)態(tài)閾值告警自動(dòng)分析?APITrace分析析TraceIDusZabbixServerMySQLMetricTSDBResourceZabbixClientZabbixClientZabbixClientAppExporterTagTracingStatus控時(shí)代201620172018201920202012BorgMonCNCFBorgMonCNCF發(fā)布yunSLSyunSLSCacti發(fā)布 Metric-加入加入CNCFE22010//03我們的方案/2智能化201320162017201820192010智能化201320162017201820192010我們的方案–ECS監(jiān)控運(yùn)維體系發(fā)展歷程ECS正式售賣ECS全鏈斷平臺(tái)上線監(jiān)控采集接入FlushAgent重構(gòu)接入Flush入落日弓入落日弓環(huán)境問(wèn)題運(yùn)發(fā)布熔斷99.自22021/1客戶側(cè)事件完整鏈路追蹤運(yùn)維引擎運(yùn)維事件受損事件宕機(jī)/夯機(jī)性能受損實(shí)例類磁盤(pán)類客戶側(cè)事件完整鏈路追蹤運(yùn)維引擎運(yùn)維事件受損事件宕機(jī)/夯機(jī)性能受損實(shí)例類磁盤(pán)類診斷引擎異常抽取數(shù)據(jù)清洗特征計(jì)算異常定義維度關(guān)聯(lián)聚合計(jì)算聚類分析可靠的底座?數(shù)據(jù)處理:承載百萬(wàn)級(jí)物理機(jī)的診斷能力ODPS承載百TB級(jí)數(shù)據(jù)傳輸;(hadoop)BLINK確保每日同等數(shù)量級(jí)的數(shù)據(jù)實(shí)時(shí)性(apache-flink)?日志服務(wù):類似ELK產(chǎn)品棧,提供更完整的數(shù)據(jù)處理能力(數(shù)據(jù)投及強(qiáng)大的計(jì)算聚合函數(shù)(map,json,lamda函數(shù)等)?MNS:高效、可靠、安全、便捷、可彈性擴(kuò)展的分布式消息通知服務(wù)?TDDL:分庫(kù)分表解決方案(sharding-jdbc/MyCat)JOB/ElasticJob)查詢分析離線數(shù)據(jù)源集群基礎(chǔ)設(shè)施機(jī)型地域BLINKODPSTDDL我們的方案–整體架構(gòu)運(yùn)維定義NC運(yùn)維定義NC運(yùn)維工作流編排VM運(yùn)維運(yùn)運(yùn)維調(diào)度運(yùn)維評(píng)價(jià)A/B運(yùn)維評(píng)價(jià)A/BTest規(guī)則匹配統(tǒng)一流控規(guī)規(guī)則定義根根因推導(dǎo)監(jiān)監(jiān)控采集監(jiān)控調(diào)度任務(wù)執(zhí)行任務(wù)存儲(chǔ)配置下發(fā)結(jié)果存儲(chǔ)配置存儲(chǔ)在線數(shù)據(jù)在線數(shù)據(jù)控制面虛擬化GUEST硬件組件schedulerX/2告警中心云監(jiān)控其他消費(fèi)?P95CPU利用率:告警中心云監(jiān)控其他消費(fèi)?P95CPU利用率:100T/D我們的方案–監(jiān)控?cái)?shù)據(jù)采集口規(guī)模效應(yīng)項(xiàng)entPrometheusNightingaleK8s開(kāi)源滴滴開(kāi)源觸發(fā)方式服務(wù)側(cè)服務(wù)側(cè)周期采集按需采集周期采集周期采集百萬(wàn)級(jí)節(jié)點(diǎn)千級(jí)別萬(wàn)級(jí)別整度高采集回流分離中結(jié)果實(shí)時(shí)回流中結(jié)果實(shí)時(shí)回流報(bào)表和告警有限節(jié)點(diǎn)丟失提醒有限節(jié)點(diǎn)丟失提醒不支持不支持采集大盤(pán)T+1同步SLS采集大盤(pán)T+1同步SLS (張家口) 節(jié)點(diǎn)采集節(jié)點(diǎn)采集口資源最大化利用:資源有限(1-2HT)?調(diào)度器輕量化?采集之間數(shù)據(jù)共享口代碼發(fā)布灰度可控??問(wèn)題盡早暴露?降低故障爆炸半徑/3我們的方案–運(yùn)維策略相關(guān)定義?監(jiān)控異常?特征定義?運(yùn)維規(guī)則?運(yùn)維動(dòng)作/4例如客戶事件響應(yīng)的預(yù)期行為;產(chǎn)出例如客戶事件響應(yīng)的預(yù)期行為;產(chǎn)出KeyMetrics數(shù)據(jù)口產(chǎn)生背景:?是否存在過(guò)度運(yùn)維的問(wèn)題??對(duì)客戶真實(shí)體感是什么?口評(píng)價(jià)度量*:?性能度量?不可用度量?控制面度量口差異化分析:?顯著性差異檢驗(yàn)-單因素方差分析F檢驗(yàn)(Welch'sanova)?精準(zhǔn)控制切流比例-功效分析(Cohen’sf)[*]LevyS,etal.PredictiveandAdaptiveFailureMitigationtoAvertProductionCloudVMInterruptions.[C]//OperatingSystemsDesignandImplementation.2020./5MaxCompute對(duì)外評(píng)價(jià)API切流建議模塊方差/功效分析a.每日命中資源詳情b.每日命中資源各維度分布離線結(jié)果表KeyMetric原始數(shù)據(jù)--ADB/SLS加速查詢定時(shí)計(jì)算任務(wù)過(guò)濾器配置特征分類配置Spark算法靜態(tài)維表特征規(guī)則異常計(jì)算MaxCompute對(duì)外評(píng)價(jià)API切流建議模塊方差/功效分析a.每日命中資源詳情b.每日命中資源各維度分布離線結(jié)果表KeyMetric原始數(shù)據(jù)--ADB/SLS加速查詢定時(shí)計(jì)算任務(wù)過(guò)濾器配置特征分類配置Spark算法靜態(tài)維表特征規(guī)則異常計(jì)算類離線異常特征運(yùn)維策略A/B上線流程A/BTest灰度切流比例建議口落地方案評(píng)價(jià)模塊數(shù)據(jù)加速層KeyMetrica.a.歷史異常回放b.提前命中程度統(tǒng)計(jì)分析c.漏召回詳情分析d.新增命中資源詳情分析口面臨問(wèn)題?如何與現(xiàn)有的運(yùn)維體系整合??如何安全高效的灰度發(fā)布上線?/6我們的方案–業(yè)務(wù)流控口業(yè)務(wù)流控我們的方案–業(yè)務(wù)流控口業(yè)務(wù)流控:?自動(dòng)運(yùn)維維持正常水位?有效阻止故障發(fā)生靈活的流控規(guī)則數(shù)據(jù)報(bào)表支撐流控維度/784218421等發(fā)布節(jié)奏計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)各機(jī)型/集群等30+維度我們的方案?業(yè)界大概XX%的生產(chǎn)事故由變更而觸發(fā)?集團(tuán)全部故障中xx%+和變更相關(guān)?支撐百萬(wàn)級(jí)資源的發(fā)布(千萬(wàn)級(jí)VM)布業(yè)務(wù)方數(shù)百?累計(jì)變更次數(shù)n億?發(fā)布次數(shù)n萬(wàn)2.我們的方案–灰度發(fā)布&熔斷召回率=召回率=熔斷次數(shù)+漏召回次數(shù)?100%效熔斷準(zhǔn)確率=熔斷次數(shù)+
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人反擔(dān)保合同規(guī)范范本-設(shè)備租賃專用2篇
- 房地產(chǎn)市場(chǎng)調(diào)查與分析
- 2025年度鋼構(gòu)工程風(fēng)險(xiǎn)評(píng)估與控制合同
- 小學(xué)生數(shù)學(xué)思維能力的提升方法
- 金融市場(chǎng)的變化與對(duì)公客戶的應(yīng)對(duì)策略
- 二零二五年度蟲(chóng)草產(chǎn)品研發(fā)與市場(chǎng)拓展合同4篇
- 二零二五年度蟲(chóng)草收購(gòu)與銷售一體化合同4篇
- 2025年度環(huán)保設(shè)施建設(shè)合同履行的環(huán)境治理?yè)?dān)保協(xié)議3篇
- 2025年度個(gè)人旅游預(yù)付款延期退還協(xié)議4篇
- 跨領(lǐng)域?qū)W生綜合素養(yǎng)提升的實(shí)踐探索
- 心肌梗死病人護(hù)理課件
- 宮頸癌中醫(yī)護(hù)理查房
- 2023年安徽省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 《阻燃材料與技術(shù)》課件 顏龍 第3、4講 阻燃基本理論、阻燃劑性能與應(yīng)用
- 輪狀病毒護(hù)理課件
- 地測(cè)防治水技能競(jìng)賽理論考試題庫(kù)(含答案)
- 以諾書(shū)-中英對(duì)照
- DL∕T 1100.1-2018 電力系統(tǒng)的時(shí)間同步系統(tǒng) 第1部分:技術(shù)規(guī)范
- 三角形與全等三角形復(fù)習(xí)教案 人教版
- 重大版小學(xué)英語(yǔ)四年級(jí)下冊(cè)期末測(cè)試卷
- 2024年1月高考適應(yīng)性測(cè)試“九省聯(lián)考”英語(yǔ) 試題(學(xué)生版+解析版)
評(píng)論
0/150
提交評(píng)論