阿里飛天平臺智能運維創(chuàng)新實踐_第1頁
阿里飛天平臺智能運維創(chuàng)新實踐_第2頁
阿里飛天平臺智能運維創(chuàng)新實踐_第3頁
阿里飛天平臺智能運維創(chuàng)新實踐_第4頁
阿里飛天平臺智能運維創(chuàng)新實踐_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、阿里飛天基礎(chǔ)設(shè)施智能運維創(chuàng)新實踐技術(shù)創(chuàng)新,變革未來01飛天基礎(chǔ)設(shè)施業(yè)務(wù)介紹02飛天基礎(chǔ)設(shè)施智能化進展03針對穩(wěn)定性提升的智能化實踐04總結(jié) &展望飛天基礎(chǔ)設(shè)施業(yè)務(wù)大圖向基礎(chǔ)設(shè)施全新的運維模式演進-AIOps所有操作線上化規(guī)范,效率,數(shù)據(jù)積累過程結(jié)果數(shù)字化透明,可衡量,智能化的基礎(chǔ)分析決策智能化準確,高效,全局優(yōu)化飛天基礎(chǔ)設(shè)施技術(shù)演進路線自動化數(shù)字化智能化01飛天基礎(chǔ)設(shè)施業(yè)務(wù)介紹02飛天基礎(chǔ)設(shè)施智能化進展03針對穩(wěn)定性提升的智能化實踐04總結(jié) &展望DC-Brain:飛天基礎(chǔ)設(shè)施智能運營決策平臺規(guī)模應(yīng)用落地場景集群和服務(wù)器智能化運維大規(guī)模計算系統(tǒng)供應(yīng)鏈智能化數(shù)據(jù)中心智能化運維供應(yīng)鏈智能化整體方案

2、:針對供應(yīng)鏈特點,打造需求、運營、分析、決策智能化方案實現(xiàn)數(shù)據(jù)驅(qū)動、基于算法的需求預(yù)測、庫 存優(yōu)化、TCO分析和優(yōu)化自動閉環(huán)環(huán)境:打通自動化工具和系統(tǒng)平臺與智能化算法 的閉環(huán)系統(tǒng)為未來進行先進AI算法和系統(tǒng)探索、部署奠定基礎(chǔ)數(shù)據(jù)中心智能化運維目標:針對數(shù)據(jù)中心電熱性能進行優(yōu)化包括:冷量預(yù)測控制、Power預(yù)測控制、IDC電熱感知、PUE優(yōu)化等對現(xiàn)場運維進行智能化改造 包括:多媒體信息處理巡檢、安防視頻識別、工單智能派發(fā)等集群智能化方案:提升集群和服務(wù)器的穩(wěn)定性和可靠性包括:服務(wù)器和部件故障預(yù)測,跨域關(guān)聯(lián), 根因分析,規(guī)則生成提升集群資源利用率和流轉(zhuǎn)率包括:集群資源異常檢測,關(guān)聯(lián)分析智能決策01

3、飛天基礎(chǔ)設(shè)施業(yè)務(wù)介紹02飛天基礎(chǔ)設(shè)施智能化進展03針對穩(wěn)定性提升的智能化實踐04總結(jié) &展望云的穩(wěn)定性是客戶關(guān)注的重中之重超過半數(shù)的全球財富500強企業(yè),每周至少會經(jīng)歷超過1.6小時 【2】的服務(wù)不可用時間美國67個數(shù)據(jù)中心,平均宕機成本代價是 $9,000/分鐘【1】阿里云始終把穩(wěn)定性和安全性放在第一位并且不斷嘗試采用先進智能化技術(shù),提前發(fā)現(xiàn),主動解決問題。Reference:【1】https:/globalassets/documents/reports/2016-cost-of-data-center-outages-11-11_51190_1.pdf【2】https:/www./opi

4、nions/how-predictive-maintenance-can-eliminate-downtime/集群資源 智能探查集群利用率異常檢測低水位和閑置智能判斷和預(yù)警服務(wù)器&部件 故障預(yù)測智能管理&修復(fù)集群自動管控故障智能化在線修復(fù)決策集群和服務(wù)器智能化布局硬盤故障預(yù)測內(nèi)存宕機故障預(yù)測根因分析實現(xiàn)從專家規(guī)則-智能分析的演進實現(xiàn)問題和故障的處理方式,從被動響應(yīng)-主動發(fā)現(xiàn)-提前預(yù)測集群和服務(wù)器智能運維大量的數(shù)據(jù)缺失和噪音如何有效構(gòu)造時間序列和序列數(shù)據(jù)特征數(shù)據(jù)樣本極不均衡正樣本占比 遠小于 1%高效、快速檢測數(shù)據(jù)分布和特征重要性變化提供長期穩(wěn)定預(yù)測噪音&特征數(shù)據(jù)不均衡動態(tài)可適配預(yù)測性維護關(guān)鍵

5、技術(shù)挑戰(zhàn)Density120140.8201520160.6201720180.40.20100101102Raw Values103104實踐1: HDD故障預(yù)測數(shù)據(jù) 不均衡動態(tài) 可適配噪音&特征年化故障率1%按天預(yù)測,故障樣本比例為 萬分之0.30.8標注方案非標準化數(shù)據(jù)(特征)噪音 + 標注噪音故障類型占比分布發(fā)生變化重要特征分布發(fā)生變化重要特征數(shù)據(jù)分布變化典型故障分布占比變化三大核心挑戰(zhàn)0.20100101104102103Raw ValuesDensity20142015201620172018RODMAN:A robust disk failure predic

6、tion management pipeline整體解決方案Bayesian Change Detection檢測變點發(fā)現(xiàn)Pre-failing狀態(tài)并增加正樣本提前發(fā)現(xiàn)模式突變點,進行預(yù)測正常硬盤 Vs. 不同類型故障硬盤 關(guān)鍵指標對比特征 工程統(tǒng)計特征針對時間序列數(shù)據(jù)多種不同維度統(tǒng)計特征生成專家知識結(jié)合專業(yè)領(lǐng)域知識, 進行特征構(gòu)造模型生成采用深度學習進行特征構(gòu)造多種特征工程方案Rodman與業(yè)界方案對比RGF:KDD 16RF:ATC 17誤報率FPR 0.04% 條件下,A1硬盤故障預(yù)測覆蓋率(左)誤報率FPR 0.08% 條件下,B1硬盤故障預(yù)測覆蓋率(右)針對典型HDD廠商大規(guī)模硬盤進

7、行部署預(yù)測,每月可提前準確發(fā)現(xiàn)數(shù)百塊故障硬盤避免PB級別數(shù)據(jù)可能的丟失預(yù)測結(jié)果分析實踐2:服務(wù)器宕機預(yù)測差異化的挑戰(zhàn):如何通過領(lǐng)域知識對多種日志進行分析和篩選如何準確判斷序列數(shù)據(jù)的異常變化如何從半結(jié)構(gòu)化的日志數(shù)據(jù)(序列)中構(gòu)提取判別性 的特征挑戰(zhàn)及整體方案宕機問題來源占比1)通過領(lǐng)域知識及特征重要性分析,將有效日志類型從15種減少到5種2)借助統(tǒng)計分析,進行統(tǒng)計特征構(gòu)造3)利用算法和模型,生成特征LDA主題收斂公式DSPM返回特征數(shù)量上界日志過濾&多種特種構(gòu)造方案宕機前l(fā)og中關(guān)鍵事件數(shù)量19預(yù)測效果不同預(yù)測命中時間分布不同Pre-failing時間窗實驗效果經(jīng)過大規(guī)模集群上長周期測試,Precision穩(wěn)定在50%以上預(yù)計上線后,能提前1小時以上進行宕機預(yù)測,使內(nèi)存引發(fā)的宕機問題降低50% ,整體宕機次數(shù)降低10%01飛天基礎(chǔ)設(shè)施業(yè)務(wù)介紹02飛天基礎(chǔ)設(shè)施智能化進展03針對穩(wěn)定性提升的智能化實踐04總結(jié) &展望對于AI,我們應(yīng)該期待什么?-AI World 2016, 李 航“不論是人工智能還是其他前沿技術(shù),都離不開高質(zhì)量的數(shù) 據(jù)、強大的計算平臺和高效的算法。只有這三件事放在一 起,才能真正在機器學習和人工智能領(lǐng)域取得突破?!?阿里巴巴CTO & 阿里云智能總裁 張建鋒智能化可行性系統(tǒng)用戶數(shù)據(jù)算法20182

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論