




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
阿里巴巴海量服務器下的基礎運維和智能化實踐GOPS
全球運維大會2019·上海站目錄業(yè)務介紹1整體架構2安全運維3智能化之路4GOPS
全球運維大會2019·上海站我們是誰GOPS
全球運維大會2019·上海站\$$?????:一套自動化數(shù)據中心管理系統(tǒng),管理數(shù)據中心中的軟硬件生命周期,各類靜態(tài)資源編排,基礎軟件的版本和發(fā)布解決什么問題GOPS
全球運維大會2019·上海站設計理念設計理念終態(tài)系統(tǒng):當前態(tài)向終態(tài)逼近,假設失敗會在任何地?發(fā)??吞吐和?可靠:熱備,快速服務切換能力穩(wěn)定性和魯棒性:即使天基系統(tǒng)癱瘓也不能影響管理的服務?版本維護,天基運維天基:??部署??,從?到有部署天基的能?飛天智能運維平臺系統(tǒng)最核心的設計,業(yè)務聯(lián)動的監(jiān)管控一體化安全運維以及恢復機制和變更機制的統(tǒng)一聲明式(Declarative)變更。無論是配置變更,還是軟件升級、硬件變更,都是通過一個格式化的說明文件來提交。這個對于避免人工失誤是非常有效的。變更、恢復和修復機制的統(tǒng)一:面向終態(tài)的設計使得這三類操作采用同樣的機制。集成的監(jiān)控機制:自動發(fā)現(xiàn)故障運維系統(tǒng)要解決的問題:能夠最大化的無人干預,信息化->自動化->智能化穩(wěn)定安全,能夠盡量避免人工失誤,并且在失誤或故障發(fā)生的情況下,能快速進行恢復GOPS
全球運維大會2019·上海站目錄業(yè)務介紹1整體架構2安全運維3智能化之路4GOPS
全球運維大會2019·上海站Region化GOPS
全球運維大會2019·上海站不做100%可用的假設,不能因為中心服務不可用,而影響別的服務版本兼容和自管理相鄰三個版本之間必須保證向下兼容版本和升級自維護,自己運維自己減少單點故障master存狀態(tài),其他模塊無狀態(tài),可重入每個模塊功能設計盡量簡單確定信號觸發(fā)確定行為輕量快速的服務狀態(tài)檢查Monitor狀態(tài)機反饋,監(jiān)管空一體化自包含:Package
Model,減少對環(huán)境的依賴,易于清理分布式設計+HDOLQJ6HUYLFH'HSOR\6HUYLFH'HYLFH0DQDJHU3RUWDO&$3,6HUYHUWMSUR[\6HUYLFH0DQDJHU&RQ?J0DQDJHU6\V(QY0DQDJHU'RZQORDGHU$YDLODELOLW\6HUYLFH6LPSOH'HFLGHU6HUYHU6HUYLFH'HFLGHU0RQLWRU$SS1$SS26HUYHU5ROH7LDQML&OXVWHU8VHU
&OXVWHU6HUYHU5ROH:
7LDQML.7LDQML&OLHQW'HOLYHU\TianjiAdaptorTjMasterOn
PaxosGOPS
全球運維大會2019·上海站變更天基品用戶提交發(fā)布GOPS
全球運維大會2019·上海站變更定義:通過平臺進行的軟件部署、版本升級、配置變更、擴容、縮容等操普通模式:所有的機器同等對待,審批之后開始升級。金絲雀模式:先選兩臺機器,試著升級,成功了再升級剩下的。grayunit模式:灰度升級,用戶可以自定義灰度策略。滑動窗口模式:自定義機器升級并發(fā)數(shù),保證任意一個時刻,升級機器不超過并發(fā)數(shù)非安全模式:不考慮服務可用性,所有的機器直接升級Adaptor業(yè)務灰度模式:查詢批次返回機器灰度模式普通
金絲雀
grayunit
滑動窗口
Adaptor業(yè)務灰度GOPS
全球運維大會2019·上海站灰度模式普通
金絲雀
grayunit
滑動窗口
Adaptor業(yè)務灰度GOPS
全球運維大會2019·上海站灰度模式普通
金絲雀
grayunit
滑動窗口
Adaptor業(yè)務灰度GOPS
全球運維大會2019·上海站灰度模式普通
金絲雀
grayunit
滑動窗口
Adaptor業(yè)務灰度GOPS
全球運維大會2019·上海站灰度模式普通
金絲雀
grayunit
滑動窗口
Adaptor業(yè)務灰度GOPS
全球運維大會2019·上海站自愈系統(tǒng)應用系統(tǒng)機器整機替換離線修復故障注入在線修復機器機器系統(tǒng)機器HealingServiceRepairServiceReplaceServiceChaosManagerGOPS
全球運維大會2019·上海站自愈領域自愈范圍負責服務自愈實現(xiàn)方式發(fā)現(xiàn)問題決策修復動作MonitorState基礎硬件monitor應用上報1.2.3.4.按照規(guī)則觸發(fā)修復actionquotamanageractionmanageraction
translatorServiceDecider1.2.3.對action進行審批simpledecidercustom
decider1.2.3.GOPS
全球運維大會2019·上海站x_laborxx_laborxxx_laborLabor目錄業(yè)務介紹1整體架構2安全運維3智能化之路4GOPS
全球運維大會2019·上海站Infrastructureas
CodeGOPS
全球運維大會2019·上海站通過配置文件定義一切一切變更都是基于code
review的configuration
change通過服務模版方式管理版本和配置服務在不同集群之間版本配置盡量保持一致終態(tài)不管當前狀態(tài),向終態(tài)前進安全運維三駕馬車:Monitor
+
狀態(tài)機
+
Decider踐行devops角色實例
Monitor產品根據自身CheckHealth結果匯報的信息角色實例
KeyMonitor用于處理check_health_app本身異常,無法匯報信息的情況機器
Monitor對服務器進行監(jiān)控產生的監(jiān)控信息GOPS
全球運維大會2019·上海站Monitor狀態(tài)機GOPS
全球運維大會2019·上海站Simple
Decider應用通過定義百分比的方式實現(xiàn)Decider邏輯,天基根據百分比自動審批Custom
Decider應用自己實現(xiàn)邏輯,通過天基API與天基交互Adaptor
Decider應用按要求提供openApi,天基負責調用GOPS
全球運維大會2019·上海站Decider目錄業(yè)務介紹1整體架構2安全運維3智能化之路4GOPS
全球運維大會2019·上海站?$??fl@? ?? §??––>
AIOps所有操作線上化規(guī)范,效率,數(shù)據積累過程結果數(shù)字化透明,可衡量,智能化的基礎分析決策智能化準確,高效,全局優(yōu)化\$$??fl???fi??$?自動化數(shù)字化智能化GOPS
全球運維大會2019·上海站DC–Brain:\$$??fl$????@??GOPS
全球運維大會2019·上海站fi ?$?flfl‰集群和服務器智能化運維大規(guī)模計算系統(tǒng)供應鏈智能化數(shù)據中心智能化運維供應鏈智能化整體方案:針對供應鏈特點,打造需求、運營、分析、決策智能化方案實現(xiàn)數(shù)據驅動、基于算法的需求預測、庫存優(yōu)化、TCO分析和優(yōu)化自動閉環(huán)環(huán)境:打通自動化工具和系統(tǒng)平臺與智能化算法的閉環(huán)系統(tǒng)為未來進行先進AI算法和系統(tǒng)探索、部署奠定基礎針對數(shù)據中心電熱性能進行優(yōu)化包括:冷量預測控制、Power預測控制、IDC電熱感知、PUE優(yōu)化等對現(xiàn)場運維進行智能化改造包括:多媒體信息處理巡檢、安防視頻識別、工單智能派發(fā)等集群智能化方案:提升集群和服務器的穩(wěn)定性和可靠性包括:服務器和部件故障預測,跨域關聯(lián),根因分析,規(guī)則生成提升集群資源利用率和流轉率包括:集群資源異常檢測,關聯(lián)分析智能決策GOPS
全球運維大會2019·上海站集群資源智能探查集群利用率異常檢測低水位和閑置智能判斷和預警服務器&部件故障預測智能管理&修復集群自動管控故障智能化在線修復決策集群和服務器智能化布局硬盤故障預測內存/宕機故障預測根因分析????a?$?????實現(xiàn)從專家規(guī)則->智能分析的演進實現(xiàn)問題和故障的處理方式,從被動響應->主動發(fā)現(xiàn)->提前預測GOPS
全球運維大會2019·上海站集群資源智能探查集群
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024育嬰師考試經驗分享試題及答案
- 2024年河流生態(tài)修復探討試題及答案
- 分娩室進修匯報
- 2024年計算機二級考試試題及答案解析
- 客戶關系管理年度目標計劃
- 積極參與社會實踐活動計劃
- 社區(qū)信息化建設的現(xiàn)狀分析計劃
- 制定高效的生產計劃的方法
- 探索興趣班主任的興趣發(fā)展計劃
- 課程反饋與調整機制計劃
- (二模)溫州市2025屆高三第二次適應性考試語文試卷(含答案)
- 浙江省杭州市五縣七校2025年下學期高三第一次月考數(shù)學試題含解析
- 2025屆河北省承德市、張家口市高三下學期一??荚囉⒄Z試題(含答案)
- 2024山西云時代技術有限公司社會招聘59人筆試參考題庫附帶答案詳解
- 2025年三峽旅游職業(yè)技術學院單招職業(yè)技能測試題庫必考題
- Unit+4+Eat+Well+Section+A+2a~2e課件-2024-2025學年人教版(2024)英語七年級下冊+
- 2025年主提升機司機試題及答案
- 全國行政區(qū)域身份證代碼表(電子表格版)
- 《電氣安全規(guī)范》課件
- 2024年滁州來安農商銀行社會招聘筆試真題
- 電廠檢修安全培訓
評論
0/150
提交評論