




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、企業(yè)IT監(jiān)控運維管理平臺建設解決01業(yè)務背景概述03平臺設計方案02解決方案概述04應用案例分享運維重要性我們正在走入萬物互聯(lián)的數(shù)據(jù)時代運維在人類未來的生產生活中的作用會越來越重要。預計到2020年全球將有500億到1000億的IT設備,這些設備會承載無數(shù)的服務,涵蓋互聯(lián)網、金融、物聯(lián)網、智能制造、電信、電力網絡、政府等等的生產生活的方方面面。運維要做的是保障業(yè)務能夠可靠高速高效安全的運轉,因為它會直接影響到業(yè)務的收益和成本。萬物互聯(lián)&數(shù)據(jù)時代運維重要性運維是企業(yè)業(yè)務發(fā)展的基礎保障IT系統(tǒng)架構機房環(huán)境硬件設備網絡中間件業(yè)務數(shù)據(jù)系統(tǒng)應用IT監(jiān)控運維業(yè)務運營人員方法流程工具可用性成本連續(xù)性性能體驗
2、設備故障系統(tǒng)異常系統(tǒng)故障系統(tǒng)變更企業(yè)IT監(jiān)控運維的是企業(yè)業(yè)務的正常與高效運轉的基礎保障系統(tǒng)監(jiān)控維修更新業(yè)務保障應用反饋運維現(xiàn)狀大部分企業(yè)是處于被動救火式的IT運維模式,業(yè)務風險高、運維人員疲于奔命基礎設施網絡存儲服務器虛擬化數(shù)據(jù)庫中間件業(yè)務應用離散式人工化被動式高風險低評價IT設備規(guī)模大且分散、管理非常困難缺少可視化管理&自動化管理手段IT環(huán)境異構、業(yè)務系統(tǒng)繁多無法快速適應復雜環(huán)境設備的監(jiān)管運維人員能力層次不齊,服務范圍廣缺少規(guī)范的、自動的IT運維流程化管理業(yè)務負載逐年增加,無法確定功能完整可用性業(yè)務形態(tài)更加多種多樣,部署環(huán)境愈加復雜為了適應發(fā)展的需求,業(yè)務調整日趨頻繁大數(shù)據(jù)、云計算、物聯(lián)網、
3、人工智能等技術的快速演進以及應用,對運維團隊提出了更高的要求運維挑戰(zhàn)隨著技術以及企業(yè)信息化與數(shù)字化的迅猛發(fā)展,給IT運維帶來了全新的挑戰(zhàn)故障類型越來越多業(yè)務變化越來越快CIO業(yè)務中斷容忍度更低用戶體驗要求越來越高系統(tǒng)變更越來越頻故障排查、修復更難系統(tǒng)架構越來越復雜系統(tǒng)負載更大、故障風險高新系統(tǒng)上線越來越多業(yè)務訪問量快速增長業(yè)務處理時效性更高高層對IT部門考核更嚴技術快速演進與新技術應用人員技術能力與經驗不足人員成本越來越高知識經驗無法沉淀企業(yè)面臨巨大的運維壓力我經常聽到的描述是我們的壓力很大、我們在不停的背鍋、我們的日子是如履薄冰、幸福指數(shù)低、不知道下一秒會發(fā)生什么、睡不了安穩(wěn)覺,還有人略帶夸
4、張的說我們做運維就是把腦袋別在褲腰帶上。IT運維人員的真實寫照因此,構建智能化、主動式的IT監(jiān)控與運維能力將成為企業(yè)的必然選擇被動救火式維護智能主動式監(jiān)控定時粗略巡查等待故障報告人工故障處理實時全面監(jiān)控分散維護系統(tǒng)集中監(jiān)控系統(tǒng)自動故障處理提前故障預警隨著業(yè)務對IT運維提出的要求越來越高,原來傳統(tǒng)的被動救火式的IT運維模式已經不能滿足企業(yè)的要求,無法為業(yè)務的發(fā)展提供保障只有借助當前先進的技術,構建主動巡防式的IT監(jiān)控與運維體系,能夠提前預防并智能化處理系統(tǒng)的各類故障,才為業(yè)務的快速發(fā)展保駕護航,滿足企業(yè)對IT的要求高風險低評價離散化人工化低風險高價值一體化智能化01業(yè)務背景概述03平臺設計方案0
5、2解決方案概述04應用案例分享破局之道利用大數(shù)據(jù)與AI技術,通過IT設備與系統(tǒng)運行指標數(shù)據(jù)的深度挖掘,實現(xiàn)智能化的IT監(jiān)控與運維智能化IT監(jiān)控與運維IT設備/系統(tǒng)管理指標數(shù)據(jù)采集與清洗IT故障分析告警管理診斷運維集中監(jiān)控大數(shù)據(jù)能力AI能力非結構化數(shù)據(jù)處理數(shù)據(jù)建模/標注機器/深度學習規(guī)則模型統(tǒng)一化指標處理應用級故障分析自動化告警診斷智能化監(jiān)控預警主動化故障修復可視化集中監(jiān)控全面整合數(shù)據(jù)歷史故障數(shù)據(jù)運維知識風險判斷規(guī)則數(shù)據(jù)整合連接相關人員維護工程師業(yè)務人員運維主管多終端連接連接IT設備/系統(tǒng)指標/參數(shù)數(shù)據(jù)構建主動式IT監(jiān)控運維模式的核心思路與方法目標:保障業(yè)務 & 提升能力 & 降低成本 & 彰顯
6、IT價值一體化建立統(tǒng)一的IT監(jiān)控與運維體系平臺化-集中監(jiān)控精細化全面、精細的監(jiān)控提供多種的監(jiān)控指標的采集能力及辦法多維度從多維視角開展IT系統(tǒng)的監(jiān)控與運維技術/業(yè)務/管理智能化故障定義標準化故障分析模型化故障巡檢算法化自主化故障主動探測預警故障自動修復部署自動執(zhí)行可視化實現(xiàn)可視化監(jiān)控故障告警、處理、分析可視化展示一體化運維基于統(tǒng)一平臺,打造一體化監(jiān)控運維體系,全面提升運維能力統(tǒng)一智能IT監(jiān)控與運維平臺統(tǒng)一策略統(tǒng)一告警統(tǒng)一操作集中展示全面分析集中監(jiān)控所有系統(tǒng)都納入到統(tǒng)一個平臺進行監(jiān)控監(jiān)控信息集中管理統(tǒng)一故障與指標定義故障的分析策略設置故障監(jiān)控與預測策略統(tǒng)一告警能力支持統(tǒng)一告警規(guī)范設置集中告警策略
7、配置統(tǒng)一故障告警處理統(tǒng)一故障自動修復處理統(tǒng)一自動部署操作統(tǒng)一信息可視化展示統(tǒng)一的信息發(fā)布集中數(shù)據(jù)存儲與管理集中的IT故障分析全面的故障與預警報告分析,優(yōu)化IT運維知識沉淀、經驗傳遞、能力提升精細化運維精細化的指標監(jiān)控是主動并全面識別、預防、處理各類故障的基礎智能IT監(jiān)控與運維平臺Hypervisor虛擬化網絡SNMPSDK中間件JMX/CLI存儲SNMP/SMI-S服務器SNMPAgent數(shù)據(jù)庫JDBC新資源協(xié)議操作系統(tǒng)網絡流量流量分析硬件監(jiān)控存儲監(jiān)控基礎設施系統(tǒng)層中間層應用層業(yè)務層vCenteNagiosCactiZabbixPRTG對象內容層級工具對IT系統(tǒng)所包含的對象、資源與內容進行細致
8、的分層與分類全面連接、監(jiān)控各類IT資源與內容,全面采集數(shù)據(jù)不同類型資源使用不同的監(jiān)控與管理工具通過精細化的數(shù)據(jù)采集,實現(xiàn)對It系統(tǒng)的多維度、全面監(jiān)控與運維精細化運維細致的結構化監(jiān)控內容分層,是實現(xiàn)精細化IT監(jiān)控的前提業(yè)務層前端渲染、交易量、訪問量、成功率、響應時間、響應筆數(shù)等應用層資源占用、服務存活時間、日志大小、端口存活、API調用情況、線程數(shù)等中間件層隊列服務、數(shù)據(jù)庫服務、緩存服務、配置中心服務等系統(tǒng)層CPU、內存、磁盤、進程數(shù)等基礎設施層機房、網絡、硬件等精細化運維建立標準、細致的IT監(jiān)控指標庫,實現(xiàn)一體化、精細化IT監(jiān)控監(jiān)控指標庫主機監(jiān)控CPU使用率內存使用率網絡寫入I/O磁盤使用率磁
9、盤寫入I/O網絡丟包率前端監(jiān)控頁面性能監(jiān)控接口性能監(jiān)控數(shù)據(jù)庫/中間件監(jiān)控mysqlredismongonginxtomcathttpsoracle日志查詢應用日志應用錯誤日志組件日志服務器日志監(jiān)控多維度運維在精細化基礎上從多個維度監(jiān)控系統(tǒng),保障業(yè)務的可用與連續(xù)WLAN視頻監(jiān)控智慧社區(qū)移動應用應用發(fā)布主機操作系統(tǒng)數(shù)據(jù)庫中間件 網絡設備部門A部門B部門C部門主管業(yè)務骨干 技術專家技術業(yè)務管理T從技術角度發(fā)現(xiàn)故障從技術的角度來對系統(tǒng)運行狀態(tài)進行分析,識別、預測并排除故障,保障系統(tǒng)可用。B從業(yè)務視角排除故障從業(yè)務的視角來分析故障帶來的影響,排除故障,確保系統(tǒng)業(yè)務的可用與連續(xù)性。M從管理視角分析故障從管
10、理的視角來檢查使用狀態(tài)與分析故障,確保系統(tǒng)使用符合企業(yè)管理要求與規(guī)范。智能化運維構建智能化的監(jiān)控分析能力,識別故障并預測風險,實現(xiàn)主動、智能的運維智能化標準化算法化模型化建立故障識別模型基于體系標準庫建立定義故障的數(shù)據(jù)模型確定每個故障、風險、問題的識別數(shù)學模型可以從不同維度(技術/業(yè)務/管理)建立多種故障識別模型梳理故障指標體系標準基于保障業(yè)務,確保系統(tǒng)正常運行的目標,梳理出金阿卡指標與故障體系標準構建監(jiān)控指標庫構建故障與風險類型庫構建事件、問題與任務類型庫設計故障分析算法基于故障模型設計自動故障與風險分析的算法創(chuàng)建IT監(jiān)控與分析任務(監(jiān)控的系統(tǒng)與內容)設置自動化算法的執(zhí)行與調度策略自動執(zhí)行算
11、法,識別、預測故障與風險基于實際效果技術優(yōu)化、調整算法智能化運維標準化程度、故障模型與算法設計的合理性直接決定智能化運維的成效標準化模型化算法化監(jiān)控指標庫風險故障庫問題事件庫模型庫任務算法庫調度引擎監(jiān)控需求采集數(shù)據(jù)項定義故障定義風險調用關聯(lián)設計加載NN智能化運維智能IT監(jiān)控與運維的核心,構建一個規(guī)范并可自我優(yōu)化與學習的業(yè)務規(guī)則體系大量數(shù)據(jù)支撐經驗技術累積故障數(shù)據(jù)外部資料運行指標數(shù)據(jù)數(shù)據(jù)清洗規(guī)則對采集的系統(tǒng)運行指標數(shù)據(jù)進行清洗處理可基于基礎數(shù)據(jù)進行自我學習人工培植為主,機器學習為輔監(jiān)控模型庫對IT設備與系統(tǒng)進行故障/風險監(jiān)控基于數(shù)據(jù)進行自我優(yōu)化學習機器學習為主,人工設置為輔告警規(guī)則當發(fā)現(xiàn)故障/風
12、險時的告警規(guī)則人工規(guī)則配置運維知識庫用以實現(xiàn)系統(tǒng)進行自主故障的修復處理支持通過執(zhí)行腳本、指令等方法修復故障人工規(guī)則配置診斷知識庫用來對發(fā)現(xiàn)的故障/風險進行診斷,以發(fā)現(xiàn)具體的故障原因可基于外部知識學習人工配置為主,機器學習為輔數(shù)據(jù)訓練&機器學習機器學習創(chuàng)建規(guī)則機器學習增添知識智能化運維集中管理所有故障,形成故障庫為機器學習提供素材,不斷提升智能化運維水平故障管理故障庫系統(tǒng)確診故障風險告警確認人工故障登記故障事件匯總管理自動人工人工故障類型故障主體故障時間故障處理故障原因故障描述故障監(jiān)控機器學習故障診斷機器學習故障修復機器學習其他機器學習歷史故障數(shù)據(jù)數(shù)據(jù)導入自主化運維主動的故障探測、智能的風險預警
13、與自動的故障修復,極大提升效率并降低風險主動探測+預防主動進行系統(tǒng)應用巡檢和探傷檢測主動預測故障風險進行潛在故障干預自動告警+運維自動告知相關人員故障與風險信息自動執(zhí)行故障修復或系統(tǒng)部署等任務自主化監(jiān)控運維全面采集系統(tǒng)各項運行數(shù)據(jù)后,進行智能化的分析,可以及時識別出各類故障和故障風險,基于此平臺會進一步采取自主化的處理方式,及時修復故障,提前解除風險,以保障業(yè)務的可用性和連續(xù)性。會主動對系統(tǒng)進行各項指標的探測和巡檢,以便及時發(fā)現(xiàn)系統(tǒng)故障會基于智能化數(shù)據(jù)風險,給出故障風險預測提前判斷潛在的故障,并進行主動干預,降低系統(tǒng)運行風險任何故障或風險信息,平臺都會及時給予告警(支持郵件、短信、信息、聲音、
14、警燈等方式),通知相關人員支持對(部分)故障進行自動的修復處理支持自動執(zhí)行系統(tǒng)應用部署自主化運維自主化IT監(jiān)控與運維總體流程提供自主化IT監(jiān)控與運維方案,不僅可以進行主動的傷探檢測,還可以在發(fā)現(xiàn)故障或潛在故障風險后,進行主動的故障修復處理,實現(xiàn)整個IT故障檢測與處理的全自動化。監(jiān)控數(shù)據(jù)采集主動巡檢探測潛在故障風險自動告警智能引擎監(jiān)控模型任務調度讀取數(shù)據(jù)信息反饋IT故障問題主動故障修復主動干預處理預測識別監(jiān)測發(fā)現(xiàn)處理日志報告基于告警策略自動進行告警基于策略配置基于策略配置執(zhí)行修復任務部分故障無法直接進行修復處理,則平臺會自動生成故障處理任務并指派給相應人員生成故障工單生成故障修復任務生成風險消除
15、任務部分故障直接分派人工處理故障過程結果反饋部分風險可以自主修復自主化運維主動巡檢、探測IT設備運行與系統(tǒng)應用狀態(tài),及時發(fā)現(xiàn)風險、保障業(yè)務的可用性可以利用自動化測試腳本,命令執(zhí)行,調用接口、模擬操作等方式,主動對IT的各項資源以及業(yè)務系統(tǒng)的運行狀況進檢測,主動發(fā)現(xiàn)存在的故障與潛在風險,改變被動等待故障發(fā)生的IT監(jiān)控運維工作模式,保證業(yè)務的可用性。IT故障的主動探測、系統(tǒng)狀態(tài)自動巡檢、業(yè)務可用性保障業(yè)務可用測試網卡主機磁盤交換機端口進程serverApp中間件數(shù)據(jù)庫負載設備App發(fā)現(xiàn)問題主動巡檢快速修復告警通知智能故障分析業(yè)務影響范圍解決告警硬件可用探測系統(tǒng)狀態(tài)巡檢硬件狀態(tài)巡檢執(zhí)行測試腳本執(zhí)行檢
16、測命令調用服務接口模擬操作自主化運維統(tǒng)一的告警策略配置,智能化IT故障與風險監(jiān)控告警,集中歷史事件管理配置統(tǒng)一的事件告警策略,在監(jiān)控過程中,一旦發(fā)現(xiàn)符合告警策略的事件,即會自動發(fā)出告警,并將告警事件進行統(tǒng)一管理與分析。實時監(jiān)控監(jiān)控模型庫故障告警風險告警系統(tǒng)監(jiān)控數(shù)據(jù)實時數(shù)據(jù)監(jiān)控發(fā)現(xiàn)故障及時告警識別風險潛在問題告警事件庫狀態(tài)預測趨勢預測事件匯總事件匯總可以定義不同事件/風險的等級,然后根據(jù)事件/風險等級,設置不同的告警策略可以定義事件的告警方式,告警聯(lián)系人員范圍,告警內容等可以集中配置、更新、管理告警策略人為設置機器學習告警事件告警規(guī)則庫告警方式告警內容模版告警聯(lián)系人人為設置自主化運維基于經驗沉淀
17、及機器自主學習,不斷豐富診斷知識庫,實現(xiàn)智能自主的故障診斷故障診斷診斷知識庫故障確診疑似診斷給出解決方案給出處理建議確定問題產生原因無法明確故障及原因故障風險告警實時任務觸發(fā)診斷知識庫的作用是讓系統(tǒng)能夠對發(fā)現(xiàn)的故障或潛在故障分析進行診斷分析,得出故障原因并給出處理方案或意見診斷知識庫內容的來源主要有兩種:一是技術累積和經驗累積(可靠知識),一是由系統(tǒng)通過自主學習獲得(參考知識)機器學習的知識需人為審核確認后方可直接作為解決方案經驗沉淀解決方案機器學習僅做建議診斷級別原因分析解決方案診斷故障自主化運維根據(jù)故障診斷結果,基于運維知識庫,實現(xiàn)自主化的故障修復故障風險診斷報告自主運維實時任務觸發(fā)運維知
18、識庫可自動執(zhí)行需人工執(zhí)行需人工確認疑似診斷故障確診重啟設備重啟服務執(zhí)行命令執(zhí)行腳本進行故障處理自動修復故障確認故障以及產生原因故障確診對于已經確診的問題,部分可由系統(tǒng)自動進行處理對于無法由系統(tǒng)直接進行處理的問題,則會派發(fā)相應的任務給到對應的人員,由維護人員進行處理而對于無法確診的問題或告警,系統(tǒng)也會派發(fā)相應的任務給到對應的維護人員進行確認并處理系統(tǒng)自動執(zhí)行自動派發(fā)任務自動派發(fā)任務按系統(tǒng)給出的診斷解決方案執(zhí)行如確定是個故障則需進行處理故障確診處理方式解決方法執(zhí)行腳本故障描述經驗沉淀技術積累人為設置自主化運維支持運維任務的自動化執(zhí)行,簡化IT運維工作,提高運維效率提供自動化運維工具,可以將傳統(tǒng)枯燥
19、、重復的運維工作逐漸用機器自動化代替,例如磁盤自動清理據(jù)、數(shù)據(jù)定時備份、定期服務重啟、應用自動部署等,無需人為參與,大大減輕了IT運維工作量。自動運維日志管理自主運維任務調度加載任務執(zhí)行任務觸發(fā)執(zhí)行日志日志報告任務統(tǒng)計運維任務配置任務生效周期執(zhí)行觸發(fā)設置任務執(zhí)行腳本任務目標定義加載臨時運維任務手工新增任務使用策略自動生成周期性的運維任務系統(tǒng)巡檢磁盤清理計劃維護數(shù)據(jù)備份重啟服務關閉服務應用部署快照恢復系統(tǒng)體檢系統(tǒng)發(fā)布支持各種IT運維作業(yè)自主化運維統(tǒng)一、靈活的任務調度管理,支撐實時IT智能監(jiān)控與運維應用智能化IT監(jiān)控與運維平臺任務調度引擎監(jiān)控數(shù)據(jù)采集監(jiān)控數(shù)據(jù)清洗故障監(jiān)控告警數(shù)據(jù)清洗標注規(guī)則學習故障
20、風險診斷故障主動運維診斷知識學習監(jiān)控規(guī)則學習執(zhí)行周期執(zhí)行方式算法模型任務定義執(zhí)行日志定期觸發(fā)觸發(fā)實時/觸發(fā)定期定期觸發(fā)/定期實時可視化運維提供可視化的集中日志監(jiān)控監(jiān)控告警數(shù)據(jù)分析信息展示平臺具備強大的可大數(shù)據(jù)分析及可視化監(jiān)控與展示能力平臺可整合當前與歷史監(jiān)控數(shù)據(jù)進行深度分析,分析故障特征,通過機器學習不斷優(yōu)化監(jiān)控模型,及時發(fā)現(xiàn)各類風險平臺可對日志數(shù)據(jù)以及告警數(shù)據(jù)進行全面的分析,定期輸出分析報告,支持用戶實現(xiàn)智能的設備監(jiān)控運維分析平臺具備強大的圖形化數(shù)據(jù)展示開發(fā)能力,支持個性化數(shù)據(jù)展示開發(fā)平臺支持各類圖形化的數(shù)據(jù)展示并支持大屏設備提供數(shù)據(jù)與信息推送功能,支持各種方式的數(shù)據(jù)推送方式方案價值定位支撐
21、企業(yè)IT監(jiān)控運維的智能化升級預防查找潛在風險,提供主動預防策略預測構建模型,預測未來趨勢分析分析歷史數(shù)據(jù)輔助根源問題分析整合整合歷史監(jiān)控數(shù)據(jù),輔助IT系統(tǒng)綜合管理監(jiān)控監(jiān)控當前IT系統(tǒng)整體運行的狀態(tài)企業(yè)智能化IT監(jiān)控運維平臺以大數(shù)據(jù)分析能力支撐的智能化IT監(jiān)控運維平臺機器數(shù)據(jù)分析傳統(tǒng)ITSM、APM、NPM、SOC、Cloud Management保障業(yè)務、降低風險、提升效率構建智能化運維體系自主化智能化多維度精細化一體化可視化方案應用藍圖打造智能化、主動式IT監(jiān)控運維企業(yè)智能IT監(jiān)控運維管理平臺IT物聯(lián)網大數(shù)據(jù)云計算基礎設施網絡存儲服務器數(shù)據(jù)庫中間件應用服務業(yè)務應用管理系統(tǒng)業(yè)務系統(tǒng)系統(tǒng)工具移動
22、應用智能故障分析大屏統(tǒng)一監(jiān)控快速故障修復信息推送與告警故障報告數(shù)據(jù)匯集深度分析發(fā)現(xiàn)故障/風險數(shù)據(jù)分析可視化展示信息推送報表管理指標配置故障模型算法引擎監(jiān)控任務故障處理調整算法查收報告整體監(jiān)控信息配置處理告警處理故障設置任務數(shù)據(jù)采集主動探測告警、修復識別、預測實時任務定時全面多維智能方案核心價值被動式維護模式主動式監(jiān)控模式離散一體局部滯后人工緩慢快速全面提前自動監(jiān)控內容故障發(fā)現(xiàn)運維方式故障處理保障業(yè)務提升IT價值提升效率降低成本監(jiān)控模式01業(yè)務背景概述03平臺設計方案02解決方案概述04應用案例分享企業(yè)智能IT監(jiān)控運維管理平臺平臺總體方案構建智能化IT監(jiān)控系統(tǒng)平臺,建立主動式IT監(jiān)控運維模式人員
23、支撐運維工程師技術工程師CIO業(yè)務主管運維主管信息推送工作支撐數(shù)據(jù)采集故障探測采集信息應用服務中間件底層系統(tǒng)基礎設施業(yè)務狀態(tài)連接系統(tǒng)移動應用系統(tǒng)工具業(yè)務系統(tǒng)管理系統(tǒng)系統(tǒng)數(shù)據(jù)采集異常檢測主動預警信息通知郵件通知聲音告警報告推送大屏展示可視展示主動告警數(shù)據(jù)采集探傷檢測規(guī)則配置智能監(jiān)控主動告警自動修復數(shù)據(jù)分析可視展示系統(tǒng)應用架構基于AI與大數(shù)據(jù)能力建構應用平臺數(shù)據(jù)層RDMSRedisLog文件能力層流程配置規(guī)則配置任務調度數(shù)據(jù)處理大數(shù)據(jù)分析AI機器學習系統(tǒng)層用戶管理權限管理認證管理參數(shù)配置日志管理消息管理服務層查詢分析智能監(jiān)控自動告警智能診斷自主運維規(guī)則學習應用層規(guī)則管理任務管理設備管理模型管理集中
24、監(jiān)控數(shù)據(jù)統(tǒng)計監(jiān)控管理告警管理診斷管理運維管理故障管理智能分析采集層數(shù)據(jù)采集數(shù)據(jù)抓取數(shù)據(jù)導入數(shù)據(jù)過濾數(shù)據(jù)清洗數(shù)據(jù)標注接入層系統(tǒng)技術架構平臺功能架構用戶管理系統(tǒng)管理權限管理參數(shù)配置流程管理日志管理消息管理指標采集數(shù)據(jù)管理數(shù)據(jù)清洗探傷管理數(shù)據(jù)管理數(shù)據(jù)模型算法管理任務調度設置配置管理清洗規(guī)則配置監(jiān)控模型配置告警規(guī)則配置診斷知識配置運維知識配置業(yè)務管理監(jiān)控應用管理資源管理監(jiān)控系統(tǒng)管理監(jiān)控對象管理監(jiān)控設備管理監(jiān)控任務管理監(jiān)控管理監(jiān)控模型管理監(jiān)控記錄管理監(jiān)控指標管理告警消息管理告警管理告警事件管理告警處理分派告警規(guī)則管理診斷任務管理診斷管理診斷知識確認診斷結果確認診斷知識管理運維任務處理運維管理自動運維管理
25、運維記錄管理運維知識管理故障處理管理故障管理人工故障登記故障匯總管理告警故障確認監(jiān)控告警處理應用門戶故障管理分析運維任務管理大屏監(jiān)控大屏監(jiān)控數(shù)據(jù)統(tǒng)計平臺總體流程監(jiān)控數(shù)據(jù)采集指標數(shù)據(jù)清洗故障告警監(jiān)控設備故障告警故障風險告警智能故障診斷故障原因確診自動故障修復人工故障修復人工風險確認告警事件庫故障庫人工故障處理發(fā)現(xiàn)故障識別風險智能風險診斷故障原因疑診人工執(zhí)行修復任務派送自動執(zhí)行任務派送任務派送確認故障按照給出的解決方案執(zhí)行即可原因診斷,處理建議原因診斷,處理建議清洗規(guī)則監(jiān)控模型診斷知識庫系統(tǒng)具備智能化的IT設備與系統(tǒng)(故障/風險)智能化監(jiān)控,及自主化運維能力,不僅可以及時發(fā)現(xiàn)各類故障以及潛在的故障
26、風險,還可以在確診故障后進行主動的故障修復處理,實現(xiàn)IT運維工作的智能化與自主化。機器學習素材庫自動生成監(jiān)控等規(guī)則指標數(shù)據(jù)庫診斷知識庫平臺功能設計平臺功能設計01業(yè)務背景概述03平臺設計方案02解決方案概述04應用案例分享某系統(tǒng)集成商OMC平臺項目建設背景考核壓力越來越大對子公司系統(tǒng)故障感知能力薄弱,無法及時處理故障,用戶滿意度降低。子公司各系統(tǒng)應用規(guī)范日益增大,其中WLAN平臺已接入49客戶,涉及2500個AP;視頻監(jiān)控平臺已接入23個客戶,涉及90路視頻,智慧社區(qū)已承載200社區(qū),連接設備1770。隨著新技術引入、新模塊迭代,系統(tǒng)復雜度顯著增強,單靠人工檢查,工作量大,效率低下,無以為繼;
27、中移各在用系統(tǒng)和核心平臺采用了不同的框架、開發(fā)技術,系統(tǒng)復雜度日益增高,新的故障類型也在不斷涌現(xiàn),對運維人員的能力要求也不斷提高。隨著業(yè)務發(fā)展子公司系統(tǒng)故障影響面越來越大,人工解決問題成本越來越高;運維面臨問題和挑戰(zhàn)人工運維檢查,效率低下、工作量大問題感知能力薄弱,導致用戶滿意度低運維難度越來越大母公司對各子公司自有系統(tǒng)運維能力的要求不斷提升,考核力度逐年增長;智慧社區(qū)平臺、移動OA平臺、視頻監(jiān)控和分析平臺、內部項目管理系統(tǒng)等都使用了不同的最新技術,系統(tǒng)復雜度日益增高,新的故障類型也在不斷涌現(xiàn)。運維成本越來越高運維可靠越來越高子公司運維基礎薄弱、專業(yè)人員稀缺,長期無法實現(xiàn)日常操作的標準化,因人
28、而宜產生較大波動的概率高某系統(tǒng)集成商OMC平臺總體解決方案IT監(jiān)控運營OMC平臺包括監(jiān)控管理中心、操作管理中心、業(yè)務管理中心、運營管理中心、運維管理中心等功能。數(shù)據(jù)采集會自動采集被監(jiān)控系統(tǒng)的各項運行數(shù)據(jù),再由統(tǒng)一處理根據(jù)配置的規(guī)則對數(shù)據(jù)進行分析。當發(fā)現(xiàn)了故障或風險時由告警引擎負責告知維護人員,而系統(tǒng)管理員則可以通過可視化報表及時掌握各系統(tǒng)的整體運行與故障情況。 OMC-IT運營管理平臺IT物聯(lián)網大數(shù)據(jù)云計算故障分析數(shù)據(jù)統(tǒng)計、分析快速故障修復信息推送與告警故障報告數(shù)據(jù)匯集深度分析發(fā)現(xiàn)故障/風險數(shù)據(jù)分析信息展示信息推送報表管理指標配置故障配置告警配置監(jiān)控任務故障處理調整算法查收報告整體監(jiān)控信息配置
29、處理告警處理故障設置任務數(shù)據(jù)采集主動探測告警、修復識別、預測實時任務定時全面多維度呈現(xiàn)統(tǒng)一處理統(tǒng)一采集業(yè)務應用智能WLAN視頻監(jiān)控核心平臺業(yè)務應用內部項目管理系統(tǒng)重要系統(tǒng)業(yè)務應用流量異常關鍵網絡業(yè)務應用物理機存儲基礎設施處理日志監(jiān)控管理中心操作管理中心業(yè)務管理中心運營管理中心運維管理中心某系統(tǒng)集成商OMC平臺系統(tǒng)功能架構IT監(jiān)控運營OMC平臺由監(jiān)控管理中心、操作管理中心、業(yè)務管理中心、運營管理中心、運維管理中心等子系統(tǒng)組成,形成以客戶體驗為視角的業(yè)務監(jiān)控能力和運營分析能力,同時完成對運維工作的電子化、規(guī)范化、流程化的管理。綜合門戶個人門戶APP統(tǒng)一接入應用功能中心基礎平臺監(jiān)控管理中心操作管理中心業(yè)務管理中心運營管理中心運維管理中心資產配置監(jiān)控管理自動告警基礎管理工單管理統(tǒng)計分析自動巡檢服務啟停日常命令操作部署更新故障診斷配置文件管理業(yè)務健康度管理服務目錄及水平業(yè)務影響管理業(yè)務可用性客戶感知管理業(yè)務管理專題容量管理運
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年消防設施操作員之消防設備基礎知識模擬考試試卷A卷含答案
- 2019-2025年消防設施操作員之消防設備中級技能題庫練習試卷B卷附答案
- 2019-2025年消防設施操作員之消防設備基礎知識題庫練習試卷A卷附答案
- 人民防空知識培訓課件
- 酒店推廣傭金合同(2篇)
- 采購分包付款合同(2篇)
- 宮頸癌疫苗知識培訓課件
- 2025年愛國知識競賽題及答案(67題)
- 文化遺產保護與傳承合作協(xié)議
- 細胞制備服務合作協(xié)議
- 貴州省安順市2025屆高三年級第四次監(jiān)測考試2月語文試題及參考答案
- 公路工程標準施工招標文件(2018年版)
- DL∕T 5776-2018 水平定向鉆敷設電力管線技術規(guī)定
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蝕工程施工及驗收規(guī)范
- TB T2075-《電氣化鐵道接觸網零部件》
- NB∕T 10730-2021 煤礦井下斷層導水性探查與治理技術規(guī)范
- 科學儀器設備分類編碼表
- 分布式光伏電站現(xiàn)場勘查表
- 2019年健康體檢結果調查分析報告
- 新版理念篇-養(yǎng)老課件
- (新版教材)粵教版六年級下冊科學全冊課件
評論
0/150
提交評論