中國AIOps現(xiàn)狀調(diào)查報告_第1頁
中國AIOps現(xiàn)狀調(diào)查報告_第2頁
中國AIOps現(xiàn)狀調(diào)查報告_第3頁
中國AIOps現(xiàn)狀調(diào)查報告_第4頁
中國AIOps現(xiàn)狀調(diào)查報告_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 HYPERLINK / 中國AIOps 現(xiàn)狀調(diào)查報告(2022 年) HYPERLINK / 中國AIOps現(xiàn)狀調(diào)查報告 HYPERLINK / (2022 年) HYPERLINK / 2022 年 7 月 28 日核心觀點摘要AIOps 能力建設基本情況多數(shù)企業(yè)近年來在運維方面的資金投入仍處于增長階段。近 4 成企業(yè)運維方面年平均投資規(guī)模超 5000 萬元,投資規(guī)模在 5000 萬元-1 億元的企業(yè)占比 11.24%,1 億元-5 億元的企業(yè)占比 13.45%。超半數(shù)企業(yè)在實現(xiàn)自動化運維、自動化部署的基礎上進一步增強監(jiān)控、運維智能化能力。根據(jù)本次調(diào)查顯示,61.21%的企業(yè)選擇優(yōu)先關注和

2、投資 DevOps 自動化部署,52%的企業(yè)選擇優(yōu)先關注和投資升級監(jiān)控和 AIOps。以結果為導向的 IT 運維 KPI 指標是當前企業(yè)關注的重點,企業(yè)對于用戶體驗的關注正在持續(xù)升溫。根據(jù)本次調(diào)查顯示,60.04%的企業(yè)最關注 “可用性、正常運行時間和性能”指標。用戶滿意度也獲得了 44.66%的關注,這反應了企業(yè)對于用戶體驗的持續(xù)升溫。智能運維已經(jīng)在各行業(yè)逐步落地應用,特別是在科技、互聯(lián)網(wǎng)、金融、電信幾大領域應用效果十分顯著。根據(jù)本次調(diào)查結果,科技和互聯(lián)網(wǎng)行業(yè)受訪者所在企業(yè)表示已建立了智能運維平臺并形成了相關評價體系分別占比 49.64%和 37.96%,其次是銀行占比 28.99%和電信企

3、業(yè)占比 25.97%。內(nèi)外雙修,智能運維系統(tǒng)/工具/平臺既可用于增強企業(yè)自身運維能力,同時也可以對外輸出產(chǎn)品能力。根據(jù)調(diào)查顯示,企業(yè)的智能運維系統(tǒng)/工具/平臺同時具備行業(yè)特性,如 48.29%的科技公司和 43.64%的互聯(lián)網(wǎng)企業(yè),主要對外提供智能運維產(chǎn)品及解決方案,50.36%的金融企業(yè)則更多面向內(nèi)部使用。超半數(shù)企業(yè)以自主研發(fā)的方式建設 AIOps 能力。根據(jù)本次調(diào)查結果,超過半數(shù)(57.83%)的受訪者所在團隊主要以自研的方式搭建智能運維平臺/工具,22.98%的受訪者所在團隊采用共研方式搭建智能運維平臺/工具,另外還有 19.20%的受訪者所在團隊選擇采購第三方解決方案搭建智能運維平臺/

4、工具。將現(xiàn)有監(jiān)控平臺、大數(shù)據(jù)平臺等多種數(shù)據(jù)源接入智能運維工具/平臺,進行多場景數(shù)據(jù)融合是當前比較常用的智能運維實踐方式。目前近一半(46.21%)的企業(yè)采用數(shù)據(jù)接入方式,同時還有 37.85%的企業(yè)智能運維工具/平臺具備數(shù)據(jù)采集能力。持續(xù)完善數(shù)據(jù)能力,搭建計算分析引擎,進行數(shù)據(jù)分析和模型構建是智能運維能力中不可或缺的一部分。根據(jù)本次調(diào)查結果統(tǒng)計,目前 76.93%的受訪者所在企業(yè)均已搭建了計算能力引擎,主要以自研(36.86%)和采用第三方提供(40.07%)兩種方式為主。多數(shù)企業(yè)內(nèi)部組建了專職團隊負責 AIOps 能力建設。根據(jù)本次調(diào)查結果,25.84%的受訪者所在企業(yè)組建了專職團隊/部門負

5、責智能運維能力建設,此外還有由多個團隊/部門聯(lián)合組建(13.17%),各團隊/部門分別建設(13.06%)和聯(lián)合第三方廠商/外包組建(12.45%)等多種團隊模式。AIOps 場景應用情況AIOps 仍處于初期發(fā)展階段,受訪者對目前 AIOps 能力水平的評價與期望超過其所在企業(yè)實際應用的情況。從整體來看,30.27%的企業(yè)自評目前處于輔助智能化運維階段,28.61%的企業(yè)自評處于進階智能化運維階段。智能運維在質(zhì)量、成本、效率、安全四大運維領域均已開展部署和應用,其中質(zhì)量領域最為關注。調(diào)查顯示,54.79%的企業(yè)當前著重關注智能運維的質(zhì)量領域(包括異常檢測、告警收斂、根因分析、故障處置等)能力

6、建設,其次 45.77%的企業(yè)關注效率領域,45.49%的企業(yè)關注成本領域,30.82%的企業(yè)關注安全領域。大部分企業(yè)在數(shù)據(jù)分析和算法模型分析方面已經(jīng)逐步開始場景探索。并且已有 15.61%和 11.07%的受訪者所在企業(yè)將數(shù)據(jù)分析方法和算法模型應用與大部分業(yè)務場景。通過使用智能運維算法,可快速提升運維智能化、自動化水平,大幅降低故障平均檢測時間,加速平均修復時長。通過調(diào)查發(fā)現(xiàn),目前已經(jīng)有 11.95%的企業(yè)核心系統(tǒng)故障服務恢復時長可以達到 10 分鐘內(nèi)的水平,11.23%的企業(yè)已經(jīng)達到 15 分鐘內(nèi)完成系統(tǒng)故障恢復。AIOps 發(fā)展趨勢與挑戰(zhàn)多數(shù)企業(yè)領導層已經(jīng)對智能運維能力建設加以重視并付諸

7、行動,但在智能運維的建設過程中仍有諸多困難與挑戰(zhàn)。根據(jù)調(diào)查統(tǒng)計,目前遇到的困難和挑戰(zhàn)主要在不同運維場景中的實踐探索中產(chǎn)生的,比如“能力定制化,難以跨業(yè)務應用或泛化成本高”(35.81%), “場景有限,大量運維場景沒有成熟的方案”(33.98%),“新場景建設周期長”(30.71%)。需求驅(qū)動能力升級,除普遍關注的質(zhì)量場景,安全場景成為更多企業(yè)未來關注和提升的方向。根據(jù)本次調(diào)查結果,質(zhì)量場景仍然是主要提升方向。36.75%的企業(yè)在未來將提升故障的根因定位效率,32.82%的企業(yè)將會提升故障修復速度,31.82%的企業(yè)將完善故障預測能力以及 23.52%的企業(yè)將會建立故障處理流程規(guī)范。安全場景得

8、到更多的關注,40.79%的企業(yè)將加強對安全事件的快速響應以及相應的防范措施的建設。未來趨勢:加強人員與技術方面投入,持續(xù)探索智能運維場景,持續(xù)優(yōu)化現(xiàn)有場景能力,提升穩(wěn)定性,易用性。47.76%的企業(yè)將在目前已有的智能運維場景中繼續(xù)優(yōu)化改進,提升效果。44.71%的企業(yè)將在易用性、可用性、穩(wěn)定性等方面持續(xù)改進。一、調(diào)查背景(一)調(diào)查方法及樣本1、調(diào)查方法本次調(diào)查報告采用在線問卷調(diào)查方式,共收集到有效問卷 1807 份。2、樣本描述參與調(diào)查企業(yè)所在行業(yè):包括互聯(lián)網(wǎng)、科技、電信、銀行、能源、證券、教育、咨詢與服務、零售等行業(yè)。數(shù)據(jù)來源:中國信息通信研究院圖 1 行業(yè)分布參與調(diào)查企業(yè)規(guī)模:人員規(guī)模在

9、 500 人以上的企業(yè)占比接近六成。近四成的受訪企業(yè)資產(chǎn)規(guī)模在 1 億元以上。數(shù)據(jù)來源:中國信息通信研究院圖 2 企業(yè)人員規(guī)模數(shù)據(jù)來源:中國信息通信研究院圖 3 企業(yè)資產(chǎn)規(guī)模參與調(diào)查人員地域分布:覆蓋全國 31 個省級行政區(qū)近 90 個城市。數(shù)據(jù)來源:中國信息通信研究院圖 4 個人地域分布參與調(diào)查個人職位:超過 5 成的受訪者來自運維與研發(fā)部門,其中 28.33%的受訪者來自運維部門,28.22%的受訪者來自研發(fā)部門,12.68%的受訪者來自技術及架構相關部門。數(shù)據(jù)來源:中國信息通信研究院圖 5 個人職業(yè)分布參與調(diào)查個人工作經(jīng)驗: 超過半數(shù)的受訪者工作經(jīng)驗在 4 年以上,工作經(jīng)驗為 6 至 1

10、0年的受訪者居多,5.31%的受訪者工作經(jīng)驗超過 20 年。數(shù)據(jù)來源:中國信息通信研究院3、樣本說明圖 6 個人工作經(jīng)驗序號N 值說明1N=1807樣本總量二、AIOps 發(fā)展現(xiàn)狀(一)AIOps 能力建設基本情況在當前數(shù)字化轉(zhuǎn)型的浪潮下,企業(yè) IT 運維方面的投資規(guī)模將逐步增加,IT 運維的關注方向也將逐步從自動化運維向智能化運維發(fā)展。伴隨著企業(yè)規(guī)模擴大,業(yè)務模式更新,以及云計算、大數(shù)據(jù)、人工智能等新技術應用,智能運維能力已在科技、互聯(lián)網(wǎng)、金融、電信等行業(yè)逐步落地應用,并呈現(xiàn)出多樣化的發(fā)展趨勢。近三年中,近 4 成企業(yè)在運維方面年平均投資規(guī)模超 5000 萬元,此外投資規(guī)模在 2000- 5

11、000 萬元的受訪者所在企業(yè)占比 12.74%,500-2000 萬元占比 18.55%,100-500 萬元占比 21.26%,100 萬元以下占比 13.88%。數(shù)據(jù)來源:中國信息通信研究院圖 7 企業(yè)運維年平均資金投入規(guī)模(2019-2021)在實現(xiàn)自動化運維、自動化部署的基礎上進一步增強監(jiān)控、運維智能化能力。根據(jù)本次調(diào)查顯示 DevOps 自動化部署(61.21%)、升級監(jiān)控和 AIOps(52%)是大部分企業(yè)的優(yōu)先關注和投資的方向。數(shù)據(jù)匯總來看,提升系統(tǒng)自動化部署能力,實現(xiàn)基礎架構代碼化、測試自動化等是企業(yè)當前投資的重點方向。另外可觀測性、SRE 等時下熱點也成為企業(yè)的投資方向和選擇

12、。數(shù)據(jù)來源:中國信息通信研究院圖 8 企業(yè)在技術投資時優(yōu)先考慮的 IT 運營指標企業(yè) IT 運營首要目標是減少故障發(fā)生次數(shù),提高故障修復效率,以保證系統(tǒng)高效穩(wěn)定運行,并進一步降低運營成本。根據(jù)調(diào)查結果顯示,60.04%的受訪者所在企業(yè)最關注“可用性、正常運行時間和性能”指標,同時有 46.60%和 44.66%的企業(yè)關注“發(fā)生故障/事件的數(shù)量”與“用戶滿意度”, 40.29%的企業(yè)關注“MTTR(平均恢復時間)”, 此外 28.33%的企業(yè)將 “IT 運營成本”也納入了運營關注指標。數(shù)據(jù)來源:中國信息通信研究院圖 9 企業(yè) IT 運營關注指標智能運維已在各行業(yè)逐步落地應用,特別是在科技、互聯(lián)網(wǎng)

13、、金融、電信幾大領域應用效果十分顯著,根據(jù)本次調(diào)查結果,科技和互聯(lián)網(wǎng)行業(yè)受訪者所在企業(yè)表示已建立了智能運維平臺并形成了相關評價體系分別占比 49.64%和 37.96%,其次是銀行和電信企業(yè)(28.99%和 25.97%)。數(shù)據(jù)來源:中國信息通信研究院圖 10 企業(yè)智能運維能力建設情況內(nèi)外雙修,智能運維系統(tǒng)/工具/平臺既可用于增強企業(yè)自身運維能力,同時也可以對外輸出產(chǎn)品能力。根據(jù)調(diào)查顯示,企業(yè)的智能運維系統(tǒng)/工具/平臺同時具備行業(yè)特性,如科技和互聯(lián)網(wǎng)企業(yè),主要對外提供智能運維產(chǎn)品及解決方案(48.29%和 43.64%),金融行業(yè)則更多面向內(nèi)部使用(50.36%),電信行業(yè)相對較為均衡,面向內(nèi)

14、部使用,同時也對外提供產(chǎn)品及解決方案(51.80%)。數(shù)據(jù)來源:中國信息通信研究院圖 11 智能運維系統(tǒng)/工具/平臺提供服務類型超半數(shù)企業(yè)以自主研發(fā)的方式建設 AIOps 能力。根據(jù)本次調(diào)查結果,超過半數(shù)(57.83%)的受訪者所在團隊主要以自研的方式搭建智能運維平臺/工具,22.98%的受訪者所在團隊采用共研方式搭建智能運維平臺/工具,另外還有 19.20%的受訪者所在團隊選擇采購第三方解決方案搭建智能運維平臺/工具。數(shù)據(jù)來源:中國信息通信研究院圖 12 團隊搭建智能運維平臺/工具的方式多數(shù)企業(yè)內(nèi)部組建了專職團隊負責 AIOps 能力建設。根據(jù)本次調(diào)查結果,25.84%的受訪者所在企業(yè)組建了

15、專職團隊/部門負責智能運維能力建設,此外還有由多個團隊/部門聯(lián)合組建(13.17%),各團隊/部門分別建設(13.06%)和聯(lián)合第三方廠商/外包組建(12.45%)等多種團隊模式,共研(19.81%)或者采購第三方服務的形式(16.55%)搭建智能運維平臺/工具。數(shù)據(jù)來源:中國信息通信研究院圖 13 企業(yè)智能運維能力建設組建團隊/部門情況智能運維解決方案提供商新炬網(wǎng)絡 ZnAiops 智能運維管理平臺騰訊藍鯨智云BMC Helix 數(shù)字化服務智能運營平臺阿里云 AIOps 智能監(jiān)控解決方案亞信全域智能運維平臺 AISWare AIOps華為云 AOM浪潮云云澤智能運營平臺西駿數(shù)據(jù) MC-Sta

16、ck 統(tǒng)一運營管理平臺擎創(chuàng)夏洛克 AIOps 智慧運營平臺必示智能運維平臺博睿數(shù)據(jù)智能運維算法能力平臺 Swift AI建信金科孔明產(chǎn)品紫羚一體化智能移動 IT 運營管理平臺寶蘭德 Opslink AIOps 解決方案云杉網(wǎng)絡 DeepFlow 云原生可觀測性平臺百度智能運維平臺日志易智能日志中心廣通優(yōu)云智能運維管理平臺 AIOps智能運維解決方案豐富而多樣,反映了市場的創(chuàng)新活躍性和多元化發(fā)展。本次調(diào)查統(tǒng)計了目前中國市場已有的智能運維解決方案提供商(數(shù)據(jù)僅根據(jù)問卷調(diào)查結果統(tǒng)計,不涉及市場份額情況,僅供參考):華青融天鷹眼 EZSonar 業(yè)務監(jiān)控系統(tǒng)浩鯨 WhaleDI IntelliOps

17、智能運維平臺IBM Watson AIOps 解決方案聽云北冥LinkedAIOps 根因分析愛數(shù) AnyRobot Family 3 基于機器數(shù)據(jù)的場景化運維平臺鼎茂科技 AIOps 智能運維平臺 ARCANA PaaS思特奇圖南智維平臺創(chuàng)新奇智 AIOps 智能運維平臺中國電信翼維智能平臺7x OPS翼維智能平臺星眼一體化運維平臺綠盟智能安全運營平臺 ISOP睿象云戴爾科技集團 CloudIQ (AIOps)星漢未來云原生基礎治理平臺 SchedulX云新信息 iBSM,DCOS金蝶天燕 AIOps 智能運維平臺能力(9.79%)。智能運維,數(shù)據(jù)先行,數(shù)據(jù)是智能運維的“原料”,是搭建智能運

18、維能力的基礎。多數(shù)企業(yè)仍處于智能運維場景的探索和實踐階段:開始關注和梳理運維數(shù)據(jù),建設數(shù)據(jù)規(guī)范化能力,為下一階段運維數(shù)據(jù)的智能化分析做準備。目前企業(yè)智能化運維重點還在于數(shù)據(jù)的采集和規(guī)范方面。根據(jù)調(diào)查顯示,37.84%的受訪者認為開展智能運維最優(yōu)先的能力是對數(shù)據(jù)采集分析,其次是對數(shù)據(jù)的規(guī)范化能力(22.54%)和工具平臺的支持(21.09%),在此基礎上完善算法數(shù)據(jù)來源:中國信息通信研究院圖 14 智能運維的前置條件將現(xiàn)有監(jiān)控平臺、大數(shù)據(jù)平臺等多種數(shù)據(jù)源接入智能運維工具/平臺,進行多場景數(shù)據(jù)融合是當前比較常用的智能運維實踐方式。目前近一半(46.21%)的受訪者所在企業(yè)采用數(shù)據(jù)接入方式,同時也有

19、一定比例(37.85%)的智能運維工具/平臺具備數(shù)據(jù)采集能力。數(shù)據(jù)來源:中國信息通信研究院圖 15 智能運維工具/平臺數(shù)據(jù)獲取方式當前企業(yè)的智能運維系統(tǒng)/工具更多集中于對系統(tǒng)(服務器、操作系統(tǒng))監(jiān)控數(shù)據(jù)和業(yè)務/應用監(jiān)控數(shù)據(jù)的處理和分析。根據(jù)本次調(diào)查顯示,目前 57.39%的企業(yè)智能運維系統(tǒng)/工具處理分析的數(shù)據(jù)中包括應用指標、日志等數(shù)據(jù),53.35%涵蓋系統(tǒng)監(jiān)控數(shù)據(jù),其次占比 42.50%的是網(wǎng)絡監(jiān)控運維中關注的流量類型數(shù)據(jù),最后是動力環(huán)境監(jiān)測數(shù)據(jù),占比 20.14%。數(shù)據(jù)來源:中國信息通信研究院圖 16 智能運維工具/平臺分析的數(shù)據(jù)種類多數(shù)企業(yè)采用第三方提供的智能計算引擎為 AIOps 系統(tǒng)提

20、供算法能力支持。根據(jù)本次調(diào)查結果統(tǒng)計,目前 78.57%的受訪者所在企業(yè)均已搭建了計算能力引擎,主要以自研(37.63%)和采用第三方提供(40.91%)兩種方式為主,在使用第三方提供的計算引擎的基礎上,20.96%的受訪者所在企業(yè)根據(jù)業(yè)務需求進行了定制化開發(fā),更好的適配業(yè)務場景需求。數(shù)據(jù)來源:中國信息通信研究院圖 17 企業(yè)智能運維計算能力引擎大部分企業(yè)已經(jīng)在數(shù)據(jù)分析和算法模型分析方面已經(jīng)逐步開始場景探索。智能運維中的計算分析能力,包含了常用的數(shù)據(jù)分析方法和算法模型分析,從目前的應用情況來看,企業(yè)實踐普遍集中于在部分典型場景進行試點及應用。并且已有 15.61%和 11.07%的受訪者所在企

21、業(yè)將數(shù)據(jù)分析方法和算法模型應用于大部分業(yè)務場景。數(shù)據(jù)來源:中國信息通信研究院圖 18 企業(yè)當前運維工作中數(shù)據(jù)分析與算法模型應用情況圍繞智能運維,大量的算法模型被嘗試和應用。在本次調(diào)查中,我們統(tǒng)計了目前智能運維領域中使用較為廣泛的數(shù)據(jù)分析和模型分析方法。運維工作中常用的數(shù)據(jù)分析方法,包括密度聚類 DBSCAN、相關系數(shù) Pearson、正態(tài)分布 N-sigma、統(tǒng)計學分類 Bayes 等方法。數(shù)據(jù)來源:中國信息通信研究院圖 19 企業(yè)目前運維工作中常用的數(shù)據(jù)分析方法運維工作中常用的算法模型分析方法,包括深度學習 LSTM、聚類分析 K-means、關聯(lián)規(guī)則挖掘 Apriori、趨勢預測 Arim

22、a、孤立森林 Isolation Forest、時間序列預測 Prophet 等算法。數(shù)據(jù)來源:中國信息通信研究院圖 20 企業(yè)目前運維工作中常用的算法模型分析方法(二)AIOps 場景應用情況根據(jù)由中國信通院牽頭制定的行業(yè)標準云計算智能化運維(AIOps)能力成熟度模型 第 1 部分:通用能力要求中的 AIOps 能力建設分級要求,可以將智能化運維整體能力從感知、分析、決策、執(zhí)行、知識更新五個維度進行級別劃分,系統(tǒng)的參與程度隨智能化程度逐級遞增,并結合智能運維應用場景特點,形成 AIOps 能力成熟度模型。圖 21 AIOps 能力成熟度級別劃分從目前的發(fā)展情況來看,現(xiàn)階段 AIOps 能力

23、大多集中在 L2 級別,主要以系統(tǒng)輔助分析,幫助人工進行決策和操作為主,較為領先的能力實踐可以達到 L3 級別,而 L4 和 L5 級別隨著 AIOps 的技術發(fā)展和能力的逐步增強,將是未來智能運維能力建設的發(fā)展方向和目標。AIOps 仍處于初期發(fā)展階段,受訪者對目前 AIOps 能力水平的評價與期望超過其所在企業(yè)實際應用的情況。從整體來看,參與本次調(diào)查半數(shù)以上的受訪者自評企業(yè)目前智能運維處于輔助智能化(30.27%)和進階智能化階段(28.61%)。此外,21.47%的受訪者自評處于初始智能化運維階段,13.72%的受訪者自評已達到全面智能化運維階段,5.92%的受訪者自評達到了高度智能化運

24、維階段。數(shù)據(jù)來源:中國信息通信研究院圖 22 企業(yè) AIOps 發(fā)展階段不同 AIOps 能力成熟度階段的企業(yè)關注領域各不相同,達到全面智能化運維階段的企業(yè)更加關注在效率和安全領域的智能化運維能力建設。根據(jù)本次調(diào)查結果顯示,自評為初始智能化運維階段的受訪者更多的是從質(zhì)量領域開始進行場景探索(50%),質(zhì)量領域的關注度遠超其他部分。自評為輔助智能化運維階段的受訪者持續(xù)增加了質(zhì)量領域(61.97%)的關注度,并且開始探索成本(52.47%)和效率領域(46.62%)的實踐。而自評為全面智能化運維的受訪者在質(zhì)量、成本領域的關注度比較均衡(49,60%,45.16%),并且關注度逐漸向效率領域(55.

25、65%)傾斜,以及增加了對安全領域(40.32%)的關注和投入。最后自評為高度智能化運維階段的受訪者認為在質(zhì)量、成本、效率、安全四個領域的關注度接近一致,也說明未來要達到高度智能化運維階段需要逐步完善各個領域及場景的智能化運維能力。數(shù)據(jù)來源:中國信息通信研究院圖 23 各階段智能運維場景關注情況智能運維在質(zhì)量、成本、效率、安全四大運維領域均已開展部署和應用,其中質(zhì)量領域最受關注,調(diào)查顯示,54.79%的受訪者所在企業(yè)當前智能運維著重關注質(zhì)量領域(包括異常檢測、告警收斂、根因分析、故障處置等)能力建設,其次是效率領域(45.77%)、成本領域(45.49%)和安全領域(30.82%)。數(shù)據(jù)來源:

26、中國信息通信研究院圖 24 企業(yè)當前智能運維重點關注領域質(zhì)量領域最先考慮的智能運維場景是異常檢測(62.26%)和告警收斂(57.55%),其次是故障預測能力(46.76%)、故障自愈(43.72%)、根因分析(42.67%),最后是故障預防(33.04%)。數(shù)據(jù)來源:中國信息通信研究院圖 25 智能運維能力-質(zhì)量領域應用情況成本領域的場景建設較為均衡,資源優(yōu)化(44.49%),成本評估(40.40%),容量預測(40.40%),但有 20.59%的受訪者所在企業(yè)表示還未開展成本部分內(nèi)容,也是這四大場景中占比較高的。數(shù)據(jù)來源:中國信息通信研究院圖 26 智能運維能力-成本領域應用情況效率領域最

27、先考慮的智能運維場景是效率評估(37.52%)、知識構建(36.58%)、智能變更(34.42%),智能問答(30.99%),輿情分析(16.60%)。數(shù)據(jù)來源:中國信息通信研究院圖 27 智能運維能力-效率領域應用情況安全領域最先考慮的智能運維場景是風險可視化(40.12%)、威脅感知(32.82%)、安全知識圖譜(31.10%),其次是脆弱性感知(24.02%)、SOAR(20.09%)、UEBA(16.05%)。數(shù)據(jù)來源:中國信息通信研究院圖 28 智能運維能力-安全領域應用情況隨著智能運維能力的持續(xù)完善以及應用場景的不斷深入,將明顯感知到智能運維帶來的 效率提升。相較未引入智能運維能力

28、,在使用工具鏈、智能運維工具/平臺處理一次典型的故 障(如核心系統(tǒng)的一次故障發(fā)現(xiàn)到完全修復),整體故障處理時間大概有多大提升。從數(shù)據(jù)來看, 53.96%的受訪者還是可以感知到智能運維帶來的效率提升,其中 25.4%的受訪者表示有一 定效果提升(15-25%),16.77%的受訪者表示提升效果明顯(30-50%),還有 11.79%的受訪 者感受到效果十分顯著。數(shù)據(jù)來源:中國信息通信研究院圖 29 故障恢復時長與效率提升的感知情況統(tǒng)計 通過使用智能運維算法,可快速提升運維智能化、自動化水平,大幅降低故障平均檢測時 間,加速平均修復時長。通過調(diào)查發(fā)現(xiàn),目前已經(jīng)有 11.95%的受訪者所在企業(yè)核心系

29、統(tǒng)故障服務恢復時長可以達到 10 分鐘內(nèi)的水平,并且還有 11.23%已經(jīng)達到 15 分鐘內(nèi)進行恢復。大部分受訪者所在企業(yè)處于 15-30 分鐘的恢復時間(18.76%)和 30-60 分鐘進行故障服務恢復(17.54%),僅有 7.86%的受訪者所在企業(yè)恢復時間超過 4 小時。(三)AIOps 發(fā)展趨勢與挑戰(zhàn)智能運維發(fā)展道路欣欣向榮,通過調(diào)查我們發(fā)現(xiàn),絕大多數(shù)的領導層已經(jīng)對智能運維能力建設加以重視并付諸行動,但在智能運維的建設過程中仍有諸多困難與挑戰(zhàn),主要是在不同運維場景中的實踐探索中產(chǎn)生的。比如“能力定制化,難以跨業(yè)務應用或泛化成本高”(35.81%),“場景有限,大量運維場景沒有成熟的方

30、案”(33.98%),“新場景建設周期長”(30.71%)。技術應用方面,如“數(shù)據(jù)集成與標準化成本過高”(27.95%),“模型效果難以維持,持續(xù)優(yōu)化成本高”(23.46%)。企業(yè)內(nèi)部環(huán)境和組織架構方面,如“環(huán)境復雜,難以支持智能運維建設”(19.76%),“受限于 AI 團隊規(guī)?!保?8.43%)。此外還包括了智能運維的運用和價值體現(xiàn),“運用困難,不了解如何使用智能運維的分析結果指導運維決策與管理”(17.49%),“智能運維的建設價值難度量和體現(xiàn)”(16.93%)。數(shù)據(jù)來源:中國信息通信研究院圖 30 智能運維建設過程中遇到的困難需求驅(qū)動能力升級,除普遍關注的質(zhì)量場景,運維下的安全場景成為

31、更多企業(yè)未來關注和提升的方向。根據(jù)本次調(diào)查結果,我們將運維系統(tǒng)中需要進一步完善和提升的能力按照場景進行劃分,質(zhì)量場景仍然是主要提升方向,其中包括提升故障的根因定位效率(36.75%),提升故障修復速度(32.82%),完善故障預測能力(31.82%)以及建立故障處理流程規(guī)范(23.52%)。成本場景中,包括需要進一步優(yōu)化資源配置與成本優(yōu)化(33.31%),建立系統(tǒng)健康度評估(29.88%),完善對變更過程的檢測(19.98%)。效率場景中,涵蓋運維知識庫的構建與相關解決方案的關聯(lián)(32.15%,23.63%),并同時將輿情信息納入運維場景分析(26.34%)。安全場景得到更多的關注,其中需要加

32、強對安全事件的快速響應以及相應的防范措施的建設(40.79%)。數(shù)據(jù)來源:中國信息通信研究院圖 31 目前企業(yè)使用的運維系統(tǒng)改進方向企業(yè)不斷優(yōu)化現(xiàn)有場景能力,提升穩(wěn)定性、易用性,持續(xù)探索智能運維新場景并加強人員與技術方面投入是未來發(fā)展趨勢。47.76%的企業(yè)將在目前已有的智能運維場景中繼續(xù)優(yōu)化改進,提升效果。44.71%的企業(yè)將在易用性、可用性、穩(wěn)定性等方面持續(xù)改進。40.73%的企業(yè)將在更多新場景的應用中建設智能運維能力。32.1%的企業(yè)將研究與探索新技術/場景以滿足未來業(yè)務的增長需求。27.67%的企業(yè)將加強人員方面投入,對技術人員進行 AIOps 相關培 訓。數(shù)據(jù)來源:中國信息通信研究院

33、圖 32 未來企業(yè)智能運維建設方向三、AIOps 實踐案例(一)運營商篇隨著國內(nèi)企業(yè)數(shù)智化轉(zhuǎn)型的深入推進,電信行業(yè)運維從傳統(tǒng)的基礎設備運維逐漸轉(zhuǎn)為軟硬件結合的綜合管理,運營和運維工作面臨著越來越大的壓力。運維人員數(shù)量無法隨著設備數(shù)量線性增加,每萬臺服務器運維人員的數(shù)量持續(xù)下降,亟需引入智能化運維手段,解決人力不足的矛盾。同時,也需要借助智能化工具提高資源的可用性,提升用戶使用體驗。案例 1 智能運營平臺應用聯(lián)通數(shù)字科技智能運營平臺是聯(lián)通數(shù)字科技有限公司自行研發(fā)的一款基于動態(tài)基線算法進行設備監(jiān)控的產(chǎn)品,在業(yè)界得到了廣泛的應用。該平臺采用人工智能技術,根據(jù)基線動態(tài)配置浮動閾值,參照實際業(yè)務場景配置

34、安全范圍,對不同設備的時序數(shù)據(jù)進行強針對性監(jiān)控。國家開放大學的實驗學院信息化改造項目選用了聯(lián)通數(shù)字科技有限公司開發(fā)的智能運營平臺,對國家開放大學三個校區(qū)(五棵松、魏公村、東直門)200+臺 IT 設備及動環(huán)設備進行集中監(jiān)控管理。智能運營平臺在三地的部署圖該項目實現(xiàn)了故障診斷、問題定位、分析結果自動化,結合運維知識庫,確定處置方案;實現(xiàn)了自動完成故障感知、決策、執(zhí)行的全過程,實現(xiàn)自動擴容、流量調(diào)度等操作;實現(xiàn)了對性能數(shù)據(jù)進行特征提取、分類,利用機器學習算法進行集成學習,動態(tài)分析設備運行參數(shù)的變化趨勢,針對重要特性數(shù)據(jù)進行預測算法學習,預測網(wǎng)絡流量、性能趨勢、磁盤容量以及故障發(fā)生的可能性,規(guī)避潛在

35、系統(tǒng)風險;實現(xiàn)了對人工無法覆蓋范圍的延展,對客戶動環(huán)指標進行全方位移動式環(huán)境監(jiān)測、周期巡檢;實現(xiàn)了定期檢測資源的能耗指標,計算資源能耗,自動生成能耗報告,運用機器學習算法對未來資源能耗進行預測。通過預設能耗管理模型,結合業(yè)務負載情況,動態(tài)調(diào)整 IT 設備的上下線、關機、啟動,達到綠色節(jié)能的目標。智能運營平臺幫助客戶解決了監(jiān)控手段匱乏、故障發(fā)現(xiàn)滯后、動環(huán)監(jiān)控死角、能耗管理落后、運維重要趨勢無法預測等問題。隨著系統(tǒng)架構逐步虛擬化、容器化、微服務化,IT 云資源池規(guī)模及技術棧類型也在逐步增加,指標數(shù)據(jù)日益增大;網(wǎng)元間的業(yè)務差異性要求網(wǎng)元評分標準“千人千面”,同參數(shù)模型精確度差;獨立參數(shù)配置雖然能部分

36、解決問題,但需要極高的維護成本;為了解決數(shù)字化轉(zhuǎn)型出現(xiàn)的問題,結合 AI 算法、大數(shù)據(jù)技術、自動化操作能力等打造了晴雨表產(chǎn)品。晴雨表系統(tǒng)采用可視化展現(xiàn)層、應用分析層、數(shù)據(jù)采集層三層架構。評分結果通過頁面實時展示,同時結果回寫至 Kafka 后再存入 ES 集群進行長久保案例 2 基于指標異常檢測在云平臺網(wǎng)元健康度判斷的應用浙江移動存,整個過程無需等待指標采集上報。 系統(tǒng)架構部署方案 通過大數(shù)據(jù)運維,AI 算分,自動化操作發(fā)現(xiàn)低分故障網(wǎng)元,推送故障 詳情信息到 kafka,自愈系統(tǒng)消費到 Kafka 數(shù)據(jù)后匹配到對應的自愈腳本 執(zhí)行自愈,實現(xiàn)自動化故障恢復,減少人工干預。晴雨表以交付類產(chǎn)品進行輸

37、出,支持一站式解決方案部署。目前已在浙江移動、新疆移動、集團大數(shù)據(jù) BG、浙江創(chuàng)新研究院等多個環(huán)境投入生產(chǎn)使用。接入流程圖新疆移動于 21 年 4 月在本地部署了晴雨表,對接現(xiàn)場數(shù)據(jù)采集能力,通過內(nèi)置模型及個性化模型編排耗時一周成功上線,解決了系統(tǒng)實時監(jiān)控盲區(qū),故障感知率提升 90%。集團大數(shù)據(jù) BG 于 21 年 12 月在一級 IT 云哈爾濱資源池部署了晴雨表,用于行程碼系統(tǒng)日常監(jiān)控保障,截止目前使用良好。晴雨表目前打分覆蓋 33000 余個網(wǎng)元,基本涵蓋云平臺所有組件,日均評分網(wǎng)元約 10w 個,平均每年規(guī)避 G4 及以上故障 50 起,平均先于用戶 5 分鐘感知發(fā)現(xiàn)故障,有效縮減了用戶

38、斷服時長,提升了用戶感知。晴雨表中基于OCDT 算法的智能異常檢測模型,目前已在參與評分的千余條指標中進行運用,提高了晴雨表 16%的查準率,大大減少誤報情況。案例 3 業(yè)務端到端故障智能發(fā)現(xiàn)診斷自愈中移動信息云原生技術的引入使得 IT 系統(tǒng)規(guī)模龐大、架構復雜,IT 運維迎接新的挑戰(zhàn), IT 業(yè)務系統(tǒng)集群規(guī)模越發(fā)龐大,傳統(tǒng)的告警不能及時有效的發(fā)現(xiàn)系統(tǒng)異常,海量日志無法有效分析,業(yè)務調(diào)用鏈復雜,可觀測性差,導致故障定界定位極其困難。本案例圍繞業(yè)務系統(tǒng)的 metrics、log 、trace 數(shù)據(jù)進行橫向業(yè)務分析,縱向 SaaS/PaaS/IaaS 分析,實現(xiàn)智能運維故障發(fā)現(xiàn)、診斷、自愈三個階段的

39、端到端分析操作。方案框架圖故障發(fā)現(xiàn)階段采用無監(jiān)督 metrics、log 異常檢測,通過多維數(shù)據(jù)分析實現(xiàn)故障發(fā)現(xiàn)。無監(jiān)督日志異常檢測算法,可自動學習日志的模式,如新的類型、新的日志比例、新的異常參數(shù)等。算法首先基于預訓練的 AI 模型和專家詞典對日志分詞,然后基于詞序和詞頻等相似度特征,將日志聚類成多種模板進行異常檢測。故障診斷階段使用 trace 日志還原業(yè)務鏈拓撲、節(jié)點信息。通過業(yè)務鏈異常挖掘算法進行橫向根因分析,確定引起了整個業(yè)務鏈故障的節(jié)點排名。通過日志異常檢測算法智能發(fā)現(xiàn)相關節(jié)點的異常日志,以及結合跨層告警,結合知識庫關聯(lián)分析,在主機進程、中間件、網(wǎng)絡拓撲中縱向定位根因。故障自愈階段

40、使用自動化編排,實現(xiàn)自愈策略配置,人工確認故障準確后,系統(tǒng)自動完成自愈。操作完成后,系統(tǒng)自動跟蹤自愈后的指標、告警,完成故障處理的閉環(huán)。價值與效益:故障發(fā)現(xiàn)時間平均提前 20 分鐘?;?AI 算法定位,排除大量的無效告警,月均告警量下降 20%。故障定位耗時從 30 分鐘縮短到 10 分鐘。西藏 CRM 系統(tǒng)運維自采用本系統(tǒng)的 7 個月來,累計節(jié)約 260 人/天,獲得約 55 萬收益。案例 4 異構系統(tǒng)智能故障診斷平臺的應用廣東移動近年來廣東移動業(yè)務支撐系統(tǒng)加快向云化、容器化、微服務化的架構轉(zhuǎn)變,帶來系統(tǒng)架構復雜、故障點激增的問題,對故障處理的人員技術水平要求隨之提高。為解決痛點問題,融合

41、業(yè)界規(guī)范,發(fā)展成為廣東移動特色的“異構系統(tǒng)智能故障診斷平臺”。2020 年 10 月份開始生產(chǎn)應用,已持續(xù)穩(wěn)定運營一年以上?;緦崿F(xiàn)流程,通過日志、告警、KPI、性能指標、調(diào)用鏈、資產(chǎn)多種維度數(shù)據(jù)進行精準的故障診斷。其中有三個創(chuàng)新點:全息模型:綜合多維度數(shù)據(jù)異常檢測綜合評估,精確度高。而一般通用 方案是對單個指標異常檢測,并不能代表系統(tǒng)真的有異常,不夠精準。應用的 算法包括 3sigma、柯西、基于 fft 的 SR、arima、FP-growth、xgboost、tf- idf、有向圖隨機游走 pagerank 算法和 pcmci 根因定位算法(針對容器環(huán)境)。無差別診斷:自動適應 Kube

42、rnetes 容器化/微服務云化環(huán)境與傳統(tǒng)物 理機、虛擬機的環(huán)境。針對云化環(huán)境與傳統(tǒng)環(huán)境有不同相關性分析,傳統(tǒng)環(huán)境 因為拓撲穩(wěn)定,采用 FP-GROWTH 相關性分析,而針對云化環(huán)境,采用有向 圖隨機游走的分析方式,能夠明確告警指標等原始數(shù)據(jù)的相關性。故障知識圖譜:在異常感知和故障識別階段能夠根據(jù)自建的知識圖譜對 故障診斷的結果做修正,保證診斷結果的正確性。 故障診斷流程圖投入使用以來,該平臺為我司帶來實際的應用效益,可使故障診斷智能化、故障定位迅捷化、運行質(zhì)量高質(zhì)化,降本增效。前后變化 運維效率 人力投入 處理時間 傳統(tǒng)運維 人工排查處理 5 名高級運維工程師 平均每個故障 30 分鐘 本能

43、力 AI運維 AI 智能處理,90%的系統(tǒng)故障可依賴本能力準確診斷 1 名初級運維工程師(成本降低 80%) 平均每個故障 2 分鐘(效率提升 93%) 案例 5 AI 驅(qū)動決策,雙換助推轉(zhuǎn)型,“七步法”構建智慧投訴服務運營新模式遼寧移動隨著 IT 技術的迅猛發(fā)展,投訴運維體系的不斷演進,投訴運維逐漸從人工運維轉(zhuǎn)變?yōu)橹悄苓\維,如何進一步推進智能化運維,體現(xiàn)智能投訴價值,是智慧運維平臺面臨的新挑戰(zhàn)。傳統(tǒng)方式下,投訴投入再多人力,也難以滿足用戶對問題快速解決的訴求,對業(yè)務拓展及客戶滿意度已經(jīng)形成風險,人工運維方式急需改變。在此背景下,遼寧移動通過小步快走,植入 AI 智慧、自動化敏捷能力,通 AI

44、 技術對海量的投訴工單進行分析,多種模式組合運用,鑄造核心價值,提升投訴處理效率,提升服務支撐質(zhì)量,降低投訴量。智慧投訴平臺整體技術架構分為門戶和服務層:投訴門戶層包括營業(yè)廳用戶、地市支撐用戶、省支撐用戶各自相應的定制門戶,可以將定制化的服務能力集成在門戶中;投訴服務分為兩部分,分別是針對投訴的應用和場景服務,和應用或場景服務所需的基礎能力服務(黑色部分)。 智慧投訴平臺整體技術架構圖 相關組件功能如下:投訴門戶:實現(xiàn)各個角色或渠道門戶頁面展示。投訴預處理:實現(xiàn)營業(yè)員反饋問題智能交互,預處理工單相似/同源推薦;業(yè)務一致性平臺(投訴前移處理):實現(xiàn)投訴前移 web 及后臺維護功能,支持業(yè)務指標一

45、鍵核查,預案執(zhí)行;投訴工作流:實現(xiàn)投訴流程扭轉(zhuǎn),投訴工單相似/同源工單推薦,投訴敏捷處理能力;投訴敏捷處理平臺:實現(xiàn)投訴處理預案編排、跟蹤、執(zhí)行、記錄功能;智能投訴平臺:通過 AI 智能模型,提供公告關聯(lián)推薦、FAQ 關聯(lián)推薦、投訴關鍵分析分解;投訴知識庫:實現(xiàn)熱點 FAQ 導航關聯(lián)、FAQ 知識搜索、FAQ 導入/編輯/刪除、FAQ 點擊量統(tǒng)計等能力;投訴基礎應用:實現(xiàn)公告、調(diào)查問卷、優(yōu)化建議、常用口徑的管理能力;價值收益:自 2021 年智能投訴機器人、智能知識推送能力上線以來,全省各地市累計調(diào)用 190 余萬次,平均每月 12 萬余次,且使用量每月程上升趨勢。借助智能化手段,業(yè)務支撐類投

46、訴月均工單量同比去年下降 36.8%,投訴處理時長縮短 30%以上,投訴處理滿意度正向改善 6.68%。(二)銀行證券篇案例 6 工行 AIOps 智能運維體系建設實踐中國工商銀行軟件開發(fā)中心在互聯(lián)網(wǎng)金融時代,業(yè)務數(shù)量呈爆發(fā)性增加,業(yè)務模式更新迭代頻繁,依賴人工經(jīng)驗的運維模式越來越無法保障 7x24 小時生產(chǎn)環(huán)境的穩(wěn)定可靠,為解決云平臺運維中的“痛點”,中國工商銀行基于已有的運維數(shù)據(jù),通過機器學習等手段提升運維的自動化、智能化程度,布局 AIOps 智能運維建設,逐步打造銀行業(yè)智慧運維。在平臺建設方面覆蓋了智能運維體系的全方位領域,主要由門戶、數(shù)據(jù)源、技術支撐和運維數(shù)據(jù)分析平臺四部分組成:門戶

47、提供各類智能運維場景的配置和調(diào)優(yōu)服務并提供可視化展現(xiàn);數(shù)據(jù)源實現(xiàn)監(jiān)控、日志采集存儲,通過緩沖層滿足數(shù)據(jù)多渠道消費分析的需要;運維數(shù)據(jù)分析中心完成平臺技術支撐服務的封裝,為智能運維各類應用場景提供數(shù)據(jù)清洗、在線標注、模型訓練和模型計算等全套服務;平臺技術支撐層實現(xiàn)運維資源供應及大數(shù)據(jù)和機器學習的平臺化能力,根據(jù)模型計算的需要提供匹配的流式計算能力,并持續(xù)豐富模型算法庫??萍冀鹑谌找娣睒s,其支撐金融業(yè)務的技術架構和上層應用更是日新月異,日趨復雜,以銀行、證券業(yè)為例,信息系統(tǒng)訪問量和數(shù)據(jù)存儲量呈現(xiàn)爆炸式增長,相關軟硬件資源數(shù)量也急劇攀升,金融 IT 運維部門面臨巨大的壓力和挑戰(zhàn)。智能運維通過大數(shù)據(jù)和

48、人工智能算法模型對產(chǎn)生的各類運維數(shù)據(jù)進行采集、處理與分析,迅速發(fā)現(xiàn)問題根源并對未來可能出現(xiàn)的問題進行預測預防,提升IT 運維質(zhì)量和效率,已成為迎接挑戰(zhàn)不可或缺的科技力量和解決方案。異常檢測故障診斷故障預測故障自愈成本優(yōu)化資源優(yōu)化容量規(guī)劃負載畫像智能變更智能決策自動驗證配置管理算法選擇參數(shù)訓練離線標注回溯實驗離線評估數(shù)據(jù)存儲時序數(shù)據(jù)庫緩存數(shù)據(jù)庫OLAP數(shù)據(jù)庫關系數(shù)據(jù)庫搜索引擎持久化存儲AIOps門戶運維可視化儀表盤PC大屏移動端自定義報表平臺監(jiān)控中心系統(tǒng)監(jiān)控故障管理成本管理變更管理服務咨詢應用監(jiān)控智能問答中間件監(jiān)控運維知識庫日志中心應用日志運維數(shù)據(jù)分析中心操作系統(tǒng)日志在線學習離線學習中間件日志在

49、線檢測 在線標注 在線評估在線報警分布式監(jiān)控數(shù)據(jù)模型庫服務監(jiān)控基礎指標模型業(yè)務數(shù)據(jù)模型 調(diào)用拓撲模型IT數(shù)據(jù)池平臺技術支撐網(wǎng)絡(含硬件)大數(shù)據(jù)平臺機器學習平臺存儲(含硬件)基礎設施云應用平臺云計算(含硬件)智能運維平臺架構圖在應用場景設置方面,將場景劃分為故障管理、成本管理、變更管理和服務咨詢四個大類。故障管理大類被作為主要切入點,通過人工智能算法實現(xiàn)報警閾值的自適應調(diào)整,完成報警指標的壓縮和關聯(lián)性分析,提高報警準確性,實現(xiàn)智能異常檢測;根據(jù)監(jiān)控指標的變化情況,預測其未來增長趨勢,提早發(fā)現(xiàn)潛在風險,實現(xiàn)智能故障預測;通過監(jiān)控指標多維度下鉆和聚合分析鎖定故障范圍,進一步通過運維數(shù)據(jù)比對推薦故障原

50、因,實現(xiàn)智能故障診斷;探索應急重啟、容災切換等故障修復手段的智能化判定與執(zhí)行,實現(xiàn)部分場景的故障自愈。目前,工商銀行已完成交易安全管控、交易異常定位、日志模式診斷等多個場景的落地實踐與探索。案例 7 工行數(shù)據(jù)中心智能運維技術應用實踐中國工商銀行數(shù)據(jù)中心工商銀行正處于向數(shù)字化轉(zhuǎn)型發(fā)展的關鍵時期,隨著業(yè)務快速發(fā)展及 IT架構向分布式轉(zhuǎn)型,數(shù)據(jù)中心規(guī)模大、信息系統(tǒng)技術棧復雜,對傳統(tǒng)運維模式提出了嚴峻的挑戰(zhàn),迫切需要運維模式向智能化轉(zhuǎn)型,通過數(shù)據(jù)來驅(qū)動運維決策,提升穩(wěn)定性保障能力。工商銀行數(shù)據(jù)中心重點圍繞信息系統(tǒng)運維可視化和快速排障能力提升開展智能運維(AIOps)技術的應用創(chuàng)新,構建了以動態(tài)運維地圖

51、、日志及指標分析引擎為基礎的多模態(tài)智能運維框架,融合了知識圖譜、自然語言處理(NLP)、異常檢測、關聯(lián)分析等機器學習算法,面向運維應用提供分布式架構下拓撲自發(fā)現(xiàn)、日志模式自動化解析、指標無閾值監(jiān)控等服務,并在多個運維場景中取得了良好成效,提升了異常感知能力,輔助實現(xiàn)快速故障定位。動態(tài)運維地圖實現(xiàn)架構與圖譜示意工商銀行數(shù)據(jù)中心已構建起基于動態(tài)運維地圖、日志及指標分析引擎的智能運維框架,初步具備了 AIOPS 的服務化能力,面向運維應用輸出實時運維大數(shù)據(jù)分析能力,提供動態(tài)地圖查詢導航、單指標動態(tài)基線檢測、指標趨勢預測、多指標關聯(lián)分析、日志模式識別及異常檢測等智能分析服務?;谠撈脚_的服務,開展了數(shù)

52、據(jù)庫健康監(jiān)測、分布式存儲監(jiān)控、業(yè)務級故障定位等運維場景的研發(fā)及落地,并取得了預期的創(chuàng)新成效。案例 8 AIOps 智能根因定位中國農(nóng)業(yè)銀行業(yè)務數(shù)字轉(zhuǎn)型與架構分布式轉(zhuǎn)型對商業(yè)銀行業(yè)務系統(tǒng)的運維保障工作帶來了巨大挑戰(zhàn),如何在海量的監(jiān)控指標、復雜的調(diào)用關系中快速識別和定位故障根因成為一個亟需解決的難題。主要體現(xiàn)在以下三個方面:一是數(shù)據(jù)量大,分布式架構下,告警、指標、鏈路等數(shù)據(jù)體量龐大,而根因定位又對時效性有較高要求,需要能夠保證較高的算法性能;二是定位數(shù)據(jù)源種類繁雜,除了監(jiān)控指標體現(xiàn)出的異常,關聯(lián)應用、運維活動、鏈路調(diào)用等各類數(shù)據(jù)均可能導致系統(tǒng)故障,不同類型的數(shù)據(jù)須采用不同的算法進行分析;三是定位效

53、果差,由于故障根因分析缺少大量有效的訓練集,因此完全依賴算法在前期較難達到預期效果,往往需要結合一定的專家經(jīng)驗進行輔助決策。針對故障根因定位面臨的難點問題,農(nóng)行通過構建系統(tǒng)運行健康度實時評估體系、優(yōu)化海量資源指標算法分析手段、打造 AI 算法與專家經(jīng)驗相結合的全方位根因定位平臺等方式,實現(xiàn)對系統(tǒng)運行情況的智能洞察與快速定位,有效提升了運維故障的發(fā)現(xiàn)和處置效率。故障根因定位總體流程圖此外,農(nóng)行還打造了線上化的智能根因分析工作臺,實現(xiàn)系統(tǒng)關聯(lián)信息、資源拓撲信息、運維時間線信息、性能指標信息、根因定位結果的一站式全景匯聚,提供沉浸式根因分析體驗。目前農(nóng)行智能根因定位場景已在生產(chǎn)上得到了廣泛應用,為生

54、產(chǎn)異常的 “及時發(fā)現(xiàn)、準確定位、快速處置”提供了有力支持,其中 AI 根因定位已覆蓋全部應用系統(tǒng),專家定位流程覆蓋 70 余個系統(tǒng)共積累 200 余條專家經(jīng)驗,生產(chǎn)異常的定位時間壓縮至 5 分鐘以內(nèi)。案例 9 AIOps 在銀行業(yè)運維操作風險控制領域的實踐建信金融科技有限責任公司隨著銀行業(yè)務數(shù)字化程度不斷提高,以及監(jiān)管機構對銀行信息科技風險監(jiān)管的持續(xù)加強,銀行業(yè)金融機構需不斷提高自身信息科技風險治理水平,持續(xù)加強自身信息科技風險管理能力。建信金科與中國建設銀行運營數(shù)據(jù)中心合作,共同探索 AIOps 在銀行業(yè)運維操作風險控制領域的優(yōu)良實踐。根據(jù) DAKOps 和 AIOps 理念,建信金科自主研

55、發(fā)了孔明系統(tǒng)智能運維產(chǎn)品。本案例利用其中的采集功能模塊(IT 服務管理等)、決策功能模塊(運維數(shù)據(jù)平臺等),可視化功能模塊(運維報表等)覆蓋了運維數(shù)據(jù)的全生命周期管理,并結合運維操作風險控制場景集合,形成了對運維操作風險的有效監(jiān)管??酌髦悄苓\維產(chǎn)品全景圖1. 采集、集成運維操作相關數(shù)據(jù);結合“信息科技風險監(jiān)管報表及監(jiān)管評級”等監(jiān)管指標、IT 內(nèi)控制度、過往銀行操作失誤案例等建立起的風險場景模型和知識,與采集集成的運維操作數(shù)據(jù)進行分析對比;利用 AI 算法對 IT 組件使用情況進行預測,結合運維操作相關數(shù)據(jù)進行建模分析;通過可視化平臺形成高危風險操作事前預警和風險違規(guī)操作事后報告,為后續(xù)風險處置

56、等管理活動提供依據(jù)。項目成效:效率提升:基于運維數(shù)據(jù)平臺數(shù)據(jù)收集分析功能、風險控制模型,實現(xiàn)對運維操作行為數(shù)據(jù)的加工與展示,提升風險檢查的自動化水平。信息準確:相對于人工抽檢運維風控相關數(shù)據(jù),使用該平臺后,大幅度提高發(fā)現(xiàn)風險違規(guī)操作的全面性和準確性。風險降低:本案例正在不斷豐富運維領域風險控制場景,結合內(nèi)審發(fā)現(xiàn)問題,可針對部分高危操作行為(例如在監(jiān)測資源繁忙度高水位場景下實施變更操作風險等),實施操作前預警提示,避免操作行為最終違規(guī)。管控及時:構建個人和組織風險審計視圖,對運維操作違規(guī)行為進行即時展示及預警,使其及時發(fā)現(xiàn)審計風險等問題并跟蹤整改,避免操作風險處理不及時帶來的影響。案例 10 打

57、造智能運維利器,助力運維數(shù)字化轉(zhuǎn)型浦發(fā)銀行浦發(fā)銀行運維管理經(jīng)歷多年探索實踐,從“腳本化”走向“自動化”、進而“智能化”,近年來利用大數(shù)據(jù)、人工智能技術自主研發(fā),建立多中心多活實時數(shù)據(jù)通道、算子可編排流式計算開發(fā)框架、多數(shù)據(jù)源大數(shù)據(jù)存儲、所見即所得可視化展現(xiàn)、自助可配智能算法建模、面向租戶數(shù)據(jù)科學家實驗室、自動數(shù)據(jù)質(zhì)量校驗數(shù)據(jù)治理等基礎能力,基于其上探索實踐智能運維場景。智能運維架構圖數(shù)據(jù)中心數(shù)字孿生將數(shù)據(jù)中心管轄對象數(shù)化建模,分場地環(huán)境、基礎設施、IT 軟硬件、應用系統(tǒng)、業(yè)務交易五層建模,利用大數(shù)據(jù)、流式計算,建立大中小三屏聯(lián)動可視化體系,滿足業(yè)務保障、參觀展示、故障定位等需求。利用 kafk

58、a、flink 等開源技術,對交易報文、應用日志等多種數(shù)據(jù)解析聚合,實現(xiàn)端到端鏈路延遲 5秒內(nèi)。趨勢預測根據(jù)時序數(shù)據(jù)趨勢性和季節(jié)性特征、節(jié)假日和活動大促、時間點突變,結合機器學習分段線性擬合或分段邏輯回歸,較好的適應數(shù)據(jù)中易出現(xiàn)波動變化的趨勢項,最終做出對未來的容量評估。目前應用于文件系統(tǒng)和數(shù)據(jù)庫使用率上,利用歷史三周樣本預測未來一周走勢,提前規(guī)劃清理變更或空間擴容。多指標異常檢測通過交易指標異常觸發(fā),從海量監(jiān)控實體的性能指標中,排查出異常的實體并自動分類排序。聚類不同表征的異常機器,采用搜索引擎排序技術 Learning-to-Rank 中的 pointwise 對機器指標做排序,利用邏輯回

59、歸方法,自動訓練出合適的排序模型。隨著應用微服務化、系統(tǒng)架構分布式、數(shù)據(jù)中心多地多活發(fā)展趨勢,浦發(fā)銀行在數(shù)據(jù)可視化、運行監(jiān)控、容量管理、應急處置方面創(chuàng)新實踐各類智能運維場景,收效顯著,浦發(fā)運維人將繼續(xù)秉承對運維精細化追求、對運維精進之路持續(xù)探索,向數(shù)字化、智能化方向邁進。案例 11 “數(shù)字華泰”的智能運維(AIOps)建設于 2019 年啟動全面數(shù)字化轉(zhuǎn)型,2021 年 5 月 24 日,“數(shù)字華泰”運營指揮中心正式上線?!皵?shù)字華泰”運營指揮中心定位于用科技賦能系統(tǒng)運行保障和業(yè)務運營分析,引領全面數(shù)字化建設,探索運營智能化,打造金融科技“數(shù)字指揮中樞”。選擇西駿數(shù)據(jù)的 MC-Stack 作為基

60、座,結合的實際運維工具體系和運維場景需求,打造“數(shù)字華泰”的智能運維大腦:通過低代碼方式接入現(xiàn)有各種運維工具數(shù)據(jù)。接入數(shù)據(jù)源包括統(tǒng)一監(jiān)控平臺、CMDB、日志分析系統(tǒng)、RPA 系統(tǒng)等等。接入方式包括 kafka、Restful- API 等。支持通過配置來實現(xiàn)數(shù)據(jù)的接入。構建高性能智能運維大數(shù)據(jù)平臺,實現(xiàn)實時算法服務。以 X-HDC 大數(shù)據(jù)管理引擎為核心,分別構建時序數(shù)據(jù)、日志數(shù)據(jù)、指標數(shù)據(jù)、關系數(shù)據(jù)等的標準化模型,通過分布式任務引擎實現(xiàn)實時大數(shù)據(jù)分布式處理,提供海量大數(shù)據(jù)高性能服務。在此基礎上,通過運維算法平臺提供實時算法服務。智能運維大數(shù)據(jù)平臺支持指標的異常監(jiān)測及 AI 賦能。基于動態(tài)閾值進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論