




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 AIOps運(yùn)維大腦建設(shè)實(shí)踐我們生活在一個(gè)數(shù)字化的社會(huì)中,而運(yùn)維則是這個(gè)數(shù)字社會(huì)的一個(gè)基礎(chǔ)設(shè)施級(jí)別的技術(shù)。運(yùn)維做得不好,各行各業(yè),無(wú)論是金融、電信、能源、工業(yè)制造、互聯(lián)網(wǎng)、物聯(lián)網(wǎng),都不能高效、穩(wěn)定、可靠地運(yùn)轉(zhuǎn)。既然運(yùn)維這么重要,為什么還常出現(xiàn)各種各樣的、甚至影響非常大的故障呢?本質(zhì)原因是我們現(xiàn)在遇到了一個(gè)非常大的矛盾。這個(gè)矛盾就是當(dāng)前運(yùn)維所大量依賴的人力決策已經(jīng)無(wú)法應(yīng)對(duì)當(dāng)前運(yùn)維所面臨的挑戰(zhàn)。隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)迅猛發(fā)展,用戶越來(lái)越挑剔、對(duì)應(yīng)用軟件的用戶體驗(yàn)要求越來(lái)越高。而我們知道,應(yīng)用軟件都是建立在一個(gè)龐大、復(fù)雜、跨協(xié)議層的大型分布式系統(tǒng)之上的。這個(gè)分布式系統(tǒng)的技術(shù)、軟件、配置通常會(huì)不斷快速
2、地演變;其軟硬件難以避免會(huì)發(fā)生故障、Bug、變更;用戶流量會(huì)發(fā)生不可預(yù)知的變化,甚至?xí)l(fā)生安全攻擊事件,而上述趨勢(shì)有愈演愈烈之勢(shì)。盡管各類運(yùn)維監(jiān)控工具使系統(tǒng)運(yùn)行狀態(tài)的可見度有較大提升,但是當(dāng)遇到運(yùn)維故障時(shí),面對(duì)海量監(jiān)控?cái)?shù)據(jù)和龐大負(fù)責(zé)分布式系統(tǒng),仍依賴運(yùn)維人員在高壓下人力做出迅速、準(zhǔn)確的運(yùn)維決策,這顯然是不現(xiàn)實(shí)的。也即是說(shuō)人力運(yùn)維決策已經(jīng)無(wú)法應(yīng)對(duì)當(dāng)前的運(yùn)維挑戰(zhàn)。這導(dǎo)致運(yùn)維人員的工作生活可以說(shuō)是處于水深火熱之中,“人少、事多,救火、背鍋”,7*24小時(shí)時(shí)刻準(zhǔn)備救火。有運(yùn)維人員自己做的打油詩(shī)為證:我們解決上述核心矛盾的思路,就是逐漸減少人力在運(yùn)維決策中所占的比例,逐漸增加人工智能在運(yùn)維決策中的比例,
3、最終實(shí)現(xiàn)無(wú)人運(yùn)維:這就像交通工具所經(jīng)歷的變革一樣:起初交通工具要靠人力驅(qū)動(dòng),之后能夠做到自動(dòng)驅(qū)動(dòng),但還需要大量的人力決策(每公里駕駛需要人力決策100次以上),最終我們希望能夠做到無(wú)人駕駛你坐在車上面,車自動(dòng)帶你去目的地。運(yùn)維已經(jīng)從最早的人力運(yùn)維發(fā)展到了一定程度上的自動(dòng)化運(yùn)維(但還是需要大量人力盯屏決策),最終我們希望基于人工智能的運(yùn)維工具能夠更多自主決策,只需很少人力、甚至不再需要人力參與決策。這就是我們運(yùn)維行業(yè)的長(zhǎng)遠(yuǎn)目標(biāo):基于AIOps的無(wú)人運(yùn)維。無(wú)人運(yùn)維是目標(biāo),AIOps(AI for IT Operations)是工具、是手段。目標(biāo)不可能一蹴而就,需要我們一步步腳踏實(shí)地、不斷探索去實(shí)現(xiàn)
4、。因此我們必須有一種客觀的、量化的手段能夠?qū)o(wú)人運(yùn)維(或智能運(yùn)維)水平進(jìn)行度量。下面提出的無(wú)人運(yùn)維量化評(píng)級(jí)方法,不包含主觀因素、不需要人主觀打分。按照這種方法,每個(gè)單位都可以與其它單位及自己以往進(jìn)行客觀地比較,有效衡量本單位無(wú)人運(yùn)維(或智能運(yùn)維)在行業(yè)內(nèi)的相對(duì)水平及自身進(jìn)展。一、 無(wú)人運(yùn)維評(píng)級(jí)如前所述,我們希望能夠量化、綜合評(píng)估運(yùn)維的生產(chǎn)力。因此,在設(shè)計(jì)具體指標(biāo)的時(shí)候,我們考慮了如下因素:直觀來(lái)講,為了達(dá)到同等的穩(wěn)定性、可靠性SLA,依賴人力決策越多,其無(wú)人運(yùn)維評(píng)級(jí)水平就相對(duì)低一些。希望這個(gè)評(píng)估指標(biāo)能夠與以下因素脫鉤:行業(yè)、業(yè)務(wù)類型、業(yè)務(wù)規(guī)模、架構(gòu)、技術(shù)、加班程度、外包情況等。運(yùn)維人力應(yīng)計(jì)入負(fù)
5、責(zé)運(yùn)維服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、中間件、數(shù)據(jù)庫(kù)、應(yīng)用的所有人力。運(yùn)維人力計(jì)入人力查看監(jiān)控?cái)?shù)據(jù)、排除故障、運(yùn)維規(guī)劃,盯屏幕、值班閑置的事件,但是不計(jì)入運(yùn)維人員用于開發(fā)運(yùn)維工具的時(shí)間?;谏鲜隹紤],我們提出的指標(biāo)是Cores per Op (CPO),即每個(gè)運(yùn)維人員OP(每周平均工作40小時(shí))平均管理的X86 CPU核數(shù),而評(píng)級(jí)可以對(duì)照下表直接換算。在我之前訪談的若干家機(jī)構(gòu)中,傳統(tǒng)行業(yè)的CPO大致在幾百(對(duì)應(yīng)Level 0),基于公有云中小型互聯(lián)網(wǎng)公司的CPO大致幾千(對(duì)應(yīng)Level 1),大型互聯(lián)網(wǎng)公司CPO在幾萬(wàn)(對(duì)應(yīng)Level 2)。下面我們通過(guò)舉幾個(gè)虛構(gòu)的例子來(lái)進(jìn)一步說(shuō)明如何通過(guò)CPO和無(wú)人運(yùn)維
6、評(píng)級(jí)進(jìn)行橫向和縱向的比較:例1某互聯(lián)網(wǎng)公司A有X86架構(gòu)的服務(wù)器100萬(wàn)臺(tái),其中12核的50萬(wàn)臺(tái)、24核的50萬(wàn)臺(tái);人力共有400人、每人每周工作60小時(shí),其中200人50%的時(shí)間用在人力運(yùn)維,另200人80%的時(shí)間用在人力運(yùn)維。按照上述方法核算下來(lái)是390 Op,再用總核數(shù)(1300萬(wàn))除以390OP,是3.3萬(wàn)核每OP,對(duì)應(yīng)Level 2。例2互聯(lián)網(wǎng)公司B運(yùn)維水準(zhǔn)要比A高一些:總核數(shù)同樣是1300萬(wàn),但是總?cè)肆怂阆聛?lái)只有130 Op,用相同方法計(jì)算下來(lái)是Level 3,比A高一級(jí),表示其智能化程度更高。從前兩個(gè)例子里可以看出,同一類型的不同公司之間可以通過(guò)CPO和無(wú)人運(yùn)維評(píng)級(jí)進(jìn)行量化的橫
7、向比較。例3再舉一個(gè)傳統(tǒng)行業(yè)的例子:某大型銀行C的CPU核數(shù)核算下來(lái)有18萬(wàn)核,各種運(yùn)維人力(其中包括外包運(yùn)維人力200人)核算下來(lái)有495 Op。CPO為363,相當(dāng)于Level 0。水平遠(yuǎn)低于互聯(lián)網(wǎng)公司A、B。這里面有行業(yè)原因因?yàn)殂y行對(duì)穩(wěn)定性、可靠性的優(yōu)先級(jí)更高,所以為保證穩(wěn)定性和可靠性,銀行C只好依賴大量的人力來(lái)補(bǔ)足運(yùn)維工具的不足。這里是不同行業(yè)的機(jī)構(gòu)之間的橫向比較。由于銀行C基于互聯(lián)網(wǎng)的業(yè)務(wù)增長(zhǎng)迅猛,計(jì)劃3年內(nèi)把X86的服務(wù)器從1萬(wàn)臺(tái)增長(zhǎng)到10萬(wàn)臺(tái),因此總核數(shù)預(yù)計(jì)增長(zhǎng)為126萬(wàn)核。如果保持運(yùn)維水準(zhǔn)不變(即每個(gè)運(yùn)維人力管理363個(gè)核),則需要人力增加10倍,達(dá)到3000多人;但如果人力只
8、能保持300多,這就必須提升自動(dòng)化運(yùn)維的水平,無(wú)人運(yùn)維評(píng)級(jí)相應(yīng)需要從0級(jí)升為1級(jí)。這是同一個(gè)機(jī)構(gòu)通過(guò)CPO和無(wú)人運(yùn)維評(píng)級(jí)進(jìn)行自我縱向比較和規(guī)劃的例子。小結(jié)以上幾個(gè)例子可以給大家一個(gè)比較直觀的感受:我們可以利用這種評(píng)級(jí)方法對(duì)同一行業(yè)的不同機(jī)構(gòu)、不同行業(yè)的機(jī)構(gòu)之間進(jìn)行橫向的量化比較,也可以對(duì)同一家機(jī)構(gòu)不同時(shí)期進(jìn)行縱向的量化比較。CPO和無(wú)人運(yùn)維評(píng)級(jí)可以給大家提供一個(gè)量化的依據(jù),大家可以看到自己處于什么水準(zhǔn)、同行處于什么水準(zhǔn),促進(jìn)大家更好地朝著最終無(wú)人運(yùn)維的目標(biāo)前進(jìn)。我們相信上述CPO和無(wú)人運(yùn)維評(píng)級(jí)在“基于AIOps的無(wú)人運(yùn)維”發(fā)展中將起到重要的促進(jìn)作用。二、通過(guò)AIOps實(shí)現(xiàn)無(wú)人運(yùn)維無(wú)人運(yùn)維是我們
9、的終極目標(biāo),AIOps是我們通往這個(gè)目標(biāo)的手段。AIOps有兩個(gè)相關(guān)部分:左側(cè)是監(jiān)控系統(tǒng),相當(dāng)于“眼睛”,采集各類運(yùn)維監(jiān)控?cái)?shù)據(jù)(抓包、埋點(diǎn)、撥測(cè)、日志、流程等),全面感知系統(tǒng)狀態(tài);右邊是基于確定邏輯的自動(dòng)化工具,相當(dāng)于“手”,負(fù)責(zé)一些比如重啟、回滾、流量調(diào)度、擴(kuò)縮容、跨機(jī)房遷移等操作;中間部分是“大腦”,就是AIOps,它以眼睛感知到的數(shù)據(jù)作為輸入,做出實(shí)時(shí)的運(yùn)維決策,從而驅(qū)動(dòng)“手”執(zhí)行一些自動(dòng)化的操作。此外,大腦還負(fù)責(zé)把監(jiān)測(cè)的歷史數(shù)據(jù)梳理成高水平的知識(shí)(即運(yùn)維知識(shí)圖譜),從而可以被算法模塊調(diào)用、同時(shí)也可以供人查詢。AIOps運(yùn)維大腦主要包含兩大部分:“運(yùn)維知識(shí)圖譜”和“動(dòng)態(tài)決策”。運(yùn)維知識(shí)圖
10、譜就是線下挖掘運(yùn)維歷史數(shù)據(jù)、建立各種畫像,梳理出各類高水平的知識(shí)。這些知識(shí)有兩類基本用途:可以通過(guò)查詢工具(比如人機(jī)對(duì)話機(jī)器人)被運(yùn)維人員消費(fèi);動(dòng)態(tài)決策利用實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)和已經(jīng)挖掘好的運(yùn)維知識(shí)圖譜進(jìn)行實(shí)時(shí)決策?!皠?dòng)態(tài)決策” 包括故障發(fā)現(xiàn)、故障定位、故障處置、故障規(guī)避等大場(chǎng)景。每一個(gè)大場(chǎng)景還包含若干個(gè)小場(chǎng)景,比如故障發(fā)現(xiàn)包含單指標(biāo)異常檢測(cè)、多指標(biāo)異常檢測(cè)、文本日志異常檢測(cè)、交易鏈條日常檢測(cè)等等。每一個(gè)場(chǎng)景都是運(yùn)維行業(yè)幾十年發(fā)展積累下來(lái)的難題,都需要投入大量AIOps算法人力和精力去攻克。比如我在清華的實(shí)驗(yàn)室,去年投入了10個(gè)博士生分工合作研究單指標(biāo)異常檢測(cè),才把這個(gè)難題攻克了。此外, AIOps要
11、解決的是“系統(tǒng)+算法”問(wèn)題,而不是簡(jiǎn)單的算法問(wèn)題。這是因?yàn)槲覀兊倪\(yùn)維對(duì)象是個(gè)龐大、復(fù)雜、跨協(xié)議層的系統(tǒng),它里面的大量邏輯是程序員寫的代碼和各種網(wǎng)絡(luò)協(xié)議和應(yīng)用協(xié)議。因此,AIOps運(yùn)維大腦中的每一個(gè)模塊都相當(dāng)復(fù)雜,所以我們不要期望把運(yùn)維數(shù)據(jù)灌進(jìn)一個(gè)通用AI算法就能完成該模塊的功能。解決任何一個(gè)AIOps中的模塊或場(chǎng)景,都需要有“AIOps架構(gòu)師”把復(fù)雜的場(chǎng)景和需求拆解成具體的功能模塊: “眼”、“手”、“腦”?!把邸苯鉀Q那些通過(guò)采集數(shù)據(jù)全面感知系統(tǒng)運(yùn)行狀態(tài)就能解決的問(wèn)題;“手”解決那些基于固定邏輯就能解決的問(wèn)題;“腦”又細(xì)分為兩類模塊:1)通過(guò)挖掘歷史數(shù)據(jù)總結(jié)出來(lái)各種畫像和知識(shí);2)通過(guò)動(dòng)態(tài)決策
12、算法來(lái)處理各種具體運(yùn)維場(chǎng)景?!澳X”里面的兩個(gè)模塊必須能被當(dāng)前AI技術(shù)所解決(要求數(shù)據(jù)豐富、信息完整、清楚定義、單領(lǐng)域)。運(yùn)維領(lǐng)域有很多問(wèn)題當(dāng)前AI技術(shù)沒有辦法直接整體解決,在這種情況下我們就繼續(xù)把該問(wèn)題拆解成更細(xì)的模塊,以期能夠被當(dāng)前AI技術(shù)解決。為了更好地支持上述觀點(diǎn),下圖展示了我在清華的實(shí)驗(yàn)室中在AIOps運(yùn)維大腦的各個(gè)模塊中使用過(guò)的并行之有效的通用AI算法。可以看到不同的模塊采用的通用AI算法差異非常大,有些模塊還需要若干通用AI算法的組合才能良好解決。這張圖充分說(shuō)明了AIOps的架構(gòu)挑戰(zhàn)。三、智能故障發(fā)現(xiàn)接下來(lái)會(huì)介紹一下我們實(shí)驗(yàn)室在“智能故障發(fā)現(xiàn)”方向的進(jìn)展。智能故障發(fā)現(xiàn)包括故障發(fā)現(xiàn)和
13、故障定位。首先介紹我們?cè)趩沃笜?biāo)異常檢測(cè)的最新進(jìn)展。我們實(shí)驗(yàn)室在這一領(lǐng)域的科研成果在世界范圍內(nèi)處于領(lǐng)先的地位:我們IMC2015工作是有監(jiān)督的異常檢測(cè),解決了之前樸素異常檢測(cè)算法無(wú)法普適的問(wèn)題;我們?cè)谕茝V這個(gè)技術(shù)的過(guò)程中,發(fā)現(xiàn)有監(jiān)督異常檢測(cè)算法的應(yīng)用場(chǎng)景是有限的,所以后來(lái)我們?cè)赪WW2018發(fā)明了一種無(wú)監(jiān)督的異常檢測(cè)算法;隨著在實(shí)踐中對(duì)該WWW2018算法的使用,發(fā)現(xiàn)它也存在一些不足。比如,當(dāng)存在違反周期性的異常時(shí),使用該算法效果不好,因此我們加入了時(shí)間信息解決了這個(gè)問(wèn)題;WWW2018算法在處理非高斯噪聲的指標(biāo)時(shí)也存在不足,我們就實(shí)現(xiàn)了一個(gè)基于對(duì)抗生成網(wǎng)絡(luò)的算法解決了這個(gè)問(wèn)題;此外,我們通過(guò)聚
14、類算法和遷移學(xué)習(xí),實(shí)現(xiàn)了對(duì)于百萬(wàn)級(jí)指標(biāo)進(jìn)行異常檢測(cè);對(duì)于游戲等生命周期很短的應(yīng)用通過(guò)半監(jiān)督學(xué)習(xí)快速進(jìn)行異常檢測(cè);通過(guò)參數(shù)自動(dòng)遷移,在指標(biāo)模式漂移后自動(dòng)適配異常檢測(cè)算法。最后這些算法整合成了我們非常智能的單指標(biāo)異常檢測(cè)算法。這個(gè)單指標(biāo)異常檢測(cè)的例子很好地說(shuō)明了我們實(shí)驗(yàn)室的研究思路:“從實(shí)踐中來(lái)” (從實(shí)踐中總結(jié)提煉出科研問(wèn)題,從根兒上解決問(wèn)題,而不是通過(guò)簡(jiǎn)單工程方法治標(biāo)不治本)、“到實(shí)踐中去”(不斷實(shí)踐、不斷迭代認(rèn)知、不斷完善,而不是發(fā)表一篇論文就做別的去了)。在單指標(biāo)異常檢測(cè)的基礎(chǔ)上,我們還實(shí)現(xiàn)了多指標(biāo)異常檢測(cè)、面向文本日志的異常檢測(cè)、對(duì)交易鏈條的異常檢測(cè)、異常機(jī)器定位、異常多維定位、變更故障
15、定位、交易鏈條定位等:這些AIOps最終被整合在一起,形成我們的“智能故障發(fā)現(xiàn)”系統(tǒng)。一線運(yùn)維人員無(wú)需關(guān)注背后的種種算法:當(dāng)有故障發(fā)生時(shí),系統(tǒng)直接告訴運(yùn)維人員哪里出了什么樣的故障,以及該故障的原因是什么。系統(tǒng)不是將海量的監(jiān)控都推給運(yùn)維人員讓他自己搞清楚問(wèn)題是什么,而是已經(jīng)匯總好,直接給出問(wèn)題所在。例如,下圖中5臺(tái)機(jī)器4項(xiàng)指標(biāo)出了問(wèn)題:采用人力排查的話需要看上萬(wàn)臺(tái)機(jī)器、每臺(tái)各100多個(gè)指標(biāo),而我們的系統(tǒng)則可以把這個(gè)結(jié)果快速呈現(xiàn)出來(lái):某一個(gè)具體日志時(shí)間,發(fā)生故障時(shí)第三個(gè)參數(shù)取值的分布在故障之前和故障之后有顯著變化,這樣就給運(yùn)維人員提供了非常清晰的提示和參考,指導(dǎo)人員下一步該怎么做。同時(shí)系統(tǒng)還會(huì)提示
16、本次故障和歷史上某次故障癥狀上非常相似或有某種關(guān)系,進(jìn)而建議運(yùn)維人員現(xiàn)在可采取什么樣的處置方案應(yīng)對(duì)當(dāng)前故障。以上“智能故障發(fā)現(xiàn)”AIOps算法朝著無(wú)人運(yùn)維的終極目標(biāo)邁進(jìn)了一大步。四、運(yùn)維知識(shí)圖譜這部分將會(huì)簡(jiǎn)要介紹運(yùn)維知識(shí)圖譜的構(gòu)建和使用。構(gòu)建運(yùn)維知識(shí)圖譜是指從運(yùn)維數(shù)據(jù)中自動(dòng)挖掘:各類運(yùn)維主體;運(yùn)維主體的各類特性畫像和規(guī)律;運(yùn)維主體之間的關(guān)系。運(yùn)維主體包括系統(tǒng)軟、硬件及其運(yùn)行狀態(tài):軟件是指服務(wù)、微服務(wù)、中間件、存儲(chǔ)服務(wù)、數(shù)據(jù)庫(kù)等等;硬件是指機(jī)房、機(jī)群、機(jī)架、服務(wù)器、虛擬機(jī)、容器、硬盤、路由器、交換機(jī)等等;各類監(jiān)控?cái)?shù)據(jù),包括指標(biāo)、日志事件、Trace、變更、流程等等。那么運(yùn)維知識(shí)圖譜與CMDB的區(qū)
17、別是什么呢?運(yùn)維知識(shí)圖譜包含基于人工智能的、模糊的、自動(dòng)化挖掘的知識(shí),而CMDB是確定的、手工配置的知識(shí)或基于確定邏輯自動(dòng)配置的知識(shí):運(yùn)維知識(shí)圖譜與傳統(tǒng)的運(yùn)維專家知識(shí)又有什么區(qū)別呢?知識(shí)圖譜是中心化的,而傳統(tǒng)專家的知識(shí)是分布在運(yùn)維專家頭腦中的,是去中心化的。知識(shí)圖譜是連在一起的“一幅大圖”;而專家知識(shí)是割裂的,所以,想要實(shí)時(shí)地把分布在專家頭腦中的知識(shí)以及靜態(tài)CMDB數(shù)據(jù)關(guān)聯(lián)在一起,解決實(shí)時(shí)問(wèn)題顯然是不可行的。知識(shí)圖譜可被快速查詢,專家知識(shí)需要人力關(guān)聯(lián),所以緩慢易錯(cuò)。知識(shí)圖譜可自動(dòng)更新,而專家知識(shí)需要手動(dòng)更新??梢宰詣?dòng)生成知識(shí)圖譜的變化報(bào)表,而利用專家知識(shí)要靠手動(dòng)撰寫報(bào)告。因此,建立運(yùn)維知識(shí)圖譜
18、的優(yōu)勢(shì)是非常明顯的。下面我們通過(guò)兩個(gè)例子來(lái)詳細(xì)說(shuō)明一下:首先給出了各類硬件主體之間的關(guān)系:容器1屬于容器類型1, 而容器類型1的配置細(xì)節(jié)(CPU、內(nèi)存、存儲(chǔ)類型、存儲(chǔ)空間)都是能夠由配置信息基于固定邏輯自動(dòng)構(gòu)建出來(lái)的,屬于靜態(tài)屬性。同時(shí),通過(guò)挖掘?qū)W習(xí)出一些動(dòng)態(tài)屬性(白底紅字),比如容器類型1的資源使用限制(內(nèi)存使用率最多能到多少),這些信息很難靠人力準(zhǔn)確總結(jié)或推測(cè),得靠挖掘歷史數(shù)據(jù)獲得。我們?cè)倏窜浖黧w和硬件主體之間關(guān)系,以及軟件主體之間的關(guān)系:服務(wù)1調(diào)用微服務(wù)1、微服務(wù)1部署在容器1上面。這樣,軟硬件主體在圖中就通過(guò)邊連接起來(lái)了。這種關(guān)系也是通過(guò)確定邏輯基于配置信息自動(dòng)構(gòu)建的(橙色的邊屬性)
19、。那么,容器類型1可以支持微服務(wù)1每秒鐘多少次的交易呢(容器類型1與微服務(wù)1之間的邊的紅色屬性)?這個(gè)屬性需要通過(guò)歷史數(shù)據(jù)、壓測(cè)數(shù)據(jù)構(gòu)建動(dòng)態(tài)的畫像。我們?cè)倏匆幌萝浖黧w與監(jiān)控指標(biāo)主體之間的關(guān)系,以及監(jiān)控指標(biāo)之間的關(guān)系:服務(wù)1的一個(gè)監(jiān)控指標(biāo)是總流量,而這個(gè)總流量又可以按照省份屬性細(xì)分,監(jiān)控指標(biāo)“服務(wù)1.流量”與監(jiān)控指標(biāo)“服務(wù)1.流量.北京市”是包含的關(guān)系,而“服務(wù)1.流量.北京市”與“服務(wù)1.流量.北京市.聯(lián)通”又是包含關(guān)系。當(dāng)今的監(jiān)控?cái)?shù)據(jù)中雖然可能有幾百萬(wàn)監(jiān)控指標(biāo),但是它們之間往往有類似上述“包含”關(guān)系的某種關(guān)系。而此類關(guān)系遵循固定邏輯,是可以通過(guò)配置信息自動(dòng)構(gòu)建出來(lái)的,最終可以作為邊添加在這
20、幅圖譜中。因此我們可以想象,這個(gè)圖譜就形成了一個(gè)無(wú)所不包的大型數(shù)據(jù)結(jié)構(gòu),供我們?cè)谄渖蠟楦黝愡\(yùn)維場(chǎng)景開發(fā)動(dòng)態(tài)決策算法。上圖中還展示了“服務(wù)1.流量”的動(dòng)態(tài)畫像(白底紅字):增長(zhǎng)趨勢(shì)、季節(jié)性、高峰時(shí)段、特殊日、最佳的變更時(shí)段等等。這些信息在運(yùn)維人員腦子里面或多或少有一些,但是并不能被隨時(shí)隨地準(zhǔn)確快速地查詢。我們的方法是,在專家的指導(dǎo)下,通過(guò)機(jī)器學(xué)習(xí)方法自動(dòng)把這些知識(shí)挖掘出來(lái),可以被自動(dòng)更新和隨時(shí)查詢?!拔⒎?wù)1.響應(yīng)時(shí)間” 的影響因素有n個(gè), 而它們之間的關(guān)系是通過(guò)一個(gè)函數(shù)f(x1,x2,xn)來(lái)刻畫的,而這個(gè)函數(shù)可能是通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)擬合的。這個(gè)例子清晰的說(shuō)明運(yùn)維知識(shí)圖譜與傳統(tǒng)基于確定邏輯的C
21、MDB的區(qū)別:在這個(gè)例子里,我們用有限的一頁(yè)P(yáng)PT,展示了一個(gè)很大的知識(shí)圖譜中很小的一個(gè)切面。可以想象上萬(wàn)臺(tái)機(jī)器,上百萬(wàn)指標(biāo),全都串在一起會(huì)形成如何的一幅大圖!幸運(yùn)的是,現(xiàn)在有不少相對(duì)成熟的圖計(jì)算系統(tǒng)和算法可以處理如此規(guī)模的圖。上述例子的一個(gè)應(yīng)用場(chǎng)景是:以往為了應(yīng)對(duì)每個(gè)月的大促,需要拍腦袋人工預(yù)測(cè)所需計(jì)算資源;有了運(yùn)維知識(shí)圖譜,通過(guò)查詢圖譜以及算法計(jì)算就可以給出準(zhǔn)確的預(yù)測(cè)結(jié)果。下面介紹最后一個(gè)例子,運(yùn)維知識(shí)圖譜的另一個(gè)切面故障傳播圖。有了這個(gè)故障傳播圖,就可以快速回答如下問(wèn)題:當(dāng)前服務(wù)故障的根因是什么?對(duì)當(dāng)前故障有何處置建議?當(dāng)前底層的故障對(duì)上層服務(wù)有何具體影響?故障傳播圖可以長(zhǎng)成什么樣子,又是如何構(gòu)建的呢?我們通過(guò)舉例來(lái)說(shuō)明:服務(wù)1調(diào)用了微服務(wù)1.1和微服務(wù)1.2,而微服務(wù)1.2部署在容器1.2.1上。它們有共同的KPI A。因此,KPI A報(bào)警在這三個(gè)主體之前就自然形成了故障傳播關(guān)系,而這種故障傳播關(guān)系是可以通過(guò)配置信息通過(guò)固定邏輯自動(dòng)生成的(見上圖中藍(lán)色的邊屬性)。有些故障傳播關(guān)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初級(jí)消防設(shè)施操作員復(fù)習(xí)題(附答案)
- 2025年美司那合作協(xié)議書
- 10《我們愛和平》第一課時(shí)(教學(xué)設(shè)計(jì))-2023-2024學(xué)年道德與法治六年級(jí)下冊(cè)統(tǒng)編版
- 高端裝備數(shù)字化技術(shù)可行性分析
- 2025至2030年中國(guó)瀝青路面加熱修補(bǔ)機(jī)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年湖北交通職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)新版
- 2025至2030年中國(guó)氧化鋅避雷器泄漏電流測(cè)試儀數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年湖南科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案
- 2025年甘肅工業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)一套
- 2025年海南衛(wèi)生健康職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)必考題
- 鐵路局中間站管理手冊(cè)
- 監(jiān)理日志表(標(biāo)準(zhǔn)模版)
- H3C-CAS虛擬化平臺(tái)詳細(xì)介紹
- 小學(xué)生韻母in、ing常見漢字與區(qū)分練習(xí)
- 藥房品種類別及數(shù)量清單
- 初中物理人教版八年級(jí)下冊(cè) 第1節(jié)牛頓第一定律 課件
- 網(wǎng)站培訓(xùn)內(nèi)容trswcm65表單選件用戶手冊(cè)
- 連續(xù)平壓熱壓機(jī) 三篇 俞敏等
- 打印版-圓與二次函數(shù)綜合題精練(帶答案)
- 各種閥門CAD圖
- 工程結(jié)算書標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論