從智慧運維到系統(tǒng)可觀測性_第1頁
從智慧運維到系統(tǒng)可觀測性_第2頁
從智慧運維到系統(tǒng)可觀測性_第3頁
從智慧運維到系統(tǒng)可觀測性_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

從智慧運維到系統(tǒng)可觀測性可觀測性是近期最熱的IT話題之一。本文帶你了解可觀測性的意義、可觀測性與監(jiān)控以及智慧運維關(guān)系。一、什么是可觀測性從去年下半年開始一直到現(xiàn)在,在IT運維領(lǐng)域有一個詞一直熱度不減,甚至一度超過了當初的AIOps,那就是“可觀測性”??捎^測性(Observability)本來是一個自動控制領(lǐng)域的一個術(shù)語,在控制論中,可觀測性是指系統(tǒng)可以由其外部輸出,來推斷其內(nèi)部狀態(tài)的程度,系統(tǒng)的可觀測性越強,我們對系統(tǒng)的可控制性就越強。2018年CNCF把這個概念引入了IT運維領(lǐng)域,稱其是云原生時代最重要的系統(tǒng)能力。這個觀點雖然跟CNCF的定位有關(guān),但也絕不是危言聳聽,至少可觀測性是2022年最熱的IT話題之一??捎^測性的核心是什么,其實就是度量,度量你的從基礎(chǔ)設(shè)施、平臺、應(yīng)用、數(shù)據(jù)和業(yè)務(wù),了解他們是如何運行的,系統(tǒng)狀態(tài)從黑盒專向白盒。二、為何需要可觀測性管理學(xué)大師彼得德魯克曾經(jīng)說過“你如果無法度量它,就無法管理它”("Ifyoucan'tmeasureit,youcan,tmanageit")。要想有效管理,就難以繞開度量的問題。IT也是一樣,近些年IT架構(gòu)和技術(shù)棧發(fā)生了非常大的變化,新技術(shù)的應(yīng)用以前所未有的速度吞噬著傳統(tǒng)IT勢力。隨著容器、微服務(wù)、中臺的迅速流行,使得系統(tǒng)間的訪問越來越復(fù)雜,在云內(nèi)、云間可能會運數(shù)千個進程和服務(wù),服務(wù)的調(diào)用用傳統(tǒng)的點對點和點對多點演變成網(wǎng)狀,使用傳統(tǒng)的監(jiān)控技術(shù)和手段很難跟蹤這些分布式架構(gòu)中的數(shù)據(jù)流、調(diào)用鏈和相互依賴關(guān)系,系統(tǒng)內(nèi)部的可見性就變得非常重要。可觀測性工具和系統(tǒng)可以有效的幫助運維團隊實現(xiàn)對復(fù)雜系統(tǒng)的監(jiān)測和控制,協(xié)助團隊有效的從紛繁復(fù)雜的原始監(jiān)控數(shù)據(jù)中,找到線路,追溯到故障原因,進行有效的根因分析。三、可觀測性與監(jiān)控的關(guān)系1、可觀測性概念分析我們談可觀測性這個概念,更多的是站在管理者的視角在看問題,如果管理者可以輕易的從可觀工具上得到想要的數(shù)據(jù)和答案,沒有阻力和沒有困惑,這就是我們滿意的可觀測性。比如我們想看了解基礎(chǔ)設(shè)施的狀態(tài),我們有儀表盤。我們想看查看系統(tǒng)延遲的原因,我們有服務(wù)調(diào)用鏈追蹤。我們的需求都可以被各種不同的工具滿足。但是系統(tǒng)原來越復(fù)雜,管理者和被管理對象都發(fā)生了很大變化,原有的可觀測工具不再滿足日益增長的需求,于是我們建立了越來越多的工具豎井,我們的運維系統(tǒng)和IT監(jiān)控重新陷入了混亂。我們在這種“一亂一治”中消耗著我們的熱情和成本?,F(xiàn)在正在被熱捧的可觀測性,把上面的那些豎井和柱子整合了三大要素,日志(Log)、指標(Metric)和追蹤(Trace)。1)日志:記錄了特定時間發(fā)生的各種離散事件的信息,用于檢測系統(tǒng)中無法預(yù)知的行為。2)指標:指標是根據(jù)隨時間變化的數(shù)據(jù),是在一段時間內(nèi)測量的數(shù)值。與日志不同,指標在默認情況下是結(jié)構(gòu)化的,這使得查詢和優(yōu)化存儲變得更加容易,讓您能夠?qū)⑺鼈儽A舾鯐r間。3)追蹤:請求通過分布式系統(tǒng)從端到端的過程。這三大支柱密不可分,從發(fā)現(xiàn)指標異常,到指標關(guān)聯(lián)分析,從逐層下鉆到明細trace追蹤和具體的錯誤R志,進而實現(xiàn)全鏈路自動化根因定位??捎^測性有核心是檢測、排障和分析,檢測是依據(jù)是Metric,排障的依據(jù)Trace,分析的依據(jù)是Logo以上三大要素不是我杜撰的,是CNCF在OpenTelemetry開源項目中正式提出的。OpenTelemetry是CNCF的一個可觀測性項目,旨在提供可觀測性領(lǐng)域的標準化方案,解決觀測數(shù)據(jù)的數(shù)據(jù)模型、采集、處理、導(dǎo)出等的標準化問題,提供與三方vendor無關(guān)的服務(wù)。2、可觀測性跟監(jiān)控的關(guān)系從上面的分析可以看出來,可觀測性跟監(jiān)控有著密不可分的關(guān)系。監(jiān)控的概念比可觀測性要更早,有了監(jiān)控為什么還需要客觀性呢?現(xiàn)有的監(jiān)控工具無法適應(yīng)云環(huán)境,只能標記問題,無法自動調(diào)整,對問題和故障也是無法追蹤溯源。傳統(tǒng)的監(jiān)控工具無法適應(yīng)現(xiàn)在和未來的軟件架構(gòu)和軟件系統(tǒng),其技術(shù)和工具很難跟蹤當前的分布式架構(gòu)中的許多通信路徑和相互依賴關(guān)系??捎^測性可以更好地控制復(fù)雜系統(tǒng),可以更好的通過可觀測性控制系統(tǒng)的穩(wěn)定性。因此可以說可觀測性是在監(jiān)控的基礎(chǔ)上做了更深、更廣的發(fā)展。從故障管理的角度來說,監(jiān)控更關(guān)注特點的指標,能夠回答什么時候什么地方正在發(fā)生什么;可觀測性通過三個指標的融合和分析判斷,重點在于根因分析和協(xié)助排障,不僅能回答監(jiān)控的問題,還能回答為什么會發(fā)生。監(jiān)控更關(guān)注基于指標的告警和狀態(tài)概況;而可觀測性,除了這些以外,還關(guān)注故障排除、根因分析和趨勢預(yù)測。從這個角度說,監(jiān)控是可觀測性的子集和功能,可觀測性是監(jiān)控的超集和延展。換句話而言,一個系統(tǒng)只有在可觀測的情況下才能被監(jiān)控。四、可觀測性是智慧運維的重要思路和方向三大要素是可觀測性的重要組成部分,但不是全部,除此之外可觀測性還依賴于其他一些能力,公認的有SRE方法論和AIOps,此外還有不少聲音認為應(yīng)該加上業(yè)務(wù),也就是對業(yè)務(wù)的理解和相關(guān)知識,我更贊成后者。SRE方法論很容易理解,Google這一方法論對運維的統(tǒng)制地位是大家公認的,至于SLO方法如何指導(dǎo)運維和智慧運維層面落地,不用在這里細AIOps在這里指的是狹義的概念,說的是智慧運維分析,針對Metric、Trace和Log等數(shù)據(jù),利用AI的手段,進行建模分析,用專門的算法來應(yīng)對支持。除了這個另個核心能力以外,對業(yè)務(wù)的理解以及業(yè)務(wù)架構(gòu),也是可觀測性的核心和關(guān)鍵。不同的業(yè)務(wù),需要設(shè)定不同的業(yè)務(wù)指標,業(yè)務(wù)指標如何分解成系統(tǒng)的里面的各種參數(shù),這是業(yè)務(wù)的范疇。同樣,復(fù)雜的調(diào)用關(guān)系只有用業(yè)務(wù)的語言才能解釋。對業(yè)務(wù)場景及業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論