版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
可觀測性技術(shù)發(fā)展研究報(bào)告(2023年)中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所2023年12月版
權(quán)
聲
明本報(bào)告版權(quán)屬于中國信息通信研究院,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來源:中國信息通信研究院”。違反上述聲明者,編者將追究其相關(guān)法律責(zé)任。前
言現(xiàn)代信息系統(tǒng)往往呈現(xiàn)規(guī)模巨大、結(jié)構(gòu)復(fù)雜和分布式架構(gòu)等特點(diǎn),使得傳統(tǒng)的系統(tǒng)監(jiān)控和調(diào)試方法難以滿足全面觀測和管理的需求,這給故障排查、性能優(yōu)化和數(shù)據(jù)分析等任務(wù)帶來巨大困難。在此背景下,可觀測性技術(shù)應(yīng)運(yùn)而生。可觀測性技術(shù)通過引入實(shí)時(shí)日志記錄、指標(biāo)監(jiān)控、分布式追蹤等先進(jìn)工具和技術(shù),為企業(yè)提供全面、精確和實(shí)時(shí)的系統(tǒng)觀測能力,從而幫助企業(yè)深入了解系統(tǒng)的運(yùn)行狀況、行為模式和性能指標(biāo)??捎^測性技術(shù)不僅僅是簡單地監(jiān)控系統(tǒng)狀態(tài),還可以提供對系統(tǒng)內(nèi)部進(jìn)行深度洞察的能力,有助于快速發(fā)現(xiàn)問題、定位故障,并采取相應(yīng)措施進(jìn)行故障修復(fù)和性能優(yōu)化。本報(bào)告探討和解釋了可觀測性技術(shù)的概念、關(guān)鍵技術(shù)、落地路徑和發(fā)展趨勢,并深入分析了可觀測性技術(shù)在故障排查、成本優(yōu)化、數(shù)據(jù)分析等方面的應(yīng)用和實(shí)踐價(jià)值,旨在為讀者提供有價(jià)值的指導(dǎo)和深入的理解。最后,我們衷心感謝所有為本報(bào)告貢獻(xiàn)寶貴意見和專業(yè)知識的專家、學(xué)者和行業(yè)從業(yè)者。我們熱切期待與業(yè)界專家和用戶共同探索可觀測性技術(shù)的前沿發(fā)展趨勢和應(yīng)用場景,共同塑造一個(gè)更加可靠、高效和創(chuàng)新的技術(shù)世界。同時(shí),我們也真誠地邀請各方專家和讀者不吝指正,如報(bào)告中有不足之處,我們愿意傾聽和改進(jìn),以提供更加優(yōu)質(zhì)的內(nèi)容和觀點(diǎn)。目
錄一、可觀測性概述......................................................................................................1(一)
可觀測性定義................................................................................................1(二)
可觀測性不是監(jiān)控,是監(jiān)控演進(jìn)的下一階段............................................1(三)
可觀測性應(yīng)用場景廣泛,多樣價(jià)值獲得認(rèn)可............................................1二、可觀測性起源......................................................................................................2(一)
可觀測性起源................................................................................................2(二)
IT
技術(shù)持續(xù)發(fā)展為系統(tǒng)穩(wěn)定運(yùn)行帶來巨大挑戰(zhàn).........................................3(三)
云時(shí)代到來,加速可觀測性需求涌現(xiàn)........................................................5三、可觀測性價(jià)值總體視圖......................................................................................5四、可觀測性的內(nèi)核剖析..........................................................................................8(一)
可觀測性“三大支柱”.....................................................................................8(二)
更多樣的觀測數(shù)據(jù),持續(xù)豐富可觀測性內(nèi)核............................................9五、可觀測平臺能力構(gòu)建........................................................................................10(一)
統(tǒng)一構(gòu)建方式..............................................................................................10(二)
統(tǒng)一數(shù)據(jù)模型..............................................................................................11(三)
統(tǒng)一信息處理..............................................................................................12(四)
統(tǒng)一查詢分析..............................................................................................13(五)
統(tǒng)一內(nèi)容消費(fèi)..............................................................................................14(六)
環(huán)境適配能力..............................................................................................15(七)
行業(yè)標(biāo)準(zhǔn)參考..............................................................................................16六、可觀測性應(yīng)用場景............................................................................................17(一)
系統(tǒng)實(shí)驗(yàn)與測試..........................................................................................17(二)
站點(diǎn)可靠性工程(SRE)............................................................................18(三)
數(shù)據(jù)可觀測..................................................................................................20(四)
故障根因分析..............................................................................................21(五)
云成本可觀測..............................................................................................22(六)
安全可觀測..................................................................................................23七、可觀測性落地效果............................................................................................24(一)
提升基礎(chǔ)設(shè)施全面控制能力......................................................................24(二)
實(shí)時(shí)洞察應(yīng)用性能優(yōu)化需求......................................................................26(三)
理解用戶需求和優(yōu)化體驗(yàn)..........................................................................28(四)
精準(zhǔn)控制變更并優(yōu)化發(fā)布效果..................................................................29(五)
洞悉業(yè)務(wù)狀況并提升決策能力..................................................................31八、可觀測性發(fā)展趨勢............................................................................................32(一)
可觀測技術(shù)發(fā)展趨勢..................................................................................32(二)
可觀測產(chǎn)業(yè)生態(tài)趨勢..................................................................................33附件1……………………..35圖
目
錄圖1
可觀測性價(jià)值總體視圖.....................................................................................6圖2
鏈路追蹤示意圖.................................................................................................9圖3
可觀測性平臺架構(gòu)...........................................................................................17表
目
錄表1
可觀測性開源項(xiàng)目或協(xié)議................................................................................35可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)一、可觀測性概述(一)可觀測性定義在信息系統(tǒng)及云計(jì)算領(lǐng)域中,可觀測性指的是通過系統(tǒng)的外部輸出來度量系統(tǒng)內(nèi)部運(yùn)行狀態(tài)的能力??捎^測性工具的工作原理是通過不斷進(jìn)行探索性調(diào)查的迭代過程,確定系統(tǒng)問題可能出現(xiàn)的位置和原因。它的目標(biāo)是使我們能夠主動(dòng)地識別任何故障模式,無論是已知的還是未知的。(二)可觀測性不是監(jiān)控,是監(jiān)控演進(jìn)的下一階段從概念內(nèi)涵上來說,監(jiān)控和可觀測性是相互依賴的不同概念,“監(jiān)控”是為提高系統(tǒng)的可觀測性而執(zhí)行的操作,“可觀測性”是該系統(tǒng)的一個(gè)屬性,如功能性或可測試性。從覆蓋范圍來說,監(jiān)控是從系統(tǒng)出發(fā),關(guān)注系統(tǒng)本身的健康情況;可觀測是從業(yè)務(wù)出發(fā),關(guān)注業(yè)務(wù)的健康情況,因此范圍更廣更大。從應(yīng)用目的來說,使用監(jiān)控是用來判斷系統(tǒng)是否可用,通過可觀測性可以實(shí)際指出問題位置和具體原因。從操作性上來說,傳統(tǒng)的監(jiān)控工具通過對照已知閾值檢測系統(tǒng)條件來工作,這些閾值將提示是否存在已經(jīng)設(shè)定條件的錯(cuò)誤。這是一種非常被動(dòng)的方式,因?yàn)橹荒馨l(fā)現(xiàn)已知的問題或錯(cuò)誤。可觀測性工具基于指標(biāo)收集、日志分析、事件追蹤、機(jī)器學(xué)習(xí)等技術(shù)和方法,可以提供更全面、更主動(dòng)、自適應(yīng)的監(jiān)控和分析能力。(三)可觀測性應(yīng)用場景廣泛,多樣價(jià)值獲得認(rèn)可保障系統(tǒng)穩(wěn)定。實(shí)時(shí)觀測系統(tǒng)和應(yīng)用程序的各種指標(biāo)和日志,及時(shí)發(fā)現(xiàn)和解決問題,降低系統(tǒng)故障和安全漏洞的風(fēng)險(xiǎn),保障系統(tǒng)的穩(wěn)1可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)定性和安全性。提高用戶體驗(yàn)。觀測產(chǎn)品在不同環(huán)境下的性能和穩(wěn)定性,及時(shí)發(fā)現(xiàn)和解決問題,提高產(chǎn)品質(zhì)量和用戶體驗(yàn),增強(qiáng)用戶忠誠度和口碑。加強(qiáng)安全性。及時(shí)發(fā)現(xiàn)和應(yīng)對安全漏洞和攻擊,提高系統(tǒng)和數(shù)據(jù)的安全性和可靠性,增強(qiáng)用戶信任和品牌價(jià)值。提高服務(wù)水平。通過對用戶行為和反饋的監(jiān)控和分析,及時(shí)發(fā)現(xiàn)和解決用戶問題和需求,提高服務(wù)水平和用戶滿意度,增強(qiáng)市場競爭力和盈利能力。優(yōu)化資源利用。觀測和分析資源的使用情況,發(fā)現(xiàn)資源浪費(fèi)和瓶頸,及時(shí)進(jìn)行優(yōu)化和調(diào)整,降低成本和提升資源利用率。二、可觀測性起源(一)可觀測性起源可觀測性起源于20
世紀(jì)60年代,最早是由匈牙利裔工程師魯?shù)婪颉た柭≧udolf
Kálmán)在電氣工程領(lǐng)域中提出的概念1,根源于控制理論(應(yīng)用數(shù)學(xué)的一個(gè)分支,指使用反饋來影響系統(tǒng)的行為以實(shí)現(xiàn)預(yù)期的目標(biāo))。電氣工程從
19
世紀(jì)末開始,經(jīng)過近百年的發(fā)展,在各個(gè)細(xì)分領(lǐng)域中取得了長足的進(jìn)展。尤其在20世紀(jì)50
年代中發(fā)展迅速的航空航天領(lǐng)域,對系統(tǒng)的復(fù)雜程度、多部門開發(fā)協(xié)同、系統(tǒng)運(yùn)行環(huán)境、研發(fā)速度等都產(chǎn)生了巨大的挑戰(zhàn),同時(shí)對于系統(tǒng)的穩(wěn)定性要求變的更高。在此背景下可觀測性的概念被提出,其核心目標(biāo)是用來快速判斷系統(tǒng)的工作狀態(tài)并定位缺陷的根因。隨著計(jì)算機(jī)科學(xué)及軟件工程的發(fā)展與實(shí)踐,軟件與信息系統(tǒng)的工1
R.Kalman,“On
thegeneraltheoryof
controlsystems,”IRE
Transactionson
AutomaticControl,vol.4,
no.3,pp.
110–110,1959.2可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)作狀態(tài)也需要從系統(tǒng)外部進(jìn)行度量。通過仿照電氣系統(tǒng)輸出信號進(jìn)行觀測的方式,我們可以利用計(jì)算機(jī)和軟件輸出的運(yùn)行日志來實(shí)現(xiàn)軟件和信息系統(tǒng)的可觀測性。(二)IT技術(shù)持續(xù)發(fā)展為系統(tǒng)穩(wěn)定運(yùn)行帶來巨大挑戰(zhàn)隨著信息化時(shí)代的到來,數(shù)字化已經(jīng)滲透到各個(gè)行業(yè),IT
技術(shù)也在快速發(fā)展。在此過程中,IT
系統(tǒng)在系統(tǒng)架構(gòu)、開發(fā)方式、部署方式、運(yùn)行環(huán)境等方面經(jīng)歷了多次技術(shù)變革。系統(tǒng)架構(gòu)方面,經(jīng)歷了從整體式、分層式、分布式到云原生的變化;開發(fā)方式方面,經(jīng)歷了從瀑布模式、螺旋模式、敏捷模式到DevOps的變遷;部署方式方面,由物理機(jī)、虛擬機(jī)、容器化到Serverless;運(yùn)行環(huán)境方面,由自建機(jī)房、托管機(jī)房、私有云、公共云到混合云。IT系統(tǒng)的技術(shù)升級在迭代效率、部署靈活性、性能和成本等方面帶來了巨大的收益。然而,隨著系統(tǒng)的不斷演進(jìn),其本身的復(fù)雜性也不斷增加,從而給穩(wěn)定性、故障發(fā)現(xiàn)和問題定位等方面帶來了巨大的挑戰(zhàn)。包括:系統(tǒng)更加復(fù)雜,架構(gòu)的升級帶來了開發(fā)效率、發(fā)布效率、系統(tǒng)靈活性、魯棒性等優(yōu)勢,但隨之而來的是系統(tǒng)的復(fù)雜度將更高,一次調(diào)用可能會(huì)涉及數(shù)十個(gè)應(yīng)用組件,問題的定位將更加困難;場景更加多樣,隨著
5G、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)(IoT)、大數(shù)據(jù)、人工智能、VR/AR、邊緣計(jì)算等技術(shù)的快速發(fā)展及融合應(yīng)用,觸網(wǎng)、聯(lián)網(wǎng)、用網(wǎng)的實(shí)體越來越多,應(yīng)用越來越廣泛,需要觀測的對象種類、應(yīng)用場景、數(shù)據(jù)規(guī)模、用戶行為模式等也都發(fā)生了巨大的變化;協(xié)同開銷變大,公司內(nèi)的
IT
系統(tǒng)組成往往涉及多個(gè)不同部門的不同角色,例3可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)如研發(fā)、測試、運(yùn)維(應(yīng)用運(yùn)維、中間件運(yùn)維、系統(tǒng)運(yùn)維、網(wǎng)絡(luò)運(yùn)維等)和
SRE
等,一個(gè)新的問題往往需要多個(gè)部門協(xié)同定位;環(huán)境動(dòng)態(tài)性增強(qiáng),無論是微服務(wù)架構(gòu)還是容器化部署模式,帶來的一個(gè)特性是環(huán)境的動(dòng)態(tài)性增強(qiáng),每個(gè)實(shí)例的生命周期會(huì)更短,出現(xiàn)問題后往往現(xiàn)場已經(jīng)銷毀;服務(wù)依賴增加,在微服務(wù)、云、Kubernetes的環(huán)境中,服務(wù)的依賴變的更多,包括各類其他業(yè)務(wù)應(yīng)用、各種中間件、云上使用的各類產(chǎn)品、容器運(yùn)行時(shí)、虛擬機(jī)等,問題排查需要涉及更多的組件
;缺少有效手段進(jìn)行日志分析,基于容器或者虛擬機(jī)部署,微服務(wù)節(jié)點(diǎn)多,大部分情況采用終端命令查看,在集群、分布式、微服務(wù)模式下,日志查找麻煩而且耗時(shí),日志需要統(tǒng)一查詢和分析。傳統(tǒng)的監(jiān)控工具,如ITIM、APM、NPMD等相對只關(guān)注IT
系統(tǒng)中的部分場景,往往無法解決上述變革帶來的穩(wěn)定性、故障發(fā)現(xiàn)、問題定位等挑戰(zhàn),因此需要一個(gè)更加全面、有效、快速的手段來幫助開發(fā)和運(yùn)維人員發(fā)現(xiàn)和定位系統(tǒng)中的問題??捎^測性工具可以幫助開發(fā)和運(yùn)維人員監(jiān)測系統(tǒng)的各個(gè)組件和交互關(guān)系,收集和分析關(guān)鍵指標(biāo)和日志數(shù)據(jù),進(jìn)行故障排查、問題定位和性能優(yōu)化??捎^測性工具還可以提供更細(xì)粒度的數(shù)據(jù)和指標(biāo),幫助識別和解決復(fù)雜系統(tǒng)的問題,例如分布式追蹤、日志分析、指標(biāo)監(jiān)測和事件處理等。穩(wěn)定性保障和可觀測性工具是相輔相成的,穩(wěn)定性保障依賴于可觀測性工具提供的數(shù)據(jù)和洞察,而可觀測性工具則需要穩(wěn)定性保障體系確保系統(tǒng)正常運(yùn)行并提供可靠的數(shù)據(jù)。4可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)(三)云時(shí)代到來,加速可觀測性需求涌現(xiàn)云時(shí)代的系統(tǒng)更復(fù)雜。隨著云時(shí)代的到來,應(yīng)用從單體化的程序逐步演變成微服務(wù)化,甚至引入了更多的云廠商,包括第三方PaaS、SaaS
提供商的技術(shù)和服務(wù),此時(shí)此刻,傳統(tǒng)的面向單一的指標(biāo)、日志、追蹤的單一化的監(jiān)控產(chǎn)品,諸如監(jiān)控、CMDB、日志系統(tǒng)、APM、RUM等已經(jīng)無法獨(dú)立完成有效的進(jìn)行問題追蹤定位。同時(shí),隨著更多的可變基礎(chǔ)設(shè)施、第三方技術(shù)服務(wù)、DevOps
技術(shù)被引入,如
Service
Mesh、Feature
Flags、混沌工程,如果無法有效的構(gòu)建系統(tǒng)的可觀測性,將無法有效地利用好這些技術(shù)。此外,伴隨著發(fā)布體系CI/CD技術(shù)的普及和微服務(wù)的引入,工程師們不得不進(jìn)一步面對生產(chǎn)系統(tǒng)進(jìn)行調(diào)試和分析,可觀測性將被視為一種代碼調(diào)優(yōu)和架構(gòu)優(yōu)化的基石。我們不僅僅將可觀測性定位成一種運(yùn)維的手段,更將可觀測性定位成對于整個(gè)技術(shù)棧的可視化、可分析、可探索的工具。這種定位不僅是因?yàn)榭捎^測性的重要性,更是因?yàn)樗翘嵘茣r(shí)代研發(fā)效能的必然選擇。可觀測性是云時(shí)代
IT
工作的基礎(chǔ)。云時(shí)代構(gòu)建可觀測性不僅僅是解決系統(tǒng)可靠性的問題,更是整個(gè)
DevOps
團(tuán)隊(duì)每天工作的基礎(chǔ),是軟件系統(tǒng)升級迭代的基礎(chǔ),是進(jìn)一步建立自動(dòng)化的基礎(chǔ),是系統(tǒng)進(jìn)步的基礎(chǔ),是引入新的技術(shù)棧的基礎(chǔ),是為最終用戶提供可信SLA的基礎(chǔ)。三、可觀測性價(jià)值總體視圖可觀測性是現(xiàn)代系統(tǒng)架構(gòu)中不可或缺的核心要素,它通過提供全面的數(shù)據(jù)和信息來支持系統(tǒng)的監(jiān)測、分析和優(yōu)化。本章將圍繞可觀測5可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)性的內(nèi)核,結(jié)合可觀測性平臺能力,給出可觀測性在不同領(lǐng)域的落地效果和應(yīng)用場景,并提出圖1所示的可觀測性價(jià)值總體視圖。來源:中國信息通信研究院圖1
可觀測性價(jià)值總體視圖可觀測性內(nèi)核:可觀測性的內(nèi)核包括日志、指標(biāo)、鏈路追蹤“三大支柱”,疊加更多應(yīng)的觀測數(shù)據(jù),共同構(gòu)成了系統(tǒng)監(jiān)測和分析的基礎(chǔ)。通過全面記錄和收集系統(tǒng)的運(yùn)行狀態(tài)、行為和性能數(shù)據(jù),可觀測性內(nèi)核為問題排查、性能優(yōu)化和安全審計(jì)等提供了關(guān)鍵的數(shù)據(jù)支持??捎^測性平臺能力:云時(shí)代對于可觀測性的要求就是統(tǒng)一。參考中國通信行業(yè)標(biāo)準(zhǔn)《云上軟件系統(tǒng)穩(wěn)定性可觀測性平臺技術(shù)要求》指標(biāo)要求,總結(jié)歸納出構(gòu)建可觀測性平臺需要具備統(tǒng)一構(gòu)建方式、統(tǒng)一數(shù)據(jù)模型、統(tǒng)一信息處理、統(tǒng)一查詢分析、統(tǒng)一內(nèi)容消費(fèi)和環(huán)境適配能力六方面能力:統(tǒng)一構(gòu)建方式能夠簡化部署和管理過程,提高平6可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)臺的易用性和可擴(kuò)展性;統(tǒng)一數(shù)據(jù)模型使得不同數(shù)據(jù)源的格式和結(jié)構(gòu)標(biāo)準(zhǔn)化,提高數(shù)據(jù)的一致性和可用性;統(tǒng)一信息處理能力使用戶能夠快速提取關(guān)鍵信息,進(jìn)行進(jìn)一步的分析和決策;統(tǒng)一查詢分析能力提供一致的方式進(jìn)行數(shù)據(jù)查詢和分析,幫助用戶快速定位和解決問題;統(tǒng)一內(nèi)容消費(fèi)能力提供一致的用戶體驗(yàn),簡化用戶對數(shù)據(jù)的訪問和利用;環(huán)境適配能力使平臺能夠適應(yīng)不同的操作系統(tǒng)、云平臺、應(yīng)用框架和技術(shù)堆棧等環(huán)境,滿足不同用戶和應(yīng)用場景的需求。這六方面的能力共同構(gòu)建了一個(gè)全面、集成和高效的可觀測性平臺,幫助開發(fā)和運(yùn)維人員更好地發(fā)現(xiàn)、定位和解決系統(tǒng)中的問題,提升系統(tǒng)的穩(wěn)定性、可靠性和用戶體驗(yàn)??捎^測性應(yīng)用場景:可觀測性在各個(gè)領(lǐng)域都有廣泛的應(yīng)用場景。如,在云計(jì)算和分布式系統(tǒng)中,可觀測性可以幫助跟蹤和分析請求路徑、優(yōu)化資源分配和定位性能問題;在大數(shù)據(jù)分析中,可觀測性可以提供實(shí)時(shí)數(shù)據(jù)流監(jiān)測和異常檢測;在網(wǎng)絡(luò)安全領(lǐng)域,可觀測性可以用于實(shí)時(shí)監(jiān)測和響應(yīng)威脅事件。廣泛的應(yīng)用場景佐證了可觀測性在現(xiàn)代系統(tǒng)管理和優(yōu)化中的重要性,它提供了實(shí)時(shí)、全面、可視化的數(shù)據(jù)和洞察,幫助各個(gè)領(lǐng)域的專業(yè)人員實(shí)現(xiàn)更好的系統(tǒng)性能、可靠性和安全性。可觀測性落地成效:可觀測性的實(shí)際落地效果是顯著的。多個(gè)領(lǐng)域的實(shí)施案例,證明了可觀測性對于組織來說具有重要意義。它不僅可以提高基礎(chǔ)設(shè)施的可靠性和穩(wěn)定性,精準(zhǔn)控制變更并優(yōu)化發(fā)布效果,減少故障時(shí)間和成本,還可以優(yōu)化系統(tǒng)的性能和資源利用率,提高用7可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)戶體驗(yàn)和滿意度,并增強(qiáng)組織的洞察力和決策能力。這些優(yōu)勢共同促進(jìn)了組織的效率、創(chuàng)新和競爭力的提升。四、可觀測性的內(nèi)核剖析(一)可觀測性“三大支柱”日志、指標(biāo)和鏈路追蹤被稱為可觀測性的“三大支柱”。日志,是揭示系統(tǒng)行為的關(guān)鍵元素。日志是系統(tǒng)運(yùn)行過程中的輸出文本數(shù)據(jù)。一條日志的內(nèi)容通常包含系統(tǒng)對指定對象執(zhí)行的操作、操作的結(jié)果以及操作的時(shí)間。日志記錄通常用于記錄離散的事件,包含程序執(zhí)行到某一點(diǎn)或某一階段的詳細(xì)信息。指標(biāo),可量化系統(tǒng)狀態(tài)和性能。指標(biāo)數(shù)據(jù)是某個(gè)被測量的主體在一個(gè)時(shí)間范圍內(nèi)的各個(gè)時(shí)間點(diǎn)上的測量值。每一個(gè)指標(biāo)數(shù)據(jù)以度量內(nèi)容、度量數(shù)值與度量時(shí)間點(diǎn)組成,多個(gè)指標(biāo)數(shù)據(jù)點(diǎn)按時(shí)間順序排列,組成指標(biāo)圖像,通常以散點(diǎn)圖或折線圖的形式展示。鏈路追蹤,深入了解請求路徑和性能瓶頸。鏈路追蹤是一個(gè)系統(tǒng)請求在分布式系統(tǒng)中的執(zhí)行過程記錄。當(dāng)一條請求進(jìn)入系統(tǒng)進(jìn)行處理時(shí),處理過程中經(jīng)過不同組件的每一段處理情況數(shù)據(jù)被稱為一個(gè)Span,多個(gè)Span通過請求ID
進(jìn)行串聯(lián),組成一條鏈路追蹤。因此,一條鏈路追蹤可以認(rèn)為是由多個(gè)Span組成的有向無環(huán)圖,代表一次完整的分布式請求所經(jīng)過的路徑。如圖2所示。8可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)來源:中國信息通信研究院圖2
鏈路追蹤示意圖(二)更多樣的觀測數(shù)據(jù),持續(xù)豐富可觀測性內(nèi)核除了最基礎(chǔ)的三大支柱以外,為了更好的觀測信息系統(tǒng),人們不斷通過新興技術(shù)產(chǎn)生新型數(shù)據(jù),補(bǔ)充和豐富當(dāng)前的可觀測性數(shù)據(jù)。性能剖析(profiling)數(shù)據(jù)是當(dāng)前接受度最高的新型可觀測性數(shù)據(jù)。性能剖析數(shù)據(jù)是指程序運(yùn)行時(shí)的
CPU、內(nèi)存、線程方法等的使用情況或快照數(shù)據(jù),并通過專屬的火焰圖分析方法,可以用來建立程序代碼和性能瓶頸之間的關(guān)聯(lián)性,輔助程序員優(yōu)化代碼。過去,性能剖析方法的額外開銷較高,程序員通常只在萬不得已時(shí)才臨時(shí)使用。隨著Java
Flight
Recorder、Async
Profiler
等編程語言層面,systemTap、eBPF
等操作系統(tǒng)層面的低開銷剖析方法的普及,常態(tài)化運(yùn)行的持續(xù)性能剖析(continuous
profiling)將輔助程序員精準(zhǔn)的抓取一些偶發(fā)故障的現(xiàn)場快照。9可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)核心轉(zhuǎn)儲(core
dump)是較為重要的新型可觀測性數(shù)據(jù)。核心轉(zhuǎn)儲主要指的是在系統(tǒng)運(yùn)行錯(cuò)誤或崩潰時(shí)儲存的系統(tǒng)內(nèi)存快照。當(dāng)系統(tǒng)由于運(yùn)行錯(cuò)誤導(dǎo)致進(jìn)程終止時(shí),核心轉(zhuǎn)儲信息可以提供關(guān)于錯(cuò)誤發(fā)生時(shí)程序的內(nèi)存狀態(tài),幫助進(jìn)行故障復(fù)現(xiàn)和解決。事
件(event)數(shù)據(jù)是基于可觀測性原始數(shù)據(jù)形成的一類重要的通知數(shù)據(jù)。事件指的是在被觀測對象在狀態(tài)發(fā)生變化時(shí),主動(dòng)發(fā)出的變更通知內(nèi)容。根因分析過程中,時(shí)間相關(guān)性較高的事件數(shù)據(jù)通常是有力的分析依據(jù)。與傳統(tǒng)意義上的日志數(shù)據(jù)相比,事件數(shù)據(jù)更偏向結(jié)構(gòu)化數(shù)據(jù)格式,并可能不以文本形式存在,而通過API接口方式采集或消費(fèi)。常見的事件數(shù)據(jù)例如:告警事件,云平臺、Kubernetes平臺變更事件,CI/CD版本變更事件等。從廣義的日志、指標(biāo)、鏈路跟蹤中獨(dú)立抽象出來的更多可觀測性數(shù)據(jù)。這類可觀測性數(shù)據(jù),因分析場景特殊、重要性較高等原因,也逐漸獨(dú)立抽象出來。比如反應(yīng)代碼邏輯問題的堆棧數(shù)據(jù)、分析業(yè)務(wù)行為的真實(shí)用戶埋點(diǎn)數(shù)據(jù)、針對應(yīng)用死活的健康檢查撥測數(shù)據(jù)等。隨著觀測技術(shù)與理念的發(fā)展,可觀測性的數(shù)據(jù)內(nèi)容也將持續(xù)豐富。五、可觀測平臺能力構(gòu)建(一)統(tǒng)一構(gòu)建方式可觀測性需要統(tǒng)一的建設(shè)方式。如果使用多種傳統(tǒng)監(jiān)控工具進(jìn)行可觀測性建設(shè),即使可以采集到完整的觀測信息,也仍存在信息之間割裂的現(xiàn)象。多個(gè)監(jiān)控工具之間的觀測信息難以直接互通并建立聯(lián)系,無法進(jìn)行多種觀測數(shù)據(jù)的組合分析。同時(shí),當(dāng)用戶進(jìn)行可觀測性信息10可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)查詢時(shí),需要跳轉(zhuǎn)多個(gè)不同的工具,效率遠(yuǎn)遠(yuǎn)無法比擬一站式的數(shù)據(jù)搜索與跳轉(zhuǎn),因此難以實(shí)現(xiàn)高效便捷的故障排查與根因定位。成功的可觀測性需要將傳統(tǒng)的各種指標(biāo)、鏈路、追蹤、用戶行為、事件、安全等數(shù)據(jù)統(tǒng)一收集,并在業(yè)務(wù)需求的基礎(chǔ)上建立多維度的直接關(guān)系。這種關(guān)系不僅僅是簡單的數(shù)據(jù)關(guān)聯(lián),而是一種能夠?qū)崿F(xiàn)數(shù)據(jù)聯(lián)動(dòng)的能力。同時(shí),這種可觀測性應(yīng)該賦予開發(fā)工程師、運(yùn)維工程師和測試工程師統(tǒng)一的技術(shù)數(shù)據(jù)分析能力,使他們能夠自由地分析和定位任何已知或未知的問題,并通過基于數(shù)據(jù)的協(xié)同合作產(chǎn)生有意義的結(jié)果。只有在這樣的情況下,我們才能稱之為成功的可觀測性。(二)統(tǒng)一數(shù)據(jù)模型建設(shè)統(tǒng)一的可觀測性首先需要統(tǒng)一的數(shù)據(jù)模型,統(tǒng)一的數(shù)據(jù)模型是數(shù)據(jù)統(tǒng)一處理、相互建聯(lián)與轉(zhuǎn)化的基礎(chǔ)。數(shù)據(jù)模型應(yīng)該涵蓋各種基礎(chǔ)設(shè)施、技術(shù)棧中收集的全量數(shù)據(jù),全量數(shù)據(jù)不僅僅包含指標(biāo),也需要支持相關(guān)的日志以及鏈路等數(shù)據(jù)。同時(shí),所有的指標(biāo)、日志數(shù)據(jù)均需要進(jìn)行結(jié)構(gòu)化處理,以達(dá)成數(shù)據(jù)模型的統(tǒng)一。最后,最重要的是統(tǒng)一相關(guān)的數(shù)據(jù)標(biāo)簽命名,方便后續(xù)在使用數(shù)據(jù)時(shí)有效的進(jìn)行數(shù)據(jù)關(guān)聯(lián)。云原生環(huán)境對統(tǒng)一的數(shù)據(jù)模型提出了更高的要求。數(shù)據(jù)模型需要對云原生環(huán)境進(jìn)行特別的支持,具體包括:通過默認(rèn)配置自動(dòng)同步容器相關(guān)的指標(biāo)、日志、對象等數(shù)據(jù);對所有收集的數(shù)據(jù)均默認(rèn)標(biāo)記所需的相關(guān)數(shù)據(jù)標(biāo)簽以便進(jìn)行數(shù)據(jù)定位,如container_name、pod_name等。11可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)(三)統(tǒng)一信息處理在統(tǒng)一數(shù)據(jù)模型的基礎(chǔ)上,可以便捷地完成統(tǒng)一的觀測信息處理。信息的處理過程包含采集、整理、儲存等,是統(tǒng)一查詢、統(tǒng)一展示的基礎(chǔ)。統(tǒng)一信息處理的第一步是統(tǒng)一信息采集??捎^測性的目標(biāo)是完整的用數(shù)據(jù)描述整個(gè)系統(tǒng),因此就需要有效匯聚所有的可觀測性數(shù)據(jù)。從數(shù)據(jù)類型角度來說這些可觀測性數(shù)據(jù)分為指標(biāo)、日志、鏈路追蹤。從系統(tǒng)的數(shù)據(jù)來源角度,一般需要收集系統(tǒng)以下幾個(gè)維度的數(shù)據(jù):基礎(chǔ)資源(云、主機(jī)、容器、網(wǎng)絡(luò)等),中間件(消息隊(duì)列等),后端組件(系統(tǒng)后端代碼),前端組件(網(wǎng)頁、移動(dòng)APP、小程序等),邊緣設(shè)備/IoT設(shè)備等。統(tǒng)一信息處理的第二步是關(guān)聯(lián)整理。在信息采集后,需要通過統(tǒng)一數(shù)據(jù)模型中的數(shù)據(jù)標(biāo)簽將所采集的觀測信息進(jìn)行關(guān)聯(lián)和整理。數(shù)據(jù)標(biāo)簽通常以對象的形式進(jìn)行表達(dá)。舉個(gè)例子,當(dāng)我們看到任何數(shù)據(jù)帶有“host”這個(gè)標(biāo)簽時(shí),我們可以將其與一個(gè)對應(yīng)該主機(jī)的狀態(tài)儀表盤進(jìn)行關(guān)聯(lián)。這樣,在分析日志信息、安全信息、用戶訪問信息等時(shí),我們可以直接指向與數(shù)據(jù)相關(guān)的主機(jī)狀態(tài)儀表盤,從而獲得更詳細(xì)的相關(guān)信息。這種方式使得無論在哪個(gè)領(lǐng)域,我們都能夠通過數(shù)據(jù)標(biāo)簽與對應(yīng)主機(jī)的相關(guān)狀態(tài)儀表盤進(jìn)行關(guān)聯(lián)。統(tǒng)一信息處理的第三步是信息儲存。信息關(guān)聯(lián)之后,需要對收集上來的信息進(jìn)行儲存,必須根據(jù)收集上來的數(shù)據(jù)自身特點(diǎn),選擇經(jīng)濟(jì)且合適的存儲方式。在進(jìn)行可觀測性數(shù)據(jù)儲存時(shí),通常會(huì)用到冷熱數(shù)12可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)據(jù)分離的儲存策略:可觀測性場景下,熱數(shù)據(jù)通常指近期的觀測數(shù)據(jù),時(shí)效性強(qiáng)、查詢率高,通常以細(xì)粒度儲存在高速介質(zhì)中,以實(shí)現(xiàn)高效準(zhǔn)確的查詢,例如將一個(gè)月之內(nèi)的數(shù)據(jù)以小時(shí)為單位儲存在內(nèi)存中;冷數(shù)據(jù)指的是一段時(shí)間之前的較舊的觀測數(shù)據(jù),查詢率較低、精確度要求不高,通常儲存在普通介質(zhì)中,甚至對數(shù)據(jù)進(jìn)行降采樣后再儲存,以達(dá)到降低存儲成本的效果,例如將一個(gè)月之前的數(shù)據(jù)以周或月為單位儲存在硬盤中。最后,為了進(jìn)一步優(yōu)化儲存成本,通常會(huì)設(shè)置數(shù)據(jù)過期策略來刪除過舊的觀測信息,例如定期刪除三年以前的過期觀測數(shù)據(jù)。但與此同時(shí),對于部分重要的觀測數(shù)據(jù)來說,即使數(shù)據(jù)變得老舊,也有可能極具代表性、學(xué)習(xí)意義重大,因此也需要支持這些重要數(shù)據(jù)的永久儲存功能。(四)統(tǒng)一查詢分析為了高效分析可觀測性信息,需要將不同的可觀測性數(shù)據(jù)聯(lián)系起來,并使用分析引擎進(jìn)行統(tǒng)一的數(shù)據(jù)分析??捎^測性數(shù)據(jù)處理分析引擎通常是基于行級數(shù)據(jù)處理的指令集,它內(nèi)置了各種處理函數(shù),可以在數(shù)據(jù)上報(bào)之前對數(shù)據(jù)進(jìn)行進(jìn)一步的處理。其中包括對日志文本文件進(jìn)行結(jié)構(gòu)化處理,并提供了一系列函數(shù),如日期處理、正則表達(dá)式匹配
、JSON解析、IP
地址處理、URL解碼、脫敏等功能。這些函數(shù)可以幫助用戶快速處理和轉(zhuǎn)換數(shù)據(jù),以滿足各種分析和查詢需求??捎^測性信息查詢語言應(yīng)簡單且功能強(qiáng)大??捎^測性信息查詢方面,一般要求可觀測平臺具備一類語法簡單并且功能強(qiáng)大的查詢語言,一般為類
SQL
語言。該查詢語言應(yīng)支持靈活的數(shù)據(jù)查詢,既支持單13可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)一數(shù)據(jù)類型查詢也支持匯總查詢,且最好可以在數(shù)據(jù)采集器中內(nèi)置查詢語言終端,當(dāng)數(shù)據(jù)采集完成后,無需打開可觀測性平臺,可直接通過終端查詢數(shù)據(jù),排查問題,降低最終用戶的整體使用成本。由于可觀測性信息已經(jīng)經(jīng)過統(tǒng)一處理,實(shí)現(xiàn)了統(tǒng)一儲存與數(shù)據(jù)建聯(lián),因此在信息查詢時(shí),應(yīng)做到通過統(tǒng)一終端或入口查詢到所有種類的可觀測性數(shù)據(jù),同時(shí)可根據(jù)數(shù)據(jù)間聯(lián)系進(jìn)行便捷的數(shù)據(jù)跳轉(zhuǎn),或通過鏈路追蹤信息進(jìn)行鏈路上下文信息查詢,進(jìn)一步提升查詢效率,加快故障排查與解決的速度。(五)統(tǒng)一內(nèi)容消費(fèi)統(tǒng)一內(nèi)容消費(fèi)指的是將各種類型的可觀測性數(shù)據(jù)以統(tǒng)一的方式進(jìn)行消費(fèi)和處理。它強(qiáng)調(diào)將不同來源、不同格式的可觀測性數(shù)據(jù)整合在一起,通過共享、標(biāo)準(zhǔn)化的方式進(jìn)行訪問和分析。通過統(tǒng)一內(nèi)容消費(fèi),可以降低數(shù)據(jù)處理的復(fù)雜性,提高數(shù)據(jù)的可用性和可操作性,從而更有效地進(jìn)行故障排查、性能優(yōu)化和決策制定??捎^測性信息的消費(fèi),通常包含可觀測性數(shù)據(jù)的圖像展示、系統(tǒng)的健康度報(bào)表、觀測數(shù)據(jù)中風(fēng)險(xiǎn)事件告警通知、業(yè)務(wù)BI
信息分享、通過API
進(jìn)行數(shù)據(jù)開放等形式??捎^測性信息展示。通過優(yōu)秀的圖表展示,可以傳達(dá)更豐富的信息,縮短故障發(fā)現(xiàn)時(shí)間,減少故障解決時(shí)間。優(yōu)秀的數(shù)據(jù)展示應(yīng)包括數(shù)據(jù)列表、圖表和可自定義的數(shù)據(jù)大盤與時(shí)間顯示粒度。同時(shí),基于數(shù)據(jù)處理和數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)數(shù)據(jù)圖像之間的跳轉(zhuǎn),例如將監(jiān)控指標(biāo)跳轉(zhuǎn)到對應(yīng)時(shí)間的日志列表或日志列表跳轉(zhuǎn)至相應(yīng)請求的鏈路追蹤拓14可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)撲圖,以提高數(shù)據(jù)圖表的查詢效率。可觀測性報(bào)表??捎^測性報(bào)表將系統(tǒng)運(yùn)行情況進(jìn)行定期匯總與展示,使關(guān)鍵指標(biāo)和趨勢一目了然,幫助決策者快速了解系統(tǒng)的健康狀況。可觀測性與
BI。商業(yè)智能系統(tǒng)與可觀測工具對接,將可觀測性數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)結(jié)合,進(jìn)行深入的業(yè)務(wù)分析和洞察,可以為組織提供更全面的數(shù)據(jù)驅(qū)動(dòng)決策支持,發(fā)現(xiàn)潛在的商機(jī)和改進(jìn)機(jī)會(huì)。可觀測性信息訂閱與發(fā)放。通過與其他團(tuán)隊(duì)或部門進(jìn)行對接,可以訂閱關(guān)鍵性能指標(biāo)和事件,將相關(guān)信息推送給相關(guān)人員,實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控和警報(bào)通知,及時(shí)發(fā)現(xiàn)異常情況,采取相應(yīng)的措施,從而提高系統(tǒng)的可靠性和穩(wěn)定性。開放
API。通過開放API接口將可觀測性數(shù)據(jù)對外開放,可以讓開發(fā)者和第三方應(yīng)用程序靈活地消費(fèi)這些數(shù)據(jù)。這種開放性可以促進(jìn)創(chuàng)新和擴(kuò)展,使更多的應(yīng)用場景和工具能夠利用可觀測性數(shù)據(jù)。(六)環(huán)境適配能力可觀測性平臺需要具備適應(yīng)不同環(huán)境的數(shù)據(jù)編排能力。除了可觀測性平臺已內(nèi)置了廣泛的技術(shù)棧數(shù)據(jù)采集能力外,還存在著未支持的技術(shù)棧和用戶自定義的數(shù)據(jù)需求。為了實(shí)現(xiàn)可觀測性平臺與被觀測系統(tǒng)的高效協(xié)同,達(dá)到更好的觀測效果,通常需要可觀測性平臺具備自定義集成更多被觀測系統(tǒng)的業(yè)務(wù)信息的能力,也稱為數(shù)據(jù)編排能力或數(shù)據(jù)驅(qū)動(dòng)編程能力。這種能力允許可觀測性平臺靈活地集成額外的數(shù)據(jù),并根據(jù)需求進(jìn)行數(shù)據(jù)處理和分析,以滿足特定業(yè)務(wù)場景的觀測需15可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)求。為了達(dá)成數(shù)據(jù)編排能力,需要一款具備函數(shù)開發(fā)、管理、執(zhí)行的可觀測性平臺。該平臺應(yīng)具備如下三個(gè)特性:易用性。一個(gè)優(yōu)秀的可觀測性平臺要具備低門檻的接入能力,做到開箱即用,也需要具備足夠的靈活性,通過低代碼的方式接入自定義數(shù)據(jù),實(shí)現(xiàn)更多環(huán)境數(shù)據(jù)的統(tǒng)一可觀測。適用性??捎^測性平臺需要對用戶的環(huán)境進(jìn)行適配,不僅要支持傳統(tǒng)的單體環(huán)境的部署,還應(yīng)該支持云原生環(huán)境,以提高資源的利用率以及方便后期的維護(hù)。對多種環(huán)境進(jìn)行的適配一般包括如下內(nèi)容:適配多種操作系統(tǒng),如Linux、MacOS、Windows、Debian、AIX;適配多種硬件環(huán)境,如x86、amd64、arm、arm64、risc、PowerPC;適配容器環(huán)境,如Docker、Kubernetes、Openshift;適配多種存儲介質(zhì),如MySQL、Redis、InfluxDB、SQL
Server、Oracle、Elasticsearch等多種類型數(shù)據(jù)庫;適配多云或混合云環(huán)境。穩(wěn)定性。在適配云原生環(huán)境的基礎(chǔ)上,可觀測性平臺還可以實(shí)現(xiàn)一些非功能的、優(yōu)化可觀測性平臺自身可靠性的特性,以資源的彈性伸縮與平臺的高可用為主。平臺具備動(dòng)態(tài)資源擴(kuò)縮容的能力,可以根據(jù)自身的負(fù)載情況進(jìn)行自動(dòng)調(diào)整。同時(shí),平臺應(yīng)具備容災(zāi)能力,系統(tǒng)內(nèi)任何單實(shí)例故障不影響系統(tǒng)核心功能和體驗(yàn)。(七)行業(yè)標(biāo)準(zhǔn)參考中國信通院于2021年?duì)款^編寫《云上軟件系統(tǒng)穩(wěn)定性
可觀測性平臺技術(shù)要求》中國通信行業(yè)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)對數(shù)據(jù)采集(對應(yīng)數(shù)據(jù)模16可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)型)、數(shù)據(jù)處理(對應(yīng)信息處理、查詢分析)和數(shù)據(jù)使用(對應(yīng)內(nèi)容消費(fèi))等三個(gè)核心能力進(jìn)行規(guī)范,為技術(shù)發(fā)展和行業(yè)應(yīng)用提供了權(quán)威指南。來源:中國信息通信研究院圖3
可觀測性平臺架構(gòu)六、可觀測性應(yīng)用場景(一)系統(tǒng)實(shí)驗(yàn)與測試通過深度應(yīng)用可觀測性技術(shù),可以優(yōu)化混沌工程實(shí)踐。在混沌實(shí)驗(yàn)前,需要選擇目標(biāo)系統(tǒng)的穩(wěn)態(tài)指標(biāo),依賴于可觀測技術(shù)提供的指標(biāo)、鏈路追蹤和日志等詳細(xì)的穩(wěn)態(tài)指標(biāo)數(shù)據(jù),可以更全面和精確地評估實(shí)驗(yàn)影響。實(shí)驗(yàn)過程中的實(shí)驗(yàn)觀測是檢驗(yàn)混沌實(shí)驗(yàn)效果的重要手段,注入故障后,分析可觀測性數(shù)據(jù)判斷應(yīng)用系統(tǒng)對故障的容錯(cuò)能力,據(jù)此做出系統(tǒng)穩(wěn)定性改進(jìn)計(jì)劃。此外,基于可觀測性技術(shù)能有效提高強(qiáng)弱依賴分析的效率,分析鏈路追蹤數(shù)據(jù)獲得服務(wù)間調(diào)用關(guān)系,運(yùn)用混沌17可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)工程給被調(diào)服務(wù)注入故障,觀察主調(diào)服務(wù)的觀測指標(biāo)表現(xiàn),可以得出服務(wù)間的強(qiáng)弱依賴關(guān)系。進(jìn)一步根據(jù)業(yè)務(wù)場景進(jìn)行依賴治理,優(yōu)化關(guān)鍵路徑,實(shí)現(xiàn)低耦合架構(gòu),避免非核心服務(wù)故障導(dǎo)致服務(wù)整體不可用。運(yùn)用可觀測性技術(shù)能有效提升全鏈路壓測性能瓶頸定位和容量評估的效率?;诳捎^測性數(shù)據(jù),將壓測請求的全鏈路調(diào)用鏈關(guān)系串聯(lián),據(jù)此計(jì)算出服務(wù)間的調(diào)用拓?fù)鋱D,統(tǒng)計(jì)出每一層調(diào)用的黃金監(jiān)控指標(biāo)(如
QPS、耗時(shí)、成功率等),以及微服務(wù)間的放大倍數(shù)等觀測數(shù)據(jù)。結(jié)合壓測染色技術(shù),把被壓服務(wù)從黑盒變白盒,在全鏈路壓測過程中實(shí)時(shí)觀測全鏈路微服務(wù)的可觀測數(shù)據(jù),快速做出性能瓶頸點(diǎn)的定位和容量水位判斷。如當(dāng)壓測延遲增大時(shí),從鏈路統(tǒng)計(jì)視圖能快速定位到導(dǎo)致入口延遲增大的具體微服務(wù),結(jié)合可觀測性數(shù)據(jù)下鉆分析,能夠定位到導(dǎo)致延遲增大的具體方法,快速定位出性能問題根因。運(yùn)用可觀測性技術(shù)能有效提升自動(dòng)化測試可靠性和穩(wěn)定性,降低自動(dòng)化測試成本?;诳捎^測性數(shù)據(jù),在開發(fā)階段可以在盡量不考慮運(yùn)行環(huán)境因素前提下通過自動(dòng)化測試用例驗(yàn)證代碼運(yùn)行正確性,更容易的控制程序的行為、輸入、輸出,從而指導(dǎo)開發(fā)人員編寫出可觀測性更強(qiáng),高內(nèi)聚、低耦合的函數(shù)模塊。(二)站點(diǎn)可靠性工程(SRE)可觀測性為
SRE
基于數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維提供基礎(chǔ)支撐。SRE
理論認(rèn)為,系統(tǒng)風(fēng)險(xiǎn)是難以避免的,因此針對系統(tǒng)風(fēng)險(xiǎn)進(jìn)行的管理和容錯(cuò)是第一要?jiǎng)?wù),其中風(fēng)險(xiǎn)管理及容錯(cuò)設(shè)計(jì)的的核心是SLO。由于系統(tǒng)風(fēng)險(xiǎn)難以避免,因此SRE的目標(biāo)并不是達(dá)到100%的可用性,而是選擇18可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)合理的可用性目標(biāo)后,建立SLO標(biāo)準(zhǔn),以SLO來驅(qū)動(dòng)SRE的日常任務(wù)和項(xiàng)目,盡可能減少技術(shù)性低、重復(fù)性高的人工操作??捎^測性產(chǎn)品在定義
SLI
方面具有持續(xù)采集性能數(shù)據(jù)的優(yōu)勢。SLI的制定、了解和分析過程離不開可觀測性產(chǎn)品的支持。通過可觀測性產(chǎn)品持續(xù)采集性能數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行分析,我們可以了解當(dāng)前IT
系統(tǒng)的狀態(tài),從而制定合理的SLO。此外,這些可觀測性數(shù)據(jù)還可以為商業(yè)化產(chǎn)品的SLA提供可測量的指標(biāo)和特征??捎^測性可有效提升操作自動(dòng)化水平。可觀測性產(chǎn)品可以依據(jù)所收集到的觀測信息,自動(dòng)生成帶有響應(yīng)時(shí)間、吞吐量、錯(cuò)誤率等性能指標(biāo)及數(shù)據(jù)展示的儀表板。同時(shí)還可以設(shè)置警報(bào)規(guī)則,以便在指標(biāo)接近或者超過設(shè)定的閾值時(shí)觸發(fā)警報(bào)通知,從而提醒
SRE
人員立即執(zhí)行某種操作,解決已經(jīng)或者即將發(fā)生的問題。隨著觀測信息采集質(zhì)量的提高與告警規(guī)則的配置優(yōu)化,能進(jìn)一步提升告警的精確度,減少低質(zhì)量的人工操作,提升SRE運(yùn)轉(zhuǎn)效率。利用可觀測性產(chǎn)品可持續(xù)提高系統(tǒng)抗風(fēng)險(xiǎn)水平??捎^測性產(chǎn)品可以幫助
SRE
人員通過應(yīng)用日志、性能數(shù)據(jù)和業(yè)務(wù)指標(biāo)等用戶體驗(yàn)相關(guān)的信息了解數(shù)據(jù)之間的關(guān)聯(lián)性,將業(yè)務(wù)、調(diào)用鏈路、系統(tǒng)和設(shè)備運(yùn)行狀態(tài)的數(shù)據(jù)鏈路打通,實(shí)現(xiàn)以用戶體驗(yàn)為中心的運(yùn)維目標(biāo)。同時(shí),可觀測性產(chǎn)品可以自動(dòng)分析真實(shí)用戶行為,通過鏈路追蹤來跟蹤用戶請求涉及的多個(gè)服務(wù)和組件,可以發(fā)現(xiàn)性能表現(xiàn)欠佳的服務(wù)或代碼級的問題,使得問題出現(xiàn)時(shí)更容易調(diào)查其根因并分析,持續(xù)優(yōu)化系統(tǒng)的抗風(fēng)險(xiǎn)能力。19可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)可觀測性產(chǎn)品能有效提升
SRE
團(tuán)隊(duì)工作成效。作為
SRE
人員,熟悉和掌握可觀測性產(chǎn)品的功能和特性對于他們有效地監(jiān)控、分析和優(yōu)化生產(chǎn)系統(tǒng)至關(guān)重要。通過使用可觀測性產(chǎn)品,他們能夠?qū)崟r(shí)監(jiān)測系統(tǒng)的運(yùn)行情況,及時(shí)發(fā)現(xiàn)異常行為,并利用各類信息追蹤問題的根本原因。這種高度的可觀測性能力使得
SRE
人員能夠快速而準(zhǔn)確地解決問題,提高系統(tǒng)的穩(wěn)定性和可靠性。因此,對于
SRE
團(tuán)隊(duì)和系統(tǒng)穩(wěn)定性而言,投資于一個(gè)優(yōu)秀的可觀測性產(chǎn)品非常重要。同時(shí),研究和制定有效的可觀測性策略也至關(guān)重要,它能夠指導(dǎo)團(tuán)隊(duì)在監(jiān)控、分析和優(yōu)化方面的工作,從而提升系統(tǒng)的穩(wěn)定性和可維護(hù)性,降低風(fēng)險(xiǎn)和故障對業(yè)務(wù)的影響。(三)數(shù)據(jù)可觀測數(shù)據(jù)可觀測是海量數(shù)據(jù)價(jià)值變現(xiàn)的關(guān)鍵因素。在全球數(shù)字經(jīng)濟(jì)的浪潮中,進(jìn)行數(shù)字化轉(zhuǎn)型已成為企業(yè)適應(yīng)數(shù)字經(jīng)濟(jì)、謀求生存發(fā)展的必然選擇。然而,在數(shù)字化轉(zhuǎn)型背后,如何實(shí)現(xiàn)海量數(shù)據(jù)的價(jià)值變現(xiàn)成為企業(yè)面臨的一大難題。數(shù)據(jù)可觀測性成為解決這一難題的關(guān)鍵因素,它提供了實(shí)時(shí)、全面的數(shù)據(jù)洞察能力。通過有效的數(shù)據(jù)收集、分析和可視化,企業(yè)能夠基于數(shù)據(jù)做出戰(zhàn)略決策,從而實(shí)現(xiàn)更高的效率和競爭力。數(shù)據(jù)質(zhì)量監(jiān)測與改進(jìn)??捎^測性提供了監(jiān)測數(shù)據(jù)質(zhì)量的能力,幫助企業(yè)確保數(shù)據(jù)的準(zhǔn)確性、完整性、及時(shí)性和一致性。例如,在金融行業(yè),銀行可以通過可觀測性系統(tǒng)監(jiān)測交易數(shù)據(jù)的質(zhì)量,及時(shí)發(fā)現(xiàn)異常和錯(cuò)誤,以保證金融交易的準(zhǔn)確性和可信度。20可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)數(shù)據(jù)即時(shí)性保障??捎^測性對特定作業(yè)環(huán)境觀測、實(shí)時(shí)性要求高的系統(tǒng)觀測,提供巨大的價(jià)值,為這些系統(tǒng)的穩(wěn)定性和可靠性帶來非常大的幫助,提高企業(yè)在各自領(lǐng)域內(nèi)的核心競爭力。異常檢測和故障預(yù)測??捎^測性幫助企業(yè)識別和監(jiān)測數(shù)據(jù)中的異常和趨勢,從而發(fā)現(xiàn)潛在的問題。例如,在制造業(yè)中,通過可觀測性分析生產(chǎn)線的實(shí)時(shí)數(shù)據(jù),企業(yè)可以快速檢測到設(shè)備故障、產(chǎn)線停機(jī)等異常情況,并采取相應(yīng)的措施以避免生產(chǎn)延誤和損失。業(yè)務(wù)監(jiān)控與運(yùn)營分析??捎^測性使得企業(yè)能夠?qū)崟r(shí)監(jiān)測關(guān)鍵業(yè)務(wù)指標(biāo),以及追蹤業(yè)務(wù)運(yùn)營的實(shí)時(shí)情況。例如,在電子商務(wù)行業(yè),企業(yè)可以利用可觀測性系統(tǒng)監(jiān)測網(wǎng)站流量、用戶行為和購買轉(zhuǎn)化率等指標(biāo),從而實(shí)時(shí)了解營銷活動(dòng)的效果,及時(shí)調(diào)整營銷策略優(yōu)化用戶體驗(yàn)。用戶畫像和個(gè)性推薦。可觀測性幫助企業(yè)了解用戶的行為模式和偏好,以及對產(chǎn)品和服務(wù)的反饋。例如,在社交媒體行業(yè),可觀測性可以幫助企業(yè)分析用戶在視頻平臺上的觀看習(xí)慣和偏好,從而提供個(gè)性化的推薦內(nèi)容,增加用戶的滿意度和忠誠度。(四)故障根因分析高質(zhì)量的根因分析強(qiáng)烈依賴于可觀測性??捎^測性解決了數(shù)據(jù)采集、傳輸、存儲和展示等方面的問題,為產(chǎn)生高質(zhì)量的根因分析所需的數(shù)據(jù)提供了基礎(chǔ)。系統(tǒng)故障的根因分析是一種高級技能,其核心是識別和解決問題的根本原因,以防止問題的再次發(fā)生。通過有效利用可觀測性數(shù)據(jù),用戶能夠深入了解系統(tǒng)的行為和性能,并從中找出問題的源頭,從而更好地改進(jìn)和優(yōu)化系統(tǒng)的穩(wěn)定性。21可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)可觀測性支持問題溯源和依賴關(guān)系分析。通過可觀測性數(shù)據(jù)可以有效收斂對問題上下文的描述信息,根據(jù)調(diào)用鏈路和運(yùn)行時(shí)監(jiān)控生成依賴關(guān)系因果圖,結(jié)合知識圖譜或圖神經(jīng)網(wǎng)絡(luò)等智能算法,從而快速判斷故障影響的系統(tǒng)范圍和根因類型,并以告警形式將故障根因結(jié)果和推薦解決方案通知到運(yùn)維人員,進(jìn)而最大幅度提升問題定位效率,縮短MTTR。可觀測性支持提供歷史數(shù)據(jù)回放和分析。通過可觀測能力以流量錄制方式針對故障現(xiàn)場進(jìn)行自動(dòng)化保存,通過回放現(xiàn)場數(shù)據(jù)在沙箱環(huán)境自動(dòng)播放故障前后演變數(shù)據(jù)和傳播鏈路圖等,便于事后更全面的發(fā)現(xiàn)系統(tǒng)問題和瓶頸,有效提升系統(tǒng)可靠性和穩(wěn)定性。可觀測性支持構(gòu)建知識庫和經(jīng)驗(yàn)積累。通過將可觀測性數(shù)據(jù)與故障根因結(jié)果和解決方案進(jìn)行標(biāo)注,創(chuàng)建問題知識庫,用于描述焦點(diǎn)事件發(fā)生后采取的建議行動(dòng)和專家經(jīng)驗(yàn),同時(shí)可以提高知識圖譜推理分析結(jié)果的準(zhǔn)確性和真實(shí)性。(五)云成本可觀測云上資源利用率不足,用云成本亟需優(yōu)化。隨著全球云計(jì)算的普及和云原生技術(shù)的發(fā)展,云成本管理成為企業(yè)關(guān)注的焦點(diǎn)。雖然云原生架構(gòu)提高了資源利用率,但仍需要有效管理云成本。根據(jù)研究數(shù)據(jù),全球數(shù)據(jù)中心利用率仍然不足,資源浪費(fèi)嚴(yán)重。中國信息通信研究院的調(diào)查顯示,提升資源利用率以節(jié)約成本是云原生技術(shù)帶來的主要價(jià)值之一。同時(shí),隨著
FinOps
理念的滲透,企業(yè)的云成本優(yōu)化關(guān)注點(diǎn)從資源浪費(fèi)減少擴(kuò)展到云成本分賬、預(yù)測、計(jì)費(fèi)等多個(gè)方面。因此,22可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)實(shí)現(xiàn)資源的有效利用和成本優(yōu)化需要重視云成本的可觀測性。利用可觀測性相關(guān)能力實(shí)現(xiàn)資源利用率的可視化。通過可觀測能力,企業(yè)可以采集和展示
CPU
使用率、內(nèi)存使用率、磁盤使用率、進(jìn)出帶寬使用率等資源指標(biāo)的數(shù)據(jù)。借助可觀測能力,企業(yè)能夠觀察集群、業(yè)務(wù)線、產(chǎn)品線、應(yīng)用等多個(gè)層面的每日資源消耗情況,并建立每日對賬機(jī)制。根據(jù)資源消耗的變化規(guī)律,企業(yè)可以發(fā)現(xiàn)異常點(diǎn)并進(jìn)行彈性的擴(kuò)縮容操作。可觀測能力促進(jìn)人力成本優(yōu)化。人力是除
IT
資源成本以外云上成本對重要支出項(xiàng),為了讓核心工作人員聚焦在核心工作上,需要權(quán)衡研發(fā)工作和穩(wěn)定性保障工作,可以結(jié)合可觀測性在
SRE
上的應(yīng)用場景,通過深思熟慮的
SLO
來做關(guān)鍵決策,確定工作優(yōu)先級和對用戶更有價(jià)值的工作。(六)安全可觀測安全挑戰(zhàn)加劇,用戶需要更全面的安全可觀測工具。隨著
IT
基礎(chǔ)設(shè)施的架構(gòu)和部署日趨復(fù)雜,管理員很難保障
IT
系統(tǒng)、數(shù)據(jù)、應(yīng)用程序和網(wǎng)絡(luò)免受攻擊。傳統(tǒng)的安全監(jiān)控工具需要管理員花費(fèi)大量時(shí)間手動(dòng)追蹤問題,隨著基礎(chǔ)設(shè)施架構(gòu)越來越復(fù)雜,監(jiān)控的性能數(shù)據(jù)越來越多,這個(gè)問題變得更加困難。此外,安全事件的告警通常會(huì)來自多個(gè)安全監(jiān)控工具的海量警報(bào),這些碎片化、重復(fù)和海量的警報(bào)可能會(huì)導(dǎo)致管理員疲于奔命且無法識別真正的安全問題。可觀測性在安全領(lǐng)域有重要應(yīng)用價(jià)值。實(shí)時(shí)威脅檢測和響應(yīng)。通過可觀測性工具收集和分析實(shí)時(shí)的安全數(shù)據(jù),可以幫助安全團(tuán)隊(duì)快速23可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)發(fā)現(xiàn)潛在的威脅和安全漏洞,并采取及時(shí)有效的響應(yīng)措施,防止安全事件的發(fā)展和擴(kuò)散。異常檢測和行為分析。通過對系統(tǒng)和網(wǎng)絡(luò)的可觀測性監(jiān)測,可以建立基于正常行為的模型,并檢測出異常行為和惡意活動(dòng),這有助于及早發(fā)現(xiàn)和阻止?jié)撛诘墓?,提高系統(tǒng)的安全性。安全事件追溯和溯源??捎^測性工具可以記錄和追蹤安全事件的發(fā)生過程,包括攻擊路徑、攻擊者的行為等。這對于安全團(tuán)隊(duì)來說是寶貴的信息,可以幫助他們了解攻擊方式和手段,進(jìn)一步改進(jìn)安全策略和措施
。安全日志和審計(jì)。通過對安全日志的收集和分析,可觀測性工具可以提供全面的安全審計(jì)能力,幫助企業(yè)滿足合規(guī)性要求,并對安全事件的發(fā)生和處理過程進(jìn)行溯源和分析。智能預(yù)測和預(yù)防。結(jié)合可觀測性和人工智能技術(shù),可以建立智能預(yù)測模型,識別潛在的威脅和漏洞,并采取預(yù)防措施,提前阻止安全事件的發(fā)生。七、可觀測性落地效果(一)提升基礎(chǔ)設(shè)施全面控制能力現(xiàn)代基礎(chǔ)設(shè)施特征多樣,可觀測性技術(shù)是理解和管理復(fù)雜基礎(chǔ)設(shè)施的關(guān)鍵工具。隨著云計(jì)算、容器化和微服務(wù)架構(gòu)等技術(shù)的廣泛應(yīng)用,現(xiàn)代基礎(chǔ)設(shè)施呈現(xiàn)典型的多樣性特征,并且變得愈加復(fù)雜和難以把控,可觀測性技術(shù)成為理解和管理這些復(fù)雜環(huán)境的關(guān)鍵工具。通過實(shí)時(shí)監(jiān)測和收集關(guān)鍵指標(biāo)數(shù)據(jù),可觀測性技術(shù)可以顯著改善企業(yè)對基礎(chǔ)設(shè)施的監(jiān)控、管理和治理能力,進(jìn)而提高系統(tǒng)的可用性和彈性?;A(chǔ)設(shè)施可觀測通過實(shí)時(shí)數(shù)據(jù)采集和監(jiān)控,提供對基礎(chǔ)設(shè)施的全面可見性。企業(yè)可以通過監(jiān)測基礎(chǔ)設(shè)施的關(guān)鍵指標(biāo),如工作負(fù)載、網(wǎng)24可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)絡(luò)性能、資源利用率等,及時(shí)了解基礎(chǔ)設(shè)施的運(yùn)行狀態(tài),并作出相應(yīng)的決策。通過可視化展示,運(yùn)維人員可以直觀地查看基礎(chǔ)設(shè)施的拓?fù)潢P(guān)系、組件依賴關(guān)系以及資源分配情況,從而更好地理解基礎(chǔ)設(shè)施的整體架構(gòu)和運(yùn)行情況?;A(chǔ)設(shè)施可觀測在故障排查和故障恢復(fù)方面發(fā)揮了重要作用。當(dāng)基礎(chǔ)設(shè)施出現(xiàn)故障或異常情況時(shí),可觀測性技術(shù)可以迅速定位問題的根本原因。通過實(shí)時(shí)監(jiān)測和分析基礎(chǔ)設(shè)施的指標(biāo)、日志和事件數(shù)據(jù),可以追蹤故障發(fā)生的時(shí)間、位置和原因,并提供詳細(xì)的診斷信息。這樣的信息使運(yùn)維團(tuán)隊(duì)能夠快速做出響應(yīng)和決策,縮短故障修復(fù)的時(shí)間,提高系統(tǒng)的可用性和可靠性?;A(chǔ)設(shè)施可觀測對于容量規(guī)劃和資源優(yōu)化也起到關(guān)鍵作用。通過對基礎(chǔ)設(shè)施的性能指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)測和分析,企業(yè)可以了解資源的利用率和瓶頸,輔助一些算法還可以預(yù)測未來的需求。這種洞察力有助于優(yōu)化資源配置,提高基礎(chǔ)設(shè)施的利用效率,降低成本,為業(yè)務(wù)的持續(xù)增長提供支持?;A(chǔ)設(shè)施觀測的落地過程,不僅限于單一技術(shù)或工具的應(yīng)用,而是通過整合多個(gè)觀測源和數(shù)據(jù)分析方法,構(gòu)建起一個(gè)全面的基礎(chǔ)設(shè)施觀測體系。這個(gè)體系以實(shí)時(shí)數(shù)據(jù)采集、多維度指標(biāo)分析和可視化展示為核心,為企業(yè)提供對基礎(chǔ)設(shè)施的深入洞察和全面控制能力,從而更好的管理和優(yōu)化基礎(chǔ)設(shè)施。從落地效果來看,某企業(yè)通過可觀測性能力,實(shí)現(xiàn)監(jiān)控告警功能覆蓋服務(wù)器、云主機(jī)、網(wǎng)絡(luò)設(shè)備、安全設(shè)備等多類設(shè)備,對相關(guān)性能25可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)指標(biāo)進(jìn)行監(jiān)控并視圖展示,同時(shí)展示設(shè)備配置、性能、告警相關(guān)動(dòng)態(tài)信息。通過標(biāo)準(zhǔn)化處理和統(tǒng)一規(guī)則配置實(shí)現(xiàn)統(tǒng)一監(jiān)控告警,將
IaaS層的性能指標(biāo)和業(yè)務(wù)流量指標(biāo)相結(jié)合,打通了業(yè)務(wù)系統(tǒng)和IaaS
層資源的關(guān)系,實(shí)現(xiàn)了從業(yè)務(wù)到IaaS
層端到端監(jiān)控。(二)實(shí)時(shí)洞察應(yīng)用性能優(yōu)化需求應(yīng)用服務(wù)架構(gòu)愈加復(fù)雜,應(yīng)用服務(wù)觀測可以提供全面的洞察和優(yōu)化機(jī)會(huì),改進(jìn)應(yīng)用程序的性能、可靠性和用戶體驗(yàn)。新一代IT
應(yīng)用,通常由很多服務(wù)共同構(gòu)建而成,在SOA、微服務(wù)等技術(shù)趨勢下,應(yīng)用架構(gòu)復(fù)雜度明顯上升。任意一筆業(yè)務(wù)交易,都會(huì)流經(jīng)十幾個(gè)乃至上百個(gè)應(yīng)用。應(yīng)用可能由企業(yè)自身研發(fā),也可能是采用外部商業(yè)產(chǎn)品,或者開源產(chǎn)品構(gòu)建。可觀測性技術(shù)不僅可以跟蹤業(yè)務(wù)交易在應(yīng)用服務(wù)之間的流轉(zhuǎn)和調(diào)用,還可以跟蹤應(yīng)用服務(wù)內(nèi)部代碼執(zhí)行、采集應(yīng)用性能指標(biāo)和應(yīng)用運(yùn)行日志,剖析應(yīng)用進(jìn)程或線程內(nèi)函數(shù)調(diào)用的資源消耗。通過數(shù)據(jù)處理和分析能力,建立應(yīng)用性能基線,發(fā)現(xiàn)性能異常,并輔助應(yīng)用開發(fā)人員探索、解決性能瓶頸。應(yīng)用性能可觀測強(qiáng)調(diào)通過多種手段采集和構(gòu)建應(yīng)用拓?fù)潢P(guān)系。應(yīng)用拓?fù)潢P(guān)系是交易跟蹤、異常定位中最有力的數(shù)據(jù)。常見的拓?fù)鋽?shù)據(jù)來源包括應(yīng)用代碼手動(dòng)注入、虛擬機(jī)自動(dòng)注入、網(wǎng)絡(luò)報(bào)文捕獲等。應(yīng)用性能可觀測強(qiáng)調(diào)從更多維度提供、采集和分析應(yīng)用性能指標(biāo)。常見的性能指標(biāo)劃分維度屬性包括:服務(wù)、任務(wù)、環(huán)境、集群、實(shí)例、版本、接口、交易類型等?;诓煌S度之間的指標(biāo)對比分析,是應(yīng)用性能觀測的重要手段之一。應(yīng)用性能指標(biāo)數(shù)據(jù)可以來自應(yīng)用程序自26可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)身輸出、應(yīng)用日志定時(shí)統(tǒng)計(jì)、外部監(jiān)控系統(tǒng)等方式,相比傳統(tǒng)的黑盒監(jiān)控方式,現(xiàn)代化的應(yīng)用程序偏好主動(dòng)對外暴露更多更詳細(xì)的指標(biāo),提供更好的可觀測性。應(yīng)用性能可觀測強(qiáng)調(diào)對應(yīng)用日志進(jìn)行多維度輸出、采集和分析。對于有調(diào)用鏈路的應(yīng)用程序,可以在日志代碼中注入鏈路相關(guān)變量,如環(huán)境、版本、交易ID、鏈路ID等。并在采集處理時(shí),解析提取這些變量,以關(guān)聯(lián)相同維度的其他應(yīng)用性能數(shù)據(jù)。應(yīng)用日志輸出時(shí),還需要注意選擇合理準(zhǔn)確的嚴(yán)重程度和優(yōu)先級。此外,根據(jù)軟件學(xué)報(bào)刊登綜述顯示,分布式系統(tǒng)的缺陷修復(fù)速度,有日志比沒有日志快數(shù)倍到數(shù)十倍,應(yīng)用程序中日志代碼的更新頻率比其他代碼還高。因此,編寫和維護(hù)正確反饋應(yīng)用狀態(tài)的日志代碼,同樣是應(yīng)用性能可觀測的重要手段。應(yīng)用性能可觀測結(jié)合基礎(chǔ)設(shè)施可觀測等,可以發(fā)揮更完整的作用。應(yīng)用性能數(shù)據(jù),通常都會(huì)包含一部分基礎(chǔ)設(shè)施屬性,如實(shí)例、進(jìn)程號等,一部分應(yīng)用性能數(shù)據(jù),也可能包含用戶行為屬性,如交易類型、用戶賬號等。通過屬性關(guān)聯(lián)不同場景的可觀測數(shù)據(jù),將有效提升分析定位的效率。從落地效果看,某廠商通過實(shí)施可觀測性方案,實(shí)現(xiàn)通過可觀測能針對任意時(shí)段的歷史觀測數(shù)據(jù)進(jìn)行聚合分析,即使故障出現(xiàn)后回滾業(yè)務(wù)仍能留存故障現(xiàn)場,輔助研發(fā)人員進(jìn)行故障根因?qū)ぶ沸迯?fù)故障問題,持續(xù)改善業(yè)務(wù)異常。此外,針對并發(fā)流量負(fù)載過大引發(fā)的系統(tǒng)卡頓、系統(tǒng)雪崩問題,提供分層性能下鉆分析視圖,有效發(fā)現(xiàn)性能瓶頸27可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)盲點(diǎn),持續(xù)性能調(diào)優(yōu)。(三)理解用戶需求和優(yōu)化體驗(yàn)將可觀測性技術(shù)應(yīng)用于實(shí)時(shí)用戶行為觀測,可以深入理解和洞察用戶行為模式,從而支持決策制定、用戶體驗(yàn)優(yōu)化和業(yè)務(wù)增長。用
戶行為數(shù)據(jù)是為企業(yè)獲取競爭優(yōu)勢的關(guān)鍵資源。通過對用戶行為的觀測和分析,企業(yè)可以更好地了解用戶需求,優(yōu)化產(chǎn)品設(shè)計(jì),提升用戶體驗(yàn),從而實(shí)現(xiàn)業(yè)務(wù)增長。然而,傳統(tǒng)的用戶行為觀測方法往往無法滿足大規(guī)模、實(shí)時(shí)和多維度的數(shù)據(jù)分析需求。因此,可觀測性技術(shù)如何在用戶行為觀測方面高效應(yīng)用尤為重要。用戶行為分析。通過觀測用戶行為數(shù)據(jù),可以深入了解用戶在應(yīng)用或平臺上的行為模式,如前端頁面訪問、點(diǎn)擊事件、滾動(dòng)行為等。并將其對應(yīng)后臺服務(wù)鏈路信息關(guān)聯(lián)呈現(xiàn),這有助于了解用戶偏好、需求和行為路徑,從而進(jìn)行用戶行為分析,發(fā)現(xiàn)用戶行為的趨勢和模式,為業(yè)務(wù)決策提供數(shù)據(jù)支持。用戶體驗(yàn)優(yōu)化??捎^測的用戶行為數(shù)據(jù)可以揭示用戶在使用應(yīng)用或平臺時(shí)的痛點(diǎn)和障礙,例如頁面加載時(shí)間過長、復(fù)雜的導(dǎo)航結(jié)構(gòu)等。通過分析用戶行為數(shù)據(jù),可以及時(shí)發(fā)現(xiàn)潛在的用戶體驗(yàn)問題,如性能瓶頸、功能異常等,并采取相應(yīng)的優(yōu)化措施,識別和改善用戶體驗(yàn)問題,提升用戶滿意度和留存率。個(gè)性化推薦和營銷。通過采集到用戶行為的可觀測性數(shù)據(jù),可以幫助企業(yè)對其行為進(jìn)行深入分析,挖掘用戶的使用習(xí)慣、偏好和需求。例如,通過對用戶在不同時(shí)間、地點(diǎn)和設(shè)備上的行為數(shù)據(jù)進(jìn)行分析,28可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)企業(yè)可以發(fā)現(xiàn)用戶的活躍時(shí)段、地域分布和設(shè)備偏好等信息,從而為產(chǎn)品優(yōu)化和營銷策略制定提供依據(jù)。A/B測試和優(yōu)化??捎^測的用戶行為數(shù)據(jù)可以用于進(jìn)行A/B測試和優(yōu)化實(shí)驗(yàn)。通過對比不同版本或策略對用戶行為和指標(biāo)的影響,可以確定最佳實(shí)踐和策略,優(yōu)化產(chǎn)品功能、界面設(shè)計(jì)和營銷策略,提高用戶參與度和業(yè)務(wù)績效。從落地效果看,某企業(yè)基于可觀測性前哨用戶真實(shí)體驗(yàn)分析能夠有效度量產(chǎn)品功能易用性,基于用戶行為數(shù)據(jù)清晰勾勒用戶操作路徑分析各階段耗時(shí)進(jìn)行優(yōu)化改善;同時(shí),通過分析頁面卡頓、報(bào)錯(cuò)、白屏等異常明細(xì)輔助研發(fā)人員定位修復(fù),持續(xù)改善前端體驗(yàn)感知,圍繞產(chǎn)品可用、好用、易用目標(biāo)提升客戶滿意度,增加產(chǎn)品粘性。(四)精準(zhǔn)控制變更并優(yōu)化發(fā)布效果變更與發(fā)布環(huán)節(jié)風(fēng)險(xiǎn)巨大,實(shí)時(shí)可見性和洞察力尤為重要,有效利用可觀測性,能精準(zhǔn)控制變更并優(yōu)化發(fā)布效果。隨著核心業(yè)務(wù)從穩(wěn)態(tài)IT架構(gòu)向敏捷IT
架構(gòu)的大規(guī)模遷移,微服務(wù)等技術(shù)將應(yīng)用系統(tǒng)劃分為小而靈活的部分,并通過緊密的相互聯(lián)系和反饋將整個(gè)系統(tǒng)緊密串聯(lián)起來,持續(xù)集成和持續(xù)部署(CI/CD)已成為現(xiàn)代軟件開發(fā)的核心理念。在這種背景下,應(yīng)用發(fā)布導(dǎo)致的變更、例行維護(hù)的配置修改以及資源配額的調(diào)整等部署發(fā)布行為都帶來未知的風(fēng)險(xiǎn),因此,變更與發(fā)布環(huán)節(jié)的可觀測性顯得尤為重要。變更與發(fā)布的可觀測性通過技術(shù)手段收集和感知系統(tǒng)運(yùn)行中的各種變更,實(shí)時(shí)反饋?zhàn)兏鼱顟B(tài),以便及時(shí)發(fā)現(xiàn)和解決問題,提高部署29可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)效率和成功率。變更與發(fā)布可觀測主要分為三個(gè)環(huán)節(jié),應(yīng)用系統(tǒng)啟動(dòng)前、運(yùn)行過程中、計(jì)劃內(nèi)變更后。應(yīng)用系統(tǒng)啟動(dòng)前,變更可觀測主要關(guān)注基礎(chǔ)環(huán)境的資源變化、配額變化、網(wǎng)絡(luò)環(huán)境和操作系統(tǒng)參數(shù),以及應(yīng)用層面的啟動(dòng)文件、配置文件(如yml、xml
等)和數(shù)據(jù)庫層面的字段變化和配置文件變化。這樣的可觀測性能夠在應(yīng)用系統(tǒng)啟動(dòng)及投產(chǎn)前,幫助運(yùn)維人員提前了解啟動(dòng)環(huán)境,評估部署風(fēng)險(xiǎn),并制定相應(yīng)的風(fēng)險(xiǎn)控制策略。應(yīng)用系統(tǒng)運(yùn)行環(huán)節(jié),可以實(shí)時(shí)收集、分析和呈現(xiàn)部署過程中的關(guān)鍵指標(biāo),可關(guān)注應(yīng)用運(yùn)行態(tài)的變化,例如:應(yīng)用集群中單實(shí)例的負(fù)載分發(fā)和掛載狀態(tài),容器中是否有個(gè)別pod狀態(tài)掛起等,還可通過對運(yùn)行中熱生效的應(yīng)用配置文件、數(shù)據(jù)庫配置開關(guān)表狀態(tài)位的變化、應(yīng)用開關(guān)流程情況,以便可隨時(shí)觀測應(yīng)用系統(tǒng)運(yùn)行狀態(tài)和風(fēng)險(xiǎn)點(diǎn),以及應(yīng)用系統(tǒng)自愈能力執(zhí)行進(jìn)度、結(jié)果等觀測,了解和管理系統(tǒng)整體的高可用性。這有助于企業(yè)及時(shí)發(fā)現(xiàn)部署過程中的問題,如部署失敗、性能下降等,并采取相應(yīng)的優(yōu)化措施。計(jì)劃內(nèi)變更后,根據(jù)變更需求方場景,選取特定的業(yè)務(wù)指標(biāo)、應(yīng)用層包括中間件、節(jié)點(diǎn)流量、灰度分發(fā)等,進(jìn)行計(jì)劃內(nèi)變更前后的可觀測數(shù)據(jù)對照觀測,能夠輔助運(yùn)維提升分析定位的效率,了解變更前后的系統(tǒng)反應(yīng)狀態(tài),從而提前采取措施降低風(fēng)險(xiǎn)。當(dāng)部署過程中出現(xiàn)問題時(shí),可觀測性技術(shù)可以幫助企業(yè)快速制定回滾策略,恢復(fù)到上一個(gè)穩(wěn)定版本。從落地效果看,某企業(yè)將可觀測性深度集成到變更環(huán)節(jié)中,用戶30可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)將業(yè)務(wù)層、應(yīng)用層以及基礎(chǔ)架構(gòu)層面的監(jiān)控信息進(jìn)行匯聚,關(guān)注故障切換或變更環(huán)節(jié),業(yè)務(wù)的關(guān)鍵指標(biāo)沒有明顯波動(dòng),應(yīng)用層和基礎(chǔ)層對應(yīng)服務(wù)的能力是否滿足對應(yīng)的SLA要求。(五)洞悉業(yè)務(wù)狀況并提升決策能力業(yè)務(wù)運(yùn)營觀測是對企業(yè)核心業(yè)務(wù)運(yùn)營狀態(tài)和相關(guān)指標(biāo)進(jìn)行監(jiān)測、分析和評估的過程。它涉及不同的業(yè)務(wù)指標(biāo)和業(yè)務(wù)流程,并呈現(xiàn)出多樣化的展示方式,因此在標(biāo)準(zhǔn)化落地方面存在一定挑戰(zhàn)。然而,總體而言,業(yè)務(wù)運(yùn)營觀測可從三個(gè)主要方向展開,即業(yè)務(wù)形態(tài)、財(cái)務(wù)安全和體驗(yàn)反饋。首先,業(yè)務(wù)形態(tài)觀測是企業(yè)所開展的核心業(yè)務(wù)場景以及支持核心業(yè)務(wù)開展的周邊服務(wù)的運(yùn)營狀態(tài)的數(shù)據(jù)采集、匯總計(jì)算和輸出展示。企業(yè)可通過多種觀測指標(biāo),了解和掌握當(dāng)前業(yè)務(wù)形態(tài)的運(yùn)營情況,如:時(shí)序化業(yè)務(wù)流量、交易量、轉(zhuǎn)化率、增長/下跌率等,同時(shí)業(yè)務(wù)形態(tài)也是承接上游客戶使用及反饋情況和下游財(cái)務(wù)數(shù)據(jù)的扭力點(diǎn),對業(yè)務(wù)運(yùn)營觀測整體能力起到核心作用。其次,財(cái)務(wù)安全觀測是以一致性為基礎(chǔ)的觀測能力,應(yīng)覆蓋對不同類型流水?dāng)?shù)據(jù)的一致性校驗(yàn)觀測能力,例如:時(shí)序數(shù)據(jù)、文件數(shù)據(jù)等,支持的一致性規(guī)則例如:業(yè)務(wù)財(cái)務(wù)、財(cái)務(wù)賬務(wù)、賬務(wù)實(shí)繳等觀測規(guī)則。然后是體驗(yàn)反饋觀測,隨著可觀測技術(shù)能力和范疇逐步擴(kuò)大,除了格式化數(shù)據(jù)的反饋結(jié)果以外,人與人之間的對話也可通過自然語言處理等技術(shù)進(jìn)行多維度的觀測展示,包括:反饋風(fēng)險(xiǎn)、滿意度、服務(wù)31可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)質(zhì)量、熱點(diǎn)詞匯等。最終,運(yùn)維人員可通過業(yè)務(wù)運(yùn)營觀測大盤,通過實(shí)時(shí)業(yè)務(wù)狀態(tài)串聯(lián)基礎(chǔ)設(shè)施、應(yīng)用服務(wù)、用戶行為等觀測數(shù)據(jù)綜合把控,從再深一層次來看,通過一定程度的觀測數(shù)據(jù)積累,結(jié)合大數(shù)據(jù)分析技術(shù),幫助決策層掌握企業(yè)業(yè)務(wù)運(yùn)營中的風(fēng)險(xiǎn)動(dòng)態(tài),為決策分析提供有力支持。從落地效果看,某企業(yè)利用可觀測性實(shí)現(xiàn)業(yè)務(wù)全路徑追蹤分析能力,以業(yè)務(wù)訪問拓?fù)浜托阅苤笜?biāo)數(shù)據(jù)構(gòu)建業(yè)務(wù)訪問全景圖,以上帝視角對業(yè)務(wù)訪問質(zhì)量進(jìn)行觀測,通過單筆交易追蹤能力在全網(wǎng)觀察節(jié)點(diǎn)進(jìn)行追蹤分析,直觀呈現(xiàn)故障發(fā)生位置。八、可觀測性發(fā)展趨勢(一)可觀測技術(shù)發(fā)展趨勢融合更豐富人工智能與機(jī)器學(xué)習(xí)能力。隨著大量數(shù)據(jù)的產(chǎn)生,人工智能和機(jī)器學(xué)習(xí)技術(shù)將在可觀測性系統(tǒng)中發(fā)揮越來越重要的作用。通過對數(shù)據(jù)進(jìn)行智能分析,可以實(shí)現(xiàn)故障預(yù)測、自動(dòng)診斷和自動(dòng)修復(fù),結(jié)合人工智能大模型,指導(dǎo)知識庫和專家系統(tǒng)進(jìn)行更多維度分析預(yù)測,從而提高系統(tǒng)的穩(wěn)定性和可靠性。端到端的可觀測性。系統(tǒng)和軟件的核心并不是其本身,核心在于業(yè)務(wù),未來的可觀測性系統(tǒng)將覆蓋整個(gè)應(yīng)用生命周期,從開發(fā)、測試、部署到運(yùn)維,實(shí)現(xiàn)端到端的監(jiān)控和管理。這將有助于更好地理解系統(tǒng)的性能瓶頸,優(yōu)化資源分配,提高服務(wù)質(zhì)量,最終和業(yè)務(wù)深度結(jié)合,做到“始于業(yè)務(wù),終于業(yè)務(wù)”。實(shí)時(shí)性和動(dòng)態(tài)性。隨著實(shí)時(shí)計(jì)算和流處理技術(shù)的發(fā)展,可觀測性32可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)系統(tǒng)將能夠?qū)崟r(shí)地收集、分析和呈現(xiàn)數(shù)據(jù),幫助開發(fā)者和運(yùn)維人員快速發(fā)現(xiàn)和解決問題。此外,可觀測性系統(tǒng)將具備更強(qiáng)的動(dòng)態(tài)性,能夠根據(jù)系統(tǒng)的實(shí)際運(yùn)行情況自動(dòng)調(diào)整監(jiān)控策略和告警閾值,實(shí)現(xiàn)系統(tǒng)運(yùn)行時(shí)的故障自愈。安全性和隱私保護(hù)。隨著網(wǎng)絡(luò)安全和數(shù)據(jù)隱私問題日益嚴(yán)重,可觀測性系統(tǒng)將更加注重安全性和隱私保護(hù),安全和可觀測性的合并,已在全球范圍內(nèi)形成一種趨勢。這包括對數(shù)據(jù)的加密存儲和傳輸,以及對敏感信息的脫敏處理等??捎^測性是通過檢查其輸出來衡量系統(tǒng)內(nèi)部狀態(tài)的能力,收集了系統(tǒng)的方方面面,通過這些數(shù)據(jù)可以分析出系統(tǒng)的故障,自然也就能夠分析出系統(tǒng)有沒有被入侵。(二)可觀測產(chǎn)業(yè)生態(tài)趨勢人才需求快速增長,技能要求更綜合。隨著可觀測性技術(shù)的廣泛應(yīng)用和重要性的提升,對于具備相關(guān)技能和知識的人才的需求也在不斷增長??捎^測性技術(shù)涵蓋了多個(gè)領(lǐng)域,包括監(jiān)控、日志管理、性能分析等。因此,從業(yè)人員需要具備綜合的技能和知識,能夠熟練應(yīng)用各種監(jiān)控和分析工具,并具備故障排查和問題解決的能力??鐚W(xué)科的綜合技能將成為未來可觀測性領(lǐng)域人才的重要能力要求。多方合作,促進(jìn)生態(tài)建設(shè)。研究機(jī)構(gòu)、行業(yè)用戶和解決方案提供商之間的合作和協(xié)作將變得更加緊密。共同推動(dòng)標(biāo)準(zhǔn)化、技術(shù)創(chuàng)新和最佳實(shí)踐的共享,進(jìn)一步發(fā)展可觀測性技術(shù)的生態(tài)系統(tǒng)。合作將有助于加速技術(shù)的進(jìn)步和應(yīng)用的推廣,形成更加健康和繁榮的可觀測性產(chǎn)業(yè)生態(tài)。33可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)開源項(xiàng)目豐富,推動(dòng)生態(tài)繁榮??捎^測性領(lǐng)域的開源項(xiàng)目和工具正在不斷涌現(xiàn),為行業(yè)提供了豐富的選擇和技術(shù)支持,如附件1所示。這些開源項(xiàng)目和工具為用戶提供了靈活、可定制的可觀測性解決方案,促進(jìn)了行業(yè)內(nèi)的創(chuàng)新和技術(shù)發(fā)展。34可觀測性技術(shù)發(fā)展研究報(bào)告(2023
年)附件
1表1
可觀測性開源項(xiàng)目項(xiàng)目名稱項(xiàng)目/協(xié)議描述開源時(shí)間開源機(jī)構(gòu)開源的監(jiān)控和報(bào)警工具,廣泛應(yīng)用于云原生環(huán)境中。它具有強(qiáng)大的數(shù)據(jù)收集、查詢和報(bào)警功能,可以監(jiān)控各種應(yīng)用程序、系統(tǒng)組件和服務(wù)的性能指標(biāo)。SoundCloudProm
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 委托制作節(jié)目光盤合同范例
- 買賣雙方送貨合同范例
- 公司股購買合同模板
- 小孩上學(xué)勞務(wù)合同范例
- 中介合同與個(gè)人合同范例
- 產(chǎn)品安裝合同范例
- 意向就業(yè)合同范例
- 店面轉(zhuǎn)讓合同范例簡寫
- 勞務(wù)股東合同范例
- 工裝材料購銷合同范例
- 基本農(nóng)田劃定技術(shù)規(guī)程(TDT1032-2011)
- 走近湖湘紅色人物知到章節(jié)答案智慧樹2023年湖南工商大學(xué)
- 第二章-熱力學(xué)第二定律課件
- 07FS02 防空地下室給排水設(shè)施安裝
- 籍貫對照表完整版
- 船舶醫(yī)療救助程序
- 一年級數(shù)學(xué)上冊2位置第1課時(shí)上下前后作業(yè)新人教版
- 發(fā)展?jié)h語(第二版)中級寫作教案
- 工傷賠償和解書協(xié)議書(3篇)
- GB/T 70.1-2008內(nèi)六角圓柱頭螺釘
- GB/T 16475-2008變形鋁及鋁合金狀態(tài)代號
評論
0/150
提交評論