




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
II遙測數(shù)據(jù)采集方案2023PAGE\*ROMANPAGE\*ROMANIV目錄一、背景 1(一)網(wǎng)絡(luò)遙測技術(shù) 1(二)面向應(yīng)用的網(wǎng)絡(luò)遙測技術(shù)(ServiceTelemetry) 1二、應(yīng)用場景 3(一)場景一:應(yīng)用畫像 3業(yè)務(wù)染色 3業(yè)務(wù)實(shí)例畫像 4業(yè)務(wù)實(shí)例轉(zhuǎn)發(fā)路徑 4數(shù)據(jù)定義 5(二)場景二:微突發(fā)監(jiān)控 6微突發(fā)的定義 6微突發(fā)的原因 7微突發(fā)的影響 8微突發(fā)監(jiān)控的實(shí)現(xiàn) 8微突發(fā)數(shù)據(jù)分析 9數(shù)據(jù)定義 9三、采集規(guī)范 10(一)系統(tǒng)架構(gòu) 10(二)下發(fā)和采集規(guī)范 10下發(fā)方式 10上報(bào)方式 14PAGEPAGE12一、背景圖1傳統(tǒng)網(wǎng)絡(luò)遙測技術(shù)與ServiceTelemetry的對比圖(一)網(wǎng)絡(luò)遙測技術(shù)廣義上說,網(wǎng)絡(luò)遙測技術(shù)(Telemetry)是指從設(shè)備上采集高精度數(shù)據(jù),為網(wǎng)管系統(tǒng)定制信息、并通過設(shè)備實(shí)時(shí)主動(dòng)推送數(shù)據(jù)的技術(shù)。不同于傳統(tǒng)網(wǎng)絡(luò)測量技術(shù)采集數(shù)據(jù)以IP報(bào)文格式呈現(xiàn)給分析工具,網(wǎng)絡(luò)遙測技術(shù)通常使用“推模式”,支持亞秒級精度的數(shù)據(jù)采集和格式化數(shù)據(jù)傳輸。(二)面向應(yīng)用的網(wǎng)絡(luò)遙測技術(shù)(ServiceTelemetry)圖2基于ServiceTelemetry的業(yè)務(wù)監(jiān)控框架AI,ServiceTelemetry備運(yùn)維到業(yè)務(wù)通信運(yùn)維的升級。要求一:業(yè)務(wù)質(zhì)量精確可視承載著基礎(chǔ)轉(zhuǎn)發(fā)能力的物理網(wǎng)絡(luò)任何一個(gè)小問題都會影響到應(yīng)用的質(zhì)量,傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維視角只關(guān)注帶寬使用情況,丟包具體內(nèi)容和原因等指標(biāo),但這些指標(biāo)對業(yè)務(wù)的性能產(chǎn)生多大的影響,無法有效的關(guān)聯(lián)。只有將網(wǎng)絡(luò)指標(biāo)和應(yīng)用指標(biāo)相互關(guān)聯(lián),構(gòu)建出業(yè)務(wù)流的畫像的系統(tǒng),才能精確度量出應(yīng)用的運(yùn)行情況。要求二:分布式應(yīng)用不斷升級,如何優(yōu)化長尾IO隨著應(yīng)用架構(gòu)逐漸向分布式發(fā)展,導(dǎo)致大量incast也進(jìn)一步增大網(wǎng)絡(luò)吞吐壓力。同時(shí)存儲介質(zhì)的不斷升級,網(wǎng)絡(luò)IOIO要求三:問題快速界定大規(guī)模的網(wǎng)絡(luò)故障發(fā)現(xiàn)難,問題界定更難,比如網(wǎng)絡(luò)微突發(fā)抖動(dòng)很常見并不易感知,而應(yīng)用對時(shí)延的抖動(dòng)問題卻很敏感。需要分析瓶頸在應(yīng)用側(cè)還是網(wǎng)絡(luò)設(shè)備,原因具體是什么,該怎樣解決誰來解決。ServiceTelemetry盒子,為未來向業(yè)務(wù)故障預(yù)測、應(yīng)用驅(qū)動(dòng)網(wǎng)絡(luò)等愿景前進(jìn)打下基礎(chǔ)。ServiceTelemetry應(yīng)用模型畫像度量業(yè)務(wù)實(shí)例性能影響的關(guān)鍵指標(biāo):比如TPS\QPS\IOPS、IO抖動(dòng)、長尾IO。業(yè)務(wù)瓶頸識別:帶寬、時(shí)延敏感流識別。高精度網(wǎng)絡(luò)度量實(shí)現(xiàn)微突發(fā)現(xiàn)象監(jiān)控和自愈;實(shí)現(xiàn)業(yè)務(wù)流量端到端逐跳時(shí)微秒級度量。隨流技術(shù)檢測精確測量每條業(yè)務(wù)的丟包率/時(shí)延信息;精確還原業(yè)務(wù)轉(zhuǎn)發(fā)面路徑信息背景。二、應(yīng)用場景(一)場景一:應(yīng)用畫像ServiceTelemetry平臺實(shí)現(xiàn)業(yè)務(wù)的關(guān)鍵數(shù)據(jù)采集和TPS\QPS\IOPSlatencyp99、p999畫像的系統(tǒng),才能精確度量出應(yīng)用的運(yùn)行情況。業(yè)務(wù)染色應(yīng)用架構(gòu)分布式發(fā)展、多種硬件卸載技術(shù)廣泛應(yīng)用,對于應(yīng)用畫像精確而不額外增加網(wǎng)絡(luò)通信開銷。針對這一問題,ServiceTelemetry務(wù)在對數(shù)據(jù)結(jié)構(gòu)定義時(shí),在IP報(bào)文四層頭后面插入特定報(bào)文頭標(biāo)記報(bào)文(染色字段),并打上相應(yīng)的時(shí)間戳。業(yè)務(wù)實(shí)例畫像業(yè)務(wù)端染色完成后,進(jìn)入接入層網(wǎng)絡(luò)設(shè)備,設(shè)備在轉(zhuǎn)發(fā)芯片內(nèi)建立一個(gè)Service_Table,IPIP號(Service_Seq)唯一標(biāo)識一個(gè)業(yè)務(wù)實(shí)例,這個(gè)表里同時(shí)還記錄該實(shí)例的時(shí)間戳、業(yè)務(wù)實(shí)例類型、業(yè)務(wù)實(shí)例編號、業(yè)務(wù)實(shí)例傳輸大小等信息;并Parser解析業(yè)務(wù)IP報(bào)文頭,判斷業(yè)務(wù)實(shí)例編號(Service_Seq)中不存在時(shí),則創(chuàng)建一條實(shí)例表項(xiàng);如該業(yè)務(wù)實(shí)例編號(Service_Seq)Service_TableServiceService_TableService_TableServiceTelemetrystreamIO、IO業(yè)務(wù)實(shí)例轉(zhuǎn)發(fā)路徑ServiceTelemetry平臺分析發(fā)現(xiàn)業(yè)務(wù)性能的一些異常情況,比如業(yè)IO以進(jìn)一步對網(wǎng)絡(luò)進(jìn)行分析,找出問題網(wǎng)絡(luò)設(shè)備或者鏈路。具體過程如下:ServiceTelemetryID,網(wǎng)絡(luò)設(shè)備質(zhì)量狀態(tài)等信息,目的服務(wù)器收到ServiceTelemetryTelemetry數(shù)據(jù)定義業(yè)務(wù)實(shí)例數(shù)據(jù)表(Service_Table)定義屬性含義數(shù)據(jù)類型數(shù)據(jù)長度DestinationIP業(yè)務(wù)實(shí)例響應(yīng)端IP地址int4BSourceIP業(yè)務(wù)實(shí)例發(fā)起端IP地址int4BServiceSequence業(yè)務(wù)實(shí)例序列號int2BServiceType業(yè)務(wù)實(shí)例類型int1BServiceSize業(yè)務(wù)實(shí)例大小int1BTimestamp業(yè)務(wù)發(fā)起時(shí)間double4BTimestampUpdate業(yè)務(wù)最近更新時(shí)間double4B業(yè)務(wù)實(shí)例轉(zhuǎn)發(fā)路徑表定義:屬性U含義數(shù)據(jù)類型數(shù)據(jù)長度Device-ID網(wǎng)絡(luò)設(shè)備IDint4ByteCongestion擁塞標(biāo)志位int5bitDropPkt業(yè)務(wù)實(shí)例序列號int1ByteIPTTL報(bào)文的TTL值int1ByteRxTimestamp入接口時(shí)間戳double2ByteTxTimestamp出接口時(shí)間戳double2ByteIngressPort入接口int2ByteEgressPort出接口int2Byte配置下發(fā)數(shù)據(jù)定義屬性含義數(shù)據(jù)類型數(shù)據(jù)長度DeviceID網(wǎng)絡(luò)設(shè)備IDint1ByteCollectoraddress采集器IP地址int4ByteDestinationport采集器端口號int2ByteSourceaddress網(wǎng)絡(luò)設(shè)備上送源IPint4ByteSourceport網(wǎng)絡(luò)設(shè)備上送源端口int2Byte業(yè)務(wù)實(shí)例異常數(shù)據(jù)表屬性含義數(shù)據(jù)類型數(shù)據(jù)長度DestinationIP業(yè)務(wù)實(shí)例響應(yīng)端IP地址int4ByteSourceIP業(yè)務(wù)實(shí)例發(fā)起端IP地址int4ByteServiceSequence業(yè)務(wù)實(shí)例序列號int2ByteErrorType異常類型int1Byte(二)場景二:微突發(fā)監(jiān)控微突發(fā)的定義業(yè)務(wù)流量微突發(fā)(Microburst)是數(shù)據(jù)中心網(wǎng)絡(luò)中一種常見的現(xiàn)象,是端口在非常短的時(shí)間(毫秒級別)內(nèi)收到非常多的突發(fā)數(shù)據(jù),典型的微突發(fā)的持續(xù)時(shí)間通常在1~100毫秒之間,以至于瞬時(shí)突發(fā)速率達(dá)到平均速率的數(shù)十倍、數(shù)百倍,甚至超過端口帶寬的現(xiàn)象。微突發(fā)流量會降低數(shù)據(jù)中心業(yè)絡(luò)帶寬監(jiān)控的粒度比較粗,snmp,Telemetry度也只能做到秒級,而要發(fā)現(xiàn)網(wǎng)絡(luò)環(huán)境中的微突發(fā)現(xiàn)象,通常需要ms3.1,實(shí)際的微突發(fā)流量是綠色曲線,監(jiān)控平臺往往讀到的是顆粒度比較粗的藍(lán)色流量曲線,無法及時(shí)監(jiān)控到微突發(fā)現(xiàn)象。圖3數(shù)據(jù)中心流量業(yè)務(wù)微突發(fā)場景微突發(fā)的原因業(yè)務(wù)流量存在波動(dòng):很多通用的業(yè)務(wù)模型下,用戶的請求和服務(wù)器的響應(yīng)是離散出現(xiàn)的,導(dǎo)致業(yè)務(wù)流量是間歇性的,不穩(wěn)定。同時(shí)對時(shí)延和帶寬敏感的業(yè)務(wù)要求盡快發(fā)送數(shù)據(jù),加劇業(yè)務(wù)的突發(fā)性。TCPTCPTCP期望把發(fā)送窗口中的數(shù)據(jù)盡快發(fā)送完,所以會在等待TCP(ACK)到來后,通過滑動(dòng)窗口機(jī)制再繼續(xù)發(fā)送數(shù)據(jù),如此循環(huán),使得發(fā)包速率不平緩,突發(fā)性強(qiáng)。流量的入端口總帶寬和超過出端口的總帶寬。廣泛存在在數(shù)據(jù)中心的分布式應(yīng)用,會存在高帶寬端口向低帶寬的出端口轉(zhuǎn)發(fā)流量、多個(gè)入端口向一QoS端口限速。設(shè)計(jì)不合理的UDP通信程序,短時(shí)間內(nèi)發(fā)出大量burst包,不做延時(shí)。微突發(fā)的影響當(dāng)微突發(fā)流量的瞬時(shí)速率超過網(wǎng)絡(luò)設(shè)備的轉(zhuǎn)發(fā)能力時(shí),網(wǎng)絡(luò)設(shè)備會將突發(fā)的數(shù)據(jù)進(jìn)行緩存以便稍后發(fā)送。但是在數(shù)據(jù)中心網(wǎng)絡(luò)里大多采用小緩存的盒式網(wǎng)絡(luò)設(shè)備,一旦緩存溢出,會導(dǎo)致出現(xiàn)大量丟包的情況,影響到業(yè)務(wù)性能。微突發(fā)監(jiān)控的實(shí)現(xiàn)傳統(tǒng)監(jiān)控微突發(fā)的方案是針對所有的流量進(jìn)行實(shí)時(shí)的監(jiān)控和統(tǒng)計(jì),利用流表來記錄五元組并持續(xù)計(jì)數(shù),但受限于網(wǎng)絡(luò)設(shè)備芯片流表容量,無法做到全量監(jiān)控,同時(shí)因?yàn)橥话l(fā)是微秒級別,并瞬間存在,控制面無法及時(shí)捕獲。更重要的是,網(wǎng)絡(luò)運(yùn)營團(tuán)隊(duì)對微突發(fā)和丟包問題不僅需要精確發(fā)生的時(shí)間,更需要準(zhǔn)確知道發(fā)生導(dǎo)致微突發(fā)現(xiàn)象具體報(bào)文的內(nèi)容以及關(guān)聯(lián)的具體業(yè)務(wù)。ServiceTelemetry平臺的微突發(fā)監(jiān)控重點(diǎn)針對這幾方面的難點(diǎn)進(jìn)行優(yōu)化,實(shí)現(xiàn)了高效準(zhǔn)確的微突發(fā)監(jiān)控。具體實(shí)現(xiàn)方法:MMU(水線代表在一個(gè)時(shí)間窗口內(nèi)的緩存計(jì)數(shù))就給后續(xù)報(bào)文都打上微突發(fā)標(biāo)記,當(dāng)收到的報(bào)文超過MMU棄標(biāo)記。在交換機(jī)出方向匹配到microburst標(biāo)記位時(shí),從報(bào)文中抽取五元組信息并以精確匹配方式查找該設(shè)備的微突發(fā)五元組流表,如果沒有命中則意味這這是一條受本微突發(fā)影響的新流因而在該表中插入一條新條目,包括五元組,時(shí)間戳、入口端口信息、隊(duì)列信息、出口隊(duì)列緩存的使用率等,設(shè)備啟動(dòng)針對該五元組進(jìn)行counter計(jì)數(shù)(pkt數(shù)和Byte數(shù))。同時(shí)設(shè)備啟動(dòng)啟用周期性定時(shí)器,當(dāng)設(shè)備長時(shí)間不再檢測到該流存在擁塞或者報(bào)文緩存回落到微突發(fā)結(jié)束水線,則認(rèn)為擁塞現(xiàn)象已經(jīng)消失,發(fā)送最后一個(gè)ServiceTelemetryStream后流表老化,并釋放相關(guān)資源。微突發(fā)數(shù)據(jù)分析ServiceTelemetry時(shí)間,報(bào)文技術(shù)等指標(biāo),得出對業(yè)務(wù)造成關(guān)鍵影響的業(yè)務(wù)流量。數(shù)據(jù)定義屬性含義數(shù)據(jù)類型數(shù)據(jù)長度CPUTimer基于流的微突發(fā)信息上送Collectorint1BytesdropCn-byte微突發(fā)導(dǎo)致丟包數(shù)字節(jié)數(shù)int2BytesdropCn-pkt微突發(fā)導(dǎo)致丟包數(shù)int2BytesDropthreshold微突發(fā)丟包水線int2BytesFinishthreshold微突發(fā)buffer結(jié)束水線int2BytesFinishTimer多少時(shí)間沒有收到微突發(fā)采樣報(bào)文,判斷為微突發(fā)結(jié)束int4BytesMicroburstCnt-byte微突發(fā)的報(bào)文字節(jié)數(shù)int2BytesMicroburstCnt-pkt微突發(fā)的報(bào)文數(shù)int2BytesSample按多少進(jìn)行采樣int2BytesStartthreshold微突發(fā)buffer觸發(fā)水線int2Bytes三、采集規(guī)范(一)系統(tǒng)架構(gòu)圖4ServiceTelemetry的系統(tǒng)框架(二)下發(fā)和采集規(guī)范下發(fā)方式(1)gRPCDial-in模式Telemetry,ServiceTelemetrygRPCDial-ingRPCgRPCgRPC交互協(xié)議、接口TelemetrygnmisetprotobufSetRequestSetResponse數(shù)據(jù)結(jié)構(gòu)說明:下發(fā)配置,pathkeypathleafleaf。updatevalTypedValuejson_valyangjson。如果同一個(gè)key值下有多個(gè)子KEY,請封裝到多個(gè)updata消息下發(fā)。pathelementyangpathxpath。ServiceTelemetry數(shù)據(jù)采集方案白皮書上報(bào)方式ServiceTelemetryStreamServiceTelemetryStream計(jì)結(jié)果上報(bào)給采集器,合并處理后存入ServiceTelemetry分析平臺。ServiceTelemetryStream可以將業(yè)務(wù)實(shí)例類型、業(yè)務(wù)實(shí)例大小,完成時(shí)隊(duì)列信息、以及每一跳的耗費(fèi)的時(shí)延的時(shí)間戳信息封裝成標(biāo)準(zhǔn)IPIPFIX(MessageHeader),再根據(jù)不同的應(yīng)用IPFIXSets。ServiceTelemetryStreamHeaderFormat屬性含義數(shù)據(jù)類型數(shù)據(jù)長度VersionIPFIX版本int2ByteLength采集器IP地址int2ByteExportTimeIPFIX消息頭離開Exporter的時(shí)間,表示自1970年1月1日起的UNIX時(shí)間的秒數(shù)int4ByteSequenceNumber報(bào)文序列號int4ByteObservationDomainID上送的網(wǎng)絡(luò)設(shè)備int4ByteTemplateSetFormat業(yè)務(wù)畫像Streamset定義微突發(fā)監(jiān)控Streamset定義gRPCdial-out采用基于gRPC的設(shè)備可以自動(dòng)讀取各種統(tǒng)計(jì)網(wǎng)絡(luò)數(shù)據(jù)信息,根據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉庫貨物入庫流程分析計(jì)劃
- 第11課《送東陽馬生序》教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語文九年級下冊
- 《甕福(集團(tuán))有限責(zé)任公司對門坡磷礦(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評審意見
- 《貴州省安龍縣戈塘金礦(整合)(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》專家組評審意見
- 銀行信貸知識培訓(xùn)課件
- 酒吧衛(wèi)生知識培訓(xùn)課件
- 老年護(hù)理皮腫
- 供應(yīng)鏈金融管理科學(xué)與工程
- 統(tǒng)編版小學(xué)語文二年級下冊《語文園地七》精美課件
- 2025年海南貨運(yùn)資格考試答案
- 關(guān)鍵過程(工序)和特殊過程(工序)管理辦法
- 某電廠330MW機(jī)組八級熱力系統(tǒng)及管道通流部分的設(shè)計(jì)
- 高考新材料作文——如何處理材料作文所給材料
- 220kV輸電線路工程質(zhì)量通病防治措施
- 【EHS流程圖】建設(shè)項(xiàng)目職業(yè)衛(wèi)生“三同時(shí)”工作流程圖(9頁)
- 邁達(dá)斯建模(貝雷梁、鋼棧橋)
- [考研英語]商志英語作文模板
- Fluent出入口邊界條件設(shè)置及實(shí)例解析
- 模擬追溯演練報(bào)告(成品到原料)
- 常用一線降壓藥一覽表
- IATF16949-2016內(nèi)部審核方案
評論
0/150
提交評論