基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究_第1頁
基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究_第2頁
基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究_第3頁
基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究_第4頁
基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、    基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究    呂垚 向華偉 王林 何映軍摘 要:云南電網(wǎng)有限責任公司信息中心(以下簡稱云南電網(wǎng)公司)擁有多個不同廠商it監(jiān)控系統(tǒng),由于運維監(jiān)控數(shù)據(jù)沒有統(tǒng)一的標準和規(guī)范,導致監(jiān)控數(shù)據(jù)的利用率不高,尤其是各種硬件設備、網(wǎng)絡、中間件和數(shù)據(jù)庫等指標數(shù)據(jù)存在時間序列異常等問題,對監(jiān)控告警和分析服務造成了很大的影響,通過基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究,實現(xiàn)it運維監(jiān)控數(shù)據(jù)的標準化和規(guī)范化,提高了it運維監(jiān)控數(shù)據(jù)的質(zhì)量,為運維監(jiān)控數(shù)據(jù)的關(guān)聯(lián)分析、根因分析和告警提供有

2、力的支撐,從而實現(xiàn)云南電網(wǎng)公司it端到端的全鏈路監(jiān)控能力。關(guān)鍵詞:有監(jiān)督算法;無監(jiān)督算法;運維監(jiān)控;數(shù)據(jù)治理:tp311.13 :a :1671-2064(2019)02-0040-020 引言云南電網(wǎng)公司it運維監(jiān)控有多個it監(jiān)控系統(tǒng)。但每個系統(tǒng)相對獨立,并且數(shù)據(jù)種類繁多和數(shù)據(jù)格式不統(tǒng)一,存在網(wǎng)絡數(shù)據(jù)、應用性能數(shù)據(jù)、機房數(shù)據(jù)、服務器數(shù)據(jù)、平臺性能數(shù)據(jù)、數(shù)據(jù)庫性能數(shù)據(jù)和終端數(shù)據(jù)等,存在著數(shù)據(jù)分散、數(shù)據(jù)量大和數(shù)據(jù)標準和規(guī)范不統(tǒng)一等特點,造成數(shù)據(jù)共享困難等實際問題,導致運維監(jiān)控數(shù)據(jù)的開發(fā)利用滿足不了運維監(jiān)控業(yè)務的需要。通過基于有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)研究,從數(shù)據(jù)采

3、集、治理、存儲和分析服務四個步驟分析處理監(jiān)控數(shù)據(jù),重點闡述了結(jié)合了機器學習算法的數(shù)據(jù)治理技術(shù)和方法,實現(xiàn)了數(shù)據(jù)質(zhì)量的提高。1 機器學習算法本文涉及到的機器學習算法分為有監(jiān)督學習算法和無監(jiān)督學習算法,根據(jù)運維監(jiān)控數(shù)據(jù)的特點,采用one class svm算法和random forest相結(jié)合的方法來處理數(shù)據(jù),one class svm算法特點是不需要人工干預,但是可能導致和實際不匹配的結(jié)果,random forest可以不斷標注樣本,使得結(jié)果更加準確,需要人工干預,所以結(jié)合兩種算法的優(yōu)點來實現(xiàn)數(shù)據(jù)的處理,具體兩種算法如下:1.1 one class svm算法one class svm由svm算

4、法演化而來,為了正確應用one class svm,簡單介紹svm的主要原理:在線性可分條件下直接進行分箱,如果是在線性無法分解的情況,通過非線性關(guān)系映射,從低維線性不可分解的樣本變?yōu)檩敵隹臻g的高維特征空間,進而達到使其線性可分的目的,最后對高維特征空間采用線性算法,并且對所有樣本的非線性特征樣本進行線性分析1。one class svm屬于無監(jiān)督算法使用了超平面的思想,適用于連續(xù)數(shù)據(jù)的異常檢測和對樣本進行一定比例的篩選,可以尋找高維平面區(qū)分正常點與異常點。本文利用one class svm異常值檢測、解決極度不平衡數(shù)據(jù),公式如下:min|w|2+ i- subject to(w*(xi)-i

5、 i=1,2,1i01.2 random forest隨機森林由多棵cart(classification and regression tree)構(gòu)成的。對于cart每一棵樹,存在訓練集中的樣本頻繁多次出現(xiàn)在一棵樹的訓練集中,當然也存在從未出現(xiàn)在一棵樹的訓練集中。當訓練某一棵樹的節(jié)點時,選用特征值是從所有特征中根據(jù)預先設定比例隨機地無放回的抽取的,設總的特征數(shù)量為m,占比分別是sqrt(m),1/2sqrt(m),2sqrt(m),隨機森林(random forest)的訓練過程如下:(1)訓練集s,測試集t,特征維數(shù)f。首先確定各個參數(shù):即將用到的cart的數(shù)量t,每一棵的深度d,每個節(jié)點

6、特征數(shù)量f,停止前提:節(jié)點上最少樣本數(shù)s,節(jié)點上最少的信息增益m,相對于序號為1-t棵樹,i=1-t。(2)從訓練集s中取出放回的抽取大小和s一樣的訓練集s(i),以此作為根節(jié)點的樣本,從根節(jié)點開始訓練。(3)假如在當前節(jié)點上滿足終止條件,就把當前節(jié)點設置為葉子節(jié)點,假如是分類問題,該葉子節(jié)點的可能輸出為當前節(jié)點樣本集合中數(shù)量最多一類c(j),概率p為c(j)當前樣本集的占比比;假如是回歸分析問題,可能輸出為當前節(jié)點樣本集各個樣本值的平均值。隨后不斷訓練其他節(jié)點。假如當前節(jié)點不能滿足終止條件,可以從f維特征中無放回的隨機選取f維特征向量。從f維特征向量,查找出分類效果最好的一維特征k及其閾值t

7、h,目前節(jié)點上樣本值的第k維特征小于th的樣本,劃分到左節(jié)點,另外劃分到右節(jié)點,不斷訓練其它剩余節(jié)點。(4)重復(2)(3)直到所有節(jié)點都訓練(標記為葉子節(jié)點不訓練)。(5)重復(2)、(3)、(4)直到所有cart都被訓練過。2 整體實現(xiàn)2.1 數(shù)據(jù)采集數(shù)據(jù)來源于開源監(jiān)控工具zabbix和其它廠家的監(jiān)控數(shù)據(jù)以及各類日志數(shù)據(jù),鑒于數(shù)據(jù)源和數(shù)據(jù)格式的多樣性,制定了數(shù)據(jù)采集的方法和步驟,支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的采集。對于非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù),通過選擇不同的采集模型,建立合適的數(shù)據(jù)采集策略2。下面介紹了兩種數(shù)據(jù)采集方法,一種是對各監(jiān)控指標數(shù)據(jù)進行采集,另外一種對日志數(shù)據(jù)進行采集。

8、2.1.1 各監(jiān)控指標數(shù)據(jù)源采集對于監(jiān)控數(shù)據(jù)根據(jù)數(shù)據(jù)源的格式,采用相應的分析方法,建立相應的數(shù)據(jù)模型,制定出合適的數(shù)據(jù)采集策略,硬件指標數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、中間件數(shù)據(jù)、數(shù)據(jù)庫性能數(shù)據(jù)和應用業(yè)務質(zhì)量數(shù)據(jù)等。2.1.2 日志采集日志采集采用flume和kafka相結(jié)合的方法進行日志采集,flume的數(shù)據(jù)采集模塊功能強大,兼容大多數(shù)的數(shù)據(jù)源,能夠減少開發(fā)量,kafka可以作為日志緩存的中間件,對flume起到補充作用。flume是一個可靠性高和分布式的海量日志采集的系統(tǒng),flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,flume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能

9、力。由于flume采集數(shù)據(jù)的速度和數(shù)據(jù)處理的速度不一定同步,利用kafka作為數(shù)據(jù)緩沖中間件處理flume動作流數(shù)據(jù)。2.2 數(shù)據(jù)治理運維系統(tǒng)中通常是兩大類監(jiān)控數(shù)據(jù)源是:指標數(shù)據(jù)和日志文本數(shù)據(jù)。指標數(shù)據(jù)大多數(shù)是時序數(shù)據(jù),包括指標采集時間和對應指標的值;日志文本數(shù)據(jù)大多數(shù)是半結(jié)構(gòu)化文本格式,如程序日志、中間件日志等。隨著運維系統(tǒng)規(guī)模的變大和數(shù)據(jù)格式復雜度的變高,各個運維監(jiān)控系統(tǒng)產(chǎn)生數(shù)據(jù)量越來越大,運維人員很難從大量監(jiān)控數(shù)據(jù)中查找數(shù)據(jù)質(zhì)量問題。通過有監(jiān)督學習算法和無監(jiān)督學習算法相結(jié)合的運維監(jiān)控數(shù)據(jù)治理技術(shù)的實現(xiàn),可以自動、實時和精準地從監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)異常,并對異常數(shù)據(jù)進行處理,為后續(xù)的數(shù)據(jù)存儲

10、和數(shù)據(jù)服務打下堅實的基礎3。2.2.1 分析問題運維監(jiān)控數(shù)據(jù)的分析通常分為指標數(shù)據(jù)和日志數(shù)據(jù),指標數(shù)據(jù)通常為時序數(shù)據(jù),日志數(shù)據(jù)通常是結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。運維監(jiān)控數(shù)據(jù)異常通常分為數(shù)據(jù)源異常、單指標異常、多指標異常和日志數(shù)據(jù)異常。數(shù)據(jù)源有時會出現(xiàn)難以預測的結(jié)果,產(chǎn)生異常數(shù)據(jù),這些異常數(shù)據(jù)往往會引起整個指標統(tǒng)計值的頻繁波動,使得統(tǒng)計結(jié)果不準確和用戶體驗不好。通常的運維監(jiān)控系統(tǒng)會時常出現(xiàn)兩種情況:(1)單指標異常:如果時間閾值設置過高,會導致遺漏告警增多,如果時間閾值設置太低,告警太多引發(fā)告警風暴。(2)多指標異常:在運維過程中,單獨分析某個指標是正常,但是綜合多個指標來分析,往往就是異常的數(shù)據(jù)。

11、有時單獨分析某個指標異常的,但是綜合多個指標來分析往往是正常的。日志數(shù)據(jù)通常是在特定條件下觸發(fā)生成的(比如中間件停止服務、重新啟動服務和啟動服務),并符合一定的格式(半結(jié)構(gòu)化文本)。傳統(tǒng)的日志檢測有兩種方式:根據(jù)日志級別(如一般、警告、重要)進行報警,往往告警級別設置不合適,不能夠滿足實際需求,導致數(shù)據(jù)準確性差;通過設置規(guī)則引擎,匹配日志中預先已經(jīng)規(guī)定好的字符串進行匹配并報警,但該方法的局限性依賴人工經(jīng)驗,只可以發(fā)現(xiàn)既定模式的異常,無法發(fā)現(xiàn)未知的異常。2.2.2 處理問題鑒于上述監(jiān)控數(shù)據(jù)的問題,采取以下措施:針對單指標數(shù)據(jù)和日志數(shù)據(jù),使用統(tǒng)計算法3-sigma和ewma(指數(shù)加權(quán)移動平均)和機

12、器學習結(jié)合方法處理這兩類數(shù)據(jù),機器學習方法用到了上述有監(jiān)督學習算法random forest和無監(jiān)督學習算法one class svm。2.2.3 解決問題首先針對數(shù)據(jù)源的特點進行分類,先用統(tǒng)計算法3-sigma和ewma(指數(shù)加權(quán)移動平均)模型實現(xiàn)數(shù)據(jù)的分類。3準則又稱為拉依達準則,如果一組檢測數(shù)據(jù)僅僅含有隨機誤差,計算處理并得出標準偏差,按既定概率統(tǒng)計,并指定一個區(qū)間在正態(tài)分布中代表標準差,代表均值。x=是坐標圖像的對稱軸。如果3分布在(-,+)中,概率為0.6827;如果3在(-2,+2)中,概率為0.9545;如果3分布在(-3,+3)中,概率為0.9973,結(jié)論:y軸取值范圍幾乎全部

13、集中在(-3,+3)區(qū)間內(nèi)。ewma是指數(shù)加權(quán)移動平均值的控制圖。每個ewma點都結(jié)合來自3-sigma分組。定制ewma控制圖進而檢測過程中大小的偏移,每個ewma點都根據(jù)自定義的加權(quán)因子結(jié)合了以前所有信息數(shù)據(jù)。通過更改使用的權(quán)重以及限制的s數(shù)量,構(gòu)建該控制圖,控制圖可以檢測過程中所有數(shù)據(jù)大小的偏移。鑒于此,使用ewma來監(jiān)控正態(tài)3-sigma過程中的數(shù)據(jù),得出偏離目標的較小偏移。算法表示:設計權(quán)重系數(shù),0<<1,如果越大,則y(t)越大,t-1時刻相應就越小。ewma(t)=y(t)+(1-)ewma(t-1) for t=1,2,n.利用機器學習算法和統(tǒng)計算法相結(jié)合的方法去分

14、類處理數(shù)據(jù),使用統(tǒng)計算法和one class svm無監(jiān)督算法過濾掉大量正樣本,為了使結(jié)果更加準確,對樣本庫進行人工標注,人工標注正負樣本,然后通過特征工程提取特征值,通過設置有監(jiān)督算法random forest的參數(shù)進行訓練,從而實現(xiàn)數(shù)據(jù)質(zhì)量的提高。2.3 數(shù)據(jù)存儲與數(shù)據(jù)服務數(shù)據(jù)存儲分為指標數(shù)據(jù)和日志數(shù)據(jù),對于時間序列數(shù)據(jù)(性能指標),主要以時間維度進行查詢分析數(shù)據(jù),選用主流的rrdtool時序數(shù)據(jù)庫;對于日志文件,數(shù)據(jù)需要進行實時全文檢索和分詞搜索,選用主流的elasticsearch引擎。通過開發(fā)豐富、靈活的api接口實現(xiàn)數(shù)據(jù)服務,前端web展示調(diào)用api即可。3 結(jié)語本文通過無監(jiān)督學習算法one class svm和有監(jiān)督學習算法random forest,并結(jié)合統(tǒng)計算法3-sigma和ewma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論