Boosting方法在網絡攻擊分類中的性能分析_第1頁
Boosting方法在網絡攻擊分類中的性能分析_第2頁
Boosting方法在網絡攻擊分類中的性能分析_第3頁
Boosting方法在網絡攻擊分類中的性能分析_第4頁
Boosting方法在網絡攻擊分類中的性能分析_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Boosting方法在網絡攻擊分類中的性能分析1引言 面對日益嚴峻的網絡安全問題,各種安全防御技術已被提出并得以應用。以防范和自我保護為主的被動保護方式,主要包括數據加密、安全路由、訪問控制、報文鑒別等,其在有效防范網絡攻擊上雖有重要作用,但缺少實時發(fā)現攻擊行為的能力。入侵檢測系統(tǒng)通過采集主機審計數據和網絡全局流量,來實現關鍵點的實時監(jiān)控,并依靠檢測分析引擎來發(fā)現異常行為,與其他安全技術可有效互補,共同為網絡系統(tǒng)提供安全保障[1]。檢測分析模塊的構建是入侵檢測技術實施的關鍵,傳統(tǒng)方式下的人工編碼,對專家領域知識依賴大,存在效率低、適應性差、不易擴展等缺點。數據挖掘技術用于入侵檢測分類建模中,可從訓練數據集中自動提取攻擊模式,生成分類模型,有效改善了分類建模效率,提高了分類檢測準確率。分類模型可以判定用戶行為是否異常,在兩類行為的區(qū)分認識上,不同算法的處理方式不同。常用的分類算法包括NaiveBayes[2] 、RIPPER[3]、SVM(支持向量機 SupportVectorMachine)[4]等。Boosting 方法屬性能提升算法 [5],通過多次迭代來改善基分類器的分類性能,本文將NaiveBayes、RIPPER和SVM作為Boosting方法的基分類算法,在KDDCUP99數據集上加以應用,通過分類結果的相關性能比較來分析 Boosting算法的提升效果,并進一步給出更適合于 KDDCUP99的基分類算法。分類算法原理分析分類屬數據挖掘中的預測任務,是根據其他屬性值來預測離散的目標屬性值。 在KDDCUP99中,目標屬性是 class,取離散的 23種類型。分類之前,需要事先產生一個分類模型,不同分類算法學習到的分類模型也不同。2.1NaiveBayes 算法原理分析NaiveBayes為貝葉斯分類的一種,其基于統(tǒng)計學原理,通過事件的先驗概率,來獲得事件可能所屬每類的后驗概率,選最大后驗概率的對應類作為該事件的所屬類。對于KDDCUP99數據集,NaiveBayes引入條件概率來量化數據集的樣本類序列中,出現某類攻擊事件的概率,該條件概率記為 P(Itr |Evt),Evt表示樣本類序列, Itr 表示某類攻擊事件。使用Bayes公式可得出 P(Itr |Evt)的值,如公式(1)所述:P(Itr|Evt )=P(Evt|Itr )P(Itr )/P(Evt)(1)*P

P(Evt)=P(Itr(Evt| ┐Itr )

)*P(2)

(Evt|Itr

+P

(┐Itr

)公式(1)的P(Itr )為先驗概率,可依據領域專家經驗或數據集的樣本分布來給定。 P(Evt|Itr )為給定攻擊下的事件序列的條件概率,系統(tǒng)全部事件構成了每個攻擊的事件序列,進而可算出構成給定攻擊的事件序列占全部攻擊事件序列的相對概率,即為

P(Evt|Itr

)。同樣,可算得P(Evt|

Itr

)的條件概率。應用公式(

1)和(

2),算得

P(Itr|Evt

)的值,反映了事件序列中存在攻擊事件的可能程度。攻擊檢測中,將取最大P(Itr|Evt )值所對應的 Itr 作為檢測類別。NaiveBayes以屬性相獨立為前提, 在屬性相關較小的數據集上的性能較好。當屬性相關較大或屬性較多時,NaiveBayes的分類效果下降。2.2RIPPER算法原理分析RIPPER屬基于規(guī)則的分類算法, 通過樣本學習可產生類似

ifcndt1thenclass1elseifcndt2thenclass2

,,elsedefault

的規(guī)則集。

if

部分為某類的判定條件,

then部分為預測類,

default

為算法定義的默認類。在兩類問題中,RIPPER選擇多數類為默認類, 學習少數類的分類規(guī)則。在多類問題中,依據類別出現頻率的大小,按小到大進行排序,設排序后的類別序列為 class1,class2,,classn ,class1代表了極少發(fā)生的類, classn為最頻繁發(fā)生的類,是 RIPPER定義的default 。對于KDDCUP99,RIPPER按類別出現頻率遞增產生類別序列,并按此順序為每個類別尋找檢測規(guī)則, class1 的檢測規(guī)則應可將 class1 與{class2 ,,class23} 相區(qū)分,依此產生其他類別的檢測規(guī)則。在對用戶行為進行檢測時,仍按規(guī)則順序進行匹配,匹配項對應的類別即為檢測類別,沒有滿足的規(guī)則時,就檢測為 default 。RIPPER算法的類別序使得出現頻率極小的類在預測時得以關注,在不均衡類分布的數據集中 [6],其分類性能往往優(yōu)于其他算法。2.3SVM算法原理分析SVM按線性方程式的求解來對待分類問題,通過尋找類間超平面來實現分類模型的構建。超平面選取基于了結構風險最小化的理論,在樣本的特征空間中,尋找最優(yōu)的分割超平面,進而產生最優(yōu)分類器。針對線性不可分的情況, SVM通過引入核函數可將樣本空間轉為高維空間下的線性可分,在分類以及回歸等數據挖掘任務中得到廣泛應用。對于 KDDCUP99數據集,SVM將樣本按向量對待,通過求解線性方程的參數,來確定類別的支持向量。2.4Boosting 算法原理分析Boosting 算法通過多輪迭代以產生一個用于分類預測的函數系列,并結合權重加以組合共同決策,進而改善原有弱分類算法的分類準確度。將迭代次數記為 T次,可產生出 T個簡單分類器。每個簡單分類器的分類準確度,通過其發(fā)言權加以表達。在進行預測時,T個簡單分類器的加權組合將是最終的分類結果。3分類建模及結果分析3.1 參與分類建模的數據樣本

KDDCUP99網絡攻擊數據集共包含

42個屬性,樣本分屬

23個類別

[7]

,同類別的樣本實例數量差別極大。本文從

KDDCUP99_10%中無放回隨機抽樣,抽樣比例為 10%,樣本分布如表 1所示。3.2 參與建模的分類算法及結果比較本文選用Boosting 算法中較具代表性的 AdaBoost算法進行模型構建,選用的基算法為: NaiveBayes、RIPPER和SVM。為較直觀的分析 Boosting 算法的性能提升效果,依次與三類算法產生的單個分類模型進行指標比較。表和表4分別為單算法和基于該算法的 AdaBoost(以/作為兩算法的分隔)。

2、表3的分類結果本文做兩類比較。(1)三個基算法間的分類比較。

表2、表3和表4的單分類器產生的分類結果中,對數量較多的Normal、Neptune和Smurf,NaiveBayes不及RIPPER和SVM;對極小量的類, RIPPER優(yōu)于SVM和NaiveBayes,中間類的分類效果較為相似。(2)基算法與 AdaBoost算法的分類比較。比較每張表中的基算法與 AdaBoost算法的結果,AdaBoost對NaiveBayes的提升無效,對RIPPER和SVM的分類效果改善明顯。本次所選樣本共包含 49402條,使用三類基算法NaiveBayes、RIPPER和SVM的建模耗時依次為: 0.33秒、24.77秒和4.54秒;使用AdaBoost后,耗時均有所增加,依次為:79.92秒、179.45秒和72.81秒。結束語本文圍繞入侵檢測系統(tǒng)的檢測分析模塊的構建方法,分析了NaiveBayes、RIPPER、SVM和Boosting 的相關原理,并在KDDCUP99的部分數據上進行分類建模。從實驗分類結果及耗時上做總體比較: RIPPER對KDDCUP99的總體分類效果較好,尤其在小類分類上表現極佳,但規(guī)則學習過程花費時間較長;使用 Boosting(本文以AdaBoost

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論