基于數(shù)據(jù)挖掘的入侵檢測_第1頁
基于數(shù)據(jù)挖掘的入侵檢測_第2頁
基于數(shù)據(jù)挖掘的入侵檢測_第3頁
基于數(shù)據(jù)挖掘的入侵檢測_第4頁
基于數(shù)據(jù)挖掘的入侵檢測_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于數(shù)據(jù)挖掘的入侵檢測作者 Su-Yun Wu, Ester Yen摘要:隨著網(wǎng)絡(luò)的流行,網(wǎng)絡(luò)攻擊事件不斷增加,攻擊方法也是日新月異。所以信息安全問題在全世界成為了一個(gè)很重要的課題。如今,我們急切需要一種有效的檢測、確認(rèn)以及控制這種攻擊的方法。本次研究主要比較機(jī)器學(xué)習(xí)方法的在入侵檢測系統(tǒng)中的有效性,這其中還包括分類樹和支持矢量機(jī)器,希望能給未來的入侵檢測系統(tǒng)的建立提供參考。在對其他基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)的相關(guān)工作進(jìn)行對比之后,我們用不同攻擊比率的正常數(shù)據(jù)樣本計(jì)算出平均值,這也使我們以一個(gè)更高的精確率觀測到現(xiàn)實(shí)中的數(shù)據(jù)。我們還比較了在受到4種不同攻擊類型時(shí)系統(tǒng)的精確度、檢測度、誤警率。另外,

2、特別是在U2R型個(gè)R2L型攻擊下,我們提出的方法的性能和表現(xiàn)要比KDD Winner好。關(guān)鍵字:分類樹,支持向量機(jī)器,網(wǎng)絡(luò)攻擊,入侵檢測系統(tǒng)(IDS)1.引言最近幾年,隨著網(wǎng)絡(luò)和個(gè)人計(jì)算機(jī)的流行,網(wǎng)絡(luò)的使用率也隨之上升。這也大大的改變了人們的生活。很多人通過網(wǎng)絡(luò)學(xué)習(xí)、創(chuàng)造、交流和購物。除了普通百姓、企業(yè)結(jié)構(gòu)以及商業(yè)模型由于網(wǎng)絡(luò)的出現(xiàn)而經(jīng)歷了轉(zhuǎn)變之外,大型企業(yè)個(gè)政府為了實(shí)現(xiàn)管理的目的個(gè)效率,法展了許多依賴于網(wǎng)絡(luò)的應(yīng)用和服務(wù)項(xiàng)目;這些都是在新時(shí)代無法抵抗的趨勢。然而,盡管網(wǎng)絡(luò)帶來了方便,但也隨之帶來了信息安全問題;例如:服務(wù)器被攻擊或癱瘓,內(nèi)部數(shù)據(jù)和信息被盜取等等。這些事情的發(fā)生,必將導(dǎo)致在財(cái)務(wù)和

3、商業(yè)信譽(yù)上的巨大損失。例如:在2000年,美國雅虎受到了Dos攻擊,服務(wù)器癱瘓了近三個(gè)小時(shí),一億用戶受到影響,至于損失已經(jīng)打到無法計(jì)算。其他著名的商業(yè)網(wǎng)絡(luò),如CNN、eBay、A以及B等等都遭到過網(wǎng)絡(luò)攻擊。由于網(wǎng)絡(luò)的便利性,接觸到攻擊知識(shí)和方法是很容易的。因此,當(dāng)前,黑客們不需要擁有很廣闊的專業(yè)知識(shí)。每一年,網(wǎng)絡(luò)攻擊事件都處在一個(gè)大幅度上升的趨勢。通過從美國計(jì)算機(jī)緊急回應(yīng)團(tuán)隊(duì)/合作中心(CERT/CC)(/)得到的數(shù)據(jù).最近幾年,每年的網(wǎng)絡(luò)攻擊事件都呈指數(shù)趨勢增長;通過有關(guān)信息安全(.tw/)的報(bào)告, 網(wǎng)絡(luò)攻擊已經(jīng)成為一種新的世界戰(zhàn)爭的武器。此項(xiàng)報(bào)告中,中國

4、軍事黑客對攻擊美國航空母艦戰(zhàn)斗組已經(jīng)開始了計(jì)劃,目標(biāo)是使之因?yàn)榫W(wǎng)絡(luò)的故障而失去戰(zhàn)斗能力。這個(gè)信息反映出我們當(dāng)前急需一種有效的確認(rèn)和控制網(wǎng)絡(luò)攻擊的方法。一般的企業(yè)采用防火墻來作為網(wǎng)絡(luò)安全的第一道防線,但是防火墻的主要功能是監(jiān)視網(wǎng)絡(luò)的訪問行為,它在檢測網(wǎng)絡(luò)攻擊上能力是很有限的。所以,入侵檢測系統(tǒng),IDS一直被應(yīng)用于檢測網(wǎng)絡(luò)的范圍內(nèi),并且證明了IDS有給信息安全提供保護(hù)的能力。IDS表面上看來像網(wǎng)絡(luò)監(jiān)視和報(bào)警裝置,一種觀測和分析網(wǎng)絡(luò)攻擊是否發(fā)生,并在被攻擊之前發(fā)送警告,然后執(zhí)行一種相應(yīng)的應(yīng)付措施來降低巨大損失出現(xiàn)的可能的裝置。另外,一些技術(shù)是基于種低誤判率的模式檢驗(yàn),但這種基于模式的方法需要按周期升

5、級,所以它對未知的和更新的攻擊方法沒有足夠的檢測能力。最近,一些研究人員開始應(yīng)用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)。這種技術(shù)可以分析大量的數(shù)據(jù)并且在對未知攻擊的檢測能力上有很好的表現(xiàn)。盡管一些學(xué)者們已經(jīng)取得了一些成就,但在這一方面還存在著很大的發(fā)展?jié)摿?。那么,在一個(gè)絕大多數(shù)狀態(tài)相同的環(huán)境下,被應(yīng)用于入侵檢測的不同的機(jī)器學(xué)習(xí)方法的效率到底怎么樣;除了提出過的方法,還有沒有其他的方法?因此,本次研究將要比較被應(yīng)用于入侵檢測的不同機(jī)器學(xué)習(xí)方法的效率,包括分類樹,支持向量機(jī)器等等,希望能為未來入侵檢測系統(tǒng)的建立提供參考。研究的進(jìn)程在圖1中。2.背景回顧2.1 入侵檢測系統(tǒng)的介紹入侵檢測系統(tǒng)的概念第一次被提出是

6、在Anderson(1980)的一個(gè)技術(shù)報(bào)告中,他認(rèn)為計(jì)算機(jī)審查機(jī)制應(yīng)當(dāng)可以靈活變化的且可以提供給計(jì)算機(jī)對內(nèi)部危險(xiǎn)和威脅一個(gè)安全的防御技術(shù)。他進(jìn)一步提出統(tǒng)計(jì)學(xué)方法應(yīng)該應(yīng)用于分析用戶的行為和監(jiān)測違法接入資源系統(tǒng)的偽裝者。在1987年,Dorothy提出一個(gè)入侵檢測系統(tǒng)的模型:IDES(入侵檢測專業(yè)系統(tǒng)),之后,入侵檢測系統(tǒng)的概念逐漸被人們所知,并且他的論文他也成為了在入侵檢測系統(tǒng)領(lǐng)域中一個(gè)非常重要的里程碑。隨后,不同形式的入侵檢測系統(tǒng)被人們提出,如:Discovery, Haystack, MIDAS, NADIR,和,等等(,)。入侵檢測系統(tǒng)是監(jiān)測和控制發(fā)生在計(jì)算機(jī)系統(tǒng)或網(wǎng)絡(luò)系統(tǒng)中所有可能的情

7、況,分析與安全問題有關(guān)的信號,在發(fā)生安全問題事發(fā)送警告,并且通知相關(guān)體系采取措施以降低危險(xiǎn)系數(shù)(,)。這個(gè)框架由三部分組成(,):. 信息采集:數(shù)據(jù)采集:采集的數(shù)據(jù)源在位置上可以分為主機(jī)、網(wǎng)絡(luò)、應(yīng)用。. 分析引擎:分析引擎是能夠分析是否出現(xiàn)了入侵現(xiàn)象。. 回應(yīng):在分析后采取行動(dòng),記錄分析結(jié)果,發(fā)送實(shí)時(shí)警告,或調(diào)整入侵檢測系統(tǒng)等等。圖1.入侵檢測系統(tǒng)的分類總的來說,對于入侵檢測系統(tǒng)有兩種分類方法:. 從數(shù)據(jù)來源上看,入侵檢測系統(tǒng)包括基于主機(jī)和基于網(wǎng)絡(luò)的。. 從不同的分析方法上來看,入侵檢測系統(tǒng)包括濫用檢測和異常檢測。下面對這些入侵檢測系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)做一下簡要的介紹。()按不同信息源分類:l (

8、基于主機(jī)的)(,):這種數(shù)據(jù)是來源于主機(jī)的不同的活動(dòng)記錄,包括操作系統(tǒng)的審查記錄,那個(gè)用系統(tǒng)日志,應(yīng)用程序信息等等。拿操作系統(tǒng)為例,它的事件日志機(jī)制搜尋和收集三種不同形式的系統(tǒng)事件:操作系統(tǒng)事件,安全事件和應(yīng)用事件;其中應(yīng)用程序信息的例子如下:基于數(shù)據(jù)系統(tǒng),服務(wù)器等等。下面是它的的優(yōu)缺點(diǎn)(,):優(yōu)點(diǎn): 它可以更精確的檢測出主機(jī)是否被入侵。由于它的數(shù)據(jù)來源于審計(jì)記錄系統(tǒng)和主機(jī)日志系統(tǒng),與基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)相比,它可以精確的判斷出主機(jī)是否被網(wǎng)絡(luò)攻擊或入侵。 它可以檢測到加密環(huán)境下的網(wǎng)絡(luò)入侵, 那是因?yàn)閺奈募到y(tǒng)中來的數(shù)據(jù)以及被加密傳輸?shù)木W(wǎng)絡(luò)數(shù)據(jù)是在主機(jī)中被破譯的。所以,數(shù)據(jù)不會(huì)受到攻擊。 它不

9、需要其他額外的硬件系統(tǒng):它只需要把監(jiān)控系統(tǒng)安裝到特定的主機(jī)中,而不用額外的硬件設(shè)施。 缺點(diǎn):. 較高的開支:追蹤系統(tǒng)必須被安裝在每一個(gè)主機(jī)中;由于主機(jī)不同,審查文件和日志形式也有所不同,所以每一個(gè)主機(jī)要求要有不同的入侵檢測系統(tǒng)。. 它會(huì)影響監(jiān)控系統(tǒng)對主機(jī)的檢測效率:檢測系統(tǒng)在監(jiān)控時(shí)的評定會(huì)占用主機(jī)系統(tǒng)的資源空間。l (基于網(wǎng)絡(luò)的入侵檢測系統(tǒng))(Bace,2002):它的數(shù)據(jù)主要是收集了在網(wǎng)絡(luò)信息流片段中的網(wǎng)絡(luò)分類流,如:網(wǎng)絡(luò)包。它的缺點(diǎn)和有點(diǎn)如下所述:優(yōu)點(diǎn):. 低開支:只有基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)可以檢測到所有在廣域網(wǎng)中的攻擊,它的花費(fèi)僅僅是在這個(gè)手段上。. 它可以檢測到一些基于主機(jī)的入侵檢測系

10、統(tǒng)無法檢測到的攻擊:如Dos, Ddos。缺點(diǎn):. 流量大,一些數(shù)據(jù)包可能丟失,且不能檢測到在網(wǎng)絡(luò)中所有的數(shù)據(jù)包。. 在大容量的網(wǎng)絡(luò)中,它需要更快的CPU和更多的存儲(chǔ)空間來分析大量的數(shù)據(jù)。. 它不能處理加密的數(shù)據(jù)包,同時(shí)也不能接收到在加密數(shù)據(jù)包中的攻擊信息。(b)基于不同分析方法的分類:n 濫用檢測(Bace, 2002):它也被叫做基于簽名的檢測,它可以將攻擊特征或者違反條例的信息轉(zhuǎn)化成基于轉(zhuǎn)化的下簽名或規(guī)則,然后將這個(gè)信息存儲(chǔ)到簽名數(shù)據(jù)庫中。判斷是否受到攻擊,先前判斷數(shù)據(jù)首先會(huì)和簽名數(shù)據(jù)中的簽名進(jìn)行比較,那些確認(rèn)為攻擊簽名的數(shù)據(jù)將會(huì)判斷為攻擊。它的優(yōu)點(diǎn)是較高的檢測率和較低的誤警率;然而,它

11、對于未知的入侵方法的檢測能力低,攻擊數(shù)據(jù)庫需要周期性更新。n 異常檢測(Bace,2002):它可以先建立一個(gè)用戶正常行為的文件,它的來源可以是先前階段用戶行為的統(tǒng)計(jì)數(shù)據(jù);當(dāng)檢測工作時(shí),這個(gè)文件中的數(shù)據(jù)會(huì)和真實(shí)的用戶數(shù)據(jù)比較,如果差值超過門限值,用戶的行為將被視為異常。異常檢測是基于這樣一個(gè)假設(shè):入侵行為是與正常行為不同的。這種檢測方法檢測率高,且更容易檢測到未知的攻擊,當(dāng)它的誤判率也很高。n 混合方法:濫用檢測的優(yōu)點(diǎn)是誤判率低,但對于未知攻擊檢測能力低;相比之下,異常檢測擁有對未知攻擊的檢測能力,但誤判率卻很高。如果說兩種方法結(jié)合起來,它們可以互補(bǔ)缺點(diǎn),如:MINDS, EMERALD,Pr

12、elude等等。2.1.2現(xiàn)有的分析方法 下面描述了用于入侵檢測系統(tǒng)中的現(xiàn)有的分析方法。(Bace,2002;Lu,Boedihardjo & Manalwar,2005;Patcha & Park,2007;Verwoerd & Hunt, 2002):n 狀態(tài)轉(zhuǎn)換分析(llgun,kemmerer,& Porras, 1995):狀態(tài)檢測主要用于描述發(fā)生的事件間的關(guān)系,常被用在濫用檢測當(dāng)中。n 統(tǒng)計(jì)方法:統(tǒng)計(jì)方法用于建立正常行為模型,其中包括:門限值,中值和標(biāo)準(zhǔn)差,多形式模型,簇和檢測輪廓。n 神經(jīng)網(wǎng)絡(luò): 在檢測之前,有時(shí)需要訓(xùn)練,檢測可以在建立模型后開始,

13、它包括:后繁殖,SOM(自我組成圖)等等。n Bayesian 網(wǎng)絡(luò)(BenAmor, Nahla, Benferhat Rue, Salem,& Elouedi,2004):圖表方法被應(yīng)用于表達(dá)多樣化之間的關(guān)聯(lián);當(dāng)檢測開始時(shí),條件概率用來計(jì)算合適的檢測值。n 基于規(guī)則的:行為或模式被表達(dá)為規(guī)則方法,那些與規(guī)則相一致的被判定為攻擊。它通常用在濫用檢測當(dāng)中。n 數(shù)據(jù)挖掘(機(jī)器學(xué)習(xí))方法:它包含了Markov處理模型(Kuo-Hua Yang,2006),分類樹(Ben Amor et al., 2004; Yu-Shan Yang, 2006),支持向量機(jī)器,關(guān)聯(lián)規(guī)則,;鏈接分析,數(shù)列分

14、析等等。n 其他方法:其他方法包括免疫系統(tǒng)方法(Aickelin, Greensmith, & Twycross, 2004), 運(yùn)算法則分類,基于agent 的檢測等等。2.2機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(/wiki/Machine_Learning)是一個(gè)人工智能的分支,主要目的是通過一些技術(shù)使計(jì)算機(jī)具備自主學(xué)習(xí)的能力。它重點(diǎn)研究的方向是如何用計(jì)算機(jī)和統(tǒng)計(jì)學(xué)的方法去從龐大的數(shù)據(jù)當(dāng)中挑出有用的數(shù)據(jù)。所以,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)方法和計(jì)算機(jī)科學(xué)理論有著密切的聯(lián)系?,F(xiàn)今,機(jī)器學(xué)習(xí)被廣泛的應(yīng)用于不同的領(lǐng)域當(dāng)中,如:指紋差異,搜索引擎,藥物診斷,市場關(guān)聯(lián)分

15、析,發(fā)音和手寫識(shí)別,計(jì)算機(jī)圖像等等。下面列出了常用的機(jī)器學(xué)習(xí)技術(shù)(Alpaydin,2004):l Bayesian 決策理論l 多樣性方法l 簇l 分類樹l 線性識(shí)別l 多層次觀察l 本地模型l Hidden Markov模型l 強(qiáng)化學(xué)習(xí)2.3分類樹分類樹是在機(jī)器學(xué)習(xí)當(dāng)中的一種預(yù)測模型,也被稱為決策樹。它是一種樹形狀的圖,與表的結(jié)構(gòu)相似;任何一個(gè)內(nèi)部節(jié)點(diǎn)是一個(gè)性質(zhì)測試,每一個(gè)樹枝代表檢測結(jié)果,最后葉子上的節(jié)點(diǎn)代表不同形式的狀態(tài)分配。在分類樹中最基本以及最常用的運(yùn)算法則是ID3和C4.5(Quinlan,1993)。這是兩種建立樹的方法,從下到上樹的結(jié)構(gòu)和從下到上修剪,ID3和C4.5都屬于從

16、下到上樹的結(jié)構(gòu);它們的運(yùn)算法則表述如下:. 所有樣式的訓(xùn)練數(shù)據(jù)都被放在分類樹的根部。. 如果一個(gè)節(jié)點(diǎn)中沒有包含任何數(shù)據(jù),或者數(shù)據(jù)中的節(jié)點(diǎn)屬于同一種類型的,這個(gè)節(jié)點(diǎn)將成為空葉,或者所有形式的葉成為同一種類型。如果一個(gè)節(jié)點(diǎn)中包含多個(gè)形式,必須評估所用數(shù)據(jù)的性質(zhì),其方法是通過個(gè)別的確認(rèn)功能以及適當(dāng)?shù)男再|(zhì)挑揀。通過在節(jié)點(diǎn)中的屬性值和形式,將它們分成N部分,每一個(gè)部分都是一個(gè)連接根部節(jié)點(diǎn)的新節(jié)點(diǎn)。這個(gè)過程叫做節(jié)點(diǎn)分裂。. 在節(jié)點(diǎn)分裂之后,判斷這些節(jié)點(diǎn)是否是樹葉;如果不是,新的節(jié)點(diǎn)成為根部的分支樹,其用來構(gòu)成新的分支樹。. 重復(fù)以上步驟直到所有新節(jié)點(diǎn)都成為樹葉。決策樹通過這種形式引導(dǎo)方法可以完全分類不同形

17、式的訓(xùn)練數(shù)據(jù)。在第二步的評估功能通用非純凈功能評價(jià);在用非純凈方法計(jì)算后,最高值的的特性將被挑選出來。非純凈功能包括:假設(shè)S是由樣本數(shù)據(jù)s組成的一個(gè)數(shù)列,其包含帶有m個(gè)不同下標(biāo)的Ci(i=1,, m),si是在數(shù)列S中的帶有Ci類型的例子。Pi是任何一個(gè)樣本數(shù)據(jù)屬于Ci類型數(shù)據(jù)的概率,命名為si/S;再次假設(shè)性質(zhì)A包含v個(gè)子數(shù)列,Sj代表一個(gè)數(shù)列在數(shù)列S中含有連續(xù)j個(gè)aj樣本數(shù)據(jù)具有性質(zhì)A。當(dāng)一個(gè)性質(zhì)被挑選為測試性質(zhì),它將包含Sj中的元素,v代表類型Ci。l 平均信息量功能: (用于ID3和C4.5中)l 收到的信息量:Gain(A)=I(T)-E(A)。其中I(T)= E(A)=l 收到的信

18、息率:GR(A)= 。其中I(A)=l Gini功能:Gini(T)=1- 。在樹被建立之后,為了防止過大,建立起來的分類樹需要被修剪,常用的方法有兩種(Han & Kamber,2006):修剪在前:在樹的建立中,設(shè)置一個(gè)門限,當(dāng)分岔點(diǎn)的狀態(tài)高于門限值時(shí),從分岔點(diǎn)開始停止建立樹。修剪在后:當(dāng)完成樹的建立后,再修剪它。通常的方法包括替換分支樹和增長分支樹:修剪的評估原則包括錯(cuò)誤評估,重要點(diǎn)測試等等。最后,在樹被建立和修剪之后,規(guī)則將通過樹來產(chǎn)生,如圖2所示。 我們在實(shí)驗(yàn)中用C4.5型。圖22.4 支持矢量機(jī)器支持矢量機(jī)器是由Vapnik所提出的(1995);最近,它被廣泛的應(yīng)用于各種領(lǐng)

19、域當(dāng)中,它也成為在機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)非常流行的方法。2.4.1. 最優(yōu)化的分隔超平面首先,我們先用線性分隔為例。假設(shè)現(xiàn)在有兩種類型的分類問題,用標(biāo)志r來區(qū)分。它的數(shù)列是X,Xt的一個(gè)矢量,所以在數(shù)據(jù)中有一個(gè)數(shù)列,支持矢量機(jī)器是尋找一個(gè)能根據(jù)類型不同來分隔這些數(shù)據(jù)的超平面。用如下的圖舉例。它是尋找w 和b 兩個(gè)參數(shù),這兩個(gè)參數(shù)可以用L2=wx+b來區(qū)分開兩種類型。在分類后,我們需要wx+b的值,如果它大于0,他將是+1;如果小于0,它將是-1(如圖三所示)。支持向量機(jī)器是找到一個(gè)距離任何一個(gè)數(shù)據(jù)最遠(yuǎn)的超平面,這樣可以減小錯(cuò)誤率。圖四所示數(shù)據(jù)和超平面的距離。支持向量機(jī)器必須滿足如下狀態(tài):wXt+b

20、>+1,wXt+b<-1它也可以寫成rt(wXt+b)>+1.我們需要讓Xt和超平面之間的距離大于p,使p最大。為了得到特別值,使p|W|=1;這個(gè)等式可以轉(zhuǎn)換成二次方程最優(yōu)化問題:Min1/2|W|2 圖3圖42.4.2.非線性分隔的情況當(dāng)在非線性分隔情況時(shí),基本功能(X)可以被應(yīng)用,使原始的非線性坐標(biāo)特性被轉(zhuǎn)化成線性特性坐標(biāo),然后用線性方法計(jì)算,如圖5所示。用過基本功能之后,辨別功能會(huì)有一個(gè)基本功能的內(nèi)在產(chǎn)物 和另外一個(gè)功能K(x,x)被用于替換基本功能,這個(gè)功能叫做核心功能。圖53.系統(tǒng)結(jié)構(gòu)l 系統(tǒng)結(jié)構(gòu)圖研究的流程圖如圖6所示。圖6l KDD Cup 99數(shù)據(jù)研究中數(shù)據(jù)

21、的來源從KDD Cup 99中得來的,它最開始是用在第三代國際知識(shí)探索和數(shù)據(jù)挖掘工具競爭方面。這個(gè)數(shù)據(jù)是經(jīng)過挑選和整理美國空氣阻力的DARPA數(shù)據(jù)而來的,由美國哥倫比亞大學(xué)在1998年提出的。它被用于評估入侵檢測算法的效率。所以,在本次研究中也應(yīng)用這個(gè)數(shù)據(jù)。在訓(xùn)練數(shù)據(jù)中,將近有4940000種數(shù)據(jù),10%的數(shù)據(jù)被提供;在測試數(shù)據(jù)中,有3110291種數(shù)據(jù),且在每種網(wǎng)絡(luò)連接記錄中,總共47中類型的網(wǎng)絡(luò)連接特性(特性分為連續(xù)數(shù)據(jù)和非連續(xù)數(shù)據(jù))。它的特性可以主要分為三種類型:網(wǎng)絡(luò)連接的基本特性,網(wǎng)絡(luò)連接內(nèi)容的特性,網(wǎng)絡(luò)傳遞的特性;數(shù)據(jù)形式包括名義上的,雙重性的,數(shù)字的。由附錄1來做進(jìn)一步說明性質(zhì)細(xì)節(jié)

22、。在訓(xùn)練信息中有23種類型的攻擊,在測試數(shù)據(jù)中有37種類型的,比訓(xùn)練信息多14種,所以訓(xùn)練信息可以評價(jià)檢測未知攻擊的能力。在測試信息中,攻擊可以大體被分為以下幾種類型:l 探索型:直白的說,它不應(yīng)該被稱為真的攻擊,但它是在攻擊開始前的一個(gè)準(zhǔn)備步驟。攻擊者經(jīng)常利用探索獲得信息,檢測目標(biāo)和操作系統(tǒng)的類型。l Dos(服務(wù)拒絕):這種攻擊可以停止用戶操作,服務(wù)器不能提供服務(wù)。這種攻擊通常復(fù)制所有服務(wù)器的系統(tǒng)資源或者復(fù)制帶寬并使系統(tǒng)資源癱瘓,使操作系統(tǒng)停止。一般的攻擊包括SYN Flooding,Ping Flooding等等。l U2R(用戶獲得根):在這種攻擊中,用戶利用系統(tǒng)漏統(tǒng)的優(yōu)勢來得到合法的

23、管理者的資料。例如:Buffer Overflow就在其中。l R2L(獲取遠(yuǎn)程文件):這種攻擊利用為用戶提供服務(wù)的優(yōu)勢,獲取相關(guān)的安全設(shè)置和用戶的加密文件,如:Unicode leak,SQJInjection等等。表1列出了攻擊的形式和類型。表1表2列出了在訓(xùn)練數(shù)據(jù)和10%的kddcup.data_10_percent.gz.中不同數(shù)據(jù)的百分比。表2l 數(shù)據(jù)處理本次研究想在不同的環(huán)境下比較C4.5和SVM的效率。由于KDD Cup 99的數(shù)據(jù)過于龐大,各種各樣的數(shù)據(jù)被分配的不平均,所以研究將會(huì)對訓(xùn)練數(shù)據(jù)(kddcup.data_10_percent.gz.)和測試數(shù)據(jù)取樣。根據(jù)正常的比例,

24、挑選10000組數(shù)據(jù),使正常比例分別為10%,20%,90%;其他的數(shù)據(jù),我們命名為攻擊數(shù)據(jù),把他們平均并取樣。除了取樣,C4.5軟件Weka 3.5.6應(yīng)用于訓(xùn)練階段,其輸入形式為arff;SVWare 軟件的應(yīng)用是由臺(tái)灣大學(xué)信息工程學(xué)院的一個(gè)教授開發(fā)的Lib-svm,其輸入形式也是特定的,因此所有數(shù)據(jù)的形式都可以被轉(zhuǎn)換。Weka3.5.6 也可以傳遞信息給SVM形式。所以研究應(yīng)用Weka 軟件來轉(zhuǎn)換。l 訓(xùn)練和測試在處理數(shù)據(jù)之后,訓(xùn)練和測試就可以開始了。在Weka中的C4.5功能是J48,需要設(shè)置一些參數(shù),包括降低錯(cuò)誤修剪,信任因素,最小對象數(shù)目。Libsvm的訓(xùn)練階段也需要設(shè)置參數(shù),用巨

25、蛇程序找到最優(yōu)化的參數(shù):gridpy.它是用來在本次研究中找到最好參數(shù)的方法。. 分析與評估攻擊的檢測和識(shí)別以及非攻擊的行為可以大體歸納如下表3中:l 真正(TP):真正發(fā)生攻擊時(shí)檢測到的攻擊。l 真反(TN):正常情況下檢測到的正常情況。l 錯(cuò)正(FP):正常情況下檢測到的攻擊。也叫做誤警。l 錯(cuò)反(FN):真正發(fā)生攻擊時(shí)檢測到的正常情況。也叫做可以被入侵檢測系統(tǒng)檢測到的攻擊。表3如今,入侵檢測系統(tǒng)需要高檢測率和低誤警率,所以論文中比較了精確率,檢測率和誤警率,并且列出了不同攻擊下的結(jié)果對比。l 精確率對比精確率涉及到在總數(shù)據(jù)中,屬于精確型數(shù)據(jù)的比例,也叫做TP和TN狀態(tài),所以精確率為: 精

26、確率=表4列出了用原始標(biāo)簽分類的結(jié)果比較。圖7為折線圖。這兩種方法在精確度上并沒有太大的差異;然而,當(dāng)正常數(shù)據(jù)所占的比例小時(shí),C4.5優(yōu)于SVM;當(dāng)正常數(shù)據(jù)的比例大時(shí)(>70%),它們的精確率近乎相同,但SVM 好些。通過平均,C4.5要比SVM稍微好些。圖7l 檢測率比較檢測率涉及到檢測到的攻擊和所有攻擊的比,形態(tài)為TP,所以檢測率為: 檢測率=表5列出了C4.5和SVM之間的檢測率比較結(jié)果。圖8為折線圖。 圖8在檢測率上,C4.5隨著正常數(shù)據(jù)的比例不同而下降,但SVM的變化卻不定。整體來說,C4.5的曲線要高于SVM;顯然,它的檢測率要好于SVM。通過平均,C4.5超過SVM將近12

27、%。l 誤警率比較誤警率涉及到正常數(shù)據(jù)被錯(cuò)誤的檢測為攻擊,按名稱,是FP形態(tài),所以誤警率為:誤警率=表6列出了C4.5和SVM之間的誤警率的比較。圖9為折線圖。圖9表5表6在誤警率的比較中,SVM只有在正常數(shù)據(jù)比例為30%,50%和60%時(shí)才劣于C4.5,其他情況下都要優(yōu)于C4.5。通過平均值,SVM在誤警率方面要好于C4.5。4.4不同攻擊之間的精確率比較不同攻擊下的精確率涉及到數(shù)據(jù)的類型被正確劃分的比例。在論文中用了四種類型攻擊,它們是Probe,Dos,U2R,R2L。表7列出了用C4.5和SVM兩種方法,在不同攻擊下的精確度比較結(jié)果;表中兩個(gè)數(shù)據(jù)上面的為C4.5的精確信息,下面的為SV

28、M的精確信息。從表格中,你會(huì)知道l 對于探索攻擊:當(dāng)正常數(shù)據(jù)的比例為20%,50%和90%時(shí),SVM的精確率要比C4.5好,但不高于4%;然而在其他環(huán)境下,C4.5的精確率超過了SVM將近10%.顯然,在這種攻擊中,C4.5的精確率要好于SVM。l 對于Dos攻擊:當(dāng)正常數(shù)據(jù)的比例低時(shí),SVM要好些;然而,當(dāng)正常數(shù)據(jù)的比例超過40%時(shí),C4.5要比SVM好,特別是在正常數(shù)據(jù)的比例為40%,60%和70%時(shí)。l 對于U2R攻擊:總體來說,C4.5要比SVM好。l 對于R2L攻擊:通過平均值,在精確率上兩種方法的近乎相同。當(dāng)正常數(shù)據(jù)的比例為10%,30%,50%和90%時(shí),SVM好些,其他情況時(shí)C

29、4.5好些。l 通過平均值,除了在R2L攻擊下兩者的精確率差不多,其他攻擊下C4.5在精確率上要優(yōu)于SVM。表7最后,論文中得到的平均結(jié)果與從KDD Cup 99 winner 中得到的數(shù)據(jù)相比較,比較結(jié)果在表8中。我們可以看到,KDD Winner的檢測率在Dos攻擊中很高,當(dāng)在U2R和R2L攻擊中,卻比C4.5和SVM差。表8. 結(jié)論和建議5.1 結(jié)論論文比較了在正常數(shù)據(jù)的不同比例下的不同攻擊的精確率,檢測率,誤警率。KDD Cup 99數(shù)據(jù)是當(dāng)前在入侵檢測中的基準(zhǔn)數(shù)據(jù);然而,它的的數(shù)據(jù)分配的不均勻。本次研究用了不同的正常數(shù)據(jù)的比例來做訓(xùn)練和測試,最終得到一個(gè)平均值,希望能得到更多目標(biāo)結(jié)果

30、。從比較C4.5和SVM的結(jié)果看,我們發(fā)現(xiàn)C4.5在精確率和檢測率上要比SVM優(yōu)越;在檢測探索,Dos和U2R攻擊的精確率上,C4.5也要好于SVM;但在誤警率方面,SVM要好些。5.2 未來研究建議l 數(shù)據(jù)KDD Cup 99在當(dāng)前很流行的被應(yīng)用于入侵檢測系統(tǒng)當(dāng)中;然而,它是1999年的數(shù)據(jù),網(wǎng)絡(luò)技術(shù)和攻擊方法更新的很快,它不能反映現(xiàn)今真實(shí)的網(wǎng)絡(luò)狀態(tài)。所以,如果更新的信息被加入和測試,它們可以更精確的反應(yīng)現(xiàn)今的網(wǎng)絡(luò)狀態(tài)。l 經(jīng)過測試和比較,C4.5的檢測率和精確率要高于SVM,但是SVM在誤警率方面要好些;如果我們可以把兩種方法組合起來,整體的精確率會(huì)有很大的提高。l 在樣本中,研究假設(shè)了攻

31、擊數(shù)據(jù)和正常數(shù)據(jù)是平均分配的,這當(dāng)然不能得到最優(yōu)化的結(jié)果,在這一點(diǎn)上,在未來應(yīng)該有所提高和加強(qiáng)論證。l 在研究中,C4.5的參數(shù)設(shè)置不是最優(yōu)的,所以未來的工作可以通過C4.5的參數(shù)和不同的訓(xùn)練數(shù)據(jù)來優(yōu)化參數(shù)。l 被應(yīng)用在研究中的SVM用built-in grid.py來優(yōu)化它的參數(shù),這需要將近兩個(gè)小時(shí)去尋找研究中的10000組數(shù)據(jù)的參數(shù);然而這是不合適的,因?yàn)樵谌肭謾z測系統(tǒng)當(dāng)中需要實(shí)時(shí)性。在未來的研究中應(yīng)當(dāng)找到一種可以快速選擇出最優(yōu)化的檢測方法。參考文獻(xiàn)Aickelin,Uwe,Greensmith,Julie,&Twycross,Jamie(2004).Immune systemap

32、proaches to intrusion detectionA review.Berlin,Heidelberg:Springer.Alpaydin,Ethem(2004).Introduction to machine learning.MIT Press.Anderson,James P.(1980).Computer security threat monitoring and surveillance,technical report,James P.Anderson Co.,Fort Washington,Pennsylvania.Bace,Rebecca G.(2002).NIS

33、T special publication on intrusion detection systems.Ben Amor,Nahla,Benferhat Rue,Salem,Elouedi,Zied.(2004).Na¨?ve Bayes.vs.decision trees.In:Symposium on applied computing proceedings of the 2004 ACMsymposium on applied computing.Confusion Matrix.<http:/www2.cs.uregina.ca/dbd/cs831/notes/co

34、nfusion_matrix/confusion_matrix.html>.Dorothy,Denning.1987.An intrusion detection model.IEEE Transaction on SoftwareEngineering.Event Monitoring Enabling Responses to Anomalous Live Disturbances(EMERALD).Ertoz,L.,Eilertson,E.,Lazarevic,A.,Tan,P.,Srivastava,J.,Kumar,V.,et al.(2004).TheMINDSminneso

35、ta intrusion detection system.Next generation data mining.MITPress.Han,J.,&Kamber,M.(2006).Data mining:concepts and techniques(2nd ed.).MorganKaufmann Publishers.Ilgun,K.,Kemmerer,R.A.,&Porras,P.A.(1995).State transaction analysis:A rule-based intrusion detection approach.IEEE Transaction on Software Engineering,21(3).Jiang,Sheng Yi et al.(2006).A clustering-based method for unsupervised intrusiondetections.Pattern Rec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論