網(wǎng)絡(luò)流量分析_第1頁
網(wǎng)絡(luò)流量分析_第2頁
網(wǎng)絡(luò)流量分析_第3頁
網(wǎng)絡(luò)流量分析_第4頁
網(wǎng)絡(luò)流量分析_第5頁
免費預(yù)覽已結(jié)束,剩余22頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)流量分析概述摘要Internet自60年代出現(xiàn)以來發(fā)展迅猛,網(wǎng)絡(luò)規(guī)模飛速膨脹,網(wǎng)絡(luò)流量越來越大,網(wǎng)絡(luò)信息對人們生活的影響也越來越深遠(yuǎn),然而網(wǎng)絡(luò)中P2P等應(yīng)用正在大量的消耗網(wǎng)絡(luò)的帶寬資源從而影響了關(guān)鍵業(yè)務(wù)的正常展開。因此,通過對網(wǎng)絡(luò)中的各種業(yè)務(wù)流量進(jìn)行分析,建立合適的預(yù)測模型就成為網(wǎng)絡(luò)發(fā)展的必要。通過分析,能及時的發(fā)現(xiàn)網(wǎng)絡(luò)中的異常,從而使得網(wǎng)絡(luò)管理更主動,為網(wǎng)絡(luò)的持續(xù)高性能運行提供主要的保障,為規(guī)劃、設(shè)計網(wǎng)絡(luò)提供科學(xué)依據(jù)。本文首先介紹網(wǎng)絡(luò)流量數(shù)據(jù)采集方法,通過分析他們的優(yōu)缺點讓讀者對網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)有一個初步的了解。然后本文介紹了兩種基于不同技術(shù)的網(wǎng)絡(luò)流分類方法:深度數(shù)據(jù)包檢測技術(shù)(DPI)

2、和深度/動態(tài)流檢測技術(shù)(DFI)。在DPI中,主要介紹AC狀態(tài)機(jī)模式匹配算法實現(xiàn)多關(guān)鍵字的快速匹配。而DFI是基于流特征向量的分類方法,本文主要介紹分析了樸素貝葉斯方法。在特征選擇方面,介紹了運用相關(guān)度和快速的過濾器選擇方法(FCBF來對特征進(jìn)行篩選,得出有利于分類的特征子集,同時還可以去掉不相關(guān)或冗余特征,增加分類的準(zhǔn)確性。最后,本文介紹了如何把網(wǎng)絡(luò)流量分析的結(jié)果應(yīng)用到入侵檢測中,以發(fā)現(xiàn)網(wǎng)絡(luò)中的異常。目錄摘要1一、網(wǎng)絡(luò)流量分析概述31.1 網(wǎng)絡(luò)流量分析背景31.2 網(wǎng)絡(luò)流量分析定義31.3 網(wǎng)絡(luò)流量分析目的41.4 網(wǎng)絡(luò)流量分析意義5二、網(wǎng)絡(luò)流量采集61.1.0 網(wǎng)絡(luò)流61.2.0 網(wǎng)絡(luò)流的

3、特性61.3.0 網(wǎng)絡(luò)流量采集介紹61.4.0 主流網(wǎng)絡(luò)流量采集技術(shù)71 基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)71 基于SNMP勺流量采集技術(shù)。71 基于Netflow/sFlow的流量采集技術(shù)。81 基于干路中橋接設(shè)備的采集技術(shù)92.4網(wǎng)絡(luò)流量采集技術(shù)的對比10三、網(wǎng)絡(luò)流量分析112.4 基于DPI的網(wǎng)絡(luò)流量分析技術(shù)112.4.1 DPI提出的背景112.4.2 DPI技術(shù)研究112.4.3 AC自動機(jī)算法132.4.4 DPI總結(jié)152.5 基于DFI的網(wǎng)絡(luò)流量分析技術(shù)162.5.1 DFI的提出162.5.2 基于DFI技術(shù)的方法的基本原理162.5.3 樸素貝葉斯分類器162.5.4 改進(jìn)貝葉

4、斯一FCBF(AFastCorrelation-BasedFliter):172.5.5 其他應(yīng)用DFI技術(shù)的模型182.6 DPI和DFI的對比:19四、網(wǎng)絡(luò)流量分析之應(yīng)用:入侵檢測202 入侵檢測的基本定義以及方法202 網(wǎng)絡(luò)流量在異常檢測系統(tǒng)中的應(yīng)用212.4 特征參數(shù)的選取212.4 特征參數(shù)變化的提取212.4 .網(wǎng)絡(luò)流量異常的判斷22五、全文總結(jié)23參考文獻(xiàn)24、網(wǎng)絡(luò)流量分析概述網(wǎng)絡(luò)流量分析背景隨著網(wǎng)絡(luò)應(yīng)用日趨復(fù)雜化,網(wǎng)絡(luò)流量不斷增長并且呈現(xiàn)多樣化,如何更好的滿足用戶對各類Internet業(yè)務(wù)服務(wù)質(zhì)量越來越精細(xì)的要求,這是目前面臨的關(guān)鍵問題。因此,通過對網(wǎng)絡(luò)中的各種業(yè)務(wù)流量進(jìn)行分析

5、,建立合適的預(yù)測模型就成為網(wǎng)絡(luò)發(fā)展的必要1。網(wǎng)絡(luò)流量是記錄和反映網(wǎng)絡(luò)及其用戶活動的重要載體。通過對網(wǎng)絡(luò)流量的統(tǒng)計分析,可以間接掌握網(wǎng)絡(luò)的使用情況,從而為做出決策提供有力依據(jù)。網(wǎng)絡(luò)流量分析定義網(wǎng)絡(luò)流量是單位時間內(nèi)通過網(wǎng)絡(luò)設(shè)備或傳輸介質(zhì)的信息量(報文數(shù)、數(shù)據(jù)包數(shù)或字節(jié)數(shù))。網(wǎng)絡(luò)流量分析指的就是根據(jù)不同的方法從不同的側(cè)面對網(wǎng)絡(luò)流量展開的分析。網(wǎng)絡(luò)的作用是傳輸應(yīng)用數(shù)據(jù),應(yīng)用數(shù)據(jù)在網(wǎng)絡(luò)中傳輸過程在OSI協(xié)議模型中的描述如下圖:5Session4Transport2DataUnk1Physical發(fā)送圖1-1OSI傳輸模型在OSI傳輸模型中,發(fā)送方的應(yīng)用數(shù)據(jù)由下層協(xié)議逐層處理,最后通過物理層傳輸,接收方則

6、逐層向上處理從物理鏈路上接收的信號,最后還原成應(yīng)用層數(shù)據(jù)。一個Web應(yīng)用數(shù)據(jù)在OSI模型中的網(wǎng)絡(luò)數(shù)據(jù)傳處理過程如下圖:5$essk)r4Transput1PhysicalDLC圖1-2Web應(yīng)用的數(shù)據(jù)處理從上圖我們可以看出,應(yīng)用數(shù)據(jù)在應(yīng)用層采用HTTP協(xié)議,在傳輸層被分段,在網(wǎng)絡(luò)層封包,在數(shù)據(jù)鏈路層封幀,由物理層傳輸,由每一層進(jìn)行處理,按照相應(yīng)的協(xié)議進(jìn)行封裝。網(wǎng)絡(luò)流量的分析就是對在網(wǎng)絡(luò)中傳輸?shù)膶嶋H數(shù)據(jù)流進(jìn)行分析,網(wǎng)絡(luò)數(shù)據(jù)流的分析包括從底層的數(shù)據(jù)流一直到應(yīng)用層的數(shù)據(jù)的分析,有的時候也稱之為網(wǎng)絡(luò)協(xié)議分析。1.3網(wǎng)絡(luò)流量分析目的簡單的說,對網(wǎng)絡(luò)流量進(jìn)行分析的目的是了解、發(fā)現(xiàn)和證明。了解,管理好一個網(wǎng)

7、絡(luò)最重要的就是對網(wǎng)絡(luò)的了解,了解網(wǎng)絡(luò)拓?fù)?、設(shè)備、配置等是必須的,但要保證網(wǎng)絡(luò)的服務(wù)質(zhì)量,那是遠(yuǎn)遠(yuǎn)不夠的,對網(wǎng)絡(luò)流量的分析能使網(wǎng)絡(luò)技術(shù)人員更深入地了解網(wǎng)絡(luò)。.網(wǎng)絡(luò)運行規(guī)律的了解。每個網(wǎng)絡(luò)都有自身的運行規(guī)律,這和網(wǎng)絡(luò)的結(jié)構(gòu)、應(yīng)用特點等緊密相關(guān),通過流量的長期分析,能夠了解網(wǎng)絡(luò)系統(tǒng)運行的規(guī)律。.網(wǎng)絡(luò)應(yīng)用運行規(guī)律的了解。網(wǎng)絡(luò)上重要的應(yīng)用在運行時,每一個訪問,每一個交易處理,數(shù)據(jù)都由網(wǎng)絡(luò)來傳輸,通過分析應(yīng)用的流量,能夠清楚的了解應(yīng)用運行的規(guī)律,訪問量、交易處理數(shù)量、響應(yīng)性能等數(shù)據(jù),都可以通過流量分析手段獲取。.網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)行為。每個網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)行為都是相互影響的,同時會對網(wǎng)絡(luò)的運行產(chǎn)生影響,伴隨每個

8、用戶在網(wǎng)絡(luò)中的每個網(wǎng)絡(luò)行為都有網(wǎng)絡(luò)流量產(chǎn)生,通過對網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)流量進(jìn)行分析,能夠直觀地了解網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)行為。發(fā)現(xiàn),主要是異常地發(fā)現(xiàn)是建立在了解的基礎(chǔ)之上的,如果能做到及時地發(fā)現(xiàn)網(wǎng)絡(luò)中的異常,將使網(wǎng)絡(luò)管理更主動,將為網(wǎng)絡(luò)的持續(xù)高性能運行提供重要的保障(異常流量丟包嚴(yán)重)。.網(wǎng)絡(luò)運行異常的發(fā)現(xiàn)。網(wǎng)絡(luò)中流量的異常,包括利用率、數(shù)據(jù)包數(shù)的異常。.網(wǎng)絡(luò)應(yīng)用運行的異常發(fā)現(xiàn)。連接數(shù)量、應(yīng)用響應(yīng)、應(yīng)用流量的異常,都可以通過長期主動分析來及時發(fā)現(xiàn)。.網(wǎng)絡(luò)用戶的異常網(wǎng)絡(luò)行為。異常的網(wǎng)絡(luò)行為也都有明顯的流量特征,如感染的蠕蟲病毒、安裝了后門程序等,長期流量分析能及時的發(fā)現(xiàn)網(wǎng)絡(luò)用戶的這些異常網(wǎng)絡(luò)行為,及時發(fā)現(xiàn)網(wǎng)絡(luò)

9、用戶的異常網(wǎng)絡(luò)行為是避免其影響網(wǎng)絡(luò)運行的關(guān)鍵。證明,網(wǎng)絡(luò)流量的分析可以為網(wǎng)絡(luò)和應(yīng)用問題的分析提供依據(jù),特別是數(shù)據(jù)包級的分析,而這些依據(jù)是真實的,因為它們是實實在在的在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)包,這也是流量分析能夠大大提高網(wǎng)絡(luò)和應(yīng)用問題分析效率的原因。1.4網(wǎng)絡(luò)流量分析意義網(wǎng)絡(luò)流量分析是有助于維護(hù)網(wǎng)絡(luò)持續(xù)、高效和安全運行的一種手段,網(wǎng)絡(luò)流量分析的意義在于取得對網(wǎng)絡(luò)運行管理、應(yīng)用運行管理和網(wǎng)絡(luò)應(yīng)用問題分析有意義的數(shù)據(jù)。這些數(shù)據(jù)多種多樣,像是利用率、bps、pps還是延遲、重傳、連接數(shù)量等這些流量分析的數(shù)據(jù),都要和我們實際的網(wǎng)絡(luò)應(yīng)用運行情況結(jié)合起來才有意義,因為不同的網(wǎng)絡(luò)和不同的應(yīng)用都有完全不同的流量數(shù)據(jù)。

10、網(wǎng)絡(luò)流量分析的數(shù)據(jù)的意義是建立在了解的基礎(chǔ)上的,只有對網(wǎng)絡(luò)和應(yīng)用的深入了解,才能使這些數(shù)據(jù)的價值得到真正的體現(xiàn)。、網(wǎng)絡(luò)流量采集網(wǎng)絡(luò)流網(wǎng)絡(luò)流就是一組具有相同特性的ip包,這些特性包括源/目的ip,源/目的端口,傳輸層協(xié)議,TOS字段等。通常把前面5個特性成為5元組2。網(wǎng)絡(luò)流故名思議有一個持續(xù)的時間,網(wǎng)絡(luò)流可以持續(xù)很長,也可以很短,而且同一個數(shù)據(jù)包可以屬于不同的網(wǎng)絡(luò)流。網(wǎng)絡(luò)流的特性網(wǎng)絡(luò)流的五大特性,分別是自相似性,長相關(guān)性,周期性,混沌性和多分形性。自相似是指局部的結(jié)構(gòu)與總體的結(jié)構(gòu)相比具有某種程度的一致性,舉個例子,有個人籃球打的很厲害,那么他打其他球應(yīng)該也不錯。長相關(guān)性意味著未來的統(tǒng)計信息蘊含在

11、過去和現(xiàn)在的信息之中,它反映了自相似過程中的持續(xù)現(xiàn)像。比如通過流量監(jiān)控發(fā)現(xiàn),一個人星期1,2,3都是晚上8點-10點上網(wǎng),那么通過長相關(guān)性可以推斷他星期4也是這個時間段上網(wǎng)。周期性反映網(wǎng)絡(luò)流量時間序列隨時間變化而表現(xiàn)出來的一種季節(jié)性變化規(guī)律,它可能是由于流量數(shù)據(jù)的周期采集引起的,也可能是人們上網(wǎng)的行為習(xí)慣引起的。比如有個人每周1-4都是晚上8-10點上網(wǎng),但周末都是9點上到12點,這可能就是這個人上網(wǎng)的習(xí)慣引起了網(wǎng)絡(luò)流的周期性。混沌性是指確定的、宏觀的非線性系統(tǒng)在一定條件下所呈現(xiàn)出的不確定的或者不可預(yù)測的隨機(jī)現(xiàn)象。比如小明每天都是8-10點上網(wǎng),但也有時也會9點才上網(wǎng),這就是確定中的不確定現(xiàn)象

12、。在預(yù)測研究中只要能恢復(fù)出流量時間序列的混沌吸引子,就可以通過尋找預(yù)測狀態(tài)點的鄰域狀態(tài)點與其后續(xù)狀態(tài)點的函數(shù)關(guān)系,作為預(yù)測函數(shù),實現(xiàn)流量預(yù)測。最后是多分形性,又稱為多重分形測度。多分形還沒有一個明確的定義?;\統(tǒng)的說,分形是大小碎片聚集的狀態(tài),是沒有特征長度的圖形構(gòu)造以及現(xiàn)象的總稱。我們的理解是:網(wǎng)絡(luò)流往往是紛繁復(fù)雜的,我們很難單一用泊松或者正態(tài)函數(shù)來精確地描述這過程,多分形延伸了網(wǎng)絡(luò)流量中的自相似(自相似即單分形)行為,多分形性質(zhì)解釋網(wǎng)絡(luò)流許多令人困惑且雜亂無章的現(xiàn)象。描述局部時間內(nèi)網(wǎng)絡(luò)流量的不規(guī)則現(xiàn)象時更加靈活。由于網(wǎng)絡(luò)流具有上面的特性,我們進(jìn)行網(wǎng)絡(luò)流采集時要注意考慮網(wǎng)絡(luò)流的特性,才能保證采

13、集的正確性以及完整性。網(wǎng)絡(luò)流量采集介紹網(wǎng)絡(luò)流量的采集是網(wǎng)絡(luò)研究的重要部分,它是網(wǎng)絡(luò)流量分析的必要前提;同時,網(wǎng)絡(luò)流量的采集使得網(wǎng)絡(luò)管理員能夠監(jiān)控網(wǎng)絡(luò)負(fù)載,發(fā)現(xiàn)網(wǎng)絡(luò)故障的位置,從而制定網(wǎng)絡(luò)管理策略。理想的數(shù)據(jù)采集方式應(yīng)該具備以下一些特點:.不影響數(shù)據(jù)流轉(zhuǎn)發(fā)的速度在整個數(shù)據(jù)流的采集過程中,不能有明顯影響數(shù)據(jù)流轉(zhuǎn)發(fā)速度的狀況發(fā)生。如果在數(shù)據(jù)采集白過程中,數(shù)據(jù)流轉(zhuǎn)發(fā)的速度明顯下降,不能真實地反映網(wǎng)絡(luò)流量狀況,這違背數(shù)據(jù)采集的根本目的。.占用資源小對數(shù)據(jù)流進(jìn)行采集的過程中,可能需要在路由器(交換機(jī))中進(jìn)行流量統(tǒng)計,并且儲存所采集數(shù)據(jù)。這會給路由器(交換機(jī))帶來額外的資源開銷。理想的流量采集方法應(yīng)該盡可能

14、少占用資源,在采集效果和資源占用之間尋求一個平衡點。.完整的數(shù)據(jù)流監(jiān)控一個理想的數(shù)據(jù)采集方法應(yīng)該具備完整的數(shù)據(jù)流監(jiān)控能力。在網(wǎng)絡(luò)發(fā)生擁塞的時候能不能采集到完整的流量信息,是考察數(shù)據(jù)采集方法的一個重要標(biāo)準(zhǔn)。.分布式的數(shù)據(jù)采集分布式的數(shù)據(jù)采集有利于實現(xiàn)校園網(wǎng)內(nèi)部的數(shù)據(jù)流量監(jiān)控和管理。2.4主流網(wǎng)絡(luò)流量采集技術(shù)現(xiàn)在的網(wǎng)絡(luò)流采集方式主要分為四種:基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)、基于SNMP的采集技術(shù)和基于Netnow/sFlow等通過采樣減少分析數(shù)據(jù)的采集技術(shù)以及基于干路中橋接設(shè)備的采集技術(shù)基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)網(wǎng)絡(luò)流量全鏡像采集是目前主要采用的網(wǎng)絡(luò)流量采集模式,大部分的IDS(Intrusion

15、DetectionSystems入侵檢測系統(tǒng))就是如此。其原理是通過交換機(jī)等網(wǎng)絡(luò)設(shè)備的端口鏡像或者通過分光器、網(wǎng)絡(luò)探針等附加設(shè)備,實現(xiàn)網(wǎng)絡(luò)流量的無損復(fù)制和鏡像采集。和其它的采集方式相比,流量鏡像采集的最大特點是能夠提供豐富的應(yīng)用層信息。此方法的優(yōu)點是實施最為簡單,幾乎不會對網(wǎng)絡(luò)中數(shù)據(jù)傳輸?shù)难訒r造成任何影響.缺點是由于數(shù)據(jù)采集機(jī)要捕獲所有的數(shù)據(jù)流信息并對之加以分析,因此這種方法對數(shù)據(jù)采集機(jī)的處理能力要求很高。此外,由于這種方式是對整個IP數(shù)據(jù)包進(jìn)行抓取后再進(jìn)行處理,必然導(dǎo)致數(shù)據(jù)量過于龐大,對于后續(xù)的數(shù)據(jù)處理工作帶來不便?;赟NMP勺流量采集技術(shù)?;赟NMP的流量信息采集,實質(zhì)上是通過提取網(wǎng)絡(luò)

16、設(shè)備Agent提供的MIB(管理對象信息庫)中收集的一些具體設(shè)備及流量信息有關(guān)的變量。在路由器中啟動流量統(tǒng)計功能,使其記錄下所有流量的源地址、目標(biāo)地址、數(shù)據(jù)包數(shù)量和字節(jié)數(shù)。另外一臺采集數(shù)據(jù)的機(jī)器通過SNMP協(xié)議定期到路由器上去將流量統(tǒng)計信息讀取回來,從而獲得詳細(xì)數(shù)據(jù)。此方法的優(yōu)點是流量信息準(zhǔn)確,信息獲取方便。同時,由于使用SNMP協(xié)議進(jìn)行數(shù)據(jù)獲取具有很好的通用性和可移植性。因此這種方法的應(yīng)用非常廣泛。缺點是在路由器上運行流量統(tǒng)計功能,會影響路由器對數(shù)據(jù)包處理的效率,增加路由器的CPU和內(nèi)存負(fù)載,不可避免的對網(wǎng)絡(luò)性能帶來一定的影響。因此,這種方法并不適合在網(wǎng)絡(luò)和核心層部署,適合在網(wǎng)絡(luò)的邊界處進(jìn)行

17、流量采集。MRTG是基于SNMP的免費軟件,可以通過Web實時向用戶提供多種統(tǒng)計時長的統(tǒng)計圖表及關(guān)鍵節(jié)點性能狀況。圖中就是MRTG統(tǒng)計的每個設(shè)備的流量情況(以報表形式輸出)圖2-1基于SNMP的開源軟件MRTG可以看到基于SNMP的流量采集技術(shù)主要是在宏觀的角度對網(wǎng)絡(luò)流進(jìn)行統(tǒng)計,使網(wǎng)絡(luò)管理員可以掌握整個網(wǎng)絡(luò)的運行狀況?;贜etflow/sFlow的流量采集技術(shù)。NetFlow是思科公司提出的一種數(shù)據(jù)交換標(biāo)準(zhǔn),而sFlow是對NetFlow的改進(jìn),是基于標(biāo)準(zhǔn)的最新網(wǎng)絡(luò)導(dǎo)出協(xié)議(RFC3176)。他們的原理是:路由器和交換機(jī)中實現(xiàn)的基于流統(tǒng)計的方法。流量信息在路由器或交換機(jī)內(nèi)部通過專門的模塊生產(chǎn)

18、流一記錄,再將流一記錄上報到設(shè)備外部的統(tǒng)計系統(tǒng)進(jìn)行進(jìn)一步統(tǒng)計和分析。Netflow和sFlow一般在實際應(yīng)用時都進(jìn)行采樣統(tǒng)計。優(yōu)點:在進(jìn)行數(shù)據(jù)交換的同時對數(shù)據(jù)流信息進(jìn)行統(tǒng)計,并將統(tǒng)計信息以特定的格式輸出。缺點:必須進(jìn)行一定的采樣,否則對路由器和交換機(jī)設(shè)備的處理能力有較大壓力。NetFlowAnalyzer是一款專業(yè)的帶寬監(jiān)控與流量協(xié)議分析軟件,幫助用戶了解網(wǎng)絡(luò)流量構(gòu)成、協(xié)議分布以及用戶的行為。圖1顯示了各設(shè)備的速率的排行。叩A(chǔ)*W9IWII-r031UUEPHvni'nati1t甘*«t13»w«i!/h1M-4W+IJi-w上FTBiK£Qn|

19、im!«*»<M.ptrEE£33H*hwBELH-調(diào):坳4WbK»bont<JHTT*llWjj4MV>buw«!*"IIMVftVnHti圖2-2基于Netflow的流量監(jiān)控軟件NetFlowAnalyzer基于干路中橋接設(shè)備的采集技術(shù)基于干路中橋接設(shè)備的采集技術(shù)是在網(wǎng)絡(luò)的出口鏈路中,串聯(lián)具有數(shù)據(jù)過濾/轉(zhuǎn)發(fā)功能的設(shè)備,例如:網(wǎng)關(guān)計費服務(wù)器、防火墻等優(yōu)點:對數(shù)據(jù)的捕獲能力強并具有控制能力,可以捕獲不同網(wǎng)段的數(shù)據(jù),不需要主干交換設(shè)備支持缺點:對設(shè)備的處理能力要求高,容易造成網(wǎng)絡(luò)瓶頸,價格昂貴,不能用于底層網(wǎng)絡(luò)內(nèi)部數(shù)據(jù)

20、流量的采集。圖1:IP5000是In-line(橋接)模式的專用硬件產(chǎn)品,以DPI(DeepPacketInspect,深度包檢測)技術(shù)為核心,提供了基于七層應(yīng)用的帶寬管理和應(yīng)用優(yōu)化功能。圖中是它的管理界面。m.,uT!5UllARBrl立鼻BlMg>Siip亞31JL暫+KFU*UuKI<*.HW*wm*UMJ!m4日!I1.J回口-i*npita1*IT.4*1”市rWr"W口打m*圖2-2IP5000MaxNet管理界面2.4網(wǎng)絡(luò)流量采集技術(shù)的對比卜面我們對以上講的4種技術(shù)做一個總結(jié),列表如下:SNMPNetflow/sFlow干路中橋接設(shè)備網(wǎng)絡(luò)流全鏡像成本相對低低

21、高高跨越子網(wǎng)可以可以可以設(shè)備相關(guān)X別主機(jī)不能可以可以可以區(qū)別協(xié)議不能可以可以可以瓶頸風(fēng)險低低高低屆捕數(shù)據(jù)NA是否是表2-1幾種主流采集方式對比.由于SNMP和netflow主要通過協(xié)議以及軟件來實現(xiàn),因此他們的成本比較低。.SNMP由于協(xié)議本身的限制,因此不能區(qū)別主機(jī)以及協(xié)議。.基于干路中橋接設(shè)備的采集技術(shù)由于直接把采集設(shè)備直接串聯(lián)在鏈路中,一旦出故障,容易影響整個網(wǎng)絡(luò)。.NetFlow和網(wǎng)絡(luò)流量鏡像都采用了采樣的方式,因此都有漏捕數(shù)碼的可能。三、網(wǎng)絡(luò)流量分析網(wǎng)絡(luò)流量分析根據(jù)不同的方法可以從不同的側(cè)面展開,目前,主要的分析方法可以分為兩類:基于包內(nèi)容的分析方法(DPI)和基于流量特征的分析方法

22、(DPI)?;贒PI的網(wǎng)絡(luò)流量分析技術(shù)DPI提出的背景傳統(tǒng)的端口檢測技術(shù)是根據(jù)TCP數(shù)據(jù)包或UDP數(shù)據(jù)包首部的源端口或目的端口號識別一些常見協(xié)議的流量。這種識別流量的方法最大的優(yōu)點就是簡單易行。端口檢測是基于IANA注冊的知名的端口,例如,HTTP的端口是80,SSH的端口是22,Telnet的端口是23等。在傳統(tǒng)的模式下,重要的端口一般是端口號小于1024的或者是在IANA注冊的端口號。通過這些知名的端口,我們可以很輕易的檢測出他們相應(yīng)的應(yīng)用程序名稱。但是這種技術(shù)有一定的局限性。單一使用端口檢測己經(jīng)遠(yuǎn)遠(yuǎn)不能滿足檢測大多數(shù)應(yīng)用程序的需要。因為現(xiàn)今的很多Intemet流量出現(xiàn)了新的特征,例如端

23、口檢測技術(shù)對使用動態(tài)端口的應(yīng)用程序就無能為力,而且這種方法同樣不能分辨兩種應(yīng)用程序同時使用相同的端口號的情況,例如,現(xiàn)在的很多軟件白非HTTP數(shù)據(jù)流連接端口也會使用端口80,僅依靠端口識別HTTP協(xié)議已經(jīng)不再可靠3IPHeacerTCPHeader(Port80)HTTPPanornGET/songi.mp3HTTP/1.1User-AgentKazaaIPPoyioadTCPPayloadKazuPalterri圖3-1Kazaa數(shù)據(jù)包分析例如,在上圖中,顯示了一個數(shù)據(jù)包的結(jié)構(gòu),如果只是通過常見的HTTP應(yīng)用簽名特征進(jìn)行判斷,就很容易將它誤判為一個Web訪問的應(yīng)用。因為如果只觀察第一個簽名特

24、征樣本(例如HTTP/1.1),那么它看上去很像是一個標(biāo)準(zhǔn)的HTTP協(xié)議。然而通過對數(shù)據(jù)包的負(fù)載部分的進(jìn)一步深入考察,發(fā)現(xiàn)該數(shù)據(jù)包具有的第二個代碼樣本簽名特征,即KaZaa,這樣我們就能夠了解這個數(shù)據(jù)包的真實身份和目的。DPI技術(shù)研究DPI是目前通過IP來識別和鑒定協(xié)議及應(yīng)用(IP流)的最重要的技術(shù)。所謂“深度數(shù)據(jù)包檢測”,“深度”是和標(biāo)準(zhǔn)數(shù)據(jù)包分析層次相比較而言的,“標(biāo)準(zhǔn)數(shù)據(jù)包檢測”僅分析IP包的4層以下的基礎(chǔ)信息,包括源IP地址、目的IP地址、源端口、目的端口以及連接狀態(tài),這些信息保存在數(shù)據(jù)包的4層以下的包頭內(nèi)。如下圖:P2P應(yīng)用岫包頭信息弱小廠通訊的運圖圖3-2傳統(tǒng)端口檢測DPI除了對4

25、層以下的基礎(chǔ)信息進(jìn)行分析外,還增加了應(yīng)用層分析,識別各種應(yīng)用及其內(nèi)容。這是通過對一系列數(shù)據(jù)包的包頭以及負(fù)載中的簽名特征(Signature)進(jìn)行分析,同時DPI提供了對網(wǎng)絡(luò)的利用率的分析,為網(wǎng)絡(luò)性能優(yōu)化提供了手段。如下圖:圖3-3深度數(shù)據(jù)包檢測不同的應(yīng)用層協(xié)議有不同的協(xié)議信息,這些信息可以作為應(yīng)用層協(xié)議的檢測特征。例如以下是常見的P2P應(yīng)用的特征值4:特征值BitTorrent0x13BitTorrentProtocolGnutella“GNUT,“GIV”,“GN?;鵍連接狀態(tài)的L總從幾個數(shù)據(jù)包中發(fā)現(xiàn)的簽名(Signature)eDonkey2000QQLive0xe319010000,0x

26、c53f0100000xfe290404表3-1常用P2P協(xié)議特征值A(chǔ)C自動機(jī)算法知道了各種應(yīng)用的協(xié)議信息的特征值后,下一步要解決的問題就是如何從報文中匹配出特征值。這里介紹一個比較常用的多模式匹配算法:AC自動機(jī)算法。AC自動機(jī)算法的輸入是多個關(guān)鍵字集,輸出是關(guān)鍵字的匹配情況。自動機(jī)分3個階段執(zhí)行搜索:根據(jù)關(guān)鍵字建立狀態(tài)轉(zhuǎn)移圖,然后對每個狀態(tài)建立失敗指針,最后根據(jù)這幅包含失敗指針的完整的狀態(tài)轉(zhuǎn)移圖進(jìn)行匹配5。第一階段:根據(jù)關(guān)鍵字建立狀態(tài)轉(zhuǎn)移圖,又叫狀態(tài)轉(zhuǎn)移指針。構(gòu)造的思路是:開始時這個圖只包含一個根狀態(tài)R。然后,通過添加一條從起始狀態(tài)出發(fā)的路徑的方式,依次向圖中輸入每個關(guān)鍵字p。新的頂點和邊

27、被加入到圖表中,以致于產(chǎn)生了一條能拼寫出關(guān)鍵字p的路徑。關(guān)鍵字p會被添加到這條路徑的終止?fàn)顟B(tài)的輸出函數(shù)中。當(dāng)然只有必要時才會在圖表中增加新的邊。比如關(guān)鍵字she,he,say,shr,her,ayd構(gòu)造過程如下:1、向圖中添加一個關(guān)鍵字“she",結(jié)果下圖所示,從狀態(tài)R到狀態(tài)e的路徑拼寫出了關(guān)鍵字“she”,我們把輸出“she”和狀態(tài)e相關(guān)聯(lián),圖中用綠色圈表示。2、添加第二個關(guān)鍵字“he”,狀態(tài)轉(zhuǎn)移圖變?yōu)橄聢D:R3、添加第三個關(guān)鍵字“say”,因為圖中已存在一條從R狀態(tài)到s狀態(tài)的邊了,所以不必在R狀態(tài)處另外添加一條邊,而是從s狀態(tài)開始建立,狀態(tài)轉(zhuǎn)移圖變?yōu)橄聢D:其他關(guān)鍵字如以上規(guī)則所述

28、繼續(xù)加到圖中,最后構(gòu)造的狀態(tài)轉(zhuǎn)移圖為:第二階段:構(gòu)造失敗指針。失敗指針的作用是用于指示當(dāng)某個狀態(tài)匹配失敗時,應(yīng)該指向哪個狀態(tài)。構(gòu)造失敗指針的過程為:R狀態(tài)的失敗指針指向自己,其余狀態(tài)節(jié)點的失敗指針為:設(shè)這個節(jié)點上的字母為C,沿著他父親的失敗指針走,直到走到一個節(jié)點,他的兒子中也有字母為C的節(jié)點。然后把當(dāng)前節(jié)點的失敗指針指向那個字母也為C的兒子。如果一直走到了root都沒找到,那就把失敗指針指向root。比如第一層的s狀態(tài)、h狀態(tài)和a狀態(tài),因為父節(jié)點都是R狀態(tài),而R狀態(tài)的失敗指針指向R狀態(tài)本身,所以s狀態(tài)、h狀態(tài)和a狀態(tài)的失敗指針都指向R狀態(tài)。再考察第二層的狀態(tài)。h狀態(tài)的父節(jié)點是s狀態(tài),沿著s狀

29、態(tài)的失敗指針走到R狀態(tài),而R狀態(tài)有兒子節(jié)點是與h狀態(tài)同一個字母,所以h狀態(tài)的失敗指針指向第一層的h狀態(tài)。接著是a狀態(tài),同理,其失敗指針指向第一層的a狀態(tài)。接著考察e狀態(tài),沿著父狀態(tài)的失敗指針走到R,因為R狀態(tài)下的兒子節(jié)點沒有與e狀態(tài)是相同的字母,所以第二層的e狀態(tài)的失敗指針指向R狀態(tài)。按照這一規(guī)則,最后得出包含失敗指針的完整狀態(tài)轉(zhuǎn)移圖為:圖中沒有用紅色箭頭標(biāo)注的狀態(tài),其失敗指針均指向R狀態(tài)。第三階段:搜索。如果搜索指針路過了一個紅色圈的點,那么以這個點結(jié)尾的單詞就算出現(xiàn)過了?;蛘呷绻阉髦羔?biāo)诘狞c可以順著失敗指針走到一個紅色圈的點,那么以這個點結(jié)尾的單詞就算出現(xiàn)過了。如待匹配字符串ysher

30、sayd首先匹配首字母y,因為R狀態(tài)下沒有y狀態(tài),所以按照R狀態(tài)的失敗指針,返回R狀態(tài);接著匹配字母s,因為R狀態(tài)下有s狀態(tài),所以跳到s狀態(tài)繼續(xù)匹配;接著匹配字母h,因為s狀態(tài)下有hs狀態(tài),所以跳到h狀態(tài)繼續(xù)匹配;接著匹配字母e,因為h狀態(tài)下有e狀態(tài),所以跳到e狀態(tài)繼續(xù)匹配,因為e狀態(tài)是用綠色圈標(biāo)注,代表she關(guān)鍵字匹配成功,所以輸出she;接著匹配字母r,因為e狀態(tài)下沒有節(jié)點,所以按照其失敗指針,跳到第二層的e狀態(tài),由于這個e狀態(tài)也是用綠色圈標(biāo)注,所以代表關(guān)鍵字he匹配成功,所以輸出he,然后這個e狀態(tài)下匹配字母r成功,所以輸出her。按此規(guī)則匹配,最后輸出成功匹配的關(guān)鍵字為she,her,

31、say,ayd。DPI總結(jié)DPI檢測技術(shù)白優(yōu)點是:1、檢測準(zhǔn)確率比較高。2、原理簡單,分析起來也相對容易,并且能應(yīng)付大多數(shù)的識別要求。3、實現(xiàn)速度快,使用DPI技術(shù)不需要建立太多的關(guān)聯(lián)表,也不需要在系統(tǒng)中緩存大量的數(shù)據(jù),對系統(tǒng)性能的影響相對較低,匹配起來速度比較快。DPI的缺點是:1、各種協(xié)議軟件都在不斷的發(fā)展,因此協(xié)議特征信息也在不斷的變化,當(dāng)發(fā)生變化的時候,檢測特征也要隨之變化,比較被動。2.、要采用特征檢測技術(shù),其特征必須足夠復(fù)雜以便在概率上達(dá)到不可能誤判的目的,雖然經(jīng)過實踐發(fā)現(xiàn)大多數(shù)的網(wǎng)絡(luò)協(xié)議/應(yīng)用都具有足夠復(fù)雜的特征,但仍然有部分的協(xié)議不能夠提取出足夠復(fù)雜的特征來,特別是加密的協(xié)議,

32、在面對這種情況時,DPI技術(shù)顯得無能為力?;贒FI的網(wǎng)絡(luò)流量分析技術(shù)DFI的提出目前DPI技術(shù)的有效性正在逐步下降,這是因為DPI技術(shù)基于兩個假設(shè):IP包的有效載荷可見性。(誰都能知道ip包里面裝的是什么)IP包能夠被解釋,分類器知道每個應(yīng)用程序相應(yīng)IP包的特征。但是這兩個假設(shè)成立的情況現(xiàn)在正在減弱,一個是由于應(yīng)用程序?qū)P包有效載荷的加密(如skype),政府法規(guī)會保護(hù)用戶的隱私權(quán);另一個是運營的負(fù)擔(dān),設(shè)備需要頻繁的更新特征庫來應(yīng)對應(yīng)用程序IP包格式等的變化。鑒于基于知名端口和有效載荷內(nèi)容的方法的局限性,現(xiàn)階段學(xué)術(shù)研究方面主要偏向于通過利用網(wǎng)絡(luò)流的統(tǒng)計特征(DFI)來實現(xiàn)業(yè)務(wù)識別?;贒F

33、I技術(shù)的方法的基本原理DFI主要是利用前面所說的流的一些特性,比如自相似性,周期性等。不同類型的應(yīng)用一般來說在統(tǒng)計特征上也會有比較明顯的差異,比如網(wǎng)上IP語音流量體現(xiàn)在流狀態(tài)上的特征就非常明顯:RTP流的包長相對固定,一般在130220byte,連接速率較低,為2084kbit/s,同時會話持續(xù)時間也相對較長;而基于P2P下載應(yīng)用的流量模型的特點為平均包長都在450byte以上、下載時間長、連接速率高、首選傳輸層協(xié)議為TCP等。在DFI方法中流是采用五元組定義,對與這種五元組定義的流常用分類方法的一般過程是選取流的適當(dāng)參數(shù),使用一個人工標(biāo)注已知類別的數(shù)據(jù)作為輸入,通過不同的機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練

34、得到分類器參數(shù),從而實現(xiàn)對未知流的識別?,F(xiàn)階段,采用DFI技術(shù)的分類方法大多是基于機(jī)器學(xué)習(xí)的:無指導(dǎo)學(xué)習(xí)(聚類方法),指導(dǎo)學(xué)習(xí)以及混合方法。樸素貝葉斯分類器樸素貝葉斯分類器在網(wǎng)絡(luò)流分類中的應(yīng)用:網(wǎng)絡(luò)流量分類是一種典型的多元分類問題。在機(jī)器學(xué)習(xí)方法中,流量分類問題可以抽象為:已知流量類型集合C=c1,c2,ck和網(wǎng)絡(luò)流集合T=t1,t2,tn,其中,網(wǎng)絡(luò)流ti是一個由網(wǎng)絡(luò)流屬性集合構(gòu)成的屬性向量(Ai1,Ai2,Aim),如何在類型已知的網(wǎng)絡(luò)流集合上,利用機(jī)器學(xué)習(xí)算法構(gòu)建流量分類模型f:T-C,并以此模型對類型未知的網(wǎng)絡(luò)集合進(jìn)行分類6。貝葉斯方法:用F=Fi,F2,Fi一,F(xiàn)n表示流集合,n表示

35、樣本流的個數(shù),F(xiàn)i=fii,必,而,fim表示第i條樣本流,其中m表示樣本流的屬性個數(shù),而表示第i條流第j個屬性。設(shè)C=G,C2,0.,&表示流所屬的類別標(biāo)簽集合,其中k表示類別白數(shù)量,Ck表示第k類。定有k個類G,C2,&,0匕k表示流量的應(yīng)用類型的個數(shù),給定一個未知的數(shù)據(jù)樣本Fi,分類法將預(yù)測Fi屬于具有最高后驗概率(條件Fi下)的類,即樸素貝葉斯分類將未知的數(shù)據(jù)樣本分配給類Ch,當(dāng)且僅當(dāng)P(Ch|Fi)>P(Cg|Fi),1<g<k,gwh由此得到樸素貝葉斯分類的公式如下7:VNBC=argmax(P(Ch|Fi)其中:P(G|Fi)=P(F|Ch)P(

36、Ch)/P(Fi)由于P(F)對于所有類為常數(shù),只需計算最大P(Fi|Ch)P(Ch)即可。計算P(Ch)可以通過公式P(Ch)=Sh/S計算,其中,Sh是類Ch中的訓(xùn)練樣本數(shù),S是訓(xùn)練樣本總數(shù)。但是在實際應(yīng)用中,對于給定具有許多條件屬性的數(shù)據(jù)集,計算最大后驗概率P(Fi|Ch)P(Ch),計算的開銷可能非常大。為了降低計算的開銷,樸素貝葉斯分類器作了條件獨立假設(shè),假定各屬性相互條件獨立,即在屬性間不存在依賴關(guān)系,假定各屬性相互條件獨立,即在屬性間不存在依賴關(guān)系,因此:P(F|Ch)=nP(fik|Ch)(k=1.n)概率P(fik|Ch)可以由訓(xùn)練樣本計算,即:SP(fik|Ch)=2Sh其

37、中Sk是在屬性fik上具有值i類Ch的訓(xùn)練樣本數(shù),而Si是Ch中的訓(xùn)練樣本數(shù),即比如是樣本中屬于ppstream的流數(shù)量。為測試未知樣本x的分類,對于每個類Ch,計算每個P(Fi|Ch)P(Ch),樣本F則被指派到P(F|Ch)P(Ch)最大的類Ch,即:VMAP=P(F|Ch)P(G)>P(C|Fi)P(Cg)改進(jìn)貝葉斯一FCBF(AFastCorrelation-BasedFliter):特征的選取過程中的兩個問題:(1)怎樣決定一個特征是否和類別相關(guān)(2)怎樣決定這樣一個與類別相關(guān)的特征是否與其它特征冗余8。FCBF的主要思想基于特定的相關(guān)性定義,逐個度量單個特征與類別標(biāo)簽的相關(guān)性

38、,即單個特征的各自的分類能力,然后根據(jù)各特征的分類能力對特征進(jìn)行降序排序,選出分類能力高的特征子集,從而在一定程度上消除與分類弱相關(guān)甚至無關(guān)的特征,實現(xiàn)降維。通過對稱的不確定性SU(symmetricuncertainly)理論來幫助找出主要相關(guān)屬性9。對稱不確定理論是基于信息概念論,首先我們先了解一下信息理論念,變量X的嫡為:H(x)=4Rxjoggi)i在給定Y的情況下X的嫡為H(x|y)二P(yj廣P(xi|Vj)log4Rxi|y)P(Xi)表示對與X中所有值的先驗概率,P(X|yi)是給定丫值X的后驗概率,而信息增益IG(X|丫)被表示為:IG(X|Y)=H(X)-H(X|Y),這些

39、值都需要被分類化來保證可比性和具有同樣的效果,因此使用SU,定義SU(x,y)IG(x|y)4H(x)Hy)第一個問題通過設(shè)置一個閾值是SU(特征,類別)>閾值來解決。第二個問題所有通過第一個問題閾值選出的特征,按SU降序排列,然后通過循環(huán)計算F-correlation來解決。一個特征fij與類別G的相關(guān)是主要的相關(guān)性:SUj,h>8并且不存在這樣的特征幻使得SLj,>SU,h其他應(yīng)用DFI技術(shù)的模型聚類里面有一種采用K-means來識別基于TCP協(xié)議應(yīng)用的方法:主要思想應(yīng)用TCP流的前幾個包,這個方法允許較早的識別網(wǎng)絡(luò)流。為什么只采用前幾個包,是基于這樣子的事實,應(yīng)用程序的

40、協(xié)商信息往往包含在一個流的前幾個包中,這些信息通常是應(yīng)用預(yù)先定義好的消息序列,而且一般不同應(yīng)用也不同。例如取前P個包,那么可以設(shè)想有一個P維空間,每一個流可以用前P個包表示,P維坐標(biāo)分別對應(yīng)于前P個包的大小(或者其他特征),采用歐式距離來計算流之間的相似度。至于K值的選擇主要是通過使用不同的K值實驗。分類就是通過計算比較流與每個聚類中心的距離。(比較早期關(guān)于機(jī)器學(xué)習(xí)在流分類的應(yīng)用,大概流分類準(zhǔn)確率80%左右)10為了進(jìn)一步提高流量分類模型的實時性,2006年澳大利亞斯溫伯恩大學(xué)的Nguyen等人提出了多子流模型(multiplesub-flowsmodel).該方法首先將網(wǎng)絡(luò)流根據(jù)協(xié)議通信的不

41、同階段劃分為若干條子流,然后分別為每條子流構(gòu)造屬性向量,并以此作為基本單元構(gòu)造訓(xùn)練數(shù)據(jù)集.該方法通過子流屬性提取擺脫了對網(wǎng)絡(luò)流進(jìn)行處理時必須等待網(wǎng)絡(luò)流結(jié)束的限制,極大地提高了分類模型的實時性.但子流持續(xù)時間相對較短,其屬性特征容易受到網(wǎng)絡(luò)運行狀態(tài)的影響而發(fā)生變化11這個一個與上一個K-means不同的擺脫必須要捕捉流前幾個包的限制,只需要附近的N個包。訓(xùn)練過程采用一個分類滑動窗口(大小為Npacket),從每一個流中抽出2段或者更多的子流(比如抽取流的前端和中間部分)盡量抽取不同時間,使得子流統(tǒng)計特性能夠盡可能的覆蓋原始流的統(tǒng)計特性。然后通過從子流的前N個包抽取出特征值,用這些子流去訓(xùn)練分類器

42、。同樣也可以采用上述貝葉斯的改進(jìn)方法。(實驗中是25個包,對一個UDP網(wǎng)游的識別率達(dá)到了98%)另外一個基于行為的模型:BLINC,這個模型與前面不同主要是通過分析傳輸層主機(jī)行為來進(jìn)行業(yè)務(wù)識別。它分三個行為層次分析,社會層(sociallevel),功能層(functionlevel),應(yīng)用層(applicationlevel)。比如分析社會層主要是從主機(jī)連接行為分析,在通信中,使用相同服務(wù)端口的相鄰的ip也許是提供相同的服務(wù),有偏的通信可能是p2p或者一個在線游戲。大多數(shù)客戶端的IP都只有少數(shù)的通信目的地址,這樣可以通過識別那些產(chǎn)生大流里的服務(wù)器的類型來幫助識別客戶端。12DPI和DFI的對

43、比:DFI與DPI兩種技術(shù)的設(shè)計基本目標(biāo)都是為了實現(xiàn)業(yè)務(wù)識別,但是兩者在實現(xiàn)的著眼點和技術(shù)細(xì)節(jié)方面還是存在著較大區(qū)別的。從兩種技術(shù)的對比情況看,兩者互有優(yōu)勢,也都有短處,DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識別、精細(xì)管理的環(huán)境,而DFI技術(shù)適用于需要高效識別、粗放管理的環(huán)境。從處理速度來看:DFI處理速度相對快,而采用DPI技術(shù)由于要逐包進(jìn)行拆包操作,并與后臺數(shù)據(jù)庫進(jìn)行匹配對比,處理速度會慢些。由于采用DFI技術(shù)進(jìn)行流量分析僅需將流量特征與后臺流量模型比較即可。從維護(hù)成本來看:DFI維護(hù)成本相對較低,而基于DPI技術(shù)的帶寬管理系統(tǒng)總是滯后新應(yīng)用,需要緊跟新協(xié)議和新型應(yīng)用的產(chǎn)生而不斷升級后臺應(yīng)用數(shù)據(jù)庫

44、,否則就不能有效識別、管理新技術(shù)下的帶寬,影響模式匹配效率;而基于DFI技術(shù)的系統(tǒng)在管理維護(hù)上的工作量要少于DPI系統(tǒng),因為同一類型的新應(yīng)用與舊應(yīng)用的流量特征不會出現(xiàn)大的變化,因此不需要頻繁升級流量行為模型。從識別準(zhǔn)確率來看:兩種技術(shù)各有所長。由于DPI采用逐包分析、模式匹配技術(shù),因此,可以對流量中的具體應(yīng)用類型和協(xié)議做到比較準(zhǔn)確的識別;而DFI僅對流量行為分析,因此只能對應(yīng)用類型進(jìn)行籠統(tǒng)分類,如對滿足P2P流量模型的應(yīng)用統(tǒng)一識別為P2P流量,對符合網(wǎng)絡(luò)語音流量模型的類型統(tǒng)一歸類為VoIP流量,但是無法判斷該流量是否采用H.323或其他協(xié)議。如果數(shù)據(jù)包是經(jīng)過加密傳輸?shù)?,采用DPI方式的流控技術(shù)

45、則不能識別其具體應(yīng)用,而DFI方式的流控技術(shù)不受影響,因為應(yīng)用流的狀態(tài)行為特征不會因加密而根本改變。四、網(wǎng)絡(luò)流量分析之應(yīng)用:入侵檢測入侵檢測的基本定義以及方法入侵是指通過對計算機(jī)網(wǎng)絡(luò)和計算機(jī)系統(tǒng)的關(guān)鍵結(jié)點的信息進(jìn)行收集分析,檢測其中是否有違反安全策略的事件發(fā)生或攻擊跡象,并通知系統(tǒng)安全管理員。根據(jù)檢測方法來區(qū)分,目前常用的入侵檢測技術(shù)主要有兩種:誤用檢測和異常檢測13。誤用檢測系統(tǒng)一般采用的分析方法是DPI它將已知的攻擊特征和系統(tǒng)弱點進(jìn)行編碼,存入知識庫中,入侵檢測系統(tǒng)(OS1)將所監(jiān)視的事件與知識庫中的攻擊模式進(jìn)行匹配,當(dāng)發(fā)現(xiàn)有匹配時,認(rèn)為有入侵發(fā)生,從而觸發(fā)相應(yīng)機(jī)制,過程如圖4.1所示。例

46、如,存在以下一條rule:alerttcpanyany->/2411l(content:"7272656e742070726f746f636f6e"msg:"btservice"),其中content中的字符串是bt服務(wù)的特征值"19BitTorrentprotoco",整條規(guī)則的含義是當(dāng)存在流向網(wǎng)絡(luò)的bt流量時,想系統(tǒng)管理員發(fā)出信息,告知有btservice服務(wù)開啟。這種技術(shù)的優(yōu)點是可以有針對性地建立高效的入侵檢測系統(tǒng),虛警率低;缺點是對未知的入侵活動或已知入

47、侵活動的變異無能為力,攻擊特征提取困難,需要不斷更新知識庫。pattern圖4-1誤用檢測技術(shù)過程異常檢測基于DP技術(shù),并假定正常工作模式相對穩(wěn)定,有入侵發(fā)生時,用戶或系統(tǒng)的行為模式會發(fā)生一定程度的改變。通常是建立一個對應(yīng)正?;顒印钡南到y(tǒng)或用戶的正常輪廓,檢測入侵活動時,異常檢測程序產(chǎn)生當(dāng)前的活動輪廓并同正常輪廓比較,當(dāng)活動輪廓與正常輪廓發(fā)生顯著偏離時即認(rèn)為是入侵,從而觸發(fā)相應(yīng)機(jī)制,過程如圖所示。異常檢測與系統(tǒng)相對無關(guān),通用性較強。它最大的優(yōu)點是有可能檢測出以前從未出現(xiàn)過的攻擊方法,不像誤用檢測那樣受已知脆弱性的限制.因此這種方法格外引起人們的興趣.,下面主要以一個簡單的實例說明網(wǎng)絡(luò)流量方法在

48、異常檢測系統(tǒng)中的應(yīng)用。網(wǎng)絡(luò)流量在異常檢測系統(tǒng)中的應(yīng)用特征參數(shù)的選取傳統(tǒng)的流量分析方法通常將流量大小等作為參考標(biāo)準(zhǔn),而與之相比,利用流量特性參數(shù)分布上的變化發(fā)現(xiàn)網(wǎng)絡(luò)中異常情況的方法具有如下優(yōu)點:(1)使流量監(jiān)測不再完全依靠流量的大小變化。一些異常諸如掃描或小型DoS攻擊可能只會對骨干鏈路上的流量有較小影響,因此,更易被監(jiān)測特征分布變化而不是流量大小變化的系統(tǒng)所發(fā)現(xiàn)。(2)異常的分布展示了關(guān)于異常模式的有用信息,而這些信息并不存在于針對流量大小的測量中。對異常分布進(jìn)行分析,有助于從另一個角度提取異常流量模式,因此,該方法更適用于檢測新的、未知的異常情況14。圖4-2顯示了常用的三種網(wǎng)絡(luò)中常見的異常

49、,而每種異常都對流量特征參數(shù)的分布產(chǎn)生一定影響,也在圖中標(biāo)出,例如,在一些情況下,當(dāng)源地址在DoS攻擊中被利用時,其特征分布會變得較分散。而在另一些情況下,當(dāng)發(fā)生一個單源到單目的的異常大數(shù)據(jù)流時,特征參數(shù)的分布會趨于集中。針對這三種異常,所以我們選取的特征參數(shù)為目的地址、目的端口、源地址,通過監(jiān)測這三個特征參數(shù)的變化來判斷網(wǎng)絡(luò)是否產(chǎn)生了這三種異常情況:異常定義受影響的蠟流量端口掃描對小范圍目的地址的大量目的端口進(jìn)行探測目的地址、目的端口網(wǎng)絡(luò)掃描對小范圍目的端口的大量目的地址進(jìn)行探測目的地址、目的端口DDos拒絕服務(wù)攻擊源地址、目的地址圖4-23種常見異常及其特征特征參數(shù)變化的提取選取了特征值,

50、剩下問題的關(guān)鍵在于如何表示出特征分布的變化。這個系統(tǒng)中將利用嫡來衡量各個特征值的集中或分散的程度。嫡可以獲取流量特征在分布變化上的有效信息,觀察多特征嫡的時間序列可以發(fā)現(xiàn)異常流量行為。嫡是香農(nóng)于1948年提出的、用以表示所測量事件不確定度的一種數(shù)學(xué)工具。設(shè)集合X=nii=1,2,N表示事件i在總的事件集中發(fā)生了歆,則嫡的定義如下:,一、XNnix(znixH(x)=-()log2()NUSS其中,S=Eni代表所有事件總的發(fā)生次數(shù)。嫡的取值范圍在0,lbN之間,當(dāng)所有事件為同i+一事件時,分布最大化集中,此時嫡的值為0,即為最小值。當(dāng)n1=n2=,=nk,即等概分布的情況出現(xiàn)時,分布最大化分散,此時嫡的值為logN,即為最大值。所以我們可以嫡的這一特性,觀察出流量中目的地址、目的端口、源地址的分布變化。根據(jù)嫡值的定義,可以得到以下的特征參數(shù)嫡的計算式14.m,.ns;ns;H(srcaddress)=-Z()log2()一yS1S1r%;%;H(destaddress)-()log2()i4S2S2npinpiH(dest_port)=-%噌)log2(丁)i=4S3S3mrt其中,S1=Znsi,S2=£ndi,S3=Znpi,分別表示觀測時間段內(nèi)(例如5mins)采集的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論