網(wǎng)絡(luò)流量分析

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-03-13 格式：DOCX 頁(yè)數(shù)：27 大?。?59.59KB 積分：20 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余22頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)流量分析概述摘要Internet自60年代出現(xiàn)以來(lái)發(fā)展迅猛，網(wǎng)絡(luò)規(guī)模飛速膨脹，網(wǎng)絡(luò)流量越來(lái)越大，網(wǎng)絡(luò)信息對(duì)人們生活的影響也越來(lái)越深遠(yuǎn)，然而網(wǎng)絡(luò)中P2P等應(yīng)用正在大量的消耗網(wǎng)絡(luò)的帶寬資源從而影響了關(guān)鍵業(yè)務(wù)的正常展開(kāi)。因此，通過(guò)對(duì)網(wǎng)絡(luò)中的各種業(yè)務(wù)流量進(jìn)行分析，建立合適的預(yù)測(cè)模型就成為網(wǎng)絡(luò)發(fā)展的必要。通過(guò)分析，能及時(shí)的發(fā)現(xiàn)網(wǎng)絡(luò)中的異常，從而使得網(wǎng)絡(luò)管理更主動(dòng)，為網(wǎng)絡(luò)的持續(xù)高性能運(yùn)行提供主要的保障，為規(guī)劃、設(shè)計(jì)網(wǎng)絡(luò)提供科學(xué)依據(jù)。本文首先介紹網(wǎng)絡(luò)流量數(shù)據(jù)采集方法，通過(guò)分析他們的優(yōu)缺點(diǎn)讓讀者對(duì)網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)有一個(gè)初步的了解。然后本文介紹了兩種基于不同技術(shù)的網(wǎng)絡(luò)流分類(lèi)方法：深度數(shù)據(jù)包檢測(cè)技術(shù)（DPI）

2、和深度/動(dòng)態(tài)流檢測(cè)技術(shù)（DFI）。在DPI中，主要介紹AC狀態(tài)機(jī)模式匹配算法實(shí)現(xiàn)多關(guān)鍵字的快速匹配。而DFI是基于流特征向量的分類(lèi)方法，本文主要介紹分析了樸素貝葉斯方法。在特征選擇方面，介紹了運(yùn)用相關(guān)度和快速的過(guò)濾器選擇方法（FCBF來(lái)對(duì)特征進(jìn)行篩選，得出有利于分類(lèi)的特征子集，同時(shí)還可以去掉不相關(guān)或冗余特征，增加分類(lèi)的準(zhǔn)確性。最后，本文介紹了如何把網(wǎng)絡(luò)流量分析的結(jié)果應(yīng)用到入侵檢測(cè)中，以發(fā)現(xiàn)網(wǎng)絡(luò)中的異常。目錄摘要1一、網(wǎng)絡(luò)流量分析概述31.1 網(wǎng)絡(luò)流量分析背景31.2 網(wǎng)絡(luò)流量分析定義31.3 網(wǎng)絡(luò)流量分析目的41.4 網(wǎng)絡(luò)流量分析意義5二、網(wǎng)絡(luò)流量采集61.1.0 網(wǎng)絡(luò)流61.2.0 網(wǎng)絡(luò)流的

3、特性61.3.0 網(wǎng)絡(luò)流量采集介紹61.4.0 主流網(wǎng)絡(luò)流量采集技術(shù)71 基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)71 基于SNMP勺流量采集技術(shù)。71 基于Netflow/sFlow的流量采集技術(shù)。81 基于干路中橋接設(shè)備的采集技術(shù)92.4網(wǎng)絡(luò)流量采集技術(shù)的對(duì)比10三、網(wǎng)絡(luò)流量分析112.4 基于DPI的網(wǎng)絡(luò)流量分析技術(shù)112.4.1 DPI提出的背景112.4.2 DPI技術(shù)研究112.4.3 AC自動(dòng)機(jī)算法132.4.4 DPI總結(jié)152.5 基于DFI的網(wǎng)絡(luò)流量分析技術(shù)162.5.1 DFI的提出162.5.2 基于DFI技術(shù)的方法的基本原理162.5.3 樸素貝葉斯分類(lèi)器162.5.4 改進(jìn)貝葉

4、斯一FCBF(AFastCorrelation-BasedFliter):172.5.5 其他應(yīng)用DFI技術(shù)的模型182.6 DPI和DFI的對(duì)比：19四、網(wǎng)絡(luò)流量分析之應(yīng)用：入侵檢測(cè)202 入侵檢測(cè)的基本定義以及方法202 網(wǎng)絡(luò)流量在異常檢測(cè)系統(tǒng)中的應(yīng)用212.4 特征參數(shù)的選取212.4 特征參數(shù)變化的提取212.4 .網(wǎng)絡(luò)流量異常的判斷22五、全文總結(jié)23參考文獻(xiàn)24、網(wǎng)絡(luò)流量分析概述網(wǎng)絡(luò)流量分析背景隨著網(wǎng)絡(luò)應(yīng)用日趨復(fù)雜化，網(wǎng)絡(luò)流量不斷增長(zhǎng)并且呈現(xiàn)多樣化，如何更好的滿(mǎn)足用戶(hù)對(duì)各類(lèi)Internet業(yè)務(wù)服務(wù)質(zhì)量越來(lái)越精細(xì)的要求，這是目前面臨的關(guān)鍵問(wèn)題。因此，通過(guò)對(duì)網(wǎng)絡(luò)中的各種業(yè)務(wù)流量進(jìn)行分析

5、，建立合適的預(yù)測(cè)模型就成為網(wǎng)絡(luò)發(fā)展的必要1。網(wǎng)絡(luò)流量是記錄和反映網(wǎng)絡(luò)及其用戶(hù)活動(dòng)的重要載體。通過(guò)對(duì)網(wǎng)絡(luò)流量的統(tǒng)計(jì)分析，可以間接掌握網(wǎng)絡(luò)的使用情況，從而為做出決策提供有力依據(jù)。網(wǎng)絡(luò)流量分析定義網(wǎng)絡(luò)流量是單位時(shí)間內(nèi)通過(guò)網(wǎng)絡(luò)設(shè)備或傳輸介質(zhì)的信息量（報(bào)文數(shù)、數(shù)據(jù)包數(shù)或字節(jié)數(shù)）。網(wǎng)絡(luò)流量分析指的就是根據(jù)不同的方法從不同的側(cè)面對(duì)網(wǎng)絡(luò)流量展開(kāi)的分析。網(wǎng)絡(luò)的作用是傳輸應(yīng)用數(shù)據(jù)，應(yīng)用數(shù)據(jù)在網(wǎng)絡(luò)中傳輸過(guò)程在OSI協(xié)議模型中的描述如下圖：5Session4Transport2DataUnk1Physical發(fā)送圖1-1OSI傳輸模型在OSI傳輸模型中，發(fā)送方的應(yīng)用數(shù)據(jù)由下層協(xié)議逐層處理，最后通過(guò)物理層傳輸,接收方則

6、逐層向上處理從物理鏈路上接收的信號(hào)，最后還原成應(yīng)用層數(shù)據(jù)。一個(gè)Web應(yīng)用數(shù)據(jù)在OSI模型中的網(wǎng)絡(luò)數(shù)據(jù)傳處理過(guò)程如下圖：5$essk)r4Transput1PhysicalDLC圖1-2Web應(yīng)用的數(shù)據(jù)處理從上圖我們可以看出，應(yīng)用數(shù)據(jù)在應(yīng)用層采用HTTP協(xié)議，在傳輸層被分段，在網(wǎng)絡(luò)層封包，在數(shù)據(jù)鏈路層封幀，由物理層傳輸，由每一層進(jìn)行處理，按照相應(yīng)的協(xié)議進(jìn)行封裝。網(wǎng)絡(luò)流量的分析就是對(duì)在網(wǎng)絡(luò)中傳輸?shù)膶?shí)際數(shù)據(jù)流進(jìn)行分析，網(wǎng)絡(luò)數(shù)據(jù)流的分析包括從底層的數(shù)據(jù)流一直到應(yīng)用層的數(shù)據(jù)的分析，有的時(shí)候也稱(chēng)之為網(wǎng)絡(luò)協(xié)議分析。1.3網(wǎng)絡(luò)流量分析目的簡(jiǎn)單的說(shuō)，對(duì)網(wǎng)絡(luò)流量進(jìn)行分析的目的是了解、發(fā)現(xiàn)和證明。了解，管理好一個(gè)網(wǎng)

7、絡(luò)最重要的就是對(duì)網(wǎng)絡(luò)的了解，了解網(wǎng)絡(luò)拓?fù)?、設(shè)備、配置等是必須的，但要保證網(wǎng)絡(luò)的服務(wù)質(zhì)量，那是遠(yuǎn)遠(yuǎn)不夠的，對(duì)網(wǎng)絡(luò)流量的分析能使網(wǎng)絡(luò)技術(shù)人員更深入地了解網(wǎng)絡(luò)。.網(wǎng)絡(luò)運(yùn)行規(guī)律的了解。每個(gè)網(wǎng)絡(luò)都有自身的運(yùn)行規(guī)律，這和網(wǎng)絡(luò)的結(jié)構(gòu)、應(yīng)用特點(diǎn)等緊密相關(guān)，通過(guò)流量的長(zhǎng)期分析，能夠了解網(wǎng)絡(luò)系統(tǒng)運(yùn)行的規(guī)律。.網(wǎng)絡(luò)應(yīng)用運(yùn)行規(guī)律的了解。網(wǎng)絡(luò)上重要的應(yīng)用在運(yùn)行時(shí)，每一個(gè)訪(fǎng)問(wèn)，每一個(gè)交易處理，數(shù)據(jù)都由網(wǎng)絡(luò)來(lái)傳輸，通過(guò)分析應(yīng)用的流量，能夠清楚的了解應(yīng)用運(yùn)行的規(guī)律，訪(fǎng)問(wèn)量、交易處理數(shù)量、響應(yīng)性能等數(shù)據(jù)，都可以通過(guò)流量分析手段獲取。.網(wǎng)絡(luò)用戶(hù)的網(wǎng)絡(luò)行為。每個(gè)網(wǎng)絡(luò)用戶(hù)的網(wǎng)絡(luò)行為都是相互影響的，同時(shí)會(huì)對(duì)網(wǎng)絡(luò)的運(yùn)行產(chǎn)生影響，伴隨每個(gè)

8、用戶(hù)在網(wǎng)絡(luò)中的每個(gè)網(wǎng)絡(luò)行為都有網(wǎng)絡(luò)流量產(chǎn)生，通過(guò)對(duì)網(wǎng)絡(luò)用戶(hù)的網(wǎng)絡(luò)流量進(jìn)行分析，能夠直觀(guān)地了解網(wǎng)絡(luò)用戶(hù)的網(wǎng)絡(luò)行為。發(fā)現(xiàn)，主要是異常地發(fā)現(xiàn)是建立在了解的基礎(chǔ)之上的，如果能做到及時(shí)地發(fā)現(xiàn)網(wǎng)絡(luò)中的異常，將使網(wǎng)絡(luò)管理更主動(dòng)，將為網(wǎng)絡(luò)的持續(xù)高性能運(yùn)行提供重要的保障（異常流量丟包嚴(yán)重）。.網(wǎng)絡(luò)運(yùn)行異常的發(fā)現(xiàn)。網(wǎng)絡(luò)中流量的異常，包括利用率、數(shù)據(jù)包數(shù)的異常。.網(wǎng)絡(luò)應(yīng)用運(yùn)行的異常發(fā)現(xiàn)。連接數(shù)量、應(yīng)用響應(yīng)、應(yīng)用流量的異常，都可以通過(guò)長(zhǎng)期主動(dòng)分析來(lái)及時(shí)發(fā)現(xiàn)。.網(wǎng)絡(luò)用戶(hù)的異常網(wǎng)絡(luò)行為。異常的網(wǎng)絡(luò)行為也都有明顯的流量特征，如感染的蠕蟲(chóng)病毒、安裝了后門(mén)程序等，長(zhǎng)期流量分析能及時(shí)的發(fā)現(xiàn)網(wǎng)絡(luò)用戶(hù)的這些異常網(wǎng)絡(luò)行為，及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)

9、用戶(hù)的異常網(wǎng)絡(luò)行為是避免其影響網(wǎng)絡(luò)運(yùn)行的關(guān)鍵。證明，網(wǎng)絡(luò)流量的分析可以為網(wǎng)絡(luò)和應(yīng)用問(wèn)題的分析提供依據(jù)，特別是數(shù)據(jù)包級(jí)的分析，而這些依據(jù)是真實(shí)的，因?yàn)樗鼈兪菍?shí)實(shí)在在的在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)包，這也是流量分析能夠大大提高網(wǎng)絡(luò)和應(yīng)用問(wèn)題分析效率的原因。1.4網(wǎng)絡(luò)流量分析意義網(wǎng)絡(luò)流量分析是有助于維護(hù)網(wǎng)絡(luò)持續(xù)、高效和安全運(yùn)行的一種手段，網(wǎng)絡(luò)流量分析的意義在于取得對(duì)網(wǎng)絡(luò)運(yùn)行管理、應(yīng)用運(yùn)行管理和網(wǎng)絡(luò)應(yīng)用問(wèn)題分析有意義的數(shù)據(jù)。這些數(shù)據(jù)多種多樣，像是利用率、bps、pps還是延遲、重傳、連接數(shù)量等這些流量分析的數(shù)據(jù)，都要和我們實(shí)際的網(wǎng)絡(luò)應(yīng)用運(yùn)行情況結(jié)合起來(lái)才有意義，因?yàn)椴煌木W(wǎng)絡(luò)和不同的應(yīng)用都有完全不同的流量數(shù)據(jù)。

10、網(wǎng)絡(luò)流量分析的數(shù)據(jù)的意義是建立在了解的基礎(chǔ)上的，只有對(duì)網(wǎng)絡(luò)和應(yīng)用的深入了解，才能使這些數(shù)據(jù)的價(jià)值得到真正的體現(xiàn)。、網(wǎng)絡(luò)流量采集網(wǎng)絡(luò)流網(wǎng)絡(luò)流就是一組具有相同特性的ip包，這些特性包括源/目的ip,源/目的端口，傳輸層協(xié)議，TOS字段等。通常把前面5個(gè)特性成為5元組2。網(wǎng)絡(luò)流故名思議有一個(gè)持續(xù)的時(shí)間，網(wǎng)絡(luò)流可以持續(xù)很長(zhǎng)，也可以很短，而且同一個(gè)數(shù)據(jù)包可以屬于不同的網(wǎng)絡(luò)流。網(wǎng)絡(luò)流的特性網(wǎng)絡(luò)流的五大特性，分別是自相似性，長(zhǎng)相關(guān)性，周期性，混沌性和多分形性。自相似是指局部的結(jié)構(gòu)與總體的結(jié)構(gòu)相比具有某種程度的一致性，舉個(gè)例子，有個(gè)人籃球打的很厲害，那么他打其他球應(yīng)該也不錯(cuò)。長(zhǎng)相關(guān)性意味著未來(lái)的統(tǒng)計(jì)信息蘊(yùn)含在

11、過(guò)去和現(xiàn)在的信息之中，它反映了自相似過(guò)程中的持續(xù)現(xiàn)像。比如通過(guò)流量監(jiān)控發(fā)現(xiàn)，一個(gè)人星期1,2,3都是晚上8點(diǎn)-10點(diǎn)上網(wǎng)，那么通過(guò)長(zhǎng)相關(guān)性可以推斷他星期4也是這個(gè)時(shí)間段上網(wǎng)。周期性反映網(wǎng)絡(luò)流量時(shí)間序列隨時(shí)間變化而表現(xiàn)出來(lái)的一種季節(jié)性變化規(guī)律，它可能是由于流量數(shù)據(jù)的周期采集引起的，也可能是人們上網(wǎng)的行為習(xí)慣引起的。比如有個(gè)人每周1-4都是晚上8-10點(diǎn)上網(wǎng)，但周末都是9點(diǎn)上到12點(diǎn)，這可能就是這個(gè)人上網(wǎng)的習(xí)慣引起了網(wǎng)絡(luò)流的周期性。混沌性是指確定的、宏觀(guān)的非線(xiàn)性系統(tǒng)在一定條件下所呈現(xiàn)出的不確定的或者不可預(yù)測(cè)的隨機(jī)現(xiàn)象。比如小明每天都是8-10點(diǎn)上網(wǎng)，但也有時(shí)也會(huì)9點(diǎn)才上網(wǎng)，這就是確定中的不確定現(xiàn)象

12、。在預(yù)測(cè)研究中只要能恢復(fù)出流量時(shí)間序列的混沌吸引子，就可以通過(guò)尋找預(yù)測(cè)狀態(tài)點(diǎn)的鄰域狀態(tài)點(diǎn)與其后續(xù)狀態(tài)點(diǎn)的函數(shù)關(guān)系，作為預(yù)測(cè)函數(shù)，實(shí)現(xiàn)流量預(yù)測(cè)。最后是多分形性，又稱(chēng)為多重分形測(cè)度。多分形還沒(méi)有一個(gè)明確的定義?；\統(tǒng)的說(shuō)，分形是大小碎片聚集的狀態(tài)，是沒(méi)有特征長(zhǎng)度的圖形構(gòu)造以及現(xiàn)象的總稱(chēng)。我們的理解是：網(wǎng)絡(luò)流往往是紛繁復(fù)雜的，我們很難單一用泊松或者正態(tài)函數(shù)來(lái)精確地描述這過(guò)程，多分形延伸了網(wǎng)絡(luò)流量中的自相似（自相似即單分形）行為，多分形性質(zhì)解釋網(wǎng)絡(luò)流許多令人困惑且雜亂無(wú)章的現(xiàn)象。描述局部時(shí)間內(nèi)網(wǎng)絡(luò)流量的不規(guī)則現(xiàn)象時(shí)更加靈活。由于網(wǎng)絡(luò)流具有上面的特性，我們進(jìn)行網(wǎng)絡(luò)流采集時(shí)要注意考慮網(wǎng)絡(luò)流的特性，才能保證采

13、集的正確性以及完整性。網(wǎng)絡(luò)流量采集介紹網(wǎng)絡(luò)流量的采集是網(wǎng)絡(luò)研究的重要部分，它是網(wǎng)絡(luò)流量分析的必要前提；同時(shí)，網(wǎng)絡(luò)流量的采集使得網(wǎng)絡(luò)管理員能夠監(jiān)控網(wǎng)絡(luò)負(fù)載，發(fā)現(xiàn)網(wǎng)絡(luò)故障的位置，從而制定網(wǎng)絡(luò)管理策略。理想的數(shù)據(jù)采集方式應(yīng)該具備以下一些特點(diǎn)：.不影響數(shù)據(jù)流轉(zhuǎn)發(fā)的速度在整個(gè)數(shù)據(jù)流的采集過(guò)程中，不能有明顯影響數(shù)據(jù)流轉(zhuǎn)發(fā)速度的狀況發(fā)生。如果在數(shù)據(jù)采集白過(guò)程中，數(shù)據(jù)流轉(zhuǎn)發(fā)的速度明顯下降，不能真實(shí)地反映網(wǎng)絡(luò)流量狀況，這違背數(shù)據(jù)采集的根本目的。.占用資源小對(duì)數(shù)據(jù)流進(jìn)行采集的過(guò)程中，可能需要在路由器（交換機(jī)）中進(jìn)行流量統(tǒng)計(jì)，并且儲(chǔ)存所采集數(shù)據(jù)。這會(huì)給路由器（交換機(jī)）帶來(lái)額外的資源開(kāi)銷(xiāo)。理想的流量采集方法應(yīng)該盡可能

14、少占用資源，在采集效果和資源占用之間尋求一個(gè)平衡點(diǎn)。.完整的數(shù)據(jù)流監(jiān)控一個(gè)理想的數(shù)據(jù)采集方法應(yīng)該具備完整的數(shù)據(jù)流監(jiān)控能力。在網(wǎng)絡(luò)發(fā)生擁塞的時(shí)候能不能采集到完整的流量信息，是考察數(shù)據(jù)采集方法的一個(gè)重要標(biāo)準(zhǔn)。.分布式的數(shù)據(jù)采集分布式的數(shù)據(jù)采集有利于實(shí)現(xiàn)校園網(wǎng)內(nèi)部的數(shù)據(jù)流量監(jiān)控和管理。2.4主流網(wǎng)絡(luò)流量采集技術(shù)現(xiàn)在的網(wǎng)絡(luò)流采集方式主要分為四種：基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)、基于SNMP的采集技術(shù)和基于Netnow/sFlow等通過(guò)采樣減少分析數(shù)據(jù)的采集技術(shù)以及基于干路中橋接設(shè)備的采集技術(shù)基于網(wǎng)絡(luò)流量全鏡像的采集技術(shù)網(wǎng)絡(luò)流量全鏡像采集是目前主要采用的網(wǎng)絡(luò)流量采集模式，大部分的IDS（Intrusion

15、DetectionSystems入侵檢測(cè)系統(tǒng)）就是如此。其原理是通過(guò)交換機(jī)等網(wǎng)絡(luò)設(shè)備的端口鏡像或者通過(guò)分光器、網(wǎng)絡(luò)探針等附加設(shè)備，實(shí)現(xiàn)網(wǎng)絡(luò)流量的無(wú)損復(fù)制和鏡像采集。和其它的采集方式相比，流量鏡像采集的最大特點(diǎn)是能夠提供豐富的應(yīng)用層信息。此方法的優(yōu)點(diǎn)是實(shí)施最為簡(jiǎn)單，幾乎不會(huì)對(duì)網(wǎng)絡(luò)中數(shù)據(jù)傳輸?shù)难訒r(shí)造成任何影響.缺點(diǎn)是由于數(shù)據(jù)采集機(jī)要捕獲所有的數(shù)據(jù)流信息并對(duì)之加以分析，因此這種方法對(duì)數(shù)據(jù)采集機(jī)的處理能力要求很高。此外，由于這種方式是對(duì)整個(gè)IP數(shù)據(jù)包進(jìn)行抓取后再進(jìn)行處理，必然導(dǎo)致數(shù)據(jù)量過(guò)于龐大，對(duì)于后續(xù)的數(shù)據(jù)處理工作帶來(lái)不便。基于SNMP勺流量采集技術(shù)。基于SNMP的流量信息采集，實(shí)質(zhì)上是通過(guò)提取網(wǎng)絡(luò)

16、設(shè)備Agent提供的MIB（管理對(duì)象信息庫(kù)）中收集的一些具體設(shè)備及流量信息有關(guān)的變量。在路由器中啟動(dòng)流量統(tǒng)計(jì)功能，使其記錄下所有流量的源地址、目標(biāo)地址、數(shù)據(jù)包數(shù)量和字節(jié)數(shù)。另外一臺(tái)采集數(shù)據(jù)的機(jī)器通過(guò)SNMP協(xié)議定期到路由器上去將流量統(tǒng)計(jì)信息讀取回來(lái)，從而獲得詳細(xì)數(shù)據(jù)。此方法的優(yōu)點(diǎn)是流量信息準(zhǔn)確，信息獲取方便。同時(shí)，由于使用SNMP協(xié)議進(jìn)行數(shù)據(jù)獲取具有很好的通用性和可移植性。因此這種方法的應(yīng)用非常廣泛。缺點(diǎn)是在路由器上運(yùn)行流量統(tǒng)計(jì)功能，會(huì)影響路由器對(duì)數(shù)據(jù)包處理的效率，增加路由器的CPU和內(nèi)存負(fù)載，不可避免的對(duì)網(wǎng)絡(luò)性能帶來(lái)一定的影響。因此，這種方法并不適合在網(wǎng)絡(luò)和核心層部署，適合在網(wǎng)絡(luò)的邊界處進(jìn)行

17、流量采集。MRTG是基于SNMP的免費(fèi)軟件，可以通過(guò)Web實(shí)時(shí)向用戶(hù)提供多種統(tǒng)計(jì)時(shí)長(zhǎng)的統(tǒng)計(jì)圖表及關(guān)鍵節(jié)點(diǎn)性能狀況。圖中就是MRTG統(tǒng)計(jì)的每個(gè)設(shè)備的流量情況(以報(bào)表形式輸出)圖2-1基于SNMP的開(kāi)源軟件MRTG可以看到基于SNMP的流量采集技術(shù)主要是在宏觀(guān)的角度對(duì)網(wǎng)絡(luò)流進(jìn)行統(tǒng)計(jì)，使網(wǎng)絡(luò)管理員可以掌握整個(gè)網(wǎng)絡(luò)的運(yùn)行狀況?；贜etflow/sFlow的流量采集技術(shù)。NetFlow是思科公司提出的一種數(shù)據(jù)交換標(biāo)準(zhǔn)，而sFlow是對(duì)NetFlow的改進(jìn)，是基于標(biāo)準(zhǔn)的最新網(wǎng)絡(luò)導(dǎo)出協(xié)議(RFC3176)。他們的原理是：路由器和交換機(jī)中實(shí)現(xiàn)的基于流統(tǒng)計(jì)的方法。流量信息在路由器或交換機(jī)內(nèi)部通過(guò)專(zhuān)門(mén)的模塊生產(chǎn)

18、流一記錄，再將流一記錄上報(bào)到設(shè)備外部的統(tǒng)計(jì)系統(tǒng)進(jìn)行進(jìn)一步統(tǒng)計(jì)和分析。Netflow和sFlow一般在實(shí)際應(yīng)用時(shí)都進(jìn)行采樣統(tǒng)計(jì)。優(yōu)點(diǎn)：在進(jìn)行數(shù)據(jù)交換的同時(shí)對(duì)數(shù)據(jù)流信息進(jìn)行統(tǒng)計(jì)，并將統(tǒng)計(jì)信息以特定的格式輸出。缺點(diǎn)：必須進(jìn)行一定的采樣，否則對(duì)路由器和交換機(jī)設(shè)備的處理能力有較大壓力。NetFlowAnalyzer是一款專(zhuān)業(yè)的帶寬監(jiān)控與流量協(xié)議分析軟件，幫助用戶(hù)了解網(wǎng)絡(luò)流量構(gòu)成、協(xié)議分布以及用戶(hù)的行為。圖1顯示了各設(shè)備的速率的排行。叩A(chǔ)*W9IWII-r031UUEPHvni'nati1t甘*«t13»w«i!/h1M-4W+IJi-w上FTBiK£Qn|

19、im!«*»<M.ptrEE£33H*hwBELH-調(diào):坳4WbK»bont<JHTT*llWjj4MV>buw«!*"IIMVftVnHti圖2-2基于Netflow的流量監(jiān)控軟件NetFlowAnalyzer基于干路中橋接設(shè)備的采集技術(shù)基于干路中橋接設(shè)備的采集技術(shù)是在網(wǎng)絡(luò)的出口鏈路中，串聯(lián)具有數(shù)據(jù)過(guò)濾/轉(zhuǎn)發(fā)功能的設(shè)備，例如：網(wǎng)關(guān)計(jì)費(fèi)服務(wù)器、防火墻等優(yōu)點(diǎn)：對(duì)數(shù)據(jù)的捕獲能力強(qiáng)并具有控制能力，可以捕獲不同網(wǎng)段的數(shù)據(jù)，不需要主干交換設(shè)備支持缺點(diǎn)：對(duì)設(shè)備的處理能力要求高，容易造成網(wǎng)絡(luò)瓶頸，價(jià)格昂貴，不能用于底層網(wǎng)絡(luò)內(nèi)部數(shù)據(jù)

20、流量的采集。圖1:IP5000是In-line（橋接）模式的專(zhuān)用硬件產(chǎn)品，以DPI（DeepPacketInspect,深度包檢測(cè)）技術(shù)為核心，提供了基于七層應(yīng)用的帶寬管理和應(yīng)用優(yōu)化功能。圖中是它的管理界面。m.，uT!5UllARBrl立鼻BlMg>Siip亞31JL暫+KFU*UuKI<*.HW*wm*UMJ!m4日！I1.J回口-i*npita1*IT.4*1”市rWr"W口打m*圖2-2IP5000MaxNet管理界面2.4網(wǎng)絡(luò)流量采集技術(shù)的對(duì)比卜面我們對(duì)以上講的4種技術(shù)做一個(gè)總結(jié)，列表如下:SNMPNetflow/sFlow干路中橋接設(shè)備網(wǎng)絡(luò)流全鏡像成本相對(duì)低低

21、高高跨越子網(wǎng)可以可以可以設(shè)備相關(guān)X別主機(jī)不能可以可以可以區(qū)別協(xié)議不能可以可以可以瓶頸風(fēng)險(xiǎn)低低高低屆捕數(shù)據(jù)NA是否是表2-1幾種主流采集方式對(duì)比.由于SNMP和netflow主要通過(guò)協(xié)議以及軟件來(lái)實(shí)現(xiàn)，因此他們的成本比較低。.SNMP由于協(xié)議本身的限制，因此不能區(qū)別主機(jī)以及協(xié)議。.基于干路中橋接設(shè)備的采集技術(shù)由于直接把采集設(shè)備直接串聯(lián)在鏈路中，一旦出故障，容易影響整個(gè)網(wǎng)絡(luò)。.NetFlow和網(wǎng)絡(luò)流量鏡像都采用了采樣的方式，因此都有漏捕數(shù)碼的可能。三、網(wǎng)絡(luò)流量分析網(wǎng)絡(luò)流量分析根據(jù)不同的方法可以從不同的側(cè)面展開(kāi)，目前，主要的分析方法可以分為兩類(lèi)：基于包內(nèi)容的分析方法（DPI）和基于流量特征的分析方法

22、（DPI）?；贒PI的網(wǎng)絡(luò)流量分析技術(shù)DPI提出的背景傳統(tǒng)的端口檢測(cè)技術(shù)是根據(jù)TCP數(shù)據(jù)包或UDP數(shù)據(jù)包首部的源端口或目的端口號(hào)識(shí)別一些常見(jiàn)協(xié)議的流量。這種識(shí)別流量的方法最大的優(yōu)點(diǎn)就是簡(jiǎn)單易行。端口檢測(cè)是基于IANA注冊(cè)的知名的端口，例如，HTTP的端口是80,SSH的端口是22,Telnet的端口是23等。在傳統(tǒng)的模式下，重要的端口一般是端口號(hào)小于1024的或者是在IANA注冊(cè)的端口號(hào)。通過(guò)這些知名的端口，我們可以很輕易的檢測(cè)出他們相應(yīng)的應(yīng)用程序名稱(chēng)。但是這種技術(shù)有一定的局限性。單一使用端口檢測(cè)己經(jīng)遠(yuǎn)遠(yuǎn)不能滿(mǎn)足檢測(cè)大多數(shù)應(yīng)用程序的需要。因?yàn)楝F(xiàn)今的很多Intemet流量出現(xiàn)了新的特征，例如端

23、口檢測(cè)技術(shù)對(duì)使用動(dòng)態(tài)端口的應(yīng)用程序就無(wú)能為力，而且這種方法同樣不能分辨兩種應(yīng)用程序同時(shí)使用相同的端口號(hào)的情況，例如，現(xiàn)在的很多軟件白非HTTP數(shù)據(jù)流連接端口也會(huì)使用端口80,僅依靠端口識(shí)別HTTP協(xié)議已經(jīng)不再可靠3IPHeacerTCPHeader(Port80)HTTPPanornGET/songi.mp3HTTP/1.1User-AgentKazaaIPPoyioadTCPPayloadKazuPalterri圖3-1Kazaa數(shù)據(jù)包分析例如，在上圖中，顯示了一個(gè)數(shù)據(jù)包的結(jié)構(gòu)，如果只是通過(guò)常見(jiàn)的HTTP應(yīng)用簽名特征進(jìn)行判斷，就很容易將它誤判為一個(gè)Web訪(fǎng)問(wèn)的應(yīng)用。因?yàn)槿绻挥^(guān)察第一個(gè)簽名特

24、征樣本（例如HTTP/1.1）,那么它看上去很像是一個(gè)標(biāo)準(zhǔn)的HTTP協(xié)議。然而通過(guò)對(duì)數(shù)據(jù)包的負(fù)載部分的進(jìn)一步深入考察，發(fā)現(xiàn)該數(shù)據(jù)包具有的第二個(gè)代碼樣本簽名特征，即KaZaa,這樣我們就能夠了解這個(gè)數(shù)據(jù)包的真實(shí)身份和目的。DPI技術(shù)研究DPI是目前通過(guò)IP來(lái)識(shí)別和鑒定協(xié)議及應(yīng)用（IP流）的最重要的技術(shù)。所謂“深度數(shù)據(jù)包檢測(cè)”，“深度”是和標(biāo)準(zhǔn)數(shù)據(jù)包分析層次相比較而言的，“標(biāo)準(zhǔn)數(shù)據(jù)包檢測(cè)”僅分析IP包的4層以下的基礎(chǔ)信息，包括源IP地址、目的IP地址、源端口、目的端口以及連接狀態(tài)，這些信息保存在數(shù)據(jù)包的4層以下的包頭內(nèi)。如下圖：P2P應(yīng)用岫包頭信息弱小廠(chǎng)通訊的運(yùn)圖圖3-2傳統(tǒng)端口檢測(cè)DPI除了對(duì)4

25、層以下的基礎(chǔ)信息進(jìn)行分析外，還增加了應(yīng)用層分析，識(shí)別各種應(yīng)用及其內(nèi)容。這是通過(guò)對(duì)一系列數(shù)據(jù)包的包頭以及負(fù)載中的簽名特征(Signature)進(jìn)行分析，同時(shí)DPI提供了對(duì)網(wǎng)絡(luò)的利用率的分析，為網(wǎng)絡(luò)性能優(yōu)化提供了手段。如下圖：圖3-3深度數(shù)據(jù)包檢測(cè)不同的應(yīng)用層協(xié)議有不同的協(xié)議信息，這些信息可以作為應(yīng)用層協(xié)議的檢測(cè)特征。例如以下是常見(jiàn)的P2P應(yīng)用的特征值4：特征值BitTorrent0x13BitTorrentProtocolGnutella“GNUT,“GIV”,“GN?；鵍連接狀態(tài)的L總從幾個(gè)數(shù)據(jù)包中發(fā)現(xiàn)的簽名(Signature)eDonkey2000QQLive0xe319010000,0x

26、c53f0100000xfe290404表3-1常用P2P協(xié)議特征值A(chǔ)C自動(dòng)機(jī)算法知道了各種應(yīng)用的協(xié)議信息的特征值后，下一步要解決的問(wèn)題就是如何從報(bào)文中匹配出特征值。這里介紹一個(gè)比較常用的多模式匹配算法：AC自動(dòng)機(jī)算法。AC自動(dòng)機(jī)算法的輸入是多個(gè)關(guān)鍵字集，輸出是關(guān)鍵字的匹配情況。自動(dòng)機(jī)分3個(gè)階段執(zhí)行搜索：根據(jù)關(guān)鍵字建立狀態(tài)轉(zhuǎn)移圖，然后對(duì)每個(gè)狀態(tài)建立失敗指針，最后根據(jù)這幅包含失敗指針的完整的狀態(tài)轉(zhuǎn)移圖進(jìn)行匹配5。第一階段：根據(jù)關(guān)鍵字建立狀態(tài)轉(zhuǎn)移圖，又叫狀態(tài)轉(zhuǎn)移指針。構(gòu)造的思路是：開(kāi)始時(shí)這個(gè)圖只包含一個(gè)根狀態(tài)R。然后，通過(guò)添加一條從起始狀態(tài)出發(fā)的路徑的方式，依次向圖中輸入每個(gè)關(guān)鍵字p。新的頂點(diǎn)和邊

27、被加入到圖表中，以致于產(chǎn)生了一條能拼寫(xiě)出關(guān)鍵字p的路徑。關(guān)鍵字p會(huì)被添加到這條路徑的終止?fàn)顟B(tài)的輸出函數(shù)中。當(dāng)然只有必要時(shí)才會(huì)在圖表中增加新的邊。比如關(guān)鍵字she,he,say,shr,her,ayd構(gòu)造過(guò)程如下：1、向圖中添加一個(gè)關(guān)鍵字“she"，結(jié)果下圖所示，從狀態(tài)R到狀態(tài)e的路徑拼寫(xiě)出了關(guān)鍵字“she”，我們把輸出“she”和狀態(tài)e相關(guān)聯(lián)，圖中用綠色圈表示。2、添加第二個(gè)關(guān)鍵字“he”，狀態(tài)轉(zhuǎn)移圖變?yōu)橄聢D:R3、添加第三個(gè)關(guān)鍵字“say”，因?yàn)閳D中已存在一條從R狀態(tài)到s狀態(tài)的邊了，所以不必在R狀態(tài)處另外添加一條邊，而是從s狀態(tài)開(kāi)始建立，狀態(tài)轉(zhuǎn)移圖變?yōu)橄聢D：其他關(guān)鍵字如以上規(guī)則所述

28、繼續(xù)加到圖中，最后構(gòu)造的狀態(tài)轉(zhuǎn)移圖為:第二階段：構(gòu)造失敗指針。失敗指針的作用是用于指示當(dāng)某個(gè)狀態(tài)匹配失敗時(shí)，應(yīng)該指向哪個(gè)狀態(tài)。構(gòu)造失敗指針的過(guò)程為：R狀態(tài)的失敗指針指向自己，其余狀態(tài)節(jié)點(diǎn)的失敗指針為：設(shè)這個(gè)節(jié)點(diǎn)上的字母為C,沿著他父親的失敗指針走，直到走到一個(gè)節(jié)點(diǎn)，他的兒子中也有字母為C的節(jié)點(diǎn)。然后把當(dāng)前節(jié)點(diǎn)的失敗指針指向那個(gè)字母也為C的兒子。如果一直走到了root都沒(méi)找到，那就把失敗指針指向root。比如第一層的s狀態(tài)、h狀態(tài)和a狀態(tài)，因?yàn)楦腹?jié)點(diǎn)都是R狀態(tài)，而R狀態(tài)的失敗指針指向R狀態(tài)本身，所以s狀態(tài)、h狀態(tài)和a狀態(tài)的失敗指針都指向R狀態(tài)。再考察第二層的狀態(tài)。h狀態(tài)的父節(jié)點(diǎn)是s狀態(tài)，沿著s狀

29、態(tài)的失敗指針走到R狀態(tài)，而R狀態(tài)有兒子節(jié)點(diǎn)是與h狀態(tài)同一個(gè)字母，所以h狀態(tài)的失敗指針指向第一層的h狀態(tài)。接著是a狀態(tài)，同理，其失敗指針指向第一層的a狀態(tài)。接著考察e狀態(tài)，沿著父狀態(tài)的失敗指針走到R,因?yàn)镽狀態(tài)下的兒子節(jié)點(diǎn)沒(méi)有與e狀態(tài)是相同的字母，所以第二層的e狀態(tài)的失敗指針指向R狀態(tài)。按照這一規(guī)則，最后得出包含失敗指針的完整狀態(tài)轉(zhuǎn)移圖為：圖中沒(méi)有用紅色箭頭標(biāo)注的狀態(tài)，其失敗指針均指向R狀態(tài)。第三階段：搜索。如果搜索指針路過(guò)了一個(gè)紅色圈的點(diǎn)，那么以這個(gè)點(diǎn)結(jié)尾的單詞就算出現(xiàn)過(guò)了。或者如果搜索指針?biāo)诘狞c(diǎn)可以順著失敗指針走到一個(gè)紅色圈的點(diǎn)，那么以這個(gè)點(diǎn)結(jié)尾的單詞就算出現(xiàn)過(guò)了。如待匹配字符串ysher

30、sayd首先匹配首字母y,因?yàn)镽狀態(tài)下沒(méi)有y狀態(tài)，所以按照R狀態(tài)的失敗指針，返回R狀態(tài)；接著匹配字母s,因?yàn)镽狀態(tài)下有s狀態(tài)，所以跳到s狀態(tài)繼續(xù)匹配；接著匹配字母h,因?yàn)閟狀態(tài)下有hs狀態(tài)，所以跳到h狀態(tài)繼續(xù)匹配；接著匹配字母e,因?yàn)閔狀態(tài)下有e狀態(tài)，所以跳到e狀態(tài)繼續(xù)匹配，因?yàn)閑狀態(tài)是用綠色圈標(biāo)注，代表she關(guān)鍵字匹配成功，所以輸出she;接著匹配字母r,因?yàn)閑狀態(tài)下沒(méi)有節(jié)點(diǎn)，所以按照其失敗指針，跳到第二層的e狀態(tài)，由于這個(gè)e狀態(tài)也是用綠色圈標(biāo)注，所以代表關(guān)鍵字he匹配成功，所以輸出he,然后這個(gè)e狀態(tài)下匹配字母r成功，所以輸出her。按此規(guī)則匹配，最后輸出成功匹配的關(guān)鍵字為she,her,

31、say,ayd。DPI總結(jié)DPI檢測(cè)技術(shù)白優(yōu)點(diǎn)是：1、檢測(cè)準(zhǔn)確率比較高。2、原理簡(jiǎn)單，分析起來(lái)也相對(duì)容易，并且能應(yīng)付大多數(shù)的識(shí)別要求。3、實(shí)現(xiàn)速度快，使用DPI技術(shù)不需要建立太多的關(guān)聯(lián)表，也不需要在系統(tǒng)中緩存大量的數(shù)據(jù)，對(duì)系統(tǒng)性能的影響相對(duì)較低，匹配起來(lái)速度比較快。DPI的缺點(diǎn)是：1、各種協(xié)議軟件都在不斷的發(fā)展，因此協(xié)議特征信息也在不斷的變化，當(dāng)發(fā)生變化的時(shí)候，檢測(cè)特征也要隨之變化，比較被動(dòng)。2.、要采用特征檢測(cè)技術(shù)，其特征必須足夠復(fù)雜以便在概率上達(dá)到不可能誤判的目的，雖然經(jīng)過(guò)實(shí)踐發(fā)現(xiàn)大多數(shù)的網(wǎng)絡(luò)協(xié)議/應(yīng)用都具有足夠復(fù)雜的特征，但仍然有部分的協(xié)議不能夠提取出足夠復(fù)雜的特征來(lái)，特別是加密的協(xié)議，

32、在面對(duì)這種情況時(shí)，DPI技術(shù)顯得無(wú)能為力?；贒FI的網(wǎng)絡(luò)流量分析技術(shù)DFI的提出目前DPI技術(shù)的有效性正在逐步下降，這是因?yàn)镈PI技術(shù)基于兩個(gè)假設(shè)：IP包的有效載荷可見(jiàn)性。（誰(shuí)都能知道ip包里面裝的是什么）IP包能夠被解釋?zhuān)诸?lèi)器知道每個(gè)應(yīng)用程序相應(yīng)IP包的特征。但是這兩個(gè)假設(shè)成立的情況現(xiàn)在正在減弱，一個(gè)是由于應(yīng)用程序?qū)P包有效載荷的加密（如skype）,政府法規(guī)會(huì)保護(hù)用戶(hù)的隱私權(quán)；另一個(gè)是運(yùn)營(yíng)的負(fù)擔(dān)，設(shè)備需要頻繁的更新特征庫(kù)來(lái)應(yīng)對(duì)應(yīng)用程序IP包格式等的變化。鑒于基于知名端口和有效載荷內(nèi)容的方法的局限性，現(xiàn)階段學(xué)術(shù)研究方面主要偏向于通過(guò)利用網(wǎng)絡(luò)流的統(tǒng)計(jì)特征（DFI）來(lái)實(shí)現(xiàn)業(yè)務(wù)識(shí)別?；贒F

33、I技術(shù)的方法的基本原理DFI主要是利用前面所說(shuō)的流的一些特性，比如自相似性，周期性等。不同類(lèi)型的應(yīng)用一般來(lái)說(shuō)在統(tǒng)計(jì)特征上也會(huì)有比較明顯的差異，比如網(wǎng)上IP語(yǔ)音流量體現(xiàn)在流狀態(tài)上的特征就非常明顯：RTP流的包長(zhǎng)相對(duì)固定，一般在130220byte,連接速率較低，為2084kbit/s,同時(shí)會(huì)話(huà)持續(xù)時(shí)間也相對(duì)較長(zhǎng)；而基于P2P下載應(yīng)用的流量模型的特點(diǎn)為平均包長(zhǎng)都在450byte以上、下載時(shí)間長(zhǎng)、連接速率高、首選傳輸層協(xié)議為T(mén)CP等。在DFI方法中流是采用五元組定義，對(duì)與這種五元組定義的流常用分類(lèi)方法的一般過(guò)程是選取流的適當(dāng)參數(shù)，使用一個(gè)人工標(biāo)注已知類(lèi)別的數(shù)據(jù)作為輸入，通過(guò)不同的機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練

34、得到分類(lèi)器參數(shù)，從而實(shí)現(xiàn)對(duì)未知流的識(shí)別?，F(xiàn)階段，采用DFI技術(shù)的分類(lèi)方法大多是基于機(jī)器學(xué)習(xí)的：無(wú)指導(dǎo)學(xué)習(xí)（聚類(lèi)方法），指導(dǎo)學(xué)習(xí)以及混合方法。樸素貝葉斯分類(lèi)器樸素貝葉斯分類(lèi)器在網(wǎng)絡(luò)流分類(lèi)中的應(yīng)用：網(wǎng)絡(luò)流量分類(lèi)是一種典型的多元分類(lèi)問(wèn)題。在機(jī)器學(xué)習(xí)方法中，流量分類(lèi)問(wèn)題可以抽象為:已知流量類(lèi)型集合C=c1,c2,ck和網(wǎng)絡(luò)流集合T=t1,t2,tn,其中，網(wǎng)絡(luò)流ti是一個(gè)由網(wǎng)絡(luò)流屬性集合構(gòu)成的屬性向量（Ai1,Ai2,Aim）,如何在類(lèi)型已知的網(wǎng)絡(luò)流集合上，利用機(jī)器學(xué)習(xí)算法構(gòu)建流量分類(lèi)模型f:T-C,并以此模型對(duì)類(lèi)型未知的網(wǎng)絡(luò)集合進(jìn)行分類(lèi)6。貝葉斯方法：用F=Fi,F2,Fi一，F(xiàn)n表示流集合，n表示

35、樣本流的個(gè)數(shù)，F(xiàn)i=fii,必，而，fim表示第i條樣本流，其中m表示樣本流的屬性個(gè)數(shù)，而表示第i條流第j個(gè)屬性。設(shè)C=G,C2,0.，&表示流所屬的類(lèi)別標(biāo)簽集合，其中k表示類(lèi)別白數(shù)量，Ck表示第k類(lèi)。定有k個(gè)類(lèi)G,C2,&,0匕k表示流量的應(yīng)用類(lèi)型的個(gè)數(shù)，給定一個(gè)未知的數(shù)據(jù)樣本Fi,分類(lèi)法將預(yù)測(cè)Fi屬于具有最高后驗(yàn)概率(條件Fi下)的類(lèi)，即樸素貝葉斯分類(lèi)將未知的數(shù)據(jù)樣本分配給類(lèi)Ch,當(dāng)且僅當(dāng)P(Ch|Fi)>P(Cg|Fi),1<g<k,gwh由此得到樸素貝葉斯分類(lèi)的公式如下7：VNBC=argmax(P(Ch|Fi)其中：P(G|Fi)=P(F|Ch)P(

36、Ch)/P(Fi)由于P(F)對(duì)于所有類(lèi)為常數(shù)，只需計(jì)算最大P(Fi|Ch)P(Ch)即可。計(jì)算P(Ch)可以通過(guò)公式P(Ch)=Sh/S計(jì)算，其中，Sh是類(lèi)Ch中的訓(xùn)練樣本數(shù)，S是訓(xùn)練樣本總數(shù)。但是在實(shí)際應(yīng)用中，對(duì)于給定具有許多條件屬性的數(shù)據(jù)集，計(jì)算最大后驗(yàn)概率P(Fi|Ch)P(Ch),計(jì)算的開(kāi)銷(xiāo)可能非常大。為了降低計(jì)算的開(kāi)銷(xiāo)，樸素貝葉斯分類(lèi)器作了條件獨(dú)立假設(shè)，假定各屬性相互條件獨(dú)立，即在屬性間不存在依賴(lài)關(guān)系，假定各屬性相互條件獨(dú)立，即在屬性間不存在依賴(lài)關(guān)系，因此：P(F|Ch)=nP(fik|Ch)(k=1.n)概率P(fik|Ch)可以由訓(xùn)練樣本計(jì)算，即：SP(fik|Ch)=2Sh其

37、中Sk是在屬性fik上具有值i類(lèi)Ch的訓(xùn)練樣本數(shù)，而Si是Ch中的訓(xùn)練樣本數(shù)，即比如是樣本中屬于ppstream的流數(shù)量。為測(cè)試未知樣本x的分類(lèi)，對(duì)于每個(gè)類(lèi)Ch,計(jì)算每個(gè)P(Fi|Ch)P(Ch),樣本F則被指派到P(F|Ch)P(Ch)最大的類(lèi)Ch,即：VMAP=P(F|Ch)P(G)>P(C|Fi)P(Cg)改進(jìn)貝葉斯一FCBF(AFastCorrelation-BasedFliter)：特征的選取過(guò)程中的兩個(gè)問(wèn)題：(1)怎樣決定一個(gè)特征是否和類(lèi)別相關(guān)(2)怎樣決定這樣一個(gè)與類(lèi)別相關(guān)的特征是否與其它特征冗余8。FCBF的主要思想基于特定的相關(guān)性定義，逐個(gè)度量單個(gè)特征與類(lèi)別標(biāo)簽的相關(guān)性

38、，即單個(gè)特征的各自的分類(lèi)能力，然后根據(jù)各特征的分類(lèi)能力對(duì)特征進(jìn)行降序排序，選出分類(lèi)能力高的特征子集，從而在一定程度上消除與分類(lèi)弱相關(guān)甚至無(wú)關(guān)的特征，實(shí)現(xiàn)降維。通過(guò)對(duì)稱(chēng)的不確定性SU(symmetricuncertainly)理論來(lái)幫助找出主要相關(guān)屬性9。對(duì)稱(chēng)不確定理論是基于信息概念論，首先我們先了解一下信息理論念，變量X的嫡為:H(x)=4Rxjoggi)i在給定Y的情況下X的嫡為H(x|y)二P(yj廣P(xi|Vj)log4Rxi|y)P(Xi)表示對(duì)與X中所有值的先驗(yàn)概率，P(X|yi)是給定丫值X的后驗(yàn)概率，而信息增益IG(X|丫)被表示為：IG(X|Y)=H(X)-H(X|Y),這些

39、值都需要被分類(lèi)化來(lái)保證可比性和具有同樣的效果，因此使用SU,定義SU(x,y)IG(x|y)4H(x)Hy)第一個(gè)問(wèn)題通過(guò)設(shè)置一個(gè)閾值是SU(特征，類(lèi)別)>閾值來(lái)解決。第二個(gè)問(wèn)題所有通過(guò)第一個(gè)問(wèn)題閾值選出的特征，按SU降序排列，然后通過(guò)循環(huán)計(jì)算F-correlation來(lái)解決。一個(gè)特征fij與類(lèi)別G的相關(guān)是主要的相關(guān)性：SUj,h>8并且不存在這樣的特征幻使得SLj,>SU，h其他應(yīng)用DFI技術(shù)的模型聚類(lèi)里面有一種采用K-means來(lái)識(shí)別基于TCP協(xié)議應(yīng)用的方法：主要思想應(yīng)用TCP流的前幾個(gè)包，這個(gè)方法允許較早的識(shí)別網(wǎng)絡(luò)流。為什么只采用前幾個(gè)包，是基于這樣子的事實(shí)，應(yīng)用程序的

40、協(xié)商信息往往包含在一個(gè)流的前幾個(gè)包中，這些信息通常是應(yīng)用預(yù)先定義好的消息序列，而且一般不同應(yīng)用也不同。例如取前P個(gè)包，那么可以設(shè)想有一個(gè)P維空間，每一個(gè)流可以用前P個(gè)包表示，P維坐標(biāo)分別對(duì)應(yīng)于前P個(gè)包的大小(或者其他特征)，采用歐式距離來(lái)計(jì)算流之間的相似度。至于K值的選擇主要是通過(guò)使用不同的K值實(shí)驗(yàn)。分類(lèi)就是通過(guò)計(jì)算比較流與每個(gè)聚類(lèi)中心的距離。(比較早期關(guān)于機(jī)器學(xué)習(xí)在流分類(lèi)的應(yīng)用，大概流分類(lèi)準(zhǔn)確率80%左右)10為了進(jìn)一步提高流量分類(lèi)模型的實(shí)時(shí)性,2006年澳大利亞斯溫伯恩大學(xué)的Nguyen等人提出了多子流模型(multiplesub-flowsmodel).該方法首先將網(wǎng)絡(luò)流根據(jù)協(xié)議通信的不

41、同階段劃分為若干條子流，然后分別為每條子流構(gòu)造屬性向量，并以此作為基本單元構(gòu)造訓(xùn)練數(shù)據(jù)集.該方法通過(guò)子流屬性提取擺脫了對(duì)網(wǎng)絡(luò)流進(jìn)行處理時(shí)必須等待網(wǎng)絡(luò)流結(jié)束的限制，極大地提高了分類(lèi)模型的實(shí)時(shí)性.但子流持續(xù)時(shí)間相對(duì)較短，其屬性特征容易受到網(wǎng)絡(luò)運(yùn)行狀態(tài)的影響而發(fā)生變化11這個(gè)一個(gè)與上一個(gè)K-means不同的擺脫必須要捕捉流前幾個(gè)包的限制，只需要附近的N個(gè)包。訓(xùn)練過(guò)程采用一個(gè)分類(lèi)滑動(dòng)窗口(大小為Npacket),從每一個(gè)流中抽出2段或者更多的子流(比如抽取流的前端和中間部分)盡量抽取不同時(shí)間，使得子流統(tǒng)計(jì)特性能夠盡可能的覆蓋原始流的統(tǒng)計(jì)特性。然后通過(guò)從子流的前N個(gè)包抽取出特征值，用這些子流去訓(xùn)練分類(lèi)器

42、。同樣也可以采用上述貝葉斯的改進(jìn)方法。(實(shí)驗(yàn)中是25個(gè)包，對(duì)一個(gè)UDP網(wǎng)游的識(shí)別率達(dá)到了98%)另外一個(gè)基于行為的模型：BLINC,這個(gè)模型與前面不同主要是通過(guò)分析傳輸層主機(jī)行為來(lái)進(jìn)行業(yè)務(wù)識(shí)別。它分三個(gè)行為層次分析，社會(huì)層(sociallevel),功能層(functionlevel),應(yīng)用層(applicationlevel)。比如分析社會(huì)層主要是從主機(jī)連接行為分析，在通信中，使用相同服務(wù)端口的相鄰的ip也許是提供相同的服務(wù)，有偏的通信可能是p2p或者一個(gè)在線(xiàn)游戲。大多數(shù)客戶(hù)端的IP都只有少數(shù)的通信目的地址，這樣可以通過(guò)識(shí)別那些產(chǎn)生大流里的服務(wù)器的類(lèi)型來(lái)幫助識(shí)別客戶(hù)端。12DPI和DFI的對(duì)

43、比:DFI與DPI兩種技術(shù)的設(shè)計(jì)基本目標(biāo)都是為了實(shí)現(xiàn)業(yè)務(wù)識(shí)別，但是兩者在實(shí)現(xiàn)的著眼點(diǎn)和技術(shù)細(xì)節(jié)方面還是存在著較大區(qū)別的。從兩種技術(shù)的對(duì)比情況看，兩者互有優(yōu)勢(shì)，也都有短處，DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識(shí)別、精細(xì)管理的環(huán)境，而DFI技術(shù)適用于需要高效識(shí)別、粗放管理的環(huán)境。從處理速度來(lái)看：DFI處理速度相對(duì)快，而采用DPI技術(shù)由于要逐包進(jìn)行拆包操作，并與后臺(tái)數(shù)據(jù)庫(kù)進(jìn)行匹配對(duì)比，處理速度會(huì)慢些。由于采用DFI技術(shù)進(jìn)行流量分析僅需將流量特征與后臺(tái)流量模型比較即可。從維護(hù)成本來(lái)看：DFI維護(hù)成本相對(duì)較低，而基于DPI技術(shù)的帶寬管理系統(tǒng)總是滯后新應(yīng)用，需要緊跟新協(xié)議和新型應(yīng)用的產(chǎn)生而不斷升級(jí)后臺(tái)應(yīng)用數(shù)據(jù)庫(kù)

44、，否則就不能有效識(shí)別、管理新技術(shù)下的帶寬，影響模式匹配效率；而基于DFI技術(shù)的系統(tǒng)在管理維護(hù)上的工作量要少于DPI系統(tǒng)，因?yàn)橥活?lèi)型的新應(yīng)用與舊應(yīng)用的流量特征不會(huì)出現(xiàn)大的變化，因此不需要頻繁升級(jí)流量行為模型。從識(shí)別準(zhǔn)確率來(lái)看：兩種技術(shù)各有所長(zhǎng)。由于DPI采用逐包分析、模式匹配技術(shù)，因此，可以對(duì)流量中的具體應(yīng)用類(lèi)型和協(xié)議做到比較準(zhǔn)確的識(shí)別；而DFI僅對(duì)流量行為分析，因此只能對(duì)應(yīng)用類(lèi)型進(jìn)行籠統(tǒng)分類(lèi)，如對(duì)滿(mǎn)足P2P流量模型的應(yīng)用統(tǒng)一識(shí)別為P2P流量，對(duì)符合網(wǎng)絡(luò)語(yǔ)音流量模型的類(lèi)型統(tǒng)一歸類(lèi)為VoIP流量，但是無(wú)法判斷該流量是否采用H.323或其他協(xié)議。如果數(shù)據(jù)包是經(jīng)過(guò)加密傳輸?shù)模捎肈PI方式的流控技術(shù)

45、則不能識(shí)別其具體應(yīng)用，而DFI方式的流控技術(shù)不受影響，因?yàn)閼?yīng)用流的狀態(tài)行為特征不會(huì)因加密而根本改變。四、網(wǎng)絡(luò)流量分析之應(yīng)用：入侵檢測(cè)入侵檢測(cè)的基本定義以及方法入侵是指通過(guò)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)和計(jì)算機(jī)系統(tǒng)的關(guān)鍵結(jié)點(diǎn)的信息進(jìn)行收集分析，檢測(cè)其中是否有違反安全策略的事件發(fā)生或攻擊跡象，并通知系統(tǒng)安全管理員。根據(jù)檢測(cè)方法來(lái)區(qū)分，目前常用的入侵檢測(cè)技術(shù)主要有兩種：誤用檢測(cè)和異常檢測(cè)13。誤用檢測(cè)系統(tǒng)一般采用的分析方法是DPI它將已知的攻擊特征和系統(tǒng)弱點(diǎn)進(jìn)行編碼，存入知識(shí)庫(kù)中，入侵檢測(cè)系統(tǒng)(OS1)將所監(jiān)視的事件與知識(shí)庫(kù)中的攻擊模式進(jìn)行匹配，當(dāng)發(fā)現(xiàn)有匹配時(shí)，認(rèn)為有入侵發(fā)生，從而觸發(fā)相應(yīng)機(jī)制，過(guò)程如圖4.1所示。例

46、如，存在以下一條rule:alerttcpanyany->/2411l(content:"7272656e742070726f746f636f6e"msg:"btservice"),其中content中的字符串是bt服務(wù)的特征值"19BitTorrentprotoco",整條規(guī)則的含義是當(dāng)存在流向網(wǎng)絡(luò)的bt流量時(shí)，想系統(tǒng)管理員發(fā)出信息，告知有btservice服務(wù)開(kāi)啟。這種技術(shù)的優(yōu)點(diǎn)是可以有針對(duì)性地建立高效的入侵檢測(cè)系統(tǒng)，虛警率低；缺點(diǎn)是對(duì)未知的入侵活動(dòng)或已知入

47、侵活動(dòng)的變異無(wú)能為力，攻擊特征提取困難，需要不斷更新知識(shí)庫(kù)。pattern圖4-1誤用檢測(cè)技術(shù)過(guò)程異常檢測(cè)基于DP技術(shù)，并假定正常工作模式相對(duì)穩(wěn)定，有入侵發(fā)生時(shí)，用戶(hù)或系統(tǒng)的行為模式會(huì)發(fā)生一定程度的改變。通常是建立一個(gè)對(duì)應(yīng)正?；顒?dòng)”的系統(tǒng)或用戶(hù)的正常輪廓，檢測(cè)入侵活動(dòng)時(shí)，異常檢測(cè)程序產(chǎn)生當(dāng)前的活動(dòng)輪廓并同正常輪廓比較，當(dāng)活動(dòng)輪廓與正常輪廓發(fā)生顯著偏離時(shí)即認(rèn)為是入侵，從而觸發(fā)相應(yīng)機(jī)制，過(guò)程如圖所示。異常檢測(cè)與系統(tǒng)相對(duì)無(wú)關(guān)，通用性較強(qiáng)。它最大的優(yōu)點(diǎn)是有可能檢測(cè)出以前從未出現(xiàn)過(guò)的攻擊方法，不像誤用檢測(cè)那樣受已知脆弱性的限制.因此這種方法格外引起人們的興趣.，下面主要以一個(gè)簡(jiǎn)單的實(shí)例說(shuō)明網(wǎng)絡(luò)流量方法在

48、異常檢測(cè)系統(tǒng)中的應(yīng)用。網(wǎng)絡(luò)流量在異常檢測(cè)系統(tǒng)中的應(yīng)用特征參數(shù)的選取傳統(tǒng)的流量分析方法通常將流量大小等作為參考標(biāo)準(zhǔn)，而與之相比，利用流量特性參數(shù)分布上的變化發(fā)現(xiàn)網(wǎng)絡(luò)中異常情況的方法具有如下優(yōu)點(diǎn)：(1)使流量監(jiān)測(cè)不再完全依靠流量的大小變化。一些異常諸如掃描或小型DoS攻擊可能只會(huì)對(duì)骨干鏈路上的流量有較小影響，因此，更易被監(jiān)測(cè)特征分布變化而不是流量大小變化的系統(tǒng)所發(fā)現(xiàn)。(2)異常的分布展示了關(guān)于異常模式的有用信息，而這些信息并不存在于針對(duì)流量大小的測(cè)量中。對(duì)異常分布進(jìn)行分析，有助于從另一個(gè)角度提取異常流量模式，因此，該方法更適用于檢測(cè)新的、未知的異常情況14。圖4-2顯示了常用的三種網(wǎng)絡(luò)中常見(jiàn)的異常

49、，而每種異常都對(duì)流量特征參數(shù)的分布產(chǎn)生一定影響，也在圖中標(biāo)出，例如，在一些情況下，當(dāng)源地址在DoS攻擊中被利用時(shí)，其特征分布會(huì)變得較分散。而在另一些情況下，當(dāng)發(fā)生一個(gè)單源到單目的的異常大數(shù)據(jù)流時(shí)，特征參數(shù)的分布會(huì)趨于集中。針對(duì)這三種異常，所以我們選取的特征參數(shù)為目的地址、目的端口、源地址，通過(guò)監(jiān)測(cè)這三個(gè)特征參數(shù)的變化來(lái)判斷網(wǎng)絡(luò)是否產(chǎn)生了這三種異常情況：異常定義受影響的蠟流量端口掃描對(duì)小范圍目的地址的大量目的端口進(jìn)行探測(cè)目的地址、目的端口網(wǎng)絡(luò)掃描對(duì)小范圍目的端口的大量目的地址進(jìn)行探測(cè)目的地址、目的端口DDos拒絕服務(wù)攻擊源地址、目的地址圖4-23種常見(jiàn)異常及其特征特征參數(shù)變化的提取選取了特征值，

50、剩下問(wèn)題的關(guān)鍵在于如何表示出特征分布的變化。這個(gè)系統(tǒng)中將利用嫡來(lái)衡量各個(gè)特征值的集中或分散的程度。嫡可以獲取流量特征在分布變化上的有效信息，觀(guān)察多特征嫡的時(shí)間序列可以發(fā)現(xiàn)異常流量行為。嫡是香農(nóng)于1948年提出的、用以表示所測(cè)量事件不確定度的一種數(shù)學(xué)工具。設(shè)集合X=nii=1,2,N表示事件i在總的事件集中發(fā)生了歆，則嫡的定義如下：，一、XNnix(znixH(x)=-()log2()NUSS其中，S=Eni代表所有事件總的發(fā)生次數(shù)。嫡的取值范圍在0,lbN之間，當(dāng)所有事件為同i+一事件時(shí)，分布最大化集中，此時(shí)嫡的值為0,即為最小值。當(dāng)n1=n2=,=nk,即等概分布的情況出現(xiàn)時(shí)，分布最大化分散，此時(shí)嫡的值為logN,即為最大值。所以我們可以嫡的這一特性，觀(guān)察出流量中目的地址、目的端口、源地址的分布變化。根據(jù)嫡值的定義，可以得到以下的特征參數(shù)嫡的計(jì)算式14.m,.ns；ns；H(srcaddress)=-Z()log2()一yS1S1r%；%；H(destaddress)-()log2()i4S2S2npinpiH(dest_port)=-%噌)log2(丁)i=4S3S3mrt其中，S1=Znsi,S2=£ndi,S3=Znpi,分別表示觀(guān)測(cè)時(shí)間段內(nèi)(例如5mins)采集的

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)流量分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

網(wǎng)絡(luò)流量分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔