基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測技術研究與實現(xiàn)_第1頁
基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測技術研究與實現(xiàn)_第2頁
基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測技術研究與實現(xiàn)_第3頁
基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測技術研究與實現(xiàn)_第4頁
基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測技術研究與實現(xiàn)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

0引言隨著網(wǎng)絡的迅猛發(fā)展和計算機性能的不斷提升,大數(shù)據(jù)如今被應用在各行各業(yè)中,用以提升運作效率和精確畫像。在這個數(shù)據(jù)爆炸的時代,網(wǎng)絡入侵技術不斷迭代更新。2020年2月,美國國土安全部的網(wǎng)絡安全和基礎設施安全局發(fā)布公告,一家未公開名字的天然氣管道運營商,在遭到勒索軟件攻擊后關閉壓縮設施達兩天之久。攻擊事件發(fā)生的具體時間未獲公布。據(jù)悉,攻擊始于釣魚軟件內的惡意鏈接,攻擊者從IT網(wǎng)絡滲透到作業(yè)OT網(wǎng)絡并植入勒索軟件。在關閉壓縮設施期間,由于管道傳輸?shù)囊蕾囆?,連帶影響到了其他地方的壓縮設施。2020年4月,葡萄牙跨國能源公司EDP(EnergiesdePortugal)遭到勒索軟件攻擊。攻擊者聲稱,已獲取EDP公司10TB的敏感數(shù)據(jù)文件,且索要了1580的比特幣贖金(折合約1090萬美元)。如何在海量的流量數(shù)據(jù)里捕獲到惡意的網(wǎng)絡攻擊是當前的一個難題。最近十幾年機器學習和深度學習被廣泛應用于網(wǎng)絡攻擊檢測,但是它們使用的數(shù)據(jù)集一般過于陳舊,不能反映當前網(wǎng)絡的流量情況。此外,這種檢測方式很難對海量數(shù)據(jù)集進行標定,只能在小范圍流量內進行訓練測試。基于此背景,本文實現(xiàn)了一種半監(jiān)督的基于關聯(lián)知識圖和Spark計算引擎的網(wǎng)絡攻擊檢測技術,在不需全部標定海量數(shù)據(jù)的同時,通過聚類算法快速縮小檢測范圍,并通過污點傳播Malrank算法發(fā)現(xiàn)可疑節(jié)點,進而實現(xiàn)攻擊路徑的可視化。本文組織結構如下:第1章介紹了網(wǎng)絡攻擊檢測技術的相關研究;第2章分析了具體關聯(lián)知識圖的構建;第3章介紹了聚類算法和污點傳播算法的應用;第4章從仿真實驗的角度驗證了整體設計的合理性;第5章總結全文。1相關研究1.1機器學習在網(wǎng)絡攻擊檢測中的應用近年來,隨著機器學習的發(fā)展,越來越多的相關技術被應用到網(wǎng)絡攻擊檢測。機器學習應用到網(wǎng)絡攻擊檢測的技術主要有貝葉斯網(wǎng)絡、聚類算法、決策樹以及支持向量機(SupportVectorMachines,SVM)等。Jemili等人提出了使用貝葉斯網(wǎng)絡分類器的IDS框架。這項工作在訓練網(wǎng)絡中使用了KDD1999數(shù)據(jù)的9個特征。在異常檢測階段,正?;蚬襞袛嘤陕?lián)結樹推理模塊做出,并分別在正常和攻擊類別上達到88%和89%的正確率。在下一階段,異常檢測模塊從標記為攻擊數(shù)據(jù)的數(shù)據(jù)中識別出攻擊類型。DoS、探測或掃描、R2L、U2R和其他類別識別正確的概率分別為89%、99%、21%、7%和66%。其中,R2L和U2R類別的性能不佳是因為訓練實例的數(shù)量比其他類別少得多?;跈C器學習的網(wǎng)絡攻擊檢測存在以下缺陷。(1)依賴于公開數(shù)據(jù)集的數(shù)據(jù)標定。目前研究主要使用的數(shù)據(jù)集仍然是1999年的KDD或是DRAPA1998,其數(shù)據(jù)不能夠很好地反映如今的流量特征,且當前也不可能做到在大數(shù)據(jù)環(huán)境下進行全部標定。(2)不同數(shù)據(jù)集一般抽取出的攻擊特征不同,因此基于一個數(shù)據(jù)集訓練出來的模型很難被應用在別的地方。1.2基于關聯(lián)圖的網(wǎng)絡攻擊檢測隨著大數(shù)據(jù)的發(fā)展,為了計算海量的數(shù)據(jù),獲取更高的處理速度,SPARK等大數(shù)據(jù)工具開始被應用在學術和工業(yè)領域。針對海量流量無法被全部標定獲取測試樣本集,近幾年關聯(lián)圖技術結合大數(shù)據(jù)技術被應用在相關領域上。利用圖技術結合系統(tǒng)日志,實現(xiàn)了一種檢測高級持續(xù)攻擊(AdvancedPersistentThreat,APT)的系統(tǒng)HOLMES。HOLMES的目標是產(chǎn)生一個檢測信號,表明存在著一系列的APT階段性活動。在總結抽象階段,HOLMES有效利用了攻擊發(fā)生期間產(chǎn)生的可疑信息流之間的相關性。除了具有檢測功能外,HOLMES還能夠生成高級圖表,實時總結攻擊者的行動。分析人員可以使用此圖進行有效的分析檢測。把關聯(lián)圖應用在社交網(wǎng)絡的情感分析上,取得了良好效果。關聯(lián)圖技術首先被用來抽取Tweet記錄。以用戶為點,Tweet中各種互動為關系構圖。然后,以這張圖為基礎,將邊上所帶的Tweet信息進行語義解析,分析所含情感。最后,通過情感分類器將整個社交網(wǎng)絡圖分成志趣相投的情感社區(qū)。2關聯(lián)知識圖構建本文通過收集網(wǎng)關流量信息并處理來構建以流量中實體為節(jié)點、實體相關性為邊的關聯(lián)知識圖。2.1日志抽取針對含有疑似攻擊流量的Pcap文件,為了獲得構建關聯(lián)圖所需要的信息,使用Bro框架對Pcap文件進行處理。Bro框架是一款開源的流量分析器,主要分為兩個概念層。一是網(wǎng)絡事件層(eventengine),將原始的網(wǎng)絡流量簡化為高層的網(wǎng)絡事件,如TCP連接(TCPConnection)和UDP數(shù)據(jù)流(UDPFlow)等;二是腳本解釋器(policyscrIPtinterpreter),用于解析和運行用戶編寫、實現(xiàn)定制化監(jiān)測方案的Bro腳本。本文使用Bro的日志抽取合文件還原功能。在對Pcap包進行離線分析后,抽取其相關流量特征生成日志文件,如表1所示。表1Bro日志文件2.2構圖在得到反映流量特征的日志文件后,基于Spark大數(shù)據(jù)工具抽取其中關鍵信息構建關聯(lián)知識圖。其中,。如果兩個節(jié)點有一定的相關關系,則兩節(jié)點間存在一邊。每條邊通過處理最終得到一個權重W(),代表節(jié)點間的相關性。W越大,代表節(jié)點間關系越緊密。節(jié)點間的關系根據(jù)日志間的相互聯(lián)系分為直接關系和間接關系。2.2.1直接關系的構建直接關系為對日志每行進行處理得到的實體之間的關系,如通過Conn.log中的TCP連接可以知道兩個IP之間存在直接相連關系。不同類型的邊本質上代表了不同相關性的關系,因此在初始階段對不同類型的邊賦予不同的初始權重代表它們的相關性。例如,Dns.log中域名Domain與對應的解析IP之間的關系應該是強相關,因為訪問該域名其實就是訪問該IP。但與之不同的是,Dns.log中域名Domain對應請求解析該域名的IP之間是訪問的關系,可能存在偶然性,初始相關權重較小,因此針對幾種初始相關權重較小的邊種類,需要根據(jù)日志信息繼續(xù)處理,即對任意兩個節(jié)點之間的連接次數(shù)進行計數(shù),記為c,每次該邊對應的兩個節(jié)點再次相連時c=c+1,最后將c用tanh函數(shù)歸一化并賦值給權重。同時,為了減小c的影響,tanh函數(shù)添加冪次0.03,即:式中,W為權重。通過tanh函數(shù)將c映射到[0,1]區(qū)間,以增大c比較小時對權重的影響和減小c比較大時對權重的影響。2.2.2間接關系構建域名節(jié)點之間,文件節(jié)點之間按照日志每行記錄沒有直接關系存在,但是它們之間可能根據(jù)相似性存在潛在的間接關系,如惡意文件同屬于一個家族。針對域名間的相似性,本文使用Jaccard相似度算法。Jaccard相似度常用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高。Jaccard相似度算法認為,如果域名屬于相同惡意家族,則存在大量相同的主機訪問它們。訪問主機具有較高重合度,重合度越高,域名屬于相同團伙的概率越大。本研究通過計算兩個域名之間的Jaccard值,隨后與預先設定的閾值s比較,若大于閾值s,即:則認為Domain1和Domain2之間具有間接關系,可在此兩個域名節(jié)點之間建立關聯(lián)邊。針對文件間的相似性,如果從文本角度分析,直接采用simhash的方法過于簡單。因此,本研究使用IDA+BinDiff插件對文件從函數(shù)層面上進行相似性分析,判斷是否存在間接關系。最終,整個關聯(lián)知識圖實體種類和相互關系如圖1所示。圖1關聯(lián)知識圖實體及相互關系3攻擊檢測算法在通過構圖獲得關聯(lián)知識圖后,需要基于此圖進行攻擊檢測,發(fā)現(xiàn)潛在的惡意節(jié)點和攻擊路徑。本研究先通過社區(qū)算法,利用節(jié)點間的相關性縮小后續(xù)惡意檢測的范圍,然后使用基于半監(jiān)督的污點傳播算法發(fā)現(xiàn)更多的惡意節(jié)點或受害節(jié)點。3.1社區(qū)算法社區(qū)算法主要有Louvain、GN以及圖卷積算法等。因為Louvain算法在速度方面有獨特的優(yōu)勢,適合大數(shù)據(jù)分析且適合本研究通過邊權值構成社區(qū)的情景,所以這里采用Louvain算法作為社區(qū)算法。Louvain使用模塊度Q代表是-1和1之間的標量值,表示社區(qū)內部鏈接相對于社區(qū)之間鏈接的密度。模塊度Q被定義為:式中,表示節(jié)點i和節(jié)點j所連邊的權重,表示與節(jié)點i相連的所有邊的權重和,m表示圖中所有邊的權重和,表示節(jié)點i所在的分區(qū)。Louvain算法步驟如圖2所示。(1)通過使模塊度Q最大,判斷所有節(jié)點的最佳社區(qū)選擇。(2)將步驟(1)中的社區(qū)合并為一個超點,再次計算合并。圖2Louvain算法步驟3.2污點傳播算法Malrank算法是一種基于有向圖的半監(jiān)督靜態(tài)污點傳播算法,根據(jù)節(jié)點與知識圖中其他實體的關聯(lián),通過對初始邊權重和初始惡意值的不斷迭代來推斷節(jié)點的真實惡意值。根據(jù)Malrank算法,假設節(jié)點x的惡意值為,則第i+1次的迭代可由式(7)計算得出:式中,表示節(jié)點x的初始惡意度。一般情況下,如果已知x為惡意節(jié)點,則令。表示的初始可信度,表示節(jié)點x的鄰居節(jié)點構成的集合,代表節(jié)點x對節(jié)點y的影響權重。在得到迭代通式后,Malrank算法需要通過迭代完成相關權重和節(jié)點惡意值的重新計算,得到潛在的惡意節(jié)點。權重迭代的公式為:式中,k是限制初始相關權重對迭代時權重影響的因子。4實驗4.1實驗數(shù)據(jù)為了驗證關聯(lián)知識圖結合攻擊檢測的效果,本研究在真實校園網(wǎng)環(huán)境中搭建了攻擊環(huán)境,并模擬常見攻擊的同時混雜正常流量,得到了約1GB真實流量。本研究搭建攻擊場景具體如圖3所示。(1)Web攻擊。如攻擊場景1,攻擊方主機向受害主機發(fā)動SQL注入攻擊。(2)BruteSSH+僵尸網(wǎng)絡攻擊+DDoS攻擊。如攻擊場景2和攻擊場景3,攻擊方(C&C服務器)首先通過暴力破解SSH的手段登錄到受害主機內部,其次通過橫向移動入侵內部別的虛擬機,最后控制這幾臺受控制的虛擬機向別的外網(wǎng)IP發(fā)動DDoS攻擊。4.2實驗結果得到日志后,通過聚類算法發(fā)現(xiàn)構建的關聯(lián)知識圖涉及3個攻擊場景部分的節(jié)點分成了3個子圖,如圖3所示。以場景2為例,在半監(jiān)督的場景下,令bot程序分發(fā)服務器和攻擊筆記本為已知初始惡意節(jié)點,通過Malrank算法得到的包含攻擊場景2的子圖中可以找到潛在的惡意僵尸肉雞節(jié)點、惡意文件節(jié)點和受到DDoS攻擊的惡意節(jié)點。整個子圖節(jié)點的惡意值分布如表4所示。圖3攻擊場景架構表4攻擊場景2節(jié)點惡意性分布如表5所示,除了檢測效果優(yōu)秀,基于Saprk的計算引擎和社區(qū)算法的縮小了范圍,大大加快了整個檢測過程的速度。表5檢測速度對比5結語本文主要研究了基于關聯(lián)知識圖的網(wǎng)絡攻擊檢測方法,探討并借鑒了國內外研究中常用的圖技術檢測方法。首先考慮到流量內各個實體的相關性,構建合適的關聯(lián)知識圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論