版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
0引言隨著網(wǎng)絡(luò)的迅猛發(fā)展和計算機性能的不斷提升,大數(shù)據(jù)如今被應(yīng)用在各行各業(yè)中,用以提升運作效率和精確畫像。在這個數(shù)據(jù)爆炸的時代,網(wǎng)絡(luò)入侵技術(shù)不斷迭代更新。2020年2月,美國國土安全部的網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局發(fā)布公告,一家未公開名字的天然氣管道運營商,在遭到勒索軟件攻擊后關(guān)閉壓縮設(shè)施達兩天之久。攻擊事件發(fā)生的具體時間未獲公布。據(jù)悉,攻擊始于釣魚軟件內(nèi)的惡意鏈接,攻擊者從IT網(wǎng)絡(luò)滲透到作業(yè)OT網(wǎng)絡(luò)并植入勒索軟件。在關(guān)閉壓縮設(shè)施期間,由于管道傳輸?shù)囊蕾囆裕B帶影響到了其他地方的壓縮設(shè)施。2020年4月,葡萄牙跨國能源公司EDP(EnergiesdePortugal)遭到勒索軟件攻擊。攻擊者聲稱,已獲取EDP公司10TB的敏感數(shù)據(jù)文件,且索要了1580的比特幣贖金(折合約1090萬美元)。如何在海量的流量數(shù)據(jù)里捕獲到惡意的網(wǎng)絡(luò)攻擊是當(dāng)前的一個難題。最近十幾年機器學(xué)習(xí)和深度學(xué)習(xí)被廣泛應(yīng)用于網(wǎng)絡(luò)攻擊檢測,但是它們使用的數(shù)據(jù)集一般過于陳舊,不能反映當(dāng)前網(wǎng)絡(luò)的流量情況。此外,這種檢測方式很難對海量數(shù)據(jù)集進行標(biāo)定,只能在小范圍流量內(nèi)進行訓(xùn)練測試?;诖吮尘埃疚膶崿F(xiàn)了一種半監(jiān)督的基于關(guān)聯(lián)知識圖和Spark計算引擎的網(wǎng)絡(luò)攻擊檢測技術(shù),在不需全部標(biāo)定海量數(shù)據(jù)的同時,通過聚類算法快速縮小檢測范圍,并通過污點傳播Malrank算法發(fā)現(xiàn)可疑節(jié)點,進而實現(xiàn)攻擊路徑的可視化。本文組織結(jié)構(gòu)如下:第1章介紹了網(wǎng)絡(luò)攻擊檢測技術(shù)的相關(guān)研究;第2章分析了具體關(guān)聯(lián)知識圖的構(gòu)建;第3章介紹了聚類算法和污點傳播算法的應(yīng)用;第4章從仿真實驗的角度驗證了整體設(shè)計的合理性;第5章總結(jié)全文。1相關(guān)研究1.1機器學(xué)習(xí)在網(wǎng)絡(luò)攻擊檢測中的應(yīng)用近年來,隨著機器學(xué)習(xí)的發(fā)展,越來越多的相關(guān)技術(shù)被應(yīng)用到網(wǎng)絡(luò)攻擊檢測。機器學(xué)習(xí)應(yīng)用到網(wǎng)絡(luò)攻擊檢測的技術(shù)主要有貝葉斯網(wǎng)絡(luò)、聚類算法、決策樹以及支持向量機(SupportVectorMachines,SVM)等。Jemili等人提出了使用貝葉斯網(wǎng)絡(luò)分類器的IDS框架。這項工作在訓(xùn)練網(wǎng)絡(luò)中使用了KDD1999數(shù)據(jù)的9個特征。在異常檢測階段,正常或攻擊判斷由聯(lián)結(jié)樹推理模塊做出,并分別在正常和攻擊類別上達到88%和89%的正確率。在下一階段,異常檢測模塊從標(biāo)記為攻擊數(shù)據(jù)的數(shù)據(jù)中識別出攻擊類型。DoS、探測或掃描、R2L、U2R和其他類別識別正確的概率分別為89%、99%、21%、7%和66%。其中,R2L和U2R類別的性能不佳是因為訓(xùn)練實例的數(shù)量比其他類別少得多?;跈C器學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測存在以下缺陷。(1)依賴于公開數(shù)據(jù)集的數(shù)據(jù)標(biāo)定。目前研究主要使用的數(shù)據(jù)集仍然是1999年的KDD或是DRAPA1998,其數(shù)據(jù)不能夠很好地反映如今的流量特征,且當(dāng)前也不可能做到在大數(shù)據(jù)環(huán)境下進行全部標(biāo)定。(2)不同數(shù)據(jù)集一般抽取出的攻擊特征不同,因此基于一個數(shù)據(jù)集訓(xùn)練出來的模型很難被應(yīng)用在別的地方。1.2基于關(guān)聯(lián)圖的網(wǎng)絡(luò)攻擊檢測隨著大數(shù)據(jù)的發(fā)展,為了計算海量的數(shù)據(jù),獲取更高的處理速度,SPARK等大數(shù)據(jù)工具開始被應(yīng)用在學(xué)術(shù)和工業(yè)領(lǐng)域。針對海量流量無法被全部標(biāo)定獲取測試樣本集,近幾年關(guān)聯(lián)圖技術(shù)結(jié)合大數(shù)據(jù)技術(shù)被應(yīng)用在相關(guān)領(lǐng)域上。利用圖技術(shù)結(jié)合系統(tǒng)日志,實現(xiàn)了一種檢測高級持續(xù)攻擊(AdvancedPersistentThreat,APT)的系統(tǒng)HOLMES。HOLMES的目標(biāo)是產(chǎn)生一個檢測信號,表明存在著一系列的APT階段性活動。在總結(jié)抽象階段,HOLMES有效利用了攻擊發(fā)生期間產(chǎn)生的可疑信息流之間的相關(guān)性。除了具有檢測功能外,HOLMES還能夠生成高級圖表,實時總結(jié)攻擊者的行動。分析人員可以使用此圖進行有效的分析檢測。把關(guān)聯(lián)圖應(yīng)用在社交網(wǎng)絡(luò)的情感分析上,取得了良好效果。關(guān)聯(lián)圖技術(shù)首先被用來抽取Tweet記錄。以用戶為點,Tweet中各種互動為關(guān)系構(gòu)圖。然后,以這張圖為基礎(chǔ),將邊上所帶的Tweet信息進行語義解析,分析所含情感。最后,通過情感分類器將整個社交網(wǎng)絡(luò)圖分成志趣相投的情感社區(qū)。2關(guān)聯(lián)知識圖構(gòu)建本文通過收集網(wǎng)關(guān)流量信息并處理來構(gòu)建以流量中實體為節(jié)點、實體相關(guān)性為邊的關(guān)聯(lián)知識圖。2.1日志抽取針對含有疑似攻擊流量的Pcap文件,為了獲得構(gòu)建關(guān)聯(lián)圖所需要的信息,使用Bro框架對Pcap文件進行處理。Bro框架是一款開源的流量分析器,主要分為兩個概念層。一是網(wǎng)絡(luò)事件層(eventengine),將原始的網(wǎng)絡(luò)流量簡化為高層的網(wǎng)絡(luò)事件,如TCP連接(TCPConnection)和UDP數(shù)據(jù)流(UDPFlow)等;二是腳本解釋器(policyscrIPtinterpreter),用于解析和運行用戶編寫、實現(xiàn)定制化監(jiān)測方案的Bro腳本。本文使用Bro的日志抽取合文件還原功能。在對Pcap包進行離線分析后,抽取其相關(guān)流量特征生成日志文件,如表1所示。表1Bro日志文件2.2構(gòu)圖在得到反映流量特征的日志文件后,基于Spark大數(shù)據(jù)工具抽取其中關(guān)鍵信息構(gòu)建關(guān)聯(lián)知識圖。其中,。如果兩個節(jié)點有一定的相關(guān)關(guān)系,則兩節(jié)點間存在一邊。每條邊通過處理最終得到一個權(quán)重W(),代表節(jié)點間的相關(guān)性。W越大,代表節(jié)點間關(guān)系越緊密。節(jié)點間的關(guān)系根據(jù)日志間的相互聯(lián)系分為直接關(guān)系和間接關(guān)系。2.2.1直接關(guān)系的構(gòu)建直接關(guān)系為對日志每行進行處理得到的實體之間的關(guān)系,如通過Conn.log中的TCP連接可以知道兩個IP之間存在直接相連關(guān)系。不同類型的邊本質(zhì)上代表了不同相關(guān)性的關(guān)系,因此在初始階段對不同類型的邊賦予不同的初始權(quán)重代表它們的相關(guān)性。例如,Dns.log中域名Domain與對應(yīng)的解析IP之間的關(guān)系應(yīng)該是強相關(guān),因為訪問該域名其實就是訪問該IP。但與之不同的是,Dns.log中域名Domain對應(yīng)請求解析該域名的IP之間是訪問的關(guān)系,可能存在偶然性,初始相關(guān)權(quán)重較小,因此針對幾種初始相關(guān)權(quán)重較小的邊種類,需要根據(jù)日志信息繼續(xù)處理,即對任意兩個節(jié)點之間的連接次數(shù)進行計數(shù),記為c,每次該邊對應(yīng)的兩個節(jié)點再次相連時c=c+1,最后將c用tanh函數(shù)歸一化并賦值給權(quán)重。同時,為了減小c的影響,tanh函數(shù)添加冪次0.03,即:式中,W為權(quán)重。通過tanh函數(shù)將c映射到[0,1]區(qū)間,以增大c比較小時對權(quán)重的影響和減小c比較大時對權(quán)重的影響。2.2.2間接關(guān)系構(gòu)建域名節(jié)點之間,文件節(jié)點之間按照日志每行記錄沒有直接關(guān)系存在,但是它們之間可能根據(jù)相似性存在潛在的間接關(guān)系,如惡意文件同屬于一個家族。針對域名間的相似性,本文使用Jaccard相似度算法。Jaccard相似度常用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高。Jaccard相似度算法認(rèn)為,如果域名屬于相同惡意家族,則存在大量相同的主機訪問它們。訪問主機具有較高重合度,重合度越高,域名屬于相同團伙的概率越大。本研究通過計算兩個域名之間的Jaccard值,隨后與預(yù)先設(shè)定的閾值s比較,若大于閾值s,即:則認(rèn)為Domain1和Domain2之間具有間接關(guān)系,可在此兩個域名節(jié)點之間建立關(guān)聯(lián)邊。針對文件間的相似性,如果從文本角度分析,直接采用simhash的方法過于簡單。因此,本研究使用IDA+BinDiff插件對文件從函數(shù)層面上進行相似性分析,判斷是否存在間接關(guān)系。最終,整個關(guān)聯(lián)知識圖實體種類和相互關(guān)系如圖1所示。圖1關(guān)聯(lián)知識圖實體及相互關(guān)系3攻擊檢測算法在通過構(gòu)圖獲得關(guān)聯(lián)知識圖后,需要基于此圖進行攻擊檢測,發(fā)現(xiàn)潛在的惡意節(jié)點和攻擊路徑。本研究先通過社區(qū)算法,利用節(jié)點間的相關(guān)性縮小后續(xù)惡意檢測的范圍,然后使用基于半監(jiān)督的污點傳播算法發(fā)現(xiàn)更多的惡意節(jié)點或受害節(jié)點。3.1社區(qū)算法社區(qū)算法主要有Louvain、GN以及圖卷積算法等。因為Louvain算法在速度方面有獨特的優(yōu)勢,適合大數(shù)據(jù)分析且適合本研究通過邊權(quán)值構(gòu)成社區(qū)的情景,所以這里采用Louvain算法作為社區(qū)算法。Louvain使用模塊度Q代表是-1和1之間的標(biāo)量值,表示社區(qū)內(nèi)部鏈接相對于社區(qū)之間鏈接的密度。模塊度Q被定義為:式中,表示節(jié)點i和節(jié)點j所連邊的權(quán)重,表示與節(jié)點i相連的所有邊的權(quán)重和,m表示圖中所有邊的權(quán)重和,表示節(jié)點i所在的分區(qū)。Louvain算法步驟如圖2所示。(1)通過使模塊度Q最大,判斷所有節(jié)點的最佳社區(qū)選擇。(2)將步驟(1)中的社區(qū)合并為一個超點,再次計算合并。圖2Louvain算法步驟3.2污點傳播算法Malrank算法是一種基于有向圖的半監(jiān)督靜態(tài)污點傳播算法,根據(jù)節(jié)點與知識圖中其他實體的關(guān)聯(lián),通過對初始邊權(quán)重和初始惡意值的不斷迭代來推斷節(jié)點的真實惡意值。根據(jù)Malrank算法,假設(shè)節(jié)點x的惡意值為,則第i+1次的迭代可由式(7)計算得出:式中,表示節(jié)點x的初始惡意度。一般情況下,如果已知x為惡意節(jié)點,則令。表示的初始可信度,表示節(jié)點x的鄰居節(jié)點構(gòu)成的集合,代表節(jié)點x對節(jié)點y的影響權(quán)重。在得到迭代通式后,Malrank算法需要通過迭代完成相關(guān)權(quán)重和節(jié)點惡意值的重新計算,得到潛在的惡意節(jié)點。權(quán)重迭代的公式為:式中,k是限制初始相關(guān)權(quán)重對迭代時權(quán)重影響的因子。4實驗4.1實驗數(shù)據(jù)為了驗證關(guān)聯(lián)知識圖結(jié)合攻擊檢測的效果,本研究在真實校園網(wǎng)環(huán)境中搭建了攻擊環(huán)境,并模擬常見攻擊的同時混雜正常流量,得到了約1GB真實流量。本研究搭建攻擊場景具體如圖3所示。(1)Web攻擊。如攻擊場景1,攻擊方主機向受害主機發(fā)動SQL注入攻擊。(2)BruteSSH+僵尸網(wǎng)絡(luò)攻擊+DDoS攻擊。如攻擊場景2和攻擊場景3,攻擊方(C&C服務(wù)器)首先通過暴力破解SSH的手段登錄到受害主機內(nèi)部,其次通過橫向移動入侵內(nèi)部別的虛擬機,最后控制這幾臺受控制的虛擬機向別的外網(wǎng)IP發(fā)動DDoS攻擊。4.2實驗結(jié)果得到日志后,通過聚類算法發(fā)現(xiàn)構(gòu)建的關(guān)聯(lián)知識圖涉及3個攻擊場景部分的節(jié)點分成了3個子圖,如圖3所示。以場景2為例,在半監(jiān)督的場景下,令bot程序分發(fā)服務(wù)器和攻擊筆記本為已知初始惡意節(jié)點,通過Malrank算法得到的包含攻擊場景2的子圖中可以找到潛在的惡意僵尸肉雞節(jié)點、惡意文件節(jié)點和受到DDoS攻擊的惡意節(jié)點。整個子圖節(jié)點的惡意值分布如表4所示。圖3攻擊場景架構(gòu)表4攻擊場景2節(jié)點惡意性分布如表5所示,除了檢測效果優(yōu)秀,基于Saprk的計算引擎和社區(qū)算法的縮小了范圍,大大加快了整個檢測過程的速度。表5檢測速度對比5結(jié)語本文主要研究了基于關(guān)聯(lián)知識圖的網(wǎng)絡(luò)攻擊檢測方法,探討并借鑒了國內(nèi)外研究中常用的圖技術(shù)檢測方法。首先考慮到流量內(nèi)各個實體的相關(guān)性,構(gòu)建合適的關(guān)聯(lián)知識圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合伙經(jīng)營公司合同書
- 生態(tài)修復(fù)區(qū)草坪鋪設(shè)工程合同
- 學(xué)校網(wǎng)絡(luò)布線基礎(chǔ)設(shè)施施工合同
- 2025建筑購銷合同書范文
- 建筑供四甲苯氣泥工施工合同
- 中小學(xué)心理健康教育的師資建設(shè)與培訓(xùn)
- 2025二手車買賣合同書2
- 低空經(jīng)濟產(chǎn)業(yè)園低空飛行器及相關(guān)技術(shù)配套設(shè)施
- 2023年注冊工程師之公共基礎(chǔ)題庫與答案
- 如何保護兒童免受網(wǎng)絡(luò)詐騙
- 人教版七年級數(shù)學(xué)上冊3.4 第3課時《 球賽積分表問題》說課稿1
- 中藥學(xué)總結(jié)(表格)
- 2022-2023學(xué)年廣東省深圳市高一(上)期末數(shù)學(xué)試卷-解析版
- 城市綠地系統(tǒng)規(guī)劃智慧樹知到期末考試答案章節(jié)答案2024年浙江農(nóng)林大學(xué)
- 2024年物業(yè)經(jīng)理(中級)職業(yè)鑒定考試題庫(含答案)
- 大學(xué)語文(華北科技學(xué)院)智慧樹知到期末考試答案章節(jié)答案2024年華北科技學(xué)院
- 多元統(tǒng)計分析智慧樹知到期末考試答案章節(jié)答案2024年浙江工商大學(xué)
- 貴陽市某國有企業(yè)招聘筆試真題2022
- 公司戰(zhàn)略與風(fēng)險管理智慧樹知到期末考試答案章節(jié)答案2024年哈爾濱商業(yè)大學(xué)
- 消防員勞動合同范本(2024版)
- 25年同學(xué)會策劃案(完整版)
評論
0/150
提交評論