基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)

上傳人：1*** IP屬地：湖南上傳時(shí)間：2024-09-10 格式：DOCX 頁(yè)數(shù)：12 大?。?99.33KB 積分：20 舉報(bào) 版權(quán)申訴

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第2頁(yè)

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第3頁(yè)

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第4頁(yè)

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第5頁(yè)

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

１數(shù)據(jù)加工數(shù)據(jù)加工是整個(gè)建模的第一步，這是因?yàn)楝F(xiàn)實(shí)網(wǎng)絡(luò)流量中充斥著大量的無(wú)用干擾信息，且數(shù)據(jù)參差不齊。攻擊者會(huì)發(fā)現(xiàn)系統(tǒng)中存在的漏洞，并通過(guò)各種復(fù)雜的編碼、轉(zhuǎn)義技術(shù)來(lái)混淆和躲避web安全檢查。整體數(shù)據(jù)加工流程如圖1所示。圖1數(shù)據(jù)加工流程通過(guò)數(shù)據(jù)加工模塊對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)解析與加工，將混淆視聽(tīng)的數(shù)據(jù)轉(zhuǎn)換成真正有價(jià)值的數(shù)據(jù)。數(shù)據(jù)滲透模塊中包含base64處理、HTML轉(zhuǎn)義字符處理、URL解碼處理、干擾字符處理、HTML注釋處理、特殊操作符處理等操作。Base64內(nèi)容是數(shù)據(jù)的一種編碼表示，有一定的加密作用，是網(wǎng)絡(luò)上最常見(jiàn)的用于傳輸8Bit字節(jié)代碼的編碼方式之一。Base64編碼可用于在HTTP環(huán)境下傳遞較長(zhǎng)的標(biāo)識(shí)信息，在web攻防中，攻擊者使用Base64來(lái)將URL中一個(gè)較長(zhǎng)的標(biāo)識(shí)符編碼為一個(gè)字符串，用作HTTP表單中的參數(shù)，采用Base64編碼具有不可讀性，即所編碼的XSS攻擊數(shù)據(jù)不會(huì)直接被安全人員用肉眼所識(shí)別。字符轉(zhuǎn)義也稱(chēng)字符實(shí)體，在HTML中像“<”和“>”這類(lèi)符號(hào)已經(jīng)用來(lái)表示HTML標(biāo)簽，因此不能直接當(dāng)作文本中的符號(hào)來(lái)使用。為了在HTML文本中使用這些符號(hào)，就需要定義它的轉(zhuǎn)義字符串，且有些字符在ASCII字符集中沒(méi)有定義，也需要使用轉(zhuǎn)義字符串來(lái)表示。攻擊者利用了轉(zhuǎn)義字符的原理，當(dāng)需要隱蔽自己的攻擊意圖時(shí)會(huì)在URL中隱藏HTML標(biāo)簽，用“"”等字符進(jìn)行HTML的“<”關(guān)鍵符號(hào)替代，來(lái)迷惑web安全人員。在互聯(lián)網(wǎng)上傳送URL只能采用ASCII字符集，即只能使用英文字母、阿拉伯?dāng)?shù)字和某些標(biāo)點(diǎn)符號(hào)，如果包含中文等其余字符時(shí)，就需要再使用編碼。攻擊者利用了URL編解碼原理，將惡意代碼通過(guò)URL編碼后進(jìn)行隱蔽混淆，以逃過(guò)web安全檢索。除了編碼轉(zhuǎn)義等混淆手段，攻擊者也會(huì)在URL中加入干擾字符和注釋信息等，起到蒙蔽視聽(tīng)的作用。２特征工程特征工程是把數(shù)據(jù)加工模塊清洗好的規(guī)整數(shù)據(jù)進(jìn)行加工處理，轉(zhuǎn)換為機(jī)器模型可識(shí)別的向量化指標(biāo)數(shù)據(jù)。特征工程作為銜接數(shù)據(jù)加工和算法模型的中間橋梁，是整個(gè)算法建模流程的重中之重，好的特征工程能夠有效提煉出正常樣本和惡意樣本的差異所在，幫助機(jī)器學(xué)習(xí)模型做出正確的抉擇，有效提高模型的檢測(cè)性能。本文將特征分為常規(guī)特征、字符統(tǒng)計(jì)特征、特定模式特征和特殊字符特征四大類(lèi)，共19個(gè)特征。特征分類(lèi)如圖2所示。圖2特征工程分類(lèi)其中信息熵常被用來(lái)作為一個(gè)系統(tǒng)的信息含量的量化指標(biāo)，用于表示一段信息的混雜程度。常見(jiàn)的XSS攻擊信息中包含的字符種類(lèi)較多且字符混雜程度較高，信息熵偏高，用信息熵特征能較好地識(shí)別出XSS攻擊，信息熵計(jì)算公式：式中：x為隨機(jī)變量；p(x)為輸出概率函數(shù)；H(X)為信息熵值。統(tǒng)計(jì)特征用于表示XSS攻擊信息中某類(lèi)特殊關(guān)鍵詞的出現(xiàn)頻數(shù)。XSS攻擊中往往帶有某類(lèi)特定的惡意關(guān)鍵詞用于惡意函數(shù)或惡意代碼的鏈接傳遞作用，而正常的URL信息中很少帶有此類(lèi)關(guān)鍵詞，所以關(guān)鍵詞信息作為一個(gè)特征，能很好地區(qū)分正常URL信息和XSS攻擊信息，但若單一憑借關(guān)鍵詞的出現(xiàn)頻率來(lái)認(rèn)證XSS攻擊，模型會(huì)有較高的誤報(bào)率。為了解決高誤報(bào)問(wèn)題，通過(guò)反復(fù)地對(duì)大量正反樣例進(jìn)行觀察與取證，使特征在涵蓋關(guān)鍵詞信息的同時(shí)，會(huì)為關(guān)鍵詞設(shè)計(jì)其前后特定模式的字符順序，當(dāng)僅出現(xiàn)某單一關(guān)鍵詞時(shí)并不會(huì)觸發(fā)此類(lèi)特征，關(guān)鍵詞正則匹配公式：在URL信息中會(huì)包含一些攻擊者精心構(gòu)造和編排的特定字符，其中局部單一的字符串不具有XSS攻擊的威脅。當(dāng)其前后字符遵循特定的出現(xiàn)順序時(shí)即具備觸發(fā)惡意攻擊，比如JAVASCRIPT模式的XSS攻擊，此模式以<aaa>形式的字符作開(kāi)頭、</aaa>形式的字符作結(jié)尾，中間以其余字符填充并整體混淆在URL信息中，這種特定模式的字符串用肉眼難以區(qū)分出其危害，本文使用正則匹配發(fā)掘此類(lèi)字符：并通過(guò)特定模式特征統(tǒng)計(jì)其出現(xiàn)頻數(shù)，檢測(cè)流程如圖3所示。圖3特定模式檢測(cè)流程３

算法模型算法模型是把特征工程加工好的特征進(jìn)行巧妙組合，通過(guò)高階決策指標(biāo)對(duì)高緯特征進(jìn)行融合、分類(lèi)并給出最終結(jié)果指示的過(guò)程。安全算法模型有別于傳統(tǒng)的入侵檢測(cè)系統(tǒng)（IntrusionDetectionSystems，IDS）規(guī)則，傳統(tǒng)的IDS規(guī)則通過(guò)專(zhuān)業(yè)知識(shí)區(qū)分惡意網(wǎng)絡(luò)攻擊，并基于手工和經(jīng)驗(yàn)的方式來(lái)維護(hù)檢測(cè)規(guī)則和維持檢測(cè)性能。IDS規(guī)則局限于人為經(jīng)驗(yàn)和繁瑣的工程步驟，而算法模型則通過(guò)構(gòu)建復(fù)雜的決策邏輯，發(fā)掘數(shù)據(jù)中真正有用的關(guān)聯(lián)信息，在減輕人工靜態(tài)工作強(qiáng)度的同時(shí)可有效提高檢測(cè)效率。通常而言，算法模型具有較低的維護(hù)成本和較高的檢測(cè)準(zhǔn)確率，在安全評(píng)估和安全決策方面具有較好的應(yīng)用前景。本文采用機(jī)器學(xué)習(xí)決策樹(shù)分類(lèi)算法進(jìn)行算法建模。決策樹(shù)是一種從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)集進(jìn)行測(cè)試劃分，并將不同數(shù)據(jù)測(cè)試結(jié)果最終劃分成不同葉子節(jié)點(diǎn)的樹(shù)狀結(jié)構(gòu)的方法，本質(zhì)上是通過(guò)一系列復(fù)雜規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。對(duì)于給定的數(shù)據(jù)樣本集合，決策樹(shù)C4.5使用信息增益率來(lái)選擇分裂屬性，屬性A的信息增益表達(dá)式：式中：訓(xùn)練集S通過(guò)屬性A劃分為n個(gè)子數(shù)據(jù)集，表示第i個(gè)子數(shù)據(jù)集中樣本的數(shù)量，|S|表示在屬性劃分之前的數(shù)據(jù)樣本總量，通過(guò)屬性A劃分樣本集之后的信息增益和信息增益率為：類(lèi)型為連續(xù)型的屬性進(jìn)行離散化處理，對(duì)屬性B的具體取值進(jìn)行升序排列后得到序列：式中：為屬性B的具體取值。在序列D中的N-1種二分方法求得二分閾值：閾值將數(shù)據(jù)集劃分為兩個(gè)子集，并通過(guò)計(jì)算其信息增益選取N-1種信息增益最大的分割方式作為屬性B的劃分結(jié)果：式中：E(S)代表數(shù)據(jù)集進(jìn)行屬性劃分之前的信息熵、代表數(shù)據(jù)集按照屬性B進(jìn)行數(shù)據(jù)劃分之后的信息熵。決策樹(shù)的決策運(yùn)營(yíng)邏輯如圖4所示。圖4決策樹(shù)運(yùn)營(yíng)邏輯為了防止過(guò)擬合的問(wèn)題，決策樹(shù)C4.5采用一種自頂向下的剪枝方法，通過(guò)評(píng)價(jià)一個(gè)葉子節(jié)點(diǎn)在剪枝前與剪枝后對(duì)樣本誤判率的高與低，來(lái)決定此葉子節(jié)點(diǎn)是否具備剪枝的必要。對(duì)于一個(gè)覆蓋了m個(gè)樣本、e個(gè)錯(cuò)誤樣本的葉子節(jié)點(diǎn)，該葉子節(jié)點(diǎn)的樣本劃分誤判率是，其中p表示懲罰因子。對(duì)于一棵有n個(gè)葉子節(jié)點(diǎn)的決策樹(shù)，其誤判率為：式中：為樹(shù)結(jié)構(gòu)中第i個(gè)葉子節(jié)點(diǎn)的錯(cuò)誤樣本數(shù)；為樹(shù)結(jié)構(gòu)中第i個(gè)葉子節(jié)點(diǎn)的樣本總數(shù)；為樹(shù)結(jié)構(gòu)中全部葉子節(jié)點(diǎn)的懲罰因子。對(duì)于二分類(lèi)子樹(shù)的誤判次數(shù)就是伯努利分布，即可估算出子樹(shù)對(duì)于誤判次數(shù)的均值和標(biāo)準(zhǔn)差為：去掉原先的葉子節(jié)點(diǎn)，將子樹(shù)替換為新的二分類(lèi)葉子結(jié)點(diǎn)后，其誤判次數(shù)也滿足伯努利分布，新葉子節(jié)點(diǎn)的誤判率和誤判次數(shù)均值為：當(dāng)子樹(shù)的誤判次數(shù)均值和標(biāo)準(zhǔn)差之和大于對(duì)應(yīng)葉子節(jié)點(diǎn)的誤判均值時(shí)，則進(jìn)行剪枝操作，剪枝后在整體樹(shù)結(jié)構(gòu)中原子樹(shù)替換為新的葉子節(jié)點(diǎn)。剪枝條件為：決策樹(shù)是一種白盒模型，對(duì)數(shù)據(jù)量的依賴(lài)程度較小，且模型的決策邏輯具有可觀測(cè)性，相較于其他黑盒模型算法而言，決策樹(shù)算法具有更強(qiáng)的可解釋性。決策樹(shù)的算法流程如圖5所示。圖5決策樹(shù)算法流程４

性能測(cè)試與分析模型訓(xùn)練數(shù)據(jù)集通過(guò)網(wǎng)絡(luò)開(kāi)源共享、公司安全團(tuán)隊(duì)積累、互聯(lián)網(wǎng)流量渠道采集，由共計(jì)420萬(wàn)條數(shù)據(jù)組成，并在安全數(shù)據(jù)分析專(zhuān)家的指導(dǎo)下進(jìn)行修正和核實(shí)整個(gè)數(shù)據(jù)集的標(biāo)注評(píng)判。數(shù)據(jù)集由330萬(wàn)白樣本和90萬(wàn)黑樣本組成。將整體樣本集按照7∶3分別劃分成用于模型訓(xùn)練和用于模型驗(yàn)證的數(shù)據(jù)集，模型采用2分類(lèi)的方式進(jìn)行結(jié)果評(píng)判，并采集線上流量數(shù)據(jù)進(jìn)行模型分析測(cè)試，通過(guò)準(zhǔn)確率和召回率等評(píng)判指標(biāo)來(lái)進(jìn)行模型的修正與回溯。通過(guò)比較不同方法的性能，得到了如表1所示的結(jié)果。表1?不同評(píng)估方法的性能比較如表1所示，基于機(jī)器學(xué)習(xí)建模的XSS攻擊防范檢測(cè)具有較高的準(zhǔn)確率，在提煉IDS規(guī)則特征的同時(shí)，能較好地融合安全專(zhuān)家的業(yè)務(wù)經(jīng)驗(yàn)知識(shí)。本文模型能夠從海量信息中高效準(zhǔn)確發(fā)掘攻擊信息，具有很強(qiáng)的衍生性能，且可維護(hù)性強(qiáng)，能有效地降低人力維護(hù)成本，在高效運(yùn)營(yíng)的同時(shí)能及時(shí)發(fā)掘攻擊者的真實(shí)意圖，并為安全分析人員提供更好的指示，使他們能夠更好地維護(hù)網(wǎng)絡(luò)安全環(huán)境。５結(jié)語(yǔ)本文研究了基于機(jī)器學(xué)習(xí)建模的XSS攻擊防范檢測(cè)模型，在網(wǎng)絡(luò)流量安全智能檢測(cè)領(lǐng)域引入機(jī)器學(xué)習(xí)技術(shù)，實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)流量中跨站腳本攻擊的智能化檢測(cè)。通過(guò)分析現(xiàn)有檢測(cè)方式對(duì)XSS攻擊檢測(cè)的不足，并結(jié)合XSS攻擊靈活多變、

人人文庫(kù)> 全部分類(lèi)> 專(zhuān)業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔