基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第1頁(yè)
基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第2頁(yè)
基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第3頁(yè)
基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第4頁(yè)
基于機(jī)器學(xué)習(xí)建模的 XSS 攻擊防范檢測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1數(shù)據(jù)加工數(shù)據(jù)加工是整個(gè)建模的第一步,這是因?yàn)楝F(xiàn)實(shí)網(wǎng)絡(luò)流量中充斥著大量的無(wú)用干擾信息,且數(shù)據(jù)參差不齊。攻擊者會(huì)發(fā)現(xiàn)系統(tǒng)中存在的漏洞,并通過(guò)各種復(fù)雜的編碼、轉(zhuǎn)義技術(shù)來(lái)混淆和躲避web安全檢查。整體數(shù)據(jù)加工流程如圖1所示。圖1數(shù)據(jù)加工流程通過(guò)數(shù)據(jù)加工模塊對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)解析與加工,將混淆視聽(tīng)的數(shù)據(jù)轉(zhuǎn)換成真正有價(jià)值的數(shù)據(jù)。數(shù)據(jù)滲透模塊中包含base64處理、HTML轉(zhuǎn)義字符處理、URL解碼處理、干擾字符處理、HTML注釋處理、特殊操作符處理等操作。Base64內(nèi)容是數(shù)據(jù)的一種編碼表示,有一定的加密作用,是網(wǎng)絡(luò)上最常見(jiàn)的用于傳輸8Bit字節(jié)代碼的編碼方式之一。Base64編碼可用于在HTTP環(huán)境下傳遞較長(zhǎng)的標(biāo)識(shí)信息,在web攻防中,攻擊者使用Base64來(lái)將URL中一個(gè)較長(zhǎng)的標(biāo)識(shí)符編碼為一個(gè)字符串,用作HTTP表單中的參數(shù),采用Base64編碼具有不可讀性,即所編碼的XSS攻擊數(shù)據(jù)不會(huì)直接被安全人員用肉眼所識(shí)別。字符轉(zhuǎn)義也稱(chēng)字符實(shí)體,在HTML中像“<”和“>”這類(lèi)符號(hào)已經(jīng)用來(lái)表示HTML標(biāo)簽,因此不能直接當(dāng)作文本中的符號(hào)來(lái)使用。為了在HTML文本中使用這些符號(hào),就需要定義它的轉(zhuǎn)義字符串,且有些字符在ASCII字符集中沒(méi)有定義,也需要使用轉(zhuǎn)義字符串來(lái)表示。攻擊者利用了轉(zhuǎn)義字符的原理,當(dāng)需要隱蔽自己的攻擊意圖時(shí)會(huì)在URL中隱藏HTML標(biāo)簽,用“"”等字符進(jìn)行HTML的“<”關(guān)鍵符號(hào)替代,來(lái)迷惑web安全人員。在互聯(lián)網(wǎng)上傳送URL只能采用ASCII字符集,即只能使用英文字母、阿拉伯?dāng)?shù)字和某些標(biāo)點(diǎn)符號(hào),如果包含中文等其余字符時(shí),就需要再使用編碼。攻擊者利用了URL編解碼原理,將惡意代碼通過(guò)URL編碼后進(jìn)行隱蔽混淆,以逃過(guò)web安全檢索。除了編碼轉(zhuǎn)義等混淆手段,攻擊者也會(huì)在URL中加入干擾字符和注釋信息等,起到蒙蔽視聽(tīng)的作用。2特征工程特征工程是把數(shù)據(jù)加工模塊清洗好的規(guī)整數(shù)據(jù)進(jìn)行加工處理,轉(zhuǎn)換為機(jī)器模型可識(shí)別的向量化指標(biāo)數(shù)據(jù)。特征工程作為銜接數(shù)據(jù)加工和算法模型的中間橋梁,是整個(gè)算法建模流程的重中之重,好的特征工程能夠有效提煉出正常樣本和惡意樣本的差異所在,幫助機(jī)器學(xué)習(xí)模型做出正確的抉擇,有效提高模型的檢測(cè)性能。本文將特征分為常規(guī)特征、字符統(tǒng)計(jì)特征、特定模式特征和特殊字符特征四大類(lèi),共19個(gè)特征。特征分類(lèi)如圖2所示。圖2特征工程分類(lèi)其中信息熵常被用來(lái)作為一個(gè)系統(tǒng)的信息含量的量化指標(biāo),用于表示一段信息的混雜程度。常見(jiàn)的XSS攻擊信息中包含的字符種類(lèi)較多且字符混雜程度較高,信息熵偏高,用信息熵特征能較好地識(shí)別出XSS攻擊,信息熵計(jì)算公式:式中:x為隨機(jī)變量;p(x)為輸出概率函數(shù);H(X)為信息熵值。統(tǒng)計(jì)特征用于表示XSS攻擊信息中某類(lèi)特殊關(guān)鍵詞的出現(xiàn)頻數(shù)。XSS攻擊中往往帶有某類(lèi)特定的惡意關(guān)鍵詞用于惡意函數(shù)或惡意代碼的鏈接傳遞作用,而正常的URL信息中很少帶有此類(lèi)關(guān)鍵詞,所以關(guān)鍵詞信息作為一個(gè)特征,能很好地區(qū)分正常URL信息和XSS攻擊信息,但若單一憑借關(guān)鍵詞的出現(xiàn)頻率來(lái)認(rèn)證XSS攻擊,模型會(huì)有較高的誤報(bào)率。為了解決高誤報(bào)問(wèn)題,通過(guò)反復(fù)地對(duì)大量正反樣例進(jìn)行觀察與取證,使特征在涵蓋關(guān)鍵詞信息的同時(shí),會(huì)為關(guān)鍵詞設(shè)計(jì)其前后特定模式的字符順序,當(dāng)僅出現(xiàn)某單一關(guān)鍵詞時(shí)并不會(huì)觸發(fā)此類(lèi)特征,關(guān)鍵詞正則匹配公式:在URL信息中會(huì)包含一些攻擊者精心構(gòu)造和編排的特定字符,其中局部單一的字符串不具有XSS攻擊的威脅。當(dāng)其前后字符遵循特定的出現(xiàn)順序時(shí)即具備觸發(fā)惡意攻擊,比如JAVASCRIPT模式的XSS攻擊,此模式以<aaa>形式的字符作開(kāi)頭、</aaa>形式的字符作結(jié)尾,中間以其余字符填充并整體混淆在URL信息中,這種特定模式的字符串用肉眼難以區(qū)分出其危害,本文使用正則匹配發(fā)掘此類(lèi)字符:并通過(guò)特定模式特征統(tǒng)計(jì)其出現(xiàn)頻數(shù),檢測(cè)流程如圖3所示。圖3特定模式檢測(cè)流程3

算法模型算法模型是把特征工程加工好的特征進(jìn)行巧妙組合,通過(guò)高階決策指標(biāo)對(duì)高緯特征進(jìn)行融合、分類(lèi)并給出最終結(jié)果指示的過(guò)程。安全算法模型有別于傳統(tǒng)的入侵檢測(cè)系統(tǒng)(IntrusionDetectionSystems,IDS)規(guī)則,傳統(tǒng)的IDS規(guī)則通過(guò)專(zhuān)業(yè)知識(shí)區(qū)分惡意網(wǎng)絡(luò)攻擊,并基于手工和經(jīng)驗(yàn)的方式來(lái)維護(hù)檢測(cè)規(guī)則和維持檢測(cè)性能。IDS規(guī)則局限于人為經(jīng)驗(yàn)和繁瑣的工程步驟,而算法模型則通過(guò)構(gòu)建復(fù)雜的決策邏輯,發(fā)掘數(shù)據(jù)中真正有用的關(guān)聯(lián)信息,在減輕人工靜態(tài)工作強(qiáng)度的同時(shí)可有效提高檢測(cè)效率。通常而言,算法模型具有較低的維護(hù)成本和較高的檢測(cè)準(zhǔn)確率,在安全評(píng)估和安全決策方面具有較好的應(yīng)用前景。本文采用機(jī)器學(xué)習(xí)決策樹(shù)分類(lèi)算法進(jìn)行算法建模。決策樹(shù)是一種從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)集進(jìn)行測(cè)試劃分,并將不同數(shù)據(jù)測(cè)試結(jié)果最終劃分成不同葉子節(jié)點(diǎn)的樹(shù)狀結(jié)構(gòu)的方法,本質(zhì)上是通過(guò)一系列復(fù)雜規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。對(duì)于給定的數(shù)據(jù)樣本集合,決策樹(shù)C4.5使用信息增益率來(lái)選擇分裂屬性,屬性A的信息增益表達(dá)式:式中:訓(xùn)練集S通過(guò)屬性A劃分為n個(gè)子數(shù)據(jù)集,表示第i個(gè)子數(shù)據(jù)集中樣本的數(shù)量,|S|表示在屬性劃分之前的數(shù)據(jù)樣本總量,通過(guò)屬性A劃分樣本集之后的信息增益和信息增益率為:類(lèi)型為連續(xù)型的屬性進(jìn)行離散化處理,對(duì)屬性B的具體取值進(jìn)行升序排列后得到序列:式中:為屬性B的具體取值。在序列D中的N-1種二分方法求得二分閾值:閾值將數(shù)據(jù)集劃分為兩個(gè)子集,并通過(guò)計(jì)算其信息增益選取N-1種信息增益最大的分割方式作為屬性B的劃分結(jié)果:式中:E(S)代表數(shù)據(jù)集進(jìn)行屬性劃分之前的信息熵、代表數(shù)據(jù)集按照屬性B進(jìn)行數(shù)據(jù)劃分之后的信息熵。決策樹(shù)的決策運(yùn)營(yíng)邏輯如圖4所示。圖4決策樹(shù)運(yùn)營(yíng)邏輯為了防止過(guò)擬合的問(wèn)題,決策樹(shù)C4.5采用一種自頂向下的剪枝方法,通過(guò)評(píng)價(jià)一個(gè)葉子節(jié)點(diǎn)在剪枝前與剪枝后對(duì)樣本誤判率的高與低,來(lái)決定此葉子節(jié)點(diǎn)是否具備剪枝的必要。對(duì)于一個(gè)覆蓋了m個(gè)樣本、e個(gè)錯(cuò)誤樣本的葉子節(jié)點(diǎn),該葉子節(jié)點(diǎn)的樣本劃分誤判率是,其中p表示懲罰因子。對(duì)于一棵有n個(gè)葉子節(jié)點(diǎn)的決策樹(shù),其誤判率為:式中:為樹(shù)結(jié)構(gòu)中第i個(gè)葉子節(jié)點(diǎn)的錯(cuò)誤樣本數(shù);為樹(shù)結(jié)構(gòu)中第i個(gè)葉子節(jié)點(diǎn)的樣本總數(shù);為樹(shù)結(jié)構(gòu)中全部葉子節(jié)點(diǎn)的懲罰因子。對(duì)于二分類(lèi)子樹(shù)的誤判次數(shù)就是伯努利分布,即可估算出子樹(shù)對(duì)于誤判次數(shù)的均值和標(biāo)準(zhǔn)差為:去掉原先的葉子節(jié)點(diǎn),將子樹(shù)替換為新的二分類(lèi)葉子結(jié)點(diǎn)后,其誤判次數(shù)也滿足伯努利分布,新葉子節(jié)點(diǎn)的誤判率和誤判次數(shù)均值為:當(dāng)子樹(shù)的誤判次數(shù)均值和標(biāo)準(zhǔn)差之和大于對(duì)應(yīng)葉子節(jié)點(diǎn)的誤判均值時(shí),則進(jìn)行剪枝操作,剪枝后在整體樹(shù)結(jié)構(gòu)中原子樹(shù)替換為新的葉子節(jié)點(diǎn)。剪枝條件為:決策樹(shù)是一種白盒模型,對(duì)數(shù)據(jù)量的依賴(lài)程度較小,且模型的決策邏輯具有可觀測(cè)性,相較于其他黑盒模型算法而言,決策樹(shù)算法具有更強(qiáng)的可解釋性。決策樹(shù)的算法流程如圖5所示。圖5決策樹(shù)算法流程4

性能測(cè)試與分析模型訓(xùn)練數(shù)據(jù)集通過(guò)網(wǎng)絡(luò)開(kāi)源共享、公司安全團(tuán)隊(duì)積累、互聯(lián)網(wǎng)流量渠道采集,由共計(jì)420萬(wàn)條數(shù)據(jù)組成,并在安全數(shù)據(jù)分析專(zhuān)家的指導(dǎo)下進(jìn)行修正和核實(shí)整個(gè)數(shù)據(jù)集的標(biāo)注評(píng)判。數(shù)據(jù)集由330萬(wàn)白樣本和90萬(wàn)黑樣本組成。將整體樣本集按照7∶3分別劃分成用于模型訓(xùn)練和用于模型驗(yàn)證的數(shù)據(jù)集,模型采用2分類(lèi)的方式進(jìn)行結(jié)果評(píng)判,并采集線上流量數(shù)據(jù)進(jìn)行模型分析測(cè)試,通過(guò)準(zhǔn)確率和召回率等評(píng)判指標(biāo)來(lái)進(jìn)行模型的修正與回溯。通過(guò)比較不同方法的性能,得到了如表1所示的結(jié)果。表1?不同評(píng)估方法的性能比較如表1所示,基于機(jī)器學(xué)習(xí)建模的XSS攻擊防范檢測(cè)具有較高的準(zhǔn)確率,在提煉IDS規(guī)則特征的同時(shí),能較好地融合安全專(zhuān)家的業(yè)務(wù)經(jīng)驗(yàn)知識(shí)。本文模型能夠從海量信息中高效準(zhǔn)確發(fā)掘攻擊信息,具有很強(qiáng)的衍生性能,且可維護(hù)性強(qiáng),能有效地降低人力維護(hù)成本,在高效運(yùn)營(yíng)的同時(shí)能及時(shí)發(fā)掘攻擊者的真實(shí)意圖,并為安全分析人員提供更好的指示,使他們能夠更好地維護(hù)網(wǎng)絡(luò)安全環(huán)境。5結(jié)語(yǔ)本文研究了基于機(jī)器學(xué)習(xí)建模的XSS攻擊防范檢測(cè)模型,在網(wǎng)絡(luò)流量安全智能檢測(cè)領(lǐng)域引入機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)流量中跨站腳本攻擊的智能化檢測(cè)。通過(guò)分析現(xiàn)有檢測(cè)方式對(duì)XSS攻擊檢測(cè)的不足,并結(jié)合XSS攻擊靈活多變、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論