2015-計(jì)算機(jī)學(xué)報(bào)-惡意網(wǎng)頁識(shí)別研究綜述_第1頁
2015-計(jì)算機(jī)學(xué)報(bào)-惡意網(wǎng)頁識(shí)別研究綜述_第2頁
2015-計(jì)算機(jī)學(xué)報(bào)-惡意網(wǎng)頁識(shí)別研究綜述_第3頁
2015-計(jì)算機(jī)學(xué)報(bào)-惡意網(wǎng)頁識(shí)別研究綜述_第4頁
2015-計(jì)算機(jī)學(xué)報(bào)-惡意網(wǎng)頁識(shí)別研究綜述_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 47),置信度加權(quán)算法(Confidence-Weighted algorithm, CW REF _Ref414275988 r h 48)和權(quán)重自適應(yīng)正則化算法(Adaptive Regularization of Weights algorithm, AROW REF _Ref414276003 r h 49)。PA算法及其變種的思想是通過引入?yún)?shù)Tt和松弛變量C的概念來減少對(duì)分類模型中參數(shù)權(quán)值的調(diào)整。它的優(yōu)點(diǎn)是能減少錯(cuò)誤分類的數(shù)目,并且適用于不可分的噪聲情況。而置信度加權(quán)算法CW認(rèn)為每個(gè)學(xué)習(xí)參數(shù)都有信任度,可以用參數(shù)向量的高斯分布表示。相比于信任度大的參數(shù),信任度小的參數(shù)更需要學(xué)習(xí),

2、所以會(huì)得到更頻繁的修正機(jī)會(huì)。Justin. Ma等人 REF _Ref414172650 r h 6收集了網(wǎng)頁的WHOIS信息,DNS信息,IP地理位置信息以及blacklist信息作為特征,分別用PA算法和CW算法對(duì)可疑網(wǎng)頁進(jìn)行識(shí)別。結(jié)果顯示,CW算法的實(shí)驗(yàn)效果更好,它可以將累計(jì)錯(cuò)誤率(CER)控制在1%2%。此后,Crammer等人 REF _Ref414276003 r h 49對(duì)CW算法進(jìn)行改進(jìn),提出了AROW分類器。這種分類器的優(yōu)點(diǎn)是抗噪性強(qiáng)。Anh Le等人 REF _Ref414174280 r h 16在AROW算法的基礎(chǔ)上,提出了用于識(shí)別釣魚網(wǎng)頁的系統(tǒng)PhishDef。實(shí)驗(yàn)證

3、明,AROW算法在噪音10%30%的情況下,累計(jì)錯(cuò)誤率依然可以保持在10%以內(nèi)。表4 典型識(shí)別方法分類典型工作識(shí)別方法部署位置主要評(píng)價(jià)指標(biāo)黑名單啟發(fā)式規(guī)則機(jī)器學(xué)習(xí)主機(jī)行為服務(wù)器端網(wǎng)關(guān)客戶端漏報(bào)率誤報(bào)率分類速率SmartScreen NOTEREF _Ref414477350 h * MERGEFORMAT 2高低快備注:SmartScreen是基于IE瀏覽器的篩選器。它根據(jù)Microsoft提供的持續(xù)更新的URL列表及當(dāng)前網(wǎng)頁分析到的特征,判斷其是否為網(wǎng)絡(luò)釣魚或惡意軟件,從而對(duì)用戶給出提示。Google Safe Browsing NOTEREF _Ref414477394 h * MERGE

4、FORMAT 3高低快備注:根據(jù)Google提供的持續(xù)更新的URL列表,允許用戶檢查特定URL是否存在于這個(gè)列表上,以判斷其是否為網(wǎng)絡(luò)釣魚或惡意軟件。PhishTank NOTEREF _Ref414477406 h * MERGEFORMAT 9高低快備注:PhishTank提供了一個(gè)自愿提交和共享釣魚網(wǎng)址的開放平臺(tái),方便人們查詢和識(shí)別釣魚網(wǎng)頁P(yáng)hishNet REF _Ref414187261 r h * MERGEFORMAT 39中低快備注:拓寬了黑名單的識(shí)別范圍,減少了漏報(bào)率。將已經(jīng)發(fā)現(xiàn)的釣魚URL作為先驗(yàn)知識(shí),通過URL分解和相似性計(jì)算來識(shí)別和發(fā)現(xiàn)新的釣魚網(wǎng)頁。缺點(diǎn)是可能引起較大的

5、帶寬消耗。SpoofGuard REF _Ref414187281 r h * MERGEFORMAT 40低高一般備注:對(duì)HTML網(wǎng)頁及其URL(包括:用戶輸入信息,鏈接關(guān)系,可疑的網(wǎng)址信息及圖片信息等)進(jìn)行檢測(cè)。可以識(shí)別一些尚未收錄的惡意網(wǎng)頁。但依賴領(lǐng)域知識(shí),規(guī)則更新困難,且容易產(chǎn)生誤判。Cantina REF _Ref414187327 r h * MERGEFORMAT 42低高一般備注:依據(jù)網(wǎng)頁的詞頻-逆向文檔頻率(TF-IDF),搜索返回結(jié)果及其他統(tǒng)計(jì)信息識(shí)別釣魚網(wǎng)頁。由于部分特征依賴于搜索引擎的返回結(jié)果,因此會(huì)產(chǎn)生較大網(wǎng)絡(luò)延遲,影響其分類速率。Automatic detectio

6、n of phishing target REF _Ref414187344 r h * MERGEFORMAT 43低低慢備注:采用鏈接關(guān)系,關(guān)鍵詞排序關(guān)系,文本相似性關(guān)系,層次相似性關(guān)系等作為統(tǒng)計(jì)特征,依據(jù)聚類算法DBSCAN對(duì)釣魚網(wǎng)頁的攻擊目標(biāo)進(jìn)行識(shí)別。這些特征的抽取需要依賴網(wǎng)頁內(nèi)容和搜索結(jié)果,因此影響其分類速率。BeyondBlacklist REF _Ref414172643 r h * MERGEFORMAT 5低低快備注:Justin Ma等人 REF _Ref414172643 r h * MERGEFORMAT 5在特征上主要抽取了WHOIS信息、DNS信息及詞匯特征。在分類

7、方法上,分析了貝葉斯、支持向量機(jī)及邏輯回歸三類分類器在惡意網(wǎng)頁識(shí)別問題的分類速率。WarningBird REF _Ref414174813 r h * MERGEFORMAT 36低低快備注:Sangho Lee等人 REF _Ref414174813 r h * MERGEFORMAT 36從URL的重定向鏈接關(guān)系出發(fā),提出了基于LR分類器的近實(shí)時(shí)惡意URL識(shí)別系統(tǒng)。它的優(yōu)點(diǎn)是分類速率快,吞吐能力強(qiáng)。Identifying suspicious URLs REF _Ref414172650 r h * MERGEFORMAT 6低低快備注:Justin Ma等人采用詞匯特征和主機(jī)特征,對(duì)比

8、了多種在線分類器(例如,PA、CW等)對(duì)惡意URL的識(shí)別效果。實(shí)驗(yàn)證明,在累積錯(cuò)誤率方面,CW算法的效果優(yōu)于Perceptron算法和PA算法以及離線分類算法。PhishDef REF _Ref414174280 r h * MERGEFORMAT 16低低快備注: Anh Le等人基于抗混淆的詞匯特征和AROW算法,提出了一種高準(zhǔn)確率、輕量級(jí)的釣魚網(wǎng)頁識(shí)別系統(tǒng)。實(shí)驗(yàn)證明,在抗噪方面,AROW算法明顯優(yōu)于CW算法。HosTaGe REF _Ref414276170 r h * MERGEFORMAT 50低低慢備注:HosTaGe是一種工作于移動(dòng)端設(shè)備的低交互式的便攜式蜜罐系統(tǒng),主要用于檢測(cè)無

9、線網(wǎng)絡(luò)中的惡意軟件。High interaction honeypot REF _Ref414276185 r h * MERGEFORMAT 51低低慢備注:Nicomette V等人采用高交互式的蜜罐系統(tǒng),主要研究經(jīng)SSH服務(wù)登陸宿主的入侵行為,重點(diǎn)分析攻擊者成功獲得系統(tǒng)權(quán)限后的行為,填補(bǔ)了該方面研究的空白。表5 惡意網(wǎng)頁攻擊形式分類攻擊形式釣魚網(wǎng)頁惡意軟件下載識(shí)別特征主機(jī)信息URL信息網(wǎng)頁內(nèi)容跳轉(zhuǎn)關(guān)系注冊(cè)表變化N/A文件變化N/A識(shí)別技術(shù)黑名單SmartScreen NOTEREF _Ref414477350 h * MERGEFORMAT 2,Google Safe Browsing

10、NOTEREF _Ref414477394 h * MERGEFORMAT 3, PhishTank NOTEREF _Ref414477406 h * MERGEFORMAT 9SmartScreen NOTEREF _Ref414477350 h * MERGEFORMAT 2,Google Safe Browsing NOTEREF _Ref414477394 h * MERGEFORMAT 3啟發(fā)式規(guī)則PhishNet REF _Ref414187261 r h * MERGEFORMAT 39, SpoofGuard REF _Ref414187281 r h * MERGEFORM

11、AT 40, Cantina REF _Ref414187327 r h * MERGEFORMAT 42N/A機(jī)器學(xué)習(xí)Automatic detection of phishing target REF _Ref414187344 r h * MERGEFORMAT 43, BeyondBlacklist REF _Ref414172643 r h * MERGEFORMAT 5,WarningBird REF _Ref414174813 r h * MERGEFORMAT 36,Identifying suspicious URLs REF _Ref414172650 r h * MERG

12、EFORMAT 6,PhishDef REF _Ref414174280 r h * MERGEFORMAT 16BeyondBlacklist REF _Ref414172643 r h * MERGEFORMAT 5, WarningBird REF _Ref414174813 r h * MERGEFORMAT 36,Identifying suspicious URLs REF _Ref414172650 r h * MERGEFORMAT 6主機(jī)行為N/AHosTaGe REF _Ref414276170 r h * MERGEFORMAT 50,High interaction h

13、oneypot REF _Ref414276185 r h * MERGEFORMAT 514.4 基于交互式主機(jī)行為的識(shí)別方法當(dāng)訪問惡意網(wǎng)頁時(shí),可能會(huì)出現(xiàn)安裝惡意軟件或者執(zhí)行惡意腳本的情況。這時(shí),可以結(jié)合虛擬化技術(shù)和蜜罐技術(shù)對(duì)惡意網(wǎng)頁進(jìn)行識(shí)別。此類方法的工作原理是:使用蜜罐技術(shù),將虛擬主機(jī)作為誘餌,訪問待檢測(cè)網(wǎng)頁,通過監(jiān)測(cè)訪問后的主機(jī)動(dòng)態(tài)行為(例如:創(chuàng)建新進(jìn)程,改變注冊(cè)表,下載文件等),判斷該網(wǎng)頁是否是惡意網(wǎng)頁。根據(jù)使用系統(tǒng)的不同,蜜罐技術(shù)可以細(xì)分為基于模擬的低交互式蜜罐 REF _Ref414276170 r h 50和基于真實(shí)系統(tǒng)的高交互式蜜罐 REF _Ref414276185 r h

14、 51。諸葛建偉等人 REF _Ref414174648 r h 13對(duì)此有詳細(xì)介紹,在此不作詳述。4.5 識(shí)別方法小結(jié)4.1-4.4節(jié)主要介紹了四類惡意網(wǎng)頁識(shí)別技術(shù),并結(jié)合已有的研究成果對(duì)其進(jìn)行分析。依據(jù)上述分析結(jié)果,表4從識(shí)別方法,部署位置及評(píng)價(jià)指標(biāo)等方面對(duì)這幾類識(shí)別方法進(jìn)行歸納總結(jié)、定性分析及橫向比較。而表5則從識(shí)別特征及識(shí)別方法兩種維度對(duì)典型的惡意網(wǎng)頁攻擊形式進(jìn)行了分析和總結(jié)。 惡意網(wǎng)頁識(shí)別面臨的挑戰(zhàn)隨著互聯(lián)網(wǎng)的迅速發(fā)展、用戶規(guī)模的不斷擴(kuò)大,傳統(tǒng)惡意網(wǎng)頁識(shí)別技術(shù)面臨著一些新的挑戰(zhàn)。從來源上區(qū)分,這些挑戰(zhàn)分別來自于客觀環(huán)境的變化和惡意網(wǎng)頁逃逸技術(shù)的升級(jí)。5.1節(jié)和5.2節(jié)分別介紹了這兩類

15、挑戰(zhàn),并就其中的技術(shù)細(xì)節(jié)進(jìn)行分析和討論。客觀環(huán)境變化引起的挑戰(zhàn)網(wǎng)頁規(guī)模大互聯(lián)網(wǎng)的迅速發(fā)展,使得網(wǎng)頁規(guī)模由GB,TB級(jí)向PB,ZB級(jí)快速變化。巨大的網(wǎng)頁規(guī)模對(duì)傳統(tǒng)惡意網(wǎng)頁識(shí)別技術(shù)提出了一些新的挑戰(zhàn)。首先,大量新網(wǎng)頁的引入帶來海量新特征。當(dāng)使用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)網(wǎng)頁進(jìn)行特征表示時(shí),這些新特征的引入可能產(chǎn)生高維特征空間,并最終導(dǎo)致“維數(shù)災(zāi)難”。因此,需要設(shè)計(jì)快速有效的特征選擇方法對(duì)特征進(jìn)行預(yù)先篩選或引入降維方法(如主成分分析法 REF _Ref414312512 r h 52)對(duì)高維特征空間進(jìn)行處理。其次,大規(guī)模網(wǎng)頁限制了資源消耗大的識(shí)別方法的應(yīng)用范圍。一些已有的惡意網(wǎng)頁識(shí)別方法(例如:基于主機(jī)行為

16、的方法 REF _Ref414174648 r h 13)需要消耗較多資源分析主機(jī)行為或檢測(cè)頁面內(nèi)容以判斷是否為惡意網(wǎng)頁。這些方法的準(zhǔn)確率和召回率高,但檢測(cè)時(shí)間和資源消耗較多。隨著網(wǎng)頁規(guī)模的擴(kuò)大,這些方法的局限性日益明顯。當(dāng)使用這些方法時(shí),往往需要結(jié)合快速過濾器 REF _Ref414174749 r h 34預(yù)先排除其中大多數(shù)良性網(wǎng)頁。最后,大規(guī)模網(wǎng)頁對(duì)部署在網(wǎng)關(guān)和客戶端位置的檢測(cè)工具的性能提出了更高要求。隨著互聯(lián)網(wǎng)帶寬的普遍增長(zhǎng)及網(wǎng)頁規(guī)模的不斷擴(kuò)大,網(wǎng)關(guān)和客戶端流量逐步呈現(xiàn)出復(fù)雜化、多樣化的趨勢(shì)。如何在復(fù)雜網(wǎng)絡(luò)流量中準(zhǔn)確識(shí)別惡意網(wǎng)頁并及時(shí)響應(yīng)處理,需要研究人員結(jié)合其他技術(shù)(例如,高性能網(wǎng)包

17、處理技術(shù)等)進(jìn)行深入研究 REF _Ref414276560 r h 54。數(shù)據(jù)集不均衡在海量的網(wǎng)頁中,惡意網(wǎng)頁識(shí)別如同大海撈針,只有極少數(shù)網(wǎng)頁最終被確認(rèn)為惡意網(wǎng)頁。Google的統(tǒng)計(jì)報(bào)告 NOTEREF _Ref414477394 h * MERGEFORMAT 3顯示,Google安全瀏覽器每天檢查數(shù)以億計(jì)的網(wǎng)頁,僅發(fā)現(xiàn)幾千個(gè)不安全的站點(diǎn)。由此可見,數(shù)據(jù)集的不均衡性對(duì)傳統(tǒng)惡意網(wǎng)頁識(shí)別方法的準(zhǔn)確率和效率提出了嚴(yán)峻挑戰(zhàn)。在特征選取層面,在不均衡數(shù)據(jù)集產(chǎn)生的大量特征中,不同特征的識(shí)別效果并不相同。為了提升識(shí)別效率,研究人員設(shè)計(jì)新的識(shí)別方法,依據(jù)少量特征快速過濾多數(shù)良性網(wǎng)頁 REF _Ref414

18、276719 r h 55。在識(shí)別方法層面,不均勻的數(shù)據(jù)集啟發(fā)研究人員突破傳統(tǒng)方法的思路,尋找新的識(shí)別方法。例如,Invernizzi等人 REF _Ref414174749 r h 34充分利用搜索引擎查詢結(jié)果,從惡意網(wǎng)頁出發(fā)尋找相似或相近的網(wǎng)頁,提升惡意網(wǎng)頁所占比例,并最終提升識(shí)別效率。網(wǎng)頁傳播途徑多元化從傳播途徑上分析,傳統(tǒng)的惡意網(wǎng)頁主要依靠電子郵件,即時(shí)通訊工具(IM)以及搜索引擎進(jìn)行傳播。近年來,隨著社交網(wǎng)站的興起和移動(dòng)互聯(lián)網(wǎng)的繁榮,通過社交網(wǎng)站和掃描“二維碼”傳播網(wǎng)頁的行為逐漸增多。網(wǎng)頁的傳播途徑因而呈現(xiàn)出多元化的發(fā)展趨勢(shì)。這一方面拓展了惡意網(wǎng)頁識(shí)別技術(shù)的應(yīng)用領(lǐng)域和應(yīng)用場(chǎng)景 REF

19、 _Ref414276745 r h 56。另一方面,客觀上對(duì)惡意網(wǎng)頁識(shí)別技術(shù)提出了新的挑戰(zhàn)。為此,Sangho Lee等人 REF _Ref414174804 r h 35 REF _Ref414174813 r h 36從重定向關(guān)系出發(fā)提出了一個(gè)近實(shí)時(shí)檢測(cè)系統(tǒng),用于檢測(cè)在社交網(wǎng)站上傳播的可疑URL。在特征選取層面,這些新的應(yīng)用場(chǎng)景的出現(xiàn),催生了更多的網(wǎng)絡(luò)特征,豐富了特征的選擇范圍。在識(shí)別方法層面,多元化的網(wǎng)絡(luò)傳播途徑對(duì)識(shí)別檢測(cè)系統(tǒng)的實(shí)時(shí)性提出了更高的要求。 惡意網(wǎng)頁逃逸技術(shù)的升級(jí)圍繞惡意網(wǎng)頁的攻防博弈一直在持續(xù)。本文第四章主要介紹了惡意網(wǎng)頁識(shí)別技術(shù)。為了繞過這些技術(shù)的檢測(cè),攻擊者常采用環(huán)境

20、探測(cè)動(dòng)態(tài)加載,混淆免殺,人機(jī)識(shí)別,網(wǎng)頁加密等技術(shù)手段來躲避檢測(cè)與追蹤。環(huán)境探測(cè)+動(dòng)態(tài)加載技術(shù)隨著互聯(lián)網(wǎng)的發(fā)展,客戶端瀏覽環(huán)境(例如,瀏覽器版本,插件版本等)呈現(xiàn)出多樣性,不同瀏覽環(huán)境包含的漏洞也不同。為了在提高惡意網(wǎng)頁的攻擊效率和成功率的同時(shí)保持攻擊的隱蔽性,攻擊者采用了“探測(cè)頁面攻擊腳本”的“環(huán)境探測(cè)動(dòng)態(tài)加載”模式:即首先使用探測(cè)頁面,對(duì)客戶端瀏覽器版本、插件版本進(jìn)行探測(cè),然后決定是否使用動(dòng)態(tài)加載技術(shù)(例如,DOM API等)加載攻擊腳本。其中,根據(jù)攻擊者資源規(guī)模的不同,可以將這種攻擊細(xì)分為單攻擊腳本 REF _Ref414276790 r h 57和多攻擊腳本 REF _Ref414276

21、799 r h 58,這里不再贅述。 URL混淆技術(shù)攻擊者常對(duì)惡意網(wǎng)頁的URL,頁面內(nèi)容(攻擊腳本)進(jìn)行各種混淆、加密,以改變、消除其原有特征,以躲避特征掃描工具的識(shí)別。常用的混淆方式包括以下4類:在字符串中填充大量垃圾字符。改變編碼方式。例如,采用十六進(jìn)制編碼、Unicode編碼、escape函數(shù)編碼。使用IP地址代替域名。使用隨機(jī)的URL參數(shù)。此外,惡意網(wǎng)頁常常綜合使用上述混淆方式以增強(qiáng)隱蔽性,提高躲避檢測(cè)的成功率。人機(jī)識(shí)別技術(shù)如3.1節(jié)介紹,在網(wǎng)頁收集階段,防御方常常采用爬蟲技術(shù)對(duì)網(wǎng)頁進(jìn)行主動(dòng)采集。為了躲避防御方的主動(dòng)采集,攻擊者常常采用一些人機(jī)識(shí)別(Web Robot Detectio

22、n)技術(shù) REF _Ref414173475 r h 12對(duì)訪問者身份進(jìn)行在線判定。當(dāng)認(rèn)定客戶端是人工瀏覽行為后,攻擊者再執(zhí)行進(jìn)一步的攻擊動(dòng)作,否則推送事先準(zhǔn)備好的良性網(wǎng)頁。其中,在線判定的方法可以分為基于圖靈測(cè)試和基于離線分析結(jié)果兩類。其中基于圖靈測(cè)試 REF _Ref414276922 r h * MERGEFORMAT 59的方法通過在線用戶答題的方式(例如,要求用戶輸入驗(yàn)證碼)判斷用戶是否是爬蟲;而基于離線分析結(jié)果按照原理可分為語法日志分析,流量模式分析,分析模型訓(xùn)練三類。常見的識(shí)別依據(jù)包括:檢查user-agent字段 REF _Ref414173489 r h * MERGEFOR

23、MAT 60,檢測(cè)有無讀取robots.txt文件的行為 REF _Ref414173569 r h * MERGEFORMAT 61等。人機(jī)識(shí)別技術(shù)的使用,大大增強(qiáng)了惡意網(wǎng)頁的隱蔽性,并對(duì)依賴主動(dòng)采集方式的惡意網(wǎng)頁識(shí)別方法提出了嚴(yán)峻的挑戰(zhàn)。對(duì)抗此類逃逸技術(shù)的防御技術(shù)一般圍繞拓寬采集方式展開。但由于采用其他采集方式受環(huán)境和資源的限制較多,因此有待深入研究。網(wǎng)頁加密技術(shù)一些攻擊者們開始模仿正常的在線服務(wù)網(wǎng)站對(duì)其網(wǎng)頁采用SSL協(xié)議和HTTPS加密服務(wù)。一方面,采用加密服務(wù)的網(wǎng)頁更容易取得用戶信任,提高攻陷可能性;另一方面,加密惡意網(wǎng)頁隱藏網(wǎng)址信息和頁面內(nèi)容,可以幫助逃避部署在網(wǎng)關(guān)的傳統(tǒng)識(shí)別系統(tǒng)的檢

24、測(cè)。趨勢(shì)科技的統(tǒng)計(jì)數(shù)據(jù)顯示,2010年至2014年間使用HTTPS服務(wù)的釣魚網(wǎng)站HTTPS Phishing URLs. /Linux/2014-10/107558.htm, 2014,10,20.逐年增長(zhǎng),從不到1000個(gè)站點(diǎn)增加到超過4000個(gè)站點(diǎn)。這些加密服務(wù)的使用,限制了傳統(tǒng)依賴網(wǎng)址信息和頁面內(nèi)容的檢測(cè)技術(shù)的應(yīng)用范圍。研究人員往往需要結(jié)合證書信息分析和檢測(cè)這類惡意網(wǎng)頁。對(duì)抗這一逃逸技術(shù)的防御技術(shù)還比較少,有待深入研究。生命周期持續(xù)縮短部分惡意網(wǎng)頁的生命周期持續(xù)縮短。以釣魚網(wǎng)站為例,奇虎360公司的統(tǒng)計(jì)數(shù)據(jù)Browser Security and Development Report o

25、f China. /report/#5, 2014,10,20.顯示,其生存周期已經(jīng)從2011年的平均50小時(shí)左右,下降到2012年下半年的不足6小時(shí)。惡意網(wǎng)頁生命周期的縮短,對(duì)惡意網(wǎng)頁識(shí)別的時(shí)效性提出新的挑戰(zhàn),并推動(dòng)了在線識(shí)別技術(shù)的發(fā)展。6 研究展望上述挑戰(zhàn)在為惡意網(wǎng)頁識(shí)別工作帶來新難題的同時(shí),客觀上也為惡意網(wǎng)頁識(shí)別技術(shù)的新發(fā)展創(chuàng)造了新的條件和機(jī)遇。展望未來,仍有如下研究問題值得關(guān)注和進(jìn)一步探討。針對(duì)不同應(yīng)用場(chǎng)景的惡意網(wǎng)頁識(shí)別方法。隨著互聯(lián)網(wǎng)的進(jìn)一步發(fā)展,特別是社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng) REF _Ref414277136 r h 62的興起和繁榮,惡意網(wǎng)頁識(shí)別的應(yīng)用場(chǎng)景也隨之不斷變化。應(yīng)用場(chǎng)景的

26、變化,一方面改變了惡意網(wǎng)頁的傳播途徑,另一方面對(duì)惡意網(wǎng)頁識(shí)別的準(zhǔn)確率和實(shí)時(shí)性 REF _Ref414174813 r h 36提出了新的更高要求。為了滿足這些要求,需要研究人員不斷發(fā)掘識(shí)別惡意網(wǎng)頁的特征種類,并引入新的更加適合的識(shí)別方法進(jìn)行分析。因此,這是未來惡意網(wǎng)頁識(shí)別的可能發(fā)展方向之一。特征的比較和評(píng)測(cè)。目前用于識(shí)別惡意網(wǎng)頁的特征種類繁多,規(guī)模龐大。一種或一類特征可能在某一類惡意網(wǎng)頁的識(shí)別問題上效果顯著,但不適合識(shí)別其他惡意網(wǎng)頁。為了更好地對(duì)不同特征進(jìn)行比較與評(píng)測(cè),一方面,需要構(gòu)造比較合理的標(biāo)注數(shù)據(jù)集;另一方面,需要在合理的特征比較和評(píng)測(cè)方法上進(jìn)行研究。因此,這是未來惡意網(wǎng)頁識(shí)別的可能發(fā)展

27、方向之一。針對(duì)隱身逃逸技術(shù)的識(shí)別和檢測(cè)。5.2節(jié)介紹了幾種攻擊者常用的隱身逃逸技術(shù)。通過使用這些技術(shù),攻擊者可以不斷調(diào)整其惡意網(wǎng)頁的外顯特征,從而規(guī)避傳統(tǒng)方法的檢測(cè)。針對(duì)特定隱身逃逸技術(shù) REF _Ref414277123 r h 63的識(shí)別和分類既是未來惡意網(wǎng)頁識(shí)別的重點(diǎn),也是難點(diǎn)。因此,這是未來惡意網(wǎng)頁識(shí)別的可能發(fā)展方向之一。不同識(shí)別方法的融合。不同的識(shí)別方法從不同的側(cè)面對(duì)惡意網(wǎng)頁進(jìn)行分析和檢測(cè),選取的特征、適用的場(chǎng)景各有側(cè)重。因此,不同識(shí)別方法之間具有很強(qiáng)的互補(bǔ)性,融合各個(gè)識(shí)別方法可能是從大規(guī)模網(wǎng)頁中識(shí)別少量惡意網(wǎng)頁的解決途徑之一。7 結(jié)束語惡意網(wǎng)頁識(shí)別是信息安全領(lǐng)域的熱點(diǎn)問題。隨著網(wǎng)絡(luò)

28、攻擊技術(shù)和防御技術(shù)的不斷發(fā)展,該問題一直受到研究人員的廣泛關(guān)注。針對(duì)這一問題,本文首先梳理了惡意網(wǎng)頁的基本概念,然后介紹了惡意網(wǎng)頁識(shí)別的研究框架、應(yīng)用場(chǎng)景和評(píng)價(jià)指標(biāo),進(jìn)而對(duì)不同類別的識(shí)別方法進(jìn)行深入分析和比較,分別指出它們的優(yōu)勢(shì)、不足以及適用場(chǎng)景。本文還重點(diǎn)討論了惡意網(wǎng)頁識(shí)別面臨的新挑戰(zhàn),并介紹了未來惡意網(wǎng)頁識(shí)別領(lǐng)域可能的研究方向。致 謝 本文得到國(guó)家自然科學(xué)基金委員會(huì)、國(guó)家科學(xué)技術(shù)部等機(jī)構(gòu)的支持。同時(shí),很多同行對(duì)本文的工作給予了支持和建議,在此一并表示感謝。參 考 文 獻(xiàn)Mahmoud K, Youssef I, Andrew J. Phishing Detection: A Literat

29、ure Survey. IEEE Communication Surveys & Tutorials, 2013, 15(4): 2091-2121.Paul K, Georgia K, Hector G. M. Fighting Spam on Social Web Sites A Survey of Approaches and Future Challenges. IEEE Internet Computing, 2007, 11(6): 36-45.Priya M, Sandhya L, Ciza T. A Static Approach to Detect Drive-by-down

30、load Attacks on Webpages/Proceedings of the International Conference on Control Communication and Computing (ICCC). Xian, China, 2013: 298-303.Mavrommatis N P P, Monrose M A R F. All your iframes point to us/ Proceeding of 17th USENIX Security Symposium. San Jose, CA, USA, 2008: 1-22.Ma, Justin, Law

31、rence K. Saul, Stefan Savage, and Geoffrey M. Voelker. Beyond blacklists: learning to detect malicious web sites from suspicious URLs/Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. New York, NY, USA, 2009: 1245-1253.Ma, Justin, Lawrence K. Saul, S

32、tefan Savage, and Geoffrey M. Voelker. Identifying suspicious URLs: an application of large-scale online learning/Proceedings of the 26th Annual International Conference on Machine Learning (ICML). Montreal, Quebec, Canada, 2009: 681-688.Ma, Justin, Lawrence K. Saul, Stefan Savage, and Geoffrey M. V

33、oelker. Learning to detect malicious urls.ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 1-24. Canali, Davide, et al. Prophiler: a fast filter for the large-scale detection of malicious web pages/Proceedings of the 20th international conference on world wide web (WWW). Hy

34、derabad, India, 2011: 197-206.Thomas, Kurt, et al. Design and evaluation of a real-time url spam filtering service/Proceedings of the IEEE Symposium on Security and Privacy (SP). Oakland, California, 2011:447-462.Yadav S, Reddy A K K, Reddy A L, et al. Detecting algorithmically generated malicious d

35、omain names/Proceedings of the 10th ACM SIGCOMM conference on Internet measurement (IMC). New York, NY, USA, 2010: 48-61.Kolbitsch C, Livshits B, Zorn B, et al. Rozzle: De-cloaking internet malware/Proceedings of the IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA, 2012: 443-457.

36、Zhang HL, Zou W, Han XH. Drive-by-Download mechanisms and defenses. Journal of Software, 2013, 24(4):843-858 (in Chinese).(張慧琳,鄒維,韓心慧.網(wǎng)頁木馬機(jī)理與防御技術(shù).軟件學(xué)報(bào),2013,24(4):843-858.)Zhuge JW, Tang Y, Han XH, Duan HX. Honeypot technology research and application. Journal of Software, 2013, 24(4): 825-842 (in Ch

37、inese)(諸葛建偉, 唐勇, 韓心慧,段海新. 蜜罐技術(shù)研究與應(yīng)用進(jìn)展. 軟件學(xué)報(bào),2013,24(4):825-842.)Xiong H, Malhotra P, Stefan D, et al. User-assisted host-based detection of outbound malware traffic/Proceedings of International Conference on Information and Communications Security (ICICS). Beijing, China, 2009: 293-307.Eshete, Birha

38、nu, Adolfo Villafiorita, and Komminist Weldemariam. Binspect: Holistic analysis and detection of malicious web pages. Security and Privacy in Communication Networks, 2013:149-166.Batista G E, Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training da

39、ta. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.Shahriar H, Zulkernine M. Mutec: Mutation-based testing of cross site scripting/Proceedings of the ICSE Workshop on Software Engineering for Secure Systems. Vancouver, Canada. 2009: 47-53.Whittaker C, Ryner B, Nazif M. Large-Scale Automatic C

40、lassification of Phishing Pages/Proceedings of the 17th Annual Network & Distributed System Security Symposium (NDSS). San Diego, CA, USA. 2010:1-14.Rahman M S, Huang T K, Madhyastha H V, et al. Efficient and Scalable Socware Detection in Online Social Networks/Proceeding of 21th USENIX Security Sym

41、posium. Bellevue, WA, USA, 2012: 663-678.Chou, Li-Der, Zheng He, et al. Design and implementation of content-based filter system on embedded linux home gateway/Proceedings of 14th International Conference on the Advanced Communication Technology (ICACT). Seoul, Korea, 2012:1046-1051.Fette, Ian, Norm

42、an Sadeh, and Anthony Tomasic. Learning to detect phishing emails./Proceedings of the 16th international conference on World Wide Web(WWW). Banff, Alberta, Canada, 2007:649-656.Seifert, Christian, Ian Welch, Peter Komisarczuk, Chiraag Uday Aval, and Barbara Endicott-Popovsky. Identification of malic

43、ious web pages through analysis of underlying DNS and web server relationships/Proceedings of the 33rd IEEE Local Computer Networks Conference(LCN). Montreal, Canada, 2008:935-941.Spirin, Nikita, and Jiawei Han. Survey on web spam detection: principles and algorithms. ACM SIGKDD Explorations Newslet

44、ter, 2012, 13(2): 50-64.McGrath, D. Kevin, and Minaxi Gupta. Behind Phishing: An Examination of Phisher Modi Operandi/Proceedings of the USENIX Workshop on Large-Scale Exploits and Emergent Threats(LEET), San Jose, CA, USA, 2008: 4.Liang, Bin, Jianjun Huang, Fang Liu, Dawei Wang, Daxiang Dong, and Z

45、haohui Liang. Malicious Web Pages Detection Based on Abnormal Visibility Recognition/Proceedings of the International Conference on E-Business and Information System Security(EBISS09). Wuhan, China, 2009:1-5.Hallaraker, Oystein, and Giovanni Vigna. Detecting malicious javascript code in Mozilla/Proc

46、eedings of the 10th IEEE International Conference on Engineering of Complex Computer Systems(ICECCS). Shanghai, China, 2005: 85-94.Kals S, Kirda E, Kruegel C, et al. Secubat: a web vulnerability scanner/Proceedings of the 15th international conference on World Wide Web(WWW). New York, USA, 2006: 247

47、-256.Li, Zhou, Sumayah Alrwais, Yinglian Xie, Fang Yu, and XiaoFeng Wang. Finding the linchpins of the dark web: a study on topologically dedicated hosts on malicious web infrastructures./Proceedings of the IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA. 2013: 112-126.Li, Zhi-Yo

48、ng, Ran Tao, Zhen-He Cai, and Hao Zhang. A web page malicious code detect approach based on script execution/Proceedings of the 5th International Conference on Natural Computation(ICNC). Tianjin, China.2009:308-312.Zhang, Junjie, Christian Seifert, Jack W. Stokes, and Wenke Lee. Arrow: Generating si

49、gnatures to detect drive-by downloads/ Proceedings of the 20th international conference on world wide web (WWW). Hyderabad, India, 2011:187-196.The Honeynet Project. Capture-HPC. /capture-hpc, 2014,10,20.Seifert C, Welch I, Komisarczuk P. Identification of malicious web pages with static heuristics/

50、Proceedings of IEEE conference on Telecommunication Networks and Applications(ATNAC). Adelaide, SA, Australia, 2008: 91-96.Tao, Wang, Yu Shunzheng, and Xie Bailin. A novel framework for learning to detect malicious Web pages/Proceedings of the International Forum on Information Technology and Applic

51、ations (IFITA). KunMing,China,2010: 353-357.Invernizzi, Luca, Paolo Milani Comparetti, Stefano Benvenuti, C. Kruegel, M. Cova, and Giovanni Vigna. Evilseed: A guided approach to finding malicious web pages/Proceedings of the IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA, 2012:

52、428-442.Lee S, Kim J. WarningBird: Detecting Suspicious URLs in Twitter Stream/Proceedings of the 19th Annual Network & Distributed System Security Symposium (NDSS). San Diego, USA, 2012: 1-13.Lee S, Kim J. WarningBird: A Near Real-Time Detection System for Suspicious URLs in Twitter Stream. IEEE Tr

53、ansactions on Dependable and Secure Computing (TDSC), 2013, 10(3): 183-195.Le A, Markopoulou A, Faloutsos M. Phishdef: Url names say it all/Proceedings of the 30th IEEE International Conference on Computer Communications (INFOCOM). Shang Hai, China. 2011: 191-195.Honeynet Project. Know Your Enemy: L

54、earning about Security Threats. 2nd edition. Boston: Addison-Wesley Professional, 2004.Prakash P, Kumar M, Kompella R R, et al. Phishnet: predictive blacklisting to detect phishing attacks/Proceedings of the 29th IEEE International Conference on Computer Communications (INFOCOM). San Diego, CA, USA,

55、 2010: 1-5.S. Sheng, B. Wardman, G. Warner, L. F. Cranor, J. Hong, and C. Zhang. An empirical analysis of phishing blacklists/Proceedings of the 6th Conference in Email and Anti-Spam(CEAS). Mountainview, CA, USA, 2009.Chou, Neil, Robert Ledesma, Yuka Teraguchi, and John C. Mitchell. Client-Side Defe

56、nse Against Web-Based Identity Theft/Proceedings of the 11th Annual Network & Distributed System Security Symposium (NDSS). San Diego, CA, USA. 2004:1-16.Zhang, Yue, Jason I. Hong, and Lorrie F. Cranor. Cantina: a content-based approach to detecting phishing web sites/Proceedings of the 16th interna

57、tional conference on World Wide Web(WWW). Banff, Alberta, Canada, 2007:639-648.Liu, Gang, Bite Qiu, and Liu Wenyin. Automatic detection of phishing target from phishing webpage/Proceedings of the 20th International Conference on Pattern Recognition (ICPR). Istanbul, Turkey, 2010:4153-4156.Ester, Mar

58、tin, Hans-Peter Kriegel, Jrg Sander, and Xiaowei Xu. A density-based algorithm for discovering clusters in large spatial databases with noise/Proceedings of the 2nd ACM SIGKDD international conference on Knowledge discovery and data mining. Portland, Oregon, USA, 1996: 226-231.Huang, H., Qian, L., &

59、 Wang, Y. (2012). A SVM-based technique to detect phishing URLs.Information Technology Journal,11(7), 921-925.Kolari, Pranam, Tim Finin, and Anupam Joshi. SVMs for the Blogosphere: Blog Identification and Splog Detection/Proceedings of the AAAI Spring Symposium on Computational Approaches to Analyzi

60、ng Weblogs. Menlo Park,CA,USA 2006:92-99.Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, and Yoram Singer. Online passive-aggressive algorithms. Journal of Machine Learning Research, 2006, 7: 551-585.Blum, Aaron, Brad Wardman, Thamar Solorio, and Gary Warner. Lexical feature based phi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論