基于聚類法改進(jìn) JA3 指紋識(shí)別的惡意加密流量識(shí)別_第1頁
基于聚類法改進(jìn) JA3 指紋識(shí)別的惡意加密流量識(shí)別_第2頁
基于聚類法改進(jìn) JA3 指紋識(shí)別的惡意加密流量識(shí)別_第3頁
基于聚類法改進(jìn) JA3 指紋識(shí)別的惡意加密流量識(shí)別_第4頁
基于聚類法改進(jìn) JA3 指紋識(shí)別的惡意加密流量識(shí)別_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

進(jìn)入21世紀(jì)以來,隨著互聯(lián)網(wǎng)信息量的激增和流量加密手段的不斷豐富,隱藏在海量加密流量中的惡意加密流量也正以指數(shù)級速度增長,給社會(huì)和個(gè)人財(cái)產(chǎn)帶來巨大威脅。近年來,層出不窮的勒索軟件將惡意代碼加密后攻擊并控制用戶客戶端,每年可造成數(shù)以億計(jì)的經(jīng)濟(jì)損失。大多數(shù)的惡意加密流量并不是從零開始編寫的新型惡意加密流量,而是通過對已有的惡意加密流量進(jìn)行代碼復(fù)用和修改而生成的變體。同一惡意加密流量的不同變體在代碼和行為上都較為相似,通常將這種功能、行為類似的惡意加密流量歸為同一個(gè)惡意族簇。同一個(gè)惡意族簇的加密流量通常會(huì)調(diào)用相同或相似的函數(shù),執(zhí)行類似的行為,包括系統(tǒng)行為和網(wǎng)絡(luò)行為。因此,可以利用惡意加密流量的這一特征對其進(jìn)行特征性檢測。惡意加密流量檢測已經(jīng)成為信息安全領(lǐng)域的一個(gè)重要研究方向,目前主流研究方向包括以下3種:(1)深度數(shù)據(jù)包檢測方法。深度數(shù)據(jù)包檢測(DeepPacketInspection,DPI)方法是指基于代理或防火墻來解密所有加密的流量,通過對所有數(shù)據(jù)包進(jìn)行逐個(gè)解密和檢測,將解密后的數(shù)據(jù)與已有病毒庫等惡意流量代碼資源庫進(jìn)行比對,是目前所有檢測方法中最準(zhǔn)確的,也是實(shí)施難度最大的,受個(gè)人隱私和商業(yè)秘密限制。并且,隨著加密手段越發(fā)復(fù)雜,大規(guī)模大流量數(shù)據(jù)包的解密對服務(wù)器的算力也有著更高要求,算力成為該方法的發(fā)展瓶頸,使其在大型和公共網(wǎng)絡(luò)中的使用受限。(2)基于行為分析的檢測方法。基于行為分析的檢測方法是指使用通信模式對流量進(jìn)行分類,可以部署用于任意流量捕獲。通過測量流量特征對惡意加密流量進(jìn)行識(shí)別,這些模式是根據(jù)流量特征計(jì)算出來的,可以根據(jù)這些模式的相似性對加密流量進(jìn)行分類,且不需要了解底層協(xié)議?;谛袨榉治龅臋z測方法需要大量流量特征作為學(xué)習(xí)庫,正確的特征選擇是成功使用該方法的關(guān)鍵,但在面對一些偽裝成正常流量的惡意加密流量時(shí)便難以將其識(shí)別出來,因此,行為分析結(jié)果的準(zhǔn)確度受特征選擇影響較大,導(dǎo)致系統(tǒng)穩(wěn)定性受限,并且由于很多研究機(jī)構(gòu)的特征資源庫并不是開源的,導(dǎo)致特征庫資源獲取也成為該方法受限的因素之一。(3)指紋法。指紋法是指在加密連接的握手階段利用觀察到的未加密信息中的特定數(shù)據(jù)包進(jìn)行惡意流量識(shí)別,通過檢查來自每個(gè)流的幾個(gè)沒有被加密的分組,將捕獲到的指紋信息與指紋庫中的惡意流量指紋進(jìn)行比對,根據(jù)比對結(jié)果對惡意流量進(jìn)行識(shí)別。由于在握手階段惡意流量尚未進(jìn)行加密,所以該方法準(zhǔn)確性和穩(wěn)定性較高。本文對傳統(tǒng)指紋法進(jìn)行改進(jìn),克服了該方法只能識(shí)別已在指紋庫中的指紋的缺點(diǎn),大幅提高了對未知惡意加密流量的識(shí)別準(zhǔn)確性。1相關(guān)研究1.1安全套接層/傳輸層安全協(xié)議安全套接層/傳輸層安全協(xié)議(SecureSockets

Layer/TransportLayerSecurity,SSL/TLS),是目前被廣泛使用的加密協(xié)議之一,用于加密互聯(lián)網(wǎng)上的大部分流量。其前身是從1995年開始發(fā)展的SSL協(xié)議。SSL/TLS是傳輸控制協(xié)議/網(wǎng)際協(xié)議(TransmissionControlProtocol/InternetProtocol,TCP/IP)模型的第5層協(xié)議,為超文本傳輸協(xié)議、文件傳輸協(xié)議、簡單郵件傳輸協(xié)議等應(yīng)用協(xié)議提供加密數(shù)據(jù)傳輸。SSL/TLS可以在虛擬專用網(wǎng)絡(luò)中使用,該協(xié)議提供通信方的認(rèn)證、消息的保密性和完整性。目前,SSL已逐漸被TLS取代,TLS目前主要有4個(gè)版本,分別是TLS1.0、TLS1.1、TLS1.2和TLS1.3。如今,大部分Web服務(wù)器都支持TLS1.2,而TLS1.3作為TLS1.2的升級版,在握手方面提高了安全性和速度,支持TLS1.3的服務(wù)器也在逐步增加。TLS協(xié)議主要提供3個(gè)基本屬性,如下文所述。(1)身份驗(yàn)證。服務(wù)器的身份驗(yàn)證是強(qiáng)制性的,客戶端的身份驗(yàn)證是可選的。服務(wù)器和客戶端可以使用不對稱或?qū)ΨQ方法進(jìn)行身份驗(yàn)證。(2)保密性。TLS連接建立后,通過網(wǎng)絡(luò)發(fā)送的所有數(shù)據(jù)都將被加密,只有通過終端設(shè)備可以看到明文數(shù)據(jù)。實(shí)際的數(shù)據(jù)傳輸受握手期間建立的對稱密鑰的保護(hù)。(3)數(shù)據(jù)完整性。數(shù)據(jù)無法以任何方式修改而不被檢測到。握手完成后,對等方交換整個(gè)握手的消息認(rèn)證碼,這可以防止對握手的任何部分進(jìn)行修改。消息摘要也保護(hù)所有后續(xù)發(fā)送的數(shù)據(jù)。SSL/TLS作為常用惡意加密程序的加密工具,可以使惡意流量隱藏在噪聲中。TLS握手過程如圖1所示。圖1TLS握手過程當(dāng)啟動(dòng)TLS會(huì)話時(shí),客戶端將在TCP的3次握手后發(fā)送TLS客戶端Hello數(shù)據(jù)包,數(shù)據(jù)包及其生成方式取決于構(gòu)建客戶端應(yīng)用程序時(shí)使用的包和方法。服務(wù)器如果接受TLS連接,將使用基于服務(wù)器和配置以及ClientHello中的詳細(xì)信息制定的TLSServerHello數(shù)據(jù)包進(jìn)行響應(yīng)。1.2JA3指紋法JA3指紋法是一種創(chuàng)建SSL/TLS客戶端指紋的方法,即對傳輸層安全應(yīng)用程序進(jìn)行指紋識(shí)別的方法,可以用于威脅情報(bào)共享。JA3于2017年6月首次發(fā)布在GitHub上,是Salesforce研究人員JohnAlthouse、JeffAtkinson和JoshAtkins的作品。所創(chuàng)建的JA3SSL/TLS指紋可以在應(yīng)用程序間重疊,但仍然是一個(gè)較好的妥協(xié)指標(biāo)。指紋識(shí)別是通過創(chuàng)建客戶端問候信息的5個(gè)十進(jìn)制字段的哈希來實(shí)現(xiàn)的,該消息在SSL/TLS會(huì)話的初始階段(握手)發(fā)送。TLS握手是通信雙方之間連接的初始部分。在這個(gè)階段,通信雙方交換連接參數(shù)并建立對稱密鑰。握手是TLS連接中唯一未加密的部分,服務(wù)器用ServerHello消息、證書和密鑰的服務(wù)器部分進(jìn)行響應(yīng)。第二輪完成密鑰建立協(xié)議,并切換到加密通信。JA3指紋創(chuàng)建過程如圖2所示。圖2JA3指紋創(chuàng)建過程(1)證書接入層。包含獲得新TLS證書以及為提取新TLS證書特征做準(zhǔn)備,該層是整個(gè)JA3指紋創(chuàng)建過程的準(zhǔn)備階段,為后續(xù)證書提取、數(shù)據(jù)處理和對比結(jié)論輸出提供輸入,實(shí)現(xiàn)了對未知TLS證書與指紋庫進(jìn)行驗(yàn)證對比的輸入功能。(2)證書提取層。包含提取TLS版本、提取可支持的密碼、擴(kuò)展提取、提取可支持的橢圓曲線和提取橢圓曲線格式,該層是JA3指紋創(chuàng)建過程的提取階段,將后續(xù)數(shù)據(jù)處理和對比所需要素提取備用,包括十進(jìn)制字段、橢圓曲線和密碼等,實(shí)現(xiàn)了對未知TLS的分解功能。(3)數(shù)據(jù)處理層。包含整理提取到的要素、將要素轉(zhuǎn)換為字符串、連接字符串、創(chuàng)建客戶端問候信息的十進(jìn)制字段的哈希和創(chuàng)建JA3指紋,該層是JA3指紋創(chuàng)建過程的計(jì)算階段,將前期提取到的字符、字段、橢圓曲線和密碼等要素進(jìn)行一系列數(shù)據(jù)處理,實(shí)現(xiàn)了生成新的JA3指紋的功能。2聚類法改進(jìn)JA3傳統(tǒng)JA3指紋法的缺點(diǎn)是比較依賴已有指紋庫,面對全新和未造成威脅的惡意加密流量識(shí)別率較低,若該全新的惡意加密流量的指紋特征與指紋庫中已有特征完全不符,則JA3指紋法就不能將其有效識(shí)別。為了改善這一缺點(diǎn),本文使用CD-HIT聚類法對傳統(tǒng)JA3指紋法進(jìn)行改進(jìn),以達(dá)到高效識(shí)別全新未知惡意加密流量的目的。2.1聚類分析法基于JA3指紋法的聚類分析法是通過將總結(jié)過的安全無害的流量特征作為基礎(chǔ)模板,利用惡意加密流量潛伏在正常流量中時(shí)會(huì)導(dǎo)致整體流量特征發(fā)生變化這一特點(diǎn),來對非法惡意流量進(jìn)行檢測,并對安全無害和含有惡意加密流量之間的區(qū)別進(jìn)行分析整理,不斷擴(kuò)充指紋庫來強(qiáng)化對全新陌生的惡意指紋進(jìn)行識(shí)別的能力。JA3指紋在經(jīng)過聚類分析后,便可以通過捕獲流量中集群分布特征對惡意加密流量進(jìn)行識(shí)別,且得出規(guī)律性的結(jié)論。如果整體流量特征與已知安全流量特征相符,則該流量可被認(rèn)為是安全流量;如果整體流量特征與已知安全流量特征均有較大偏差,則該流量有較大可能被認(rèn)為是惡意加密流量,進(jìn)而可以對該流量進(jìn)行隔離分析。安全流量的聚類和包含惡意加密流量的聚類如圖3、圖4所示。圖3安全流量的聚類圖4包含惡意加密流量的聚類收集網(wǎng)絡(luò)流量中安全流量和包含惡意加密流量的數(shù)據(jù)。藍(lán)色圓圈代表JA3指紋的簇,屬于安全流量的通信,可以用來分析捕獲到的未知流量,捕獲到的未知流量可能既包含安全流量又包含惡意加密流量,或者全為安全流量,或者全為惡意加密流量。圖中的綠色圓圈代表安全流量的簇。紅色圓圈代表惡意加密流量的集群。如果捕獲的流量也是安全的,那么該流量應(yīng)該與已知的安全流量相似,在圖形上顯示為所有安全流量的特征均在JA3指紋簇中,沒有明顯凸出。但是,如果捕獲到的流量中存在惡意加密流量,那么該流量可能會(huì)明顯偏離已知的安全流量,在圖形上顯示為不符合安全流量特征的部分與JA3指紋簇有較大偏差,會(huì)在圖上出現(xiàn)明顯突出,即使有些惡意加密流量會(huì)攜帶部分安全流量的特征,這部分特征在圖上顯示為該惡意加密流量的一部分在JA3指紋簇內(nèi),但另一部分會(huì)有明顯不同。如圖4所示,該檢測將JA3指紋簇集的結(jié)構(gòu)與已知流量進(jìn)行比較,能夠檢測出全新未知的惡意加密流量?;诰垲惙ǜ倪M(jìn)JA3指紋識(shí)別過程如圖5所示。圖5基于聚類法改進(jìn)JA3指紋識(shí)別過程利用聚類法對傳統(tǒng)JA3指紋識(shí)別法進(jìn)行優(yōu)化,通過接入抓取到的疑似惡意加密流量信息,經(jīng)過CD-HIT生成聚類群,經(jīng)離散度量后生成量化的聚類模型,最終將該模型補(bǔ)充至JA3的指紋庫中。2.2聚類的基本模型聚類是將實(shí)驗(yàn)數(shù)據(jù)分成相似組的方法。以分類聚集的方式對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行劃分,使聚集在一起的數(shù)據(jù)有著更多的相似特征。聚類可以分為硬聚類和軟聚類

,其中,硬聚類是指每個(gè)數(shù)據(jù)被確定地分到某一個(gè)適合該數(shù)據(jù)特征的組;軟聚類是指某個(gè)數(shù)據(jù)可以屬于多個(gè)組,但屬于某個(gè)組有一定概率。例如,實(shí)驗(yàn)數(shù)據(jù)m,在硬聚類分類法中,屬于C組;而在軟聚類分類法中,屬于A組的概率為20%,屬于B組的概率為30%,屬于C組的概率為50%。對于不同的聚類算法。其主要區(qū)別在于點(diǎn)與點(diǎn)之間相似度的定義。因此,每種方法對不同類型的輸入數(shù)據(jù)表現(xiàn)不同。常用模型有以下幾種。(1)分布模型。分布模型是根據(jù)聚類中的數(shù)據(jù)在某一特征下的概率來決定該數(shù)據(jù)的分組情況。典型應(yīng)用為期望值最大化算法。(2)質(zhì)心模型。質(zhì)心模型是利用一個(gè)點(diǎn)到一個(gè)聚類的分配取決于它到聚類中心的距離這一特點(diǎn)對數(shù)據(jù)進(jìn)行分組。迭代計(jì)算聚類中心,直到找到局部最優(yōu)。典型應(yīng)用為K-均值(K-Median)算法。(3)密度模型。密度模型是利用不同特征的數(shù)據(jù)擁有不同且特定的密度這一特性來進(jìn)行搜索的方法。典型應(yīng)用為基于密度掃描(Density-BasedSCAN,D-B掃描)和光學(xué)算法。(4)連通性模型。連通性模型是將所有鄰近的數(shù)據(jù)逐級分類并加以觀察的方法,分為正向分類和反向分類兩種方法。其中,正向分類法是從整個(gè)集群開始,根據(jù)細(xì)分特征將所有數(shù)據(jù)的完整集群逐漸分解成更小的集群;反向分類法是從每個(gè)數(shù)據(jù)自身出發(fā),最開始都在自己的簇中,隨著不同的特征分類,簇逐漸合并。連通性模型也稱為分級聚類方法,其缺點(diǎn)是對大型數(shù)據(jù)集不是很有效。典型應(yīng)用為CD-HIT法,本次設(shè)計(jì)就采用了此方法。在生物信息學(xué)中,CD-HIT法常被用于DNA分類,其最大的優(yōu)點(diǎn)是簡單和快速。如果兩個(gè)數(shù)據(jù)的共享部分存在相符的特征,則它們可以被分類在同一聚類中。這個(gè)最小共享部分被稱為相似性閾值的百分比。因此,比較兩個(gè)數(shù)據(jù)的長度通常足以確定兩個(gè)序列是否在同一簇中。這避免了許多不必要的耗時(shí)比較,在實(shí)踐中,這種算法是非常高效的。整個(gè)算法分兩步工作,在第一步中,輸入數(shù)據(jù)集按大小排序,在第二步中,數(shù)據(jù)按降序處理。已處理的數(shù)據(jù)依次與已經(jīng)形成的聚類中最長的樣本進(jìn)行比較。如果它超過相似性閾值,則被分配到最佳匹配的聚類;反之,將創(chuàng)建一個(gè)新的集群。所有樣本都以這種方式處理。以上所列各種模型均有相應(yīng)的優(yōu)缺點(diǎn),可根據(jù)實(shí)際使用需求進(jìn)行應(yīng)用,選擇最適合的模型來使其優(yōu)勢最大化。2.3度量方法聚類算法各種模型的計(jì)算都依賴度量,只有通過度量,才能對獲取到的多個(gè)實(shí)驗(yàn)數(shù)據(jù)之間的距離進(jìn)行測量和量化,進(jìn)而對其進(jìn)行分類。常用的度量方法主要分為真實(shí)度量和離散度量。本次設(shè)計(jì)使用的聚類JA3指紋識(shí)別中的度量方法屬于離散度量,是專為CD-HIT開發(fā)的一種離散度量方法。假設(shè)為進(jìn)行聚類的兩組離散值,的相似性為y,將進(jìn)行對比,為中較大的集合,則相似性y的算法為:CD-HIT法通過對所有實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分別度量,生成一套完整的度量結(jié)果,再將該結(jié)果用于連通性模型,進(jìn)行CD-HIT反向分類,得到所有數(shù)據(jù)的詳細(xì)聚類。以此聚類結(jié)果作為數(shù)據(jù)庫,當(dāng)需要對新的陌生數(shù)據(jù)進(jìn)行識(shí)別判斷時(shí),就可通過與具備足夠數(shù)據(jù)特征聚類的數(shù)據(jù)庫進(jìn)行對比,進(jìn)而得出結(jié)論。在完成所有數(shù)據(jù)的度量和聚類后,即可得出最大相似度、相似度和某個(gè)數(shù)據(jù)的最近族簇等聚類屬性。當(dāng)該CD-HIT法用于JA3指紋識(shí)別的聚類時(shí),對于JA3指紋數(shù)據(jù)中可能出現(xiàn)的同一數(shù)值可代表多重含義的情況,CD-HIT法用于JA3指紋數(shù)據(jù)的每個(gè)部分。以CD-HIT法對JA3指紋數(shù)據(jù)進(jìn)行聚類后,就可生成JA3指紋專用聚類庫,在對聚類庫進(jìn)行分析和分類后就可通過對比聚類屬性將其用于加密流量識(shí)別。JA3指紋的聚類屬性主要有3個(gè),分別是組內(nèi)聚類的平均距離、集合中兩個(gè)聚類的最大距離和最大相異度。在對比聚類時(shí)必須綜合考慮這3個(gè)聚類屬性,否則將會(huì)導(dǎo)致比對結(jié)果出現(xiàn)某一個(gè)方向的傾向性。例如,將從某站點(diǎn)抓取的全新流量與該站點(diǎn)的安全流量進(jìn)行比對,通過比較聚類之間的平均距離即可判斷新的流量是否具有隱藏惡意加密流量的可能性,如果含有惡意加密流量,則平均距離這一屬性將會(huì)有顯著區(qū)別。當(dāng)然,在比較平均距離的同時(shí)也需綜合比較聚類的最大距離和最大相異度,最終根據(jù)綜合比對情況得出相應(yīng)結(jié)論。對不同類型的流量數(shù)據(jù)來說,其對應(yīng)的3個(gè)聚類屬性具有不同的權(quán)重分布,需要針對流量數(shù)據(jù)類型進(jìn)行具體分析,在實(shí)際操作過程中,系統(tǒng)已根據(jù)常見流量數(shù)據(jù)類型進(jìn)行預(yù)分類,可實(shí)現(xiàn)快速分配聚類屬性的權(quán)重。經(jīng)過以上步驟,在面對未知加密流量時(shí)就可以結(jié)合指紋庫和聚類庫對其進(jìn)行識(shí)別,克服了傳統(tǒng)JA3指紋法對新型惡意加密流量識(shí)別率低的缺點(diǎn)。2.4實(shí)驗(yàn)結(jié)果在實(shí)驗(yàn)室數(shù)據(jù)庫中選取一定數(shù)量的安全流量和惡意加密流量作為實(shí)驗(yàn)樣本,分別以傳統(tǒng)JA3指紋法和基于聚類法改進(jìn)的JA3指紋法對惡意流量進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果如表1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論