基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法

上傳人：1*** IP屬地：湖南上傳時(shí)間：2024-09-11 格式：DOCX 頁(yè)數(shù)：17 大?。?66.25KB 積分：20 舉報(bào) 版權(quán)申訴

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第2頁(yè)

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第3頁(yè)

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第4頁(yè)

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第5頁(yè)

已閱讀5頁(yè)，還剩12頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)互聯(lián)網(wǎng)信息中心發(fā)布的第49次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示，截至2021年12月，中國(guó)互聯(lián)網(wǎng)普及率達(dá)73.0%?；ヂ?lián)網(wǎng)中采用加密的流量呈逐年攀升的趨勢(shì)。在全球主要國(guó)家與地區(qū)，這一數(shù)據(jù)更是已經(jīng)超過了90%。由數(shù)據(jù)統(tǒng)計(jì)機(jī)構(gòu)Netmarketshare發(fā)布的統(tǒng)計(jì)數(shù)據(jù)可知，截至2019年10月2日，超文本傳輸安全協(xié)議（HyperTextTransferProtocoloverSecureSocketsLayer，HTTPS）加密萬維網(wǎng)（WorldWideWeb，WWW）流量在全球范圍內(nèi)被使用的比例已經(jīng)超過90%；2019年12月，谷歌宣稱80%的Android應(yīng)用程序默認(rèn)使用傳輸層安全協(xié)議（TransportLayerSecurity，TLS）加密所有流量，且這一比例還會(huì)隨著時(shí)間的推移而繼續(xù)增大。越來越多的惡意軟件隱匿在加密TLS流量中來傳輸惡意信息，對(duì)用戶、企業(yè)和國(guó)家的通信安全造成威脅。因此，對(duì)TLS惡意加密流量進(jìn)行高效識(shí)別對(duì)網(wǎng)絡(luò)監(jiān)管和打擊犯罪有著重要意義。

目前，已經(jīng)有國(guó)內(nèi)外研究人員對(duì)網(wǎng)絡(luò)惡意加密流量進(jìn)行研究，并且取得了一定的成就。提出對(duì)加密流量進(jìn)行深度包檢測(cè)（DeepPacketInspection，DPI）而無需解密的技術(shù)，但在設(shè)置階段需要大量的計(jì)算和較長(zhǎng)的檢測(cè)時(shí)間。提出了一種TLS指紋識(shí)別系統(tǒng)，該系統(tǒng)利用目標(biāo)地址、端口和服務(wù)器名精心構(gòu)造的指紋串。近年來，半監(jiān)督學(xué)習(xí)在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域也取得了顯著成績(jī)。提出了一種半監(jiān)督檢測(cè)模型，首先在大型未標(biāo)記數(shù)據(jù)集上訓(xùn)練，然后使用少量標(biāo)記數(shù)據(jù)集重新訓(xùn)練模型。谷歌的研發(fā)隊(duì)伍提出了MixMatch和FixMatch技術(shù)，利用集成方法，提高了模型準(zhǔn)確率。為解決網(wǎng)絡(luò)惡意加密流量識(shí)別方法中大量標(biāo)記樣本獲取困難問題，本文提出一種基于FixMatch的網(wǎng)絡(luò)惡意加密流量識(shí)別方法。通過借助網(wǎng)絡(luò)流量圖片化方法將PCAP格式的原始流量數(shù)據(jù)以流為單位進(jìn)行切分、填充、映射到灰度圖片中，構(gòu)建FixMatch模型并對(duì)惡意加密流量進(jìn)行分類，在公開數(shù)據(jù)集上進(jìn)行驗(yàn)證，實(shí)驗(yàn)證明識(shí)別效果優(yōu)于現(xiàn)有方法。1相關(guān)知識(shí)1.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetworks，CNN）是一種人工神經(jīng)網(wǎng)絡(luò)，目前已成為語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)，廣泛應(yīng)用于人臉識(shí)別、疾病分析、圖像處理等領(lǐng)域。CNN一般由輸入層、卷積層、池化層、全連接層以及輸出層構(gòu)成。其中卷積層可從輸入數(shù)據(jù)中快速精準(zhǔn)地提取樣本特征。池化層有2個(gè)典型特性：一是可以大幅度加快模型的訓(xùn)練速度，對(duì)提取的特征信息進(jìn)行降維處理，降低訓(xùn)練量。二是防止模型訓(xùn)練結(jié)果過擬合。實(shí)際的操作中，常在兩個(gè)相鄰的卷積層之間加入一層池化層。全連接層的特性之一是能將當(dāng)前訓(xùn)練所提取的特征和保留的樣本特征進(jìn)行組合。正是由于CNN擁有局部連接和權(quán)值共享的特性，使得CNN可以精準(zhǔn)高效地從輸入數(shù)據(jù)中挖掘潛在的特征。1.2一致性正則化一致性正則化是當(dāng)前最先進(jìn)的半監(jiān)督學(xué)習(xí)算法的一個(gè)重要組成部分。一致性正則化利用未標(biāo)記的數(shù)據(jù)，它依賴于這樣一個(gè)假設(shè)：當(dāng)輸入相同圖像的擾動(dòng)版本時(shí)，模型應(yīng)該輸出相似的預(yù)測(cè)。該想法首次在LearningwithPseudo－Ensembles中提出，其中模型通過標(biāo)準(zhǔn)監(jiān)督分類損失和損失函數(shù)對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。式中：為一批標(biāo)記的樣本，為訓(xùn)練樣本，為one-hot標(biāo)簽。設(shè)為一批未標(biāo)記的樣本，其中u是確定X和U相對(duì)大小的超參數(shù)。設(shè)為模型對(duì)輸入X產(chǎn)生的預(yù)測(cè)類分布。1.3相關(guān)半監(jiān)督深度學(xué)習(xí)算法1.3.1偽標(biāo)簽（PseudoLabel）偽標(biāo)簽是一種簡(jiǎn)單有效的深度神經(jīng)網(wǎng)絡(luò)半監(jiān)督方法。其在監(jiān)督的方式下訓(xùn)練有標(biāo)簽的樣本，對(duì)于無標(biāo)記樣本通過偽標(biāo)簽的方法選擇出該數(shù)據(jù)具有的最大概率預(yù)測(cè)類，把這個(gè)預(yù)測(cè)出的標(biāo)簽作為實(shí)際標(biāo)簽使用。偽標(biāo)簽利用模型本身的思想為未標(biāo)記的數(shù)據(jù)獲取人工標(biāo)簽。具體來說，這指的是用“硬”標(biāo)簽（即模型輸出的參數(shù)最大值），并且只保留最大類概率高于預(yù)定義閾值的人工標(biāo)簽。令偽標(biāo)記使用以下?lián)p失函數(shù)：式中：τ為閾值，兩個(gè)概率分布p和q之間的交叉熵為1.3.2MixMatchMixMatch是一種整體方法，它結(jié)合了半監(jiān)督學(xué)習(xí)主流范例中的思想。給定一組標(biāo)注實(shí)例X及其對(duì)應(yīng)的one-hot目標(biāo)（代表L個(gè)可能標(biāo)簽中的一個(gè)）和一批大小相同的未標(biāo)記示例U，MixMatch將生成一批經(jīng)過處理的增強(qiáng)標(biāo)記示例X'和一批猜測(cè)標(biāo)簽U'的增強(qiáng)未標(biāo)記示例。然后分別使用U'和X'計(jì)算單獨(dú)的標(biāo)記和未標(biāo)記損失項(xiàng)。半監(jiān)督學(xué)習(xí)的組合損失L如下：式中：H(p,q)為分布p與分布q間的交叉熵；T，K，α，為超參數(shù)。模型對(duì)參數(shù)為θ的輸入x產(chǎn)生類標(biāo)簽y上的分布。1.3.3ICT插值一致性訓(xùn)練（InterpolationConsistencyTraining，ICT）鼓勵(lì)對(duì)于無標(biāo)記樣本點(diǎn)的插值的預(yù)測(cè)和這些樣本的預(yù)測(cè)的插值保持一致。ICT可以將決策邊界移動(dòng)到數(shù)據(jù)分布的低密度區(qū)域，如果兩個(gè)樣本在輸入分布中屬于同一個(gè)聚類或簇，它們很可能屬于同一個(gè)類別，這被稱為聚類假設(shè)，這也表明好的決策邊界應(yīng)當(dāng)位于數(shù)據(jù)分布的低密度區(qū)域。不同的一致性正則化技術(shù)的區(qū)別在于如何選擇對(duì)未標(biāo)記數(shù)據(jù)的擾動(dòng)，常規(guī)的做法是使用隨機(jī)擾動(dòng)，但是在高維情況下只有很小比例的隨機(jī)擾動(dòng)能夠?qū)Q策邊界推到低密度區(qū)域，對(duì)此，ICT提出了一種簡(jiǎn)單但是有效的基于插值一致性的方法：式中：為ICT的訓(xùn)練分類器，θ'為θ的滑動(dòng)平均。為參數(shù)為λ的線性插值函數(shù)：1.3.4FixMatch在一致性正則化和偽標(biāo)記方法基礎(chǔ)上，將它們相結(jié)合，提出了新的一些具有更高準(zhǔn)確率的方法。在2020年提出了FixMatch，該方法結(jié)合了偽標(biāo)簽和一致性正則化的思想，盡管FixMatch的整個(gè)環(huán)節(jié)較簡(jiǎn)單，但其在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都得到了目前的最好結(jié)果。FixMatch利用了兩種增強(qiáng)：“弱”和“強(qiáng)”。FixMatch中使用的弱增強(qiáng)分為平移和翻轉(zhuǎn)兩類，數(shù)據(jù)增強(qiáng)前后，圖片變化不大。平移是基于空間上的變換，表現(xiàn)為上、下、左、右的平行移動(dòng)。翻轉(zhuǎn)表現(xiàn)為對(duì)圖片進(jìn)行水平、垂直翻轉(zhuǎn)。FixMatch中使用的強(qiáng)增強(qiáng)包含Cutout、CTAugment和RandAugment。Cutout是一種模擬遮擋的方法，表現(xiàn)為對(duì)圖像的部分區(qū)域進(jìn)行遮擋。AutoAugment是一種能夠利用搜索算法，自動(dòng)檢索合適的數(shù)據(jù)增強(qiáng)策略的方法。RandAugment是AutoAugment的變體，它給定了一個(gè)可以選擇的數(shù)據(jù)增強(qiáng)方法的列表，并給定了一些可能的數(shù)據(jù)增強(qiáng)幅度?？梢詮倪@幾個(gè)列表中選擇N個(gè)增強(qiáng)方法，然后隨機(jī)選擇一個(gè)數(shù)據(jù)增強(qiáng)幅度上限M，使得這N個(gè)數(shù)據(jù)增強(qiáng)方法的幅度不能超過給定的幅度上限M，然后將這一系列增強(qiáng)方法用于圖片。CTAugment通過控制理論的思想解決了RandAugment中對(duì)于數(shù)據(jù)增強(qiáng)策略的學(xué)習(xí)需求，動(dòng)態(tài)學(xué)習(xí)了每個(gè)變換的幅度。對(duì)于每一個(gè)有標(biāo)簽樣本，用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型。對(duì)于每一個(gè)無標(biāo)簽樣本，采用弱增強(qiáng)得到一幅圖像，將該圖像傳遞給模型，得到一個(gè)預(yù)測(cè)結(jié)果，該模型會(huì)設(shè)定一個(gè)閾值，如果這個(gè)預(yù)測(cè)結(jié)果最高的類別的置信度高于閾值，那么，該類別就會(huì)作為這張圖片的標(biāo)簽。此時(shí)，運(yùn)用了自訓(xùn)練的思想，即偽標(biāo)簽。然后，強(qiáng)增強(qiáng)后的圖片通過模型進(jìn)行一個(gè)分類的預(yù)測(cè)，此時(shí)會(huì)得到另一個(gè)預(yù)測(cè)結(jié)果，對(duì)模型的輸出施加交叉熵?fù)p失。根據(jù)一致性正則化的思想，模型希望弱增強(qiáng)和強(qiáng)增強(qiáng)這兩種數(shù)據(jù)增強(qiáng)方法后的圖片的預(yù)測(cè)結(jié)果盡可能一致。最后，有標(biāo)簽樣本損失和無標(biāo)簽樣本損失的加權(quán)當(dāng)作模型總損失，以總損失最小為目標(biāo)優(yōu)化模型。FixMatch的處理流程如圖1所示。圖1FixMatch的處理流程2基于FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別方法2.1網(wǎng)絡(luò)流量圖片化基于文獻(xiàn)[19]對(duì)數(shù)據(jù)處理的經(jīng)驗(yàn)，本節(jié)的網(wǎng)絡(luò)流量圖片化主要是使用工具集USTCTK2016將原始流量數(shù)據(jù)（PCAP）處理成cifar10數(shù)據(jù)集格式（便于更好地遷移到多數(shù)模型）。（1）流量切分：按照流量表示形式將原始PCAP文件按照數(shù)據(jù)流形式切分為多個(gè)PCAP文件，本數(shù)據(jù)流是具有相同五元組信息的數(shù)據(jù)包的時(shí)間排序集合。（2）圖片生成：將處理過的文件按照784字節(jié)進(jìn)行統(tǒng)一長(zhǎng)度處理，即保留文件前784字節(jié)數(shù)據(jù)，舍棄文件785字節(jié)及以后的所有信息，如果長(zhǎng)度少于784字節(jié)，則在文件后面補(bǔ)充0x00；統(tǒng)一長(zhǎng)度后的文件按照二進(jìn)制形式轉(zhuǎn)換為灰度圖片，即一個(gè)字節(jié)對(duì)應(yīng)灰度像素值，如0x00對(duì)應(yīng)黑色，0xff對(duì)應(yīng)白色，輸出格式為PNG。在公開數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)流量進(jìn)行圖片化處理后的效果如圖2、圖3所示。圖3USTC-TFC2016數(shù)據(jù)集下流量圖片化展示2.2構(gòu)建FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別模型2.2.1數(shù)據(jù)增強(qiáng)根據(jù)FixMatch模型中的弱增強(qiáng)和強(qiáng)增強(qiáng)方法對(duì)轉(zhuǎn)換成圖片的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理。本文采用的弱增強(qiáng)為50%的概率對(duì)圖片進(jìn)行水平翻轉(zhuǎn)，利用reflect的方式進(jìn)行填充，然后進(jìn)行隨機(jī)裁剪和數(shù)據(jù)歸一化處理；本文采用RandAugment方法進(jìn)行數(shù)據(jù)強(qiáng)增強(qiáng)，規(guī)定從RandAugment給定的數(shù)據(jù)增強(qiáng)方法列表N中隨機(jī)選擇增強(qiáng)方法，從1到10之間隨機(jī)選擇一個(gè)數(shù)據(jù)增強(qiáng)幅度上限M，使得這N個(gè)數(shù)據(jù)增強(qiáng)方法的幅度不能超過給定的幅度上限M。2.2.2FixMatch模型構(gòu)建FixMatch結(jié)合了偽標(biāo)簽和一致性正則化的思想，其損失函數(shù)由兩個(gè)交叉熵?fù)p失項(xiàng)組成：應(yīng)用于標(biāo)記數(shù)據(jù)的監(jiān)督損失和非監(jiān)督損失針對(duì)有標(biāo)簽樣本：使用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型，得到有監(jiān)督樣本的損失函數(shù)針對(duì)無標(biāo)簽樣本：首先，在給定的無標(biāo)簽圖像的弱增強(qiáng)版本下計(jì)算模型的預(yù)測(cè)類分布如果得到的類別預(yù)測(cè)結(jié)果的最值大于預(yù)先給定的閾值，則該類別就是這個(gè)圖片的標(biāo)簽。其次，使用作為偽標(biāo)簽，該圖片再經(jīng)過強(qiáng)增強(qiáng)，得到強(qiáng)增強(qiáng)后的分類預(yù)測(cè)結(jié)果。這個(gè)結(jié)果與新生成的標(biāo)簽信息做交叉熵?fù)p失，得到無標(biāo)簽樣本的損失式中：τ為一個(gè)標(biāo)量超參數(shù)，表示閾值以上保留一個(gè)偽標(biāo)簽。有標(biāo)簽樣本損失和無標(biāo)簽樣本損失的加權(quán)當(dāng)作模型總損失，以總損失最小為目標(biāo)優(yōu)化模型，F(xiàn)ixMatch最小的損失函數(shù)為其中為一個(gè)固定的標(biāo)量超參數(shù)，表示未標(biāo)記損失的相對(duì)權(quán)重。FixMatch算法偽代碼如算法1所示。FixMatch模型的訓(xùn)練流程：對(duì)于每一個(gè)有標(biāo)簽的樣本，用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型，得到一個(gè)有標(biāo)簽樣本的損失；對(duì)于每一個(gè)沒有標(biāo)簽的樣本，采用弱增強(qiáng)得到一幅圖像，將該圖像傳遞給模型，得到一個(gè)預(yù)測(cè)結(jié)果。比較模型與預(yù)先設(shè)定的閾值，如果這個(gè)預(yù)測(cè)結(jié)果最高的類別的置信度高于閾值，該類別就會(huì)作為這張圖片的標(biāo)簽，即偽標(biāo)簽。然后，強(qiáng)增強(qiáng)后的圖片也會(huì)通過模型進(jìn)行一個(gè)分類的預(yù)測(cè)，此時(shí)會(huì)得到另一個(gè)預(yù)測(cè)結(jié)果，對(duì)模型的輸出施加交叉熵?fù)p失。基于FixMatch的網(wǎng)絡(luò)惡意加密流量檢測(cè)系統(tǒng)架構(gòu)如圖4所示。圖4基于FixMatch的網(wǎng)絡(luò)惡意加密流量檢測(cè)系統(tǒng)架構(gòu)3實(shí)驗(yàn)結(jié)果及分析3.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集本文實(shí)驗(yàn)在Windows10環(huán)境下運(yùn)行，處理器為AMDRyzen74800H，GPU為RTX2060，內(nèi)存為16GB。采用Pytorch1.8.0軟件框架實(shí)現(xiàn)基于FixMatch的網(wǎng)絡(luò)惡意加密流量識(shí)別。本實(shí)驗(yàn)選用的是開放數(shù)據(jù)集CTU-MalwareCapture和USTC-TFC2016中的部分?jǐn)?shù)據(jù)，數(shù)據(jù)由原始的PCAP文件組成。從CTU-MalwareCapture中選擇了Dridex，Dynamer，HTBot，Miuref，Zbot和Cerber6類使用TLS進(jìn)行加密通信的惡意應(yīng)用流量；從USTC-TFC2016中選擇了Neris，Shifu，Zeus，Virut和Htbot5類使用TLS進(jìn)行加密通信的惡意應(yīng)用流量。數(shù)據(jù)集構(gòu)成如表1和表2所示。表1CTU-Malware-Capture惡意家族樣本表2USTC-TFC2016數(shù)據(jù)集樣本3.2評(píng)價(jià)指標(biāo)本文采用查準(zhǔn)率（Precision）、召回率（Recall）、值（F1-score）和準(zhǔn)確率（Accuary）作為評(píng)價(jià)指標(biāo)來估計(jì)方法的分類效果，其定義如下：查準(zhǔn)率（Pre）：召回率（Rec）：準(zhǔn)確率（Acc）：式中：TP，TN，F(xiàn)P和FN分別為正確識(shí)別的目標(biāo)流量數(shù)、正確識(shí)別的其他流量數(shù)、錯(cuò)誤識(shí)別的目標(biāo)流量數(shù)和錯(cuò)誤識(shí)別為其他流量數(shù)的目標(biāo)流量數(shù)。3.3模型參數(shù)設(shè)置FixMatch模型訓(xùn)練時(shí)，選擇帶動(dòng)量的隨機(jī)梯度下降算法（StochasticGradientDescent，SGD）作為優(yōu)化器，且動(dòng)量的大小設(shè)置為0.9。批量大小（BatchSize）設(shè)置為100。本文參照FixMatch原論文的設(shè)定，將無監(jiān)督部分損失的系數(shù)設(shè)置為1，無標(biāo)簽數(shù)據(jù)批量倍數(shù)u設(shè)置為7。過濾低置信度的無標(biāo)簽樣本閾值τ設(shè)為0.95，學(xué)習(xí)率（LearningRate）設(shè)置為0.01，并且使用帶熱啟動(dòng)（WarmUp）的余弦學(xué)習(xí)率衰減（CosineDecaySchedule）。本文使用的網(wǎng)絡(luò)惡意加密流量分類模型的骨干網(wǎng)絡(luò)是CNN，批量大小設(shè)置為50。將數(shù)據(jù)集打亂后，設(shè)定0.2為拆分閾值，選取20%做測(cè)試集，剩下的為訓(xùn)練集。本文將提出的基于FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別方法分別與近年來提出的半監(jiān)督學(xué)習(xí)方法MixMatch、ICT以及經(jīng)典半監(jiān)督學(xué)習(xí)方法PseudoLabel進(jìn)行對(duì)比。在進(jìn)行實(shí)驗(yàn)前，對(duì)上述3種模型的超參數(shù)進(jìn)行設(shè)置，根據(jù)此前研究者們提供的參考值并結(jié)合實(shí)驗(yàn)結(jié)果，對(duì)實(shí)驗(yàn)參數(shù)進(jìn)行多次調(diào)整，設(shè)置參數(shù)值如表3所示。表3半監(jiān)督模型超參數(shù)3.4實(shí)驗(yàn)結(jié)果及分析3.4.1不同標(biāo)記樣本占比的結(jié)果對(duì)比將本文構(gòu)建的FixMatch模型與其他3種半監(jiān)督模型在不同少標(biāo)記樣本下進(jìn)行實(shí)驗(yàn)，在數(shù)據(jù)集和USTC-TFC2016下多分類結(jié)果如圖5、圖6所示。（a）不同標(biāo)記占比下的準(zhǔn)確率對(duì)比（b）不同標(biāo)記占比下的查準(zhǔn)率對(duì)比（c）不同標(biāo)記占比下的召回率對(duì)比（d）不同標(biāo)記占比下的F1對(duì)比圖5CTU-Malware-Capture在不同標(biāo)記樣本占比下的多分類結(jié)果對(duì)比

值逐漸趨于穩(wěn)定。（a）不同標(biāo)記占比下的準(zhǔn)確率對(duì)比（b）不同標(biāo)記占比下的查準(zhǔn)率對(duì)比（c）不同標(biāo)記占比下的召回率對(duì)比（d）不同標(biāo)記占比下的F1對(duì)比圖6USTC-TFC2016在不同標(biāo)記樣本占比下的多分類結(jié)果對(duì)比由圖5、圖6可知，在20%標(biāo)記樣本下，本文使用的所有半監(jiān)督模型都達(dá)到0.9以上的水平，這說明使用20%的標(biāo)記數(shù)據(jù)集，大部分模型都可以準(zhǔn)確識(shí)別惡意流量類型。隨著標(biāo)記樣本量的減少和未標(biāo)記樣本占比的上升，F(xiàn)ixMatch模型逐漸顯示出更好的分類效果。當(dāng)標(biāo)記樣本占比下降到10%時(shí)，除FixMatch模型各項(xiàng)指標(biāo)依然保持較高水平外，其他模型指標(biāo)都有明顯下降，說明FixMatch模型整體效果要優(yōu)于其他半監(jiān)督模型。在CTU-Malware-Capture數(shù)據(jù)集下，當(dāng)標(biāo)記樣本占比下降到0.3%時(shí)，與PseudoLabe算法相比，F(xiàn)ixMatch模型的查準(zhǔn)率、召回率、值分別提高了4.56%，3.26%和3.93%。在USTC-TFC2016數(shù)據(jù)集下，當(dāng)標(biāo)記樣本占比下降到0.5%時(shí)，與ICT相比，F(xiàn)ixMatch模型的查準(zhǔn)率、召回率、值分別提高了3.11%，3.47%和3.29%。該實(shí)驗(yàn)說明，標(biāo)記樣本占比逐漸減少對(duì)FixMatch模型造成的影響相對(duì)較小，尤其是標(biāo)記樣本占比極小時(shí)，F(xiàn)ixMatch模型的優(yōu)勢(shì)更加明顯。3.4.2不同算法性能對(duì)比隨著樣本數(shù)量的增加，F(xiàn)ixMatch的準(zhǔn)確率有穩(wěn)定上升的趨勢(shì)，在相同的樣本總數(shù)下，只需要少量標(biāo)記樣本就能達(dá)到其他半監(jiān)督學(xué)習(xí)模型的識(shí)別效果，這大大減少了在網(wǎng)絡(luò)流量識(shí)別中需要準(zhǔn)確標(biāo)記所有訓(xùn)練樣本的人力、物力和時(shí)間成本。同時(shí)，在樣本數(shù)量不斷增加時(shí)，模型的準(zhǔn)確率、查準(zhǔn)率、召回率和

值逐漸趨于穩(wěn)定。通過上述實(shí)驗(yàn)可以看到，在CTU-MalwareCapture和USTC-TFC2016數(shù)據(jù)集下，F(xiàn)ixMatch在20%的標(biāo)記樣本數(shù)時(shí)，能達(dá)到很好的識(shí)別效果。表4詳細(xì)記錄了FixMatch模型與MixMatch、ICT和PseudoLabel3種半監(jiān)督模型的對(duì)比結(jié)果。從表4可以看出，在CTU-Malware-Captu

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔