基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第1頁(yè)
基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第2頁(yè)
基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第3頁(yè)
基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第4頁(yè)
基于半監(jiān)督深度學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量識(shí)別方法_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)互聯(lián)網(wǎng)信息中心發(fā)布的第49次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年12月,中國(guó)互聯(lián)網(wǎng)普及率達(dá)73.0%?;ヂ?lián)網(wǎng)中采用加密的流量呈逐年攀升的趨勢(shì)。在全球主要國(guó)家與地區(qū),這一數(shù)據(jù)更是已經(jīng)超過了90%。由數(shù)據(jù)統(tǒng)計(jì)機(jī)構(gòu)Netmarketshare發(fā)布的統(tǒng)計(jì)數(shù)據(jù)可知,截至2019年10月2日,超文本傳輸安全協(xié)議(HyperTextTransferProtocoloverSecureSocketsLayer,HTTPS)加密萬維網(wǎng)(WorldWideWeb,WWW)流量在全球范圍內(nèi)被使用的比例已經(jīng)超過90%;2019年12月,谷歌宣稱80%的Android應(yīng)用程序默認(rèn)使用傳輸層安全協(xié)議(TransportLayerSecurity,TLS)加密所有流量,且這一比例還會(huì)隨著時(shí)間的推移而繼續(xù)增大。越來越多的惡意軟件隱匿在加密TLS流量中來傳輸惡意信息,對(duì)用戶、企業(yè)和國(guó)家的通信安全造成威脅。因此,對(duì)TLS惡意加密流量進(jìn)行高效識(shí)別對(duì)網(wǎng)絡(luò)監(jiān)管和打擊犯罪有著重要意義。

目前,已經(jīng)有國(guó)內(nèi)外研究人員對(duì)網(wǎng)絡(luò)惡意加密流量進(jìn)行研究,并且取得了一定的成就。提出對(duì)加密流量進(jìn)行深度包檢測(cè)(DeepPacketInspection,DPI)而無需解密的技術(shù),但在設(shè)置階段需要大量的計(jì)算和較長(zhǎng)的檢測(cè)時(shí)間。提出了一種TLS指紋識(shí)別系統(tǒng),該系統(tǒng)利用目標(biāo)地址、端口和服務(wù)器名精心構(gòu)造的指紋串。近年來,半監(jiān)督學(xué)習(xí)在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域也取得了顯著成績(jī)。提出了一種半監(jiān)督檢測(cè)模型,首先在大型未標(biāo)記數(shù)據(jù)集上訓(xùn)練,然后使用少量標(biāo)記數(shù)據(jù)集重新訓(xùn)練模型。谷歌的研發(fā)隊(duì)伍提出了MixMatch和FixMatch技術(shù),利用集成方法,提高了模型準(zhǔn)確率。為解決網(wǎng)絡(luò)惡意加密流量識(shí)別方法中大量標(biāo)記樣本獲取困難問題,本文提出一種基于FixMatch的網(wǎng)絡(luò)惡意加密流量識(shí)別方法。通過借助網(wǎng)絡(luò)流量圖片化方法將PCAP格式的原始流量數(shù)據(jù)以流為單位進(jìn)行切分、填充、映射到灰度圖片中,構(gòu)建FixMatch模型并對(duì)惡意加密流量進(jìn)行分類,在公開數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)證明識(shí)別效果優(yōu)于現(xiàn)有方法。1相關(guān)知識(shí)1.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一種人工神經(jīng)網(wǎng)絡(luò),目前已成為語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn),廣泛應(yīng)用于人臉識(shí)別、疾病分析、圖像處理等領(lǐng)域。CNN一般由輸入層、卷積層、池化層、全連接層以及輸出層構(gòu)成。其中卷積層可從輸入數(shù)據(jù)中快速精準(zhǔn)地提取樣本特征。池化層有2個(gè)典型特性:一是可以大幅度加快模型的訓(xùn)練速度,對(duì)提取的特征信息進(jìn)行降維處理,降低訓(xùn)練量。二是防止模型訓(xùn)練結(jié)果過擬合。實(shí)際的操作中,常在兩個(gè)相鄰的卷積層之間加入一層池化層。全連接層的特性之一是能將當(dāng)前訓(xùn)練所提取的特征和保留的樣本特征進(jìn)行組合。正是由于CNN擁有局部連接和權(quán)值共享的特性,使得CNN可以精準(zhǔn)高效地從輸入數(shù)據(jù)中挖掘潛在的特征。1.2一致性正則化一致性正則化是當(dāng)前最先進(jìn)的半監(jiān)督學(xué)習(xí)算法的一個(gè)重要組成部分。一致性正則化利用未標(biāo)記的數(shù)據(jù),它依賴于這樣一個(gè)假設(shè):當(dāng)輸入相同圖像的擾動(dòng)版本時(shí),模型應(yīng)該輸出相似的預(yù)測(cè)。該想法首次在LearningwithPseudo-Ensembles中提出,其中模型通過標(biāo)準(zhǔn)監(jiān)督分類損失和損失函數(shù)對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。式中:為一批標(biāo)記的樣本,為訓(xùn)練樣本,為one-hot標(biāo)簽。設(shè)為一批未標(biāo)記的樣本,其中u是確定X和U相對(duì)大小的超參數(shù)。設(shè)為模型對(duì)輸入X產(chǎn)生的預(yù)測(cè)類分布。1.3相關(guān)半監(jiān)督深度學(xué)習(xí)算法1.3.1偽標(biāo)簽(PseudoLabel)偽標(biāo)簽是一種簡(jiǎn)單有效的深度神經(jīng)網(wǎng)絡(luò)半監(jiān)督方法。其在監(jiān)督的方式下訓(xùn)練有標(biāo)簽的樣本,對(duì)于無標(biāo)記樣本通過偽標(biāo)簽的方法選擇出該數(shù)據(jù)具有的最大概率預(yù)測(cè)類,把這個(gè)預(yù)測(cè)出的標(biāo)簽作為實(shí)際標(biāo)簽使用。偽標(biāo)簽利用模型本身的思想為未標(biāo)記的數(shù)據(jù)獲取人工標(biāo)簽。具體來說,這指的是用“硬”標(biāo)簽(即模型輸出的參數(shù)最大值),并且只保留最大類概率高于預(yù)定義閾值的人工標(biāo)簽。令偽標(biāo)記使用以下?lián)p失函數(shù):式中:τ為閾值,兩個(gè)概率分布p和q之間的交叉熵為1.3.2MixMatchMixMatch是一種整體方法,它結(jié)合了半監(jiān)督學(xué)習(xí)主流范例中的思想。給定一組標(biāo)注實(shí)例X及其對(duì)應(yīng)的one-hot目標(biāo)(代表L個(gè)可能標(biāo)簽中的一個(gè))和一批大小相同的未標(biāo)記示例U,MixMatch將生成一批經(jīng)過處理的增強(qiáng)標(biāo)記示例X'和一批猜測(cè)標(biāo)簽U'的增強(qiáng)未標(biāo)記示例。然后分別使用U'和X'計(jì)算單獨(dú)的標(biāo)記和未標(biāo)記損失項(xiàng)。半監(jiān)督學(xué)習(xí)的組合損失L如下:式中:H(p,q)為分布p與分布q間的交叉熵;T,K,α,為超參數(shù)。模型對(duì)參數(shù)為θ的輸入x產(chǎn)生類標(biāo)簽y上的分布。1.3.3ICT插值一致性訓(xùn)練(InterpolationConsistencyTraining,ICT)鼓勵(lì)對(duì)于無標(biāo)記樣本點(diǎn)的插值的預(yù)測(cè)和這些樣本的預(yù)測(cè)的插值保持一致。ICT可以將決策邊界移動(dòng)到數(shù)據(jù)分布的低密度區(qū)域,如果兩個(gè)樣本在輸入分布中屬于同一個(gè)聚類或簇,它們很可能屬于同一個(gè)類別,這被稱為聚類假設(shè),這也表明好的決策邊界應(yīng)當(dāng)位于數(shù)據(jù)分布的低密度區(qū)域。不同的一致性正則化技術(shù)的區(qū)別在于如何選擇對(duì)未標(biāo)記數(shù)據(jù)的擾動(dòng),常規(guī)的做法是使用隨機(jī)擾動(dòng),但是在高維情況下只有很小比例的隨機(jī)擾動(dòng)能夠?qū)Q策邊界推到低密度區(qū)域,對(duì)此,ICT提出了一種簡(jiǎn)單但是有效的基于插值一致性的方法:式中:為ICT的訓(xùn)練分類器,θ'為θ的滑動(dòng)平均。為參數(shù)為λ的線性插值函數(shù):1.3.4FixMatch在一致性正則化和偽標(biāo)記方法基礎(chǔ)上,將它們相結(jié)合,提出了新的一些具有更高準(zhǔn)確率的方法。在2020年提出了FixMatch,該方法結(jié)合了偽標(biāo)簽和一致性正則化的思想,盡管FixMatch的整個(gè)環(huán)節(jié)較簡(jiǎn)單,但其在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都得到了目前的最好結(jié)果。FixMatch利用了兩種增強(qiáng):“弱”和“強(qiáng)”。FixMatch中使用的弱增強(qiáng)分為平移和翻轉(zhuǎn)兩類,數(shù)據(jù)增強(qiáng)前后,圖片變化不大。平移是基于空間上的變換,表現(xiàn)為上、下、左、右的平行移動(dòng)。翻轉(zhuǎn)表現(xiàn)為對(duì)圖片進(jìn)行水平、垂直翻轉(zhuǎn)。FixMatch中使用的強(qiáng)增強(qiáng)包含Cutout、CTAugment和RandAugment。Cutout是一種模擬遮擋的方法,表現(xiàn)為對(duì)圖像的部分區(qū)域進(jìn)行遮擋。AutoAugment是一種能夠利用搜索算法,自動(dòng)檢索合適的數(shù)據(jù)增強(qiáng)策略的方法。RandAugment是AutoAugment的變體,它給定了一個(gè)可以選擇的數(shù)據(jù)增強(qiáng)方法的列表,并給定了一些可能的數(shù)據(jù)增強(qiáng)幅度??梢詮倪@幾個(gè)列表中選擇N個(gè)增強(qiáng)方法,然后隨機(jī)選擇一個(gè)數(shù)據(jù)增強(qiáng)幅度上限M,使得這N個(gè)數(shù)據(jù)增強(qiáng)方法的幅度不能超過給定的幅度上限M,然后將這一系列增強(qiáng)方法用于圖片。CTAugment通過控制理論的思想解決了RandAugment中對(duì)于數(shù)據(jù)增強(qiáng)策略的學(xué)習(xí)需求,動(dòng)態(tài)學(xué)習(xí)了每個(gè)變換的幅度。對(duì)于每一個(gè)有標(biāo)簽樣本,用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型。對(duì)于每一個(gè)無標(biāo)簽樣本,采用弱增強(qiáng)得到一幅圖像,將該圖像傳遞給模型,得到一個(gè)預(yù)測(cè)結(jié)果,該模型會(huì)設(shè)定一個(gè)閾值,如果這個(gè)預(yù)測(cè)結(jié)果最高的類別的置信度高于閾值,那么,該類別就會(huì)作為這張圖片的標(biāo)簽。此時(shí),運(yùn)用了自訓(xùn)練的思想,即偽標(biāo)簽。然后,強(qiáng)增強(qiáng)后的圖片通過模型進(jìn)行一個(gè)分類的預(yù)測(cè),此時(shí)會(huì)得到另一個(gè)預(yù)測(cè)結(jié)果,對(duì)模型的輸出施加交叉熵?fù)p失。根據(jù)一致性正則化的思想,模型希望弱增強(qiáng)和強(qiáng)增強(qiáng)這兩種數(shù)據(jù)增強(qiáng)方法后的圖片的預(yù)測(cè)結(jié)果盡可能一致。最后,有標(biāo)簽樣本損失和無標(biāo)簽樣本損失的加權(quán)當(dāng)作模型總損失,以總損失最小為目標(biāo)優(yōu)化模型。FixMatch的處理流程如圖1所示。圖1FixMatch的處理流程2基于FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別方法2.1網(wǎng)絡(luò)流量圖片化基于文獻(xiàn)[19]對(duì)數(shù)據(jù)處理的經(jīng)驗(yàn),本節(jié)的網(wǎng)絡(luò)流量圖片化主要是使用工具集USTCTK2016將原始流量數(shù)據(jù)(PCAP)處理成cifar10數(shù)據(jù)集格式(便于更好地遷移到多數(shù)模型)。(1)流量切分:按照流量表示形式將原始PCAP文件按照數(shù)據(jù)流形式切分為多個(gè)PCAP文件,本數(shù)據(jù)流是具有相同五元組信息的數(shù)據(jù)包的時(shí)間排序集合。(2)圖片生成:將處理過的文件按照784字節(jié)進(jìn)行統(tǒng)一長(zhǎng)度處理,即保留文件前784字節(jié)數(shù)據(jù),舍棄文件785字節(jié)及以后的所有信息,如果長(zhǎng)度少于784字節(jié),則在文件后面補(bǔ)充0x00;統(tǒng)一長(zhǎng)度后的文件按照二進(jìn)制形式轉(zhuǎn)換為灰度圖片,即一個(gè)字節(jié)對(duì)應(yīng)灰度像素值,如0x00對(duì)應(yīng)黑色,0xff對(duì)應(yīng)白色,輸出格式為PNG。在公開數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)流量進(jìn)行圖片化處理后的效果如圖2、圖3所示。圖3USTC-TFC2016數(shù)據(jù)集下流量圖片化展示2.2構(gòu)建FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別模型2.2.1數(shù)據(jù)增強(qiáng)根據(jù)FixMatch模型中的弱增強(qiáng)和強(qiáng)增強(qiáng)方法對(duì)轉(zhuǎn)換成圖片的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理。本文采用的弱增強(qiáng)為50%的概率對(duì)圖片進(jìn)行水平翻轉(zhuǎn),利用reflect的方式進(jìn)行填充,然后進(jìn)行隨機(jī)裁剪和數(shù)據(jù)歸一化處理;本文采用RandAugment方法進(jìn)行數(shù)據(jù)強(qiáng)增強(qiáng),規(guī)定從RandAugment給定的數(shù)據(jù)增強(qiáng)方法列表N中隨機(jī)選擇增強(qiáng)方法,從1到10之間隨機(jī)選擇一個(gè)數(shù)據(jù)增強(qiáng)幅度上限M,使得這N個(gè)數(shù)據(jù)增強(qiáng)方法的幅度不能超過給定的幅度上限M。2.2.2FixMatch模型構(gòu)建FixMatch結(jié)合了偽標(biāo)簽和一致性正則化的思想,其損失函數(shù)由兩個(gè)交叉熵?fù)p失項(xiàng)組成:應(yīng)用于標(biāo)記數(shù)據(jù)的監(jiān)督損失和非監(jiān)督損失針對(duì)有標(biāo)簽樣本:使用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型,得到有監(jiān)督樣本的損失函數(shù)針對(duì)無標(biāo)簽樣本:首先,在給定的無標(biāo)簽圖像的弱增強(qiáng)版本下計(jì)算模型的預(yù)測(cè)類分布如果得到的類別預(yù)測(cè)結(jié)果的最值大于預(yù)先給定的閾值,則該類別就是這個(gè)圖片的標(biāo)簽。其次,使用作為偽標(biāo)簽,該圖片再經(jīng)過強(qiáng)增強(qiáng),得到強(qiáng)增強(qiáng)后的分類預(yù)測(cè)結(jié)果。這個(gè)結(jié)果與新生成的標(biāo)簽信息做交叉熵?fù)p失,得到無標(biāo)簽樣本的損失式中:τ為一個(gè)標(biāo)量超參數(shù),表示閾值以上保留一個(gè)偽標(biāo)簽。有標(biāo)簽樣本損失和無標(biāo)簽樣本損失的加權(quán)當(dāng)作模型總損失,以總損失最小為目標(biāo)優(yōu)化模型,F(xiàn)ixMatch最小的損失函數(shù)為其中為一個(gè)固定的標(biāo)量超參數(shù),表示未標(biāo)記損失的相對(duì)權(quán)重。FixMatch算法偽代碼如算法1所示。FixMatch模型的訓(xùn)練流程:對(duì)于每一個(gè)有標(biāo)簽的樣本,用交叉熵?fù)p失訓(xùn)練一個(gè)有監(jiān)督模型,得到一個(gè)有標(biāo)簽樣本的損失;對(duì)于每一個(gè)沒有標(biāo)簽的樣本,采用弱增強(qiáng)得到一幅圖像,將該圖像傳遞給模型,得到一個(gè)預(yù)測(cè)結(jié)果。比較模型與預(yù)先設(shè)定的閾值,如果這個(gè)預(yù)測(cè)結(jié)果最高的類別的置信度高于閾值,該類別就會(huì)作為這張圖片的標(biāo)簽,即偽標(biāo)簽。然后,強(qiáng)增強(qiáng)后的圖片也會(huì)通過模型進(jìn)行一個(gè)分類的預(yù)測(cè),此時(shí)會(huì)得到另一個(gè)預(yù)測(cè)結(jié)果,對(duì)模型的輸出施加交叉熵?fù)p失。基于FixMatch的網(wǎng)絡(luò)惡意加密流量檢測(cè)系統(tǒng)架構(gòu)如圖4所示。圖4基于FixMatch的網(wǎng)絡(luò)惡意加密流量檢測(cè)系統(tǒng)架構(gòu)3實(shí)驗(yàn)結(jié)果及分析3.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集本文實(shí)驗(yàn)在Windows10環(huán)境下運(yùn)行,處理器為AMDRyzen74800H,GPU為RTX2060,內(nèi)存為16GB。采用Pytorch1.8.0軟件框架實(shí)現(xiàn)基于FixMatch的網(wǎng)絡(luò)惡意加密流量識(shí)別。本實(shí)驗(yàn)選用的是開放數(shù)據(jù)集CTU-MalwareCapture和USTC-TFC2016中的部分?jǐn)?shù)據(jù),數(shù)據(jù)由原始的PCAP文件組成。從CTU-MalwareCapture中選擇了Dridex,Dynamer,HTBot,Miuref,Zbot和Cerber6類使用TLS進(jìn)行加密通信的惡意應(yīng)用流量;從USTC-TFC2016中選擇了Neris,Shifu,Zeus,Virut和Htbot5類使用TLS進(jìn)行加密通信的惡意應(yīng)用流量。數(shù)據(jù)集構(gòu)成如表1和表2所示。表1CTU-Malware-Capture惡意家族樣本表2USTC-TFC2016數(shù)據(jù)集樣本3.2評(píng)價(jià)指標(biāo)本文采用查準(zhǔn)率(Precision)、召回率(Recall)、值(F1-score)和準(zhǔn)確率(Accuary)作為評(píng)價(jià)指標(biāo)來估計(jì)方法的分類效果,其定義如下:查準(zhǔn)率(Pre):召回率(Rec):準(zhǔn)確率(Acc):式中:TP,TN,F(xiàn)P和FN分別為正確識(shí)別的目標(biāo)流量數(shù)、正確識(shí)別的其他流量數(shù)、錯(cuò)誤識(shí)別的目標(biāo)流量數(shù)和錯(cuò)誤識(shí)別為其他流量數(shù)的目標(biāo)流量數(shù)。3.3模型參數(shù)設(shè)置FixMatch模型訓(xùn)練時(shí),選擇帶動(dòng)量的隨機(jī)梯度下降算法(StochasticGradientDescent,SGD)作為優(yōu)化器,且動(dòng)量的大小設(shè)置為0.9。批量大小(BatchSize)設(shè)置為100。本文參照FixMatch原論文的設(shè)定,將無監(jiān)督部分損失的系數(shù)設(shè)置為1,無標(biāo)簽數(shù)據(jù)批量倍數(shù)u設(shè)置為7。過濾低置信度的無標(biāo)簽樣本閾值τ設(shè)為0.95,學(xué)習(xí)率(LearningRate)設(shè)置為0.01,并且使用帶熱啟動(dòng)(WarmUp)的余弦學(xué)習(xí)率衰減(CosineDecaySchedule)。本文使用的網(wǎng)絡(luò)惡意加密流量分類模型的骨干網(wǎng)絡(luò)是CNN,批量大小設(shè)置為50。將數(shù)據(jù)集打亂后,設(shè)定0.2為拆分閾值,選取20%做測(cè)試集,剩下的為訓(xùn)練集。本文將提出的基于FixMatch的TLS網(wǎng)絡(luò)惡意流量識(shí)別方法分別與近年來提出的半監(jiān)督學(xué)習(xí)方法MixMatch、ICT以及經(jīng)典半監(jiān)督學(xué)習(xí)方法PseudoLabel進(jìn)行對(duì)比。在進(jìn)行實(shí)驗(yàn)前,對(duì)上述3種模型的超參數(shù)進(jìn)行設(shè)置,根據(jù)此前研究者們提供的參考值并結(jié)合實(shí)驗(yàn)結(jié)果,對(duì)實(shí)驗(yàn)參數(shù)進(jìn)行多次調(diào)整,設(shè)置參數(shù)值如表3所示。表3半監(jiān)督模型超參數(shù)3.4實(shí)驗(yàn)結(jié)果及分析3.4.1不同標(biāo)記樣本占比的結(jié)果對(duì)比將本文構(gòu)建的FixMatch模型與其他3種半監(jiān)督模型在不同少標(biāo)記樣本下進(jìn)行實(shí)驗(yàn),在數(shù)據(jù)集和USTC-TFC2016下多分類結(jié)果如圖5、圖6所示。(a)不同標(biāo)記占比下的準(zhǔn)確率對(duì)比(b)不同標(biāo)記占比下的查準(zhǔn)率對(duì)比(c)不同標(biāo)記占比下的召回率對(duì)比(d)不同標(biāo)記占比下的F1對(duì)比圖5CTU-Malware-Capture在不同標(biāo)記樣本占比下的多分類結(jié)果對(duì)比

值逐漸趨于穩(wěn)定。(a)不同標(biāo)記占比下的準(zhǔn)確率對(duì)比(b)不同標(biāo)記占比下的查準(zhǔn)率對(duì)比(c)不同標(biāo)記占比下的召回率對(duì)比(d)不同標(biāo)記占比下的F1對(duì)比圖6USTC-TFC2016在不同標(biāo)記樣本占比下的多分類結(jié)果對(duì)比由圖5、圖6可知,在20%標(biāo)記樣本下,本文使用的所有半監(jiān)督模型都達(dá)到0.9以上的水平,這說明使用20%的標(biāo)記數(shù)據(jù)集,大部分模型都可以準(zhǔn)確識(shí)別惡意流量類型。隨著標(biāo)記樣本量的減少和未標(biāo)記樣本占比的上升,F(xiàn)ixMatch模型逐漸顯示出更好的分類效果。當(dāng)標(biāo)記樣本占比下降到10%時(shí),除FixMatch模型各項(xiàng)指標(biāo)依然保持較高水平外,其他模型指標(biāo)都有明顯下降,說明FixMatch模型整體效果要優(yōu)于其他半監(jiān)督模型。在CTU-Malware-Capture數(shù)據(jù)集下,當(dāng)標(biāo)記樣本占比下降到0.3%時(shí),與PseudoLabe算法相比,F(xiàn)ixMatch模型的查準(zhǔn)率、召回率、值分別提高了4.56%,3.26%和3.93%。在USTC-TFC2016數(shù)據(jù)集下,當(dāng)標(biāo)記樣本占比下降到0.5%時(shí),與ICT相比,F(xiàn)ixMatch模型的查準(zhǔn)率、召回率、值分別提高了3.11%,3.47%和3.29%。該實(shí)驗(yàn)說明,標(biāo)記樣本占比逐漸減少對(duì)FixMatch模型造成的影響相對(duì)較小,尤其是標(biāo)記樣本占比極小時(shí),F(xiàn)ixMatch模型的優(yōu)勢(shì)更加明顯。3.4.2不同算法性能對(duì)比隨著樣本數(shù)量的增加,F(xiàn)ixMatch的準(zhǔn)確率有穩(wěn)定上升的趨勢(shì),在相同的樣本總數(shù)下,只需要少量標(biāo)記樣本就能達(dá)到其他半監(jiān)督學(xué)習(xí)模型的識(shí)別效果,這大大減少了在網(wǎng)絡(luò)流量識(shí)別中需要準(zhǔn)確標(biāo)記所有訓(xùn)練樣本的人力、物力和時(shí)間成本。同時(shí),在樣本數(shù)量不斷增加時(shí),模型的準(zhǔn)確率、查準(zhǔn)率、召回率和

值逐漸趨于穩(wěn)定。通過上述實(shí)驗(yàn)可以看到,在CTU-MalwareCapture和USTC-TFC2016數(shù)據(jù)集下,F(xiàn)ixMatch在20%的標(biāo)記樣本數(shù)時(shí),能達(dá)到很好的識(shí)別效果。表4詳細(xì)記錄了FixMatch模型與MixMatch、ICT和PseudoLabel3種半監(jiān)督模型的對(duì)比結(jié)果。從表4可以看出,在CTU-Malware-Captu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論