基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第1頁
基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第2頁
基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第3頁
基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第4頁
基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

由于網(wǎng)絡(luò)攻擊的增加及其可能造成的嚴(yán)重損害,網(wǎng)絡(luò)安全是一個對社會至關(guān)重要的關(guān)鍵領(lǐng)域,信息和數(shù)據(jù)基礎(chǔ)設(shè)施遭受網(wǎng)絡(luò)攻擊的風(fēng)險越來越高。作為網(wǎng)絡(luò)空間安全的核心基礎(chǔ),密碼攻防領(lǐng)域的挑戰(zhàn)愈演愈烈。量子計算的發(fā)展使得傳統(tǒng)公鑰密碼算法變得不安全,為了應(yīng)對量子計算對公鑰密碼算法的威脅,全球掀起了后量子密碼算法研究的熱潮。然而,后量子密碼算法并不代表其實現(xiàn)過程達到了物理安全,后期出現(xiàn)的專門針對后量子密碼算法的側(cè)信道攻擊技術(shù),成為密碼算法物理安全的主要威脅手段。此外,機器學(xué)習(xí)和人工智能等技術(shù)的發(fā)展,使得密碼攻擊呈現(xiàn)系統(tǒng)化、智能化、平臺化、武器化和無源性等特點。信息系統(tǒng)平臺面臨的密碼防御困難越來越大。目前對于密碼攻擊和防御方面的研究大多數(shù)局限于密碼技術(shù)和理論的研究,且呈現(xiàn)出分支復(fù)雜、結(jié)構(gòu)多樣、知識分散等特點,在密碼攻防領(lǐng)域并不能形成整體的通用的攻防模式和框架,尤其是在文獻資料繁多的情況下,利用這些分散、局限的知識很難形成全面有效的防御方案以應(yīng)對系統(tǒng)基礎(chǔ)設(shè)施的安全挑戰(zhàn)。對密碼攻防領(lǐng)域的知識結(jié)構(gòu)和體系模式進行梳理可以形成領(lǐng)域知識模式和知識庫,避免知識凌亂分散和體系不統(tǒng)一,可以提供系統(tǒng)性的表示和分析能力。由于密碼攻防領(lǐng)域的特殊性,相關(guān)領(lǐng)域知識通常難以獲取,不利于研究人員應(yīng)用,且隨著知識大爆炸和大數(shù)據(jù)時代的到來,面臨海量數(shù)據(jù)資料,傳統(tǒng)的知識獲取方法不再適用。因此,知識圖譜作為近些年新興的知識庫管理技術(shù)在很多領(lǐng)域受到了廣泛的關(guān)注。知識圖譜是結(jié)構(gòu)化數(shù)據(jù)集合的一種,可以呈現(xiàn)知識的發(fā)展過程和關(guān)系圖,通過挖掘、分析、推理可以獲得知識潛在內(nèi)涵,并且可以使用其可視化功能提升知識的可理解性。知識圖譜的關(guān)系結(jié)構(gòu)適用于具有網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜關(guān)系的知識體系,適用于密碼攻防知識體系的構(gòu)建和應(yīng)用,可以促進密碼攻防模式的深入探索。為了生成密碼攻防領(lǐng)域知識模式,構(gòu)建該領(lǐng)域知識圖譜,基于人工智能技術(shù)和自然語言處理技術(shù),采用自頂向下方法,在密碼攻防領(lǐng)域本體的基礎(chǔ)上,收集多源領(lǐng)域文檔資料,通過知識圖譜技術(shù)構(gòu)建可維護、可重用、可共享和可分析的知識庫,并在該知識庫基礎(chǔ)上進行相關(guān)知識圖譜應(yīng)用。1

領(lǐng)域本體構(gòu)建獲取領(lǐng)域知識前,需要先歸納總結(jié)相關(guān)領(lǐng)域的本體概念,然后使用本體論的方法構(gòu)建知識模式。本體論研究方法是將知識[一個領(lǐng)域內(nèi)的概念(或?qū)嶓w)集合]及其之間的關(guān)系進行形式化的、明確的描述。在本體中,可以編碼或定義語義信息和組件,如概念、對象、關(guān)系、屬性、約束和公理,使本體具有機器可讀性和推理能力。這種方式不僅引入了形式化的、顯式的、可共享的和可重用的知識表示,還可以通過添加關(guān)于領(lǐng)域的新知識進行本體更新。1.1領(lǐng)域本體構(gòu)建方法本文使用Protégé5.5.0工具編輯和實現(xiàn)密碼攻防領(lǐng)域本體的構(gòu)建,具體流程可分為以下5個步驟:(1)確定領(lǐng)域的目的和范圍。領(lǐng)域是密碼攻防,領(lǐng)域本體目的是為構(gòu)建者提供密碼攻防領(lǐng)域的核心實體,以及如何實現(xiàn)實體之間的相互關(guān)聯(lián),生成一個可重用的密碼攻防領(lǐng)域的知識模式。領(lǐng)域工作范圍包括密碼攻擊和防御方面的內(nèi)容。(2)梳理領(lǐng)域?qū)嶓w和重要術(shù)語。對密碼攻防領(lǐng)域進行典型密碼攻防場景分析和文獻調(diào)查,形成基礎(chǔ)數(shù)據(jù)庫,其中包含1997—2022年的300多項研究和19項典型密碼攻防場景(如表1所示),從中得到200多種術(shù)語。表1密碼攻擊場景續(xù)表續(xù)表(3)定義核心概念、分類和描述。這里的分類并不限于創(chuàng)建類似于層次結(jié)構(gòu)的類結(jié)構(gòu),是為組成或影響密碼攻防領(lǐng)域的實體定義的一組概念。為每個核心概念提供定義并引出其同義詞術(shù)語,便于領(lǐng)域知識的重用和共享。例如攻擊者(如密碼工程師)是進行密碼攻擊的一方,它可以是一個人或組織,也可以是一個攻擊平臺。(4)定義關(guān)系。根據(jù)核心概念的定義創(chuàng)建概念之間的關(guān)系。有些關(guān)系直接在定義中表現(xiàn)出來,而有些關(guān)系可能是隱式的,因此需要對其進行顯式描述。例如,攻擊動機是激勵(驅(qū)動)攻擊者進行密碼攻擊的因素,因此,從“攻擊動機”到“攻擊者”可以建立一個關(guān)系“激勵”。“激勵”作為謂詞被創(chuàng)建,“攻擊動機”是它的主體,“攻擊者”是它的客體,符合主語—謂詞—賓語(Subject-Predicate-Object,SPO)三元組的格式和要求。(5)獲得本體。最后構(gòu)建出密碼攻防領(lǐng)域本體。1.2密碼攻防領(lǐng)域本體實現(xiàn)實現(xiàn)領(lǐng)域本體需要不斷積累領(lǐng)域知識,創(chuàng)造出領(lǐng)域概念和關(guān)系,要求對該領(lǐng)域的基本知識概念和應(yīng)用有全面的了解,此外,還要對學(xué)科交叉的知識點有清晰的認(rèn)識。基于文獻[3],著重介紹本體實現(xiàn)的關(guān)鍵內(nèi)容和過程,即定義概念、關(guān)系及描述。本文所有數(shù)據(jù)均來源于1997—2022年的典型攻擊場景及文獻調(diào)查,將文獻中的標(biāo)題、摘要和關(guān)鍵字等部分通過CiteSpace分析工具進行關(guān)聯(lián)分析,數(shù)據(jù)形式如表2所示。表2文獻調(diào)查數(shù)據(jù)示例1.2.1定義領(lǐng)域本體中的核心概念本節(jié)詳細介紹了組成和影響密碼攻防領(lǐng)域的實體相對應(yīng)的15個核心概念。每個概念描述了概念定義、同義詞術(shù)語、分類方法和一些其他屬性。攻擊防御模型如圖1和圖2所示。攻擊模型表示典型密碼攻擊場景中攻擊者的攻擊流程:攻擊者受一定因素(動機)的激勵,根據(jù)自身的密碼攻防知識,形成攻擊目標(biāo);分析目標(biāo)系統(tǒng)實現(xiàn)的核心操作,找到攻擊點,利用攻擊機制(攻擊方法),制定攻擊策略;執(zhí)行攻擊并得到攻擊結(jié)果;結(jié)果反饋到滿足攻擊動機的預(yù)定攻擊目標(biāo)。防御模型則表示在典型的防御場景中的防御流程:根據(jù)安全目標(biāo)和自身基礎(chǔ)知識,通過軟硬件系統(tǒng)形成密碼防御系統(tǒng);分析密碼系統(tǒng)核心實現(xiàn)面臨的攻擊威脅,根據(jù)防御機制(防御方法),形成防御策略;根據(jù)防御效果,對防御方案進行安全性評價;進行防御策略更新。圖2防御模型由圖1和圖2中的模型可以得到攻擊者、攻擊動機、攻擊目標(biāo)、基礎(chǔ)知識等15類定義,在Protégé工具中的結(jié)構(gòu)如圖3所示,將典型攻擊場景和文獻調(diào)查中的實體類進行細分。圖3本體概念的實現(xiàn)1.2.2定義領(lǐng)域本體中的關(guān)系基于上述給出的15大類定義,本文根據(jù)攻擊者和防御者模型的流程分析,提取出核心概念之間的17種關(guān)系構(gòu)成SPO三元組。這些關(guān)系及其主體、方向和客體(結(jié)束)如表3所示。表3關(guān)系列舉1.2.3在本體中定義其他描述除表3中對概念和關(guān)系的公理描述外,還可以添加注釋。例如,添加實例注釋有利于后期實例編輯和知識分析;還可以增加一條推理規(guī)則:如果攻擊者制定并執(zhí)行某種攻擊方法,該攻擊方法應(yīng)用于特定的密碼系統(tǒng),則從攻擊者到密碼系統(tǒng)將創(chuàng)建一個關(guān)系“攻擊”。另外,為了統(tǒng)計分析后期構(gòu)建的知識圖譜,還需要為每個類的所有子類添加諸如“上游查詢次數(shù)”“下游查詢次數(shù)”“最新查詢時間”等屬性。1.2.4獲得密碼攻防領(lǐng)域本體根據(jù)核心概念和關(guān)系的梳理,使用Protégé工具構(gòu)建的密碼攻防領(lǐng)域本體如圖4所示,其中每個方框里的概念表示附近核心概念的分類法,核心概念及其關(guān)系為圖中虛線連接起來的部分,右邊區(qū)域為關(guān)系的圖例。將實體和關(guān)系以簡潔的方式進行梳理整合,得到密碼攻防領(lǐng)域?qū)嶓w關(guān)系,如圖5所示。圖5中三元組<攻擊動機,激勵,攻擊者>表示為兩個○概念和一個→關(guān)系的形式。圖4Protégé構(gòu)建的密碼攻防領(lǐng)域本體圖5密碼攻防領(lǐng)域?qū)嶓w關(guān)系通過上述的構(gòu)建過程,在Protégé中編碼了15個核心概念和17種核心概念之間的關(guān)系,并提供了相關(guān)的描述、規(guī)則和注釋。后續(xù)可以使用資源描述框架(Resource

DescriptionFramework,RDF)、可擴展標(biāo)記語言(ExtensibleMarkupLanguage,XML)、網(wǎng)絡(luò)本體語言(WebOntologyLanguage,OWL)等多種本體描述語言和文件格式導(dǎo)出該領(lǐng)域本體,實現(xiàn)領(lǐng)域知識模式的重用和共享。2領(lǐng)域知識圖譜構(gòu)建基于現(xiàn)階段的人工智能技術(shù)和自然語言處理技術(shù),采用自頂向下方法,在密碼攻防領(lǐng)域本體的基礎(chǔ)上,收集多源的領(lǐng)域文檔資料進行預(yù)處理,采用基于深度學(xué)習(xí)的聯(lián)合信息抽取方法構(gòu)建密碼攻防領(lǐng)域知識圖譜,構(gòu)建流程架構(gòu)如圖6所示。圖6領(lǐng)域知識圖譜構(gòu)建流程架構(gòu)圖6中(1)本體開發(fā)和(2)典型密碼攻防場景已在第1章節(jié)介紹,(7)~(10)是知識圖譜后期更新維護的過程,與(3)~(6)大體相同。下面著重介紹多源數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、聯(lián)合學(xué)習(xí)方法、結(jié)果及分析和知識入庫5個方面的內(nèi)容。2.1多源數(shù)據(jù)清洗數(shù)據(jù)資料的來源有很多方面,如最新的機構(gòu)研究報告、文獻資料、百科知識等。不同來源的文檔數(shù)據(jù),除了在文檔格式上的區(qū)別(如HTML、PDF、DOCX、TXT等),還有語言、語法、習(xí)慣、場合等方面的區(qū)別,因此需要對不同來源的數(shù)據(jù)分別進行清洗處理,生成包含單條句子的不同來源數(shù)據(jù)集。這樣將不同來源的格式化和非格式化數(shù)據(jù)文檔進行統(tǒng)一整理,輸出統(tǒng)一格式,一般為用于自然語言處理的原始數(shù)據(jù)集,每行表示一條語句的UTF-8編碼的文本數(shù)據(jù)格式。多源數(shù)據(jù)清洗的流程如圖7所示。第1步,收集整理到密碼攻防領(lǐng)域多源文檔資料,文檔分為3類:研究報告,來源于網(wǎng)絡(luò)平臺,一般可以輸出為TXT或DOCX格式文檔;領(lǐng)域文獻資料,來源于中文期刊摘要和正文部分,一般是PDF或CAJ格式,可以轉(zhuǎn)化為TXT文檔;網(wǎng)絡(luò)百科,采用網(wǎng)絡(luò)爬蟲的方式,由初始關(guān)鍵詞出發(fā),查詢到大量相關(guān)領(lǐng)域詞條信息,經(jīng)過人工刪除整理形成數(shù)據(jù)文檔。第2步,針對每一類型的文檔進行文字提取,如HTML格式文檔可以根據(jù)標(biāo)簽取值,取得含有表述實際意義的段落或者句子,PDF和DOC文檔則可以轉(zhuǎn)化為TXT文本格式。第3步,文字清理,將文檔中文字意義表征不明顯或不相關(guān)的段落或句子刪除,如圖片、超鏈接、公式、廣告句等,僅保留有意義的段落。第4步,文檔組合,將上述文檔進行拆分合并,保持合并之后的每個文檔數(shù)據(jù)量相當(dāng),避免出現(xiàn)數(shù)據(jù)量過大或者過小的文檔。第5步,對每個文檔進行分句處理,每一個句子占用一行,是自然語言處理前期數(shù)據(jù)準(zhǔn)備的常規(guī)操作,用來規(guī)范數(shù)據(jù)輸入源,分句算法如算法1所示。其中分句符號一般包括中文句號、英文句號、省略號等。圖7多源數(shù)據(jù)清洗流程由算法1可知,運用文檔分句算法時,首先需要將整個文檔讀入內(nèi)存,去除換行符,將文檔內(nèi)容組合為一條字符串,然后將該字符串以預(yù)定的分句符號集(cutFlags)進行分割,最終得到該文檔的語句集合(sentences)。2.2數(shù)據(jù)預(yù)處理2.2.1分詞和詞向量生成通常文字(中文或英文)不能被機器模型所識別,不能直接用于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,需要將其進行向量化。對于中文自然語言句子,可以將每個文字或者每個詞組作為一個唯一標(biāo)識,對這些唯一標(biāo)識進行向量化后可以進行模型訓(xùn)練。中文字或詞向量化的主要方法有word2vec,如連續(xù)詞袋模型(ContinuousBagofWords,CBOW)、skip-gram模型和預(yù)訓(xùn)練模型(Bidirectional

EncoderRepresentationsfromTransformers,BERT)。CBOW模型利用上下文信息來預(yù)測中心字,skip-gram模型是利用中心字來預(yù)測周邊臨近的字,大型預(yù)訓(xùn)練模型則根據(jù)字在句子中的上下文信息得出其字向量,可以解決word2vec中一詞多義問題。BERT模型使用雙向Transformer編碼器兼顧上下文信息,根據(jù)字在句子中的上下文信息得出其字向量,也可以解決一詞多義問題。本文選用BERT中文預(yù)訓(xùn)練模型來產(chǎn)生字向量。BERT模型的輸入表示包含3個部分:WordPiece向量、位置向量(PositionEmbedding)和句子向量(SegmentEmbedding),如圖8所示。其中“[CLS]”為句子的開始標(biāo)記,“[SEP]”為句子的分割標(biāo)記。圖8BERT的輸入向量合成2.2.2序列標(biāo)注序列標(biāo)注是自然語言的基礎(chǔ)任務(wù)之一,目前主流的序列標(biāo)注方法有BIO、BIOES、IO、BMOES等,由于密碼攻防領(lǐng)域的特殊性,常會在文獻中出現(xiàn)復(fù)雜的實體,因此采用“BMOES-4位序列標(biāo)注法”將清洗的語句集合進行標(biāo)注。2.3聯(lián)合學(xué)習(xí)法信息抽取任務(wù)是從預(yù)處理好的數(shù)據(jù)集中抽取出符合本體要求的SPO三元組的過程,是知識圖譜構(gòu)建的關(guān)鍵過程。信息抽取任務(wù)可以分為命名實體識別(NamedEntityRecognition,NER)和關(guān)系抽?。≧elationExtraction,RE)兩個部分。命名實體識別是信息抽取和信息檢索中的一項重要任務(wù),其目的是識別出文本中表示命名實體的成分,并對其進行分類。中文命名實體識別方法有Lattice-LSTM、Lattice-LSTM-CRF、BiLSTM-CRF

和BERT-BiLSTM-CRF等。其中的條件隨機場(ConditionalRandom

Field,CRF)的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且包含了標(biāo)簽轉(zhuǎn)移特征函數(shù),在位置標(biāo)注過程中可以充分利用內(nèi)部及上下文特征信息。關(guān)系抽取的方法主要分為兩類:一類是流水線方法,即先抽取實體,再對實體進行關(guān)系分類;另一類是聯(lián)合學(xué)習(xí)方法,是指同時進行實體識別和關(guān)系分類。試驗表明,聯(lián)合學(xué)習(xí)方法大大提升了實體和關(guān)系的抽取效果。例如,潘航宇提出了基于參數(shù)共享的聯(lián)合學(xué)習(xí)方法,將實體和關(guān)系抽取任務(wù)利用共享的編碼層建立聯(lián)系,兩個任務(wù)模型損失組合,再通過反向傳播調(diào)整參數(shù)來提升訓(xùn)練效果。因此,本文采用了聯(lián)合學(xué)習(xí)方法(BERT-BiLSTM-CRF-Att,BBCA),如圖9所示。圖9聯(lián)合學(xué)習(xí)方法圖9中主體包含了3個步驟:第1步,BERT詞嵌入,即將中文分詞后的語句向量化,使得每個字之間的語義信息相互關(guān)聯(lián);第2步,左側(cè)部分NER模塊,分為BiLSTM編碼層和CRF解碼層,BiLSTM層是長短時記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)的變體,使用LSTM對詞嵌入進行編碼,再使用條件隨機場CRF確定每個字的標(biāo)注分類,即概率;第3步,右側(cè)部分RE模塊,將第1步的字向量和第2步的信息進行拼接,通過多頭注意力機制提升分類的準(zhǔn)確率,最后利用全連接層計算關(guān)系類別的概率。在損失合并方面,利用中間監(jiān)督調(diào)整權(quán)衡參數(shù),以提升訓(xùn)練效果。2.3.1命名實體識別聯(lián)合學(xué)習(xí)法中命名實體識別包含BiLSTM層、Encode層和CRF層3個部分。其中,BiLSTM層結(jié)合上下文信息進行編碼,通過合并正向和反向兩條鏈路計算輸出;Encode層將高維向量映射到符合標(biāo)簽維度的輸出;CRF層是一個方形矩陣,表示標(biāo)簽之間的轉(zhuǎn)移信息,提高輸出的合法性。(1)BiLSTM層:即雙向長短時記憶網(wǎng)絡(luò),通過合并正向和反向兩條鏈路計算輸出,更好地捕獲雙向的語義依賴。正向LSTM層可以用下式表示:式中:為t時次輸入;為t時次輸出;分別為輸入門、遺忘門、輸出門和當(dāng)前信息的候選狀態(tài);角標(biāo)i,f,o,c,h為元素序號;W為轉(zhuǎn)換矩陣;b為偏置向量;σ和tanh為Sigmoid和雙曲正切函數(shù);⊙為逐元素乘積;t和t-1為時間序列。反向的LSTM計算方法同正向LSTM,輸出為則最終的BiLSTM輸出為正反兩個方向的隱藏狀態(tài)(2)Encode層:BiLSTM層的輸出是高維信息,若要得到每個字對應(yīng)實體標(biāo)簽的預(yù)測概率,還需要向低維度進行投影,即需要加入一個全連接層。每個語句輸出的特征信息經(jīng)過全連接層之后得到標(biāo)簽概率其中M為語句長度;L為標(biāo)簽數(shù)。(3)CRF層:為了保證序列的局部一致性,通常在Encode層之后添加CRF層。CRF具有轉(zhuǎn)移特征,考慮了輸出標(biāo)簽之間的順序,經(jīng)過訓(xùn)練之后的CRF層可以感知全局的約束信息,使得實體識別更加精準(zhǔn)。CRF判別過程如下:式中:y為標(biāo)注序列;x為單詞序列;Score(x,y)為單詞序列x產(chǎn)生標(biāo)注序列y的得分,得分越高則說明其產(chǎn)生的概率越大。2.3.2關(guān)系抽取通過多頭注意力機制獲取關(guān)系分類信息,根據(jù)輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,得出對每個詞語關(guān)系類別預(yù)測的貢獻程度大小。注意力機制計算方法如圖10所示。該機制將輸入數(shù)據(jù)分為查詢向量Q和鍵值對K-V兩個部分。查詢向量Q表示需要注意的目標(biāo),而鍵值對K-V用于表示輸入數(shù)據(jù)的各個部分,Q,K,V三者都通過輸入矩陣X作線性變換而來,變換矩陣為通過計算查詢向量Q和鍵值對K-V之間的相似度,可以獲得不同部分的權(quán)重值。圖10注意力機制計算方法第1步,將Q和K矩陣經(jīng)過MatMul生成相似度矩陣;第2步,對相似度矩陣作縮放(Scale);第3步,對向量掩碼;第4步,對相似度進行歸一化(SoftMax)處理,得到歸一化之后的權(quán)重矩陣;第5步,將權(quán)重矩陣與V相乘,得到加權(quán)求和的輸出結(jié)果。利用多頭注意力機制將上述注意力過程經(jīng)過多次重復(fù),對結(jié)果進行拼接。在多次中每次使用的線性變換矩陣均不同,則對向量空間的表示也不同,能獲得更多的文本特征信息。2.3.3基于中間監(jiān)督的損失合并由于實體識別和關(guān)系抽取的階段性,基于中間監(jiān)督構(gòu)建損失函數(shù),將實體識別的損失作為最終總損失函數(shù)的一部分,總損失函數(shù)如下:式中:CEL為損失函數(shù);pe'和pr'分別表示實體識別和關(guān)系抽取生成結(jié)果;α和β為權(quán)衡參數(shù),均設(shè)置為0.5。2.4結(jié)果及分析(1)數(shù)據(jù)集。鑒于密碼攻防領(lǐng)域的特殊性,當(dāng)前并未有公開的中文專業(yè)數(shù)據(jù)集。通過人工收集密碼攻防領(lǐng)域的中文源數(shù)據(jù)集(主要來源有研究報告、百科知識及文獻資料等)。從這些數(shù)據(jù)資料中提取了3012條合法語句,每條語句均經(jīng)人工標(biāo)注,包含一條以上的實體或關(guān)系。(2)評價指標(biāo)。本文使用的是通用評價指標(biāo)準(zhǔn)確率(Precision)、召回率(Recall)和F1值進行信息抽取效果評估,其值由下式得到:式中:TP為真正例;FP為假正例;FN為假反例;F1值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值。(3)結(jié)果及分析。為了驗證使用的聯(lián)合抽取模型的有效性,綜合對比了傳統(tǒng)模型Lattice-LSTM、BiLSTM-CRF和BERT-BiLSTM-CRF,試驗結(jié)果如表4所示。由表4可以看出,聯(lián)合學(xué)習(xí)方法整體的效果優(yōu)于傳統(tǒng)模型,主要原因有兩點:特征向量的生成采用了預(yù)訓(xùn)練模型,準(zhǔn)確率更高;在關(guān)系分類時采用了注意力機制,減少了分類噪聲,也提高了準(zhǔn)確率。表4試驗結(jié)果由表4還可以看出,以上訓(xùn)練結(jié)果較其他領(lǐng)域開源公共數(shù)據(jù)集訓(xùn)練低,主要有兩方面原因:一方面,多源的領(lǐng)域數(shù)據(jù)集收集可能不夠全面,代表性不足;另一方面,領(lǐng)域知識模型可能不夠精確,領(lǐng)域本體可能還有需要改進的地方。通過模型訓(xùn)練和預(yù)測,共產(chǎn)生密碼攻防領(lǐng)域?qū)嶓w620個,SPO三元組1247組。三元組示例如表5所示,統(tǒng)計結(jié)果如圖11所示。表5試驗產(chǎn)生的SPO三元組圖11知識圖譜統(tǒng)計2.5知識入庫使用圖數(shù)據(jù)庫Neo4j作為存儲、顯示知識圖譜和分析密碼攻擊的工具。Neo4j能夠更容易、更快速地表示、檢索和導(dǎo)航連接的數(shù)據(jù)。Neo4jCQL(查詢語言)命令是聲明式模式匹配的,采用人類可讀的格式,易于學(xué)習(xí)。3

領(lǐng)域知識圖譜應(yīng)用3.1路徑查找算法基于本文構(gòu)建的知識圖譜有如下設(shè)定:(1)給15個類的每個子類實例都增加若干個“成功次數(shù)”屬性,體現(xiàn)節(jié)點關(guān)系之間的權(quán)重分配,各節(jié)點間的查詢順序也可以使用該屬性進行排序;(2)每次攻擊成功,即攻擊效果滿足目標(biāo)要求,則該路徑上所有節(jié)點的“成功次數(shù)”屬性加1;(3)每次防御成功,即防御效果滿足目標(biāo)要求,則該路徑上所有節(jié)點的“成功次數(shù)”屬性加1;(4)路徑查詢中優(yōu)先從具有較高“成功次數(shù)”屬性的節(jié)點路徑進行選擇;(5)路徑查詢中在任何一步都可以有優(yōu)先性(條件),這是基于攻擊者或防御者前期經(jīng)驗設(shè)定的。由此引出以下兩個路徑探索算法:在算法2中,以攻擊者(atter)或者攻擊動機(att_mot)為起始點,在未到達攻擊點(att_point)之前,將路徑上符合條件的節(jié)點加入攻擊路徑(att_path)中。下一節(jié)點查詢順序以高“成功次數(shù)”優(yōu)先,且路徑中需滿足預(yù)設(shè)條件。到達攻擊點之后執(zhí)行攻擊,如果攻擊成功,則返回攻擊路徑;如果攻擊失敗,則清空

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論