基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建

上傳人：1*** IP屬地：湖南上傳時間：2024-09-12 格式：DOCX 頁數(shù)：25 大小：469.05KB 積分：16 舉報 版權(quán)申訴

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第2頁

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第3頁

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第4頁

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建_第5頁

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

由于網(wǎng)絡(luò)攻擊的增加及其可能造成的嚴(yán)重?fù)p害，網(wǎng)絡(luò)安全是一個對社會至關(guān)重要的關(guān)鍵領(lǐng)域，信息和數(shù)據(jù)基礎(chǔ)設(shè)施遭受網(wǎng)絡(luò)攻擊的風(fēng)險越來越高。作為網(wǎng)絡(luò)空間安全的核心基礎(chǔ)，密碼攻防領(lǐng)域的挑戰(zhàn)愈演愈烈。量子計算的發(fā)展使得傳統(tǒng)公鑰密碼算法變得不安全，為了應(yīng)對量子計算對公鑰密碼算法的威脅，全球掀起了后量子密碼算法研究的熱潮。然而，后量子密碼算法并不代表其實現(xiàn)過程達(dá)到了物理安全，后期出現(xiàn)的專門針對后量子密碼算法的側(cè)信道攻擊技術(shù)，成為密碼算法物理安全的主要威脅手段。此外，機(jī)器學(xué)習(xí)和人工智能等技術(shù)的發(fā)展，使得密碼攻擊呈現(xiàn)系統(tǒng)化、智能化、平臺化、武器化和無源性等特點。信息系統(tǒng)平臺面臨的密碼防御困難越來越大。目前對于密碼攻擊和防御方面的研究大多數(shù)局限于密碼技術(shù)和理論的研究，且呈現(xiàn)出分支復(fù)雜、結(jié)構(gòu)多樣、知識分散等特點，在密碼攻防領(lǐng)域并不能形成整體的通用的攻防模式和框架，尤其是在文獻(xiàn)資料繁多的情況下，利用這些分散、局限的知識很難形成全面有效的防御方案以應(yīng)對系統(tǒng)基礎(chǔ)設(shè)施的安全挑戰(zhàn)。對密碼攻防領(lǐng)域的知識結(jié)構(gòu)和體系模式進(jìn)行梳理可以形成領(lǐng)域知識模式和知識庫，避免知識凌亂分散和體系不統(tǒng)一，可以提供系統(tǒng)性的表示和分析能力。由于密碼攻防領(lǐng)域的特殊性，相關(guān)領(lǐng)域知識通常難以獲取，不利于研究人員應(yīng)用，且隨著知識大爆炸和大數(shù)據(jù)時代的到來，面臨海量數(shù)據(jù)資料，傳統(tǒng)的知識獲取方法不再適用。因此，知識圖譜作為近些年新興的知識庫管理技術(shù)在很多領(lǐng)域受到了廣泛的關(guān)注。知識圖譜是結(jié)構(gòu)化數(shù)據(jù)集合的一種，可以呈現(xiàn)知識的發(fā)展過程和關(guān)系圖，通過挖掘、分析、推理可以獲得知識潛在內(nèi)涵，并且可以使用其可視化功能提升知識的可理解性。知識圖譜的關(guān)系結(jié)構(gòu)適用于具有網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜關(guān)系的知識體系，適用于密碼攻防知識體系的構(gòu)建和應(yīng)用，可以促進(jìn)密碼攻防模式的深入探索。為了生成密碼攻防領(lǐng)域知識模式，構(gòu)建該領(lǐng)域知識圖譜，基于人工智能技術(shù)和自然語言處理技術(shù)，采用自頂向下方法，在密碼攻防領(lǐng)域本體的基礎(chǔ)上，收集多源領(lǐng)域文檔資料，通過知識圖譜技術(shù)構(gòu)建可維護(hù)、可重用、可共享和可分析的知識庫，并在該知識庫基礎(chǔ)上進(jìn)行相關(guān)知識圖譜應(yīng)用。1

領(lǐng)域本體構(gòu)建獲取領(lǐng)域知識前，需要先歸納總結(jié)相關(guān)領(lǐng)域的本體概念，然后使用本體論的方法構(gòu)建知識模式。本體論研究方法是將知識［一個領(lǐng)域內(nèi)的概念（或?qū)嶓w）集合］及其之間的關(guān)系進(jìn)行形式化的、明確的描述。在本體中，可以編碼或定義語義信息和組件，如概念、對象、關(guān)系、屬性、約束和公理，使本體具有機(jī)器可讀性和推理能力。這種方式不僅引入了形式化的、顯式的、可共享的和可重用的知識表示，還可以通過添加關(guān)于領(lǐng)域的新知識進(jìn)行本體更新。1.1領(lǐng)域本體構(gòu)建方法本文使用Protégé5.5.0工具編輯和實現(xiàn)密碼攻防領(lǐng)域本體的構(gòu)建，具體流程可分為以下5個步驟：（1）確定領(lǐng)域的目的和范圍。領(lǐng)域是密碼攻防，領(lǐng)域本體目的是為構(gòu)建者提供密碼攻防領(lǐng)域的核心實體，以及如何實現(xiàn)實體之間的相互關(guān)聯(lián)，生成一個可重用的密碼攻防領(lǐng)域的知識模式。領(lǐng)域工作范圍包括密碼攻擊和防御方面的內(nèi)容。（2）梳理領(lǐng)域?qū)嶓w和重要術(shù)語。對密碼攻防領(lǐng)域進(jìn)行典型密碼攻防場景分析和文獻(xiàn)調(diào)查，形成基礎(chǔ)數(shù)據(jù)庫，其中包含1997—2022年的300多項研究和19項典型密碼攻防場景（如表1所示），從中得到200多種術(shù)語。表1密碼攻擊場景續(xù)表續(xù)表（3）定義核心概念、分類和描述。這里的分類并不限于創(chuàng)建類似于層次結(jié)構(gòu)的類結(jié)構(gòu)，是為組成或影響密碼攻防領(lǐng)域的實體定義的一組概念。為每個核心概念提供定義并引出其同義詞術(shù)語，便于領(lǐng)域知識的重用和共享。例如攻擊者（如密碼工程師）是進(jìn)行密碼攻擊的一方，它可以是一個人或組織，也可以是一個攻擊平臺。（4）定義關(guān)系。根據(jù)核心概念的定義創(chuàng)建概念之間的關(guān)系。有些關(guān)系直接在定義中表現(xiàn)出來，而有些關(guān)系可能是隱式的，因此需要對其進(jìn)行顯式描述。例如，攻擊動機(jī)是激勵（驅(qū)動）攻擊者進(jìn)行密碼攻擊的因素，因此，從“攻擊動機(jī)”到“攻擊者”可以建立一個關(guān)系“激勵”?！凹睢弊鳛橹^詞被創(chuàng)建，“攻擊動機(jī)”是它的主體，“攻擊者”是它的客體，符合主語—謂詞—賓語（Subject-Predicate-Object，SPO）三元組的格式和要求。（5）獲得本體。最后構(gòu)建出密碼攻防領(lǐng)域本體。1.2密碼攻防領(lǐng)域本體實現(xiàn)實現(xiàn)領(lǐng)域本體需要不斷積累領(lǐng)域知識，創(chuàng)造出領(lǐng)域概念和關(guān)系，要求對該領(lǐng)域的基本知識概念和應(yīng)用有全面的了解，此外，還要對學(xué)科交叉的知識點有清晰的認(rèn)識。基于文獻(xiàn)[3]，著重介紹本體實現(xiàn)的關(guān)鍵內(nèi)容和過程，即定義概念、關(guān)系及描述。本文所有數(shù)據(jù)均來源于1997—2022年的典型攻擊場景及文獻(xiàn)調(diào)查，將文獻(xiàn)中的標(biāo)題、摘要和關(guān)鍵字等部分通過CiteSpace分析工具進(jìn)行關(guān)聯(lián)分析，數(shù)據(jù)形式如表2所示。表2文獻(xiàn)調(diào)查數(shù)據(jù)示例1.2.1定義領(lǐng)域本體中的核心概念本節(jié)詳細(xì)介紹了組成和影響密碼攻防領(lǐng)域的實體相對應(yīng)的15個核心概念。每個概念描述了概念定義、同義詞術(shù)語、分類方法和一些其他屬性。攻擊防御模型如圖1和圖2所示。攻擊模型表示典型密碼攻擊場景中攻擊者的攻擊流程：攻擊者受一定因素（動機(jī)）的激勵，根據(jù)自身的密碼攻防知識，形成攻擊目標(biāo)；分析目標(biāo)系統(tǒng)實現(xiàn)的核心操作，找到攻擊點，利用攻擊機(jī)制（攻擊方法），制定攻擊策略；執(zhí)行攻擊并得到攻擊結(jié)果；結(jié)果反饋到滿足攻擊動機(jī)的預(yù)定攻擊目標(biāo)。防御模型則表示在典型的防御場景中的防御流程：根據(jù)安全目標(biāo)和自身基礎(chǔ)知識，通過軟硬件系統(tǒng)形成密碼防御系統(tǒng)；分析密碼系統(tǒng)核心實現(xiàn)面臨的攻擊威脅，根據(jù)防御機(jī)制（防御方法），形成防御策略；根據(jù)防御效果，對防御方案進(jìn)行安全性評價；進(jìn)行防御策略更新。圖2防御模型由圖1和圖2中的模型可以得到攻擊者、攻擊動機(jī)、攻擊目標(biāo)、基礎(chǔ)知識等15類定義，在Protégé工具中的結(jié)構(gòu)如圖3所示，將典型攻擊場景和文獻(xiàn)調(diào)查中的實體類進(jìn)行細(xì)分。圖3本體概念的實現(xiàn)1.2.2定義領(lǐng)域本體中的關(guān)系基于上述給出的15大類定義，本文根據(jù)攻擊者和防御者模型的流程分析，提取出核心概念之間的17種關(guān)系構(gòu)成SPO三元組。這些關(guān)系及其主體、方向和客體（結(jié)束）如表3所示。表3關(guān)系列舉1.2.3在本體中定義其他描述除表3中對概念和關(guān)系的公理描述外，還可以添加注釋。例如，添加實例注釋有利于后期實例編輯和知識分析；還可以增加一條推理規(guī)則：如果攻擊者制定并執(zhí)行某種攻擊方法，該攻擊方法應(yīng)用于特定的密碼系統(tǒng)，則從攻擊者到密碼系統(tǒng)將創(chuàng)建一個關(guān)系“攻擊”。另外，為了統(tǒng)計分析后期構(gòu)建的知識圖譜，還需要為每個類的所有子類添加諸如“上游查詢次數(shù)”“下游查詢次數(shù)”“最新查詢時間”等屬性。1.2.4獲得密碼攻防領(lǐng)域本體根據(jù)核心概念和關(guān)系的梳理，使用Protégé工具構(gòu)建的密碼攻防領(lǐng)域本體如圖4所示，其中每個方框里的概念表示附近核心概念的分類法，核心概念及其關(guān)系為圖中虛線連接起來的部分，右邊區(qū)域為關(guān)系的圖例。將實體和關(guān)系以簡潔的方式進(jìn)行梳理整合，得到密碼攻防領(lǐng)域?qū)嶓w關(guān)系，如圖5所示。圖5中三元組<攻擊動機(jī),激勵,攻擊者>表示為兩個○概念和一個→關(guān)系的形式。圖4Protégé構(gòu)建的密碼攻防領(lǐng)域本體圖5密碼攻防領(lǐng)域?qū)嶓w關(guān)系通過上述的構(gòu)建過程，在Protégé中編碼了15個核心概念和17種核心概念之間的關(guān)系，并提供了相關(guān)的描述、規(guī)則和注釋。后續(xù)可以使用資源描述框架（Resource

DescriptionFramework，RDF）、可擴(kuò)展標(biāo)記語言（ExtensibleMarkupLanguage，XML）、網(wǎng)絡(luò)本體語言（WebOntologyLanguage，OWL）等多種本體描述語言和文件格式導(dǎo)出該領(lǐng)域本體，實現(xiàn)領(lǐng)域知識模式的重用和共享。２領(lǐng)域知識圖譜構(gòu)建基于現(xiàn)階段的人工智能技術(shù)和自然語言處理技術(shù)，采用自頂向下方法，在密碼攻防領(lǐng)域本體的基礎(chǔ)上，收集多源的領(lǐng)域文檔資料進(jìn)行預(yù)處理，采用基于深度學(xué)習(xí)的聯(lián)合信息抽取方法構(gòu)建密碼攻防領(lǐng)域知識圖譜，構(gòu)建流程架構(gòu)如圖6所示。圖6領(lǐng)域知識圖譜構(gòu)建流程架構(gòu)圖6中（1）本體開發(fā)和（2）典型密碼攻防場景已在第1章節(jié)介紹，（7）~（10）是知識圖譜后期更新維護(hù)的過程，與（3）~（6）大體相同。下面著重介紹多源數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、聯(lián)合學(xué)習(xí)方法、結(jié)果及分析和知識入庫5個方面的內(nèi)容。2.1多源數(shù)據(jù)清洗數(shù)據(jù)資料的來源有很多方面，如最新的機(jī)構(gòu)研究報告、文獻(xiàn)資料、百科知識等。不同來源的文檔數(shù)據(jù)，除了在文檔格式上的區(qū)別（如HTML、PDF、DOCX、TXT等），還有語言、語法、習(xí)慣、場合等方面的區(qū)別，因此需要對不同來源的數(shù)據(jù)分別進(jìn)行清洗處理，生成包含單條句子的不同來源數(shù)據(jù)集。這樣將不同來源的格式化和非格式化數(shù)據(jù)文檔進(jìn)行統(tǒng)一整理，輸出統(tǒng)一格式，一般為用于自然語言處理的原始數(shù)據(jù)集，每行表示一條語句的UTF-8編碼的文本數(shù)據(jù)格式。多源數(shù)據(jù)清洗的流程如圖7所示。第1步，收集整理到密碼攻防領(lǐng)域多源文檔資料，文檔分為3類：研究報告，來源于網(wǎng)絡(luò)平臺，一般可以輸出為TXT或DOCX格式文檔；領(lǐng)域文獻(xiàn)資料，來源于中文期刊摘要和正文部分，一般是PDF或CAJ格式，可以轉(zhuǎn)化為TXT文檔；網(wǎng)絡(luò)百科，采用網(wǎng)絡(luò)爬蟲的方式，由初始關(guān)鍵詞出發(fā)，查詢到大量相關(guān)領(lǐng)域詞條信息，經(jīng)過人工刪除整理形成數(shù)據(jù)文檔。第2步，針對每一類型的文檔進(jìn)行文字提取，如HTML格式文檔可以根據(jù)標(biāo)簽取值，取得含有表述實際意義的段落或者句子，PDF和DOC文檔則可以轉(zhuǎn)化為TXT文本格式。第3步，文字清理，將文檔中文字意義表征不明顯或不相關(guān)的段落或句子刪除，如圖片、超鏈接、公式、廣告句等，僅保留有意義的段落。第4步，文檔組合，將上述文檔進(jìn)行拆分合并，保持合并之后的每個文檔數(shù)據(jù)量相當(dāng)，避免出現(xiàn)數(shù)據(jù)量過大或者過小的文檔。第5步，對每個文檔進(jìn)行分句處理，每一個句子占用一行，是自然語言處理前期數(shù)據(jù)準(zhǔn)備的常規(guī)操作，用來規(guī)范數(shù)據(jù)輸入源，分句算法如算法1所示。其中分句符號一般包括中文句號、英文句號、省略號等。圖7多源數(shù)據(jù)清洗流程由算法1可知，運用文檔分句算法時，首先需要將整個文檔讀入內(nèi)存，去除換行符，將文檔內(nèi)容組合為一條字符串，然后將該字符串以預(yù)定的分句符號集（cutFlags）進(jìn)行分割，最終得到該文檔的語句集合（sentences）。2.2數(shù)據(jù)預(yù)處理2.2.1分詞和詞向量生成通常文字（中文或英文）不能被機(jī)器模型所識別，不能直接用于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練，需要將其進(jìn)行向量化。對于中文自然語言句子，可以將每個文字或者每個詞組作為一個唯一標(biāo)識，對這些唯一標(biāo)識進(jìn)行向量化后可以進(jìn)行模型訓(xùn)練。中文字或詞向量化的主要方法有word2vec，如連續(xù)詞袋模型（ContinuousBagofWords，CBOW）、skip-gram模型和預(yù)訓(xùn)練模型（Bidirectional

EncoderRepresentationsfromTransformers，BERT）。CBOW模型利用上下文信息來預(yù)測中心字，skip-gram模型是利用中心字來預(yù)測周邊臨近的字，大型預(yù)訓(xùn)練模型則根據(jù)字在句子中的上下文信息得出其字向量，可以解決word2vec中一詞多義問題。BERT模型使用雙向Transformer編碼器兼顧上下文信息，根據(jù)字在句子中的上下文信息得出其字向量，也可以解決一詞多義問題。本文選用BERT中文預(yù)訓(xùn)練模型來產(chǎn)生字向量。BERT模型的輸入表示包含3個部分：WordPiece向量、位置向量（PositionEmbedding）和句子向量（SegmentEmbedding），如圖8所示。其中“[CLS]”為句子的開始標(biāo)記，“[SEP]”為句子的分割標(biāo)記。圖8BERT的輸入向量合成2.2.2序列標(biāo)注序列標(biāo)注是自然語言的基礎(chǔ)任務(wù)之一，目前主流的序列標(biāo)注方法有BIO、BIOES、IO、BMOES等，由于密碼攻防領(lǐng)域的特殊性，常會在文獻(xiàn)中出現(xiàn)復(fù)雜的實體，因此采用“BMOES-4位序列標(biāo)注法”將清洗的語句集合進(jìn)行標(biāo)注。2.3聯(lián)合學(xué)習(xí)法信息抽取任務(wù)是從預(yù)處理好的數(shù)據(jù)集中抽取出符合本體要求的SPO三元組的過程，是知識圖譜構(gòu)建的關(guān)鍵過程。信息抽取任務(wù)可以分為命名實體識別（NamedEntityRecognition，NER）和關(guān)系抽取（RelationExtraction，RE）兩個部分。命名實體識別是信息抽取和信息檢索中的一項重要任務(wù)，其目的是識別出文本中表示命名實體的成分，并對其進(jìn)行分類。中文命名實體識別方法有Lattice-LSTM、Lattice-LSTM-CRF、BiLSTM-CRF

和BERT-BiLSTM-CRF等。其中的條件隨機(jī)場（ConditionalRandom

Field，CRF）的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù)，而且包含了標(biāo)簽轉(zhuǎn)移特征函數(shù)，在位置標(biāo)注過程中可以充分利用內(nèi)部及上下文特征信息。關(guān)系抽取的方法主要分為兩類：一類是流水線方法，即先抽取實體，再對實體進(jìn)行關(guān)系分類；另一類是聯(lián)合學(xué)習(xí)方法，是指同時進(jìn)行實體識別和關(guān)系分類。試驗表明，聯(lián)合學(xué)習(xí)方法大大提升了實體和關(guān)系的抽取效果。例如，潘航宇提出了基于參數(shù)共享的聯(lián)合學(xué)習(xí)方法，將實體和關(guān)系抽取任務(wù)利用共享的編碼層建立聯(lián)系，兩個任務(wù)模型損失組合，再通過反向傳播調(diào)整參數(shù)來提升訓(xùn)練效果。因此，本文采用了聯(lián)合學(xué)習(xí)方法（BERT-BiLSTM-CRF-Att，BBCA），如圖9所示。圖9聯(lián)合學(xué)習(xí)方法圖9中主體包含了3個步驟：第1步，BERT詞嵌入，即將中文分詞后的語句向量化，使得每個字之間的語義信息相互關(guān)聯(lián)；第2步，左側(cè)部分NER模塊，分為BiLSTM編碼層和CRF解碼層，BiLSTM層是長短時記憶網(wǎng)絡(luò)（LongShort-TermMemory，LSTM）的變體，使用LSTM對詞嵌入進(jìn)行編碼，再使用條件隨機(jī)場CRF確定每個字的標(biāo)注分類，即概率；第3步，右側(cè)部分RE模塊，將第1步的字向量和第2步的信息進(jìn)行拼接，通過多頭注意力機(jī)制提升分類的準(zhǔn)確率，最后利用全連接層計算關(guān)系類別的概率。在損失合并方面，利用中間監(jiān)督調(diào)整權(quán)衡參數(shù)，以提升訓(xùn)練效果。2.3.1命名實體識別聯(lián)合學(xué)習(xí)法中命名實體識別包含BiLSTM層、Encode層和CRF層3個部分。其中，BiLSTM層結(jié)合上下文信息進(jìn)行編碼，通過合并正向和反向兩條鏈路計算輸出；Encode層將高維向量映射到符合標(biāo)簽維度的輸出；CRF層是一個方形矩陣，表示標(biāo)簽之間的轉(zhuǎn)移信息，提高輸出的合法性。（1）BiLSTM層：即雙向長短時記憶網(wǎng)絡(luò)，通過合并正向和反向兩條鏈路計算輸出，更好地捕獲雙向的語義依賴。正向LSTM層可以用下式表示：式中：為t時次輸入；為t時次輸出；分別為輸入門、遺忘門、輸出門和當(dāng)前信息的候選狀態(tài)；角標(biāo)i，f，o，c，h為元素序號；W為轉(zhuǎn)換矩陣；b為偏置向量；σ和tanh為Sigmoid和雙曲正切函數(shù)；⊙為逐元素乘積；t和t-1為時間序列。反向的LSTM計算方法同正向LSTM，輸出為則最終的BiLSTM輸出為正反兩個方向的隱藏狀態(tài)（2）Encode層：BiLSTM層的輸出是高維信息，若要得到每個字對應(yīng)實體標(biāo)簽的預(yù)測概率，還需要向低維度進(jìn)行投影，即需要加入一個全連接層。每個語句輸出的特征信息經(jīng)過全連接層之后得到標(biāo)簽概率其中M為語句長度；L為標(biāo)簽數(shù)。（3）CRF層：為了保證序列的局部一致性，通常在Encode層之后添加CRF層。CRF具有轉(zhuǎn)移特征，考慮了輸出標(biāo)簽之間的順序，經(jīng)過訓(xùn)練之后的CRF層可以感知全局的約束信息，使得實體識別更加精準(zhǔn)。CRF判別過程如下：式中：y為標(biāo)注序列；x為單詞序列；Score(x,y)為單詞序列x產(chǎn)生標(biāo)注序列y的得分，得分越高則說明其產(chǎn)生的概率越大。2.3.2關(guān)系抽取通過多頭注意力機(jī)制獲取關(guān)系分類信息，根據(jù)輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重，得出對每個詞語關(guān)系類別預(yù)測的貢獻(xiàn)程度大小。注意力機(jī)制計算方法如圖10所示。該機(jī)制將輸入數(shù)據(jù)分為查詢向量Q和鍵值對K-V兩個部分。查詢向量Q表示需要注意的目標(biāo)，而鍵值對K-V用于表示輸入數(shù)據(jù)的各個部分，Q，K，V三者都通過輸入矩陣X作線性變換而來，變換矩陣為通過計算查詢向量Q和鍵值對K-V之間的相似度，可以獲得不同部分的權(quán)重值。圖10注意力機(jī)制計算方法第1步，將Q和K矩陣經(jīng)過MatMul生成相似度矩陣；第2步，對相似度矩陣作縮放（Scale）；第3步，對向量掩碼；第4步，對相似度進(jìn)行歸一化（SoftMax）處理，得到歸一化之后的權(quán)重矩陣；第5步，將權(quán)重矩陣與V相乘，得到加權(quán)求和的輸出結(jié)果。利用多頭注意力機(jī)制將上述注意力過程經(jīng)過多次重復(fù)，對結(jié)果進(jìn)行拼接。在多次中每次使用的線性變換矩陣均不同，則對向量空間的表示也不同，能獲得更多的文本特征信息。2.3.3基于中間監(jiān)督的損失合并由于實體識別和關(guān)系抽取的階段性，基于中間監(jiān)督構(gòu)建損失函數(shù)，將實體識別的損失作為最終總損失函數(shù)的一部分，總損失函數(shù)如下：式中：CEL為損失函數(shù)；pe'和pr'分別表示實體識別和關(guān)系抽取生成結(jié)果；α和β為權(quán)衡參數(shù)，均設(shè)置為0.5。2.4結(jié)果及分析（1）數(shù)據(jù)集。鑒于密碼攻防領(lǐng)域的特殊性，當(dāng)前并未有公開的中文專業(yè)數(shù)據(jù)集。通過人工收集密碼攻防領(lǐng)域的中文源數(shù)據(jù)集（主要來源有研究報告、百科知識及文獻(xiàn)資料等）。從這些數(shù)據(jù)資料中提取了3012條合法語句，每條語句均經(jīng)人工標(biāo)注，包含一條以上的實體或關(guān)系。（2）評價指標(biāo)。本文使用的是通用評價指標(biāo)準(zhǔn)確率（Precision）、召回率（Recall）和F1值進(jìn)行信息抽取效果評估，其值由下式得到：式中：TP為真正例；FP為假正例；FN為假反例；F1值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值。（3）結(jié)果及分析。為了驗證使用的聯(lián)合抽取模型的有效性，綜合對比了傳統(tǒng)模型Lattice-LSTM、BiLSTM-CRF和BERT-BiLSTM-CRF，試驗結(jié)果如表4所示。由表4可以看出，聯(lián)合學(xué)習(xí)方法整體的效果優(yōu)于傳統(tǒng)模型，主要原因有兩點：特征向量的生成采用了預(yù)訓(xùn)練模型，準(zhǔn)確率更高；在關(guān)系分類時采用了注意力機(jī)制，減少了分類噪聲，也提高了準(zhǔn)確率。表4試驗結(jié)果由表4還可以看出，以上訓(xùn)練結(jié)果較其他領(lǐng)域開源公共數(shù)據(jù)集訓(xùn)練低，主要有兩方面原因：一方面，多源的領(lǐng)域數(shù)據(jù)集收集可能不夠全面，代表性不足；另一方面，領(lǐng)域知識模型可能不夠精確，領(lǐng)域本體可能還有需要改進(jìn)的地方。通過模型訓(xùn)練和預(yù)測，共產(chǎn)生密碼攻防領(lǐng)域?qū)嶓w620個，SPO三元組1247組。三元組示例如表5所示，統(tǒng)計結(jié)果如圖11所示。表5試驗產(chǎn)生的SPO三元組圖11知識圖譜統(tǒng)計2.5知識入庫使用圖數(shù)據(jù)庫Neo4j作為存儲、顯示知識圖譜和分析密碼攻擊的工具。Neo4j能夠更容易、更快速地表示、檢索和導(dǎo)航連接的數(shù)據(jù)。Neo4jCQL（查詢語言）命令是聲明式模式匹配的，采用人類可讀的格式，易于學(xué)習(xí)。３

領(lǐng)域知識圖譜應(yīng)用3.1路徑查找算法基于本文構(gòu)建的知識圖譜有如下設(shè)定：（1）給15個類的每個子類實例都增加若干個“成功次數(shù)”屬性，體現(xiàn)節(jié)點關(guān)系之間的權(quán)重分配，各節(jié)點間的查詢順序也可以使用該屬性進(jìn)行排序；（2）每次攻擊成功，即攻擊效果滿足目標(biāo)要求，則該路徑上所有節(jié)點的“成功次數(shù)”屬性加1；（3）每次防御成功，即防御效果滿足目標(biāo)要求，則該路徑上所有節(jié)點的“成功次數(shù)”屬性加1；（4）路徑查詢中優(yōu)先從具有較高“成功次數(shù)”屬性的節(jié)點路徑進(jìn)行選擇；（5）路徑查詢中在任何一步都可以有優(yōu)先性（條件），這是基于攻擊者或防御者前期經(jīng)驗設(shè)定的。由此引出以下兩個路徑探索算法：在算法2中，以攻擊者（atter）或者攻擊動機(jī)（att_mot）為起始點，在未到達(dá)攻擊點（att_point）之前，將路徑上符合條件的節(jié)點加入攻擊路徑（att_path）中。下一節(jié)點查詢順序以高“成功次數(shù)”優(yōu)先，且路徑中需滿足預(yù)設(shè)條件。到達(dá)攻擊點之后執(zhí)行攻擊，如果攻擊成功，則返回攻擊路徑；如果攻擊失敗，則清空

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建

文檔簡介

溫馨提示

最新文檔

評論

基于多源數(shù)據(jù)的密碼攻防領(lǐng)域知識圖譜構(gòu)建

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔