面向制造業(yè)的知識圖譜表示模型與構建技術研究_第1頁
面向制造業(yè)的知識圖譜表示模型與構建技術研究_第2頁
面向制造業(yè)的知識圖譜表示模型與構建技術研究_第3頁
面向制造業(yè)的知識圖譜表示模型與構建技術研究_第4頁
面向制造業(yè)的知識圖譜表示模型與構建技術研究_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、碩士學位論文面向制造業(yè)的知識圖譜表示模型與構建技術研究RESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRY袁芳怡哈爾濱工業(yè)大學2019年6月學校代碼:10213密級:公開國內圖書分類號:TP301.6國際圖書分類號:004.8工學碩士學位論文面向制造業(yè)的知識圖譜表示模型與構建技術研究碩士研究生:袁芳怡導師:王宏志教授申請學位:工學碩士學科:計算機科學與技術所在單位:計算機科學與技術學院答辯日期:2019年6月授予學位單位:哈爾濱工業(yè)大學Classified Index:

2、TP301.6U.D.C: 004.8Dissertation for the Master Degree in EngineeringRESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRYCandidate:Supervisor:Academic Degree Applied for:Speciality:Affiliation:Date of Defence:Yuan FangyiProf. Wang HongzhiMaster of EngineeringComput

3、er Science and Technology School of Computer Science and TechnologyJune, 2019Degree-Conferring-Institution:Harbin Institute of Technology摘要隨著工業(yè)互聯(lián)網(wǎng)+的發(fā)展,制造業(yè)的數(shù)字化轉型正在如火如荼地進行著。而 知識在其中發(fā)揮著至關重要的作用,它是許多智能決策、資源優(yōu)化的基石。但 是現(xiàn)在制造業(yè)知識分布獨立,且許多依靠人的經(jīng)驗。知識圖譜近年來大展拳腳, 它可以整合不同來源的數(shù)據(jù),且擁有很好的推理能力。因此,建立制造業(yè)的知 識圖譜會對制造業(yè)的智能化產(chǎn)生推動作用?,F(xiàn)有

4、的知識圖譜大多僅存在定性知識,但制造業(yè)中存在許多定量知識以及 事理知識。因此,本文針對制造業(yè)的知識特點,提出面向制造業(yè)的知識圖譜構 建與表示模型。我們從三個方面對制造業(yè)知識圖譜進行了改進。本文的主要工 作如下:1)將定量知識與定性知識相結合將定量知識的抽取轉化為命名實體識別與屬性抽取。在使用序列標注的方 法對命名實體進行識別后,本章提出個性化Page Rank與Bi-LSTM-CRF結合的 方式進行屬性識別,無需提前指定屬性類別;且與無監(jiān)督方法相結合,使方法 具有可移植性,減少了人力標注的成本。2)將概念知識與事理知識結合將事理知識的抽取轉化為事件觸發(fā)詞提取、事件描述補全、事件關系分類。 使用

5、DMCNN方法對事件的觸發(fā)詞進行抽取后,使用短語句法分析對事件進行 補全。本章使用Bi-LSTM方式進行事件分類,無需人工構建特征。不僅針對同 一句子中的事件進行分類,且可對跨句子的事件進行分類。3)定量與事理知識結合,進行聯(lián)合推理將知識圖譜補全問題轉化為排序問題,改進了 ProjE算法,將定量知識轉化 成向量與原“實體”表示相結合,得到最終的知識圖譜實體、關系表示。使知識 表示不僅針對實體與實體之間的關系,提升了實體鏈接的能力。綜上所述,本文建立了一個面向制造業(yè)的知識圖譜,與現(xiàn)有的知識圖譜不同。 它融合了定量知識、事理知識。且在知識推理時,它的知識表示融合了定量知 識的屬性知識,不僅只針對實

6、體或事理之間的關系。實驗結果表示,我們的方 法相比于其他方法效果有所提升。關鍵詞:知識圖譜;關系抽?。皇录R別;知識表示;知識推理AbstractWith the development of Industrial Internet+, the digital transformation of manufacturing is in full swing. Knowledge plays a vital role in industry, and it is the cornerstone of many intelligent decision-making and resource op

7、timization. But now the manufacturing knowledge is distributed independently, and many decision rely on human experience. The knowledge graph has made great strides in recent years. It can integrate data from different sources and has good reasoning ability. Therefore, establishing a knowledge graph

8、 of manufacturing will promote the intelligentization of manufacturing.Most of the existing knowledge graphs only have qualitative knowledge, but there are many quantitative knowledge and evolutionary knowledge in the manufacturing industry. Therefore, this paper proposes a knowledge graph construct

9、ion and representation model for manufacturing industry based on the knowledge characteristics of manufacturing industry. We have improved the manufacturing knowledge graph from three aspects. The main work of this paper is as follows:Combine quantitative knowledge with qualitative knowledgeThe extr

10、action of quantitative knowledge is transformed into named entity recognition and attribute extraction. Attribute extraction usually translates into relationship classification problems. It is necessary to define categories and tag a large amount of training data in advance. However, there are many

11、kinds of attributes in manufacturing, which are difficult to define in advance. This chapter proposes a combination of personalized Page Rank and Bi-LSTM-CRF for attribute extraction. It is not necessary to specify attribute categories in advance. This algorithm combines with unsupervised methods, w

12、hich makes the method is portable and reduces the cost of manual labeling.Combine conceptual knowledge with affair knowledgeThe extraction of evolutionary knowledge is transformed into event trigger identification, event description completion, and event relationship classification. Event relationsh

13、ip classifications typically use traditional machine learning and only classify events in the same sentence. There are many events in the manufacturing industry that are in different sentences, but there exists relationships. This chapter uses the Bi-LSTM method to classify events, not only for even

14、ts in the same sentence, but also for events across sentences.Combining quantitative and evolutionary knowledge for joint reasoningThe knowledge graph completion problem is transformed into a sorting problem, and we improved ProjE algorithm in this chapter. The quantitative knowledge is transformed

15、into a vector and it was combined with event embedding. At the re suit, we obtain the final knowledge graph embedding about entity and relationship. The knowledge embedding not only addresses the relationship between entities and entities, but also enhances the ability of entity links.In summary, th

16、is paper establishes a knowledge graph for manufacturing, which is different from the existing knowledge graph. It combines quantitative knowledge and evolutionary knowledge. And in the case of knowledge inference, its knowledge graph embedding combines the attribute knowledge of quantitative knowle

17、dge, not only for the relationship between entities or evolutionary. The experimental results show that our method has improved compared to other methods.Keywords: Knowledge Graph, Relation Extraction, Event Identification, Knowledgeembedding, Knowledge Inference TOC o 1-5 h z HYPERLINK l bookmark7

18、o Current Document 摘要IABSTRACTII HYPERLINK l bookmark18 o Current Document 第1章緒論1 HYPERLINK l bookmark21 o Current Document 1.1課題來源1 HYPERLINK l bookmark24 o Current Document 1.2研究背景和意義1 HYPERLINK l bookmark30 o Current Document 1.3國內外研究現(xiàn)狀及分析3 HYPERLINK l bookmark33 o Current Document 1.3.1國外研究現(xiàn)狀分析3

19、 HYPERLINK l bookmark36 o Current Document 1.3.2國內研究現(xiàn)狀分析5 HYPERLINK l bookmark39 o Current Document 1.4本文的主要研究內容7 HYPERLINK l bookmark45 o Current Document 1.5本文的組織結構8 HYPERLINK l bookmark48 o Current Document 第2章定量知識抽取9 HYPERLINK l bookmark51 o Current Document 2.1引言9 HYPERLINK l bookmark54 o Curre

20、nt Document 2.2背景技術9 HYPERLINK l bookmark60 o Current Document 2.3定量知識抽取11 HYPERLINK l bookmark63 o Current Document 2.3.1定量知識模型設計12 HYPERLINK l bookmark66 o Current Document 2.3.2基于Bi-LSTM-CRF的命名實體識別12 HYPERLINK l bookmark71 o Current Document 2.3.3與無監(jiān)督學習結合的屬性抽取132.4實驗結果162.4.1實驗數(shù)據(jù)準備16 HYPERLINK l

21、bookmark93 o Current Document 2.4.2實驗評價指標17 HYPERLINK l bookmark96 o Current Document 2.4.3實驗結果與分析17 HYPERLINK l bookmark99 o Current Document 2.5本章小結20 HYPERLINK l bookmark102 o Current Document 第3章事理知識抽取22 HYPERLINK l bookmark105 o Current Document 3.1引言22 HYPERLINK l bookmark108 o Current Documen

22、t 3.2背景技術22 HYPERLINK l bookmark111 o Current Document 3.3事理知識抽取24 HYPERLINK l bookmark114 o Current Document 3.3.1事理知識模型設計25 HYPERLINK l bookmark117 o Current Document 3.3.2基于DMCNN的觸發(fā)詞識別26 HYPERLINK l bookmark120 o Current Document 3.3.3基于句法分析的事件元素識別28 HYPERLINK l bookmark126 o Current Document 3.3

23、.4基于Bi-LSTM的關系分類31 HYPERLINK l bookmark131 o Current Document 3.4知識模型融合32 HYPERLINK l bookmark136 o Current Document 3.5實驗結果與分析34 HYPERLINK l bookmark139 o Current Document 3.5.1事件觸發(fā)詞識別34 HYPERLINK l bookmark142 o Current Document 3.5.2事件關系分類36 HYPERLINK l bookmark145 o Current Document 3.6本章小結36 HY

24、PERLINK l bookmark148 o Current Document 第4章 制造業(yè)知識圖譜補全37 HYPERLINK l bookmark151 o Current Document 4.1引言37 HYPERLINK l bookmark154 o Current Document 4.2背景技術37 HYPERLINK l bookmark164 o Current Document 4.3基于LProjE的知識圖譜補全38 HYPERLINK l bookmark167 o Current Document 4.3.1問題描述38 HYPERLINK l bookmark

25、170 o Current Document ProjE 模型不足39 HYPERLINK l bookmark173 o Current Document LProjE 模型結構40 HYPERLINK l bookmark189 o Current Document 4.4實驗結果42 HYPERLINK l bookmark192 o Current Document 4.4.1實驗評價指標42 HYPERLINK l bookmark195 o Current Document 4.4.2實驗結果與分析43 HYPERLINK l bookmark198 o Current Docum

26、ent 4.5本章小結45 HYPERLINK l bookmark201 o Current Document 結論46參考文獻48 HYPERLINK l bookmark268 o Current Document 攻讀碩士學位期間發(fā)表的論文及其它成果53 HYPERLINK l bookmark271 o Current Document 哈爾濱工業(yè)大學學位論文原創(chuàng)性聲明和使用權限54 HYPERLINK l bookmark280 o Current Document 致謝55第1章緒論1.1課題來源本課題來源于國家自然科學基金聯(lián)合資助項目重點項目:面向浙江省制造 業(yè)的大數(shù)據(jù)分析理論

27、與關鍵技術研究。項目編號:U1509216國家自然科學基金集成項目:基于數(shù)字仿真的大電網(wǎng)人工智能分析方法研 究。項目編號:U18666021.2研究背景和意義制造業(yè)始終是一國經(jīng)濟發(fā)展并走向強盛的基礎。當今時代,信息化和工業(yè) 化的兩化融合已經(jīng)成為發(fā)展趨勢,在中國制造2025中指出,“新一代信息 技術與制造業(yè)深度融合,正在引發(fā)影響深遠的產(chǎn)業(yè)變革,形成新的生產(chǎn)方式、 產(chǎn)業(yè)形態(tài)、商業(yè)模式和經(jīng)濟增長點Mi】。習近平總書記強調,“實體經(jīng)濟是國家 的本錢,要發(fā)展制造業(yè)尤其是先進制造業(yè)”。堅實的制造業(yè)是國家走向強盛 的基礎,它為國家的發(fā)展提供了強大有力的支撐。工業(yè)智能化是在互聯(lián)網(wǎng)+下的發(fā)展趨勢,然而制造業(yè)的決

28、策通常需要大量 的知識。制造業(yè)中存在著海量的異構數(shù)據(jù),將其數(shù)據(jù)進行匯聚與建模需要知識 的推動;對制造業(yè)進行轉型升級,將制造業(yè)制造能力變得標準化與智能化也需 要知識的推動;各行業(yè)平臺對創(chuàng)新應用的開放及維護運行仍然需要知識的輔助。 利用知識構建成的工業(yè)互聯(lián)網(wǎng)平臺可支撐生產(chǎn)智能決策、業(yè)務模型創(chuàng)新、資源 優(yōu)化和產(chǎn)生生態(tài)培育。因此,構建面向制造業(yè)的知識體系對工業(yè)智能化的發(fā)展 有著重大的意義。如今在制造業(yè)行業(yè)中存在著大量的知識數(shù)據(jù),隨著時間的推移,未來還將 產(chǎn)生新的知識數(shù)據(jù)。同時,制造業(yè)的知識依賴于人工經(jīng)驗,依賴于專家的技術 水平與工程經(jīng)驗。而人的經(jīng)驗是獨立的,沒有一個大的融合,以致于其他人無 法學習。而

29、且這些大量的知識數(shù)據(jù)雖然存在于計算機內,但是計算機無法對其 進行理解。因此需要一個系統(tǒng)理解這些知識,并可以在巳有的知識基礎上進行 推理和判斷。早期的語義網(wǎng)通過“元數(shù)據(jù)”提供了 一個信息交換的統(tǒng)一的標準閔, 元數(shù)據(jù)可以被計算機所理解,由此使計算機提升了推理與搜索能力,使計算機 變得更加智能化,但是語義網(wǎng)早期是靠人工構建,需要很強的專業(yè)知識以及大 量的人力。而現(xiàn)如今,知識圖譜應運而生。知識圖譜通過整合不同的信息來源,包括 結構化的表格信息、半結構化的例如百科信息,以及非結構化的文本信息等, 形成一個大的網(wǎng)絡。知識圖譜注重如何從這些數(shù)據(jù)源中提取出所需要的知識, 對不同數(shù)據(jù)源獲取的知識如何融合,以及怎

30、樣進行知識表示可以更有效地為其 他任務提供好基礎。且知識圖譜的構建可以通過機器學習等方式,減少了人工 構建的成本,知識圖譜有著強大的推理能力。因此,面向制造業(yè)的知識構建可 以選用知識圖譜,知識圖譜將是一個很好的表達。隨著信息化與互聯(lián)網(wǎng)+大浪潮的發(fā)展,目前知識圖譜在互聯(lián)網(wǎng)4、醫(yī)療5】、 電商等垂直行業(yè)中得到廣泛應用。例如,搜索引擎通過在知識圖譜中搜索類 別、關系、相關性等方面匹配度較高的實體提高搜索結果的質量。而現(xiàn)如今,關于制造業(yè)知識圖譜建設主要面臨以下幾個問題:知識圖譜中僅存在定性知識,缺少定量知識:目前知識圖譜中存在的知識均為定性知識。例如V北京,首都,中國:代 表北京是中國的首都。然而制造

31、業(yè)中存在著大量的定量知識,例如“透光率 Pmv30%的是年輕褐煤”等。定性知識與定量知識同時存在,目前的知識圖譜無 法表達。知識圖譜中僅存在關聯(lián)知識,缺少事理知識:現(xiàn)有的知識圖譜都是以概念、實體為中心,表達概念與概念之間,實體與 實體之間的關系。它缺乏對事件的描述以及事理之間的關系。以買房子為例, 買房子一裝修一買家具就是一個事理邏輯。在制造業(yè)中,存在著大量的時序關 系與事理邏輯。以水處理為例,目前的知識圖譜所存的知識可能為:原水一軟 化水一除鹽水。而這個流程的事理邏輯則為:過石英砂過濾器一過反滲透裝置 -過除碳器一打入除氧器。這一過程是存在時序關系的,而目前的知識圖譜都 未體現(xiàn)出知識的時序關

32、系。知識圖譜的推理僅關注實體及其之間的關系,忽略實體的屬性等定量 知識:知識圖譜的推理大多依托于知識表示。而現(xiàn)有的知識表示方式大多基于實 體與實體之間的關系。實體有許多自己的屬性,但是對于知識推理的任務中, 都忽略了這些屬性。制造業(yè)中存在著許多定量知識作為制造業(yè)中實體的屬性, 這些知識可以輔助推理,進行決策?,F(xiàn)有的知識圖譜推理方式無法解決此類問 題。對于以上問題,我們對面向制造業(yè)的知識圖譜的構建與表示模型進行研究。 可以數(shù)據(jù)知識與文本知識結合推理,讓關聯(lián)知識與事理邏輯相結合,并利用結 合的知識進行知識推理,而不是作為孤立的個體。以使在此知識圖譜的基礎上, 可以推理出更多的知識,在制造業(yè)的流程以

33、及故障檢測及給出原因時,減少人 工干預。1.3國內外研究現(xiàn)狀及分析工業(yè)互聯(lián)網(wǎng)在不斷的方展,工業(yè)智能化時代也在一點點到來。制造業(yè)擁有 概念繁多,工藝復雜、知識量數(shù)據(jù)量巨大的特點。許多工業(yè)產(chǎn)生的數(shù)據(jù)為非結 構化數(shù)據(jù),對非結構化的數(shù)據(jù)處理有一定的難度,而對于工業(yè)來說,對數(shù)據(jù)分 析的要求更高。目前面向通用領域的知識圖譜的構建與表達存在著許多研究, 通用領域知識圖譜的構建方式對制造業(yè)有一定的參考作用。因此,我們對國內 外工業(yè)平臺的相關技術及發(fā)展,以及國內外的研究學者們對知識圖譜的構建與 表達技術作了簡要分析。1.3.1國外研究現(xiàn)狀分析國外的研究者主要是對通用領域的知識圖譜進行研究,對領域知識圖譜的 研究

34、主要為醫(yī)療領域的研究。目前對知識圖譜的研究大多都是基于已經(jīng)構建好的一些通用領域的知識 庫。比較有名的有Freebase7 WordNet8等,F(xiàn)reebase主要包括世界知識, WordNet主要包括語言知識庫,還有一些領域知識庫,例如IMDBt9,但IMDB 是由人手工構建的。同時,有一些互聯(lián)網(wǎng)公司也有自己的知識圖譜,例如提出 知識圖譜概念的谷歌3,以及微軟的Bing Satori11o還有一些是將知識圖譜 放在了應用的背后,例如蘋果公司的Siri助理、IBM Watson的問答系統(tǒng)等, 它們的背后都有知識圖譜的支撐。面對制造業(yè)中存在的大量的概念以及復雜的 工藝,我們也需要構建的制造業(yè)知識圖

35、譜用以支撐制造業(yè)的數(shù)字化發(fā)展,我們 構建的制造業(yè)的知識圖譜也為垂直領域知識圖譜。資源描述框架RDF (resource description framework)規(guī)定,使用三元組v實體1,關系,實體2的方式進行知識庫中知識的表示,RDF由萬維網(wǎng)聯(lián)盟 (W3C)提出,目前的研究大多基于此種形式,然而這種形式對于我們面向制 造業(yè)領域的知識圖譜表達存在不足,我們會在后續(xù)進行研究。知識圖譜的構建,需要對知識進行抽取。而通常的做法是:先進行命名實 體識別的抽取,再進行實體之間關系的抽取。因此將知識圖譜的構建問題轉化 成了實體識別與關系分類兩個子問題。而目前對知識圖譜的研究中,都己知給 定了實體,針對實

36、體關系的分類問題。實體關系抽?。簩嶓w關系抽取問題一開始源自于自然語言的評測任務。如 muci4和acei5。在評測任務中,給定了需要抽取的實體類別。因此,大多 數(shù)研究者對實體關系抽取的問題研究轉換成了對實體關系的分類任務。在神經(jīng) 網(wǎng)絡提出之前,分類采取的都是傳統(tǒng)分類器,如最大炳、SVM等方式。分類 通常使用基于特征向量與基于核函數(shù)兩種方式。Kambhatlai6利用實體詞的相 關信息構建特征,TratzW在使用實體詞的基礎上,加入了上下文等特征。 Zelenko引、Culotta19、Buneseu20分別使用淺層語義核函數(shù)、依存樹核心函數(shù)、 最短路徑核的方式,對實體關系進行抽取。且基于核函數(shù)

37、的方式提取的特征要 優(yōu)于基于特征向量的方式。隨著神經(jīng)網(wǎng)絡的提出以及數(shù)據(jù)量的發(fā)展。人們發(fā)現(xiàn) 訓練數(shù)據(jù)集數(shù)據(jù)小,不足以支撐大規(guī)模的數(shù)據(jù)分類,由此,遠程監(jiān)督的概念在 2009年被Mintz提出】。遠程監(jiān)督對于給定的關系去已經(jīng)存在的知識庫如 Freebase wikipedia知識庫中尋找符合的實體對,并將文本中包含這個實體對 的句子都標記為此關系,實現(xiàn)了自動標注的功能。但這樣會引入大量的噪聲。 因此后續(xù)的任務重點都轉移到了如何減少噪聲的影響。但遠程監(jiān)督需要巳有的 知識庫的信息,對于我們構建制造業(yè)知識圖譜不太適合。事件知識抽?。河捎趯τ谑吕韴D譜構建沒有引起很大的關注,大多數(shù)研究 者都在研究知識圖譜的構

38、建。因此,對于事理圖譜構建的沒有一個統(tǒng)一的流程。 但是與之相關有一個自然語言的經(jīng)典問題:事件抽取任務。事件抽取是由 ACE2005H5評測提出,給定語料庫,并給定有哪些事件類別以及論元類別,需 要識別出事件的觸發(fā)詞并對事件進行分類,對論元同理。事件抽取方向的研究 對于我們構建制造業(yè)的知識圖譜有借鑒作用。知識圖譜表示:近年來,知識表示引起了越來越多研究者們的注意。知識 表示作為知識圖譜任務的基礎,可以在低維的空間下對實體和關系進行語義關 聯(lián)查找、計算等,提升了計算的效率。對知識圖譜的糾錯、補全都有著巨大的 作用。TransES是知識表示中里程碑似的方法,是Bordes等于2013年提出。 利用詞

39、向量中的平移不變性,將實體和關系投影到一個平面上,令實體之間的 關系看作頭實體和尾實體之間的平移TransE簡單高效,給研究者們在知識表 示上提供了新的思路。由于TransE對1-N關系等有致命缺陷,后續(xù)TransE的 變形相繼被提出。例如:TransH23、TransDP4、TransRl25、TransA26、TransGl27 TranSparseW等。他們提出不同的投影方式,例如投影到不同的平面、區(qū)分語 義空間、改變不同的投影矩陣等方式進行改進。后續(xù)還有很多方法,例如融合 外部信息等方式29逐漸提高知識表示的性能。知識圖譜可能很稀疏,也可能存在錯誤。知識圖譜補全可以改善這個問題。 知識

40、補全任務可以基于知識表示得到的結果3。,也有基于圖的知識補全方法, 例如 PRA(Path Ranking Algorithm)。】及 SFE(Subgraph Feature Extraction)132他 們基于實體之間關系的路徑進行游走進行知識圖譜的補全。我們構建在面向制 造業(yè)的知識圖譜時,也需要在得到初始的知識圖譜后,對知識圖譜進行補全。1.3.2國內研究現(xiàn)狀分析與國外研究類似,國內對知識圖譜的構建、事件抽取以及知識圖譜中的知 識表示有著大量的研究。除此之外,國內針對我國制造業(yè)的特點,在與制造業(yè) 相關的知識庫構建也有研究。關于制造業(yè)知識庫的構建對于有效管理和充分利用制造業(yè)的知識經(jīng)驗具

41、有重大意義。在知識表達方面,制造業(yè)知識庫主要基于關系、XML和本體語 言三種形式?;陉P系的仿真知識庫構建是最早也最容易理解的一種方法,例如由R C Dugan等提出的根據(jù)電網(wǎng)計算數(shù)據(jù)中各個單位(母線、變壓器、發(fā)電機、開關、 刀閘等等)之間的關系構成關系型數(shù)據(jù)庫EL基于XML的電網(wǎng)仿真知識庫的 構建是源自于電力系統(tǒng)中事件數(shù)據(jù)的存儲需求,例如周忠等人構建了一種基于 XML的電網(wǎng)數(shù)據(jù)統(tǒng)計系統(tǒng)ML隨著本體語言OWL的發(fā)展35,知識圖譜成為知識表示的主流形式36。研 究人員逐漸采用本體語言形式表達電網(wǎng)仿真知識。華北電力大學的王翠茹印 等基于語義網(wǎng)絡描述電力系統(tǒng)領域本體。趙峙鈞等提出了電網(wǎng)知識庫中本體鏈

42、 的概念EL黃彥浩等人提出了基于本體語言的電網(wǎng)知識庫塔狀結構模型, 支持垂直結構和水平分級結構推理,從而加強知識表示能力,提高推理的效率 和精度。由上述國內外的研究現(xiàn)狀可知,在面向制造業(yè)的知識庫構建中,主要為基 于關系、XML和本體語言的三種方式?;陉P系的方式雖然顯示直觀,但是 關系型數(shù)據(jù)據(jù)對于動態(tài)知識的推理較為困難,推理效率低;基于XML的方式 仍然擁有上述問題,且XML的表達方式對于可視化的表達較差,知識表示比 較隱晦。雖然基于本體語言和圖的表示方式擁有好的表達可視化效果以及推理 方式完善,但是其仍存在著數(shù)據(jù)稀疏等問題。而在電網(wǎng)仿真方面,仍缺少針對 復雜知識結構的建模方式;而且由于制造業(yè)

43、數(shù)據(jù)中同時存在定性與定量知識, 關聯(lián)和事理知識,目前的本體和知識圖譜模型不足以對其進行有效表達。國內目前針對知識圖譜的構建也有大量的工作。同國外的研究內容一樣, 我們也對國內的研究內容做一個簡單的介紹。實體關系抽?。涸诨谔卣飨蛄康姆诸愔校嚾f翔、劉挺老師4將實體在 句子中的順序、以及實體所在位置的左右詞的特征等加入了特征向量中,關在 中文語料庫進行實驗,提高了抽取性能,這兩種特征在神經(jīng)網(wǎng)絡的方法中也會 用到。李麗雙等人I使用基于核函數(shù)的方法,將兩種核函數(shù)結果,在中文語料 庫上進行實驗,實驗證明比單獨核函數(shù)的效果好。遠程監(jiān)督的方法是現(xiàn)在實體 關系抽取的熱點。PCNN、APCNN43等模型的提出

44、,將CNN進行改進,并 引入了實體信息,得到了更好的分類結果。事件知識抽取:劉挺老師首先提出事理圖譜呼的概念。提出的事理圖譜主 要描述事件間的兩種關系:順承關系與因果關系。哈工大SCIR實驗室建了兩 個事理圖譜的demo,分別是出行領域事理圖譜以及金融領域事理圖譜。并以 事理圖譜為基礎進行了事件預測Ml。但對事理圖譜構建的方法主要是基于模 板的方式,對因果關系的分類采用了基于特征的方式,利用樸素貝葉斯進行分 類。知識圖譜表示:國內的研究學者對知識表示也很多研究。Xie等人提出 DKRL模型性6,它融合了兩種模型:CBOW和CNNoLin等人提出PTransE, 將關系路徑加入TransE模型中

45、,都取得了較好的效果。如今對抗學習GAN 在圖像處理領域上大放異彩,Cai等人I提出用對抗學習來進行知識表示,提 出KBGAN模型,使用現(xiàn)有的方法作為生成器對知識圖譜進行訓練。傳統(tǒng)的知識推理方式主要以邏輯或規(guī)則為主,在推理的過程中,缺乏常識 性的知識作為推理過程的輔助要素,此外知識庫中關系的函數(shù)特性,比如傳遞 性、對稱性等是非常重要的特征,在以往的知識推理工作中被忽視,導致知識 的利用率較低,缺乏基于數(shù)據(jù)以及文本等非結構化數(shù)據(jù)的協(xié)同多元推理。和傳統(tǒng)的知識庫及其推理模式相比,制造業(yè)中所需要的知識具有定性和定 量知識融合、關聯(lián)與事理知識融合等顯著特點,知識推理需將定量知識與事理 知識融合起來。因此

46、,亟需研究適用于制造業(yè)的的知識模型與自動建模技術、 知識表達方式。為制造業(yè)提供知識庫以及知識管理平臺,以提高制造業(yè)分析的 效率和準確性。1.4本文的主要研究內容本課題針對制造業(yè)的定量數(shù)據(jù)與事理數(shù)據(jù),提出了一種面向制造業(yè)的知識 圖譜構建與表達模型。首先,通過對制造業(yè)中的文本知識以及發(fā)生的相關事件 進行分析,抽取出定量知識以及事理知識。然后將得到的知識二者結合,進行 協(xié)同知識推理,提高知識推理的效率。在知識圖譜中加入帶有時序信息的事理 邏輯,可用于流程問題的預測以及時序模式的挖掘等。通過此知識圖譜的表達, 支撐制造業(yè)仿真分析的各個環(huán)節(jié)。本課題的研究內容邏輯如下所示:圖本文研究內容在知識圖譜中融合定

47、性知識與定量知識制造業(yè)中存著在大量的定量標準,例如壓力、抽汽量、濃度、熱耗等知識。 這些定量知識對制造業(yè)的故障檢測以及工藝流程都尤其重要。不同的屬性在不 同的數(shù)值下會對事件產(chǎn)生不同的影響,因此,需要將定量數(shù)據(jù)也存入知識圖譜 中。我們的第一部分內容就將研究如何將定量知識存儲于知識圖譜中,將定量 知識與定性知識融合。根據(jù)制造業(yè)的時序加工流程等情況,在知識圖譜的構建中加入事理邏 輯。現(xiàn)有的知識圖譜都是以概念、實體為中心,表達概念與概念之間,實體與 實體之間的關系。而事理知識以事件為核心,并不是一個實體或者概念能表達。 制造業(yè)存在著大量的時間序列的事件,例如加工流程、工序等,這些工序復雜, 如若出現(xiàn)問

48、題人們只能通過經(jīng)驗來判斷。因此,我們需要研究事理之間的關系 的存儲以及表示形式,在知識圖譜的構建中加入事理邏輯,為其他應用提供支 持。將定量知識與事理知識相結合,進行協(xié)同知識推理知識推理是知識圖譜構建過程中的重要組成部分,是知識庫補全,融合與 糾錯的重要手段,旨在提煉語義規(guī)則,使得計算機能夠理解和計算知識庫中的 結構化知識,派生出新的事實。傳統(tǒng)的模式為基于邏輯的推理,如今使用更多 的是基于圖的推理。我們不僅擁有定量知識,也擁有事理知識。因此我們需要 研究如何在已經(jīng)有的知識推理方式的基礎上,融合這兩部分知識,進行協(xié)同知 識推理。1.5本文的組織結構本文從制造業(yè)的角度出發(fā),認為目前制造業(yè)中存在著大

49、量的復雜知識,且 以人的經(jīng)驗為主。目前知識的存儲方式不能使計算機很好地理解并應用這些知 識。因此,我們提出構建面向制造業(yè)的知識圖譜。由于目前的知識圖譜模型不 足以表達制造業(yè)的知識,因此我們將對制造業(yè)中的定量知識以及事理知識的抽 取以及表達進行研究,并結合二者進行推理。第一章為緒論部分,首先介紹了本課題的來源,其次介紹了構建面向制造 業(yè)的知識圖譜的必要性,闡述了現(xiàn)有知識圖譜的不足之處,以及我們?yōu)槭裁匆?研究此內容,研究的意義。接下來介紹了目前國內外研究者對制造業(yè)的知識的 模型設計,以及對知識圖譜的構建、表示、推理的研究內容,了解本課題目前 在國內外的研究現(xiàn)狀。第二章介紹了對制造業(yè)定量知識抽取的研

50、究。將定量知識的抽取視為制造 業(yè)中實體的屬性抽取。首先設計了定量知識的表示模型,其次介紹了如何 對 定量知識抽取。將對定量知識的抽取分成了兩部分:實體抽取以及屬性抽取。第三章介紹了對制造業(yè)中事理知識抽取的研究。首先設計了事理邏輯知識 的表示模型,其次介紹了如何對事理知識抽取,將事理知識的抽取分為三部分: 事理觸發(fā)詞識別、事理描述補全以及事理邏輯的分類。最后設計了二事理知識 與第二章得到的定量知識融合模型,并將二者進行融合。第四章介紹了對制造業(yè)中形成的知識圖譜進行補全。提出了 LProjE算法, 在原來僅基于實體與實體關系進行推理的基礎上,加入了作為屬性的定量知識 作為補充,進行推理。第2章定量

51、知識抽取2.1引言在制造業(yè)數(shù)據(jù)中,存在著大量的定量知識?,F(xiàn)有的知識圖譜的抽取工作, 大多是基于一些公開的數(shù)據(jù)集,并對抽取的關系及屬性提前預設完成,進行抽 取。但對于制造業(yè)中,這些定量知識的屬性種類繁多,例如工藝生產(chǎn)過程中的 各種溫度、濕度、壓強等,僅一個“溫度”就包括:水溫、油溫、煙溫、進口溫 度、出口溫度、設備溫度、平均溫度等等,這些屬性雖都叫“溫度”,但它們代 表著不同的參數(shù)含義,不能統(tǒng)一表述一概而論;且這些定量知識屬性均存在于 非結構文本中,難以對所有的屬性進行提前預設;同時制造業(yè)的文本數(shù)據(jù)集不 同于公開數(shù)據(jù)集,沒有訓練樣本,需要大量的人工標注。因此,本章從制造業(yè)的定量數(shù)據(jù)特點出發(fā),在使

52、用現(xiàn)有的方法識別出實體 后,對于定量知識屬性的識別采用無監(jiān)督方法與序列標注相結合的方式,從文 本中抽取定量知識的屬性,無需對屬性種類提前進行預設,且與無監(jiān)督方式結 合,可以減少人工標注的代價。定量知識抽取的問題描述為:輸入為非結構文 本的集合X= 32,.,xQ,輸出為定量知識的集合Gq。其中Gq = | V e, attr, n1,n2 6 G。2.2背景技術Bi-LSTM-CRF505152模型是自然語言處理中對于序列標注中公認的有效模 型。由于中文是沒有明顯詞語邊界標記的語言,因此我們選用基于字的Bi- LSTM-CRF進行介紹,算法原理如下:序列標注模型以句子為單位進行標注。設所需標注

53、的句子有n個字,則將 此句子用字的序列表示如下:X =(Xi,*2, ,*/其中的 為句子中第i個字的字向量(character embedding),刁是embedding 的維度。字向量可由預訓練如word2vec的CBOW、Skip-gram等方式或隨機初 始化embedding矩陣再經(jīng)過look-up獲得。Bi-LSTM-CRF主要分為兩層:Bi-LSTM 層與CRF層。Bi-LSTM層:即雙向LSTM層。對于序列標注任務,Bi-LSTM不僅可以以 獲取到過去的特征,也可以獲取到未來的特征。這里我們介紹的是基于字的Bi-LSTM-CRF方法,因此Bi-LSTM的輸入為 一個句子按字切分

54、后,句中各字的embedding序列(x1,x2, .,xn)o將輸入送入 Bi-LSTM中,通過正向LSTM可以得到隱狀態(tài)序列(屁成無);通過反向 LSTM得到隱狀態(tài)序最后將正、反向LSTM分別得到的隱狀 態(tài)序列進行拼接,兒=反;瓦低nr1,得到完整的隱狀態(tài)序列(hi,處,hn) G得到的隱狀態(tài)序列很好地概括了句子的特征,為后序的標注任務提供了一個基 礎。Bi-LSTM可以直接進行序列標注,若將從Bi-LSTM得到的結果經(jīng)過一個 線性層,對隱狀態(tài)向量進行一個映射,便可以根據(jù)映射結果進行分類。其中映 射維度從m維到k維,其中k代表標注集中標簽的個數(shù)。得到矩陣P如下所 示:P =(P1,P2,,

55、Pn) 6 哪X*其中,Pi G k, pi,表示字豹分類到第/個標簽的分數(shù)值,通過這個分數(shù)值可以 獨立地將每個位置進行k類分類。但是如果按照上述操作,標簽之間強烈的相關性沒有考慮,且對每個位置進 行標注時,忽略了已經(jīng)標注過的信息。但是CRF可以解決這個問題,因此接入 CRF層,下面我們對CRF進行介紹。CRF層:CRF層的輸入為Bi-LSTM得到的每個詞映射到標簽的分數(shù)值組 成的矩陣P,輸出為每個字的標簽。設對于輸入的句子X,輸出的句子標簽序列為y =,%),定義其分數(shù)為:(2-1)nn+1score(X,y) = Piy. + Ay._i)y.i=li=l其中,P為從Bi-LSTM得到的非

56、歸一化矩陣,A RdMW)為CRF層的轉移 概率矩陣,表示從第i個標簽到第j個標簽的轉移得分。A為k+2維的方陣, 其中2代表著句子首端增加的起始狀態(tài)與最后的終止狀態(tài)。序列每個位置的得分由由LSTM輸出的所和CRF的轉移矩陣A決定,因此 標注的時候不僅利用了前后的句子信息,也利用了已經(jīng)標注過的標簽的信息。 整個序列的分數(shù)為每個位置分數(shù)之和。利用softmax對概率進行歸一化:(2-2)P3X) 一 exp(score(X,y)Sy, exp (score (X,/)io對于模型,在訓練時通過最大化對數(shù)似然函數(shù)得到正確的標簽序列,以訓 練樣本(x,yx)為例,下式給出了其對數(shù)似然公式:log(P

57、(yx|X) = score(X,yX) - log。/exp(score(X,y)(2-3)模型在預測過程(解碼)時,為求得正確的標簽,可使用Viterbi算法利用 動態(tài)規(guī)劃的思想,對最優(yōu)路徑進行求解:(2-4)y* = argmaxscore(x, y)整個模型的結構如下圖2-1所示:CRF layerLSTWs output backward LSTMforward LSTMfook-up layer one hot vector圖2-1 Bi-LSTM-CRF模型示例2.3定量知識抽取圖2-2定量知識抽取結構本章的任務是從無結構的文本中,抽取出實體以及與實體相關的定量屬性 及定量的數(shù)值

58、,設計一種結構表示此定量知識。因此,將任務分為兩個模塊: 命名實體識別,定量屬性識別。本章結構如圖2-2所示。2.3.1定量知識模型設計對于定量知識模型,我們采取v實體,參數(shù),參數(shù)區(qū)間的形式。例如v等離 子裝置,電流,200A,375A。對于定量知識模型,定義如下規(guī)則:定義1:若從知識中提取出來是單一的數(shù)字,而不是區(qū)間內容,我們規(guī)定區(qū) 間的上限與下限為相同的此單一的數(shù)字。例如下述知識:啟動給煤機B,煤量 28t/ho上述知識就可表示為v給煤機B,煤量,28t/h,28t/ho定義2:若只出現(xiàn)“小于xxx”、“大于xxx”等符號或字樣,是區(qū)間數(shù)值但卻未 明確寫明上下限,則下限用L代替,上限用U代

59、替。例如:v磨煤機,出力, L,50t/h,o2.3.2基于Bi-LSTM-CRF的命名實體識別目前已經(jīng)存在的命名實體識別工具,只能對通用領域的典型實體,例如人名、 地名、機構名等進行識別。特定領域的實體根據(jù)識別任務的不同而不同,例如 在醫(yī)學領域的知識圖譜中,疾病、藥物名稱等可能為所需實體。現(xiàn)如今不存在 對于領域文本的實體識別工具,在本章中,我們則將電廠的各種設備系統(tǒng)等設 計為所需實體,利用Bi-LSTM-CRF算法進行命名實體識別。實體類型定義本章所選取的數(shù)據(jù)中,實體的主要類型為:電廠設備或系統(tǒng),用EQU表示。訓練數(shù)據(jù)標注本章使用基于字的Bi-LSTM-CRF進行命名實體識別,實則是將NER

60、問題 轉換成序列標注問題并進行分類。此方法屬于監(jiān)督學習方法,因此需要標注訓 練數(shù)據(jù)。本課題使用BIO標注集,含義如表所示。表2-1 BIO標注集含義標注含義B-EQU電廠設備或系統(tǒng)首字I-EQU電廠設備或系統(tǒng)非首字0非命名實體的一部分輸入非結構文本的句子,將每個字的字向量送到Bi-LSTM-CRF模型中,將 每個字進行分類B,I,O三類。最后根據(jù)得到的結果,抽取出電廠設備實體。由 于沒有訓練樣本,因此,采取人工標注訓練樣本進行訓練,將得到的結果進行 篩選,再加入訓練集,使用如此迭代的方式進行訓練。2.3.3與無監(jiān)督學習結合的屬性抽取在知識圖譜的構建中,屬性識別問題通常有兩種做法:1.從大量的結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論