面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究_第1頁(yè)
面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究_第2頁(yè)
面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究_第3頁(yè)
面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究_第4頁(yè)
面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、碩士學(xué)位論文面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究RESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRY袁芳怡哈爾濱工業(yè)大學(xué)2019年6月學(xué)校代碼:10213密級(jí):公開(kāi)國(guó)內(nèi)圖書分類號(hào):TP301.6國(guó)際圖書分類號(hào):004.8工學(xué)碩士學(xué)位論文面向制造業(yè)的知識(shí)圖譜表示模型與構(gòu)建技術(shù)研究碩士研究生:袁芳怡導(dǎo)師:王宏志教授申請(qǐng)學(xué)位:工學(xué)碩士學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2019年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)Classified Index:

2、TP301.6U.D.C: 004.8Dissertation for the Master Degree in EngineeringRESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRYCandidate:Supervisor:Academic Degree Applied for:Speciality:Affiliation:Date of Defence:Yuan FangyiProf. Wang HongzhiMaster of EngineeringComput

3、er Science and Technology School of Computer Science and TechnologyJune, 2019Degree-Conferring-Institution:Harbin Institute of Technology摘要隨著工業(yè)互聯(lián)網(wǎng)+的發(fā)展,制造業(yè)的數(shù)字化轉(zhuǎn)型正在如火如荼地進(jìn)行著。而 知識(shí)在其中發(fā)揮著至關(guān)重要的作用,它是許多智能決策、資源優(yōu)化的基石。但 是現(xiàn)在制造業(yè)知識(shí)分布獨(dú)立,且許多依靠人的經(jīng)驗(yàn)。知識(shí)圖譜近年來(lái)大展拳腳, 它可以整合不同來(lái)源的數(shù)據(jù),且擁有很好的推理能力。因此,建立制造業(yè)的知 識(shí)圖譜會(huì)對(duì)制造業(yè)的智能化產(chǎn)生推動(dòng)作用。現(xiàn)有

4、的知識(shí)圖譜大多僅存在定性知識(shí),但制造業(yè)中存在許多定量知識(shí)以及 事理知識(shí)。因此,本文針對(duì)制造業(yè)的知識(shí)特點(diǎn),提出面向制造業(yè)的知識(shí)圖譜構(gòu) 建與表示模型。我們從三個(gè)方面對(duì)制造業(yè)知識(shí)圖譜進(jìn)行了改進(jìn)。本文的主要工 作如下:1)將定量知識(shí)與定性知識(shí)相結(jié)合將定量知識(shí)的抽取轉(zhuǎn)化為命名實(shí)體識(shí)別與屬性抽取。在使用序列標(biāo)注的方 法對(duì)命名實(shí)體進(jìn)行識(shí)別后,本章提出個(gè)性化Page Rank與Bi-LSTM-CRF結(jié)合的 方式進(jìn)行屬性識(shí)別,無(wú)需提前指定屬性類別;且與無(wú)監(jiān)督方法相結(jié)合,使方法 具有可移植性,減少了人力標(biāo)注的成本。2)將概念知識(shí)與事理知識(shí)結(jié)合將事理知識(shí)的抽取轉(zhuǎn)化為事件觸發(fā)詞提取、事件描述補(bǔ)全、事件關(guān)系分類。 使用

5、DMCNN方法對(duì)事件的觸發(fā)詞進(jìn)行抽取后,使用短語(yǔ)句法分析對(duì)事件進(jìn)行 補(bǔ)全。本章使用Bi-LSTM方式進(jìn)行事件分類,無(wú)需人工構(gòu)建特征。不僅針對(duì)同 一句子中的事件進(jìn)行分類,且可對(duì)跨句子的事件進(jìn)行分類。3)定量與事理知識(shí)結(jié)合,進(jìn)行聯(lián)合推理將知識(shí)圖譜補(bǔ)全問(wèn)題轉(zhuǎn)化為排序問(wèn)題,改進(jìn)了 ProjE算法,將定量知識(shí)轉(zhuǎn)化 成向量與原“實(shí)體”表示相結(jié)合,得到最終的知識(shí)圖譜實(shí)體、關(guān)系表示。使知識(shí) 表示不僅針對(duì)實(shí)體與實(shí)體之間的關(guān)系,提升了實(shí)體鏈接的能力。綜上所述,本文建立了一個(gè)面向制造業(yè)的知識(shí)圖譜,與現(xiàn)有的知識(shí)圖譜不同。 它融合了定量知識(shí)、事理知識(shí)。且在知識(shí)推理時(shí),它的知識(shí)表示融合了定量知 識(shí)的屬性知識(shí),不僅只針對(duì)實(shí)

6、體或事理之間的關(guān)系。實(shí)驗(yàn)結(jié)果表示,我們的方 法相比于其他方法效果有所提升。關(guān)鍵詞:知識(shí)圖譜;關(guān)系抽??;事件識(shí)別;知識(shí)表示;知識(shí)推理AbstractWith the development of Industrial Internet+, the digital transformation of manufacturing is in full swing. Knowledge plays a vital role in industry, and it is the cornerstone of many intelligent decision-making and resource op

7、timization. But now the manufacturing knowledge is distributed independently, and many decision rely on human experience. The knowledge graph has made great strides in recent years. It can integrate data from different sources and has good reasoning ability. Therefore, establishing a knowledge graph

8、 of manufacturing will promote the intelligentization of manufacturing.Most of the existing knowledge graphs only have qualitative knowledge, but there are many quantitative knowledge and evolutionary knowledge in the manufacturing industry. Therefore, this paper proposes a knowledge graph construct

9、ion and representation model for manufacturing industry based on the knowledge characteristics of manufacturing industry. We have improved the manufacturing knowledge graph from three aspects. The main work of this paper is as follows:Combine quantitative knowledge with qualitative knowledgeThe extr

10、action of quantitative knowledge is transformed into named entity recognition and attribute extraction. Attribute extraction usually translates into relationship classification problems. It is necessary to define categories and tag a large amount of training data in advance. However, there are many

11、kinds of attributes in manufacturing, which are difficult to define in advance. This chapter proposes a combination of personalized Page Rank and Bi-LSTM-CRF for attribute extraction. It is not necessary to specify attribute categories in advance. This algorithm combines with unsupervised methods, w

12、hich makes the method is portable and reduces the cost of manual labeling.Combine conceptual knowledge with affair knowledgeThe extraction of evolutionary knowledge is transformed into event trigger identification, event description completion, and event relationship classification. Event relationsh

13、ip classifications typically use traditional machine learning and only classify events in the same sentence. There are many events in the manufacturing industry that are in different sentences, but there exists relationships. This chapter uses the Bi-LSTM method to classify events, not only for even

14、ts in the same sentence, but also for events across sentences.Combining quantitative and evolutionary knowledge for joint reasoningThe knowledge graph completion problem is transformed into a sorting problem, and we improved ProjE algorithm in this chapter. The quantitative knowledge is transformed

15、into a vector and it was combined with event embedding. At the re suit, we obtain the final knowledge graph embedding about entity and relationship. The knowledge embedding not only addresses the relationship between entities and entities, but also enhances the ability of entity links.In summary, th

16、is paper establishes a knowledge graph for manufacturing, which is different from the existing knowledge graph. It combines quantitative knowledge and evolutionary knowledge. And in the case of knowledge inference, its knowledge graph embedding combines the attribute knowledge of quantitative knowle

17、dge, not only for the relationship between entities or evolutionary. The experimental results show that our method has improved compared to other methods.Keywords: Knowledge Graph, Relation Extraction, Event Identification, Knowledgeembedding, Knowledge Inference TOC o 1-5 h z HYPERLINK l bookmark7

18、o Current Document 摘要IABSTRACTII HYPERLINK l bookmark18 o Current Document 第1章緒論1 HYPERLINK l bookmark21 o Current Document 1.1課題來(lái)源1 HYPERLINK l bookmark24 o Current Document 1.2研究背景和意義1 HYPERLINK l bookmark30 o Current Document 1.3國(guó)內(nèi)外研究現(xiàn)狀及分析3 HYPERLINK l bookmark33 o Current Document 1.3.1國(guó)外研究現(xiàn)狀分析3

19、 HYPERLINK l bookmark36 o Current Document 1.3.2國(guó)內(nèi)研究現(xiàn)狀分析5 HYPERLINK l bookmark39 o Current Document 1.4本文的主要研究?jī)?nèi)容7 HYPERLINK l bookmark45 o Current Document 1.5本文的組織結(jié)構(gòu)8 HYPERLINK l bookmark48 o Current Document 第2章定量知識(shí)抽取9 HYPERLINK l bookmark51 o Current Document 2.1引言9 HYPERLINK l bookmark54 o Curre

20、nt Document 2.2背景技術(shù)9 HYPERLINK l bookmark60 o Current Document 2.3定量知識(shí)抽取11 HYPERLINK l bookmark63 o Current Document 2.3.1定量知識(shí)模型設(shè)計(jì)12 HYPERLINK l bookmark66 o Current Document 2.3.2基于Bi-LSTM-CRF的命名實(shí)體識(shí)別12 HYPERLINK l bookmark71 o Current Document 2.3.3與無(wú)監(jiān)督學(xué)習(xí)結(jié)合的屬性抽取132.4實(shí)驗(yàn)結(jié)果162.4.1實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備16 HYPERLINK l

21、bookmark93 o Current Document 2.4.2實(shí)驗(yàn)評(píng)價(jià)指標(biāo)17 HYPERLINK l bookmark96 o Current Document 2.4.3實(shí)驗(yàn)結(jié)果與分析17 HYPERLINK l bookmark99 o Current Document 2.5本章小結(jié)20 HYPERLINK l bookmark102 o Current Document 第3章事理知識(shí)抽取22 HYPERLINK l bookmark105 o Current Document 3.1引言22 HYPERLINK l bookmark108 o Current Documen

22、t 3.2背景技術(shù)22 HYPERLINK l bookmark111 o Current Document 3.3事理知識(shí)抽取24 HYPERLINK l bookmark114 o Current Document 3.3.1事理知識(shí)模型設(shè)計(jì)25 HYPERLINK l bookmark117 o Current Document 3.3.2基于DMCNN的觸發(fā)詞識(shí)別26 HYPERLINK l bookmark120 o Current Document 3.3.3基于句法分析的事件元素識(shí)別28 HYPERLINK l bookmark126 o Current Document 3.3

23、.4基于Bi-LSTM的關(guān)系分類31 HYPERLINK l bookmark131 o Current Document 3.4知識(shí)模型融合32 HYPERLINK l bookmark136 o Current Document 3.5實(shí)驗(yàn)結(jié)果與分析34 HYPERLINK l bookmark139 o Current Document 3.5.1事件觸發(fā)詞識(shí)別34 HYPERLINK l bookmark142 o Current Document 3.5.2事件關(guān)系分類36 HYPERLINK l bookmark145 o Current Document 3.6本章小結(jié)36 HY

24、PERLINK l bookmark148 o Current Document 第4章 制造業(yè)知識(shí)圖譜補(bǔ)全37 HYPERLINK l bookmark151 o Current Document 4.1引言37 HYPERLINK l bookmark154 o Current Document 4.2背景技術(shù)37 HYPERLINK l bookmark164 o Current Document 4.3基于LProjE的知識(shí)圖譜補(bǔ)全38 HYPERLINK l bookmark167 o Current Document 4.3.1問(wèn)題描述38 HYPERLINK l bookmark

25、170 o Current Document ProjE 模型不足39 HYPERLINK l bookmark173 o Current Document LProjE 模型結(jié)構(gòu)40 HYPERLINK l bookmark189 o Current Document 4.4實(shí)驗(yàn)結(jié)果42 HYPERLINK l bookmark192 o Current Document 4.4.1實(shí)驗(yàn)評(píng)價(jià)指標(biāo)42 HYPERLINK l bookmark195 o Current Document 4.4.2實(shí)驗(yàn)結(jié)果與分析43 HYPERLINK l bookmark198 o Current Docum

26、ent 4.5本章小結(jié)45 HYPERLINK l bookmark201 o Current Document 結(jié)論46參考文獻(xiàn)48 HYPERLINK l bookmark268 o Current Document 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果53 HYPERLINK l bookmark271 o Current Document 哈爾濱工業(yè)大學(xué)學(xué)位論文原創(chuàng)性聲明和使用權(quán)限54 HYPERLINK l bookmark280 o Current Document 致謝55第1章緒論1.1課題來(lái)源本課題來(lái)源于國(guó)家自然科學(xué)基金聯(lián)合資助項(xiàng)目重點(diǎn)項(xiàng)目:面向浙江省制造 業(yè)的大數(shù)據(jù)分析理論

27、與關(guān)鍵技術(shù)研究。項(xiàng)目編號(hào):U1509216國(guó)家自然科學(xué)基金集成項(xiàng)目:基于數(shù)字仿真的大電網(wǎng)人工智能分析方法研 究。項(xiàng)目編號(hào):U18666021.2研究背景和意義制造業(yè)始終是一國(guó)經(jīng)濟(jì)發(fā)展并走向強(qiáng)盛的基礎(chǔ)。當(dāng)今時(shí)代,信息化和工業(yè) 化的兩化融合已經(jīng)成為發(fā)展趨勢(shì),在中國(guó)制造2025中指出,“新一代信息 技術(shù)與制造業(yè)深度融合,正在引發(fā)影響深遠(yuǎn)的產(chǎn)業(yè)變革,形成新的生產(chǎn)方式、 產(chǎn)業(yè)形態(tài)、商業(yè)模式和經(jīng)濟(jì)增長(zhǎng)點(diǎn)Mi】。習(xí)近平總書記強(qiáng)調(diào),“實(shí)體經(jīng)濟(jì)是國(guó)家 的本錢,要發(fā)展制造業(yè)尤其是先進(jìn)制造業(yè)”。堅(jiān)實(shí)的制造業(yè)是國(guó)家走向強(qiáng)盛 的基礎(chǔ),它為國(guó)家的發(fā)展提供了強(qiáng)大有力的支撐。工業(yè)智能化是在互聯(lián)網(wǎng)+下的發(fā)展趨勢(shì),然而制造業(yè)的決

28、策通常需要大量 的知識(shí)。制造業(yè)中存在著海量的異構(gòu)數(shù)據(jù),將其數(shù)據(jù)進(jìn)行匯聚與建模需要知識(shí) 的推動(dòng);對(duì)制造業(yè)進(jìn)行轉(zhuǎn)型升級(jí),將制造業(yè)制造能力變得標(biāo)準(zhǔn)化與智能化也需 要知識(shí)的推動(dòng);各行業(yè)平臺(tái)對(duì)創(chuàng)新應(yīng)用的開(kāi)放及維護(hù)運(yùn)行仍然需要知識(shí)的輔助。 利用知識(shí)構(gòu)建成的工業(yè)互聯(lián)網(wǎng)平臺(tái)可支撐生產(chǎn)智能決策、業(yè)務(wù)模型創(chuàng)新、資源 優(yōu)化和產(chǎn)生生態(tài)培育。因此,構(gòu)建面向制造業(yè)的知識(shí)體系對(duì)工業(yè)智能化的發(fā)展 有著重大的意義。如今在制造業(yè)行業(yè)中存在著大量的知識(shí)數(shù)據(jù),隨著時(shí)間的推移,未來(lái)還將 產(chǎn)生新的知識(shí)數(shù)據(jù)。同時(shí),制造業(yè)的知識(shí)依賴于人工經(jīng)驗(yàn),依賴于專家的技術(shù) 水平與工程經(jīng)驗(yàn)。而人的經(jīng)驗(yàn)是獨(dú)立的,沒(méi)有一個(gè)大的融合,以致于其他人無(wú) 法學(xué)習(xí)。而

29、且這些大量的知識(shí)數(shù)據(jù)雖然存在于計(jì)算機(jī)內(nèi),但是計(jì)算機(jī)無(wú)法對(duì)其 進(jìn)行理解。因此需要一個(gè)系統(tǒng)理解這些知識(shí),并可以在巳有的知識(shí)基礎(chǔ)上進(jìn)行 推理和判斷。早期的語(yǔ)義網(wǎng)通過(guò)“元數(shù)據(jù)”提供了 一個(gè)信息交換的統(tǒng)一的標(biāo)準(zhǔn)閔, 元數(shù)據(jù)可以被計(jì)算機(jī)所理解,由此使計(jì)算機(jī)提升了推理與搜索能力,使計(jì)算機(jī) 變得更加智能化,但是語(yǔ)義網(wǎng)早期是靠人工構(gòu)建,需要很強(qiáng)的專業(yè)知識(shí)以及大 量的人力。而現(xiàn)如今,知識(shí)圖譜應(yīng)運(yùn)而生。知識(shí)圖譜通過(guò)整合不同的信息來(lái)源,包括 結(jié)構(gòu)化的表格信息、半結(jié)構(gòu)化的例如百科信息,以及非結(jié)構(gòu)化的文本信息等, 形成一個(gè)大的網(wǎng)絡(luò)。知識(shí)圖譜注重如何從這些數(shù)據(jù)源中提取出所需要的知識(shí), 對(duì)不同數(shù)據(jù)源獲取的知識(shí)如何融合,以及怎

30、樣進(jìn)行知識(shí)表示可以更有效地為其 他任務(wù)提供好基礎(chǔ)。且知識(shí)圖譜的構(gòu)建可以通過(guò)機(jī)器學(xué)習(xí)等方式,減少了人工 構(gòu)建的成本,知識(shí)圖譜有著強(qiáng)大的推理能力。因此,面向制造業(yè)的知識(shí)構(gòu)建可 以選用知識(shí)圖譜,知識(shí)圖譜將是一個(gè)很好的表達(dá)。隨著信息化與互聯(lián)網(wǎng)+大浪潮的發(fā)展,目前知識(shí)圖譜在互聯(lián)網(wǎng)4、醫(yī)療5】、 電商等垂直行業(yè)中得到廣泛應(yīng)用。例如,搜索引擎通過(guò)在知識(shí)圖譜中搜索類 別、關(guān)系、相關(guān)性等方面匹配度較高的實(shí)體提高搜索結(jié)果的質(zhì)量。而現(xiàn)如今,關(guān)于制造業(yè)知識(shí)圖譜建設(shè)主要面臨以下幾個(gè)問(wèn)題:知識(shí)圖譜中僅存在定性知識(shí),缺少定量知識(shí):目前知識(shí)圖譜中存在的知識(shí)均為定性知識(shí)。例如V北京,首都,中國(guó):代 表北京是中國(guó)的首都。然而制造

31、業(yè)中存在著大量的定量知識(shí),例如“透光率 Pmv30%的是年輕褐煤”等。定性知識(shí)與定量知識(shí)同時(shí)存在,目前的知識(shí)圖譜無(wú) 法表達(dá)。知識(shí)圖譜中僅存在關(guān)聯(lián)知識(shí),缺少事理知識(shí):現(xiàn)有的知識(shí)圖譜都是以概念、實(shí)體為中心,表達(dá)概念與概念之間,實(shí)體與 實(shí)體之間的關(guān)系。它缺乏對(duì)事件的描述以及事理之間的關(guān)系。以買房子為例, 買房子一裝修一買家具就是一個(gè)事理邏輯。在制造業(yè)中,存在著大量的時(shí)序關(guān) 系與事理邏輯。以水處理為例,目前的知識(shí)圖譜所存的知識(shí)可能為:原水一軟 化水一除鹽水。而這個(gè)流程的事理邏輯則為:過(guò)石英砂過(guò)濾器一過(guò)反滲透裝置 -過(guò)除碳器一打入除氧器。這一過(guò)程是存在時(shí)序關(guān)系的,而目前的知識(shí)圖譜都 未體現(xiàn)出知識(shí)的時(shí)序關(guān)

32、系。知識(shí)圖譜的推理僅關(guān)注實(shí)體及其之間的關(guān)系,忽略實(shí)體的屬性等定量 知識(shí):知識(shí)圖譜的推理大多依托于知識(shí)表示。而現(xiàn)有的知識(shí)表示方式大多基于實(shí) 體與實(shí)體之間的關(guān)系。實(shí)體有許多自己的屬性,但是對(duì)于知識(shí)推理的任務(wù)中, 都忽略了這些屬性。制造業(yè)中存在著許多定量知識(shí)作為制造業(yè)中實(shí)體的屬性, 這些知識(shí)可以輔助推理,進(jìn)行決策?,F(xiàn)有的知識(shí)圖譜推理方式無(wú)法解決此類問(wèn) 題。對(duì)于以上問(wèn)題,我們對(duì)面向制造業(yè)的知識(shí)圖譜的構(gòu)建與表示模型進(jìn)行研究。 可以數(shù)據(jù)知識(shí)與文本知識(shí)結(jié)合推理,讓關(guān)聯(lián)知識(shí)與事理邏輯相結(jié)合,并利用結(jié) 合的知識(shí)進(jìn)行知識(shí)推理,而不是作為孤立的個(gè)體。以使在此知識(shí)圖譜的基礎(chǔ)上, 可以推理出更多的知識(shí),在制造業(yè)的流程以

33、及故障檢測(cè)及給出原因時(shí),減少人 工干預(yù)。1.3國(guó)內(nèi)外研究現(xiàn)狀及分析工業(yè)互聯(lián)網(wǎng)在不斷的方展,工業(yè)智能化時(shí)代也在一點(diǎn)點(diǎn)到來(lái)。制造業(yè)擁有 概念繁多,工藝復(fù)雜、知識(shí)量數(shù)據(jù)量巨大的特點(diǎn)。許多工業(yè)產(chǎn)生的數(shù)據(jù)為非結(jié) 構(gòu)化數(shù)據(jù),對(duì)非結(jié)構(gòu)化的數(shù)據(jù)處理有一定的難度,而對(duì)于工業(yè)來(lái)說(shuō),對(duì)數(shù)據(jù)分 析的要求更高。目前面向通用領(lǐng)域的知識(shí)圖譜的構(gòu)建與表達(dá)存在著許多研究, 通用領(lǐng)域知識(shí)圖譜的構(gòu)建方式對(duì)制造業(yè)有一定的參考作用。因此,我們對(duì)國(guó)內(nèi) 外工業(yè)平臺(tái)的相關(guān)技術(shù)及發(fā)展,以及國(guó)內(nèi)外的研究學(xué)者們對(duì)知識(shí)圖譜的構(gòu)建與 表達(dá)技術(shù)作了簡(jiǎn)要分析。1.3.1國(guó)外研究現(xiàn)狀分析國(guó)外的研究者主要是對(duì)通用領(lǐng)域的知識(shí)圖譜進(jìn)行研究,對(duì)領(lǐng)域知識(shí)圖譜的 研究

34、主要為醫(yī)療領(lǐng)域的研究。目前對(duì)知識(shí)圖譜的研究大多都是基于已經(jīng)構(gòu)建好的一些通用領(lǐng)域的知識(shí) 庫(kù)。比較有名的有Freebase7 WordNet8等,F(xiàn)reebase主要包括世界知識(shí), WordNet主要包括語(yǔ)言知識(shí)庫(kù),還有一些領(lǐng)域知識(shí)庫(kù),例如IMDBt9,但I(xiàn)MDB 是由人手工構(gòu)建的。同時(shí),有一些互聯(lián)網(wǎng)公司也有自己的知識(shí)圖譜,例如提出 知識(shí)圖譜概念的谷歌3,以及微軟的Bing Satori11o還有一些是將知識(shí)圖譜 放在了應(yīng)用的背后,例如蘋果公司的Siri助理、IBM Watson的問(wèn)答系統(tǒng)等, 它們的背后都有知識(shí)圖譜的支撐。面對(duì)制造業(yè)中存在的大量的概念以及復(fù)雜的 工藝,我們也需要構(gòu)建的制造業(yè)知識(shí)圖

35、譜用以支撐制造業(yè)的數(shù)字化發(fā)展,我們 構(gòu)建的制造業(yè)的知識(shí)圖譜也為垂直領(lǐng)域知識(shí)圖譜。資源描述框架RDF (resource description framework)規(guī)定,使用三元組v實(shí)體1,關(guān)系,實(shí)體2的方式進(jìn)行知識(shí)庫(kù)中知識(shí)的表示,RDF由萬(wàn)維網(wǎng)聯(lián)盟 (W3C)提出,目前的研究大多基于此種形式,然而這種形式對(duì)于我們面向制 造業(yè)領(lǐng)域的知識(shí)圖譜表達(dá)存在不足,我們會(huì)在后續(xù)進(jìn)行研究。知識(shí)圖譜的構(gòu)建,需要對(duì)知識(shí)進(jìn)行抽取。而通常的做法是:先進(jìn)行命名實(shí) 體識(shí)別的抽取,再進(jìn)行實(shí)體之間關(guān)系的抽取。因此將知識(shí)圖譜的構(gòu)建問(wèn)題轉(zhuǎn)化 成了實(shí)體識(shí)別與關(guān)系分類兩個(gè)子問(wèn)題。而目前對(duì)知識(shí)圖譜的研究中,都己知給 定了實(shí)體,針對(duì)實(shí)

36、體關(guān)系的分類問(wèn)題。實(shí)體關(guān)系抽?。簩?shí)體關(guān)系抽取問(wèn)題一開(kāi)始源自于自然語(yǔ)言的評(píng)測(cè)任務(wù)。如 muci4和acei5。在評(píng)測(cè)任務(wù)中,給定了需要抽取的實(shí)體類別。因此,大多 數(shù)研究者對(duì)實(shí)體關(guān)系抽取的問(wèn)題研究轉(zhuǎn)換成了對(duì)實(shí)體關(guān)系的分類任務(wù)。在神經(jīng) 網(wǎng)絡(luò)提出之前,分類采取的都是傳統(tǒng)分類器,如最大炳、SVM等方式。分類 通常使用基于特征向量與基于核函數(shù)兩種方式。Kambhatlai6利用實(shí)體詞的相 關(guān)信息構(gòu)建特征,TratzW在使用實(shí)體詞的基礎(chǔ)上,加入了上下文等特征。 Zelenko引、Culotta19、Buneseu20分別使用淺層語(yǔ)義核函數(shù)、依存樹核心函數(shù)、 最短路徑核的方式,對(duì)實(shí)體關(guān)系進(jìn)行抽取。且基于核函數(shù)

37、的方式提取的特征要 優(yōu)于基于特征向量的方式。隨著神經(jīng)網(wǎng)絡(luò)的提出以及數(shù)據(jù)量的發(fā)展。人們發(fā)現(xiàn) 訓(xùn)練數(shù)據(jù)集數(shù)據(jù)小,不足以支撐大規(guī)模的數(shù)據(jù)分類,由此,遠(yuǎn)程監(jiān)督的概念在 2009年被Mintz提出】。遠(yuǎn)程監(jiān)督對(duì)于給定的關(guān)系去已經(jīng)存在的知識(shí)庫(kù)如 Freebase wikipedia知識(shí)庫(kù)中尋找符合的實(shí)體對(duì),并將文本中包含這個(gè)實(shí)體對(duì) 的句子都標(biāo)記為此關(guān)系,實(shí)現(xiàn)了自動(dòng)標(biāo)注的功能。但這樣會(huì)引入大量的噪聲。 因此后續(xù)的任務(wù)重點(diǎn)都轉(zhuǎn)移到了如何減少噪聲的影響。但遠(yuǎn)程監(jiān)督需要巳有的 知識(shí)庫(kù)的信息,對(duì)于我們構(gòu)建制造業(yè)知識(shí)圖譜不太適合。事件知識(shí)抽?。河捎趯?duì)于事理圖譜構(gòu)建沒(méi)有引起很大的關(guān)注,大多數(shù)研究 者都在研究知識(shí)圖譜的構(gòu)

38、建。因此,對(duì)于事理圖譜構(gòu)建的沒(méi)有一個(gè)統(tǒng)一的流程。 但是與之相關(guān)有一個(gè)自然語(yǔ)言的經(jīng)典問(wèn)題:事件抽取任務(wù)。事件抽取是由 ACE2005H5評(píng)測(cè)提出,給定語(yǔ)料庫(kù),并給定有哪些事件類別以及論元類別,需 要識(shí)別出事件的觸發(fā)詞并對(duì)事件進(jìn)行分類,對(duì)論元同理。事件抽取方向的研究 對(duì)于我們構(gòu)建制造業(yè)的知識(shí)圖譜有借鑒作用。知識(shí)圖譜表示:近年來(lái),知識(shí)表示引起了越來(lái)越多研究者們的注意。知識(shí) 表示作為知識(shí)圖譜任務(wù)的基礎(chǔ),可以在低維的空間下對(duì)實(shí)體和關(guān)系進(jìn)行語(yǔ)義關(guān) 聯(lián)查找、計(jì)算等,提升了計(jì)算的效率。對(duì)知識(shí)圖譜的糾錯(cuò)、補(bǔ)全都有著巨大的 作用。TransES是知識(shí)表示中里程碑似的方法,是Bordes等于2013年提出。 利用詞

39、向量中的平移不變性,將實(shí)體和關(guān)系投影到一個(gè)平面上,令實(shí)體之間的 關(guān)系看作頭實(shí)體和尾實(shí)體之間的平移TransE簡(jiǎn)單高效,給研究者們?cè)谥R(shí)表 示上提供了新的思路。由于TransE對(duì)1-N關(guān)系等有致命缺陷,后續(xù)TransE的 變形相繼被提出。例如:TransH23、TransDP4、TransRl25、TransA26、TransGl27 TranSparseW等。他們提出不同的投影方式,例如投影到不同的平面、區(qū)分語(yǔ) 義空間、改變不同的投影矩陣等方式進(jìn)行改進(jìn)。后續(xù)還有很多方法,例如融合 外部信息等方式29逐漸提高知識(shí)表示的性能。知識(shí)圖譜可能很稀疏,也可能存在錯(cuò)誤。知識(shí)圖譜補(bǔ)全可以改善這個(gè)問(wèn)題。 知識(shí)

40、補(bǔ)全任務(wù)可以基于知識(shí)表示得到的結(jié)果3。,也有基于圖的知識(shí)補(bǔ)全方法, 例如 PRA(Path Ranking Algorithm)?!考?SFE(Subgraph Feature Extraction)132他 們基于實(shí)體之間關(guān)系的路徑進(jìn)行游走進(jìn)行知識(shí)圖譜的補(bǔ)全。我們構(gòu)建在面向制 造業(yè)的知識(shí)圖譜時(shí),也需要在得到初始的知識(shí)圖譜后,對(duì)知識(shí)圖譜進(jìn)行補(bǔ)全。1.3.2國(guó)內(nèi)研究現(xiàn)狀分析與國(guó)外研究類似,國(guó)內(nèi)對(duì)知識(shí)圖譜的構(gòu)建、事件抽取以及知識(shí)圖譜中的知 識(shí)表示有著大量的研究。除此之外,國(guó)內(nèi)針對(duì)我國(guó)制造業(yè)的特點(diǎn),在與制造業(yè) 相關(guān)的知識(shí)庫(kù)構(gòu)建也有研究。關(guān)于制造業(yè)知識(shí)庫(kù)的構(gòu)建對(duì)于有效管理和充分利用制造業(yè)的知識(shí)經(jīng)驗(yàn)具

41、有重大意義。在知識(shí)表達(dá)方面,制造業(yè)知識(shí)庫(kù)主要基于關(guān)系、XML和本體語(yǔ) 言三種形式。基于關(guān)系的仿真知識(shí)庫(kù)構(gòu)建是最早也最容易理解的一種方法,例如由R C Dugan等提出的根據(jù)電網(wǎng)計(jì)算數(shù)據(jù)中各個(gè)單位(母線、變壓器、發(fā)電機(jī)、開(kāi)關(guān)、 刀閘等等)之間的關(guān)系構(gòu)成關(guān)系型數(shù)據(jù)庫(kù)EL基于XML的電網(wǎng)仿真知識(shí)庫(kù)的 構(gòu)建是源自于電力系統(tǒng)中事件數(shù)據(jù)的存儲(chǔ)需求,例如周忠等人構(gòu)建了一種基于 XML的電網(wǎng)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)ML隨著本體語(yǔ)言O(shè)WL的發(fā)展35,知識(shí)圖譜成為知識(shí)表示的主流形式36。研 究人員逐漸采用本體語(yǔ)言形式表達(dá)電網(wǎng)仿真知識(shí)。華北電力大學(xué)的王翠茹印 等基于語(yǔ)義網(wǎng)絡(luò)描述電力系統(tǒng)領(lǐng)域本體。趙峙鈞等提出了電網(wǎng)知識(shí)庫(kù)中本體鏈

42、 的概念EL黃彥浩等人提出了基于本體語(yǔ)言的電網(wǎng)知識(shí)庫(kù)塔狀結(jié)構(gòu)模型, 支持垂直結(jié)構(gòu)和水平分級(jí)結(jié)構(gòu)推理,從而加強(qiáng)知識(shí)表示能力,提高推理的效率 和精度。由上述國(guó)內(nèi)外的研究現(xiàn)狀可知,在面向制造業(yè)的知識(shí)庫(kù)構(gòu)建中,主要為基 于關(guān)系、XML和本體語(yǔ)言的三種方式?;陉P(guān)系的方式雖然顯示直觀,但是 關(guān)系型數(shù)據(jù)據(jù)對(duì)于動(dòng)態(tài)知識(shí)的推理較為困難,推理效率低;基于XML的方式 仍然擁有上述問(wèn)題,且XML的表達(dá)方式對(duì)于可視化的表達(dá)較差,知識(shí)表示比 較隱晦。雖然基于本體語(yǔ)言和圖的表示方式擁有好的表達(dá)可視化效果以及推理 方式完善,但是其仍存在著數(shù)據(jù)稀疏等問(wèn)題。而在電網(wǎng)仿真方面,仍缺少針對(duì) 復(fù)雜知識(shí)結(jié)構(gòu)的建模方式;而且由于制造業(yè)

43、數(shù)據(jù)中同時(shí)存在定性與定量知識(shí), 關(guān)聯(lián)和事理知識(shí),目前的本體和知識(shí)圖譜模型不足以對(duì)其進(jìn)行有效表達(dá)。國(guó)內(nèi)目前針對(duì)知識(shí)圖譜的構(gòu)建也有大量的工作。同國(guó)外的研究?jī)?nèi)容一樣, 我們也對(duì)國(guó)內(nèi)的研究?jī)?nèi)容做一個(gè)簡(jiǎn)單的介紹。實(shí)體關(guān)系抽?。涸诨谔卣飨蛄康姆诸愔?,車萬(wàn)翔、劉挺老師4將實(shí)體在 句子中的順序、以及實(shí)體所在位置的左右詞的特征等加入了特征向量中,關(guān)在 中文語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),提高了抽取性能,這兩種特征在神經(jīng)網(wǎng)絡(luò)的方法中也會(huì) 用到。李麗雙等人I使用基于核函數(shù)的方法,將兩種核函數(shù)結(jié)果,在中文語(yǔ)料 庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)證明比單獨(dú)核函數(shù)的效果好。遠(yuǎn)程監(jiān)督的方法是現(xiàn)在實(shí)體 關(guān)系抽取的熱點(diǎn)。PCNN、APCNN43等模型的提出

44、,將CNN進(jìn)行改進(jìn),并 引入了實(shí)體信息,得到了更好的分類結(jié)果。事件知識(shí)抽?。簞⑼蠋熓紫忍岢鍪吕韴D譜呼的概念。提出的事理圖譜主 要描述事件間的兩種關(guān)系:順承關(guān)系與因果關(guān)系。哈工大SCIR實(shí)驗(yàn)室建了兩 個(gè)事理圖譜的demo,分別是出行領(lǐng)域事理圖譜以及金融領(lǐng)域事理圖譜。并以 事理圖譜為基礎(chǔ)進(jìn)行了事件預(yù)測(cè)Ml。但對(duì)事理圖譜構(gòu)建的方法主要是基于模 板的方式,對(duì)因果關(guān)系的分類采用了基于特征的方式,利用樸素貝葉斯進(jìn)行分 類。知識(shí)圖譜表示:國(guó)內(nèi)的研究學(xué)者對(duì)知識(shí)表示也很多研究。Xie等人提出 DKRL模型性6,它融合了兩種模型:CBOW和CNNoLin等人提出PTransE, 將關(guān)系路徑加入TransE模型中

45、,都取得了較好的效果。如今對(duì)抗學(xué)習(xí)GAN 在圖像處理領(lǐng)域上大放異彩,Cai等人I提出用對(duì)抗學(xué)習(xí)來(lái)進(jìn)行知識(shí)表示,提 出KBGAN模型,使用現(xiàn)有的方法作為生成器對(duì)知識(shí)圖譜進(jìn)行訓(xùn)練。傳統(tǒng)的知識(shí)推理方式主要以邏輯或規(guī)則為主,在推理的過(guò)程中,缺乏常識(shí) 性的知識(shí)作為推理過(guò)程的輔助要素,此外知識(shí)庫(kù)中關(guān)系的函數(shù)特性,比如傳遞 性、對(duì)稱性等是非常重要的特征,在以往的知識(shí)推理工作中被忽視,導(dǎo)致知識(shí) 的利用率較低,缺乏基于數(shù)據(jù)以及文本等非結(jié)構(gòu)化數(shù)據(jù)的協(xié)同多元推理。和傳統(tǒng)的知識(shí)庫(kù)及其推理模式相比,制造業(yè)中所需要的知識(shí)具有定性和定 量知識(shí)融合、關(guān)聯(lián)與事理知識(shí)融合等顯著特點(diǎn),知識(shí)推理需將定量知識(shí)與事理 知識(shí)融合起來(lái)。因此

46、,亟需研究適用于制造業(yè)的的知識(shí)模型與自動(dòng)建模技術(shù)、 知識(shí)表達(dá)方式。為制造業(yè)提供知識(shí)庫(kù)以及知識(shí)管理平臺(tái),以提高制造業(yè)分析的 效率和準(zhǔn)確性。1.4本文的主要研究?jī)?nèi)容本課題針對(duì)制造業(yè)的定量數(shù)據(jù)與事理數(shù)據(jù),提出了一種面向制造業(yè)的知識(shí) 圖譜構(gòu)建與表達(dá)模型。首先,通過(guò)對(duì)制造業(yè)中的文本知識(shí)以及發(fā)生的相關(guān)事件 進(jìn)行分析,抽取出定量知識(shí)以及事理知識(shí)。然后將得到的知識(shí)二者結(jié)合,進(jìn)行 協(xié)同知識(shí)推理,提高知識(shí)推理的效率。在知識(shí)圖譜中加入帶有時(shí)序信息的事理 邏輯,可用于流程問(wèn)題的預(yù)測(cè)以及時(shí)序模式的挖掘等。通過(guò)此知識(shí)圖譜的表達(dá), 支撐制造業(yè)仿真分析的各個(gè)環(huán)節(jié)。本課題的研究?jī)?nèi)容邏輯如下所示:圖本文研究?jī)?nèi)容在知識(shí)圖譜中融合定

47、性知識(shí)與定量知識(shí)制造業(yè)中存著在大量的定量標(biāo)準(zhǔn),例如壓力、抽汽量、濃度、熱耗等知識(shí)。 這些定量知識(shí)對(duì)制造業(yè)的故障檢測(cè)以及工藝流程都尤其重要。不同的屬性在不 同的數(shù)值下會(huì)對(duì)事件產(chǎn)生不同的影響,因此,需要將定量數(shù)據(jù)也存入知識(shí)圖譜 中。我們的第一部分內(nèi)容就將研究如何將定量知識(shí)存儲(chǔ)于知識(shí)圖譜中,將定量 知識(shí)與定性知識(shí)融合。根據(jù)制造業(yè)的時(shí)序加工流程等情況,在知識(shí)圖譜的構(gòu)建中加入事理邏 輯?,F(xiàn)有的知識(shí)圖譜都是以概念、實(shí)體為中心,表達(dá)概念與概念之間,實(shí)體與 實(shí)體之間的關(guān)系。而事理知識(shí)以事件為核心,并不是一個(gè)實(shí)體或者概念能表達(dá)。 制造業(yè)存在著大量的時(shí)間序列的事件,例如加工流程、工序等,這些工序復(fù)雜, 如若出現(xiàn)問(wèn)

48、題人們只能通過(guò)經(jīng)驗(yàn)來(lái)判斷。因此,我們需要研究事理之間的關(guān)系 的存儲(chǔ)以及表示形式,在知識(shí)圖譜的構(gòu)建中加入事理邏輯,為其他應(yīng)用提供支 持。將定量知識(shí)與事理知識(shí)相結(jié)合,進(jìn)行協(xié)同知識(shí)推理知識(shí)推理是知識(shí)圖譜構(gòu)建過(guò)程中的重要組成部分,是知識(shí)庫(kù)補(bǔ)全,融合與 糾錯(cuò)的重要手段,旨在提煉語(yǔ)義規(guī)則,使得計(jì)算機(jī)能夠理解和計(jì)算知識(shí)庫(kù)中的 結(jié)構(gòu)化知識(shí),派生出新的事實(shí)。傳統(tǒng)的模式為基于邏輯的推理,如今使用更多 的是基于圖的推理。我們不僅擁有定量知識(shí),也擁有事理知識(shí)。因此我們需要 研究如何在已經(jīng)有的知識(shí)推理方式的基礎(chǔ)上,融合這兩部分知識(shí),進(jìn)行協(xié)同知 識(shí)推理。1.5本文的組織結(jié)構(gòu)本文從制造業(yè)的角度出發(fā),認(rèn)為目前制造業(yè)中存在著大

49、量的復(fù)雜知識(shí),且 以人的經(jīng)驗(yàn)為主。目前知識(shí)的存儲(chǔ)方式不能使計(jì)算機(jī)很好地理解并應(yīng)用這些知 識(shí)。因此,我們提出構(gòu)建面向制造業(yè)的知識(shí)圖譜。由于目前的知識(shí)圖譜模型不 足以表達(dá)制造業(yè)的知識(shí),因此我們將對(duì)制造業(yè)中的定量知識(shí)以及事理知識(shí)的抽 取以及表達(dá)進(jìn)行研究,并結(jié)合二者進(jìn)行推理。第一章為緒論部分,首先介紹了本課題的來(lái)源,其次介紹了構(gòu)建面向制造 業(yè)的知識(shí)圖譜的必要性,闡述了現(xiàn)有知識(shí)圖譜的不足之處,以及我們?yōu)槭裁匆?研究此內(nèi)容,研究的意義。接下來(lái)介紹了目前國(guó)內(nèi)外研究者對(duì)制造業(yè)的知識(shí)的 模型設(shè)計(jì),以及對(duì)知識(shí)圖譜的構(gòu)建、表示、推理的研究?jī)?nèi)容,了解本課題目前 在國(guó)內(nèi)外的研究現(xiàn)狀。第二章介紹了對(duì)制造業(yè)定量知識(shí)抽取的研

50、究。將定量知識(shí)的抽取視為制造 業(yè)中實(shí)體的屬性抽取。首先設(shè)計(jì)了定量知識(shí)的表示模型,其次介紹了如何 對(duì) 定量知識(shí)抽取。將對(duì)定量知識(shí)的抽取分成了兩部分:實(shí)體抽取以及屬性抽取。第三章介紹了對(duì)制造業(yè)中事理知識(shí)抽取的研究。首先設(shè)計(jì)了事理邏輯知識(shí) 的表示模型,其次介紹了如何對(duì)事理知識(shí)抽取,將事理知識(shí)的抽取分為三部分: 事理觸發(fā)詞識(shí)別、事理描述補(bǔ)全以及事理邏輯的分類。最后設(shè)計(jì)了二事理知識(shí) 與第二章得到的定量知識(shí)融合模型,并將二者進(jìn)行融合。第四章介紹了對(duì)制造業(yè)中形成的知識(shí)圖譜進(jìn)行補(bǔ)全。提出了 LProjE算法, 在原來(lái)僅基于實(shí)體與實(shí)體關(guān)系進(jìn)行推理的基礎(chǔ)上,加入了作為屬性的定量知識(shí) 作為補(bǔ)充,進(jìn)行推理。第2章定量

51、知識(shí)抽取2.1引言在制造業(yè)數(shù)據(jù)中,存在著大量的定量知識(shí)?,F(xiàn)有的知識(shí)圖譜的抽取工作, 大多是基于一些公開(kāi)的數(shù)據(jù)集,并對(duì)抽取的關(guān)系及屬性提前預(yù)設(shè)完成,進(jìn)行抽 取。但對(duì)于制造業(yè)中,這些定量知識(shí)的屬性種類繁多,例如工藝生產(chǎn)過(guò)程中的 各種溫度、濕度、壓強(qiáng)等,僅一個(gè)“溫度”就包括:水溫、油溫、煙溫、進(jìn)口溫 度、出口溫度、設(shè)備溫度、平均溫度等等,這些屬性雖都叫“溫度”,但它們代 表著不同的參數(shù)含義,不能統(tǒng)一表述一概而論;且這些定量知識(shí)屬性均存在于 非結(jié)構(gòu)文本中,難以對(duì)所有的屬性進(jìn)行提前預(yù)設(shè);同時(shí)制造業(yè)的文本數(shù)據(jù)集不 同于公開(kāi)數(shù)據(jù)集,沒(méi)有訓(xùn)練樣本,需要大量的人工標(biāo)注。因此,本章從制造業(yè)的定量數(shù)據(jù)特點(diǎn)出發(fā),在使

52、用現(xiàn)有的方法識(shí)別出實(shí)體 后,對(duì)于定量知識(shí)屬性的識(shí)別采用無(wú)監(jiān)督方法與序列標(biāo)注相結(jié)合的方式,從文 本中抽取定量知識(shí)的屬性,無(wú)需對(duì)屬性種類提前進(jìn)行預(yù)設(shè),且與無(wú)監(jiān)督方式結(jié) 合,可以減少人工標(biāo)注的代價(jià)。定量知識(shí)抽取的問(wèn)題描述為:輸入為非結(jié)構(gòu)文 本的集合X= 32,.,xQ,輸出為定量知識(shí)的集合Gq。其中Gq = | V e, attr, n1,n2 6 G。2.2背景技術(shù)Bi-LSTM-CRF505152模型是自然語(yǔ)言處理中對(duì)于序列標(biāo)注中公認(rèn)的有效模 型。由于中文是沒(méi)有明顯詞語(yǔ)邊界標(biāo)記的語(yǔ)言,因此我們選用基于字的Bi- LSTM-CRF進(jìn)行介紹,算法原理如下:序列標(biāo)注模型以句子為單位進(jìn)行標(biāo)注。設(shè)所需標(biāo)注

53、的句子有n個(gè)字,則將 此句子用字的序列表示如下:X =(Xi,*2, ,*/其中的 為句子中第i個(gè)字的字向量(character embedding),刁是embedding 的維度。字向量可由預(yù)訓(xùn)練如word2vec的CBOW、Skip-gram等方式或隨機(jī)初 始化embedding矩陣再經(jīng)過(guò)look-up獲得。Bi-LSTM-CRF主要分為兩層:Bi-LSTM 層與CRF層。Bi-LSTM層:即雙向LSTM層。對(duì)于序列標(biāo)注任務(wù),Bi-LSTM不僅可以以 獲取到過(guò)去的特征,也可以獲取到未來(lái)的特征。這里我們介紹的是基于字的Bi-LSTM-CRF方法,因此Bi-LSTM的輸入為 一個(gè)句子按字切分

54、后,句中各字的embedding序列(x1,x2, .,xn)o將輸入送入 Bi-LSTM中,通過(guò)正向LSTM可以得到隱狀態(tài)序列(屁成無(wú));通過(guò)反向 LSTM得到隱狀態(tài)序最后將正、反向LSTM分別得到的隱狀 態(tài)序列進(jìn)行拼接,兒=反;瓦低nr1,得到完整的隱狀態(tài)序列(hi,處,hn) G得到的隱狀態(tài)序列很好地概括了句子的特征,為后序的標(biāo)注任務(wù)提供了一個(gè)基 礎(chǔ)。Bi-LSTM可以直接進(jìn)行序列標(biāo)注,若將從Bi-LSTM得到的結(jié)果經(jīng)過(guò)一個(gè) 線性層,對(duì)隱狀態(tài)向量進(jìn)行一個(gè)映射,便可以根據(jù)映射結(jié)果進(jìn)行分類。其中映 射維度從m維到k維,其中k代表標(biāo)注集中標(biāo)簽的個(gè)數(shù)。得到矩陣P如下所 示:P =(P1,P2,,

55、Pn) 6 哪X*其中,Pi G k, pi,表示字豹分類到第/個(gè)標(biāo)簽的分?jǐn)?shù)值,通過(guò)這個(gè)分?jǐn)?shù)值可以 獨(dú)立地將每個(gè)位置進(jìn)行k類分類。但是如果按照上述操作,標(biāo)簽之間強(qiáng)烈的相關(guān)性沒(méi)有考慮,且對(duì)每個(gè)位置進(jìn) 行標(biāo)注時(shí),忽略了已經(jīng)標(biāo)注過(guò)的信息。但是CRF可以解決這個(gè)問(wèn)題,因此接入 CRF層,下面我們對(duì)CRF進(jìn)行介紹。CRF層:CRF層的輸入為Bi-LSTM得到的每個(gè)詞映射到標(biāo)簽的分?jǐn)?shù)值組 成的矩陣P,輸出為每個(gè)字的標(biāo)簽。設(shè)對(duì)于輸入的句子X(jué),輸出的句子標(biāo)簽序列為y =,%),定義其分?jǐn)?shù)為:(2-1)nn+1score(X,y) = Piy. + Ay._i)y.i=li=l其中,P為從Bi-LSTM得到的非

56、歸一化矩陣,A RdMW)為CRF層的轉(zhuǎn)移 概率矩陣,表示從第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移得分。A為k+2維的方陣, 其中2代表著句子首端增加的起始狀態(tài)與最后的終止?fàn)顟B(tài)。序列每個(gè)位置的得分由由LSTM輸出的所和CRF的轉(zhuǎn)移矩陣A決定,因此 標(biāo)注的時(shí)候不僅利用了前后的句子信息,也利用了已經(jīng)標(biāo)注過(guò)的標(biāo)簽的信息。 整個(gè)序列的分?jǐn)?shù)為每個(gè)位置分?jǐn)?shù)之和。利用softmax對(duì)概率進(jìn)行歸一化:(2-2)P3X) 一 exp(score(X,y)Sy, exp (score (X,/)io對(duì)于模型,在訓(xùn)練時(shí)通過(guò)最大化對(duì)數(shù)似然函數(shù)得到正確的標(biāo)簽序列,以訓(xùn) 練樣本(x,yx)為例,下式給出了其對(duì)數(shù)似然公式:log(P

57、(yx|X) = score(X,yX) - log。/exp(score(X,y)(2-3)模型在預(yù)測(cè)過(guò)程(解碼)時(shí),為求得正確的標(biāo)簽,可使用Viterbi算法利用 動(dòng)態(tài)規(guī)劃的思想,對(duì)最優(yōu)路徑進(jìn)行求解:(2-4)y* = argmaxscore(x, y)整個(gè)模型的結(jié)構(gòu)如下圖2-1所示:CRF layerLSTWs output backward LSTMforward LSTMfook-up layer one hot vector圖2-1 Bi-LSTM-CRF模型示例2.3定量知識(shí)抽取圖2-2定量知識(shí)抽取結(jié)構(gòu)本章的任務(wù)是從無(wú)結(jié)構(gòu)的文本中,抽取出實(shí)體以及與實(shí)體相關(guān)的定量屬性 及定量的數(shù)值

58、,設(shè)計(jì)一種結(jié)構(gòu)表示此定量知識(shí)。因此,將任務(wù)分為兩個(gè)模塊: 命名實(shí)體識(shí)別,定量屬性識(shí)別。本章結(jié)構(gòu)如圖2-2所示。2.3.1定量知識(shí)模型設(shè)計(jì)對(duì)于定量知識(shí)模型,我們采取v實(shí)體,參數(shù),參數(shù)區(qū)間的形式。例如v等離 子裝置,電流,200A,375A。對(duì)于定量知識(shí)模型,定義如下規(guī)則:定義1:若從知識(shí)中提取出來(lái)是單一的數(shù)字,而不是區(qū)間內(nèi)容,我們規(guī)定區(qū) 間的上限與下限為相同的此單一的數(shù)字。例如下述知識(shí):?jiǎn)?dòng)給煤機(jī)B,煤量 28t/ho上述知識(shí)就可表示為v給煤機(jī)B,煤量,28t/h,28t/ho定義2:若只出現(xiàn)“小于xxx”、“大于xxx”等符號(hào)或字樣,是區(qū)間數(shù)值但卻未 明確寫明上下限,則下限用L代替,上限用U代

59、替。例如:v磨煤機(jī),出力, L,50t/h,o2.3.2基于Bi-LSTM-CRF的命名實(shí)體識(shí)別目前已經(jīng)存在的命名實(shí)體識(shí)別工具,只能對(duì)通用領(lǐng)域的典型實(shí)體,例如人名、 地名、機(jī)構(gòu)名等進(jìn)行識(shí)別。特定領(lǐng)域的實(shí)體根據(jù)識(shí)別任務(wù)的不同而不同,例如 在醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜中,疾病、藥物名稱等可能為所需實(shí)體?,F(xiàn)如今不存在 對(duì)于領(lǐng)域文本的實(shí)體識(shí)別工具,在本章中,我們則將電廠的各種設(shè)備系統(tǒng)等設(shè) 計(jì)為所需實(shí)體,利用Bi-LSTM-CRF算法進(jìn)行命名實(shí)體識(shí)別。實(shí)體類型定義本章所選取的數(shù)據(jù)中,實(shí)體的主要類型為:電廠設(shè)備或系統(tǒng),用EQU表示。訓(xùn)練數(shù)據(jù)標(biāo)注本章使用基于字的Bi-LSTM-CRF進(jìn)行命名實(shí)體識(shí)別,實(shí)則是將NER

60、問(wèn)題 轉(zhuǎn)換成序列標(biāo)注問(wèn)題并進(jìn)行分類。此方法屬于監(jiān)督學(xué)習(xí)方法,因此需要標(biāo)注訓(xùn) 練數(shù)據(jù)。本課題使用BIO標(biāo)注集,含義如表所示。表2-1 BIO標(biāo)注集含義標(biāo)注含義B-EQU電廠設(shè)備或系統(tǒng)首字I-EQU電廠設(shè)備或系統(tǒng)非首字0非命名實(shí)體的一部分輸入非結(jié)構(gòu)文本的句子,將每個(gè)字的字向量送到Bi-LSTM-CRF模型中,將 每個(gè)字進(jìn)行分類B,I,O三類。最后根據(jù)得到的結(jié)果,抽取出電廠設(shè)備實(shí)體。由 于沒(méi)有訓(xùn)練樣本,因此,采取人工標(biāo)注訓(xùn)練樣本進(jìn)行訓(xùn)練,將得到的結(jié)果進(jìn)行 篩選,再加入訓(xùn)練集,使用如此迭代的方式進(jìn)行訓(xùn)練。2.3.3與無(wú)監(jiān)督學(xué)習(xí)結(jié)合的屬性抽取在知識(shí)圖譜的構(gòu)建中,屬性識(shí)別問(wèn)題通常有兩種做法:1.從大量的結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論