第六講-知識(shí)圖譜融合_第1頁
第六講-知識(shí)圖譜融合_第2頁
第六講-知識(shí)圖譜融合_第3頁
第六講-知識(shí)圖譜融合_第4頁
第六講-知識(shí)圖譜融合_第5頁
已閱讀5頁,還剩116頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1節(jié)知識(shí)圖譜融合概述第2節(jié)概念層融合——本體匹配第3節(jié)實(shí)例層融合——實(shí)體對(duì)齊第4節(jié)知識(shí)融合技術(shù)前沿浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫1第六講知識(shí)圖譜融合第1節(jié)知識(shí)圖譜融合概述浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫4早期知識(shí)工程的理想是構(gòu)建統(tǒng)一的知識(shí)庫(kù)人類知識(shí)體系復(fù)雜知識(shí)會(huì)隨時(shí)間演化同一領(lǐng)域內(nèi)不同組織構(gòu)建不同知識(shí)庫(kù)不同領(lǐng)域往往根據(jù)不同的需求獨(dú)立構(gòu)建知識(shí)庫(kù)5不同的系統(tǒng)采用的知識(shí)是異構(gòu)的,它們之大量的共指問題會(huì)給知識(shí)圖譜的應(yīng)用造成知識(shí)融合是解決知識(shí)圖譜異構(gòu)問題的有效途徑。知識(shí)融合的核心問題在于映射的生成。分析造成本體異構(gòu)和實(shí)例異構(gòu)的原因明確融合針對(duì)的具體對(duì)象語言異構(gòu):語法、邏輯、表達(dá)能力不匹配邏輯異構(gòu)?邏輯表示不邏輯異構(gòu)?邏輯表示不disjointWith有差異?Class在OWLFULL和OWL表達(dá)能力?不同語言表達(dá)能力差異?owl:Nothing,owl:Thing?采用不同的描述語言?JSONXMLOWL模型異構(gòu):概念化、解釋不匹配?概念化不匹配?概念范圍不匹配?模型覆蓋不匹配),?解釋不匹配?模型風(fēng)格不匹配?建模術(shù)語不匹配知識(shí)圖譜V.S.關(guān)系型數(shù)據(jù)庫(kù)模型之間的異構(gòu)問題的研究早在面向?qū)ο蠼:蛿?shù)據(jù)庫(kù)建模領(lǐng)域中就已經(jīng)開展了,然a.形式靈活,可擴(kuò)展性好b.包含豐富語義信息,可進(jìn)行推理a.缺乏有效的處理工具,大規(guī)模處理需要借助數(shù)據(jù)庫(kù)技術(shù)9b.知識(shí)圖譜不能代替數(shù)據(jù)庫(kù),兩者互有所長(zhǎng)9數(shù)據(jù)清洗構(gòu)建的知識(shí)圖譜存在異構(gòu)性知識(shí)融合是重要的預(yù)處理步驟之一數(shù)據(jù)集成不同知識(shí)圖譜可能存在重疊的知識(shí)融合多個(gè)不同來源的知識(shí)圖譜重用現(xiàn)有的知識(shí)合并多個(gè)知識(shí)圖譜:本體層匹配等價(jià)類、子類等價(jià)屬性、子屬性實(shí)例層匹配等價(jià)實(shí)例本體匹配(OntologyMatching)發(fā)現(xiàn)(模式層)等價(jià)或相似的類、屬性或關(guān)系知識(shí)融合本體對(duì)齊、本體映射知識(shí)融合實(shí)體對(duì)齊(EntityAlignment)發(fā)現(xiàn)指稱真實(shí)世界相同對(duì)象的不同實(shí)例實(shí)體消解、實(shí)例匹配知識(shí)融合:即合并兩個(gè)知識(shí)圖譜,基本的問題都是研究怎樣將來自多個(gè)來源的關(guān)于同一個(gè)實(shí)體或概念的描述信息融合起來。語言層面和模型層面的不匹配是導(dǎo)致知識(shí)圖譜異構(gòu)的本質(zhì)原因知識(shí)融合旨在將不同的知識(shí)圖譜融合為統(tǒng)一、一致、簡(jiǎn)潔的形式,為使用不同知識(shí)圖譜的應(yīng)用程序之間的交互建立互操作性。謝謝大家!第六講知識(shí)圖譜融合第2節(jié)概念層融合——本體匹配浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫本體是領(lǐng)域知識(shí)規(guī)范的抽象和描述,是表達(dá)、共享、重用知識(shí)的方法真實(shí)世界的模型術(shù)語集術(shù)語的含義形式化邏輯一階謂詞邏輯術(shù)語匹配方法基于字符串基于語言結(jié)構(gòu)匹配方法基于字符串的方法:直接比較表示本體成分的術(shù)語的字符串結(jié)構(gòu)規(guī)范化連接符正規(guī)化:正規(guī)化單詞的換行連接符等消除無用詞:如“to”和“a”相似度度量方法Levenshtein距離,即最小編輯距離,目的是用最少的編輯操作將一個(gè)字符串轉(zhuǎn)換成另一個(gè)。舉個(gè)例子,計(jì)算Lvensshtain與Levenshtein間的編輯距離:上述講Lvensshtain轉(zhuǎn)換為L(zhǎng)evenshtein,總共操作3次,編輯距離也就是3LevensteinDistance是典型的動(dòng)態(tài)規(guī)劃問題,可以通過動(dòng)態(tài)規(guī)劃算法計(jì)算,具體公式如下:其中,+1表示的是插入,刪除和替換操作的代價(jià)。一種常用來比較兩個(gè)字符串的直接方法是漢明距離,它計(jì)算兩個(gè)字符中字符出現(xiàn)位置的不同。還可進(jìn)一步精確度量?jī)勺址餐糠值谋壤醋哟嗨贫?。Dice系數(shù)用于度量?jī)蓚€(gè)集合的相似性,因?yàn)榭梢园炎址斫鉃橐环N集合,因此Dice距離也會(huì)用于度量字符串的相似性,Dice系數(shù)定義如下:以Lvensshtain和Levenshtein為例,兩者的相似度為2*9/(11+11)=0.82Jaccard系數(shù)適合處理短文本的相似度,定義如下可以看出與Dice系數(shù)的定義比較相似。兩種方法,將文本轉(zhuǎn)換為集合,除了可以用符號(hào)分格單詞外,還可以考慮用n-gram分割單詞,用n-gram分割句子等來構(gòu)建集合,計(jì)算相似度。TF-IDF主要用來評(píng)估某個(gè)字或者用某個(gè)詞對(duì)一個(gè)文檔的重要程度。其中:舉個(gè)例子,比如某個(gè)語料庫(kù)中有5萬篇文章,含有“健康”的有2萬篇,現(xiàn)有一篇文章,共1000個(gè)詞,‘健康’出現(xiàn)30次,則simTF-IDF=30/1000*log(50000/(20000+1))=0.012。基于語言的方法:基于語言的方法依靠自然語言處理技術(shù)尋找概念或關(guān)系之間的聯(lián)系。內(nèi)部方法使用語言的內(nèi)部屬性,如形態(tài)和語法特點(diǎn),尋找同一字符串的不同語言形態(tài),如Apple外部方法術(shù)語匹配的原理核心思想:將文檔變?yōu)橄蛄康男问剑ㄟ^向量相似度實(shí)現(xiàn)文檔匹配本體中的概念和屬性往往含有大量的文本信息將待匹配的對(duì)象的相關(guān)文本組成成文檔的形式,再轉(zhuǎn)換為文檔向量虛擬文檔的構(gòu)建概念的語言學(xué)描述:本地名、標(biāo)簽、注釋匿名結(jié)點(diǎn)的語言學(xué)描述:前向鄰居的語言學(xué)描述概念的鄰居:主語鄰居、謂語鄰居、賓語鄰居Constructingvirtualdocumentsforontologymatching.(WWW2006)結(jié)構(gòu)匹配的原理核心思想:利用本體的結(jié)構(gòu)信息來彌補(bǔ)文本信息量不足的情況本體中的概念和屬性往往有大量相關(guān)的其他概念和屬性,組成了一種圖結(jié)構(gòu)結(jié)構(gòu)匹配器不采用圖匹配技術(shù),后者代價(jià)高昂且效果不理想結(jié)構(gòu)匹配器間接的結(jié)構(gòu)匹配器直接的結(jié)構(gòu)匹配器Anchor-PROMPT:Usingnon-localcontextforsemanticmatching.(IJCAI2001)匹配工具僅適用于小型本體,O(n2)許多應(yīng)用需要匹配大型本體,如生命科學(xué)本體Matchinglargeontologies:Adivide-and-conquerapproach.(DKE2008)為什么要分塊記錄進(jìn)行一一鏈接的時(shí)間復(fù)雜度為O(|M|*|N|)基于Hash函數(shù)對(duì)于記錄x有hash(x)=hi,則x映射到與關(guān)鍵字hi綁鄰近分塊排序鄰居法Canopy聚類紅黑集覆蓋法本體匹配側(cè)重發(fā)現(xiàn)(模式層)等價(jià)或相似的類、屬性或關(guān)系,目前已有基于術(shù)語匹配和結(jié)構(gòu)匹配等方法。大規(guī)模本體匹配通常采用先分塊后匹配的方式第六講知識(shí)圖譜融合第3節(jié)實(shí)例層的融合——實(shí)體對(duì)齊浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫實(shí)體對(duì)齊側(cè)重發(fā)現(xiàn)指稱真實(shí)世界相同對(duì)象的不同實(shí)例與本體對(duì)齊類似規(guī)模大,關(guān)系簡(jiǎn)單實(shí)體意義相近,不同領(lǐng)域的稱謂實(shí)例(Instance):知識(shí)工程領(lǐng)域):記錄(Record):數(shù)據(jù)庫(kù)對(duì)象(Object):知識(shí)工程領(lǐng)域傳統(tǒng)方法等價(jià)關(guān)系推理相似度計(jì)算基于表示學(xué)習(xí)的方法基于等價(jià)關(guān)系推理基于相似度計(jì)算計(jì)算特征實(shí)體標(biāo)簽信息實(shí)體名、昵稱、別名人工定義特征公共鄰居、詞向量、計(jì)算相似度基于Embeddng的實(shí)體對(duì)齊核心思想:基于表示學(xué)習(xí)技術(shù),將知識(shí)圖譜中的實(shí)體和關(guān)系都映射成低維空間向量,合并預(yù)先匹配好的實(shí)體,把兩個(gè)網(wǎng)絡(luò)合并為一個(gè)網(wǎng)絡(luò),用單一網(wǎng)絡(luò)的嵌入表示進(jìn)行嵌入。在TransE基礎(chǔ)上增加一個(gè)實(shí)體對(duì)齊損失,采用的線性轉(zhuǎn)換矩陣實(shí)現(xiàn)實(shí)體對(duì)齊AJointEmbeddingMethodforEntityAlignmentofKnowledgeBases先用單一網(wǎng)絡(luò)的嵌入模型分別訓(xùn)練兩個(gè)網(wǎng)絡(luò),然后用一些預(yù)先匹配好的實(shí)體訓(xùn)練一個(gè)線性變換對(duì)齊兩個(gè)向量空間。先用單一網(wǎng)絡(luò)的嵌入模型分別訓(xùn)練兩個(gè)網(wǎng)絡(luò),然后用一些預(yù)先匹配好的實(shí)體訓(xùn)練一個(gè)線性變換對(duì)齊兩個(gè)向量空間。MultilingualKnowledgeGraphEmbeddingsforCross-lingualKnowledgeAlignment.(IJCAI2017)在兩個(gè)異質(zhì)知識(shí)圖譜之間,根據(jù)少量種子對(duì)齊實(shí)體,可以實(shí)現(xiàn)大量實(shí)體對(duì)齊分別學(xué)習(xí)兩個(gè)知識(shí)圖譜的表示,建立兩者映射關(guān)系Iterativeentityalignmentviajointknowledgeembeddings.(IJCAI2017)Silk是一個(gè)基于Python開發(fā)的集成異構(gòu)數(shù)據(jù)源的開源框架/silk-framework/silk整體框架預(yù)處理:會(huì)將索引的結(jié)果排名前N的記錄作為候選對(duì),進(jìn)行下一步的精準(zhǔn)匹配相似度計(jì)算:包含了很多相似度計(jì)算的方法過濾:過濾掉相似度小于閾值的記錄對(duì)OpenEA一個(gè)開源的基于Tensorflow的實(shí)體websoft/OpenEAEAKit一個(gè)輕量級(jí)基于PyTorch的實(shí)體對(duì)https://github.com/THU-KEG/EAkit知識(shí)融合歷經(jīng)了蓬勃發(fā)展,如何將表示學(xué)習(xí)技術(shù)運(yùn)用于實(shí)體對(duì)齊過程成為新目前缺乏專門針對(duì)實(shí)體對(duì)齊的表示學(xué)習(xí)模型,導(dǎo)致現(xiàn)有基于表示學(xué)習(xí)的實(shí)體對(duì)齊方法精度不高。人機(jī)協(xié)作可以有效提高實(shí)體對(duì)齊的效果,目前已經(jīng)得到較多關(guān)注。謝謝大家!第六講知識(shí)圖譜融合第4節(jié)知識(shí)融合技術(shù)前沿浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫無監(jiān)督對(duì)齊不一定都有預(yù)先匹配好的實(shí)體多視角嵌入單一模型的嵌入能力往往不足以對(duì)齊兩個(gè)網(wǎng)絡(luò)嵌入表示增強(qiáng)改進(jìn)現(xiàn)有的嵌入表示模型并用于對(duì)齊超大規(guī)模對(duì)齊上億個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)對(duì)齊對(duì)齊問題的設(shè)定是有一些預(yù)先匹配好的實(shí)體,但是這種設(shè)定有時(shí)無法滿足,因此有不少研究者在探索如何無監(jiān)督地進(jìn)行實(shí)體對(duì)齊。EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)謂詞對(duì)齊使用統(tǒng)一的命名方案重新命名兩個(gè)KG的謂詞,為關(guān)系嵌入提供統(tǒng)一的向量空間,從而嵌入學(xué)習(xí)結(jié)構(gòu)嵌入屬性字符嵌入結(jié)構(gòu)嵌入和屬性特征嵌入的聯(lián)合學(xué)習(xí)實(shí)體對(duì)齊EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)由于對(duì)齊問題的復(fù)雜性,單一模型的嵌入能力往往不足以對(duì)齊兩個(gè)網(wǎng)絡(luò),因此從多種視角來對(duì)齊效果會(huì)更好。Literalembedding名稱視圖關(guān)系視圖屬性視圖Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)平均不同視圖嵌入導(dǎo)出一個(gè)從每個(gè)視圖嵌入空間到共享空間的正交映射矩陣參與多視圖嵌入的聯(lián)合訓(xùn)練,從而使多視圖彼此受益Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)現(xiàn)有的嵌入模型會(huì)讓度(節(jié)點(diǎn)的鄰居個(gè)數(shù))相似的節(jié)點(diǎn)更接近對(duì)抗訓(xùn)練判別器的目標(biāo)是預(yù)測(cè)節(jié)點(diǎn)的度,生成器Semi-SupervisedEntityAlignmentviaKnowledgeGraphEmbeddingwithAwarenessofDegreeDifference.(WWW8019)實(shí)體異構(gòu)實(shí)體歧義大規(guī)模匹配OAG:TowardLinkingLarge-scaleHeterogeneousEntityGraphs.(KDD2019)出版地點(diǎn)匹配論文匹配局部敏感哈希CN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論