版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于圖的知識(shí)圖譜數(shù)據(jù)管理報(bào)告人:鄒磊zoulei@112 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 3 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 2012年5月16日,Google發(fā)布“知識(shí)圖譜”的新一代“智能”搜索功能。5本質(zhì)上是基于圖的語(yǔ)義網(wǎng)絡(luò),表示實(shí)體和實(shí)體之間的關(guān)系!6?RDF是知識(shí)圖譜數(shù)據(jù)的事實(shí)標(biāo)準(zhǔn)?RDF是由W3C組織提出的一種描述資源概念模型的語(yǔ)言?RDF是語(yǔ)義網(wǎng)的一個(gè)基石?語(yǔ)義網(wǎng)的目標(biāo)是網(wǎng)絡(luò)上的資源是“機(jī)器可理解”(Machineunderstandable)7 “知立方” “知立方”工業(yè)應(yīng)用8工業(yè)應(yīng)用 工業(yè)應(yīng)用 BioModels,Biosamples,ChEMBL,Ensembl,Atlas,ReactomeandUniProtRDF數(shù)據(jù)集類別統(tǒng)計(jì)9傳統(tǒng)的HTML只是考慮網(wǎng)頁(yè)的顯示,例如字體、段落格式等;而不是網(wǎng)頁(yè)中的內(nèi)容的語(yǔ)義。語(yǔ)義網(wǎng)考慮的是內(nèi)容的語(yǔ)義。Google結(jié)構(gòu)化數(shù)據(jù)測(cè)試工具FacebookGraphSearc產(chǎn)品發(fā)布會(huì)---MarkZuckerberg“MyfriendswholiveinCanada”“PhotosofmyfriendswholiveinCanada”WilliamTunstall-Pedoe:TrueKnowledge:Open-DomainQuestionAnsweringusingStructuredKnowledgeandInference.AI?RDF中任何實(shí)體都被稱之為資?實(shí)體的屬性需要被定義?實(shí)體間關(guān)系需要被定義?不同數(shù)據(jù)集直接互相鏈接構(gòu)成海量的關(guān)聯(lián)數(shù)據(jù)-一個(gè)集成的Web”數(shù)據(jù)庫(kù)”xmlns:y=/wikiy:Washington_DC并且出生地是并且出生地是1718年構(gòu)建的城市的人有哪些?”}RDF數(shù)據(jù)庫(kù)“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776” 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 數(shù)據(jù)庫(kù)自然語(yǔ)言處理知識(shí)工程機(jī)器學(xué)習(xí)知識(shí)庫(kù)構(gòu)建[Mendesetal.111億三元組1.8億三元組25.3億三元組知識(shí)表示代表模型:TransE[Bordes?對(duì)每個(gè)事實(shí)(Subject,Predicate,Object),將其中的predicate作為從subject到object的翻譯操作?每個(gè)Subject/Predicate?優(yōu)化目標(biāo):Beijing?China≈Ottawa?Canada=Capital語(yǔ)義解析SemanticParsing[Zettlemoyeretal.,語(yǔ)義解析就是將自然語(yǔ)言映射成機(jī)器可以表達(dá)的形式。E.g.,“WhichstatesbordersNewMexico?”Lambda表達(dá)式[AlonzoChurch,1940]ax.state(x)∧borders(x,new_mexico)“Simplytyped-calculuscanexpressvariesdatabasequerylanguagessuchasrelationalalgebra,fixpointlogicandthecomplexobjectalgebra." 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 應(yīng)用系統(tǒng)數(shù)據(jù)應(yīng)用系統(tǒng)數(shù)據(jù)SELECT?nameWHERESELECT?nameWHERE{?m<hasName>?name.?m<bornOnDate>?bd.}“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776”TTasT4“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776”SELECT?nameWHERE{?m<hasName>?name.?m<bornOnDate>?bd.SQLSELECTT2.objectSQLWHERET1.property="bornIn"ANDT2.property="hasName"ANDT3.property="bornOnDate"ANDT1.subject=T2.subjectANDT2.subject=T3.subjectANDT1.object=T4.subjectANDT4.propety=“foundingYear“ANDT4.object="1718"ANDT3.objectLIKE'%1976%'30三種典型基于關(guān)系數(shù)據(jù)庫(kù)的優(yōu)化策略基本思路:劃分三元組表、生成更加簡(jiǎn)單的查詢。?M.T.?zsu."ASurveyofRDFDataManagementSystems",Front.Comp.Sci.,2016.?LeiZou,M.T.?zsu.“Graph-basedRDFDataManagement”,DataScienceandEngineering,2(1):56-70(2017)我們的方法---gStore[Zouetal.,VLDB11;VLDBJ14]==子圖匹配研究主題研究主題建模RDF數(shù)據(jù)?統(tǒng)一的結(jié)構(gòu)和內(nèi)容編碼方法?一種高度平衡樹VS-tree索引?基于索引的多級(jí)過(guò)濾機(jī)制代碼:除了SPARQL語(yǔ)法解析器外均為獨(dú)立開(kāi)發(fā)的,目前有14萬(wàn)行C++,完成自主知識(shí)產(chǎn)權(quán);共計(jì)6人年,目前是版本v0.3.0.包括全部的系統(tǒng)代碼;詳細(xì)的用戶手冊(cè);與目前最好的開(kāi)源和工業(yè)系統(tǒng)在多個(gè)Benchmark數(shù)據(jù)集上的對(duì)比測(cè)試報(bào)告;系統(tǒng)使用演示視頻。接口:C++,Java,python,PHP等API接口;接收實(shí)驗(yàn)環(huán)境,,,年開(kāi)始的項(xiàng)目;目數(shù)據(jù)集規(guī)模45,212,7455,077,2479組學(xué)和法國(guó)國(guó)家科學(xué)研究中心CNRS)?I3S實(shí)驗(yàn)室CNRS(法國(guó)國(guó)家科學(xué)研究中心)輸出查詢結(jié)果了”性較差”(我們的系統(tǒng))“gStore性能要好于其他對(duì)比系統(tǒng)”(秒)(秒)1Q4542142632163215311425查詢?nèi)M數(shù)返回列數(shù)C1,C28,104615-7986699S2-S7OpenKG查詢終端主頁(yè):(數(shù)據(jù)庫(kù)名)(查詢樣例)(結(jié)果格式)(開(kāi)始查詢)表示此查詢終端所對(duì)應(yīng)的數(shù)據(jù)集是旅游景點(diǎn)在查詢樣例中選擇相應(yīng)的選項(xiàng),例如q1,?目前主頁(yè)上共包括9個(gè)RDF數(shù)據(jù)集查詢終端,分別是旅游信息、音樂(lè)、緊急事故、中文地理信息以及五個(gè)乳腺癌相關(guān)的數(shù)據(jù)集。?我們將為OpenKG長(zhǎng)期維護(hù)并不斷改善這些SPARQLEndpoint,有任何問(wèn)題請(qǐng)及時(shí)向我們提出:bookug@JavaAPI樣例程序:JavaAPI樣例程序:initializetheGStoreserver'sIPaddressandport.forsparqlendpoint,URLcanalsobeusedhere,like:80GstoreConnectorgc=newGstorbuildanewdatabasebyaRDFfile.notethattherelativepathisrelatedtogseexecuteSPARQLqueryonthisdatabase.unloadthisdatabase.also,youcanloadsomeexistdatabasedirectlyandthenquery.gStore-D:分布式系統(tǒng)[Peng;Zou,etal.,VLDBJ主要技術(shù)手段:?利用PartialEvaluationandAssembly方案來(lái)解決分布式SPARQL匹配;?分布式環(huán)境下的優(yōu)化歸并策略主要技術(shù)問(wèn)題:如何找到“跨界匹配”背景:部分執(zhí)行(PartialEvaluation)[Jones,1996;Fanetal.,f(x)→f(s,d)→f"(fs),d)→最終結(jié)果已知輸入未知輸入部分解哪些是“已知輸入”和“部分解”?部分解合并?用戶沒(méi)有計(jì)算機(jī)學(xué)科背景,無(wú)法掌握SPARQL等計(jì)算機(jī)查詢語(yǔ)言?RDF知識(shí)圖譜是“弱模式”數(shù)據(jù),不同于關(guān)系數(shù)據(jù)是基于模式的數(shù)據(jù)。?提供方便的用戶訪問(wèn)接口?數(shù)據(jù)庫(kù)和自然語(yǔ)言處理的交叉研究?學(xué)術(shù)界和工業(yè)界共同關(guān)心的問(wèn)題OrenEtzioni,AAAIFellow更加大膽地研究自然語(yǔ)言的搜索和問(wèn)答”語(yǔ)義結(jié)構(gòu)化表達(dá)方式語(yǔ)義結(jié)構(gòu)化表達(dá)方式─→?基于自然語(yǔ)言的語(yǔ)法規(guī)則推導(dǎo)的方法,e.g.,CDG[ZettlemoyerandCollins,2005]語(yǔ)義解析語(yǔ)義解析學(xué)習(xí)器!訓(xùn)練得到!待語(yǔ)義解析的語(yǔ)句語(yǔ)義結(jié)構(gòu)化表達(dá)─→─→語(yǔ)義待語(yǔ)義解析的語(yǔ)句語(yǔ)義結(jié)構(gòu)化表達(dá)─→─→解析器解析器?將自然語(yǔ)言問(wèn)答轉(zhuǎn)換為子圖匹配問(wèn)題?基于子圖匹配結(jié)果的消歧?基于結(jié)構(gòu)的查詢圖生成策略 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 1.WenfeiFan,YinghuiWu,JingboXu,FunctionalDependenciesforGraphs,SIGMOD,2016.2.BinbinHe,LeiZou,DongyanZhao:UsingConditionalFunctionalDependencytoDiscoverAbnormalDatainRDFGraphs.SWIM2014:43:1-43:7百度2014年7月的“吉林大學(xué)”詞條目前的“吉林大學(xué)”詞條回顧一下這個(gè)例子!“PhotosofmyfriendswholiveinCanada”每秒中有多少照片和用戶關(guān)系會(huì)被插入和刪除?在結(jié)構(gòu)近似的基礎(chǔ)上,在結(jié)構(gòu)近似的基礎(chǔ)上,提出“語(yǔ)義結(jié)構(gòu)近似”我們的方法WeiguoWeiguoZheng(指導(dǎo)學(xué)生),LeiZou,etal.,SemanticSPARQLSimilaritySearchOverRDFKnowledgeGraphs,inVLDB2016.“機(jī)器的歸機(jī)器,人的歸人!?XiaoyongDu:InteractivePredicateSuggestionfor96-109表示學(xué)習(xí)(機(jī)器學(xué)習(xí))+數(shù)據(jù)質(zhì)量(數(shù)據(jù)管理)主語(yǔ)謂詞賓語(yǔ)《美國(guó)隊(duì)長(zhǎng)3》導(dǎo)演喬·盧素《重慶森林》導(dǎo)演王家衛(wèi)《十面埋伏》歌手張藝謀語(yǔ)義解析(自然語(yǔ)言處理)+查詢執(zhí)行(數(shù)據(jù)管理)這附近最近的郵 局在哪兒。?語(yǔ)義解析(自然語(yǔ)言處理)+查詢執(zhí)行(數(shù)據(jù)管理)這附近最近的郵 局在哪兒。? 1知識(shí)圖譜概述 2從不同角度和學(xué)科研究 3從數(shù)據(jù)管理層面的討論 4一些開(kāi)放性問(wèn)題 5系統(tǒng)應(yīng)用 ?方正電子知識(shí)出版系統(tǒng)?方正電子知識(shí)出版系統(tǒng){?s<http://www.founder.106.attr:name>{?s<http://www.founder.106.link:12855>?o.//思想學(xué)派受影響于}{?s<http://www.founder.106.link:12855>?o.//哲學(xué)家受影響于}?o<http://www.founder.106.attr:name>"黑格爾".}//刪除所有與黑格爾有關(guān)的三元組{{?s<http://www.founder.106.attr:name>"黑格爾".}{?o<http://www.founder.106.attr:name>"黑格爾".}}?中科院微生物所-全球微生物中心?中科院微生物所-全球微生物中心細(xì)菌陸生菌放線菌門放線菌綱微球菌目微球菌科微球菌屬</ontology/gcmAnnota</data/gcmAnnotation1/taxSELECT?taxonId?name{}?taxonIdannotation:parentTaxidtax?nameIdannotation:taxi?nameIdannotation:nameclass‘scienti.的菌株”#ofTriples#ofEntities3,594,457,749414,953,654??中科院微生物所-全球微生物中心#ofTriples#ofEntities3,594,457,749414,953,654</ontology/gcmAnnota</data/gcmAnnotation1/taxSELECT(COUNT(?geneid)AS{{?taxonidannotation:ancestorTaxidtaxonom?geneidaannotati?geneidannotation:x-ta{?geneidaanno?geneidannotation:x-taxontaxonomy:1270.}}“和藤黃微球菌物種或者下面的菌株相關(guān)的基因的個(gè)數(shù)”??中科院微生物所-全球微生物中心#ofTriples#ofEntities3,594,457,749414,953,654“查詢藤黃微球菌下面的菌株相關(guān)的基
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年咸寧客運(yùn)從業(yè)資格證考試模擬考試
- 考研心理學(xué)專業(yè)基礎(chǔ)(312)研究生考試試題與參考答案(2025年)
- 遺體捐贈(zèng)公祭儀式活動(dòng)方案
- 電梯加裝鋼結(jié)構(gòu)施工方案
- 機(jī)動(dòng)車駕駛員考試《科目一》試題及解答參考
- 專題04工藝流程題突破-2021-2022年高一化學(xué)上學(xué)期期末專題必殺題
- 第二三單元月考綜合測(cè)試(月考)三年級(jí)上冊(cè)數(shù)學(xué)??家族e(cuò)題
- 甘肅省2024-2025學(xué)年高三上學(xué)期11月期中物理試題
- 2024年影視劇制作與版權(quán)轉(zhuǎn)讓合同
- 人教版英語(yǔ)七年級(jí)下冊(cè):Unit 6 Section B 第3課時(shí)教案(表格式)
- 全國(guó)高職高專英語(yǔ)寫作大賽
- 微機(jī)原理與接口技術(shù)8259A練習(xí)題及答案
- 正方體的11種展開(kāi)圖
- 第15章《分式》教材分析課件(32張)
- 商鋪裝修工程施工方案.
- 西門子RWD68說(shuō)明書
- 形式發(fā)票樣本(Proforma Invoice)
- 醫(yī)院車輛加油卡管理制度
- 數(shù)獨(dú)題目高級(jí)50題(后附答案)【最新】
- 問(wèn)題線索辦理呈批表
- 學(xué)、練、評(píng)一體化課堂模式下賽的兩個(gè)問(wèn)題與對(duì)策
評(píng)論
0/150
提交評(píng)論