人工智能之圖數(shù)據(jù)庫(kù) -清華_第1頁(yè)
人工智能之圖數(shù)據(jù)庫(kù) -清華_第2頁(yè)
人工智能之圖數(shù)據(jù)庫(kù) -清華_第3頁(yè)
人工智能之圖數(shù)據(jù)庫(kù) -清華_第4頁(yè)
人工智能之圖數(shù)據(jù)庫(kù) -清華_第5頁(yè)
已閱讀5頁(yè),還剩160頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

I隨著互聯(lián)網(wǎng)+、社交網(wǎng)絡(luò)、智能推薦等大數(shù)據(jù)的迅猛增長(zhǎng),大批NoSQL數(shù)的清華團(tuán)隊(duì)完成。該團(tuán)隊(duì)在OSDI、EuroSys、ATC等頂級(jí)會(huì)議中發(fā)表此外,報(bào)告的人才概況和熱點(diǎn)趨勢(shì)章節(jié)依托清華大學(xué)唐杰教授自主研發(fā)的“科技情報(bào)大數(shù)據(jù)挖掘與服務(wù)系統(tǒng)平臺(tái)”(簡(jiǎn)稱(chēng)AMiner),以及第三方機(jī)構(gòu)研語(yǔ)言處理等技術(shù),并結(jié)合文獻(xiàn)計(jì)量學(xué)等情報(bào)學(xué)方法制作生成。全面知識(shí),為科研管理和服務(wù)提供有力支撐。平臺(tái)自2006年上線(xiàn)以來(lái),經(jīng)過(guò)十信息進(jìn)行深入挖掘,參考h-index、發(fā)表論文數(shù)、論文被引頻次等指標(biāo),對(duì)學(xué)者為數(shù)據(jù)管理國(guó)際會(huì)議(TheACMSpecialInterestGrouponManagementofData,SIGMOD)、超大型數(shù)據(jù)庫(kù)國(guó)際會(huì)議(InternationalConferenceonVeryLargeDatabases,VLDB)、IEEE國(guó)際數(shù)據(jù)工程會(huì)議(IEEEInternationalConferenceonDataEngineering,ICDE)、圖形數(shù)據(jù)管理經(jīng)驗(yàn)與系統(tǒng)國(guó)際研討會(huì)(International據(jù)庫(kù)技術(shù)國(guó)際會(huì)議(InternationalConferenceonExtendingDatabaseTechnology,analysis)、ACID事務(wù)屬性(Atomicity,Consistency,Isolation,Durability,ACIDtransaction)、圖匹配(Graphpat(3)基于專(zhuān)家顧問(wèn)推薦的領(lǐng)域關(guān)鍵詞,根據(jù)論文作者的研究興趣標(biāo)簽、作者名下的所有論文標(biāo)題和摘要,篩選與圖數(shù)據(jù)庫(kù)領(lǐng)域相關(guān),且h-index排名最靠圖1代表性學(xué)者畫(huà)像示例(/search/pub?q=Cognitive%20Graph),采用主題生成模型(LatentDirichletAllocation,LDA)分析了這1LDA模型.[EB/OL]/wiki/Latent_Dirichlet_allocV 3 3 5 5 6 7 7 16 22 23 24 VI 28 2 3 5 15 18 36 VIII 44 45 6 13 20 29 47 721金融科技、社交網(wǎng)絡(luò)等越來(lái)越多的領(lǐng)域發(fā)揮著舉足輕重的作用。截至2019年6月,支付寶及其本地錢(qián)包合作伙伴已經(jīng)服務(wù)超12億的),是達(dá)到了百億級(jí)別[1]。面對(duì)各種海量數(shù)據(jù)、尤其是對(duì)海量圖數(shù)據(jù)庫(kù)(GraphDatabase)是一個(gè)基于圖模型的在線(xiàn)數(shù)據(jù)庫(kù)管理系統(tǒng),具[2]會(huì)支持一些分析類(lèi)的任務(wù)[3-4]。PropertyGraphModel,標(biāo)簽(Label),該標(biāo)簽定義了該頂點(diǎn)或邊擁有的一個(gè)或多個(gè)屬性。頂點(diǎn)、邊、強(qiáng)類(lèi)型和弱類(lèi)型、是否支持邊標(biāo)簽、是否支2另一類(lèi)廣為人知的模型是RDF(Resource圖模型的處理可以分為兩類(lèi),一類(lèi)是面向事務(wù)的聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing,OLT),面向分析的聯(lián)機(jī)分析處理(OnlineAnalyticalProcessing,OLAP),主要解決圖即原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性3億條邊。一個(gè)真實(shí)場(chǎng)景的應(yīng)用需根據(jù)數(shù)據(jù)操作的模(/en/ranking_trend)數(shù)據(jù)顯示,圖數(shù)據(jù)庫(kù)的關(guān)注度增速遠(yuǎn)超其他類(lèi)型的數(shù)據(jù)庫(kù)[5]。更值得一提的是,全球最具權(quán)威的IT研究與顧問(wèn)咨詢(xún)公司Gartner在2019年的數(shù)據(jù)與分析峰會(huì)上預(yù)測(cè)2020年以后,全球圖處理及圖數(shù)據(jù)來(lái)源:DB-Engines官網(wǎng)圖1-2圖數(shù)據(jù)庫(kù)的關(guān)注度圖數(shù)據(jù)庫(kù)的起源可以追溯到20世紀(jì)60年代,引導(dǎo)式數(shù)據(jù)庫(kù)(Navigational結(jié)構(gòu)的支持可以通過(guò)虛擬頂點(diǎn)來(lái)完成。到80年代,支持屬性圖模型的圖數(shù)據(jù)開(kāi)始出現(xiàn),包括LogicalDataModel等421世紀(jì)初,商用圖數(shù)據(jù)庫(kù)開(kāi)始嶄露頭角,比如Neo4j和OracleSpatialandGraph等,并支持事務(wù)性ACID。其中隔離性包括多個(gè)不同高分為未提交讀(ReadUncommitted)、提交讀(ReadCommitted)、可重復(fù)讀(RepeatableRead)、序列化讀(Serializable)。對(duì)事務(wù)的支持是數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)2010年后,圖數(shù)據(jù)庫(kù)朝著多個(gè)不同的方向發(fā)展,包括支持大規(guī)模分布式圖我們從如下幾個(gè)方面來(lái)討論分布式圖數(shù)據(jù)庫(kù)。一是高可用性(High性能,即能否將數(shù)據(jù)分片(Sharding)存儲(chǔ)到多臺(tái)服務(wù)器上,提高寫(xiě)事務(wù)的性能前商用服務(wù)器通常使用256GB內(nèi)存,最大可達(dá)4TB)可以得在近幾年圖數(shù)據(jù)庫(kù)技術(shù)的介紹和宣傳中,經(jīng)常會(huì)提到一個(gè)詞叫“原生圖”5圖1-3圖數(shù)據(jù)庫(kù)的發(fā)展史6DB)、列存儲(chǔ)數(shù)據(jù)庫(kù)(ColumnFamilyDB)、文檔型數(shù)據(jù)庫(kù)(DocumentDB)和本文的主題—圖數(shù)據(jù)庫(kù)(GraphDB)。數(shù)據(jù)庫(kù)在設(shè)計(jì)的實(shí)現(xiàn)上沒(méi)有優(yōu)劣高低有最優(yōu)的可擴(kuò)展性,關(guān)聯(lián)關(guān)系則在圖數(shù)據(jù)庫(kù)上有最好的表1-1五類(lèi)數(shù)據(jù)庫(kù)對(duì)比儲(chǔ)Neo4j、7各種探索的階段。在接口語(yǔ)言方面,GQL作為正在實(shí)施的圖查詢(xún)語(yǔ)言項(xiàng)目,尚8圖模型中鄰居的查詢(xún),本小節(jié)的評(píng)測(cè)討論側(cè)重于屬性圖模型,RDF圖也有類(lèi)似遍歷(Traversal)、全局分析(GlobalAnalytics)。本地查詢(xún)是指查詢(xún)只涉及單的工作,需要對(duì)全圖的所有數(shù)據(jù)做多次的迭代,最評(píng)測(cè)工具由LDBC提出,包括面向事務(wù)的測(cè)試標(biāo)準(zhǔn)LDBCSNB,和面向分析的LDBCSNB模擬了一個(gè)社交網(wǎng)絡(luò)的場(chǎng)景,數(shù)據(jù)包括人、博客、評(píng)論等,操9),),量算法(WeaklyConnectedComponenmatch)、等價(jià)性正確(Equivalencematch)、小數(shù)點(diǎn)正確(Epsilonmat2技術(shù)篇最后列出了若干在業(yè)內(nèi)具有一定知名度的圖和屬性圖(PropertyGraph)兩種RDF全稱(chēng)為資源描述框架,是由萬(wàn)維網(wǎng)聯(lián)盟(WorldWideWebConsortium,RDF本質(zhì)上是一個(gè)數(shù)據(jù)模型,它提供了一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)描述Web上的資在形式上表示為SPO(subject,predicate,object)三元組(triple),即(主語(yǔ)/主體、謂語(yǔ)/屬性、賓語(yǔ)/客體),用于描述具體的事物及圖2-1RDF三元組實(shí)例點(diǎn)(Node),邊也稱(chēng)為關(guān)系(Relationship)。在屬性圖中,頂點(diǎn)和邊是最重要屬性(Property):頂點(diǎn)和邊都可以有一個(gè)或多個(gè)屬性,屬性是一個(gè)鍵值對(duì)(Key/ValuePair),保存在頂點(diǎn)或邊上。在實(shí)踐中,一般每個(gè)頂點(diǎn)都會(huì)包含一):):以圖2-2為例。該圖中從左向右有3個(gè)頂點(diǎn),其標(biāo)簽分別為:Employee、示的屬性,表示該員工的姓名為AmyPeters、出生日期為1984-03-01、員工ID號(hào)為1;從Company頂點(diǎn)有一條邊指向Employee頂點(diǎn),該條邊的標(biāo)簽為的創(chuàng)始時(shí)間為2008-01-20;從Company頂點(diǎn)有一條邊指向City圖2-2屬性圖實(shí)例[7]主流的開(kāi)源圖數(shù)據(jù)庫(kù)Neo4j和JanusGraph都采用屬性圖的數(shù)據(jù)模型。不同的是,Neo4j使用原生設(shè)計(jì)的圖存儲(chǔ),JanusG2.1.3屬性圖與RDF模型的區(qū)別屬性圖模型和RDF圖模型這兩種圖模型的構(gòu)、操作和約束這三個(gè)方面(表2-1)。RDF圖模型的表達(dá)力強(qiáng)于屬性圖模型,背景,加之語(yǔ)義Web多年的標(biāo)準(zhǔn)化工作,其數(shù)據(jù)模型特性相對(duì)完善。屬性圖更用,其獲得了較強(qiáng)的用戶(hù)認(rèn)可度[11]。RDF和屬性圖兩種圖模型都體現(xiàn)頂點(diǎn)和邊的模型本質(zhì),在實(shí)踐中可以相互轉(zhuǎn)換,即RDF模型可以轉(zhuǎn)為屬性圖模型,而屬表2-1RDF圖模型和屬性圖模型的區(qū)別結(jié)構(gòu)已由W3C制定了標(biāo)準(zhǔn)化的語(yǔ)法和語(yǔ)義[12]通過(guò)額外方法,如“具體化”操作無(wú)約束無(wú)頂點(diǎn)記錄包括1)一個(gè)指向該點(diǎn)的第一條邊的指針nextEdgeID2)一個(gè)指Vertex2)邊的類(lèi)型relType3)該條邊指向的兩個(gè)頂點(diǎn)各自的邊的雙向鄰接表firstPrev/NextEdgeID、secondPrev/NextEdgeID4)一個(gè)指向邊的屬性的圖2-3Neo4j的頂點(diǎn)記錄與邊記錄下圖展示了Neo4j對(duì)數(shù)據(jù)的物理存儲(chǔ)模式:圖2-4Neo4j圖數(shù)據(jù)庫(kù)的物理存儲(chǔ)模式表,因此在該條邊的邊記錄中,有兩個(gè)指針指向了Node1的鄰接表的前后兩條邊,同時(shí)有兩個(gè)指針指向了Node2的鄰接表的前后兩條邊。若要讀取頂點(diǎn)的屬圖數(shù)據(jù)庫(kù)在設(shè)計(jì)和實(shí)現(xiàn)上繼承并發(fā)展了關(guān)系型數(shù)順序使用B+樹(shù)建立了不同的索引,并在不同查詢(xún)中組合地使用不同的索引來(lái)獲同時(shí),Sparksee使用兩個(gè)B+樹(shù)來(lái)圖2-5Sparksee[22]的映射關(guān)系與樹(shù)形結(jié)構(gòu)類(lèi)似,哈希表(Hashtable,也叫散列表)也是一種常用的索引_key。點(diǎn)文檔中只存儲(chǔ)點(diǎn)的信息而不包含任何邊相關(guān)的信息,因此在增加/刪除都有兩個(gè)獨(dú)特的屬性_from與_to,記錄了與邊相連的點(diǎn)文檔的ID。當(dāng)需要查找一個(gè)點(diǎn)時(shí),根據(jù)該點(diǎn)對(duì)應(yīng)的_key,可以直接對(duì)vertexindex進(jìn)行哈希索引,找到鄰居頂點(diǎn)。圖2-6ArangoDB[23]的哈希索引也有很多圖數(shù)據(jù)庫(kù)在存儲(chǔ)上直接使用了NoSQL了HyperGraphDB使用KV進(jìn)行數(shù)據(jù)存儲(chǔ)的示例,每個(gè)atoms都有一個(gè)強(qiáng)編碼的每一個(gè)超邊atom使用一個(gè)列表存儲(chǔ)它所連接的所有頂點(diǎn)的ID;頂點(diǎn)atom和超);圖2-7HyperGraphDB[25]的鍵值對(duì)存儲(chǔ)圖示似Json的格式存儲(chǔ),存儲(chǔ)內(nèi)容為文檔型,以封包鍵值對(duì)的方式進(jìn)行存儲(chǔ)。一般使得查詢(xún)語(yǔ)言具有搜索嵌套對(duì)象的能力,XQuery[26]就是一個(gè)例子。MongoDB[27]圖2-8展示了OrientDB[28]使用文檔存儲(chǔ)來(lái)表示頂點(diǎn)和邊的方法。每個(gè)頂點(diǎn)圖2-8OrientDB[28]的文檔存儲(chǔ)圖示寬列存儲(chǔ)(Wide-Columnstores)結(jié)合了鍵值存儲(chǔ)和關(guān)系表的不同特性,如圖2-9寬列存儲(chǔ)示例[5]圖2-10Titan[29]/JanusGraph[30]的寬列存儲(chǔ)圖示個(gè)點(diǎn)或者一條邊是否具有某個(gè)給定的標(biāo)簽。單點(diǎn)查詢(xún)常用于社交網(wǎng)絡(luò)工作負(fù)載查詢(xún)新浪微博中某位大V的所有粉絲、查詢(xún)某位用戶(hù)所感興趣的話(huà)題、查詢(xún)某位用戶(hù)的朋友,都可以對(duì)應(yīng)到查詢(xún)本地鄰居[31-32]。數(shù)據(jù)庫(kù)查詢(xún)?nèi)蝿?wù),因此常用于性能基準(zhǔn)測(cè)試[33-35]。不同的領(lǐng)域有著廣泛地應(yīng)用,如危險(xiǎn)檢測(cè)[36]、計(jì)算化學(xué)[36]等,因此不同的基準(zhǔn)測(cè)試[35,37-38]通常會(huì)加入這一類(lèi)查詢(xún)。很多統(tǒng)更是特別注重于解決全圖分析查詢(xún),如Pregel[39]、GraphX[40]、Gemini[41]等。成樹(shù)[46]、圖直徑、最遠(yuǎn)距離、連通分支、PageRank[47]等。一些對(duì)全圖的遍歷查可以看到,與關(guān)系模型以及其它NoSQL數(shù)據(jù)模型相比,輯來(lái)實(shí)現(xiàn),對(duì)上層用戶(hù)相對(duì)友好,SQL就是典型的描述式查詢(xún)語(yǔ)言。在圖數(shù)據(jù)庫(kù)領(lǐng)域,針對(duì)屬性圖的代表性描述式查詢(xún)語(yǔ)言是Cypher,由Neo4j首次提出,查詢(xún)語(yǔ)言的實(shí)現(xiàn)無(wú)法盡善盡美時(shí)的輔助手段。Gremlin是基于Scala的函數(shù)鏈?zhǔn)秸Z(yǔ)言,可以歸納為高層命令式查詢(xún)語(yǔ)言,但同時(shí)帶有少量表2-2圖查詢(xún)語(yǔ)言強(qiáng)弱好Cypher是Neo4j提出的圖查詢(xún)語(yǔ)言,它允許用戶(hù)從圖數(shù)據(jù)庫(kù)中存儲(chǔ)和檢索Cypher語(yǔ)法提供了一種可視化的邏輯方式來(lái)匹配圖中頂點(diǎn)和關(guān)系的模式。它是一種受SQL啟發(fā)的聲明性語(yǔ)言,用于使用ASCII-Art語(yǔ)法描述圖中的可視要精確地描述如何做到這一點(diǎn)。通過(guò)Cypher,用戶(hù)可以構(gòu)建表達(dá)性強(qiáng)且高效的述性的圖查詢(xún)語(yǔ)言,語(yǔ)法簡(jiǎn)單,功能強(qiáng)大。和字不區(qū)分大小寫(xiě),但是屬性值、標(biāo)簽、關(guān)系類(lèi)型支持Cypher的圖數(shù)據(jù)庫(kù)包括Neo4j[49]、RedisGraph[50]、AgensGraph[51]、MATCHMATCH:匹配圖模式,是從圖數(shù)據(jù)庫(kù)中獲取圖信MATCH(person:Person)-[:knows*2]-(friend:MATCH(person:Person)-[:knows*2]-(friend:WHERE=namein(selectfriend_namefromfriendwherena首先需要從關(guān)系型數(shù)據(jù)庫(kù)的friend表(列名為name、friend_name)中查詢(xún)Gremlin是ApacheThinkerPop框架編程語(yǔ)言原生編寫(xiě)Gremlin查詢(xún)。Gremlin是圖遍歷語(yǔ)言,其執(zhí)行機(jī)制是在圖中具體的導(dǎo)航步驟,所以Gremlin是過(guò)程式語(yǔ)言。與受到SQL影響的聲明式語(yǔ)言DataStaxEnterprise(5.0+)[56]、Amazong.V().has("name","Bob").out("knows").out("knows").valu查詢(xún)語(yǔ)句十分的簡(jiǎn)單,但是明確指出了查詢(xún)時(shí)的每一個(gè)步驟,首先對(duì)圖g找到其朋友的朋友,最后通過(guò)返回values("name")SPARQL包含查詢(xún)所需和可選圖模式及其連接和析取的功能。SPARQL還支持(basicgraphpattern)。SPARQL支持多種運(yùn)算符,將基本圖模式擴(kuò)展為復(fù)雜圖模{}首先為</foaf/0.1/>定義了一個(gè)前綴為foaf,這樣就不必每次的三元組,其中變量以?為前綴,因此該查詢(xún)中,需要滿(mǎn)足的條件分別是:?s的2019年6月,隸屬I(mǎi)SO/IEC聯(lián)合技術(shù)委員會(huì)的全球諸多國(guó)家性標(biāo)準(zhǔn)機(jī)構(gòu)開(kāi)現(xiàn)的版本有十多個(gè),包括六款商業(yè)產(chǎn)品)、Oracle目前,GQL標(biāo)準(zhǔn)將包括以下兩到三個(gè)部分。通過(guò)引用SQL/Framework和SQL/Foundation(ISO/IECJTC19075:2016(3)事務(wù)模型(隔離級(jí)別、提交、回滾等);注:各個(gè)圖數(shù)據(jù)庫(kù)廠商以及學(xué)術(shù)界推出的圖2-11目前已有的面向圖數(shù)據(jù)的查詢(xún)語(yǔ)言示意圖以下將對(duì)PGQL(Oracle)、GSQL(TigerGraph[57])、G-CORE(LDBC)AVG、SUM)、排序(ORDERBY)和許多其他熟悉的結(jié)構(gòu)。此外,PGQL還似SQL的語(yǔ)法,可以減少SQL程序員的學(xué)習(xí)成員首選的MapReduce用法,使用MapReduce的方式,可以實(shí)現(xiàn)大規(guī)G-CORE是一種用于屬性圖數(shù)據(jù)庫(kù)的圖查詢(xún)語(yǔ)言,G-CORE是由LDBC圖原生圖存儲(chǔ)的系統(tǒng)而言,這個(gè)目標(biāo)就是如何為了選擇出較優(yōu)的遍歷順序,圖數(shù)據(jù)庫(kù)需要能夠估計(jì)出符合條件的頂點(diǎn)/邊對(duì)于分布式的圖數(shù)據(jù)庫(kù),由于網(wǎng)絡(luò)較CPU和內(nèi)存通常更可能成為查詢(xún)的瓶理模型,或是使用硬件的能力(如RDMA)等,來(lái)增強(qiáng)網(wǎng)絡(luò)的使用效率;一些Neo4j是一個(gè)流行的圖數(shù)據(jù)庫(kù),它是開(kāi)源的。最近,Neo4j的社區(qū)版已經(jīng)由遵循AGPL許可協(xié)議轉(zhuǎn)向了遵循GPL許可協(xié)議[4ArangoDB是由ArangoDBGmbH開(kāi)發(fā)的一種免費(fèi)的開(kāi)源本機(jī)多模型數(shù)據(jù)庫(kù)語(yǔ)言)支持三種數(shù)據(jù)模型,兼有鍵/值對(duì)、圖和文檔數(shù)據(jù)模型,提供了涵蓋三種系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)、對(duì)象關(guān)系數(shù)據(jù)庫(kù)(ORDBMS)、虛擬數(shù)據(jù)庫(kù)、它支持實(shí)現(xiàn)多個(gè)協(xié)議的單線(xiàn)程服務(wù)器進(jìn)程。免費(fèi)開(kāi)源版本的VirtuosoUniversalNeptune支持流行的圖模型屬性圖和W3C的RDF,以及它們各自的查詢(xún)語(yǔ)言JanusGraph項(xiàng)目啟動(dòng)的初衷是的支持和對(duì)屬性圖模型進(jìn)行遍歷的Gremlin遍歷語(yǔ)言。2012年,TigerGraph在硅谷成立,由華人科學(xué)家許昱博士創(chuàng)立,深耕大數(shù)TuGraph由清華大學(xué)團(tuán)隊(duì)于2016年開(kāi)發(fā),屬于國(guó)內(nèi)自主研發(fā)的商業(yè)圖數(shù)據(jù)大數(shù)據(jù)量和高吞吐率,同時(shí)支持高效的在線(xiàn)事務(wù)處理(OLTP)和在線(xiàn)分析處理(OLAP)。通過(guò)三年的迭代,TuGraph在ACID事務(wù)支持、Cypher查詢(xún)語(yǔ)言、或者登錄https://www.amin表2-3常見(jiàn)圖數(shù)據(jù)庫(kù)對(duì)比NeptuneAmazonNeptune是一個(gè)完全由亞馬遜網(wǎng)),Apache2開(kāi)源,可擴(kuò)展,分布在Linux基金會(huì)下的Bigtable,Oracleberkaleydb通過(guò)與大析,報(bào)告和ETL;通過(guò)外部索引存儲(chǔ)Neo4jAGPLv3版開(kāi)放源碼,支持ACID,具有企業(yè)部署的括完整的事務(wù)支持和可視化頂點(diǎn)鏈接圖內(nèi)置的RESTWebAPI接口訪(fǎng)問(wèn),以及專(zhuān)有的帶有官方驅(qū)動(dòng)程序的Bolt協(xié)議。GPLv2;企關(guān)聯(lián)式資料庫(kù)管理系統(tǒng)(RDBMS用行聲明性(數(shù)據(jù)定義和數(shù)據(jù)操作)操作。XML和JSON在內(nèi)的許多文檔類(lèi)型中映射TigerGraph是一款“實(shí)時(shí)原生并行圖數(shù)據(jù)群中的圖數(shù)據(jù)自動(dòng)分區(qū),遵循ACID標(biāo)TuGraph是性能優(yōu)先的國(guó)產(chǎn)自主研發(fā)的圖在線(xiàn)事務(wù)處理(OLTP)和在線(xiàn)分析處理3產(chǎn)業(yè)應(yīng)用篇本篇從實(shí)際用例(UseCase)和解決方案(Solution)出發(fā),以數(shù)據(jù)的關(guān)聯(lián)圖3-1圖數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景圖3-2反醫(yī)保欺詐方案的圖數(shù)據(jù)建模示意圖推薦引擎是電子商務(wù)平臺(tái)在激烈競(jìng)爭(zhēng)環(huán)境中的制勝法寶,精準(zhǔn)及時(shí)的推薦,需要將商品、客戶(hù)、庫(kù)存、供應(yīng)商、物流和網(wǎng)絡(luò)輿情等數(shù)據(jù)有效地關(guān)聯(lián)在一起。推薦引擎適用的行業(yè)和部門(mén)有零售、餐飲、廣3-4)的方案,以供參考[57]。圖3-3圖數(shù)據(jù)庫(kù)深鏈接推薦引擎方案示意圖[57]圖3-4圖數(shù)據(jù)庫(kù)實(shí)時(shí)推薦引擎方案示意圖[57]于語(yǔ)義的數(shù)據(jù)的查詢(xún)結(jié)果(圖3-5)。圖3-5知識(shí)圖譜將數(shù)據(jù)中的信息提煉并集中到一個(gè)實(shí)體中(3)搜索體驗(yàn)像在進(jìn)行語(yǔ)言交流,更加智能。圖3-6圖數(shù)據(jù)庫(kù)快速建立知識(shí)圖譜實(shí)例(2)人員,部門(mén),規(guī)則和資源增長(zhǎng)。權(quán)限查詢(xún)的性能下降,無(wú)法滿(mǎn)足正常的圖3-7Telenor的資源訪(fǎng)問(wèn)管理數(shù)據(jù)模型圖圖3-8主數(shù)據(jù)示例圖);圖3-9主數(shù)據(jù)層級(jí)圖,描述人員的匯報(bào)和管理關(guān)系),圖3-10現(xiàn)實(shí)世界的人員匯報(bào)和管理關(guān)系圖3-11最能直觀地表示網(wǎng)絡(luò)和IT設(shè)備的拓?fù)浣Y(jié)構(gòu)網(wǎng)絡(luò)和IT設(shè)備管理場(chǎng)景適用的行業(yè)和部門(mén)圖3-12某企業(yè)網(wǎng)絡(luò)設(shè)備拓?fù)浜蛨?bào)警管理應(yīng)用方案的示意圖或未來(lái)的應(yīng)用中,同時(shí)實(shí)現(xiàn)在線(xiàn)交易(OLTP)和在線(xiàn)分圖3-13客戶(hù)的地理空間數(shù)據(jù)分析在移動(dòng)商業(yè)推薦上的應(yīng)用示例圖3-14出租車(chē)實(shí)時(shí)定位圖3-15電網(wǎng)IoT傳感器的時(shí)序數(shù)據(jù)圖模型示例并對(duì)發(fā)電、用電和輸電進(jìn)行統(tǒng)一管理。這時(shí)候需要實(shí)時(shí)深鏈接分析(Real-time頂點(diǎn)的遍歷和查詢(xún)能力。圖數(shù)據(jù)庫(kù)在這一場(chǎng)景具備全等。這里我們舉一個(gè)國(guó)際事件來(lái)展示圖數(shù)據(jù)的方式操作美國(guó)2016年的大選。在美國(guó)政府介入調(diào)查之際,大量的推文和賬號(hào)透到日常美國(guó)人的在線(xiàn)對(duì)話(huà)中并試圖影響公眾輿論?圖數(shù)據(jù)庫(kù)就成為回答這些(5)PageRank算法確定在群中最有影響力的賬號(hào)。般會(huì)用Web客戶(hù)端。根據(jù)推文數(shù)量暴漲的時(shí)間規(guī)律,也可以發(fā)現(xiàn)黑客所在的時(shí)4人才篇掘圖數(shù)據(jù)庫(kù)領(lǐng)域?qū)W術(shù)會(huì)議及期刊:數(shù)據(jù)管理國(guó)際會(huì)議(TheACMSpecialInterestConferenceonVeryLargeDatabases,VLDB)、IEEE國(guó)際數(shù)據(jù)工程會(huì)議(IEEEInternationalConferenceonDataEngineering,ICDE)、圖形數(shù)據(jù)管理經(jīng)驗(yàn)與系統(tǒng)國(guó)際研討會(huì)(InternationalWorkshoponGraphDataManagementExperiences&Systems,GRADES)、擴(kuò)展數(shù)據(jù)庫(kù)技術(shù)國(guó)際會(huì)議(InternationalConferenceon的2,000位領(lǐng)域活躍學(xué)者,再按照學(xué)者的h-index進(jìn)行排序,最后對(duì)其中排名靠Consistency,Isolation,Durabilit圖4-1圖數(shù)據(jù)庫(kù)全球頂尖學(xué)者分布前10個(gè)國(guó)家論文發(fā)表數(shù)量和人才數(shù)量的圖4-2圖數(shù)據(jù)庫(kù)領(lǐng)域Top10國(guó)家論文發(fā)表數(shù)量和人才數(shù)量對(duì)比4-3)。由此可見(jiàn),在圖數(shù)據(jù)庫(kù)領(lǐng)域,世界級(jí)科圖4-3圖數(shù)據(jù)庫(kù)領(lǐng)域?qū)W者h(yuǎn)-index分布AMiner可以對(duì)圖數(shù)據(jù)庫(kù)領(lǐng)域的學(xué)者的遷徙路徑進(jìn)行分析,如圖4-4所示。圖4-4圖數(shù)據(jù)庫(kù)全球?qū)W者遷徙圖中,統(tǒng)計(jì)每個(gè)機(jī)構(gòu)的論文發(fā)表數(shù)量、學(xué)者數(shù)量以及h-index,并按照論文發(fā)表數(shù)量從高到低對(duì)機(jī)構(gòu)進(jìn)行了排序,列出其中論文數(shù)量排名前五的機(jī)構(gòu),如圖4-5圖4-5圖數(shù)據(jù)庫(kù)領(lǐng)域?qū)W術(shù)機(jī)構(gòu)對(duì)比圖4-6圖數(shù)據(jù)庫(kù)國(guó)內(nèi)學(xué)者分布表4-1圖數(shù)據(jù)庫(kù)領(lǐng)域中國(guó)與各國(guó)合作論文情況12346536272581491110文數(shù)量雖然只有10篇,但平均數(shù)量達(dá)到85.89次,僅次于美國(guó)VanHarmelen、JeffreyXuYu(于旭)、WenfeiChristianBizer、LeiChen(陳雷)、等十位領(lǐng)域高水平學(xué)者,通過(guò)“學(xué)者畫(huà)像”的方式進(jìn)行展示,另外還包括了學(xué)者的基本信息、AMiner獲獎(jiǎng)信息、研究興趣學(xué)者,如有疏漏,還請(qǐng)與AMiner編者聯(lián)系,或者登錄/獲M.Tamer?zsu是滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)教授兼DavidR.Cheriton計(jì)算機(jī)科M.Tamer?zsu的研究方向是數(shù)據(jù)管理成等基礎(chǔ)數(shù)據(jù)庫(kù)技術(shù)方面也做了很多工作,主要的研究方向是1)數(shù)據(jù)庫(kù)技術(shù)在非傳統(tǒng)數(shù)據(jù)類(lèi)型中的應(yīng)用2)分布式并行數(shù)據(jù)管理。他是加拿大皇家學(xué)會(huì)(RoyalSocietyofCanada)、美國(guó)科學(xué)促進(jìn)協(xié)會(huì)(AmericanAssociationfor電氣與電子工程師協(xié)會(huì)(InstituteofElectricalandElectronicsEngineers)、土耳其科學(xué)院(ScienceAcademyofTurkey)當(dāng)選成員和SigmaXi成員。1.gStore:AnsweringSPLeiZou,JinghuiMo,LeiChen,M.TamerPVLDB,no.8(2011)論文鏈接:/pub/53e9adbdb7602d97037c18e4/gstore-answering-sparql論文解讀:由于RDF數(shù)據(jù)的使用越來(lái)越多,因此對(duì)RDF數(shù)據(jù)集進(jìn)行SPARQL它們無(wú)法以可擴(kuò)展的方式用通配符回答SPARQL查詢(xún)2)他理RDF存儲(chǔ)庫(kù)中的頻繁更新問(wèn)題。因此,大多數(shù)人必須從頭開(kāi)始重新處理數(shù)據(jù)算法。該方法可以以統(tǒng)一的方式回答確切的SPARQL查詢(xún)和帶通配符的查詢(xún);2.DistanceJoin:PatternMatchQueryInPVLDB,no.1(2009):886-897論文鏈接:/pub/53e9ac28b7602d97035e85c7/distancejoin-pattern-mquery-in-a-large-gr本文解決了大數(shù)據(jù)圖G上的模式匹配問(wèn)題。具體來(lái)說(shuō),給定一個(gè)模式圖(即查詢(xún)Q我們希望查找所有具有與Q中相似連接3.ProcessingSPARQLQueriesOverPengPeng,LeiZou,M.Tamer?zsu,LeiChenTheVLDBJournal,no.2(2014)論文鏈接:/pub/56d87c63dabfae2eee44d017/processing-sparql-queri圖的每個(gè)片段中引入部分答案2)提出了集中式組裝和分布式組裝3)在2018AMinerMostInfluential1.TheLinkedDataBenchmarkCouncil:aGraphandRDFIndustryBenchmarkRenzoAngles,PeterA.Boncz,Josep-LluisLarriba-Pey,IriniFundulaki,ThomasNeumann,OrriErling,PeterNeubauer,NorbertMartínez-Bazan,VenelinKotsev,IoanTomaSIGMODRecord,no.1(2014):27-31論文鏈接:/pub/53e9ae5cb7602d97038770d2/the-linked-data-benchmcouncil-a-graph-and-rdf-industry-benchmarki數(shù)據(jù)管理系統(tǒng)開(kāi)發(fā)行業(yè)實(shí)力基準(zhǔn)。它包括創(chuàng)建一個(gè)非營(yíng)利性L(fǎng)DBC組織,組織本文對(duì)LDBC項(xiàng)目進(jìn)行了概述,包括項(xiàng)目目標(biāo)和組織形式,并描述了用于基準(zhǔn)2.DerivinganEmergentRelatioMinh-DucPham,LinneaPassing,OrriErling,PeterA.BonczWWW,pp.864-874,(2015)論文鏈接:/pub/5736977f6e3b12023e66600b/deriving-an-emergent-re論文解讀:該文主要描述了允許從RDF數(shù)據(jù)中檢測(cè)“緊急”關(guān)系模式的技術(shù)。例如,提高SPARQL系統(tǒng)的效率,或者在任何RDF數(shù)據(jù)集之上使用現(xiàn)有的2016AMinerMostInfluential2016AMinerMostInfluentialSchol),1.AsymmetrictransitivitMingdongOu,PengCui,JianPei,WenwuKDD,(2016)論文鏈接:/pub/57aa28de0a3ac518da9896d8/asymmetric-transitivityEmbeddingEmbedding(HOPE),該算法既可擴(kuò)展保留大型圖的高階鄰近,還能夠捕獲非2.Scalableminingoflargedisk-basedgraphdatabasesChenWang,WeiWang,JianPei,KDD,pp.316-325,(2004)論文鏈接:/pub/53e9a6d0b7602d9703007451/scalable-mining-of-larg輕松地用于各種現(xiàn)有的圖形模式挖掘算法中。例如,我們通過(guò)使用ADI結(jié)構(gòu)來(lái)圖的圖數(shù)據(jù)庫(kù),而原始的gSpan算法只能處理多達(dá)30萬(wàn)個(gè)圖的3.Onminingcross-graphJianPei,DaxinJiang,AidongZhangKDD,pp.228-238,(2005)論文解讀:本文提出了一種有效的算法Crochet2020AI2000MostInfluentialScholarAwardHono2016AMinerMostInfluential2016AMinerMostInfluentialSchol王海勛的研究興趣為1)文本分析、自然語(yǔ)言處理2)知識(shí)庫(kù)、語(yǔ)義網(wǎng)絡(luò)、人工智能3)數(shù)據(jù)庫(kù)語(yǔ)言與系統(tǒng),圖數(shù)據(jù)大的聯(lián)合辦公空間公司W(wǎng)eWork擔(dān)任技術(shù)工程副總裁。SIGMODConference,pp.305-316,(2007)論文鏈接:/pub/53e9aeebb7602d97039187bd/blinks-ranked-keyword-s論文解讀:本文提出了一個(gè)圖檢索方案BLINKS,該方法用于包含關(guān)鍵字top-k2.ViST:aDynamicIndexMethodfoHaixunWang,SanghyunPark,WeiSIGMODSIGMODConference,pp.110-121,(2003)論文鏈接:/pub/53e9a812b7602d9703157a36/vist-a-dynamic-index-meod-for-querying-xml-data-by-tree-引方法不同,ViST索引方法將查詢(xún)分解為多個(gè)子查詢(xún),然后將這些子查詢(xún)的結(jié)果連接起來(lái)以提供最終答案,ViST使用樹(shù)結(jié)構(gòu)作為查詢(xún)的基本單位,以避免昂結(jié)構(gòu)。實(shí)驗(yàn)表明,ViST在支持結(jié)構(gòu)化查詢(xún)方面3.NaturallanguagequesLeiZou,RuizheHuang,HaixunWang,JeffreyXuYuSIGMODConference,(2014)論文鏈接:/pub/555048b745ce0a409eb70b87/natural-language-questnswering-over-rdf-a-graph-data-driven-appr常見(jiàn)的技術(shù)是聯(lián)合消歧。本文提出了一個(gè)用于從圖形數(shù)據(jù)驅(qū)動(dòng)的角度回答RDFFrankvanHarmelen,阿姆斯特丹自由大學(xué)計(jì)算機(jī)科學(xué)系的知識(shí)表示和推理年獲得數(shù)學(xué)和計(jì)算機(jī)科學(xué)博士學(xué)位。在愛(ài)丁堡期間,他與AlanBundy教授共同開(kāi)發(fā)了一個(gè)基于邏輯的專(zhuān)家系統(tǒng)工具包,以歸納定理證明的證明規(guī)劃。1990年到1995年,他回到了阿姆斯特丹,在Wielinga教授領(lǐng)導(dǎo)的SWI系工作。1995FrankvanHarmelen對(duì)于語(yǔ)義網(wǎng)的發(fā)展起到舉足輕重的作用。他是第一個(gè)歐科書(shū),已被翻譯成5種語(yǔ)言,在全世界傳播。FrankvanHarmelen也是Sesame1.Sesame:AGenericArchitectureforStoringandQueryingRDFandRDFScJeenBroekstra,ArjohnKampmaInternationalSemanticWebConference,pp.54-68,(2002)/pub/53e9a22bb7602d9702b2e32e/sesame-a-generic-architere-for-storing-and-querying-rdf-and-rdf-sc論文解讀:本文概述了RDF和RDFSchema作為一種通用的體系結(jié)構(gòu),以及它中高效存儲(chǔ)和表達(dá)查詢(xún)大量元數(shù)據(jù)的體系結(jié)構(gòu)。Sesame的設(shè)計(jì)和實(shí)現(xiàn)獨(dú)立于任何特定的存儲(chǔ)設(shè)備。因此,可以將Sesame部署在各種存儲(chǔ)設(shè)備之上GrigorisAntoniou,PaTheComputerJournal,no.1(2005):126-126/pub/53e99a52b7602d97022b849c/a-semantic-web-pri論文解讀:具有機(jī)器可讀內(nèi)容的語(yǔ)義Web的發(fā)展具有徹底改變?nèi)f維網(wǎng)及其的潛力。語(yǔ)義Web入門(mén)指南提供了對(duì)該領(lǐng)域介紹和指南,描述了其關(guān)鍵思想、本書(shū)內(nèi)容1)對(duì)不同語(yǔ)言(OWL2規(guī)則)的處理擴(kuò)展了RDF和OWL的3.FromSHIQandRDFtoOWL:themakingofIanHorrocks,PeterF.Patel-Schneider,FrankvanJ.WebSem.,no.1(2003):7-26論文鏈接:/pub/53e9ac7bb7602d9703652774/from-shiq-and-rdf-to-ow本體。OWL具有描述邏輯和框架功能。OWL還與RDF(語(yǔ)義Web的W3C基2020AI2000MostInfluentialScholarAwardHono2018AMinerMostInfluential以及圖模式匹配。于旭在國(guó)際會(huì)議/研討會(huì)上為300多個(gè)組織委員會(huì)和程序委員會(huì)提供服務(wù),其中包括APWeb'04,WAIM'06,APWeb/WAIM'07,WISE'09,副主編(2007~2013年),亞太網(wǎng)絡(luò)會(huì)議指導(dǎo)委員會(huì)主席(2013~2016年)。目前,他還擔(dān)任ACMTransactionsonDatabaseSystems,WWWJournal,theInternationalJournalofCooperativeInformationSystems,theJournalofInformationProcessing和JournalonHealthInformationScienc1.GraphClusteringYangZhou,HongCheng,JefreyXuYuPVLDB,no.1(2009):718-729論文鏈接:/pub/53e9a9ebb7602d970334d2d6/graph-clustering-basedtructural-attribute-similarit有效地提高自動(dòng)學(xué)習(xí)結(jié)構(gòu)相似度和屬性相似度性能。大量實(shí)驗(yàn)結(jié)果表明,2.GraphIndexing:PeixiangZhao,JefreyXuYu,PhilipS.YuVLDB'07Proceedingsofthe33rdinternationalconferenceonVerylargedatabases,pp.938-949,(2007)論文鏈接:/pub/53e9a80cb7602d97031518d0/graph-indexing-tree-d先進(jìn)行大量的圖挖掘。研究證明Tree+Δ≥Graph)可用于索引,并且是解決圖查詢(xún)問(wèn)題的最佳選擇。事實(shí)證明1)利用(Tree+Δ)進(jìn)行索引構(gòu)建是有效的2)利用(Tree+Δ)進(jìn)行圖包含查詢(xún)處理是有效的。實(shí)驗(yàn)結(jié)果表明Tree+Δ)具有緊湊的索引結(jié)構(gòu),在索引構(gòu)建中實(shí)現(xiàn)了更好的性能數(shù)量級(jí)。此外,該3.FastGraphPatteJiefengCheng,JefreyXuYu,BolinDing,PhilipS.Yu,HaixunWangICDE,pp.913-922,(2008)論文鏈接:/pub/53e99a20b7602d9702278b35/fast-graph-pattern-matc2020AI2000MostInfluentialScholarAwardHono2018AMinerMostInfluential等多項(xiàng)基金評(píng)委,曾為美國(guó)賓夕法尼亞大學(xué)、美國(guó)Drexel大學(xué)、北京航空航天成、分布式查詢(xún)處理、查詢(xún)語(yǔ)言、推薦系統(tǒng)、社會(huì)網(wǎng)絡(luò)查詢(xún)與分析、Web服務(wù)WenfeiFan,JianzhongLi,JizhouLuo,ZijingACMTrans.DatabaseSyst.,no.3(2013)論文鏈接:/pub/53e99a98b7602d970230f8f1/incremental-graph-patt耗。在此基礎(chǔ)之上,作者提出了圖形模式匹配的新方法(1)基于有界仿真的概仿真2)使用圖仿真、有界仿真和子圖同構(gòu)定義的匹配模式3)通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性和效率。結(jié)果表明a)修正的圖模式匹配概念使我們能夠識(shí)別現(xiàn)實(shí)網(wǎng)絡(luò)中常見(jiàn)的社區(qū)b)增量算法的性能明顯優(yōu)于他們的批次應(yīng)對(duì)2.QueryPreservingGraphCompWenfeiFan,JianzhongLSIGMODConference,pp.157-168,(2012)論文鏈接:/pub/53e99afdb7602d970238b1fa/query-preserving-graph論文解讀:在該論文中,筆者對(duì)圖形的壓縮方法進(jìn)行了研究。(1)針對(duì)可達(dá)性和通過(guò)(有限)模擬的圖形模式查詢(xún)開(kāi)發(fā)了壓縮策略2)提供了根據(jù)原始圖2020AI2000MostInfluentialScholarAwardHono2018AMinerMostInfluential是頂級(jí)期刊ACMTransactionsonDatabaseSystems的編委(2008~2014年)。目前是頂級(jí)期刊IEEETransactionsonKnowledgeandDataEngineering的編委,1.FastComputingReachabilityLabelingsforLJiefengCheng,JeffreyXuYu,XueminLin,HaixunWang,PhilipS.YuEDBT,pp.193-204,(2008)論文鏈接:/pub/53e9a6e6b7602d970301d566/fast-computing-reachabil-labelings-for-large-graphs-with-high-comp2020AI2000MostInfluentialScholarAwardChristianBizer的研究方向是探索與關(guān)全球化、分散化信息環(huán)境發(fā)展的技術(shù)和經(jīng)驗(yàn)問(wèn)題。由他主持的項(xiàng)目包括W3C鏈接開(kāi)放數(shù)據(jù)社區(qū)項(xiàng)目、DBpedia項(xiàng)目ChristianBizer的科研成果包括1)RDF和SPARQL建議中采用的命名ResolutionFramework、Be1.DBpedia:ANuclS?renAuer,ChristianBizer,GeorgiKobilarov,JensLehmann,RichardCyganiakISWC/ASWC,pp.722-735,(2007)論文鏈接:/pub/53e9bbdbb7602d970482c288/dbpedia-a-nucleus-for論文解讀:DBpedia是社區(qū)的一項(xiàng)工作,旨在從Wikipedia中提(2)來(lái)自DBpedia社區(qū)的一些新興應(yīng)用程序,并展示了網(wǎng)站作者如何在他們的2.TheBerlinSPARQLBeInt.J.SemanticWebInf.Syst.,no.2(2009):1-24論文鏈接:/pub/53e99ad7b7602d970235b073/the-berlin-sparql-benchmk論文解讀:隨著SPARQL被社區(qū)所采用,越來(lái)越需要基準(zhǔn)測(cè)試來(lái)比較通過(guò)SPARQL協(xié)議公開(kāi)SPARQL端點(diǎn)的存儲(chǔ)系統(tǒng)的性能。此類(lèi)系統(tǒng)包括本機(jī)RDF存儲(chǔ)以及針對(duì)非RDF關(guān)系數(shù)據(jù)庫(kù)將據(jù)庫(kù)將SPARQL查詢(xún)重寫(xiě)為SQL查詢(xún)的系統(tǒng)。本文介紹的BerlinSPARQLBenchmark(BSBM)同時(shí)擁有本機(jī)RDF存儲(chǔ)的性能與跨體系結(jié)構(gòu)的SPARQL-to-SQL重寫(xiě)器的性能。該基準(zhǔn)測(cè)試建立在一個(gè)電子商務(wù)用例的基礎(chǔ)上,在該用例中,不同供應(yīng)商提供了一組產(chǎn)品,并且消費(fèi)者已經(jīng)發(fā)布了有關(guān)產(chǎn)品的評(píng)論?;鶞?zhǔn)查詢(xún)混合模擬了正在尋找產(chǎn)品的消費(fèi)者的搜索和導(dǎo)航模式。本文還討論了BSBM基準(zhǔn)的設(shè)計(jì),對(duì)四種流行的RDF存儲(chǔ)(Sesame,Virtuoso,JenaTDB和JenaSDB)性能與兩個(gè)SPARQL-to-SQL重寫(xiě)器(D2R)的性能進(jìn)行了比較。3.D2RServer-PublishingRelationalDatabasesontheChristianBizer,RichardCyganiak,FInternationalSymposiumonWearableComputers,(2004)論文鏈接:/pub/53e9a0d1b7602d97029b960e/d-r-server-publishing-ronal-databases-on-the-se通過(guò)聲明性映射將數(shù)據(jù)庫(kù)內(nèi)容映射到RDF,該聲明性映射指定如何標(biāo)識(shí)資源以及如何從數(shù)據(jù)庫(kù)內(nèi)容生成屬性值?;诖擞成洌珼22018AMinerMostInfluentialDatabases(DAPD)等國(guó)際期刊編委(AssociateEd1.gStore:AnsweringSPLeiZou,JinghuiMo,LeiChen,M.Tamer?zsu,DongyanPVLDB,no.8(2011)論文鏈接:/pub/53e9adbdb7602d97037c18e4/gstore-answering-sparql論文解讀:由于RDF數(shù)據(jù)的使用越來(lái)越多,因此對(duì)RDF數(shù)據(jù)集進(jìn)行SPARQL查詢(xún)的有效處理已成為一個(gè)重要問(wèn)題。但是,現(xiàn)有的解決方案有兩個(gè)局限性:1)它們無(wú)法以可擴(kuò)展的方式用通配符回答SPARQL查詢(xún);2)他們不能有效地處理RDF存儲(chǔ)庫(kù)中的頻繁更新問(wèn)題。因此,大多數(shù)人必須從頭開(kāi)始重新處理數(shù)據(jù)集。本文提出了一種基于圖的方法來(lái)存儲(chǔ)和查詢(xún)RDF數(shù)據(jù)。(1)該方法沒(méi)有像大多數(shù)現(xiàn)有方法那樣將RDF三元組映射到關(guān)系數(shù)據(jù)庫(kù)中,而是將RDF數(shù)據(jù)存儲(chǔ)為大圖。然后將SPARQL查詢(xún)轉(zhuǎn)換為相應(yīng)的子圖匹配查詢(xún)2)為了加快查詢(xún)處理速度,本文還提出了一種新穎的索引以及一些有效的修剪規(guī)則和有效的搜索算法。該方法可以以統(tǒng)一的方式回答確切的SPARQL查詢(xún)和帶通配符的查詢(xún)3)文本中提出的維護(hù)算法可以有效處理RDF存儲(chǔ)庫(kù)的在線(xiàn)更新。2.DistanceJoin:PatternMatchQueryinALargeGraphLeiZou,LeiChen,M.TamePVLDB,no.1(2009):886-897論文鏈接:/pub/53e9ac28b7602d97035e85c7/distancejoin-pattern-mquery-in-a-large-gr論文解讀:在對(duì)圖數(shù)據(jù)進(jìn)行子圖搜索、最短路徑查詢(xún)、可達(dá)性驗(yàn)證和模式匹配時(shí),模式匹配查詢(xún)比子圖搜索更具靈活性,比最短路徑或可達(dá)性查詢(xún)具有更多信息。本文解決了大數(shù)據(jù)圖G上的模式匹配問(wèn)題。具體來(lái)說(shuō),給定一個(gè)模式圖(即查詢(xún)Q),我們希望查找所有具有與Q中相似連接的匹配。(在G中)為了顯著減少搜索空間,我們首先通過(guò)圖嵌入技術(shù)將頂點(diǎn)轉(zhuǎn)換為向量空間中的點(diǎn),然后將模式匹配查詢(xún)覆蓋到轉(zhuǎn)換向量空間上的基于距離的多方聯(lián)接問(wèn)題。本文還提出了幾種修剪策略和聯(lián)接順序選擇方法來(lái)有效地處理聯(lián)接處理。大量實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有方法的性能要高出幾個(gè)數(shù)量級(jí)。5趨勢(shì)篇領(lǐng)域技術(shù)分析系統(tǒng)()基于AMiner的近3億篇論文和勢(shì)等。本次研究以數(shù)據(jù)管理國(guó)際會(huì)議(TheACMSpecialInterestGroupononVeryLargeDatabases,VLDB)、IEEE國(guó)際數(shù)據(jù)工程會(huì)議(IEEEInternationalConferenceonDataEngineering,ICDE)、圖形數(shù)據(jù)管理經(jīng)驗(yàn)與系統(tǒng)國(guó)際研討會(huì)(InternationalWorkshoponGraphDataManagGRADES)、擴(kuò)展數(shù)據(jù)庫(kù)技術(shù)國(guó)際會(huì)議(InternationalConferenceonExtending然科學(xué)基金委員會(huì)(NationalNatureScienceFoundationofChina,NSFC)扶持的基金項(xiàng)目作為研究基礎(chǔ),對(duì)圖數(shù)據(jù)庫(kù)領(lǐng)域的熱點(diǎn)趨勢(shì)進(jìn)行詳盡分圖5-1圖數(shù)據(jù)庫(kù)國(guó)家趨勢(shì)2圖數(shù)據(jù)庫(kù)專(zhuān)利數(shù)據(jù)來(lái)自智慧芽專(zhuān)利分析系統(tǒng)https://時(shí)可以看出,中國(guó)在圖數(shù)據(jù)庫(kù)領(lǐng)域的研究熱度僅次于美國(guó),尤其是在2015年以圖5-2圖數(shù)據(jù)庫(kù)的熱點(diǎn)趨勢(shì)圖序,越熱的在越上方。對(duì)目前熱度靠前的10個(gè)據(jù)庫(kù)的重要分支領(lǐng)域;信息檢索、語(yǔ)義網(wǎng)和查詢(xún)優(yōu)化的(/topic/5eec8ad092c7f9be2177bcc6采用主題生成模型(LatentDirichletAllocation,LDA),分析了這些論文的研究主題分布情況。其GremlinandNativeAcc出處:Conference:JointEDBT/2.標(biāo)題:Cypher:AnEvolvingQueryLanguagePlantikowS,RydbergM3.標(biāo)題:FoundationsofModernQueryLanguagesforGraphDatabases作者:AnglesR,ArenasM,BarcelóP,HoganA,Reutte2.標(biāo)題:ReconciliationofRDF*andPropertyGraphs3.標(biāo)題:QueryingRDFDatafroma出處:Web-AgeInformationMartínez-BazanN,Larriba-PeParallelandDistributedPl出處:ProceedingsoftheVLDBEndowme作者:IosupA,HegemanT,NgaiWL,HeldensS,Prat-ChafioH.,Capot?M.,Su出處:Inbook:HandbookofBigDataTechn作者:JunghannsM.,PetermannA.,Neuma1.標(biāo)題:BG:ABenchmark2.標(biāo)題:TheLDBCSocialNetworkBenchm作者:ErlingO,AverbuchA,3.標(biāo)題:LinkBench:adatabasebenchmarkManagementofData,2013作者:ArmstrongTG,PonnekantiV,BorthakurD,C出處:InternationalJournalofElectricalandComputerEngine作者:PatilN,KiranP,KiranN,KMNP.3.標(biāo)題:ASurveyofRD出處:FrontiersofComput下表所示,國(guó)家自然科學(xué)基金委共支持了30個(gè)與圖數(shù)據(jù)庫(kù)相關(guān)的項(xiàng)目,其中北),圖數(shù)據(jù)領(lǐng)域關(guān)鍵詞包括:圖數(shù)據(jù)庫(kù)(Graphdatabases)、屬性圖(Propertyanalysis)、ACID事務(wù)屬性(Atomicity,Consistency,Isolation,Durability,ACIDtransaction)、圖匹配(Graphpat表5-1國(guó)家自然科學(xué)基金支持情況項(xiàng)目類(lèi)別(個(gè)數(shù))依托單位項(xiàng)目個(gè)數(shù)面上項(xiàng)目(13個(gè))北京大學(xué)3東北大學(xué)1東南大學(xué)1項(xiàng)目類(lèi)別(個(gè)數(shù))依托單位項(xiàng)目個(gè)數(shù)哈爾濱工業(yè)大學(xué)2華東師范大學(xué)1南京大學(xué)1天津大學(xué)1中國(guó)人民大學(xué)3青年科學(xué)基金項(xiàng)目(15個(gè))北京大學(xué)1東南大學(xué)1復(fù)旦大學(xué)1哈爾濱工業(yè)大學(xué)1深圳大學(xué)1天津大學(xué)1武漢大學(xué)1西安理工大學(xué)1香港浸會(huì)大學(xué)深圳研究院1浙江大學(xué)2中北大學(xué)1中國(guó)科學(xué)院計(jì)算技術(shù)研究所1中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院1中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)1應(yīng)急管理項(xiàng)目(1個(gè))西安電子科技大學(xué)1優(yōu)秀青年科學(xué)基金項(xiàng)目(1個(gè))北京大學(xué)1databases)、屬性圖(Propertygraphs)、資源描述框架(ResourceDescriptionFramework,RDF)、圖分析(Graphanalysis)、ACID事務(wù)屬性(Atomicity,Consistency,Isolation,Dura圖5-32000年至2019年圖數(shù)據(jù)庫(kù)相關(guān)專(zhuān)利變化趨勢(shì)圖5-4全球圖數(shù)據(jù)庫(kù)相關(guān)專(zhuān)利TOP3國(guó)家圖5-5中國(guó)圖數(shù)據(jù)庫(kù)相關(guān)專(zhuān)利各省排名訊科技,2019:1./a/20190[2]張俊玲,王秀英,籍淑麗,等.數(shù)據(jù)庫(kù)原理與應(yīng)用[M].北京:清華大學(xué)出版社,2[3]Gartner.AnIntroductiontoGraphDataStoresandApplicableUseCB/OL],2019./en/documents/389[4]Neo4j[EB/OL].[5]Db-engines.Popularitychangespercategory,April2020[EB/OL].https://db-/en/ranking_[6]MaciejBesta,EmanuelPeter,RobertGerstenberger,MarcFischer,Modstawski,ClaudeBarthels,GustavoAlonso,TorstenHoefler.DemystifyingGraphDatabases:AnalysisandTaxonomyofDataOrganization,SystemDesigns,andGraphQueries[EB/OL].ArxivPreprintArxiv:1910.09[7]資源描述框架[EB/OL]./wiki/資源[8]LuoLannan,SunGang,YuWei.ADistributedStorageAccessSystemforMassDatausing3-tierArchitecture[C]//Proceedingsof2011InternationalConferenceonComputerScienceandInformationTechnology(ICCSIT2011):IACSITPress,2011:[9]George.L.HBase:theDefinitiveGuide:RandomAccesstoYourPlanet-Si[10]HartigO.ReconciliationofRdfandPropertyGraphs[J].ArxivPreprintAr[11]王鑫,鄒磊,王朝坤,等.知識(shí)圖譜數(shù)據(jù)管理研究綜述[J].軟件學(xué)報(bào),2019,30[12]RDF1.1ConceptsandAbstractSyntax[EB/OL]./TR/rdf[13]Brickleyd.Guha-RV..RDFSchema1.1.W3CRecommeUnitedStates:W3C,2018./TR/rdf-schema/.[14]W3COWLWorkingGroup.OWL2WebOntologyLanguageDocuOverview.2nded.[EB/OL]./TR/owl2-overview/.[15]HarrisS,SeaborneA,Prud’hommeauxE.Sparql1.1QueryLanguage[J].W3cRecommendation,2013,2[16]FrancisN,GreenA,GuagliardoP,etal.Cypher:anEvolvingQueryLaageforPropertyGraphs[C]//Proceedingsofthe2018InternationalConferen[17]ApacheTinkerPop.TinkerPop3Documentationv.3.3.3.[EB/OL](2020-1-1)[2020-4-1]./docs/3.3.3/refere[18]VanRestO,HongS,KimJ,etal.Pgql:aPropertyGraphQueryLanguage[C]//ProceedingsoftheFourthInternationalWorkshoponGraphDataMa[19]AnglesR,ArenasM,BarcelóP,eeryLanguages[C]//Proceedingsofthe2018InternationalConferenceonManagementofData,[20]Neumann.TandWeikum.G.TheRDF-3XengineforscalablntofRDFdata[J].VLDBJ.,19(1):91-113,2010.[21]Virtuoso[EB/OL].https://virtuoso.openlinksw.co[22]Martínez-Bazan.N,Munt[23]ArangoDB:IndexFreeAdjacencyorHybridIndexesforGraphDatabases[EB/OL]./2016/04/index-free-adjacency-hybrid-indexes-graph-databases/.[24]DavoudianA,LiuC,LiuM.ASurveyon[25]IordanovB.Hypergraphdb:aGeneralizedGraphDatabase[C]//WebAgeInformationManagement,2[27]MongoDB[EB/OL].https://www.mongodb.[28]OrientDB[EB/OL].[29]TitanDataModel[EB/OL]./docs/titan/1.0.0/data-m[30]JanusGraph[EB/OL].http://janusgrap[31]ArmstrongTG,PonnekantiV,BorthakurD,etal.Linkbench:anchmarkBasedontheFacebookSocialGraph[C]//Proceedingsofthe2013AcmSigmodInternationalConferenceo[32]BarahmandS,GhandeharizadehS.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論