neo4j構建知識圖譜_第1頁
neo4j構建知識圖譜_第2頁
neo4j構建知識圖譜_第3頁
neo4j構建知識圖譜_第4頁
neo4j構建知識圖譜_第5頁
免費預覽已結束,剩余10頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、知識圖譜篇互聯(lián)網(wǎng)、大數(shù)據(jù)的背景下,谷歌、百度、搜狗等搜索引擎紛紛基于該背景,創(chuàng)建自己的知識圖譜KnowledgeGraph(谷歌)、知心(百度)和知立方(搜狗),主要用于改進搜索質量。1、什么是知識圖譜一種基于圖的數(shù)據(jù)結構,由節(jié)點(Point)和邊(Edge)組成。其中節(jié)點即實體,由一個全局唯一的ID標示,關系(也稱屬性)用于連接兩個節(jié)點。通俗地講,知識圖譜就是把所有不同種類的信息(HeterogeneousInformation)連接在一起而得到的一個關系網(wǎng)絡。知識圖譜提供了從關系”的角度去分析問題的能力。知識圖譜本質上是語義網(wǎng)絡,是一種基于圖的數(shù)據(jù)結構。其結點代表實體(entity)或者概

2、念(concept),邊代表實體/概念之間的各種語義關系。搜索引擎中使用知識圖譜,知識圖譜可用來更好地查詢復雜的關聯(lián)信息,從語義層面理解用戶意圖,改進搜索質量。知識圖譜(KnowledgeGraph)的構建使信息檢索變成了實體的檢索(EntitySearch)。以下就是一個neo4j圖數(shù)據(jù)庫,由頂點-邊組成,常用于微博好友關系分析、城市規(guī)劃、社交、推薦等應用。2、知識卡片知識卡片旨在為用戶提供更多與搜索內容相關的信息,例如,當在搜索引擎中輸入姚明”作為關鍵詞時,我們發(fā)現(xiàn)搜索結果頁面的右側原先用于置放廣告的地方被知識卡片所取代。下側即使與關鍵詞匹配的文檔列表。3、知識圖譜的作用知識圖譜最早由谷歌

3、提出,主要用于優(yōu)化現(xiàn)有的搜索引擎,例如搜索姚明,除了姚明本身的信息,還可關聯(lián)出姚明的女兒、姚明的妻子等與搜索關鍵字相關的信息。也就是說搜索引擎的知識圖譜越龐大,與某關鍵字相關的信息越多,再通過分析搜索者的特指,計算出最可能想要看到的信息,通過知識圖譜可大大提高搜索的質量和廣度。所以這也可理解為何谷歌百度等搜索引擎大頭都為之傾心,創(chuàng)建自己符合自己用戶搜索習慣的知識圖譜。據(jù)不完全統(tǒng)計,Google知識圖譜到目前為止包含了5億個實體和35億條事實(形如實體-屬性-值,和實體-關系-實體)4、知識圖譜上的挖掘通過大數(shù)據(jù)抽取和集成已經(jīng)可以創(chuàng)建知識圖譜,為進一步增加知識圖譜的知識覆蓋率,還需要進一步對知識

4、圖譜進行挖掘。常見的挖掘技術:推理:通過規(guī)則引擎,針對實體屬性或關系進行挖掘,用于發(fā)現(xiàn)未知的隱含關系實體重要性排序:當查詢多個關鍵字時,搜索引擎將選擇與查詢更相關的實體來展示。常見的pageRank算法計算知識圖譜中實體的重要性。三元組:就把對于客觀世界的字符串描述,轉化成了結構化的語義描述(Vs)學生(s)0b)書(b)讀過(s,b),(每個學生都讀過一本書)RDFS推理示例軍購Etfype人工壽至心機皆E由"MPam+_人工壽輪心卻dkfuhvlii、前科技會1邛1I孫配足(冷陛東林推小才人又如此德iJCtjpi'5、知識圖譜技術架構知識圖譜的架構,包括知識圖譜自身的邏輯

5、結構以及構建知識圖譜所采用的技術(體系)結構。知識圖譜的邏輯結構分為兩個層次:數(shù)據(jù)層和模式層。在知識圖譜的數(shù)據(jù)層,知識以事實(fact)為單位存儲在圖數(shù)據(jù)庫。如果以實體-關系-實體或者實體-屬性-值三元組作為事實的基本表達方式,則存儲在圖數(shù)據(jù)庫中的所有數(shù)據(jù)將構成龐大的實體關系網(wǎng)絡,形成知識的圖譜。模式層在數(shù)據(jù)層之上,是知識圖譜的核心,在模式層存儲的是經(jīng)過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關系以及實體的類型和屬性等對象之間的聯(lián)系。本體庫在知識圖譜中的地位相當于知識庫的模具,擁有本體庫的知識庫冗余知識較少。OrajihConsi

6、niifm/lSpdaitFrucciDMqAcqui?ihonInfoKma1削那FAcQuiiiticnPrwt皿力工知識圖譜的構建過程是從原始數(shù)據(jù)出發(fā),采用一系列自動或半自動的技術手段,從原始數(shù)據(jù)中提取出知識要素(即事實),并將其存入知識庫的數(shù)據(jù)層和模式層的過程。這是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含三個階段:信息抽取、知識融合以及知識加工。知識圖譜有自頂向下和自底向上2種構建方式。所謂自頂向下構建是借助百科類網(wǎng)站等結構化數(shù)據(jù)源,從高質量數(shù)據(jù)中提取本體和模式信息,加入到知識庫中;所謂自底向上構建,則是借助一定的技術手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度

7、較高的新模式,經(jīng)人工審核之后,加入到知識庫中。目前知識圖譜大多采用自底向上的方式構建,本文也主要介紹自底向上的知識圖譜構建技術,按照知識獲取的過程分為3個層次:信息抽取、知識融合以及知識加工。6、知識圖譜構建技術采用自底向上的方式構建知識圖譜的過程是一個迭代更新的過程,每一輪更新包括3個步驟:信息抽取,即從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體撿的相互關系,在此基礎上形成本體化的知識表達;知識融合,在獲得新知識后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;知識加工,對于經(jīng)過融合的新知識,需要經(jīng)過質量評估之后(部分需要人工

8、參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量,新增數(shù)據(jù)之后,可以進行知識推理、拓展現(xiàn)有知識、得到新知識。信息抽取信息抽取是知識圖譜構建的第一步,其中的關鍵問題是如何從異構數(shù)據(jù)源中自動抽取信息得到候選知識單元。信息抽取是一種自動化地從半結構化和無結構數(shù)據(jù)中抽取實體、關系以及實體屬性等結構化信息的技術。涉及的關鍵技術包括:命名實體識別、關系抽取和屬性抽取。命名實體識別(實體抽?。┟麑嶓w識別(namedentityrecognition,NER)也稱實體抽取,是指從文本數(shù)據(jù)集中自動識別出命名實體。實體抽取的質量(準確率和召回率)對后續(xù)的知識獲取效率和質量影響極大,因此是信息抽取中

9、最為基礎和關鍵的部分。2012年Ling等人歸納出112種實體類別,并基于條件隨機場CRF進行實體邊界識別,最后采用自適應感知機算法實現(xiàn)了對實體的自動分類,取得了不錯的效果。但是隨著互聯(lián)網(wǎng)中內容的動態(tài)變化,采用人工預定義實體分類體系的方式已經(jīng)很難適應時代的需求,因此提出了面向開放域的實體識別和分類研究。在面向開放域的實體識別和分類研究中,不需要(也不可能)為每個領域或者每個實體類別建立單獨的語料庫作為訓練集。因此,該領域面臨的主要挑戰(zhàn)是如何從給定的少量實體實例中自動發(fā)現(xiàn)具有區(qū)分力的模型。一種思路是根據(jù)已知的實體實例進行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實體列表,然后針對新實體建模,

10、迭代地生成實體標注語料庫。另一種思路是利用搜索引擎的服務器日志,事先并不給出實體分類等信息,而是基于實體的語義特征從搜索日志中識別出命名實體,然后采用聚類算法對識別出的實體對象進行聚類。關系抽取文本語料經(jīng)過實體抽取,得到的是一系列離散的命名實體,為了得到語義信息,還需要從相關的語料中提取出實體之間的關聯(lián)關系,通過關聯(lián)關系將實體(概念)聯(lián)系起來,才能夠形成網(wǎng)狀的知識結構,研究關系抽取技術的目的,就是解決如何從文本語料中抽取實體間的關系這一基本問題。早期的關系抽取研究方法主要是通過人工構造語法和語義規(guī)則。隨后,出現(xiàn)了大量基于特征向量或者核函數(shù)的有監(jiān)督學習方法,關系抽取的準確性也不斷提高。但以上研究

11、成果的共同特點是需要預先定義實體關系類型,如雇傭關系、整體部分關系以及位置關系等。與之相對的,Banko等人提出了面向開放域的信息抽取方法框架(openinformationextraction,OIE),并發(fā)布了基于自監(jiān)督(self-supervised)學習方式的開放信息抽取原型系統(tǒng)(TextRunner),該系統(tǒng)采用少量人工標記數(shù)據(jù)作為訓練集,據(jù)此得到一個實體關系分類模型,再依據(jù)該模型對開放數(shù)據(jù)進行分類,依據(jù)分類結果訓練樸素貝葉斯模型來識別實體-關系-實體三元組,經(jīng)過大規(guī)模真實數(shù)據(jù)測試,取得了顯著優(yōu)于同時期其他方法的結果。TextRunner系統(tǒng)中錯誤的部分主要是一些無意義或者不和邏輯的

12、實體關系三元組,據(jù)此引入語法限制條件和字典約束,采用先識別關系指示詞,然后再對實體進行識別的策略,有效提高了關系識別準確率。屬性抽取屬性抽取的目標是從不同信息源中采集特定實體的屬性信息。例如針對某個公眾人物,可以從網(wǎng)絡公開信息中得到其昵稱、生日、國籍、教育背景等信息。屬性抽取技術能夠從多種數(shù)據(jù)來源中匯集這些信息,實現(xiàn)對實體屬性的完整勾畫。由于可以將實體的屬性視為實體與屬性值之間的一種名詞性關系,因此也可以將屬性抽取問題視為關系抽取問題。百科類網(wǎng)站提供的半結構化數(shù)據(jù)是當前實體屬性抽取研究的主要數(shù)據(jù)來源。但是還有大量的實體屬性數(shù)據(jù)隱藏在非結構化的公開數(shù)據(jù)中。一種解決方案是基于百科類網(wǎng)站的半結構化數(shù)

13、據(jù),通過自動抽取生成訓練語料,用于訓練實體屬性標注模型,然后將其應用于對非結構化數(shù)據(jù)的實體屬性抽?。涣硪环N方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘實體屬性與屬性值之間的關系模式,據(jù)此實現(xiàn)對屬性名和屬性值在文本中的定位。這種方法的基本假設是屬性名和屬性值之間在位置上有關聯(lián)關系,事實上在真實語言環(huán)境中,許多實體屬性值附近都存在一些用于限制和界定該屬性值含義的關鍵詞(屬性名),在自然語言處理技術中將這類屬性稱為有名屬性,因此可以利用這些關鍵字來定位有名屬性的屬性值。知識融合通過信息抽取,實現(xiàn)了從非結構化和半結構化數(shù)據(jù)中獲取實體、關系以及實體屬性信息的目標,然而,這些結果中可能包含大量的冗余和錯誤信息

14、,數(shù)據(jù)之間的關系也是扁平化的,缺乏層次性和邏輯性,因此有必要對其進行清理和整合。知識融合包含2部分內容:實體鏈接和知識合并。實體鏈接實體鏈接(entitylinking)是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。其基本思想是:首先根據(jù)給定的實體指稱項,從知識庫中選出一組候選實體對象,然后通過相似度計算將指稱項鏈接到正確的實體對象。實體鏈接的一般流程是:1從文本中通過實體抽取得到實體指稱項進行實體消歧和共指消解,判斷知識庫中的同名實體與之是否代表不同的含義,以及知識庫中是否存在其他命名實體與之表示相同的含義2在確認知識庫中對應正確實體對象之后,將該實體指稱鏈

15、接到知識庫中對應實體。實體消歧是專門用于解決同名實體產(chǎn)生歧義問題的技術。通過實體消歧,就可以根據(jù)當前的語境,準確建立實體鏈接,實體消歧主要采用聚類法。其實也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。共指消解技術主要用于解決多個指稱對應同一實體對象的問題。在一次會話中,多個指稱可能指向的是同一實體對象。利用共指消解技術,可以將這些指稱項關聯(lián)(合并)到正確的實體對象,由于該問題在信息檢索和自然語言處理等領域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對象對齊、實體匹配和實體同義。共指消解問題的早期研究成果主要來自自然語言處理領域,近年來統(tǒng)計機器學習領域的學

16、者越來越多的參與到這項工作中?;谧匀徽Z言處理的共指消解是以句法分析為基礎的,代表方法是Hobbs算法和向心理論(centeringtheory)。Hobbs算法是最早的代詞消解算法之一,主要思路是基于句法分析樹進行搜索,因此適用于實體與代詞出現(xiàn)在同一句子中的場景,有一定的局限性。向心理論的基本思想是:將表達模式(utterance)視為語篇(discourse)的基本組成單元,通過識別表達式中的實體,可以獲得當前和后續(xù)語篇中的關注中心(實體),根據(jù)語義的局部連貫性和顯著性,就可以在語篇中跟蹤受關注的實體。隨著統(tǒng)計機器學習方法被引入該領域,共指消解技術進入了快速發(fā)展階段,McCarthy等人首

17、次將C4.5決策樹算法也被應用于解決共指消解問題。除了將共指消解問題視為分類問題之外,還可以將其作為聚類問題來求解。聚類法的基本思想是以實體指稱項為中心,通過實體聚類實現(xiàn)指稱項與實體對象的匹配。其關鍵問題是如何定義實體間的相似性測度。Turney基于點互信息來求解實體所在文檔的相似度,能夠有效的實現(xiàn)共指消解?;诮y(tǒng)計機器學習的共指消解方法通常受限于2個問題:訓練數(shù)據(jù)的(特征)稀疏性和難以在不同的概念上下文中建立實體關聯(lián)。為解決該問題,Pantel等人基于Harris提出的分布相似性模型,提出了一個新的實體相似性測度模型,稱為術語相似度(termsimilarity),借助該模型可以從全局語料中

18、得到所有術語間的統(tǒng)計意義上的相似性,據(jù)此可以完成實體合并,達到共指消解的目的。知識合并在構建知識圖譜時,可以從第三方知識庫產(chǎn)品或已有結構化數(shù)據(jù)獲取知識輸入。常見的知識合并需求有兩個,一個是合并外部知識庫,另一個是合并關系數(shù)據(jù)庫。將外部知識庫融合到本地知識庫需要處理兩個層面的問題:1數(shù)據(jù)層的融合,包括實體的指稱、屬性、關系以及所屬類別等,主要的問題是如何避免實例以及關系的沖突問題,造成不必要的冗余;2通過模式層的融合,將新得到的本體融入已有的本體庫中。然后是合并關系數(shù)據(jù)庫,在知識圖譜構建過程中,一個重要的高質量知識來源是企業(yè)或者機構自己的關系數(shù)據(jù)庫。為了將這些結構化的歷史數(shù)據(jù)融入到知識圖譜中,可

19、以采用資源描述框架(RDF)作為數(shù)據(jù)模型。業(yè)界和學術界將這一數(shù)據(jù)轉換過程形象地稱為RDB2RDF,其實質就是將關系數(shù)據(jù)庫的數(shù)據(jù)換成RDF的三元組數(shù)據(jù)。知識加工通過信息抽取,可以從原始語料中提取出實體、關系與屬性等知識要素,再經(jīng)過知識融合,可以消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達。然而事實本身并不等于知識,要想最終獲得結構化,網(wǎng)絡化的知識體系,還需要經(jīng)歷知識加工的過程。知識加工主要包括3方面內容:本體構建、知識推理和質量評估。本體構建本體(ontology)是對概念進行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化的方式對概念及其之間的聯(lián)系給出明確定義。本體最大的特點在于

20、它是共享的,本體反映的知識是一種明確定義的共識。本體是同一領域內的不同主體之間進行交流的語義基礎。本體是樹狀結構,相鄰層次的節(jié)點(概念)之間有嚴格的IsA關系。在知識圖譜中,本體位于模式層,用于描述概念層次體系,是知識庫中知識的概念模板。本體可以采用人工編輯的方式手動構建(借助本體編輯軟件),也可以以數(shù)據(jù)驅動的自動化方式構建本體,其包含3個階段:實體并列關系相似度計算、實體上下位關系抽取以及本體的生成。實體并列關系相似度適用于考察任意給定的兩個實體在多大程度上屬于同一概念分類的指標測度,相似度越高,表明這2個實體越有可能屬于同一語義類別。所謂并列關系,是相對于縱向的概念隸屬關系而言的。實體上下

21、位關系抽取是用于確定概念之間的隸屬(IsA)關系,這種關系也稱為上下位關系。本體生成階段的主要任務是對各層次得到的概念進行聚類,并對其進行語義類的標定(為該類的中的實體指定1個或多個公共上位詞)。當前主流的實體并列關系相似度計算方法有兩種:模式匹配法和分布相似度。其中,模式匹配法采用預先定義實體對模式的方法,通過模式匹配取得給定關鍵字組合在同一語料單位中共同出現(xiàn)的頻率,據(jù)此計算實體對之間的相似度。分布相似度方法的前提假設是:在相似的上下文管徑中頻繁出現(xiàn)的實體之間具有語義上的相似性。實體上下位關系抽取是該領域的研究重點,主要的研究方法是基于語法模式(如Hearst模式)抽取IsA實體對。也有方法

22、利用概率模型判定IsA關系和區(qū)分上下位詞,通常會借助百科類網(wǎng)站提供的概念分類知識來幫助訓練模型,以提高算法精度。知識推理知識推理是指從知識庫中已有的實體關系數(shù)據(jù)出發(fā),進行計算機推理,建立實體間的新關聯(lián),從而拓展和豐富知識網(wǎng)絡。知識推理是知識圖譜構建的重要手段和關鍵環(huán)節(jié),通過知識推理,能夠從現(xiàn)有知識中發(fā)現(xiàn)新的知識。知識推理的對象也并不局限于實體間的關系,也可以是實體的屬性值,本體的概念層次關系等。知識的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理?;谶壿嫷耐评碇饕ㄒ浑A邏輯謂詞、描述邏輯以及基于規(guī)則的推理。一階謂詞邏輯建立在命題的基礎上,在一階謂詞邏輯中,命題被分解為個體(indiv

23、iduals)和謂詞(predication)2部分。個體是指可獨立存在的客體,可以是一個具體的事物,也可以是一個抽象的概念。謂詞是用來刻畫個體性質及事物關系的詞。比如(A,friend,B)就是表達個體A和B關系的謂詞。對于復雜的實體關系,可以采用描述邏輯進行推理。描述邏輯(descriptionlogic)是一種基于對象的知識表示的形式化工具,是一階謂詞邏輯的子集,它是本體語言推理的重要設計基礎?;谝?guī)則的推理可以利用專門的規(guī)則語言,如SWRL(semanticWebrulelanguage)。基于圖的推理方法主要基于神經(jīng)網(wǎng)絡模型或PathRanking算法。PathRanking算法的基

24、本思想是將知識圖譜視為圖(以實體為節(jié)點,以關系或屬性為邊),從源節(jié)點開始,在圖上執(zhí)行隨機游走,如果能夠通過一個路徑到達目標節(jié)點,則推測源和目的節(jié)點可能存在關系。質量評估質量評估也是知識庫構建技術的重要組成部分。其意義在于:可以對知識的可信度進行量化,通過舍棄置信度較低的知識,可以保障知識庫的質量。7、知識圖譜的應用通過知識圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。目前的知識圖譜技術主要用于智能語義搜索、移動個人助理(Siri)以及深度問答系統(tǒng)(Watson),支撐這些應用的核心技術正是知識圖譜技術。在智能語義搜索中,當用戶發(fā)

25、起查詢時,搜索引擎會借助知識圖譜的幫助對用戶查詢的關鍵詞進行解析和推理,進而將其映射到知識圖譜中的一個或一組概念之上,然后根據(jù)知識圖譜的概念層次結構,向用戶返回圖形化的知識結構,這就是我們在谷歌和百度的搜索結果中看到的知識卡片。在深度問答應用中,系統(tǒng)同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉化成結構化形式的查詢語句,然后在知識圖譜中查詢答案。比如,如果用戶提問:如何判斷是否感染了埃博拉病毒?,則該查詢有可能被等價變換為埃博拉病毒的癥狀有哪些?,然后再進行推理變換,最終形成等價的三元組查詢語句,如(埃博拉,癥狀,?)和(埃博拉,征兆,?)等。如果由

26、于知識庫不完善而無法通過推理解答用戶的問題,深度問答系統(tǒng)還可以利用搜索引擎向用戶反饋搜索結果,同時根據(jù)搜。語義網(wǎng)絡是一張數(shù)據(jù)構成的網(wǎng)絡,語義網(wǎng)絡技術向用戶提供的是一個查詢環(huán)境,其核心要義是以圖形的方式向用戶返回經(jīng)過加工和推理的知識。而知識圖譜技術則是實現(xiàn)智能化語義檢索的基礎和橋梁。Neo4jNeo4j是一個世界領先的開源圖形數(shù)據(jù)庫。它是由Neo技術使用Java語言完全開發(fā)的。從Neo4j版本2.1.3,它支持大量的節(jié)點,關系和屬性來開發(fā)和支持企業(yè)應用程序。Neo4j是:?一個開源?無Schema?沒有SQL?圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是以圖形結構的形式存儲數(shù)據(jù)的數(shù)據(jù)庫。它以節(jié)點,關系和屬性的形式存儲

27、應用程序的數(shù)據(jù)。正如RDBMS(RelationalDatabaseManagementSystem)以表的行,列”的形式存儲數(shù)據(jù),GDBMS(GraphDatabaseManagementSystem)以圖形”的形式存儲數(shù)據(jù)。簡單地說,我們可以說圖數(shù)據(jù)庫主要用于存儲更多的連接數(shù)據(jù)。包含大量的結構化,半結構化和非結構化的連接數(shù)據(jù)。有很多的連接數(shù)據(jù),它是非常容易存儲和檢索。如果我們在RDBMS數(shù)據(jù)庫中存儲這種更多連接的數(shù)據(jù),那么檢索或遍歷是非常困難和緩慢的。如果我們使用RDBMS數(shù)據(jù)庫來存儲更多連接的數(shù)據(jù),那么它們不能提供用于遍歷大量數(shù)據(jù)的適當性能。在這些情況下,GraphDatabase提高了

28、應用程序性能。Neo4j的特點?SQL就像簡單的查詢語言Neo4jCQL?它遵循屬性圖數(shù)據(jù)模型?它通過使用ApacheLucence支持索引?它支持UNIQUE約束?它它包含一個用于執(zhí)行CQL命令的UI:Neo4j數(shù)據(jù)瀏覽器?它支持完整的ACID(原子性,一致性,隔離性和持久性)規(guī)則?它采用原生圖形庫與本地GPE(圖形處理引擎)?它支持查詢的數(shù)據(jù)導出到JSON和XLS格式?它提供了RESTAPI,可以被任何編程語言(如Java,Spring,Scala等)訪問?它提供了可以通過任何UIMVC框架(如NodeJS)訪問的Java腳本?它支持兩種JavaAPI:CypherAPI和NativeJa

29、vaAPI來開發(fā)Java應用程序Neo4j的優(yōu)點?它很容易表示連接的數(shù)據(jù)?檢索/遍歷/導航更多的連接數(shù)據(jù)是非常容易和快速的?它非常容易地表示半結構化數(shù)據(jù)?Neo4jCQL查詢語言命令是人性化的可讀格式,非常容易學習?它使用簡單而強大的數(shù)據(jù)模型?它不需要復雜的連接來檢索連接的/相關的數(shù)據(jù),因為它很容易檢索它的相鄰節(jié)點或關系細節(jié)沒有連接或索引Neo4j的缺點或限制?AS的Neo4j2.1.3最新版本,它具有支持節(jié)點數(shù),關系和屬性的限制。?它不支持Sharding。Neo4j-圖形理論基礎圖形是一組節(jié)點和連接這些節(jié)點的關系。圖形以屬性的形式將數(shù)據(jù)存儲在節(jié)點和關系中。屬性是用于表示數(shù)據(jù)的鍵值對。在圖形

30、理論中,我們可以表示一個帶有圓的節(jié)點,節(jié)點之間的關系用一個箭頭標記表示圖形數(shù)據(jù)庫數(shù)據(jù)模型的主要構建塊是:?節(jié)點標簽?關系數(shù)據(jù)瀏覽器?屬性SimpteGraph我們使用圓圈表示節(jié)點。使用箭頭的關系。關系是有方向性的。我們可以用Properties(鍵值對)來表示Node的數(shù)據(jù)。在這個例子中,我們在Node的Circle中表示了每個Node的Id屬性。節(jié)點是圖表的基本單位。它包含具有鍵值對的屬性,如下所示empno:11234(ename:"NecT1salary:35000deptno:10EmployeeNode這里NodeName="Employee”,它包含一組屬性作為

31、鍵值對,屬性是用于描述圖節(jié)點和關系的鍵值對。關系是圖形數(shù)據(jù)庫的另一個主要構建塊。它連接兩個節(jié)點,如下所示EmpNodeWorks-ForDeptNode每個關系包含一個起始節(jié)點和一個結束節(jié)點,關系也可以包含屬性作為鍵值對。這里的“WORKS_FOR關系有一個屬性作為鍵值對ID=123,它代表了這種關系的一個ID。標簽將一個公共名稱與一組節(jié)點或關系相關聯(lián)。節(jié)點或關系可以包含一個或多個標簽。我們可以為現(xiàn)有節(jié)點或關系創(chuàng)建新標簽,也可以從現(xiàn)有節(jié)點或關系中刪除現(xiàn)有標簽。一旦我們安裝Neo4j,我們可以訪問Neo4j數(shù)據(jù)瀏覽器使用以下URLhttp:/localhost:7474/browser/,構建完

32、成后可以導出四種格式文件,svg、png、json、csv。Neo4jCQLCQL代表Cypher查詢語言。像Oracle數(shù)據(jù)庫具有查詢語言SQL,Neo4j具有CQL作為查詢語言。?它是Neo4j圖形數(shù)據(jù)庫的查詢語言。?它是一種聲明性模式匹配語言?它遵循SQL語法。?它的語法是非常簡單且人性化、可讀的格式。?Neo4jCQL已命令來執(zhí)行數(shù)據(jù)庫操作。?Neo4jCQL支持多個子句像在哪里,順序等,以非常簡單的方式編寫非常復雜的查詢。?NNeo4jCQL支持一些功能,如字符串,Aggregation.In加入他們,它還支持一些關系功能。Neo4jCQL命令S.N叫CQL金令償用法1.eeAre&

33、#169;尾創(chuàng)建節(jié)點,關浜用房性2.MffTCH悔家將美書點,關去和碇:鼓據(jù)3.RETURN返國亞問祎詢站早科HEREra提哄條件1檢索數(shù)據(jù)5.DELETE般除節(jié)點和關系6.REMOVE刪除節(jié)點礫系的息性兀ORPERBf14排序排序檜祭&展8.SET用港加剪更好標卷Neo4jCQL函數(shù)S.Nat0例表功求用法1.SB”字將串它廠因不使用與ti»勺中而3.丸Ajgfegtion聚6鋤二用于對80腿更閡亍的.3.Rela-onshp關森他們用于社盟無餐的1叼節(jié).如startrtodfejtndnode.Neo4jCQL數(shù)據(jù)類型這些數(shù)據(jù)類型與Java語言類似。它們用于定義節(jié)點或關系的屬性SxNOxCQL曲據(jù)類里用法Wol*r1用于由布布爾文辛:tru4,他以明2.byta由于齊不白但整特.3.short用于烝F1書位整數(shù).4.Mt用于去予32位葬用.5,Iorig汨干再示64戶隼撲,6>floAt1用于再示32位存點救.?.戊HjR牌用于#f64位浮點詡.8.char用于志亍1E佗字看.丸2葉不于表示字符甌.CREATE用于創(chuàng)建節(jié)點:$CREATE(<node-name>:<label-name>)如:CREATE(emp:Employeeid:123,name:"Lokesh",sal:35000,de

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論