大規(guī)模知識圖譜數(shù)據(jù)存儲_第1頁
大規(guī)模知識圖譜數(shù)據(jù)存儲_第2頁
大規(guī)模知識圖譜數(shù)據(jù)存儲_第3頁
大規(guī)模知識圖譜數(shù)據(jù)存儲_第4頁
大規(guī)模知識圖譜數(shù)據(jù)存儲_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2語義大數(shù)據(jù)背景下的知識圖譜技術(shù)數(shù)據(jù)存儲的發(fā)展歷史知識圖譜數(shù)據(jù)存儲知識圖譜時態(tài)信息存儲上半場人民的名義知識圖譜大數(shù)據(jù)時代大數(shù)據(jù)時代,強調(diào)的是對大規(guī)模數(shù)據(jù)綜合處理的能力。從數(shù)據(jù)庫到大數(shù)據(jù)(1)DBBD大數(shù)據(jù)的出現(xiàn),必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來 源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會對其帶來革命性 的變化。從數(shù)據(jù)庫(DB)到大數(shù)據(jù)(BD),不只是一個簡單的技術(shù)演進,兩者有著本質(zhì)上的差別。來源:開源技術(shù)社區(qū) Nock(洛神)從數(shù)據(jù)庫到大數(shù)據(jù)(2)池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)規(guī)模MBGB/TB/PB池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)類型數(shù)據(jù)種類單一(少數(shù)幾種)以結(jié)構(gòu)化數(shù)據(jù)為

2、主數(shù)據(jù)種類繁多包含著結(jié)構(gòu)化、半結(jié)構(gòu)化 以及非結(jié)構(gòu)化的數(shù)據(jù)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 所占份額越來越大池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)數(shù)據(jù)模式先有模式然后產(chǎn)生數(shù)據(jù)難以預(yù)先確定模式模式在數(shù)據(jù)出現(xiàn)之后才能確定 且模式隨著數(shù)據(jù)量的增長處于不 斷的演變之中池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)處理對象數(shù)據(jù)僅作為處理對象數(shù)據(jù)能作為一種資源來輔助 解決其他諸多領(lǐng)域的問題池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(2)處理方法One Size Fits AllNo Size Fits All池塘捕魚大海捕魚從數(shù)據(jù)庫到大數(shù)據(jù)(3)以計算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心。 數(shù)據(jù)思維大數(shù)據(jù)應(yīng)用挑戰(zhàn)1: 多源異構(gòu)數(shù)據(jù)難以融合涉密

3、部門企業(yè)內(nèi)部數(shù)據(jù)顧軍.生于1963年.江蘇南通人.中國核工業(yè)公司內(nèi)部數(shù)據(jù)、新聞網(wǎng)站、論壇帖子、微博 多源異構(gòu)數(shù)據(jù)難以融合信息聚合、數(shù)據(jù)融合需求迫切!大數(shù)據(jù)應(yīng)用挑戰(zhàn)2:數(shù)據(jù)模式動態(tài)變遷困難當(dāng)前數(shù)據(jù)模式動態(tài)變遷困難,當(dāng)客戶新需求、業(yè)務(wù)新認知時程序員需痛苦的修改數(shù)據(jù)結(jié)構(gòu)及業(yè)務(wù)邏輯,帶來擴展性差、對客戶響應(yīng)慢、維護成本高等不良情況。我們需要:可自由擴展的數(shù)據(jù)模式!響應(yīng)速度慢人員投入大數(shù)據(jù)結(jié)構(gòu)難改動擴展性差維護成本高大數(shù)據(jù)應(yīng)用挑戰(zhàn)3:非結(jié)構(gòu)化數(shù)據(jù)計算機難以理解計算機無法理解非結(jié)構(gòu)化數(shù)據(jù)的語義企業(yè)迫切需要將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化Web of Document大數(shù)據(jù)應(yīng)用挑戰(zhàn)4:數(shù)據(jù)使用專業(yè)程度過高行業(yè)智能問答大

4、幅降低數(shù)據(jù)使用門檻Knowledge Graph: The key for Smart DataThings, not strings!什么是知識圖譜?知識圖譜旨在描述真實世界中存在的各種實體或概念,以 及它們之間的關(guān)聯(lián)關(guān)系。其中:每個實體或概念用一個全局唯一確定的ID來標(biāo)識,稱為標(biāo)識符;每個屬性值對用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)?,F(xiàn)實世界中有多種類型的事物事物之間有多種類型的鏈接知識圖譜與本體知識圖譜并不是本體的替代品,它是在本體的基礎(chǔ)上進行了豐富和擴 充,這種擴充主要體現(xiàn)在實體(Entity)層面。本體中突出和強調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,而知識圖

5、譜則 是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實體的信息。本體描述了知識圖譜的數(shù)據(jù)模式(schema),即為知識圖譜構(gòu)建數(shù) 據(jù)模式相當(dāng)于為其建立本體。知識圖譜助力人工智能語義搜索私人助理聊天機器人穿戴設(shè)備GoogleBing百度SiriGoogle Now微軟小娜百度度秘微軟小冰小黃雞公子小白Apple WatchTicwatch計算知識引擎臨床決策支持出行助手IBM Watson Health出門問問百度知識圖譜業(yè)務(wù)需求技術(shù)方案數(shù)據(jù)挑戰(zhàn)4. 數(shù)據(jù)使用專 業(yè)程度過高3. 數(shù)據(jù)模式動 態(tài)變遷困難語義理解數(shù)據(jù)關(guān)聯(lián)探索業(yè)務(wù)動態(tài)擴展智能數(shù)據(jù)檢索1. 非結(jié)構(gòu)化數(shù)據(jù) 計算機難以理解2. 多源異構(gòu)數(shù) 據(jù)難以融

6、合知識圖譜助力商業(yè)智能數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)融合自由擴展數(shù)據(jù)模式行業(yè)智能問答知識圖譜的適用場景數(shù) 據(jù) 場 景知識圖譜為數(shù)據(jù)賦能圖結(jié)構(gòu)特性數(shù)據(jù)語義特性消 費 場 景圖數(shù)據(jù)探索路徑分析關(guān)聯(lián)分析圖譜可視化圖結(jié)構(gòu)消費場景自然語言檢索智能BI語義標(biāo)注知識推理數(shù)據(jù)語義消費場景知識圖譜適用于處理:關(guān)系復(fù)雜的數(shù)據(jù)、類型繁多的數(shù)據(jù)、結(jié)構(gòu)多變的數(shù)據(jù)。 作為數(shù)據(jù)融合與鏈接的紐帶,整合結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多源異構(gòu)數(shù)據(jù)需要融合統(tǒng)一使用有半結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)需要結(jié)構(gòu)化數(shù)據(jù)中存在一定數(shù)量不同類別的實體業(yè)務(wù)上更加關(guān)注數(shù)據(jù)中實體的關(guān)聯(lián),而不僅僅是數(shù)據(jù)本身知識圖譜的不適用場景不適用數(shù)據(jù)場景存儲通常的二進制數(shù)據(jù)日志數(shù)據(jù)流式數(shù)據(jù)需

7、借助其它工具存儲和處理并與知識圖譜進行數(shù)據(jù)鏈接不適用消費場景數(shù)據(jù)統(tǒng)計數(shù)據(jù)計算需要結(jié)合其它工具和方法使用TIPS知識圖譜不是銀彈!依據(jù)問題尋找方法。不要為了用知識圖譜也用知識圖譜!數(shù)據(jù)存儲的發(fā)展歷史伴隨阿波羅登月計 劃,商業(yè)數(shù)據(jù)庫雛 形誕生。IBM的 IMS,Mainframe,以 及navigational數(shù)據(jù) 庫技術(shù)浮現(xiàn)。埃德加弗蘭克科 德,IBM公司研究 員,發(fā)表題為“大 型共享數(shù)據(jù)庫的關(guān) 系模型”的論文, 被譽為“關(guān)系數(shù)據(jù) 庫之父”IBM的校企聯(lián)合計劃 中,與加利佛尼亞 柏克萊分校Ingres數(shù) 據(jù)庫研究項目攜手 創(chuàng)建了RDMBS的原 型R系統(tǒng)因IBM戰(zhàn)略主導(dǎo)分級 結(jié)構(gòu)數(shù)據(jù)業(yè)務(wù)并將 萌芽

8、期的關(guān)系型數(shù) 據(jù)結(jié)構(gòu)業(yè)務(wù)剝離; 柏克萊Ingres數(shù)據(jù)庫 研究項目聯(lián)合 Oracle創(chuàng)建了第一 個商業(yè)RDBMS.IBM發(fā)布DB2(一套 自主開發(fā)的關(guān)系型 數(shù)據(jù)庫管理系統(tǒng))Terodata Corporation發(fā)布第 一個大規(guī)模并行處理數(shù)據(jù)庫專用平臺,或者說是“無共享架構(gòu)”數(shù)據(jù)庫。由于無需共 享數(shù)據(jù)庫,文件架構(gòu) 中不存在單一瓶頸而 降低系統(tǒng)運行速度的 特性,所以google稱 之為sharding。PC機數(shù)據(jù)庫應(yīng)用浮 現(xiàn),比如:Ashton- Tole公司的DBase lll,微軟公司的 Access等等。19621979196819701974198319841985“數(shù)據(jù)庫”誕生在IDS

9、橫行的年代,(硅谷的所在地) 加利福尼亞州,數(shù) 據(jù)庫一詞最早流行 于系統(tǒng)研發(fā)公司的 技術(shù)備忘錄中第一個商業(yè)RDBMS出現(xiàn)數(shù)據(jù)存儲的發(fā)展歷史)GemStone/S-首 個面向?qū)ο笮蜕虡I(yè) 數(shù)據(jù)庫浮現(xiàn)。這一 年,加利福尼亞柏 克萊分校Michael Stonebraker發(fā)表 了 關(guān) 于 shared nothing architecture(SN 的研究論文Kognitio公司發(fā)布第一款內(nèi)存 數(shù)據(jù)庫,相比傳 統(tǒng)的基于磁盤的數(shù) 據(jù)庫管理系統(tǒng),內(nèi) 存柵障以及高速緩 存沖刷指令為內(nèi)存 數(shù)據(jù)庫提供簡單高 效的原子性,保證 了與中央處理器本 身原子操作的一致 性服務(wù)。關(guān)系型數(shù)據(jù)庫管 理系統(tǒng)擴展添加 關(guān)系型多

10、維數(shù)據(jù) 模型。第一款商用多值數(shù) 據(jù)庫KDB發(fā)布。 KDB封裝了豐富的 命令實現(xiàn)運行控制、 內(nèi)存操縱、寄存器 操縱、斷點設(shè)置、 堆棧跟蹤等許多功 能。這一年9月,兩個斯坦福大學(xué)博 士生發(fā)明了谷歌搜 索引擎。瑞典MySQL AB 公司發(fā)布推廣第 一款開源數(shù)據(jù) 庫MySQL英國Endeca公 司發(fā)布第一款商 用數(shù)據(jù)庫搜索產(chǎn) 品。該公司為波音公司、美國人口普查局、 福特、國際商用機器 公司、東芝等大型公 司和機構(gòu)提供搜索服 務(wù)。這一年google公 司成立。1986199219881989199119941995199619981999第一款開源的文 件數(shù)據(jù)庫發(fā)布, Berkeley DB 介于 關(guān)系

11、數(shù)據(jù)庫與內(nèi)存 數(shù)據(jù)庫之間,使用 方式與內(nèi)存數(shù)據(jù)庫 類似,它提供的是 一系列直接訪問數(shù) 據(jù)庫的函數(shù),而不 是像關(guān)系數(shù)據(jù)庫那 樣需要網(wǎng)絡(luò)通訊、 SQL解析等步驟。第一款對象關(guān)系數(shù) 據(jù)庫管理系統(tǒng) Illustra發(fā)布,它支持對復(fù)雜數(shù)據(jù)類型的面向?qū)ο蠊芾?,同時又提供高效的 查詢語言。隨后跟 風(fēng)的有notably, PostgreSQL等等。數(shù)據(jù)倉庫行業(yè) 標(biāo)準(zhǔn)提出IBM研究員率先提出并 解釋了數(shù)據(jù)倉庫一詞的 行業(yè)標(biāo)準(zhǔn)第一款多維數(shù)據(jù)庫發(fā)布Arbor公司發(fā)布第 一款多維數(shù)據(jù)庫 Essbase。多維數(shù)據(jù) 庫允許用戶以更為 口語化的英語來詢 問問題,使用一種 在線分析處理(OLAP)的軟件。數(shù)據(jù)存儲的發(fā)展歷史復(fù)

12、雜事件處理技 術(shù)解決方案提供 商Streambase發(fā) 布第一款time- series DBBMS第一款商用NOSQL圖形數(shù)據(jù)庫管理系統(tǒng)NEO4j發(fā)布,它是一個嵌入式的、基于磁盤的、具備 完全的事物特性的 Java持久化引擎, 但是它將結(jié)構(gòu)化數(shù) 據(jù)存儲在網(wǎng)絡(luò)上而 不是在表中。Facebook基于靜態(tài) 批處理的Hadoop智 商封裝并發(fā)布了一個 開源項目數(shù)據(jù)倉 庫Hive,可以將結(jié)構(gòu) 化的數(shù)據(jù)文件映射為 一張數(shù)據(jù)庫表,并提 供簡單的sql查詢功 能,可以將sql語句 轉(zhuǎn)換為MapReduce 任務(wù)進行運行。Hbase發(fā)行,在 Hadoop之上提供了類 似于Bigtable的能力, 是一個適合于

13、非結(jié)構(gòu)化 數(shù)據(jù)存儲的數(shù)據(jù)庫,采 用基于列的而不是基于 行的模式。基于資源描述框架(資源-屬性-屬性 值)的高性能圖形 數(shù)據(jù)庫管理系統(tǒng)或 稱為三元組法數(shù)據(jù) 管理系統(tǒng)浮現(xiàn)20022007200320052007200820102011NoSQL數(shù)據(jù)庫解決 方案提供商 MarkLogic發(fā)布第 一款XML數(shù)據(jù)庫。第一款內(nèi)容管理數(shù) 據(jù)庫ModeShape 發(fā)布。(其前身是 “JBossDNA”) 實 現(xiàn) 了 JCR 2.0 (JSR-283)規(guī)范,用以提供在不同系 統(tǒng)上的內(nèi)容存儲。商用Hadoop首次發(fā)布在Hadoop生態(tài)系統(tǒng) 中,規(guī)模最大、知名 度最高的Cloudera公 司由來自Facebook、

14、 谷歌和雅虎的前工程 師杰夫店哈默巴切、 克里斯托弗比塞格利 亞、埃姆阿瓦達拉以 及現(xiàn)任CEO、甲骨文 前高管邁克奧爾森合 作發(fā)布了第一款商用 Hadoop20092009去SQL化浪潮由分布式文檔存 儲數(shù)據(jù)庫 MongoDB引發(fā) 了一場去SQL化 的浪潮數(shù)據(jù)倉儲一體 機推出Netezza公司將存 儲、處理、數(shù)據(jù)庫 和分析融入到一個 高性能數(shù)據(jù)倉庫設(shè) 備中,資料倉儲軟 硬體整合數(shù)據(jù)倉庫 數(shù)據(jù)庫浮現(xiàn)。數(shù)據(jù)存儲的發(fā)展歷史內(nèi)存數(shù)據(jù)庫管理 系統(tǒng)演化為SAP HANA第一款事務(wù)存儲 型開源數(shù)據(jù)庫發(fā) 布FoundationDB 引發(fā)業(yè)內(nèi)新興熱 詞 “multi- modelDBMS” 的浮現(xiàn)。Hadoop

15、框架集成 新功能組件:+Apache Spark;+Apache Drill(schemaless SQL);+presto(federated multi-DBMSSQL)市場需求程序應(yīng)用可以自行判斷數(shù)據(jù)流的激活狀態(tài)并快速集成數(shù)據(jù)進行實時分析處理,Translyticaldatabase與Transaction andanalytical database進入人們的關(guān)注視野,比如VoltDB(version5.6)201220142012201220132015201420152015Impala完全拋棄了MapReduce這個不太適合做SQL查詢的范式,而是像Dremel一樣借鑒了MPP

16、并行數(shù)據(jù)庫的思想另起爐灶,因此可做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。相比已有的Hive系統(tǒng)雖然也提供 了SQL語義,眼但由于Hive底層 執(zhí)行使用的是MapReduce引擎, 仍然是一個批處理過程,難以滿 足查詢的交互性。大數(shù)據(jù)處理 作為云服務(wù) 體系接入到 企業(yè)應(yīng)用值得注意的是UC柏克萊為加州 大學(xué)系統(tǒng)中歷史最悠久的學(xué)校, Spark 是 UC Berkeley AMP lab 所 開 源 的 類 Hadoop MapReduce的通用并行框架, Spark, 擁 有 Hadoop MapReduce所具有的優(yōu)點;但 不同于Hadoop MapReduce的 是J

17、ob中間輸出結(jié)果可以保存在 內(nèi)存中,從而不再需要讀寫 HDFS,因此Spark能更好地適 用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要 迭代的MapReduce的算法。 Spark是在Scala語言中實現(xiàn)的, 它將Scala用作其應(yīng)用程序框架。 與Hadoop不同,Spark和Scala 可以像操作本地集合對象一樣輕 松地操作分布式數(shù)據(jù)集。亞馬遜Redshift發(fā)布作為基于云數(shù)據(jù)倉庫的 服務(wù),亞馬遜Redshift 發(fā)布Impala查詢系統(tǒng)Impala是Cloudera公司主導(dǎo)開 發(fā)的新型查詢系統(tǒng),它提供SQL 語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。數(shù)據(jù)存儲的發(fā)展歷史網(wǎng)狀數(shù)據(jù)庫

18、層次數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫NoSQL大數(shù)據(jù)存儲與處理框架網(wǎng)狀數(shù)據(jù)庫網(wǎng)狀模型中以記錄為數(shù)據(jù)的存儲單位,記錄包含若干數(shù)據(jù) 項;網(wǎng)狀數(shù)據(jù)庫的數(shù)據(jù)項可以是多值的和復(fù)合的數(shù)據(jù)。每 個記錄有一個惟一地標(biāo)識它的內(nèi)部標(biāo)識符,稱為碼( DatabaseKey,DBK),它在一個記錄存入數(shù)據(jù)庫時由 DBMS自動賦予。DBK可以看作記錄的邏輯地址,可作記 錄的替身,或用于尋找記錄。第一個網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng)也是第一個DBMS是美國通用 電氣公司Bachman等人在1964年開發(fā)成功的IDS( IntegratedDataStore)。層次數(shù)據(jù)庫層次數(shù)據(jù)庫也是按記錄來存取數(shù)據(jù)的;層次數(shù)據(jù)模型中最 基本的數(shù)據(jù)關(guān)系

19、是基本層次關(guān)系,它代表兩個記錄型之間 一對多的關(guān)系,也叫做父子關(guān)系(PCR);數(shù)據(jù)庫中有且 僅有一個記錄型無父親,稱為根節(jié)點;其他記錄型有且僅 有一個雙親。最著名最典型的層次數(shù)據(jù)庫系統(tǒng)是IBM公司的IMS(InformationManagementSystem)關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)模型是以集合論中的關(guān)系概念為基礎(chǔ)發(fā)展起來的;關(guān)系模型中無論是實體還是實體間的聯(lián)系均由單一的結(jié)構(gòu)類型-關(guān)系來表示;在實際的關(guān)系數(shù)據(jù)庫中的關(guān)系也稱 表;一個關(guān)系數(shù)據(jù)庫就是由若干個表組成。1974年,SQL語言被提出,功能包括查詢、操縱、定義和 控制,是一個綜合的、通用的關(guān)系數(shù)據(jù)庫語言,同時又是 一種高度非過程化的語言,只要

20、求用戶指出做什么而不需 要指出怎么做。典型代表:Oracle、MySQL、SQL Server面向?qū)ο髷?shù)據(jù)庫關(guān)系數(shù)據(jù)庫的能很好地處理所謂的“表格型數(shù)據(jù)”,卻對 越來越多復(fù)雜類型的數(shù)據(jù)無能為力。面向向?qū)ο蟮年P(guān)系型 數(shù)據(jù)庫系統(tǒng)對數(shù)據(jù)提供了理論上的完美性,但是并未帶來 市場的反應(yīng)。失敗原因:企圖用新型數(shù)據(jù)庫系統(tǒng)來取代現(xiàn)有的數(shù)據(jù)庫系 統(tǒng),對許多已經(jīng)運用數(shù)據(jù)庫系統(tǒng)并積累了大量工作數(shù)據(jù)的 客戶來說,無法承受新舊數(shù)據(jù)間的轉(zhuǎn)換而帶來的巨大工作 量及巨額開支。另外,其查詢語言極其復(fù)雜。NoSQL(1)NoSQL,Not Only SQL。隨著web2.0的快速發(fā)展,非關(guān) 系型、分布式數(shù)據(jù)存儲得到了快速的發(fā)展,它

21、們不保證關(guān) 系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來, 解決關(guān)系數(shù)據(jù)庫的性能及擴展性瓶頸。優(yōu)勢:大數(shù)據(jù)量高性能高可用靈活的數(shù)據(jù)模型NoSQL(2)NoSQL四大家族鍵值(Key-Value)數(shù)據(jù)庫列存儲數(shù)據(jù)庫文檔型數(shù)據(jù)庫圖形(Graph)數(shù)據(jù)庫NoSQL適用場景數(shù)據(jù)模型比較簡單需要靈活性更強的IT系統(tǒng)對數(shù)據(jù)庫性能要求較高不需要高度的數(shù)據(jù)一致性NoSQL鍵值存儲數(shù)據(jù)庫使用到一個哈希表,表中有一個特定的鍵和一個指針指向 特定的數(shù)據(jù)。相關(guān)數(shù)據(jù)庫Redis、Tokyo Cabinet/Tyrant、Voldemort、 Berkeley DB典型應(yīng)用內(nèi)容緩存,適合混合工作負載并擴展大

22、的數(shù)據(jù)集數(shù)據(jù)模型一系列鍵值對優(yōu)勢快速查詢劣勢存儲的數(shù)據(jù)缺少結(jié)構(gòu)化NoSQL列存儲數(shù)據(jù)庫應(yīng)對分布式存儲的海量數(shù)據(jù);鍵仍然存在,但是指向了多 個列,這些列是由列家族來安排的。相關(guān)數(shù)據(jù)庫Cassandra, HBase, Riak典型應(yīng)用分布式的文件系統(tǒng)數(shù)據(jù)模型以列簇式存儲,將同一列數(shù)據(jù)存在一起優(yōu)勢查找速度快,可擴展性強,更容易進行分布式擴展劣勢功能相對局限NoSQL文檔型存儲數(shù)據(jù)庫以半結(jié)構(gòu)化的文檔作為數(shù)據(jù)模型,文檔以特定的格式存儲(如JSON);可看作是鍵值數(shù)據(jù)庫的升級版,允許之間嵌 套鍵值。相關(guān)數(shù)據(jù)庫MongoDB、CouchDB典型應(yīng)用Web應(yīng)用數(shù)據(jù)模型半結(jié)構(gòu)化的文檔優(yōu)勢數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格劣勢

23、查詢性能不高,而且缺乏統(tǒng)一的查詢語法NoSQL圖形數(shù)據(jù)庫與其他行列以及剛性結(jié)構(gòu)的SQL數(shù)據(jù)庫不同,圖形數(shù)據(jù)庫 使用靈活的圖形模型,能夠擴展到多個服務(wù)器上。相關(guān)數(shù)據(jù)庫Neo4J、InfoGrid、InfiniteGraph、AllegroGraph、 Cayley、Stardog、Titan、OrientDB、ArangoDB、 OpenLink Virtuoso、VertexDB 典型應(yīng)用社交網(wǎng)絡(luò),推薦系統(tǒng)等。專注于構(gòu)建關(guān)系圖譜數(shù)據(jù)模型圖結(jié)構(gòu)優(yōu)勢利用圖結(jié)構(gòu)相關(guān)算法。劣勢需要對整個圖做計算才能得出結(jié)果,不容易做分布式的集 群方案。大數(shù)據(jù)存儲與處理框架知識圖譜數(shù)據(jù)存儲知識圖譜最適合處理關(guān)聯(lián)密集型的

24、數(shù)據(jù),因此首先需要需 要存放的是節(jié)點和邊的數(shù)據(jù)。用圖數(shù)據(jù)庫。是否所有的事物都作為實體放入到知識圖譜中去呢?視數(shù)據(jù)需求而定:對于不需要進行關(guān)系延伸計算的數(shù)據(jù)不放入圖譜,這些 數(shù)據(jù)可使用適應(yīng)的存儲并與知識圖譜中實體作鏈接; 對于結(jié)構(gòu)固定、實體屬性信息豐富的實體類,使用其它 數(shù)據(jù)庫存儲更能體現(xiàn)優(yōu)勢;知識圖譜數(shù)據(jù)存儲數(shù)據(jù)思維!在現(xiàn)實應(yīng)用中,還有一些不適合放入知識圖譜中的數(shù) 據(jù)(日志、事件,需要頻繁統(tǒng)計、計算)怎么辦?使用其它的存儲和計算框架進行存儲和處理,同時 實現(xiàn)與知識圖譜中數(shù)據(jù)的鏈接。知識圖譜數(shù)據(jù)存儲No Size Fits All !知識圖譜數(shù)據(jù)存儲 使用圖數(shù)據(jù)庫TIPS圖數(shù)據(jù)存儲知識圖譜是基于

25、圖的數(shù)據(jù)結(jié)構(gòu),其存儲方式主要有兩種方 式:RDF存儲 和 圖數(shù)據(jù)庫(Graph Database)。A triplestore or RDF store is a purpose-built database for the storage and retrieval of triples through semantic queries. A triple is a data entity composed of subject-predicate-object. WikipediaA graph database has a more generalized structure than

26、a triplestore, using graph structures with nodes, edges, and properties to represent and store data. WikipediaRDF存儲和圖數(shù)據(jù)庫的發(fā)展趨勢圖數(shù)據(jù)存儲從零開始構(gòu)建靈活不受約束基礎(chǔ)維護的難度和工作量巨大基于現(xiàn)有關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)構(gòu)建可以基礎(chǔ)存儲實現(xiàn)的強大功能,不需要分心管理底層的數(shù)據(jù)存 儲可按數(shù)據(jù)和應(yīng)用的需求采用不同的底層存儲基于現(xiàn)有數(shù)據(jù)庫存儲三元組表(S,P,O)問題:大量自連接操作的開銷巨大3store Harris03基于現(xiàn)有數(shù)據(jù)庫存儲屬性表:屬性相似的主語聚為一張表問題:

27、1、 RDF靈活性2、 屬性未定查詢Jena property table Wilkinson0基于現(xiàn)有數(shù)據(jù)庫存儲垂直分割:以謂語劃分三元組表問題:1、大量數(shù)據(jù)表2、刪除屬性代價大Vertical partitioning Abadi07, VLDNative RDF 存儲方案六重索引:SPO、SOP、PSO、POS、OSP、OPS優(yōu)點:三元組模式查詢(triple pattern)的高效執(zhí)行任意兩個三元組模式的高效歸并連接(merge-join)問題:1、6倍空間開銷,如果是 (S, P, O, C) 四元組呢?2、更新維護代價大Hexastore Weiss08, VLDB, RDF-3X

28、 Neumann08, VLDB使用列數(shù)據(jù)模型存儲三元組表,建立六重索引RDF列式存儲優(yōu)于行式存儲Native RDF 存儲方案Wang10, DBTA圖數(shù)據(jù)模型:節(jié)點、邊、節(jié)點屬性、邊屬性Neo4j節(jié)點存儲(node store)關(guān)系存儲(relationship store)屬性存儲(property store)優(yōu)點:圖查詢語言、圖挖掘算法缺點:分布式存儲實現(xiàn)代價高,數(shù)據(jù)更新速度慢,大 節(jié)點處理慢圖數(shù)據(jù)庫(原生圖存儲)應(yīng)用多節(jié)點分布式服務(wù)器集群系統(tǒng)將三元組數(shù)據(jù)分布式存儲。商業(yè):AllegroGraph、Microsoft Trinity Zeng13, VLDB、 OpenLink Vi

29、rtuoso、BigOWLIM開源:Bigdata ()分布式B+樹:動態(tài)分片(dynamic sharding) triple store:SPO、POS、OSPquad store: SPOC、POCS、OCSP、CSPO、PCSO、 SOPC分布式存儲方案Jingwei分布式大規(guī)模RDF數(shù)據(jù)服務(wù)器 Wang12, APWeb分布式存儲方案大規(guī)模知識圖譜存儲解決方案數(shù)據(jù)思維依據(jù)數(shù)據(jù)特點進行數(shù)據(jù)存儲結(jié)構(gòu)選 擇與設(shè)計No Size Fits All沒有一種通用的存儲方案能夠解決 所有問題基礎(chǔ)存儲支撐靈活基礎(chǔ)存儲可擴展、高可用 按需要進行數(shù)據(jù)分割 適時使用緩存和索引善于利用現(xiàn)有成熟存儲 保持圖形

30、部分數(shù)據(jù)的精簡 不在圖中作統(tǒng)計分析計算 在應(yīng)用中進行擴充迭代指導(dǎo)思想整體原則大規(guī)模知識圖譜存儲最佳實踐(1)1. 基礎(chǔ)存儲可按數(shù)據(jù)場景選擇使用關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫及內(nèi)存數(shù)據(jù)庫?;A(chǔ)存儲保證可擴展、高可用2. 數(shù)據(jù)分割屬性表:依據(jù)數(shù)據(jù)類型劃分基本類型:整數(shù)表、浮點數(shù)表、日期類型表、 集合類型:List型表、Range型表、Map型表、大屬性單獨列表:例如數(shù)量超過10M的屬性單獨列表大規(guī)模知識圖譜存儲最佳實踐(2)3. 緩存與索引使用分布式 Redis 作為緩存,按需對數(shù)據(jù)進行緩存。對三元組表按需進行索引,最多情況下可建立九重索引SPO、SOP、PSO、POS、OSP、OPSSPO、POS

31、、OSP4. 善于使用現(xiàn)在成熟存儲$ElasticSearchfi$fifiNoSQL大規(guī)模知識圖譜存儲最佳實踐(3)5. 對于非關(guān)系型的數(shù)據(jù)盡量不入圖存儲,避免形成大節(jié)點非關(guān)系型的數(shù)據(jù),使用適合的數(shù)據(jù)存儲機器進行存儲,通過實 體鏈接的方式實現(xiàn)與圖譜數(shù)據(jù)的關(guān)聯(lián)。fl$6. 不直接在圖存儲中進行統(tǒng)計分析計算yfiyflfi$,y$fio信息的時態(tài)性時態(tài)特性是信息的客觀存在。知識和數(shù)據(jù)是不斷更新的,這些變化的時間點同樣代表 了有意義的信息。時態(tài)信息的需求與技術(shù)一直伴隨著數(shù)據(jù)庫技術(shù)的發(fā)展而 產(chǎn)生和發(fā)展。時態(tài)數(shù)據(jù)庫的發(fā)展趨勢本體的版本化本體的構(gòu)建發(fā)展的過程中,知識工程師通常希望把舊的本 體也保存下來,

32、形成了本體的版本化信息。基本意義有:記錄語義變化兼容性檢測版本選擇深化規(guī)則基于時態(tài)邏輯的本體版本管理線性時間模型分叉時間模型基于混合邏輯的本體版本管理知識圖譜中的時態(tài)信息事實的生成時間某事實的有效時間段某一對象在特定歷史時刻的狀態(tài)知識圖譜在過去特定時間的版本李達康為了修路, 在全縣搞強行攤 派捐款一位農(nóng)婦被逼喝 農(nóng)藥自殺縣政府被鬧21年前王大路背鍋,引 咎辭職李達康與易學(xué)習(xí) 資助王大路創(chuàng)業(yè)王大路多年經(jīng)營, 擁有今天的大路 集團趙立春要求呂州 市長李達康批地李達康拒接批地趙立春調(diào)離李達 康至林城高育良批地高、李沖突原因基本時間模型連續(xù)模型把時間看作同構(gòu)于實數(shù),每一個實數(shù)對應(yīng)于一個時間點。因此,在

33、時間軸的兩個時間點之間,可以存在其它的時間點。步進模型把數(shù)據(jù)的狀態(tài)看成是時間的函數(shù);當(dāng)時間點上的數(shù)據(jù)狀態(tài)發(fā)生變化時才記錄狀態(tài)變化,否則保持不變。時間序列上任一點上數(shù)據(jù)的值對應(yīng)于上一次數(shù)據(jù) 改變時保持的狀態(tài),如果要查詢當(dāng)前數(shù)據(jù)的取值,需要回溯。離散模型把時間和整數(shù)映射起來,在相鄰的兩個時間點之間不存在另一個時間點;任一時間點有前驅(qū)和后繼時間點。恒定模型有些數(shù)據(jù)是不隨時間變化的,例如:籍貫、出生地等;這些數(shù)據(jù)只有其本身固有的屬性?;緯r態(tài)元素時間點基于點的時間元素(Pointbased),又稱為時刻(Time Points)時間區(qū)間時間區(qū)間是指一段時間,有固定的起止時間點時間跨度指持續(xù)的一段時間,

34、表示時間的長度;與時間區(qū)間不同的是,時間跨度沒有時間起點,也沒有時間終點。時間元素NowNow是一個時間變元,隨著當(dāng)前時間的變化而變化,記錄了隨時間變化的信息,它的有效值依賴于當(dāng)前時間。時間粒度指描述時間數(shù)據(jù)的最小時間單位,是表示時間點之間離散化程度的因素;時間粒度反映了時態(tài)信息系統(tǒng)中時間點描述的最小單位,時間粒度越小,離散的時間點 越多,描述的事件的變化信息越精細準(zhǔn)確。三種時間用戶自定義時間指用戶根據(jù)自己的需要或理解定義的時間。這種時間的屬性值一般是時間點,用戶本身會解釋他所給出的時間信息,數(shù)據(jù)庫系統(tǒng)不需要解釋該數(shù)據(jù) 的含義,只需將此時間域等同于其他一般的屬性域來理解。有效時間指一個對象(事

35、件)在現(xiàn)實世界中發(fā)生并保持的那段時間,或者該對象在現(xiàn)實世界中為真的時間。有效時間既可以反映過去和現(xiàn)在的時間,還可以 反映將來的時間。事務(wù)時間指一個數(shù)據(jù)庫對象進行操作的時間,是一個事實存儲在數(shù)據(jù)庫中的時間,它記錄著對數(shù)據(jù)庫修改或更新的各種操作歷史,對應(yīng)于現(xiàn)有事務(wù)或現(xiàn)有數(shù) 據(jù)庫狀態(tài)變遷的歷史。有時也稱事務(wù)時間為系統(tǒng)時間(system time)。四種時態(tài)數(shù)據(jù)庫快照數(shù)據(jù)庫回滾數(shù)據(jù)庫歷史數(shù)據(jù)庫雙時態(tài)數(shù)據(jù)庫快照數(shù)據(jù)庫快照數(shù)據(jù)庫(Snapshot Database)是以在特定的時刻的 瞬間快照來建立模型,來考慮現(xiàn)實世界,盡管現(xiàn)實世界是 變化的,快照數(shù)據(jù)庫只是反映了某一個瞬間的情況。快照數(shù)據(jù)庫支持用戶定義時

36、間,不能進行與時間相關(guān)的任 何工作。回滾數(shù)據(jù)庫回滾數(shù)據(jù)庫(Rollback Database)支持事務(wù)時間,按事務(wù)時間進行編址, 保存了每次事務(wù)提交,狀態(tài)演變之前的狀態(tài)?;貪L數(shù)據(jù)庫記錄了數(shù)據(jù)庫事務(wù)變化歷史,它實現(xiàn)的是事務(wù)時間軸。任何 一個更新語句的執(zhí)行將產(chǎn)生一個新的數(shù)據(jù)庫狀態(tài)。新狀態(tài)不會覆蓋舊的 狀態(tài)。因此沒有數(shù)據(jù)會被物理刪除。通過將一個元組的事務(wù)結(jié)束時間設(shè)為執(zhí)行語句的當(dāng)時時間,從而實現(xiàn)元組在語義上的“刪除”。事務(wù)時間區(qū)間可以看成是該元組 在快照數(shù)據(jù)庫中存在的歷史。歷史數(shù)據(jù)庫記錄事實的有效時間的數(shù)據(jù)庫稱為歷史數(shù)據(jù)庫。歷史數(shù)據(jù)庫記錄了在有效時間軸上的一系列的數(shù)據(jù)庫狀態(tài),可能是過去、現(xiàn)在或?qū)怼K?/p>

37、 可以被看作是記錄了事實在真實世界的變化過程。歷史數(shù)據(jù)庫上的查詢語言必須具有有效時間演算能力。同時更新語句 必須指明修改語句涉及哪些數(shù)據(jù)庫狀態(tài)。雙時態(tài)數(shù)據(jù)庫雙時態(tài)數(shù)據(jù)庫由時態(tài)關(guān)系組成,其時態(tài)關(guān)系是一個四維結(jié)構(gòu)。其中兩 維是屬性和元組,另外兩維是事務(wù)時間和有效時間,一個時態(tài)關(guān)系可 以看成是一個歷史關(guān)系的序列。對時態(tài)關(guān)系的一個回滾操作則是選取 了一個特定的歷史關(guān)系,可對該歷史關(guān)系進行查詢。而每一個事務(wù)則 引起一個新的歷史關(guān)系的建立。雙時態(tài)數(shù)據(jù)庫綜合了回滾數(shù)據(jù)庫和 歷史數(shù)據(jù)庫的優(yōu)良特性,它即保存 了數(shù)據(jù)庫變遷的歷史,又保存了現(xiàn) 實世界的真實的數(shù)據(jù)屬性。四種時態(tài)數(shù)據(jù)庫總結(jié)嚴(yán)格意義上的雙時態(tài)數(shù)據(jù)庫是不存

38、在的,需要花費大量的存儲空間 為代價的?;貪L數(shù)據(jù)庫的主要意義在于數(shù)據(jù)庫系統(tǒng)的管理和維護,當(dāng)當(dāng)版本的 數(shù)據(jù)庫出現(xiàn)問題時,進行回滾。歷史數(shù)據(jù)庫記錄的是事實的有效時間,因此是具備應(yīng)用意義的數(shù)據(jù) 庫。目前常用的數(shù)據(jù)庫可約視為快照數(shù)據(jù)庫,它們不具備時太含義。知識圖譜時態(tài)信息存儲在知識圖譜存儲中應(yīng)用的為歷史數(shù)據(jù)庫,同時也借鑒回滾數(shù)據(jù)庫的 思想進行知識圖譜的版本信息管理。歷史數(shù)據(jù)庫:記錄事實的有效時間,用有限的數(shù)據(jù)冗余實現(xiàn)數(shù)據(jù)時 態(tài)信息的應(yīng)用?;貪L數(shù)據(jù)庫:在特定的時間點(可視為回滾點,但不用于真實的回 滾操作)對知識圖譜數(shù)據(jù)進行獨立的數(shù)據(jù)備份,形成知識圖譜的版 本記錄,實現(xiàn)對特定歷史狀態(tài)的查詢,滿足一些特定

39、應(yīng)用場景的使 用需要。在基礎(chǔ)知識圖譜的基 礎(chǔ)上,構(gòu)建針對時態(tài)數(shù)據(jù)處理的中間件; 對于特定類型的時序 型數(shù)據(jù),采用其它的 存儲機制進行存儲。實現(xiàn)歷史數(shù)據(jù)庫的時態(tài)信息 處理在中間件層實現(xiàn)針對時間的查 詢和演算,并針對數(shù)據(jù)更新時 針對數(shù)據(jù)庫狀態(tài)進行修改的實 現(xiàn)機制。實現(xiàn)知識圖譜的版本管理設(shè)定知識圖譜版本生成的策略, 定時生成知識圖譜的快照版本。知識圖譜時態(tài)信息存儲實現(xiàn)設(shè)計 原則12知識圖譜 + 時態(tài)信息更多知識圖譜系列文章請關(guān)注plantdata服務(wù)號和知識圖譜實戰(zhàn)群79常見的圖數(shù)據(jù)存儲應(yīng)用場景分析使用圖數(shù)據(jù)庫進行數(shù)據(jù)存儲復(fù)雜應(yīng)用場景存儲的最佳實踐下半場常見的圖數(shù)據(jù)存儲 Graph DBMS常見的圖

40、數(shù)據(jù)存儲 RDF stores圖數(shù)據(jù)存儲的選用指標(biāo)數(shù)據(jù)存儲支持數(shù)據(jù)操作和管理方式 支持的圖結(jié)構(gòu)實體和關(guān)系表示 查詢機制數(shù)據(jù)存儲支持fiflfl flflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB數(shù)據(jù)操作和管理方式fi$flAPINeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB支持的圖結(jié)構(gòu)fi$;A;Afi3$434Neo4jTitanVirtu

41、osoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB實體和關(guān)系表示SchemaInstancefi;Afi;A;A;AfififiNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB查詢機制fiAPIyflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDBneo4jN

42、eo4j is a highly scalable native graph database that leverages data relationships as first-class entities, helping enterprises build intelligent applications to meet todays evolving data challenges.特點:原生圖存儲和處理支持ACID事務(wù)處理自帶一套易于學(xué)習(xí)的查詢語言 Cypher不使用 schema社區(qū)最活躍neo4j 存儲結(jié)構(gòu)TitanTitan是一個分布式的圖數(shù)據(jù)庫,支持橫向擴展,可容納數(shù) 千億

43、個頂點和邊。 Titan支持事務(wù),并且可以支撐上千并 發(fā)用戶和 計算復(fù)雜圖形遍歷。Titan的特性彈性與線性擴展、分布式架構(gòu)、可容錯支持 ACID 和最終一致性.支持多種存儲后端,支持高可用和熱備支持位置、數(shù)字范圍和全文檢索原生支持 TinkerPop 軟件棧VirtuosoOpenLink Virtuoso是一個混合模型數(shù)據(jù)庫,實現(xiàn)了Web, 文件和數(shù)據(jù)庫服務(wù)器功能以及本機XML存儲和通用數(shù)據(jù)訪問 中間件,提供單一服務(wù)器解決方案。Virtuoso提供了擴展的對象關(guān)系模型,它提供了關(guān)系型數(shù)據(jù) 訪問,類型繼承,運行時數(shù)據(jù)類型,遲綁定,基于id的訪問 等數(shù)據(jù)訪問方式。提供CSV、RDF文件形式的數(shù)據(jù)導(dǎo)入,支持從外部的數(shù)據(jù)庫 進行庫、表、數(shù)據(jù)的關(guān)聯(lián)。詳細資料詳細的介紹與使用文檔請搜索并關(guān)注微信公眾號:PlantData 知識圖譜實戰(zhàn)93應(yīng)用場景分析與知識圖譜建模知識圖譜構(gòu)建的基本步驟應(yīng)用場景分析知識圖譜本體構(gòu)建(Schema構(gòu)建)概念上下位關(guān)系屬性關(guān)系實體實體的屬性實體之間的關(guān)系創(chuàng)投知識圖譜創(chuàng)投知識圖譜描述創(chuàng)業(yè)企業(yè)與投資機構(gòu)之間以投資為主線的 多種關(guān)系,包含:企業(yè)產(chǎn)品、創(chuàng)始人、股東、高管、行業(yè)、 細

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論