海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt

上傳人：x*** IP屬地：四川上傳時(shí)間：2019-07-16 格式：PPT 頁數(shù)：32 大?。?.21MB 積分：15 舉報(bào) 版權(quán)申訴

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt_第2頁

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt_第3頁

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt_第4頁

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt_第5頁

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一種支持實(shí)時(shí)復(fù)雜查詢和分析的NoSQL系統(tǒng),題綱,系統(tǒng)需求與現(xiàn)有方案技術(shù)方案應(yīng)用案例,系統(tǒng)需求概述,數(shù)據(jù)及系統(tǒng)特點(diǎn) 結(jié)構(gòu)化：每條記錄包含10個(gè)字段左右，每條記錄的大小大約是幾百字節(jié) 數(shù)據(jù)量巨大：達(dá)到千億級(jí)以上，達(dá)到PB級(jí) 加載速度快：達(dá)到百萬條/s的規(guī)模系統(tǒng)規(guī)模：可以擴(kuò)展到上千個(gè)節(jié)點(diǎn),對(duì)數(shù)據(jù)的訪問需求提供SQL訪問接口支持大規(guī)模結(jié)果集：達(dá)到千萬條規(guī)模支持按多列的實(shí)時(shí)查詢（秒級(jí)）支持多列之間的邏輯比較關(guān)系，例如AND、OR、NOT等支持多列之間的的算術(shù)比較關(guān)系，例如=、等支持統(tǒng)計(jì)、聚合、分組、排序等操作（秒級(jí)） ORDER BY ASC (DESC)，GROUP BY, TOP, LIMIT SUM，COUNT，AVG，MAX，MIN 數(shù)據(jù)不更新，但需要對(duì)數(shù)據(jù)批量刪除,系統(tǒng)需求概述,現(xiàn)有方案(1)關(guān)系數(shù)據(jù)庫,單機(jī)數(shù)據(jù)庫結(jié)構(gòu),Oracle RAC,關(guān)系型數(shù)據(jù)庫都主要關(guān)注了CA，即一致性和可用性性能、可擴(kuò)展性上都比較差無法滿足可擴(kuò)展性和性能的要求,現(xiàn)有方案(2)關(guān)系數(shù)據(jù)庫集群,Parallel DBMS,數(shù)據(jù)分片(sharding)或者功能分區(qū) 將數(shù)據(jù)按照不同的策略進(jìn)行劃分：功能、字段值范圍、HASH等優(yōu)點(diǎn)：能夠有效的解決可擴(kuò)展性的問題缺點(diǎn)：shard的擴(kuò)容比較復(fù)雜；聯(lián)合多個(gè)shard的表數(shù)據(jù)查詢復(fù)雜。,NoSQL（非關(guān)系型） NoSQL No SQL，而是No Relationship，Not Only SQL 系統(tǒng)特點(diǎn) 可以處理超大規(guī)模的數(shù)據(jù)，可支持到千億規(guī)模 Sharing-Noting架構(gòu)，可擴(kuò)展性強(qiáng) 數(shù)據(jù)加載速度快，并可隨節(jié)點(diǎn)個(gè)數(shù)線性增長,現(xiàn)有方案(3)-NoSQL方案,根據(jù)特定應(yīng)用場(chǎng)景的需要設(shè)計(jì)開發(fā)了很多NoSQL系統(tǒng) 分布式KV型：例如：Dynamo，PNUTS、Flare CF型：例如：Bigtable，Cassandra和Hbase。文檔型：例如：MongoDB, coutchDB,現(xiàn)有方案(3)-NoSQL方案,現(xiàn)有方案(3)-NoSQL方案,現(xiàn)有No-SQL數(shù)據(jù)管理系統(tǒng)檢索能力差 K/V型：僅支持基于Key的查詢，無法做多關(guān)鍵字查詢以及根據(jù)Value的復(fù)雜查詢 Column-Based型：擴(kuò)展了KV數(shù)據(jù)模型的表述能力，但是僅支持關(guān)鍵字查詢，時(shí)間區(qū)間查詢，不支持針對(duì)屬性的復(fù)雜查詢以及統(tǒng)計(jì)、分析等操作,KV型NoSQL數(shù)據(jù)庫一般采用CHash策略基于CHash實(shí)現(xiàn)組員管理、數(shù)據(jù)分布、副本容錯(cuò)等容易實(shí)現(xiàn)精確查詢，但是無法支持區(qū)間查詢,現(xiàn)有方案(3)-No-SQL.KV,現(xiàn)有方案(3)-No-SQL.CF,數(shù)據(jù)采用列存，以Region為單位節(jié)點(diǎn)間分布存儲(chǔ) 基于Region建立三層索引，Root節(jié)點(diǎn)保存在Master上,現(xiàn)有方案(4)Hadoop+MR+HIVE,Hbase、Pig、Hive：提供結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、查詢、分析技術(shù),MapReduce：提供可靠的分布計(jì)算方法,HDFS：提供統(tǒng)一視圖的分布式存儲(chǔ)環(huán)境,面向非實(shí)時(shí)的分析型應(yīng)用速度慢，無法滿足實(shí)時(shí)性的要求,現(xiàn)有方案分析,PDBMS、No-SQL數(shù)據(jù)庫、Hadoop局限性分析！,現(xiàn)有方案分析,檢索模式,有序表,數(shù)據(jù)規(guī)模,低,高,簡單,復(fù)雜,關(guān)系數(shù)據(jù)庫,KV數(shù)據(jù)庫,目標(biāo)領(lǐng)域,No-SQL,改善傳統(tǒng)數(shù)據(jù)庫的可擴(kuò)展性差，并發(fā)性差的問題解決NoSQL數(shù)據(jù)的檢索能力差的問題，增加多列查詢、統(tǒng)計(jì)排序等功能,系統(tǒng)設(shè)計(jì)目標(biāo),系統(tǒng)規(guī)模：萬億條最終一致性支持更豐富的SQL查詢,題綱,系統(tǒng)需求與現(xiàn)有方案技術(shù)方案應(yīng)用案例,系統(tǒng)物理架構(gòu),負(fù)責(zé)對(duì)集群中各節(jié)點(diǎn)進(jìn)行管理和協(xié)調(diào)功能,負(fù)責(zé)對(duì)全局信息、節(jié)點(diǎn)狀態(tài)信息的管理,負(fù)責(zé)數(shù)據(jù)索引建立、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索分析等計(jì)算功能以及數(shù)據(jù)I/O功能。,索引結(jié)構(gòu),分布式Hash表隨機(jī)讀，不支持范圍查詢實(shí)例：Tair，Memcache，Dynamo，Cassandra 分布式B+ Tree 隨機(jī)讀和順序掃描，支持范圍查詢；順序劃分不均勻，需要葉子節(jié)點(diǎn)分裂合并實(shí)例：Bigtable & HBase，Google Megastore,索引結(jié)構(gòu),系統(tǒng)采用全局索引+局部索引機(jī)制全局索引：分布式B+樹結(jié)構(gòu)，支持對(duì)目標(biāo)數(shù)據(jù)的快速定位局部索引：保存在每個(gè)node內(nèi)部，支持復(fù)雜的查詢和統(tǒng)計(jì),全局的分布式 B+樹,Datanode,shard,shard,Datanode,Datanode,局部索引,存儲(chǔ)及I/O方式,列存儲(chǔ) 每個(gè)Shard由一個(gè)或者多個(gè)Store File組成，每個(gè)store File保存一個(gè)列 I/O并行將數(shù)據(jù)分配到Data Node的多塊磁盤上；數(shù)據(jù)I/O時(shí)并行從多塊磁盤訪問；實(shí)現(xiàn)多塊磁盤IOPS和帶寬的聚合。,分布式查詢流程,查詢條件,Query Plan,shardtoNodeList,Bloom Filter,結(jié)果集,Master集群,Datanode集群,分級(jí)、并行檢索機(jī)制,二級(jí)并發(fā)與匯總,一級(jí)并發(fā)與匯總,分布式查詢流程,Datanode獨(dú)立接收查詢規(guī)劃樹根據(jù)語法樹葉節(jié)點(diǎn)的屬性值檢索局部索引根據(jù)語法樹內(nèi)節(jié)點(diǎn)合并、過濾規(guī)則，生成局部結(jié)果集,SELECT * FROM TABLE WHERE (DOMAIN=AND NOT VALUE =)OR(DOMAIN = www.google.ak TO l)AND NOT DOMAIN=*;,分布式查詢規(guī)劃查詢規(guī)劃,投影與選擇：，shard :select DOMAIN,VALUE :where DOMAIN=and TYPE=A 在Datanode上，針對(duì)每個(gè)shard并發(fā)處執(zhí)行分組與排序：Order By，Group BYdatanode+client 在Datanode上，第二級(jí)匯總處執(zhí)行在Client一級(jí)級(jí)處匯總多Datanode結(jié)果，做最后的排序、分組聚合函數(shù)client 在Client第一級(jí)匯總處完成，匯總每個(gè)Datanode返回的結(jié)果集后，進(jìn)行分組與排序，執(zhí)行具體的聚合函數(shù)，再運(yùn)行排序與topk處理,系統(tǒng)擴(kuò)展性分析,存儲(chǔ)規(guī)模分析系統(tǒng)采用share-nothing結(jié)構(gòu)，增加存儲(chǔ)節(jié)點(diǎn)，可以增加集群的計(jì)算能力并線性擴(kuò)展存儲(chǔ)空間讀寫完全并行化,讀,寫,讀,寫,系統(tǒng)擴(kuò)展性分析,加載能力分析在所有Datanode上加載數(shù)據(jù)，系統(tǒng)加載效率可以線性提升檢索效率分析在二級(jí)并發(fā)處會(huì)線性提高檢索效率數(shù)據(jù)規(guī)模一定，在僅有選擇，投影檢索條件時(shí)，檢索效率會(huì)隨著存儲(chǔ)節(jié)點(diǎn)的增加而線性增加,系統(tǒng)可靠性分析,元數(shù)據(jù)管理集群化，防止單點(diǎn)失效問題元數(shù)據(jù)信息存儲(chǔ)在zookeeper集群和DataNode集群上，具備數(shù)據(jù)容錯(cuò)功能，在線數(shù)據(jù)恢復(fù)，提供集群高可用性服務(wù) Master點(diǎn)不存儲(chǔ)元數(shù)據(jù)信息，可實(shí)現(xiàn)快速失效切換引入commit-log，提供記錄級(jí)別的原子操作防止內(nèi)存數(shù)據(jù)的掉電丟失以記錄為單位，提供前滾或回滾操作，保證記錄寫操作的原子性引入副本容錯(cuò)機(jī)制支持多副本采用差量壓縮技術(shù)，提高存儲(chǔ)效率無單點(diǎn)失效問題,系統(tǒng)功能概述查詢方法,對(duì)外提供在線檢索和離線檢索兩類查詢方法在線檢索通過SQL-LIKE語言描述檢索規(guī)則，利用SHELL或API接口返回結(jié)果可實(shí)時(shí)查詢內(nèi)存數(shù)據(jù)或歷史數(shù)據(jù) 離線檢索用戶定義查詢?nèi)蝿?wù)，定時(shí)啟動(dòng)任務(wù)，結(jié)果導(dǎo)入離線數(shù)據(jù)分析庫在離線數(shù)據(jù)分析庫中查詢獲得相對(duì)復(fù)雜、耗時(shí)的數(shù)據(jù)查詢,系統(tǒng)功能概述功能匯總,（1）支持SQL語言的核心功能支持多列查詢、分組、排序、聚合等查詢功能提供必要的函數(shù)和數(shù)據(jù)類型定義提供SHELL交互界面WebService接口,（6）支持并發(fā)加載功能采用帶外傳輸機(jī)制寫入數(shù)據(jù)到Datanode Datanode并發(fā)加載方式,（2）支持分布式并發(fā)查詢功能支持二級(jí)并發(fā)機(jī)制：節(jié)點(diǎn)之間和shard之間采用分布式查詢規(guī)劃,（3）支持在線查詢與定時(shí)復(fù)雜任務(wù)查詢,（5）支持副本容錯(cuò)功能，無單點(diǎn)失效影響,（4）全局索引+局部索引的分布索引式機(jī)制全局索引采用分布式B+Tree 局部建立了面向多個(gè)屬性的索引數(shù)據(jù)以shard為單位進(jìn)行列存儲(chǔ)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt

文檔簡介

溫馨提示

最新文檔

評(píng)論

海量處理與數(shù)據(jù)分析NoSQL數(shù)據(jù)庫.ppt

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔