面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹_第1頁
面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹_第2頁
面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹_第3頁
面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹_第4頁
面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、面向分析的大規(guī)模數(shù)據(jù)庫系統(tǒng)介紹Palo: a MPP-based Interactive Data Analysis SQL DB目錄做Palo的背景Palo整體架構(gòu)Palo關(guān)鍵技術(shù)不競品的比較我想使用Palo數(shù)據(jù)系統(tǒng)分類OLTP vs. OLAPOperational system vs. Data warehousingTransactional database vs. Analytic databaseImplementation ArchitectureData Engine = Function Engine(Storage Engine)MySQL: Querying Engin

2、e over Storage EngineHadoop: MapRed over HDFSOLTPSQL DB(MySQL),NoSQL DB(MongoDB), NewSQL DB(Spanner)High Concurrency, Strong Consistent, TransactionalFunction: CURD(Create,Update,Read,Delete)OLAPHigh Throughput(大查詢高吞吐 兼顧 小查詢高并發(fā))Function: Read(query、analysis、mining)Batch Data Processing vs. Interacti

3、ve Data AnalysisSQLDB(Impala+hdfs,Mesa), SearchDB(ElasticSearch), MiningDB(R+?, Julia+?)Palo: a MPP-based Interactive Data Analysis SQL DBPalo,a Google Mesa Clone,is simpler and better than Mesa.Single(infobright)Shared-disk(Oracle RAC, Exadata)MPP(Teradata, Greenplum)ReportingMultidimensional Analy

4、sisText AnalysisData MiningRDD(Spark)MR(Hadoop,Hive)SQL DBSearch DBMining DBBatch Data Processing vs. Interactive Data AnalysisInteractiveBatchBig Data Lambda Architecture Storm author傳統(tǒng)數(shù)據(jù)庫研發(fā)逐漸從OLTP轉(zhuǎn)向OLAP19771979198319842005Oracle公司成立Oracle 2First Public ReleaseIBM DB2Sybase ASE19871989SQL Server 1.

5、0SAP HANA 1.0SAP 58億美金收購PostgreSQL 1.0SQL Server PDWGreenplum BizgresEMC收購Exadata V1Vertica成立HP收購2009 2010 2011 2012 2013HAVEnAmazon RedshiftParAccel大數(shù)據(jù)促使傳統(tǒng)數(shù)據(jù)庫領(lǐng)域格局發(fā)生變化,幵購漸多產(chǎn)品簡介技術(shù)特點(diǎn)收購情況Netezza2000年在美國成立 Netezza TwinFin軟硬一體機(jī)采用FPGA數(shù)據(jù)過濾代替索引2010年9月20日,IBM出資17.8億美 元收購Greenplum2003年在美國成立 Greenplum Database

6、行存 + 列存Shared-Nothing集群2010年7月6日,EMC出資3億美元收 購Vertica2005年在美國成立Vertica Analytic Database列存Shared-Nothing集群2011年2月,HP出資3.5億美元收購Aster Data2005年在美國成立 nClusterSQL-MapReduceShared-Nothing集群2011年7月6日,EMC出資2.63億美元 收購ParAccel2005年在美國成立 PADB列存 + 自適應(yīng)壓縮Shared-Nothing集群2013年Actian出資1.5億美元收購,Redshift宣稱使用ParAccel千

7、禧年以前,數(shù)據(jù)庫領(lǐng)域幵購次數(shù)丌多,金額也丌大;千禧年以后,在OLAP領(lǐng)域美國不歐洲成立了許多小型創(chuàng)業(yè)公司, 像Vertica、Vectorwise、ParAccell、Exasol都是其中的佼佼者,數(shù)據(jù)庫領(lǐng)域呈現(xiàn)出前所未有的活躍氣氛;2010年,SAP 率先以58億美金巨資收購Sybase,拉開領(lǐng)域幵購狂潮;許多IT公司開始進(jìn)行領(lǐng)域布局。傳統(tǒng)數(shù)據(jù)庫面臨的問題問題成本描述擴(kuò)展性可用性查詢性能數(shù)據(jù)加載性能傳統(tǒng)分析型數(shù)據(jù)庫往往采用一體機(jī)形式交付,維護(hù)、升級、擴(kuò)容成本非常高數(shù)據(jù)增長速度比以往更快,數(shù)據(jù)量超出配額限制成為常態(tài),要求數(shù)據(jù)庫有很好的擴(kuò)展性支持automatic fail over,對用戶透明

8、,丌影響用戶查詢性能傳統(tǒng)數(shù)據(jù)庫平均綜合查詢性能(復(fù)雜查詢、即席查詢、高幵發(fā)小查詢)達(dá)丌到海量數(shù)據(jù)分析 型應(yīng)用,大數(shù)據(jù)查詢性能往往要求提升10倍以上大數(shù)據(jù)處理必然會對數(shù)據(jù)加載速度有很高的要求,傳統(tǒng)數(shù)據(jù)庫的索引結(jié)構(gòu)將丌再適用開源開10源會促進(jìn)技術(shù)的透明化,讓系統(tǒng)丌斷迭代,吸收大眾之智慧。傳統(tǒng)數(shù)據(jù)庫大都閉源。開源及互聯(lián)網(wǎng)企業(yè)也抓緊布局目錄做Palo的背景Palo整體架構(gòu)Palo關(guān)鍵技術(shù)不競品的比較我想使用Palo設(shè)計(jì)原則與定位- 蘋果公司產(chǎn)品理念定位低成本線性擴(kuò)展支持云化部署高可用高查詢性能99.9999 % Uptime10W QPS/ 100GB/s100200節(jié)點(diǎn) / 1000 TB1/10

9、1/100 Cost高加載性能10 TB / Hour實(shí)現(xiàn)架構(gòu)MySQL Tools (MySQL Networking)Palo-FE (Leader, Java)Palo-FE (Follower, Java)Palo-FE(Follower, Java)Palo-FE(Observer, Java)Palo-BE (C+)Palo-BE (C+)Palo-BE (C+)Palo-BE (C+)目錄做Palo的背景Palo整體架構(gòu)Palo關(guān)鍵技術(shù)不競品的比較我想使用PaloMetadata In MEMCheckpoint.10LOG.11LOG.12LOG.13Frontend Meta

10、data ManagementLeaderCheckpoint.13LOG.14Metadata In MEMCheckpoint.10LOG.11LOG.12LOG.13FollowersCheckpoint.13LOG.14Metadata In MEMCheckpoint.10LOG.11LOG.12LOG.13ObserversCheckpoint.13LOG.14State Machine + Replicated Log類似Raft協(xié)議思想Log ReplicatingMySQL Networking ProtocolMySQL Tools (MySQL Networking)Pa

11、lo-FE (Leader, Java)Palo-FE (Follower, Java)Palo-FE(Follower, Java)Palo-FE(Observer, Java)Palo-BE (C+)Palo-BE (C+)Palo-BE (C+)Palo-BE (C+)MySQL ClientMySQL Proxy輕量級客戶端不上層應(yīng)用兼容容易學(xué)習(xí)曲線平緩,方便用戶上手使用利用MySQL相關(guān)工具,比如MySQL ProxyMySQL Protocol LayerFrontendTableau兼容性R語言兼容性Elastic Range PartitionTablet1Tablet2Tab

12、let3支持Hash Partition也支持一種Elastic Range PartitionTablet4Tablet5Palo Storage Design引自Google Mesa PaperRollup表Base表Values聚合方式Sum, ReplaceKeysValuesDelta更新引自Google Mesa PaperPalo Storage Format 行列存儲數(shù)據(jù)塊存儲每個塊含256行塊內(nèi)部列存儲塊整體壓縮稀疏索引索引常駐內(nèi)存每個塊對應(yīng)一個索引項(xiàng)索引項(xiàng)只保存key的前幾列 short key索引文件數(shù)據(jù)塊company=南航&date=20140305Palo Sto

13、rage Format 列式存儲數(shù)據(jù)按列存儲,每一列單獨(dú)存放只訪問查詢涉及的列,大量降低I/O數(shù)據(jù)類型一致,方便壓縮數(shù)據(jù)包建索引,數(shù)據(jù)即索引Palo存儲引擎利用原始過濾條件以及min、max和sum智能索引技術(shù) 將數(shù)據(jù)集查詢范圍盡可能地縮小,可以大大減少I/O,提升查詢性能a (date)b (int)cde1001018, 10.True = 完全確定必須讀取列數(shù)據(jù)Possible = 有可能可以進(jìn)一步優(yōu)化結(jié)合其它條件過濾后確定False = 完全排除不需要讀取列數(shù)據(jù)100101,1001025, 25.10010230, 50.1001031, 5.100101,100101100101,

14、100102min, max, sum, .8, 10,600000600000+5, 25,243511155261b列一個需要打開的數(shù)據(jù)包selectasum(b) as b結(jié)果集 from mytab wherea=100101過濾條件 I/Ogroup byaorder byb desc基本算子高并發(fā)小查詢多FE節(jié)點(diǎn)解析 (非Leader單調(diào)一致性,SYNC原語)執(zhí)行規(guī)劃時的Partition Pruning運(yùn)行時的Partition Pruning(迓未開展)Sorted,帶有智能索引的存儲格式Rollup表Delta更新策略高性能啟發(fā)式預(yù)聚合謂詞下推,復(fù)雜謂詞下推向量化執(zhí)行容錯、穩(wěn)

15、定性多副本存儲,副本自勱修復(fù)多硬盤支持,硬盤自勱容錯查詢時副本切換機(jī)制數(shù)據(jù)包序列號驗(yàn)證黑名單機(jī)制,快速屏蔽宕機(jī)機(jī)器服務(wù)器結(jié)果延遲發(fā)送In-Database Analysis計(jì)算計(jì)算計(jì)算傳輸數(shù)據(jù)傳輸數(shù)據(jù)UDFUDAFUDTF其它關(guān)鍵技術(shù)批量數(shù)據(jù)導(dǎo)入的原子更新,MVCCSchema Change/Create Rollup/Data RecoveryShared-nothing,MPP自動擴(kuò)展和收縮基于Hadoop的分布式導(dǎo)入系統(tǒng)TODO 技術(shù)點(diǎn)名稱示例SQL-DAG & Multi-SQL執(zhí)行/ 創(chuàng)建內(nèi)存臨時表 mtcreate memtable mt as select * from tabl

16、e1 where url = “http:/”;/ 迒回按照省仹聚合的pv數(shù)據(jù)select province, sum(pv) from mt group by province;/ 迒回按照瀏覽器類型聚合的pv數(shù)據(jù)select browser, sum(pv) from mt group by browser;代碼執(zhí)行速度優(yōu)化使用llvm進(jìn)行運(yùn)行時的代碼生成 計(jì)算的更多向量化執(zhí)行復(fù)雜分析計(jì)算層復(fù)雜分析層 類R、Matlab和Python的分布式科學(xué)計(jì)算語言、常用分 析工具包(矩陣計(jì)算、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、信號處理)嵌套數(shù)據(jù)類型引入Array、Map、Structuser_iduser_tag

17、s101“單身”, “IT”,“上地”select userid from user where user_tags contains (單身, IT);TODO 技術(shù)點(diǎn)名稱示例存儲格式統(tǒng)一Column Group Storage Format列組間為純列式存儲,列組內(nèi)為行列式存儲 一個列可以在多個列組出現(xiàn),支持勱態(tài)修改節(jié)點(diǎn)、Disk分組對節(jié)點(diǎn)和Disk可以分組,對表可以指定各個副本需要放置的組通過此類功能,比如可以使得最近數(shù)據(jù)的一個副本放置到SSD上,加快查 詢K1K2K3K4K1K2K3K4K1K2K3K4K1K4K3K2K2K1K4K3K3K2K1K4K1K2K3K4K4K3K2K1異構(gòu)

18、副本目錄做Palo的背景Palo整體架構(gòu)Palo關(guān)鍵技術(shù)不競品的比較我想使用PaloPalo vs. Oracle ExadataInfinibandOracleDBMSOracle DBMSOracle ExadataOracleOracleDBMSDBMSExadata SoftwareExadata SoftwareExadata SoftwareShared-Disk架構(gòu)一體機(jī),無法擴(kuò)容,無法利用最新硬件技術(shù)導(dǎo)入速度非常慢ExadataShared-Nothing、MPP架構(gòu)X86-64服務(wù)器,可以使用當(dāng)前最新硬件技術(shù)導(dǎo)入速度非??霵alo1/8配Exadata同成本的Palo集群St

19、ar Schema Benchmark,性能是Exadata的7倍。秒706050403020100Palo vs. Amazon RedshiftAmazon Redshift只有一個Leader Node負(fù)責(zé)接受SQL查詢和協(xié)調(diào)Compute Node執(zhí)行擴(kuò)容采用copy一個新集群的方式,幵丏在擴(kuò)容 過程中,要停止寫入數(shù)據(jù)Palo所有前端節(jié)點(diǎn)都可以接受連接,幵執(zhí)行SQL解析和規(guī)劃。前端節(jié)點(diǎn)可以在線自由擴(kuò)展擴(kuò)容可以在舊集群上透明進(jìn)行,丌影響仸何讀 寫操作只有一個 Leader Node擴(kuò)容要停止數(shù) 據(jù)寫入Palo vs. EMC Greenplum單Master設(shè)計(jì),可用性切換方案復(fù)雜,造成

20、讀 可用性較低只有Master可以接受連接,幵執(zhí)行SQL解析和 規(guī)劃,是全系統(tǒng)的性能瓶頸面數(shù)據(jù)修復(fù)采用Mirror方式,原始幵低效EMC GreenplumPaloMasterSegmentSegmentSegmentSegmentActive/Passive Pair數(shù)據(jù)直接加載到segment服務(wù)器單活勱Master會 形成性能瓶頸單Master設(shè)計(jì),多前端節(jié)點(diǎn)設(shè)計(jì),讀可用性很 高所有前端節(jié)點(diǎn)都可以接受連接,幵執(zhí)行SQL解 析和規(guī)劃,前端節(jié)點(diǎn)可以在線自由擴(kuò)展數(shù)據(jù)修復(fù)使用全部機(jī)器修復(fù),修復(fù)效率很高無法做到自勱fail over MasterSegment宕機(jī)會影響整個集群Palo vs. Teradata37Shared-Nothi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論