Tanzu Greenplum數(shù)據(jù)平臺產(chǎn)品介紹_第1頁
Tanzu Greenplum數(shù)據(jù)平臺產(chǎn)品介紹_第2頁
Tanzu Greenplum數(shù)據(jù)平臺產(chǎn)品介紹_第3頁
Tanzu Greenplum數(shù)據(jù)平臺產(chǎn)品介紹_第4頁
Tanzu Greenplum數(shù)據(jù)平臺產(chǎn)品介紹_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Tanzu Greenplum 數(shù)據(jù)平臺產(chǎn)品介紹Greenplum is the platform that can power your analytics needs now and, in the future.2The Greenplum Analytics Platform2003年Greenplum由Scott Yara和Luke Lonergan成立2005年Greenplum數(shù)據(jù)庫第一個版本發(fā)布2010年Greenplum數(shù)據(jù)庫被EMC收購, 同年 借助EMC研發(fā)團隊建立中國研發(fā)中心,負責Greenplum產(chǎn)品研發(fā),社區(qū)推 廣工作。截止2020年,國內(nèi)研發(fā)人數(shù) 達150+201

2、5年Greenplum正式開源,成為世界上第 一款成熟的開源MPP數(shù)據(jù)庫2013年Pivotal 成 立 獨 立 實 體 公 司 , Greenplum數(shù)據(jù)庫從EMC公司獨立出 來成為Pivotal公司大數(shù)據(jù)產(chǎn)品目前,Greenplum社區(qū)發(fā)展活躍,全球已有來自美國、中國、俄羅斯、日本、英國、德國、芬蘭、瑞士等國家的大批貢獻者,其中Greenplum中文社區(qū)尤為活躍,目前約有半數(shù)貢獻來自中國。全球首個開源、多云部署的大數(shù)據(jù)平臺專為高級分析而打造Gartner全球Top 10 經(jīng)典和實時數(shù)據(jù)分析產(chǎn)品中 唯一開源數(shù)據(jù)庫Tanzu Greenplum產(chǎn)品發(fā)展歷程5BI and ReportingBi

3、g DataFlexible Deployment靈活性使用方便可擴展性與云戰(zhàn)略保持一致開源軟件各種數(shù)據(jù)類型可擴展性投資可控基于SQL企業(yè)就緒高并發(fā)可擴展性Greenplum演進過程從傳統(tǒng)的數(shù)據(jù)倉庫到多云分析平臺隨著各行業(yè)大 數(shù)據(jù)及使用的 不 斷 發(fā) 展 , Greenplum的 功能得到了豐 富,可以滿足 客戶需求并提 供企業(yè)級開源 分析平臺客戶需求2015 - nowAppliancesCommodity HWCloud and Virtualisation2011 - 2015till 2010GreenplumGreenplum從Pivotal時期在國內(nèi)推廣到廣為人知大致經(jīng)歷了三個大的

4、版本: Greenplum4.x4.3Postgres8.2 Greenplum5.x,Postgres8.3 Greenplum6.x,Postgres9.4+ 數(shù)據(jù)分析平臺建設三個階段: 面向描述型分析平臺 面向預測型分析平臺 面向運營型分析平臺數(shù)據(jù)均勻分布是MPP數(shù)據(jù)庫并行 處理實現(xiàn)高性能的充分條件Greenplum數(shù)據(jù)庫提供了Hash算法、Random、復制的數(shù)據(jù)分布 機制確保:數(shù)據(jù)均勻分布在每一塊磁盤上面發(fā)揮每一塊磁盤性能,從根本上 解決I/O瓶頸實例1實例2實例3實例4實例5實例6少數(shù)字段查詢,大 幅節(jié)省I/O操作大數(shù)據(jù)量頻繁訪問,性能提升30%以上Column1Column2Co

5、lumn3Row 1Row 2Row 3更新速度快大多數(shù)字段頻繁查詢隨機行訪問較多行式存儲列式存儲TABLE SALESJun列式存儲行式存儲Year - 1Year - 2外部HDFS或AWS S3存儲NovDecJulAugSepOctGreenplum 多 態(tài)存儲特性按照應用類型設計存儲 模式。最細粒度到分區(qū),實現(xiàn)同一張表多種存 儲模式達到最優(yōu)化訪問性能傳統(tǒng)數(shù)據(jù)庫SQL標準的關系型數(shù)據(jù)庫,支持ANSI SQL標準SQL-92, SQL-99, SQL-2003,SQL-2008,SQL-2011全面集成PostgreSQL 9.x 功能支持JSON、支持XML支持遞歸查詢Raster P

6、ostGIS(柵格)支持范圍、列表等類型的分區(qū),而且相比傳統(tǒng)的數(shù)據(jù)分區(qū)增加以下特 點:支持多層次數(shù)據(jù)分區(qū)功能,范圍-范圍、范圍-列表、列表-列表、列表-范 圍等各種組合在分區(qū)一級指定存儲模式,目前支持行式、列式、Hadoop、云存儲等多種形式在分區(qū)一級指定壓縮方式支持BTree、Bitmap、地理信息索引(GiST)等多種類型的索引集成PostgreSQL 功能內(nèi)置分區(qū)、索引特性2011遵循 ANSI SQL 標準Greenplum 壓縮算法:Zlib1-9,壓縮比高,占用CPU資源較 多,適用于CPU計算能力較強的場景QuickLZ,壓縮比低,占用CPU資源較 少,適用于CPU計算能力相對較

7、弱的場 景Greenplum 6以后支持zstd壓縮算法,提供更快的壓縮解壓性能 壓縮比依賴于壓縮算法和數(shù)據(jù)內(nèi)容,針對移動信令、話單、點擊流數(shù)據(jù)壓縮比可以達到20倍以上 無論哪種存儲模式,均支持壓縮,一張 表的不同列支持不同的壓縮算法Scatter-Gather Streaming提供性能線性擴張支持大批量數(shù)據(jù)加載和持續(xù)化的數(shù)據(jù)加載支持GBK/UTF8/ISO8859等字符集間的自動轉(zhuǎn)換支持文本文件、JSON、XML、HDFS、數(shù)據(jù)庫等多種 格式數(shù)據(jù)加載,支持Zip等壓縮數(shù)據(jù)文件加載每個Rack(16節(jié)點),每小時16TB加載性能Greenplum Scatter-Gather Streami

8、ngXX 銀行數(shù)據(jù)加載測試結(jié)果GreenplumMADlib是2011年開始,UC伯克利大學產(chǎn)研結(jié)合項目Greenplum 集成的基于機器學習及 人工智能分析的算法包集成大量的基于傳統(tǒng)數(shù)學分析統(tǒng)計的 算法、圖計算的算法以及一些常見的 機器學習的算法。機器學習方面:監(jiān)督學習算法,比如支持向量機回歸類的算法,比如邏輯回歸、線性回 歸、聚類樹型模型,比如隨機森林、決策樹等Graph 處理方面,比如最短路徑, 圖形直徑等算法此外還庫內(nèi)集成一些效用函數(shù)、線 性求解,或傳統(tǒng)的統(tǒng)計分析類的匯 總函數(shù)、統(tǒng)計分析函數(shù)、交叉驗證 選型函數(shù)等Generalized Linear Models(廣義 線性模型)Lin

9、ear RegressionLogistic RegressionMultinomial Logistic RegressionOrdinal RegressionCox-Proportional HazardsRegressionElastic Net RegularizationRobust Variance (Huber-White), Clustered Variance, Marginal EffectsOther Machine Learning Algorithms(其他ML算法)Principal Component Analysis (PCA)Association Rule

10、s (Apriori)Topic Modeling (Parallel LDA)Decision TreesRandom ForestConditional Random Field (CRF)Clustering (K-means)Cross ValidationNave BayesSupport Vector Machines(SVM)Prediction MetricsK-Nearest NeighborsDescriptive Statistics(描述統(tǒng)計) Sketch-Based EstimatorsCountMin (Cormode-Muth)FM (Flajolet-Mart

11、in)MFV (Most Frequent Values) Correlation and CovarianceSummaryTime Series(時間序列)ARIMAGraph(圖計算)All pairs shortest pathBreadth first traversalConnected componentsMultiple graph measuresPageRankSingle source shortest pathUtility Modules(實用模塊)Array and Matrix OperationsSparse VectorsRandom SamplingProb

12、ability FunctionsData PreparationPMML ExportConjugate GradientStemmingSessionizationPivotPath FunctionsEncoding Categorical VariablesLinear Systems(線性系統(tǒng))Sparse and Dense SolversLinear AlgebraMatrix Factorization(矩陣分解)Singular Value Decomposition(SVD)Low RankInferential Statistics(推論統(tǒng)計)Hypothesis Tes

13、tsConnection 級控制同時有多少用戶可以接入在多個集群間實現(xiàn)負載均 衡Session 級定義Resource Group實現(xiàn)資源量化控制每個用戶綁定Resource Group,控制查詢并發(fā)及 查詢資源成本占比Query(SQL) 級在SQL語句執(zhí)行前,動態(tài) 設置所屬資源組,實現(xiàn)資 源的靈活調(diào)配用于優(yōu)待特定查詢,從而 縮短其運行時間Connection PoolingWorkload Manager(Rule)Resource Group輸出 結(jié)果SQL請求傳統(tǒng)倉庫架構(gòu)傳統(tǒng)的數(shù)據(jù)庫產(chǎn)品停機時間長數(shù)據(jù)重分布無法根據(jù)系統(tǒng)負載自主安排GreenplumGreenplum 數(shù)據(jù)倉庫增加節(jié)點可

14、線性增加存儲、查詢和加載性能在線擴容,對外數(shù)據(jù)服務不中斷數(shù)據(jù)自動在數(shù)據(jù)節(jié)點上重新分布數(shù)據(jù)重分布可根據(jù)系統(tǒng)負載自主安排XX 銀行在線線性擴展測試結(jié)果結(jié)論:1.本次測試展示了4節(jié)點-8節(jié)點-16節(jié)點-32節(jié)點的擴展過程,擴容后數(shù)據(jù)充分不是完全在線的2.從16節(jié)點-32節(jié)點時,30TB壓縮數(shù) 據(jù)擴容+數(shù)據(jù)重分布3小時全部完成,GP擴展比其它類型數(shù)據(jù)庫更快捷PXF通過REST API將查詢信息發(fā)送到PXF服務器 數(shù)據(jù)返回給Greenplum并呈現(xiàn)給用戶從異構(gòu)數(shù)據(jù)源向Greenplum加載或卸載數(shù)據(jù)從Greenplum中通過標準SQL查詢數(shù)據(jù)而不需要將它們在集群中物化支持多種數(shù)據(jù)格式,可以從 S3,HD

15、FS,MySQL,Oracle,DB2, FLATFILE,HBASE、HDFS、HIVE等等PXF技術特性支持利用謂詞下推實現(xiàn)數(shù)據(jù)過濾支持Greenplum查詢優(yōu)化器利用PXF外部表的信息生成優(yōu)化的查詢 計劃可擴展的API框架讓用戶可以開發(fā)自己的數(shù)據(jù)連接器以訪問他們 自己的數(shù)據(jù)源和數(shù)據(jù)格式PXF是Greenplum實現(xiàn)數(shù)據(jù)聯(lián)邦的關鍵接口Greenplum集群用戶可以通過外部表功能,查詢外部表:GreenplumX86服務器服務器硬盤Raid 5保護更換新盤后Raid 5 data 自動重 建硬件組件冗余保護(Fan, PSU)網(wǎng)絡交換機部署2臺網(wǎng)絡交換機正常情況下,2臺交換機同時工作,負載均衡異常情況下,如1臺交換機故障,另外1臺將進行冗 余保護Greenplum數(shù)據(jù)庫控制節(jié)點部署2臺控制節(jié)點服務器,以Active-Standby方式 構(gòu)成Linux HA集群Active服務器和 Standby服務器自動數(shù)據(jù)同步Active服務器失敗時切換到Standby服務器Greenplum 6中將增加Master auto failover功能Greenplum數(shù)據(jù)庫數(shù)據(jù)節(jié)點采用鏡像技術支持節(jié)點兩兩互備(部署簡單)和實例交叉互 備(性能影響最?。﹥煞N模式17Tanzu Greenplum全面的業(yè)務交付能力Where to Start客戶可選擇的虛擬化平臺部署在Gr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論