Greenplum VMware構(gòu)建數(shù)據(jù)平臺利器_第1頁
Greenplum VMware構(gòu)建數(shù)據(jù)平臺利器_第2頁
Greenplum VMware構(gòu)建數(shù)據(jù)平臺利器_第3頁
Greenplum VMware構(gòu)建數(shù)據(jù)平臺利器_第4頁
Greenplum VMware構(gòu)建數(shù)據(jù)平臺利器_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

GreenplumVMware構(gòu)建數(shù)據(jù)平臺利器技術(shù)創(chuàng)新,變革未來GreLon個版本發(fā)布Gre工15,公司獨(dú)立出目前,Greenplum社區(qū)發(fā)展活躍,全球有來自美國、中國、俄羅斯、日本、英國、德國、芬蘭、瑞士等國家的大批貢獻(xiàn)者,其中Greenplum中文社區(qū)尤為活躍,目前約有半數(shù)貢獻(xiàn)來自中國。VMware

Greenplum產(chǎn)品發(fā)展歷程司,心解決方案品線2003年enplum由Scott

Yara和Luke 2005年ergan成立 Greenplum數(shù)據(jù)庫第—2010年enplum數(shù)據(jù)庫被EMC收購,

同年借助EMC研發(fā)團(tuán)隊(duì)建立中國研發(fā)中心,2013年負(fù)責(zé)Greenplum產(chǎn)品研發(fā),社區(qū)推廣Pivotal成立獨(dú)立實(shí)體公司作。截止2020年,國內(nèi)研發(fā)人數(shù)達(dá)Greenplum數(shù)據(jù)庫從EMC0+來成為Pivotal大數(shù)據(jù)產(chǎn)品2015年enplum正式開源,成為世界上第 2020年款成熟的開源MPP數(shù)據(jù)庫 VMware

收購

Pivotal公Greenplum作為大數(shù)據(jù)核產(chǎn)品并入Tanzu

data產(chǎn)全球首個開源、多云部署的大數(shù)據(jù)平臺專為高級分析而打造Gartner全球Top

10

經(jīng)典和實(shí)時數(shù)據(jù)分析產(chǎn)品中唯一開源數(shù)據(jù)庫Gre— 2022年10月20日,VMware正式官宣2VMware

Greenplum產(chǎn)品版本及面向平臺演進(jìn)V7將于明年GAGreenplum從Pivotal時期在國內(nèi)推廣到廣為人知大致經(jīng)歷了三個大的版本:? Greenplum4.x~4.3Postgres

8.2? Greenplum5.x,Postgres

8.3? Greenplum6.x,Postgres

9.4+數(shù)據(jù)分析平臺建設(shè)三個階段:? 面向描述型分析平臺? 面向預(yù)測型分析平臺? 面向運(yùn)營型分析平臺3IT

ProfessionalsData

AnalystsBusiness

UsersData

Scientists空間/時序數(shù)據(jù)音視頻非結(jié)構(gòu)化數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)JSON,XML,

GraphVMwareTanzu

Greenplum綜合的分析型數(shù)據(jù)倉庫軟件數(shù)據(jù)源End-Users更多Scale

OutHadoopDataLakes/OtherDataPlatforms/PublicCloudDataLakes/External

Storages各種數(shù)據(jù)平臺結(jié)構(gòu)化

&

半結(jié)構(gòu)化數(shù)據(jù)ETL,

StreamingSQL,R,Python,

Java,C...BI/Analytic/ML

...數(shù)據(jù)科學(xué)數(shù)據(jù)捕獲GPORCA優(yōu)化器

|

并行執(zhí)行

|

數(shù)據(jù)分布

|

多態(tài)存儲

|

庫內(nèi)分析數(shù)據(jù)可視化Greenplum

集群架構(gòu)及高可用性X86服務(wù)器服務(wù)器硬盤Raid

5保護(hù)更換新盤后Raid

5

data

自動重建硬件組件冗余保護(hù)(Fan,

PSU…)網(wǎng)絡(luò)交換機(jī)部署2臺網(wǎng)絡(luò)交換機(jī)正常情況下,2臺交換機(jī)同時工作,負(fù)載均衡異常情況下,如1臺交換機(jī)故障,另外1臺將進(jìn)行冗余保護(hù)5Greenplum數(shù)據(jù)庫控制節(jié)點(diǎn)部署2臺控制節(jié)點(diǎn)服務(wù)器,以Active-Standby方式構(gòu)成Linux

HA集群Active服務(wù)器和

Standby服務(wù)器自動數(shù)據(jù)同步Active服務(wù)器失敗時切換到Standby服務(wù)器Greenplum

7中將增加Master

auto

failover功能Greenplum數(shù)據(jù)庫數(shù)據(jù)節(jié)點(diǎn)采用鏡像技術(shù)支持節(jié)點(diǎn)兩兩互備(部署簡單)和實(shí)例交叉互備(性能影響最小)兩種模式完備的SQL能力標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫,支持ANSI

SQL標(biāo)準(zhǔn)SQL-92,SQL-99,

SQL-2003,SQL-2008,SQL-2011全面集成PostgreSQL

9.x

功能支持JSON、支持XML支持遞歸查詢Raster

PostGIS(柵格)……支持范圍、列表等類型的分區(qū),而且相比傳統(tǒng)的數(shù)據(jù)分區(qū)增加以下特點(diǎn):支持多層次數(shù)據(jù)分區(qū)功能,范圍-范圍、范圍-列表、列表-列表、列表-范圍等各種組合在分區(qū)一級指定存儲模式,目前支持行式、列式、Hadoop、云存儲等多種形式在分區(qū)一級指定壓縮方式支持BTree、Bitmap、地理信息索引(GiST)等多種類型的索引集成PostgreSQL

功能內(nèi)置分區(qū)、索引特性2011遵循

ANSI

SQL

標(biāo)準(zhǔn)67并行處理的關(guān)鍵

--

靈活的數(shù)據(jù)分布數(shù)據(jù)均勻分布是MPP數(shù)據(jù)庫并行處理實(shí)現(xiàn)高性能的充分條件OrderOrder

#OrderDateCustomerID212018-05-06421462018-05-06747482018-05-0628732018-05-07629272018-05-07552952018-05-0717142018-05-08358362018-05-08838472018-05-0874612018-05-08942922018-05-0839982018-05-08 138Greenplum高速數(shù)據(jù)加載Greenplum數(shù)據(jù)庫提供了Hash算法、Random、復(fù)制的數(shù)據(jù)分布機(jī)制確保:數(shù)據(jù)均勻分布在每一塊磁盤上面發(fā)揮每一塊磁盤性能,從根本上解決I/O瓶頸功能強(qiáng)大的多態(tài)存儲少數(shù)字段查詢,內(nèi)置多種壓縮算法可以大幅節(jié)省I/O大數(shù)據(jù)量頻繁訪問,性能提升30%以上Column

1Column

2Column

3Row

1Row

2Row

3更新速度快,小批量數(shù)據(jù)更新大多數(shù)字段頻繁查詢隨機(jī)行訪問較多行式存儲列式存儲Jun列式存儲(壓縮)行式存儲TABLE

‘SALES’OctYear

-1Year

-2外部HDFS或AWS

S3存儲NovDecJulAugSep傳統(tǒng)行存數(shù)據(jù)庫8多態(tài)存儲特性:按照應(yīng)用類型設(shè)計(jì)存儲模式。最細(xì)粒度到分區(qū),實(shí)現(xiàn)同一張表多種存儲模式通過分區(qū)裁剪可以達(dá)到最優(yōu)化訪問性能的目的在線進(jìn)行的線性擴(kuò)展傳統(tǒng)倉庫架構(gòu)傳統(tǒng)的數(shù)據(jù)庫產(chǎn)品停機(jī)時間長,業(yè)務(wù)中斷數(shù)據(jù)重分布無法根據(jù)系統(tǒng)負(fù)載自主安排GreenplumGreenplum

數(shù)據(jù)倉庫增加節(jié)點(diǎn)可線性增加存儲、查詢和加載性能在線擴(kuò)容,對外數(shù)據(jù)服務(wù)不中斷數(shù)據(jù)自動在數(shù)據(jù)節(jié)點(diǎn)上重新分布數(shù)據(jù)重分布可根據(jù)系統(tǒng)負(fù)載自主安排XX

銀行在線線性擴(kuò)展測試結(jié)果結(jié)論:1.

本次測試展示了4節(jié)點(diǎn)->8節(jié)點(diǎn)->16節(jié)點(diǎn)->32節(jié)點(diǎn)的擴(kuò)展過程,擴(kuò)容后數(shù)據(jù)充分不是完全在線的2.

從16節(jié)點(diǎn)->32節(jié)點(diǎn)時,30TB壓縮數(shù)據(jù)擴(kuò)容+數(shù)據(jù)重分布3小時全部完成,GP擴(kuò)展比其它類型數(shù)據(jù)庫更快捷9Greenplum豐富的庫內(nèi)分析算法MADlib是2011年開始,UC伯克利大學(xué)產(chǎn)研結(jié)合項(xiàng)目Greenplum

集成的基于機(jī)器學(xué)習(xí)及人工智能分析的算法包集成大量的基于傳統(tǒng)數(shù)學(xué)分析統(tǒng)計(jì)的算法、圖計(jì)算的算法以及一些常見的機(jī)器學(xué)習(xí)的算法。機(jī)器學(xué)習(xí)方面:監(jiān)督學(xué)習(xí)算法,比如支持向量機(jī)回歸類的算法,比如邏輯回歸、線性回歸、聚類樹型模型,比如隨機(jī)森林、決策樹等Graph

處理方面,比如最短路徑,圖形直徑等算法此外還庫內(nèi)集成一些效用函數(shù)、線性求解,或傳統(tǒng)的統(tǒng)計(jì)分析類的匯總函數(shù)、統(tǒng)計(jì)分析函數(shù)、交叉驗(yàn)證選型函數(shù)等Generalized

Linear

Models(廣義線性模型)LinearRegressionLogisticRegressionMultinomialLogisticRegressionOrdinal

RegressionCox-ProportionalHazardsRegressionElasticNet

RegularizationRobustVariance(Huber-White),ClusteredVariance,MarginalEffectsOtherMachineLearningAlgorithms(其他ML算法)PrincipalComponent

Analysis(PCA)AssociationRules

(Apriori)TopicModeling(Parallel

LDA)DecisionTreesRandom

ForestConditionalRandomField(CRF)Clustering

(K-means)Cross

ValidationNa?ve

BayesSupportVectorMachines(SVM)Prediction

MetricsK-Nearest

NeighborsDescriptive

Statistics(描述統(tǒng)計(jì))Sketch-Based

EstimatorsCountMin

(Cormode-Muth)FM

(Flajolet-Martin)MFV(MostFrequentValues)CorrelationandCovarianceSummaryTime

Series(時間序列)ARIMAGraph(圖計(jì)算)Allpairsshortest

pathBreadthfirst

traversalConnected

componentsMultiplegraph

measuresPageRankSinglesourceshortest

pathUtilityModules(實(shí)用模塊)ArrayandMatrix

OperationsSparse

VectorsRandom

SamplingProbability

FunctionsData

PreparationPMML

ExportConjugate

GradientStemmingSessionizationPivotPath

FunctionsEncodingCategorical

VariablesLinear

Systems(線性系統(tǒng))SparseandDense

SolversLinear

AlgebraMatrix

Factorization(矩陣分解)SingularValueDecomposition(SVD)Low

RankInferentialStatistics(推論統(tǒng)計(jì))Hypothesis

Tests10實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦能力PXF技術(shù)特性支持利用謂詞下推實(shí)現(xiàn)數(shù)據(jù)過濾支持Greenplum查詢優(yōu)化器利用PXF外部表的信息生成優(yōu)化的查詢計(jì)劃可擴(kuò)展的API框架讓用戶可以開發(fā)自己的數(shù)據(jù)連接器以訪問他們自己的數(shù)據(jù)源和數(shù)據(jù)格式PXF是Greenplum實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦的關(guān)鍵接口Greenplum集群用戶可以通過外部表功能,查詢外部表:通過RESTAPI將查詢信息發(fā)送到PXF服務(wù)器數(shù)據(jù)返回給Greenplum并呈現(xiàn)給用戶從異構(gòu)數(shù)據(jù)源向Greenplum加載或卸載數(shù)據(jù)從Greenplum中通過標(biāo)準(zhǔn)SQL查詢數(shù)據(jù)而不需要將它們在集群中物化支持多種數(shù)據(jù)格式,可以從

S3,HDFS,MySQL,Oracle,DB2,F(xiàn)LATFILE,HBASE、HDFS、HIVE等等11VMware

Greenplum

全方位數(shù)據(jù)平臺全面的業(yè)務(wù)交付能力及蓬勃的數(shù)據(jù)生態(tài)$可控的平臺構(gòu)建成本Greenplum

提供靈活的部署方式,給企業(yè)更多選擇余地,可以部署在所有主要的公有云、私有云平臺、本地和混合云中。數(shù)據(jù)聯(lián)邦,與異構(gòu)數(shù)據(jù)平臺無縫集成,使用

Parquet、AVRO

和ORC

等開放文件格式在

S3和HDFS中訪問外部數(shù)據(jù)蓬勃的開源開放生態(tài)基于

PostgreSQL內(nèi)核,社區(qū)蓬勃活躍繼承PostgreSQL優(yōu)良基因,提供可選的特定于用例的擴(kuò)展,如PostGIS預(yù)先集成,以確保一致的體驗(yàn)據(jù)科學(xué)探索和長時間運(yùn)行的報告查詢。?整合傳統(tǒng)數(shù)據(jù)平臺,如Teradata/IBM/Oracle/MS等全面的數(shù)據(jù)整合能力建設(shè)企業(yè)級數(shù)據(jù)平臺,提供橫向擴(kuò)展環(huán)境來融合分析和運(yùn)營工作負(fù)載減少數(shù)據(jù)孤島。

以更大的規(guī)模和并發(fā)性執(zhí)行點(diǎn)查詢、快速數(shù)據(jù)捕獲、數(shù)簡化的數(shù)據(jù)科學(xué)操作集成庫內(nèi)分析提供從實(shí)驗(yàn)到大規(guī)模部署的數(shù)據(jù)科學(xué)能力集成

MADlib

提供多節(jié)點(diǎn)、多

GPU

和深度學(xué)習(xí)功能。自動化模型版本控制,通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論