版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
GreenplumVMware構(gòu)建數(shù)據(jù)平臺利器技術(shù)創(chuàng)新,變革未來GreLon個版本發(fā)布Gre工15,公司獨(dú)立出目前,Greenplum社區(qū)發(fā)展活躍,全球有來自美國、中國、俄羅斯、日本、英國、德國、芬蘭、瑞士等國家的大批貢獻(xiàn)者,其中Greenplum中文社區(qū)尤為活躍,目前約有半數(shù)貢獻(xiàn)來自中國。VMware
Greenplum產(chǎn)品發(fā)展歷程司,心解決方案品線2003年enplum由Scott
Yara和Luke 2005年ergan成立 Greenplum數(shù)據(jù)庫第—2010年enplum數(shù)據(jù)庫被EMC收購,
同年借助EMC研發(fā)團(tuán)隊(duì)建立中國研發(fā)中心,2013年負(fù)責(zé)Greenplum產(chǎn)品研發(fā),社區(qū)推廣Pivotal成立獨(dú)立實(shí)體公司作。截止2020年,國內(nèi)研發(fā)人數(shù)達(dá)Greenplum數(shù)據(jù)庫從EMC0+來成為Pivotal大數(shù)據(jù)產(chǎn)品2015年enplum正式開源,成為世界上第 2020年款成熟的開源MPP數(shù)據(jù)庫 VMware
收購
Pivotal公Greenplum作為大數(shù)據(jù)核產(chǎn)品并入Tanzu
data產(chǎn)全球首個開源、多云部署的大數(shù)據(jù)平臺專為高級分析而打造Gartner全球Top
10
經(jīng)典和實(shí)時數(shù)據(jù)分析產(chǎn)品中唯一開源數(shù)據(jù)庫Gre— 2022年10月20日,VMware正式官宣2VMware
Greenplum產(chǎn)品版本及面向平臺演進(jìn)V7將于明年GAGreenplum從Pivotal時期在國內(nèi)推廣到廣為人知大致經(jīng)歷了三個大的版本:? Greenplum4.x~4.3Postgres
8.2? Greenplum5.x,Postgres
8.3? Greenplum6.x,Postgres
9.4+數(shù)據(jù)分析平臺建設(shè)三個階段:? 面向描述型分析平臺? 面向預(yù)測型分析平臺? 面向運(yùn)營型分析平臺3IT
ProfessionalsData
AnalystsBusiness
UsersData
Scientists空間/時序數(shù)據(jù)音視頻非結(jié)構(gòu)化數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)JSON,XML,
GraphVMwareTanzu
Greenplum綜合的分析型數(shù)據(jù)倉庫軟件數(shù)據(jù)源End-Users更多Scale
OutHadoopDataLakes/OtherDataPlatforms/PublicCloudDataLakes/External
Storages各種數(shù)據(jù)平臺結(jié)構(gòu)化
&
半結(jié)構(gòu)化數(shù)據(jù)ETL,
StreamingSQL,R,Python,
Java,C...BI/Analytic/ML
...數(shù)據(jù)科學(xué)數(shù)據(jù)捕獲GPORCA優(yōu)化器
|
并行執(zhí)行
|
數(shù)據(jù)分布
|
多態(tài)存儲
|
庫內(nèi)分析數(shù)據(jù)可視化Greenplum
集群架構(gòu)及高可用性X86服務(wù)器服務(wù)器硬盤Raid
5保護(hù)更換新盤后Raid
5
data
自動重建硬件組件冗余保護(hù)(Fan,
PSU…)網(wǎng)絡(luò)交換機(jī)部署2臺網(wǎng)絡(luò)交換機(jī)正常情況下,2臺交換機(jī)同時工作,負(fù)載均衡異常情況下,如1臺交換機(jī)故障,另外1臺將進(jìn)行冗余保護(hù)5Greenplum數(shù)據(jù)庫控制節(jié)點(diǎn)部署2臺控制節(jié)點(diǎn)服務(wù)器,以Active-Standby方式構(gòu)成Linux
HA集群Active服務(wù)器和
Standby服務(wù)器自動數(shù)據(jù)同步Active服務(wù)器失敗時切換到Standby服務(wù)器Greenplum
7中將增加Master
auto
failover功能Greenplum數(shù)據(jù)庫數(shù)據(jù)節(jié)點(diǎn)采用鏡像技術(shù)支持節(jié)點(diǎn)兩兩互備(部署簡單)和實(shí)例交叉互備(性能影響最小)兩種模式完備的SQL能力標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫,支持ANSI
SQL標(biāo)準(zhǔn)SQL-92,SQL-99,
SQL-2003,SQL-2008,SQL-2011全面集成PostgreSQL
9.x
功能支持JSON、支持XML支持遞歸查詢Raster
PostGIS(柵格)……支持范圍、列表等類型的分區(qū),而且相比傳統(tǒng)的數(shù)據(jù)分區(qū)增加以下特點(diǎn):支持多層次數(shù)據(jù)分區(qū)功能,范圍-范圍、范圍-列表、列表-列表、列表-范圍等各種組合在分區(qū)一級指定存儲模式,目前支持行式、列式、Hadoop、云存儲等多種形式在分區(qū)一級指定壓縮方式支持BTree、Bitmap、地理信息索引(GiST)等多種類型的索引集成PostgreSQL
功能內(nèi)置分區(qū)、索引特性2011遵循
ANSI
SQL
標(biāo)準(zhǔn)67并行處理的關(guān)鍵
--
靈活的數(shù)據(jù)分布數(shù)據(jù)均勻分布是MPP數(shù)據(jù)庫并行處理實(shí)現(xiàn)高性能的充分條件OrderOrder
#OrderDateCustomerID212018-05-06421462018-05-06747482018-05-0628732018-05-07629272018-05-07552952018-05-0717142018-05-08358362018-05-08838472018-05-0874612018-05-08942922018-05-0839982018-05-08 138Greenplum高速數(shù)據(jù)加載Greenplum數(shù)據(jù)庫提供了Hash算法、Random、復(fù)制的數(shù)據(jù)分布機(jī)制確保:數(shù)據(jù)均勻分布在每一塊磁盤上面發(fā)揮每一塊磁盤性能,從根本上解決I/O瓶頸功能強(qiáng)大的多態(tài)存儲少數(shù)字段查詢,內(nèi)置多種壓縮算法可以大幅節(jié)省I/O大數(shù)據(jù)量頻繁訪問,性能提升30%以上Column
1Column
2Column
3Row
1Row
2Row
3更新速度快,小批量數(shù)據(jù)更新大多數(shù)字段頻繁查詢隨機(jī)行訪問較多行式存儲列式存儲Jun列式存儲(壓縮)行式存儲TABLE
‘SALES’OctYear
-1Year
-2外部HDFS或AWS
S3存儲NovDecJulAugSep傳統(tǒng)行存數(shù)據(jù)庫8多態(tài)存儲特性:按照應(yīng)用類型設(shè)計(jì)存儲模式。最細(xì)粒度到分區(qū),實(shí)現(xiàn)同一張表多種存儲模式通過分區(qū)裁剪可以達(dá)到最優(yōu)化訪問性能的目的在線進(jìn)行的線性擴(kuò)展傳統(tǒng)倉庫架構(gòu)傳統(tǒng)的數(shù)據(jù)庫產(chǎn)品停機(jī)時間長,業(yè)務(wù)中斷數(shù)據(jù)重分布無法根據(jù)系統(tǒng)負(fù)載自主安排GreenplumGreenplum
數(shù)據(jù)倉庫增加節(jié)點(diǎn)可線性增加存儲、查詢和加載性能在線擴(kuò)容,對外數(shù)據(jù)服務(wù)不中斷數(shù)據(jù)自動在數(shù)據(jù)節(jié)點(diǎn)上重新分布數(shù)據(jù)重分布可根據(jù)系統(tǒng)負(fù)載自主安排XX
銀行在線線性擴(kuò)展測試結(jié)果結(jié)論:1.
本次測試展示了4節(jié)點(diǎn)->8節(jié)點(diǎn)->16節(jié)點(diǎn)->32節(jié)點(diǎn)的擴(kuò)展過程,擴(kuò)容后數(shù)據(jù)充分不是完全在線的2.
從16節(jié)點(diǎn)->32節(jié)點(diǎn)時,30TB壓縮數(shù)據(jù)擴(kuò)容+數(shù)據(jù)重分布3小時全部完成,GP擴(kuò)展比其它類型數(shù)據(jù)庫更快捷9Greenplum豐富的庫內(nèi)分析算法MADlib是2011年開始,UC伯克利大學(xué)產(chǎn)研結(jié)合項(xiàng)目Greenplum
集成的基于機(jī)器學(xué)習(xí)及人工智能分析的算法包集成大量的基于傳統(tǒng)數(shù)學(xué)分析統(tǒng)計(jì)的算法、圖計(jì)算的算法以及一些常見的機(jī)器學(xué)習(xí)的算法。機(jī)器學(xué)習(xí)方面:監(jiān)督學(xué)習(xí)算法,比如支持向量機(jī)回歸類的算法,比如邏輯回歸、線性回歸、聚類樹型模型,比如隨機(jī)森林、決策樹等Graph
處理方面,比如最短路徑,圖形直徑等算法此外還庫內(nèi)集成一些效用函數(shù)、線性求解,或傳統(tǒng)的統(tǒng)計(jì)分析類的匯總函數(shù)、統(tǒng)計(jì)分析函數(shù)、交叉驗(yàn)證選型函數(shù)等Generalized
Linear
Models(廣義線性模型)LinearRegressionLogisticRegressionMultinomialLogisticRegressionOrdinal
RegressionCox-ProportionalHazardsRegressionElasticNet
RegularizationRobustVariance(Huber-White),ClusteredVariance,MarginalEffectsOtherMachineLearningAlgorithms(其他ML算法)PrincipalComponent
Analysis(PCA)AssociationRules
(Apriori)TopicModeling(Parallel
LDA)DecisionTreesRandom
ForestConditionalRandomField(CRF)Clustering
(K-means)Cross
ValidationNa?ve
BayesSupportVectorMachines(SVM)Prediction
MetricsK-Nearest
NeighborsDescriptive
Statistics(描述統(tǒng)計(jì))Sketch-Based
EstimatorsCountMin
(Cormode-Muth)FM
(Flajolet-Martin)MFV(MostFrequentValues)CorrelationandCovarianceSummaryTime
Series(時間序列)ARIMAGraph(圖計(jì)算)Allpairsshortest
pathBreadthfirst
traversalConnected
componentsMultiplegraph
measuresPageRankSinglesourceshortest
pathUtilityModules(實(shí)用模塊)ArrayandMatrix
OperationsSparse
VectorsRandom
SamplingProbability
FunctionsData
PreparationPMML
ExportConjugate
GradientStemmingSessionizationPivotPath
FunctionsEncodingCategorical
VariablesLinear
Systems(線性系統(tǒng))SparseandDense
SolversLinear
AlgebraMatrix
Factorization(矩陣分解)SingularValueDecomposition(SVD)Low
RankInferentialStatistics(推論統(tǒng)計(jì))Hypothesis
Tests10實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦能力PXF技術(shù)特性支持利用謂詞下推實(shí)現(xiàn)數(shù)據(jù)過濾支持Greenplum查詢優(yōu)化器利用PXF外部表的信息生成優(yōu)化的查詢計(jì)劃可擴(kuò)展的API框架讓用戶可以開發(fā)自己的數(shù)據(jù)連接器以訪問他們自己的數(shù)據(jù)源和數(shù)據(jù)格式PXF是Greenplum實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦的關(guān)鍵接口Greenplum集群用戶可以通過外部表功能,查詢外部表:通過RESTAPI將查詢信息發(fā)送到PXF服務(wù)器數(shù)據(jù)返回給Greenplum并呈現(xiàn)給用戶從異構(gòu)數(shù)據(jù)源向Greenplum加載或卸載數(shù)據(jù)從Greenplum中通過標(biāo)準(zhǔn)SQL查詢數(shù)據(jù)而不需要將它們在集群中物化支持多種數(shù)據(jù)格式,可以從
S3,HDFS,MySQL,Oracle,DB2,F(xiàn)LATFILE,HBASE、HDFS、HIVE等等11VMware
Greenplum
全方位數(shù)據(jù)平臺全面的業(yè)務(wù)交付能力及蓬勃的數(shù)據(jù)生態(tài)$可控的平臺構(gòu)建成本Greenplum
提供靈活的部署方式,給企業(yè)更多選擇余地,可以部署在所有主要的公有云、私有云平臺、本地和混合云中。數(shù)據(jù)聯(lián)邦,與異構(gòu)數(shù)據(jù)平臺無縫集成,使用
Parquet、AVRO
和ORC
等開放文件格式在
S3和HDFS中訪問外部數(shù)據(jù)蓬勃的開源開放生態(tài)基于
PostgreSQL內(nèi)核,社區(qū)蓬勃活躍繼承PostgreSQL優(yōu)良基因,提供可選的特定于用例的擴(kuò)展,如PostGIS預(yù)先集成,以確保一致的體驗(yàn)據(jù)科學(xué)探索和長時間運(yùn)行的報告查詢。?整合傳統(tǒng)數(shù)據(jù)平臺,如Teradata/IBM/Oracle/MS等全面的數(shù)據(jù)整合能力建設(shè)企業(yè)級數(shù)據(jù)平臺,提供橫向擴(kuò)展環(huán)境來融合分析和運(yùn)營工作負(fù)載減少數(shù)據(jù)孤島。
以更大的規(guī)模和并發(fā)性執(zhí)行點(diǎn)查詢、快速數(shù)據(jù)捕獲、數(shù)簡化的數(shù)據(jù)科學(xué)操作集成庫內(nèi)分析提供從實(shí)驗(yàn)到大規(guī)模部署的數(shù)據(jù)科學(xué)能力集成
MADlib
提供多節(jié)點(diǎn)、多
GPU
和深度學(xué)習(xí)功能。自動化模型版本控制,通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024建筑臨時工勞動合同范本
- 2024航空貨運(yùn)合同樣本
- 急性一氧化碳中毒急救護(hù)理課件
- 《住宅工程質(zhì)量通病防治技術(shù)規(guī)程》
- 云南省紅河哈尼族彝族自治州(2024年-2025年小學(xué)五年級語文)統(tǒng)編版綜合練習(xí)(上學(xué)期)試卷及答案
- 《物流成本管理》電子教案
- 2024簡單農(nóng)產(chǎn)品購銷合同樣本
- 2024家政保姆合同范文
- 2024工礦產(chǎn)品購銷合同范本
- 浙江省金華市(2024年-2025年小學(xué)五年級語文)統(tǒng)編版階段練習(xí)((上下)學(xué)期)試卷及答案
- 句子語法結(jié)構(gòu)(單句)講解課件
- 幼兒衛(wèi)生保健 第七章幼兒常見意外事故及急救課件
- 主題班會《反對邪教-從我做起》
- 六年級上冊數(shù)學(xué)課件-7.4 長方體和正方體整理與復(fù)習(xí)丨蘇教版 (共14張PPT)
- 建筑節(jié)能工程竣工驗(yàn)收報告3篇(施工單位節(jié)能驗(yàn)收報告)
- 內(nèi)科學(xué)-骨髓增生異常綜合征(MDS)
- 模板:三一集團(tuán)企業(yè)介紹模板課件
- 老年助餐服務(wù)工作總結(jié)
- SYB(全)新版最新課件
- 醫(yī)學(xué)研究中安全防護(hù)與相關(guān)法規(guī)葉索夫整理
- 日產(chǎn)新軒逸電子手冊
評論
0/150
提交評論