Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹_第1頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹_第2頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹_第3頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹_第4頁
Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、Greenplum數(shù)據(jù)倉庫技術(shù)架構(gòu)介紹1OLAP 在互聯(lián)網(wǎng)公司的實踐與思考Greenplum狀態(tài)描述2三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四數(shù)據(jù)倉庫體系架構(gòu)3數(shù)據(jù)倉庫架構(gòu)要點數(shù)據(jù)生命周期業(yè)務(wù)數(shù)據(jù)特點OLAP場景舉例OLAP架構(gòu)示意數(shù)據(jù)流轉(zhuǎn)過程具體技術(shù)實現(xiàn)數(shù)據(jù)認(rèn)識業(yè)務(wù)認(rèn)識業(yè)務(wù)需求整體框架數(shù)據(jù)流轉(zhuǎn)實現(xiàn)方式數(shù)據(jù)倉庫體系架構(gòu)4數(shù)據(jù)生命周期與業(yè)務(wù)歸類時間維度:過去 - 現(xiàn)在 - 未來(數(shù)據(jù)的生命周期)“現(xiàn)在”的數(shù)據(jù) OLTP“過去”的數(shù)據(jù) OLAP“未來”的數(shù)據(jù) 趨勢分析數(shù)據(jù)倉庫體系架構(gòu)5業(yè)務(wù)數(shù)據(jù)特點現(xiàn)在的數(shù)據(jù) OLTP實時,在線系統(tǒng),客

2、戶使用事務(wù)小,頻率高,并發(fā)高過去的數(shù)據(jù) OLAP非實時(T+1,或小時級),離線系統(tǒng),分析決策事務(wù)大,頻率相對小,并發(fā)低未來的數(shù)據(jù) 趨勢分析非實時,離線+在線流系統(tǒng),趨勢分析算法分析,持續(xù)計算數(shù)據(jù)倉庫體系架構(gòu)6OLAP場景舉例業(yè)務(wù)相關(guān)場景用戶狀態(tài) (注冊數(shù),活躍數(shù),并發(fā)量,峰值)金幣狀態(tài) 道具/物品狀態(tài) 對賬狀態(tài)活動反饋架構(gòu)相關(guān)場景不同數(shù)據(jù)量,不同事務(wù)特點,不同查詢需求歷史數(shù)據(jù)歸檔與冷熱分離實時與延時需求的權(quán)衡數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)架構(gòu)示意圖7數(shù)據(jù)倉庫體系架構(gòu)8數(shù)據(jù)流轉(zhuǎn)過程1 業(yè)務(wù)數(shù)據(jù)的產(chǎn)生 OLTP2 業(yè)務(wù)數(shù)據(jù)的中轉(zhuǎn) ETL服務(wù)器3 數(shù)據(jù)的存儲和計算 OLAP集群4 結(jié)果數(shù)據(jù)的展現(xiàn) 數(shù)據(jù)集市5

3、 訪問接口的封裝 API接口服務(wù)器6 最終數(shù)據(jù)的顯示 前端界面7 結(jié)果數(shù)據(jù)的交互 OLTP,趨勢分析8 OLAP數(shù)據(jù)流轉(zhuǎn) dbsync平臺數(shù)據(jù)倉庫體系架構(gòu)9架構(gòu)的具體技術(shù)實現(xiàn)輕量級數(shù)據(jù)倉庫 Inforbright與MySQL數(shù)據(jù)庫結(jié)合,易使用,冷熱分離數(shù)據(jù)庫歸檔,只能load,不支持DML對特定OLAP類查詢有很好的支持作用通用性數(shù)據(jù)倉庫 Greenplum獨立的數(shù)據(jù)庫倉庫解決方案可以很好支持各種方式的數(shù)據(jù)加載和DML操作具備海量的數(shù)據(jù)存儲和計算性能Greenplum狀態(tài)描述10三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四greenp

4、lum體系架構(gòu)11體系結(jié)構(gòu)要點postgresql體系結(jié)構(gòu)pg邏輯和物理結(jié)構(gòu)Greenplum體系結(jié)構(gòu)GP架構(gòu)特點與功能單元結(jié)構(gòu)單元分解集群結(jié)構(gòu)集群特點greenplum體系架構(gòu)postgresql體系結(jié)構(gòu)12greenplum體系架構(gòu)13postgresql體系結(jié)構(gòu)pg結(jié)構(gòu)組成連接關(guān)系系統(tǒng)編譯執(zhí)行系統(tǒng)存儲執(zhí)行系統(tǒng)事務(wù)系統(tǒng)系統(tǒng)表pg邏輯和物理結(jié)構(gòu)instance實例 - user - tablesapcedatabase - schema - table,view,function - data row物理文件 - oid - 表空間 - 數(shù)據(jù)文件命名greenplum體系架構(gòu)greenplu

5、m的體系結(jié)構(gòu)14greenplum體系架構(gòu)greenplum的體系結(jié)構(gòu)15greenplum體系架構(gòu)16greenplum的體系結(jié)構(gòu)greenplum的架構(gòu)特點MPP ShareNothing海量并行處理+完全無共享cpu計算能力數(shù)據(jù)從Disk上的I/O吞吐性能master管理節(jié)點segment數(shù)據(jù)節(jié)點greenplum的核心功能無共享MPP多態(tài)存儲(gpfdist+外部表,每小時4TB+)高效數(shù)據(jù)加載分布分區(qū)數(shù)據(jù)壓縮外部訪問Greenplum狀態(tài)描述17三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum現(xiàn)狀說明18Gre

6、enplum集群現(xiàn)狀概述三大Greenplum集群體系公司IDC_01機房Greenplum體系公司IDC_02機房Greenplum體系公司IDC_03機房Greenplum體系Greenplum現(xiàn)狀說明19三大Greenplum集群定位分類公司IDC_01機房Greenplum體系公司第一套Greenplum集群,網(wǎng)絡(luò)環(huán)境為千兆網(wǎng)數(shù)據(jù)來源為OLTP庫,針對小數(shù)據(jù)量傳輸和計算,部分實時交互操作以對賬業(yè)務(wù)為主,統(tǒng)計計算為輔公司IDC_02機房Greenplum體系針對數(shù)據(jù)來源主要是kfk產(chǎn)生csv文件的業(yè)務(wù),不直接從數(shù)據(jù)庫傳數(shù)以重點業(yè)務(wù)線、活動數(shù)據(jù)、非OLTP業(yè)務(wù)數(shù)據(jù)的任務(wù)計算為主公司IDC_

7、03機房Greenplum體系數(shù)據(jù)來源來源為OTLP庫庫,針對大數(shù)據(jù)量傳輸和計算,采用T+1方 式以核心業(yè)務(wù)的數(shù)據(jù)計算、統(tǒng)計為主Greenplum現(xiàn)狀說明數(shù)據(jù)架構(gòu)示意圖20Greenplum現(xiàn)狀說明21三大Greenplum集群關(guān)系數(shù)據(jù)來源不同數(shù)據(jù)處理不同時效速度不同體系架構(gòu)相同年表劃分相同平臺整體定位定位不同,多集群配合形成邏輯大集群Greenplum現(xiàn)狀說明Greenplum多層業(yè)務(wù)規(guī)劃圖22Greenplum狀態(tài)描述23三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum運維體系24運維要點環(huán)境規(guī)劃與部署系統(tǒng)狀態(tài)監(jiān)控數(shù)

8、據(jù)庫備份數(shù)據(jù)傳輸與同步任務(wù)調(diào)度構(gòu)建系統(tǒng)監(jiān)控系統(tǒng)保障系統(tǒng)流轉(zhuǎn)系統(tǒng)計算系統(tǒng)Greenplum運維體系25環(huán)境創(chuàng)建與部署部署流程規(guī)劃部署方案準(zhǔn)備硬件資源修改系統(tǒng)參數(shù)安裝 Greenplum 軟件 / postgresql軟 件初始化實例修改實例參數(shù)文件 初 始化業(yè)務(wù)所需庫表環(huán)境、用戶環(huán)境 加載數(shù)據(jù)業(yè)務(wù)程序訪問Greenplum運維體系26環(huán)境創(chuàng)建與部署部署注意點資源要充足(ETL,管理節(jié)點,數(shù)據(jù)節(jié)點,數(shù)據(jù)集市)萬兆網(wǎng)絡(luò) (網(wǎng)絡(luò)環(huán)境對功能和性能的影響)節(jié)點規(guī)劃 (數(shù)據(jù)節(jié)點6-10個segment節(jié)點)參數(shù)調(diào)整 (操作系統(tǒng)參數(shù),greenplum集群參數(shù))Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控 - gp

9、cc -公司IDC_01機房27Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控 - gpcc -公司IDC_02 機房28Greenplum運維體系系統(tǒng)狀態(tài)監(jiān)控 - gpcc -公司IDC_03機房29Greenplum運維體系30數(shù)據(jù)庫備份配置與結(jié)構(gòu)備份多機房級聯(lián)備份Greenplum在本機進行第一次備份備份通過rsync傳輸?shù)酵瑱C房ETL服務(wù)器各機房ETL服務(wù)器在備份到備份服務(wù)器結(jié)果數(shù)據(jù)備份Greenplum集群與postgresql集市備份結(jié)果數(shù)據(jù)csv文件備份結(jié)果數(shù)據(jù)到備份postgresql實例Greenplum運維體系31數(shù)據(jù)庫數(shù)據(jù)傳輸與同步數(shù)據(jù)同步情況分類reader端與writer端全

10、量,id列增量,date列增量datax,csv,load,copy數(shù)據(jù)同步結(jié)果確認(rèn)與顯示數(shù)據(jù)同步方式gpfdist+外部表 : UMGW大表db_sync同步程序 : 底層庫 + 同步邏輯 + Django界 面臨時同步需求: datax , copyGreenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_sync32Greenplum運維體系數(shù)據(jù)庫數(shù)據(jù)傳輸與同步-db_sync33Greenplum運維體系34Greenplum任務(wù)調(diào)度greenplum內(nèi)部存儲過程調(diào)度大批量任務(wù)采用 kettle調(diào)度單個存儲過程,可以在shell中 select func_name() 的方式調(diào) 度外部任務(wù)

11、調(diào)度將整個過程封裝成shell腳本,或 Python腳本用crontab在操作系統(tǒng)調(diào)用腳本用 opencron在圖形界面調(diào)用腳本Greenplum運維體系Greenplum任務(wù)調(diào)度-opencron35Greenplum狀態(tài)描述36三Greenplum體系架構(gòu)二數(shù)據(jù)倉庫體系架構(gòu)一Greenplum開發(fā)規(guī)范五Greenplum運維體系四Greenplum開發(fā)規(guī)范37開發(fā)規(guī)范要點不規(guī)范容易出現(xiàn)的問題業(yè)務(wù)庫表設(shè)計規(guī)范用戶與權(quán)限規(guī)范Greenplum使用規(guī)范規(guī)范必要性庫表設(shè)計權(quán)限控制操作注意Greenplum開發(fā)規(guī)范38不規(guī)范容易出現(xiàn)的問題GP架構(gòu)易出現(xiàn)問題資源不足 連 接、語句執(zhí)行失敗 多任務(wù)沖突庫

12、表使用易出現(xiàn)問題表定義過大表類型單一表的散列鍵不恰當(dāng)分區(qū)表的分區(qū)鍵性能不佳加載易出現(xiàn)問題文件加載出現(xiàn)特殊字符數(shù)據(jù)校驗標(biāo)準(zhǔn)問題Greenplum開發(fā)規(guī)范39業(yè)務(wù)庫表設(shè)計規(guī)范GP中表的范圍最大時間為年表數(shù)據(jù)量小,可用單表多種表類型堆表 (選好常用列作為三列鍵)分區(qū)表 (按照 yyyymmdd 分區(qū),建議都添加 datenum int8)append表列存儲表多種表類型結(jié)合表的命名GP內(nèi)所有名稱都小寫table_name命名要符合命名規(guī)則,做到見名知義Greenplum開發(fā)規(guī)范40用戶與權(quán)限規(guī)范四層授權(quán)保保障角色 role : 管理數(shù)據(jù)庫內(nèi)對象權(quán)限用戶 user : 用戶認(rèn)證權(quán)限pg_hba.conf : 實例權(quán)限配置文件iptables : 防火墻IP訪問配置策略賬號類型劃分管理賬號開發(fā)賬號調(diào)度賬號業(yè)務(wù)賬號測試賬號賬號名稱限定所有都用小寫字母加下劃線的方式按照命名規(guī)則,做到見名知義Greenplum開發(fā)規(guī)范41Greenplum使用規(guī)范平時使用規(guī)范避免高頻率的insert、update操作避免頻繁執(zhí)行高內(nèi)存消耗的會話避免出現(xiàn)死鎖可以在適當(dāng)?shù)臅r候執(zhí)行 vaccum 操作避免直接在Greenplum執(zhí)行消耗session會話的操作盡量不創(chuàng)建索引上線與調(diào)度規(guī)范上線的程序,必須要經(jīng)過測試,才可以生產(chǎn)使用調(diào)度程序需考慮每個任務(wù)的前后關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論