湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案_第1頁(yè)
湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案_第2頁(yè)
湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案_第3頁(yè)
湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案_第4頁(yè)
湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖倉(cāng)一體大數(shù)據(jù)平臺(tái)解決方案湖倉(cāng)一體大數(shù)據(jù)平臺(tái)概述湖倉(cāng)一體大數(shù)據(jù)平臺(tái),承擔(dān)了企業(yè)數(shù)據(jù)治理、開(kāi)發(fā)、管理等職責(zé),往下集成數(shù)據(jù),往上搭載應(yīng)用。通過(guò)數(shù)據(jù)同步、研發(fā)、運(yùn)維、服務(wù)及治理等過(guò)程,對(duì)企業(yè)大數(shù)據(jù)進(jìn)行智能管理,形成企業(yè)的數(shù)據(jù)資產(chǎn)。湖倉(cāng)一體大數(shù)據(jù)平臺(tái)架構(gòu)基礎(chǔ)設(shè)施阿里云本地IDC…華為云電信云騰訊云AzureAWS京東云引擎層S-EMR阿里云-EMRAWS-EMR華為云-MRS星環(huán)-TDH數(shù)據(jù)集成數(shù)據(jù)研發(fā)數(shù)據(jù)運(yùn)維數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)工廠規(guī)范建模指標(biāo)管理參數(shù)配置API工廠腳本/向?qū)J阶远x函數(shù)導(dǎo)入在線測(cè)試數(shù)據(jù)查詢標(biāo)簽工廠實(shí)體管理標(biāo)簽管理任務(wù)管理算法工廠算法開(kāi)發(fā)資源管理指標(biāo)運(yùn)維指標(biāo)任務(wù)監(jiān)控指標(biāo)查詢常規(guī)運(yùn)維數(shù)據(jù)生產(chǎn)運(yùn)維數(shù)據(jù)質(zhì)量運(yùn)維API中心

API授權(quán)API調(diào)用數(shù)據(jù)訂閱標(biāo)簽中心量級(jí)、覆蓋率標(biāo)簽值分布控制臺(tái)項(xiàng)目管理子賬號(hào)管理角色權(quán)限管理工作空間管理AccessKey管理平臺(tái)安全設(shè)置數(shù)據(jù)地圖數(shù)據(jù)管理類目管理常規(guī)開(kāi)發(fā)離線開(kāi)發(fā)實(shí)時(shí)開(kāi)發(fā)數(shù)據(jù)安全數(shù)據(jù)脫敏數(shù)據(jù)加密數(shù)據(jù)規(guī)劃資產(chǎn)盤(pán)點(diǎn)資產(chǎn)盤(pán)點(diǎn)報(bào)告元數(shù)據(jù)管理生命周期治理項(xiàng)管理治理效果分析全鏈血緣元數(shù)據(jù)檢索元數(shù)據(jù)分析數(shù)據(jù)探查探查報(bào)告探查任務(wù)配置探查實(shí)例管理數(shù)據(jù)源管理數(shù)據(jù)源數(shù)據(jù)文件規(guī)范建表可視化建表DDL建表數(shù)據(jù)同步離線同步實(shí)時(shí)同步API運(yùn)維配置、告警安全組配置標(biāo)簽運(yùn)維標(biāo)簽任務(wù)監(jiān)控標(biāo)簽查詢算法運(yùn)維算法任務(wù)監(jiān)控配置及告警數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)管理標(biāo)準(zhǔn)覆蓋率評(píng)估2.湖倉(cāng)一體數(shù)倉(cāng)建設(shè)思路傳統(tǒng)數(shù)倉(cāng)的問(wèn)題技術(shù)架構(gòu)實(shí)時(shí)指標(biāo)煙囪式開(kāi)發(fā)效率低門(mén)檻高平臺(tái)管理開(kāi)發(fā)效率實(shí)時(shí)離線架構(gòu)不統(tǒng)一依賴離線T+1導(dǎo)出報(bào)表缺少實(shí)時(shí)元數(shù)據(jù)管理未打通實(shí)時(shí)離線數(shù)據(jù)的聯(lián)系寬表建設(shè)平臺(tái)治理批流統(tǒng)一湖倉(cāng)一體數(shù)倉(cāng)建設(shè)思路統(tǒng)一數(shù)倉(cāng)標(biāo)準(zhǔn)與元數(shù)據(jù)基于SQL統(tǒng)一開(kāi)發(fā)流程引入Hudi加速寬表產(chǎn)出基于FlinkSQL構(gòu)建實(shí)時(shí)數(shù)倉(cāng)數(shù)倉(cāng)平臺(tái)化建設(shè)數(shù)據(jù)統(tǒng)一接入開(kāi)發(fā)元數(shù)據(jù)管理統(tǒng)一規(guī)范體系(1/3)設(shè)計(jì)規(guī)范命名規(guī)范模型規(guī)范數(shù)倉(cāng)規(guī)范開(kāi)發(fā)規(guī)范存儲(chǔ)規(guī)范流程規(guī)范業(yè)務(wù)板塊規(guī)范定義模型設(shè)計(jì)數(shù)據(jù)應(yīng)用業(yè)務(wù)系統(tǒng)業(yè)務(wù)板塊2業(yè)務(wù)板塊1業(yè)務(wù)源數(shù)據(jù)1業(yè)務(wù)源數(shù)據(jù)2業(yè)務(wù)源數(shù)據(jù)3……數(shù)據(jù)域/主題域統(tǒng)計(jì)粒度(維度組合)一致性維度修飾詞派生指標(biāo)原子指標(biāo)(業(yè)務(wù)過(guò)程+度量)維表(DIM)把邏輯維度物理化的寬表統(tǒng)計(jì)周期(時(shí)間維)匯總事實(shí)表(DWS)把明細(xì)事實(shí)聚合的事實(shí)表數(shù)據(jù)應(yīng)用層(ADS)業(yè)務(wù)過(guò)程事務(wù)事實(shí)表(DWD)最原始粒度的明細(xì)數(shù)據(jù)維度屬性統(tǒng)一規(guī)范,OneData建模方法論(2/3)統(tǒng)一規(guī)范,可視化建模工具(3/3)統(tǒng)一元數(shù)據(jù)價(jià)值主張:理清數(shù)據(jù)字典,了解數(shù)據(jù)來(lái)龍去脈特點(diǎn):豐富的采集適配器、智能識(shí)別關(guān)系、豐富的元數(shù)據(jù)分析和檢核元數(shù)據(jù)采集元數(shù)據(jù)分析元數(shù)據(jù)變更數(shù)據(jù)地圖適配器管理采集源采集任務(wù)配置采集日志入庫(kù)審核影響分析依賴分析血緣分析全鏈分析關(guān)聯(lián)度分析屬性差異分析表關(guān)聯(lián)關(guān)系字段關(guān)系變更查詢變更訂閱元數(shù)據(jù)核檢一致性核檢組合關(guān)系數(shù)據(jù)處理關(guān)系屬性填充率名稱重復(fù)率基于SQL統(tǒng)一開(kāi)發(fā)流程afhaTableSQL離線批處理實(shí)時(shí)流處理即席查詢Lambda架構(gòu)Lambda架構(gòu)的主要思想:將大數(shù)據(jù)系統(tǒng)架構(gòu)分為三層:批處理層(BatchLayer)、實(shí)時(shí)計(jì)算層(SpeedLayer)、服務(wù)層(ServingLayer)優(yōu)點(diǎn):(1)數(shù)據(jù)的不可變性(2)強(qiáng)調(diào)了數(shù)據(jù)的重新計(jì)算問(wèn)題缺點(diǎn):雙重計(jì)算+雙重服務(wù),且要求查詢得到的是兩個(gè)系統(tǒng)結(jié)果的合并,增加了運(yùn)維成本輸入數(shù)據(jù)流批處理數(shù)據(jù)流實(shí)時(shí)計(jì)算數(shù)據(jù)流預(yù)處理結(jié)果增量處理結(jié)果批處理流處理批處理層即席查詢API服務(wù)自助取數(shù)批處理視圖增量處理視圖服務(wù)層實(shí)時(shí)計(jì)算層Lambda架構(gòu)-數(shù)倉(cāng)分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLETLKafkaHiveODS大數(shù)據(jù)平臺(tái)技術(shù)棧實(shí)時(shí)計(jì)算總體技術(shù)架構(gòu):實(shí)時(shí)同步業(yè)務(wù)系統(tǒng)數(shù)據(jù)、IoT等數(shù)據(jù)到Flink,實(shí)時(shí)計(jì)算指標(biāo)和標(biāo)簽大數(shù)據(jù)平臺(tái)Kafka數(shù)據(jù)源Flink數(shù)據(jù)處理Data

APIPrestoimpala數(shù)據(jù)服務(wù)報(bào)表應(yīng)用數(shù)據(jù)消費(fèi)預(yù)警數(shù)據(jù)存儲(chǔ)OGGPG數(shù)據(jù)源MySQL解析層分布式消息隊(duì)列流計(jì)算平臺(tái)結(jié)果數(shù)據(jù)層數(shù)據(jù)接口層應(yīng)用層Oracle數(shù)據(jù)源MySQL數(shù)據(jù)源層clickhouseIoTMQTTkuduStarRocks原DorisDBKappa架構(gòu)針對(duì)Lambda架構(gòu)的缺點(diǎn),LinkedIn的JayKreps提出了Kappa架構(gòu):統(tǒng)一的計(jì)算引擎代替多個(gè)引擎優(yōu)點(diǎn):(1)架構(gòu)簡(jiǎn)單,生產(chǎn)統(tǒng)一(2)一套邏輯,維護(hù)簡(jiǎn)單缺點(diǎn):(1)適用場(chǎng)景的通用性不高(2)大數(shù)據(jù)量回溯成本高,生產(chǎn)壓力大(3)流式計(jì)算結(jié)果不準(zhǔn)確,和實(shí)時(shí)計(jì)算結(jié)果逐漸形成差異,最終需要對(duì)賬輸入數(shù)據(jù)流FlinkODSDWDDWSKafkaKafkaKafka流處理服務(wù)DB應(yīng)用Kappa架構(gòu)-數(shù)倉(cāng)分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveDWS

DWD

ETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLKafkaODSKafkaKafka方案對(duì)比與實(shí)際需求引入數(shù)據(jù)湖Hudi加速寬表構(gòu)建KafkaOff-lineETLFull

Dataincrementdata

databasesKafkaDorisDBkuduclickhouseHudi架構(gòu)圖增量實(shí)時(shí)更新時(shí)間漫游Hudi數(shù)據(jù)湖典型PipelineHudi數(shù)據(jù)湖關(guān)鍵特性引入數(shù)據(jù)湖Hudi-湖倉(cāng)一體架構(gòu)

MySQLOracleSQLServerPostgreSQLRedis結(jié)構(gòu)化數(shù)據(jù)MongoDBJSONXMLCSVKafkaORC半結(jié)構(gòu)化數(shù)據(jù)Parquet音頻視頻文檔電子郵件非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源DataX(批量同步)API接口(Restful)數(shù)據(jù)集成文件直傳Flink-CDC(流式寫(xiě)入)Flink計(jì)算/分析引擎計(jì)算引擎SparkHive機(jī)器學(xué)習(xí)訓(xùn)練Presto分析引擎Impala元數(shù)據(jù)管理ApacheHudi數(shù)據(jù)湖-存儲(chǔ)存儲(chǔ)對(duì)象S3OSSCOSHDFSAPI服務(wù)機(jī)器學(xué)習(xí)推理數(shù)據(jù)服務(wù)消息訂閱數(shù)據(jù)應(yīng)用大數(shù)據(jù)平臺(tái)湖倉(cāng)一體平臺(tái)智能推薦BI報(bào)表即席查詢?nèi)四樧R(shí)別數(shù)據(jù)大屏引入數(shù)據(jù)湖Hudi-湖倉(cāng)一體數(shù)倉(cāng)分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLETLHudi

on

FlinkHudi

on

FlinkHudi

on

FlinkKafkaHive引入數(shù)據(jù)湖Hudi-湖倉(cāng)一體產(chǎn)品核心功能批量集成適用于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)據(jù)量較大的場(chǎng)景實(shí)時(shí)集成適用于需要高可用性和對(duì)數(shù)據(jù)源影響小的場(chǎng)景。使用基于日志的CDC捕獲數(shù)據(jù)變更,實(shí)時(shí)獲取數(shù)據(jù)消息集成通常通過(guò)API捕獲或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場(chǎng)景數(shù)據(jù)集成:結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)與更新,在數(shù)據(jù)湖創(chuàng)建數(shù)據(jù)庫(kù)、表及分區(qū)半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲(chǔ)數(shù)據(jù)湖管理:數(shù)據(jù)智能加工通過(guò)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等智能算法對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行學(xué)習(xí),訓(xùn)練加工成結(jié)構(gòu)化數(shù)據(jù),供數(shù)據(jù)研發(fā)和分析使用離線計(jì)算大規(guī)模數(shù)據(jù)周期性批量計(jì)算數(shù)據(jù)研發(fā):實(shí)時(shí)計(jì)算根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)實(shí)時(shí)研發(fā)與分析湖倉(cāng)一體-HudiOnFlink的實(shí)現(xiàn)KafkaKafkaSourceGeneratorBinlogRecordInstantTimeFileIndexerWriteProcessOperatorFileIndexerWriteProcessOperator

CommitSinkMetadataPartitionerFileIndexerWriteProcessOperatorcheckpoint湖倉(cāng)一體平臺(tái)建設(shè)Table&SQL數(shù)據(jù)開(kāi)發(fā)數(shù)據(jù)接入元數(shù)據(jù)管理實(shí)時(shí)數(shù)倉(cāng)3.湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品湖倉(cāng)一體大數(shù)據(jù)平臺(tái)核心功能-①實(shí)時(shí)數(shù)據(jù)接入獲取Schema

選擇數(shù)據(jù)源自動(dòng)接入接入配置湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能·實(shí)時(shí)同步+實(shí)時(shí)開(kāi)發(fā)+實(shí)時(shí)運(yùn)維配置來(lái)源表信息實(shí)時(shí)同步配置目標(biāo)表Kafka信息通道控制設(shè)置實(shí)時(shí)開(kāi)發(fā)源表中配置Kafka信息結(jié)果表中配置Kafka寫(xiě)入的目標(biāo)庫(kù)信息維表信息實(shí)時(shí)運(yùn)維發(fā)布至運(yùn)維設(shè)置啟停與告警設(shè)置告警規(guī)則設(shè)置監(jiān)控范圍湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑤元數(shù)據(jù)實(shí)時(shí)更新CDCSourceDatabaseSchemaTransformDDLDML

BinlogKafka

SinkAVROKafka

BinlogKafka

SourceHudiSinkCheckpointMetadataReportFetch湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑥數(shù)據(jù)資產(chǎn)管理體系湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑦性能壓測(cè)壓測(cè)場(chǎng)景:Oracle數(shù)據(jù)源數(shù)據(jù)實(shí)時(shí)計(jì)算寫(xiě)到MySQL目標(biāo)數(shù)據(jù)庫(kù),內(nèi)含Oracle數(shù)據(jù)源到Kafka、Kafka消費(fèi)、寫(xiě)入MySQL目標(biāo)數(shù)據(jù)庫(kù)數(shù)據(jù)準(zhǔn)備:?jiǎn)螚l數(shù)據(jù)20個(gè)字段,228個(gè)字節(jié),Oracle源數(shù)據(jù)庫(kù)200w條壓測(cè)結(jié)果:壓測(cè)場(chǎng)景單條數(shù)據(jù)量壓測(cè)數(shù)據(jù)量壓測(cè)鏈路壓測(cè)結(jié)果Kafka生產(chǎn)與消費(fèi)20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)源到Kafka耗時(shí)46s(qps:8700)Kafka消費(fèi)耗時(shí)4.6s(qps:8.7W)實(shí)時(shí)計(jì)算Oracle-MySQL20個(gè)字段,228個(gè)字節(jié)40WOracle數(shù)據(jù)源數(shù)據(jù)新增到新增數(shù)據(jù)寫(xiě)到目標(biāo)數(shù)據(jù)庫(kù)MySQL(3進(jìn)程,分配內(nèi)存3G)qps:377840W*5qps:3715實(shí)時(shí)計(jì)算MySQL-Kudu20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)新增,經(jīng)過(guò)Flink實(shí)時(shí)計(jì)算寫(xiě)到Kudu表中qps:5250結(jié)論:實(shí)時(shí)計(jì)算支持主流數(shù)據(jù)庫(kù)1500萬(wàn)/小時(shí)的數(shù)據(jù)處理能力,且資源占用較低湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品未來(lái)支持功能-①增強(qiáng)SQL能力更多語(yǔ)法與特性支持更多數(shù)據(jù)源支持任務(wù)自動(dòng)調(diào)優(yōu)湖倉(cāng)一體大數(shù)據(jù)平臺(tái)產(chǎn)品未來(lái)支持功能-②精細(xì)化資源管理自動(dòng)擴(kuò)容縮容細(xì)粒度資源調(diào)度FlinkonK8s4、Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景問(wèn)題不支持事務(wù)由于傳統(tǒng)大數(shù)據(jù)方案不支持事務(wù),有可能會(huì)讀到未寫(xiě)完成的數(shù)據(jù),造成數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤。數(shù)據(jù)更新效率低業(yè)務(wù)系統(tǒng)庫(kù)的數(shù)據(jù),除流水表類的數(shù)據(jù)都是新增數(shù)據(jù)外,還有很多狀態(tài)類數(shù)據(jù)表需要更新操作(例如:賬戶余額表,客戶狀態(tài)表,設(shè)備狀態(tài)表等),而傳統(tǒng)大數(shù)據(jù)方案無(wú)法滿足增量更新,常采用拉鏈方式,先進(jìn)行join操作再進(jìn)行insertoverwrite操作,通過(guò)覆蓋寫(xiě)的方式完成更新操作,該操作往往需要T+1的批處理模式,從而導(dǎo)致端到端數(shù)據(jù)時(shí)延T+1,存在效率低、成本高等問(wèn)題。無(wú)法及時(shí)應(yīng)對(duì)業(yè)務(wù)表變化上游業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)schema發(fā)生變更后,會(huì)導(dǎo)致數(shù)據(jù)無(wú)法入倉(cāng),需要數(shù)據(jù)倉(cāng)庫(kù)的表schema進(jìn)行同步調(diào)整。從技術(shù)實(shí)現(xiàn)上采用數(shù)據(jù)表重建的方式來(lái)滿足該場(chǎng)景,導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)表的管理與維護(hù)方案復(fù)雜,實(shí)現(xiàn)成本高。歷史快照表數(shù)據(jù)冗余傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)方案需要對(duì)歷史的快照表進(jìn)行存儲(chǔ),采用全量歷史存儲(chǔ)的方式實(shí)現(xiàn),例如:天級(jí)歷史快照表,每天都會(huì)全量存儲(chǔ)全表數(shù)據(jù)。這樣就造成了大量的數(shù)據(jù)存儲(chǔ)冗余,占用大量的存儲(chǔ)資源。小批量增量數(shù)據(jù)處理成本高傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)為了實(shí)現(xiàn)增量ETL,通常將增量數(shù)據(jù)按照分區(qū)的方式進(jìn)行存儲(chǔ),若為了實(shí)現(xiàn)T+0的數(shù)據(jù)處理,增量數(shù)據(jù)需要按照小時(shí)級(jí)或者分鐘級(jí)的分區(qū)粒度。該種實(shí)現(xiàn)形式會(huì)導(dǎo)致小文件問(wèn)題,大量分區(qū)也會(huì)導(dǎo)致元數(shù)據(jù)服務(wù)壓力增大。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)解決方案中,常用Hive來(lái)構(gòu)建T+1級(jí)別的數(shù)據(jù)倉(cāng)庫(kù),通過(guò)HDFS存儲(chǔ)實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)與水平擴(kuò)容,通過(guò)Hive實(shí)現(xiàn)元數(shù)據(jù)的管理以及數(shù)據(jù)操作的SQL化。雖然能夠在海量批處理場(chǎng)景中取得不錯(cuò)的效果,但依然存在如下現(xiàn)狀問(wèn)題:傳統(tǒng)數(shù)倉(cāng)面臨的問(wèn)題與挑戰(zhàn)

MySQLOracleSQLServerPostgreSQLRedisMongoDBKafka01場(chǎng)景說(shuō)明無(wú)需直接對(duì)接數(shù)據(jù)庫(kù),數(shù)據(jù)由已有采集工具發(fā)送到Kafka或者由業(yè)務(wù)系統(tǒng)直接發(fā)送到Kafka。不需要實(shí)時(shí)同步DDL操作事件。02方案介紹支持了對(duì)Hudi中COW表以及MOR表的讀寫(xiě)操作。作業(yè)開(kāi)發(fā)與作業(yè)維護(hù)可視化操作。03方案收益入湖代碼開(kāi)發(fā)簡(jiǎn)單,通過(guò)FlinkSQL實(shí)現(xiàn)入湖的語(yǔ)句如下:Insertintotable_hudiselect*fromtable_kafkaCDHHudi數(shù)據(jù)湖flinksqlHudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景①:傳統(tǒng)CDC基于Flink-SQL入湖(1/2)Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景①:傳統(tǒng)CDC基于Flink-SQL入湖(2/2)

MySQLOracleSQLServerPostgreSQLRedisMongoDBFlink-CDC(流式寫(xiě)入)01場(chǎng)景說(shuō)明可以從業(yè)務(wù)數(shù)據(jù)庫(kù)中直接抽取數(shù)據(jù)數(shù)據(jù)入湖支持高實(shí)時(shí)性,秒級(jí)延遲數(shù)據(jù)表變更需要與數(shù)據(jù)湖表結(jié)構(gòu)實(shí)時(shí)同步02方案介紹該方案基于Flink-CDC組件構(gòu)建,由Flink-CDC組件實(shí)現(xiàn)業(yè)務(wù)庫(kù)的操作事件捕獲并寫(xiě)入的基于Hudi數(shù)據(jù)湖存儲(chǔ)03方案收益入湖操作簡(jiǎn)單,全程零代碼開(kāi)發(fā)。入湖時(shí)效快,從業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)整到入湖,可在分鐘內(nèi)完成。Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景②:基于Flink-CDC入湖(1/2)CDHHudi數(shù)據(jù)湖Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景②:基于Flink-CDC入湖(2/2)開(kāi)源CDC對(duì)比

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說(shuō)明湖內(nèi)數(shù)據(jù)通常會(huì)采用數(shù)倉(cāng)分層存儲(chǔ),例如:貼源層(ODS)、匯總層(DWS)、集市層(ADS)。02方案介紹增量ETL作業(yè)與傳統(tǒng)ETL作業(yè)業(yè)務(wù)邏輯完全一樣,涉及到的增量表讀取采用commit_time來(lái)獲取增量數(shù)據(jù)。Hudi支持ACID特性、Upsert特性和增量數(shù)據(jù)查詢特性,可以實(shí)現(xiàn)增量的ETL,在不同層之間快速的流轉(zhuǎn)。03方案收益單個(gè)ETL作業(yè)處理時(shí)延降低,端到端時(shí)間縮短。消耗資源下降,單位ETL作業(yè)所處理數(shù)據(jù)量大幅下降,所需計(jì)算資源也會(huì)相應(yīng)下降。原有湖內(nèi)存儲(chǔ)的模型無(wú)需調(diào)整。匯總層DWSflinksqlHudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景③:湖內(nèi)數(shù)據(jù)快速ETL集市層ADS增量ETLflinksql增量ETL

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說(shuō)明數(shù)據(jù)湖存儲(chǔ)的數(shù)據(jù)具有數(shù)據(jù)種類全、維度多、歷史周期長(zhǎng)的特點(diǎn),直接交互式分析引擎直接對(duì)接數(shù)據(jù)湖可以滿足業(yè)務(wù)各類需求數(shù)據(jù)需求。在數(shù)據(jù)探索、BI分析、報(bào)表展示等業(yè)務(wù)場(chǎng)景需要具備針對(duì)海量數(shù)據(jù)查詢秒級(jí)返回的能力,同時(shí)要求分析接口簡(jiǎn)單SQL化。02方案介紹Presto/Trino是分布式高性能的交互式分析引擎,主要用于數(shù)據(jù)的快速實(shí)時(shí)查詢場(chǎng)景。03方案收益結(jié)合flink-cdc數(shù)據(jù)入湖,業(yè)務(wù)系統(tǒng)庫(kù)數(shù)據(jù)變更可在分鐘內(nèi)實(shí)現(xiàn)在數(shù)據(jù)湖內(nèi)可見(jiàn)。對(duì)TB級(jí)到PB的數(shù)據(jù)量的交互式查詢可達(dá)到秒級(jí)結(jié)果返回??蓪?duì)湖內(nèi)各層數(shù)據(jù)進(jìn)行分析。Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景④:交互式分析場(chǎng)景Presto/Trino引擎匯總層DWS集市層ADS快照查詢?cè)隽坎樵冏x優(yōu)化查詢交互式分析

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說(shuō)明傳統(tǒng)處理架構(gòu)中采用Lambda或者Kappa架構(gòu)。Lambda使用比較靈活,也可以解決業(yè)務(wù)場(chǎng)景,但是在該架構(gòu)中需要兩套系統(tǒng)來(lái)存儲(chǔ)數(shù)據(jù)(hive存儲(chǔ)離線數(shù)據(jù)/kafka存儲(chǔ)實(shí)時(shí)數(shù)據(jù)),維護(hù)比較復(fù)雜。數(shù)據(jù)分流以后也很難再關(guān)聯(lián)應(yīng)用。02方案介紹在實(shí)時(shí)場(chǎng)景中,對(duì)時(shí)延要求可以是分鐘級(jí)的,這樣可以通過(guò)CDH-Hudi數(shù)據(jù)湖和實(shí)時(shí)計(jì)算引擎Flink進(jìn)行增量計(jì)算實(shí)現(xiàn)數(shù)據(jù)的快速處理,端到端實(shí)現(xiàn)分鐘級(jí)延遲。CDH-Hudi數(shù)據(jù)湖本身就是湖存儲(chǔ),可以存儲(chǔ)海量數(shù)據(jù),支持批量計(jì)算,常用的批處理引擎可以采用Hive和Spark。03方案收益數(shù)據(jù)統(tǒng)一存儲(chǔ),實(shí)時(shí)數(shù)據(jù)與批量數(shù)據(jù)共用相同的存儲(chǔ)。同時(shí)支持實(shí)時(shí)計(jì)算與批量計(jì)算。相同業(yè)務(wù)邏輯的處理結(jié)果復(fù)用。滿足分鐘級(jí)延時(shí)的實(shí)時(shí)處理能力和海量的批量處理。Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景⑤:Hudi構(gòu)建批流一體第三方數(shù)據(jù)集市結(jié)果庫(kù)匯總層DWS集市層ADS快照查詢?cè)隽坎樵冏x優(yōu)化查詢流任務(wù)批任務(wù)API服務(wù)自助取數(shù)Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景⑥:數(shù)據(jù)庫(kù)實(shí)時(shí)化(實(shí)時(shí)捕獲/更新schema)SQLServerCDCSourceBinlogKafka

Sink元數(shù)據(jù)表信息元數(shù)據(jù)信息FilterTableUpdateMetadataDDLDMLFlinkStream庫(kù)粒度表粒度Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景⑦:數(shù)倉(cāng)實(shí)時(shí)化DBConnectHudi

Sinkwrite初始化:Flink

BatchHudiSQLServer

增量更新:FlinkStreamKafkaSourceHudi

Sinkupdate初始化:增量更新:ODS(hive)DWD(hive)DWS(hive)SQLSer

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論