湖倉一體大數(shù)據(jù)平臺解決方案

上傳人：英*** IP屬地：河北上傳時(shí)間：2023-10-15 格式：PPTX 頁數(shù)：52 大小：15.27MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩47頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖倉一體大數(shù)據(jù)平臺解決方案湖倉一體大數(shù)據(jù)平臺概述湖倉一體大數(shù)據(jù)平臺，承擔(dān)了企業(yè)數(shù)據(jù)治理、開發(fā)、管理等職責(zé)，往下集成數(shù)據(jù)，往上搭載應(yīng)用。通過數(shù)據(jù)同步、研發(fā)、運(yùn)維、服務(wù)及治理等過程，對企業(yè)大數(shù)據(jù)進(jìn)行智能管理，形成企業(yè)的數(shù)據(jù)資產(chǎn)。湖倉一體大數(shù)據(jù)平臺架構(gòu)基礎(chǔ)設(shè)施阿里云本地IDC…華為云電信云騰訊云AzureAWS京東云引擎層S-EMR阿里云-EMRAWS-EMR華為云-MRS星環(huán)-TDH數(shù)據(jù)集成數(shù)據(jù)研發(fā)數(shù)據(jù)運(yùn)維數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)工廠規(guī)范建模指標(biāo)管理參數(shù)配置API工廠腳本/向?qū)Ｊ阶远x函數(shù)導(dǎo)入在線測試數(shù)據(jù)查詢標(biāo)簽工廠實(shí)體管理標(biāo)簽管理任務(wù)管理算法工廠算法開發(fā)資源管理指標(biāo)運(yùn)維指標(biāo)任務(wù)監(jiān)控指標(biāo)查詢常規(guī)運(yùn)維數(shù)據(jù)生產(chǎn)運(yùn)維數(shù)據(jù)質(zhì)量運(yùn)維API中心

API授權(quán)API調(diào)用數(shù)據(jù)訂閱標(biāo)簽中心量級、覆蓋率標(biāo)簽值分布控制臺項(xiàng)目管理子賬號管理角色權(quán)限管理工作空間管理AccessKey管理平臺安全設(shè)置數(shù)據(jù)地圖數(shù)據(jù)管理類目管理常規(guī)開發(fā)離線開發(fā)實(shí)時(shí)開發(fā)數(shù)據(jù)安全數(shù)據(jù)脫敏數(shù)據(jù)加密數(shù)據(jù)規(guī)劃資產(chǎn)盤點(diǎn)資產(chǎn)盤點(diǎn)報(bào)告元數(shù)據(jù)管理生命周期治理項(xiàng)管理治理效果分析全鏈血緣元數(shù)據(jù)檢索元數(shù)據(jù)分析數(shù)據(jù)探查探查報(bào)告探查任務(wù)配置探查實(shí)例管理數(shù)據(jù)源管理數(shù)據(jù)源數(shù)據(jù)文件規(guī)范建表可視化建表DDL建表數(shù)據(jù)同步離線同步實(shí)時(shí)同步API運(yùn)維配置、告警安全組配置標(biāo)簽運(yùn)維標(biāo)簽任務(wù)監(jiān)控標(biāo)簽查詢算法運(yùn)維算法任務(wù)監(jiān)控配置及告警數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)管理標(biāo)準(zhǔn)覆蓋率評估2.湖倉一體數(shù)倉建設(shè)思路傳統(tǒng)數(shù)倉的問題技術(shù)架構(gòu)實(shí)時(shí)指標(biāo)煙囪式開發(fā)效率低門檻高平臺管理開發(fā)效率實(shí)時(shí)離線架構(gòu)不統(tǒng)一依賴離線T+1導(dǎo)出報(bào)表缺少實(shí)時(shí)元數(shù)據(jù)管理未打通實(shí)時(shí)離線數(shù)據(jù)的聯(lián)系寬表建設(shè)平臺治理批流統(tǒng)一湖倉一體數(shù)倉建設(shè)思路統(tǒng)一數(shù)倉標(biāo)準(zhǔn)與元數(shù)據(jù)基于SQL統(tǒng)一開發(fā)流程引入Hudi加速寬表產(chǎn)出基于FlinkSQL構(gòu)建實(shí)時(shí)數(shù)倉數(shù)倉平臺化建設(shè)數(shù)據(jù)統(tǒng)一接入開發(fā)元數(shù)據(jù)管理統(tǒng)一規(guī)范體系(1/3)設(shè)計(jì)規(guī)范命名規(guī)范模型規(guī)范數(shù)倉規(guī)范開發(fā)規(guī)范存儲規(guī)范流程規(guī)范業(yè)務(wù)板塊規(guī)范定義模型設(shè)計(jì)數(shù)據(jù)應(yīng)用業(yè)務(wù)系統(tǒng)業(yè)務(wù)板塊2業(yè)務(wù)板塊1業(yè)務(wù)源數(shù)據(jù)1業(yè)務(wù)源數(shù)據(jù)2業(yè)務(wù)源數(shù)據(jù)3……數(shù)據(jù)域/主題域統(tǒng)計(jì)粒度(維度組合)一致性維度修飾詞派生指標(biāo)原子指標(biāo)（業(yè)務(wù)過程+度量）維表（DIM）把邏輯維度物理化的寬表統(tǒng)計(jì)周期(時(shí)間維)匯總事實(shí)表（DWS）把明細(xì)事實(shí)聚合的事實(shí)表數(shù)據(jù)應(yīng)用層（ADS）業(yè)務(wù)過程事務(wù)事實(shí)表(DWD)最原始粒度的明細(xì)數(shù)據(jù)維度屬性統(tǒng)一規(guī)范，OneData建模方法論(2/3)統(tǒng)一規(guī)范，可視化建模工具(3/3)統(tǒng)一元數(shù)據(jù)價(jià)值主張：理清數(shù)據(jù)字典，了解數(shù)據(jù)來龍去脈特點(diǎn)：豐富的采集適配器、智能識別關(guān)系、豐富的元數(shù)據(jù)分析和檢核元數(shù)據(jù)采集元數(shù)據(jù)分析元數(shù)據(jù)變更數(shù)據(jù)地圖適配器管理采集源采集任務(wù)配置采集日志入庫審核影響分析依賴分析血緣分析全鏈分析關(guān)聯(lián)度分析屬性差異分析表關(guān)聯(lián)關(guān)系字段關(guān)系變更查詢變更訂閱元數(shù)據(jù)核檢一致性核檢組合關(guān)系數(shù)據(jù)處理關(guān)系屬性填充率名稱重復(fù)率基于SQL統(tǒng)一開發(fā)流程afhaTableSQL離線批處理實(shí)時(shí)流處理即席查詢Lambda架構(gòu)Lambda架構(gòu)的主要思想：將大數(shù)據(jù)系統(tǒng)架構(gòu)分為三層:批處理層（BatchLayer）、實(shí)時(shí)計(jì)算層（SpeedLayer）、服務(wù)層（ServingLayer）優(yōu)點(diǎn)：（1）數(shù)據(jù)的不可變性（2）強(qiáng)調(diào)了數(shù)據(jù)的重新計(jì)算問題缺點(diǎn)：雙重計(jì)算+雙重服務(wù)，且要求查詢得到的是兩個(gè)系統(tǒng)結(jié)果的合并，增加了運(yùn)維成本輸入數(shù)據(jù)流批處理數(shù)據(jù)流實(shí)時(shí)計(jì)算數(shù)據(jù)流預(yù)處理結(jié)果增量處理結(jié)果批處理流處理批處理層即席查詢API服務(wù)自助取數(shù)批處理視圖增量處理視圖服務(wù)層實(shí)時(shí)計(jì)算層Lambda架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLETLKafkaHiveODS大數(shù)據(jù)平臺技術(shù)棧實(shí)時(shí)計(jì)算總體技術(shù)架構(gòu)：實(shí)時(shí)同步業(yè)務(wù)系統(tǒng)數(shù)據(jù)、IoT等數(shù)據(jù)到Flink，實(shí)時(shí)計(jì)算指標(biāo)和標(biāo)簽大數(shù)據(jù)平臺Kafka數(shù)據(jù)源Flink數(shù)據(jù)處理Data

APIPrestoimpala數(shù)據(jù)服務(wù)報(bào)表應(yīng)用數(shù)據(jù)消費(fèi)預(yù)警數(shù)據(jù)存儲OGGPG數(shù)據(jù)源MySQL解析層分布式消息隊(duì)列流計(jì)算平臺結(jié)果數(shù)據(jù)層數(shù)據(jù)接口層應(yīng)用層Oracle數(shù)據(jù)源MySQL數(shù)據(jù)源層clickhouseIoTMQTTkuduStarRocks原DorisDBKappa架構(gòu)針對Lambda架構(gòu)的缺點(diǎn)，LinkedIn的JayKreps提出了Kappa架構(gòu)：統(tǒng)一的計(jì)算引擎代替多個(gè)引擎優(yōu)點(diǎn)：（1）架構(gòu)簡單，生產(chǎn)統(tǒng)一（2）一套邏輯，維護(hù)簡單缺點(diǎn)：（1）適用場景的通用性不高（2）大數(shù)據(jù)量回溯成本高，生產(chǎn)壓力大（3）流式計(jì)算結(jié)果不準(zhǔn)確，和實(shí)時(shí)計(jì)算結(jié)果逐漸形成差異，最終需要對賬輸入數(shù)據(jù)流FlinkODSDWDDWSKafkaKafkaKafka流處理服務(wù)DB應(yīng)用Kappa架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveDWS

DWD

ETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLKafkaODSKafkaKafka方案對比與實(shí)際需求引入數(shù)據(jù)湖Hudi加速寬表構(gòu)建KafkaOff-lineETLFull

Dataincrementdata

databasesKafkaDorisDBkuduclickhouseHudi架構(gòu)圖增量實(shí)時(shí)更新時(shí)間漫游Hudi數(shù)據(jù)湖典型PipelineHudi數(shù)據(jù)湖關(guān)鍵特性引入數(shù)據(jù)湖Hudi-湖倉一體架構(gòu)

MySQLOracleSQLServerPostgreSQLRedis結(jié)構(gòu)化數(shù)據(jù)MongoDBJSONXMLCSVKafkaORC半結(jié)構(gòu)化數(shù)據(jù)Parquet音頻視頻文檔電子郵件非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源DataX（批量同步）API接口（Restful）數(shù)據(jù)集成文件直傳Flink-CDC（流式寫入）Flink計(jì)算/分析引擎計(jì)算引擎SparkHive機(jī)器學(xué)習(xí)訓(xùn)練Presto分析引擎Impala元數(shù)據(jù)管理ApacheHudi數(shù)據(jù)湖-存儲存儲對象S3OSSCOSHDFSAPI服務(wù)機(jī)器學(xué)習(xí)推理數(shù)據(jù)服務(wù)消息訂閱數(shù)據(jù)應(yīng)用大數(shù)據(jù)平臺湖倉一體平臺智能推薦BI報(bào)表即席查詢?nèi)四樧R別數(shù)據(jù)大屏引入數(shù)據(jù)湖Hudi-湖倉一體數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae

QueueRDS/

binlogSQLSQLSQLSQLSQLCDCSQLETLHudi

FlinkHudi

FlinkKafkaHive引入數(shù)據(jù)湖Hudi-湖倉一體產(chǎn)品核心功能批量集成適用于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)據(jù)量較大的場景實(shí)時(shí)集成適用于需要高可用性和對數(shù)據(jù)源影響小的場景。使用基于日志的CDC捕獲數(shù)據(jù)變更，實(shí)時(shí)獲取數(shù)據(jù)消息集成通常通過API捕獲或提取數(shù)據(jù)，適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場景數(shù)據(jù)集成：結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)與更新，在數(shù)據(jù)湖創(chuàng)建數(shù)據(jù)庫、表及分區(qū)半結(jié)構(gòu)化數(shù)據(jù)存儲半結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn)，在數(shù)據(jù)湖中存儲非結(jié)構(gòu)化數(shù)據(jù)存儲非結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn)，在數(shù)據(jù)湖中存儲數(shù)據(jù)湖管理：數(shù)據(jù)智能加工通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等智能算法對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行學(xué)習(xí)，訓(xùn)練加工成結(jié)構(gòu)化數(shù)據(jù)，供數(shù)據(jù)研發(fā)和分析使用離線計(jì)算大規(guī)模數(shù)據(jù)周期性批量計(jì)算數(shù)據(jù)研發(fā)：實(shí)時(shí)計(jì)算根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)實(shí)時(shí)研發(fā)與分析湖倉一體-HudiOnFlink的實(shí)現(xiàn)KafkaKafkaSourceGeneratorBinlogRecordInstantTimeFileIndexerWriteProcessOperatorFileIndexerWriteProcessOperator

CommitSinkMetadataPartitionerFileIndexerWriteProcessOperatorcheckpoint湖倉一體平臺建設(shè)Table&SQL數(shù)據(jù)開發(fā)數(shù)據(jù)接入元數(shù)據(jù)管理實(shí)時(shí)數(shù)倉3.湖倉一體大數(shù)據(jù)平臺產(chǎn)品湖倉一體大數(shù)據(jù)平臺核心功能-①實(shí)時(shí)數(shù)據(jù)接入獲取Schema

選擇數(shù)據(jù)源自動接入接入配置湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能·實(shí)時(shí)同步+實(shí)時(shí)開發(fā)+實(shí)時(shí)運(yùn)維配置來源表信息實(shí)時(shí)同步配置目標(biāo)表Kafka信息通道控制設(shè)置實(shí)時(shí)開發(fā)源表中配置Kafka信息結(jié)果表中配置Kafka寫入的目標(biāo)庫信息維表信息實(shí)時(shí)運(yùn)維發(fā)布至運(yùn)維設(shè)置啟停與告警設(shè)置告警規(guī)則設(shè)置監(jiān)控范圍湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑤元數(shù)據(jù)實(shí)時(shí)更新CDCSourceDatabaseSchemaTransformDDLDML

BinlogKafka

SinkAVROKafka

BinlogKafka

SourceHudiSinkCheckpointMetadataReportFetch湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑥數(shù)據(jù)資產(chǎn)管理體系湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑦性能壓測壓測場景：Oracle數(shù)據(jù)源數(shù)據(jù)實(shí)時(shí)計(jì)算寫到MySQL目標(biāo)數(shù)據(jù)庫，內(nèi)含Oracle數(shù)據(jù)源到Kafka、Kafka消費(fèi)、寫入MySQL目標(biāo)數(shù)據(jù)庫數(shù)據(jù)準(zhǔn)備：單條數(shù)據(jù)20個(gè)字段，228個(gè)字節(jié)，Oracle源數(shù)據(jù)庫200w條壓測結(jié)果：壓測場景單條數(shù)據(jù)量壓測數(shù)據(jù)量壓測鏈路壓測結(jié)果Kafka生產(chǎn)與消費(fèi)20個(gè)字段，228個(gè)字節(jié)40WMySQL數(shù)據(jù)源到Kafka耗時(shí)46s（qps：8700）Kafka消費(fèi)耗時(shí)4.6s（qps：8.7W）實(shí)時(shí)計(jì)算Oracle-MySQL20個(gè)字段，228個(gè)字節(jié)40WOracle數(shù)據(jù)源數(shù)據(jù)新增到新增數(shù)據(jù)寫到目標(biāo)數(shù)據(jù)庫MySQL（3進(jìn)程，分配內(nèi)存3G）qps：377840W*5qps：3715實(shí)時(shí)計(jì)算MySQL-Kudu20個(gè)字段，228個(gè)字節(jié)40WMySQL數(shù)據(jù)新增，經(jīng)過Flink實(shí)時(shí)計(jì)算寫到Kudu表中qps：5250結(jié)論：實(shí)時(shí)計(jì)算支持主流數(shù)據(jù)庫1500萬/小時(shí)的數(shù)據(jù)處理能力，且資源占用較低湖倉一體大數(shù)據(jù)平臺產(chǎn)品未來支持功能-①增強(qiáng)SQL能力更多語法與特性支持更多數(shù)據(jù)源支持任務(wù)自動調(diào)優(yōu)湖倉一體大數(shù)據(jù)平臺產(chǎn)品未來支持功能-②精細(xì)化資源管理自動擴(kuò)容縮容細(xì)粒度資源調(diào)度FlinkonK8s4、Hudi數(shù)據(jù)湖典型應(yīng)用場景問題不支持事務(wù)由于傳統(tǒng)大數(shù)據(jù)方案不支持事務(wù)，有可能會讀到未寫完成的數(shù)據(jù)，造成數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤。數(shù)據(jù)更新效率低業(yè)務(wù)系統(tǒng)庫的數(shù)據(jù)，除流水表類的數(shù)據(jù)都是新增數(shù)據(jù)外，還有很多狀態(tài)類數(shù)據(jù)表需要更新操作（例如：賬戶余額表，客戶狀態(tài)表，設(shè)備狀態(tài)表等），而傳統(tǒng)大數(shù)據(jù)方案無法滿足增量更新，常采用拉鏈方式，先進(jìn)行join操作再進(jìn)行insertoverwrite操作，通過覆蓋寫的方式完成更新操作，該操作往往需要T+1的批處理模式，從而導(dǎo)致端到端數(shù)據(jù)時(shí)延T+1，存在效率低、成本高等問題。無法及時(shí)應(yīng)對業(yè)務(wù)表變化上游業(yè)務(wù)系統(tǒng)對數(shù)據(jù)schema發(fā)生變更后，會導(dǎo)致數(shù)據(jù)無法入倉，需要數(shù)據(jù)倉庫的表schema進(jìn)行同步調(diào)整。從技術(shù)實(shí)現(xiàn)上采用數(shù)據(jù)表重建的方式來滿足該場景，導(dǎo)致數(shù)據(jù)倉庫的數(shù)據(jù)表的管理與維護(hù)方案復(fù)雜，實(shí)現(xiàn)成本高。歷史快照表數(shù)據(jù)冗余傳統(tǒng)數(shù)據(jù)倉庫方案需要對歷史的快照表進(jìn)行存儲，采用全量歷史存儲的方式實(shí)現(xiàn)，例如：天級歷史快照表，每天都會全量存儲全表數(shù)據(jù)。這樣就造成了大量的數(shù)據(jù)存儲冗余，占用大量的存儲資源。小批量增量數(shù)據(jù)處理成本高傳統(tǒng)數(shù)據(jù)倉庫為了實(shí)現(xiàn)增量ETL，通常將增量數(shù)據(jù)按照分區(qū)的方式進(jìn)行存儲，若為了實(shí)現(xiàn)T+0的數(shù)據(jù)處理，增量數(shù)據(jù)需要按照小時(shí)級或者分鐘級的分區(qū)粒度。該種實(shí)現(xiàn)形式會導(dǎo)致小文件問題，大量分區(qū)也會導(dǎo)致元數(shù)據(jù)服務(wù)壓力增大。傳統(tǒng)數(shù)據(jù)倉庫解決方案中，常用Hive來構(gòu)建T+1級別的數(shù)據(jù)倉庫，通過HDFS存儲實(shí)現(xiàn)海量數(shù)據(jù)的存儲與水平擴(kuò)容，通過Hive實(shí)現(xiàn)元數(shù)據(jù)的管理以及數(shù)據(jù)操作的SQL化。雖然能夠在海量批處理場景中取得不錯(cuò)的效果，但依然存在如下現(xiàn)狀問題：傳統(tǒng)數(shù)倉面臨的問題與挑戰(zhàn)

MySQLOracleSQLServerPostgreSQLRedisMongoDBKafka01場景說明無需直接對接數(shù)據(jù)庫，數(shù)據(jù)由已有采集工具發(fā)送到Kafka或者由業(yè)務(wù)系統(tǒng)直接發(fā)送到Kafka。不需要實(shí)時(shí)同步DDL操作事件。02方案介紹支持了對Hudi中COW表以及MOR表的讀寫操作。作業(yè)開發(fā)與作業(yè)維護(hù)可視化操作。03方案收益入湖代碼開發(fā)簡單,通過FlinkSQL實(shí)現(xiàn)入湖的語句如下:Insertintotable_hudiselect*fromtable_kafkaCDHHudi數(shù)據(jù)湖flinksqlHudi數(shù)據(jù)湖典型應(yīng)用場景①:傳統(tǒng)CDC基于Flink-SQL入湖(1/2)Hudi數(shù)據(jù)湖典型應(yīng)用場景①:傳統(tǒng)CDC基于Flink-SQL入湖(2/2)

MySQLOracleSQLServerPostgreSQLRedisMongoDBFlink-CDC（流式寫入）01場景說明可以從業(yè)務(wù)數(shù)據(jù)庫中直接抽取數(shù)據(jù)數(shù)據(jù)入湖支持高實(shí)時(shí)性，秒級延遲數(shù)據(jù)表變更需要與數(shù)據(jù)湖表結(jié)構(gòu)實(shí)時(shí)同步02方案介紹該方案基于Flink-CDC組件構(gòu)建，由Flink-CDC組件實(shí)現(xiàn)業(yè)務(wù)庫的操作事件捕獲并寫入的基于Hudi數(shù)據(jù)湖存儲03方案收益入湖操作簡單，全程零代碼開發(fā)。入湖時(shí)效快，從業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)整到入湖，可在分鐘內(nèi)完成。Hudi數(shù)據(jù)湖典型應(yīng)用場景②:基于Flink-CDC入湖(1/2)CDHHudi數(shù)據(jù)湖Hudi數(shù)據(jù)湖典型應(yīng)用場景②:基于Flink-CDC入湖(2/2)開源CDC對比

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明湖內(nèi)數(shù)據(jù)通常會采用數(shù)倉分層存儲，例如：貼源層（ODS）、匯總層（DWS）、集市層（ADS）。02方案介紹增量ETL作業(yè)與傳統(tǒng)ETL作業(yè)業(yè)務(wù)邏輯完全一樣，涉及到的增量表讀取采用commit_time來獲取增量數(shù)據(jù)。Hudi支持ACID特性、Upsert特性和增量數(shù)據(jù)查詢特性，可以實(shí)現(xiàn)增量的ETL，在不同層之間快速的流轉(zhuǎn)。03方案收益單個(gè)ETL作業(yè)處理時(shí)延降低，端到端時(shí)間縮短。消耗資源下降，單位ETL作業(yè)所處理數(shù)據(jù)量大幅下降，所需計(jì)算資源也會相應(yīng)下降。原有湖內(nèi)存儲的模型無需調(diào)整。匯總層DWSflinksqlHudi數(shù)據(jù)湖典型應(yīng)用場景③:湖內(nèi)數(shù)據(jù)快速ETL集市層ADS增量ETLflinksql增量ETL

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明數(shù)據(jù)湖存儲的數(shù)據(jù)具有數(shù)據(jù)種類全、維度多、歷史周期長的特點(diǎn)，直接交互式分析引擎直接對接數(shù)據(jù)湖可以滿足業(yè)務(wù)各類需求數(shù)據(jù)需求。在數(shù)據(jù)探索、BI分析、報(bào)表展示等業(yè)務(wù)場景需要具備針對海量數(shù)據(jù)查詢秒級返回的能力，同時(shí)要求分析接口簡單SQL化。02方案介紹Presto/Trino是分布式高性能的交互式分析引擎，主要用于數(shù)據(jù)的快速實(shí)時(shí)查詢場景。03方案收益結(jié)合flink-cdc數(shù)據(jù)入湖，業(yè)務(wù)系統(tǒng)庫數(shù)據(jù)變更可在分鐘內(nèi)實(shí)現(xiàn)在數(shù)據(jù)湖內(nèi)可見。對TB級到PB的數(shù)據(jù)量的交互式查詢可達(dá)到秒級結(jié)果返回。可對湖內(nèi)各層數(shù)據(jù)進(jìn)行分析。Hudi數(shù)據(jù)湖典型應(yīng)用場景④:交互式分析場景Presto/Trino引擎匯總層DWS集市層ADS快照查詢增量查詢讀優(yōu)化查詢交互式分析

MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明傳統(tǒng)處理架構(gòu)中采用Lambda或者Kappa架構(gòu)。Lambda使用比較靈活，也可以解決業(yè)務(wù)場景，但是在該架構(gòu)中需要兩套系統(tǒng)來存儲數(shù)據(jù)(hive存儲離線數(shù)據(jù)/kafka存儲實(shí)時(shí)數(shù)據(jù))，維護(hù)比較復(fù)雜。數(shù)據(jù)分流以后也很難再關(guān)聯(lián)應(yīng)用。02方案介紹在實(shí)時(shí)場景中，對時(shí)延要求可以是分鐘級的，這樣可以通過CDH-Hudi數(shù)據(jù)湖和實(shí)時(shí)計(jì)算引擎Flink進(jìn)行增量計(jì)算實(shí)現(xiàn)數(shù)據(jù)的快速處理，端到端實(shí)現(xiàn)分鐘級延遲。CDH-Hudi數(shù)據(jù)湖本身就是湖存儲，可以存儲海量數(shù)據(jù)，支持批量計(jì)算，常用的批處理引擎可以采用Hive和Spark。03方案收益數(shù)據(jù)統(tǒng)一存儲，實(shí)時(shí)數(shù)據(jù)與批量數(shù)據(jù)共用相同的存儲。同時(shí)支持實(shí)時(shí)計(jì)算與批量計(jì)算。相同業(yè)務(wù)邏輯的處理結(jié)果復(fù)用。滿足分鐘級延時(shí)的實(shí)時(shí)處理能力和海量的批量處理。Hudi數(shù)據(jù)湖典型應(yīng)用場景⑤:Hudi構(gòu)建批流一體第三方數(shù)據(jù)集市結(jié)果庫匯總層DWS集市層ADS快照查詢增量查詢讀優(yōu)化查詢流任務(wù)批任務(wù)API服務(wù)自助取數(shù)Hudi數(shù)據(jù)湖典型應(yīng)用場景⑥:數(shù)據(jù)庫實(shí)時(shí)化(實(shí)時(shí)捕獲/更新schema)SQLServerCDCSourceBinlogKafka

Sink元數(shù)據(jù)表信息元數(shù)據(jù)信息FilterTableUpdateMetadataDDLDMLFlinkStream庫粒度表粒度Hudi數(shù)據(jù)湖典型應(yīng)用場景⑦：數(shù)倉實(shí)時(shí)化DBConnectHudi

Sinkwrite初始化:Flink

BatchHudiSQLServer

增量更新:FlinkStreamKafkaSourceHudi

Sinkupdate初始化：增量更新：ODS(hive)DWD(hive)DWS(hive)SQLSer

人人文庫> 全部分類> 應(yīng)用文書 > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

湖倉一體大數(shù)據(jù)平臺解決方案

文檔簡介

溫馨提示

最新文檔

評論

湖倉一體大數(shù)據(jù)平臺解決方案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔