




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
湖倉一體大數(shù)據(jù)平臺解決方案湖倉一體大數(shù)據(jù)平臺概述湖倉一體大數(shù)據(jù)平臺,承擔(dān)了企業(yè)數(shù)據(jù)治理、開發(fā)、管理等職責(zé),往下集成數(shù)據(jù),往上搭載應(yīng)用。通過數(shù)據(jù)同步、研發(fā)、運(yùn)維、服務(wù)及治理等過程,對企業(yè)大數(shù)據(jù)進(jìn)行智能管理,形成企業(yè)的數(shù)據(jù)資產(chǎn)。湖倉一體大數(shù)據(jù)平臺架構(gòu)基礎(chǔ)設(shè)施阿里云本地IDC…華為云電信云騰訊云AzureAWS京東云引擎層S-EMR阿里云-EMRAWS-EMR華為云-MRS星環(huán)-TDH數(shù)據(jù)集成數(shù)據(jù)研發(fā)數(shù)據(jù)運(yùn)維數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)工廠規(guī)范建模指標(biāo)管理參數(shù)配置API工廠腳本/向?qū)J阶远x函數(shù)導(dǎo)入在線測試數(shù)據(jù)查詢標(biāo)簽工廠實(shí)體管理標(biāo)簽管理任務(wù)管理算法工廠算法開發(fā)資源管理指標(biāo)運(yùn)維指標(biāo)任務(wù)監(jiān)控指標(biāo)查詢常規(guī)運(yùn)維數(shù)據(jù)生產(chǎn)運(yùn)維數(shù)據(jù)質(zhì)量運(yùn)維API中心
API授權(quán)API調(diào)用數(shù)據(jù)訂閱標(biāo)簽中心量級、覆蓋率標(biāo)簽值分布控制臺項(xiàng)目管理子賬號管理角色權(quán)限管理工作空間管理AccessKey管理平臺安全設(shè)置數(shù)據(jù)地圖數(shù)據(jù)管理類目管理常規(guī)開發(fā)離線開發(fā)實(shí)時(shí)開發(fā)數(shù)據(jù)安全數(shù)據(jù)脫敏數(shù)據(jù)加密數(shù)據(jù)規(guī)劃資產(chǎn)盤點(diǎn)資產(chǎn)盤點(diǎn)報(bào)告元數(shù)據(jù)管理生命周期治理項(xiàng)管理治理效果分析全鏈血緣元數(shù)據(jù)檢索元數(shù)據(jù)分析數(shù)據(jù)探查探查報(bào)告探查任務(wù)配置探查實(shí)例管理數(shù)據(jù)源管理數(shù)據(jù)源數(shù)據(jù)文件規(guī)范建表可視化建表DDL建表數(shù)據(jù)同步離線同步實(shí)時(shí)同步API運(yùn)維配置、告警安全組配置標(biāo)簽運(yùn)維標(biāo)簽任務(wù)監(jiān)控標(biāo)簽查詢算法運(yùn)維算法任務(wù)監(jiān)控配置及告警數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)管理標(biāo)準(zhǔn)覆蓋率評估2.湖倉一體數(shù)倉建設(shè)思路傳統(tǒng)數(shù)倉的問題技術(shù)架構(gòu)實(shí)時(shí)指標(biāo)煙囪式開發(fā)效率低門檻高平臺管理開發(fā)效率實(shí)時(shí)離線架構(gòu)不統(tǒng)一依賴離線T+1導(dǎo)出報(bào)表缺少實(shí)時(shí)元數(shù)據(jù)管理未打通實(shí)時(shí)離線數(shù)據(jù)的聯(lián)系寬表建設(shè)平臺治理批流統(tǒng)一湖倉一體數(shù)倉建設(shè)思路統(tǒng)一數(shù)倉標(biāo)準(zhǔn)與元數(shù)據(jù)基于SQL統(tǒng)一開發(fā)流程引入Hudi加速寬表產(chǎn)出基于FlinkSQL構(gòu)建實(shí)時(shí)數(shù)倉數(shù)倉平臺化建設(shè)數(shù)據(jù)統(tǒng)一接入開發(fā)元數(shù)據(jù)管理統(tǒng)一規(guī)范體系(1/3)設(shè)計(jì)規(guī)范命名規(guī)范模型規(guī)范數(shù)倉規(guī)范開發(fā)規(guī)范存儲規(guī)范流程規(guī)范業(yè)務(wù)板塊規(guī)范定義模型設(shè)計(jì)數(shù)據(jù)應(yīng)用業(yè)務(wù)系統(tǒng)業(yè)務(wù)板塊2業(yè)務(wù)板塊1業(yè)務(wù)源數(shù)據(jù)1業(yè)務(wù)源數(shù)據(jù)2業(yè)務(wù)源數(shù)據(jù)3……數(shù)據(jù)域/主題域統(tǒng)計(jì)粒度(維度組合)一致性維度修飾詞派生指標(biāo)原子指標(biāo)(業(yè)務(wù)過程+度量)維表(DIM)把邏輯維度物理化的寬表統(tǒng)計(jì)周期(時(shí)間維)匯總事實(shí)表(DWS)把明細(xì)事實(shí)聚合的事實(shí)表數(shù)據(jù)應(yīng)用層(ADS)業(yè)務(wù)過程事務(wù)事實(shí)表(DWD)最原始粒度的明細(xì)數(shù)據(jù)維度屬性統(tǒng)一規(guī)范,OneData建模方法論(2/3)統(tǒng)一規(guī)范,可視化建模工具(3/3)統(tǒng)一元數(shù)據(jù)價(jià)值主張:理清數(shù)據(jù)字典,了解數(shù)據(jù)來龍去脈特點(diǎn):豐富的采集適配器、智能識別關(guān)系、豐富的元數(shù)據(jù)分析和檢核元數(shù)據(jù)采集元數(shù)據(jù)分析元數(shù)據(jù)變更數(shù)據(jù)地圖適配器管理采集源采集任務(wù)配置采集日志入庫審核影響分析依賴分析血緣分析全鏈分析關(guān)聯(lián)度分析屬性差異分析表關(guān)聯(lián)關(guān)系字段關(guān)系變更查詢變更訂閱元數(shù)據(jù)核檢一致性核檢組合關(guān)系數(shù)據(jù)處理關(guān)系屬性填充率名稱重復(fù)率基于SQL統(tǒng)一開發(fā)流程afhaTableSQL離線批處理實(shí)時(shí)流處理即席查詢Lambda架構(gòu)Lambda架構(gòu)的主要思想:將大數(shù)據(jù)系統(tǒng)架構(gòu)分為三層:批處理層(BatchLayer)、實(shí)時(shí)計(jì)算層(SpeedLayer)、服務(wù)層(ServingLayer)優(yōu)點(diǎn):(1)數(shù)據(jù)的不可變性(2)強(qiáng)調(diào)了數(shù)據(jù)的重新計(jì)算問題缺點(diǎn):雙重計(jì)算+雙重服務(wù),且要求查詢得到的是兩個(gè)系統(tǒng)結(jié)果的合并,增加了運(yùn)維成本輸入數(shù)據(jù)流批處理數(shù)據(jù)流實(shí)時(shí)計(jì)算數(shù)據(jù)流預(yù)處理結(jié)果增量處理結(jié)果批處理流處理批處理層即席查詢API服務(wù)自助取數(shù)批處理視圖增量處理視圖服務(wù)層實(shí)時(shí)計(jì)算層Lambda架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLETLKafkaHiveODS大數(shù)據(jù)平臺技術(shù)棧實(shí)時(shí)計(jì)算總體技術(shù)架構(gòu):實(shí)時(shí)同步業(yè)務(wù)系統(tǒng)數(shù)據(jù)、IoT等數(shù)據(jù)到Flink,實(shí)時(shí)計(jì)算指標(biāo)和標(biāo)簽大數(shù)據(jù)平臺Kafka數(shù)據(jù)源Flink數(shù)據(jù)處理Data
APIPrestoimpala數(shù)據(jù)服務(wù)報(bào)表應(yīng)用數(shù)據(jù)消費(fèi)預(yù)警數(shù)據(jù)存儲OGGPG數(shù)據(jù)源MySQL解析層分布式消息隊(duì)列流計(jì)算平臺結(jié)果數(shù)據(jù)層數(shù)據(jù)接口層應(yīng)用層Oracle數(shù)據(jù)源MySQL數(shù)據(jù)源層clickhouseIoTMQTTkuduStarRocks原DorisDBKappa架構(gòu)針對Lambda架構(gòu)的缺點(diǎn),LinkedIn的JayKreps提出了Kappa架構(gòu):統(tǒng)一的計(jì)算引擎代替多個(gè)引擎優(yōu)點(diǎn):(1)架構(gòu)簡單,生產(chǎn)統(tǒng)一(2)一套邏輯,維護(hù)簡單缺點(diǎn):(1)適用場景的通用性不高(2)大數(shù)據(jù)量回溯成本高,生產(chǎn)壓力大(3)流式計(jì)算結(jié)果不準(zhǔn)確,和實(shí)時(shí)計(jì)算結(jié)果逐漸形成差異,最終需要對賬輸入數(shù)據(jù)流FlinkODSDWDDWSKafkaKafkaKafka流處理服務(wù)DB應(yīng)用Kappa架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveDWS
DWD
ETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLKafkaODSKafkaKafka方案對比與實(shí)際需求引入數(shù)據(jù)湖Hudi加速寬表構(gòu)建KafkaOff-lineETLFull
Dataincrementdata
databasesKafkaDorisDBkuduclickhouseHudi架構(gòu)圖增量實(shí)時(shí)更新時(shí)間漫游Hudi數(shù)據(jù)湖典型PipelineHudi數(shù)據(jù)湖關(guān)鍵特性引入數(shù)據(jù)湖Hudi-湖倉一體架構(gòu)
MySQLOracleSQLServerPostgreSQLRedis結(jié)構(gòu)化數(shù)據(jù)MongoDBJSONXMLCSVKafkaORC半結(jié)構(gòu)化數(shù)據(jù)Parquet音頻視頻文檔電子郵件非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源DataX(批量同步)API接口(Restful)數(shù)據(jù)集成文件直傳Flink-CDC(流式寫入)Flink計(jì)算/分析引擎計(jì)算引擎SparkHive機(jī)器學(xué)習(xí)訓(xùn)練Presto分析引擎Impala元數(shù)據(jù)管理ApacheHudi數(shù)據(jù)湖-存儲存儲對象S3OSSCOSHDFSAPI服務(wù)機(jī)器學(xué)習(xí)推理數(shù)據(jù)服務(wù)消息訂閱數(shù)據(jù)應(yīng)用大數(shù)據(jù)平臺湖倉一體平臺智能推薦BI報(bào)表即席查詢?nèi)四樧R別數(shù)據(jù)大屏引入數(shù)據(jù)湖Hudi-湖倉一體數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLETLHudi
on
FlinkHudi
on
FlinkHudi
on
FlinkKafkaHive引入數(shù)據(jù)湖Hudi-湖倉一體產(chǎn)品核心功能批量集成適用于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)據(jù)量較大的場景實(shí)時(shí)集成適用于需要高可用性和對數(shù)據(jù)源影響小的場景。使用基于日志的CDC捕獲數(shù)據(jù)變更,實(shí)時(shí)獲取數(shù)據(jù)消息集成通常通過API捕獲或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場景數(shù)據(jù)集成:結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)與更新,在數(shù)據(jù)湖創(chuàng)建數(shù)據(jù)庫、表及分區(qū)半結(jié)構(gòu)化數(shù)據(jù)存儲半結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲非結(jié)構(gòu)化數(shù)據(jù)存儲非結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲數(shù)據(jù)湖管理:數(shù)據(jù)智能加工通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等智能算法對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行學(xué)習(xí),訓(xùn)練加工成結(jié)構(gòu)化數(shù)據(jù),供數(shù)據(jù)研發(fā)和分析使用離線計(jì)算大規(guī)模數(shù)據(jù)周期性批量計(jì)算數(shù)據(jù)研發(fā):實(shí)時(shí)計(jì)算根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)實(shí)時(shí)研發(fā)與分析湖倉一體-HudiOnFlink的實(shí)現(xiàn)KafkaKafkaSourceGeneratorBinlogRecordInstantTimeFileIndexerWriteProcessOperatorFileIndexerWriteProcessOperator
CommitSinkMetadataPartitionerFileIndexerWriteProcessOperatorcheckpoint湖倉一體平臺建設(shè)Table&SQL數(shù)據(jù)開發(fā)數(shù)據(jù)接入元數(shù)據(jù)管理實(shí)時(shí)數(shù)倉3.湖倉一體大數(shù)據(jù)平臺產(chǎn)品湖倉一體大數(shù)據(jù)平臺核心功能-①實(shí)時(shí)數(shù)據(jù)接入獲取Schema
選擇數(shù)據(jù)源自動接入接入配置湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能·實(shí)時(shí)同步+實(shí)時(shí)開發(fā)+實(shí)時(shí)運(yùn)維配置來源表信息實(shí)時(shí)同步配置目標(biāo)表Kafka信息通道控制設(shè)置實(shí)時(shí)開發(fā)源表中配置Kafka信息結(jié)果表中配置Kafka寫入的目標(biāo)庫信息維表信息實(shí)時(shí)運(yùn)維發(fā)布至運(yùn)維設(shè)置啟停與告警設(shè)置告警規(guī)則設(shè)置監(jiān)控范圍湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑤元數(shù)據(jù)實(shí)時(shí)更新CDCSourceDatabaseSchemaTransformDDLDML
BinlogKafka
SinkAVROKafka
BinlogKafka
SourceHudiSinkCheckpointMetadataReportFetch湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑥數(shù)據(jù)資產(chǎn)管理體系湖倉一體大數(shù)據(jù)平臺產(chǎn)品核心功能-⑦性能壓測壓測場景:Oracle數(shù)據(jù)源數(shù)據(jù)實(shí)時(shí)計(jì)算寫到MySQL目標(biāo)數(shù)據(jù)庫,內(nèi)含Oracle數(shù)據(jù)源到Kafka、Kafka消費(fèi)、寫入MySQL目標(biāo)數(shù)據(jù)庫數(shù)據(jù)準(zhǔn)備:單條數(shù)據(jù)20個(gè)字段,228個(gè)字節(jié),Oracle源數(shù)據(jù)庫200w條壓測結(jié)果:壓測場景單條數(shù)據(jù)量壓測數(shù)據(jù)量壓測鏈路壓測結(jié)果Kafka生產(chǎn)與消費(fèi)20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)源到Kafka耗時(shí)46s(qps:8700)Kafka消費(fèi)耗時(shí)4.6s(qps:8.7W)實(shí)時(shí)計(jì)算Oracle-MySQL20個(gè)字段,228個(gè)字節(jié)40WOracle數(shù)據(jù)源數(shù)據(jù)新增到新增數(shù)據(jù)寫到目標(biāo)數(shù)據(jù)庫MySQL(3進(jìn)程,分配內(nèi)存3G)qps:377840W*5qps:3715實(shí)時(shí)計(jì)算MySQL-Kudu20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)新增,經(jīng)過Flink實(shí)時(shí)計(jì)算寫到Kudu表中qps:5250結(jié)論:實(shí)時(shí)計(jì)算支持主流數(shù)據(jù)庫1500萬/小時(shí)的數(shù)據(jù)處理能力,且資源占用較低湖倉一體大數(shù)據(jù)平臺產(chǎn)品未來支持功能-①增強(qiáng)SQL能力更多語法與特性支持更多數(shù)據(jù)源支持任務(wù)自動調(diào)優(yōu)湖倉一體大數(shù)據(jù)平臺產(chǎn)品未來支持功能-②精細(xì)化資源管理自動擴(kuò)容縮容細(xì)粒度資源調(diào)度FlinkonK8s4、Hudi數(shù)據(jù)湖典型應(yīng)用場景問題不支持事務(wù)由于傳統(tǒng)大數(shù)據(jù)方案不支持事務(wù),有可能會讀到未寫完成的數(shù)據(jù),造成數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤。數(shù)據(jù)更新效率低業(yè)務(wù)系統(tǒng)庫的數(shù)據(jù),除流水表類的數(shù)據(jù)都是新增數(shù)據(jù)外,還有很多狀態(tài)類數(shù)據(jù)表需要更新操作(例如:賬戶余額表,客戶狀態(tài)表,設(shè)備狀態(tài)表等),而傳統(tǒng)大數(shù)據(jù)方案無法滿足增量更新,常采用拉鏈方式,先進(jìn)行join操作再進(jìn)行insertoverwrite操作,通過覆蓋寫的方式完成更新操作,該操作往往需要T+1的批處理模式,從而導(dǎo)致端到端數(shù)據(jù)時(shí)延T+1,存在效率低、成本高等問題。無法及時(shí)應(yīng)對業(yè)務(wù)表變化上游業(yè)務(wù)系統(tǒng)對數(shù)據(jù)schema發(fā)生變更后,會導(dǎo)致數(shù)據(jù)無法入倉,需要數(shù)據(jù)倉庫的表schema進(jìn)行同步調(diào)整。從技術(shù)實(shí)現(xiàn)上采用數(shù)據(jù)表重建的方式來滿足該場景,導(dǎo)致數(shù)據(jù)倉庫的數(shù)據(jù)表的管理與維護(hù)方案復(fù)雜,實(shí)現(xiàn)成本高。歷史快照表數(shù)據(jù)冗余傳統(tǒng)數(shù)據(jù)倉庫方案需要對歷史的快照表進(jìn)行存儲,采用全量歷史存儲的方式實(shí)現(xiàn),例如:天級歷史快照表,每天都會全量存儲全表數(shù)據(jù)。這樣就造成了大量的數(shù)據(jù)存儲冗余,占用大量的存儲資源。小批量增量數(shù)據(jù)處理成本高傳統(tǒng)數(shù)據(jù)倉庫為了實(shí)現(xiàn)增量ETL,通常將增量數(shù)據(jù)按照分區(qū)的方式進(jìn)行存儲,若為了實(shí)現(xiàn)T+0的數(shù)據(jù)處理,增量數(shù)據(jù)需要按照小時(shí)級或者分鐘級的分區(qū)粒度。該種實(shí)現(xiàn)形式會導(dǎo)致小文件問題,大量分區(qū)也會導(dǎo)致元數(shù)據(jù)服務(wù)壓力增大。傳統(tǒng)數(shù)據(jù)倉庫解決方案中,常用Hive來構(gòu)建T+1級別的數(shù)據(jù)倉庫,通過HDFS存儲實(shí)現(xiàn)海量數(shù)據(jù)的存儲與水平擴(kuò)容,通過Hive實(shí)現(xiàn)元數(shù)據(jù)的管理以及數(shù)據(jù)操作的SQL化。雖然能夠在海量批處理場景中取得不錯(cuò)的效果,但依然存在如下現(xiàn)狀問題:傳統(tǒng)數(shù)倉面臨的問題與挑戰(zhàn)
MySQLOracleSQLServerPostgreSQLRedisMongoDBKafka01場景說明無需直接對接數(shù)據(jù)庫,數(shù)據(jù)由已有采集工具發(fā)送到Kafka或者由業(yè)務(wù)系統(tǒng)直接發(fā)送到Kafka。不需要實(shí)時(shí)同步DDL操作事件。02方案介紹支持了對Hudi中COW表以及MOR表的讀寫操作。作業(yè)開發(fā)與作業(yè)維護(hù)可視化操作。03方案收益入湖代碼開發(fā)簡單,通過FlinkSQL實(shí)現(xiàn)入湖的語句如下:Insertintotable_hudiselect*fromtable_kafkaCDHHudi數(shù)據(jù)湖flinksqlHudi數(shù)據(jù)湖典型應(yīng)用場景①:傳統(tǒng)CDC基于Flink-SQL入湖(1/2)Hudi數(shù)據(jù)湖典型應(yīng)用場景①:傳統(tǒng)CDC基于Flink-SQL入湖(2/2)
MySQLOracleSQLServerPostgreSQLRedisMongoDBFlink-CDC(流式寫入)01場景說明可以從業(yè)務(wù)數(shù)據(jù)庫中直接抽取數(shù)據(jù)數(shù)據(jù)入湖支持高實(shí)時(shí)性,秒級延遲數(shù)據(jù)表變更需要與數(shù)據(jù)湖表結(jié)構(gòu)實(shí)時(shí)同步02方案介紹該方案基于Flink-CDC組件構(gòu)建,由Flink-CDC組件實(shí)現(xiàn)業(yè)務(wù)庫的操作事件捕獲并寫入的基于Hudi數(shù)據(jù)湖存儲03方案收益入湖操作簡單,全程零代碼開發(fā)。入湖時(shí)效快,從業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)整到入湖,可在分鐘內(nèi)完成。Hudi數(shù)據(jù)湖典型應(yīng)用場景②:基于Flink-CDC入湖(1/2)CDHHudi數(shù)據(jù)湖Hudi數(shù)據(jù)湖典型應(yīng)用場景②:基于Flink-CDC入湖(2/2)開源CDC對比
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明湖內(nèi)數(shù)據(jù)通常會采用數(shù)倉分層存儲,例如:貼源層(ODS)、匯總層(DWS)、集市層(ADS)。02方案介紹增量ETL作業(yè)與傳統(tǒng)ETL作業(yè)業(yè)務(wù)邏輯完全一樣,涉及到的增量表讀取采用commit_time來獲取增量數(shù)據(jù)。Hudi支持ACID特性、Upsert特性和增量數(shù)據(jù)查詢特性,可以實(shí)現(xiàn)增量的ETL,在不同層之間快速的流轉(zhuǎn)。03方案收益單個(gè)ETL作業(yè)處理時(shí)延降低,端到端時(shí)間縮短。消耗資源下降,單位ETL作業(yè)所處理數(shù)據(jù)量大幅下降,所需計(jì)算資源也會相應(yīng)下降。原有湖內(nèi)存儲的模型無需調(diào)整。匯總層DWSflinksqlHudi數(shù)據(jù)湖典型應(yīng)用場景③:湖內(nèi)數(shù)據(jù)快速ETL集市層ADS增量ETLflinksql增量ETL
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明數(shù)據(jù)湖存儲的數(shù)據(jù)具有數(shù)據(jù)種類全、維度多、歷史周期長的特點(diǎn),直接交互式分析引擎直接對接數(shù)據(jù)湖可以滿足業(yè)務(wù)各類需求數(shù)據(jù)需求。在數(shù)據(jù)探索、BI分析、報(bào)表展示等業(yè)務(wù)場景需要具備針對海量數(shù)據(jù)查詢秒級返回的能力,同時(shí)要求分析接口簡單SQL化。02方案介紹Presto/Trino是分布式高性能的交互式分析引擎,主要用于數(shù)據(jù)的快速實(shí)時(shí)查詢場景。03方案收益結(jié)合flink-cdc數(shù)據(jù)入湖,業(yè)務(wù)系統(tǒng)庫數(shù)據(jù)變更可在分鐘內(nèi)實(shí)現(xiàn)在數(shù)據(jù)湖內(nèi)可見。對TB級到PB的數(shù)據(jù)量的交互式查詢可達(dá)到秒級結(jié)果返回。可對湖內(nèi)各層數(shù)據(jù)進(jìn)行分析。Hudi數(shù)據(jù)湖典型應(yīng)用場景④:交互式分析場景Presto/Trino引擎匯總層DWS集市層ADS快照查詢增量查詢讀優(yōu)化查詢交互式分析
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場景說明傳統(tǒng)處理架構(gòu)中采用Lambda或者Kappa架構(gòu)。Lambda使用比較靈活,也可以解決業(yè)務(wù)場景,但是在該架構(gòu)中需要兩套系統(tǒng)來存儲數(shù)據(jù)(hive存儲離線數(shù)據(jù)/kafka存儲實(shí)時(shí)數(shù)據(jù)),維護(hù)比較復(fù)雜。數(shù)據(jù)分流以后也很難再關(guān)聯(lián)應(yīng)用。02方案介紹在實(shí)時(shí)場景中,對時(shí)延要求可以是分鐘級的,這樣可以通過CDH-Hudi數(shù)據(jù)湖和實(shí)時(shí)計(jì)算引擎Flink進(jìn)行增量計(jì)算實(shí)現(xiàn)數(shù)據(jù)的快速處理,端到端實(shí)現(xiàn)分鐘級延遲。CDH-Hudi數(shù)據(jù)湖本身就是湖存儲,可以存儲海量數(shù)據(jù),支持批量計(jì)算,常用的批處理引擎可以采用Hive和Spark。03方案收益數(shù)據(jù)統(tǒng)一存儲,實(shí)時(shí)數(shù)據(jù)與批量數(shù)據(jù)共用相同的存儲。同時(shí)支持實(shí)時(shí)計(jì)算與批量計(jì)算。相同業(yè)務(wù)邏輯的處理結(jié)果復(fù)用。滿足分鐘級延時(shí)的實(shí)時(shí)處理能力和海量的批量處理。Hudi數(shù)據(jù)湖典型應(yīng)用場景⑤:Hudi構(gòu)建批流一體第三方數(shù)據(jù)集市結(jié)果庫匯總層DWS集市層ADS快照查詢增量查詢讀優(yōu)化查詢流任務(wù)批任務(wù)API服務(wù)自助取數(shù)Hudi數(shù)據(jù)湖典型應(yīng)用場景⑥:數(shù)據(jù)庫實(shí)時(shí)化(實(shí)時(shí)捕獲/更新schema)SQLServerCDCSourceBinlogKafka
Sink元數(shù)據(jù)表信息元數(shù)據(jù)信息FilterTableUpdateMetadataDDLDMLFlinkStream庫粒度表粒度Hudi數(shù)據(jù)湖典型應(yīng)用場景⑦:數(shù)倉實(shí)時(shí)化DBConnectHudi
Sinkwrite初始化:Flink
BatchHudiSQLServer
增量更新:FlinkStreamKafkaSourceHudi
Sinkupdate初始化:增量更新:ODS(hive)DWD(hive)DWS(hive)SQLSer
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中國室內(nèi)專用防水膠市場調(diào)查研究報(bào)告
- 2025年頭孢類抗菌藥物合作協(xié)議書
- 血友病性骨關(guān)節(jié)炎護(hù)理個(gè)案
- 2025年超高分子量聚乙烯項(xiàng)目建議書
- 項(xiàng)目采購計(jì)劃培訓(xùn)
- 車輛汽車基礎(chǔ)知識
- 2024江蘇省無錫市中考真題生物+答案
- 2025年智能型低壓電器、智能型低壓開關(guān)柜項(xiàng)目合作計(jì)劃書
- 進(jìn)場人員安全教育培訓(xùn)
- 2025年大量程固體物位儀表項(xiàng)目合作計(jì)劃書
- 水準(zhǔn)儀使用方法及原理課件
- 機(jī)動絞磨安全操作規(guī)程范本
- 初中體育與健康八年級全一冊第一章 體育與健康理論知識科學(xué)發(fā)展體能
- 2024醫(yī)療衛(wèi)生機(jī)構(gòu)安全生產(chǎn)與消防安全知識考試試題及答案
- 橋梁工程地基與基礎(chǔ)的試驗(yàn)檢測-鉆(挖)孔灌注樁檢測
- 鄉(xiāng)鎮(zhèn)街道安全巡查員培訓(xùn)
- 勞動教育-專題一崇尚勞動(勞動的意義)
- 自然辯證法概論-第4章(2018新大綱)
- 23年-制袋車間管理制度
- 房屋拆除工程投標(biāo)方案(技術(shù)標(biāo))
- 小學(xué)語文實(shí)用性學(xué)習(xí)任務(wù)群解讀及教學(xué)建議
評論
0/150
提交評論