FFA2024分論壇-流批一體 合輯_第1頁
FFA2024分論壇-流批一體 合輯_第2頁
FFA2024分論壇-流批一體 合輯_第3頁
FFA2024分論壇-流批一體 合輯_第4頁
FFA2024分論壇-流批一體 合輯_第5頁
已閱讀5頁,還剩433頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

r構(gòu)建企業(yè)級湖倉架構(gòu)好友好友剛剛sparksparkspak離線同步lceberg66老板老板老板老板嗨Steven,你可以快速幫我統(tǒng)計一下昨天平臺上的熱銷商品,以及各品類GMV和引導(dǎo)IPV嗎?老板很棒的報表,這個報表可以每天更新嗎?spak離線同步Iceberg老板這個報表可以實時更新嗎?kk但現(xiàn)實卻很復(fù)雜老板這個報表可以實時更新嗎?老板兩套引擎,兩套代碼,統(tǒng)計口徑不一致!老板可以再加上環(huán)比同比嗎?老板離線同步888888實時同步兩套存儲、兩套計算,復(fù)用,數(shù)據(jù)不一致O開發(fā)運維兩套Pipelineo增量計算,一套架構(gòu)流計算成本高,批計算回刷代碼無法復(fù)用6MaterializedTable業(yè)務(wù)時效性←業(yè)務(wù)時效性←-ONorders.customer_id=custome調(diào)度周期/天(手工配置);SELECT*ONorders.customer_id=customers.id;SELECT*ONorders.customer_ONorders.customer_id=customers.id;一鍵把數(shù)據(jù)新鮮度從1min切換到1hAirflow…AirflowAirflow效率低重復(fù)開發(fā)重復(fù)存儲業(yè)務(wù)層批作業(yè)流作業(yè)批量讀取流式消費攝入層DataxCanal批計算流計算成本低批讀(File)流讀(ChangeLog)攝入層存儲層MaterializedTable幫你智能選擇性價比最高的執(zhí)行模式小時級分鐘級秒級全量數(shù)據(jù)增量數(shù)據(jù)增量數(shù)據(jù)周期調(diào)度周期調(diào)度持續(xù)計算規(guī)劃中低中高adwd_logdws_oaJobID:5ee?e5ede?27fdfafbeb63f442b8c964FlinkSQL>SET'erval'-'2S';FlinkSQL>INSERTINTOpaimon.dw.dw>FORSYSTEMLTIMEASOFdata>ONdatagen.id=user_log[INF?]SubmittingSQLupdateJobID:c44d41c4482fce9a656f2929b?fe894d[INF?]Executesta謝謝大家!示例&測評背景介紹為什么要做增量計算?為什么基于Flink做增量計算?全量計算:·一次執(zhí)行完成處理00:00:00 WHERETO_DATE(time)=WHERETO_DATE(time)=2024-11-11'成本批計算批計算·時效性低·提高時效性會導(dǎo)致成本·時效性高·成本較高成本·無需長期占用資源·面向批量數(shù)據(jù)進行優(yōu)化·不依賴作業(yè)內(nèi)建的狀態(tài)和破線風(fēng)險·低成本的增量回刷訂正orders數(shù)據(jù)時效性可修改數(shù)據(jù)時效性可修改聲明式ETL性能自適應(yīng)優(yōu)化的能力r 工作介紹工作進展設(shè)計思路支持的查詢和場景功能開發(fā)完成與MT的整合Beta版本待支持的查詢和場景執(zhí)行增量作業(yè)記錄執(zhí)行進度執(zhí)行增量作業(yè)寫新增寫變更寫新增寫變更讀增量讀增量讀全量全增量一體的存儲全增量一體的存儲恢復(fù)執(zhí)行進度ABAAABB控制消費的數(shù)據(jù)量級rBBBBBBABAA確定位點AAB個恢復(fù)位點示例&測評未來規(guī)劃示例初初次執(zhí)行拓?fù)?全量)ConstraintEnforcer[示例Duration后后續(xù)執(zhí)行拓?fù)?增量)執(zhí)行耗時執(zhí)行耗時執(zhí)行耗時執(zhí)行耗時10min增量■5min10min增量 ·對應(yīng)計算成本,不包括存儲成本未來規(guī)劃rr提升流批一體場景開發(fā)效率開發(fā)語法校驗/調(diào)試(事前)/調(diào)試(事中)在不同引擎上常用的數(shù)據(jù)表坐標(biāo),UDF,Fu做到完全一致t返回結(jié)果本地執(zhí)行,快速驗證業(yè)務(wù)邏輯本地執(zhí)行,快速驗證業(yè)務(wù)邏輯典型流批不一致案例和解決思路常見的影響計算準(zhǔn)確性場景狀態(tài)過期CDC不完整狀態(tài)過期 updatestatet·全局的TTL設(shè)置為24H去重去重1.狀態(tài)過期時間和業(yè)務(wù)邏輯不匹配訂單狀態(tài)變更超過了24H調(diào)整狀態(tài)TTL,確保和業(yè)務(wù)流程最大更新周期一致訂單狀態(tài)Join不上,結(jié)果狀態(tài)過期狀態(tài)過期2.算子未能正常傳遞更新狀態(tài)新數(shù)據(jù)并不會產(chǎn)游*Rank邏輯變更為只保留第一條數(shù)據(jù)果重新下發(fā)(即使結(jié)果未發(fā)生變化)訂單明細(xì)去重去重Join未接受到上游+1(key1,value1)-U(key1,value1)+U(key1,value2)-U(+1(key1,value1)+U(key1,value1)+U(ke+1(key1,value1)2.非確定計算產(chǎn)生不完整CDC-U(key1,value1,time2)-U(key1,value2,time4)果只和處理時相果只和處理時相果可能不一樣2.非確定計算產(chǎn)生不完整CDC不完整CDC帶來的影響CDC不完整CDC不完整set'table.optimizernon-deterministic-update.strategy'='TRY_RESOLVECDC不完整+----------------------------->elsepower(10,sum(log(10,val1)Calc(select=[key1,key2,key3,CASE(Sf3=0),+-GroupAggregate(groupBy=[key1,key2,key3],select=[key1,key2,key3,MIN_RSf3,SUM_RETRACT(Sf4)ASSf+-Exchange(distribution=[hash[key1,+-Calc(select=[key1,key2,key3,val1,LOG(10,+-TableSourcescan(table=[default_catalog,default_database,table1l,fielCDC不完整-D(key1,type3,0,-In值破壞了中間狀態(tài)聚合計算前應(yīng)該賦予默認(rèn)值,避免產(chǎn)生NAN/Infinity不會導(dǎo)致最終結(jié)果錯誤-U(id1,status1,1)--set'table.exec.sink.upsert-materia生成SinkUpsertMaterializer節(jié)點還原順序-U(id1,status1,1)通過SQLAdvice可以幫助我們提前發(fā)現(xiàn)潛在風(fēng)險,常見的性能優(yōu)化手段減少Reguarjoin傾斜優(yōu)化LookupJoin優(yōu)化RegularJoin改寫為PartialUpdate(狀態(tài)緩存轉(zhuǎn)移到外部存儲)多流Join星型模型->雪花模型(減少狀態(tài)緩存大小)留,狀態(tài)中保留全字段joinkey字段,狀態(tài)量相對較小更字段Rank/Agg狀態(tài)優(yōu)化(轉(zhuǎn)移至外部存儲)完整CDC無狀態(tài)無狀態(tài)主鍵表無狀態(tài)主鍵表Rank/Agg狀態(tài)優(yōu)化(減少特殊場景下的狀態(tài))持續(xù)膨脹數(shù)據(jù)傾斜當(dāng)Source2維度較少時,容易出現(xiàn)傾斜基于主鍵hash,確保數(shù)據(jù)有序,hash均衡適用將小量的維度表broadcastLookupJoin“數(shù)據(jù)傾斜”(湖表場景下)每個每個subtaskbucket數(shù)據(jù)場景的數(shù)據(jù)傾斜(兩階段聚合)set'table.optimizer.agg-phase-st預(yù)聚合,避免下游的熱點導(dǎo)致某一節(jié)點熱點預(yù)聚合,避免下游的熱點訂單信息·主鍵為訂單ID訂單信息 訂單寬表買家信息回刷數(shù)據(jù)產(chǎn)生變更 訂單寬表訂單寬表全鏈路無狀態(tài)過站信息過站信息湖倉升級:Uniflow構(gòu)建流批一體實時湖倉趨勢洞察趨勢洞察引入數(shù)倉數(shù)據(jù)湖引領(lǐng)原生湖倉實時化AI化企Structured,Semi-StructuredandUnstructuredDExternalData核心洞察: ·湖倉架構(gòu)(Lakehouse),業(yè)界及企業(yè)認(rèn)可,能力 ·湖倉架構(gòu)(Lakehouse)開源開放,兼容流能力 阿里云騰訊云為云亞信科技新華三亞信科技數(shù)新網(wǎng)絡(luò)柏瑞數(shù)據(jù)圍繞湖倉架構(gòu)(Lakehouse)元數(shù)據(jù)及數(shù)據(jù)Source:IDC,IDCMarketScape:中國實時湖倉市場2024年廠商評估,#CHC51768224成本6②流讀流寫方案原理 核心優(yōu)勢④批讀批寫調(diào)度工作流等能力開發(fā)測試開發(fā)生產(chǎn)隔離動態(tài)CEP流/批作業(yè)臨時查詢數(shù)據(jù)查詢數(shù)據(jù)攝取作業(yè)運維調(diào)度智能調(diào)優(yōu)權(quán)限管理資源隊列狀態(tài)管理6重復(fù)開發(fā)重復(fù)存儲業(yè)務(wù)層計算層批作業(yè)批計算批量讀取業(yè)務(wù)層流作業(yè)業(yè)務(wù)層流作業(yè)流計算批計算流計算流計算流式消費批讀(File)流讀(ChangeLog)一套存儲存儲層攝入層離線同步實時同步存儲層攝入層數(shù)據(jù)攝取數(shù)據(jù)存儲數(shù)據(jù)計算 計算引擎數(shù)據(jù)攝取開發(fā)及運行計算引擎數(shù)據(jù)攝取開發(fā)開發(fā)流批作業(yè)不區(qū)分#結(jié)果表對接DLF2.0統(tǒng)一鑒權(quán),無需用戶名密碼perties.dlf.catalog.instance.idperties.dlf.catalog.instance.id8ngrr整庫同步6處理處理 ·ApachePaimon內(nèi)置Sink,屏蔽復(fù)雜性 自自自_she-100101環(huán)境測試 ·兩億條:3臺ecs.g6.2xlarge(24 Nexmark(一億條記錄)阿里云流計算引擎FlinkEngine是ApacheFlink性能的8.4倍各各個Query的運行時間(越低越好)□阿里云流計算FlinkEngine引擎運行總時間(越低越好)Nexmark(兩億條記錄)阿里云流計算引擎Flash是ApacheFlink性能的5.7倍各個Query的運行時間(越低越好)運行總時間(越低越好) 阿里云流計算引擎Flash 吾苦含喜rr全鏈路企業(yè)級穩(wěn)定全鏈路企業(yè)級穩(wěn)定高可用性穩(wěn)定性高可用保障存儲層基礎(chǔ)設(shè)施層任務(wù)零中斷資源動態(tài)調(diào)配自適應(yīng)彈性擴縮容業(yè)務(wù)零感知數(shù)據(jù)零丟失災(zāi)難時跨機房可恢復(fù)秒級作業(yè)快恢、毫秒級作業(yè)延遲秒級極致彈性,高吞吐低延遲自動化運維、彈性資源調(diào)配自動化運維、彈性資源調(diào)配RTO分鐘級6業(yè)務(wù)層邏輯不統(tǒng)一業(yè)務(wù)開發(fā)不統(tǒng)一計算引擎不統(tǒng)一服務(wù)層存儲統(tǒng)一業(yè)務(wù)產(chǎn)品層流批一體存儲層痛點問題:①應(yīng)用層效率低接邏輯(同比、環(huán)比、二次加工等),搭建效率低,且容易出錯②開發(fā)、運維、資源成本高流批存儲隔離(面向不同寫入場景),提供的數(shù)據(jù)服務(wù)③數(shù)據(jù)質(zhì)量難保證66服務(wù)層存儲統(tǒng)一埋點數(shù)據(jù)業(yè)務(wù)產(chǎn)品層埋點數(shù)據(jù)數(shù)據(jù)平臺-流批一體架構(gòu)營銷大盤行為分析風(fēng)控決策Al推薦-依據(jù)數(shù)據(jù)新鮮度自動更新關(guān)鍵實時業(yè)務(wù)實現(xiàn):流批一體架構(gòu)升級業(yè)務(wù)收益:·實時和離線數(shù)據(jù)業(yè)務(wù)邏輯一體化,口徑天然保持一致·阿里內(nèi)部團隊開發(fā)效率提升4-10倍·白天和晚上集群資源得到削峰填谷,資源成本節(jié)省1倍時效性任意Quary歷史;分區(qū)訪問日志歷史;分區(qū)訪問日志標(biāo)簽數(shù)據(jù)交易數(shù)據(jù)IOT數(shù)據(jù)ONorders.customer_id=customers.id;業(yè)務(wù)時效性根據(jù)新鮮度自動選擇流批模式自動選擇流批模式自動刷新結(jié)果數(shù)據(jù)攝入ONorders.customer_id=customers.id;ALTERTABLEcustomer_orT+1處理業(yè)務(wù)價值T+1處理小文件管理ONorders.customer_id=customers.i新一代流批新一代流批成本成本MaterializedTable幫你智能選擇時效性小時級分鐘級秒級全量數(shù)據(jù)增量數(shù)據(jù)周期調(diào)度周期調(diào)度低中高新鮮度流計算批計算6單表峰值:非主鍵表:4000單表峰值:非主鍵表:4000w/s主鍵表:1200w/s存儲規(guī)模:50PB+存儲規(guī)模:50PB+介紹快手Flink的規(guī)模和發(fā)展過程流批一體演進介紹快手流批一體演進的三個階段未來規(guī)劃介紹未來湖倉規(guī)劃未來規(guī)劃介紹未來湖倉規(guī)劃介紹數(shù)倉流批一體的方案和收益介紹快手Flink的規(guī)模和發(fā)展過程集群規(guī)模AZ多AZ保障湖倉&資源統(tǒng)一湖倉&資源統(tǒng)一·灰度升級·指標(biāo)看板·監(jiān)控告警·推廣應(yīng)用設(shè)介紹快手流批一體演進的三個階段開發(fā)&維護成本高計算&存儲成本高計算口徑難以拉齊2020~2021時,用戶自發(fā)使用Flink做流批一體嘗試,只替換Flink中的Source和Sink來減少代碼開發(fā)量。基于FlinkSQL引擎來統(tǒng)一流和批的數(shù)據(jù)處理,減少開發(fā)維護。湖倉一體階段總結(jié)●配置化開發(fā):業(yè)務(wù)代碼框架支持配置化切換Source●維護成本低:代碼維護相對方便,流批一套代碼級別)級別)●資源開銷大:流模式,算子實現(xiàn)不是批場景下最優(yōu)●重試成本高:流模式,task掛掉,整個作業(yè)重試其他存儲其他存儲制定上線流程,即如何保證上線不出問題。解決生產(chǎn)使用中的穩(wěn)定性問題,比如慢節(jié)點、資源搶占等。性能影子作業(yè)語法校驗執(zhí)行計劃校驗數(shù)據(jù)一致性資源&耗時對比語法校驗執(zhí)行計劃校驗數(shù)據(jù)一致性資源&耗時對比權(quán)限控制測試階段影子測試階段影子低優(yōu)作業(yè)作業(yè)選取低優(yōu)作業(yè)作業(yè)選取應(yīng)用層Adhoc平臺ETL調(diào)度平臺報表平臺JDBC/Be應(yīng)用層計算資源計算資源存儲資源總結(jié)●業(yè)務(wù)透明:無需業(yè)務(wù)介入,完全兼容Hive/SparkBatchSQL能力●引擎能力增強:完善了FlinkBatchSQL能力●資源開銷大:影子任務(wù)雙跑資源開銷巨大●人力成本高:引擎行為、語義、casebycase解決本高本高。事務(wù)任務(wù)和寫入任務(wù)的并發(fā)控制等。索引通常是format自己的索引能力,相對較弱,對更新和讀取影響都很大,效率較低。上計算時間,數(shù)據(jù)新鮮度較低。業(yè)務(wù)應(yīng)用場景離線場景離線場景√成本降低湖倉一體階段合并前一日全量數(shù)據(jù)全量快照表全量快照表全量快照表全量快照表全量快照表實時同步全量快照表 湖倉一體階段k數(shù)據(jù)同步k數(shù)據(jù)同步ODS層ODS層埋點數(shù)據(jù)埋點數(shù)據(jù)√自研同步引擎(不支持動態(tài)分區(qū))√計算資源、存儲資源開銷大湖倉一體階段數(shù)據(jù)排序數(shù)據(jù)排序√下游業(yè)務(wù)無感切換時效提升明顯>元素曝光平均提效2h30min鏈路平均提效30分鐘鏈路平均提效30分鐘湖倉一體階段數(shù)據(jù)均衡數(shù)據(jù)傾斜數(shù)據(jù)均衡總結(jié)r吞吐-輸入13:4520:1520:25優(yōu)化后√避免因為最慢Taskflush數(shù)據(jù)導(dǎo)致的斷流提升平均吞吐20%第一個Task-flush完之后,則startnext√減少HDFS訪問,減少等待,疊加Instant并行批引擎流Event批Event批引擎流Event批Event流Entity批Entity√成本:存儲不統(tǒng)一√成本:存儲不統(tǒng)一,存儲成本高&用戶數(shù)據(jù)時延高數(shù)據(jù)時延高行過濾行過濾實時寫入批量讀寫---行列過濾--多流unionKAI實時訓(xùn)練√成本:存儲統(tǒng)一,節(jié)約存儲成本&降低√性能:支持列裁剪&batchsize靈活√效率:數(shù)據(jù)新鮮度在秒級(20~30秒)湖倉一體階段湖倉一體階段√結(jié)構(gòu)簡單,模型簡化√模型復(fù)用度高,下游依賴效率提高查詢效率高,節(jié)約了join環(huán)√多次大數(shù)據(jù)量的join√產(chǎn)出時效2.5h左右√留存標(biāo)簽存在重復(fù)計算21did當(dāng)天存在did當(dāng)天不存在did歷史存在更新數(shù)據(jù)保持不變did歷史不存在丟棄33介紹數(shù)倉流批一體的方案和收益離線時效日益緊張,基線破線風(fēng)險是有發(fā)生底層處理邏輯拉齊,解決當(dāng)前指標(biāo)微小差異1~2小時延遲秒級延遲小時延遲秒級延遲同步同步秀66去重上游任務(wù)Failover或者中間件重發(fā)數(shù)據(jù)事務(wù)一般通過兩階段提交,保障數(shù)據(jù)不會重復(fù)DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計-方案考量因素數(shù)據(jù)大小數(shù)據(jù)大小業(yè)務(wù)特性數(shù)據(jù)質(zhì)量業(yè)務(wù)數(shù)據(jù)種類數(shù)據(jù)吞吐是否有主鍵數(shù)據(jù)質(zhì)量要求數(shù)據(jù)重復(fù)原因客戶端埋點數(shù)據(jù)巨大,大幾百萬/S+業(yè)務(wù)上并沒有明確主鍵,單獨設(shè)計任務(wù)Failover造成的重復(fù)服務(wù)端Binlog數(shù)據(jù)一般,大幾有主鍵高數(shù)據(jù)本身主鍵重復(fù)方案數(shù)據(jù)吞吐時延優(yōu)勢事務(wù)寫1大事務(wù)時延小大容量作業(yè),客戶端埋點數(shù)據(jù)易保障,支持?jǐn)?shù)據(jù)量大事務(wù)寫大事務(wù)時延小,客戶端埋點數(shù)據(jù)支持多層級鏈路,支持?jǐn)?shù)據(jù)量較大,但只能支持去重取第一條能力,沒有回撤能力離線去重小增加額外離線處理時延狀態(tài)變化多,數(shù)據(jù)量可接受實現(xiàn)簡單,支持離線各種語義,數(shù)據(jù)精準(zhǔn),業(yè)務(wù)場景復(fù)雜的場景數(shù)據(jù)湖去重小增加額外數(shù)據(jù)合并時延據(jù)實現(xiàn)簡單,可以支持最后一條更新語義DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計-方案選擇提效時長選擇方案影響直接下游時效作業(yè)數(shù)下游作業(yè)數(shù)80分鐘+事務(wù)寫直播送禮DWD60分鐘+離線去重(數(shù)據(jù)湖去重)直播播放DWD50分鐘+Flink去重+事務(wù)寫直播曝光DWD90分鐘+Flink去重+事務(wù)寫直播開播DIM60分鐘+數(shù)據(jù)湖去重本地元素曝光DWD180分鐘+離線去重(小時內(nèi))總數(shù)對比去重總數(shù)對比主鍵重復(fù)率對比主鍵關(guān)聯(lián)率對比明細(xì)字段對比核心指標(biāo)對比離線數(shù)倉的穩(wěn)定性=Max(離線穩(wěn)定性,實時穩(wěn)定性)自我覆蓋實時實時直接直接DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計-規(guī)?;磥硪?guī)劃介紹未來湖倉規(guī)劃未來規(guī)劃性能減少HDFS依賴實時寬表拼接探索更多的業(yè)務(wù)場景調(diào)度平臺原有周期性調(diào)度策略不滿足compaction場景的需要,當(dāng)前依賴實時掃描發(fā)現(xiàn)不夠優(yōu)雅,未來未來規(guī)劃力非常大,一次構(gòu)建重復(fù)使用。品流批統(tǒng)一存儲場景越來越多,每個Server的方式資源浪費會比較嚴(yán)重,會有服務(wù)化按需觸發(fā)。統(tǒng)一服務(wù)有利于資源利用和迭代效劉俊宏|技術(shù)專家架構(gòu)細(xì)節(jié)與性能表現(xiàn)架構(gòu)細(xì)節(jié)與性能表現(xiàn)特征數(shù)據(jù)生產(chǎn)數(shù)倉寬表生產(chǎn)寬表生產(chǎn)作業(yè)列1列2列3列5列6列1列2列3列4列5列6特征平臺、寬表生產(chǎn)提出列式生產(chǎn)■面向生產(chǎn)的schema裁剪■支持不跨列族的謂詞下推離線明細(xì)數(shù)據(jù)生產(chǎn)DB類數(shù)據(jù)導(dǎo)入數(shù)倉更新是核心場景之一自研方案HIDI,LSMTree業(yè)務(wù)需求■批流口徑統(tǒng)一■降本增效■降本增效201920202021特征數(shù)據(jù)生產(chǎn)資源和耗時降低90%,消除存儲冗余商企通長周期訂單數(shù)據(jù)同步間提前4小時+批流沖突■數(shù)據(jù)運維資源效率問題和挑戰(zhàn)相同數(shù)據(jù)量的前提下流寫產(chǎn)出文件數(shù)越多流讀吞吐越低全量表快照表增量快照表快照表dt=20241103dt=20241103架構(gòu)細(xì)節(jié)與性能表現(xiàn)存量數(shù)據(jù)4121312存量數(shù)據(jù)4121312join增量數(shù)據(jù)增量數(shù)據(jù)存量數(shù)據(jù)幕碑標(biāo)識第三行12423124優(yōu)勢1倍增量+14 1211231234163524191以支持點查能力4_b419A1Bb121A1Bb1211 模式讀瓶頸LSMTree文件數(shù)量HUDI增量數(shù)據(jù)量寫瓶頸可拓展功能更豐富列式生產(chǎn)改造經(jīng)驗多支持,不關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)符合預(yù)期(自研)批支持MVCC和亂序?qū)懭雐ndexing、compact與rescal策略、謂詞下推模式、列式生產(chǎn)方案可復(fù)用批流兼容流讀寫分片1流讀寫分片1批讀分片2批讀分片3批讀分片0批讀分片1文件格式■行存文件2parquet文件1parquetselect*fromtblwherev<5多模式快照■時序分區(qū)字段■沒有業(yè)務(wù)意義■分區(qū)字段值線性增長■數(shù)據(jù)按時序順序?qū)懭搿龇謪^(qū)間數(shù)據(jù)有繼承關(guān)系■業(yè)務(wù)分區(qū)字段■也有時間類型字段作為分區(qū)■分區(qū)間數(shù)據(jù)沒有繼承關(guān)系■如訂單創(chuàng)建時間■讀寫邏輯■按查詢需求,選擇timelinedeltacommit數(shù)據(jù)運維■上下游批運維拆分DAG流運維job1job1nator寫入數(shù)據(jù)8'消費并執(zhí)行木木5通過sendEventTo9更新各writestatus從新到舊4內(nèi)存壓力達到閾值寫出文件流寫木………3……………基礎(chǔ)讀寫場景對比0流讀009單CUQPS663300作業(yè)吞吐MB/s8流寫吞吐隨flink并發(fā)線性增長08bucket落0歷史數(shù)據(jù)OGBQPS歷史數(shù)據(jù)10GBQPS歷史數(shù)據(jù)50GBQPS歷史數(shù)據(jù)100GBQPS橫向擴展能力持不變時,spark作業(yè)完成時間metaserver時延受文件數(shù)量線性0250批讀吞吐受單并發(fā)文件數(shù)量線性影響0流讀吞吐受文件數(shù)量線性影響00批流一體數(shù)倉規(guī)劃Sook■引擎間調(diào)優(yōu)參數(shù)不兼容Sook■平臺做引擎專家■沒有銀彈能覆蓋全部數(shù)據(jù)特征、成本和時效性需求■兼容批流讀寫模式■SQL算子增量化改造■明細(xì)■列式生產(chǎn),特定場景可局部計算笛卡爾積算子改造40I112U212U12-Ds000111222122算子改造■采樣selectpercentile(amount,0.5)5-51113U224U13D增量明細(xì)數(shù)據(jù)最終明細(xì)數(shù)據(jù)3士士006Zz332314265士4414255556最終采樣結(jié)果15offset35存量明細(xì)數(shù)據(jù)存量采樣結(jié)果031152233算子改造■可批流切換■明細(xì)+多模式快照■隨算子實現(xiàn)進度推進■表粒度對業(yè)務(wù)透明遷移遷移前遷移中遷移后羅宇俠|阿里云高級開發(fā)工程師ApacheFlinkCommitter架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲架構(gòu)分鐘級數(shù)據(jù)新鮮度分鐘級數(shù)據(jù)新鮮度,夠了嗎?分鐘級數(shù)據(jù)新鮮度,夠了嗎?數(shù)據(jù)新鮮度的重要性數(shù)據(jù)準(zhǔn)確性業(yè)務(wù)決策反應(yīng)能力和決策質(zhì)量數(shù)據(jù)完整性數(shù)據(jù)一致性五如果我需要秒級數(shù)據(jù)新鮮度引入流存儲=》湖流割裂秒級秒級分鐘級每套存儲的故障排查,監(jiān)控,升級數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)一致性數(shù)據(jù)治理列存,高效列裁剪主鍵表高效點查主鍵表實時更新統(tǒng)一流湖存儲r流讀 rrrrr一分鐘后一分鐘后一秒內(nèi)數(shù)倉分層每層表數(shù)據(jù)新鮮度一致,不受層級影響若干個6邁向秒級數(shù)據(jù)新鮮度降低維護,降低維護,數(shù)據(jù)重復(fù)存儲的成本r維表root@serverl:-/tluss(ssh)未來規(guī)劃未來規(guī)劃未來規(guī)劃騰訊大數(shù)據(jù)天穹流批一體建設(shè)之背景介紹·獨立的實時數(shù)據(jù)處理流,可滿足較靈活的實·流批數(shù)據(jù)分開存儲,難以相互引用·規(guī)模受限,在全量數(shù)據(jù)湖的基礎(chǔ)上,仍需要有獨立Lakehouse的技術(shù)2019年推出后,提供了湖內(nèi)數(shù)據(jù)的·架構(gòu)更加簡單,數(shù)據(jù)湖技術(shù)棧同時實現(xiàn)實時增量和離線批量數(shù)據(jù)加工開發(fā)、存儲成本低DataSourcespresto》spok0010010001000011111111118ss關(guān)鍵特性透明化流批數(shù)據(jù)的存儲和轉(zhuǎn)慣和體驗流批統(tǒng)一流批統(tǒng)一實時性與批處理的統(tǒng)一,支持實時數(shù)據(jù)流處理和歷史數(shù)據(jù)批易用性低開發(fā)和運維成本實時性實時性的流讀能力數(shù)據(jù)一致性圖一致性查詢加速查詢加速提升業(yè)務(wù)回溯歷史數(shù)據(jù)效率和離線批查性能可快速兼容新出現(xiàn)的開源方案,架構(gòu)支持水平擴展支持容錯機制,確保數(shù)據(jù)不丟失和計算結(jié)果準(zhǔn)確秒級/毫秒級流讀順序性低延遲流寫秒級/毫秒級流讀順序性低延遲流寫基礎(chǔ)能力解決開源數(shù)據(jù)湖方案中數(shù)據(jù)延遲高的問題,提供優(yōu)秀的批讀、批寫能力,以及秒級/毫秒級的流讀、流寫能力,同時保證了秒級別的數(shù)據(jù)可見性。提供EOS語義、事務(wù)、順序性保證、訂閱模式、生命周期管理以及權(quán)限等功能。兼容數(shù)據(jù)湖保留了Iceberg、Paimon等數(shù)據(jù)湖的行為和使用習(xí)慣,提供了Catalog、DB、Table等語義,并提供了兼容Iceberg、Paimon等數(shù)據(jù)湖格式的統(tǒng)一客戶端。使得已經(jīng)使用數(shù)據(jù)湖的用戶可以無縫切BSSBSS核心能力提供低延遲的批流一體存儲BSS提供包括但不限于流上數(shù)據(jù)的點查、范圍查、有效過濾、批詢、多數(shù)據(jù)視圖等能力。目前BSS已經(jīng)跟天穹內(nèi)等組件打通,用戶可在天穹大數(shù)據(jù)體系下使用BSS。APPClients目目目 123sparksparkSELECT*FROMorders$iceberg$SELECT*FROMorders$iceberg$histo……4.Authentication&Authorizpayload-sizeevent_time事務(wù)日志事務(wù)日志5.1廣播提交9任務(wù)執(zhí)行頻率資源分配資源分配JOBJOB組裝③③⑤⑤002name_12221n33102341212987654327.5—7.43writetps0BSSIceberg非分區(qū)iceberg分區(qū)Paimon非分區(qū)Paimon分區(qū)240.2271.20小消息吞吐(單條消息213B)大消息吞吐(單條消息4MB)65655.35.324KBmessage吞吐對比(MB/s)0NONENONE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論