FFA2024分論壇-流式湖倉 合輯-部分2_第1頁
FFA2024分論壇-流式湖倉 合輯-部分2_第2頁
FFA2024分論壇-流式湖倉 合輯-部分2_第3頁
FFA2024分論壇-流式湖倉 合輯-部分2_第4頁
FFA2024分論壇-流式湖倉 合輯-部分2_第5頁
已閱讀5頁,還剩218頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

Row:(pk3,nil,f2)writeSortBuffer:(pk3,nil,f2),(pk2,f1,nil),(pk3,f1,nil),(pk1,nil,f2),(pk2,nil,f2),(pk1,f1,nil)sortSortBuffer:(pk1,f1,nil),(pk1,nil,f2),(pk2,f1,nil),(pk2,nil,f2)(pk3,f1,nil),(pk3,nil,f2)mergeFile:(pk1,f1,f2),(pk2,f1,f2)(pk3,f1,f2)flush/compact}1col_0col_0col_1……………..PackChangelogReaderPackChangelogReaderpk1,f1b,f2b,f1a,f2apk1,f1b,f2b,f1a,f2acol_0col_1[pk_col][pk_col][pk_col][pk_col][col_1]BinlogTableAsyncRefreshAsyncRefreshKeyValueFormatPartialcacheLookup DataFile MetaFullcacheLookupFullcacheLookupStateSnapshotrefreshasynchronousSnapshotOperatorOperatorInputStreamOperatorOperatorBucketPartitionerOperatorBucket1Bucket2BucketBucket1Bucket2Bucket6Bucket4BucketBucket6Bucket4spark.paimon.${config_key}SETspark.paimon.scan.timestamp-mills=ts1;spark.paimon.${catalogName}.${dbName}.${tableName}.${config_key}SETspark.paimon.scan.timestamp-mills=ts1;SETspark.paimon.*.default.T1.scan.timestamp-mills=ts2;數(shù)據(jù)質(zhì)量(Data數(shù)據(jù)質(zhì)量(Dataquality)查詢性能(Performance)實時分析(Realtime)數(shù)據(jù)治理(Governance)開放生態(tài)(Open)靈活統(tǒng)一(Singlesourceoftruth)可擴展性(Scalability)高性價比(Costefficiency)極速統(tǒng)一極速統(tǒng)一簡單易用…StarRocks主鍵表:高性能實時寫入和更新 ↓! !!!數(shù)據(jù)湖查詢加速WarehouseLocalCacheStarRocksPaimonLocalCacheAllinPaimonStarRocks數(shù)據(jù)湖查詢加速WarehouseLocalCacheStarRocksPaimonLocalCacheAllinPaimonStarRocksStarRocksStarRocksPaimonSinkPaimonSinkPaimon數(shù)據(jù)湖倉分層建模WarehouseADSStarRocksPaimon中?數(shù)據(jù)量vs中?數(shù)據(jù)量vs超?數(shù)據(jù)量數(shù)倉為基礎vs數(shù)據(jù)湖為基礎封閉內(nèi)表格式封閉內(nèi)表格式vs開放湖表格式開箱即?開箱即?vs中等運維難度計算引擎統(tǒng)?計算引擎統(tǒng)?vs?湖多引擎StarRocks能?vs其他引擎能?StarRocks存算分離集群Warehouse-2查詢?nèi)蝿誗tarRocks存算分離集群Warehouse-2查詢?nèi)蝿誗tarRocksControlPlaneStarOS元倉分析DLF湖表元數(shù)據(jù)等StarRocksStarRocksSR的主鍵模型基于deleteandinsert模式實現(xiàn)SR通過主鍵索引定位原來這條記錄打個刪除標記,update記錄appendPartialUpdate解決業(yè)務部分列更新的需求客戶問題客戶問題Schema變更操作繁瑣阿里云StarRocks與Flink團隊推出的CTAS&CDAS功能,StarRocks建表、Flink-CDC任務創(chuàng)建、實時同步Schema變更StarRocks側提供了Begin、Prepare、Commit等接口StarRocks湖倉融合數(shù)倉:業(yè)務數(shù)據(jù)通過Flink加工后實時同步給StarRocks客戶問題客戶問題這也是我們遷移到StarRocks的主要原因FlinkStarRocks湖倉融合StarRocks湖倉融合數(shù)據(jù)湖:Paimon性能好、維護成本低客戶問題StarRocks數(shù)據(jù)湖分析StarRocks數(shù)據(jù)湖分析實時湖分析:PaimonvsHudi,時效性提StarRocks相對Trino提升3-10倍+客戶問題查詢查詢THANKYOU業(yè)務背景架構設計阿里媽媽是阿里巴巴集團旗下的一家數(shù)字營銷平臺,主要為商家3.數(shù)據(jù)驅(qū)動增長戰(zhàn)略:通過數(shù)據(jù)分析支4.提供技術服務:為阿里媽媽全線廣告客戶提供營銷洞察、策略制定2.優(yōu)化預算:實時監(jiān)控可以幫助廣告主合理分配預算,將3.市場反應:實時分析能讓廣告主了解市場4.個性化營銷:基于實時洞察,廣告主可以實現(xiàn)更加精準的I建設中建設中備主name>`.sys.remove_orphan_files('<datab 1.建表參數(shù)設置3.開啟異步compaction1.建表參數(shù)設置2.追數(shù)適當調(diào)大sink并行度THANKYOU3.數(shù)據(jù)驅(qū)動增長戰(zhàn)略:通過數(shù)據(jù)分4.提供技術服務:為阿里媽媽全線支持。請掃微信?維碼采用湖Paimon方案入湖業(yè)務查詢?nèi)牒I(yè)務查詢THANKYOU湖倉一體湖倉一體大數(shù)據(jù)搜索AI湖倉一體大數(shù)據(jù)搜索AI湖倉一體0001010101100010110101011010多種數(shù)據(jù)形態(tài)多種數(shù)據(jù)形態(tài)多元計算方式提升訓練數(shù)據(jù)準備效率提升訓練數(shù)據(jù)準備效率(Hive,Spark,StarRocks,Trino,…)(Hive,Spark,StarRocks,Trino,…)Thrift協(xié)議(開源兼容)REST協(xié)議(湖表兼容)集中式的統(tǒng)一存儲(Singlesourceoftruth)BinlogAccesslogFlinkBinlogAccesslogFlinkCDCFlinkVVP???支持按Catalog/DB/Table進行湖表compaction?支持按Catalog/DB/Tabl?支持按Catalog/DB/Table清理臨時文件(Hive,Spark,StarRocks,Trino,…)Apache米用戶場景價值與優(yōu)勢Database①一鍵入湖CTASCDASQueriesQueriesQueries②流讀流寫flinkQueriesQueriesQueries②流讀流寫flinkspark④AD-HOC查詢ApachePaimonApachePaimonApachePaimonApachePaimonApachePaimonOpenLakeOpenLake全鏈路實時化流批一體化開放兼容主流分析引擎THANKYOU大數(shù)據(jù)負責人,負責整裝場景下的大數(shù)據(jù)開發(fā)Part1、家裝行業(yè)特點及其實時數(shù)據(jù)解決方案QQ“孫小圣”例會/述職/盤客Part2、流式湖倉在貝殼家裝業(yè)務中的探索與實踐Lambda階段確客直簽確客直簽見面認購見面認購量房到店量房到店如次數(shù)、首末時間等聚合型結果,部分更新模型聚合模型聚合模型THANKYOU湖倉架構模式的思考數(shù)據(jù)湖系統(tǒng)能力建設數(shù)據(jù)湖關鍵能力建設數(shù)據(jù)湖在數(shù)據(jù)領域的應用未來展望?任務開發(fā),測試/灰度,鏈路管理/數(shù)據(jù)管理數(shù)據(jù)入湖多云存儲支持多維管理flinkactionjar writetaskwritetask 開啟/關閉內(nèi)存托管開啟/關閉內(nèi)存托管突發(fā)數(shù)據(jù)下寫失敗臟數(shù)據(jù)控制臟數(shù)據(jù)控制減少寫失敗限流控制減少寫限流控制減少寫?回放容量?回放時間?topic管理?topic清理?從0開始構建狀態(tài)時間久?從0開始構建狀態(tài)浪費資源topic------------------------>paimon↓topic?分區(qū)和bucket保持一致?提前N天錄入數(shù)據(jù)到paimonstate?壓測任務保持相同UID?整體鏈路使用湖表?支持實時指標+準實時指標+離線計算指標融合告警?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論