版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于湖倉一體構建數(shù)據中臺架構技術創(chuàng)新,變革未來目錄一、數(shù)據湖、數(shù)據倉庫與數(shù)據中臺二、湖倉一體的架構介紹三、湖倉一體上數(shù)據中臺的探索與實踐什么是數(shù)據湖?AWS的定義:A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different type
2、s of analyticsfrom dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.數(shù)據湖是一個集中式存儲庫,允許您以仸意規(guī)模存儲所有結構化和非結構化數(shù)據。您可以按原樣存儲數(shù)據(無需先對數(shù)據進行結構化處理),幵運行不同類型的分析 從控制面板和可視化到大數(shù)據處理、實時分 析和機器學習,以指導做出更好的決策。什么是數(shù)據倉庫?AWS的定義:A data warehouse is a central rep
3、ository of information that can be analyzed to make more informed decisions. Data flows into a data warehouse from transactional systems, relational databases, and other sources, typically on a regular cadence. Business analysts, data engineers, data scientists, and decision makers access the data t
4、hrough business intelligence (BI) tools, SQL clients, and other analytics applications.Data and analytics have become indispensable to businesses to stay competitive. Business users rely on reports, dashboards, and analytics tools to extract insights from their data, monitor business performance, an
5、d support decision making. Data warehouses power these reports, dashboards, and analytics tools by storing data efficiently to minimize the input and output (I/O) of data and deliver query results quickly to hundreds and thousands of users concurrently.數(shù)據倉庫是信息(對其進行分析可做出更明智的決策)的中央存儲庫。通常,數(shù)據定期從事務系統(tǒng)、關系數(shù)
6、據庫和其他來源流入數(shù)據倉庫。業(yè)務分析師、數(shù)據工程師、數(shù)據科學家和決策者通過商業(yè)智能 (BI) 工具、SQL 客戶端和其他分析應用程序訪問數(shù)據。數(shù)據和分析已然成為各大企業(yè)保持競爭力所不可或缺的部分。企業(yè)用戶依靠報告、控制面板和分析工具從其數(shù)據中獲得洞察力、監(jiān)控企 業(yè)績效以及更明智地決策。數(shù)據倉庫通過高效地存儲數(shù)據以便最大限度地減少數(shù)據輸入和輸出(I/O),幵快速地同時向成千上萬的用戶 提供查詢結果,為這些報告、控制面板和分析工具 由數(shù)據倉庫提供支持。數(shù)據湖與數(shù)據倉庫的區(qū)別與協(xié)作關系?特性數(shù)據倉庫數(shù)據湖數(shù)據來自事務系統(tǒng),運營數(shù)據庫和業(yè)務線應用程序的非關系數(shù)據所有數(shù)據,包括結構化、半結構化和非結構化
7、Schema通常在數(shù)據倉庫實施之前設計,但是也可以在分析時編寫(寫入型 Schema 或讀取型 Schema)寫入在分析時(讀取型 Schema)性價比使用本地存儲獲得最快的查詢結果更快地獲得查詢結果,存儲成本低,計算和存儲分離數(shù)據質量可作為重要事實依據的高度監(jiān)管數(shù)據仸何可以或無法進行監(jiān)管的數(shù)據(例如原始數(shù)據)用戶業(yè)務分析師、數(shù)據科學家和數(shù)據開發(fā)人員業(yè)務分析師(使用監(jiān)管數(shù)據)、數(shù)據科學家、數(shù)據開發(fā)人員、數(shù)據 工程師和數(shù)據架構師分析批處理報告、BI 和 可視化機器學習、探索性分析、數(shù)據發(fā)現(xiàn)、流處理、運營分析、大數(shù)據和特征分析什么是數(shù)據中臺?數(shù)據應用(前臺)數(shù)據中臺(交換、開發(fā)、治理、服務) 于基
8、礎設施(后臺)數(shù)據中臺是一套可持續(xù)“讓企業(yè)的數(shù)據用起來”的機制,是一種戰(zhàn)略選擇和組織形式,是依據 企業(yè)特有的業(yè)務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續(xù)不斷把 數(shù)據變成資產幵服務于業(yè)務的機制。數(shù)據湖、數(shù)據倉庫與數(shù)據中臺能否融合?數(shù)據湖數(shù)據倉庫數(shù)據中臺數(shù)據湖、數(shù)據倉庫與數(shù)據中臺能否融合?數(shù)據湖數(shù)據倉庫數(shù)據中臺原始數(shù)據與格式,主要負責集中式數(shù)據存儲Golden Data,解析后的高價值數(shù)據,提供存儲、加工、分析能力關注數(shù)據價值、數(shù)據業(yè)務、組織架構、效能等目錄一、數(shù)據湖、數(shù)據倉庫與數(shù)據中臺二、湖倉一體的架構介紹三、湖倉一體上數(shù)據中臺的探索與實踐數(shù)據平臺架構的演進第一代數(shù)倉平臺第
9、二代兩層的湖倉一體的平臺第三代LakeHouse湖倉一體的平臺Snowflake湖倉一體最成功的商業(yè)案例HOT!Snowflake設計思想解讀Shared-Nothing 架構 - Shared-Data 架構存儲計算分離:統(tǒng)一存儲、彈性計算數(shù)倉即服務:SaaS化體驗,共享存儲基礎設施,計算多租戶持續(xù)高可用:在線升級,失敗容錯結構化延伸到半結構化數(shù)據的處理支持Shared-nothing架構(優(yōu)勢)Table 被跨節(jié)點進行水平分區(qū)每個節(jié)點有自己的本地存儲每個節(jié)點只處理自己本地表分區(qū)的數(shù)據清晰簡潔的處理機制對于“星型”模型有良好的擴展性數(shù)倉領域的典型架構NetworkCPUMemoryDiskW
10、ork NodeShared-nothing架構(劣勢)耦合了計算與存儲資源彈性集群擴縮容需要重“分布”很多數(shù)據沒法簡單卸載不用的計算資源受限的可用性角色變化(失敗、升級) 影響性能幵可能導致服務整體不可用同構的資源 VS 異構的負載批量加載、報表、探索與分析NetworkCPUMemoryDisk第三代真正湖倉一體的架構LakeHouse可靠性數(shù)據新鮮度高級分析能力的支持數(shù)據歸屬的成本LakeHouse的核心設計要素可靠的湖上數(shù)據管理支持機器學習與數(shù)據科學高性能的SQL引擎T3出行湖倉一體的架構Data Lake StorageData Lake ManagerCacheAd-HocCach
11、eOLAPCacheWarehouseCacheMLMetadataInfrastructure ManagerSecurityQueryManagerAPIServiceAuthentication & access control所有的數(shù)據存于一處虧補依賴獨立擴展的存儲與計算即開即用,隨時關閉的“計算”每個集群(理論上)可以訪問全部數(shù)據目錄一、數(shù)據湖、數(shù)據倉庫與數(shù)據中臺二、湖倉一體的架構介紹三、湖倉一體上數(shù)據中臺的探索與實踐企業(yè)數(shù)據的幾個應用場景有銀彈吒?H y b r i dTr a n s a c t i o n / A n a l y t i c s P ro c e s s i n
12、 g( H TA P )數(shù)據來源于業(yè)務系統(tǒng)(TP)需要事務機制保證ACID需要保證TP和AP的一致性(數(shù)據、模 型,大量同步)適合模型簡單,簡單分析場景,以TP 模型解決AP的問題一個系統(tǒng),兩種查詢場景(分 析、服務)無事務開銷(鎖、同步)行為數(shù)據、日志數(shù)據,比TP高數(shù) 量級,高嚇吐寫入以數(shù)倉模型(抽象、復用、標準)解決數(shù)據服務的問題Transaction隨機讀寫、支持事務ACID、鎖、面向DBAServing高幵發(fā)、查詢簡單、快速,面向 在線應用(to C)大規(guī)模數(shù)據掃描、過濾、匯總,語義層,分 布式,列式存儲,面向分析師AnalyticsH y b r i dS e r v i n g /
13、 A n a l y t i c s Pro c e s s in g (HSAP )數(shù)據中臺涵蓋的主要數(shù)據場景Serving(應用)OLAP數(shù) 據 中 臺T3數(shù)據中臺的探索:HSAP的理念HSAP:Hybrid Serving &Analytical Processing數(shù)據報告(Analytics)數(shù)據看板(S&A)在線應用(Serving)數(shù)據應用前臺OLAPServing湖倉一體的后臺架構數(shù)據中臺對HSAP有怎樣的期望?豐富生態(tài)兼容主流的大數(shù)據計算框架兼容主流的大數(shù)據查詢分析框架分析服務一體化Point Query(用于API 服務, 類Hbase、Redis場景)OLAP Query
14、(PB級復雜查詢, 秒級/亞秒級交虧式分析, 類 Presto、Impala、Druid、 ClickHouse、Kylin場景)支持流批讀寫的設計支持實時寫入、實時更新、寫入即可查Flink、Spark超高導入性能計算存儲分離于原生架構,彈性擴縮容,成本更低兼容傳統(tǒng)的Hadoop生態(tài)統(tǒng)一存儲至數(shù)據服務誰是開源界最適合構建HSAP的核心框架?Hudi: Hadoop Upserts Deletes and Incrementals管理DFS/于上超大規(guī)模(上百PB)分析數(shù)據集支持揑入、更新、刪除的增量數(shù)據湖處理框架2019年1月加入Apache孵化器,2020年5月畢業(yè)為TLP對所有于服務(A
15、WS/Tencent Cloud/Aliyun)都開箱即用已在Uber線上穩(wěn)定運行近4年事務性(ACID)存儲管理時間旅行增量處理HSAP: 分析服務一體化之于HudiServingOLAP兼容Hive支持主流查詢分析引擎KylinSpark SQLPresto準實時的upsert支持支持揑件化的主鍵索引Java native client:寫(已支持)讀(待支持)HSAP: 支持流批讀寫的設計之于Hudi批量數(shù)據流式數(shù)據全量DeltaStreamer微批流式批/微批流式HSAP: 計算與存儲分離之于HudiPluggable Index (Bloom/HBase)Pluggable Data format (Avro, Parquet)TimelineMetadataHivePrestoSpark寫入讀取存儲類型查詢/視圖Impala化讀優(yōu)增量快照COWMORPluggable Storage(HDFS, OSS, S3)JavaFlinkSparkPython存儲計算HSAP: 開源生態(tài)之于Hudi湖倉一體的技術架構圖Aliyun OSSYARN存儲格式存儲層數(shù)據湖存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年新教材高中數(shù)學第7章復數(shù)7.2.1復數(shù)的加減運算及其幾何意義鞏固練習含解析新人教A版必修第二冊
- 2024年中考物理高頻考點精練專題06內能及其應用含解析
- 2024-2025學年高中英語Module5ATripAlongtheThreeGorges單元整合提升課時作業(yè)含解析外研版必修4
- 七年級數(shù)學下冊第9章分式9.3分式方程第2課時分式方程的應用教案新版滬科版
- 2024-2025學年新教材高中語文第一單元1.1子路曾晳冉有公西華侍坐學案部編版必修下冊
- 2024-2025學年新教材高中政治第一單元中國共產黨的領導第2課第1框始終堅持以人民為中心課時作業(yè)含解析新人教版必修3
- 2024年中考物理重難點專練05內能含解析
- 城市軌道交通《票務管理》期末考試試卷
- 改良失禁皮膚護理方案在神經外科失禁患者失禁性皮炎防護中的應用
- 牧羊人植樹教案:2024年的綠色夢想
- 2024年保安員證考試題庫及答案(共260題)
- 公務員2024年國考申論真題(地市級)及參考答案
- XXXX酒店管理公司成立方案
- 民用無人機操控員執(zhí)照(CAAC)考試復習重點題及答案
- 疼痛科整體規(guī)劃和發(fā)展方案
- 2024年中國南水北調集團水網水務投資限公司及下屬單位社會招聘高頻難、易錯點500題模擬試題附帶答案詳解
- (新版)食品生產企業(yè)食品安全員理論考試題庫500題(含答案)
- 七年級語文上冊第13課《紀念白求恩》公開課一等獎創(chuàng)新教案
- 統(tǒng)編版語文六年級上冊第八單元大單元整體教學設計
- 教師個人業(yè)務學習筆記(41篇)
- 2025年高考語文復習備考復習策略講座
評論
0/150
提交評論