![使用TiDB進行實時數(shù)據(jù)分析_第1頁](http://file4.renrendoc.com/view/1038efb6bd2707811bdd6bcc0e6eaa14/1038efb6bd2707811bdd6bcc0e6eaa141.gif)
![使用TiDB進行實時數(shù)據(jù)分析_第2頁](http://file4.renrendoc.com/view/1038efb6bd2707811bdd6bcc0e6eaa14/1038efb6bd2707811bdd6bcc0e6eaa142.gif)
![使用TiDB進行實時數(shù)據(jù)分析_第3頁](http://file4.renrendoc.com/view/1038efb6bd2707811bdd6bcc0e6eaa14/1038efb6bd2707811bdd6bcc0e6eaa143.gif)
![使用TiDB進行實時數(shù)據(jù)分析_第4頁](http://file4.renrendoc.com/view/1038efb6bd2707811bdd6bcc0e6eaa14/1038efb6bd2707811bdd6bcc0e6eaa144.gif)
![使用TiDB進行實時數(shù)據(jù)分析_第5頁](http://file4.renrendoc.com/view/1038efb6bd2707811bdd6bcc0e6eaa14/1038efb6bd2707811bdd6bcc0e6eaa145.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、技術創(chuàng)新,變革未來使用TiDB進行實時數(shù)據(jù)分析實時場景技術選型我希望做一個實時分析系統(tǒng),提供運營人員實時查詢當前經(jīng)營數(shù)據(jù)我需要一個存儲系統(tǒng)當做Data Sink 保存(可能有變更的)大量數(shù)據(jù)以供中高 并發(fā)SQL 復雜查詢訪問案例分析OLTP DBsServer EventsBI ToolsWeb Console現(xiàn)實的困境使用NoSQL復雜查詢?用程序描述寫復雜查詢邏輯多維查詢?手動維護多維索引使用Hadoop高并發(fā)讀取?預計算回寫RDBMS 或者 NoSQL需要 Update?手動維護變更數(shù)據(jù)使用傳統(tǒng)關系型數(shù)據(jù)庫承載大量數(shù)據(jù)力有未逮算力擴展堪憂單一系統(tǒng)也許無法完成任務為了用戶能打一個響指就完成
2、愿望你需要集齊多個系統(tǒng)現(xiàn)實的困境數(shù)據(jù)源開始DBA 們Icon credit to Recep Kutuk, becris, Kiranshastry數(shù)據(jù)源最后Merge DeltaUnified ViewRefined Datavs有時候,你希望事情能簡單一點。TiDBTiDB 是什么分布式數(shù)據(jù)庫支持方便的橫向擴展高吞吐分布式事務支持高可用關系型模型MySQL 兼容的 SQL 支持索引支持ACID 支持TiDB 架構TiDBTiDBMetadataTiKVTiKVTiKVMySQLClientsSyncerTiKVTiDBTSO/Data locationTiDB.TiDB Cluster.T
3、iKV Cluster (Storage)DistSQL APIPDPDPD ClusterTiKVTiKVTiDBPD可擴展性基千 Multi-Raft 的數(shù)據(jù)分片Raft 協(xié)議提供副本復制的一致性用戶幾乎無感知的數(shù)據(jù)調(diào)度和擴/ 縮容一條命令加減節(jié)點除了容量外,讀寫熱點也會被調(diào)度均衡通過增加節(jié)點增加吞吐接近線性的算力擴展協(xié)處理器并發(fā)分擔計算任務Region 1:a-eRegion 3:k-oRegion 5:u-z.RocksDB InstanceRegion 4:p-tRegion 1:a-eRegion 2:f-jRegion 4:p-t.RocksDB InstanceRegion 3
4、:k-oRegion 2:f-jRegion 5:u-zRegion 3:k-o.RocksDB InstanceRegion 1:a-eRegion 2:f-jRegion 5:u-z.RocksDB InstanceRegion 4:p-tRaft group可擴展性CoprocessorTransactionMVCCRaftRocksDB易用性MySQL 5.7 MySQL 8.0 兼容的SQL 支持無需寫復雜代碼訪問數(shù)據(jù)完整的索引功能支持除主鍵外支持次級索引:快速靈活的維度篩選完整的事務支持跨行,跨表,跨庫的一致性事務支持靈活的Schema 設計在線變更以及原生JSON支持數(shù)據(jù)源案例回
5、顧DBA 們?是否這樣就行了?Maybe yes, maybe no案例回顧TiDB 解決了擴展性,高并發(fā)訪問,復雜SQL 杳詢但是如果索引無法有效使用索引 Ad Hoc Query協(xié)處理器無法分散計算任務 大表的 Join 杳詢SQL 以外的分析杳詢 Data Science / Machine Learning放問其他數(shù)據(jù)源 和現(xiàn)有Hadoop 數(shù)據(jù)聯(lián)合杳詢那么只使用 TiDB 也還是歇菜TiSparkTiSpark 是運行于 TiDB 存儲層上的 Apache Spark 連接器對接 Apache Spark 生態(tài)Apache Zeppelin,訪問 Hive 倉庫,機器學習,R 等等為
6、 TiDB 提供分布式計算框架突破如大表 Join 的單機資源限制和 TiDB 一樣支持復雜計算下推以及索引帶有事務支持的分布式批量寫入(WIP)TiSparkSpark ExecSpark ExecSpark DriverSpark ExecTiKVTiKVTiKVTiKVTiSparkTiSparkTiSparkTiSparkTiKVPlacement Driver (PD)gRPCDistributed Storage LayergRPCretrieve data locationretrieve data from TiKV數(shù)據(jù)源案例回顧DBA 們Icon credit to Rece
7、p Kutuk是否這樣就行了?Maybe yes, maybe no更嚴格的需求如果實時短讀寫需要穩(wěn)定的高頻低延遲響應或者干脆繞過消息隊列緩存,在線應用直接寫入數(shù)據(jù)庫需要系統(tǒng)負荷有余量受到較少的干擾使用行存格式如果實時長查詢快速返回結果所有系統(tǒng)資源全力投入計算使用列存格式矛盾案例回顧TiDB 為保證短讀寫,使用了行存而非列存分析場景下IO 效率低千列存數(shù)據(jù)庫分析應用的大批量數(shù)據(jù)讀取會干擾短讀寫簡單的限制資源方法會大大降低大奎詢的執(zhí)行速度如果兩種場景無法錯峰應用對系統(tǒng)抖動敏感那么只使用 TiDB + TiSpark 也還是歇菜TiFlash Exte/sio/(Beta 測T中)通V Raft
8、Lear/er L立A步一C列存Raft Lear/er F供異步低消耗的副本A步Raft Lear/er 讀取協(xié)議配合 MVCC F供強一致的讀取通V Label 進R物M隔PP / TP 作業(yè)互相無EBTiFlashTiDBTiDBTiKV Node 1Store 1Region 1Region 2Region 3Region 4TiKV Node 3Store 3Region 2Region 3Region 4Region 1TiKV Node 2Store 2Region 4Region 3Region 2Region 1TiFlash Node 1TiFlash Node 2TiFl
9、ash Extension ClusterTiKV ClusterTiSpark WorkerTiSpark Worker3 aft Leader aft Learner4雖然是異步寫入,但是讀取時會進行 aft Log 索引校驗TiDBTiFlash:強一致讀4Raft earner4只有當 Raft og 追上 eader 的時候才真正提供讀取 配合 MVCC 機制,提供強一C讀取TiDBTiFlash:強一致讀Raft eader數(shù)據(jù)帶有事務時間戳Why TiFlash here架構簡化同一套平臺覆蓋多個場景統(tǒng)一的運維同一份數(shù)據(jù)的另一個副本無需數(shù)據(jù)轉移和復雜的增量合并流程行存 索引 高并發(fā)短查詢列存 向量化引擎 低并發(fā)快速批量掃表完整的資派隔離數(shù)據(jù)源案例回顧DBA 們Icon credit to Recep Kutukwith TiFlash ExtensionEverything comes with a price對比 NoSQL 體系數(shù)據(jù)庫特性帶來更高消耗,降低性能如果你無所謂這些特性,TiDB 會顯得不經(jīng)濟某些訪問模式下有熱點問題對比Hadoop 體系相比數(shù)據(jù)湖形態(tài),寫入吞吐低很多容量上限遠小千Hadoop,暫時沒有過PB 級別用戶很多時候你還是需要將變冷的數(shù)據(jù)轉移到Hadoop不擅長半/ 非結構化數(shù)據(jù)實際用戶案例案例- 易果生鮮實時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鼠抗病毒抗原單克隆抗體項目提案報告模板
- 2025年雙邊貿(mào)易合作策劃購銷協(xié)議書
- 2025年企業(yè)搬遷安置協(xié)議樣本
- 2025年萃取設備項目提案報告模板
- 2025年金屬基耐磨復合材料項目規(guī)劃申請報告模稿
- 2025年企業(yè)調(diào)整策劃與和解合同
- 2025年度磚廠用地租賃合同
- 2025年企業(yè)績效管理改進協(xié)議
- 2025年交通事故責任補償合同樣本
- 2025年居家康復護理策劃協(xié)議標準文本
- 2024年湖南省公務員錄用考試《行測》真題及答案解析
- 火災自動報警及其消防聯(lián)動系統(tǒng)技術規(guī)格書
- 設備管理人員安全培訓
- 分布式光伏培訓
- 山東省房屋市政工程安全監(jiān)督機構人員業(yè)務能力考試題庫-上(單選題)
- 2024新版(北京版)三年級英語上冊單詞帶音標
- 財務審計服務方案投標文件(技術方案)
- 養(yǎng)老服務機構復工復產(chǎn)實施方案復工復產(chǎn)安全生產(chǎn)方案
- 9《黃山奇石》教學設計-2024-2025學年統(tǒng)編版語文二年級上冊
- PP、PVC-風管制作安裝施工作業(yè)指導書
- 新型智慧水利項目數(shù)字孿生工程解決方案
評論
0/150
提交評論