




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、阿里HBase的數(shù)據(jù)管道設施技術技術創(chuàng)新 變革未來內(nèi)容大綱數(shù)據(jù)導入場景HBase Bulkload功能HImporter系統(tǒng)數(shù)據(jù)導出場景HExporter系統(tǒng)數(shù)據(jù)導入應用場景數(shù)據(jù)導入需要考慮的問題異構數(shù)據(jù)源多周期性調(diào)度導入效率多集群下的數(shù)據(jù) 一致性ClusterAClusterB01數(shù)據(jù)導入未完成更適合由平臺解決Bulkload介紹Bulkload優(yōu)勢:高吞吐不需要WAL避免small compaction支持離線構建HFileBulkloadMemStoreHFileHFileHFileApplication codeputflushHFile是只讀文件LSM TreeB+TreeBulkl
2、oad導入導入邏輯作為插件合入同步中心可調(diào)度適配多種異構數(shù)據(jù)源按HBase分區(qū)對源數(shù)據(jù)進行分區(qū)避免Split一個分區(qū)對應一個task一個task一個線程Original DataPartitionedData同步中心分區(qū)排序Write to hdfsHBase 分區(qū)分布BulkloadHBaseHDFS數(shù)倉多集群導入單元化部署模式下的導入很難保證多個任務同時完成,導致一定時間窗口 內(nèi)數(shù)據(jù)不一致調(diào)度后的運行環(huán)境不一致網(wǎng)絡延遲不一致失敗重試集群部署對業(yè)務不透明需要配置多個任務集群遷移需要重新配置任務邏輯集群導入易用性一致性分區(qū)排序編碼壓縮多任務模式重復配置,不透 明難保證需要執(zhí)行兩次兩次邏輯集群模
3、 式配置一次,遷移 無感知毫秒執(zhí)行一次,但分區(qū)數(shù)量變 多一次線上遇到的問題擴展性資源利用率研發(fā)效率監(jiān)控作業(yè)單機運行壓縮消耗大量CPU快速迭代 在線熱修復業(yè)務統(tǒng)計 性能監(jiān)控HImporterHImporter是用于輔助數(shù)據(jù)同步的中間層HFile的構建,加載邏輯下沉到HImporter優(yōu)勢分布式水平擴展,同一個作業(yè)的不同任務可以調(diào)度到HImporter的不同worker節(jié)點提高資源利用率,將壓縮等CPU密集操作下降到HImporter快速迭代,HImporter的運維和迭代與同步中心獨立獨立監(jiān)控,HImporter可按照自己的需求實現(xiàn)監(jiān)控HImporter提高Bulkload穩(wěn)定性支持本地化率HD
4、FS默認隨機放置提高本地化率可減少網(wǎng)絡IO感知存儲類型HDFS默認選擇同一介質(zhì)感知表存儲類型支持混合存儲HImporter 功能迭代表屬性感知混合存儲新壓縮編碼表級別副本數(shù)保證本地化率將Hfile寫入到分區(qū)所在服務器,保證本地化率和存儲特性, 對一些rt敏感的業(yè)務效果明顯支持輕量計算支持MD5,字符串拼接等函數(shù)安全隔離避免對外暴露HDFS地址支持Task級別重試HImporter 業(yè)務統(tǒng)計作業(yè)數(shù) 2萬/天導入數(shù)據(jù)量 1.5PB/天增量數(shù)據(jù)導出場景增量數(shù)據(jù)導出需要考慮的問題早期方案對NN節(jié)點造成很大壓力無法應對主備切換日志熱點處理能力低HExporter1.0HExporter1.0優(yōu)勢主備流量
5、切換不影響數(shù)據(jù)導出識別數(shù)據(jù)來源,過濾非原始數(shù)據(jù)獨立的同步時間流保障數(shù)據(jù)按有序時間分區(qū)Dump到數(shù)據(jù)倉庫復用HBase replication框架降低開發(fā)工作量復用HBase的監(jiān)控,運維體系HExporter1.0 優(yōu)化減少拓撲網(wǎng)絡中的數(shù)據(jù)發(fā)送備庫避免向Exporter發(fā)送重復數(shù)據(jù)遠程輔助消化器空閑的機器幫助消化熱點避免發(fā)送小包HExporter在接收到小包后,等待一段時間再處理同步通道配置隔離實時消費鏈路和離線消費鏈路可以采用不同的配置數(shù)據(jù)發(fā)送前壓縮HExporter1.0 業(yè)務統(tǒng)計采集集群數(shù) 57個采集任務數(shù) 554個日常峰值 6GB/s集團業(yè)務螞蟻金服業(yè)務HExporter1.0問題舉例:
6、午餐和晚餐時間,業(yè)務寫入流量產(chǎn)生高峰,離線同步延遲數(shù)據(jù)的發(fā)送與在線寫入爭搶資源,發(fā)送趕不上寫入找空閑機器輔助?不一定有擴容?資源浪費,周期長思路:如果離線同步的資源可以和在線資源隔離,利用離線大池子可以削峰填谷開發(fā)一個功能用了2天,升級HBase集群用了2周升級慢的原因是Hbase是有狀態(tài)的,升級過程不能影響線上業(yè)務穩(wěn)定性HBase集群數(shù)量多思路:Exporter的worker是無狀態(tài)的,如果把所有邏輯都放在Exporter,那么升級、擴容會簡單快速HExporter2.0Export ServiceConsumerRegister/UnregisterList logsLog life cycleCreateState change (Writing = Closed = Finished)Log cleanLog EntryFilesytem,PathClusterID, ServerName, CreateTime, HExporter 2.0AliHBase數(shù)據(jù)通道中間層(HImporter,HExporter)核心價值易擴展 分布式水平擴展高可靠 自主識別主備切換,封裝對HBase訪問迭代快 架構解耦,快速迭代穩(wěn)定無狀態(tài),節(jié)點對等云數(shù)據(jù)庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年護理三級新試題及答案
- 2025年望亭鎮(zhèn)考試試題及答案
- 2025年5g技術進階試題及答案
- 2025年供水安全考試試題及答案
- 2025年四人賽全部試題及答案
- 2025年地理考試試題分布及答案
- 2025年松江一模歷史試題及答案
- 2025年中咨工程面試題及答案
- 2025年農(nóng)業(yè)園規(guī)劃面試題及答案
- 2025年五升六考試題及答案
- 腦血管介入手術術前術后護理
- 幼兒園班級管理孫玉潔
- 2024解析:第九章大氣壓強-基礎練(解析版)
- 外貿(mào)跟單工作規(guī)劃
- 火電廠汽機專業(yè)技術培訓
- 反詐知識競賽題庫及答案(共286題)
- DB22T 3064-2019 農(nóng)業(yè)現(xiàn)代化發(fā)展水平評價指標體系
- 《無人機飛行操控技術》項目6 無人機地面站飛行操控
- 石膏娃娃課件教學課件
- 質(zhì)量部年終述職報告
- 老年人健康保健-老年人的長期照護(老年護理課件)
評論
0/150
提交評論