版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、為數(shù)據(jù)賦能敏捷高效的數(shù)據(jù)處理徐岷峰數(shù)據(jù)處理Data Wrangling數(shù)據(jù)處理的流程ETL:從多種數(shù)據(jù)源提取數(shù)據(jù),做清理、聚合、派生,加載到特定存儲(chǔ)ELT:利用存儲(chǔ)的計(jì)算能力做數(shù)據(jù)變換Data WranglingData WranglingTalkingData 遇到的問(wèn)題需求理解不一致/不清晰 溝通成本高開(kāi)發(fā)技術(shù)棧紛雜 功能重復(fù)開(kāi)發(fā)預(yù)計(jì)算缺乏統(tǒng)一的標(biāo)準(zhǔn)與服務(wù)即席查詢多種異構(gòu)數(shù)據(jù)元數(shù)據(jù)系統(tǒng)Meta Data SystemMeta Data System元數(shù)據(jù)是實(shí)現(xiàn)敏捷的關(guān)鍵元數(shù)據(jù)是定義數(shù)據(jù)的數(shù)據(jù) 是實(shí)現(xiàn)系統(tǒng)復(fù)用的關(guān)鍵可以直接作為系統(tǒng)的外部接口 元數(shù)據(jù)驅(qū)動(dòng)元數(shù)據(jù)是對(duì)業(yè)務(wù)的高度抽象某種程度上確定了
2、系統(tǒng)的數(shù)據(jù)邊界Meta-Meta DataMeta ModelMeta DataDataData set SpecificationData setData set Definition元數(shù)據(jù)規(guī)范(meta model)數(shù)據(jù)源(Data Source)分區(qū)定義(Partition) 數(shù)據(jù)集(Data Set)模式(Schema) 數(shù)據(jù)處理過(guò)程(Recipe)算子(Operator)多維模型(Multi-Dimension) 實(shí)體關(guān)系模型(ER)模型(model)Meta Data System實(shí)現(xiàn)Meta Data System對(duì)象JSONMySql SQLite/Derby存儲(chǔ)檢索索引ES通
3、知MQ部署Service Process數(shù)據(jù)變換Data Transform沒(méi)有銀彈Data Transform數(shù)據(jù)處理的核心 機(jī)器學(xué)習(xí)的基礎(chǔ)(特征工程)不深?yuàn)W的技術(shù) 卻最耗費(fèi)人力 尤其是維護(hù)工作紛繁的ETL工具:PDI(Kettle) Talend Data Integration Oracle Data IntegrationDataX 適合的才是最好的共同的思路:語(yǔ)義抽象(Session/JOB/Operator,DAG)元數(shù)據(jù)驅(qū)動(dòng)(數(shù)據(jù)源、目的地、 數(shù)據(jù)結(jié)構(gòu)、依賴、過(guò)程)執(zhí)行引擎數(shù)據(jù)質(zhì)量監(jiān)測(cè)流程監(jiān)測(cè)數(shù)據(jù)安全與審計(jì)Data TransformTalkingData 的解決方案 語(yǔ)義抽象B
4、PMNJSONDAGSequenceconditionOperatorFunctionParameterreturnASParallelismData TransformTalkingData 的解決方案 編譯器邏輯計(jì)劃(DAG)配置文件算子庫(kù),多種語(yǔ)言實(shí)現(xiàn)通用特性日志審計(jì)計(jì)量安全運(yùn)行時(shí)文件,Jar,.R,.so,.pyOperator LibrariesCommon AspectcompilerRun Time FilesExecute PlanConfig PlanDAGJavaPythonRC/C+Spark Flink Strom H2O.aiScikit-Learn索引服務(wù)Index
5、 ServiceIndex Service索引服務(wù)索引,是數(shù)據(jù)查找和定位的關(guān)鍵B+樹(shù)、跳表、倒排 Bitmap精準(zhǔn)的排重統(tǒng)計(jì)集合運(yùn)算,Intersect, Union, Except索引,也是一種數(shù)據(jù),可以運(yùn)算生成索引檢索運(yùn)算維護(hù)索引服務(wù)Index ServiceBitmap舉個(gè)例子:定義Offset為UserId 時(shí)間粒度為天,索引1(藍(lán)色)代表玩“吃雞”游戲的用戶 索引2(黃色)代表玩“王者”游戲的用戶統(tǒng)計(jì):今天玩了“吃雞”或“王者”的用戶今天既玩了“吃雞”又玩了“王者”的用戶今天玩了“吃雞”但沒(méi)玩“王者”的用戶Index Service索引生成可適配多種執(zhí)行引擎, Storm , Fli
6、nk , Spark索引存儲(chǔ)支持異構(gòu)存儲(chǔ)索引查詢查詢能力可擴(kuò)展支持實(shí)時(shí)數(shù)據(jù)查詢與運(yùn)算元數(shù)據(jù)驅(qū)動(dòng)Zookeeper同步狀態(tài)架構(gòu)SchedulerMetaDataBrokerZooKeeperWorker ManagerReal Time CacheExecute EngineCacheStorageMySQLHBaseHDFSIndex Service元數(shù)據(jù)DomainDimensionStorageImplementationuniqueKeyIndexIndex Service查詢DSL ISQLFilter,維度間的集合運(yùn)算查詢類型:select,groupby,topN,timeSeri
7、es,window,subQuery返回結(jié)果:index,count,idListLogical Plan Physical Plan固定“場(chǎng)景”的查詢Index Service用bitmap實(shí)現(xiàn)的倒排索引 以索引維度做Key以索引標(biāo)識(shí)作為Offset二級(jí)索引按時(shí)間粒度分層的多叉樹(shù)Year:2019 Bitmap:indexesMonth:3 Bitmap:indexesMonth:12 Bitmap:indexesDay:5 Bitmap:indexesDay:6 Bitmap:indexesDay:30 Bitmap:indexesDay:27 Bitmap:indexesDay:21 B
8、itmap:indexesDay:30 Bitmap:indexesMonth:7 Bitmap:indexesIndex Service處理方式:維護(hù)-金字塔模型年數(shù)據(jù)月數(shù)據(jù)天數(shù)據(jù)合并刪除導(dǎo)出Index Service有序漏斗- 時(shí)序索引用bitmap存儲(chǔ)事件的時(shí)序關(guān)系:以時(shí)間作為Offset,精度不宜太高,秒壓縮存儲(chǔ):1個(gè)RoaringBitmap可以存儲(chǔ)1242 個(gè)用戶在一天內(nèi)的20 個(gè)基準(zhǔn)事件序列。(231/3600/24/20)掩碼不同的二級(jí)索引。配合Index Service和關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)有序漏斗每日事件發(fā)生的用戶索引分群索引事件明細(xì)過(guò)濾 UID=287698:43:23Even
9、tID = 0EventID = 1EventID = 19查詢引擎Query EngineQuery Engine解決的問(wèn)題ETL-ELTCustom Query異構(gòu)數(shù)據(jù)不同的DSL查詢優(yōu)化解耦物理存儲(chǔ)和業(yè)務(wù)邏輯虛擬表,視圖Data AnalysisQuery EngineRDBNoSqlFile SystemIndex ServiceQuery Engine部署:Library(Jar)設(shè)計(jì)思路統(tǒng)一的查詢接口:SQL語(yǔ)義優(yōu)化的邏輯計(jì)劃按數(shù)據(jù)源轉(zhuǎn)化到對(duì)應(yīng)的DSL(物理計(jì)劃)通過(guò)客戶端發(fā)送請(qǐng)求,獲取數(shù)據(jù)元數(shù)據(jù):DataSet,特定的轉(zhuǎn)換規(guī)則,ClientAnalytics Applicatio
10、nJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery EngineQuery Engine實(shí)現(xiàn)Core: Apache Calcite新增或改寫(xiě)Adapter: Druid,CarbonData, Kudu元數(shù)據(jù)客戶端Analytics ApplicationJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery Engine實(shí)例Query EngineQuery EnginePitfall : 性能降低 10%-30%Cache Bypass optimization and Translation增強(qiáng)Analytics ApplicationJDBC IinterfaceLogical Plan with Semantic optimizationPhysical Plan against specific DSLCl
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新型建筑材料研發(fā)與應(yīng)用合同7篇
- 2025年江蘇華電如皋熱電有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年山東國(guó)投資產(chǎn)管理有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年山西晉城市太行云頂文化旅游發(fā)展有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 2025年度個(gè)人反擔(dān)保責(zé)任保險(xiǎn)合同條款2篇
- 假離婚法律風(fēng)險(xiǎn)與財(cái)產(chǎn)分配合同(2025年度)3篇
- 2025年人教版八年級(jí)歷史下冊(cè)月考試卷
- 二零二五年度水利設(shè)施滅四害服務(wù)合同及防洪協(xié)議3篇
- 高效節(jié)水灌溉項(xiàng)目施工合同(二零二五年度)4篇
- 二零二五年度櫥柜定制與綠色環(huán)保廚房設(shè)計(jì)合同4篇
- 第一節(jié)-貨幣資金資料講解
- 如何提高售后服務(wù)的快速響應(yīng)能力
- 北師大版 2024-2025學(xué)年四年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第三單元:行程問(wèn)題“拓展型”專項(xiàng)練習(xí)(原卷版+解析)
- 2023年譯林版英語(yǔ)五年級(jí)下冊(cè)Units-1-2單元測(cè)試卷-含答案
- Unit-3-Reading-and-thinking課文詳解課件-高中英語(yǔ)人教版必修第二冊(cè)
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運(yùn)行管理規(guī)程
- 種子輪投資協(xié)議
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)課件
- 華為攜手深圳國(guó)際會(huì)展中心創(chuàng)建世界一流展館
評(píng)論
0/150
提交評(píng)論