為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第1頁(yè)
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第2頁(yè)
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第3頁(yè)
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第4頁(yè)
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、為數(shù)據(jù)賦能敏捷高效的數(shù)據(jù)處理徐岷峰數(shù)據(jù)處理Data Wrangling數(shù)據(jù)處理的流程ETL:從多種數(shù)據(jù)源提取數(shù)據(jù),做清理、聚合、派生,加載到特定存儲(chǔ)ELT:利用存儲(chǔ)的計(jì)算能力做數(shù)據(jù)變換Data WranglingData WranglingTalkingData 遇到的問(wèn)題需求理解不一致/不清晰 溝通成本高開(kāi)發(fā)技術(shù)棧紛雜 功能重復(fù)開(kāi)發(fā)預(yù)計(jì)算缺乏統(tǒng)一的標(biāo)準(zhǔn)與服務(wù)即席查詢多種異構(gòu)數(shù)據(jù)元數(shù)據(jù)系統(tǒng)Meta Data SystemMeta Data System元數(shù)據(jù)是實(shí)現(xiàn)敏捷的關(guān)鍵元數(shù)據(jù)是定義數(shù)據(jù)的數(shù)據(jù) 是實(shí)現(xiàn)系統(tǒng)復(fù)用的關(guān)鍵可以直接作為系統(tǒng)的外部接口 元數(shù)據(jù)驅(qū)動(dòng)元數(shù)據(jù)是對(duì)業(yè)務(wù)的高度抽象某種程度上確定了

2、系統(tǒng)的數(shù)據(jù)邊界Meta-Meta DataMeta ModelMeta DataDataData set SpecificationData setData set Definition元數(shù)據(jù)規(guī)范(meta model)數(shù)據(jù)源(Data Source)分區(qū)定義(Partition) 數(shù)據(jù)集(Data Set)模式(Schema) 數(shù)據(jù)處理過(guò)程(Recipe)算子(Operator)多維模型(Multi-Dimension) 實(shí)體關(guān)系模型(ER)模型(model)Meta Data System實(shí)現(xiàn)Meta Data System對(duì)象JSONMySql SQLite/Derby存儲(chǔ)檢索索引ES通

3、知MQ部署Service Process數(shù)據(jù)變換Data Transform沒(méi)有銀彈Data Transform數(shù)據(jù)處理的核心 機(jī)器學(xué)習(xí)的基礎(chǔ)(特征工程)不深?yuàn)W的技術(shù) 卻最耗費(fèi)人力 尤其是維護(hù)工作紛繁的ETL工具:PDI(Kettle) Talend Data Integration Oracle Data IntegrationDataX 適合的才是最好的共同的思路:語(yǔ)義抽象(Session/JOB/Operator,DAG)元數(shù)據(jù)驅(qū)動(dòng)(數(shù)據(jù)源、目的地、 數(shù)據(jù)結(jié)構(gòu)、依賴、過(guò)程)執(zhí)行引擎數(shù)據(jù)質(zhì)量監(jiān)測(cè)流程監(jiān)測(cè)數(shù)據(jù)安全與審計(jì)Data TransformTalkingData 的解決方案 語(yǔ)義抽象B

4、PMNJSONDAGSequenceconditionOperatorFunctionParameterreturnASParallelismData TransformTalkingData 的解決方案 編譯器邏輯計(jì)劃(DAG)配置文件算子庫(kù),多種語(yǔ)言實(shí)現(xiàn)通用特性日志審計(jì)計(jì)量安全運(yùn)行時(shí)文件,Jar,.R,.so,.pyOperator LibrariesCommon AspectcompilerRun Time FilesExecute PlanConfig PlanDAGJavaPythonRC/C+Spark Flink Strom H2O.aiScikit-Learn索引服務(wù)Index

5、 ServiceIndex Service索引服務(wù)索引,是數(shù)據(jù)查找和定位的關(guān)鍵B+樹(shù)、跳表、倒排 Bitmap精準(zhǔn)的排重統(tǒng)計(jì)集合運(yùn)算,Intersect, Union, Except索引,也是一種數(shù)據(jù),可以運(yùn)算生成索引檢索運(yùn)算維護(hù)索引服務(wù)Index ServiceBitmap舉個(gè)例子:定義Offset為UserId 時(shí)間粒度為天,索引1(藍(lán)色)代表玩“吃雞”游戲的用戶 索引2(黃色)代表玩“王者”游戲的用戶統(tǒng)計(jì):今天玩了“吃雞”或“王者”的用戶今天既玩了“吃雞”又玩了“王者”的用戶今天玩了“吃雞”但沒(méi)玩“王者”的用戶Index Service索引生成可適配多種執(zhí)行引擎, Storm , Fli

6、nk , Spark索引存儲(chǔ)支持異構(gòu)存儲(chǔ)索引查詢查詢能力可擴(kuò)展支持實(shí)時(shí)數(shù)據(jù)查詢與運(yùn)算元數(shù)據(jù)驅(qū)動(dòng)Zookeeper同步狀態(tài)架構(gòu)SchedulerMetaDataBrokerZooKeeperWorker ManagerReal Time CacheExecute EngineCacheStorageMySQLHBaseHDFSIndex Service元數(shù)據(jù)DomainDimensionStorageImplementationuniqueKeyIndexIndex Service查詢DSL ISQLFilter,維度間的集合運(yùn)算查詢類型:select,groupby,topN,timeSeri

7、es,window,subQuery返回結(jié)果:index,count,idListLogical Plan Physical Plan固定“場(chǎng)景”的查詢Index Service用bitmap實(shí)現(xiàn)的倒排索引 以索引維度做Key以索引標(biāo)識(shí)作為Offset二級(jí)索引按時(shí)間粒度分層的多叉樹(shù)Year:2019 Bitmap:indexesMonth:3 Bitmap:indexesMonth:12 Bitmap:indexesDay:5 Bitmap:indexesDay:6 Bitmap:indexesDay:30 Bitmap:indexesDay:27 Bitmap:indexesDay:21 B

8、itmap:indexesDay:30 Bitmap:indexesMonth:7 Bitmap:indexesIndex Service處理方式:維護(hù)-金字塔模型年數(shù)據(jù)月數(shù)據(jù)天數(shù)據(jù)合并刪除導(dǎo)出Index Service有序漏斗- 時(shí)序索引用bitmap存儲(chǔ)事件的時(shí)序關(guān)系:以時(shí)間作為Offset,精度不宜太高,秒壓縮存儲(chǔ):1個(gè)RoaringBitmap可以存儲(chǔ)1242 個(gè)用戶在一天內(nèi)的20 個(gè)基準(zhǔn)事件序列。(231/3600/24/20)掩碼不同的二級(jí)索引。配合Index Service和關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)有序漏斗每日事件發(fā)生的用戶索引分群索引事件明細(xì)過(guò)濾 UID=287698:43:23Even

9、tID = 0EventID = 1EventID = 19查詢引擎Query EngineQuery Engine解決的問(wèn)題ETL-ELTCustom Query異構(gòu)數(shù)據(jù)不同的DSL查詢優(yōu)化解耦物理存儲(chǔ)和業(yè)務(wù)邏輯虛擬表,視圖Data AnalysisQuery EngineRDBNoSqlFile SystemIndex ServiceQuery Engine部署:Library(Jar)設(shè)計(jì)思路統(tǒng)一的查詢接口:SQL語(yǔ)義優(yōu)化的邏輯計(jì)劃按數(shù)據(jù)源轉(zhuǎn)化到對(duì)應(yīng)的DSL(物理計(jì)劃)通過(guò)客戶端發(fā)送請(qǐng)求,獲取數(shù)據(jù)元數(shù)據(jù):DataSet,特定的轉(zhuǎn)換規(guī)則,ClientAnalytics Applicatio

10、nJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery EngineQuery Engine實(shí)現(xiàn)Core: Apache Calcite新增或改寫(xiě)Adapter: Druid,CarbonData, Kudu元數(shù)據(jù)客戶端Analytics ApplicationJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery Engine實(shí)例Query EngineQuery EnginePitfall : 性能降低 10%-30%Cache Bypass optimization and Translation增強(qiáng)Analytics ApplicationJDBC IinterfaceLogical Plan with Semantic optimizationPhysical Plan against specific DSLCl

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論