淘寶數據應用開發(fā)平臺_第1頁
淘寶數據應用開發(fā)平臺_第2頁
淘寶數據應用開發(fā)平臺_第3頁
淘寶數據應用開發(fā)平臺_第4頁
淘寶數據應用開發(fā)平臺_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、淘寶數據應用開發(fā)平臺 數據規(guī)模 數據產品 總臺架構背景進入淘寶數據平臺 產品架構 技術架構概覽數據應用開發(fā)架構 知識庫(元數據) 調度 數據集成 IDE 成本優(yōu)化 生命周期深入關鍵服務介紹展望數據創(chuàng)造未來大綱每日新增數據20T 累積數據14P2000+服務器的云計算平臺每天處理100,000+作業(yè)任務,包括100+新增作業(yè)任務每天處理1P+數據,包括0.5%新增數據總體數據規(guī)模數據分析師ETL開發(fā)工程師模型架構師運營程序員數據化運營商業(yè)決策產品設計理解業(yè)務文檔化業(yè)務和需求BI產品設計PD業(yè)務分析師/數據PD賣家買家數據產品PD店鋪經營購買決策行業(yè)分析分析、挖掘用戶需求數據產品設計數據平臺ETL

2、作業(yè)設計,實施,維護,優(yōu)化數據模型建模架構師技術框架設計平臺與工具的實現數據產品開發(fā)團隊商業(yè)智能團隊數據開發(fā)團隊內部用戶外部用戶基礎開發(fā)&開發(fā)架構使用、建設建設如何使用數據如何使用數據傳統(tǒng)數據倉庫模式傳統(tǒng)數據倉庫模式數據分析師ETL開發(fā)工程師模型架構師運營程序員數據化運營商業(yè)決策產品設計理解業(yè)務文檔化業(yè)務和需求BI產品設計PD業(yè)務分析師/數據PD賣家買家數據產品PD店鋪經營購買決策行業(yè)分析分析、挖掘用戶需求數據產品設計培訓,咨詢,解決方案架構師技術框架設計平臺與工具的實現數據產品開發(fā)團隊商業(yè)智能團隊數據開發(fā)團隊內部用戶外部用戶基礎開發(fā)&開發(fā)架構使用、建設建設服務數據開放之路數據

3、開放之路人人都是數據專家人人都是數據專家ISV數據應用開發(fā)平臺數據工場 Data IntegrationDB syncTTHiveHadoop Map ReduceHadoop HDFSDatax報表需求(淘數據)Hbase即席查詢(adhoc)數據分析數據挖掘數據產品數據平臺數據平臺產品架構產品架構實時計算 底層平臺數據開發(fā)平臺數據應用Gateway ServersOracle 備庫MySQL 備庫日志系統(tǒng)Log ServerHadoop開發(fā)平臺Gateway ServersDBSync爬蟲數據Map Reduce Java JobsStreaming JobsHive JobsTimeTu

4、nnelDataX數據流向主站服務(淘寶,B2B,廣告,搜索,BOSS)HbaseHbaseMysqlOracleDataXMyfox LoaderLzLoaderOther System數據產品Adhoc報表(淘數據,Business Preview)回流主站應用流式計算其它數據開發(fā)平臺數據開發(fā)平臺數據流向數據流向實時計算平臺OLAP server愿景和目標降低數據開發(fā)門檻,人人都可以方便加工和獲取數據提升數據項目開發(fā)效率有效控制計算存儲成本沉淀最佳實踐,打造數據應用開發(fā)的標準用戶分類非技術背景用戶技術背景用戶需求分類ADHOC需求?類Excel查詢工具圖形化拖拽HIVE IDE數據項目/數

5、據產品?數據應用開發(fā)平臺數據應用開發(fā)平臺數據字典,知識庫,問答圖形化輔助建模工具,自動建模數據集成(DataX,DBSync,TT3)IDE(web,RCP),代碼優(yōu)化器支持HIVE, map-reduce,mahout工作流編輯準入測試,持續(xù)集成,性能測試調度引擎分析工具集指標系統(tǒng)(Dashboard)監(jiān)控告警,數據質量,生命和周期數據集成,OLAP,圖標引擎,可視化引擎需求分析運行時監(jiān)控業(yè)務建模數據集成線上部署管理生命周期數據開發(fā)&挖掘報表配置數據質量監(jiān)控結果數據導出數據可視化配置測試運行成本優(yōu)化計算成本元數據center權限控制審計日志搜索引擎緩存技術服務基礎服務項目實施流程數據

6、工場產品架構Hadoop MR Job/Task級別運行日志 MR級別運行日志 各個環(huán)節(jié)延遲 系統(tǒng)吞吐Hadoop HDFS 文件Meta 目錄Meta 文件,目錄統(tǒng)計信息 權限屬性 訪問記錄HIVE 表Schema 分隔符,格式,壓縮方式 記錄數 權限信息工作流調度 數據流定義,任務依賴 節(jié)點級運行日志 系統(tǒng)延遲 調度開銷 Gateway集群負載,并發(fā)度 任務優(yōu)先級,基線代碼庫 代碼 與用戶的關聯(lián)數據工場關鍵服務知識庫(元數據管理)其它服務生成捕獲/解析/處理/歸一化元數據應用歸一化存儲Hadoop MRHadoop HDFSHIVE調度系統(tǒng)代碼J/HI/PY RACMySQLSphinxR

7、edis需求系統(tǒng)收集器收集器收集器收集器解析器收集器數據字典指標庫知識庫數據質量監(jiān)控自動建模/模型優(yōu)化SQL自動改寫Metadata Service生命周期血緣分析&影響分析SQL優(yōu)化監(jiān)控告警BUS數據工場關鍵服務知識庫(元數據)系統(tǒng)優(yōu)化宏觀數據微觀數據任務依賴關系/data pipeline天網調度效率Gateway并行度Jobtracker調度效率關鍵路徑分析運行趨勢分析系統(tǒng)關鍵路徑點數據源監(jiān)控末端監(jiān)控比較重點節(jié)點運行時間等待時間同步時間算法優(yōu)化集群計算效率系統(tǒng)吞吐瓶頸ETL元數據分析/血緣關系參數調優(yōu)計算模型優(yōu)化工具優(yōu)化優(yōu)先級事后評分數據工場關鍵服務知識庫(元數據)1.0 Cro

8、ntab 完全為了解決定時啟動的問題 應用自己解決依賴關系 無均衡負載問題 無優(yōu)先級問題 全人工運維2.O 調度系統(tǒng)(天網) 基于工作流,自動管理以來關系 資源分配,并行度控制 容錯機制:任務自動重跑、機器自動倒換 自動負載平衡 支持業(yè)務優(yōu)先級 大部分場景支持自動運維,小部分半自動運維 獨立的系統(tǒng)3.0 調度服務(數據工場) 結合IDE 自動部署 全自動運維 自助監(jiān)控,自助值班,100%監(jiān)控覆蓋 開放式服務 與系統(tǒng)其他部分集成,服務平臺的一部分數據工場關鍵服務調度Standardized Gateway server cluster調度服務標準化配置統(tǒng)一包管理批量管理工具標準化運維fail o

9、verdynamic LB智能調度high-usagehigh-availableLower maintenance cost per machine benefit消息總線調度前臺其它服務定義數據工場關鍵服務調度調度服務3.0調度服務3.0 智能調度數據工場關鍵服務調度數據源監(jiān)控末端監(jiān)控acdbfe數據流1末端監(jiān)控acdbfe數據流2末端監(jiān)控acdbfe數據流3末端監(jiān)控acdbfe數據流4末端監(jiān)控acdbfe數據流5系統(tǒng)關鍵路徑點監(jiān)控關鍵路徑分析數據工場關鍵服務調度全量/非實時同步增量實時同步數據源Mysql備庫oracle備庫日志數據爬蟲數據Hadoop集群DataXTimeTunnel

10、2Dbsync計算結果Mysqloracle全量/非實時同步DataXHDFS數據工場關鍵服務數據集成數據工場關鍵服務IDE數據工場關鍵服務RCPJDBCHive 元數據庫Hadoop Cluster BUSCLICLICLIIDE Server(CLI mode)元數據調度優(yōu)化引擎生命周期Hive serverJDBCJDBCHTTPHTTPPIPEIDE Server(HS mode)RPCRCPWeb數據工場關鍵服務IDE數據倉庫表打散為表.列歸一化表達式用戶提交的數據流打散為表.列歸一化表達式進入匹配數據流rewrite模型優(yōu)化建議提交反饋進入用戶重寫規(guī)則引擎字段倉庫數據工場關鍵服務成本優(yōu)化生命周期對象( Object )動作( Action ):規(guī)則( Rule ):對象( Object ):Hive tableHDFS中的目錄動作( Action ):僅保留,不作操作刪除合并/壓縮極限存儲HDFS Raid移動到其它文件系統(tǒng)其它操作(可增加)動作可以級聯(lián)規(guī)則( Rule ):指定管理對象,在指定時間后,執(zhí)行指定操作策略。每個管理對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論