淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺_第1頁
淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺_第2頁
淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺_第3頁
淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺_第4頁
淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、淘寶數(shù)據(jù)應(yīng)用開發(fā)平臺 數(shù)據(jù)規(guī)模 數(shù)據(jù)產(chǎn)品 總臺架構(gòu)背景進(jìn)入淘寶數(shù)據(jù)平臺 產(chǎn)品架構(gòu) 技術(shù)架構(gòu)概覽數(shù)據(jù)應(yīng)用開發(fā)架構(gòu) 知識庫(元數(shù)據(jù)) 調(diào)度 數(shù)據(jù)集成 IDE 成本優(yōu)化 生命周期深入關(guān)鍵服務(wù)介紹展望數(shù)據(jù)創(chuàng)造未來大綱每日新增數(shù)據(jù)20T 累積數(shù)據(jù)14P2000+服務(wù)器的云計(jì)算平臺每天處理100,000+作業(yè)任務(wù),包括100+新增作業(yè)任務(wù)每天處理1P+數(shù)據(jù),包括0.5%新增數(shù)據(jù)總體數(shù)據(jù)規(guī)模數(shù)據(jù)分析師ETL開發(fā)工程師模型架構(gòu)師運(yùn)營程序員數(shù)據(jù)化運(yùn)營商業(yè)決策產(chǎn)品設(shè)計(jì)理解業(yè)務(wù)文檔化業(yè)務(wù)和需求BI產(chǎn)品設(shè)計(jì)PD業(yè)務(wù)分析師/數(shù)據(jù)PD賣家買家數(shù)據(jù)產(chǎn)品PD店鋪經(jīng)營購買決策行業(yè)分析分析、挖掘用戶需求數(shù)據(jù)產(chǎn)品設(shè)計(jì)數(shù)據(jù)平臺ETL

2、作業(yè)設(shè)計(jì),實(shí)施,維護(hù),優(yōu)化數(shù)據(jù)模型建模架構(gòu)師技術(shù)框架設(shè)計(jì)平臺與工具的實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品開發(fā)團(tuán)隊(duì)商業(yè)智能團(tuán)隊(duì)數(shù)據(jù)開發(fā)團(tuán)隊(duì)內(nèi)部用戶外部用戶基礎(chǔ)開發(fā)&開發(fā)架構(gòu)使用、建設(shè)建設(shè)如何使用數(shù)據(jù)如何使用數(shù)據(jù)傳統(tǒng)數(shù)據(jù)倉庫模式傳統(tǒng)數(shù)據(jù)倉庫模式數(shù)據(jù)分析師ETL開發(fā)工程師模型架構(gòu)師運(yùn)營程序員數(shù)據(jù)化運(yùn)營商業(yè)決策產(chǎn)品設(shè)計(jì)理解業(yè)務(wù)文檔化業(yè)務(wù)和需求BI產(chǎn)品設(shè)計(jì)PD業(yè)務(wù)分析師/數(shù)據(jù)PD賣家買家數(shù)據(jù)產(chǎn)品PD店鋪經(jīng)營購買決策行業(yè)分析分析、挖掘用戶需求數(shù)據(jù)產(chǎn)品設(shè)計(jì)培訓(xùn),咨詢,解決方案架構(gòu)師技術(shù)框架設(shè)計(jì)平臺與工具的實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品開發(fā)團(tuán)隊(duì)商業(yè)智能團(tuán)隊(duì)數(shù)據(jù)開發(fā)團(tuán)隊(duì)內(nèi)部用戶外部用戶基礎(chǔ)開發(fā)&開發(fā)架構(gòu)使用、建設(shè)建設(shè)服務(wù)數(shù)據(jù)開放之路數(shù)據(jù)

3、開放之路人人都是數(shù)據(jù)專家人人都是數(shù)據(jù)專家ISV數(shù)據(jù)應(yīng)用開發(fā)平臺數(shù)據(jù)工場 Data IntegrationDB syncTTHiveHadoop Map ReduceHadoop HDFSDatax報(bào)表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品數(shù)據(jù)平臺數(shù)據(jù)平臺產(chǎn)品架構(gòu)產(chǎn)品架構(gòu)實(shí)時(shí)計(jì)算 底層平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)應(yīng)用Gateway ServersOracle 備庫MySQL 備庫日志系統(tǒng)Log ServerHadoop開發(fā)平臺Gateway ServersDBSync爬蟲數(shù)據(jù)Map Reduce Java JobsStreaming JobsHive JobsTimeTu

4、nnelDataX數(shù)據(jù)流向主站服務(wù)(淘寶,B2B,廣告,搜索,BOSS)HbaseHbaseMysqlOracleDataXMyfox LoaderLzLoaderOther System數(shù)據(jù)產(chǎn)品Adhoc報(bào)表(淘數(shù)據(jù),Business Preview)回流主站應(yīng)用流式計(jì)算其它數(shù)據(jù)開發(fā)平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)流向數(shù)據(jù)流向?qū)崟r(shí)計(jì)算平臺OLAP server愿景和目標(biāo)降低數(shù)據(jù)開發(fā)門檻,人人都可以方便加工和獲取數(shù)據(jù)提升數(shù)據(jù)項(xiàng)目開發(fā)效率有效控制計(jì)算存儲成本沉淀最佳實(shí)踐,打造數(shù)據(jù)應(yīng)用開發(fā)的標(biāo)準(zhǔn)用戶分類非技術(shù)背景用戶技術(shù)背景用戶需求分類ADHOC需求?類Excel查詢工具圖形化拖拽HIVE IDE數(shù)據(jù)項(xiàng)目/數(shù)

5、據(jù)產(chǎn)品?數(shù)據(jù)應(yīng)用開發(fā)平臺數(shù)據(jù)應(yīng)用開發(fā)平臺數(shù)據(jù)字典,知識庫,問答圖形化輔助建模工具,自動建模數(shù)據(jù)集成(DataX,DBSync,TT3)IDE(web,RCP),代碼優(yōu)化器支持HIVE, map-reduce,mahout工作流編輯準(zhǔn)入測試,持續(xù)集成,性能測試調(diào)度引擎分析工具集指標(biāo)系統(tǒng)(Dashboard)監(jiān)控告警,數(shù)據(jù)質(zhì)量,生命和周期數(shù)據(jù)集成,OLAP,圖標(biāo)引擎,可視化引擎需求分析運(yùn)行時(shí)監(jiān)控業(yè)務(wù)建模數(shù)據(jù)集成線上部署管理生命周期數(shù)據(jù)開發(fā)&挖掘報(bào)表配置數(shù)據(jù)質(zhì)量監(jiān)控結(jié)果數(shù)據(jù)導(dǎo)出數(shù)據(jù)可視化配置測試運(yùn)行成本優(yōu)化計(jì)算成本元數(shù)據(jù)center權(quán)限控制審計(jì)日志搜索引擎緩存技術(shù)服務(wù)基礎(chǔ)服務(wù)項(xiàng)目實(shí)施流程數(shù)據(jù)

6、工場產(chǎn)品架構(gòu)Hadoop MR Job/Task級別運(yùn)行日志 MR級別運(yùn)行日志 各個(gè)環(huán)節(jié)延遲 系統(tǒng)吞吐Hadoop HDFS 文件Meta 目錄Meta 文件,目錄統(tǒng)計(jì)信息 權(quán)限屬性 訪問記錄HIVE 表Schema 分隔符,格式,壓縮方式 記錄數(shù) 權(quán)限信息工作流調(diào)度 數(shù)據(jù)流定義,任務(wù)依賴 節(jié)點(diǎn)級運(yùn)行日志 系統(tǒng)延遲 調(diào)度開銷 Gateway集群負(fù)載,并發(fā)度 任務(wù)優(yōu)先級,基線代碼庫 代碼 與用戶的關(guān)聯(lián)數(shù)據(jù)工場關(guān)鍵服務(wù)知識庫(元數(shù)據(jù)管理)其它服務(wù)生成捕獲/解析/處理/歸一化元數(shù)據(jù)應(yīng)用歸一化存儲Hadoop MRHadoop HDFSHIVE調(diào)度系統(tǒng)代碼J/HI/PY RACMySQLSphinxR

7、edis需求系統(tǒng)收集器收集器收集器收集器解析器收集器數(shù)據(jù)字典指標(biāo)庫知識庫數(shù)據(jù)質(zhì)量監(jiān)控自動建模/模型優(yōu)化SQL自動改寫Metadata Service生命周期血緣分析&影響分析SQL優(yōu)化監(jiān)控告警BUS數(shù)據(jù)工場關(guān)鍵服務(wù)知識庫(元數(shù)據(jù))系統(tǒng)優(yōu)化宏觀數(shù)據(jù)微觀數(shù)據(jù)任務(wù)依賴關(guān)系/data pipeline天網(wǎng)調(diào)度效率Gateway并行度Jobtracker調(diào)度效率關(guān)鍵路徑分析運(yùn)行趨勢分析系統(tǒng)關(guān)鍵路徑點(diǎn)數(shù)據(jù)源監(jiān)控末端監(jiān)控比較重點(diǎn)節(jié)點(diǎn)運(yùn)行時(shí)間等待時(shí)間同步時(shí)間算法優(yōu)化集群計(jì)算效率系統(tǒng)吞吐瓶頸ETL元數(shù)據(jù)分析/血緣關(guān)系參數(shù)調(diào)優(yōu)計(jì)算模型優(yōu)化工具優(yōu)化優(yōu)先級事后評分?jǐn)?shù)據(jù)工場關(guān)鍵服務(wù)知識庫(元數(shù)據(jù))1.0 Cro

8、ntab 完全為了解決定時(shí)啟動的問題 應(yīng)用自己解決依賴關(guān)系 無均衡負(fù)載問題 無優(yōu)先級問題 全人工運(yùn)維2.O 調(diào)度系統(tǒng)(天網(wǎng)) 基于工作流,自動管理以來關(guān)系 資源分配,并行度控制 容錯(cuò)機(jī)制:任務(wù)自動重跑、機(jī)器自動倒換 自動負(fù)載平衡 支持業(yè)務(wù)優(yōu)先級 大部分場景支持自動運(yùn)維,小部分半自動運(yùn)維 獨(dú)立的系統(tǒng)3.0 調(diào)度服務(wù)(數(shù)據(jù)工場) 結(jié)合IDE 自動部署 全自動運(yùn)維 自助監(jiān)控,自助值班,100%監(jiān)控覆蓋 開放式服務(wù) 與系統(tǒng)其他部分集成,服務(wù)平臺的一部分?jǐn)?shù)據(jù)工場關(guān)鍵服務(wù)調(diào)度Standardized Gateway server cluster調(diào)度服務(wù)標(biāo)準(zhǔn)化配置統(tǒng)一包管理批量管理工具標(biāo)準(zhǔn)化運(yùn)維fail o

9、verdynamic LB智能調(diào)度high-usagehigh-availableLower maintenance cost per machine benefit消息總線調(diào)度前臺其它服務(wù)定義數(shù)據(jù)工場關(guān)鍵服務(wù)調(diào)度調(diào)度服務(wù)3.0調(diào)度服務(wù)3.0 智能調(diào)度數(shù)據(jù)工場關(guān)鍵服務(wù)調(diào)度數(shù)據(jù)源監(jiān)控末端監(jiān)控acdbfe數(shù)據(jù)流1末端監(jiān)控acdbfe數(shù)據(jù)流2末端監(jiān)控acdbfe數(shù)據(jù)流3末端監(jiān)控acdbfe數(shù)據(jù)流4末端監(jiān)控acdbfe數(shù)據(jù)流5系統(tǒng)關(guān)鍵路徑點(diǎn)監(jiān)控關(guān)鍵路徑分析數(shù)據(jù)工場關(guān)鍵服務(wù)調(diào)度全量/非實(shí)時(shí)同步增量實(shí)時(shí)同步數(shù)據(jù)源Mysql備庫oracle備庫日志數(shù)據(jù)爬蟲數(shù)據(jù)Hadoop集群DataXTimeTunnel

10、2Dbsync計(jì)算結(jié)果Mysqloracle全量/非實(shí)時(shí)同步DataXHDFS數(shù)據(jù)工場關(guān)鍵服務(wù)數(shù)據(jù)集成數(shù)據(jù)工場關(guān)鍵服務(wù)IDE數(shù)據(jù)工場關(guān)鍵服務(wù)RCPJDBCHive 元數(shù)據(jù)庫Hadoop Cluster BUSCLICLICLIIDE Server(CLI mode)元數(shù)據(jù)調(diào)度優(yōu)化引擎生命周期Hive serverJDBCJDBCHTTPHTTPPIPEIDE Server(HS mode)RPCRCPWeb數(shù)據(jù)工場關(guān)鍵服務(wù)IDE數(shù)據(jù)倉庫表打散為表.列歸一化表達(dá)式用戶提交的數(shù)據(jù)流打散為表.列歸一化表達(dá)式進(jìn)入匹配數(shù)據(jù)流rewrite模型優(yōu)化建議提交反饋進(jìn)入用戶重寫規(guī)則引擎字段倉庫數(shù)據(jù)工場關(guān)鍵服務(wù)成本優(yōu)化生命周期對象( Object )動作( Action ):規(guī)則( Rule ):對象( Object ):Hive tableHDFS中的目錄動作( Action ):僅保留,不作操作刪除合并/壓縮極限存儲HDFS Raid移動到其它文件系統(tǒng)其它操作(可增加)動作可以級聯(lián)規(guī)則( Rule ):指定管理對象,在指定時(shí)間后,執(zhí)行指定操作策略。每個(gè)管理對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論