![大數(shù)據(jù)建設OneData體系課件_第1頁](http://file4.renrendoc.com/view/00fd22cea703118a459f00712be11714/00fd22cea703118a459f00712be117141.gif)
![大數(shù)據(jù)建設OneData體系課件_第2頁](http://file4.renrendoc.com/view/00fd22cea703118a459f00712be11714/00fd22cea703118a459f00712be117142.gif)
![大數(shù)據(jù)建設OneData體系課件_第3頁](http://file4.renrendoc.com/view/00fd22cea703118a459f00712be11714/00fd22cea703118a459f00712be117143.gif)
![大數(shù)據(jù)建設OneData體系課件_第4頁](http://file4.renrendoc.com/view/00fd22cea703118a459f00712be11714/00fd22cea703118a459f00712be117144.gif)
![大數(shù)據(jù)建設OneData體系課件_第5頁](http://file4.renrendoc.com/view/00fd22cea703118a459f00712be11714/00fd22cea703118a459f00712be117145.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、OneData體系架構阿里巴巴數(shù)據(jù)技術及產(chǎn)品部天矢第1頁,共35頁。01總述規(guī)范定義02目錄 模型設計03實施流程04第2頁,共35頁。(一)總述第3頁,共35頁。數(shù)據(jù)量大數(shù)據(jù)不一致業(yè)務多且變化快數(shù)據(jù)質量要求高運維任務多背景第4頁,共35頁。定位什么是OneData從規(guī)范定義、數(shù)據(jù)模型、數(shù)據(jù)研發(fā)到數(shù)據(jù)服務,可管理、可追溯,規(guī)避重復建設,提供標準的、共享的、服務化的數(shù)據(jù);大數(shù)據(jù)建設方法論 數(shù)據(jù) 規(guī)范定義數(shù)據(jù)研發(fā) 數(shù)據(jù) 模型設計數(shù)據(jù)服務第5頁,共35頁。數(shù)據(jù)架構體系第6頁,共35頁。(二)規(guī)范定義第7頁,共35頁。定位規(guī)范定義統(tǒng)一指標、統(tǒng)一算法口徑有效GMV:下單金額?支付金額?最近1天?自然周?
2、財年?去除大額的邏輯是?計算邏輯是什么?下單有效金額(crt_ord_vld_amt)、最近1天下單有效金額(crt_ord_vld_amt_1d_001)指標的定義和管理體系第8頁,共35頁。OneData體系架構第9頁,共35頁。名詞術語(一)名詞解釋數(shù)據(jù)域數(shù)據(jù)域是業(yè)務板塊中有一定規(guī)模且相對獨立的數(shù)據(jù)業(yè)務范圍。面向業(yè)務分析,將業(yè)務過程或者維度進行抽象的集合。為保障整個體系的生命力,數(shù)據(jù)域是需要抽象提煉、并且長期維護和更新的,但不輕易變動。在劃分數(shù)據(jù)域時,既能涵蓋當前所有的業(yè)務需求,又能在新業(yè)務進入時無影響的被包含進已有的數(shù)據(jù)域和擴展新的數(shù)據(jù)域。業(yè)務過程業(yè)務過程是指企業(yè)的業(yè)務活動事件,如下單
3、、支付、退款都是業(yè)務過程。請注意業(yè)務過程是一個不可拆分的行為事件,通俗講業(yè)務過程就是企業(yè)活動中的事件。時間周期用來明確數(shù)據(jù)統(tǒng)計的時間范圍或者時間點,如最近30天、自然周、截至當日等。修飾類型是對修飾詞的一種抽象劃分。修飾類型從屬于某個業(yè)務域,如日志域的訪問終端類型涵蓋無線端、PC端等修飾詞。修飾詞指除了統(tǒng)計維度以外指標的業(yè)務場景限定抽象。修飾詞隸屬于一個修飾類型,如日志域的訪問終端類型下,有修飾詞PC端、無線端等。第10頁,共35頁。名詞術語(二)名詞解釋原子指標/度量基于某一業(yè)務事件行為下的度量,是業(yè)務定義中不可再拆分的指標,具有明確業(yè)務含義的名詞。原子指標=業(yè)務過程(動作)+度量,如支付(
4、事件)金額(度量)。派生指標派生指標=一個原子指標+多個修飾詞(可選)+時間周期??梢岳斫鉃閷υ又笜藰I(yè)務統(tǒng)計范圍的圈定。如原子指標:支付金額,最近1天海外買家支付金額則為派生指標(最近1天為時間周期,海外為修飾詞,買家作為維度而不作為修飾詞)。維度維度是度量的環(huán)境,用來反映業(yè)務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體對象。維度屬于一個數(shù)據(jù)域,如地理維度(其中包括國家、地區(qū)、省以及城市等級別的內容)、時間維度(其中包括年、季、月、周、日等級別的內容)。維度屬性維度屬性隸屬于一個維度,如地理維度里面的國家名稱、國家ID、省份名稱等都屬于維度屬性。第11頁,共35頁。核心架構數(shù)據(jù)域業(yè)
5、務過程維度修飾類型修飾詞原子指標派生指標屬性交易域訂單支付方式花唄支付金額pay_amt最近1天通過花唄支付的支付金額pay_amt_1d_009訂單ID創(chuàng)建時間支付1.數(shù)據(jù)域:是指一個或多個業(yè)務過程或者維度的集合2.原子指標:基于某一業(yè)務過程下的度量。例如:支付+金額=支付金額; 3.派生指標=原子指標+時間修飾+其他修飾詞+原子指標;屬性是用來刻畫某個實體對象維度的數(shù)據(jù)形態(tài);事實叫做度量,如購買數(shù)量4.修飾:指針對原子指標的業(yè)務場景限定抽象。例如:最近N天邏輯結構舉例業(yè)務板塊電商業(yè)務度量支付金額pay_amt時間周期最近1天第12頁,共35頁。最近1天SEO來源的海外搜索UVse_uv_1
6、d_0323英文字段名后面的編號有規(guī)律?4為什么要加個編號,如何體現(xiàn)出修飾詞?按照 原子指標+時間周期自增1.為了保障唯一性,算法可追溯;2.一個派生指標涉及的修飾詞個數(shù)和具體的修飾不可控,所以在保障唯一性的前提下英文字段名中體現(xiàn)所有修飾,并不可行;指標舉例原子指標:搜索UV時間周期:一天時間(1d)修飾詞:SEO來源、海外搜索最近1天SEO來源的海外搜索UV2英文字段名是怎么生成的?se_uv_1d_032原子指標(搜索UV)英文名:se_uv一天時間:1d修飾詞(seo來源、海外搜索):全部吞并在032編號中1指標如何拆解?第13頁,共35頁。指標體系.基本原則派生指標由原子指標、時間周期
7、修飾詞、若干其他修飾詞組合得到。原子指標、修飾詞,直接歸屬在業(yè)務過程下。派生指標可以選擇多個修飾詞,修飾詞之間的關系為或或者且的關系,具體由具體的派生指標語義決定。 派生指標唯一歸屬一個原子指標,繼承原子指標的數(shù)據(jù)域、與修飾詞的數(shù)據(jù) 域無關。 一般而言:事務型指標和存量型指標只會唯一定位到一個業(yè)務過程,如果遇 到同時有兩個行為發(fā)生、需要多個修飾、生成一個派生指標的話,選擇時間 靠后的行為創(chuàng)建原子指標,另一個時間靠前的行為創(chuàng)建為修飾詞。原子指標有確定的英文字段名、數(shù)據(jù)類型和算法說明;派生指標要繼承原子指標的英文名、數(shù)據(jù)類型和算法要求。第14頁,共35頁。(三)模型設計第15頁,共35頁。數(shù)據(jù)模型
8、什么是數(shù)據(jù)模型?為什么需要數(shù)據(jù)模型?第16頁,共35頁。定位數(shù)據(jù)模型有效組織和存儲統(tǒng)一算法口徑避免重復計算取用方便比如,淘系交易明細事實表,分攤金額至交易子訂單,去掉優(yōu)惠金額等邏輯;冗余商品、買家、賣家等維度的屬性;比如,主交易賣家粒度最近1天匯總事實表主交易商品粒度最近1天匯總事實表數(shù)據(jù)的有序、有結構的分類組織和存儲方法第17頁,共35頁。層次結構第18頁,共35頁。CDM核心架構維度指標表數(shù)據(jù)分布情況表關聯(lián)使用情況明細維表明細事實表匯總事實表數(shù)據(jù)化規(guī)范化Star Scheme第19頁,共35頁。流量交易設計方法-DWD模型設計識別業(yè)務過程選擇事實表的類型確定粒度及選定維度添加度量冗余維度維
9、度冗余事實表帶來的好處與弊端DWD層關聯(lián)相關數(shù)據(jù)和組合相似數(shù)據(jù)的原則DWD層事實寬表垂直劃分和水平切割第20頁,共35頁。流量商品交易設計方法-DIM模型設計確定維度選擇維度屬性冗余高粒度維度屬性整合分組和劃分雜項維度、微型維度慢變維、快變維、巨型維度維度表的一致性和集中化第21頁,共35頁。流量商品交易設計方法-DWS模型設計確定粒度選擇維度選擇指標可以有哪些劃分?數(shù)據(jù)域時間周期(1d,nd,td)業(yè)務過程核心與擴展去重和非去重自定義(終端類型、業(yè)務子集集合)指標分類事務型存量型衍生比率型排名比較/均值型挖掘指數(shù)型第22頁,共35頁。流量商品交易設計準則-ODS命名規(guī)范表命名規(guī)范DBSync
10、方式得到非去重增量數(shù)據(jù):project_name.s_tt_源系統(tǒng)表名增量數(shù)據(jù):project_name.s_源系統(tǒng)表名_delta全量數(shù)據(jù): project_name.s_源系統(tǒng)表名ODS ETL過程的臨時表:project_name.tmp_臨時表所在過程的輸出表_從0開始的序號按小時的增量表:project_name.s_源系統(tǒng)表名_delta_hh按小時的全量表:project_name.s_源系統(tǒng)表名_hh當從不同源系統(tǒng)同步到一個project下表命名沖突時,后進來的表的命名加上源系統(tǒng)的dbname。字段命名規(guī)范字段默認使用源系統(tǒng)字段名稱字段名與ODPS關鍵字沖突時處理規(guī)則:加一個”
11、_col”后綴,即:源字段名_col第23頁,共35頁。流量商品交易設計準則-DIM命名規(guī)范project_name.dim_業(yè)務BU/pub_維度定義_自定義命名標簽,所謂的pub是類似與具體業(yè)務BU無關,各個bu都可以共用,例如時間維度。tbcdm.dim_tb_itm(淘寶商品維核心表)tbcdm.dim_tb_itm_extend(淘寶商品維擴展信息表)tbcdm.dim_tb_cate(淘寶商品發(fā)布類目維表)第24頁,共35頁。流量商品交易設計準則-DWD命名規(guī)范project_name.dwd_業(yè)務BU縮寫/pub_數(shù)據(jù)域縮寫_業(yè)務過程縮寫_自定義表命名標簽縮寫_刷新周期標識_單分
12、區(qū)增量全量標識,pub表示數(shù)據(jù)包括多個BU的數(shù)據(jù),單分區(qū)增量全量標識:i:表示增量,f表示全量。dwd_tb_trd_ord_ent_didwd_tb_rsk_remark_df第25頁,共35頁。流量商品交易設計準則-DWS命名規(guī)范project_name.dws_業(yè)務BU縮寫/pub_數(shù)據(jù)域縮寫_數(shù)據(jù)粒度縮寫_自定義表命名標簽縮寫_統(tǒng)計時間周期范圍縮寫_刷新周期標識_單分區(qū)增量全量標識。關于統(tǒng)計實際周期范圍縮寫,缺省情況下,離線計算應該包括最近一天(_1d),最近N天(_nd)和歷史截至當天(_td)三個表,如果出現(xiàn)_nd的表字段過多,需要拆分之時,只允許以一個統(tǒng)計周期單元作為原子拆分,也
13、就是說一個統(tǒng)計周期拆分一個表,比如最近7天(_1w)拆分一個表;不允許拆分出來的一個表存儲多個統(tǒng)計周期的。對于小時表不管是天刷新還是小時刷新, 都用_hh 來表示。對于分鐘表不管是天刷新還是小時刷新,都用_mm來表示。dws_tb_trd_slr_ord_1ddws_tb_log_slr_pv_wl_1d第26頁,共35頁。流量商品交易設計準則-從命名看劃分dws_業(yè)務BU縮寫/pub_數(shù)據(jù)域縮寫_數(shù)據(jù)粒度縮寫_自定義表命名標簽縮寫tb:大淘寶ovs:淘寶海外intl:天貓國際lty:彩票pub:公共tm:天貓trip:航旅jhs:聚劃算etao:一淘o2o:本地生活wl:無線trd:交易lg
14、t:物流&快遞log:日志mbr:會員&店鋪itm:商品rsk:信用風控tls:工具&服務ad:廣告crm:銷售&服務dst:采購&分銷sns:社區(qū)fnd:資金cate:類目slr:賣家byr:買家itm:商品bc:bc類型cnty:國家All:全站.ord:交易主訂單rfd:退款交易app:app客戶端wl:無線wap:wapcnty:國家.第27頁,共35頁。(四)實施流程第28頁,共35頁。整體流程第29頁,共35頁。工具及規(guī)范Onedata: /index需求梳理:應用數(shù)據(jù)遷移梳理-模板.xlsx數(shù)據(jù)規(guī)范定義:數(shù)據(jù)規(guī)范定義-模板.xlsx數(shù)據(jù)模型設計:阿里集團及小微集團數(shù)據(jù)公共層建設-數(shù)據(jù)模型設計.docxETL開發(fā):阿里集團及小微集團數(shù)據(jù)公共層建設-數(shù)據(jù)開發(fā)規(guī)范.docx第30頁,共35頁。流量商品交易設計準則一致性(規(guī)范、設計理念、執(zhí)行細則)高內聚和低耦合成本、歷史數(shù)據(jù)、性能、運維平衡數(shù)據(jù)刷新單日可回滾核心模型相對穩(wěn)定性清晰可理解,而不是一味簡單方便查詢第31頁,共35頁。流量商品交易設計方法-DWD模型設計識別業(yè)務過程選擇事實表的類型選定維度及確定粒度添加度量冗余維度維度冗余事實表帶來的好處與弊端DWD層關聯(lián)相關數(shù)據(jù)和組合相似數(shù)據(jù)的原則DWD層事實寬表垂直劃分和水平切割第32頁,共35頁。流量商品交易設計方法-DI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- ERK2-IN-5-生命科學試劑-MCE-2561
- 二零二五年度文化旅游項目管理費合同范本
- 二零二五年度體育賽事表演安全免責合同
- 施工日志填寫樣本建筑物綠化工程
- 小學數(shù)學課堂中的情境教學與興趣培養(yǎng)
- 酒店衛(wèi)生標準與旅客健康保障措施研究
- 個人土地承包合同示范文本
- 產(chǎn)品分銷區(qū)域合同范本
- SPA會所年度承包經(jīng)營合同
- 個人財產(chǎn)保險合同模板(經(jīng)典)
- 新人教版四年級下冊數(shù)學教材解讀課件
- 《移動互聯(lián)網(wǎng)應用開發(fā)》課程標準
- 竣工資料封面
- 膿毒血癥指南
- 中國航天知識
- 安徽華納化學工業(yè)有限公司年產(chǎn)1000噸均苯四甲酸二酐、300噸潤滑油助劑項目環(huán)境影響報告書
- YY 9706.230-2023醫(yī)用電氣設備第2-30部分:自動無創(chuàng)血壓計的基本安全和基本性能專用要求
- 第8課紅樓春趣同步練習(含答案)
- C139營銷模型簡介(含案例)課件
- 死亡醫(yī)學證明書辦理委托書
- 《壓力容器安全技術監(jiān)察規(guī)程》
評論
0/150
提交評論