ETL架構(gòu)分解即常見問題分析課件_第1頁
ETL架構(gòu)分解即常見問題分析課件_第2頁
ETL架構(gòu)分解即常見問題分析課件_第3頁
ETL架構(gòu)分解即常見問題分析課件_第4頁
ETL架構(gòu)分解即常見問題分析課件_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、標準化ETL工具 目錄:ETL工具歷史發(fā)展過程ETL工具構(gòu)成部分數(shù)據(jù)倉庫數(shù)據(jù)抽取5層及數(shù)據(jù)加工命名規(guī)范ETL工具配置方法(五張表配置)常用配置小工具開發(fā)與使用ETL工具運維與常見問題分析培訓目的:了解標準化工具架構(gòu)掌握ETL工具數(shù)據(jù)抽取方法第一部分:ETL工具歷史發(fā)展過程三個階段兩個版本第一階段:原四川國稅老電子檔案及風險管理系統(tǒng)數(shù)據(jù)抽取模式:使用kettle工具調(diào)用oracle數(shù)據(jù)庫上面的一個存儲過程的模式,通過kettle工具本身控制抽取的啟動時間,每個表的抽取順序都必須在存儲過程中寫死,原理還是使用oracle數(shù)據(jù)庫的dblink和物化視圖日志的方式進行數(shù)據(jù)的增量抽取。第二階段:ETL工

2、具v1.0階段電子檔案及風險管理系統(tǒng)改造后版本及原四川國稅決策二包上線使用的電子檔案數(shù)據(jù)倉庫版本,在這個版本中已經(jīng)使用到pkg_etl_shell程序包,但這個版本從原理上面來看還是使用的dblink技術(shù)配合物化視圖或時間戳方式實現(xiàn)數(shù)據(jù)抽取第三階段:標準數(shù)據(jù)集市上線版本即ETL工具v2.0版本,標準etl工具配合java外部程序調(diào)用兩個版本:oracle版本、大數(shù)據(jù)平臺版本第二部分:ETL工具構(gòu)成部分功能架構(gòu)圖ETL工具最核心代碼部分:JAVA外部代理程序(collapsar_oracle-442)存儲過程包功能介紹PKG_CTL_LOG(日志功能包)PKG_ETL_SHELL(調(diào)度功能包)P

3、KG_ETL_TAB(標準化ETL功能包)PKG_ETL_QJ(期間維度功能包)PKG_CTL_TOOL(工具功能包)PKG_CMP_TAB(補差異功能包)第三部分:數(shù)據(jù)倉庫數(shù)據(jù)抽取5層及數(shù)據(jù)加工命名規(guī)范一致性維度標準1.維度概念 對業(yè)務數(shù)據(jù)進行分析時所選擇的分析視角,是分析數(shù)據(jù)時所采取的特定角度。2.維度表建模模式 1)W0模式單層維度表 維度表的屬性之間不具有層次關(guān)系,例如會計制度維度表 2)W1模式多層單粒度維度表 維度表的屬性之間具有層次關(guān)系,表中只存儲一個層次的數(shù)據(jù),例如月份維度表 3)W2模式多層多粒度維度表 維度表的屬性之間具有層次關(guān)系,且表中存儲多個層次的數(shù)據(jù),例如征期維度表

4、4)W3模式橋接維度表 把兩個維度表關(guān)聯(lián)起來而創(chuàng)建的一個新的維度表,例如標準科目與標準報表項目對應關(guān)系表 5)W4模式事實性維度表 兼有維度表與事實表的特性,例如納稅人維度、集團維度3.一致性維度標準 必須統(tǒng)一標準、統(tǒng)一維度結(jié)構(gòu)、數(shù)據(jù)倉庫數(shù)據(jù)抽取5層1.數(shù)據(jù)項概念 指向具體承載業(yè)務含義的表單中的具體欄目內(nèi)容(指標元)2.事實表建模模式 1)S0模式同構(gòu)表 結(jié)構(gòu)與生產(chǎn)系統(tǒng)的表基本保持一致,可以經(jīng)過適當?shù)娜哂唷藴驶秃唵蔚挠嬎?2)S1模式切分表 在同構(gòu)表或其他切分表基礎(chǔ)上進行橫向切分(只選需要的列)或縱向切分(清洗掉沒用的數(shù)據(jù)) 3)S2模式歸集表 把多個同構(gòu)表或切分表關(guān)聯(lián)得到一個新的明細表,

5、例如主子表關(guān)聯(lián)、行表轉(zhuǎn)為列表也屬于此模式 4)S3模式聚集表 在S0,S1,S2的基礎(chǔ)上按特定維度進行匯總得到的表 5)S4模式多維明細表 在S0,S1,S2的基礎(chǔ)上,增加特定的維度區(qū)分數(shù)據(jù)項的業(yè)務特性或來源,而生成的新的明細表 6)S5模式多維聚集表 在S4的基礎(chǔ)上,按特定的維度對數(shù)據(jù)進行聚集加工而生成的新的匯總表3.建模原則 貼源(必須有S0),趨低性(以低模式為準),主題原子性(有S5必有S4),層次接近性(數(shù)據(jù)源取最近的),分層合理性4.應用原則 粗粒度取數(shù)(取粒度最粗的),單維度取數(shù)(多層維度模式無需關(guān)聯(lián)粗粒度維度表),內(nèi)連接取數(shù)(維表與事實表使用內(nèi)聯(lián))第四部分:ETL工具配置方法(

6、五張表配置)標準化ETL工具配置信息作業(yè)流信息表(配置T_CTL_FLOW_INFO)作業(yè)依賴關(guān)系表(配置T_CTL_FLOW_DEP)作業(yè)信息表(配置T_CTL_JOB_INFO)表配置信息(配置T_ETL_TAB_CONF)映射表信息(配置T_ETL_TAB_MAPPING)映射字段信息表(配置T_ETL_COL_MAPPING)作業(yè)依賴日志表(T_CTL_LOG_DEP)作業(yè)狀態(tài)日志表(T_CTL_LOG_STAT)作業(yè)步驟日志表(T_CTL_LOG_STEP)服務器信息表(T_CTL_SERVER)處理環(huán)節(jié)信息表(T_CTL_PARAME)第五部分:常用配置小工具開發(fā)與使用ETL配置工

7、具PKG_CTL_TOOL. P_CTL_HIVE_TABLE (大數(shù)據(jù)建表)P_DSJ_SJZBQ_TABLE_ETL存儲過程(快照層表配置)P_DSJ_QT_TABLE_ETL存儲過程(其他層表配置)P_DSJ_QT_CREATE_TABLE_ETL過程(其他層建表)P_DSJ_WD_TABLE_ETL過程(用戶將配置表之間的復制)第六部分:ETL工具運維與常見問題分析日常運維檢查作業(yè)流日志失敗作業(yè)查看每個層級抽取執(zhí)行情況查看具體抽取報錯情況查看正在運行的JOB運行時間作業(yè)調(diào)用ORA-12899: value too large for column ORA-00001: unique constraint存儲過程異常結(jié)束ORA-00904: SSYF: invalid identifierORA-01403: no data foundORA-08103: object no longer ex

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論