數(shù)據(jù)倉庫及ETL2016.09.19_第1頁
數(shù)據(jù)倉庫及ETL2016.09.19_第2頁
數(shù)據(jù)倉庫及ETL2016.09.19_第3頁
數(shù)據(jù)倉庫及ETL2016.09.19_第4頁
數(shù)據(jù)倉庫及ETL2016.09.19_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、12目錄基礎(chǔ)概念I(lǐng)nformatica 組件詳解Informatica KB介紹ETL系統(tǒng)介紹31、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè): 面向主題的(Subject Oriented) 集成的(Integrate) 相對穩(wěn)定的(Non-Volatile) 反映歷史變化(Time Variant)的數(shù)據(jù)集合41、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè): 面向主題的(Subject Oriented) 集成的(Integrate) 相對穩(wěn)定的(Non-Volatile) 反映歷史變化(Time Variant)的數(shù)據(jù)集合51、數(shù)據(jù)倉庫的特點(diǎn) 面向主題的(Subject Oriented)數(shù)據(jù)是面向應(yīng)用程序事務(wù)的,而數(shù)據(jù)倉庫中

2、數(shù)據(jù)的是按商業(yè)主題存放的,商業(yè)主題會(huì)隨著企業(yè)的不同而不同。 集成的(Integrate)在將不同來源的數(shù)據(jù)存入數(shù)據(jù)倉庫中之前,必須把這些不同的數(shù)據(jù)元素標(biāo)準(zhǔn)化,對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等集成操作。 相對穩(wěn)定的(Non-Volatile)一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 反映歷史變化(Time Variant)數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)到目前的各個(gè)階段的信。6主題與主題域主題面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象數(shù)據(jù)的一個(gè)完整并且一致的描述,能刻

3、畫各個(gè)分析對象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。主題域主題域是對某個(gè)主題進(jìn)行分析后確定的主題的邊界7主題與主題域主題與主題域:財(cái)務(wù):資金籌集、資金配置、資本結(jié)構(gòu)、現(xiàn)金創(chuàng)造、現(xiàn)金管理資產(chǎn)質(zhì)量、盈利能力、債務(wù)風(fēng)險(xiǎn)、成本、費(fèi)用、差旅人力資源:人員、薪酬、職位、員工關(guān)懷、人員流動(dòng)、技能提升資產(chǎn):固定資產(chǎn)、資產(chǎn)使用、資產(chǎn)維護(hù)、折舊、殘值經(jīng)營分析:流量、生產(chǎn)保障、精細(xì)化管理、運(yùn)營效率、設(shè)施效率8主題與主題域2022-3-24Inspur group9維度建模2022-3-24Inspur group維度建模:其最簡單的描述就是,按照事實(shí)表、維度表來構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)集市。維度表: 維度表可以看作是

4、用戶來分析數(shù)據(jù)的窗口,緯度表中包含事實(shí)數(shù)據(jù)表中事實(shí)記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實(shí)數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)。事實(shí)表:在多維數(shù)據(jù)倉庫中,保存度量值的詳細(xì)值或事實(shí)的表稱為“事實(shí)表”。10維度建模2022-3-24Inspur group簡單的說:1、事實(shí)表就是你要關(guān)注的內(nèi)容;2、維表就是你觀察該事務(wù)的角度,是從哪個(gè)角度去觀察這個(gè)內(nèi)容的。 11星形模型與雪花模型2022-3-24Inspur group12雪花模型2022-3-24Inspur group13星形模型與雪花模型2022-3-24Inspur group

5、星形模型 一種使用關(guān)系數(shù)據(jù)庫實(shí)現(xiàn)多維分析空間的模式,稱為星型模式。星型模式的基本形式必須實(shí)現(xiàn)多維空間(常常被稱為方塊),以使用關(guān)系數(shù)據(jù)庫的基本功能。雪花雪花模式模式不管什么原因,當(dāng)星型模式的維度需要進(jìn)行規(guī)范化時(shí),星型模式就演進(jìn)為雪花模式。14星形模型缺點(diǎn)2022-3-24Inspur groupBenefits:Simpler queriesSimplified business reporting logicQuery performance gainsExpansibilityDisadvantagesredundancy dataHarder Complex Queries 15緩慢變化

6、維2022-3-24Inspur groupSupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply CoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply CoILoriginalNow16緩慢變化維處理方式2022-3-24Inspur groupType 0: retain originalType 1: overwriteType 2: add new rowType 3: add new attributeTyp

7、e 4: add history tableType 6: hybrid17Type 2 & TYPE 32022-3-24Inspur groupSupplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcme Supply CoCA01-Jan-200021-Dec-2004124ABCAcme Supply CoIL22-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_

8、DateCurrent_Supplier_State123ABCAcme Supply CoCA22-Dec-2004IL18Type 4: add history table2022-3-24Inspur groupSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme & Johnson Supply CoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABCAcme Supply CoCA14-June-2003124ABC

9、Acme & Johnson Supply CoIL22-Dec-200419Type 6 2022-3-24Inspur groupSupplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcme Supply CoNYCA01-Jan-200021-Dec-2004N124ABCAcme Supply CoNYIL22-Dec-200403-Feb-2008N125ABCAcme Supply CoNYNY04-Feb-200831-

10、Dec-2009Y20代理主鍵2022-3-24Inspur group代理主鍵: 維度建模理論中,維表里使用原業(yè)務(wù)中的主鍵作為主鍵就是業(yè)務(wù)鍵(Business Key);建立新的主鍵就是代理鍵(Surrogate Key)為什么使用代理主鍵:性能主鍵重復(fù)21一致性維度2022-3-24Inspur group一致性維度:當(dāng)不同的維度表的屬性具有相同列名和領(lǐng)域內(nèi)容時(shí),稱維度表具有一致性。利用一致性維度屬性與每個(gè)事實(shí)表關(guān)聯(lián),可將來自不同事實(shí)表的信息合并到同一報(bào)表中。建模四步驟:22總線架構(gòu)2022-3-24Inspur group23數(shù)據(jù)倉庫架構(gòu)2022-3-24Inspur group24快速

11、判斷數(shù)據(jù)倉庫水平2022-3-24Inspur group 有沒有帶緩慢變化維度一致性維度 有沒有跨層取數(shù)的現(xiàn)象25ETL 34個(gè)子系統(tǒng)抽取在ETL環(huán)境中從源系統(tǒng)收集原始數(shù)據(jù)并且在任何對數(shù)據(jù)的重要重構(gòu)發(fā)生之前都將數(shù)據(jù)寫入磁盤。子系統(tǒng)1到子系統(tǒng)3都支持抽取過程。清洗和一致化通過ETL系統(tǒng)中的一系列處理步驟發(fā)送源數(shù)據(jù),這些步驟提高了從源系統(tǒng)接收數(shù)據(jù)的質(zhì)量,并且對兩個(gè)或多個(gè)源系統(tǒng)中的數(shù)據(jù)進(jìn)行了合并,創(chuàng)建并強(qiáng)化了一致性維度和一致性度量。子系統(tǒng)4到子系統(tǒng)8描述了支持清洗和一致化過程所需的架構(gòu)。26ETL 34個(gè)子系統(tǒng)提交從物理上將數(shù)據(jù)組織和裝載到呈現(xiàn)服務(wù)器的目標(biāo)維度模型中。子系統(tǒng)9到子系統(tǒng)21提供了若干

12、種將數(shù)據(jù)提交到服務(wù)器上的功能。管理用一致的方式來管理ETL環(huán)境中的相關(guān)系統(tǒng)和過程。子系統(tǒng)22到子系統(tǒng)34都描述了支持ETL系統(tǒng)現(xiàn)行管理所需的組件。2727抽取子系統(tǒng)1-數(shù)據(jù)探查子系統(tǒng)2-變化數(shù)據(jù)捕捉系統(tǒng) 審計(jì)列 定時(shí)抽取 完全差異比較 數(shù)據(jù)庫日志刮取 消息隊(duì)列監(jiān)視2828抽取子系統(tǒng)3-抽取系統(tǒng) 文件 FTP WEB SERVICE 數(shù)據(jù)庫 接口29數(shù)據(jù)的清洗和一致化子系統(tǒng)子系統(tǒng)4-數(shù)據(jù)清洗數(shù)據(jù)清洗系統(tǒng)系統(tǒng) 對數(shù)據(jù)質(zhì)量問題的早期診斷和鑒別分類: 完整性、一致性、準(zhǔn)確性、及時(shí)性 讓源系統(tǒng)和集成工作提供更優(yōu)質(zhì)的數(shù)據(jù) 具有為ETL過程中遇到的數(shù)據(jù)錯(cuò)誤提供特定描述的功能 具有能夠隨著時(shí)間推移捕捉所有數(shù)據(jù)

13、質(zhì)量錯(cuò)誤和度量數(shù)據(jù)質(zhì)量的框架 對最終數(shù)據(jù)的質(zhì)量可信度進(jìn)行度量的附加功能30數(shù)據(jù)的清洗和一致化2022-3-24Inspur group子系統(tǒng)子系統(tǒng)5-5-錯(cuò)誤事件錯(cuò)誤事件模式模式子系統(tǒng)子系統(tǒng)6-審計(jì)審計(jì)維裝配器維裝配器31數(shù)據(jù)的清洗和一致化2022-3-24Inspur group子系統(tǒng)子系統(tǒng)7-7-重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)刪除系統(tǒng)系統(tǒng)子系統(tǒng)子系統(tǒng)8-一致化系統(tǒng)一致化系統(tǒng)子系統(tǒng)子系統(tǒng)9-向向呈現(xiàn)層交付呈現(xiàn)層交付數(shù)據(jù)數(shù)據(jù)子系統(tǒng)子系統(tǒng)9-緩慢緩慢變化維變化維管理器管理器子系統(tǒng)子系統(tǒng)10-代理代理鍵鍵生成器生成器子系統(tǒng)子系統(tǒng)11-層次管理器層次管理器32數(shù)據(jù)的清洗和一致化2022-3-24Inspur

14、group子系統(tǒng)子系統(tǒng)12-專用維度管理器專用維度管理器 日期/時(shí)間維 雜項(xiàng)維 微型維(視圖維度) 小型靜態(tài)維 用戶維護(hù)的維度子系統(tǒng)子系統(tǒng)13-事實(shí)事實(shí)表構(gòu)建表構(gòu)建器器 事務(wù)處理粒度事實(shí)表裝載器 周期快照事實(shí)表裝載器 累積快照事實(shí)表裝載器33數(shù)據(jù)的清洗和一致化2022-3-24Inspur group子系統(tǒng)子系統(tǒng)14-14-代理鍵代理鍵管道管道子系統(tǒng)子系統(tǒng)1515-多多值維度橋接表構(gòu)建值維度橋接表構(gòu)建器器子系統(tǒng)子系統(tǒng)16-延遲延遲到達(dá)到達(dá)數(shù)據(jù)處理器數(shù)據(jù)處理器子系統(tǒng)子系統(tǒng)17-維維度度管理系統(tǒng)管理系統(tǒng)子系統(tǒng)子系統(tǒng)18-事實(shí)事實(shí)提供提供系統(tǒng)系統(tǒng)子系統(tǒng)子系統(tǒng)19-聚集聚集構(gòu)建構(gòu)建器器子系統(tǒng)子系統(tǒng)20

15、-OLAP多維數(shù)據(jù)集構(gòu)建多維數(shù)據(jù)集構(gòu)建器器子系統(tǒng)子系統(tǒng)21-數(shù)據(jù)數(shù)據(jù)傳播管理器傳播管理器34管理ETL環(huán)境 子系統(tǒng)子系統(tǒng)22-22-作業(yè)調(diào)度作業(yè)調(diào)度器器 子系統(tǒng)子系統(tǒng)23-備份系統(tǒng)備份系統(tǒng) 子系統(tǒng)子系統(tǒng)24-恢復(fù)恢復(fù)和重啟和重啟系統(tǒng)系統(tǒng) 子系統(tǒng)子系統(tǒng)25-版本控制系統(tǒng)版本控制系統(tǒng) 子系統(tǒng)子系統(tǒng)26-版本版本遷移遷移系統(tǒng)系統(tǒng) 子系統(tǒng)子系統(tǒng)27-工作工作流流監(jiān)視器監(jiān)視器 子系統(tǒng)子系統(tǒng)28-排序系統(tǒng)?排序系統(tǒng)? 子系統(tǒng)子系統(tǒng)29-沿襲沿襲和依賴和依賴分析器分析器 子系統(tǒng)子系統(tǒng)30-問題問題自動(dòng)調(diào)整自動(dòng)調(diào)整系統(tǒng)系統(tǒng) 子系統(tǒng)子系統(tǒng)31-并行并行/管道系統(tǒng)管道系統(tǒng) 子系統(tǒng)子系統(tǒng)32-安全系統(tǒng)安全系統(tǒng) 子系

16、統(tǒng)子系統(tǒng)33- - -合規(guī)性管理器合規(guī)性管理器35管理ETL環(huán)境子系統(tǒng)子系統(tǒng)34-元數(shù)據(jù)元數(shù)據(jù)知識(shí)庫知識(shí)庫管理器管理器技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)運(yùn)行元數(shù)據(jù)3636Informatica整體架構(gòu)3737兩個(gè)服務(wù)器端和五個(gè)客戶端組件服務(wù)器端Repository ServerInformatca Server客戶端Repository ManagerDesignerWorkflow Manager Workflow MonitorRepository Server Administration Console 3838五個(gè)客戶端組件的作用Repository Manager 元數(shù)據(jù)資料庫,依賴分析,安全性

17、管理等。Designer 定義源和目標(biāo)數(shù)據(jù)結(jié)構(gòu),設(shè)計(jì)轉(zhuǎn)換規(guī)則,生成ETL映射。Workflow Manager 合理地實(shí)現(xiàn)復(fù)雜的ETL工作流,基于時(shí)間或事件的作業(yè)調(diào)度。Workflow Monitor 監(jiān)控workflow和session,生成工作日志及報(bào)告。Repository Server Administration Console Repository的建立與維護(hù)3939INFA安裝配置依賴:Oracle DB2 或SQL SERVER的DBA權(quán)限安裝配置過程:點(diǎn)擊Server軟件包 setup.exe 完成安裝登錄控制臺(tái)創(chuàng)建RS,IS,把RS由獨(dú)占模式改為普通模式點(diǎn)擊Client軟件包setup.exe配置連接信息,連接到服務(wù)器端40客戶端和服務(wù)端端組件40服務(wù)器端Repository ServerInformatca Server客戶端Reposi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論