《ETL方法介紹》課件_第1頁
《ETL方法介紹》課件_第2頁
《ETL方法介紹》課件_第3頁
《ETL方法介紹》課件_第4頁
《ETL方法介紹》課件_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《ETL方法介紹》PPT課件本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!《ETL方法介紹》PPT課件本課件PPT僅供大家學(xué)習(xí)內(nèi)容ETL根本概念ETL過程講解PICCETL總體架構(gòu)PICCETL開發(fā)方法內(nèi)容ETL根本概念ETL根本概念--主要目的將源系統(tǒng)數(shù)據(jù)經(jīng)過抽取/轉(zhuǎn)換過程,最終裝載到目標(biāo)系統(tǒng)

將針對日常業(yè)務(wù)操作的數(shù)據(jù)轉(zhuǎn)化為針對數(shù)據(jù)倉庫而存儲的決策支持型數(shù)據(jù)ETL根本概念--主要目的將源系統(tǒng)數(shù)據(jù)經(jīng)過抽?。D(zhuǎn)換過程,最ETL根本概念--術(shù)語解釋

ETLExtract-Transform-Load的縮寫,數(shù)據(jù)抽取〔Extract〕、轉(zhuǎn)換〔Transform〕、裝載〔Load〕的過程

DWDataWarehousing,根據(jù)Bill.Inmon的定義,“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的,主要用于決策支持的數(shù)據(jù)庫系統(tǒng)〞

MetaData元數(shù)據(jù),就是描述數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建立過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義、轉(zhuǎn)換規(guī)那么等相關(guān)的關(guān)鍵數(shù)據(jù)ETL根本概念--術(shù)語解釋ETLExtract-TransETL根本概念--數(shù)據(jù)倉庫中的位置ETL根本概念--數(shù)據(jù)倉庫中的位置ETL根本概念--數(shù)據(jù)質(zhì)量正確性(Accuracy):數(shù)據(jù)是否正確表達(dá)在現(xiàn)實(shí)或可證實(shí)的來源

完整性(Integrity):數(shù)據(jù)之間的參照完整性是否存在或一致

一致性(Consistency):數(shù)據(jù)是否被一致的定義或理解

完備性(Completeness):所有需要的數(shù)據(jù)是否都存在

有效性(Validity):數(shù)據(jù)是否在企業(yè)定義的可承受的范圍之內(nèi)

時(shí)效性(Timeliness):數(shù)據(jù)在需要的時(shí)間是否有效

可獲取性(Accessbility):數(shù)據(jù)是否易于獲取、易于理解和易于使用ETL根本概念--數(shù)據(jù)質(zhì)量正確性(Accuracy):數(shù)據(jù)ETL根本概念--數(shù)據(jù)質(zhì)量原因業(yè)務(wù)系統(tǒng)不同時(shí)期數(shù)據(jù)模型不一致

業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過程有變化

各個(gè)源系統(tǒng)之間相關(guān)信息不一致

遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性

源系統(tǒng)缺少輸入驗(yàn)證過程,不能阻止非法格式的數(shù)據(jù)進(jìn)入系統(tǒng)

可以驗(yàn)證但不能改正數(shù)據(jù),驗(yàn)證程序不能發(fā)現(xiàn)格式正確但內(nèi)容不正確的錯(cuò)誤

源系統(tǒng)不受控制的更改,而這種更改不能及時(shí)的傳播到受影響的系統(tǒng)

數(shù)據(jù)由多個(gè)穿插的訪問界面,難以統(tǒng)一管理數(shù)據(jù)質(zhì)量問題

缺少參照完整性檢查低劣的源系統(tǒng)設(shè)計(jì)

數(shù)據(jù)轉(zhuǎn)換錯(cuò)誤,比方ETL過程錯(cuò)誤或數(shù)據(jù)遷移過程的錯(cuò)誤

源系統(tǒng)與數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)組織方式完全不同ETL根本概念--數(shù)據(jù)質(zhì)量原因業(yè)務(wù)系統(tǒng)不同時(shí)期數(shù)據(jù)模型不一ETL根本概念--數(shù)據(jù)轉(zhuǎn)換空值處理

標(biāo)準(zhǔn)化數(shù)據(jù)格式

拆分?jǐn)?shù)據(jù)

驗(yàn)證數(shù)據(jù)合法性

數(shù)據(jù)替換

實(shí)現(xiàn)數(shù)據(jù)規(guī)那么過濾

數(shù)據(jù)排序

數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換

......ETL根本概念--數(shù)據(jù)轉(zhuǎn)換空值處理

ETL過程講解--邏輯架構(gòu)ETL過程講解--邏輯架構(gòu)ETL過程講解--Extract設(shè)計(jì)原那么為提高ETL效率,數(shù)據(jù)在進(jìn)入ETL系統(tǒng)后的EXF文件都將轉(zhuǎn)換為FlatText文件格式從ETL程序設(shè)計(jì)的靈活性和整體構(gòu)造的一致性考慮,盡量采用Pull的方式,減少對源系統(tǒng)的影響和對其他開發(fā)隊(duì)伍的依賴,并減少網(wǎng)絡(luò)壓力由于BatchWindows的限制,如果日源數(shù)據(jù)量大于5GB那么必須考慮采用Push的方式以提高傳送速度,如,可以由源系統(tǒng)將數(shù)據(jù)轉(zhuǎn)換為FlatText文件后,由ETL程序采用FTP的方式進(jìn)展傳送EXF的文件格式接近數(shù)據(jù)源的數(shù)據(jù)構(gòu)造定義在Extract過程中過濾數(shù)據(jù)倉庫不需要的數(shù)據(jù)記錄和字段Push和PullPush在源系統(tǒng)上根據(jù)定義的數(shù)據(jù)格式將每日增量數(shù)據(jù)生成數(shù)據(jù)文件,再通過FTP或文件拷貝的方式傳送給ETL程序處理Pull由ETL程序通過DRDA或ODBC等數(shù)據(jù)庫協(xié)議直接訪問源數(shù)據(jù)庫獲取所需數(shù)據(jù)進(jìn)展處理ETL過程講解--Extract設(shè)計(jì)原那么ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中產(chǎn)生的文件EXF(ExtractedFormat)由數(shù)據(jù)源Extract產(chǎn)生的文件,文件構(gòu)造與Source相似,經(jīng)過過濾,局部字段被忽略。

CIF(CommonInterfaceFormat)CIF是ETL經(jīng)過C/S/S過程產(chǎn)生的中間數(shù)據(jù)文件。

PLF(Pre-LoadFormat)經(jīng)過數(shù)據(jù)轉(zhuǎn)換,用于直接加載到數(shù)據(jù)倉庫的文本文件,其數(shù)據(jù)構(gòu)造與數(shù)據(jù)倉庫中的表定義一致。ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中產(chǎn)生的文件EXF(ExtrETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中一般需要完成的操作數(shù)據(jù)檢查與稽核數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換賦缺省值數(shù)據(jù)排序數(shù)據(jù)拆分篩選不合格的數(shù)據(jù)并記錄到Rejected文件中根據(jù)加載要求,CIF文件分為Load/Append和Snapshot兩類數(shù)據(jù)拷貝數(shù)據(jù)翻譯數(shù)據(jù)聚合復(fù)雜計(jì)算數(shù)據(jù)匹配對于必須通過比較才能確定變化的記錄的數(shù)據(jù),通過比較產(chǎn)生Delta數(shù)據(jù)和新的基準(zhǔn)數(shù)據(jù)ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中一般需要完成的操作數(shù)據(jù)檢查與ETL過程講解--數(shù)據(jù)處理流程ETL過程講解--數(shù)據(jù)處理流程ETL過程講解--數(shù)據(jù)對照開發(fā)流程SourceTableCIFTargetTablePLF1236EXF5641、收集整理所有數(shù)據(jù)源,定義源數(shù)據(jù)構(gòu)造(與EXF一樣〕2、根據(jù)物理模型設(shè)計(jì)定義數(shù)據(jù)倉庫數(shù)據(jù)〔與PLF一樣〕構(gòu)造3、設(shè)計(jì)源數(shù)據(jù)表〔文件〕與數(shù)據(jù)倉庫數(shù)據(jù)表對應(yīng)關(guān)系〔Table

Mapping),確定Pilot的數(shù)據(jù)源范圍4、設(shè)計(jì)源數(shù)據(jù)字段與數(shù)據(jù)倉庫字段的數(shù)據(jù)對照5、設(shè)計(jì)CIF的數(shù)據(jù)構(gòu)造6、設(shè)計(jì)源數(shù)據(jù)字段-EXF-CIF-PLF-數(shù)據(jù)倉庫數(shù)據(jù)字段的數(shù)

據(jù)對照ETL過程講解--數(shù)據(jù)對照開發(fā)流程SourceCIFTargPICCETL總體架構(gòu)--處理機(jī)制中間數(shù)據(jù)存放機(jī)制通用方式:文本文件或者數(shù)據(jù)庫表PICC:數(shù)據(jù)庫表

數(shù)據(jù)裝載機(jī)制通用方式:全量裝載、增量裝載和全/增量混合裝載PICC:全量裝載

數(shù)據(jù)裝載周期通用方式:日、周、旬、月、季、半年、年P(guān)ICC:月以上

數(shù)據(jù)映射完成機(jī)制通用方式:程序處理、工具處理以及混合處理PICC:程序處理PICCETL總體架構(gòu)--處理機(jī)制中間數(shù)據(jù)存放機(jī)制PICCETL總體架構(gòu)--應(yīng)用框架PICCETL總體架構(gòu)--應(yīng)用框架PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕從舊系統(tǒng)中導(dǎo)出20張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2001A〕

從新系統(tǒng)〔車險(xiǎn)數(shù)據(jù)庫〕中導(dǎo)出24張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段:字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2003A〕

從新系統(tǒng)〔財(cái)險(xiǎn)數(shù)據(jù)庫〕中導(dǎo)出如下8張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段:字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2003P〕

手工整理Excel表格共20張〔詳見應(yīng)用框架組成局部〕

把舊系統(tǒng)導(dǎo)出的20張表數(shù)據(jù)導(dǎo)入到表群EXF->CoreSystem中

把新系統(tǒng)車險(xiǎn)數(shù)據(jù)導(dǎo)出的24張表數(shù)據(jù)導(dǎo)入到表群EXF->NewSystem中

把新系統(tǒng)財(cái)險(xiǎn)數(shù)據(jù)導(dǎo)出的8張表數(shù)據(jù)導(dǎo)入到表群EXF->NewSystem中

把手工整理的20張Excel表數(shù)據(jù)導(dǎo)入到表群EXF->External中PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕從舊PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔Transform1〕在CIF第一層表中每生成一條記錄產(chǎn)生一個(gè)唯一的記錄ID進(jìn)展數(shù)據(jù)類型轉(zhuǎn)換進(jìn)展空值替換進(jìn)展數(shù)據(jù)格式統(tǒng)一進(jìn)展新舊系統(tǒng)到本系統(tǒng)的代碼映射根據(jù)業(yè)務(wù)需求對數(shù)據(jù)進(jìn)展必要的轉(zhuǎn)換其它一些代碼的轉(zhuǎn)換〔例如RiskCode、KindCode替換成Product_id等〕把不符合數(shù)據(jù)質(zhì)量要求的記錄寫入相應(yīng)的Reject表中,并調(diào)查原因,重新制定映射和清洗規(guī)那么在CIF第二層表中每生成一條記錄產(chǎn)生一個(gè)表內(nèi)唯一的FundamentalID,注意在這個(gè)過程不進(jìn)展任何整合過程,而是從CIF第一層每過來一條相關(guān)記錄就生成一個(gè)FundamentalID根據(jù)數(shù)據(jù)的Mapping,生成各個(gè)數(shù)據(jù)域的值在CIF第二層表中寫入相關(guān)的CIF第一層表的唯一記錄ID在CIF第二層表中寫入與數(shù)據(jù)級別相關(guān)的標(biāo)識字段值,例如Policy_no、Cliam_no、Coverage_no等需要回寫的整合過的FundamentalID,放入空值把不符合數(shù)據(jù)質(zhì)量要求的記錄寫入相應(yīng)的Reject表中,并調(diào)查原因,重新制定映射和整合規(guī)那么PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔Transform1〕PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔2〕〔Transform2〕進(jìn)展從CIF第二層表到PLF的FundamentalEntities的整合過程,生成真正的全局唯一的FundamentalID向CIF第二層表中回寫全局唯一的FundamentalID把CIF-Program表群導(dǎo)入到PLF相應(yīng)表中把EXF-External表群導(dǎo)入到PLF相應(yīng)表中由PLF的FundamentalEntities生成相應(yīng)的AnchorEntities數(shù)據(jù)把全局唯一的AnchorEntityID回寫到相應(yīng)的FundamentalEntity中根據(jù)CIF第二層表中的附加字段〔例如Policy_no等〕,生成FundamentalEntity級別的RelationshipEntity數(shù)據(jù)如果CIF第二層缺乏以滿足生成RelationshipEntity數(shù)據(jù)的需要,那么根據(jù)附加的標(biāo)識CIF第一層數(shù)據(jù)來源的唯一記錄字段中的值〔唯一記錄ID〕,回溯到CIF第一層表中找到相關(guān)字段的值,并據(jù)此生成相應(yīng)的RelationshipEntity數(shù)據(jù)AnchorEntity級別的RelationshipEntity數(shù)據(jù)要根據(jù)AnchorEntity的ID回溯到FundamentalEntity,并進(jìn)一步回溯到CIF第二層表中才能獲取到根據(jù)PLF-Atomic表群生成PLF-Aanlytical表群的數(shù)據(jù),把此過程需要臨時(shí)存放的數(shù)據(jù)寫入到CIF第二層的Analytical表群中把不符合數(shù)據(jù)質(zhì)量要求的記錄寫入相應(yīng)的Reject表中,并調(diào)查原因,重新制定映射和整合規(guī)那么PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔2〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔2〕〔Transform2〕PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔2〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)裝載〔Load〕把PLF-Atomic表群按照外鍵約束順序依次倒入到EnterpriseModel的Atomic表群中

把PLF-Analytical表群按照外鍵約束順序依次倒入到EnterpriseMode的Analytical表群中

把PLF-Dimension表群按照外鍵約束順序依次倒入到EnterpriseModel的Dimension表群中PICCETL總體架構(gòu)--數(shù)據(jù)裝載〔Load〕把PLFPICCETL總體架構(gòu)--數(shù)據(jù)裝載〔Load〕PICCETL總體架構(gòu)--數(shù)據(jù)裝載〔Load〕PICCETL開發(fā)方法--開發(fā)流程程序設(shè)計(jì)開發(fā)階段框架程序設(shè)計(jì)與開發(fā)映射程序模板與例子設(shè)計(jì)與開發(fā)映射程序設(shè)計(jì)與開發(fā)控制程序設(shè)計(jì)與開發(fā)

程序測試階段映射程序單元測試結(jié)合框架和控制程序集成測試PICCETL開發(fā)方法--開發(fā)流程程序設(shè)計(jì)開發(fā)階段PICCETL開發(fā)方法--程序調(diào)用流程PICCETL開發(fā)方法--程序調(diào)用流程PICCETL開發(fā)方法--EXF-CIF程序模板講解PICCETL開發(fā)方法--EXF-CIF程序模板講解PICCETL開發(fā)方法---CIF〔Transform2〕程序模板講解PICCETL開發(fā)方法---CIF〔Transform2〕PICCETL開發(fā)方法--CIF內(nèi)部轉(zhuǎn)換程序模板講解PICCETL開發(fā)方法--CIF內(nèi)部轉(zhuǎn)換程序模板講解PICCETL開發(fā)方法--CIF-PLF程序模板講解PICCETL開發(fā)方法--CIF-PLF程序模板講解PICCETL開發(fā)方法--PLFAnchorEntity程序模板講解PICCETL開發(fā)方法--PLFAnchorEntitPICCETL開發(fā)方法--PLFRelationship程序模板講解PICCETL開發(fā)方法--PLFRelationship《ETL方法介紹》PPT課件本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!本課件PPT僅供大家學(xué)習(xí)使用學(xué)習(xí)完請自行刪除,謝謝!《ETL方法介紹》PPT課件本課件PPT僅供大家學(xué)習(xí)內(nèi)容ETL根本概念ETL過程講解PICCETL總體架構(gòu)PICCETL開發(fā)方法內(nèi)容ETL根本概念ETL根本概念--主要目的將源系統(tǒng)數(shù)據(jù)經(jīng)過抽?。D(zhuǎn)換過程,最終裝載到目標(biāo)系統(tǒng)

將針對日常業(yè)務(wù)操作的數(shù)據(jù)轉(zhuǎn)化為針對數(shù)據(jù)倉庫而存儲的決策支持型數(shù)據(jù)ETL根本概念--主要目的將源系統(tǒng)數(shù)據(jù)經(jīng)過抽?。D(zhuǎn)換過程,最ETL根本概念--術(shù)語解釋

ETLExtract-Transform-Load的縮寫,數(shù)據(jù)抽取〔Extract〕、轉(zhuǎn)換〔Transform〕、裝載〔Load〕的過程

DWDataWarehousing,根據(jù)Bill.Inmon的定義,“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的,主要用于決策支持的數(shù)據(jù)庫系統(tǒng)〞

MetaData元數(shù)據(jù),就是描述數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建立過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義、轉(zhuǎn)換規(guī)那么等相關(guān)的關(guān)鍵數(shù)據(jù)ETL根本概念--術(shù)語解釋ETLExtract-TransETL根本概念--數(shù)據(jù)倉庫中的位置ETL根本概念--數(shù)據(jù)倉庫中的位置ETL根本概念--數(shù)據(jù)質(zhì)量正確性(Accuracy):數(shù)據(jù)是否正確表達(dá)在現(xiàn)實(shí)或可證實(shí)的來源

完整性(Integrity):數(shù)據(jù)之間的參照完整性是否存在或一致

一致性(Consistency):數(shù)據(jù)是否被一致的定義或理解

完備性(Completeness):所有需要的數(shù)據(jù)是否都存在

有效性(Validity):數(shù)據(jù)是否在企業(yè)定義的可承受的范圍之內(nèi)

時(shí)效性(Timeliness):數(shù)據(jù)在需要的時(shí)間是否有效

可獲取性(Accessbility):數(shù)據(jù)是否易于獲取、易于理解和易于使用ETL根本概念--數(shù)據(jù)質(zhì)量正確性(Accuracy):數(shù)據(jù)ETL根本概念--數(shù)據(jù)質(zhì)量原因業(yè)務(wù)系統(tǒng)不同時(shí)期數(shù)據(jù)模型不一致

業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過程有變化

各個(gè)源系統(tǒng)之間相關(guān)信息不一致

遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性

源系統(tǒng)缺少輸入驗(yàn)證過程,不能阻止非法格式的數(shù)據(jù)進(jìn)入系統(tǒng)

可以驗(yàn)證但不能改正數(shù)據(jù),驗(yàn)證程序不能發(fā)現(xiàn)格式正確但內(nèi)容不正確的錯(cuò)誤

源系統(tǒng)不受控制的更改,而這種更改不能及時(shí)的傳播到受影響的系統(tǒng)

數(shù)據(jù)由多個(gè)穿插的訪問界面,難以統(tǒng)一管理數(shù)據(jù)質(zhì)量問題

缺少參照完整性檢查低劣的源系統(tǒng)設(shè)計(jì)

數(shù)據(jù)轉(zhuǎn)換錯(cuò)誤,比方ETL過程錯(cuò)誤或數(shù)據(jù)遷移過程的錯(cuò)誤

源系統(tǒng)與數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)組織方式完全不同ETL根本概念--數(shù)據(jù)質(zhì)量原因業(yè)務(wù)系統(tǒng)不同時(shí)期數(shù)據(jù)模型不一ETL根本概念--數(shù)據(jù)轉(zhuǎn)換空值處理

標(biāo)準(zhǔn)化數(shù)據(jù)格式

拆分?jǐn)?shù)據(jù)

驗(yàn)證數(shù)據(jù)合法性

數(shù)據(jù)替換

實(shí)現(xiàn)數(shù)據(jù)規(guī)那么過濾

數(shù)據(jù)排序

數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換

......ETL根本概念--數(shù)據(jù)轉(zhuǎn)換空值處理

ETL過程講解--邏輯架構(gòu)ETL過程講解--邏輯架構(gòu)ETL過程講解--Extract設(shè)計(jì)原那么為提高ETL效率,數(shù)據(jù)在進(jìn)入ETL系統(tǒng)后的EXF文件都將轉(zhuǎn)換為FlatText文件格式從ETL程序設(shè)計(jì)的靈活性和整體構(gòu)造的一致性考慮,盡量采用Pull的方式,減少對源系統(tǒng)的影響和對其他開發(fā)隊(duì)伍的依賴,并減少網(wǎng)絡(luò)壓力由于BatchWindows的限制,如果日源數(shù)據(jù)量大于5GB那么必須考慮采用Push的方式以提高傳送速度,如,可以由源系統(tǒng)將數(shù)據(jù)轉(zhuǎn)換為FlatText文件后,由ETL程序采用FTP的方式進(jìn)展傳送EXF的文件格式接近數(shù)據(jù)源的數(shù)據(jù)構(gòu)造定義在Extract過程中過濾數(shù)據(jù)倉庫不需要的數(shù)據(jù)記錄和字段Push和PullPush在源系統(tǒng)上根據(jù)定義的數(shù)據(jù)格式將每日增量數(shù)據(jù)生成數(shù)據(jù)文件,再通過FTP或文件拷貝的方式傳送給ETL程序處理Pull由ETL程序通過DRDA或ODBC等數(shù)據(jù)庫協(xié)議直接訪問源數(shù)據(jù)庫獲取所需數(shù)據(jù)進(jìn)展處理ETL過程講解--Extract設(shè)計(jì)原那么ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中產(chǎn)生的文件EXF(ExtractedFormat)由數(shù)據(jù)源Extract產(chǎn)生的文件,文件構(gòu)造與Source相似,經(jīng)過過濾,局部字段被忽略。

CIF(CommonInterfaceFormat)CIF是ETL經(jīng)過C/S/S過程產(chǎn)生的中間數(shù)據(jù)文件。

PLF(Pre-LoadFormat)經(jīng)過數(shù)據(jù)轉(zhuǎn)換,用于直接加載到數(shù)據(jù)倉庫的文本文件,其數(shù)據(jù)構(gòu)造與數(shù)據(jù)倉庫中的表定義一致。ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中產(chǎn)生的文件EXF(ExtrETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中一般需要完成的操作數(shù)據(jù)檢查與稽核數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換賦缺省值數(shù)據(jù)排序數(shù)據(jù)拆分篩選不合格的數(shù)據(jù)并記錄到Rejected文件中根據(jù)加載要求,CIF文件分為Load/Append和Snapshot兩類數(shù)據(jù)拷貝數(shù)據(jù)翻譯數(shù)據(jù)聚合復(fù)雜計(jì)算數(shù)據(jù)匹配對于必須通過比較才能確定變化的記錄的數(shù)據(jù),通過比較產(chǎn)生Delta數(shù)據(jù)和新的基準(zhǔn)數(shù)據(jù)ETL過程講解--數(shù)據(jù)轉(zhuǎn)換過程中一般需要完成的操作數(shù)據(jù)檢查與ETL過程講解--數(shù)據(jù)處理流程ETL過程講解--數(shù)據(jù)處理流程ETL過程講解--數(shù)據(jù)對照開發(fā)流程SourceTableCIFTargetTablePLF1236EXF5641、收集整理所有數(shù)據(jù)源,定義源數(shù)據(jù)構(gòu)造(與EXF一樣〕2、根據(jù)物理模型設(shè)計(jì)定義數(shù)據(jù)倉庫數(shù)據(jù)〔與PLF一樣〕構(gòu)造3、設(shè)計(jì)源數(shù)據(jù)表〔文件〕與數(shù)據(jù)倉庫數(shù)據(jù)表對應(yīng)關(guān)系〔Table

Mapping),確定Pilot的數(shù)據(jù)源范圍4、設(shè)計(jì)源數(shù)據(jù)字段與數(shù)據(jù)倉庫字段的數(shù)據(jù)對照5、設(shè)計(jì)CIF的數(shù)據(jù)構(gòu)造6、設(shè)計(jì)源數(shù)據(jù)字段-EXF-CIF-PLF-數(shù)據(jù)倉庫數(shù)據(jù)字段的數(shù)

據(jù)對照ETL過程講解--數(shù)據(jù)對照開發(fā)流程SourceCIFTargPICCETL總體架構(gòu)--處理機(jī)制中間數(shù)據(jù)存放機(jī)制通用方式:文本文件或者數(shù)據(jù)庫表PICC:數(shù)據(jù)庫表

數(shù)據(jù)裝載機(jī)制通用方式:全量裝載、增量裝載和全/增量混合裝載PICC:全量裝載

數(shù)據(jù)裝載周期通用方式:日、周、旬、月、季、半年、年P(guān)ICC:月以上

數(shù)據(jù)映射完成機(jī)制通用方式:程序處理、工具處理以及混合處理PICC:程序處理PICCETL總體架構(gòu)--處理機(jī)制中間數(shù)據(jù)存放機(jī)制PICCETL總體架構(gòu)--應(yīng)用框架PICCETL總體架構(gòu)--應(yīng)用框架PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕從舊系統(tǒng)中導(dǎo)出20張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2001A〕

從新系統(tǒng)〔車險(xiǎn)數(shù)據(jù)庫〕中導(dǎo)出24張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段:字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2003A〕

從新系統(tǒng)〔財(cái)險(xiǎn)數(shù)據(jù)庫〕中導(dǎo)出如下8張表〔詳見應(yīng)用框架組成局部〕,每個(gè)表的最后都要增加一個(gè)字段:字段名稱〔Source_system_labe),字段數(shù)據(jù)類型〔char(10)),字段的值〔V2003P〕

手工整理Excel表格共20張〔詳見應(yīng)用框架組成局部〕

把舊系統(tǒng)導(dǎo)出的20張表數(shù)據(jù)導(dǎo)入到表群EXF->CoreSystem中

把新系統(tǒng)車險(xiǎn)數(shù)據(jù)導(dǎo)出的24張表數(shù)據(jù)導(dǎo)入到表群EXF->NewSystem中

把新系統(tǒng)財(cái)險(xiǎn)數(shù)據(jù)導(dǎo)出的8張表數(shù)據(jù)導(dǎo)入到表群EXF->NewSystem中

把手工整理的20張Excel表數(shù)據(jù)導(dǎo)入到表群EXF->External中PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕從舊PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕PICCETL總體架構(gòu)--數(shù)據(jù)抽取〔Extract〕PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔Transform1〕在CIF第一層表中每生成一條記錄產(chǎn)生一個(gè)唯一的記錄ID進(jìn)展數(shù)據(jù)類型轉(zhuǎn)換進(jìn)展空值替換進(jìn)展數(shù)據(jù)格式統(tǒng)一進(jìn)展新舊系統(tǒng)到本系統(tǒng)的代碼映射根據(jù)業(yè)務(wù)需求對數(shù)據(jù)進(jìn)展必要的轉(zhuǎn)換其它一些代碼的轉(zhuǎn)換〔例如RiskCode、KindCode替換成Product_id等〕把不符合數(shù)據(jù)質(zhì)量要求的記錄寫入相應(yīng)的Reject表中,并調(diào)查原因,重新制定映射和清洗規(guī)那么在CIF第二層表中每生成一條記錄產(chǎn)生一個(gè)表內(nèi)唯一的FundamentalID,注意在這個(gè)過程不進(jìn)展任何整合過程,而是從CIF第一層每過來一條相關(guān)記錄就生成一個(gè)FundamentalID根據(jù)數(shù)據(jù)的Mapping,生成各個(gè)數(shù)據(jù)域的值在CIF第二層表中寫入相關(guān)的CIF第一層表的唯一記錄ID在CIF第二層表中寫入與數(shù)據(jù)級別相關(guān)的標(biāo)識字段值,例如Policy_no、Cliam_no、Coverage_no等需要回寫的整合過的FundamentalID,放入空值把不符合數(shù)據(jù)質(zhì)量要求的記錄寫入相應(yīng)的Reject表中,并調(diào)查原因,重新制定映射和整合規(guī)那么PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔Transform1〕PICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔1〕〔TransforPICCETL總體架構(gòu)--數(shù)據(jù)轉(zhuǎn)換〔2〕〔Transform2〕進(jìn)展從CIF第二層表到PLF的FundamentalEntities的整合過程,生成真正的全局唯一的FundamentalID向CIF第二層表中回寫全局唯一的FundamentalID把CIF-Program表群導(dǎo)入到PLF相應(yīng)表中把EXF-External表群導(dǎo)入到PLF相應(yīng)表中由PLF的FundamentalEntities生成相應(yīng)的AnchorEntities數(shù)據(jù)把全局唯一的AnchorEntityID回寫到相應(yīng)的FundamentalEntity中根據(jù)CIF第二層表中的附加字段〔例如Policy_no等〕,生成FundamentalEntity級別的RelationshipEntity數(shù)據(jù)如果CIF第二層缺乏以滿足生成RelationshipEntity數(shù)據(jù)的需要,那么根據(jù)附加的標(biāo)識CIF第一層數(shù)據(jù)來源的唯一記錄字段中的值〔唯一記錄ID〕,回溯到CIF第一層表中找到相關(guān)字段的值,并據(jù)此生成相應(yīng)的RelationshipEntity數(shù)據(jù)AnchorEntity級別的RelationshipEntity數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論