DataStage培訓(xùn)ppt課件_第1頁
DataStage培訓(xùn)ppt課件_第2頁
DataStage培訓(xùn)ppt課件_第3頁
DataStage培訓(xùn)ppt課件_第4頁
DataStage培訓(xùn)ppt課件_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、DATASTAGE 培訓(xùn).內(nèi)容提要:一、datastage 引見二、如何安裝datastage三、配置datastage 工程四、設(shè)計(jì)并運(yùn)轉(zhuǎn)datastage的job五、操作元數(shù)據(jù)六、操作關(guān)聯(lián)數(shù)據(jù)七、操作約束條件及數(shù)據(jù)來源八、定義查找運(yùn)用的哈希文件九、聚合數(shù)據(jù)十、job的運(yùn)轉(zhuǎn)及調(diào)試十一、創(chuàng)建Basic表達(dá)式.一,datastage的引見 本章主要講解ETL的概念,datastage的引見、組成及主要功能。 .ETL概要 ETL包括數(shù)據(jù)抽取Extract、數(shù)據(jù)轉(zhuǎn)換Transform以及數(shù)據(jù)加載Load3個(gè)階段。 普通而言,這三個(gè)過程中有二次落地生成中間文件。.Ascential DataStag

2、e 是一套專門對(duì)多種操作數(shù)據(jù)源的數(shù)據(jù)抽取、轉(zhuǎn)換和維護(hù)過程進(jìn)展簡(jiǎn)化和自動(dòng)化,并將其輸入數(shù)據(jù)集市或數(shù)據(jù)倉庫目的數(shù)據(jù)庫的集成工具。 DataStage 可以處置多種數(shù)據(jù)源的數(shù)據(jù),包括主機(jī)系統(tǒng)的大型數(shù)據(jù)庫、開放系統(tǒng)上的關(guān)系數(shù)據(jù)庫和普通的文件系統(tǒng) 。包括Oracle,Sybase,DB2,SQL Server,Teradata, FTP文件系統(tǒng),文本文件等等。數(shù)據(jù)清洗、轉(zhuǎn)換、加載都可以在圖形化工具里完成,同樣可以靈敏的被外部系統(tǒng)調(diào)度,提供專門的設(shè)計(jì)工具來設(shè)計(jì)轉(zhuǎn)換規(guī)那么和清洗規(guī)那么等,實(shí)現(xiàn)了增量抽取、義務(wù)調(diào)度等多種復(fù)雜而適用的功能 。DS引見:. Datastage是C/S軟件,效力器端存儲(chǔ)一切的ds工程

3、和元數(shù)據(jù),由關(guān)系型數(shù)據(jù)庫RDBMS組成。客戶端具有同效力端一樣的軟件接口。 客戶端運(yùn)轉(zhuǎn)于windows95或更高版本,效力端可運(yùn)轉(zhuǎn)于windowsNT4.0或windows2000 版本,datastage的很多版本都支持unix。.DS Administrator 在效力端管理ds的工程和效力端操作。主要用于工程的參數(shù)調(diào)整,變量設(shè)置,及command操作。DS Designer 建立ds的job并且編譯執(zhí)行的程序。主要用于job的開發(fā)及編譯。DS Director運(yùn)轉(zhuǎn)和監(jiān)控ds的job。主要用于job調(diào)試。DS Manager允許編輯和查看在ds中存儲(chǔ)的內(nèi)容。主要用于工程管理或job的導(dǎo)入、

4、導(dǎo)出、備份。.DataStage中的Designer.DataStage中的Designer允許運(yùn)用熟練地拖拽圖標(biāo)和連線的方式來表示數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、整合和加載的過程,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫的表單之中。Designer提供一個(gè)數(shù)據(jù)流程的方式,輕松將設(shè)置和Job的設(shè)計(jì)有機(jī)的組成。運(yùn)用Designer,可以:1、指定數(shù)據(jù)如何抽取。2、指定數(shù)據(jù)的轉(zhuǎn)換規(guī)那么和進(jìn)展轉(zhuǎn)換。3、運(yùn)用參考性質(zhì)的LookUp到數(shù)據(jù)集市中編輯數(shù)據(jù)。 a例如,假設(shè)銷售的記錄集包括CustomerID,可以在CustomerMaster表中運(yùn)用LookUp查找到Customer的稱號(hào)。 b當(dāng)需求銜接數(shù)據(jù)集市并運(yùn)用查詢,可以快速的進(jìn)

5、展訪問。4、對(duì)數(shù)據(jù)進(jìn)展整合。5、在定義的約束條件中將根底數(shù)據(jù)分割成為多個(gè)輸出的銜接。在Tools菜單中可以輕松的于Director,Designer和Manager之間切換。.DataStage中的Director.運(yùn)用Datastage的Director可以對(duì)設(shè)計(jì)的job進(jìn)展驗(yàn)證、運(yùn)轉(zhuǎn)、義務(wù)調(diào)度和監(jiān)控的任務(wù)。也 可以針對(duì)job 的運(yùn)轉(zhuǎn)查看運(yùn)轉(zhuǎn)的聚合統(tǒng)計(jì)情況。.在Datastage中進(jìn)展開發(fā)在Administrator中定義全局的和工程屬性。在Datastage中的Manager里導(dǎo)入定義源的元數(shù)據(jù)和目的的元數(shù)據(jù)。在Datastage中的Designer中驗(yàn)證和編譯job。在Datastage

6、中的Director中驗(yàn)證、運(yùn)轉(zhuǎn)、和監(jiān)控job。.Datastage的工程管理一切的任務(wù)都在一個(gè)工程中。在安裝過后,需求建立一個(gè)工程,這是安裝必選的工程。在運(yùn)用它任務(wù)之前,要登錄這個(gè)工程。可以在工程間進(jìn)展導(dǎo)入和導(dǎo)出Datastage的工程內(nèi)容。多個(gè)用戶可以在同一時(shí)間運(yùn)用同一工程,但是不能同時(shí)編輯同一個(gè)工程。. 多用戶可以在同一時(shí)間運(yùn)用一個(gè)工程中任務(wù),但是Datastage制止在同一時(shí)間由多個(gè)用戶訪問同一個(gè)job。翻開JOB后要把JOB封鎖后才可以退出DataStage Designer,不然JOB就會(huì)給當(dāng)前用戶鎖定,要經(jīng)過DataStage Director才可以解鎖。初學(xué)DS時(shí)會(huì)經(jīng)常忘記這步

7、的,必需留意。.第四章 設(shè)計(jì)并運(yùn)轉(zhuǎn)Datastage的Job 下面的講解中,將可以了解到:描畫什么是Datastage的Job。一步步講述如何建立Datastage Job。描畫Link和Stage。識(shí)別不同類型的Stage。設(shè)計(jì)一個(gè)簡(jiǎn)單抽取和加載的Job。編譯、驗(yàn)證和運(yùn)轉(zhuǎn)Job。監(jiān)控Job的執(zhí)行。.什么是Job 一個(gè)Job就是一個(gè)Datastage的運(yùn)轉(zhuǎn)程序。在Datastage中,可以設(shè)計(jì)并運(yùn)轉(zhuǎn)Jobs,執(zhí)行一些有用的數(shù)據(jù)倉庫,包括數(shù)據(jù)的抽取、轉(zhuǎn)換、聚合和數(shù)據(jù)加載等等。 Datastage的Job是: 1、在Designer中設(shè)計(jì)和編譯。 2、在Director中進(jìn)展義務(wù)預(yù)定,調(diào)度和監(jiān)控

8、Jobs。 3、全部在Datastage的控制下執(zhí)行。.Job開發(fā)的閱讀在Manager導(dǎo)入數(shù)據(jù)源和目的數(shù)據(jù)庫的數(shù)據(jù)構(gòu)造定義。在Designer參與Stage定義數(shù)據(jù)的抽取和加載。參與Transformer和其它的Stage來定義轉(zhuǎn)換。從源數(shù)據(jù)到目的數(shù)據(jù),參與Link來定義數(shù)據(jù)的流向。編譯Job。在Director中,驗(yàn)證、運(yùn)轉(zhuǎn)和監(jiān)控Job。 在這個(gè)講解中,將經(jīng)過一個(gè)單一Job的過程第一步,著手定義元數(shù)據(jù)。. Designer的任務(wù)區(qū)域. 中間偏右是Datastage的設(shè)計(jì)區(qū)域,可以將Stage和Link從工具的板塊上拖動(dòng)過來放在上面,左邊是“Repository存儲(chǔ)窗口,顯示的是Manage

9、r中的分支。 Manager中的分支,就像Jobs和表定義一樣可以直接拖拽到設(shè)計(jì)區(qū)域,點(diǎn)擊“ViewRepository來顯示“Repository窗口。 點(diǎn)擊“ViewProperty Browser來顯示“Property Browser窗口,顯示在設(shè)計(jì)區(qū)選擇的工程的屬性。.Designer的工具欄 工具欄中的一些圖標(biāo)可以快捷的調(diào)用一些Datastage的內(nèi)部函數(shù),更加方便進(jìn)展Jobs的設(shè)計(jì)任務(wù)。.Designer的Stage工具面板工具面板中包含描畫的圖標(biāo),可以將其參與到Jobs設(shè)計(jì)當(dāng)中。.下面將部分的Stage進(jìn)展簡(jiǎn)單的闡明有些Stage在普通運(yùn)用中并不常用:.被動(dòng)Stage和自動(dòng)St

10、age被動(dòng)Stage的定義是用來讀寫數(shù)據(jù)源的Stage。被動(dòng)Stage包括:Sequential,Odbc,Hash文件的Stage。自動(dòng)Stage的定義是用來數(shù)據(jù)的挑選和轉(zhuǎn)換部分的Stage。自動(dòng)Stage包括:Transformer、Aggregator和Sort的插件。.Sequential Stage導(dǎo)出數(shù)據(jù)或加載數(shù)據(jù)到一個(gè)Sequential文件。為Sequential指定完好的途徑。指定文件的格式:定義寬度或者分隔符。指定列的定義。指定寫的方式:覆蓋、追加。.Sequential文件時(shí)用來從一個(gè)Sequential文件導(dǎo)出或者加載到一個(gè)Sequential文件中。 在修正Seque

11、ntial文件的時(shí)候需求指定一下內(nèi)容:1、文件的途徑和稱號(hào)。2、文件的格式。3、列的定義。4、假設(shè)Sequential Stage被用作一個(gè)目的的話,指定寫入動(dòng)作時(shí)選擇:覆蓋已存在的文件或者在文件根底上進(jìn)展追加。.編輯目的端的一個(gè)Sequential文件Stage. 定義一個(gè)Sequential的目的Stage類似于定義一個(gè)源的Sequential Stage。 在輸入的Link中,定義數(shù)據(jù)導(dǎo)入到Stage的數(shù)據(jù)格式。從“Input Box中輸入Link的列表進(jìn)展選擇。 定義一個(gè)文件的Job,定義文件被寫入,假設(shè)文件不存在,Datastage將會(huì)自動(dòng)建立,在“Update action中指定數(shù)

12、據(jù)文件能否覆蓋或者追加。 “General頁框中的“FilterCommand,可以指定一個(gè)過濾程序,可以運(yùn)用其在抽取數(shù)據(jù)的過程中進(jìn)展數(shù)據(jù)的過濾。 舉例,在讀取數(shù)據(jù)之前要有一個(gè)解緊縮的過程。從中選擇類型或者閱讀從過濾程序中,在輸入框中指定命令行,只需在“General頁框中的Stage頁面中選擇了“Stage uses filter commands的選擇框,這個(gè)輸入框變?yōu)榭捎?,假設(shè)指定了過濾命令,數(shù)據(jù)閱讀沒有定義,那么“ViewData按鈕不可用。. 在“Format頁框中,指定不同格式的目的文件,同指定源文件一樣。 假設(shè)目的文件不存在,在Jobs運(yùn)轉(zhuǎn)之后,才可以閱讀數(shù)據(jù)。假設(shè)這時(shí)點(diǎn)擊了“V

13、iewData按鈕,Datastage將會(huì)前往一個(gè)“Failed to Open.的錯(cuò)誤。 在源數(shù)據(jù)的Stage里定義輸出數(shù)據(jù)的列定義,同時(shí)定義目的Stage中的相應(yīng)的輸入Link。 可以將Link想象成為一個(gè)通道,從一頭流到另外一頭,所以輸入和輸出的格式要堅(jiān)持一致。.Transformer Stage很關(guān)鍵的自動(dòng)Stage。運(yùn)用Transformer Stage可以定義條件、來源和字段的對(duì)應(yīng)關(guān)系。輸入的列和輸出的列進(jìn)展對(duì)應(yīng)。在這個(gè)講解中,我們將定義列的對(duì)應(yīng)。. Transformer Stage是一個(gè)重要的自動(dòng)Stage,其它自動(dòng)地Stage執(zhí)行很多指定類型的轉(zhuǎn)換。 在Transformer

14、 Stage中可以指定: 1、列的對(duì)應(yīng)。 2、數(shù)據(jù)的來源。 3、過濾條件。 字段對(duì)應(yīng)是指輸入字段和輸出字段進(jìn)展對(duì)應(yīng),從輸入列到輸出列數(shù)值直接經(jīng)過。 數(shù)據(jù)來源的值經(jīng)過計(jì)算寫入到輸出的列,以輸入列為根底。 在引入的行將被寫入到輸出的列,約束指定的條件將有效。.Transformer Stage元素. Transformer 有以下元素: 在上方,左邊的區(qū)域顯示輸入Link的列信息,假設(shè)有很多的輸入Link,就會(huì)有許多的列顯示。 在上方,右邊的區(qū)域顯示的輸出Link的內(nèi)容,我們不能在這里定義字段,假設(shè)有很多的輸出Link,就會(huì)有很多的列顯示。 如今,忽略右上方的“Stage Variables窗口,

15、我們將在以后的講解進(jìn)展講述。 下方顯示元數(shù)據(jù)的列定義,輸入和輸出的Link。 假設(shè)有很多的輸入和輸出的Link,那么將出現(xiàn)很多的頁框。.Annotation Stage運(yùn)用它來在Job上添加文本注釋。輸入框有不同格式的設(shè)置。當(dāng)Job打印的時(shí)候顯示。描畫注釋的Stage將在下一節(jié)引見。 添加一個(gè)或多個(gè)“Annotation的Stage就像一個(gè)文本數(shù)據(jù)框一樣進(jìn)展設(shè)置,可以經(jīng)過在工具欄上的設(shè)置要求其能否進(jìn)展顯示。 這里有倆個(gè)“Annotation的Stage,“Description Annotation Stage將在下面一個(gè)講解中進(jìn)展講述。.編輯Annotation Stage輸入框內(nèi)輸入的是文

16、本類型,指定的設(shè)置有:1、文本的字體和顏色。2、輸入框的顏色。3、文字的橫縱位置。.編譯Job在運(yùn)轉(zhuǎn)Jobs之前,必需求對(duì)其進(jìn)展編譯,在效力端的機(jī)器上產(chǎn)生可以運(yùn)轉(zhuǎn)的編碼,對(duì)于編譯Jobs,點(diǎn)擊“FileCompile或者在工具欄上點(diǎn)擊“Compile按鈕,編譯Jobs的窗口顯示Jobs編譯的情況。編譯假設(shè)發(fā)生錯(cuò)誤:點(diǎn)擊“Show error來定位錯(cuò)誤的位置。點(diǎn)擊“More來前往關(guān)于錯(cuò)誤更多的信息。.運(yùn)轉(zhuǎn)Job從Datastage的Designer切換到Director。在Director的列表中,選擇要運(yùn)轉(zhuǎn)的Job點(diǎn)擊運(yùn)轉(zhuǎn)。選擇運(yùn)轉(zhuǎn)的屬性。驗(yàn)證這個(gè)Job。運(yùn)轉(zhuǎn)Job,并在日志閱讀中監(jiān)控Job運(yùn)

17、轉(zhuǎn)的過程。.操作關(guān)聯(lián)數(shù)據(jù)在關(guān)聯(lián)的源數(shù)據(jù)表單中抽取,過濾、轉(zhuǎn)換數(shù)據(jù)。加載數(shù)據(jù)到關(guān)聯(lián)表單中。經(jīng)過Oracle Enterprise Stage來進(jìn)展銜接。支持用戶定義SQL。.上面是一個(gè)最簡(jiǎn)單的抽取數(shù)據(jù)JOB.設(shè)置一個(gè)Oracle Enterprise銜接.在connection設(shè)置數(shù)據(jù)庫的用戶,密碼和數(shù)據(jù)庫。Source里設(shè)置讀取數(shù)據(jù)庫的那個(gè)表,也可以本人自定義寫SQL語句抽取,在Read Method選擇。然后在Columns設(shè)置對(duì)應(yīng)的字段稱號(hào)和類型。設(shè)置好后就可以讀取oracle數(shù)據(jù)庫里某個(gè)表的數(shù)據(jù)了。.以下是以太保壽險(xiǎn)數(shù)據(jù)加到EDW數(shù)據(jù)倉庫的一個(gè)實(shí)例.壽險(xiǎn)每天的增量數(shù)據(jù)都會(huì)以一個(gè)*.EXF

18、的文件存放在壽險(xiǎn)系統(tǒng)的增量日期文件夾里,我們經(jīng)過SHELL腳本每天定時(shí)到壽險(xiǎn)系統(tǒng)提取壽險(xiǎn)的增量數(shù)據(jù)文件,存放在EDW效力器的增量日期文件夾里WORKDATE。.經(jīng)過配置Sequential File Stage,讀取增量文件Exp_EDWLIFE_riskcon_renew.EXF。#參數(shù)稱號(hào)#是DS調(diào)用參數(shù)的格式。假設(shè)文件有格式異常的數(shù)據(jù)就Reject到固定文件夾。上面是從EDW增量日期文件夾抽取自動(dòng)續(xù)保保單情況的例子。.經(jīng)過Transformer Stage,設(shè)置POLICYNO,CLASSCODE,BEGDATE字段為KEY,即這三個(gè)字段組成業(yè)務(wù)主鍵。.經(jīng)過Remove Duplicat

19、es Stage根據(jù)業(yè)務(wù)主鍵一樣的記錄進(jìn)展去重,并保管反復(fù)記錄里面第一條數(shù)據(jù)。.經(jīng)過第二個(gè)Transformer Stage對(duì)轉(zhuǎn)碼后的分公司代碼字段STORAGE_PARTITION運(yùn)用NullToValue函數(shù)進(jìn)展空值判別,假設(shè)為空就賦值為-1。. 運(yùn)用Data Set Stage把數(shù)據(jù)導(dǎo)出成名為EDWLIFE_Riskcon_renew.CIF的Data Set數(shù)據(jù)文件。.讀取EDWLIFE_Riskcon_renew.CIF數(shù)據(jù)文件,根據(jù)不同的條件寫入到暫時(shí)表和導(dǎo)出成LDF文件。. 經(jīng)過自定義函數(shù)MD5合并對(duì)應(yīng)的字段,組成HASHCODE和HASHCODE1, ENDTIME前四位為99

20、99直接輸出到LDF文件,暫時(shí)表保管全增量數(shù)據(jù)。.經(jīng)過Sequence Job串聯(lián)起來的加載運(yùn)轉(zhuǎn)順序, I_Tr_EDWLIFE_Riskcon_renew為上面提到的寫入暫時(shí)表和導(dǎo)出成LDF文件的JOB,然后經(jīng)過Exec_SP調(diào)度存儲(chǔ)過程,判別增刪改操作, I_Ld_EDWLIFE_Riskcon_renew是加載到目的表操作。.此處為調(diào)用存儲(chǔ)過程的Stage,運(yùn)用Execute Command Stage可以調(diào)用運(yùn)轉(zhuǎn)后臺(tái)的SHELL腳本,下面是腳本傳入的參數(shù)。 RISKCON_RENEW是目的表, AGMT_ID是錨點(diǎn),即前面的HASHCODE1,WORKDATE是運(yùn)轉(zhuǎn)任務(wù)日,U代表操作闡明做版本,調(diào)用的經(jīng)過存儲(chǔ)過程為: SP_ETL_FOR_INC7.增量(保管版本):1、比對(duì)增量文件中這些記錄與數(shù)據(jù)庫內(nèi)有效存量數(shù)據(jù)的AGMT_ID(錨點(diǎn)),存量中不存在的,那么該條記錄為INSERT(插入)記錄,往目的庫INSERT(插入)記錄,EFFECTIVE_FROM_DATE,VALID_FROM_DATE設(shè)置為1900-01-01, EFFECTIVE_TO_DATE,VALID_TO_DATE設(shè)置為9999-12-31;存在的那么標(biāo)志為UPDATE(更新)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論