ETL開發(fā)指南_DataStage_EE_V2[1]_0_第1頁
ETL開發(fā)指南_DataStage_EE_V2[1]_0_第2頁
ETL開發(fā)指南_DataStage_EE_V2[1]_0_第3頁
ETL開發(fā)指南_DataStage_EE_V2[1]_0_第4頁
ETL開發(fā)指南_DataStage_EE_V2[1]_0_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PDF created with pdfFactory Pro trial version目 錄目 錄 .I 1. 引言 . 11.1編寫目的 . 11.2幫助使用 . 12. 產(chǎn)品概述 . 23. 常規(guī)應(yīng)用 . 3 3.1常用組件使用方法 . 3 3.1.1 Sequential file.3 3.1.2 Annotation.7 3.1.3 Change Capture Stage.8 3.1.4 Copy Stage.10 3.1.5 Filter Stage.11 3.1.6 Funnel Stage.12 3.1.7 Tansformer Stage.13 3.1.8 Sort St

2、age.14 3.1.9 LookUp Stage.15 3.1.10 Join Stage.16 3.1.11 LookUp Stage 和 Join Stage的區(qū)別 . 17 3.1.12 Merge Stage.18 3.1.13 Modify Stage.19 3.1.14 Data Set Stage.20 3.1.15 File Set Stage.22 3.1.16 Lookup File Set Stage.23 3.1.17 Oracle Enterprise Stage.26 3.1.18 Aggregator Stage.28 3.1.19 Remove Duplica

3、tes Stage.30 3.1.20 Compress Stage.31 3.1.21 Expand Stage.32 3.1.22 Difference Stage.33 3.1.23 Compare Stage.36 3.1.24 Switch Stage.37 3.1.25 Column Import Stage.39 3.1.26 Column Export Stage.41 3.1.27 Teradata Enterprise Stage.43 3.2常用數(shù)據(jù)庫的連接 . 45 3.2.1 Informix數(shù)據(jù)庫連接 . 453.2.2 Oracle數(shù)據(jù)庫連接 . 464. 高級應(yīng)

4、用 . 48 4.1D ATA S TAGE BASIC 接口 . 48 4.2自定義 S TAGE T YPE . 49 4.2.1 Wrapped Stage.49 4.2.2 Build Stage.49 4.2.3 Custom Stage.49 4.3性能調(diào)優(yōu) . 49 4.3.1 優(yōu)化策略 . 49 4.3.2 關(guān)鍵問題分析 . 54 4.3.3 并行度 . 54PDF created with pdfFactory Pro trial version4.3.4 處理建議 . 55 4.3.5 其它 . 56 4.3.6 機(jī)器的對稱性 . 564.3.7 并行調(diào)度測試說明:. 56

5、5. 開發(fā)經(jīng)驗(yàn)技巧匯總 . 57 5.1.1 問題 . 57PDF created with pdfFactory Pro trial version1. 引言IBM DataStage作 ODS 項(xiàng)目所使用的主要開發(fā)工具,在項(xiàng)目中得到了比較充 分的應(yīng)用,對 IMB DataStage產(chǎn)品方方面面的功能,都有所涉及。作為對我們使 用本產(chǎn)品的一個技術(shù)沉淀, 我們編寫了 這 個 總結(jié) 性 質(zhì) 的 手冊 , 旨 在 綜合描述該 產(chǎn) 品的 安裝、 常 規(guī) 應(yīng)用 、 高級 開發(fā) 等等 項(xiàng)目所涉及到的 各 個方面。為項(xiàng)目組 內(nèi)部或 其 他 使用 該 產(chǎn)品的項(xiàng)目組 提供 一個 全 面 而綜合 的產(chǎn)品 操 作

6、指 導(dǎo) , 幫助使用 者 能 夠 在 最短 的 時間內(nèi) 了 解該 產(chǎn)品,并 上手 使用。由于 DataStage 產(chǎn)品功能 強(qiáng)大 , 配置復(fù)雜 ,我們 不可 能在本 手冊 中涉及到所 有功能, 也無 法對 每 一個 描述 的能 夠 都 給出詳盡 的 例子 。 能 夠 為 閱讀者穿針引線 的 整 理產(chǎn)品的開發(fā) 思路 , 通過 對常用 、 基 本的功能的 描述 , 讓大家掌握 到 該 產(chǎn)品 的使用 精髓 , 并能 夠舉 一 反三 的 掌握 其它本 手冊沒 有 介紹 的功能。 這就是 我們的 目的。我們 通 常使用的幫助有 如下兩 個 途徑 。a. 智 能化的幫助功能 ; 產(chǎn)品在 幾乎 所有的 操

7、作 窗 口都有一個 Help 鍵, 點(diǎn) 擊該 鍵 可以 顯示 出 當(dāng)前 使用的 界 面的功能和 各 項(xiàng) 選 項(xiàng)的具 體 的說明和 操 作方法。 DataStage 獨(dú) 有的 智 能化的幫助能 夠 指 引 你 方面的 查找 到 你 想 要得到的幫助。b. Online Manuals;就是 產(chǎn)品 安裝 后程序 組中的 DataStage Documents, 里 面 更加 綜合、全 面的對 整 個產(chǎn)品 從普 通 到 高級 , 從 Server 版 到 Enterprise Edition版 , 從 For Windows到 For Unix等等 方面的 詳盡 敘 述 。能 夠 幫助 更加系統(tǒng) 、

8、全 面的 掌握該 產(chǎn)品。PDF created with pdfFactory Pro trial version2. 產(chǎn)品概述DataStage 企業(yè)版 是 原 Ascential Software公司 所有 企業(yè) 整合 系列 產(chǎn)品中關(guān) 鍵產(chǎn)品。 企業(yè)版支持 大 容量 數(shù)據(jù)的 收集 、 整合 和 轉(zhuǎn)換 ,數(shù)據(jù) 從簡單 結(jié) 構(gòu) 到 很 復(fù)雜 的 結(jié) 構(gòu) 。 基于高可 擴(kuò)展 性的 軟 件 架購 , 企業(yè)版 使得 企業(yè) 能 夠通過高 性能 來 解 決 大 部 分 業(yè)務(wù) 問題, 并行處理 大 容量 數(shù)據(jù)。 強(qiáng)大 的 企業(yè)元 數(shù)據(jù) 管 理能 力 使得 可以 在數(shù) 據(jù) 整合 生命周期 中在所有工具中 共

9、享 和使用工具。DataStage 企業(yè)版 發(fā) 布 了 四 個 核心 功能 來成 功 實(shí)施企業(yè) 數(shù)據(jù) 整合 :先進(jìn) 的開 發(fā)和 簡單 化的 維護(hù) ; 企業(yè) 級 別的開發(fā) 、 監(jiān) 測和 管 理 ; 在 吞吐量 和性能方面 提供 了 無 限制 的 高 擴(kuò)展 的 體系架構(gòu) ; 端 對 端 的 企業(yè) 級 元 數(shù)據(jù) 管 理。DataStage 企業(yè)版 提供 了 全 面的功能 去 最 優(yōu)化用 戶 在建 立 、 升 級 和 管 理數(shù)據(jù) 整合 架構(gòu) 時 的 速 度 、 靈活 性和 效率 。 DataStage 企業(yè)版增 強(qiáng) 的功能 減少 了 學(xué)習(xí) 的 周期 、 簡單 化了 管 理和優(yōu)化了開發(fā) 資源 的使用,

10、減少 了數(shù)據(jù) 整合 應(yīng)用的開發(fā)和 維 護(hù)周期 。 結(jié) 果 , DataStage 企業(yè)版 使得 企業(yè) 能 夠 花更少 的 時間 開發(fā) 他 們的 整合 應(yīng) 用, 更多 的 時間是不 斷 的 從 中 受益 。DataStage 企業(yè)版 使用了 Client-server 架構(gòu) , 如下 所 示 。 圖 一 、 DataState 企業(yè)版 Client-Server 架構(gòu)用 戶 通過各 個 客 戶端 工具 訪 問 DataStage 企業(yè)版 的開發(fā) 、配置 和 維護(hù) 功能。 這 些 工具 包括 :PDF created with pdfFactory Pro trial version Manage

11、r :用 來 編 輯 管 理用 戶 工 程 的 DataStage 資 料 庫。 l 修改文 件 屬 性, 文 件 名 稱, reject 方 式 等 到 常用 選 項(xiàng) (Options:²First Line is Column Names當(dāng) 此 選 項(xiàng)為 True 時 , 對 于 輸入文 件 , 忽 略 第 一行數(shù)據(jù) (系統(tǒng) 認(rèn) 為 第 一行數(shù)據(jù)為 列名 稱 ; 對 于 輸 出 文 件 , 把 列 名 稱寫 入第 一行 .²Keep File Partitions設(shè) 為 True, 保 持 所 讀 文 件的分區(qū) 信息 .²Missing File Mode找

12、不 到 File 項(xiàng)所指定的 文 件 時 的處理方 式 .-Error 找 不 到 文 件 時 停止運(yùn) 行 JOB.-OK 跳 過 此文 件-Depends 默認(rèn) 為 Error, 但 當(dāng) 文 件 名 中 含 有 前 綴 *的 時 候 , 跳 過 此文 件 . ²Reject Mode-Continue 拋棄 所有 rejected rows.-Fail 一 旦 出 現(xiàn) rejected row,中 止 JOB.-Output 通過 reject link把 rejected rows輸 出 至文 件 或 數(shù)據(jù)庫 .²Schema FileSequential File S

13、tage默認(rèn) 使用 Format 和 Columns 中的 列 定義 來 處理 文 件中的 數(shù)據(jù) , 不過也可以 在 此 選 項(xiàng)指定 schema 文 件用 做 數(shù)據(jù)的 列 定義 .²Report Progess是 否 以 日志形式記錄 處理 進(jìn) 度 .²Cleanup On FailureJOB 失敗 時是 否清除 中 間 數(shù)據(jù) .l 修改文 件 格式 ,比 如 記錄 結(jié) 束符 是 什么 , 字段 分 隔符 , 字符串 是 用 什么 區(qū)別 等 l 輸入此文 件 字段 內(nèi) 容 重 要 選 項(xiàng) :²Runtime column propagation?功能 特 點(diǎn)

14、:一 般 用 于 注釋 , 可 利 用其 背景顏色 在 job 中分 顏色 區(qū)別 不 同 功能 塊 使用要 點(diǎn) : 3.1.3Change Capture Stage功能 特 點(diǎn) :Change Capture Stage 有 兩 個 輸入 , 分別 標(biāo)記 為 before link 及 after link 。 輸 出 的數(shù)據(jù) 表 示 before link 和 after link 的區(qū)別, 我們稱作 change set 。 Change Capture Stage可以 和 Change Apply Stage配合 使用 來 計算 after set。 使用要 點(diǎn) :l key 及 va

15、lue 的說明key 值 是 比較的關(guān)鍵 值 , value 是 當(dāng) key 值相同 是 作 進(jìn) 一 步 比較用的。 l change mode選 項(xiàng)說明:All keys, Explicit Values 需 要指定 value ,其 余 字段 為 key Explicit Keys&Values key及 value 都 需 要指定Explicit Keys, All Values 需 要指定 key ,其 余 的 字段 為 value l 輸 出 策略說明Drop Output For CopyFalse :保 留 before 及 afte link中 key 值相同 的行Tr

16、ue :刪除 before 及 afte link中 key 值相同 的行Drop Output For Delete False :保 留 before link中有 但 是 after link中 沒 有的 key 值 所在的行 True :刪除 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 Drop Output For EditFalse :保 留 key 值相同 ,value 不 同 的行True :刪除 key 值相同 ,value 不 同 的行Drop Output For InsertFalse :保 留 before link中 沒

17、 有 但 afte link中有的 key 值 所在的行 True :刪除 before link中 沒 有 但 afte link中有的 key 值 所在的行 3.1.4Copy Stage功能說明:Copy Stage可以 有一個 輸入 , 多 個 輸 出 。它 可以 在 輸 出時 改 變 字段 的 順 序 , 但 是不 能 改 變 字段 類型 。注意 :當(dāng) 只 有一個 輸 入 及一個 輸 出時最 好 將 Force 設(shè) 置 為 True , 這 樣 可以 在 Designer 里 看 到 運(yùn) 行 結(jié) 束 , 否 則將 無 法 標(biāo)識運(yùn) 行 結(jié) 束 , 但 不 會影響 運(yùn) 行 結(jié) 果 數(shù)據(jù)。

18、 設(shè) 置 為 FALSE 的 話 ,DataStage 會根 據(jù) 情況 對 JOB 進(jìn) 行優(yōu)化 , 有 可 能 放 棄 使用 此 Stage. 3.1.5Filter Stage功能說明:Filter Stage 只 有一個 輸入 , 可以 有 多 個 輸 出 。 根 據(jù) 不 同 的 篩 選 條 件, 可以 將 數(shù)據(jù) 輸 出 到 不 同 的 output link。 3.1.6Funnel Stage功能說明:將 多 個 字段 相同 的數(shù)據(jù) 文 件 合 并為一個 單獨(dú) 的 文 件 輸 出 合 并策略說明:l Continuous Funnel:從 每 一個 input link中 循環(huán)取 一

19、條記錄l Sort Funnel:按照 Key 值 排 序 合 并 輸 出l Sequence :先 輸 出 第 一個 input link的數(shù)據(jù), 輸 出 完 畢 后 再 輸 出 第 二 個 input link的數(shù)據(jù), 依 此 類推 , 直 到 結(jié) 束 。 (此 時可以通過 調(diào) 整 link Ordering 調(diào) 整 輸 出 順 序 3.1.7Tansformer Stage功能說明:一個功能 極 為 強(qiáng)大 的 Stage 。有一個 input link , 多 個 output link , 可以 將 字段 進(jìn) 行 轉(zhuǎn)換 , 也可以通過 條 件 來 指定數(shù)據(jù) 輸 出 到 那 個 outp

20、ut link。在開發(fā) 過 程 中 可以 使用 拖拽 。 l Constraint 及 Derivation 的區(qū)別Constraint 通過 限 定 條 件使 符 合 條 件的數(shù)據(jù) 輸 出 到 這 個 output link。 Derivation 通過 定義 表 達(dá) 式 來轉(zhuǎn)換 字段 值 。在 Constraint 及 Derivation 中 可以 使用 Job parameters 及 Stage Variables 。 注意 :Transformer Stage功能 強(qiáng)大 , 但 在 運(yùn) 行 過 程 中 是以 犧牲 速 度為 代價 的。在 只 有 簡單 的 變 換 , 拷貝 等操 作

21、 時 , 最 好 用 Modify Stage , Copy Stage , Filter Stage 等 來 替 換 Transformer Stage。示 例 Derivation 轉(zhuǎn)換 表 達(dá) 式 :if (isnull(LK_to_transform.CI_CUST_NO then 1else if (IsNull(LK_to_transform.CI_CRLMT_NO then 2else 03.1.8Sort Stage功能說明:只 能有一個 輸入 及一個 輸 出 , 按照 指定的 Key 值 進(jìn) 行 排 列 。 可以 選 擇 升序 還 是 降 序 , 是 否 去 除重 復(fù) 的數(shù)據(jù)

22、 等等 。 Option 具 體 說明Allow Duplicates:是 否 去 除重 復(fù) 數(shù)據(jù)。為 False 時 , 只 選 取 一 條 數(shù)據(jù), 當(dāng) Stable Sort 為 True 時 , 選 取 第 一 條 數(shù)據(jù)。 當(dāng) Sort Unility 為 UNIX 時 此 選 項(xiàng) 無 效 。Sort Utility:選 擇 排 序 時 執(zhí) 行應(yīng)用 程序 , 可以 選 擇 DataStage 內(nèi) 建的 命 令 或者 Unix 的 Sort 命 令 。Output Statistics:是 否輸 出 排 序統(tǒng) 計 信息 到 job 日志 。Stable Sort:是 否 對數(shù)據(jù) 進(jìn) 行 二

23、次 整 理。Create Cluster Key Change Column:是 否 為 每 條記錄 創(chuàng) 建一個 新 的 字段 : clusterKeyChange 。 當(dāng) Sort Key Mode為 Don t Sort(Previously Sorted 或 Don t Sort (Previously Grouped時 ,對 于 第 一 條記錄 該 字段 被 設(shè) 置 為 1,其 余 的 記錄設(shè) 置 為 0。Create Key Change Column :是 否 為 每 一 條 記 錄 創(chuàng) 建 一 個 新 的 字 段 KeyChange 。3.1.9LookUp Stage功能說明:

24、LookUp Stage 把 數(shù)據(jù) 讀 入 內(nèi) 存執(zhí) 行 查 詢 操 作, 將匹 配 的 字段輸 出 , 或者 在在 符 合 條 件的 記錄 中 修改 或 加 入 新 的 字段 。 參 數(shù)說明 :²Condition 中 可以通過 BASIC 表 達(dá) 式 指定在 reference link上 做 Lookup 的 前 提 條 件 .²Condition Not Met指定 前 提 條 件 不 滿足 時 的處理方 式 .ØFail 中 止 JOB, 報 Fatal Error錯誤 .ØDrop 拋棄此條 數(shù)據(jù) , 繼續(xù) 執(zhí) 行 下 一個 lookup.&

25、#216;Continue 查找 不 到的數(shù)據(jù) 賦空值 , 繼續(xù) 處理 下 一行 .ØReject 輸 出 至 Reject link.²Lookup Failure指定 Lookup 操 作 失敗 時 的處理方 式 .ØFail 中 止 JOB, 報 Fatal Error錯誤 .ØDrop 拋棄此條 數(shù)據(jù) , 繼續(xù) 執(zhí) 行 下 一個 lookup.ØContinue 查找 不 到的數(shù)據(jù) 賦空值 , 繼續(xù) 處理 下 一行 .ØReject 輸 出 至 Reject link.3.1.10Join Stage功能說明:將 多 個 表

26、連接 后 輸 出 3.1.11LookUp Stage 和 Join Stage的區(qū)別LookUp Stage 將 數(shù)據(jù) 讀 入 到 內(nèi) 存 中, 所 以 效率很 高 , 但 是 占 用了較 多 的 物 理內(nèi) 存 。所 以 當(dāng) reference data比較 小 的 時 候 ,我們 推薦 用 LookUp Stage; 當(dāng) reference data比較 大 的 時 候 ,我們 推薦 用 Join Stage。3.1.12Merge Stage功能說明:將 Merge Key值相同 的 記錄 合 并。 將 其中的一個 輸入設(shè) 定為 Master ,其 余 的 為 Update 。 把 Up

27、date 中 Merge Key相同 的 記錄 合 并 入 Master 。 3.1.13Modify Stage功能說明:Modify stage 只 能有一個 輸入 及一個 輸 出 ,它 可以 修改表 結(jié) 構(gòu) :刪除 , 保 留 一個 字段 ;給 字段改名 ; 修改字段 的數(shù)據(jù) 類型 。 Specification 的具 體 用法:刪除 一個 字段 :DROP columnname , columnname保 留 一個 字段 :KEEP columnname , columnname改 變 字段 :new_columnname:new_type=explicit_conversion_fu

28、nctionold_c olumnname可 用 的 explicit_conversion_function請 參 看 Parallel Job Developer s Guide page 28-73.1.14Data Set StageStage 類型 :File stage功能說明:從 data set文 件中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 data set文 件中,一個 Date Set Stage 只 能有一個 輸入 連接 (input link 或者 一個 輸 出 連接 (output link 。 具 體 用法:包括 Stage Page, Inputs Page, Outpu

29、ts Page。l Stage Page通 常 描述 了 stage 的一 般信息 , 諸 如 名 稱 等;l Inputs Page描述 了 即 要寫 入信息 的 data set文 件的 詳 細(xì) 信息 ;主要 是 Properties 和 Column 的定義。Properties 中 配置 了 文 件的 存 放 路徑 和 更 新 策略 ; Column 詳 細(xì) 定義 文 件中的 各 個 字段 ; l Outputs Page描述 了 讀 取 信息 的 data set文 件的 詳 細(xì) 信息 ;操 作 過 程 與 Inputs Page類似 。3.1.15File Set StageSta

30、ge 類型 :File stage功能說明:從 file set文 件中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 file set文 件中,一個 File Set Stage 只 能有一個 輸入 連接 (input link 、 一個 輸 出 連接 (output link 和一 個 拒絕 連接 (rejects link 。并 且 只 能在并行 模 式 下 執(zhí) 行。具 體 用法:l Stage Page:對 Stage 的 基 本定義l Inputs Page:主要 是 Properties 和 Format 的 配置Properties 的 配置 :定義 文 件的 存 取 路徑 及其 他讀 寫的 相

31、 關(guān)的 參 數(shù)。 特 別要 說明的 是 Options 下 的 Reject Mode 的 選 擇 , 當(dāng) stage 有 reject link 的 時 候 , 必須 選 擇 Output ;沒 有 reject link時 , 可 選 擇 其 他兩 個 選 項(xiàng)。 Format 的 配置 :定義了數(shù)據(jù)寫到 文 件中的 格式 l Outputs Page:對 stage 輸 出 的數(shù)據(jù) 字段 的 描述 , 另 外 , reject link的 輸 出 系統(tǒng) 將 默認(rèn) , 不 需 要用 戶 自 己 定義 字段 。3.1.16Lookup File Set StageStage 類型 :File

32、stage功能說明:為 執(zhí) 行 查找 操 作 而 創(chuàng) 建的 參 照文 件。作為 查找 的 參 照 數(shù)據(jù), 通 常在 參 照 數(shù)據(jù)比較 大 量 或者 重 復(fù) 使用 率 較 高 的 情況 下 , 將參 照 數(shù)據(jù) 生成 專門 的 Lookup File Set文 件, 以 便 提高 查找 的 效率 具 體 用法:l Stage Pagel Inputs Page:主要定義了 查找 關(guān)鍵 字 和 存 放 路徑等 主要 信息 創(chuàng) 建一個 Lookup File Set文 件: l Outputs Page:當(dāng) 作為 參 照 數(shù)據(jù) 進(jìn) 行 查找 操 作 時 , 因 為 文 件 是 已經(jīng) 生成 好 的,所

33、以 在 這 里 不 需 要 再 做 詳 細(xì) 的定義, 只 要 引 入 即 可 。 3.1.17Oracle Enterprise StageStage 類型 :Database Stage功能說明:從 Oracle 數(shù)據(jù)庫中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 Oracle 數(shù)據(jù)庫中。 通 常 完 成 的 操 作:l 使用 INSERT 或 UPDATE 命 令 更 新 數(shù)據(jù)庫 表l 裝 入 數(shù)據(jù)庫 表l 讀 取 數(shù)據(jù)庫 表l 從 數(shù)據(jù)庫 表 中 刪除 行l(wèi) 在庫 表 中 直 接 執(zhí) 行 查 詢 操 作l 將 庫 表 裝 入 內(nèi) 存 , 然 后 執(zhí) 行 查 詢 操 作 具 體 用法:l Inputs

34、 Page向 數(shù)據(jù)庫中寫數(shù)據(jù),關(guān)鍵 是 對 Properties 的 配置 l Outputs Page :與 Inputs Page 類似 , 只 是 完 成 的 是 從 數(shù)據(jù)庫中 讀 取 數(shù)據(jù)。 3.1.18Aggregator StageStage 類型 :Processing Stage功能說明:將 輸入 的數(shù)據(jù)分組, 計算 各 組數(shù)據(jù)的 總 和 或者 按 組 進(jìn) 行其 他 的 操 作, 最 后 將 結(jié) 果 數(shù)據(jù) 輸 出 到其 他 的 stage 。 具 體 用法:l Stage Page :描述 stage 的一 般信息 以 及 字段 的分組 信息 和 選 擇 分組 計算 函 數(shù)l

35、Inputs Page :詳 細(xì) 描述 輸入 數(shù)據(jù) 信息 , 一 般 直 接 反 映 輸入 數(shù)據(jù) 字段信息 l Oupputs Page:詳 細(xì) 描述 輸 出 數(shù)據(jù) 信息 , 即 經(jīng) 過 分組 計算 后 的數(shù)據(jù) 字段 信息 3.1.19Remove Duplicates StageStage 類型 :Processing Stage功能說明:輸入 根 據(jù)關(guān)鍵 字 分 好類 的有 序 數(shù)據(jù), 去 除 所有 記錄 中關(guān)鍵 字重 復(fù) 的 記錄 , 通 常 與 sort stage配合 使用 具 體 用法:l Stage Page:Properties 中的 key 值與 之 前 sort stage

36、的分 類 key 值相同 l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.20Compress StageStage 類型 :Processing Stage功能說明:將 data set文 件 壓縮 成 二 進(jìn)制 文 件 (與 expend datastage相 對應(yīng) 具 體 用法:l Stage Page運(yùn) 行 結(jié) 果 l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述 l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述 3.1.21Expand StageStage 類型 :Process

37、ing Stage功能說明:將 壓縮 的 二 進(jìn)制 文 件 解 壓縮 (解 壓縮 compress stage生成 的 壓縮 文 件 具 體 用法:l Stage Page運(yùn) 行 結(jié) 果 : l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.22Difference StageStage 類型 :Processing Stage功能說明:按字段 比較 兩 個 文 件, 找 出不 同 的 記錄 。(兩 個 文 件 before 和 after , 以 before 為 準(zhǔn) , 與 after 文 件中的 記錄 進(jìn) 行比

38、較, 找 出 before 在 after 文 件中 沒 有 或者 有的 記錄具 體 用法:l Stage Page比較策略說明Drop Output For CopyFalse :保 留 before 及 afte link中 key 值相同 的行True :刪除 before 及 afte link中 key 值相同 的行Drop Output For DeleteFalse :保 留 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 True :刪除 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 Drop

39、 Output For EditFalse :保 留 key 值相同 ,value 不 同 的行True :刪除 key 值相同 ,value 不 同 的行Drop Output For InsertFalse :保 留 before link中 沒 有 但 afte link中有的 key 值 所在的行 True :刪除 before link中 沒 有 但 afte link中有的 key 值 所在的行 調(diào) 整 before 和 after 的 順 序 :l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述 l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述 3.1.23

40、Compare StageStage 類型 :Processing Stage功能說明:按字段 對比 兩 個 已經(jīng) 分 類 的有 序 的 文 件 具 體 用法:l Stage Pagel Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.24Switch StageStage 類型 :Processing Stage功能說明:將 文 件 按照 一定的 條 件 (一 般 為 字段 的 值 分 割 成多 個 子 文 件。 具 體 是 將 輸 入 的 每 一 條記錄按照 各 自 符 合 的 條 件 (關(guān)鍵 字 的 值 分 配 到 不 同 的 輸 出 (Switch

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論