![ETL開發(fā)指南_DataStage_EE_V2[1]_0_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/540ccb1a-a9be-44df-b184-1318b7675b4e/540ccb1a-a9be-44df-b184-1318b7675b4e1.gif)
![ETL開發(fā)指南_DataStage_EE_V2[1]_0_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/540ccb1a-a9be-44df-b184-1318b7675b4e/540ccb1a-a9be-44df-b184-1318b7675b4e2.gif)
![ETL開發(fā)指南_DataStage_EE_V2[1]_0_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/540ccb1a-a9be-44df-b184-1318b7675b4e/540ccb1a-a9be-44df-b184-1318b7675b4e3.gif)
![ETL開發(fā)指南_DataStage_EE_V2[1]_0_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/540ccb1a-a9be-44df-b184-1318b7675b4e/540ccb1a-a9be-44df-b184-1318b7675b4e4.gif)
![ETL開發(fā)指南_DataStage_EE_V2[1]_0_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/540ccb1a-a9be-44df-b184-1318b7675b4e/540ccb1a-a9be-44df-b184-1318b7675b4e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、PDF created with pdfFactory Pro trial version目 錄目 錄 .I 1. 引言 . 11.1編寫目的 . 11.2幫助使用 . 12. 產(chǎn)品概述 . 23. 常規(guī)應(yīng)用 . 3 3.1常用組件使用方法 . 3 3.1.1 Sequential file.3 3.1.2 Annotation.7 3.1.3 Change Capture Stage.8 3.1.4 Copy Stage.10 3.1.5 Filter Stage.11 3.1.6 Funnel Stage.12 3.1.7 Tansformer Stage.13 3.1.8 Sort St
2、age.14 3.1.9 LookUp Stage.15 3.1.10 Join Stage.16 3.1.11 LookUp Stage 和 Join Stage的區(qū)別 . 17 3.1.12 Merge Stage.18 3.1.13 Modify Stage.19 3.1.14 Data Set Stage.20 3.1.15 File Set Stage.22 3.1.16 Lookup File Set Stage.23 3.1.17 Oracle Enterprise Stage.26 3.1.18 Aggregator Stage.28 3.1.19 Remove Duplica
3、tes Stage.30 3.1.20 Compress Stage.31 3.1.21 Expand Stage.32 3.1.22 Difference Stage.33 3.1.23 Compare Stage.36 3.1.24 Switch Stage.37 3.1.25 Column Import Stage.39 3.1.26 Column Export Stage.41 3.1.27 Teradata Enterprise Stage.43 3.2常用數(shù)據(jù)庫的連接 . 45 3.2.1 Informix數(shù)據(jù)庫連接 . 453.2.2 Oracle數(shù)據(jù)庫連接 . 464. 高級應(yīng)
4、用 . 48 4.1D ATA S TAGE BASIC 接口 . 48 4.2自定義 S TAGE T YPE . 49 4.2.1 Wrapped Stage.49 4.2.2 Build Stage.49 4.2.3 Custom Stage.49 4.3性能調(diào)優(yōu) . 49 4.3.1 優(yōu)化策略 . 49 4.3.2 關(guān)鍵問題分析 . 54 4.3.3 并行度 . 54PDF created with pdfFactory Pro trial version4.3.4 處理建議 . 55 4.3.5 其它 . 56 4.3.6 機器的對稱性 . 564.3.7 并行調(diào)度測試說明:. 56
5、5. 開發(fā)經(jīng)驗技巧匯總 . 57 5.1.1 問題 . 57PDF created with pdfFactory Pro trial version1. 引言IBM DataStage作 ODS 項目所使用的主要開發(fā)工具,在項目中得到了比較充 分的應(yīng)用,對 IMB DataStage產(chǎn)品方方面面的功能,都有所涉及。作為對我們使 用本產(chǎn)品的一個技術(shù)沉淀, 我們編寫了 這 個 總結(jié) 性 質(zhì) 的 手冊 , 旨 在 綜合描述該 產(chǎn) 品的 安裝、 常 規(guī) 應(yīng)用 、 高級 開發(fā) 等等 項目所涉及到的 各 個方面。為項目組 內(nèi)部或 其 他 使用 該 產(chǎn)品的項目組 提供 一個 全 面 而綜合 的產(chǎn)品 操 作
6、指 導(dǎo) , 幫助使用 者 能 夠 在 最短 的 時間內(nèi) 了 解該 產(chǎn)品,并 上手 使用。由于 DataStage 產(chǎn)品功能 強大 , 配置復(fù)雜 ,我們 不可 能在本 手冊 中涉及到所 有功能, 也無 法對 每 一個 描述 的能 夠 都 給出詳盡 的 例子 。 能 夠 為 閱讀者穿針引線 的 整 理產(chǎn)品的開發(fā) 思路 , 通過 對常用 、 基 本的功能的 描述 , 讓大家掌握 到 該 產(chǎn)品 的使用 精髓 , 并能 夠舉 一 反三 的 掌握 其它本 手冊沒 有 介紹 的功能。 這就是 我們的 目的。我們 通 常使用的幫助有 如下兩 個 途徑 。a. 智 能化的幫助功能 ; 產(chǎn)品在 幾乎 所有的 操
7、作 窗 口都有一個 Help 鍵, 點 擊該 鍵 可以 顯示 出 當前 使用的 界 面的功能和 各 項 選 項的具 體 的說明和 操 作方法。 DataStage 獨 有的 智 能化的幫助能 夠 指 引 你 方面的 查找 到 你 想 要得到的幫助。b. Online Manuals;就是 產(chǎn)品 安裝 后程序 組中的 DataStage Documents, 里 面 更加 綜合、全 面的對 整 個產(chǎn)品 從普 通 到 高級 , 從 Server 版 到 Enterprise Edition版 , 從 For Windows到 For Unix等等 方面的 詳盡 敘 述 。能 夠 幫助 更加系統(tǒng) 、
8、全 面的 掌握該 產(chǎn)品。PDF created with pdfFactory Pro trial version2. 產(chǎn)品概述DataStage 企業(yè)版 是 原 Ascential Software公司 所有 企業(yè) 整合 系列 產(chǎn)品中關(guān) 鍵產(chǎn)品。 企業(yè)版支持 大 容量 數(shù)據(jù)的 收集 、 整合 和 轉(zhuǎn)換 ,數(shù)據(jù) 從簡單 結(jié) 構(gòu) 到 很 復(fù)雜 的 結(jié) 構(gòu) 。 基于高可 擴展 性的 軟 件 架購 , 企業(yè)版 使得 企業(yè) 能 夠通過高 性能 來 解 決 大 部 分 業(yè)務(wù) 問題, 并行處理 大 容量 數(shù)據(jù)。 強大 的 企業(yè)元 數(shù)據(jù) 管 理能 力 使得 可以 在數(shù) 據(jù) 整合 生命周期 中在所有工具中 共
9、享 和使用工具。DataStage 企業(yè)版 發(fā) 布 了 四 個 核心 功能 來成 功 實施企業(yè) 數(shù)據(jù) 整合 :先進 的開 發(fā)和 簡單 化的 維護 ; 企業(yè) 級 別的開發(fā) 、 監(jiān) 測和 管 理 ; 在 吞吐量 和性能方面 提供 了 無 限制 的 高 擴展 的 體系架構(gòu) ; 端 對 端 的 企業(yè) 級 元 數(shù)據(jù) 管 理。DataStage 企業(yè)版 提供 了 全 面的功能 去 最 優(yōu)化用 戶 在建 立 、 升 級 和 管 理數(shù)據(jù) 整合 架構(gòu) 時 的 速 度 、 靈活 性和 效率 。 DataStage 企業(yè)版增 強 的功能 減少 了 學(xué)習(xí) 的 周期 、 簡單 化了 管 理和優(yōu)化了開發(fā) 資源 的使用,
10、減少 了數(shù)據(jù) 整合 應(yīng)用的開發(fā)和 維 護周期 。 結(jié) 果 , DataStage 企業(yè)版 使得 企業(yè) 能 夠 花更少 的 時間 開發(fā) 他 們的 整合 應(yīng) 用, 更多 的 時間是不 斷 的 從 中 受益 。DataStage 企業(yè)版 使用了 Client-server 架構(gòu) , 如下 所 示 。 圖 一 、 DataState 企業(yè)版 Client-Server 架構(gòu)用 戶 通過各 個 客 戶端 工具 訪 問 DataStage 企業(yè)版 的開發(fā) 、配置 和 維護 功能。 這 些 工具 包括 :PDF created with pdfFactory Pro trial version Manage
11、r :用 來 編 輯 管 理用 戶 工 程 的 DataStage 資 料 庫。 l 修改文 件 屬 性, 文 件 名 稱, reject 方 式 等 到 常用 選 項 (Options:²First Line is Column Names當 此 選 項為 True 時 , 對 于 輸入文 件 , 忽 略 第 一行數(shù)據(jù) (系統(tǒng) 認 為 第 一行數(shù)據(jù)為 列名 稱 ; 對 于 輸 出 文 件 , 把 列 名 稱寫 入第 一行 .²Keep File Partitions設(shè) 為 True, 保 持 所 讀 文 件的分區(qū) 信息 .²Missing File Mode找
12、不 到 File 項所指定的 文 件 時 的處理方 式 .-Error 找 不 到 文 件 時 停止運 行 JOB.-OK 跳 過 此文 件-Depends 默認 為 Error, 但 當 文 件 名 中 含 有 前 綴 *的 時 候 , 跳 過 此文 件 . ²Reject Mode-Continue 拋棄 所有 rejected rows.-Fail 一 旦 出 現(xiàn) rejected row,中 止 JOB.-Output 通過 reject link把 rejected rows輸 出 至文 件 或 數(shù)據(jù)庫 .²Schema FileSequential File S
13、tage默認 使用 Format 和 Columns 中的 列 定義 來 處理 文 件中的 數(shù)據(jù) , 不過也可以 在 此 選 項指定 schema 文 件用 做 數(shù)據(jù)的 列 定義 .²Report Progess是 否 以 日志形式記錄 處理 進 度 .²Cleanup On FailureJOB 失敗 時是 否清除 中 間 數(shù)據(jù) .l 修改文 件 格式 ,比 如 記錄 結(jié) 束符 是 什么 , 字段 分 隔符 , 字符串 是 用 什么 區(qū)別 等 l 輸入此文 件 字段 內(nèi) 容 重 要 選 項 :²Runtime column propagation?功能 特 點
14、:一 般 用 于 注釋 , 可 利 用其 背景顏色 在 job 中分 顏色 區(qū)別 不 同 功能 塊 使用要 點 : 3.1.3Change Capture Stage功能 特 點 :Change Capture Stage 有 兩 個 輸入 , 分別 標記 為 before link 及 after link 。 輸 出 的數(shù)據(jù) 表 示 before link 和 after link 的區(qū)別, 我們稱作 change set 。 Change Capture Stage可以 和 Change Apply Stage配合 使用 來 計算 after set。 使用要 點 :l key 及 va
15、lue 的說明key 值 是 比較的關(guān)鍵 值 , value 是 當 key 值相同 是 作 進 一 步 比較用的。 l change mode選 項說明:All keys, Explicit Values 需 要指定 value ,其 余 字段 為 key Explicit Keys&Values key及 value 都 需 要指定Explicit Keys, All Values 需 要指定 key ,其 余 的 字段 為 value l 輸 出 策略說明Drop Output For CopyFalse :保 留 before 及 afte link中 key 值相同 的行Tr
16、ue :刪除 before 及 afte link中 key 值相同 的行Drop Output For Delete False :保 留 before link中有 但 是 after link中 沒 有的 key 值 所在的行 True :刪除 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 Drop Output For EditFalse :保 留 key 值相同 ,value 不 同 的行True :刪除 key 值相同 ,value 不 同 的行Drop Output For InsertFalse :保 留 before link中 沒
17、 有 但 afte link中有的 key 值 所在的行 True :刪除 before link中 沒 有 但 afte link中有的 key 值 所在的行 3.1.4Copy Stage功能說明:Copy Stage可以 有一個 輸入 , 多 個 輸 出 。它 可以 在 輸 出時 改 變 字段 的 順 序 , 但 是不 能 改 變 字段 類型 。注意 :當 只 有一個 輸 入 及一個 輸 出時最 好 將 Force 設(shè) 置 為 True , 這 樣 可以 在 Designer 里 看 到 運 行 結(jié) 束 , 否 則將 無 法 標識運 行 結(jié) 束 , 但 不 會影響 運 行 結(jié) 果 數(shù)據(jù)。
18、 設(shè) 置 為 FALSE 的 話 ,DataStage 會根 據(jù) 情況 對 JOB 進 行優(yōu)化 , 有 可 能 放 棄 使用 此 Stage. 3.1.5Filter Stage功能說明:Filter Stage 只 有一個 輸入 , 可以 有 多 個 輸 出 。 根 據(jù) 不 同 的 篩 選 條 件, 可以 將 數(shù)據(jù) 輸 出 到 不 同 的 output link。 3.1.6Funnel Stage功能說明:將 多 個 字段 相同 的數(shù)據(jù) 文 件 合 并為一個 單獨 的 文 件 輸 出 合 并策略說明:l Continuous Funnel:從 每 一個 input link中 循環(huán)取 一
19、條記錄l Sort Funnel:按照 Key 值 排 序 合 并 輸 出l Sequence :先 輸 出 第 一個 input link的數(shù)據(jù), 輸 出 完 畢 后 再 輸 出 第 二 個 input link的數(shù)據(jù), 依 此 類推 , 直 到 結(jié) 束 。 (此 時可以通過 調(diào) 整 link Ordering 調(diào) 整 輸 出 順 序 3.1.7Tansformer Stage功能說明:一個功能 極 為 強大 的 Stage 。有一個 input link , 多 個 output link , 可以 將 字段 進 行 轉(zhuǎn)換 , 也可以通過 條 件 來 指定數(shù)據(jù) 輸 出 到 那 個 outp
20、ut link。在開發(fā) 過 程 中 可以 使用 拖拽 。 l Constraint 及 Derivation 的區(qū)別Constraint 通過 限 定 條 件使 符 合 條 件的數(shù)據(jù) 輸 出 到 這 個 output link。 Derivation 通過 定義 表 達 式 來轉(zhuǎn)換 字段 值 。在 Constraint 及 Derivation 中 可以 使用 Job parameters 及 Stage Variables 。 注意 :Transformer Stage功能 強大 , 但 在 運 行 過 程 中 是以 犧牲 速 度為 代價 的。在 只 有 簡單 的 變 換 , 拷貝 等操 作
21、 時 , 最 好 用 Modify Stage , Copy Stage , Filter Stage 等 來 替 換 Transformer Stage。示 例 Derivation 轉(zhuǎn)換 表 達 式 :if (isnull(LK_to_transform.CI_CUST_NO then 1else if (IsNull(LK_to_transform.CI_CRLMT_NO then 2else 03.1.8Sort Stage功能說明:只 能有一個 輸入 及一個 輸 出 , 按照 指定的 Key 值 進 行 排 列 。 可以 選 擇 升序 還 是 降 序 , 是 否 去 除重 復(fù) 的數(shù)據(jù)
22、 等等 。 Option 具 體 說明Allow Duplicates:是 否 去 除重 復(fù) 數(shù)據(jù)。為 False 時 , 只 選 取 一 條 數(shù)據(jù), 當 Stable Sort 為 True 時 , 選 取 第 一 條 數(shù)據(jù)。 當 Sort Unility 為 UNIX 時 此 選 項 無 效 。Sort Utility:選 擇 排 序 時 執(zhí) 行應(yīng)用 程序 , 可以 選 擇 DataStage 內(nèi) 建的 命 令 或者 Unix 的 Sort 命 令 。Output Statistics:是 否輸 出 排 序統(tǒng) 計 信息 到 job 日志 。Stable Sort:是 否 對數(shù)據(jù) 進 行 二
23、次 整 理。Create Cluster Key Change Column:是 否 為 每 條記錄 創(chuàng) 建一個 新 的 字段 : clusterKeyChange 。 當 Sort Key Mode為 Don t Sort(Previously Sorted 或 Don t Sort (Previously Grouped時 ,對 于 第 一 條記錄 該 字段 被 設(shè) 置 為 1,其 余 的 記錄設(shè) 置 為 0。Create Key Change Column :是 否 為 每 一 條 記 錄 創(chuàng) 建 一 個 新 的 字 段 KeyChange 。3.1.9LookUp Stage功能說明:
24、LookUp Stage 把 數(shù)據(jù) 讀 入 內(nèi) 存執(zhí) 行 查 詢 操 作, 將匹 配 的 字段輸 出 , 或者 在在 符 合 條 件的 記錄 中 修改 或 加 入 新 的 字段 。 參 數(shù)說明 :²Condition 中 可以通過 BASIC 表 達 式 指定在 reference link上 做 Lookup 的 前 提 條 件 .²Condition Not Met指定 前 提 條 件 不 滿足 時 的處理方 式 .ØFail 中 止 JOB, 報 Fatal Error錯誤 .ØDrop 拋棄此條 數(shù)據(jù) , 繼續(xù) 執(zhí) 行 下 一個 lookup.&
25、#216;Continue 查找 不 到的數(shù)據(jù) 賦空值 , 繼續(xù) 處理 下 一行 .ØReject 輸 出 至 Reject link.²Lookup Failure指定 Lookup 操 作 失敗 時 的處理方 式 .ØFail 中 止 JOB, 報 Fatal Error錯誤 .ØDrop 拋棄此條 數(shù)據(jù) , 繼續(xù) 執(zhí) 行 下 一個 lookup.ØContinue 查找 不 到的數(shù)據(jù) 賦空值 , 繼續(xù) 處理 下 一行 .ØReject 輸 出 至 Reject link.3.1.10Join Stage功能說明:將 多 個 表
26、連接 后 輸 出 3.1.11LookUp Stage 和 Join Stage的區(qū)別LookUp Stage 將 數(shù)據(jù) 讀 入 到 內(nèi) 存 中, 所 以 效率很 高 , 但 是 占 用了較 多 的 物 理內(nèi) 存 。所 以 當 reference data比較 小 的 時 候 ,我們 推薦 用 LookUp Stage; 當 reference data比較 大 的 時 候 ,我們 推薦 用 Join Stage。3.1.12Merge Stage功能說明:將 Merge Key值相同 的 記錄 合 并。 將 其中的一個 輸入設(shè) 定為 Master ,其 余 的 為 Update 。 把 Up
27、date 中 Merge Key相同 的 記錄 合 并 入 Master 。 3.1.13Modify Stage功能說明:Modify stage 只 能有一個 輸入 及一個 輸 出 ,它 可以 修改表 結(jié) 構(gòu) :刪除 , 保 留 一個 字段 ;給 字段改名 ; 修改字段 的數(shù)據(jù) 類型 。 Specification 的具 體 用法:刪除 一個 字段 :DROP columnname , columnname保 留 一個 字段 :KEEP columnname , columnname改 變 字段 :new_columnname:new_type=explicit_conversion_fu
28、nctionold_c olumnname可 用 的 explicit_conversion_function請 參 看 Parallel Job Developer s Guide page 28-73.1.14Data Set StageStage 類型 :File stage功能說明:從 data set文 件中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 data set文 件中,一個 Date Set Stage 只 能有一個 輸入 連接 (input link 或者 一個 輸 出 連接 (output link 。 具 體 用法:包括 Stage Page, Inputs Page, Outpu
29、ts Page。l Stage Page通 常 描述 了 stage 的一 般信息 , 諸 如 名 稱 等;l Inputs Page描述 了 即 要寫 入信息 的 data set文 件的 詳 細 信息 ;主要 是 Properties 和 Column 的定義。Properties 中 配置 了 文 件的 存 放 路徑 和 更 新 策略 ; Column 詳 細 定義 文 件中的 各 個 字段 ; l Outputs Page描述 了 讀 取 信息 的 data set文 件的 詳 細 信息 ;操 作 過 程 與 Inputs Page類似 。3.1.15File Set StageSta
30、ge 類型 :File stage功能說明:從 file set文 件中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 file set文 件中,一個 File Set Stage 只 能有一個 輸入 連接 (input link 、 一個 輸 出 連接 (output link 和一 個 拒絕 連接 (rejects link 。并 且 只 能在并行 模 式 下 執(zhí) 行。具 體 用法:l Stage Page:對 Stage 的 基 本定義l Inputs Page:主要 是 Properties 和 Format 的 配置Properties 的 配置 :定義 文 件的 存 取 路徑 及其 他讀 寫的 相
31、 關(guān)的 參 數(shù)。 特 別要 說明的 是 Options 下 的 Reject Mode 的 選 擇 , 當 stage 有 reject link 的 時 候 , 必須 選 擇 Output ;沒 有 reject link時 , 可 選 擇 其 他兩 個 選 項。 Format 的 配置 :定義了數(shù)據(jù)寫到 文 件中的 格式 l Outputs Page:對 stage 輸 出 的數(shù)據(jù) 字段 的 描述 , 另 外 , reject link的 輸 出 系統(tǒng) 將 默認 , 不 需 要用 戶 自 己 定義 字段 。3.1.16Lookup File Set StageStage 類型 :File
32、stage功能說明:為 執(zhí) 行 查找 操 作 而 創(chuàng) 建的 參 照文 件。作為 查找 的 參 照 數(shù)據(jù), 通 常在 參 照 數(shù)據(jù)比較 大 量 或者 重 復(fù) 使用 率 較 高 的 情況 下 , 將參 照 數(shù)據(jù) 生成 專門 的 Lookup File Set文 件, 以 便 提高 查找 的 效率 具 體 用法:l Stage Pagel Inputs Page:主要定義了 查找 關(guān)鍵 字 和 存 放 路徑等 主要 信息 創(chuàng) 建一個 Lookup File Set文 件: l Outputs Page:當 作為 參 照 數(shù)據(jù) 進 行 查找 操 作 時 , 因 為 文 件 是 已經(jīng) 生成 好 的,所
33、以 在 這 里 不 需 要 再 做 詳 細 的定義, 只 要 引 入 即 可 。 3.1.17Oracle Enterprise StageStage 類型 :Database Stage功能說明:從 Oracle 數(shù)據(jù)庫中 讀 取 數(shù)據(jù) 或者 寫數(shù)據(jù)到 Oracle 數(shù)據(jù)庫中。 通 常 完 成 的 操 作:l 使用 INSERT 或 UPDATE 命 令 更 新 數(shù)據(jù)庫 表l 裝 入 數(shù)據(jù)庫 表l 讀 取 數(shù)據(jù)庫 表l 從 數(shù)據(jù)庫 表 中 刪除 行l(wèi) 在庫 表 中 直 接 執(zhí) 行 查 詢 操 作l 將 庫 表 裝 入 內(nèi) 存 , 然 后 執(zhí) 行 查 詢 操 作 具 體 用法:l Inputs
34、 Page向 數(shù)據(jù)庫中寫數(shù)據(jù),關(guān)鍵 是 對 Properties 的 配置 l Outputs Page :與 Inputs Page 類似 , 只 是 完 成 的 是 從 數(shù)據(jù)庫中 讀 取 數(shù)據(jù)。 3.1.18Aggregator StageStage 類型 :Processing Stage功能說明:將 輸入 的數(shù)據(jù)分組, 計算 各 組數(shù)據(jù)的 總 和 或者 按 組 進 行其 他 的 操 作, 最 后 將 結(jié) 果 數(shù)據(jù) 輸 出 到其 他 的 stage 。 具 體 用法:l Stage Page :描述 stage 的一 般信息 以 及 字段 的分組 信息 和 選 擇 分組 計算 函 數(shù)l
35、Inputs Page :詳 細 描述 輸入 數(shù)據(jù) 信息 , 一 般 直 接 反 映 輸入 數(shù)據(jù) 字段信息 l Oupputs Page:詳 細 描述 輸 出 數(shù)據(jù) 信息 , 即 經(jīng) 過 分組 計算 后 的數(shù)據(jù) 字段 信息 3.1.19Remove Duplicates StageStage 類型 :Processing Stage功能說明:輸入 根 據(jù)關(guān)鍵 字 分 好類 的有 序 數(shù)據(jù), 去 除 所有 記錄 中關(guān)鍵 字重 復(fù) 的 記錄 , 通 常 與 sort stage配合 使用 具 體 用法:l Stage Page:Properties 中的 key 值與 之 前 sort stage
36、的分 類 key 值相同 l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.20Compress StageStage 類型 :Processing Stage功能說明:將 data set文 件 壓縮 成 二 進制 文 件 (與 expend datastage相 對應(yīng) 具 體 用法:l Stage Page運 行 結(jié) 果 l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述 l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述 3.1.21Expand StageStage 類型 :Process
37、ing Stage功能說明:將 壓縮 的 二 進制 文 件 解 壓縮 (解 壓縮 compress stage生成 的 壓縮 文 件 具 體 用法:l Stage Page運 行 結(jié) 果 : l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.22Difference StageStage 類型 :Processing Stage功能說明:按字段 比較 兩 個 文 件, 找 出不 同 的 記錄 。(兩 個 文 件 before 和 after , 以 before 為 準 , 與 after 文 件中的 記錄 進 行比
38、較, 找 出 before 在 after 文 件中 沒 有 或者 有的 記錄具 體 用法:l Stage Page比較策略說明Drop Output For CopyFalse :保 留 before 及 afte link中 key 值相同 的行True :刪除 before 及 afte link中 key 值相同 的行Drop Output For DeleteFalse :保 留 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 True :刪除 before link中有 但 是 afte link中 沒 有的 key 值 所在的行 Drop
39、 Output For EditFalse :保 留 key 值相同 ,value 不 同 的行True :刪除 key 值相同 ,value 不 同 的行Drop Output For InsertFalse :保 留 before link中 沒 有 但 afte link中有的 key 值 所在的行 True :刪除 before link中 沒 有 但 afte link中有的 key 值 所在的行 調(diào) 整 before 和 after 的 順 序 :l Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述 l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述 3.1.23
40、Compare StageStage 類型 :Processing Stage功能說明:按字段 對比 兩 個 已經(jīng) 分 類 的有 序 的 文 件 具 體 用法:l Stage Pagel Inputs Page:對 輸入 數(shù)據(jù) 字段 的 描述l Oupputs Page:對 輸 出 數(shù)據(jù) 字段 的 描述3.1.24Switch StageStage 類型 :Processing Stage功能說明:將 文 件 按照 一定的 條 件 (一 般 為 字段 的 值 分 割 成多 個 子 文 件。 具 體 是 將 輸 入 的 每 一 條記錄按照 各 自 符 合 的 條 件 (關(guān)鍵 字 的 值 分 配 到 不 同 的 輸 出 (Switch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第五第六的單元數(shù)學(xué)試卷
- 肉鴿生產(chǎn)技術(shù)課件
- 愛上閱讀 品味文字 主題班會課件
- 2025年03月重慶市人民醫(yī)院招聘131人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 2025年黑龍江大慶市杜爾伯特蒙古族自治縣社區(qū)衛(wèi)生服務(wù)中心招聘醫(yī)學(xué)畢業(yè)生8人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 2025年05月云南省楚雄州大姚縣緊密型醫(yī)共體婦幼保健分院編外聘用人員招聘(2人)筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 長城汽車培訓(xùn)課件
- 2025至2030船用導(dǎo)航雷達行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 2025至2030廚電產(chǎn)業(yè)行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 高考最高數(shù)學(xué)試卷
- 鐵路運輸市場營銷作業(yè)指導(dǎo)書
- 新能源汽車技術(shù) SL03維修手冊(第4章)-電氣-4.2.2~4.2.12電器集成
- 《安全生產(chǎn)培訓(xùn)機構(gòu)基本條件AQ 8011-2023》知識培訓(xùn)
- 《鍛造技術(shù)培訓(xùn)》課件
- 《冷干機原理及維修》課件
- 2024年人教版七年級下冊英語期末綜合檢測試卷及答案(一)
- “國培計劃”“省培計劃”學(xué)員替換情況說明表
- 七年級語文上冊《我的白鴿》教學(xué)設(shè)計
- 樓房托管合同模板
- 中華詩詞之美學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 造口并發(fā)癥造口狹窄
評論
0/150
提交評論