




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 Datastage產(chǎn)品開發(fā)使用指南 MACROBUTTON AcceptChangesSelected 北京先進數(shù)通信息技術有限公司商業(yè)智能應用部 Datastage產(chǎn)品開發(fā)使用指南 - PAGE 44 -文檔信息標題Datastage產(chǎn)品開發(fā)使用指南創(chuàng)建日期2005-12-22打印日期文件名PMA-003-Datastage產(chǎn)品開發(fā)使用指南-V1.0.doc存放目錄DIPMA所有者北京先進數(shù)通信息技術有限公司作者何應龍修訂記錄日期作者描述文檔審核/審批姓名職務/職稱審核批準文檔分發(fā)此文檔將分發(fā)至如下各人姓名職務/職稱目 錄 TOC o 1-3 h z u HYPERLINK l _Toc1
2、23361103 目 錄 PAGEREF _Toc123361103 h ii HYPERLINK l _Toc123361104 1. 引言 PAGEREF _Toc123361104 h 1 HYPERLINK l _Toc123361105 2. 常用Stage使用說明 PAGEREF _Toc123361105 h 1 HYPERLINK l _Toc123361106 2.1. Sequential File Stage PAGEREF _Toc123361106 h 1 HYPERLINK l _Toc123361107 2.2. Annotation PAGEREF _Toc12
3、3361107 h 4 HYPERLINK l _Toc123361108 2.3. Change Capture Stage PAGEREF _Toc123361108 h 5 HYPERLINK l _Toc123361109 2.4. Copy Stage PAGEREF _Toc123361109 h 7 HYPERLINK l _Toc123361110 2.5. Filter Stage PAGEREF _Toc123361110 h 8 HYPERLINK l _Toc123361111 2.6. Funnel Stage PAGEREF _Toc123361111 h 9 HY
4、PERLINK l _Toc123361112 2.7. Tansformer Stage PAGEREF _Toc123361112 h 10 HYPERLINK l _Toc123361113 2.8. Sort Stage PAGEREF _Toc123361113 h 11 HYPERLINK l _Toc123361114 2.9. LookUp Stage PAGEREF _Toc123361114 h 12 HYPERLINK l _Toc123361115 2.10. Join Stage PAGEREF _Toc123361115 h 12 HYPERLINK l _Toc1
5、23361116 2.11. Merge Stage PAGEREF _Toc123361116 h 14 HYPERLINK l _Toc123361117 2.12. Modify Stage PAGEREF _Toc123361117 h 15 HYPERLINK l _Toc123361118 2.13. Data Set Stage PAGEREF _Toc123361118 h 16 HYPERLINK l _Toc123361119 2.14. File Set Stage PAGEREF _Toc123361119 h 17 HYPERLINK l _Toc123361120
6、2.15. Lookup File Set Stage PAGEREF _Toc123361120 h 19 HYPERLINK l _Toc123361121 2.16. Oracle Enterprise Stage PAGEREF _Toc123361121 h 21 HYPERLINK l _Toc123361122 2.17. Aggregator Stage PAGEREF _Toc123361122 h 22 HYPERLINK l _Toc123361123 2.18. Remove Duplicates Stage PAGEREF _Toc123361123 h 24 HYP
7、ERLINK l _Toc123361124 2.19. Compress Stage PAGEREF _Toc123361124 h 25 HYPERLINK l _Toc123361125 2.20. Expand Stage PAGEREF _Toc123361125 h 26 HYPERLINK l _Toc123361126 2.21. Difference Stage PAGEREF _Toc123361126 h 27 HYPERLINK l _Toc123361127 2.22. Compare Stage PAGEREF _Toc123361127 h 29 HYPERLIN
8、K l _Toc123361128 2.23. Switch Stage PAGEREF _Toc123361128 h 30 HYPERLINK l _Toc123361129 2.24. Column Import Stage PAGEREF _Toc123361129 h 31 HYPERLINK l _Toc123361130 2.25. Column Export Stage PAGEREF _Toc123361130 h 33 HYPERLINK l _Toc123361131 3. DataStage Administrator常用配置 PAGEREF _Toc123361131
9、 h 35 HYPERLINK l _Toc123361132 3.1. 設置TimeOut時間 PAGEREF _Toc123361132 h 35 HYPERLINK l _Toc123361133 3.2. 設置Project的屬性 PAGEREF _Toc123361133 h 36 HYPERLINK l _Toc123361134 3.3. 更新DataStage Server的License和本地Client的License PAGEREF _Toc123361134 h 37 HYPERLINK l _Toc123361135 4. DataStage Manager使用 PA
10、GEREF _Toc123361135 h 37 HYPERLINK l _Toc123361136 4.1. 導入導出Job及其它組件 PAGEREF _Toc123361136 h 37 HYPERLINK l _Toc123361137 4.2. 管理配置文件 PAGEREF _Toc123361137 h 39 HYPERLINK l _Toc123361138 5. DataStage Director使用 PAGEREF _Toc123361138 h 41 HYPERLINK l _Toc123361139 5.1. 察看Job的狀態(tài),運行已經(jīng)編譯好的Job PAGEREF _T
11、oc123361139 h 41 HYPERLINK l _Toc123361140 5.2. 將編譯好的Job加入計劃任務 PAGEREF _Toc123361140 h 42 HYPERLINK l _Toc123361141 5.3. 監(jiān)控Job的運行情況 PAGEREF _Toc123361141 h 43引言DataStage EE的開發(fā)主要由DataStage Designer完成?,F(xiàn)對常用部分加以說明,詳細使用方法請查閱在線幫助文檔。常用Stage使用說明DataStage的基本邏輯處理單位是Job,每個Job由許多Stage組成;由Stage來完成對數(shù)據(jù)的抽取,轉(zhuǎn)換,加載等,現(xiàn)
12、對常用的Stage做說明Sequential File Stage功能特點:適用于一般順序文件(定長或不定長),可識別文本文件或IBM大機ebcdic文件。使用要點:按照命名規(guī)范命名點住文件,雙擊鼠標,在general說明此文件內(nèi)容,格式,存儲目錄等 修改文件屬性,文件名稱,reject方式等到 修改文件格式,比如記錄結(jié)束符是什么,字段分隔符,字符串是用什么區(qū)別等 輸入此文件字段內(nèi)容 Annotation功能特點:一般用于注釋,可利用其背景顏色在job中分顏色區(qū)別不同功能塊使用要點: Change Capture Stage功能特點:Change Capture Stage有兩個輸入,分別標記
13、為before link 及 after link。輸出的數(shù)據(jù)表示before link和after link的區(qū)別,我們稱作change set。Change Capture Stage可以和Change Apply Stage配合使用來計算after set。key及value的說明key值是比較的關鍵值,value是當key值相同是作進一步比較用的。change mode選項說明:All keys,Explicit Values 需要指定value,其余字段為keyExplicit Keys&Values key及value都需要指定Explicit Keys,All Values 需要
14、指定key,其余的字段為value輸出策略說明Drop Output For Copy False:保留before及after link中key值相同的行 True:刪除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中沒有的key值所在的行 True:刪除before link中有但是after link中沒有的key值所在的行Drop Output For Edit False:保留key值相同,value不同的行 True:刪除key值相同,value不同的行Drop O
15、utput For Insert False:保留before link中沒有但after link中有的key值所在的行 True:刪除before link中沒有但after link中有的key值所在的行Copy Stage功能說明:Copy Stage可以有一個輸入,多個輸出。它可以在輸出時改變字段的順序,但是不能改變字段類型。注意:當只有一個輸入及一個輸出時最好將Force設置為True,這樣可以在Designer里看到運行結(jié)束,否則將無法標識運行結(jié)束,但不會影響運行結(jié)果數(shù)據(jù)。Filter Stage功能說明:Filter Stage只有一個輸入,可以有多個輸出。根據(jù)不同的篩選條件,
16、可以將數(shù)據(jù)輸出到不同的output link。 Funnel Stage功能說明:將多個字段相同的數(shù)據(jù)文件合并為一個單獨的文件輸出合并策略說明Continuous Funnel:從每一個input link中循環(huán)取一條記錄Sort Funnel:按照Key值排序合并輸出Sequence:先輸出第一個input link的數(shù)據(jù),輸出完畢后再輸出第二個input link的數(shù)據(jù),依此類推,直到結(jié)束。(此時可以通過調(diào)整link Ordering調(diào)整輸出順序)Tansformer Stage功能說明:一個功能極為強大的Stage。有一個input link,多個output link,可以將字段進行轉(zhuǎn)
17、換,也可以通過條件來指定數(shù)據(jù)輸出到那個output link。在開發(fā)過程中可以使用拖拽。Constraint及Derivation的區(qū)別Constraint通過限定條件使符合條件的數(shù)據(jù)輸出到這個output link。Derivation通過定義表達式來轉(zhuǎn)換字段值。在Constraint及Derivation中可以使用Job parameters及Stage Variables。注意:Transformer Stage功能強大,但在運行過程中是以犧牲速度為代價的。在只有簡單的變換,拷貝等操作時,最好用Modify Stage,Copy Stage,F(xiàn)ilter Stage等來替換Transfo
18、rmer Stage。Sort Stage功能說明:只能有一個輸入及一個輸出,按照指定的Key值進行排列??梢赃x擇升序還是降序,是否去除重復的數(shù)據(jù)等等。Option具體說明 Allow Duplicates: 是否去除重復數(shù)據(jù)。為False時,只選取一條數(shù)據(jù),當Stable Sort為True時,選取第一條數(shù)據(jù)。當Sort Unility為UNIX時此選項無效。 Sort Utility: 選擇排序時執(zhí)行應用程序,可以選擇DataStage內(nèi)建的命令或者Unix的Sort命令 Output Statistics: 是否輸出排序統(tǒng)計信息到job日志 Stable Sort: 是否對數(shù)據(jù)進行二次整
19、理 Create Cluster Key Change Column:是否為每條記錄創(chuàng)建一個新的字段:clusterKeyChange。當Sort Key Mode為Dont Sort(Previously Sorted) 或 Dont Sort (Previously Grouped)時,對于第一條記錄該字段被設置為1,其余的記錄設置為0。Create Key Change Column:是否為每一條記錄創(chuàng)建一個新的字段KeyChange。LookUp Stage功能說明:LookUp Stage把數(shù)據(jù)讀入內(nèi)存執(zhí)行查詢操作,將匹配的字段輸出,或者在在符 合條件的記錄中修改或加入新的字段。Jo
20、in Stage功能說明:將多個表連接后輸出 LookUp Stage 和 Join Stage的區(qū)別LookUp Stage將數(shù)據(jù)讀入到內(nèi)存中,所以效率很高,但是占用了較多的物理內(nèi)存。所以當reference data比較小的時候,我們推薦用LookUp Stage;當reference data比較大的時候,我們推薦用Join Stage。Merge Stage功能說明:將Merge Key值相同的記錄合并。將其中的一個輸入設定為Master,其余的為Update。把Update中Merge Key相同的記錄合并入Master。Modify Stage功能說明:Modify stage 只
21、能有一個輸入及一個輸出,它可以修改表結(jié)構(gòu):刪除,保留一個字段;給字段改名;修改字段的數(shù)據(jù)類型。Specification的具體用法:刪除一個字段: DROP columnname , columnname保留一個字段: KEEP columnname , columnname改變字段: new_columnname :new_type = explicit_conversion_functionold_columnname可用的explicit_conversion_function請參看Parallel Job Developers Guide7Data Set StageStage類型:F
22、ile stage功能說明:從data set文件中讀取數(shù)據(jù)或者寫數(shù)據(jù)到data set文件中,一個Data Set Stage只能有一個輸入連接(input link)或者一個輸出連接(output link)。具體用法:包括Stage Page,Inputs Page,Outputs PageStage Page通常描述了stage的一般信息,諸如名稱等;Inputs Page描述了即要寫入信息的data set文件的詳細信息;主要是Properties和Column的定義Properties中配置了文件的存放路徑和更新策略Column詳細定義文件中的各個字段Outputs Page描述了
23、讀取信息的data set文件的詳細信息;操作過程與Inputs Page類似。File Set StageStage類型:File stage功能說明:從file set文件中讀取數(shù)據(jù)或者寫數(shù)據(jù)到file set文件中,一個File Set Stage只能有一個輸入連接(input link)、一個輸出連接(output link)和一個拒絕連接(rejects link)。并且只能在并行模式下執(zhí)行。具體用法:Stage Page:對Stage的基本定義Inputs Page:主要是Properties和Format的配置Properties的配置:定義文件的存取路徑及其他讀寫的相關的參數(shù)。
24、特別要說明的是Options下的Reject Mode的選擇,當stage有reject link的時候,必須選擇Output;沒有reject link時,可選擇其他兩個選項。Format的配置:定義了數(shù)據(jù)寫到文件中的格式Outputs Page:對stage輸出的數(shù)據(jù)字段的描述,另外,reject link的輸出系統(tǒng)將默認,不需要用戶自己定義字段。Lookup File Set StageStage類型:File stage功能說明: 為執(zhí)行查找操作而創(chuàng)建的參照文件。作為查找的參照數(shù)據(jù),通常在參照數(shù)據(jù)比較大量或者重復使用率較高的情況下,將參照數(shù)據(jù)生成專門的Lookup File Set文件
25、,以便提高查找的效率具體用法:Stage PageInputs Page:主要定義了查找關鍵字和存放路徑等主要信息創(chuàng)建一個Lookup File Set文件:Outputs Page:當作為參照數(shù)據(jù)進行查找操作時,因為文件是已經(jīng)生成好的,所以在這里不需要再做詳細的定義,只要引入即可。Oracle Enterprise StageStage類型:Database Stage功能說明:從Oracle數(shù)據(jù)庫中讀取數(shù)據(jù)或者寫數(shù)據(jù)到Oracle數(shù)據(jù)庫中。通常完成的操作:使用INSERT或UPDATWE命令更新數(shù)據(jù)庫表裝入數(shù)據(jù)庫表讀取數(shù)據(jù)庫表從數(shù)據(jù)庫表中刪除行在庫表中直接執(zhí)行查詢操作將庫表裝入內(nèi)存,然后執(zhí)
26、行查詢操作具體用法:Inputs Page向數(shù)據(jù)庫中寫數(shù)據(jù),關鍵是對Properties的配置Outputs Page:與Inputs Page類似,只是完成的是從數(shù)據(jù)庫中讀取數(shù)據(jù)。Aggregator StageStage類型:Processing Stage功能說明: 將輸入的數(shù)據(jù)分組,計算各組數(shù)據(jù)的總和或者按組進行其他的操作,最后將結(jié)果數(shù)據(jù)輸出到其他的stage。具體用法:Stage Page:描述stage的一般信息以及字段的分組信息和選擇分組計算函數(shù)Inputs Page:詳細描述輸入數(shù)據(jù)信息,一般直接反映輸入數(shù)據(jù)字段信息Oupputs Page:詳細描述輸出數(shù)據(jù)信息,即經(jīng)過分組計算
27、后的數(shù)據(jù)字段信息Remove Duplicates StageStage類型:Processing Stage功能說明: 輸入根據(jù)關鍵字分好類的有序數(shù)據(jù),去除所有記錄中關鍵字重復的記錄,通常與sort stage配合使用具體用法:Stage Page:Properties中的key值與之前sort stage的分類key值相同Inputs Page:對輸入數(shù)據(jù)字段的描述Oupputs Page:對輸出數(shù)據(jù)字段的描述Compress StageStage類型:Processing Stage功能說明: 將data set文件壓縮成二進制文件(與expend datastage相對應)具體用法:S
28、tage Page運行結(jié)果Inputs Page:對輸入數(shù)據(jù)字段的描述Outputs Page:對輸出數(shù)據(jù)字段的描述Expand StageStage類型:Processing Stage功能說明:將壓縮的二進制文件解壓縮(解壓縮compress stage生成的壓縮文件)具體用法:Stage Page運行結(jié)果:Inputs Page:對輸入數(shù)據(jù)字段的描述Outputs Page:對輸出數(shù)據(jù)字段的描述Difference StageStage類型:Processing Stage功能說明: 按字段比較兩個文件,找出不同的記錄。(兩個文件before和after,以before為準,與after
29、文件中的記錄進行比較,找出before在after文件中沒有或者有的記錄)具體用法:Stage Page比較策略說明Drop Output For Copy False:保留before及after link中key值相同的行 True:刪除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中沒有的key值所在的行 True:刪除before link中有但是after link中沒有的key值所在的行Drop Output For Edit False:保留key值相同,valu
30、e不同的行 True:刪除key值相同,value不同的行Drop Output For Insert False:保留before link中沒有但after link中有的key值所在的行 True:刪除before link中沒有但after link中有的key值所在的行調(diào)整before和after的順序:Inputs Page:對輸入數(shù)據(jù)字段的描述Outputs Page:對輸出數(shù)據(jù)字段的描述Compare StageStage類型:Processing Stage功能說明:按字段對比兩個已經(jīng)分類的有序的文件 具體用法:Stage PageInputs Page:對輸入數(shù)據(jù)字段的描述
31、Outputs Page:對輸出數(shù)據(jù)字段的描述Switch StageStage類型:Processing Stage功能說明:將文件按照一定的條件(一般為字段的值)分割成多個子文件。具體是將輸入的每一條記錄按照各自符合的條件(關鍵字的值)分配到不同的輸出(Switch Stage 有一個input link 和多個output link,一個 reject link,output link最多可達128個;此功能很類似與C函數(shù)中的switch函數(shù))。具體用法:Stage Page定義分配記錄的關鍵字及其值Inputs Page:對輸入數(shù)據(jù)字段的描述Outputs Page:對輸出數(shù)據(jù)字段的描述,通過Mapping自定義各個輸出文件中的字段Column Import StageStage類型:Restructure Stage功能說明: 將一個字段中的數(shù)據(jù)輸出到多個字段中。(也可以用這個stage完成分割單個字段數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年武威市古浪縣泗水鎮(zhèn)招聘大學生村文書筆試真題
- 2024年南平市公安局招聘監(jiān)委留置場所勤務輔警筆試真題
- 西方政治制度在全球化背景下的挑戰(zhàn)試題及答案
- 2024年福建省福汽華泰服務有限公司招聘筆試真題
- 河北司法警官職業(yè)學院選聘工作人員考試真題2024
- 軟件設計師考試相關法律試題及答案
- 西方政治制度中的社會變革試題及答案
- 教育政策演變及其評析試題及答案
- 文化消費升級對文化產(chǎn)業(yè)的促進作用
- 自動化測試與手動測試的優(yōu)缺點分析試題及答案
- 西藏事業(yè)單位統(tǒng)一招聘考試真題
- 合同合伙人協(xié)議書范本電子版
- FGFR3在膀胱尿路上皮癌中的表達及對臨床意義的研究分析
- 自行車棚修建合同
- 食堂餐飲經(jīng)營合同在線制作
- 代建項目回購合同范本
- 第三方支付對農(nóng)行雙塔山支行業(yè)務影響研究
- 內(nèi)部創(chuàng)業(yè)基礎智慧樹知到期末考試答案章節(jié)答案2024年湖南大學
- 2024年南通市海門區(qū)名小六年級畢業(yè)考試語文模擬試卷
- 公司注銷銀行賬戶授權委托書
- ISO28000:2022供應鏈安全管理體系
評論
0/150
提交評論