版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、會計(jì)學(xué)1ETL基礎(chǔ)及常用技術(shù)培訓(xùn)基礎(chǔ)及常用技術(shù)培訓(xùn)2nETL基本概念nETL常用邏輯架構(gòu)nETL實(shí)施過程nETL常用技術(shù)(shell,oracle,datastage)第1頁/共86頁3 ET L(Extract-Transform-Load)即數(shù)據(jù)的抽取、轉(zhuǎn)換與加載。ETL是從各種原始的業(yè)務(wù)系統(tǒng)(異構(gòu)多源)中提取數(shù)據(jù),按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取到的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,最后將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部導(dǎo)人到目標(biāo)數(shù)據(jù)庫,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。 ETL為BI/DW的核心和靈魂. ETL就是一個(gè)批量數(shù)據(jù)加工的過程.第2頁/共86頁4第3頁/共86頁5n數(shù)據(jù)抽取n數(shù)據(jù)清洗與轉(zhuǎn)換n數(shù)據(jù)加載 第4
2、頁/共86頁6數(shù)據(jù)抽取n確定所有數(shù)據(jù)源來源于哪些源系統(tǒng),核心系統(tǒng),信貸,信用卡等n定義數(shù)據(jù)接口對每個(gè)源文件及接口的每個(gè)字段進(jìn)行詳細(xì)說明n數(shù)據(jù)抽取方法主動抽取還是源系統(tǒng)提供文件,增量還是全量,每日還是每月第5頁/共86頁7數(shù)據(jù)清洗與轉(zhuǎn)換n數(shù)據(jù)清洗 1.不完整的數(shù)據(jù) 2.錯誤的數(shù)據(jù) 3.重復(fù)的數(shù)據(jù) n數(shù)據(jù)轉(zhuǎn)換第6頁/共86頁8數(shù)據(jù)加載將數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)直接加載到數(shù)據(jù)庫對應(yīng)的表中,如果是全量采用load方式,如果是增量則根據(jù)業(yè)務(wù)規(guī)則merge進(jìn)數(shù)據(jù)庫 第7頁/共86頁9第8頁/共86頁10第9頁/共86頁11第10頁/共86頁12第11頁/共86頁13第12頁/共86頁14第13頁/共86頁15第1
3、4頁/共86頁16第15頁/共86頁17第16頁/共86頁18第17頁/共86頁19第18頁/共86頁20第19頁/共86頁21第20頁/共86頁22第21頁/共86頁23第22頁/共86頁24第23頁/共86頁25第24頁/共86頁26第25頁/共86頁27nPlsql是一款優(yōu)秀的操作oracle圖形界面軟件Sql window 可單條執(zhí)行可單條執(zhí)行sqlCommand window 可批量執(zhí)行多條可批量執(zhí)行多條sql第26頁/共86頁28第27頁/共86頁29第28頁/共86頁30第29頁/共86頁31第30頁/共86頁32第31頁/共86頁33第32頁/共86頁34第33頁/共86頁35
4、第34頁/共86頁36第35頁/共86頁37第36頁/共86頁38第37頁/共86頁39第38頁/共86頁40第39頁/共86頁41第40頁/共86頁42第41頁/共86頁43第42頁/共86頁44第43頁/共86頁45第44頁/共86頁46第45頁/共86頁47第46頁/共86頁48第47頁/共86頁49第48頁/共86頁50第49頁/共86頁51第50頁/共86頁52第51頁/共86頁53第52頁/共86頁54第53頁/共86頁55第54頁/共86頁56第55頁/共86頁57第56頁/共86頁58第57頁/共86頁59第58頁/共86頁60第59頁/共86頁61第60頁/共86頁62第61
5、頁/共86頁63第62頁/共86頁DataStage框架第63頁/共86頁65n客戶端安裝 client只能安裝在windows系統(tǒng)上,詳細(xì)安裝步驟參見相關(guān)文檔 n服務(wù)端安裝第64頁/共86頁66nDataStage服務(wù)啟動 在/home/dsadm/Ascential/DataStage/DSEngine/bin目錄下 執(zhí)行命令:uv admin start 執(zhí)行ps ef|grep dsadm 查看dsrpcd 和JobMonApp這兩個(gè)進(jìn)程是否存在,若存在則啟動成功 注意:如果不能啟動,一般是由于還有dsadm啟動的進(jìn)程未被停掉,通過ps ef|grep dsadm,將所有dsadm啟動
6、的進(jìn)程全部kill掉,然后再啟動。第65頁/共86頁DataStage客戶端組件nDataStage Administrator主要功能: 新建工程,設(shè)置TimeOut時(shí)間,設(shè)置Project的屬性,更新DataStage Server的License和本地Client的License第66頁/共86頁DataStage客戶端組件nDataStage Administrator主要功能: 新建工程,設(shè)置TimeOut時(shí)間,設(shè)置Project的屬性,更新DataStage Server的License和本地Client的License第67頁/共86頁DataStage客戶端組件nDataSta
7、ge Director主要功能: 察看Job的狀態(tài),運(yùn)行已經(jīng)編譯好的Job,將編譯好的Job加入計(jì)劃任務(wù),監(jiān)控Job的運(yùn)行情況第68頁/共86頁DataStage客戶端組件nDataStage Director主要功能: 察看Job的狀態(tài),運(yùn)行已經(jīng)編譯好的Job,將編譯好的Job加入計(jì)劃任務(wù),監(jiān)控Job的運(yùn)行情況第69頁/共86頁DataStage客戶端組件nDataStage Director主要功能: 察看Job的狀態(tài),運(yùn)行已經(jīng)編譯好的Job,將編譯好的Job加入計(jì)劃任務(wù),監(jiān)控Job的運(yùn)行情況第70頁/共86頁DataStage客戶端組件nDataStage Manager主要功能: 導(dǎo)入
8、導(dǎo)出Job及其它組件 第71頁/共86頁DataStage客戶端組件nDataStage Manager主要功能: 導(dǎo)入導(dǎo)出Job及其它組件 第72頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBn新建一個(gè)工程第73頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBn用DataStage Designer登陸建好的工程第74頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBn在DataStage Designer中新建一個(gè)job第75頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBnCTRL+S保存命名job第76頁/共86頁DataStage開發(fā)一個(gè)簡單的
9、ETL JOBn導(dǎo)入數(shù)據(jù)庫的表結(jié)構(gòu)第77頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBn根據(jù)mapping設(shè)計(jì)開發(fā)job第78頁/共86頁DataStage開發(fā)一個(gè)簡單的ETL JOBn開發(fā)job注意事項(xiàng) 1.對每個(gè)job注釋說明功能,復(fù)雜的STAGE也最好有注釋 2.每個(gè)STAGE都按標(biāo)準(zhǔn)命名 3.文件路徑和數(shù)據(jù)庫名、密碼等都定義為參數(shù),不要在job中寫死。第79頁/共86頁DataStage Routines的使用DataStage支持兩種函數(shù)對象:n 一是以.o為后綴的函數(shù)對象使用該文件類型時(shí),每次修改了.o的文件,所有相關(guān)的DataStage作業(yè)需要重新編譯;n 二是以.s
10、o為后綴的共享函數(shù)對象使用該文件類型時(shí),每次修改.so文件,不需要重新編譯相關(guān)的DataStage 作業(yè)編譯.o的函數(shù)對象: /usr/vacpp/bin/xlC_r -O -c -qspill=32704 test.c編譯.so的共享函數(shù)對象:注意:需要預(yù)先編譯生成.o的函數(shù)對象 /usr/vacpp/bin/xlC_r -O -c -qspill=32704 test.c /usr/vacpp/bin/xlC_r -G -o libtest.so test.o 重點(diǎn)注意:生成.so的對象時(shí),文件名必須以 lib為前綴!第80頁/共86頁設(shè)置并行Routine屬性函數(shù)對象類型的routine
11、1:配置基本信息【General】界面內(nèi)容規(guī)范或示例Routine NameCGTrimTypeExternal FunctionCategorytestObject typeObject (.o類型的函數(shù)對象)External subroutine NameCGTrimLibrary Path/crm/epm/Ascential/DataStage/DSEngine/lib/CGTrim.oReturn TypeChar *此處為CGTrim.o中的函數(shù)名稱此處為函數(shù)對象文件所在路徑及文件名此處為函數(shù)返回值類型注意:Routine Name不能重復(fù)第81頁/共86頁設(shè)置并行Routine屬性
12、共享庫類型的routine1:配置基本信息【General】界面內(nèi)容規(guī)范或示例Routine NameCRC32StringTypeExternal FunctionCategoryExamplesSDB_RoutinesObject typeLibrary (.so類型的共享庫)External subroutine Namecrc32_strLibrary Path/siebel/Ascential/DataStage/DSEngine/lib/libCGCRC32.soReturn TypeChar *此處為CGTrim.so中的函數(shù)名稱此處為函數(shù)對象文件所在路徑及文件名此處為函數(shù)返回值類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人房屋租賃的合同(2篇)
- 2025年個(gè)人房屋買賣協(xié)議參考模板(2篇)
- 2025年二手房轉(zhuǎn)讓房產(chǎn)協(xié)議范文(2篇)
- 2025年五年級上班隊(duì)工作總結(jié)(二篇)
- 2025年主要農(nóng)作物新品種展示示范協(xié)議(6篇)
- 大型機(jī)械拆卸運(yùn)輸合同
- 兒童樂園對公裝修合同
- 鐵路熱熔標(biāo)線施工方案
- 賓館改造瓦工單包合同
- 化妝品快遞配送合同范本
- 行政區(qū)域代碼表Excel
- 少兒財(cái)商教育少兒篇
- GB 1886.114-2015食品安全國家標(biāo)準(zhǔn)食品添加劑紫膠(又名蟲膠)
- 初二上冊期末數(shù)學(xué)試卷含答案
- envi二次開發(fā)素材包-idl培訓(xùn)
- 2022年上海市初中語文課程終結(jié)性評價(jià)指南
- 西門子starter軟件簡易使用手冊
- 隧道施工監(jiān)控量測方案及措施
- 桂花-作文ppt-PPT課件(共14張)
- 配電房日常檢查記錄表.docx
- 高一數(shù)學(xué)概率部分知識點(diǎn)總結(jié)及典型例題解析 新課標(biāo) 人教版 必修
評論
0/150
提交評論