KETTLE基本知識培訓(xùn)_第1頁
KETTLE基本知識培訓(xùn)_第2頁
KETTLE基本知識培訓(xùn)_第3頁
KETTLE基本知識培訓(xùn)_第4頁
KETTLE基本知識培訓(xùn)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

KETTLE根本知識主講:韋漢靖1整理ppt簡介Kettle是一款國外開源的etl工具,純java編寫,可以在Window、Linux、Unix上運(yùn)行,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。ETL是數(shù)據(jù)抽取〔Extract〕、清洗〔Cleaning〕、轉(zhuǎn)換〔Transform〕、裝載〔Load〕的過程。2整理ppt內(nèi)容一、KETTLE的要求環(huán)境〔JDK版本〕、安裝、根本操作。二、KETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕三、基于表對表的同步四、基于文件到表的同步五、基于表到文件的同步六、JAVASCRIPT的根本應(yīng)用七、文件FTP下載、上傳。八、作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換。九、KETTLE自帶例子十、KETTLE輸出日志說明十一、啟動腳本說明。3整理ppt相關(guān)網(wǎng)站信息://pentahochina:///://wiki.pentaho4整理pptKETTLE的要求環(huán)境〔JDK版本〕、安裝、根本操作KETTLE要求先安裝JDK1.5版本或以上svn下載svn://pentahochina/kettle/3.2_xgn無需安裝下載后直接運(yùn)行spoon.bat即可5整理pptKETTLE的要求環(huán)境〔JDK版本〕、安裝、根本操作6整理pptKETTLE的要求環(huán)境〔JDK版本〕、安裝、根本操作7整理pptKETTLE的要求環(huán)境〔JDK版本〕、安裝、根本操作8整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕Kettle中有兩種腳本文件,transformation〔轉(zhuǎn)換,后綴為.ktr〕和job〔作業(yè),后綴為.kjb〕,transformation完成針對數(shù)據(jù)的根底轉(zhuǎn)換,好比工廠里的生產(chǎn)流水線,每個組件相當(dāng)于一個員工;job那么完成整個工作流的控制,好比工廠里的管理。如果用記事本翻開文件可發(fā)現(xiàn)轉(zhuǎn)換和作業(yè)都是xml類型文件。9整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕作業(yè):分串行執(zhí)行和并行執(zhí)行,串行執(zhí)行是先執(zhí)行完其中一條線再執(zhí)行另一條線,并行是兩條線同時執(zhí)行,同一條線上的兩個步聚會先執(zhí)行前面的再執(zhí)行后面的,每個步驟執(zhí)行結(jié)果分兩種:true(成功)/false(失敗),根據(jù)返回結(jié)果可以控制流程走向。10整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕作業(yè)流程圖說明11整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕轉(zhuǎn)換:一開始所有步驟同時運(yùn)行,記錄會從最前端的步驟向后傳遞,傳遞到相應(yīng)步驟那么該記錄被該步驟作相應(yīng)處理,處理完成再把記錄往后傳遞,記錄傳遞分復(fù)制和分發(fā)兩種模式。12整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕復(fù)制:把一份數(shù)據(jù)復(fù)制成多份,后面步驟各占一份。分發(fā):把一份數(shù)據(jù)平均分配給后面步驟。13整理pptKETTLE的組件的類型根本說明〔作業(yè)與轉(zhuǎn)換〕在轉(zhuǎn)換組件上右鍵->顯示輸入字段〔顯示輸出字段〕可以查看前面步驟流過來的記錄字段情況和該字段是后面步驟傳遞的字段信息情況。14整理ppt基于表對表的同步表對表同步是最根本的同步方式之一實(shí)現(xiàn)步驟:一、建立源庫連接和目標(biāo)庫連接二、使用表輸入組件進(jìn)行源表數(shù)據(jù)讀取三、對記錄進(jìn)行適配整理四、使用表輸出組件輸出到目標(biāo)表15整理ppt基于表對表的同步新建一個轉(zhuǎn)換:文件->新建->轉(zhuǎn)換16整理ppt基于表對表的同步17整理ppt基于表對表的同步18整理ppt基于表對表的同步19整理ppt基于表對表的同步20整理ppt基于文件到表的同步新建一個轉(zhuǎn)換流程:從文件讀取記錄插入到數(shù)據(jù)庫中21整理ppt基于文件到表的同步22整理ppt基于文件到表的同步23整理ppt基于文件到表的同步24整理ppt基于表到文件的同步新建一個轉(zhuǎn)換實(shí)現(xiàn)從表里讀取記錄生成文件25整理ppt基于表到文件的同步26整理ppt基于表到文件的同步27整理ppt基于表到文件的同步28整理pptJAVASCRIPT的根本應(yīng)用JAVASCRIPT根本語法:varjsStr=“hellokello〞;//定義一個字符串變量varjavaStr=newjava.lang.String(“javaString〞);//java.lang.String實(shí)例writeToLog(“m〞,str);//打印字符串到日志輸出varnum=1;//定義一個整型vararr=newArray();//定義一個數(shù)組無任何元素arr.push(“添加一個元素到數(shù)組未位〞);vararr1=newArray(3,“FTP補(bǔ)采〞);//定義一個數(shù)組29整理pptJAVASCRIPT的根本應(yīng)用If…else語句varbool=true;if(bool){//bool值為trueAlert(“正確〞);}else{//bool值為falseAlert(“錯誤〞);}30整理pptJAVASCRIPT的根本應(yīng)用for語句vararr=newArray(1,“2〞,“thisisstring〞);for(vari=0;i<arr.length;i++){if(arr[i]==2){Alert(“thevalueis〞+arr[i]);}}31整理pptJAVASCRIPT的根本應(yīng)用方法定義varstr=“whj〞;//全局變量functionsayHello(name){//帶一個參數(shù)的方法if(name==null)return“hello“+str;elsereturn“hello“+name;//返回一個字符串}writeToLog(“m〞,sayHello());//方法調(diào)用32整理pptJAVASCRIPT的根本應(yīng)用異常處理try…catch…try{varvalue=100/0;}catch(e){thrownewjava.lang.Exception(“除數(shù)不能為0:"+e);}異常處理通常是防止未知錯誤產(chǎn)生所采取的處理措施。異常處理的好處是你不用再絞盡腦汁去考慮各種錯誤,這為處理某一類錯誤提供了一個很有效的方法,使編程效率大大提高。33整理pptJAVASCRIPT的根本應(yīng)用34整理ppt文件FTP下載、上傳作業(yè):FTP下載從FTP上下載相應(yīng)文件到指定目錄下35整理ppt文件FTP下載、上傳36整理ppt文件FTP下載、上傳37整理ppt文件FTP下載、上傳作業(yè):FTP上傳上傳本地文件到相應(yīng)FTP指定目錄上38整理ppt文件FTP下載、上傳39整理ppt文件FTP下載、上傳40整理ppt作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換文件->新建->作業(yè)作業(yè)可以調(diào)用作業(yè),這樣方便流程控制。41整理ppt作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換42整理ppt作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換作業(yè)也可以調(diào)用轉(zhuǎn)換43整理ppt作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換44整理pptKETTLE自帶例子菜單:文件->從URL翻開文件->samples也可以直接到KETTLE工具下的samples目錄翻開45整理pptKETTLE輸出日志說明日志輸出是檢查程序運(yùn)行情況的重要手段,也是程序維護(hù)必不可少的環(huán)節(jié)。KETTLE在日志輸出方面也有很好的控制功能。KETTLE日志輸出共分七個等級:沒有日志〔Nothing〕、錯誤日志〔Error〕、最小日志〔Minimal〕、根本日志〔Basic〕、詳細(xì)日志〔Detailed〕、調(diào)試日志〔Debug〕、行級日志〔Rowlevel〕。默認(rèn)為根本日志。46整理pptKETTLE輸出日志說明Nothing:不顯示任何輸出Error:僅僅顯示錯誤信息Minimal:使用最小的日志Basic:缺省的日志級別Detailed:給出日志輸出的細(xì)節(jié)Debug:調(diào)試目的,調(diào)試輸出Rowlevel:打印出每一行記錄的信息47整理pptKETTLE輸出日志說明作業(yè)日志輸出說明作業(yè)運(yùn)行狀態(tài)有兩種:true(成功)/false(失敗)。注意:失敗不代表運(yùn)行異常、出錯。有時只是用來控制流程的一種決策、一種手段。48整理pptKETTLE輸出日志說明程序異常退出情況49整理pptKETTLE輸出日志說明轉(zhuǎn)換日志輸出說明I:當(dāng)前步驟生成的記錄數(shù)〔從表輸入、文件讀入〕O:當(dāng)前步驟輸出的記錄數(shù)〔輸出到文件、表〕R:當(dāng)前步驟從前一步聚讀取的記錄數(shù)W:當(dāng)前步驟向后面步驟拋出的記錄數(shù)U:當(dāng)前步驟更新過的記錄數(shù)E:當(dāng)前步驟處理出錯的記錄數(shù)50整理ppt啟動腳本說明KETTLE程序啟動分兩種,一種是作業(yè)、一種是轉(zhuǎn)換。作業(yè)調(diào)用啟動腳本:kitchen.sh〔kitchen.bat〕轉(zhuǎn)換調(diào)用啟動腳本:pan.sh〔pan.bat)51整理ppt啟動腳本說明kitchen.sh〔span.sh〕說明52整理ppt啟動腳本說明Kitchen.ba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論