




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、KETTLE使用自己總結的Kettle使用方法和成果說明簡介Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩(wěn)定。Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環(huán)境來描述你想做什么,而不是你想怎么做。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。Kettle可以
2、在/網站下載到。注:ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過萃?。╡xtract)、轉置(transform)、加載(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象并不限于數據倉庫。下載和安裝首先,需要下載開源免費的pdi-ce軟件壓縮包,當前最新版本為5.20.0。下載網址:然后,解壓下載的軟件壓縮包:pdi-ce--209.zip,解壓后會在當前目錄下上傳一個目錄,名為data-integration。由于Kettle是使用Java開發(fā)的,所以系統環(huán)境需要安
3、裝并且配置好JDK。Kettle可以在/網站下載下載kettle壓縮包,因kettle為綠色軟件,解壓縮到任意本地路徑即可。運行Kettle進入到Kettle目錄,如果Kettle部署在windows環(huán)境下,雙擊運行spoon.bat或Kettle.exe文件。Linux用戶需要運行spoon.sh文件,進入到Shell提示行窗口,進入到解壓目錄中執(zhí)行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后臺運行腳本這樣就可以打開配置Kettle腳本的UI界面。Kettle的簡單使用首先,點擊“文件新
4、建轉換”菜單創(chuàng)建一個轉換。我們可以看到轉換的主對象數和核心對象區(qū)域,然后我們添加一個DB連接。選擇“注對象數”,雙擊“轉換2”標簽下的“DB連接”會彈出一個設置窗口。填入連接名稱,選擇連接類型,配置數據庫設置,然后測試下配置是否正確。由于Kettle沒有將所有的數據庫的Driver文件集成,所以如果想連接指定的數據庫,需要自己下載JDBC驅動,放入到解壓目錄下的lib目錄中。添加完JDBC驅動后,必須重啟下Kettle才能加載驅動。1)Oracle的JDBC驅動:ojdbc6.jar2)MySQL的JDBC驅動:mysql-connector-java-5.1.32.jar注:在轉換之前需要創(chuàng)
5、建轉換所需的表,原始表和轉換的目標表。點擊“核心對象”標簽頁中的“輸入”,選擇“表輸入”拖到“轉換”區(qū)域。雙擊“表輸入”圖標彈出表輸入對話框,填入步驟名稱,選擇數據庫連接,點擊“獲取SQL查詢語句”,或者直接寫入SQL語句,填寫附件信息,點擊“預覽”按鈕查看執(zhí)行結果,沒有錯誤,點擊“確認”關閉對話框。點擊“核心對象”“輸出”,選擇“Excel輸出”拖入到轉換區(qū),雙擊Excel輸出圖標,彈出對話框,選擇文件名和其它附加參數,點擊確認。點擊輸入表的圖標,同時按下shift鍵,再點擊輸出文件,將兩者連接起來。然后雙擊Excel輸出進行配置。最后一步就是執(zhí)行kettle腳本,點擊工具欄上的綠色箭頭即可
6、。點擊“啟動”開始轉換,在轉換過程中會出現轉換的信息,如下圖所示。完成轉換后,我們可以Excel輸出目錄中查看轉換結果。注:時間字段換到Excel為空,修改SELECT語句中使用TO_CHAR轉換成字符串,例如:TO_CHAR(START_TIME, 'yyyy-mm-dd HH24:MM:SS') AS START_TIME。注:Excel中的記錄不能超過65535條,否則會自動關閉文件,導致轉換失敗。上面是一個簡單的數據遷徙腳本,從數據庫導出數據到EXCEL文件中。Kettle處理HBase本教程使用的軟件版本信息如下:1)Hadoop(1.2.1)2)Pantaho Da
7、ta Integration(5.2.0)3)HBase(0.94.19)。Pentaho Shim(社區(qū)版)目前支持的Hadoop版本:參考:注:從上表中看出它不支持hadoop 1.2.x版本。解決辦法是使用HDP13的插件(基于hadoop-1.0.3/hbase-0.94.6)替代,步驟如下:1)從2)解壓到plugins/pentaho-big-data-plugin/hadoop-configurations目錄下,目錄名為hdp13。3)進入plugins/pentaho-big-data-plugin目錄,修改perties文件中的active.hadoop
8、.configuration屬性為,缺省值為hadoop-20,如下:active.hadoop.configuration=hdp133)替換掉hdp13/lib目錄下與Hbase和hadoop有關的Jar包,拷貝一份hbase-site.xml到hdp13目錄下。| hdp13/lib/pmr目錄下替換后的Jar包:| hdp13/lib/client目錄下替換后的Jar包:* 在HBase中創(chuàng)建一個weblogs表,步驟如下:1)打開HBase shell,在命令行中輸入:hbase shell2)在Hbase中創(chuàng)建一個表,在hbase shell中輸入:create 'webl
9、ogs', 'pageviews'* 上面命令會創(chuàng)建一個帶有一個列族pageviews的weblogs的表。3)執(zhí)行quit退出HBase shell。參考文檔:1. 從下面網址下載weblogs_hbase.txt.zip壓縮文件作為文本文件數據源導入:2. 從Spoon(Kettle)中,創(chuàng)建一個新的轉換,選擇“文件新建轉換”。點擊“核心對象輸入”標簽,然后把“文本文件輸入”拖到畫板中。3. 雙擊文本文件輸入,彈出文本文件輸入對話框,點擊“瀏覽”按鈕選擇weblog_hbase.txt文件,點擊“添加”按鈕。選擇“內容”標簽,清空分隔符點擊“Insert TAB”按
10、鈕,選中“頭部行數量”選擇框,從格式的下拉菜單中選擇Unix格式。配置輸入字段,從“字段”標簽頁中選擇“獲取字段”按鈕,彈出可用的字段列表,詢問采樣的數量,輸入100點擊“OK”按鈕。修改字段key的類型為String,長度為20。點擊“OK”按鈕關閉對話框。l 在“核心對象Big Data”下,把HBase Output圖標拖入到面板中。并且把文本文件輸入與HBase Outpu連接起來(按住shift+拖曳)。l 雙擊Hbase Output,在彈出對話框中輸入Zookeeper的主機名和端口號。1)Zookeeper host(s)字段中輸入Zookeeper主機名,多個主機名使用逗號分
11、隔。對于本地集群使用localhost。2)在Zookeeper port字段中,輸入你的Zookeeper端口號,缺省值2181。l 創(chuàng)建一個Hbase映射,在Create/Edit mappings標簽頁中告訴Pentaho在HBase中如何存儲數據。1)點擊Get table names按鈕,在HBase table name的選擇框中選擇weblogs2)Mapping name,輸入pageviews3)點擊“Get imcoming fields”按鈕4)從Alias的key這行修改Key為Y,清除掉Column family和Column name字段,并且設置Type字段為St
12、ring,點擊Save mapping。l 配置HBase out使用上面剛剛創(chuàng)建的映射。1)進入到Configuration Connection標簽頁,點擊Get table names。2)點擊Get table names,在Hbase table name的選擇框中選擇weblogs。3)點擊Get mappings for speficed table獲取指定的表。4)點擊Mapping name,選擇pageviews,點擊“確認”按鈕關閉窗口。點擊“文件另存為”菜單保存轉換,在選擇目錄中輸入load_hbase.ktr作為文件名。l 點擊轉換工具欄中的運行按鈕運行轉換,或者選擇“動作運行”菜單打開一個執(zhí)行轉換的窗口,點擊“啟動”按鈕。在Spoon接口
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 陳老師說教育數學試卷
- 番茄主要病蟲害的危害及針對性綠色防控對策實施
- 貴州地區(qū)的油茶種植現狀及高產栽培技術的高效實施方案探討
- 2025年冷墩鋼項目發(fā)展計劃
- 中外文明交流史知到課后答案智慧樹章節(jié)測試答案2025年春牡丹江師范學院
- 2025年有機磷系阻燃劑合作協議書
- 2017-2018學年高中生物必修2課時訓練第2章第1節(jié)第1課時減數分裂B
- 2025年金屬非切削、成形加工機械合作協議書
- 填浜工程施工方案
- 物理選修3-5教科版全套講義第三章原子核3-2
- 電氣基礎知識培訓要點課件
- 洗浴中心轉讓合同(5篇)
- 外研版小學英語五年級下冊課文翻譯
- YY-T 1823-2022 心血管植入物 鎳鈦合金鎳離子釋放試驗方法
- 年產12000噸水合肼(100%)項目環(huán)評報告書
- 鉆芯法檢測混凝土抗壓強度原始記錄1
- 液壓支架與泵站(第二版)課件匯總全書電子教案完整版課件最全幻燈片(最新)
- 分布式光伏電站支架結構及荷載計算書
- DB61∕T 1186-2018 花椒主要病蟲害防治技術規(guī)范
- DB32T 4013-2021 第三方社會穩(wěn)定風險評估技術規(guī)范
- QC成果提高大跨度多節(jié)點曲面鋼桁架一次安裝合格率
評論
0/150
提交評論