版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Kettle培訓手冊Etl介紹ETL(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程),對于金融IT來說,經(jīng)常會遇到大數(shù)據(jù)量的處理,轉(zhuǎn)換,遷移,所以了解并掌握一種etl工具的使用,必不可少。Kettle是一款國外開源的etl工具,純java編寫,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job則完成整個工作流的控制。kettle部署運行將kettle文件夾拷貝到本地路徑,例如D盤根目錄。雙擊運行kettle文件夾下的spoon.bat文件,出現(xiàn)kettle歡迎界面:稍等幾秒鴉選擇沒有資蠢源庫,打開昏kettl疲e聯(lián)主界面缺創(chuàng)建餐trans呼forma棵tion廊,童job我點擊頁面左沙上角的創(chuàng)建像一個新的矩trans耳forma竄tion脂,點擊保存療到本地路尸徑,例如保要存到材D:/et咱ltest吹下,保存文妻件名為籌Etlte戒stTra尊ns墨,騾kettl悼e睜默認勉trans騎forma兼tion介文件保存后健后綴名為啟ktr忽點擊頁面左寺上角的創(chuàng)建率一個新的蝦job俯,點擊保存羞到本地路徑奧,例如保嚼存到勝D:/et斗ltest離下,保存文端件名為余Etlte狀stJob糊,嫌kettl櫻e慈默認墳job許文件保存后夾后綴名為憂k茄jb滿創(chuàng)建數(shù)據(jù)庫送連接不在特trans殃forma裙tion雷頁面下,點焰擊左邊的【饞Main兆Tree分】,雙擊【亞DB船連接】,進門行揪數(shù)據(jù)庫連接間配置。衛(wèi)c萄onnec諒tion犧name昂自命名連接株名稱佛Conne哲ction靈type革選擇需要連諸接的數(shù)據(jù)庫紙Metho燥dof澡acces固s滲選擇連接類闖型吉Serve沙rhos皂tnam底e欲寫入數(shù)據(jù)庫蓮服務(wù)器的用ip兼地址診Datab峽asen火am些e忠寫入數(shù)據(jù)庫紡名齒Port竿numbe攀r賽寫入端口號愉Usern拾ame棄寫入用戶名李Passw胖ord妙寫入密碼承例如如下配耕置:舅點擊【眨test舊】,如果出霜現(xiàn)如下提示植則說明配置除成功敲點擊關(guān)閉,箭再點擊確定遷保存數(shù)據(jù)庫填連接。池一個簡單的從ktr匙例子目的:彼將一個數(shù)據(jù)誦庫導入到另勢一個數(shù)據(jù)庫乎中。操作步驟:雨創(chuàng)建一個盼trans祖forma襲tion千,命名為帳e守tl拘T畝estTr篩ans.k夜tr紐,創(chuàng)建數(shù)據(jù)燙庫連接求ods匠,點擊【盾Input圈】,選中【薄表輸入】,價拖到主窗口態(tài),釋放鼠標校,雙擊打開如下圖偽點擊【薦Trans快for川m枝】,選中【取字段選擇】她,拖到主窗面口,釋放鼠舅標合點擊【弊Outpu魂t舞】,選中【快表輸出】,扛拖到主窗口忙,釋放鼠標池建立【文本面文件輸入】猾和【字段選喇擇】與【字柱段選擇】和迎【表輸出】造的連接命雙擊【表輸抄出】,目標辭表中寫入昂ZT_TE壟ST_KE候TTLE掉,,確定保忍存謠雙擊【字段幅選擇】,點漠擊武翠獲取選擇的炭字段,再點迅擊嫂Edlt插Mappi嚇ng性,點擊懲OK房確定,編輯閉所有字段對陜應(yīng)關(guān)系,點獄確定。錄點擊瀉運行這個轉(zhuǎn)杰換。,則將介上一個玻ktr呢中生成的文翻本,導入到承數(shù)據(jù)庫當中痕。料一個簡單的痰kjb畝例子目的:落將上一個跪trans層for鎖matio聰n素在一個敲job容里面調(diào)用執(zhí)犁行。操作步驟:腐在秤etlTe買stJob俘頁面,點擊錯【娘Core俯Objec夫ts煤】,點擊【早Jobe英ntrie共s醒】,選中【厲START申】局拖動到主窗起口釋放鼠標輪,再選中【鹿Trans滅forma期tion慧】,拖動到塌主窗口釋放腰鼠標,共建立【懸START意】和【麗Trans顏forma涉tion蒼】之間的連慌接。廣雙擊【哨Trans喂forma朋tion城】,濫寧在更Trans鄉(xiāng)forma虎tion浩filen座ame妙中寫入喘E:\ke差ttleW獻orksp用ace\e通tlTes籍tTran風s.ktr狡,確定保存團。沈點擊屑保存創(chuàng)建好鬼的減job反。疑點擊適運行這個轉(zhuǎn)頭換。督待所有任務(wù)惡都顯示成功墨,則為素job迅調(diào)用謀trans額forma欲tion棕運行成功。割一個增量的倘例子盾增量更新哨按照數(shù)據(jù)種謝類的不同大蛛概可以分成給:潛1.
只增蚊加,不更新符,蘿2.
只更沒新,不增加遵3.
即增誘加也更新轉(zhuǎn)4.
有刪戀除,有增加暗,有更新趣下面針對前頃三種做一個騙增量的ET弊L抽取。過原程如下:開根據(jù)前面講畏解的例子一鑄樣,首先建宜立源表儀(fina慧_test櫻1)體和目標表逢(fina東_test暈2)勉,整個設(shè)計泊流程如下于:監(jiān)其中第一個乳步驟洗(輸入-目燈標表)梯的sql會大概如下模煩式:輕s愉elect弱ifnu聞ll(ma餡x(dat手e_sea嘴l),'1菌900-0則1-01場00:00鍛:00')聲from箱fina遙_test朋2階你會注意到銀第二個步驟蔬和第一個步僅驟的連接是妄黃色的線,問這是因為第帽二個tab冶lein掠put方(輸入-源燕表)作步驟把前面寫一個步驟的食輸出當作一豈個參數(shù)來用迫,所有Ke誘ttle用度黃色的線來積表示,第二斬個tabl僻einp規(guī)ut盜(輸入-源糧表)析的sql震模式大概番如下:勢SELEC敢T眉*獅FROM搜fina_蓋test1匹柜where嘗date液_seal掃>?窮后面的一個煮問號就是表效示它需要接親受一個參數(shù)冒,你在這個礙table相inpu蜓t思(輸入-源蠟表)闊下面需要指拐定repl刮acev熱ariab聰lein卻scri抱pt選項綁和怪執(zhí)行每一改行歸為選中狀態(tài)味,這樣,K階ettle阿就會循環(huán)執(zhí)晃行這個sq背l,執(zhí)泥行的次數(shù)為彼前面參數(shù)步筍驟傳入的數(shù)勤據(jù)集的大小旺。躁關(guān)于第三個看步驟執(zhí)行氧插入/更新絲步驟需要特天別解釋一下撕,覽Kettl暮e執(zhí)行這個逐步驟是需要攻兩個數(shù)據(jù)流決對比,其中出一個是目標劉數(shù)據(jù)庫,你慚在胸目標表凱里面指定饞的,它放在恢用來查詢的掉關(guān)鍵字幣左邊驚的頓表字段野里面的,另縫外一個數(shù)據(jù)都流就是你在義前一個步驟航傳進來的,插它放在欄用來查詢的項關(guān)鍵字剩的右邊,嚴Kettl渴e首先用你聰傳進來的k社ey在數(shù)庫據(jù)庫中查詢有這些記錄,書如果沒有找降到,它就插朗入一條記錄目,所有的值警都跟你原來冠的值相同,嗽如果根據(jù)這箏個key找征到了這條記組錄,ket刮tle會比飾較這兩條記晉錄,根據(jù)你殃指定upd杏atef踏ield蟻來比較,如盤果數(shù)據(jù)完全腸一樣,ke慘ttle就腿什么都不做謹,如果記錄纏不完全一樣歡,kett屋le就執(zhí)行靜一個upd列ate步夾驟。婚備注:主鍵裕被修改得數(shù)咱據(jù)認為是新恰記錄臉畜刪除的數(shù)攪據(jù)由在倉庫蹄中需要保留盼無需考慮牛然后點擊新時建-job增,然后攻job嫁的核心對象賠jobe房ntrie淋s拉出組建臭,扣進行執(zhí)行不抽取居。堤創(chuàng)建兩kettl傻e糕資料庫小資源庫是用山來保存轉(zhuǎn)換吳任務(wù)的,用跑戶通過圖形對界面創(chuàng)建的暴的轉(zhuǎn)換任務(wù)廢可以保存在籃資源庫中。倍資源庫可以極是各種常見嶼的數(shù)據(jù)庫,湊用戶通過用灑戶名嘆/尾密碼來訪問冠資源庫中的粥資源,默認顧的用戶名公/盤密碼是插admin祝/admi燭n顧資源庫并不柔是必須的,織如果沒有資弱源庫,用戶畜還可以把轉(zhuǎn)三換任務(wù)保存條在勁xml續(xù)文件中。闊如果用戶需捧要創(chuàng)建一個裳資源庫,在才資源庫的登姐錄窗口(P禽DI燥啟動時的第賄一個窗口)懶中有隆左【新建】簽漲按鈕,點擊頂該按鈕彈出熱新建資源庫決窗口,煉在該窗口中碌選擇一個數(shù)睛據(jù)庫連接,羽如果沒有事殊先定義的數(shù)攪據(jù)庫連接,寶則還要點擊個【新建】按覺鈕,來創(chuàng)建剖一個數(shù)據(jù)庫送連接。選擇玻數(shù)據(jù)庫連接煮后,要為該五資源庫命名效,作為這個近資源庫的唯披一標志,設(shè)最后選擇【泥創(chuàng)建或更新伏】按鈕來創(chuàng)場建這個資源熔庫。彎資源庫可以束使多用戶共跨享轉(zhuǎn)換任務(wù)到,轉(zhuǎn)換任務(wù)掠在資源庫中袖是以文件夾傾形式分組管泛理的,用戶飯可以自定義趴文件夾名稱嘴。澆如何使用k敞ettle淚讀取包含多規(guī)行表的Ex女cel文件仿如果Ex宋cel工頁作表的表頭捏只有一行,眠使用Ke趣ttle撤讀取這樣的芝文件是很容榮易的.眼如果Ex磨cel工求作表的表頭殿是多行的,敘或者是分警級的就需要鼠在內(nèi)容標簽決下正確設(shè)置面列名所占行企數(shù)才可以讀番取.炭考慮這樣的惕一個工作表挽如果想把里估面的衣12存列數(shù)據(jù)都讀講出來,就踏要考慮如何幕處理多級表儲頭.砍步驟設(shè)置的籌詳細描述:刮步驟一選燕擇文件名辯,現(xiàn)在文件妖或目錄里勞到所要添加械的exce踏l文檔,然孕后點擊,確耀定后,點擊軋,葵步驟二選胳擇要讀取的對工作表名稱妄和要讀取的墊內(nèi)容在工作模表里的起始沉位置,也鼻就是表頭開坊始的行號和杜列號(這黎里行號和列疲號是以0文開始的)悟步驟三設(shè)兼置要讀取的攔內(nèi)容的一些蓬屬性,這梯里要設(shè)置表聲頭的所占行罷數(shù)是叔4構(gòu)行.棗步驟四錯福誤處理,糟選擇如果有湖錯誤終止還西是繼續(xù),征錯誤信息保旱存的文件等乎.(圖略)寺步驟五選鉛擇字段,萬如果前面的仗三個步驟(賄不包括錯誤惹處理步驟)壩都設(shè)置正確墊,在這個轉(zhuǎn)頁面選擇常"獲取字段再"字段按雨鈕,就會腹獲得所有的馳列名稱和數(shù)懂據(jù)類型.鴿這里我們可漠以看到:交多級表頭中細各級表頭的命名稱被疊加農(nóng)起來,形紛成了唯一的善列名.祖點擊[預享覽]按鈕偏可以預覽到羞數(shù)據(jù)汁對于表頭跨及連續(xù)的多行即,但不分用級的情況也仙可以使用上填述方式處理偷.鋪kettl腎e注釋:受kettl訂e的控制流蔑可以設(shè)置一遮些簡單的時解間,并且可魚以實現(xiàn)隔斷前天、周、月妙(三個只能紹選一個,不涂能選那個月脖的那周那日儉),但是k懸ettle創(chuàng)工具不能關(guān)殿,如果關(guān)了刻,必須重新毒啟動。太kettl茂e里面缺少原一個編輯的民字段的插件嗓,導致字段睛編輯很麻煩交,這只能先餓sql中進午行手寫,這寬個對誤寫講sql投的板要求很高筋。箏一個ket千tle字段穿轉(zhuǎn)換(截取叔)的例子奏大致的流程鑒是:壇表輸入還是殘正常的sq錘l查詢,沒劍有添加參數(shù)貪。磁字段轉(zhuǎn)換(裝截?。┦窃谶w進行修改。碰具體樣式如定下:升具體的用法名:嫂trans愛form類Funct渾ions雷里面包括了蓋字符、數(shù)字腰的一些函數(shù)秘方法,這些有函數(shù)方法可越以解決一些異字段需要轉(zhuǎn)蔑化的問題。撤Input關(guān)fiel務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程單位租車合同范例
- 重塑孤殘兒童庇護之路
- 液壓新篇:挑戰(zhàn)與超越
- 姑蘇區(qū)物業(yè)管理合同范例
- 中醫(yī)培訓合作合同范例
- 平臺服務(wù)抽合同范例
- 工程居間付款合同模板
- 工業(yè)廠房干貨合同范例
- 婚慶店轉(zhuǎn)讓合同范例
- 加盟餐飲商務(wù)合同范例
- 薄荷的栽培技術(shù)
- 小學生化解沖突心理解康主題班會如何積極的處理沖突 課件
- 副食品、蔬菜、水果、肉類配送項目(完整版)投標文件
- 《魯迅的簡介》課件
- 新大氣污染防治法培訓課件
- 病理學:結(jié)核病
- 部編版三年級上冊道德與法治第一單元《快樂學習》知識要點歸納
- 浙江省金華市2022-2023學年六年級上學期期中科學試卷
- 剪刀式登高車施工方案
- TDS3000基本操作TDS3000基本操作
- 教師資格證必背時政類教育熱點
評論
0/150
提交評論