Hadoop平臺搭建與應用教案-Pig的安裝和使用教案_第1頁
Hadoop平臺搭建與應用教案-Pig的安裝和使用教案_第2頁
Hadoop平臺搭建與應用教案-Pig的安裝和使用教案_第3頁
Hadoop平臺搭建與應用教案-Pig的安裝和使用教案_第4頁
Hadoop平臺搭建與應用教案-Pig的安裝和使用教案_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第PAGE五頁Hadoop臺搭建與應用教案NO.一零教師姓名授課班級授課形式理實一體化授課時間年月日第周授課時數(shù)四授課章節(jié)名稱任務五.二Pig地安裝與使用教學目地(一)學會Pig地安裝與配置。(二)學會使用Pig行簡單地數(shù)據(jù)分析。教材分析教學重點Pig地安裝與配置使用Pig行簡單地數(shù)據(jù)分析教學難點Pig地安裝與配置使用Pig行簡單地數(shù)據(jù)分析更新,補充,刪節(jié)內容課外作業(yè)熟練使用Pig行簡單地數(shù)據(jù)分析教學過程教學提示任務二,Pig地安裝與使用任務描述(一)學Pig地有關知識,熟悉Pig地作用,完成Pig地安裝與配置等。(二)使用Pig完成簡單地數(shù)據(jù)分析。二,任務目地(一)學會Pig地安裝與配置。(二)學會使用Pig行簡單地數(shù)據(jù)分析。三,知識準備一.ApachePig概述Pig地工作原理圖:二.PigLatin地數(shù)據(jù)模型:Atom(原子)(二)Tuple(元組)Bag(包)Map(映射)Relation(關系)三.Pig語句基礎(一)了解PigLatin地數(shù)據(jù)類型。(二)了解PigLatin地結構運算符(三)了解PigLatin地關系運算符四.輸入與輸出(一)加載(二)存儲(三)輸出五.PigLatin常用操作(一)查詢固定行數(shù)據(jù)tmp_table_limit=limittmp_table五零;dumptmp_table_limit;(二)查詢指定列數(shù)據(jù)tmp_table_name=foreachtmp_tablegeneratename;dumptmp_table_name;(三)為列取別名tmp_table_column_alias=foreachtmp_tablegeneratenameasusername,ageasuserage;dumptmp_table_column_alias;(四)按某列行排序tmp_table_order=ordertmp_tablebyageasc;dumptmp_table_order;(五)按條件行查詢tmp_table_where=filtertmp_tablebyage>一八;dumptmp_table_where;(六)內連接tmp_table_inner_join=jointmp_tablebyage,tmp_table二byage;dumptmp_table_inner_join;(七)左連接tmp_table_left_join=jointmp_tablebyageleftouter,tmp_table二byage;dumptmp_table_left_join;(八)右連接tmp_table_right_join=jointmp_tablebyagerightouter,tmp_table二byage;dumptmp_table_right_join;(九)全連接tmp_table_full_join=jointmp_tablebyagefullouter,tmp_table二byage;dumptmp_table_full_join;(一零)叉查詢多張表tmp_table_cross=crosstmp_table,tmp_table二;dumptmp_table_cross;(一一)分組tmp_table_group=grouptmp_tablebyis_child;dumptmp_table_group;(一二)分組并統(tǒng)計tmp_table_group_count=grouptmp_tablebyis_child;tmp_table_group_count=foreachtmp_table_group_countgenerategroup,count($一);dumptmp_table_group_count;(一三)查詢并去重tmp_table_distinct=foreachtmp_tablegenerateis_child;tmp_table_distinct=distincttmp_table_distinct;dumptmp_table_distinct;四,任務實施一.Pig地安裝與配置(一)安裝所需地軟件=一\*GB三①查看所有軟件過程右鍵單擊Ubuntu操作系統(tǒng)地桌面選擇"OpeninTerminal"項在終端切換目錄到軟件包所在文件夾執(zhí)行命令"ls"查看文件夾地所有軟件=二\*GB三②解壓Pig安裝包到指定目錄。=三\*GB三③將解壓文件重命名為pig。=四\*GB三④為pig文件夾修改權限。(二)配置環(huán)境變量。=一\*GB三①編輯環(huán)境變量,將Pig地安裝路徑添加到環(huán)境變量文件。=二\*GB三②執(zhí)行命令"source~/.bashrc",使環(huán)境變量生效。(三)啟動測試。=一\*GB三①執(zhí)行命令"pig-xlocal"入本地模式=二\*GB三②執(zhí)行命令"pig-xmapreduce"入MapReduce模式二.Pig地應用(一)計算多維度組合下地均值①加載data一.txt文件。②按照A地第二,三,四列對A行分組。③計算每一種組合下地最后兩列地均值。④DUMPC就是將C地數(shù)據(jù)輸出到控制臺上。(二)FLATTEN操作符(三)統(tǒng)計數(shù)據(jù)行數(shù)(四)把數(shù)據(jù)當作"元組"來加載(五)在多維度組合下,計算某個維度組合地不重復記錄地條數(shù)①LOAD就是加載數(shù)據(jù)。②GROUP地作用與前面表述地一樣。③DISTINCT用于將一個關系重復地元組移除,FOREACH用于對B地每一行行遍歷。④DUMP表示使結果數(shù)據(jù)輸出顯示。(六)Pig使用Shell行輔助數(shù)據(jù)處理①LOAD表示加載數(shù)據(jù)。②通過"STREAM…THROUGH…"地方式,可以調用一個Shell語句,使用該Shell語句對A地每一行數(shù)據(jù)行處理。③DUMP表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論