說(shuō)明共享hadoopDATAGURU專(zhuān)業(yè)_第1頁(yè)
說(shuō)明共享hadoopDATAGURU專(zhuān)業(yè)_第2頁(yè)
說(shuō)明共享hadoopDATAGURU專(zhuān)業(yè)_第3頁(yè)
說(shuō)明共享hadoopDATAGURU專(zhuān)業(yè)_第4頁(yè)
說(shuō)明共享hadoopDATAGURU專(zhuān)業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Hadoop數(shù)據(jù)分析平臺(tái) 第5周2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Hadoop API開(kāi)發(fā)步驟確定目標(biāo)開(kāi)發(fā)軟件使用Eclipse等工具測(cè)試結(jié)果2012.9.182DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Eclipse的Hadoop插件n 專(zhuān)門(mén)對(duì)于Hadoop的插件n 提供一個(gè)目錄樹(shù)用于管理HDFS文件系統(tǒng) 可以創(chuàng)建和刪除目錄 可以直接上傳文件而不需輸入命令n 提供良好的編程環(huán)境 自動(dòng)提示 能夠直接在Eclipse上測(cè)試程序而不需要輸入命令2012.9.183DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析安裝方法n 把Hadoop安裝目錄下的contrib/eclipse-plugin文件到eclipse安裝目錄

2、的plugins目錄下2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析安裝方法n 打開(kāi)Window->Preferencen 選擇Hadoop Map/Reduce選項(xiàng)Hadoop的安裝目錄2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析安裝方法n 在Window->Show View中打開(kāi)Map/Reduce Locations。n 在下方點(diǎn)選右鍵->New Hadoop Location隨意填和mapred-site.xml以及core-site.xml的內(nèi)容必須一致用戶名2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析安裝方法n 對(duì)著左邊的DFS Locations下面的主機(jī)

3、點(diǎn)選右鍵刷新安裝的話就可以看得到HDFS目錄樹(shù)n2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析上傳文件n 對(duì)左側(cè)的目錄樹(shù)中的目錄點(diǎn)選右鍵,選擇 update files to DFS,然后把上述路由日志文本上傳HDFSn 也可以采用傳統(tǒng)令行上傳方法2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析創(chuàng)建MapReduce Projectn 安裝插件之后,可以在New Project頁(yè)面建立M/R Project,便能自帶編程所需API2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)篩選程序n 任務(wù)要求:現(xiàn)有一批路由日志(有刪減),需要提取MAC地址和時(shí)間,刪去其他內(nèi)容時(shí)間MAC地址2012.9.1

4、8DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析數(shù)據(jù)篩選程序n 輸出結(jié)果如下圖所示,分別是時(shí)間和Mac地址2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析算法思路2012.9.1812DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Mapper源文件程序n MapReduce程序包括一個(gè)Map函數(shù),一個(gè)Reduce函數(shù),以及Main函數(shù)n Reduce函數(shù)是可選的,當(dāng)不指定Reduce的實(shí)現(xiàn)時(shí),系統(tǒng)自動(dòng)使用缺省的Reduce函數(shù)n 部分程序代碼不贅述,如以下CounterCounter即是一個(gè)計(jì)數(shù)器可以這個(gè)程序的一些數(shù)據(jù)用于統(tǒng)計(jì)2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Map函數(shù)源文件,line得到的就是輸入文件的一行數(shù)據(jù)對(duì)源數(shù)

5、據(jù)進(jìn)行分割和重組把兩個(gè)參數(shù)分別作為KEY和VALUE輸出如果發(fā)生異常,則指定計(jì)數(shù)器中的LINESKIP自增2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Map函數(shù)輸出KEY格式輸出VALUE格式輸入格式,必須上下一致輸出的KEY和VALUE必須與上述兩個(gè)格式一致2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Run方法n Run方法是運(yùn)行程序的一種實(shí)現(xiàn)n 在Run方法可以設(shè)定一些基本數(shù)據(jù),從而讓系統(tǒng)了解該如何運(yùn)行整個(gè)任務(wù)n 為了更好理解任務(wù),此Run方法在屏幕上輸出了一些基本信息2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Run方法必須是當(dāng)前所在的Class名必須與上一面的輸出格式一致任務(wù)名可

6、以隨意指定2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Main函數(shù)n 只需在Main函數(shù)調(diào)用Run方法,系統(tǒng)就會(huì)啟動(dòng)一個(gè)MapReduce任務(wù)2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析運(yùn)行程序輸入路徑輸出路徑分新建配置程序輸出即Counter.LINESKIP的計(jì)數(shù),也即出錯(cuò)行數(shù)2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析倒排索引n 任務(wù)要求現(xiàn)有一批通信,了用戶A撥打用戶B的撥打給用戶B的所有用戶A需要做一個(gè)倒排索引,2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析倒排索引n 任務(wù)輸出必須如下所示,主叫以|分割2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析算法思路2012.9.1823D

7、ATAGURU專(zhuān)業(yè)數(shù)據(jù)分析MapperReducer源文件帶有Reduce的任務(wù)n 示例程序1不帶Reduce任務(wù),系統(tǒng)自動(dòng)把Map函數(shù)的輸出的輸出格式必須與程序輸出格式一致到輸出文件,Map函數(shù)n 示例程序2帶有Reduce任務(wù),系統(tǒng)首先把Mapper的輸出中Key相同的部分都一個(gè)Reducer,然后再把Reduce函數(shù)的結(jié)果輸出,Map函數(shù)的輸出格式必須和Reduce函數(shù)的輸入格式一致到同2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Map函數(shù)n 此Map函數(shù)的主要作用是把兩個(gè)號(hào)碼分割,然后被叫作為Key,主叫作為Value輸出格式被叫主叫2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Reduce函數(shù)輸入格式必須與Map函數(shù)的輸出一致每一個(gè)Value代表Map函數(shù)的一個(gè)Value在這里代表?yè)艽蛄诉@個(gè)被叫號(hào)碼的一個(gè)主叫2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析Run方法指定Reduce2012.9.18DATAGURU專(zhuān)業(yè)數(shù)據(jù)分析程序的導(dǎo)出n 對(duì)Project點(diǎn)選右鍵 -> Export2012.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論