大數(shù)據(jù)平臺技術(shù)實(shí)例教程 課件 【ch05】Hadoop分布式計(jì)算模型_第1頁
大數(shù)據(jù)平臺技術(shù)實(shí)例教程 課件 【ch05】Hadoop分布式計(jì)算模型_第2頁
大數(shù)據(jù)平臺技術(shù)實(shí)例教程 課件 【ch05】Hadoop分布式計(jì)算模型_第3頁
大數(shù)據(jù)平臺技術(shù)實(shí)例教程 課件 【ch05】Hadoop分布式計(jì)算模型_第4頁
大數(shù)據(jù)平臺技術(shù)實(shí)例教程 課件 【ch05】Hadoop分布式計(jì)算模型_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Hadoop分布式計(jì)算模型“新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列大數(shù)據(jù)平臺技術(shù)實(shí)剛教程第五章01完全分布式環(huán)境配置表5-1中各進(jìn)程的作用如下所述。NameNodc:是HDFS的管理節(jié)點(diǎn),維護(hù)著整個(gè)系統(tǒng)的文件目錄樹及對應(yīng)的元信。DataNode:提供對數(shù)據(jù)或文件的存儲服務(wù)。SecondaryNameNode:定期備份fsimage,定期合并fsimage與editlogs。02完全分布式配置步驟(1)打開VMwareWorkStation軟件,依次導(dǎo)入ahut01、ahut02、ahot03、ahut04四個(gè)虛擬機(jī)。(2)集群IP地址的修改。①啟動(dòng)ahut01節(jié)點(diǎn),使用v編輯器打開/etc/sysconfig/network-scripts/ifcfg-eth0文件。②修改DEVICE為eth1,修改IPADDR=192.168.159.101,GATEWAY=192.168.159.2。③輸入servicenetworkrestart,保存并退出i編輯器,重啟網(wǎng)絡(luò)服務(wù)使配置生效。01虛擬機(jī)的導(dǎo)入(2)集群IP地址的修改。④輸入ifconfig,查看ahut01的IP地址,inetaddr顯示為剛才配置的可通信的IP地址,即為成功。⑤重復(fù)步驟Q~步驟@,在ahut02、ahut03、ahut04上修改對應(yīng)的PP地址,如果運(yùn)行截圖中的IP地址和表5-2中的不一樣,以表5-2為準(zhǔn)。(3)用MobaXterm軟件連接ahut01、ahut02、ahut03、ahut04,操作界面如圖5-3所示。(4)輸入date-s“2022-02-2222:22:22”,同步虛擬機(jī)時(shí)間(利用MobaXterm軟件工具欄的MultiExec功能,在任一臺虛擬機(jī)中輸入命令,其余三臺虛擬機(jī)可同步輸入相同的命令)。(5)輸入vi/etc/sysconfig/network,查看HOSTNAME的值是否與虛擬機(jī)主機(jī)名對應(yīng)若不同則需修正。(6)輸入vi/etc/hosts,修改每個(gè)虛擬機(jī)的hosts文件,在hosts文件末尾追加四臺虛擬機(jī)各自的IP地址。(7)輸入vi/etc/sysconfig/selinux,將SELINUX的值設(shè)置為disabled,修改Linux的權(quán)限管理機(jī)制。(8)為每個(gè)節(jié)點(diǎn)配置SSH免密登錄,以具體操作詳見3.6.2節(jié)。配置完畢后,分別在四臺虛擬機(jī)中運(yùn)行sshlocalhost命令,若不需要密碼則配置成功。(9)本集群以ahut01作為主節(jié)點(diǎn),以其余三個(gè)節(jié)點(diǎn)作為從節(jié)點(diǎn),為了命令的執(zhí)行更加方便快捷,需要使ahut1能夠免密登錄其余三個(gè)節(jié)點(diǎn)。(10)參考3.6.3節(jié),在ahut01、ahut02、ahut03及ahut04上配置好JDK。(11)參考3.6.4節(jié)中的步驟(1)~步(8),在ahut01配置好Hadoop的偽分布式。(12)Hadoop的分布式安裝不只是解壓縮文件、運(yùn)行啟動(dòng)命令這么簡單,還需要將虛擬機(jī)的相關(guān)信息寫入配置文件core-sitexml、hdfs-sitexmlslaves中,Hadoop才能正常啟動(dòng)。(13)在ahut01中將ahut目錄、profle文件分發(fā)給其余三個(gè)節(jié)點(diǎn)。(14)在四臺虛擬機(jī)中更新profile文件使其生效(可使用MultiExec功能)。(15)在ahut01節(jié)點(diǎn)對HDFS進(jìn)行格式化。(16)在保證前面的步驟沒有出錯(cuò)后,輸入start-dfs.sh,就可以啟動(dòng)Hadoop。(17)這時(shí)可以在四個(gè)虛擬機(jī)中使用ips命令查看該節(jié)點(diǎn)的進(jìn)程是否啟動(dòng)成功。(18)可能出現(xiàn)的問題及解決方法如下。問題:啟動(dòng)HDFS后,在ahut02、ahut03、ahut04中輸入ips都沒有DataNode進(jìn)程。解決方法:①刪除ahut02、ahut03、ahut04中所有的DataNode信息,重新格式化再啟動(dòng);②重復(fù)步驟(15),格式化后啟動(dòng)HDFS問題解決。(19)快照保存。03MapReduce計(jì)算模型(1)讀取輸入文件內(nèi)容,將輸入文件的每一行解析成一個(gè)元素;(2)執(zhí)行自己定義的函數(shù)邏輯,對輸入進(jìn)行處理,轉(zhuǎn)換成新的輸出;(3)對輸出內(nèi)容進(jìn)行分區(qū)(對應(yīng)不同的Reduce任務(wù)節(jié)點(diǎn));(4)對不同分區(qū)的數(shù)據(jù),按照key進(jìn)行排序、分組,相同key的value放到一個(gè)集合中;1.Map任務(wù)處理(5)(可選)對分組后的數(shù)據(jù)進(jìn)行歸約。(1)對多個(gè)Map任務(wù)的輸出,按照不同的分區(qū),通過網(wǎng)絡(luò)復(fù)制到不同的Reduce節(jié)點(diǎn);(2)對多個(gè)Map任務(wù)的輸出進(jìn)行合并、排序,根據(jù)自己定義的Reduce函數(shù)邏輯,對輸入進(jìn)行處理,轉(zhuǎn)換成新的輸出;(3)把Reduce的輸出保存到文件中。2.Reduce任務(wù)處理04Mapper-Reducer實(shí)例本節(jié)通過Mapper-Reducer來實(shí)現(xiàn)以下三項(xiàng)任務(wù),詳細(xì)介紹MapReduce基礎(chǔ)編程方法。(1)實(shí)現(xiàn)WordCount功能;(2)統(tǒng)計(jì)每門課程的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論