![Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/2/7c26a223-bc50-4297-87d3-01d2a0d5bf1d/7c26a223-bc50-4297-87d3-01d2a0d5bf1d1.gif)
![Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/2/7c26a223-bc50-4297-87d3-01d2a0d5bf1d/7c26a223-bc50-4297-87d3-01d2a0d5bf1d2.gif)
![Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/2/7c26a223-bc50-4297-87d3-01d2a0d5bf1d/7c26a223-bc50-4297-87d3-01d2a0d5bf1d3.gif)
![Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/2/7c26a223-bc50-4297-87d3-01d2a0d5bf1d/7c26a223-bc50-4297-87d3-01d2a0d5bf1d4.gif)
![Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/2/7c26a223-bc50-4297-87d3-01d2a0d5bf1d/7c26a223-bc50-4297-87d3-01d2a0d5bf1d5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.Hadoop 進(jìn)行分布式數(shù)據(jù)處理,第 2 部分 進(jìn)Hadoop分布式計(jì)算架構(gòu)的真正實(shí)力在于其分布性。換句話說(shuō),向工作并行分布多個(gè)節(jié)點(diǎn)的才能使Hadoop可以應(yīng)用于大型根底設(shè)施以及大量數(shù)據(jù)的處理。本文首先對(duì)一個(gè)分布式Hadoop架構(gòu)進(jìn)展分解,然后討論分布式配置和使用。分布式Hadoop架構(gòu)根據(jù)用Hadoop進(jìn)展分布式數(shù)據(jù)處理,第1部分:入門(mén),所有Hadoop守護(hù)進(jìn)程都在同一個(gè)主機(jī)上運(yùn)行。盡管不運(yùn)用Hadoop的并行性,這個(gè)偽分布式配置提供一種簡(jiǎn)單的方式來(lái)以最少的設(shè)置測(cè)試Hadoop的功能。如今,讓我們使用機(jī)器集群討論一下Hadoop的并行性。根據(jù)第1部分,Hadoop配置定義了讓所有Hadoo
2、p守護(hù)進(jìn)程在一個(gè)節(jié)點(diǎn)上運(yùn)行。因此,讓我們首先看一下如何自然分布Hadoop來(lái)執(zhí)行并行操作。在一個(gè)分布式Hadoop設(shè)置中,您有一個(gè)主節(jié)點(diǎn)和一些從節(jié)點(diǎn)見(jiàn)圖1。圖1.Hadoop主從節(jié)點(diǎn)分解如圖1所示,主節(jié)點(diǎn)包括名稱節(jié)點(diǎn)、附屬名稱節(jié)點(diǎn)和jobtracker守護(hù)進(jìn)程即所謂的主守護(hù)進(jìn)程。此外,這是您為本演示管理集群所用的節(jié)點(diǎn)使用Hadoop實(shí)用程序和閱讀器。從節(jié)點(diǎn)包括tasktracker和數(shù)據(jù)節(jié)點(diǎn)附屬守護(hù)進(jìn)程。兩種設(shè)置的不同之處在于,主節(jié)點(diǎn)包括提供Hadoop集群管理和協(xié)調(diào)的守護(hù)進(jìn)程,而從節(jié)點(diǎn)包括實(shí)現(xiàn)Hadoop文件系統(tǒng)HDFS存儲(chǔ)功能和MapReduce功能數(shù)據(jù)處理功能的守護(hù)進(jìn)程。對(duì)于該演示,在一
3、個(gè)LAN上創(chuàng)立一個(gè)主節(jié)點(diǎn)和兩個(gè)從節(jié)點(diǎn)。設(shè)置如圖2所示。如今,我們來(lái)討論用于多節(jié)點(diǎn)分布的Hadoop的安裝和配置。圖2.Hadoop集群配置為簡(jiǎn)化部署,要運(yùn)用虛擬化技術(shù),該技術(shù)有幾個(gè)好處。盡管在該設(shè)置中使用虛擬化技術(shù)看不出性能優(yōu)勢(shì),但是它可以創(chuàng)立一個(gè)Hadoop安裝,然后為其他節(jié)點(diǎn)克隆該安裝。為此,您的Hadoop集群應(yīng)顯示如下:在一個(gè)主機(jī)上的虛擬機(jī)監(jiān)控程序上下文中將主從節(jié)點(diǎn)作為虛擬機(jī)VM運(yùn)行見(jiàn)圖3。圖3.虛擬環(huán)境中的Hadoop集群配置回頁(yè)首晉級(jí)Hadoop在用Hadoop進(jìn)展分布式數(shù)據(jù)處理,第1部分:入門(mén)中,我們安裝了在一個(gè)節(jié)點(diǎn)上運(yùn)行的Hadoop的一個(gè)特殊分布偽配置。在本文中,我們要更新分
4、布式配置。假設(shè)您沒(méi)有看過(guò)本系列的第1部分,那么請(qǐng)閱讀第1部分,理解如何首先安裝Hadoop偽配置。在偽配置中,您沒(méi)有進(jìn)展任何配置,因?yàn)閱蝹€(gè)節(jié)點(diǎn)已經(jīng)過(guò)預(yù)先配置。如今,您需要更新配置。首先,使用update-alternatives命令檢查當(dāng)前配置,如清單1所示。該命令告訴您,配置在使用conf.pseudo最高優(yōu)先級(jí)。清單1.檢查當(dāng)前Hadoop配置$update-alternatives-display hadoop-0.20-conf hadoop-0.20-conf-status is auto.link currently points to/etc/hadoop-0.20/conf.p
5、seudo/etc/hadoop-0.20/conf.empty-priority 10/etc/hadoop-0.20/conf.pseudo-priority 30 Currentbest'version is/etc/hadoop-0.20/conf.pseudo.$下一步,通過(guò)復(fù)制現(xiàn)有配置本例中為conf.empty,如清單1所示創(chuàng)立一個(gè)新配置:$sudo cp-r/etc/hadoop-0.20/conf.empty/etc/hadoop-0.20/conf.dist$最后,激活并檢查新配置:清單2.激活并檢查Hadoop配置$sudo update-alternatives
6、-install/etc/hadoop-0.20/conf hadoop-0.20-conf/etc/hadoop-0.20/conf.dist 40$update-alternatives-display hadoop-0.20-conf hadoop-0.20-conf-status is auto.link currently points to/etc/hadoop-0.20/conf.dist/etc/hadoop-0.20/conf.empty-priority 10/etc/hadoop-0.20/conf.pseudo-priority 30/etc/hadoop-0.20/c
7、onf.dist-priority 40 Currentbest'version is/etc/hadoop-0.20/conf.dist.$如今,您有一個(gè)名為conf.dist的新配置,您要將其用于您的新分布式配置。此時(shí)該節(jié)點(diǎn)運(yùn)行于一個(gè)虛擬環(huán)境中,將該節(jié)點(diǎn)克隆到另外兩個(gè)要充當(dāng)數(shù)據(jù)節(jié)點(diǎn)的節(jié)點(diǎn)中?;仨?yè)首配置Hadoop以實(shí)現(xiàn)分布式操作下一步是要使所有節(jié)點(diǎn)互聯(lián)互通。這可以/etc/hadoop-0.20/conf.dist/中的兩個(gè)名為masters和slaves的文件中實(shí)現(xiàn)。本例中的三個(gè)節(jié)點(diǎn)的IP地址是靜態(tài)分配的,如清單3所示來(lái)自/etc/hosts:清單3.該設(shè)置的Hadoop節(jié)點(diǎn)/e
8、tc/hostsmaster 33 slave1 34 slave2 35因此,在主節(jié)點(diǎn)上,更新/etc/hadoop-0.20/conf.dist/masters來(lái)確定主節(jié)點(diǎn),如下所示:master然后在/etc/hadoop-0.20/conf.dist/slaves中確定從節(jié)點(diǎn),其中包括以下兩行:slave1 slave2接下來(lái),從每個(gè)節(jié)點(diǎn)上,將Secure Shellssh連接到所有其他節(jié)點(diǎn),確保pass-phraseless ssh在運(yùn)行。所有這些文件masters,slaves都由本系列第1部分中使用過(guò)的
9、Hadoop啟動(dòng)和停頓工具使用。下一步,在/etc/hadoop-0.20/conf.dist子目錄中繼續(xù)進(jìn)展Hadoop配置。以下變更需要應(yīng)用于所有節(jié)點(diǎn)主節(jié)點(diǎn)和從節(jié)點(diǎn),如同Hadoop文檔中所定義的。首先,在core-site.xml文件清單4中確定HDFS主節(jié)點(diǎn),它定義名稱節(jié)點(diǎn)的主機(jī)和端口注意主節(jié)點(diǎn)的IP地址的使用。core-site.xml文件定義Hadoop的核心屬性。清單4.在core-site.xml中定義HDFS主節(jié)點(diǎn)configuration property name name value hdfs:/master:54310 value de
10、scription The name and URI of the default FS./description property configuration下一步,確認(rèn)MapReduce jobtracker。jobtracker位于其自己的節(jié)點(diǎn)上,但對(duì)于本配置,將其放在主節(jié)點(diǎn)上,如清單5所示。mapred-site.xml文件包含MapReduce屬性。清單5.在mapred-site.xml中定義MapReduce jobtracker configuration property name mapred.job.tracker name value master:54311 valu
11、e description Map Reduce jobtracker description property configuration最后,定義默認(rèn)復(fù)制因子清單6。該值定義將創(chuàng)立的副本數(shù),一般小于3。在本例中,將其定義為2數(shù)據(jù)節(jié)點(diǎn)的數(shù)量。該值在包含HDFS屬性的hdfs-site.xml中定義。清單6.在hdfs-site.xml中定義默認(rèn)數(shù)據(jù)副本configuration property name dfs.replication name value 2value description Default block replication description property c
12、onfiguration配置項(xiàng)如清單4所示,分布式設(shè)置所需的元素見(jiàn)清單5和清單6。Hadoop在這里提供大量配置選項(xiàng),支持您按需定制整個(gè)環(huán)境。參考資料部分含有關(guān)于這些選項(xiàng)的更多信息。完成配置之后,下一步是要格式化名稱節(jié)點(diǎn)HDFS主節(jié)點(diǎn)。對(duì)于該操作,使用hadoop-0.20實(shí)用程序指定名稱節(jié)點(diǎn)和操作-format:清單7.格式化名稱節(jié)點(diǎn)usermaster:#sudo su-rootmaster:#hadoop-0.20 namenode-format 10/05/11 18:39:58 INFO namenode.NameNode:STARTUP_MSG:/*STARTUP_MSG:Star
13、ting NameNode STARTUP_MSG:host=master/ STARTUP_MSG:args=-formatSTARTUP_MSG:version=0.20.2+228 STARTUP_MSG:build=-r cfc3233ece0769b11af9add 328261295aaf4d1ad;*/10/05/11 18:39:59 INFO namenode.FSNamesystem:fsOwner=root,root 10/05/11 18:39:59 INFO namenode.FSNamesystem:supergroup=supergroup 10
14、/05/11 18:39:59 INFO namenode.FSNamesystem:isPermissionEnabled=true 10/05/11 18:39:59 INFO common.Storage:Image file of size 94 saved in 0seconds.10/05/11 18:39:59 INFO common.Storage:Storage directory/tmp/hadoop-root/dfs/name has been successfully formatted.10/05/11 18:39:59 INFO namenode.NameNode:
15、SHUTDOWN_MSG:/*SHUTDOWN_MSG:Shutting down NameNode at master/*/rootmaster:#格式化名稱節(jié)點(diǎn)之后,就可以啟動(dòng)Hadoop守護(hù)進(jìn)程了??梢詫?duì)第1部分中的偽分布式配置執(zhí)行同樣的操作,但進(jìn)程為分布式配置完成同樣的工作。注意,這里的代碼啟動(dòng)名稱節(jié)點(diǎn)和附屬名稱節(jié)點(diǎn)正如jps命令所指示:清單8.啟動(dòng)名稱節(jié)點(diǎn)rootmaster:#/usr/lib/hadoop-0.20/bin/start-dfs.sh starting namenode,logging to/usr/lib/hadoop-0.20/bin/./lo
16、gs/hadoop-root-namenode-mtj-desktop.out 35:starting datanode,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-datanode-mtj-desktop.out 34:starting datanode,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-datanode-mtj-desktop.out 33:starting secondary
17、namenode,logging to/usr/lib/hadoop-0.20/logs/hadoop-root-secondarynamenode-mtj-desktop.out rootmaster:#jps 7367 NameNode 7618 Jps 7522 SecondaryNameNode rootmaster:#如今,假設(shè)使用jps節(jié)點(diǎn)檢測(cè)其中一個(gè)從節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn),您會(huì)看到每個(gè)節(jié)點(diǎn)上都有一個(gè)數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程:清單9.檢測(cè)其中一個(gè)從節(jié)點(diǎn)上的數(shù)據(jù)節(jié)點(diǎn)rootslave1:#jps 10562 Jps 10451 DataNode rootslave1:#下一步是要啟動(dòng)MapReduc
18、e守護(hù)進(jìn)程jobtracker和tasktracker。如清單10所示執(zhí)行該操作。注意,腳本啟動(dòng)主節(jié)點(diǎn)上的jobtracker正如配置所定義的;參見(jiàn)清單5和每個(gè)從節(jié)點(diǎn)上的tasktrackers。主節(jié)點(diǎn)上的一個(gè)jps命令顯示jobtracker正在運(yùn)行。清單10.啟動(dòng)MapReduce守護(hù)進(jìn)程rootmaster:#/usr/lib/hadoop-0.20/bin/start-mapred.sh starting jobtracker,logging to/usr/lib/hadoop-0.20/logs/hadoop-root-jobtracker-mtj-desktop.out 192.1
19、68.108.134:starting tasktracker,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-tasktracker-mtj-desktop.out 35:starting tasktracker,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-tasktracker-mtj-desktop.out rootmaster:#jps 7367 NameNode 7842 JobTracker 7938 Jps 7522 Seconda
20、ryNameNode rootmaster:#最后,使用jps檢查一個(gè)從節(jié)點(diǎn)。這里您可以看到,一個(gè)tasktracker守護(hù)進(jìn)程將數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程聯(lián)接到每個(gè)從數(shù)據(jù)節(jié)點(diǎn)上:清單11.檢測(cè)其中一個(gè)從節(jié)點(diǎn)上的數(shù)據(jù)節(jié)點(diǎn)rootslave1:#jps 7785 DataNode 8114 Jps 7991 TaskTracker rootslave1:#啟動(dòng)腳本、節(jié)點(diǎn)和啟動(dòng)的守護(hù)進(jìn)程之間的關(guān)系如圖4所示。如您所見(jiàn),start-dfs腳本啟動(dòng)名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn),而start-mapred腳本啟動(dòng)jobtracker和tasktrackers。圖4.每個(gè)節(jié)點(diǎn)的啟動(dòng)腳本和守護(hù)進(jìn)程的關(guān)系回頁(yè)首測(cè)試HDFS既然H
21、adoop已經(jīng)開(kāi)場(chǎng)在整個(gè)集群中運(yùn)行了,您可以運(yùn)行一些測(cè)試來(lái)確保其正常運(yùn)作見(jiàn)清單12。首先,通過(guò)hadoop-0.20實(shí)用程序發(fā)出一個(gè)文件系統(tǒng)命令fs,并懇求一個(gè)dfdisk free操作。與在Linux®;中一樣,該命令僅確定特定設(shè)備的已用空間和可用空間。因此,對(duì)于新格式化的文件系統(tǒng),就沒(méi)有已用空間。下一步,在HDFS的根上執(zhí)行一個(gè)ls操作,創(chuàng)立一個(gè)子目錄,列出其內(nèi)容,并刪除它。最后,在hadoop-0.20實(shí)用程序內(nèi),您可以使用fsck命令在HDFS上執(zhí)行一個(gè)fsck文件系統(tǒng)檢查。這一切-以及各種其他信息比方檢測(cè)到兩個(gè)數(shù)據(jù)節(jié)點(diǎn)-都告訴您文件系統(tǒng)是正常的。清單12.檢查HDFS
22、 rootmaster:#hadoop-0.20 fs-df File system Size Used Avail Use%/16078839808 73728 3490967552 0%rootmaster:#hadoop-0.20 fs-ls/Found 1items drwxr-xr-x-root supergroup 02020-05-12 12:16/tmp rootmaster:#hadoop-0.20 fs-mkdir test rootmaster:#hadoop-0.20 fs-ls test rootmaster:#hadoop-0.20 fs-rmr test Dele
23、ted hdfs:/33:54310/user/root/test rootmaster:#hadoop-0.20 fsck/.Status:HEALTHY Total size:4 BTotal dirs:6 Total files:1 Total blocksvalidated:1avg.block size 4BMinimally replicated blocks:1100.0%Over-replicated blocks:00.0%Under-replicated blocks:00.0%Mis-replicated blocks:00.0%Default
24、replication factor:2 Average block replication:2.0 Corrupt blocks:0 Missing replicas:00.0%Number of data-nodes:2 Number of racks:1 The filesystem under path'/'is HEALTHY rootmaster:#回頁(yè)首執(zhí)行一個(gè)MapReduce作業(yè)下一步是執(zhí)行一個(gè)MapReduce作業(yè),以驗(yàn)證整個(gè)設(shè)置運(yùn)作正常見(jiàn)清單13。該進(jìn)程的第一步是要引入一些數(shù)據(jù)。因此,首先創(chuàng)立一個(gè)目錄來(lái)包容您的輸入數(shù)據(jù)稱為input,創(chuàng)立方式是使用hado
25、op-0.20實(shí)用程序的mkdir命令。然后,使用hadoop-0.20的put命令將兩個(gè)文件放到HDFS中。您可以使用Hadoop實(shí)用程序的ls命令檢查輸入目錄的內(nèi)容。清單13.生成輸入數(shù)據(jù)rootmaster:#hadoop-0.20 fs-mkdir input rootmaster:#hadoop-0.20 fs-put/usr/src/linux-source-2.6.27/Doc*/memory-barriers.txt input rootmaster:#hadoop-0.20 fs-put/usr/src/linux-source-2.6.27/Doc*/rt-mutex-de
26、sign.txt input rootmaster:#hadoop-0.20 fs-ls input Found 2items-rw-r-r-2 root supergroup 78031 2020-05-12 14:16/user/root/input/memory-barriers.txt-rw-r-r-2 root supergroup 33567 2020-05-12 14:16/user/root/input/rt-mutex-design.txt rootmaster:#下一步,啟動(dòng)wordcount MapReduce作業(yè)。與在偽分布式模型中一樣,指定輸入子目錄包含輸入文件和輸出
27、目錄不存在,但會(huì)由名稱節(jié)點(diǎn)創(chuàng)立并用結(jié)果數(shù)據(jù)填充:清單14.在集群上運(yùn)行MapReduce wordcount作業(yè)rootmaster:#hadoop-0.20 jar/usr/lib/hadoop-0.20/hadoop-0.20.2+228-examples.jar wordcount input output 10/05/12 19:04:37 INFO input.FileInputFormat:Total input paths to process:2 10/05/12 19:04:38 INFO mapred.JobClient:Running job:job_ 202005121
28、900_0001 10/05/12 19:04:39 INFO mapred.JobClient:map 0%reduce 0%10/05/12 19:04:59 INFO mapred.JobClient:map 50%reduce 0%10/05/12 19:05:08 INFO mapred.JobClient:map 100%reduce 16%10/05/12 19:05:17 INFO mapred.JobClient:map 100%reduce 100%10/05/12 19:05:19 INFO mapred.JobClient:Job complete:job_ 20200
29、5121900_0001 10/05/12 19:05:19 INFO mapred.JobClient:Counters:17 10/05/12 19:05:19 INFO mapred.JobClient:Job Counters 10/05/12 19:05:19 INFO mapred.JobClient:Launched reduce tasks=1 10/05/12 19:05:19 INFO mapred.JobClient:Launched map tasks=2 10/05/12 19:05:19 INFO mapred.JobClient:Data-local map ta
30、sks=2 10/05/12 19:05:19 INFO mapred.Job Client:FileSystemCounters 10/05/12 19:05:19 INFO mapred.JobClient:FILE_BYTES_READ=47556 10/05/12 19:05:19 INFO mapred.JobClient:HDFS_BYTES_READ=111598 10/05/12 19:05:19 INFO mapred.JobClient:FILE_BYTES_WRITTEN=95182 10/05/12 19:05:19 INFO mapred.JobClient:HDFS
31、_BYTES_WRITTEN=30949 10/05/12 19:05:19 INFO mapred.JobClient:Map-Reduce Framework 10/05/12 19:05:19 INFO mapred.JobClient:Reduce input groups=2974 10/05/12 19:05:19 INFO mapred.JobClient:Combine output records=3381 10/05/12 19:05:19 INFO mapred.JobClient:Map input records=2937 10/05/12 19:05:19 INFO
32、 mapred.JobClient:Reduce shuffle bytes=47562 10/05/12 19:05:19 INFO mapred.JobClient:Reduce output records=2974 10/05/12 19:05:19 INFO mapred.JobClient:Spilled Records=6762 10/05/12 19:05:19 INFO mapred.JobClient:Map output bytes=168718 10/05/12 19:05:19 INFO mapred.JobClient:Combine input records=1
33、7457 10/05/12 19:05:19 INFO mapred.JobClient:Map output records=17457 10/05/12 19:05:19 INFO mapred.JobClient:Reduce input records=33 81 rootmaster:#最后一步是探究輸出數(shù)據(jù)。由于您運(yùn)行了wordcount MapReduce作業(yè),結(jié)果是一個(gè)文件從已處理映射文件縮減而來(lái)。該文件包含一個(gè)元組列表,表示輸入文件中找到的單詞和它們?cè)谒休斎胛募谐霈F(xiàn)的次數(shù):清單15.檢測(cè)MapReduce作業(yè)的輸出rootmaster:#hadoop-0.20 fs-ls
34、 output Found 2items drwxr-xr-x-root supergroup 02020-05-12 19:04/user/root/output/_logs-rw-r-r-2 root supergroup 30949 2020-05-12 19:05/user/root/output/part-r-00000 rootmaster:#hadoop-0.20 fs-cat output/part-r-00000|head-13!=1"Atomic 2"Cache 2"Control 1"Examples 1"Has 7&qu
35、ot;Inter-CPU 1"LOAD 1"LOCK"1"Locking 1"Locks 1"MMIO 1"Pending 5rootmaster:#回頁(yè)首Web管理界面盡管hadoop-0.20實(shí)用程序的功能極其豐富,但有時(shí)使用一個(gè)GUI會(huì)更方便。在執(zhí)行文件系統(tǒng)檢測(cè)時(shí),您可以通過(guò)鏈接到名稱節(jié)點(diǎn),通過(guò)連接到j(luò)obtracker。您可以通過(guò)名稱節(jié)點(diǎn)檢測(cè)HDFS,如圖5所示,在這里您檢測(cè)輸入目錄包含輸入數(shù)據(jù)-見(jiàn)上面清單13。圖5.通過(guò)名稱節(jié)點(diǎn)檢測(cè)HDFS通過(guò)jobtracker,您可以檢測(cè)運(yùn)行中或已完成的作業(yè)。在圖6中,您可以看
36、到對(duì)最后一個(gè)作業(yè)的檢測(cè)來(lái)自清單14。該圖展示了作為Java存檔JAR懇求的輸出發(fā)出的各種數(shù)據(jù),以及任務(wù)的狀態(tài)和數(shù)量。注意,這里執(zhí)行了兩個(gè)映射任務(wù)每個(gè)輸入文件一個(gè)映射和一個(gè)縮減任務(wù)用于縮減兩個(gè)映射輸入。圖6.檢查一個(gè)已完成作業(yè)的狀態(tài)最后,您可以通過(guò)名稱節(jié)點(diǎn)檢查數(shù)據(jù)節(jié)點(diǎn)的狀態(tài)。名稱節(jié)點(diǎn)主頁(yè)確定活動(dòng)節(jié)點(diǎn)和死節(jié)點(diǎn)作為鏈接的數(shù)量,且允許您進(jìn)一步檢測(cè)它們。圖7所示的頁(yè)面顯示了活動(dòng)數(shù)據(jù)節(jié)點(diǎn)以及每個(gè)節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)。圖7.檢查活動(dòng)數(shù)據(jù)節(jié)點(diǎn)的狀態(tài)通過(guò)名稱節(jié)點(diǎn)和jobtracker Web界面,可以查看許多其他視圖,但出于簡(jiǎn)潔,只顯示該樣例集。在名稱節(jié)點(diǎn)和jobtracker Web頁(yè)面內(nèi),您會(huì)找到大量鏈接,從而引
37、導(dǎo)您獲取有關(guān)Hadoop配置和操作的其他信息包括運(yùn)行時(shí)日志?;仨?yè)首更進(jìn)一步在本期中,您理解了如何將一個(gè)偽分布式配置從Cloudera轉(zhuǎn)化為一個(gè)完全分布式配置。寥寥無(wú)幾的步驟以及MapReduce應(yīng)用程序的一個(gè)一樣接口,就使Hadoop成為一個(gè)能實(shí)現(xiàn)分布式處理的有用工具。另一個(gè)有趣的部分就是Hadoop的可伸縮性討論。通過(guò)添加新數(shù)據(jù)節(jié)點(diǎn)并更新其XML文件和master中的slave文件,您可以輕松伸縮Hadoop來(lái)進(jìn)展更高級(jí)別的平行處理。第3部分,也就是本Hadoop系列的最后一期,將討論如何為Hadoop開(kāi)發(fā)一個(gè)MapReduce應(yīng)用程序。參考資料學(xué)習(xí)本系列的第1部分,用Hadoop進(jìn)展分布式數(shù)據(jù)處理,第1部分:入門(mén)developerWorks,2020年5月向您展示了如何為實(shí)現(xiàn)偽分布式配置而安裝Hadoop即在一個(gè)節(jié)點(diǎn)上運(yùn)行
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工廠商業(yè)技術(shù)保密協(xié)議書(shū)
- 光伏項(xiàng)目EC總承包合同范本
- 農(nóng)機(jī)具租賃合同范本
- 地磚墻磚鋪貼勞務(wù)分包合同范本
- 防水專業(yè)分包合同范本
- 專利轉(zhuǎn)讓合同模板
- 2025年度進(jìn)出口報(bào)關(guān)代理開(kāi)具增值稅發(fā)票服務(wù)合作協(xié)議
- 新風(fēng)系統(tǒng)安裝合同詳細(xì)
- 污水廠運(yùn)營(yíng)托管服務(wù)合同
- 家居飾品物流居間合同
- (完整)讀歌詞猜歌名
- 八年級(jí)下開(kāi)學(xué)第一課主題班會(huì)
- 初中英語(yǔ)人教版 八年級(jí)上冊(cè) 單詞默寫(xiě)表 漢譯英
- pcs-9611d-x說(shuō)明書(shū)國(guó)內(nèi)中文標(biāo)準(zhǔn)版
- GB/T 1634.1-2004塑料負(fù)荷變形溫度的測(cè)定第1部分:通用試驗(yàn)方法
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter4 Stacks and Queues
- 無(wú)人機(jī)航拍技術(shù)理論考核試題題庫(kù)及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
- 工藝評(píng)審報(bào)告
評(píng)論
0/150
提交評(píng)論