VM虛擬機(jī)CentOS下hadoop集群安裝過程

上傳人：建*** IP屬地：上海上傳時(shí)間：2022-01-31 格式：DOCX 頁數(shù)：5 大?。?8.67KB 積分：20 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、VM虛擬機(jī)CentOS下hadoop集群安裝過程hadoop俗稱分布式計(jì)算，最早作為一個(gè)開源項(xiàng)目，最初只是來源于谷歌的兩份白皮書。然而正如十年前的Linux一樣，雖然Hadoop最初十分簡(jiǎn)單，但隨著近些年來大數(shù)據(jù)的興起，其也獲得了一個(gè)充分體現(xiàn)價(jià)值的舞臺(tái)。這也正是業(yè)內(nèi)普遍將Hadoop看做是下一個(gè)Linux的原因。一基于vmware的hadoop環(huán)境簡(jiǎn)述本文介紹基于多臺(tái)vmware虛擬機(jī)來安裝hadoop集群的過程及方法，通過這個(gè)小的集群讓您在本地電腦上就可以研究hadoop的相關(guān)工作過程，有人會(huì)有疑問在小的虛擬機(jī)集群上研究的結(jié)果，寫的程序能否在大集群上工作正常？可以肯定的沒問題的。Hadoo

2、p的一個(gè)特性是線性增長(zhǎng)特性，即當(dāng)前數(shù)量情況下，處理時(shí)間是1，若是數(shù)據(jù)量加倍，后處理時(shí)間加倍，若是在這種情況下，處理能力也加倍則處理時(shí)間也是1.正常情況hadoop需要較多的服務(wù)器才能搭建，但是我們?cè)诩依飳W(xué)習(xí)如何去找那么服務(wù)器，解決辦法可以找?guī)着_(tái)pc機(jī)，在pc機(jī)上安裝linux系統(tǒng)就可以了。當(dāng)然我們還有更簡(jiǎn)單的辦法，就是找一臺(tái)高性能的電腦，在電腦上安裝虛擬機(jī)軟件，里面創(chuàng)建若干臺(tái)虛擬機(jī)，然后讓這些虛擬機(jī)構(gòu)成一個(gè)小的內(nèi)部局域網(wǎng)絡(luò)，在這個(gè)網(wǎng)絡(luò)上我們安裝linux軟件， java軟件，安裝hadoop程序，我們就可以創(chuàng)建一個(gè)簡(jiǎn)單hadoop的研究系統(tǒng)，進(jìn)行軟件的開發(fā)調(diào)試

3、，在這個(gè)小的分布式集群上開發(fā)的程序可以無縫移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特別是低版本同高版本，他們的api也有些許變化）集群中。如下是在筆者筆記本上構(gòu)建的一個(gè)hadoop的虛擬機(jī)系統(tǒng)，相關(guān)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下：虛擬機(jī)0，機(jī)器名稱：db， ip：192.16虛擬機(jī)1，機(jī)器名稱：red， ip：虛擬機(jī)2，機(jī)器名稱：mongdb， ip：虛擬機(jī)3，機(jī)器名稱：nginx，ip：如上圖， 4臺(tái)虛擬機(jī)通過一個(gè)虛擬的交換機(jī)互聯(lián)，開發(fā)機(jī)器也連接到這個(gè)虛擬交換機(jī)上，虛擬的交換機(jī)同adsl相連接，這樣整個(gè)系統(tǒng)都可以直接上網(wǎng)了。下面是幾個(gè)虛擬機(jī)的典型配置，如下：Db的配

4、置，如上，這個(gè)機(jī)器的內(nèi)存配置比較高，這個(gè)機(jī)器是機(jī)器的master服務(wù)器，需要較多的內(nèi)存。因此配置了1.3g內(nèi)存。下面是red的配置， mongdb及nginx的配置同這個(gè)機(jī)器配置相同，配置如下：這個(gè)機(jī)器的配置同db機(jī)器配置相同，僅僅是內(nèi)存小了些，這里內(nèi)存是188m，作為調(diào)試環(huán)境已經(jīng)足夠用了。二基于vmware虛擬機(jī)環(huán)境配置1. 網(wǎng)卡的Ip地址配置采用靜態(tài)ip配置方式，防止重新啟動(dòng)后dhcp分配新的ip后，造成不必要的混亂。配置如下：2. Hosts文件配置rootdb # cat /etc/hosts# Do not remove the following line, or

5、 various programs# that require network functionality will fail. localhost.localdomain localhost:1 localhost6.localdomain6 localhost619

6、0 db1 red2 mongdb3 nginx需要確保每一臺(tái)機(jī)器的 hosts文件配置如上圖所示。簡(jiǎn)便配置方法，在配置一臺(tái)機(jī)器后，可以編寫腳本實(shí)現(xiàn)自動(dòng)將hosts文件復(fù)制到多臺(tái)機(jī)器上。腳本如下：rootdb # cat update_hosts.sh #!/bin/shfor host in red mongdb nginx;do echo $host scp&

7、#160; /etc/hosts root$host:/etc/donerootdb # 主要這個(gè)腳本要在root下編寫，然后賦予可以執(zhí)行的權(quán)限（chmod a+x *.sh）, 然后在root權(quán)限下執(zhí)行。腳本會(huì)自動(dòng)完成hosts文件的復(fù)制工作。上面過程完成后，分別登錄每一臺(tái)機(jī)器，把每一個(gè)服務(wù)器都ping一下，若是不通，在仔細(xì)檢查一下。3. Java配置在每個(gè)虛擬機(jī)服務(wù)器上檢查是否正確安裝了java，是否配置了java的環(huán)境變量等如上圖， 1處輸入 java -version，然后應(yīng)該輸出類似2處的輸出，標(biāo)識(shí)java已經(jīng)正確安裝了同時(shí)采用3處的命令

8、， env | grep JAVA_HOME 來檢查環(huán)境變量是否正確配置了，若是沒有配置java的環(huán)境變量則需要進(jìn)行配置若是您java還有安裝請(qǐng) 用下面命令安裝然后用下面命令配置環(huán)境變量。vi /etc/profile打開編輯的文件后，在文件最后面添加如下內(nèi)容JRE_HOME=/usr/lib/jvm/PATH=$PATH:$JAVA_HOME/binCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JRE_HOME PATH CLASSPATH保存退出，最后運(yùn)行下

9、面命令，使配置生效source /etc/profile然后再次測(cè)試上面的過程，看看是否符合相關(guān)需要。如果您還沒做到到網(wǎng)絡(luò)搜索一下吧。4. ssh免登錄功能配置Hadoop通過ssh進(jìn)行相關(guān)管理工作，主要是hadoop的管理腳本通過ssh遠(yuǎn)程對(duì)各個(gè)服務(wù)器進(jìn)行相關(guān)的管理，包括啟動(dòng)，停止等。關(guān)于如何配置ssh的免密碼登錄，請(qǐng)參考下面文章的相關(guān)部分：Hadoop1.2.1 Pseudo-Distributed偽分布模式配置5. 關(guān)閉相關(guān)的防火墻Hadoop程序在工作過程中，各個(gè)節(jié)點(diǎn)間有很多程序要進(jìn)行通信，因此我們需要對(duì)防火墻做些處理，保證這些訪問能正常工作。我們這里采

10、用最簡(jiǎn)單的辦法是關(guān)閉研究用集群虛擬機(jī)的全部防火墻.在虛擬機(jī)中，啟動(dòng)setup程序選擇防火墻工作這一項(xiàng)在下面的對(duì)話框中，選擇如下特殊顏色的區(qū)域的相關(guān)選項(xiàng)，最后選擇ok推出6. 下載hadoop程序相關(guān)過程略。三配置hadoop分布式集群1. 在虛擬機(jī)db上下載hadoop程序，然后解壓縮到 /work/apps/hadoop目錄, 相信你會(huì)這個(gè)操作，不行百度一下啦。2. 配置hadoop的環(huán)境變量進(jìn)入conf目錄，編輯hadoop-env.sh 文件，修改java home的配置注意這個(gè)配置，要同前面配置java的時(shí)候配置相同。3. 創(chuàng)建目錄Name目錄存放namenode

11、的hdfs目錄及文件的元數(shù)據(jù)。Data目錄存放datanode的數(shù)據(jù)4. 配置core-site.xml 文件vi core-site.xml <?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property&

12、gt; <name>hadoop.tmp.dir</name> / 臨時(shí)文件目錄 <value>/work/apps/hadoop/tmp</value> <description>A base for other temporary directories.</description></propert

13、y><property> <name></name> / namenode的服務(wù)器的地址 <value>hdfs:/db:9000</value></property><property>erval</name

14、> / 回收站的文件間隔時(shí)間 <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description></property>&

15、lt;/configuration>如何確定這個(gè)文件有哪些配置可以填寫及相關(guān)含義？這個(gè)文件對(duì)應(yīng)一個(gè)默認(rèn)的配置文件，在：打開這個(gè)文件如下：文件可以配置項(xiàng)目含義都在文件中了，大家慢慢參考。注意不是在這個(gè)文件中配置的項(xiàng)目，若是寫在了這里了，對(duì)系統(tǒng)沒有任何作用，當(dāng)然配置也是無效的。5. 配置hdfs-site.xml 輸入下面命令vi hdfs-site.xml 注意上面的特別注意的區(qū)域相關(guān)配置。 <?xml version="1.0"?><?xml-stylesheet type="text/xsl&quo

16、t; href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property> <name>.dir</name> / namenode存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)的地方

17、; <value>/work/apps/hadoop/name</value> / 這里可以放多個(gè)文件的列表，用逗號(hào)分隔，系統(tǒng)會(huì)同步把數(shù)據(jù)寫到這些目錄中后，才返回確保元數(shù)據(jù)的安全。建議這些目錄在不同的物理磁盤，這樣可以提高系統(tǒng)的io性能。另外，最好能通過nfs等方式把數(shù)據(jù)寫到別的服務(wù)器一份或者若干份，這樣更會(huì)確保元數(shù)據(jù)完好無誤的被保留。</property><property>

18、; <name>dfs.data.dir</name> / datanode存放數(shù)據(jù)的地方 <value>/work/apps/hadoop/data</value> / 這里可以存放用逗號(hào)分隔的磁盤目錄列表，系統(tǒng)在存儲(chǔ)數(shù)據(jù)時(shí)會(huì)把不同的塊數(shù)據(jù)輪轉(zhuǎn)的方式分別放到不同目錄中。一般一個(gè)文件的塊1放到目錄A，塊2則放目錄b等等，這樣可以充分提高系統(tǒng)的性能。</property><propert

19、y> <name>dfs.replication</name> / 文件的副本個(gè)數(shù) <value>3</value></property></configuration>6. 配置mapred-site.xml 文件vi mapred-site.xml <?xml version="1.0"?

20、><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property> <name>mapred.job.tracker</name> / 設(shè)置job tracker <

21、value>db:9001</value></property></configuration>7. 配置masters和slaves 文件查看下面兩個(gè)文件的內(nèi)容，如下：masters文件中存放，secondary server的配置slaves中存放的是 datanode，tasktractor的服務(wù)器的列表這個(gè)兩個(gè)文件不需要分發(fā)給 slaves節(jié)點(diǎn)，但是我們這里簡(jiǎn)便處理，在腳本中沒有排除這些文件，可以通過一定的配置文件制定相關(guān)位置等。四測(cè)試hadoop系統(tǒng)1. 分發(fā)配置好的hadoop系統(tǒng)到各個(gè)服務(wù)器中創(chuàng)建如下腳本程序rootdb apps# vi scp_hadoop.sh 腳本內(nèi)容如下

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

VM虛擬機(jī)CentOS下hadoop集群安裝過程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

VM虛擬機(jī)CentOS下hadoop集群安裝過程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔