VM虛擬機(jī)CentOS下hadoop集群安裝過程_第1頁
VM虛擬機(jī)CentOS下hadoop集群安裝過程_第2頁
VM虛擬機(jī)CentOS下hadoop集群安裝過程_第3頁
VM虛擬機(jī)CentOS下hadoop集群安裝過程_第4頁
VM虛擬機(jī)CentOS下hadoop集群安裝過程_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、VM虛擬機(jī)CentOS下hadoop集群安裝過程hadoop俗稱分布式計(jì)算,最早作為一個(gè)開源項(xiàng)目,最初只是來源于谷歌的兩份白皮書。然而正如十年前的Linux一樣,雖然Hadoop最初十分簡(jiǎn)單,但隨著近些年來大數(shù)據(jù)的興起,其也獲得了一個(gè)充分體現(xiàn)價(jià)值的舞臺(tái)。這也正是業(yè)內(nèi)普遍將Hadoop看做是下一個(gè)Linux的原因。一基于vmware的hadoop環(huán)境簡(jiǎn)述本文介紹基于多臺(tái)vmware虛擬機(jī)來安裝hadoop集群的過程及方法,通過這個(gè)小的集群讓您在本地電腦上就可以研究hadoop的相關(guān)工作過程,有人會(huì)有疑問在小的虛擬機(jī)集群上研究的結(jié)果, 寫的程序能否在大集群上工作正常?可以肯定的沒問題的。Hadoo

2、p的一個(gè)特性是線性增長(zhǎng)特性,即當(dāng)前數(shù)量情況下,處理時(shí)間是1, 若是數(shù)據(jù)量加倍, 后處理時(shí)間加倍, 若是在這種情況下, 處理能力也加倍則處理時(shí)間也是1.正常情況hadoop需要較多的服務(wù)器才能搭建, 但是我們?cè)诩依飳W(xué)習(xí)如何去找那么服務(wù)器, 解決辦法可以找?guī)着_(tái)pc機(jī),在pc機(jī)上安裝linux系統(tǒng)就可以了。當(dāng)然我們還有更簡(jiǎn)單的辦法, 就是找一臺(tái)高性能的電腦, 在電腦上安裝虛擬機(jī)軟件,里面創(chuàng)建若干臺(tái)虛擬機(jī), 然后讓這些虛擬機(jī)構(gòu)成一個(gè)小的內(nèi)部局域網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)上我們安裝linux軟件, java軟 件, 安裝hadoop程序,我們就可以創(chuàng)建一個(gè)簡(jiǎn)單hadoop的研究系統(tǒng), 進(jìn)行軟件的開發(fā)調(diào)試

3、, 在這個(gè)小的分布式集群上開發(fā)的程序可以無縫移植到相同版本的hadoop(不同hadoop的版本兼容性不是很好, 特別是低版本同高版本, 他們的api也有些許變化)集群中。如下是在筆者筆記本上構(gòu)建的一個(gè)hadoop的虛擬機(jī)系統(tǒng), 相關(guān)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:虛擬機(jī)0,機(jī)器名稱:db, ip:192.16虛擬機(jī)1,機(jī)器名稱:red, ip:虛擬機(jī)2,機(jī)器名稱:mongdb, ip:虛擬機(jī)3,機(jī)器名稱:nginx,ip:如上圖, 4臺(tái)虛擬機(jī)通過一個(gè)虛擬的交換機(jī)互聯(lián), 開發(fā)機(jī)器也連接到這個(gè)虛擬交換機(jī)上, 虛擬的交換機(jī)同adsl相連接,這樣整個(gè)系統(tǒng)都可以直接上網(wǎng)了。下面是幾個(gè)虛擬機(jī)的典型配置,如下:Db的配

4、置,如上, 這個(gè)機(jī)器的內(nèi)存配置比較高, 這個(gè)機(jī)器是機(jī)器的master服務(wù)器, 需要較多的內(nèi)存。 因此配置了1.3g內(nèi)存。下面是red的配置, mongdb及nginx的配置同這個(gè)機(jī)器配置相同,配置如下:這個(gè)機(jī)器的配置同db機(jī)器配置相同, 僅僅是內(nèi)存小了些, 這里內(nèi)存是188m, 作為調(diào)試環(huán)境已經(jīng)足夠用了。二基于vmware虛擬機(jī)環(huán)境配置1. 網(wǎng)卡的Ip地址配置采用靜態(tài)ip配置方式, 防止重新啟動(dòng)后dhcp分配新的ip后,造成不必要的混亂。 配置如下:2. Hosts文件配置rootdb # cat /etc/hosts# Do not remove the following line, or

5、 various programs# that require network functionality will fail.               localhost.localdomain localhost:1             localhost6.localdomain6 localhost619

6、0  db1  red2  mongdb3  nginx需要確保每一臺(tái)機(jī)器的 hosts文件配置如上圖所示。簡(jiǎn)便配置方法, 在配置一臺(tái)機(jī)器后, 可以編寫腳本實(shí)現(xiàn)自動(dòng)將hosts文件復(fù)制到多臺(tái)機(jī)器上。腳本如下:rootdb # cat update_hosts.sh #!/bin/shfor host in red mongdb nginx;do    echo $host    scp&

7、#160; /etc/hosts  root$host:/etc/donerootdb # 主要這個(gè)腳本要在root下編寫, 然后賦予可以執(zhí)行的權(quán)限(chmod a+x *.sh), 然后在root權(quán)限下執(zhí)行。腳本會(huì)自動(dòng)完成hosts文件的復(fù)制工作。上面過程完成后, 分別登錄每一臺(tái)機(jī)器, 把每一個(gè)服務(wù)器都ping一下, 若是不通,在仔細(xì)檢查一下。3. Java配置在每個(gè)虛擬機(jī)服務(wù)器上檢查是否正確安裝了java, 是否配置了java的環(huán)境變量等如上圖, 1處輸入  java -version, 然后應(yīng)該輸出類似2處的輸出,標(biāo)識(shí)java已經(jīng)正確安裝了同時(shí)采用3處的命令

8、, env | grep JAVA_HOME  來檢查環(huán)境變量是否正確配置了, 若是沒有配置java的環(huán)境變量則需要進(jìn)行配置若是您java還有安裝請(qǐng) 用下面命令安裝 然后用下面命令配置環(huán)境變量。vi /etc/profile打開編輯的文件后, 在文件最后面添加如下內(nèi)容JRE_HOME=/usr/lib/jvm/PATH=$PATH:$JAVA_HOME/binCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JRE_HOME PATH CLASSPATH保存退出, 最后運(yùn)行下

9、面命令, 使配置生效source  /etc/profile然后再次測(cè)試上面的過程, 看看是否符合相關(guān)需要。如果您還沒做到到網(wǎng)絡(luò)搜索一下吧。4. ssh免登錄功能配置Hadoop通過ssh進(jìn)行相關(guān)管理工作,主要是hadoop的管理腳本通過ssh遠(yuǎn)程對(duì)各個(gè)服務(wù)器進(jìn)行相關(guān)的管理,包括啟動(dòng),停止等。 關(guān)于如何配置ssh的免密碼登錄,請(qǐng)參考下面文章的相關(guān)部分:Hadoop1.2.1 Pseudo-Distributed偽分布模式配置5. 關(guān)閉相關(guān)的防火墻Hadoop程序在工作過程中,各個(gè)節(jié)點(diǎn)間有很多程序要進(jìn)行通信,因此我們需要對(duì)防火墻做些處理, 保證這些訪問能正常工作。 我們這里采

10、用最簡(jiǎn)單的辦法是關(guān)閉研究用集群虛擬機(jī)的全部防火墻.在虛擬機(jī)中,啟動(dòng)setup程序選擇防火墻工作這一項(xiàng)在下面的對(duì)話框中, 選擇如下特殊顏色的區(qū)域的相關(guān)選項(xiàng), 最后選擇ok推出6. 下載hadoop程序相關(guān)過程略。三配置hadoop分布式集群1. 在虛擬機(jī)db上下載hadoop程序, 然后解壓縮到 /work/apps/hadoop目錄, 相信你會(huì)這個(gè)操作, 不行百度一下啦。2. 配置hadoop的環(huán)境變量進(jìn)入conf目錄, 編輯hadoop-env.sh 文件, 修改java home的配置注意這個(gè)配置,要同前面配置java的時(shí)候配置相同。3. 創(chuàng)建目錄Name目錄存放namenode

11、的hdfs目錄及文件的元數(shù)據(jù)。Data目錄存放datanode的數(shù)據(jù)4. 配置core-site.xml 文件vi  core-site.xml <?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property&

12、gt;  <name>hadoop.tmp.dir</name>                / 臨時(shí)文件目錄  <value>/work/apps/hadoop/tmp</value>  <description>A base for other temporary directories.</description></propert

13、y><property>        <name></name>         / namenode的服務(wù)器的地址        <value>hdfs:/db:9000</value></property><property>erval</name

14、>               / 回收站的文件間隔時(shí)間  <value>1440</value>  <description>Number of minutes between trash checkpoints.  If zero, the trash feature is disabled.  </description></property>&

15、lt;/configuration>如何確定這個(gè)文件有哪些配置可以填寫及相關(guān)含義?這個(gè)文件對(duì)應(yīng)一個(gè)默認(rèn)的配置文件,在:打開這個(gè)文件如下:文件可以配置項(xiàng)目含義都在文件中了, 大家慢慢參考。 注意不是在這個(gè)文件中配置的項(xiàng)目, 若是寫在了這里了, 對(duì)系統(tǒng)沒有任何作用, 當(dāng)然配置也是無效的。5. 配置hdfs-site.xml 輸入下面命令vi hdfs-site.xml 注意上面的特別注意的區(qū)域相關(guān)配置。 <?xml version="1.0"?><?xml-stylesheet type="text/xsl&quo

16、t; href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property>        <name>.dir</name>         / namenode存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)的地方  

17、;      <value>/work/apps/hadoop/name</value>    / 這里可以放多個(gè)文件的列表, 用逗號(hào)分隔, 系統(tǒng)會(huì)同步把數(shù)據(jù)寫到這些目錄中后,才返回確保元數(shù)據(jù)的安全。建議這些目錄在不同的物理磁盤,這樣可以提高系統(tǒng)的io性能。另外,最好能通過nfs等方式 把數(shù)據(jù)寫到別的服務(wù)器一份或者若干份,這樣更會(huì)確保元數(shù)據(jù)完好無誤的被保留。</property><property>      

18、;  <name>dfs.data.dir</name>    / datanode存放數(shù)據(jù)的地方        <value>/work/apps/hadoop/data</value>  / 這里可以存放用逗號(hào)分隔的磁盤目錄列表,系統(tǒng)在存儲(chǔ)數(shù)據(jù)時(shí)會(huì)把不同的塊數(shù)據(jù)輪轉(zhuǎn)的方式分別放到不同目錄中。一般一個(gè)文件的塊1放到目錄A, 塊2則放目錄b等等,這樣可以充分提高系統(tǒng)的性能。</property><propert

19、y>        <name>dfs.replication</name>   / 文件的副本個(gè)數(shù)        <value>3</value></property></configuration>6. 配置mapred-site.xml 文件vi mapred-site.xml <?xml version="1.0"?

20、><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property>    <name>mapred.job.tracker</name>   / 設(shè)置job tracker    <

21、value>db:9001</value></property></configuration>7. 配置masters和slaves 文件查看下面兩個(gè)文件的內(nèi)容,如下:masters文件中存放,secondary server的配置slaves中存放的是  datanode,tasktractor的服務(wù)器的列表這個(gè)兩個(gè)文件不需要分發(fā)給 slaves節(jié)點(diǎn), 但是我們這里簡(jiǎn)便處理, 在腳本中沒有排除這些文件,可以通過一定的配置文件制定相關(guān)位置等。四測(cè)試hadoop系統(tǒng)1. 分發(fā)配置好的hadoop系統(tǒng)到各個(gè)服務(wù)器中創(chuàng)建如下腳本程序rootdb apps# vi   scp_hadoop.sh 腳本內(nèi)容如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論