hadoop集群安裝-魯?shù)滦阅軠y試_第1頁
hadoop集群安裝-魯?shù)滦阅軠y試_第2頁
hadoop集群安裝-魯?shù)滦阅軠y試_第3頁
hadoop集群安裝-魯?shù)滦阅軠y試_第4頁
hadoop集群安裝-魯?shù)滦阅軠y試_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-.zhadoop集群安裝要想深入的學(xué)習(xí)hadoop集群數(shù)據(jù)分析技術(shù),首要的任務(wù)是必須要將hadoop集群環(huán)境搭建起來,可以將hadoop簡化地想象成一個(gè)小軟件,通過在各個(gè)物理節(jié)點(diǎn)上安裝這個(gè)小軟件,然后將其運(yùn)行起來,就是一個(gè)hadoop分布式集群了。說來簡單,但是應(yīng)該怎么做呢.不急,本文的主要目的就是讓新手看了之后也能夠親自動(dòng)手實(shí)施這些過程。由于本人資金不充裕,只能通過虛擬機(jī)來實(shí)施模擬集群環(huán)境,雖然說是虛機(jī)模擬,但是在虛機(jī)上的hadoop的集群搭建過程也可以使用在實(shí)際的物理節(jié)點(diǎn)中,思想是一樣的。也如果你有充裕的資金,自己不介意燒錢買諸多電腦設(shè)備,這是最好不過的了。也許有人想知道安裝hadoop集群需要什么樣的電腦配置,這里只針對(duì)虛擬機(jī)環(huán)境,下面介紹下我自己的情況:CPU:Intel酷睿雙核

2.2Ghz內(nèi)存:4G硬盤:320G系統(tǒng):*p老實(shí)說,我的本本配置顯然不夠好,原配只有2G內(nèi)存,但是安裝hadoop集群時(shí)實(shí)在是很讓人崩潰,本人親身體驗(yàn)過后實(shí)在無法容忍,所以后來再擴(kuò)了2G,雖然說性能還是不夠好,但是學(xué)習(xí)嘛,目前這種配置還勉強(qiáng)可以滿足學(xué)習(xí)要求,如果你的硬件配置比這要高是最好不過的了,如果能到達(dá)8G,甚至16G內(nèi)存,學(xué)習(xí)hadoop表示無任何壓力。說完電腦的硬件配置,下面說說本人安裝hadoop的準(zhǔn)備條件:1安裝VmwareWorkStation軟件有些人會(huì)問,為何要安裝這個(gè)軟件,這是一個(gè)VM公司提供的虛擬機(jī)工作平臺(tái),后面需要在這個(gè)平臺(tái)上安裝linu*操作系統(tǒng)。具體安裝過程網(wǎng)上有很多資料,這里不作過多的說明。2在虛擬機(jī)上安裝linu*操作系統(tǒng)在前一步的根底之上安裝linu*操作系統(tǒng),因?yàn)閔adoop一般是運(yùn)行在linu*平臺(tái)之上的,雖然現(xiàn)在也有windows版本,但是在linu*上實(shí)施比擬穩(wěn)定,也不易出錯(cuò),如果在windows安裝hadoop集群,估計(jì)在安裝過程中面對(duì)的各種問題會(huì)讓人更加崩潰,其實(shí)我還沒在windows上安裝過,呵呵~在虛擬機(jī)上安裝的linu*操作系統(tǒng)為ubuntu10.04,這是我安裝的系統(tǒng)版本,為什么我會(huì)使用這個(gè)版本呢,很簡單,因?yàn)槲矣玫氖靆_^其實(shí)用哪個(gè)linu*系統(tǒng)都是可以的,比方,你可以用centos,redhat,fedora等均可,完全沒有問題。在虛擬機(jī)上安裝linu*的過程也在此略過,如果不了解可以在網(wǎng)上搜搜,有許多這方面的資料。3準(zhǔn)備3個(gè)虛擬機(jī)節(jié)點(diǎn)其實(shí)這一步驟非常簡單,如果你已經(jīng)完成了第2步,此時(shí)你已經(jīng)準(zhǔn)備好了第一個(gè)虛擬節(jié)點(diǎn),那第二個(gè)和第三個(gè)虛擬機(jī)節(jié)點(diǎn)如何準(zhǔn)備.可能你已經(jīng)想明白了,你可以按第2步的方法,再分別安裝兩遍linu*系統(tǒng),就分別實(shí)現(xiàn)了第二、三個(gè)虛擬機(jī)節(jié)點(diǎn)。不過這個(gè)過程估計(jì)會(huì)讓你很崩潰,其實(shí)還有一個(gè)更簡單的方法,就是復(fù)制和粘貼,沒錯(cuò),就是在你剛安裝好的第一個(gè)虛擬機(jī)節(jié)點(diǎn),將整個(gè)系統(tǒng)目錄進(jìn)展復(fù)制,形成第二和第三個(gè)虛擬機(jī)節(jié)點(diǎn)。簡單吧!~~很多人也許會(huì)問,這三個(gè)結(jié)點(diǎn)有什么用,原理很簡單,按照hadoop集群的根本要求,其中一個(gè)是master結(jié)點(diǎn),主要是用于運(yùn)行hadoop程序中的namenode、secondorynamenode和jobtracker任務(wù)。用外兩個(gè)結(jié)點(diǎn)均為slave結(jié)點(diǎn),其中一個(gè)是用于冗余目的,如果沒有冗余,就不能稱之為hadoop了,所以模擬hadoop集群至少要有3個(gè)結(jié)點(diǎn),如果電腦配置非常高,可以考慮增加一些其它的結(jié)點(diǎn)。slave結(jié)點(diǎn)主要將運(yùn)行hadoop程序中的datanode和tasktracker任務(wù)。所以,在準(zhǔn)備好這3個(gè)結(jié)點(diǎn)之后,需要分別將linu*系統(tǒng)的主機(jī)名重命名〔因?yàn)榍懊媸菑?fù)制和粘帖操作產(chǎn)生另兩上結(jié)點(diǎn),此時(shí)這3個(gè)結(jié)點(diǎn)的主機(jī)名是一樣的〕,重命名主機(jī)名的方法:Vim/etc/hostname通過修改hostname文件即可,這三個(gè)點(diǎn)結(jié)均要修改,以示區(qū)分。以下是我對(duì)三個(gè)結(jié)點(diǎn)的ubuntu系統(tǒng)主機(jī)分別命名為:master,node1,node2根本條件準(zhǔn)備好了,后面要干實(shí)事了,心急了吧,呵呵,別著急,只要跟著本人的思路,一步一個(gè)腳印地,一定能成功布署安裝好hadoop集群的。安裝過程主要有以下幾個(gè)步驟:一、

配置hosts文件二、

建立hadoop運(yùn)行**三、

配置ssh免密碼連入四、

下載并解壓hadoop安裝包五、

配置namenode,修改site文件六、

配置hadoop-env.sh文件七、

配置masters和slaves文件八、

向各節(jié)點(diǎn)復(fù)制hadoop九、

格式化namenode十、

啟動(dòng)hadoop十一、用jps檢驗(yàn)各后臺(tái)進(jìn)程是否成功啟動(dòng)十二、通過查看集群情況下面我們對(duì)以上過程,各個(gè)擊破吧!~~一、

配置hosts文件先簡單說明下配置hosts文件的作用,它主要用于確定每個(gè)結(jié)點(diǎn)的IP地址,方便后續(xù)master結(jié)點(diǎn)能快速查到并各個(gè)結(jié)點(diǎn)。在上述3個(gè)虛機(jī)結(jié)點(diǎn)上均需要配置此文件。由于需要確定每個(gè)結(jié)點(diǎn)的IP地址,所以在配置hosts文件之前需要先查看當(dāng)前虛機(jī)結(jié)點(diǎn)的IP地址是多少,可以通過ifconfig命令進(jìn)展查看,如本實(shí)驗(yàn)中,master結(jié)點(diǎn)的IP地址為:如果IP地址不對(duì),可以通過ifconfig命令更改結(jié)點(diǎn)的物理IP地址,例如如下:通過上面命令可以將IP改為。將每個(gè)結(jié)點(diǎn)的IP地址設(shè)置完成后,就可以配置hosts文件了,hosts文件路徑為;/etc/hosts,我的hosts文件配置如下,大家可以參考自己的IP地址以及相應(yīng)的主機(jī)名完成配置二、

建立hadoop運(yùn)行**即為hadoop集群專門設(shè)置一個(gè)用戶組及用戶,這局部比擬簡單,參考例如如下:sudogroupaddhadoop

//設(shè)置hadoop用戶組sudouseradd–s/bin/bash–d/home/zhm–mzhm–ghadoop–Gadmin

//添加一個(gè)zhm用戶,此用戶屬于hadoop用戶組,且具有admin權(quán)限。sudopasswdzhm

//設(shè)置用戶zhm登錄密碼suzhm

//切換到zhm用戶中上述3個(gè)虛機(jī)結(jié)點(diǎn)均需要進(jìn)展以上步驟來完成hadoop運(yùn)行**的建立。三、

配置ssh免密碼連入這一環(huán)節(jié)最為重要,而且也最為關(guān)鍵,因?yàn)楸救嗽谶@一步驟裁了不少跟頭,走了不少彎路,如果這一步走成功了,后面環(huán)節(jié)進(jìn)展的也會(huì)比擬順利。SSH主要通過RSA算法來產(chǎn)生公鑰與私鑰,在數(shù)據(jù)傳輸過程中對(duì)數(shù)據(jù)進(jìn)展加密來保障數(shù)據(jù)的平安性和可靠性,公鑰局部是公共局部,網(wǎng)絡(luò)上任一結(jié)點(diǎn)均可以,私鑰主要用于對(duì)數(shù)據(jù)進(jìn)展加密,以防他人盜取數(shù)據(jù)??偠灾?,這是一種非對(duì)稱算法,想要破解還是非常有難度的。Hadoop集群的各個(gè)結(jié)點(diǎn)之間需要進(jìn)展數(shù)據(jù)的,被的結(jié)點(diǎn)對(duì)于用戶結(jié)點(diǎn)的可靠性必須進(jìn)展驗(yàn)證,hadoop采用的是ssh的方法通過密鑰驗(yàn)證及數(shù)據(jù)加解密的方式進(jìn)展遠(yuǎn)程平安登錄操作,當(dāng)然,如果hadoop對(duì)每個(gè)結(jié)點(diǎn)的均需要進(jìn)展驗(yàn)證,其效率將會(huì)大大降低,所以才需要配置SSH免密碼的方法直接遠(yuǎn)程連入被結(jié)點(diǎn),這樣將大大提高效率。

OK,廢話就不說了,下面看看如何配置SSH免密碼登錄吧!~~(1)

每個(gè)結(jié)點(diǎn)分別產(chǎn)生公私密鑰。鍵入命令:以上命令是產(chǎn)生公私密鑰,產(chǎn)生目錄在用戶主目錄下的.ssh目錄中,如下:Id_dsa.pub為公鑰,id_dsa為私鑰,緊接著將公鑰文件復(fù)制成authorized_keys文件,這個(gè)步驟是必須的,過程如下:用上述同樣的方法在剩下的兩個(gè)結(jié)點(diǎn)中如法炮制即可。(2)

單機(jī)回環(huán)ssh免密碼登錄測試即在單機(jī)結(jié)點(diǎn)上用ssh進(jìn)展登錄,看能否登錄成功。登錄成功后注銷退出,過程如下:注意標(biāo)紅圈的指示,有以上信息表示操作成功,單點(diǎn)回環(huán)SSH登錄及注銷成功,這將為后續(xù)跨子結(jié)點(diǎn)SSH遠(yuǎn)程免密碼登錄作好準(zhǔn)備。用上述同樣的方法在剩下的兩個(gè)結(jié)點(diǎn)中如法炮制即可。(3)

讓主結(jié)點(diǎn)(master)能通過SSH免密碼登錄兩個(gè)子結(jié)點(diǎn)〔slave〕為了實(shí)現(xiàn)這個(gè)功能,兩個(gè)slave結(jié)點(diǎn)的公鑰文件中必須要包含主結(jié)點(diǎn)的公鑰信息,這樣當(dāng)master就可以順利平安地這兩個(gè)slave結(jié)點(diǎn)了。操作過程如下:如上過程顯示了node1結(jié)點(diǎn)通過scp命令遠(yuǎn)程登錄master結(jié)點(diǎn),并復(fù)制master的公鑰文件到當(dāng)前的目錄下,這一過程需要密碼驗(yàn)證。接著,將master結(jié)點(diǎn)的公鑰文件追加至authorized_keys文件中,通過這步操作,如果不出問題,master結(jié)點(diǎn)就可以通過ssh遠(yuǎn)程免密碼連接node1結(jié)點(diǎn)了。在master結(jié)點(diǎn)中操作如下:由上圖可以看出,node1結(jié)點(diǎn)首次連接時(shí)需要,“YES〞確認(rèn)連接,這意味著master結(jié)點(diǎn)連接node1結(jié)點(diǎn)時(shí)需要人工詢問,無法自動(dòng)連接,輸入yes后成功接入,緊接著注銷退出至master結(jié)點(diǎn)。要實(shí)現(xiàn)ssh免密碼連接至其它結(jié)點(diǎn),還差一步,只需要再執(zhí)行一遍sshnode1,如果沒有要求你輸入〞yes〞,就算成功了,過程如下:如上圖所示,master已經(jīng)可以通過ssh免密碼登錄至node1結(jié)點(diǎn)了。對(duì)node2結(jié)點(diǎn)也可以用同樣的方法進(jìn)展,如下列圖:Node2結(jié)點(diǎn)復(fù)制master結(jié)點(diǎn)中的公鑰文件Master通過ssh免密碼登錄至node2結(jié)點(diǎn)測試:第一次登錄時(shí):第二次登錄時(shí):外表上看,這兩個(gè)結(jié)點(diǎn)的ssh免密碼登錄已經(jīng)配置成功,但是我們還需要對(duì)主結(jié)點(diǎn)master也要進(jìn)展上面的同樣工作,這一步有點(diǎn)讓人困惑,但是這是有原因的,具體原因現(xiàn)在也說不太好,據(jù)說是真實(shí)物理結(jié)點(diǎn)時(shí)需要做這項(xiàng)工作,因?yàn)閖obtracker有可能會(huì)分布在其它結(jié)點(diǎn)上,jobtracker有不存在master結(jié)點(diǎn)上的可能性。對(duì)master自身進(jìn)展ssh免密碼登錄測試工作:至此,SSH免密碼登錄已經(jīng)配置成功。四、下載并解壓hadoop安裝包關(guān)于安裝包的下載就不多說了,不過可以提一下目前我使用的版本為,這個(gè)版本不是最新的,不過學(xué)習(xí)嘛,先入門,后面等熟練了再用其它版本也不急。而且?hadoop權(quán)威指南?這本書也是針對(duì)這個(gè)版本介紹的。注:解壓后hadoop軟件目錄在/home/zhm/hadoop下五、配置namenode,修改site文件在配置site文件之前需要作一些準(zhǔn)備工作,下載java最新版的JDK軟件,可以從oracle官網(wǎng)上下載,我使用的jdk軟件版本為:,我將java的JDK解壓安裝在目錄中,接著配置JAVA_HOME宏變量及hadoop路徑,這是為了方便后面操作,這局部配置過程主要通過修改/etc/profile文件來完成,在profile文件中添加如下幾行代碼:然后執(zhí)行:

讓配置文件立刻生效。上面配置過程每個(gè)結(jié)點(diǎn)都要進(jìn)展一遍。到目前為止,準(zhǔn)備工作已經(jīng)完成,下面開場修改hadoop的配置文件了,即各種site文件,文件存放在/hadoop/conf下,主要配置core-site.*ml、hdfs-site.*ml、mapred-site.*ml這三個(gè)文件。Core-site.*ml配置如下:Hdfs-site.*ml配置如下:接著是mapred-site.*ml文件:六、配置hadoop-env.sh文件這個(gè)需要根據(jù)實(shí)際情況來配置。七、配置masters和slaves文件根據(jù)實(shí)際情況配置masters的主機(jī)名,在本實(shí)驗(yàn)中,masters主結(jié)點(diǎn)的主機(jī)名為master,于是在masters文件中填入:

同理,在slaves文件中填入:八、向各節(jié)點(diǎn)復(fù)制hadoop向node1節(jié)點(diǎn)復(fù)制hadoop:

向node2節(jié)點(diǎn)復(fù)制hadoop:這樣,結(jié)點(diǎn)node1和結(jié)點(diǎn)node2也安裝了配置好的hadoop軟件了。九、格式化namenode這一步在主結(jié)點(diǎn)master上進(jìn)展操作:注意:上面只要出現(xiàn)“successfullyformatted〞就表示成功了。十、啟動(dòng)hadoop這一步也在主結(jié)點(diǎn)master上進(jìn)展操作:十一、

用jps檢驗(yàn)各后臺(tái)進(jìn)程是否成功啟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論