下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、VM虛擬機(jī)CentOS下hadoop集群安裝過程hadoop俗稱分布式計(jì)算,最早作為一個(gè)開源項(xiàng)目,最初只是來源于谷歌的兩份白皮書。然而正如十年前的Linux一樣,雖然Hadoop最初十分簡(jiǎn)單,但隨著近些年來大數(shù)據(jù)的興起,其也獲得了一個(gè)充分體現(xiàn)價(jià)值的舞臺(tái)。這也正是業(yè)內(nèi)普遍將Hadoop看做是下一個(gè)Linux的原因。一基于vmware的hadoop環(huán)境簡(jiǎn)述本文介紹基于多臺(tái)vmware虛擬機(jī)來安裝hadoop集群的過程及方法,通過這個(gè)小的集群讓您在本地電腦上就可以研究hadoop的相關(guān)工作過程,有人會(huì)有疑問在小的虛擬機(jī)集群上研究的結(jié)果, 寫的程序能否在大集群上工作正常?可以肯定的沒問題的。Hadoo
2、p的一個(gè)特性是線性增長(zhǎng)特性,即當(dāng)前數(shù)量情況下,處理時(shí)間是1, 若是數(shù)據(jù)量加倍, 后處理時(shí)間加倍, 若是在這種情況下, 處理能力也加倍則處理時(shí)間也是1.正常情況hadoop需要較多的服務(wù)器才能搭建, 但是我們?cè)诩依飳W(xué)習(xí)如何去找那么服務(wù)器, 解決辦法可以找?guī)着_(tái)pc機(jī),在pc機(jī)上安裝linux系統(tǒng)就可以了。當(dāng)然我們還有更簡(jiǎn)單的辦法, 就是找一臺(tái)高性能的電腦, 在電腦上安裝虛擬機(jī)軟件,里面創(chuàng)建若干臺(tái)虛擬機(jī), 然后讓這些虛擬機(jī)構(gòu)成一個(gè)小的內(nèi)部局域網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)上我們安裝linux軟件, java軟 件, 安裝hadoop程序,我們就可以創(chuàng)建一個(gè)簡(jiǎn)單hadoop的研究系統(tǒng), 進(jìn)行軟件的開發(fā)調(diào)試
3、, 在這個(gè)小的分布式集群上開發(fā)的程序可以無縫移植到相同版本的hadoop(不同hadoop的版本兼容性不是很好, 特別是低版本同高版本, 他們的api也有些許變化)集群中。如下是在筆者筆記本上構(gòu)建的一個(gè)hadoop的虛擬機(jī)系統(tǒng), 相關(guān)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:虛擬機(jī)0,機(jī)器名稱:db, ip:192.16虛擬機(jī)1,機(jī)器名稱:red, ip:虛擬機(jī)2,機(jī)器名稱:mongdb, ip:虛擬機(jī)3,機(jī)器名稱:nginx,ip:如上圖, 4臺(tái)虛擬機(jī)通過一個(gè)虛擬的交換機(jī)互聯(lián), 開發(fā)機(jī)器也連接到這個(gè)虛擬交換機(jī)上, 虛擬的交換機(jī)同adsl相連接,這樣整個(gè)系統(tǒng)都可以直接上網(wǎng)了。下面是幾個(gè)虛擬機(jī)的典型配置,如下:Db的配
4、置,如上, 這個(gè)機(jī)器的內(nèi)存配置比較高, 這個(gè)機(jī)器是機(jī)器的master服務(wù)器, 需要較多的內(nèi)存。 因此配置了1.3g內(nèi)存。下面是red的配置, mongdb及nginx的配置同這個(gè)機(jī)器配置相同,配置如下:這個(gè)機(jī)器的配置同db機(jī)器配置相同, 僅僅是內(nèi)存小了些, 這里內(nèi)存是188m, 作為調(diào)試環(huán)境已經(jīng)足夠用了。二基于vmware虛擬機(jī)環(huán)境配置1. 網(wǎng)卡的Ip地址配置采用靜態(tài)ip配置方式, 防止重新啟動(dòng)后dhcp分配新的ip后,造成不必要的混亂。 配置如下:2. Hosts文件配置rootdb # cat /etc/hosts# Do not remove the following line, or
5、 various programs# that require network functionality will fail. localhost.localdomain localhost:1 localhost6.localdomain6 localhost619
6、0 db1 red2 mongdb3 nginx需要確保每一臺(tái)機(jī)器的 hosts文件配置如上圖所示。簡(jiǎn)便配置方法, 在配置一臺(tái)機(jī)器后, 可以編寫腳本實(shí)現(xiàn)自動(dòng)將hosts文件復(fù)制到多臺(tái)機(jī)器上。腳本如下:rootdb # cat update_hosts.sh #!/bin/shfor host in red mongdb nginx;do echo $host scp&
7、#160; /etc/hosts root$host:/etc/donerootdb # 主要這個(gè)腳本要在root下編寫, 然后賦予可以執(zhí)行的權(quán)限(chmod a+x *.sh), 然后在root權(quán)限下執(zhí)行。腳本會(huì)自動(dòng)完成hosts文件的復(fù)制工作。上面過程完成后, 分別登錄每一臺(tái)機(jī)器, 把每一個(gè)服務(wù)器都ping一下, 若是不通,在仔細(xì)檢查一下。3. Java配置在每個(gè)虛擬機(jī)服務(wù)器上檢查是否正確安裝了java, 是否配置了java的環(huán)境變量等如上圖, 1處輸入 java -version, 然后應(yīng)該輸出類似2處的輸出,標(biāo)識(shí)java已經(jīng)正確安裝了同時(shí)采用3處的命令
8、, env | grep JAVA_HOME 來檢查環(huán)境變量是否正確配置了, 若是沒有配置java的環(huán)境變量則需要進(jìn)行配置若是您java還有安裝請(qǐng) 用下面命令安裝 然后用下面命令配置環(huán)境變量。vi /etc/profile打開編輯的文件后, 在文件最后面添加如下內(nèi)容JRE_HOME=/usr/lib/jvm/PATH=$PATH:$JAVA_HOME/binCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JRE_HOME PATH CLASSPATH保存退出, 最后運(yùn)行下
9、面命令, 使配置生效source /etc/profile然后再次測(cè)試上面的過程, 看看是否符合相關(guān)需要。如果您還沒做到到網(wǎng)絡(luò)搜索一下吧。4. ssh免登錄功能配置Hadoop通過ssh進(jìn)行相關(guān)管理工作,主要是hadoop的管理腳本通過ssh遠(yuǎn)程對(duì)各個(gè)服務(wù)器進(jìn)行相關(guān)的管理,包括啟動(dòng),停止等。 關(guān)于如何配置ssh的免密碼登錄,請(qǐng)參考下面文章的相關(guān)部分:Hadoop1.2.1 Pseudo-Distributed偽分布模式配置5. 關(guān)閉相關(guān)的防火墻Hadoop程序在工作過程中,各個(gè)節(jié)點(diǎn)間有很多程序要進(jìn)行通信,因此我們需要對(duì)防火墻做些處理, 保證這些訪問能正常工作。 我們這里采
10、用最簡(jiǎn)單的辦法是關(guān)閉研究用集群虛擬機(jī)的全部防火墻.在虛擬機(jī)中,啟動(dòng)setup程序選擇防火墻工作這一項(xiàng)在下面的對(duì)話框中, 選擇如下特殊顏色的區(qū)域的相關(guān)選項(xiàng), 最后選擇ok推出6. 下載hadoop程序相關(guān)過程略。三配置hadoop分布式集群1. 在虛擬機(jī)db上下載hadoop程序, 然后解壓縮到 /work/apps/hadoop目錄, 相信你會(huì)這個(gè)操作, 不行百度一下啦。2. 配置hadoop的環(huán)境變量進(jìn)入conf目錄, 編輯hadoop-env.sh 文件, 修改java home的配置注意這個(gè)配置,要同前面配置java的時(shí)候配置相同。3. 創(chuàng)建目錄Name目錄存放namenode
11、的hdfs目錄及文件的元數(shù)據(jù)。Data目錄存放datanode的數(shù)據(jù)4. 配置core-site.xml 文件vi core-site.xml <?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property&
12、gt; <name>hadoop.tmp.dir</name> / 臨時(shí)文件目錄 <value>/work/apps/hadoop/tmp</value> <description>A base for other temporary directories.</description></propert
13、y><property> <name></name> / namenode的服務(wù)器的地址 <value>hdfs:/db:9000</value></property><property>erval</name
14、> / 回收站的文件間隔時(shí)間 <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description></property>&
15、lt;/configuration>如何確定這個(gè)文件有哪些配置可以填寫及相關(guān)含義?這個(gè)文件對(duì)應(yīng)一個(gè)默認(rèn)的配置文件,在:打開這個(gè)文件如下:文件可以配置項(xiàng)目含義都在文件中了, 大家慢慢參考。 注意不是在這個(gè)文件中配置的項(xiàng)目, 若是寫在了這里了, 對(duì)系統(tǒng)沒有任何作用, 當(dāng)然配置也是無效的。5. 配置hdfs-site.xml 輸入下面命令vi hdfs-site.xml 注意上面的特別注意的區(qū)域相關(guān)配置。 <?xml version="1.0"?><?xml-stylesheet type="text/xsl&quo
16、t; href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property> <name>.dir</name> / namenode存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)的地方
17、; <value>/work/apps/hadoop/name</value> / 這里可以放多個(gè)文件的列表, 用逗號(hào)分隔, 系統(tǒng)會(huì)同步把數(shù)據(jù)寫到這些目錄中后,才返回確保元數(shù)據(jù)的安全。建議這些目錄在不同的物理磁盤,這樣可以提高系統(tǒng)的io性能。另外,最好能通過nfs等方式 把數(shù)據(jù)寫到別的服務(wù)器一份或者若干份,這樣更會(huì)確保元數(shù)據(jù)完好無誤的被保留。</property><property>
18、; <name>dfs.data.dir</name> / datanode存放數(shù)據(jù)的地方 <value>/work/apps/hadoop/data</value> / 這里可以存放用逗號(hào)分隔的磁盤目錄列表,系統(tǒng)在存儲(chǔ)數(shù)據(jù)時(shí)會(huì)把不同的塊數(shù)據(jù)輪轉(zhuǎn)的方式分別放到不同目錄中。一般一個(gè)文件的塊1放到目錄A, 塊2則放目錄b等等,這樣可以充分提高系統(tǒng)的性能。</property><propert
19、y> <name>dfs.replication</name> / 文件的副本個(gè)數(shù) <value>3</value></property></configuration>6. 配置mapred-site.xml 文件vi mapred-site.xml <?xml version="1.0"?
20、><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property> <name>mapred.job.tracker</name> / 設(shè)置job tracker <
21、value>db:9001</value></property></configuration>7. 配置masters和slaves 文件查看下面兩個(gè)文件的內(nèi)容,如下:masters文件中存放,secondary server的配置slaves中存放的是 datanode,tasktractor的服務(wù)器的列表這個(gè)兩個(gè)文件不需要分發(fā)給 slaves節(jié)點(diǎn), 但是我們這里簡(jiǎn)便處理, 在腳本中沒有排除這些文件,可以通過一定的配置文件制定相關(guān)位置等。四測(cè)試hadoop系統(tǒng)1. 分發(fā)配置好的hadoop系統(tǒng)到各個(gè)服務(wù)器中創(chuàng)建如下腳本程序rootdb apps# vi scp_hadoop.sh 腳本內(nèi)容如下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高考物理總復(fù)習(xí)專題二相互作用第1講力、重力、彈力、摩擦力練習(xí)含答案
- 藥品供應(yīng)鏈購(gòu)銷合同樣本
- 訂立勞動(dòng)合同應(yīng)遵循哪些原則
- 高考地理一輪復(fù)習(xí)第五章地表形態(tài)的塑造第四節(jié)河流地貌的發(fā)育課件
- 九年級(jí)道德與法治上冊(cè) 第五單元 和諧中國(guó) 和諧世紀(jì) 第一節(jié) 和諧之美 第2框 和諧是人類永恒的追求教學(xué)設(shè)計(jì)+教案+素材 湘教版
- 八年級(jí)生物下冊(cè) 第七單元 生物圈中生命的延續(xù)和發(fā)展第二章 生物的遺傳和變異第四節(jié) 人的性別遺傳教案 (新版)新人教版
- 2024年秋九年級(jí)化學(xué)上冊(cè) 第三單元 物質(zhì)構(gòu)成的奧秘 課題1 分子和原子教案 (新版)新人教版
- 2024-2025學(xué)年七年級(jí)道德與法治上冊(cè) 第一單元 成長(zhǎng)的節(jié)拍 第一課 中學(xué)時(shí)代 第1框 中學(xué)時(shí)代教案 新人教版
- 高中地理 第四章 生態(tài)環(huán)境保護(hù) 4.4 中國(guó)區(qū)域生態(tài)環(huán)境問題及其防治途徑教案 新人教版選修6
- 《算法設(shè)計(jì)與分析基礎(chǔ)》(Python語言描述) 課件 第3章基本算法設(shè)計(jì)方法1
- 2024年個(gè)人之間清賬協(xié)議書模板
- 浙江省杭州市2023-2024學(xué)年五年級(jí)上學(xué)期英語期中試卷(含答案)2
- 期中 (試題) -2024-2025學(xué)年譯林版(三起)英語四年級(jí)上冊(cè)
- 2024-2025學(xué)年小學(xué)信息技術(shù)(信息科技)六年級(jí)上冊(cè)南方版(湖南)(2019)教學(xué)設(shè)計(jì)合集
- 中國(guó)中鐵專業(yè)分包合同范本
- 初高中銜接研究研究報(bào)告
- 小升初數(shù)學(xué)復(fù)習(xí)計(jì)算題型:四則混合運(yùn)算(專項(xiàng)復(fù)習(xí))人教版六年級(jí)下冊(cè)數(shù)學(xué)
- 解讀學(xué)習(xí)2024《關(guān)于實(shí)施就業(yè)優(yōu)先戰(zhàn)略促進(jìn)高質(zhì)量充分就業(yè)的意見》課件
- 加格斯臺(tái)水庫(kù)課程設(shè)計(jì)
- 2024-2025學(xué)年人教版新教材七年級(jí)英語上冊(cè)Unit 4單元檢測(cè)卷
評(píng)論
0/150
提交評(píng)論