Hadoop云計(jì)算平臺(tái)搭建方案2.1

上傳人：深*** IP屬地：安徽上傳時(shí)間：2022-02-20 格式：DOC 頁(yè)數(shù)：21 大?。?86.50KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩16頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 Hadoop云計(jì)算平臺(tái)搭建方案一、平臺(tái)搭建概述1.1總體思路針對(duì)于電網(wǎng)企業(yè)在營(yíng)銷服務(wù)領(lǐng)域展開(kāi)的大數(shù)據(jù)分析處理，搭建Hadoop云計(jì)算平臺(tái)進(jìn)行海量數(shù)據(jù)存儲(chǔ)，并作深層次加工、處理，挖掘出無(wú)法簡(jiǎn)單直觀便可得到的新的模式，為電力企業(yè)的決策提供指導(dǎo)。平臺(tái)采用Hadoop-2.2.0作為海量數(shù)據(jù)存儲(chǔ)和分析工具，將其部署在4個(gè)物理計(jì)算機(jī)節(jié)點(diǎn)上，搭建Hadoop集群，其中1個(gè)節(jié)點(diǎn)作為master節(jié)點(diǎn)，其余3個(gè)作為slave節(jié)點(diǎn)。為了獲取更好的穩(wěn)定性，平臺(tái)搭建在Linux系統(tǒng)（ubuntu-14.04-desktop-i386）環(huán)境下。1.2軟件列表軟件描述版本VMware Workstation虛擬化軟件V

2、MwareWorkstation 6408UbuntuLinux操作系統(tǒng)ubuntu-14.04-desktop-i386JDKJava的軟件開(kāi)發(fā)工具包jdkl.8.0_20Hadoop開(kāi)源的云計(jì)算基礎(chǔ)框架Hadoop-2.2.0HBase分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)Hbase-0.96.2ZookeeperHadoop可靠協(xié)調(diào)系統(tǒng)Zookeeper-3.4.5Sqoop數(shù)據(jù)遷移工具Sqoop-平臺(tái)搭建總流程和節(jié)點(diǎn)信息一覽表在平臺(tái)搭建前，給出實(shí)現(xiàn)的總流程圖和節(jié)點(diǎn)信息一覽表，從而對(duì)平臺(tái)搭建過(guò)程和各節(jié)點(diǎn)信息有一個(gè)全局的認(rèn)識(shí)，平臺(tái)搭建總流程如下圖所示。創(chuàng)建虛擬機(jī)master，

3、完成JDK、Hadoop等應(yīng)用的安裝和配置對(duì)虛擬機(jī)master進(jìn)行克隆，得到的虛擬機(jī)分別作為slave1、slave2和slave3完成Zookeeper、HBase等其它分布式服務(wù)的部署，搭建Hadoop集群運(yùn)行并測(cè)試Hadoop集群系統(tǒng)各節(jié)點(diǎn)信息如下表所示：機(jī)器名IP地址用戶名充當(dāng)角色master02hadoopJobTracker、Namenodeslave104hadoopTaskTracker、Datanodeslave205hadoopTaskTracker、Datanodeslave306ha

4、doopTaskTracker、Datanode二、基礎(chǔ)平臺(tái)的搭建步驟此次大數(shù)據(jù)存儲(chǔ)和處理平臺(tái)的搭建，需要4臺(tái)物理節(jié)點(diǎn)來(lái)部署Hadoop平臺(tái)環(huán)境。我們使用虛擬機(jī)軟件VMware Workstation創(chuàng)建4臺(tái)虛擬機(jī)，承載平臺(tái)搭建工作。另外，由于對(duì)4臺(tái)虛擬機(jī)的配置大部分是相同的，所以利用VMware Workstation的克隆功能，可以減少部署的工作量。2.1安裝虛擬機(jī)軟件VMware Workstation首先在4臺(tái)PC機(jī)器上均安裝虛擬化軟件VMwareWorkstation，并輸入相應(yīng)的序列號(hào)。2.2在master節(jié)點(diǎn)上安裝Linux系統(tǒng)Ubuntu在設(shè)定為master PC節(jié)點(diǎn)上首先安裝

5、Linux系統(tǒng)（版本為ubuntu-11.04-desktop-i386），在安裝過(guò)程中為提高后期安裝軟件的兼容性和穩(wěn)定性，在系統(tǒng)語(yǔ)言上選擇英語(yǔ)。創(chuàng)建用戶名為“hadoop”的普通用戶，設(shè)置統(tǒng)一的密碼。安裝完成后將系統(tǒng)的terminal命令窗口調(diào)出來(lái)，以便使用。同時(shí)，為實(shí)現(xiàn)虛擬機(jī)的Ubuntu系統(tǒng)與本機(jī)的Windows系統(tǒng)之間方便快捷的文字復(fù)制粘貼以及物理主機(jī)系統(tǒng)與虛擬機(jī)系統(tǒng)相互拖放文件進(jìn)行共享，需要安裝VMare Tools工具，具體操作如下：?jiǎn)?dòng)虛擬機(jī)，進(jìn)入U(xiǎn)buntu系統(tǒng)，在VM菜單欄“虛擬機(jī)(M)”的下拉菜單點(diǎn)擊“安裝VMare Tools(T)”后，會(huì)彈出一個(gè)“VMare Tools

6、”文件夾，里面包含VMare Tools的安裝包VMwareTools-9.6.2-1688356.tar.gz，將該安裝包拷貝到/home/hadoop目錄下，輸入命令進(jìn)行解壓安裝：tar xzvf VMwareTools-9.6.2-1688356.tar.gz此時(shí)在/home/hadoop/目錄下產(chǎn)生vmware-tools-distrib文件夾，進(jìn)入該目錄，通過(guò)在terminal終端輸入相應(yīng)命令，運(yùn)行vmware-install.pl腳本：cd /home/hadoop/vmware-tools-distrib /進(jìn)入目錄sudo ./ vmware-install.pl /執(zhí)行vmw

7、are-install.pl腳本按提示多次“回車”直至顯示安裝成功的信息，再重啟系統(tǒng)即可。在完成上述操作后，為保障Hadoop集群各節(jié)點(diǎn)之間的無(wú)障礙通信，需關(guān)閉系統(tǒng)防火墻。在重啟系統(tǒng)后，在terminal終端輸入命令：sudo ufw disable當(dāng)顯示“Firewall stopped and disable on system startup”時(shí)表示防火墻已關(guān)閉，若后續(xù)服務(wù)部署過(guò)程中機(jī)器重啟無(wú)法實(shí)現(xiàn)節(jié)點(diǎn)之間的相互通信，可嘗試檢查防火墻是否關(guān)閉。2.3master節(jié)點(diǎn)的JDK安裝與配置由于Hadoop底層實(shí)現(xiàn)是用JAVA語(yǔ)言編寫(xiě)的，因此它的運(yùn)行離不開(kāi)JAVA運(yùn)行環(huán)境（JRE）的支持，這就需

8、要JDK。JDK有多個(gè)更新版本，安裝過(guò)程大致相同，這里選擇安裝最近更新的版本jdkl.8.0_20。先將安裝文件jdk-8u20-linux-i586.gz拷貝到master節(jié)點(diǎn)的目錄/home/hadoop/下，在終端輸入命令：tar xzvf jdk-8u20-linux-i586.gz進(jìn)行解壓安裝，此時(shí)會(huì)產(chǎn)生文件夾“jdk1.8.0_20”，所得的JDK安裝路徑為“/home/hadoop/jdk1.8.0_20”。安裝結(jié)束后打開(kāi)/etc/profile文件，配置JDK的class path：在terminal終端鍵入命令：sudo gedit /etc/profile打開(kāi)profile

9、文件，在文件末尾加上以下語(yǔ)句：#set java environmentexport JAVA_HOME=/home/hadoop/jdk1.8.0_20export JRE_HOME=/home/hadoop/jdk1.8.0_20/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH / /home/hadoop/是hadoop文件夾所在路徑，不可照抄，要以實(shí)際路徑為準(zhǔn)保存之后，在terminal終端輸入命令：source /et

10、c/profile使其生效。并鍵入命令java version查看是否配置成功，若出現(xiàn)如下信息，則表示java環(huán)境變量配置成功。java version "1.8.0_20"Java(TM) SE Runtime Environment (build 1.8.0_20-b26)Java HotSpot(TM) Client VM (build 25.20-b23, mixed mode)注：以上灰色背景標(biāo)注的文字表示的Linux命令，紅色字體顏色標(biāo)注的文本表示的需要寫(xiě)入的Hadoop環(huán)境配置文件中的信息，綠色字體顏色標(biāo)注的小5號(hào)文本表示注釋，下同2.4 master節(jié)點(diǎn)的h

11、adoop安裝與配置Hadoop的安裝是Hadoop平臺(tái)搭建的關(guān)鍵步驟，將從下載的安裝包hadoop-2.2.0.tar.gz拷貝到master節(jié)點(diǎn)目錄/home/hadoop/下，進(jìn)行解壓安裝，輸入命令：tar xzvf hadoop-2.2.0.tar.gz安裝完成后配置環(huán)境變量：在系統(tǒng)文件/etc/profile以及Hadoop的安裝目錄/home/hadoop/hadoop-2.2.0文件夾下的多個(gè)文件添加相應(yīng)的配置信息。2.4.1 添加環(huán)境變量打開(kāi)/etc/profile文件，在terminal終端鍵入命令：sudo gedit /etc/profi

12、le調(diào)出profile文件，在文件末尾加上：# set hadoop environmentexport HADOOP_HOME=/home/hadoop/hadoop-2.2.0export PATH=$HADOOP_HOME/bin:$PATHexport PATH=$HADOOP_HOME/sbin:$PATH然后保存，在終端鍵入命令source/etc/profile使其生效。異常處理1：?jiǎn)栴}：保存添加的環(huán)境變量并使其生效后，terminal可能會(huì)出現(xiàn)如下警告：(gedit:2949): Gtk-WARNING *: Attempting to set the permissions

13、of /root/.local/share/recently-used.xbel', but failed: No such file or directory(gedit:2949): Gtk-WARNING *: Attempting to store changes into /root/.local/share/recently-used.xbel', but failed: Failed to create file '/root/.local/share/recently-used.xbel.MN6R3V': No such file or dire

14、ctory(gedit:2949): Gtk-WARNING *: Attempting to set the permissions of /root/.local/share/recently-used.xbel', but failed: No such file or directory解決方法：只需直接在終端中輸入命令：sudo mkdir -p /root/.local/share/ ，創(chuàng)建警告信息中所提示的目錄即可。若無(wú)視警告重啟ubuntu后將會(huì)出現(xiàn)以下情況：輸入密碼無(wú)法進(jìn)入系統(tǒng)，一直處于輸入密碼后又跳轉(zhuǎn)回輸入密碼的界面。此時(shí)的解

15、決方法是：在輸入密碼界面同時(shí)按下alt+ctrl+F2進(jìn)入ubuntu命令模式，并使用root用戶及對(duì)應(yīng)密碼登陸系統(tǒng)，然后鍵入：/usr/bin/vi /etc/profile打開(kāi)etc/profile文件，找到最近在末尾加上的hadoop配置文件，按delete鍵刪除這些行，然后鍵入命令:wq?。ㄗ⒁獯颂幱忻疤?hào)，不可省略）保存文件。然后同時(shí)按下ctrl+alt+del重啟系統(tǒng)即可使系統(tǒng)恢復(fù)正常登陸，然后按照上述方法重新配置。2.4.2 目錄設(shè)置在普通用戶hadoop下創(chuàng)建hadoop的數(shù)據(jù)存儲(chǔ)目錄（若使用root用戶創(chuàng)建上述文件夾則會(huì)因權(quán)限問(wèn)題導(dǎo)致無(wú)法向這些文件夾中寫(xiě)入并讀取數(shù)據(jù)），可自行選

16、擇數(shù)據(jù)存儲(chǔ)的路徑，我們選擇在/home/hadoop/文件夾下創(chuàng)建dfs和tmp作為數(shù)據(jù)存儲(chǔ)與交換的目錄，并在dfs文件夾下創(chuàng)建name和data兩個(gè)子文件夾。分別執(zhí)行命令：mkdir /home/hadoop/dfs/name/創(chuàng)建/home/hadoop/下dfs的子文件夾namemkdir /home/hadoop/dfs/data/創(chuàng)建/home/hadoop/下dfs的子文件夾datamkdir /home/hadoop/tmp/創(chuàng)建/home/hadoop/tmp2.4.3 /home/hadoop/hadoop-2.2.0/etc/hadoop下配置文件的修改接下來(lái)在/home/

17、hadoop/hadoop-2.2.0/etc/hadoop目錄下需要修改以下文件的容：在slaves文件下分別寫(xiě)入三個(gè)slave節(jié)點(diǎn)的名稱，完成節(jié)點(diǎn)信息配置，并分別通過(guò)對(duì)hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、yarn-env.sh等文件分別進(jìn)行Hadoop核心文件配置、HDFS配置、Mapreduce配置和Yarn配置。對(duì)/home/hadoop/hadoop-2.2.0/etc/hadoop文件夾下的幾個(gè)文件做一定的修改，配置每個(gè)文件時(shí)先單擊文件右鍵，選擇“open with text

18、 editor”方式打開(kāi)，按照以下方式修改，需要配置的文件如下：（1）配置hadoop-env.sh文件，打開(kāi)該文件，檢索 “#export JAVA_HOME=$JAVA_HOME”文本，在該語(yǔ)句的下一行添加：export JAVA_HOME=/home/hadoop/jdk1.8.0_20這樣配置的目的是為Hadoop的守護(hù)進(jìn)程設(shè)置環(huán)境變量，讓Hadoop能夠獲取到JDK服務(wù)的支持。（2）配置slaves文件，打開(kāi)該文件，將其容修改為slave1、slave2、slave3。文件名打開(kāi)后，將其容修改為：slavesslave1slave2slave3（3）配置core-site.xml文件

19、，打開(kāi)該文件，在文件末尾添加以下語(yǔ)句。文件名打開(kāi)文件后，在其末尾添加語(yǔ)句：core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs:/02:9000</value></property><property><name>io.file.buffer.size</name><value>131072</value></property&g

20、t;<property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>xyuser.tan.hosts</name><value>*</value></p

21、roperty><property><name>xyuser.tan.groups</name><value>*</value></property></configuration>（4）配置hdfs-site.xml文件，打開(kāi)該文件，在文件末尾添加以下語(yǔ)句。文件名打開(kāi)文件后，在其末尾添加語(yǔ)句：hdfs-site.xml<configuration><property><name>node.secondary.http-address

22、</name><value>02:9001</value></property><property><name>.dir</name><value>file:/home/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/

23、dfs/data</value></property><property><name>dfs.replication</name><value>4</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property></configuration>注意：需要在hdfs-site.xml中配置dfs.repl

24、ication屬性時(shí)，dfs.replication屬性指定HDFS中文件塊復(fù)制的份數(shù)，其默認(rèn)值為3，當(dāng)datanode節(jié)點(diǎn)少于3臺(tái)便會(huì)報(bào)錯(cuò)。在一般情況下，當(dāng)其屬性值為3的時(shí)候，HDFS的部署策略是在本地機(jī)柜中一個(gè)節(jié)點(diǎn)放置一個(gè)備份，在本地機(jī)柜的不同結(jié)點(diǎn)再放置一個(gè)備份，然后再在另一個(gè)機(jī)柜中的一個(gè)結(jié)點(diǎn)放置一個(gè)備份。（5）配置mapred-site.xml文件。事實(shí)上在進(jìn)行配置之前，mapred-site.xml文件默認(rèn)并不存在，需要首先將該目錄下的mapred-site.xml.template文件進(jìn)行復(fù)制，并重命名為mapred-site.xml，接下來(lái)打開(kāi)mapred-site.xml，添加

25、以下語(yǔ)句。文件名打開(kāi)文件后，在其末尾添加語(yǔ)句：mapred-site.xml<configuration><property> <name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>02:10020</value> </proper

26、ty><property><name>mapreduce.jobhistory.webapp.address</name><value>02:19888</value></property></configuration>（6）配置yarn-site.xml文件，打開(kāi)該文件，在文件末尾添加以下語(yǔ)句。文件名打開(kāi)文件后，在其末尾添加語(yǔ)句：yarn-site.xml</configuration><!- Site specific YARN configuration p

27、roperties -><property> <name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</va

28、lue></property><property><name>yarn.resourcemanager.address</name><value>02:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>02:8030</value></property><

29、property><name>yarn.resourcemanager.resource-tracker.address</name><value>02:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>02:8033</value></property> <property>&l

30、t;name>yarn.resourcemanager.webapp.address</name><value>02:8088</value></property></configuration>（7）配置yarn-env.sh文件，打開(kāi)該文件，檢索“# export JAVA_HOME=/home/y/libexec/jdk1.6.0/”語(yǔ)句，在該語(yǔ)句下一行添加：export JAVA_HOME=/home/hadoop/jdk1.8.0_20通過(guò)對(duì)上述文件的修改，完成對(duì)Hadoop的配置。事實(shí)上，配置過(guò)

31、程并不復(fù)雜，一般而言，除了規(guī)定的端口、IP地址、文件的存儲(chǔ)位置外，其他配置都不是必須修改的，可以根據(jù)需要決定是采用默認(rèn)配置還是自行修改。還有一點(diǎn)需要注意的是以上配置都被默認(rèn)為最終參數(shù)，這些參數(shù)都不可以在程序中被再次修改。2.5 Hadoop集群的部署與各節(jié)點(diǎn)的通信2.5.1安裝SSH服務(wù)通過(guò)建立SSH無(wú)密碼互訪，可以實(shí)現(xiàn)Hadoop虛擬機(jī)群之間的無(wú)密碼登錄互訪。在安裝SSH服務(wù)之前，首先需要更新軟件源，并保證每臺(tái)機(jī)器上都安裝了SSH服務(wù)器，且都能正常啟動(dòng)。更新軟件源命令為：sudo apt-get update軟件源更新完畢后，在terminal輸入如下命令開(kāi)始安裝openssh-server

32、：sudo apt-get install openssh-server輸入如下命令，檢查openssh-server是否成功安裝：which ssh如顯示/usr/bin/ssh表示ssh安裝成功which sshd如顯示/usr/bin/sshd表示sshd安裝成功如果以上二者都成功顯示，表示open-server安裝成功2.5.2 克隆虛擬機(jī)作為Slave節(jié)點(diǎn)將上面配置好的虛擬機(jī)作為master，關(guān)閉作為master的ubuntu系統(tǒng)，然后修改虛擬機(jī)的網(wǎng)絡(luò)連接設(shè)置，改為“橋接模式”，即在master虛擬機(jī)主界面點(diǎn)擊“虛擬機(jī)設(shè)置硬件網(wǎng)絡(luò)適配器”，在彈出的對(duì)話的“網(wǎng)絡(luò)連接”項(xiàng)目下選擇“橋接模

33、式(B)”此舉的目的在于使主節(jié)點(diǎn)和各從節(jié)點(diǎn)都能連上網(wǎng)絡(luò)，從而使各臺(tái)機(jī)器之間能夠互訪。接下來(lái)對(duì)master進(jìn)行克隆，得到slave1、slave2、slave3的雛形，即點(diǎn)擊VM菜單下的“虛擬機(jī)管理克隆”，進(jìn)入克隆虛擬機(jī)的向?qū)Ы缑?，根?jù)向?qū)崾?，在“克隆類型”引?dǎo)界面選擇“創(chuàng)建完整克隆”，具體設(shè)置如下圖所示：然后輸入被克隆的虛擬機(jī)名稱，先暫輸入slave1，點(diǎn)擊確認(rèn)進(jìn)行克隆，將克隆好的系統(tǒng)復(fù)制到除master之外的三臺(tái)PC節(jié)點(diǎn)上，用虛擬機(jī)VMware識(shí)別并將其啟動(dòng)，并在虛擬機(jī)啟動(dòng)界面點(diǎn)擊“虛擬機(jī)設(shè)置選項(xiàng)常規(guī)”設(shè)置中，分別修改虛擬機(jī)名稱為slave1、slave2和slave3，如下圖所示。2.5

34、.3 設(shè)置IP地址在Hadoop平臺(tái)上，各個(gè)節(jié)點(diǎn)之間的互訪是基于TCP/IP協(xié)議的，所以要為各個(gè)節(jié)點(diǎn)分配IP地址。在四個(gè)PC節(jié)點(diǎn)上，點(diǎn)擊桌面右上角從左到右的第一個(gè)數(shù)據(jù)連接圖標(biāo)在下拉菜單中選擇最后一項(xiàng)“Edit Connections”在彈出的“Network Connections”框中選擇“Edit”，顯示“Editing Ethernet connection1”框，點(diǎn)擊“IPv4Settings”將彈出的Method選擇框設(shè)置為Manual，然后添加IP地址。添加同一網(wǎng)關(guān)的IP地址、子網(wǎng)掩碼、默認(rèn)網(wǎng)關(guān)，目的是讓各個(gè)節(jié)點(diǎn)機(jī)器能夠互訪。需要注意的是在設(shè)置IP地址時(shí)，需要首先在DNS serv

35、ers輸入相應(yīng)的IP地址，否則無(wú)法填寫(xiě)“Addresses”項(xiàng)容。因此，我們將DNS服務(wù)器（DNS servers）地址設(shè)置為：66，接下來(lái)將master節(jié)點(diǎn)的IP地址（Address）設(shè)置為：02，子網(wǎng)掩碼(Netmask)設(shè)置為：，默認(rèn)網(wǎng)關(guān)（Gateway）設(shè)置為：。用同樣的方法，將虛擬機(jī)salve1的IP地址設(shè)置為：66（DNS服務(wù)器）；04（IP地址）；（子網(wǎng)掩碼）；（網(wǎng)關(guān)），將slave2的IP地址

36、設(shè)置為：66（DNS服務(wù)器）；05（IP地址）；（子網(wǎng)掩碼）；（網(wǎng)關(guān)），將slave3的IP地址設(shè)置為：66（DNS服務(wù)器）；06（IP地址）；（子網(wǎng)掩碼）；（網(wǎng)關(guān)）。2.5.4 修改機(jī)器名通過(guò)克隆得到的ubuntu系統(tǒng)有相同的機(jī)器名，所以要修改加載在各虛擬機(jī)中的系統(tǒng)名稱，來(lái)區(qū)分不同的節(jié)點(diǎn)，以便后期操作。在master機(jī)器上打開(kāi)etc/hostname文件，命令為：sudo gedit /etc/hostna

37、me將etc/hostname文件容修改為master用同樣的方法分別在剛剛克隆得到的slave1、slave2和slave3上，修改其機(jī)器名：將slave1的機(jī)器名修改為slave1將slave2的機(jī)器名修改為slave2將slave3的機(jī)器名修改為slave32.5.5修改hosts文件通過(guò)修改hosts文件可以實(shí)現(xiàn)機(jī)器名和IP地址之間的映射，在master節(jié)點(diǎn)上，打開(kāi)文件/etc/hosts，命令為：sudo gedit /etc/hosts將/etc/hosts文件修改為02 master04 slave105 slav

38、e2 06 slave3用同樣的方法，在slave1、 slave2和slave3機(jī)器上修改如上hosts文件，映射配置與master一致。配置完成后重啟master和slave1、 slave2和slave3使其生效。2.5.6 建立SSH無(wú)密碼互訪通過(guò)建立SSH無(wú)密碼互訪，可以實(shí)現(xiàn)Hadoop虛擬機(jī)集群之間的無(wú)密碼登陸互訪。首先在4臺(tái)機(jī)器上均生成秘鑰對(duì)，并將slave1、slave2和slave3分別所生成的公鑰id_rsa.pub進(jìn)行重命名后發(fā)送到master機(jī)器上，由master將自身所生成的公鑰與其它三臺(tái)slave節(jié)點(diǎn)發(fā)送過(guò)來(lái)的公鑰合并到一個(gè)文件中，重新分發(fā)給三

39、臺(tái)slave節(jié)點(diǎn)。對(duì)于不同的機(jī)器執(zhí)行對(duì)應(yīng)的操作如下：（1）master生成密鑰對(duì)ssh-keygen -t rsa / 按提示直接回車此時(shí)，在目錄/home/hadoop/.ssh/(隱藏的文件夾)下生成兩個(gè)文件id_rsa 和 id_rsa.pub（2）slave1生成密鑰對(duì)，重命名公鑰，并將其發(fā)送到maser在終端terminal輸入如下命令：ssh-keygen -t rsa/ 按提示直接回車在目錄/home/hadoop/.ssh/(隱藏的文件夾)下生成兩個(gè)文件id_rsa 和 id_rsa.pub，并重命名公鑰id_rsa.pub為id_rsa_slave1.pub，執(zhí)行命令：scp

40、 /.ssh/id_rsa_slave1.pub將重命名后的文件都復(fù)制到master機(jī)，命令如下：scp /.ssh/id_rsa_slave1.pub hadoopmaster:/home/hadoop/.ssh/（3）slave2生成密鑰對(duì)，重命名公鑰，并將其發(fā)送到maserslave2執(zhí)行與slave1類似的命令：ssh-keygen -t rsa/ 按提示直接回車mv id_rsa.pub id_rsa_slave2.pub scp /.ssh/id_rsa_slave2.pub hadoopmaster:/home/hadoop/.ssh/（4）slave3生成密鑰對(duì)，重命名公鑰，并

41、將其發(fā)送到maserslave3也執(zhí)行與slave1類似的操作：ssh-keygen -t rsa/ 按提示直接回車mv id_rsa.pub id_rsa_slave3.pub scp /.ssh/id_rsa_slave3.pub hadoopmaster:/home/hadoop/.ssh/（5）master合并公鑰，重新分發(fā)給各slave節(jié)點(diǎn)在master機(jī)器的/home/hadoop/.ssh/文件夾中重命名秘鑰文件，命令如下：mv id_rsa.pub authorized_keys 然后把每臺(tái)slave機(jī)器發(fā)過(guò)來(lái)的文件合并到authorized_keys，命令如下：cat id_

42、rsa_slave1.pub >> authorized_keyscat id_rsa_slave2.pub >> authorized_keyscat id_rsa_slave3.pub >> authorized_keys最后把合成的authorized_keys發(fā)給每臺(tái)slave機(jī)器：scp authorized_keys hadoopslave1:/home/hadoop/.ssh/authorized_keysscp authorized_keys hadoopslave2:/home/hadoop/.ssh/authorized_keysscp

43、authorized_keys hadoopslave3:/home/hadoop/.ssh/authorized_keys（6）節(jié)點(diǎn)間無(wú)密碼互訪測(cè)試在任意機(jī)器上輸入命令訪問(wèn)另一臺(tái)機(jī)器，命令如下：ssh slave1如果返回 ”Agent admitted failure to sign using the key“，不能連接到slave1，此時(shí)可輸入命令：ssh-agent使ssh-agent處于運(yùn)行狀態(tài)。再將id_rsa添加到ssh-agent中，命令為：ssh-add id_rsa2.6啟動(dòng)Hadoop2.6.1 啟動(dòng)HDFS（1）初始化namenode在運(yùn)行Hadoop平臺(tái)之前，要在m

44、aster上格式化文件系統(tǒng)，建立HDFS。切換至hadoop用戶，進(jìn)入/home/hadoop/hadoop-2.2.0/bin，初始化Namenode，執(zhí)行命令如下：cd /home/hadoop/hadoop-2.2.0/binhdfs namenode format/ 初始化namenode 格式化會(huì)產(chǎn)生多條信息，其中倒數(shù)第三行如果出現(xiàn)：.Storage directory /home/hadoop/hdfs/namehas been successfully formatted，則說(shuō)明格式化HDFS成功，初始化完成之后會(huì)自動(dòng)的在/home/hdoop/hadoop-2.2.0/創(chuàng)建df

45、s/name/目錄。（2）測(cè)試啟動(dòng)HDFS在hadoop用戶下，啟動(dòng)namenode，執(zhí)行命令：hadoop-daemon.sh start namenode；啟動(dòng)datanode，執(zhí)行命令：hadoop-daemon.sh start datanode。當(dāng)namenode與datanode均啟動(dòng)之后，可使用jps命令查看進(jìn)程，命令如下：jps當(dāng)同時(shí)看到下列進(jìn)程時(shí)，標(biāo)明hadoop正常運(yùn)行：3588 NameNode3692 DataNode3757 Jps如上述進(jìn)程啟動(dòng)過(guò)程正常，則可啟動(dòng)HFS。在hadoop用戶下，切換至/home/hadoop/hadoop-2.2.0/sbin目錄下，執(zhí)

46、行命令：cd /home/hadoop/hadoop-2.2.0/sbin執(zhí)行腳本./start-dfs.sh，啟動(dòng)HDFS在上述目錄下執(zhí)行腳本文件start-dfs.sh，命令為：./start-dfs.sh，使用jps命令查看進(jìn)程，終端顯示：4177 SecondaryNameNode3588 NameNode3692 DataNode4285 Jps其中master產(chǎn)生SecondaryNameNode和NameNode進(jìn)程，slave節(jié)點(diǎn)產(chǎn)生DataNode進(jìn)程。2.6.2 啟動(dòng)YARN在hadoop用戶下，切換至/home/hadoop/hadoop-2.2.0/sbin目錄下，執(zhí)行

47、命令：cd /home/hadoop/hadoop-2.2.0/sbin執(zhí)行腳本./start-yarn.sh，啟動(dòng)YARN在terminal終端輸入命令：./start-yarn.sh，執(zhí)行腳本文件start-yarn.sh，使用jps命令查看master節(jié)點(diǎn)進(jìn)程時(shí)，終端顯示：4177 SecondaryNameNode4660 Jps3588 NameNode4411 ResourceManager3692 DataNode其中master產(chǎn)生ResourceManager、NameNode和SecondaryNameNode進(jìn)程，同時(shí)輸入jps命令在slave節(jié)點(diǎn)進(jìn)行進(jìn)程查看時(shí)終端顯示：

48、3329 DataNode3670 Jps3484 NodeManager可知slave節(jié)點(diǎn)上產(chǎn)生DataNode和NodeManager進(jìn)程。異常處理2：?jiǎn)栴}：Hadoop啟動(dòng)發(fā)生異常，有些進(jìn)程不能被啟動(dòng)。解決方法：執(zhí)行命令./stop-dfs.sh、./ stop-yarn.sh或直接執(zhí)行./ stop-all.sh命令關(guān)閉進(jìn)程后，清空/home/hadoop/dfs和 /home/hadoop/dfs文件夾中的數(shù)據(jù)，并重新執(zhí)行格式化，命令如下：rm -rf /home/hadoop/dfs/rm -rf /home/hadoop/tmphdfs namenode format異常處理3：

49、問(wèn)題：slave 節(jié)點(diǎn) DataNode 無(wú)法啟動(dòng)。解決方法：a、系統(tǒng)防火墻沒(méi)有關(guān)閉：執(zhí)行命令sudo ufw disable關(guān)閉防火墻；b、所有節(jié)點(diǎn) hosts 鏈表不統(tǒng)一，或有錯(cuò)誤：重新檢查IP地址與機(jī)器名之間的對(duì)應(yīng)關(guān)系，檢查hadoop的配置文件中是否發(fā)生IP地址的書(shū)寫(xiě)錯(cuò)誤；c、多次 format namenode 造成 namenode 和 datanode 的 clusterID 不一致：更改 slave Cluster ID 使其與master 相同，修改每一個(gè)datanode 上面的CID(位于 home/hadoop/dfs/data/current/VERSION 文件夾中

50、)使兩者一致；刪除所有節(jié)點(diǎn)/home/hadoop/dfs/data/下 curren目錄，重新運(yùn)行腳本start-dfs.sh即可。2.7Hadoop平臺(tái)測(cè)試在Hadoop平臺(tái)搭建完成后，我們要對(duì)Hadoop平臺(tái)進(jìn)行測(cè)試。在Hadoop的安裝目錄下，提供了一個(gè)單詞統(tǒng)計(jì)程序WordCount。WordCount程序運(yùn)行于Hadoop計(jì)算平臺(tái)之上，充分利用了MapReduce和HDFS。它可以對(duì)文件中單詞出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)，然后給出統(tǒng)計(jì)結(jié)果。我們通過(guò)運(yùn)行WordCount程序，可以檢測(cè)Hadoop平臺(tái)是否能夠正常運(yùn)行。（1）在HDFS上建立相應(yīng)的目錄和相應(yīng)的文本文件在/home/hadoop/目錄

51、下建立文件夾input，并進(jìn)入文件夾input，執(zhí)行命令如下：mkdir /home/hadoop/inputcd /home/hadoop/input建立文件file01和file02，并分別寫(xiě)入要統(tǒng)計(jì)的容，命令如下：echo "hello world bye world" > file01/ 寫(xiě)容到文件file01中echo "hello hadoop goodbye hadoop" >file02/ 寫(xiě)容到文件file02中（2）在HDFS上建立文件夾input，將file01和file02上傳至hdfs的input文件夾，執(zhí)行命令如下

52、：cd /home/hadoop/inputhadoop fs -mkdir input/創(chuàng)建HDFS的input文件夾hadoop fs -put * input/將/home/hadoop/input目錄下的文件上傳到HDFS的input文件夾hadoop fs -ls input /查看HDFS的input文件夾下文件的狀態(tài)當(dāng)終端顯示：-rw-r-r- 4 hadoop supergroup 22 2014-09-03 21:43 input/file01-rw-r-r- 4 hadoop supergroup 28 2014-09-03 21:43 input/file02則表示文件上

53、傳到HDFS成功（3）運(yùn)行WordCount程序進(jìn)入目錄/home/hadoop/hadoop-2.2.0/share/hadoop/mapreduce，然后執(zhí)行WordCount程序，命令如下：cd /home/hadoop/hadoop-2.2.0/share/hadoop/mapreduce/進(jìn)入目錄hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount input output/執(zhí)行Wordcount程序終端會(huì)產(chǎn)生較多的系統(tǒng)運(yùn)行信息，若顯示如下信息：14/09/09 04:56:18 INFO mapreduce.Job: ma

54、p 0% reduce 0%14/09/09 04:56:29 INFO mapreduce.Job: map 100% reduce 0%14/09/09 04:56:38 INFO mapreduce.Job: map 100% reduce 100%14/09/09 04:56:38 INFO mapreduce.Job: Job job_07_0001 pleted successfully14/09/09 04:56:38 INFO mapreduce.Job: Counters: 43表明程序在運(yùn)行過(guò)程中執(zhí)行mapreduce分布式編程模式。（4）程序的運(yùn)行結(jié)果輸出WordCoun

55、t程序運(yùn)行完成后，統(tǒng)計(jì)的結(jié)果會(huì)輸出到HDFS的output 文件夾下的part-r-00000文件中。輸入以下命令可以查看單詞的統(tǒng)計(jì)結(jié)果：hadoop fs -cat output/part-r-00000在terminal終端顯示的輸出結(jié)果為：bye1goodbye1hadoop2hello2world2從結(jié)果中可以看到，Hadoop集群能夠成功地將文件file01和file02中各單詞出現(xiàn)的次數(shù)統(tǒng)計(jì)出來(lái)，說(shuō)明Hadoop平臺(tái)能夠成功運(yùn)行。三、其它各分布式服務(wù)的安裝和配置3.1 Zookeeper的安裝與配置Zookeeper是一個(gè)分布式開(kāi)源框架，提供了協(xié)調(diào)分布式應(yīng)用的基本服務(wù)，它向外部應(yīng)用

56、暴露一組通用服務(wù)分布式同步、命名服務(wù)、集群維護(hù)等，簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度，提供高性能的分布式服務(wù)。同時(shí)，分布式運(yùn)行的HBase（Hadoop分布式數(shù)據(jù)庫(kù)）離不開(kāi)Hadoop協(xié)調(diào)工作系統(tǒng)Zookeeper的支持，事實(shí)上，HBase本身置Zookeeper，但由于自帶Zookeepke的 HBase重啟時(shí)會(huì)順帶重啟Zookeeper，致使其它依賴Zookeeper的組件無(wú)常工作。因此需要安裝與HBase置的版本一致的Zookeeper。3.1.1 Zookeeper的解壓安裝將下載好的安裝包zookeeper-3.4.5.tar.gz拷貝到master節(jié)點(diǎn)目錄/home/hadoop/下

57、，輸入命令：tar xzvf zookeeper-3.4.5.tar.gz，進(jìn)行解壓安裝，此時(shí)會(huì)產(chǎn)生文件夾“zookeeper-3.4.5”。安裝完成后配置環(huán)境變量：在系統(tǒng)目錄文件/etc/profile以及zookeeper的安裝目錄/home/hadoop/ zookeeper-3.4.5/conf文件夾下的多個(gè)文件添加相應(yīng)的配置信息。3.1.2 添加環(huán)境變量打開(kāi)/etc/profile文件，在terminal終端鍵入命令：sudo gedit /etc/profile調(diào)出profile文件，在文件末尾加上：# set zookeeper environmentexport ZOOKEEP

58、ER_HOME=/home/hadoop/zookeeper-3.4.5export PATH=$ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf:$PATH然后保存，在終端鍵入命令source/etc/profile使其生效。3.1.3 /home/hadoop/zookeeper-3.4.5下配置文件的修改Zookeeper集群環(huán)境下只要一半以上的機(jī)器能夠正常啟動(dòng)，那么Zookeeper服務(wù)將是可用的。因此，集群上部署Zookeeper最好使用奇數(shù)臺(tái)機(jī)器，現(xiàn)搭建Hadoop集群共使用4臺(tái)PC節(jié)點(diǎn)，只要3臺(tái)正常工作便可正常提供服務(wù)，我們?cè)谌_(tái)slave節(jié)點(diǎn)上部署

59、Zookeeper服務(wù)。接下來(lái)將對(duì)Zookeeper的配置文件參數(shù)進(jìn)行設(shè)置：（可以先在一臺(tái)機(jī)器slave1上配置，然后再分發(fā)給slave2和slave3）。進(jìn)入/home/hadoop/zookeeper-3.4.5/conf目錄，復(fù)制該目錄下的文件zoo_sampel.cfg并重命名為zoo.cfg，在terminal終端執(zhí)行命令：cd /home/hadoop/zookeeper-3.4.5/confcp zoo_sample.cfg zoo.cfg接下來(lái)打開(kāi)zoo.cfg 文件，添加以下語(yǔ)句：（1）在文件中檢索關(guān)鍵字“dataDir”，將等號(hào)“=”后的目錄修改為：/home/hadoop/ zookeeper-3.4.5/zkdata，即配置：dataDir=/home/hadoop/ zookeeper-3.4.5/zkdata（2）在文件末尾添加如下語(yǔ)句：server.1=slave1:2888:3888ser

人人文庫(kù)> 全部分類> 教育資料 > 課設(shè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Hadoop云計(jì)算平臺(tái)搭建方案2.1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Hadoop云計(jì)算平臺(tái)搭建方案2.1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔