Hadoop大數(shù)據(jù)處理技術(shù)基礎與實踐(第3版)課件 第2章-Hadoop 安裝與配置管理_第1頁
Hadoop大數(shù)據(jù)處理技術(shù)基礎與實踐(第3版)課件 第2章-Hadoop 安裝與配置管理_第2頁
Hadoop大數(shù)據(jù)處理技術(shù)基礎與實踐(第3版)課件 第2章-Hadoop 安裝與配置管理_第3頁
Hadoop大數(shù)據(jù)處理技術(shù)基礎與實踐(第3版)課件 第2章-Hadoop 安裝與配置管理_第4頁
Hadoop大數(shù)據(jù)處理技術(shù)基礎與實踐(第3版)課件 第2章-Hadoop 安裝與配置管理_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第2章Hadoop安裝與配置管理1掌握集群安裝過程原理熟悉SSH免密碼登錄原理了解Hadoop的關(guān)鍵配置選項

掌握動態(tài)管理節(jié)點方法學習目標28/21/2024參考書38/21/2024準備與配置安裝環(huán)境48/21/2024安裝虛擬機和Linux,虛擬機推薦使用vmware,PC可以使用workstation,服務器可以使用ESXi,在管理上比較方便。ESXi還可以通過拷貝鏡像文件復制虛擬機,復制后自動修改網(wǎng)卡號和ip,非??旖?。如果只是實驗用途,硬盤大約預留20-30G空間。以Centos為例,分區(qū)可以選擇默認,安裝選項選擇DesktopGnome,以及Server、ServerGUI即可。其它Linux,注意選項里應包括ssh,vi(用于編輯配置文件),perl等(有些腳本里包含perl代碼需要解析)到Oracle官網(wǎng)下載javajdk安裝包,并且進行安裝集群的概念58/21/2024計算機集群是一種計算機系統(tǒng),

它通過一組松散集成的計算機軟件和/或硬件連接起來高度緊密地協(xié)作完成計算工作。集群系統(tǒng)中的單個計算機通常稱為節(jié)點,通常通過局域網(wǎng)連接。集群技術(shù)的特點:通過多臺計算機完成同一個工作。達到更高的效率兩機或多機內(nèi)容、工作過程等完全一樣。如果一臺死機,另一臺可以起作用三種運行模式68/21/2024單機模式:安裝簡單,幾乎不用作任何配置,但僅限于調(diào)試用途

偽分布模式:在單節(jié)點上同時啟動namenode、datanode、jobtracker、tasktracker、secondarynamenode等5個進程,模擬分布式運行的各個節(jié)點完全分布式模式:正常的Hadoop集群,由多個各司其職的節(jié)點構(gòu)成機器分配78/21/2024機器名偽分布式模式的安裝和配置步驟88/21/2024

下載并解壓Hadoop安裝包

進入Hadoop的解壓目錄,編輯conf/hadoop-env.sh文件(注意不同版本后配置文件的位置有所變化)編輯conf目錄下core-site.xml、hdfs-site.xml和mapred-site.xml三個核心配置文件配置ssh,生成密鑰,使到ssh可以免密碼連接localhost格式化HDFS使用bin/start-all.sh啟動Hadoop使用bin/stop-all.sh關(guān)閉HadoopStep1:各服務器安裝JDK98/21/2024上傳jdk-6u24-linux-i586.bin(下載的jdk文件)到/home/#cd/home/#./jdk-6u24-linux-i586.bin#mvjdk-6u24-linux-i586.binjdk#vi/etc/profile,在文件尾部添加exportJAVA_HOME=/home/jdkexportPATH=$JAVA_HOME/bin:$PATH保存退出#source/etc/profile#java-versionStep2:各服務器的網(wǎng)絡設置108/21/2024修改機器名#hostname<機器名>#vi/etc/sysconfig/networkHOSTNAME=<機器名>保存退出,重啟修改/etc/hosts修改/etc/sysconfig/network-scripts/相應的網(wǎng)絡配置關(guān)閉防火墻#serviceiptablesstopifcfg-eth0文件參考:DEVICE="eth0"BOOTPROTO="static"ONBOOT="yes"TYPE="Ethernet"IPADDR=40PREFIX=24GATEWAY=hosts文件參考:40hadoop041hadoop142hadoop243hadoop3C:\WINDOWS\system32\drivers\etc\hostsStep3:SSH免密碼登錄118/21/2024從namenode到本身及各datanode免密碼登錄在各機器上執(zhí)行#ssh-keygen-b1024-trsa一路回車在~/.ssh/生成文件id_rsaid_rsa.pub在namenode機器上執(zhí)行:#cd~/.ssh/#scpid_rsa.pubroot@<各datanode的IP>:/home在各datanode機器上執(zhí)行:#cd/home/#catid_rsa.pub>>/root/.ssh/authorized_keys

Hadoop運行過程中需要管理遠端Hadoop守護進程,在Hadoop啟動以后,NameNode是通過SSH(SecureShell)來無密碼登錄啟動和停止各個DataNode上的各種守護進程的同樣原理,DataNode上也能使用SSH無密碼登錄到NameNode。Step4:在namenode安裝Hadoop128/21/2024用軟件上傳hadoop文件到節(jié)點/home/hadoop目錄解壓文件#cd/home#tar-zxvfhadoop-*.tar.gz#mvhadoop-*hadoop修改/etc/profile#vi/etc/profileexportJAVA_HOME=/home/javaexportHADOOP_HOME=/home/hadoopexportPATH=$JAVA_HOME/bin:$PATH::$HADOOP_HOME/bin保存退出#source/etc/profileStep5:修改Hadoop的配置文件138/21/2024Step5:修改Hadoop的配置文件148/21/2024修改conf/hadoop-env.shexportJAVA_HOME=/home/javaexportHADOOP_HEAPSIZE=1024exportHADOOP_PID_DIR=/home/hadoop/pids保存退出配置conf/core-site.xml,增加以下內(nèi)容<property><name></name><value>hdfs://hadoop0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property>Step5:修改Hadoop的配置文件158/21/2024配置conf/hdfs-site.xml<property><name>dfs.replication</name><value>2</value></property><property><name>dfs.hosts.exclude</name><value>/home/hadoop/conf/excludes</value></property>配置conf/mapred-site.xml<property><name>mapred.job.tracker</name><value>hdfs://hadoop0:9001/</value></property>Step5:修改Hadoop的配置文件168/21/2024配置conf/mastersHadoop0配置conf/slaveshadoop1hadoop2hadoop3Step6:復制hadoop到各datanode并修改178/21/2024把hadoop0的hadoop目錄、jdk目錄、/etc/hosts、/etc/profile復制到hadoop1,hadoop2、hadoop3節(jié)點#cd$HADOOP_HOME/..#scp-rhadoophadoop1:/home#scp-rhadoophadoop2:/home#scp-rhadoophadoop3:/homeStep7:啟動/停止Hadoop集群188/21/2024在hadoop0上第一次啟動Hadoop,必須先格式化namenode#cd$HADOOP_HOME/bin#hadoopnamenode–format啟動Hadoop#cd$HADOOP_HOME/bin#./start-all.sh如果啟動過程,報錯safemode相關(guān)的Exception執(zhí)行命令#hadoopdfsadmin-safemodeleave然后再啟動Hadoop停止Hadoopcd$HADOOP_HOME/bin#./stop-all.sh終端查看集群狀態(tài):#hadoopdfsadmin-report增加節(jié)點198/21/20241.修改新節(jié)點的/etc/hosts,增加namenode的主機名與IP2.修改namenode的配置文件conf/slaves添加新增節(jié)點的ip或host3.在新節(jié)點的機器上,啟動服務#cd$HADOOP_HOME/bin#./hadoop-daemon.shstartdatanode#./hadoop-daemon.shstarttasktracker4.在NameNode節(jié)點執(zhí)行#hadoopdfsadmin-refreshNodes5.均衡block在新節(jié)點上執(zhí)行(如果是增加多個節(jié)點,只需在一個新節(jié)點)#cd$HADOOP_HOME/bin#./start-balancer.sh注意事項:1.必須確保slave的firewall已關(guān)閉;2.確保新的slave的ip已經(jīng)添加到master及其他slaves的/etc/hosts中,反之也要將master及其他slave的ip添加到新的slave的/etc/hosts中刪除節(jié)點208/21/2024在hadoop0上修改conf/hdfs-site.xml文件<property>

<name>dfs.hosts.exclude</name>

<value>/usr/local/hadoop/conf/excludes</value></property>確定要下架的機器dfs.hosts.exclude定義的文件內(nèi)容為,每個需要下線的機器,一行一個。強制重新加載配置#hadoopdfsadmin-refreshNodes關(guān)閉節(jié)點

hadoopdfsadmin-report可以查看到現(xiàn)在集群上連接的節(jié)點正在執(zhí)行Decommission,會顯示:

DecommissionStatus:Decommissioninprogress執(zhí)行完畢后,會顯示:

DecommissionStatus:Decommissioned再次編輯excludes文件一旦完成了機器下架,它們就可以從excludes文件移除了登錄要下架的機器,會發(fā)現(xiàn)DataNode進程沒有了,但是TaskTracker依然存在,需要手工處理一下安全模式218/21/2024在分布式文件系統(tǒng)啟動的時候,開始的時候會有安全模式,當分布式文件系統(tǒng)處于安全模式的情況下,文件系統(tǒng)中的內(nèi)容不允許修改也不允許刪除,直到安全模式結(jié)

束。安全模式主要是為了系統(tǒng)啟動的時候檢查各個DataNode上數(shù)據(jù)塊的有效性,同時根據(jù)策略必要的復制或者刪除部分數(shù)據(jù)塊。運行期通過命令也可以進入

安全模式。在實踐過程中,系統(tǒng)啟動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示,只需要等待一會兒即可。NameNode在啟動的時候首先進入安全模式,如果datanode丟失的block達到一定的比例(1-dfs.safemode.threshold.pct),則系統(tǒng)會一直處于安全模式狀態(tài)即只讀狀態(tài)。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS啟動的時候,如果DataNode上報的block個數(shù)達到了

元數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論