版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Spark大數(shù)據(jù)環(huán)境安裝搭建項目實施安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建Hadoop集群Hadoop的安裝搭建方式有3種,如下表。方式說明單機模式Hadoop默認模式為非分布式模式(本地模式),無須進行其他配置即可運行。訪問的是本地磁盤,而不是HDFS偽分布式模式Hadoop可以在單節(jié)點上以偽分布式的方式運行,節(jié)點既作為NameNode也作為DataNode,同時,讀取的是HDFS中的文件完全分布式模式使用多個節(jié)點構成集群環(huán)境來運行Hadoop安裝搭建Hadoop集群為貼近真實的生產環(huán)境,建議搭建完全分布式模式的Hadoop集群環(huán)境。因此,本章將介紹在個人計算機上安裝配置虛擬機,在虛擬機中搭建Hadoop完全分布式環(huán)境的完整過程。為了保證能夠順暢地運行Hadoop集群,并能夠進行基本的大數(shù)據(jù)開發(fā)調試,建議個人計算機硬件的配置如下。內存至少8GB。硬盤可用容量至少100GB。CPU為Inteli5以上的多核(建議八核及以上)處理器。安裝搭建Hadoop集群在搭建Hadoop完全分布式集群前,需提前準備好必要的軟件安裝包。軟件安裝包及其版本說明如下表。軟件版本安裝包名稱備注LinuxOSCentOS7.8CentOS-7-x86_64-DVD-2003.iso64位JDK1.8+jdk-8u281-linux-x64.rpm64位VMware16VMware-workstation-full-16.1.0-17198959.exe虛擬機軟件Hadoop3.1.4hadoop-3.1.4.tar.gz已編譯好的安裝包SSH連接工具7Xftp-7.0.0111p.exe、Xshell-7.0.0113p.exe遠程連接虛擬機安裝搭建Hadoop集群Hadoop完全分布式集群是主從架構,一般需要使用多臺服務器組建。本書中使用的Hadoop集群拓撲結構如下圖。需注意各個服務器的IP與名稱,在后續(xù)的集群配置過程中將會經常被使用。創(chuàng)建Linux虛擬機VMwareWorkstation(簡稱VMware)是一款功能強大的虛擬機軟件,在不影響本機操作系統(tǒng)的情況下,用戶可以在虛擬機中同時運行不同版本的操作系統(tǒng)。從VMware官網中下載VMware安裝包,安裝包名稱為VMware-workstation-full-16.1.0-17198959.exe。安裝VMwareWorkstation的過程比較簡單,雙擊下載的VMware安裝包,選擇安裝的目錄,再單擊“下一步”按鈕,繼續(xù)安裝,之后輸入產品序列號,即可成功安裝VMware軟件。創(chuàng)建Linux虛擬機打開VMware軟件,在VMware上安裝CentOS7.8版本的Linux操作系統(tǒng),基本流程如下圖。創(chuàng)建Linux虛擬機創(chuàng)建Linux虛擬機具體安裝步驟如下。創(chuàng)建新的虛擬機。打開安裝好的VMware軟件,進入VMware主界面,選擇“創(chuàng)建新的虛擬機”選項,如下圖。創(chuàng)建Linux虛擬機選擇虛擬機的配置類型。彈出“新建虛擬機向導”對話框,選擇“典型”模式,如右圖,再單擊“下一步”按鈕。創(chuàng)建Linux虛擬機選擇安裝客戶機操作系統(tǒng)的來源。安裝客戶機操作系統(tǒng),選擇“稍后安裝操作系統(tǒng)”按鈕,如右圖,單擊“下一步”按鈕。創(chuàng)建Linux虛擬機選擇客戶機操作系統(tǒng)。客戶機操作系統(tǒng),選擇“Linux”按鈕,版本是CentOS764位,如右圖,選擇好之后直接單擊“下一步”按鈕。創(chuàng)建Linux虛擬機命名虛擬機并選擇位置。虛擬機的名稱命名為“master”。在D盤創(chuàng)建一個以VMware命名的文件夾,并在該文件夾下建立一個文件命名為master。本文選擇的安裝位置為“D:\VMware\master”,如右圖,單擊“下一步”按鈕。注意,虛擬機的位置讀者可根據(jù)個人計算機的硬盤資源情況進行調整。創(chuàng)建Linux虛擬機指定磁盤容量。指定最大磁盤大小為20GB,選擇“將虛擬磁盤拆分成多個文件”按鈕,單擊“下一步”按鈕,如右圖。創(chuàng)建Linux虛擬機準備創(chuàng)建虛擬機。單擊“自定義硬件”按鈕,如右圖。創(chuàng)建Linux虛擬機選擇鏡像文件。進入“硬件”對話框,單擊“新CD/DVD(IDE)”選項所在的行,在右側的“連接”組中選擇“使用ISO映像文件”按鈕,并單擊“瀏覽…”按鈕,指定CentOS-7-x86_64-DVD-2003.iso鏡像文件的位置,如右圖,最后單擊“關閉”按鈕,返回上圖所示界面,單擊“完成”按鈕。創(chuàng)建Linux虛擬機啟動虛擬機。打開虛擬機,選擇虛擬機“master”,單擊“開啟此虛擬機”選項,如下圖。創(chuàng)建Linux虛擬機安裝CentOS7。開啟虛擬機后,將出現(xiàn)CentOS7的安裝界面,選擇“InstallCentOS7”選項,如下圖。創(chuàng)建Linux虛擬機選擇系統(tǒng)語言。進入語言選擇頁面,左側列表框選擇“English”選項,右側列表框選擇“English(UnitedStates)”選項,單擊“Continue”按鈕。選擇地區(qū)和時區(qū)。單擊“LOCALIZATION”組中的“DATE&TIME”選項,如下左圖。進入地區(qū)和時間選擇界面,選擇“Asia”和“Shanghai”,如下右圖,完成后單擊“Done”按鈕。創(chuàng)建Linux虛擬機選擇磁盤分區(qū)。單擊“SYSTEM”組中的“INSTALLATIONDESTINATION”選項,如下左圖。進入分區(qū)配置界面,默認選擇自動分盤,不需要改變,如下右圖,單擊“Done”按鈕即可。創(chuàng)建Linux虛擬機開始安裝系統(tǒng)。完成以上設置后,返回圖218所示的界面,單擊“BeginInstallation”按鈕,如下圖。創(chuàng)建Linux虛擬機配置root密碼。進入root密碼設置界面,單擊“USERSETTINGS”組中的“ROOTPASSWORD”選項,如下左圖。設置密碼為123456,需要輸入兩次,如下右圖,設置完畢后單擊“Done”按鈕,因為密碼過于簡單,所以需要連續(xù)單擊兩次。創(chuàng)建Linux虛擬機重啟虛擬機。安裝完成,單擊“Reboot”按鈕,重啟虛擬機,如下圖。創(chuàng)建Linux虛擬機登錄Linux系統(tǒng)。進入Linux系統(tǒng),輸入用戶名“root”以及密碼“123456”,如下圖,如果出現(xiàn)“[root@master~]#”的提示,那么表示成功登錄并進入了Linux系統(tǒng)。設置固定IP本書使用的Hadoop集群為完全分布式集群,有3個節(jié)點,因此需要安裝3臺虛擬機。每臺虛擬機均使用NAT模式接入網絡,需要為每臺虛擬機分配IP,并保證每臺虛擬機的IP處于同一子網內。為每臺虛擬機配置固定IP,以虛擬機master為例,虛擬機固定IP的基本流程如下圖。設置固定IP在VMware軟件中進行虛擬機固定IP的步驟,具體操作步驟如下。重啟網卡服務。使用“servicenetworkrestart”命令重啟網卡服務,如下圖。設置固定IP查看/etc/sysconfig/network-scripts/ifcfg-ens33配置文件的內容。不同于Windows系統(tǒng)采用菜單方式修改網絡配置,Linux系統(tǒng)的網絡配置參數(shù)是寫在配置文件里的,ifcfg-ens33是CentOS7.8版本的Linux系統(tǒng)中的網絡配置文件,可以設置IP地址、子網掩碼等網絡配置信息。使用“vi/etc/sysconfig/network-scripts/ifcfg-ens33”命令,打開ifcfg-ens33文件。設置固定IP修改/etc/sysconfig/network-scripts/ifcfg-ens33配置文件。單擊“I”鍵進入編輯模式,將該文件中ONBOOT的值修改為“yes”,將BOOTPROTO的值修改為“static”,并添加IP地址IPADDR、子網掩碼NETMASK、網關GATEWAY以及域名解析服務器DNS1的網絡配置信息,單擊“Esc”鍵,輸入“:wq”命令,單擊“Enter”鍵保存文件并退出。設置固定IP重啟網卡服務并查看IP。使用“servicenetworkrestart”命令再次重啟網卡服務,并使用“ipaddr”命令查看IP,結果如下圖。從下圖中可以看出,IP地址已經設置為30,說明該虛擬機的IP地址固定已設置成功。遠程連接虛擬機在VMware軟件中操作Linux系統(tǒng)十分麻煩,如無法進行命令的復制和粘貼,因此推薦使用Xmanager工具通過遠程連接的方式操作Linux系統(tǒng)。Xmanager是應用于Windows系統(tǒng)的Xserver服務器軟件。通過Xmanager,用戶可以將遠程的Linux桌面無縫導入Windows系統(tǒng)中。在Linux和Windows網絡環(huán)境中,Xmanager是非常合適的系統(tǒng)連通解決方案之一。在Xmanager官網,選擇“所有下載”選項卡下的“家庭/學校免費”選項下載Xshell、Xftp安裝包,安裝包名稱分別為Xshell-7.0.0113p.exe、Xftp-7.0.0111p.exe。下載安裝包后,雙擊Xshell-7.0.0113p.exe、Xftp-7.0.0111p.exe,按照系統(tǒng)提示即可完成Xshell、Xftp的安裝。遠程連接虛擬機使用Xshell、Xftp遠程連接Linux系統(tǒng)的方式一樣,此處以Xshell為例,通過Xshell遠程連接Linux系統(tǒng)基本流程如下圖。遠程連接虛擬機遠程連接虛擬機的操作步驟如下。打開虛擬網絡編輯器。使用Xshell連接虛擬機前,需要先設置VMwareWorkstation的虛擬網絡。在VMware的“編輯”菜單中單擊“虛擬網絡編輯器”選項,如下圖。遠程連接虛擬機修改子網IP。進入“虛擬網絡編輯器”對話框后,需要管理員權限才能修改網絡配置。如果沒有管理員權限,那么單擊“更改設置”按鈕,授予管理員權限即可。選擇“VMnet8”選項所在行,再將“子網IP”修改為“”,如右圖,單擊“確定”按鈕關閉該對話框。遠程連接虛擬機打開Xshell。設置VMware的虛擬網絡后,即可開始使用Xshell工具遠程連接虛擬機。在個人計算機的開始菜單找到程序圖標Xshell7,如下圖,雙擊打開Xshell。遠程連接虛擬機新建會話。單擊“文件”菜單,在出現(xiàn)的菜單欄中選擇“新建…”選項,建立會話,如下圖。遠程連接虛擬機配置新建會話。在彈出的“新建會話屬性”對話框中,在“常規(guī)”組的“名稱”對應的文本框中輸入“master”。該會話名稱是由用戶自行指定的,建議與要連接的虛擬機服務器名稱保持一致?!爸鳈C”對應的文本框中輸入“30”,表示master虛擬機的IP地址,其中“端口號”選項默認設置為“22”,如右圖。遠程連接虛擬機再單擊左側的“用戶身份驗證”選項,在右側輸入用戶名“root”和密碼“123456”,其中“方法”選項默認勾選“Password”,如右圖,單擊“確定”按鈕,創(chuàng)建會話完成。遠程連接虛擬機連接虛擬機。在Xshell頁面中的“會話管理器”窗口,雙擊會話“master”,將彈出SSH安全警告,如右圖,單擊“接受并保存”按鈕即可成功連接master虛擬機。后續(xù)操作,如無特別說明,均是在Xshell或Xftp上進行。配置本地yum源及安裝常用軟件yum源安裝軟件包方法可以徹底解決RPM安裝軟件包時的包關聯(lián)與依賴問題。yum是杜克大學為了提高RPM軟件包的安裝性而開發(fā)的一個軟件包管理器,能夠在線從指定的服務器中自動下載RPM包并且安裝,可以自動處理依賴性關系,并且一次安裝所有依賴的軟件包,無須煩瑣地一次次下載、安裝。yum提供了查找、安裝、刪除某一個、一組甚至全部軟件包的命令,而且命令簡潔、易記。配置本地yum源及安裝常用軟件yum命令的語法參數(shù)說明如下表。參數(shù)說明[options]可選參數(shù),用于配置yum的行為,具體可使用“yum--help”命令進行查看[command]可選參數(shù),指定用戶想要執(zhí)行的操作,如“install”安裝一個或多個軟件包[package...]可選參數(shù),指定用戶想要執(zhí)行操作的軟件包。如果用戶沒有指定軟件包,yum會對所有可用的軟件包執(zhí)行指定的操作配置本地yum源及安裝常用軟件配置本地yum源的基本流程如下圖。配置本地yum源及安裝常用軟件進入yum源的配置文件夾。使用“cd/etc/yum.repos.d”命令,進入/etc/yum.repos.d目錄。查看yum源并禁用部分yum源的操作如下。查看yum源。使用“l(fā)l”命令查看yum.repos.d目錄下的文件,如圖239所示,發(fā)現(xiàn)目錄下存在CentOS-Base.repo、CentOS-CR.repo、CentOS-Debuginfo.repo、CentOS-fasttrack.repo、CentOS-Media.repo、CentOS-Sources.repo、CentOS-Vault.repo、CentOS-x86_64-kernel.repo8個文件,其中CentOS-Media.repo是yum本地源的配置文件。配置本地yum源及安裝常用軟件禁用yum源。配置本地yum源,需要禁用除yum本地源以外的其他yum源,即將其他yum源文件重命名添加后綴“.bak”,如下圖。配置本地yum源及安裝常用軟件打開CentOS-Media.repo文件。使用“viCentOS-Media.repo”命令,打開并查看CentOS-Media.repo文件內容,如下圖。配置本地yum源及安裝常用軟件修改CentOS-Media.repo文件內容。將baseurl的值修改為“file:///media/”,將gpgcheck的值改為“0”,將enabled的值改為“1”,修改后的內容如下圖,編寫好后單擊鍵盤“Esc”鍵,輸入“:wq”命令,再單擊“Enter”鍵保存退出。配置本地yum源及安裝常用軟件掛載本地yum源。使用“mount/dev/sr0/media”命令掛載本地yum源。如果返回“mount:youmustspecifythefilesystemtype”的信息提示,那么說明掛載沒有成功,如下圖。配置本地yum源及安裝常用軟件解決方案為:在VMware軟件中右鍵單擊master虛擬機,在彈出的快捷菜單中選擇“設置”命令,彈出“虛擬機設置”對話框,然后在“硬件”選項卡中選擇“CD/DVD(IDE)”所在行,并在右側的“設備狀態(tài)”組中選擇“已連接”復選框,如右圖。配置本地yum源及安裝常用軟件再次執(zhí)行掛載本地yum源命令,返回“mount:/dev/sr0iswrite-protected,mountingread-only”信息提示,說明掛載成功,如下圖。配置本地yum源及安裝常用軟件更新yum源。使用“yumcleanall”命令,出現(xiàn)下圖的信息,說明更新yum源成功。配置本地yum源及安裝常用軟件使用yum安裝軟件。以安裝vim、zip、openssh-server、openssh-clients為例,每個軟件的說明如下表。軟件說明vim類似于vi的文本編輯器zip壓縮文件命令openssh-server主要是作為一個服務運行在后臺,如果這個服務開啟,那么人們即可用一些遠程連接工具連接CentOSopenssh-clients類似于Xshell,可以作為一個客戶端連接openssh-server配置本地yum源及安裝常用軟件使用“yuminstall-yvimzipopenssh-serveropenssh-clients”命令安裝軟件,安裝過程中會自動搜索目標軟件以及所必需的依賴包,如下圖。配置本地yum源及安裝常用軟件安裝完成后會顯示所有已安裝的相關軟件,如下圖。在Linux系統(tǒng)下安裝Java由于Hadoop是基于Java語言開發(fā)的,所以Hadoop集群的使用依賴于Java環(huán)境。因此,在安裝Hadoop集群前,需要先安裝Java,本書使用的Java開發(fā)工具包的版本為JDK1.8。在Linux系統(tǒng)下安裝Java的基本流程如下圖。在Linux系統(tǒng)下安裝Java在Linux系統(tǒng)下安裝Java的操作步驟如下。上傳安裝包。上傳JDK安裝包至虛擬機master,在鍵盤上按“Ctrl+Alt+F”組合鍵,進入文件傳輸對話框,左側為個人計算機的文件系統(tǒng),右側為Linux虛擬機的文件系統(tǒng)。在左側的文件系統(tǒng)中查找到jdk-8u281-linux-x64.rpm安裝包,雙擊鼠標左鍵上傳至Linux的/opt目錄下,如下圖。在Linux系統(tǒng)下安裝Java安裝JDK。切換至/opt目錄并使用“rpm-ivhjdk-8u281-linux-x64.rpm”命令安裝JDK,如下圖。在Linux系統(tǒng)下安裝Java驗證JDK是否配置成功。使用“java-version”命令查看Java版本,結果如下圖,說明JDK配置成功。此外,由于Hadoop集群有3個節(jié)點,為方便辨別,使用“hostnamectlset-hostnamemaster”將虛擬機的服務器名修改為“master”,系統(tǒng)重啟后將使用新的服務器名。修改配置文件創(chuàng)建及配置了虛擬機master后,Hadoop集群的相關配置即可在虛擬機master上進行操作,通過修改配置文件內容進行設置。首先需要將Hadoop安裝包hadoop-3.1.4.tar.gz上傳至虛擬機master的/opt目錄下,然后使用“tar-zxfhadoop-3.1.4.tar.gz-C/usr/local”命令,將Hadoop安裝包解壓至master的/usr/local目錄下。進入/usr/local/hadoop-3.1.4/etc/hadoop目錄,并修改9份配置文件的內容,基本流程如下圖。修改配置文件修改配置文件的具體操作步驟如下。修改core-site.xml文件。core-site.xml是Hadoop的核心配置文件,用于配置兩個屬性,即fs.defaultFS和hadoop.tmp.dir。fs.defaultFS配置了Hadoop的HDFS文件系統(tǒng)的NameNode端口。注意:若NameNode所在的虛擬機名稱不是“master”,則需要將“hdfs://master:8020”中的“master”替換為NameNode所在的虛擬機名稱。hadoop.tmp.dir配置了Hadoop的臨時文件的目錄。修改配置文件修改hadoop-env.sh文件。hadoop-env.sh文件設置了Hadoop運行基本環(huán)境的配置,需要修改JDK所在目錄。因此,在該文件中,將JAVA_HOME的值修改為JDK在Linux系統(tǒng)中的安裝目錄。修改yarn-env.sh文件。yarn-env.sh文件設置了YARN框架運行環(huán)境的配置,同樣需要添加JDK所在目錄。修改配置文件修改mapred-site.xml文件。mapred-site.xml設置了MapReduce框架的相關配置,由于Hadoop3.x使用了YARN框架,所以必須指定配置項的值為“yarn”。mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是JobHistoryserver的相關配置,mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是配置運行MapReduce任務的日志相關服務端口。修改配置文件修改yarn-site.xml文件。yarn-site.xml文件設置了YARN框架的相關配置,文件中命名了一個yarn.resourcemanager.hostname的變量,在YARN的相關配置中可以直接引用該變量,其他配置保持不變即可。修改workers文件。workers文件保存的是子節(jié)點(slave節(jié)點)的信息,在workers文件中添加的內容。該文件中原有“l(fā)ocalhost”內容,可以刪掉“l(fā)ocalhost”這行,讓master節(jié)點作為名稱節(jié)點使用。修改配置文件修改hdfs-site.xml文件。hdfs-site.xml設置了與HDFS相關的配置,例如.dir和dfs.datanode.data.dir分別指定了NameNode元數(shù)據(jù)和DataNode數(shù)據(jù)存儲位置。node.secondary.http-address配置了SecondaryNameNode的地址。dfs.replication配置了文件塊的副本數(shù),默認為3個副本,不作修改。修改配置文件修改啟動和關閉服務的文件。為了防止Hadoop集群啟動失敗,需要修改Hadoop集群啟動和關閉服務的文件。啟動和關閉服務的文件在/usr/local/hadoop-3.1.4/sbin/目錄下,需要修改的文件分別是start-dfs.sh、stop-dfs.sh、start-yarn.sh和stop-yarn.sh,修改操作如下。修改start-dfs.sh和stop-dfs.sh。修改start-yarn.sh和stop-yarn.sh。修改配置文件除此之外,還需要修改/etc/hosts文件。/etc/hosts文件配置的是服務器名與IP地址的映射。設置服務器名與IP地址映射后,各服務器之間通過服務器名即可進行通信和訪問,簡化并方便了訪問操作。本書搭建的Hadoop集群共有3個節(jié)點,集群的節(jié)點服務器名及IP地址,因此可使用vim命令在/etc/hosts文件的末尾添加相關配置??寺√摂M機在虛擬機master上配置完成Hadoop集群相關配置后,需要通過克隆虛擬機master,生成2個新的虛擬機slave1、slave2。在虛擬機master的安裝目錄D:\VMware下建立2個文件:slave1、slave2。以克隆master生成虛擬機slave1為例,克隆虛擬機的基本流程如下圖??寺√摂M機虛擬機克隆步驟如下??寺√摂M機。右鍵單擊關機后的虛擬機master,依次選擇“管理”→“克隆”命令,如右圖??寺√摂M機進入歡迎使用克隆虛擬機向導的界面,如右圖,直接單擊“下一頁”按鈕??寺√摂M機選擇克隆源。選擇“虛擬機中的當前狀態(tài)”按鈕,如右圖,單擊“下一頁”按鈕。克隆虛擬機選擇克隆方法。選擇“創(chuàng)建完整克隆”按鈕,如右圖,單擊“下一步”按鈕??寺√摂M機設置新虛擬機的名稱。新虛擬機名稱為“slave1”,選擇該虛擬機的安裝位置為“D:\VMware\slave1”,如右圖。克隆虛擬機單擊“完成”按鈕,虛擬機開始克隆,最后單擊“關閉”按鈕,如右圖,完成虛擬機的克隆。克隆虛擬機開啟slave1虛擬機并修改相關配置。因為slave1虛擬機是由master虛擬機克隆產生的,即虛擬機配置與虛擬機master一致,所以需要修改slave1的相關配置,修改相關配置的過程如下。修改IP。修改/etc/sysconfig/network-scripts/ifcfg-ens33文件,將IPADDR的值修改為“31”,修改好后保存退出。驗證IP是否修改成功。重啟網絡服務并查看IP是否修改成功,運行結果如下圖??寺√摂M機修改服務器名。因為slave1是master的克隆虛擬機,所以需要修改服務器名稱為slave1。重啟虛擬機。使用“reboot”命令重新啟動虛擬機。驗證slave1是否配置成功。在master節(jié)點中,使用“pingslave1”命令,如下圖,說明slave1配置成功??寺√摂M機生成slave2。重復步驟(1)~(5),繼續(xù)克隆master虛擬機生成slave2虛擬機,并修改slave2虛擬機的相關配置。配置SSH免密登錄SSH(SecureShell)是建立在TCP/TP協(xié)議的應用層和傳輸層基礎上的安全協(xié)議。SSH保障了遠程登錄和網絡傳輸服務的安全性,起到了防止信息泄露等作用。SSH可以對文件進行加密處理,也可以運行于多平臺。配置SSH無密碼登錄的步驟如下,步驟均是在master虛擬機上進行操作。配置SSH免密登錄生產公鑰與私鑰對。密鑰分為公有密鑰和私有密鑰,ssh-keygen命令可以生成RSA類型的公鑰與私鑰對。使用“ssh-keygen-trsa”命令,參數(shù)-t用于指定要創(chuàng)建的SSH密鑰的類型為RSA,接著按3次“Enter”鍵,如下圖,結果將生成私有密鑰id_rsa和公有密鑰id_rsa.pub兩個文件。配置SSH免密登錄將公鑰復制到遠程機器中。使用ssh-copy-id命令將公鑰復制至遠程機器中。驗證SSH是否能夠無密鑰登錄。在master主節(jié)點下分別輸入“sshslave1”“sshslave2”,結果如下圖,說明配置SSH免密碼登錄成功。配置時間同步服務NTP是使計算機時間同步化的一種協(xié)議,可以使計算機對其服務器或時鐘源進行同步化,提供高精準度的時間校正。Hadoop集群對時間要求很高,主節(jié)點與各子節(jié)點的時間都必須同步。配置時間同步服務主要是為了進行集群間的時間同步。Hadoop集群配置時間同步服務基本流程如下圖。配置時間同步服務Hadoop集群配置時間同步服務基本流程的步驟如下。安裝NTP服務。在任務一的第(四)步驟中已經配置了本地yum源,可以直接使用yum安裝NTP服務,在各節(jié)點使用“yuminstall-yntp”命令即可。若出現(xiàn)了“Complete”信息,則說明安裝NTP服務成功。若安裝出現(xiàn)問題,則需要重新掛載本地yum源操作,使用“mount/dev/sr0/media”命令。配置時間同步服務設置master節(jié)點為NTP服務主節(jié)點。使用“vim/etc/ntp.conf”命令打開/etc/ntp.conf文件,注釋掉以server開頭的行,如下圖。配置時間同步服務子節(jié)點配置NTP服務。分別在slave1、slave2中配置NTP服務,同樣修改/etc/ntp.conf文件,注釋掉server開頭的行,添加的內容如下圖。(4)關閉防火墻并禁止開機自動啟動防火墻。使用“systemctlstopfirewalld”和“systemctldisablefirewalld”命令關閉防火墻并禁止開機自動啟動防火墻。注意,主節(jié)點和子節(jié)點均需要關閉。配置時間同步服務啟動NTP服務。NTP服務安裝完成后即可開始啟動NTP服務,啟動操作如下。主節(jié)點啟動NTP服務。在master節(jié)點使用“systemctlstartntpd”和“systemctlenablentpd”命令,再使用“systemctlstatusntpd”命令查看NTP服務狀態(tài),如下圖,出現(xiàn)“active(running)”信息,說明NTP服務啟動成功。配置時間同步服務分別在slave1、slave2節(jié)點上使用“ntpdatemaster”命令,即可同步時間,以slave1節(jié)點為例,運行結果如下圖。配置時間同步服務子節(jié)點啟動NTP服務。分別在slave1、slave2節(jié)點上分別使用“systemctlstartntpd”和“systemctlenablentpd”命令,即可永久啟動NTP服務。使用“systemctlstatusntpd”命令查看NTP服務狀態(tài),以slave1節(jié)點為例,運行結果如下圖,出現(xiàn)“active(running)”信息,說明該子節(jié)點的NTP服務也啟動成功。添加地址映射為了后續(xù)代碼開發(fā),Windows本機能夠識別虛擬機集群,需要在Windows系統(tǒng)中對虛擬機集群的IP地址添加映射。在Windows桌面使用“Win+R”鍵打開“運行”對話框,輸入“drivers”后確定。在drivers文件夾中找到etc文件夾并打開,如下圖。編輯etc文件夾中的hosts文件,在文件末尾添加地址映射規(guī)則。啟動關閉集群完成Hadoop的所有配置后,即可執(zhí)行格式化NameNode操作。通過格式化NameNode,可以確保Hadoop集群的文件系統(tǒng)處于一致的狀態(tài),并且可以避免潛在的沖突和錯誤。此外,格式化NameNode還會生成新的命名空間ID和集群ID,用于標識Hadoop集群的唯一性。該操作會在NameNode所在機器初始化一些HDFS的相關配置,并且在集群搭建過程中只需執(zhí)行一次,執(zhí)行格式化之前可以先配置環(huán)境變量。配置環(huán)境變量是在master、slave1、slave2節(jié)點上修改/etc/profile文件,文件修改完保存退出,使用“source/etc/profile”命令使配置生效。啟動關閉集群格式化只需使用“hdfsnamenode-format”命令,若出現(xiàn)“Storagedirectory/data/hadoop/hdfs/namehasbeensuccessfullyformatted”提示,則表示格式化NameNode成功,如下圖。啟動關閉集群格式化完成后即可啟動Hadoop集群,啟動Hadoop集群只需要在master節(jié)點直接進入Hadoop安裝目錄。集群啟動之后,在主節(jié)點master,子節(jié)點slave1、slave2分別使用jps命令,出現(xiàn)下圖的信息,說明集群啟動成功。啟動關閉集群啟動成功后可通過瀏覽器,登錄HDFS的WebUI系統(tǒng),登錄網址為“30:9870”,如右圖。同理,關閉集群也只需要在master節(jié)點直接進入Hadoop安裝目錄,關閉集群。安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建HiveHive客戶端有3種安裝模式,即內嵌模式、本地模式和遠程模式,模式介紹如下。內嵌模式:元數(shù)據(jù)保持在內嵌的Derby模式,只允許一個會話連接。本地獨立模式:在本地安裝MySQL,把元數(shù)據(jù)放到MySQL內。遠程模式:元數(shù)據(jù)放置在遠程的MySQL數(shù)據(jù)庫。安裝搭建Hive不同模式適用于不同的場景需求,應具體問題具體分析,在多種解決方案中評估出適用的方案。本文將以本地模式為例,因此安裝Hive之前,需要先安裝MySQL數(shù)據(jù)庫。在正式安裝前還需提前確定好安裝MySQL與Hive的版本,還有MySQL的驅動組件,具體說明如下表。組件/軟件版本安裝包備注說明MySQL8.0.21mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar安裝在master節(jié)點上MySQL驅動包8.0.21mysql-connector-java-8.0.21.jarHive3.1.2apache-hive-3.1.2-bin.tar.gz安裝在master節(jié)點上安裝MySQL安裝MySQL前,為避免可能引發(fā)的沖突或不兼容問題,需將系統(tǒng)自帶的MySQL卸載,檢查并刪除系統(tǒng)自帶的MySQL,運行結果如下圖。安裝MySQL1.下載MySQL安裝包清除系統(tǒng)中的MySQL后即可下載MySQL安裝包,下載方式分為離線下載和在線下載,操作如下。離線下載MySQL安裝包。瀏覽器登錄MySQL官網,選擇操作系統(tǒng)為“RedHatEnterpriseLinux7/OracleLinux7(x86,64-bit)”的8.0.21版本MySQL,下載RPMBundle文件,安裝包名稱為“mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar”,如下圖。也可將安裝包按需下載,下載需要的4個MySQL組件,分別是server、client、common、libs。此處以下載RPMBundle文件為例,下載完成后,將mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar上傳至master虛擬機的/opt目錄下。安裝MySQL安裝MySQL在線下載MySQL安裝包。由于要使用到wget命令下載MySQL,因此要先下載wget。wget是Linux中一個下載文件的工具,用來從指定的url下載文件,工具體積小但功能完善,支持斷點下載功能,同時支持FTP和HTTP下載方式,支持代理服務器和設置起來方便簡單,wget有下載穩(wěn)定,對帶寬具有很強的適應性等特點。wget下載成功如右圖。安裝MySQLwget命令下載成功后,即可下載MySQL8.0.21版本的安裝包,如代碼226所示,運行結果如下圖。安裝MySQL2.安裝MySQL安裝包以離線下載的安裝包為例,解壓下載好的MySQL安裝包,運行結果如下圖。安裝MySQL使用rpm命令按照依賴關系依次安裝rpm包,依賴關系依次為client→common→libs→server,運行結果如下圖。安裝MySQL3.修改MySQL初始密碼新版本的MySQL會為root用戶創(chuàng)建一個初始密碼,需要進行更改。查詢MySQL初始密碼,結果如下圖,查詢到的密碼為“4X*g6Pux4,SZ”。安裝MySQL將查詢所得初始密碼登錄MySQL數(shù)據(jù)庫,登錄成功如下圖。安裝MySQLMySQL初始化后的root用戶、新創(chuàng)建的用戶,初次登錄后需要修改密碼。設置的自定義密碼為“123456”,但不符合MySQL的密碼規(guī)則,則需要修改MySQL8.0密碼規(guī)則,運行結果如下圖。安裝MySQL4.授權遠程連接默認的MySQL賬號是不允許從遠程登錄,授權遠程連接只需登錄MySQL后,更改數(shù)據(jù)庫里的“user”表里的“host”項,從“l(fā)ocalhost”改成“%”表示任意IP,最后刷新權限即可,運行結果如下圖。下載和安裝Hive從Hive的官網中下載Hive安裝包。將安裝包apache-hive-3.1.2-bin.tar.gz和MySQL驅動mysql-connector-java-8.0.21.jar上傳到/opt/目錄下。解壓安裝包到/usr/local/目錄下,為了日后方便操作,將安裝目錄重命名為hive。修改Hive配置文件進入到Hive的安裝目錄的conf目錄下,重命名hive-env.sh.template文件名為hive-env.sh,并在hive-env.sh文件末尾添加相關配置內容,然后按“Esc”鍵,輸入“:wq”,按“Enter”鍵保存退出。將hive-site.xml配置文件,上傳到/usr/local/hive/conf目錄下,hive-site.xml配置文件設置了Hive作業(yè)的HDFS根目錄位置;HDFS上Hive數(shù)據(jù)存放位置;修改Hive內置數(shù)據(jù)庫的derby驅動,使用MySQL的Driver驅動作為Hive內置數(shù)據(jù)庫的Derby驅動。修改Hive配置文件復制MySQL驅動包至Hive的lib目錄下。將Hadoop的guava包復制至Hive的lib目錄下,再將Hive的lib目錄下版本較低的guava包刪除。注意如果Hive中的guava包不一致,啟動Hive時會報錯,因此要刪除版本較低的包。設置環(huán)境變量設置環(huán)境變量,在/etc/profile文件末尾添加Hive的環(huán)境變量。保存退出后,運行“source/etc/profile”命令使環(huán)境變量生效。初始化元數(shù)據(jù)庫與啟動Hive第一次啟動Hive前,需要進入Hive的bin目錄下先初始化元數(shù)據(jù)庫。運行結果顯示“completed”表示初始化成功,如下圖。初始化元數(shù)據(jù)庫與啟動Hive啟動之前需要先把Hadoop集群開啟,然后開啟元數(shù)據(jù)服務和Hive。Hive啟動成功如下圖。安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建Spark集群Spark集群的環(huán)境可分為單機版環(huán)境、單機偽分布式環(huán)境和完全分布式環(huán)境。本節(jié)將介紹如何搭建完全分布式環(huán)境的Spark集群,并查看Spark的服務監(jiān)控。讀者可從官網下載Spark安裝包,本書使用的Spark安裝包是spark-3.2.1-bin-ha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 書集出版 經紀合同范本
- 精準發(fā)放服務消費券的具體措施
- 2025年度新能源汽車電池回收利用合同-@-28
- 2025年度新型城鎮(zhèn)化建設項目招投標管理與合同執(zhí)行標準
- 中國企業(yè)理財行業(yè)市場深度分析及發(fā)展?jié)摿︻A測報告
- 2025年中國木珠壁掛畫行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年度公司員工宿舍租賃合同示范文本
- 誠實守信申請書
- 2025年度合同擔保在跨境貿易中的風險控制
- 2025年度盡職調查報告應用與風險防范合同
- 春季安全教育培訓課件
- 《大學英語1》期末考試試卷及答案(???
- 《石油鉆井基本知識》課件
- 2024新滬教版英語(五四學制)七年級上單詞默寫單
- 電力兩票培訓
- TCCEAS001-2022建設項目工程總承包計價規(guī)范
- 2024.8.1十七個崗位安全操作規(guī)程手冊(值得借鑒)
- 小王子-英文原版
- 二次供水衛(wèi)生管理制度及辦法(4篇)
- 電影《白日夢想家》課件
- 婦產科產后虛脫患者的應急預案及程序
評論
0/150
提交評論