Hive大數(shù)據(jù)存儲(chǔ)與處理 課件 第2章 部署開發(fā)環(huán)境_第1頁(yè)
Hive大數(shù)據(jù)存儲(chǔ)與處理 課件 第2章 部署開發(fā)環(huán)境_第2頁(yè)
Hive大數(shù)據(jù)存儲(chǔ)與處理 課件 第2章 部署開發(fā)環(huán)境_第3頁(yè)
Hive大數(shù)據(jù)存儲(chǔ)與處理 課件 第2章 部署開發(fā)環(huán)境_第4頁(yè)
Hive大數(shù)據(jù)存儲(chǔ)與處理 課件 第2章 部署開發(fā)環(huán)境_第5頁(yè)
已閱讀5頁(yè),還剩96頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

部署開發(fā)環(huán)境任務(wù)背景為實(shí)現(xiàn)國(guó)家現(xiàn)代化,在新時(shí)代、新階段企業(yè)必須堅(jiān)持高質(zhì)量發(fā)展。隨著大數(shù)據(jù)技術(shù)的不斷演進(jìn),目前Hive已成為企業(yè)廣泛使用的數(shù)據(jù)倉(cāng)庫(kù),其底層實(shí)現(xiàn)是調(diào)用MapReduce程序,Hive調(diào)度資源時(shí),使用的是Hadoop的YARN框架。Hive將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張?zhí)摫?,并提供類SQL(HQL)查詢功能。有了Hive后,程序員不用再編寫復(fù)雜的MapReduce程序,通過(guò)Hive即可使用類SQL語(yǔ)句實(shí)現(xiàn)數(shù)據(jù)的快速統(tǒng)計(jì),進(jìn)而提高大數(shù)據(jù)處理和分析效率。本章將介紹如何安裝部署Hadoop集群、如何安裝部署Hive、HiveCLI的使用方法,為后續(xù)實(shí)現(xiàn)廣電大數(shù)據(jù)存儲(chǔ)和處理搭建環(huán)境。安裝部署Hadoop集群安裝部署Hive使用HiveCLI任務(wù)描述通過(guò)Hadoop分布式框架可以輕松地通過(guò)將數(shù)千臺(tái)服務(wù)器聯(lián)合在一起對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算,而且每一臺(tái)服務(wù)器都具有存儲(chǔ)和計(jì)算的能力。用戶可以在不了解Hadoop底層細(xì)節(jié)的情況下開發(fā)分布式程序,能夠十分方便地利用集群的強(qiáng)大能力進(jìn)行程序運(yùn)算,而且能夠解決高可用(分布式系統(tǒng)架構(gòu)設(shè)計(jì)中的一個(gè)常見指標(biāo),意指通過(guò)設(shè)計(jì)減少系統(tǒng)不能提供服務(wù)的時(shí)間,從而保持其服務(wù)的高度可用性)問(wèn)題。本任務(wù)的內(nèi)容包括虛擬機(jī)VMwareWorkstation(簡(jiǎn)稱VMware)、Hadoop集群的部署過(guò)程,以及遠(yuǎn)程終端Xshell軟件的安裝和使用,為Hive的安裝部署提供一個(gè)基礎(chǔ)的集群環(huán)境。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置Hadoop集群環(huán)境是由若干臺(tái)Linux主機(jī)組成的(為了更好地體現(xiàn)集群的特點(diǎn)和優(yōu)勢(shì),建議部署至少3臺(tái)主機(jī),主機(jī)的系統(tǒng)可采用Ubuntu或CentOS)。本書將在Windows環(huán)境下安裝虛擬機(jī)軟件VMwareWorkstation15.5Pro(Windows7環(huán)境下VMwareWorkstation最高支持15.x版本,如需升級(jí)16版本或更高版本,則需要在Windows8或以上版本的環(huán)境下),以便虛擬機(jī)的創(chuàng)建與配置。VMwareWorkstation是由VMware公司出品的一款桌面虛擬機(jī)軟件,可幫助用戶在單一的桌面上同時(shí)運(yùn)行不同的操作系統(tǒng),具有應(yīng)用開發(fā)、測(cè)試、部署等諸多功能。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置1.安裝VMware虛擬機(jī)讀者可從VMware官網(wǎng)自行下載VMwareWorkstation15.5Pro。VMwareWorkstation15.5Pro的安裝過(guò)程較為簡(jiǎn)單,安裝時(shí)請(qǐng)依照向?qū)?,選擇安裝目錄,并單擊“下一步”按鈕即可順利完成安裝,過(guò)程不贅述,請(qǐng)讀者自行完成。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置VMwareWorkstation15.5Pro的主界面如下圖。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置2.設(shè)置VMware虛擬網(wǎng)絡(luò)安裝好VMware后,還需要進(jìn)行VMware的虛擬網(wǎng)絡(luò)設(shè)置,以滿足4臺(tái)集群主機(jī)與宿主機(jī)、外網(wǎng)之間通信的要求(集群主機(jī)需要通過(guò)宿主機(jī)和外網(wǎng)保持連通以便下載最新的安裝包)。VMware虛擬機(jī)的聯(lián)網(wǎng)模式有3種:橋接(Bridged)模式、網(wǎng)絡(luò)地址轉(zhuǎn)換(NetworkAddressTranslation,NAT)模式、僅主機(jī)(Host-only)模式。通過(guò)NAT模式,宿主機(jī)可以為集群主機(jī)提供私有IP地址,并且只有宿主機(jī)可以訪問(wèn)外網(wǎng),從而可以對(duì)虛擬機(jī)進(jìn)行一定程度的隔離和保護(hù),減少受到網(wǎng)絡(luò)攻擊的風(fēng)險(xiǎn)。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置同時(shí)集群主機(jī)與宿主機(jī)共享同一IP地址,可以有效地節(jié)約可用IP地址,并且可以避免因?yàn)镮P地址緊缺而產(chǎn)生的浪費(fèi),故本書采用NAT模式聯(lián)網(wǎng)。安裝好VMware后,系統(tǒng)會(huì)自動(dòng)生成3塊虛擬網(wǎng)卡。VMnet0:用于虛擬網(wǎng)絡(luò)橋接模式下的虛擬交換機(jī)。VMnet1:用于虛擬網(wǎng)絡(luò)僅主機(jī)模式下的虛擬交換機(jī)。VMnet8:用于虛擬網(wǎng)絡(luò)NAT模式下的虛擬交換機(jī)。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置使用NAT模式,就是讓虛擬系統(tǒng)借助網(wǎng)絡(luò)地址轉(zhuǎn)換功能,通過(guò)主機(jī)所在的網(wǎng)絡(luò)來(lái)訪問(wèn)互聯(lián)網(wǎng)。也就是說(shuō),使用NAT模式可以實(shí)現(xiàn)在虛擬系統(tǒng)里訪問(wèn)互聯(lián)網(wǎng),但前提是主機(jī)可以訪問(wèn)互聯(lián)網(wǎng)。NAT模式下的虛擬系統(tǒng)的傳輸控制協(xié)議(TransmissionControlProtocol,TCP)或互聯(lián)網(wǎng)協(xié)議(InternetProtocol,IP)配置信息是由VMnet8(NAT)的動(dòng)態(tài)主機(jī)配置協(xié)議(DynamicHostConfigurationProtocol,DHCP)服務(wù)器提供的,無(wú)法進(jìn)行手動(dòng)修改,因此虛擬系統(tǒng)無(wú)法和本局域網(wǎng)中的其他真實(shí)主機(jī)進(jìn)行通信。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置如果網(wǎng)絡(luò)IP地址資源緊缺,但是又希望虛擬機(jī)能夠聯(lián)網(wǎng),這時(shí)NAT模式是最好的選擇。NAT模式借助虛擬NAT設(shè)備和虛擬DHCP服務(wù)器,使得虛擬機(jī)可以聯(lián)網(wǎng)。虛擬網(wǎng)絡(luò)NAT模式的原理如下圖。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置在NAT模式中,主機(jī)網(wǎng)卡直接與虛擬NAT設(shè)備相連,然后虛擬NAT設(shè)備與虛擬DHCP服務(wù)器一起連接在虛擬交換機(jī)(VMnet8)上,這樣即可實(shí)現(xiàn)虛擬機(jī)聯(lián)網(wǎng)。VMwareNetworkAdapterVMnet8是為了實(shí)現(xiàn)主機(jī)與虛擬機(jī)之間通信的虛擬網(wǎng)卡。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置NAT模式的具體配置過(guò)程如下。打開虛擬網(wǎng)絡(luò)編輯器。在VMware主界面中,單擊“編輯”菜單,選擇“虛擬網(wǎng)絡(luò)編輯器”選項(xiàng),如下圖。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置編輯虛擬網(wǎng)絡(luò)編輯器。在彈出的“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框中(部分功能的設(shè)置可能需要管理員權(quán)限,具體情況以個(gè)人Windows設(shè)置為準(zhǔn)),先單擊選中“VMnet8”網(wǎng)絡(luò),在“VMnet信息”部分選擇“NAT模式(與虛擬機(jī)共享主機(jī)的IP地址)”單選項(xiàng)。勾選“將主機(jī)虛擬適配器連接到此網(wǎng)絡(luò)”和“使用本地DHCP服務(wù)將IP地址分配給虛擬機(jī)”復(fù)選框,并將“子網(wǎng)IP”設(shè)置為“”(后續(xù)虛擬機(jī)IP地址需要設(shè)置到此網(wǎng)段上,如master的IP地址可設(shè)置為30),將“子網(wǎng)掩碼”設(shè)置為“”,如右圖。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置配置NAT網(wǎng)絡(luò)。在“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框中單擊“NAT設(shè)置”按鈕,彈出“NAT設(shè)置”對(duì)話框,將“網(wǎng)關(guān)IP”設(shè)置為“”,如右圖。設(shè)置完成后單擊“確定”按鈕,退出當(dāng)前對(duì)話框并返回“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框。VMware虛擬機(jī)安裝和網(wǎng)絡(luò)設(shè)置設(shè)置DHCP。在“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框中單擊“DHCP設(shè)置”按鈕,彈出“DHCP設(shè)置”對(duì)話框,將“起始IP地址”設(shè)置為“”,將“結(jié)束IP地址”設(shè)置為“54”,如右圖。設(shè)置完成后單擊“確定”按鈕,退出當(dāng)前對(duì)話框,返回“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框。在“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框中單擊“確定”按鈕后,網(wǎng)絡(luò)的設(shè)置開始生效。部署CentOS由于Hadoop的主體是使用Java語(yǔ)言編寫而成的,運(yùn)行在安裝了Java虛擬機(jī)(JavaVirtualMachine,JVM)的平臺(tái),且部分代碼需要在UNIX或Linux環(huán)境下運(yùn)行,所以不適合在非UNIX或Linux環(huán)境下運(yùn)行,故本書部署的操作系統(tǒng)選用開源版的Linux系統(tǒng)——CentOS6.x系列。在部署前要下載好CentOS的安裝版本,CentOS目前主流的版本有6、7和8,三者的安裝方式和步驟大體相同,只是個(gè)別步驟有差異?,F(xiàn)以CentOS6.8為例,介紹主要的安裝部署方法。部署CentOS新建虛擬機(jī)。打開VMware,進(jìn)入VMware主界面,選擇“創(chuàng)建新的虛擬機(jī)”選項(xiàng),彈出“新建虛擬機(jī)向?qū)А睂?duì)話框,選擇“自定義”(高級(jí))選項(xiàng),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)硬件兼容性。在“硬件兼容性”下拉列表框中選擇“Workstation15.x”選項(xiàng),如下圖,單擊“下一步”按鈕。部署CentOS選擇安裝客戶機(jī)操作系統(tǒng)的方法。選擇“稍后安裝操作系統(tǒng)(S)?!眴芜x項(xiàng),如下圖,單擊“下一步”按鈕。部署CentOS選擇部署操作系統(tǒng)的類型和版本。選擇將要部署的操作系統(tǒng)為“Linux(L)”,版本為“CentOS664位”,如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)名稱和存儲(chǔ)位置。設(shè)置虛擬機(jī)名稱為“master”,存儲(chǔ)位置為“D:\Hive\VM\master”(位置可根據(jù)讀者個(gè)人計(jì)算機(jī)硬盤設(shè)置做相應(yīng)調(diào)整),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的處理器數(shù)量和內(nèi)核數(shù)量。設(shè)置虛擬機(jī)的“處理器數(shù)量”為“1”,設(shè)置“每個(gè)處理器的內(nèi)核數(shù)量”為“1”(數(shù)量可根據(jù)讀者個(gè)人計(jì)算機(jī)CPU配置做相應(yīng)調(diào)整,性能較好的計(jì)算機(jī)可設(shè)置內(nèi)核的數(shù)量為“2”),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的內(nèi)存。設(shè)置虛擬機(jī)的內(nèi)存為“2048MB”(大小可根據(jù)讀者個(gè)人計(jì)算機(jī)內(nèi)存配置做相應(yīng)調(diào)整,建議為1024MB或2048MB),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的網(wǎng)絡(luò)類型。設(shè)置虛擬機(jī)網(wǎng)絡(luò)連接為“使用網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)”,如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的I/O控制器類型。設(shè)置虛擬機(jī)的I/O控制器類型為“LSILogic(L)”,如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的磁盤類型。設(shè)置虛擬機(jī)的磁盤類型為“SCSI”,如下圖,單擊“下一步”按鈕。部署CentOS創(chuàng)建新虛擬磁盤。為虛擬機(jī)創(chuàng)建新虛擬磁盤,選擇“創(chuàng)建新虛擬磁盤”單選項(xiàng),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的磁盤容量。設(shè)置虛擬機(jī)的磁盤容量(單位:GB)為“20.0”,并選擇“將虛擬磁盤存儲(chǔ)為單個(gè)文件”單選項(xiàng),如下圖,單擊“下一步”按鈕。部署CentOS設(shè)置虛擬機(jī)的磁盤文件名。設(shè)置虛擬機(jī)的磁盤文件名為“master.vmdk”(系統(tǒng)默認(rèn)將磁盤文件名設(shè)置為虛擬機(jī)名稱),如下圖,單擊“下一步”按鈕。部署CentOS核實(shí)虛擬機(jī)設(shè)置清單。完成虛擬機(jī)設(shè)置后,將彈出虛擬機(jī)設(shè)置清單以供核實(shí),如下圖,核實(shí)無(wú)誤后單擊“完成”按鈕,完成虛擬機(jī)的創(chuàng)建。部署CentOS設(shè)置虛擬機(jī)的光驅(qū)。設(shè)置虛擬機(jī)的光驅(qū),單擊超鏈接“CD/DVD(IDE)”,如右圖。部署CentOS設(shè)置虛擬機(jī)的ISO映像文件。勾選“啟動(dòng)時(shí)連接”復(fù)選框,單擊“瀏覽”按鈕選擇對(duì)應(yīng)的CentOS鏡像文件CentOS-6.8-x86_64-bin-DVD1.iso,再單擊“打開”按鈕,完成CentOS鏡像文件的選擇,如右圖。然后單擊“確定”按鈕。其中,CentOS-6.8-x86_64-bin-DVD1.iso是6.8版本的CentOS的標(biāo)準(zhǔn)安裝包,內(nèi)含CentOS6.8和部分必需的軟件包。部署CentOS啟動(dòng)虛擬機(jī)。在VMware主界面左側(cè)導(dǎo)航欄選擇虛擬機(jī)“master”,在右側(cè)面板單擊“開啟此虛擬機(jī)”超鏈接,如下圖。部署CentOS開始安裝CentOS6。啟動(dòng)虛擬機(jī)后,出現(xiàn)CentOS6.8安裝引導(dǎo)界面,如下圖,選擇“Installorupgradeanexistingsystem”。部署CentOS跳過(guò)測(cè)試安裝介質(zhì)。出現(xiàn)是否要測(cè)試安裝介質(zhì)的提示,如左圖,單擊“Skip”按鈕跳過(guò)此步驟;隨后會(huì)彈出安裝歡迎界面,如右圖,單擊“Next”按鈕,進(jìn)入下一步安裝。部署CentOS選擇安裝提示語(yǔ)言與鍵盤布局語(yǔ)言。系統(tǒng)會(huì)詢問(wèn)安裝時(shí)的提示語(yǔ)言類型,選擇系統(tǒng)語(yǔ)言“Chinese(Simplified)”,單擊“Next”按鈕,隨后進(jìn)入選擇鍵盤語(yǔ)言提示界面,選擇“美國(guó)英語(yǔ)式”選項(xiàng),單擊“下一步”按鈕,進(jìn)入下一步驟。選擇基本存儲(chǔ)設(shè)備與清除數(shù)據(jù)。系統(tǒng)會(huì)詢問(wèn)安裝的存儲(chǔ)設(shè)備類型,可選擇默認(rèn)類型“基本存儲(chǔ)設(shè)備”,如下圖。部署CentOS單擊“下一步”按鈕,隨后進(jìn)入是否清除數(shù)據(jù)提示界面,如下圖,單擊“是,忽略所有數(shù)據(jù)”按鈕,單擊“下一步”按鈕,進(jìn)入下一步驟。部署CentOS設(shè)置主機(jī)名稱與選擇時(shí)區(qū)。設(shè)置主機(jī)名稱為“master”,如下圖。部署CentOS完成后單擊“下一步”按鈕,隨后進(jìn)入選擇時(shí)區(qū)界面,選擇“亞洲/上?!边x項(xiàng),如下圖,單擊“下一步”按鈕,進(jìn)入下一步驟。部署CentOS設(shè)置根用戶密碼與選擇安裝類型。設(shè)置根密碼(root用戶密碼)為“123456”,并重復(fù)設(shè)置以進(jìn)行確認(rèn),如左圖,完成后單擊“下一步”按鈕。在彈出的右圖的界面中單擊“無(wú)論如何都使用”按鈕。部署CentOS隨后系統(tǒng)會(huì)詢問(wèn)采用何種磁盤分區(qū)類型,選擇“使用所有空間”單選項(xiàng),如下圖,單擊“下一步”按鈕,進(jìn)入下一步驟。部署CentOS將存儲(chǔ)配置寫入磁盤與選擇系統(tǒng)安裝方案。在系統(tǒng)確認(rèn)是否將存儲(chǔ)配置寫入磁盤(如左圖)時(shí),單擊“將修改寫入磁盤”按鈕;隨后系統(tǒng)會(huì)詢問(wèn)采用何種安裝方案,選擇“Minimal”選項(xiàng),如右圖,單擊“下一步”按鈕,進(jìn)入下一步驟。部署CentOS查看系統(tǒng)安裝進(jìn)度與完成安裝提示界面。開始安裝系統(tǒng),界面將顯示安裝進(jìn)度,如左下圖。當(dāng)安裝進(jìn)度加載完成時(shí),會(huì)提示已經(jīng)完成安裝,如右下圖,單擊“重新引導(dǎo)”按鈕,使用安裝的系統(tǒng)。部署CentOS登錄CentOS。進(jìn)入登錄終端界面,輸入用戶名“root”與密碼“123456”按Enter鍵。系統(tǒng)顯示“[root@master~]#”表示登錄成功,如下圖。本書均采用以根用戶(root)的身份登錄CentOS,讀者若想以普通用戶的身份登錄CentOS,需先以超級(jí)根的身份登錄,然后使用“useradd”命令創(chuàng)建新的普通用戶,使用“passwd”命令為普通用戶設(shè)置密碼,最后使用“su”命令切換普通用戶,或下次采用已創(chuàng)建好的普通用戶和對(duì)應(yīng)的密碼登錄CentOS。Hadoop集群部署前準(zhǔn)備集群是一組相互獨(dú)立的、通過(guò)高速網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī)。集群中每臺(tái)計(jì)算機(jī)經(jīng)過(guò)組合形成一個(gè)組,并以單一系統(tǒng)的模式加以管理。當(dāng)用戶與集群相互作用時(shí),集群像獨(dú)立的服務(wù)器。集群配置的優(yōu)點(diǎn)在于能提高性能、降低成本、提高可擴(kuò)展性和增強(qiáng)可靠性。Hadoop集群部署前準(zhǔn)備1.集群系統(tǒng)規(guī)劃上小節(jié)初步完成了虛擬機(jī)master的CentOS的部署,實(shí)際上,在部署Hadoop集群中,需要配置多臺(tái)主機(jī),以形成集群系統(tǒng)。在本書中,將以4臺(tái)服務(wù)器、1臺(tái)Windows7客戶機(jī)為例,完成Hadoop集群的部署。Hadoop集群系統(tǒng)規(guī)劃如下表。主機(jī)名稱IP地址網(wǎng)關(guān)設(shè)置角色操作系統(tǒng)master30MasterCentOS6.8slave131SlaveCentOS6.8slave232SlaveCentOS6.8slave333SlaveCentOS6.8desktopDesktopWindows7Hadoop集群部署前準(zhǔn)備2.集群網(wǎng)絡(luò)配置master網(wǎng)絡(luò)和IP地址配置的步驟如下。重啟網(wǎng)絡(luò)服務(wù)。執(zhí)行“servicenetworkrestart”命令重啟網(wǎng)絡(luò)服務(wù),如下圖,結(jié)果顯示重啟成功。Hadoop集群部署前準(zhǔn)備修改ifcfg-eth0配置文件中的IP地址設(shè)置。執(zhí)行“vi/etc/sysconfig/network-scripts/ifcfg-eth0”命令進(jìn)入ifcfg-eth0文件,按鍵盤的“I”鍵進(jìn)入編輯狀態(tài)以修改文件。再次重啟網(wǎng)絡(luò)服務(wù)。執(zhí)行“servicenetworkrestart”命令重啟網(wǎng)絡(luò)服務(wù),使網(wǎng)絡(luò)新配置生效。DEVICE=eth0TYPE=EthernetONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=30NETMASK=GATEWAY=DNS1=Hadoop集群部署前準(zhǔn)備3.安裝配置Xshell和XftpXshell是由NetSarang公司開發(fā)的功能強(qiáng)大的安全終端模擬軟件,支持SSH1、SSH2和Telnet協(xié)議。使用Xshell可通過(guò)互聯(lián)網(wǎng)安全連接到遠(yuǎn)程主機(jī),Xshell提供了很多功能,使得遠(yuǎn)程操作Linux系統(tǒng)更為便捷。Xftp是由NetSarang公司開發(fā)的功能強(qiáng)大的具有SSH文件傳輸協(xié)議(SSHFileTransferProtocol,SFTP)、文件傳輸協(xié)議(FileTransferProtocol,F(xiàn)TP)的文件傳輸軟件。通過(guò)Xftp,MicrosoftWindows用戶能安全地在UNIX或Linux環(huán)境和Windows環(huán)境之間傳輸文件。為了方便后續(xù)的配置工作,建議讀者提前下載并安裝Xshell和Xftp。Hadoop集群部署前準(zhǔn)備Xshell和Xftp安裝與連接虛擬機(jī)的操作過(guò)程如下。Xshell和Xftp的下載安裝。非商用版本的Xshell和Xftp的安裝文件可在NetSarang公司中文網(wǎng)站下載,如下圖。下載時(shí),選擇“學(xué)校/家庭免費(fèi)”,并填寫個(gè)人姓名和郵箱,通過(guò)郵箱獲得免費(fèi)版下載鏈接。由于安裝過(guò)程有中文安裝向?qū)е敢?,且較為簡(jiǎn)單,在此不贅述,請(qǐng)讀者自行完成。Hadoop集群部署前準(zhǔn)備Xshell和Xftp連接虛擬機(jī)。由于Xftp連接虛擬機(jī)的方式和Xshell的連接方式類似,故下面以Xshell為例說(shuō)明。在連接虛擬機(jī)前,需將虛擬機(jī)的服務(wù)打開,并完成虛擬機(jī)的網(wǎng)絡(luò)配置,否則無(wú)法進(jìn)行遠(yuǎn)程連接。Xshell連接虛擬機(jī)的主要步驟如下。在Xshell主界面,單擊“文件”菜單,如下圖,然后選擇“新建”選項(xiàng)。Hadoop集群部署前準(zhǔn)備進(jìn)入“新建會(huì)話屬性”對(duì)話框,輸入名稱“master”,協(xié)議默認(rèn)為安全外殼(SecureShell,SSH)協(xié)議,輸入主機(jī)地址“30”,如右圖。Hadoop集群部署前準(zhǔn)備單擊對(duì)話框中左側(cè)“用戶身份驗(yàn)證”進(jìn)入“身份驗(yàn)證”界面,輸入用戶名“root”,密碼“123456”,勾選“Password”復(fù)選框,如右圖,然后單擊“確定”按鈕保存,也可單擊“連接”按鈕,直接連接主機(jī)。Hadoop集群部署前準(zhǔn)備當(dāng)?shù)谝淮芜B接到主機(jī)時(shí),會(huì)彈出“SSH安全警告”對(duì)話框,如右圖。Hadoop集群部署前準(zhǔn)備單擊“接受并保存”按鈕,連接成功后的Xshell遠(yuǎn)程登錄界面如下圖。至此,已經(jīng)完成Xshell與虛擬機(jī)的遠(yuǎn)程連接,Xftp可參照Xshell連接虛擬機(jī)的過(guò)程進(jìn)行配置。Hadoop集群部署在完成單臺(tái)主機(jī)的CentOS的安裝后,還需要為CentOS設(shè)置鏡像文件路徑和設(shè)置YUM安裝軟件源,以便后續(xù)在安裝新程序時(shí),能夠較為快速地找到安裝文件并安裝。另外為了節(jié)省時(shí)間,本書采用克隆虛擬機(jī)的方式完成3臺(tái)Slave節(jié)點(diǎn)機(jī)器的配置。1.CentOS鏡像設(shè)置Hadoop集群部署為CentOS設(shè)置鏡像文件路徑的步驟如下。確認(rèn)鏡像文件已添加。CentOS的鏡像文件指的就是安裝CentOS的ISO映像文件,可在虛擬機(jī)設(shè)置里查看該文件。單擊上圖界面中的“編輯虛擬機(jī)設(shè)置”超鏈接,在彈出的“虛擬機(jī)設(shè)置”對(duì)話框中單擊“CD/DVD(IDE)”超鏈接,如右圖。需要勾選“已連接”和“啟動(dòng)時(shí)連接”復(fù)選框,并確認(rèn)已經(jīng)指定相應(yīng)的ISO映像文件路徑。此后在安裝新程序時(shí),會(huì)從ISO映像文件中優(yōu)先加載。Hadoop集群部署修改repo配置文件。將/etc/yum.repos.d/目錄下原有的repo配置文件(CentOS-Media.repo除外)的擴(kuò)展名改為.bak,部分執(zhí)行結(jié)果如下圖。Hadoop集群部署配置CentOS-Media.repo文件。執(zhí)行命令“viCentOS-Media.repo”修改配置文件CentOS-Media.repo。掛載鏡像文件至目錄/media。執(zhí)行命令“mount/dev/dvd/media/”將鏡像文件掛載到/media,如下圖。Hadoop集群部署2.通過(guò)yum命令安裝常用軟件在CentOS中可使用yum命令安裝新軟件,虛擬機(jī)會(huì)先在鏡像文件中尋找安裝包,當(dāng)找不到時(shí),則在YUM安裝軟件源定義的線上資源下載。為了方便后續(xù)的克隆操作,需要為虛擬機(jī)安裝一些軟件。執(zhí)行命令“yum-yinstallntpopenssh-clientsopenssh-servervim”安裝常用軟件,如下圖。Hadoop集群部署3.安裝JDK開發(fā)包Hadoop集群需要使用JDK,本書采用JDK1.8(安裝包為jdk-8u221-linux-x64.rpm),讀者可自行到其官網(wǎng)下載。安裝JDK的過(guò)程如下。上傳并安裝。上傳JDK安裝包到虛擬機(jī)/opt目錄,進(jìn)入/opt目錄,執(zhí)行命令“rpm-ivhjdk-8u221-linux-x64.rpm”安裝JDK。添加環(huán)境變量。為了讓系統(tǒng)可直接訪問(wèn)JDK的安裝目錄,在/etc/profile文件中添加環(huán)境變量。添加完成并保存、退出后需執(zhí)行命令“source/etc/profile”,使配置馬上生效。Hadoop集群部署驗(yàn)證。驗(yàn)證JDK是否配置成功,執(zhí)行命令“java-version”,配置成功則會(huì)顯示所安裝的JDK版本,如下圖。Hadoop集群部署4.通過(guò)VMware克隆Slave節(jié)點(diǎn)可通過(guò)對(duì)配置好的虛擬機(jī)進(jìn)行克隆操作生成Hadoop集群中的Slave節(jié)點(diǎn)。下面以克隆slave1虛擬機(jī)為例進(jìn)行介紹,克隆虛擬機(jī)的具體步驟如下。在VMware主界面,選擇虛擬機(jī)“master”,單擊右鍵,選擇“管理”命令,再選擇“克隆”命令,如下圖(注:克隆虛擬機(jī)前需要關(guān)閉被克隆的主機(jī))。Hadoop集群部署選擇克隆源為“虛擬機(jī)中的當(dāng)前狀態(tài)”,如下圖,單擊“下一步”按鈕。Hadoop集群部署選擇克隆類型為“創(chuàng)建完整克隆”,如下圖,單擊“下一步”按鈕。Hadoop集群部署設(shè)置新虛擬機(jī)的名稱為“slave1”,將存儲(chǔ)位置設(shè)為“D:\Hive\VM\hadoop2”(讀者可自行設(shè)置),如下圖。然后單擊“完成”按鈕,完成slave1虛擬機(jī)的克隆,slave2、slave3虛擬機(jī)的克隆步驟可參考slave1的克隆。Hadoop集群部署5.修改Slave主機(jī)IP地址配置完成克隆虛擬機(jī)后,需要對(duì)Slave主機(jī)的IP地址配置進(jìn)行修改。其中,slave1虛擬機(jī)的IP地址配置步驟如下。打開新虛擬機(jī),執(zhí)行命令“ifconfig-a”,將查看到的eth1和HWaddr后面的內(nèi)容記錄下來(lái),如下圖。Hadoop集群部署修改“/etc/sysconfig/network-scripts/ifcfg-eth0”,將其中的DEVICE、HWADDR中的值改成第(1)步查看到的內(nèi)容,并根據(jù)上表修改IPADDR后面的IP地址,如下圖。Hadoop集群部署修改“/etc/sysconfig/network”,修改主機(jī)名為“slave1”。執(zhí)行命令“servicenetworkrestart”使網(wǎng)絡(luò)配置立即生效。執(zhí)行“ipaddr”命令查看IP地址是否被修改,如下圖。Hadoop集群部署執(zhí)行命令“reboot”重啟虛擬機(jī)。使用Xshell工具連接新的虛擬機(jī),操作過(guò)程請(qǐng)參考上小節(jié)中的內(nèi)容。后續(xù)操作默認(rèn)在Xshell界面進(jìn)行。至此slave1主機(jī)的IP地址配置已完成,slave2、slave3主機(jī)IP地址配置的步驟參考前述步驟。Hadoop集群部署6.設(shè)置IP映射在master和3臺(tái)slave機(jī)器中執(zhí)行“vi/etc/hosts”命令,編輯hosts文件配置IP地址映射,目的是讓系統(tǒng)在沒(méi)有域名系統(tǒng)(DomainNameSystem,DNS)服務(wù)的情況下,可通過(guò)主機(jī)名訪問(wèn)對(duì)應(yīng)的機(jī)器節(jié)點(diǎn)。Hadoop集群部署7.配置SSH無(wú)密碼登錄Hadoop集群中,Hadoop要對(duì)Linux系統(tǒng)進(jìn)行腳本控制,需要使用SSH無(wú)密碼登錄。SSH無(wú)密碼登錄的配置步驟如下。執(zhí)行“ssh-keygen”命令生成公鑰與私鑰對(duì)。輸入命令“ssh-keygen-trsa”,接著按3次Enter鍵,將生成私鑰id_rsa和公鑰id_rsa.pub兩個(gè)文件,參數(shù)“-t”用于指定創(chuàng)建的SSH密鑰采用RSA加密方式。將公鑰復(fù)制到各主機(jī)。執(zhí)行“ssh-copy-id-i/root/.ssh/id_rsa.pub主機(jī)名”命令將master生成的公鑰復(fù)制到各主機(jī)(包括master)中,復(fù)制公鑰到各主機(jī)的命令。Hadoop集群部署驗(yàn)證是否成功設(shè)置SSH無(wú)密碼登錄。在master中,依次執(zhí)行“sshslave1”“sshslave2”“sshslave3”命令,可驗(yàn)證是否能遠(yuǎn)程進(jìn)行SSH無(wú)密碼連接。當(dāng)?shù)卿浧渌鳈C(jī)時(shí)不提示輸入密碼,則說(shuō)明SSH無(wú)密碼登錄已設(shè)置成功,可用“exit”命令退出遠(yuǎn)程登錄,如下圖。Hadoop集群部署8.配置時(shí)間同步服務(wù)Hadoop集群對(duì)時(shí)間要求很高,主節(jié)點(diǎn)與各個(gè)從節(jié)點(diǎn)的時(shí)間都必須同步,故為了實(shí)現(xiàn)集群間的時(shí)間同步,需要在每臺(tái)主機(jī)配置時(shí)間同步服務(wù),即網(wǎng)絡(luò)時(shí)間協(xié)議(NetworkTimeProtocol,NTP)服務(wù)。NTP服務(wù)的配置步驟如下。安裝NTP服務(wù)。直接使用YUM安裝NTP服務(wù),在各節(jié)點(diǎn)使用“yuminstall-yntp”命令即可。若出現(xiàn)了“Complete”信息,則說(shuō)明安裝NTP服務(wù)成功。若安裝出現(xiàn)問(wèn)題,則需要使用“mount/dev/sr0/media”命令重新掛載本地YUM源操作。對(duì)主機(jī)master修改時(shí)間同步設(shè)置。可設(shè)置master節(jié)點(diǎn)為NTP服務(wù)主節(jié)點(diǎn)。執(zhí)行“vim/etc/ntp.conf”命令打開/etc/ntp.conf文件,注釋掉以server開頭的行。Hadoop集群部署在主機(jī)slaveX中配置NTP服務(wù)。分別在slave1、slave2、slave3中配置NTP服務(wù),同樣修改/etc/ntp.conf文件,注釋掉server開頭的行。關(guān)閉防火墻。由于防火墻的限制會(huì)影響NTP服務(wù)的運(yùn)行,可執(zhí)行“serviceiptablesstop”“chkconfigiptablesoff”命令永久關(guān)閉防火墻,注意主節(jié)點(diǎn)和從節(jié)點(diǎn)同時(shí)關(guān)閉。(CentOS7.X關(guān)閉防火墻的命令為“systemctlstopfirewalld.service”“systemctldisablefirewalld.service”)Hadoop集群部署啟動(dòng)NTP服務(wù)。啟動(dòng)NTP服務(wù)的步驟如下。在master上執(zhí)行“servicentpdstart”“chkconfigntpdon”命令。在slaveX上執(zhí)行“ntpdatemaster”即可同步時(shí)間。在slaveX上分別執(zhí)行“servicentpdstart”“chkconfigntpdon”命令即可啟動(dòng)并永久啟動(dòng)NTP服務(wù)。Hadoop集群部署9.Hadoop安裝及配置Hadoop的版本較多,本書以Hadoop3.1.4為例,講解其主要的安裝及配置步驟,其他版本可參照進(jìn)行。另外為節(jié)省安裝、配置時(shí)間,本書將先配置master主機(jī),再通過(guò)遠(yuǎn)程復(fù)制文件的scp命令配置其他Slave主機(jī)。上傳文件。通過(guò)遠(yuǎn)程文件傳輸工具Xftp連接到master主機(jī),上傳hadoop-3.1.4.tar.gz文件至/opt目錄下。(解壓hadoop-3.1.4.tar.gz文件。執(zhí)行“tar-zxfhadoop-3.1.4.tar.gz-C/usr/local/”命令,將hadoop-3.1.4.tar.gz文件解壓至/usr/local/目錄下。Hadoop集群部署配置Hadoop文件。Hadoop配置文件的修改、添加步驟如下。執(zhí)行“cd/usr/local/hadoop-3.1.4/etc/hadoop/”命令切換目錄。依次修改配置文件core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、yarn-site.xml、yarn-env.sh和workers。復(fù)制Hadoop安裝文件至集群Slave節(jié)點(diǎn)。通過(guò)scp命令將Hadoop安裝文件遠(yuǎn)程分發(fā)至另外3臺(tái)Slave主機(jī),配置Hadoop環(huán)境變量。執(zhí)行“vi/etc/profile”命令修改profile文件的配置。修改完成并保存退出后執(zhí)行“source/etc/profile”命令使環(huán)境變量生效。Hadoop集群部署格式化NameNode。進(jìn)入Hadoop命令目錄“cd/usr/local/hadoop-3.1.4/bin”,再執(zhí)行格式化“./hdfsnamenode-format”命令,當(dāng)出現(xiàn)“Storagedirectory/data/hadoop/hdfs/namehasbeensuccessfullyformatted”提示時(shí),表示完成NameNode格式化工作,如下圖。Hadoop集群部署啟動(dòng)Hadoop集群。在主節(jié)點(diǎn)和從節(jié)點(diǎn)中執(zhí)行“cd/usr/local/hadoop-3.1.4/sbin”命令,進(jìn)入腳本目錄。啟動(dòng)Hadoop集群。查看Java進(jìn)程。Hadoop集群?jiǎn)?dòng)后,在4個(gè)節(jié)點(diǎn)中執(zhí)行“jps”命令,可以查看到下表的主從節(jié)點(diǎn)進(jìn)程列表。主機(jī)名稱Java進(jìn)程masterNameNodeSecondaryNameNodeJobHistoryServerJpsResourceManagerslave1JpsDataNodeNodeManagerslave2slave3Hadoop集群部署在本地計(jì)算機(jī)添加IP地址和域名映射。為方便在本地(desktop)訪問(wèn)Hadoop集群中的主機(jī),需要在本地計(jì)算機(jī)的“C:\Windows\System32\drivers\etc\hosts”文件中添加IP地址和域名映射。使用瀏覽器查看服務(wù)情況。在desktop客戶端瀏覽器查看服務(wù)的地址如下。HDFS服務(wù)地址:http://master:9870。YARN資源服務(wù)地址:http://master:8088。Hadoop集群部署處理異常問(wèn)題。當(dāng)集群格式化或啟動(dòng)出現(xiàn)問(wèn)題時(shí),可以按如下方法進(jìn)行處理。若啟動(dòng)后主節(jié)點(diǎn)Jps正常,子節(jié)點(diǎn)Jps中DataNode沒(méi)有啟動(dòng),則復(fù)制主節(jié)點(diǎn)的data/hadoop/hdfs/name/current/VERSION中的Cluster_ID,以替換其他子節(jié)點(diǎn)的data/hadoop/hdfs/data/current/VERSION中的Cluster_ID。若出現(xiàn)其他問(wèn)題,則檢查相關(guān)配置文件。可通過(guò)查看格式化NameNode的報(bào)錯(cuò)信息、集群?jiǎn)?dòng)日志文件等具體信息進(jìn)行排查,其中集群?jiǎn)?dòng)日志文件的路徑參見執(zhí)行啟動(dòng)命令后的輸出信息提示。安裝部署Hadoop集群安裝部署Hive使用HiveCLI任務(wù)描述Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表,并可提供簡(jiǎn)單的HQL查詢功能。Hive可將HQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)執(zhí)行。Hive需要將元數(shù)據(jù)保存到數(shù)據(jù)庫(kù)Derby或MySQL中,并配置相應(yīng)服務(wù),因此本任務(wù)主要介紹Hive元數(shù)據(jù)存儲(chǔ),同時(shí)完成MySQL的安裝和配置、Hive的安裝和配置。安裝配置MySQL為實(shí)現(xiàn)多用戶連接,Hive需要將元數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,故需要安裝和配置MySQL。MySQL安裝和配置的簡(jiǎn)要步驟如下。查找系統(tǒng)適用的MySQL版本。執(zhí)行“yumsearchmysql”命令,搜索找到當(dāng)前系統(tǒng)適用的版本為mysql-server.x86_64。安裝MySQL。執(zhí)行“mount/dev/dvd/media”命令綁定鏡像文件到目錄,再執(zhí)行“yuminstallmysql-server.x86_64-y”命令安裝MySQL。設(shè)置開機(jī)自動(dòng)啟動(dòng)MySQL服務(wù)。執(zhí)行“servicemysqldstart”“chkconfigmysqldon”命令,設(shè)置開機(jī)自動(dòng)啟動(dòng)MySQL服務(wù)。設(shè)置MySQL管理員賬號(hào)及密碼。首先啟動(dòng)MySQL遠(yuǎn)程終端,直接在終端輸入“mysql”即可,然后設(shè)置MySQL管理員賬號(hào)及密碼并刷新配置。安裝配置HiveHive的安裝和配置主要集中在master主機(jī),如無(wú)特別說(shuō)明,操作默認(rèn)在master主機(jī)進(jìn)行。安裝和配置Hive的過(guò)程如下。上傳安裝包并解壓。將安裝包apache-hive-3.1.2-bin.tar.gz通過(guò)Xftp上傳到master主機(jī)的/opt/目錄下,執(zhí)行“tar-zxf/opt/apache-hive-3.1.2-bin.tar.gz-C/usr/local”命令,解壓安裝包至/usr/local目錄下。重命名文件。執(zhí)行“mv/usr/local/apache-hive-3.1.2-bin/usr/local/hive-3.1.2”命令,將文件apache-hive-3.1.2-bin重命名為hive-3.1.2。在MySQL中新建hive數(shù)據(jù)庫(kù)。在MySQL中新建hive數(shù)據(jù)庫(kù),然后退出MySQL。安裝配置Hive修改配置文件hive-site.xml。執(zhí)行“vi/usr/local/hive-3.1.2/conf/hive-site.xml”命令創(chuàng)建hive-site.xml文件。加載MySQL驅(qū)動(dòng)包至Hive目錄。加載MySQL驅(qū)動(dòng)包mysql-connector-java-5.1.30.jar到/usr/local/hive-3.1.2/lib目錄。解決JAR包版本沖突問(wèn)題。刪除較低版本的guavaJAR包,并復(fù)制Hadoop目錄下較高版本的JAR包到Hive安裝目錄的lib目錄下。安裝配置Hive添加系統(tǒng)環(huán)境變量。執(zhí)行“vi/etc/profile”命令,添加Hive安裝目錄到環(huán)境變量。修改完成并保存退出后執(zhí)行“source/etc/profile”命令使系統(tǒng)環(huán)境變量生效。初始化元數(shù)據(jù)庫(kù)。進(jìn)入Hive安裝目錄的bin子目錄,執(zhí)行“./schematool-dbTypemysql-initSchema”命令,執(zhí)行結(jié)果如下圖,表示元數(shù)據(jù)庫(kù)初始化成功。安裝配置Hive啟動(dòng)HiveMetastore服務(wù)。在Hadoop集群已啟動(dòng)的情況下,由于在hive-site.xml配置文件中指定了hive.metastore.uris的端口,故執(zhí)行“hive--servicemetastore&”命令即可啟動(dòng)HiveMetastore服務(wù)。啟動(dòng)HiveMetastore服務(wù)后,即可支持多個(gè)客戶端同時(shí)訪問(wèn)元數(shù)據(jù),且多個(gè)客戶端不需要知道MySQL數(shù)據(jù)庫(kù)的用戶名和密碼。啟動(dòng)HiveServer2服務(wù)。可執(zhí)行“nohuphive--servicehiveserver2&”命令啟動(dòng)HiveServer2服務(wù)。HiveServer2是一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論