版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)平臺(tái)部署與運(yùn)維》單元8
數(shù)據(jù)倉(cāng)庫(kù)Hive部署與應(yīng)用任務(wù)8.1部署Hive本地模式01理解Hive的原理與體系架構(gòu)02掌握Hive的部署方法學(xué)習(xí)目標(biāo)03掌握Hive格式化和啟動(dòng)相關(guān)命令任務(wù)8.1部署Hive本地模式【任務(wù)場(chǎng)景】經(jīng)理:Hive目前是Hadoop生態(tài)圈中最常用的數(shù)據(jù)倉(cāng)庫(kù)工具,大部分互聯(lián)網(wǎng)公司使用Hive進(jìn)行日志分析,包括百度、淘寶等。咱們的日志系統(tǒng)數(shù)據(jù)分析可以基于Hive來(lái)做。小張:好的,我馬上開(kāi)始研究Hive數(shù)據(jù)倉(cāng)庫(kù)。經(jīng)理:Hive是一種建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),并對(duì)存儲(chǔ)在HDFS中的數(shù)據(jù)進(jìn)行分析和管理;它可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的SQL查詢功能,所以你熟悉SQL語(yǔ)言,Hive分析上手應(yīng)該非??臁P垼汉玫?,我先基于咱們現(xiàn)有的Hadoop平臺(tái)把Hive安裝部署好。經(jīng)理:好。任務(wù)8.1部署Hive本地模式【任務(wù)布置】根據(jù)使用場(chǎng)景不同,Hive的安裝部署模式分為三種,分別是內(nèi)嵌模式、本地模式和遠(yuǎn)程模式。Hive內(nèi)嵌模式由于只支持單會(huì)話連接,所以很少使用。Hive本地安裝模式和遠(yuǎn)程模式都是常見(jiàn)的安裝和部署方法。此任務(wù)要求完成Hive本地模式的安裝部署,安裝完成后通過(guò)命令格式化Hive元數(shù)據(jù)庫(kù),然后運(yùn)行和訪問(wèn)Hive。任務(wù)8.1部署Hive本地模式8.1.1Hive介紹Hive是建立在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù),可對(duì)存儲(chǔ)在HDFS上的文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析處理。Hive最初是應(yīng)Facebook每天產(chǎn)生的海量新興社會(huì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行管理和機(jī)器學(xué)習(xí)的需求而產(chǎn)生和發(fā)展的。Hive定義了一種類似SQL的查詢語(yǔ)言,被稱為HQL,對(duì)于熟悉SQL的用戶可以直接利用Hive來(lái)查詢數(shù)據(jù),但HiveQL不完全支持SQL標(biāo)準(zhǔn),如不支持更新操作、索引和事務(wù),其子查詢和連接操作也存在很多限制。同時(shí),這個(gè)語(yǔ)言也允許熟悉MapReduce開(kāi)發(fā)者們開(kāi)發(fā)自定義的mappers和reducers來(lái)處理內(nèi)建的mappers和reducers無(wú)法完成的復(fù)雜的分析工作。任務(wù)8.1部署Hive本地模式Hive是Hadoop生態(tài)系統(tǒng)的一個(gè)組成部分,Hive在Hadoop生態(tài)系統(tǒng)的位置如下圖所示:任務(wù)8.1部署Hive本地模式Hive與HDFS、HBase的關(guān)系:Hive可以直接操作HDFS中的文件作為它的表的數(shù)據(jù),也可以使用Hbase數(shù)據(jù)庫(kù)作為它的表。Hive和HBase的數(shù)據(jù)流描述如下圖所示。數(shù)據(jù)源經(jīng)過(guò)ETL工具被抽取到HDFS存儲(chǔ);再由Hive對(duì)原始數(shù)據(jù)進(jìn)行清洗、處理和計(jì)算;Hive清洗處理后的結(jié)果,如果是面向海量數(shù)據(jù)隨機(jī)查詢場(chǎng)景的可存入Hbase,進(jìn)而展開(kāi)具體的數(shù)據(jù)應(yīng)用。Hive和HBase數(shù)據(jù)流關(guān)系如下圖所示:任務(wù)8.1部署Hive本地模式Hive與HBase的區(qū)別:(1)Hive中的表是純邏輯表,就只是表的定義等,即表的元數(shù)據(jù)。Hive本身不存儲(chǔ)數(shù)據(jù),它完全依賴HDFS和MapReduce。
(2)Hive是基于MapReduce來(lái)處理數(shù)據(jù);
HBase處理數(shù)據(jù)是基于列的而不是基于行的模式,適合海量數(shù)據(jù)的隨機(jī)訪問(wèn)。(3)HBase的表是疏松的存儲(chǔ)的,因此用戶可以給行定義各種不同的列;而Hive表是稠密型,即定義多少列,每一行有存儲(chǔ)固定列數(shù)的數(shù)據(jù)。(4)Hive使用Hadoop來(lái)分析處理數(shù)據(jù),而Hadoop系統(tǒng)是批處理系統(tǒng),因此不能保證處理的低遲延問(wèn)題;而HBase是近實(shí)時(shí)系統(tǒng),支持實(shí)時(shí)查詢。(5)Hive不提供行級(jí)別的更新,它適用于大量append-only數(shù)據(jù)集(如日志)的批任務(wù)處理。而基于HBase的查詢,支持行級(jí)別的更新。(6)Hive提供完整的SQL實(shí)現(xiàn),通常被用來(lái)做一些基于歷史數(shù)據(jù)的挖掘、分析。而HBase是一個(gè)NoSQL,不適用與有join,多級(jí)索引,表關(guān)系復(fù)雜的應(yīng)用場(chǎng)景。任務(wù)8.1部署Hive本地模式8.1.2Hive安裝方式
Hive中有兩類數(shù)據(jù):表數(shù)據(jù)和元數(shù)據(jù)。和關(guān)系型數(shù)據(jù)庫(kù)一樣,元數(shù)據(jù)可以看做是描述數(shù)據(jù)的數(shù)據(jù),包括Hive表的數(shù)據(jù)庫(kù)名、表名、字段名稱與類型、分區(qū)字段與類型、表及分區(qū)的屬性、存放位置等都屬于元數(shù)據(jù)。在項(xiàng)目一中我們知道Hive常用的元數(shù)據(jù)庫(kù)有Hive自帶的Derby數(shù)據(jù)庫(kù)和獨(dú)立安裝的MySQL數(shù)據(jù)庫(kù)。元數(shù)據(jù)存儲(chǔ)路徑分為本地和遠(yuǎn)程,可通過(guò)hive-site.xml文件設(shè)置。根據(jù)Hive不同的應(yīng)用場(chǎng)景,以及元數(shù)據(jù)庫(kù)的使用方式不同,可以將Hive的安裝方式分為三種,三種方式及具體特點(diǎn)如下表所示:序號(hào)安裝方式特點(diǎn)1內(nèi)嵌模式元數(shù)據(jù)保存在內(nèi)嵌的Derby數(shù)據(jù)庫(kù),允許一個(gè)會(huì)話鏈接,多個(gè)會(huì)話鏈接會(huì)報(bào)錯(cuò))2本地模式獨(dú)立安裝MySQL替代Derby存儲(chǔ)元數(shù)據(jù)3遠(yuǎn)程模式MetaStore服務(wù)和Hive服務(wù)不在同一個(gè)節(jié)點(diǎn),遠(yuǎn)程安裝MySQL替代Derby存儲(chǔ)元數(shù)據(jù)任務(wù)8.1部署Hive本地模式(1)內(nèi)嵌模式內(nèi)嵌模式是Hive默認(rèn)的配置模式,配置簡(jiǎn)單,但是一次只能一個(gè)客戶端連接,只適用于實(shí)驗(yàn),不適用于生產(chǎn)環(huán)境。內(nèi)嵌模式的結(jié)構(gòu)圖如下圖所示:任務(wù)8.1部署Hive本地模式Hive本地模式的結(jié)構(gòu)圖如下圖所示:(2)本地模式Hive的本地模式不再使用內(nèi)嵌的Derby作為元數(shù)據(jù)的存儲(chǔ)介質(zhì),而是使用其他數(shù)據(jù)庫(kù)比如MySQL來(lái)存儲(chǔ)元數(shù)據(jù)。Hive服務(wù)和MetaStore服務(wù)運(yùn)行在同一個(gè)進(jìn)程中,MySQL是單獨(dú)的進(jìn)程,可以和Hive部署在同一臺(tái)機(jī)器,也可以將MySQL部署在遠(yuǎn)程機(jī)器上。這種方式是一個(gè)多用戶的模式,運(yùn)行多個(gè)用戶client連接到一個(gè)數(shù)據(jù)庫(kù)中。本地模式部署的Hive一般用于公司內(nèi)部多用戶同時(shí)訪問(wèn)和操作。每一個(gè)用戶必須要有對(duì)MySQL的訪問(wèn)權(quán)利,即每一個(gè)客戶端使用者都需要知道MySQL的用戶名和密碼。Hive可以通過(guò)本地模式在單臺(tái)機(jī)器上處理所有的任務(wù)。對(duì)于小數(shù)據(jù)集,執(zhí)行時(shí)間會(huì)明顯縮短。任務(wù)8.1部署Hive本地模式(3)Hive遠(yuǎn)程模式:
是將存儲(chǔ)元數(shù)據(jù)的MySQL數(shù)據(jù)庫(kù)部署到集群中其他節(jié)點(diǎn)的機(jī)器,作為元數(shù)據(jù)服務(wù)器。實(shí)現(xiàn)了MySQL服務(wù)器和Hive服務(wù)器分別部署在不同機(jī)器上。在遠(yuǎn)程模式下,Hive服務(wù)和MetaStore服務(wù)是運(yùn)行在不同的進(jìn)程或不同機(jī)器上的,在元數(shù)據(jù)服務(wù)器端啟動(dòng)MetaStoreServer,客戶端通過(guò)MetaStoreServer訪問(wèn)元數(shù)據(jù)庫(kù)MySQL。Hive遠(yuǎn)程模式的訪問(wèn)結(jié)構(gòu)如下圖所示:任務(wù)8.1部署Hive本地模式【工作流程】部署Hive本地模式的主要工作流程包括:1.安裝和配置MySQL;2.安裝和配置Hive。其中安裝和配置Hive的具體流程包括:(1)解壓安裝包并配置環(huán)境變量;(2)修改Hive的配置文件;(3)在Hive安裝目錄下創(chuàng)建tmp目錄;(4)部署jdbc驅(qū)動(dòng)包;(5)對(duì)Hive元數(shù)據(jù)庫(kù)進(jìn)行初始化;(6)啟動(dòng)Hive客戶端,測(cè)試Hive部署是否成功。任務(wù)8.1部署Hive本地模式【操作步驟】Hive本地模式的安裝需要將Hive和元數(shù)據(jù)庫(kù)MySQL都安裝在master節(jié)點(diǎn)上。1.安裝和配置MySQL具體步驟如下:(1)檢查MySQL是否已安裝 首先刪除linux上已經(jīng)安裝的mysql相關(guān)庫(kù)信息。
[root@master01opt]#rpm-emysql--nodeps
執(zhí)行命令檢查是否刪除干凈
[root@master01opt]#rpm-qa|grepmysql(2)使用yum源安裝mysqlCentOS7的yum源中默認(rèn)沒(méi)有mysql,需要首先執(zhí)行wget命令下載mysql的repo源,具體命令如下所示:
[root@master01opt]#wgethttp:///mysql-community-release-el7-5.noarch.rpm【小提示】如果執(zhí)行上面命令時(shí)提示wget未安裝,則需要先安裝wget命令,使用yum安裝即可,安裝命令如下所示:
[root@master01opt]#yuminstall–ywget
安裝mysql-community-release-el7-5.noarch.rpm包
[root@master01opt]#rpm-ivhmysql-community-release-el7-5.noarch.rpm
安裝mysql服務(wù)器端:
[root@master01opt]#yuminstall–ymysql-server任務(wù)8.1部署Hive本地模式(3)連接MySQL
啟動(dòng)MySQL服務(wù):
[root@master01opt]#systemctlstartmysql
在shell命令行狀態(tài)下執(zhí)行下面命令連接MySQL:
[root@master01opt]#mysql
運(yùn)行以下命令授予遠(yuǎn)程訪問(wèn)權(quán)限:
mysql>grantallprivilegeson*.*to'root'@'%'identifiedby'root'withgrantoption;
運(yùn)行以下命令刷新授權(quán)表:
mysql>flushprivileges;
運(yùn)行以下命令創(chuàng)建hive數(shù)據(jù)庫(kù)用于存儲(chǔ)Hive元數(shù)據(jù):
mysql>createdatabasehive; 運(yùn)行以下命令退出MySQL數(shù)據(jù)庫(kù): mysql>exit;任務(wù)8.1部署Hive本地模式2.安裝并配置Hive(1)解壓安裝包并配置環(huán)境變量 將下載好的Hive安裝包進(jìn)行解壓,并且改為短名,如下兩條命令所示:
[root@master01opt]#tarzxvfapache-hive-3.1.2-bin.tar.gz [root@master01opt]#mvapache-hive-3.1.2-binhive
在master節(jié)點(diǎn)節(jié)點(diǎn)上,編輯/etc/profile文件,添加以下兩行內(nèi)容,配置Hive的環(huán)境變量:
exportHIVE_HOME=/opt/hive exportPATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf
運(yùn)行以下命令,使配置的環(huán)境變量生效:
[root@master01opt]#source/etc/profile(2)修改Hive的配置文件Hive的配置文件都存放在Hive安裝目錄的$HIVE_HOME/conf目錄下。進(jìn)入hive的conf目錄,進(jìn)行以下配置文件的修改:①修改hive-env.sh在hive-env.sh文件中添加以下四個(gè)環(huán)境變量的配置:
exportJAVA_HOME=/usr/lib/kvm/java##Java路徑
exportHADOOP_HOME=/opt/hadoop##Hadoop安裝路徑
exportHIVE_HOME=/opt/hive##Hive安裝路徑
exportHIVE_CONF_DIR=${HIVE_HOME}/conf##Hive配置文件路徑任務(wù)8.1部署Hive本地模式②新建并修改hive-site.xml在Hive的conf目錄下新建hive-site.xml文件,并在文件中配置MySQL數(shù)據(jù)庫(kù)連接信息。
<configuration> <property> <name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>root</value> </property> </configuration>任務(wù)8.1部署Hive本
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年揭陽(yáng)市揭西縣數(shù)學(xué)三上期末考試試題含解析
- 2024年礦產(chǎn)開(kāi)采爆破作業(yè)勞務(wù)分包合同
- 辦公環(huán)境下的高效種植技術(shù)與農(nóng)產(chǎn)品電商解決方案
- 2024年田土承包經(jīng)營(yíng)權(quán)租賃與物業(yè)服務(wù)合同3篇
- 醫(yī)療領(lǐng)域中的實(shí)驗(yàn)室安全衛(wèi)生
- 商業(yè)模式創(chuàng)新在解決兒童營(yíng)養(yǎng)問(wèn)題中的價(jià)值
- 培養(yǎng)孩子的獨(dú)立性與自我保護(hù)意識(shí)在戶外活動(dòng)中
- 商業(yè)數(shù)據(jù)分析中的數(shù)學(xué)基礎(chǔ)運(yùn)算技能探討
- 2025中國(guó)鐵塔集團(tuán)黑龍江分公司招聘11人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國(guó)聯(lián)通云數(shù)據(jù)限公司招聘33人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024海南省圖書(shū)館公開(kāi)招聘財(cái)政定額補(bǔ)貼人員15人(一)高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 心理統(tǒng)計(jì)學(xué)統(tǒng)計(jì)方法
- 北斗創(chuàng)新設(shè)計(jì)導(dǎo)航-知到答案、智慧樹(shù)答案
- 【韓國(guó)三星在中國(guó)的跨文化管理探析-以上海子公司為例5800字】
- 新學(xué)位法專題講座課件
- 墜積性肺炎治療新進(jìn)展
- 心身疾病的心理與康復(fù)治療
- 2024年02月四川省省直機(jī)關(guān)2024年度公開(kāi)遴選和公開(kāi)選調(diào)公務(wù)員筆試參考題庫(kù)附帶答案詳解
- 2024安吉桃花源萌寵露營(yíng)節(jié)活動(dòng)方案
- 壯醫(yī)藥水蛭療法
- 200句搞定中考英語(yǔ)詞匯
評(píng)論
0/150
提交評(píng)論