版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、技術(shù)創(chuàng)新,變革未來Hive平臺功能介紹內(nèi)容Hive模式設(shè)計Hive列存儲Hive Join Hive FunctionHive例子Hive模式設(shè)計內(nèi)部表和外部表分區(qū)和分桶序列化/反序列化(SerDe)Hive模式設(shè)計內(nèi)部表和外部表表類型內(nèi)部表外部表語句create tablecreate external table是否移動數(shù)據(jù)到warehouse是否刪除table,是否刪除數(shù)據(jù)是否,僅刪除元數(shù)據(jù)源數(shù)據(jù)本地磁盤數(shù)據(jù)或HDFS 數(shù)據(jù)已經(jīng)在HDFS中存在的 數(shù)據(jù)創(chuàng)建過程和數(shù)據(jù)加載過程分別獨立完成(也可以 在同一個語句中完成, 但數(shù)據(jù)不會移動到數(shù)據(jù) 倉庫)加載數(shù)據(jù)和創(chuàng)建表同時完成Hive模式設(shè)計內(nèi)部
2、表和外部表內(nèi)部表對數(shù)據(jù)擁有所有權(quán),將內(nèi)部表數(shù)據(jù)保存在 hive.metastore.warehouse.dir目錄下,刪除內(nèi)部表時, 相應(yīng)的數(shù)據(jù)也會被刪除Hive 對外部表的數(shù)據(jù)僅僅擁有使用權(quán)外部表只有一個過程,加載數(shù)據(jù)和創(chuàng)建表同時完成(CREATE EXTERNAL TABLELOCATION),實際數(shù)據(jù)是存儲在LOCATION后面指定的 HDFS 路徑中,并不會 移動到數(shù)據(jù)倉庫目錄中Hive模式設(shè)計內(nèi)部表和外部表create table order(cid string, quantity int, price int) row format delimited fields termin
3、ated by , lines terminated by n stored as textfile;LOAD DATA INPATH /customer_order/order INTO TABLE order;drop table order;create external table order(cid string, quantity int, price int) row format delimited fields terminated by ,lines terminated by n stored as textfile LOCATION /customer_order/or
4、der;drop table order;Hive模式設(shè)計內(nèi)部表和外部表外部表使用場景:導(dǎo)入hdfs中的源數(shù)據(jù)內(nèi)部表使用場景:存放Hive處理的中間表、結(jié)果表如:每天將日志數(shù)據(jù)傳入HDFS,一天一個目錄Hive基于流入的數(shù)據(jù)建立外部表,將每天HDFS上的原始 日志映射到外部表的天分區(qū)中在外部表基礎(chǔ)上做統(tǒng)計分析,使用內(nèi)部表存儲中間表、 結(jié)果表,數(shù)據(jù)通過SELECT+INSERT進入內(nèi)部表Hive模式設(shè)計分區(qū)和分桶Hive通常對數(shù)據(jù)進行全盤掃描,以滿足查詢條件分區(qū)的優(yōu)勢在于利用維度分割數(shù)據(jù),Hive只加載需要的 數(shù)據(jù)常用的分區(qū)方式:按天、地域分區(qū)占用數(shù)據(jù)表中的一個列名,但并不占用表的實際存 儲空間
5、HDFS不適合存儲大量小文件,理想分區(qū)方案不應(yīng)該導(dǎo)致過多的分區(qū)文件可以用分桶來解決過多小文件的問題Hive模式設(shè)計序列化/反序列化將一條非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成Hive可以識別的記錄對絕對大多數(shù)常用的數(shù)據(jù)格式,Hive官方或者第三方都 提供了相應(yīng)的SerDe,如:RegexSerDe CSVSerde JsonSerde執(zhí)行sql時不再需要關(guān)心如何解析特殊格式的數(shù)據(jù)Hive模式設(shè)計序列化/反序列化/data/messages文件為Json格式JsonSerde讀取messages中的每一條記錄,并解析成Json Object,在代碼中以$表示如“msg_id”=“$.id”,表示id的數(shù)據(jù)內(nèi)容轉(zhuǎn)化成
6、messages表 中的msg_idHive數(shù)據(jù)存儲結(jié)構(gòu)行式存儲 VS 列式存儲Hive數(shù)據(jù)存儲結(jié)構(gòu)行式存儲 VS 列式存儲在線事務(wù)處理(OLTP)側(cè)重于CRUD操作,每次操作都是某幾行記錄,每 次查詢只需從硬盤中加載少量的數(shù)據(jù)行式存儲對這類操作非常有效基于列的存儲對于查詢一整行記錄反而更低效在線分析處理(OLAP)側(cè)重于數(shù)據(jù)分析,更傾向于訪問百萬、千萬甚至上 億條記錄,但是真正需要的數(shù)據(jù)大部分是每行中的某幾列行式存儲會使得花費時間加載大量無效數(shù)據(jù)基于列的存儲,磁盤IO會更高效基于列的存儲,更適合壓縮Hive數(shù)據(jù)存儲結(jié)構(gòu)行式存儲 VS 列式存儲Hive支持的主要數(shù)據(jù)格式Hive數(shù)據(jù)存儲結(jié)構(gòu)行式
7、存儲 VS 列式存儲Parquet是在Hadoop中受到廣泛支持的列式存儲格式支持非常高效的壓縮方法和編碼格式Parquet借鑒DremelHive 語句order by會做全局排序用order by 記得加 limit盡可能用sort by,每個reduce上的結(jié)果有序(即局部有 序)Hive Joinredcue join/shuffle join/common joinmap join/broadcast joinsort merge bucket joinleft semi joinleftouter joinright outer joinfull outer joinHive Jo
8、inJOIN類型優(yōu)點缺點適用場景REDUCE JOIN可以完成各種JOIN操作耗時長,占用 更多網(wǎng)絡(luò)資源任何表大小, 沒有時間要求MAP JOIN可以在map端完成JOIN操作, 執(zhí)行時間短待連接的兩個 表必須有一個 “小表”,“小表” 必須加載內(nèi)存事實表和維表SORT MERGE BUCKET JOIN轉(zhuǎn)換為小表與 小表join,執(zhí)行 時間短,可以 做全連接,幾 乎不受內(nèi)存限 制表必須分桶, 而且桶內(nèi)數(shù)據(jù) 有序兩個大表,提 前分桶排序Hive FunctionWordCount多行轉(zhuǎn)一行一行轉(zhuǎn)多行Hive Function多行轉(zhuǎn)一行Hive Function一行轉(zhuǎn)多行問題內(nèi)部表和外部表有什么區(qū)別Partition和Bucket有什么區(qū)別map join、reduce Join、sort merge bucket join分別適用 于什么場景Hive 例子物流Driver:保存駕駛員的基本信息,字段分別為driverid、firstname、 lastname、emailTimeSheet:保存駕駛員的工作量,字段分別為id、driverid、week、hours、milesHive 例子訂單Date:保存每天所屬的月份、星期、季度等屬性,字段分別為日期、年月、年、月、日、周幾、第幾周、季度、旬、半月Order:保存訂單信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度木門及木飾面產(chǎn)品綠色認證與質(zhì)量監(jiān)督合同4篇
- 2025版實驗室科研項目管理與科技獎勵服務(wù)合同3篇
- 二零二五年度關(guān)聯(lián)方間信貸資產(chǎn)轉(zhuǎn)讓合同規(guī)范文本3篇
- 2025版協(xié)議離婚手續(xù)辦理指南及離婚證獲取要領(lǐng)3篇
- KTV營業(yè)權(quán)轉(zhuǎn)讓及經(jīng)營合同版B版
- 二零二五版租賃房屋租賃保證金利息計算合同3篇
- 2025年度零投入的股權(quán)代持解除與轉(zhuǎn)讓協(xié)議
- 2025年針對普通員工的競業(yè)限制合同范本
- 二零二五年度智慧農(nóng)業(yè)版電路租用與物聯(lián)網(wǎng)應(yīng)用合同
- 二零二五年度數(shù)據(jù)中心運維用工服務(wù)協(xié)議
- 2024年1月高考適應(yīng)性測試“九省聯(lián)考”英語 試題(學(xué)生版+解析版)
- 《朝天子·詠喇叭-王磐》核心素養(yǎng)目標(biāo)教學(xué)設(shè)計、教材分析與教學(xué)反思-2023-2024學(xué)年初中語文統(tǒng)編版
- 成長小說智慧樹知到期末考試答案2024年
- 紅色革命故事《王二小的故事》
- 海洋工程用高性能建筑鋼材的研發(fā)
- 英語48個國際音標(biāo)課件(單詞帶聲、附有聲國際音標(biāo)圖)
- GB/T 6892-2023一般工業(yè)用鋁及鋁合金擠壓型材
- 冷庫安全管理制度
- 2023同等學(xué)力申碩統(tǒng)考英語考試真題
- 家具安裝工培訓(xùn)教案優(yōu)質(zhì)資料
- 在雙減政策下小學(xué)音樂社團活動有效開展及策略 論文
評論
0/150
提交評論