版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Hive優(yōu)化及數(shù)據(jù)倉(cāng)庫(kù)建模技術(shù)創(chuàng)新,變革未來(lái)智慧IT目錄Hive常見(jiàn)優(yōu)化方式1Hive數(shù)據(jù)傾斜及解決辦法2基于 Hive數(shù)據(jù)倉(cāng)庫(kù)建模3Hive調(diào)優(yōu)-建表注意事項(xiàng)1,分區(qū),分桶,一般是按照業(yè)務(wù)日期進(jìn)行分區(qū)每天的數(shù)據(jù)放在一個(gè)分區(qū)里2,一般使用外部表,避免數(shù)據(jù)誤刪,/ChouYarn/p/7986830.html/xuguokun1986/article/details/509856133,選擇適當(dāng)?shù)奈募嚎s格式4,命名要規(guī)范5,數(shù)據(jù)分層,表分離,但是也不要分的太散6,可以使用視圖,避免重復(fù)查詢Hive調(diào)優(yōu)-查詢優(yōu)化分區(qū)裁剪 where過(guò)濾,先過(guò)濾,后jion分區(qū)分桶,合并小文件適當(dāng)?shù)淖硬樵僲apj
2、oin(1.2以后自動(dòng)默認(rèn)啟動(dòng)mapjoin)select /*+mapjoin(b)*/ a.xx,b.xxx from a left outer join b on a.id=b.id左連的時(shí)候,大表在左邊,小表在右邊。/articles/124835?spm=a2c4e.1115540413312nqEt9Horder by 語(yǔ)句:是全局排序sort by 語(yǔ)句:是單reduce排序distribute by語(yǔ)句:是分區(qū)字段排序;cluster by語(yǔ)句:可以確保類似的數(shù)據(jù)的分發(fā)到同一個(gè)reduce task中,并且保證數(shù)據(jù)有序防止所有的數(shù)據(jù)分發(fā)到同一個(gè)reduce上,導(dǎo)致整體的job時(shí)
3、間延長(zhǎng)cluster by語(yǔ)句的等價(jià)語(yǔ)句:distribute by Word sort by Word ASCHive-數(shù)據(jù)傾斜優(yōu)化1,數(shù)據(jù)傾斜解決看下key的分布處理集中的key原因1)、key分布不均勻(實(shí)際上還是重復(fù)) 比如 group by 或者 distinct的時(shí)候2)、數(shù)據(jù)重復(fù),join 笛卡爾積 數(shù)據(jù)膨脹表現(xiàn)任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%(或100%),查看任務(wù)監(jiān)控頁(yè)面,發(fā)現(xiàn)只有少量(1個(gè)或幾個(gè))reduce子任務(wù)未完成。因?yàn)槠涮幚淼臄?shù)據(jù)量和其他reduce差異過(guò)大。單一reduce的記錄數(shù)與平均記錄數(shù)差異過(guò)大,通常可能達(dá)到3倍甚至更多。 最長(zhǎng)時(shí)長(zhǎng)遠(yuǎn)大于平均時(shí)長(zhǎng)。解決方案:1,看
4、下業(yè)務(wù)上,數(shù)據(jù)源頭能否對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,比如 key為 null的,業(yè)務(wù)層面進(jìn)行優(yōu)化。2,找到key重復(fù)的具體值,進(jìn)行拆分,hash。異步求和。Hive調(diào)優(yōu)-作業(yè)優(yōu)化調(diào)整mapper和reducer的數(shù)量太多map導(dǎo)致啟動(dòng)產(chǎn)生過(guò)多開(kāi)銷按照輸入數(shù)據(jù)量大小確定reducer數(shù)目set mapred.reduce.tasks= 默認(rèn)3dfs -count /分區(qū)目錄/* hive.exec.reducers.max設(shè)置阻止資源過(guò)度消耗參數(shù)調(diào)節(jié)set hive.map.aggr = true (hive2默認(rèn)開(kāi)啟)Map 端部分聚合,相當(dāng)于Combinerhive.groupby.skewindata=
5、true基于Hive數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展大致經(jīng)歷了這樣的三個(gè)過(guò)程:簡(jiǎn)單報(bào)表階段:這個(gè)階段,系統(tǒng)的主要目標(biāo)是解決一些日常的工作中業(yè)務(wù)人員需要的報(bào)表,以及生成一些簡(jiǎn)單的能夠幫助領(lǐng)導(dǎo)進(jìn)行決策所需要的匯總數(shù)據(jù)。這個(gè)階段的大部分表現(xiàn)形式為數(shù)據(jù)庫(kù)和前端報(bào)表工具。數(shù)據(jù)集市階段:這個(gè)階段,主要是根據(jù)某個(gè)業(yè)務(wù)部門(mén)的需要,進(jìn)行一定的數(shù)據(jù)的采集,整理,按照業(yè)務(wù)人員的需要,進(jìn)行多維報(bào)表的展現(xiàn),能夠提供對(duì)特定業(yè)務(wù)指導(dǎo)的數(shù)據(jù),并且能夠提供特定的領(lǐng)導(dǎo)決策數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)階段:這個(gè)階段,主要是按照一定的數(shù)據(jù)模型,對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行采集,整理,并且能夠按照各個(gè)業(yè)務(wù)部門(mén)的需要,提供跨部門(mén)的,完全一致的業(yè)務(wù)報(bào)表數(shù)據(jù),能夠通過(guò)
6、數(shù)據(jù)倉(cāng)庫(kù)生成對(duì)對(duì)業(yè)務(wù)具有指導(dǎo)性的數(shù)據(jù),同時(shí),為領(lǐng)導(dǎo)決策提供全面的數(shù)據(jù)支持。Hive-數(shù)據(jù)倉(cāng)庫(kù)建模架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的整理架構(gòu),各個(gè)系統(tǒng)的元數(shù)據(jù)通過(guò)ETL同步到操作性數(shù)據(jù)倉(cāng)庫(kù)ODS中,對(duì)ODS數(shù)據(jù)進(jìn)行面向主題域建模形成DW(數(shù)據(jù)倉(cāng)庫(kù)),DM是針對(duì)某一個(gè)業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報(bào)表Hive-數(shù)據(jù)倉(cāng)庫(kù)建模范式一、1NF1NF簡(jiǎn)單點(diǎn)就是原子性,列不可再分,沒(méi)有重復(fù)的列也沒(méi)有重復(fù)的行,基本上主要有主鍵的表都滿足第一范式1、列不可再分這樣就不符合。二、2NF1、2NF首先滿足1NF2、非主屬性必須依賴于鍵的全部,如果只依賴于主鍵的一部分,則需要移出創(chuàng)建新表。所以第二范式一般是聯(lián)合主鍵。
7、hive-數(shù)據(jù)倉(cāng)庫(kù)建模方式1、分庫(kù)分表,命名規(guī)范,庫(kù)名以所在數(shù)據(jù)層開(kāi)頭命名,如:ods_dianxin_test2、星型和雪花型建模星型雪花模型星型模型因?yàn)閿?shù)據(jù)的冗余所以很多統(tǒng)計(jì)查詢不需要做外部的連接,因此一般情況下效率比雪花型模型要高。星型結(jié)構(gòu)不用考慮很多正規(guī)化的因素,設(shè)計(jì)與實(shí)現(xiàn)都比較簡(jiǎn)單。雪花型模型由于去除了冗余,有些統(tǒng)計(jì)就需要通過(guò)表的聯(lián)接才能產(chǎn)生,所以效率不一定有星型模型高。正規(guī)化也是一種比較復(fù)雜的過(guò)程,相應(yīng)的數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)的 ETL、以及后期的維護(hù)都要復(fù)雜一些。因此在冗余可以接受的前提下,實(shí)際運(yùn)用中星型模型使用更多,也更有效率。星型和雪花模型對(duì)比hive-數(shù)倉(cāng)一些專業(yè)表稱謂1,事實(shí)表:事實(shí)表是用來(lái)存儲(chǔ)主題的主干內(nèi)容,一些外鍵指向維度表。事實(shí)表一般是沒(méi)有主鍵的,基本都是外鍵。數(shù)據(jù)的質(zhì)量完全由業(yè)務(wù)系統(tǒng)來(lái)把握。一般單表字段較多,數(shù)據(jù)量比較大2,維度表:事實(shí)表中某個(gè)方向分支,必須有主鍵,用于關(guān)聯(lián)事實(shí)表。一般數(shù)據(jù)量較小,變化緩慢。3,寬表:字段和數(shù)據(jù)量比較巨大,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年國(guó)際長(zhǎng)途汽車運(yùn)輸服務(wù)合同
- 2024年工程合同款履約保函
- 2024年建設(shè)設(shè)備租賃合同
- 2024年定制能源審計(jì)與咨詢服務(wù)合同
- 2024年度冷鏈物流搬運(yùn)合同
- 2024年新型材料研發(fā)與技術(shù)服務(wù)合同
- 2024年新品酒類訂購(gòu)合同
- 業(yè)務(wù)年度工作計(jì)劃(7篇)
- 2024年房地產(chǎn)開(kāi)發(fā)承包合作協(xié)議
- 2024年建筑材料檢測(cè)合同范本
- 檢測(cè)公司檢驗(yàn)檢測(cè)工作控制程序
- 社工機(jī)構(gòu)項(xiàng)目管理制度
- 充電樁整體解決方案PPT幻燈片(PPT 27頁(yè))
- 物業(yè)服務(wù)集團(tuán)全員品質(zhì)督導(dǎo)策劃方案
- 建筑設(shè)計(jì)基礎(chǔ)(ppt)課件
- 半導(dǎo)體芯片項(xiàng)目商業(yè)計(jì)劃書(shū)范文參考
- 邯鄲市政府采購(gòu)辦事指南
- 城市初期雨水污染治理
- 在護(hù)林員培訓(xùn)班上的講話護(hù)林員會(huì)議講話稿.doc
- 材料科學(xué)基礎(chǔ)-第7章-三元相圖
- (完整word版)高頻變壓器的設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論