數(shù)據(jù)傾斜的解決方案_第1頁(yè)
數(shù)據(jù)傾斜的解決方案_第2頁(yè)
數(shù)據(jù)傾斜的解決方案_第3頁(yè)
數(shù)據(jù)傾斜的解決方案_第4頁(yè)
數(shù)據(jù)傾斜的解決方案_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)傾斜的解決方案2學(xué)習(xí)任務(wù)了解設(shè)置參數(shù)解決數(shù)據(jù)傾斜了解sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜3知識(shí)目標(biāo)設(shè)置參數(shù)解決數(shù)據(jù)傾斜sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜01能力目標(biāo)掌握設(shè)置參數(shù)解決數(shù)據(jù)傾斜理解sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜02學(xué)習(xí)目標(biāo)4目錄01Groupby傾斜解決方案02Join傾斜解決方案5Groupby傾斜解決方案開(kāi)啟map端部分聚合功能,就是將key相同的歸到一起,減少數(shù)據(jù)量,這樣就可以相對(duì)地減少進(jìn)入reduce的數(shù)據(jù)量,在一定程度上可以提高性能。設(shè)置hive.map.aggr=true6Groupby傾斜解決方案如果發(fā)生了數(shù)據(jù)傾斜就可以通過(guò)它來(lái)進(jìn)行負(fù)載均衡。當(dāng)選項(xiàng)設(shè)定為true,生成的查詢(xún)計(jì)劃會(huì)有兩個(gè)MRJob。第一個(gè)MRJob中,Map的輸出結(jié)果集合會(huì)隨機(jī)分布到Reduce中,每個(gè)Reduce做部分聚合操作,并輸出結(jié)果,這樣處理的結(jié)果是相同的Key有可能被分發(fā)到不同的Reduce中,從而達(dá)到負(fù)載均衡的目的;第二個(gè)MRJob再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照Key分布到Reduce中最后完成最終的聚合操作。設(shè)置hive.groupby.skewindata=true7Groupby傾斜解決方案countdistinct操作往往需要改寫(xiě)SQL,改寫(xiě)SQL語(yǔ)句前后差別很大,如下是修改前的SQL語(yǔ)句groupby查詢(xún):countdistinct改寫(xiě)修改過(guò)后,取出distinct關(guān)鍵字,采用子查詢(xún)的方式提高查詢(xún)速度,修改過(guò)的SQL語(yǔ)句如下:selecta,count(distinctb)ascfromtblgroupbya;selecta,count(*)ascfrom(selecta,bfromtblgroupbya,b)groupbya;8Join傾斜解決方案join造成的傾斜,常見(jiàn)情況是不能做map。join的兩個(gè)表,其中一個(gè)是行為表,另一個(gè)是屬性表。比如我們有三個(gè)表,一個(gè)用戶(hù)屬性表users,一個(gè)商品屬性表items,還有一個(gè)用戶(hù)對(duì)商品的操作行為表日志表logs。假設(shè)現(xiàn)在需要將行為表關(guān)聯(lián)用戶(hù)表。命令如下所示:設(shè)置skewjoin參數(shù)select*fromlogsajoinusersbona.user_id=b.user_id;其中l(wèi)ogs表里面會(huì)有一個(gè)特殊用戶(hù)user_id=0,代表未登錄用戶(hù),假如這種用戶(hù)占了相當(dāng)?shù)谋壤?,那么個(gè)別reduce會(huì)收到比其他reduce多得多的數(shù)據(jù)。9Join傾斜解決方案因?yàn)橐邮账衭ser_id=0的記錄進(jìn)行處理,使得其處理效果會(huì)非常差。hive給出的解決方案叫skewjoin,其原理把這種user_id=0的特殊值先不在reduce端計(jì)算掉,而是先寫(xiě)入hdfs,然后啟動(dòng)一輪mapjoin專(zhuān)門(mén)做這個(gè)特殊值的計(jì)算,期望能提高計(jì)算這部分值的處理速度。當(dāng)然你要告訴hive這個(gè)join是個(gè)skewjoin,即:設(shè)置skewjoin參數(shù)hive.optimize.skewjoin=true;10Join傾斜解決方案針對(duì)join傾斜的問(wèn)題,一般都是通過(guò)改寫(xiě)sql解決。對(duì)于上面這個(gè)問(wèn)題,我們已經(jīng)知道user_id=0是一個(gè)特殊key,那么可以把特殊值隔離開(kāi)來(lái)單獨(dú)做join,這樣特殊值肯定會(huì)轉(zhuǎn)化成mapjoin,非特殊值就是沒(méi)有傾斜的普通join了,命令如下:特殊值分開(kāi)處理法select*from(select*fromlogswhereuser_id=0)ajoin(select*fromuserswhereuser_id=0)bona.user_id=b.user_idunionallselect*fromlogsajoinusersbona.user_id<>0anda.user_id=b.user_id;11Join傾斜解決方案上面這種個(gè)別key傾斜的情況只是一種傾斜情況。最常見(jiàn)的傾斜是因?yàn)閿?shù)據(jù)分布本身就具有長(zhǎng)尾性質(zhì),比如我們將日志表和商品表關(guān)聯(lián):隨機(jī)數(shù)分配法select*fromlogsajoinitemsbona.item_id=b.item_id;這個(gè)時(shí)候分配到熱門(mén)商品的reducer就會(huì)很慢,因?yàn)闊衢T(mén)商品的行為日志肯定是最多的,而且我們也很難像上面處理特殊user那樣去處理item。為了解決這個(gè)問(wèn)題會(huì)用到加隨機(jī)數(shù)方法,就是在join的時(shí)候增加一個(gè)隨機(jī)數(shù),隨機(jī)數(shù)的取值范圍n相當(dāng)于將item給分散到n個(gè)reducer,命令如下所示:12Join傾斜解決方案上面的寫(xiě)法里,對(duì)行為表的每條記錄生成一個(gè)1-10的隨機(jī)整數(shù),對(duì)于item屬性表,每個(gè)item生成10條記錄,隨機(jī)key分別也是1-10,這樣就能保證行為表關(guān)聯(lián)上屬性表。這個(gè)做法是一個(gè)解決join傾斜比較根本性的通用思路,就是如何用隨機(jī)數(shù)將key進(jìn)行分散。隨機(jī)數(shù)分配法selecta.*,b.*from(select*,cast(rand()*10asint)asr_idfromlogs)ajoin(select*,r_idfromitemslateralviewexplode(range_list(1,10))rlasr_id)bona.item_id=b.item_idanda.r_id=b.r_id查詢(xún)命令如下:13Join傾斜解決方案最后一種是因?yàn)闃I(yè)務(wù)設(shè)計(jì)導(dǎo)致的問(wèn)題,也就是說(shuō)即使行為日志里面joinkey的數(shù)據(jù)分布本身并不明顯傾斜,但是業(yè)務(wù)設(shè)計(jì)導(dǎo)致其傾斜。比如對(duì)于商品item_id的編碼,除了本身的id序列,還人為的把item的類(lèi)型也作為編碼放在最后兩位,這樣如果類(lèi)型1(電子產(chǎn)品)的編碼是00,類(lèi)型2(家居產(chǎn)品)的編碼是01,并且類(lèi)型1是主要商品類(lèi),將會(huì)造成以00為結(jié)尾的商品整體傾斜。這時(shí),如果reduce的數(shù)量恰好是100的整數(shù)倍,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論