版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)傾斜的解決方案2學(xué)習(xí)任務(wù)了解設(shè)置參數(shù)解決數(shù)據(jù)傾斜了解sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜3知識(shí)目標(biāo)設(shè)置參數(shù)解決數(shù)據(jù)傾斜sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜01能力目標(biāo)掌握設(shè)置參數(shù)解決數(shù)據(jù)傾斜理解sql語(yǔ)句優(yōu)化解決數(shù)據(jù)傾斜02學(xué)習(xí)目標(biāo)4目錄01Groupby傾斜解決方案02Join傾斜解決方案5Groupby傾斜解決方案開(kāi)啟map端部分聚合功能,就是將key相同的歸到一起,減少數(shù)據(jù)量,這樣就可以相對(duì)地減少進(jìn)入reduce的數(shù)據(jù)量,在一定程度上可以提高性能。設(shè)置hive.map.aggr=true6Groupby傾斜解決方案如果發(fā)生了數(shù)據(jù)傾斜就可以通過(guò)它來(lái)進(jìn)行負(fù)載均衡。當(dāng)選項(xiàng)設(shè)定為true,生成的查詢(xún)計(jì)劃會(huì)有兩個(gè)MRJob。第一個(gè)MRJob中,Map的輸出結(jié)果集合會(huì)隨機(jī)分布到Reduce中,每個(gè)Reduce做部分聚合操作,并輸出結(jié)果,這樣處理的結(jié)果是相同的Key有可能被分發(fā)到不同的Reduce中,從而達(dá)到負(fù)載均衡的目的;第二個(gè)MRJob再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照Key分布到Reduce中最后完成最終的聚合操作。設(shè)置hive.groupby.skewindata=true7Groupby傾斜解決方案countdistinct操作往往需要改寫(xiě)SQL,改寫(xiě)SQL語(yǔ)句前后差別很大,如下是修改前的SQL語(yǔ)句groupby查詢(xún):countdistinct改寫(xiě)修改過(guò)后,取出distinct關(guān)鍵字,采用子查詢(xún)的方式提高查詢(xún)速度,修改過(guò)的SQL語(yǔ)句如下:selecta,count(distinctb)ascfromtblgroupbya;selecta,count(*)ascfrom(selecta,bfromtblgroupbya,b)groupbya;8Join傾斜解決方案join造成的傾斜,常見(jiàn)情況是不能做map。join的兩個(gè)表,其中一個(gè)是行為表,另一個(gè)是屬性表。比如我們有三個(gè)表,一個(gè)用戶(hù)屬性表users,一個(gè)商品屬性表items,還有一個(gè)用戶(hù)對(duì)商品的操作行為表日志表logs。假設(shè)現(xiàn)在需要將行為表關(guān)聯(lián)用戶(hù)表。命令如下所示:設(shè)置skewjoin參數(shù)select*fromlogsajoinusersbona.user_id=b.user_id;其中l(wèi)ogs表里面會(huì)有一個(gè)特殊用戶(hù)user_id=0,代表未登錄用戶(hù),假如這種用戶(hù)占了相當(dāng)?shù)谋壤?,那么個(gè)別reduce會(huì)收到比其他reduce多得多的數(shù)據(jù)。9Join傾斜解決方案因?yàn)橐邮账衭ser_id=0的記錄進(jìn)行處理,使得其處理效果會(huì)非常差。hive給出的解決方案叫skewjoin,其原理把這種user_id=0的特殊值先不在reduce端計(jì)算掉,而是先寫(xiě)入hdfs,然后啟動(dòng)一輪mapjoin專(zhuān)門(mén)做這個(gè)特殊值的計(jì)算,期望能提高計(jì)算這部分值的處理速度。當(dāng)然你要告訴hive這個(gè)join是個(gè)skewjoin,即:設(shè)置skewjoin參數(shù)hive.optimize.skewjoin=true;10Join傾斜解決方案針對(duì)join傾斜的問(wèn)題,一般都是通過(guò)改寫(xiě)sql解決。對(duì)于上面這個(gè)問(wèn)題,我們已經(jīng)知道user_id=0是一個(gè)特殊key,那么可以把特殊值隔離開(kāi)來(lái)單獨(dú)做join,這樣特殊值肯定會(huì)轉(zhuǎn)化成mapjoin,非特殊值就是沒(méi)有傾斜的普通join了,命令如下:特殊值分開(kāi)處理法select*from(select*fromlogswhereuser_id=0)ajoin(select*fromuserswhereuser_id=0)bona.user_id=b.user_idunionallselect*fromlogsajoinusersbona.user_id<>0anda.user_id=b.user_id;11Join傾斜解決方案上面這種個(gè)別key傾斜的情況只是一種傾斜情況。最常見(jiàn)的傾斜是因?yàn)閿?shù)據(jù)分布本身就具有長(zhǎng)尾性質(zhì),比如我們將日志表和商品表關(guān)聯(lián):隨機(jī)數(shù)分配法select*fromlogsajoinitemsbona.item_id=b.item_id;這個(gè)時(shí)候分配到熱門(mén)商品的reducer就會(huì)很慢,因?yàn)闊衢T(mén)商品的行為日志肯定是最多的,而且我們也很難像上面處理特殊user那樣去處理item。為了解決這個(gè)問(wèn)題會(huì)用到加隨機(jī)數(shù)方法,就是在join的時(shí)候增加一個(gè)隨機(jī)數(shù),隨機(jī)數(shù)的取值范圍n相當(dāng)于將item給分散到n個(gè)reducer,命令如下所示:12Join傾斜解決方案上面的寫(xiě)法里,對(duì)行為表的每條記錄生成一個(gè)1-10的隨機(jī)整數(shù),對(duì)于item屬性表,每個(gè)item生成10條記錄,隨機(jī)key分別也是1-10,這樣就能保證行為表關(guān)聯(lián)上屬性表。這個(gè)做法是一個(gè)解決join傾斜比較根本性的通用思路,就是如何用隨機(jī)數(shù)將key進(jìn)行分散。隨機(jī)數(shù)分配法selecta.*,b.*from(select*,cast(rand()*10asint)asr_idfromlogs)ajoin(select*,r_idfromitemslateralviewexplode(range_list(1,10))rlasr_id)bona.item_id=b.item_idanda.r_id=b.r_id查詢(xún)命令如下:13Join傾斜解決方案最后一種是因?yàn)闃I(yè)務(wù)設(shè)計(jì)導(dǎo)致的問(wèn)題,也就是說(shuō)即使行為日志里面joinkey的數(shù)據(jù)分布本身并不明顯傾斜,但是業(yè)務(wù)設(shè)計(jì)導(dǎo)致其傾斜。比如對(duì)于商品item_id的編碼,除了本身的id序列,還人為的把item的類(lèi)型也作為編碼放在最后兩位,這樣如果類(lèi)型1(電子產(chǎn)品)的編碼是00,類(lèi)型2(家居產(chǎn)品)的編碼是01,并且類(lèi)型1是主要商品類(lèi),將會(huì)造成以00為結(jié)尾的商品整體傾斜。這時(shí),如果reduce的數(shù)量恰好是100的整數(shù)倍,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)管理合同書(shū)協(xié)議書(shū)
- 信托資金跨境投資合同
- 人教版五年級(jí)上冊(cè)數(shù)學(xué)期末測(cè)試題帶答案
- 個(gè)人金融產(chǎn)品購(gòu)買(mǎi)決策及風(fēng)險(xiǎn)管理指導(dǎo)書(shū)
- 三農(nóng)村能源利用與保護(hù)手冊(cè)
- 11變廢為寶有妙招(教案)-2024-2025學(xué)年道德與法治四年級(jí)上冊(cè)統(tǒng)編版
- 高中數(shù)學(xué) 1.1.1 簡(jiǎn)單旋轉(zhuǎn)體基礎(chǔ)鞏固 北師大版必修2
- 任務(wù)一 數(shù)據(jù)排序 教學(xué)設(shè)計(jì) -2023-2024學(xué)年桂科版初中信息技術(shù)八年級(jí)上冊(cè)
- 2024-2025學(xué)年數(shù)學(xué)人教版七年級(jí)上冊(cè) 6.2.1 直線、射線、線段教案
- Lesson4 教學(xué)設(shè)計(jì) 2024-2025學(xué)年冀教版英語(yǔ)八年級(jí)上冊(cè)
- 醫(yī)院汛期培訓(xùn)課件
- 周?chē)窠?jīng)病的護(hù)理查房
- 女干部心理健康知識(shí)講座
- 大學(xué)生健康教育課件運(yùn)動(dòng)與健康
- 預(yù)防秋季傳染病食品安全
- 直線的點(diǎn)斜式方程(公開(kāi)課)
- 婦科利用品管圈PDCA循環(huán)提高人工流產(chǎn)女性落實(shí)高效避孕措施的依從性
- 油田QC小組運(yùn)用PDCA循環(huán)降低油田注汽鍋爐噸汽耗水量攻關(guān)型成果匯報(bào)
- 潰瘍性結(jié)腸炎護(hù)理查房
- Python網(wǎng)絡(luò)爬蟲(chóng)與數(shù)據(jù)采集 試題及答案 共2套
- 侵蝕溝治理說(shuō)明書(shū)
評(píng)論
0/150
提交評(píng)論