



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、論文閱讀成果和創(chuàng)新點(diǎn)論文閱讀成果和創(chuàng)新點(diǎn)廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室羅道文羅道文2015-03-07 SAND_JOIN algorithm目目 錄錄 基于基于Locality-Aware的的reduce任務(wù)調(diào)度任務(wù)調(diào)度 SAND_JOIN算法算法不足之處不足之處 SAND_JOIN算法改進(jìn)算法改進(jìn)SAND_JOIN algoririthm簡(jiǎn)單的范圍分區(qū)思想:在執(zhí)行reduce-join連接之前,先運(yùn)行一個(gè)job,統(tǒng)計(jì)鍵值的分布情況,即抽樣思想,接著利用樣本的鍵值分布情況,對(duì)所有數(shù)據(jù)進(jìn)行分區(qū)。分為:簡(jiǎn)單范圍分區(qū)和虛擬處理器范圍分區(qū)。思想:Map端采樣:每個(gè)Mapper隨機(jī)選取X個(gè)樣
2、本,有n個(gè)Mapper。 Reduce端統(tǒng)計(jì)分布:只需要一個(gè)Reducer對(duì)樣本所有key值統(tǒng)計(jì)分析,構(gòu)造出分區(qū)序列。 SAND_JOIN algoririthm若執(zhí)行的Join連接有N個(gè)Reduce,則可以根據(jù)步長(zhǎng)n*x/N獲得一個(gè)分區(qū)序列。例如: Sample:1,3,3,4,5,5,6,6,6,6,8,9,9,10,10,5個(gè)Reducer,步長(zhǎng)為3, 分區(qū)序列為:3,5,6,9 Join Partition: key3 3key5 5key6 6key9 9 鍵為6的有兩個(gè)可選Reducer 解決: build relation: 隨機(jī)選擇一個(gè)可選Reducer probe relat
3、ion: 需發(fā)送到每個(gè)可選Reducer 適合一個(gè)大表一個(gè)小表的情況! SAND_JOIN algoririthm傾斜鍵存在大小表的情況 Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 5個(gè)Reducer,步進(jìn)3 分區(qū)序列: 3, 5, 6, 6 - 鍵為6的有兩個(gè)可選Reducer 3 和 4 R join S,對(duì)于鍵6,若 R.6 = S.6 可將所有的S.6傳輸?shù)?和4上,然后R.6可以隨機(jī)分配到3或4上其實(shí)就是x*y=x*(y1+y2)=x*y1+x*y2SAND_JOIN algoririthm論文具體實(shí)現(xiàn): 1.將小表
4、S加載到每一臺(tái)機(jī)器,建立哈希表,的形式。 2.當(dāng)R表某個(gè)鍵值key分配到某個(gè)Reducer上時(shí),從哈希表中檢索key的value值,即tuplelist,與R表中的元組做Join操作。SAND_JOIN algoririthm虛擬處理器范圍分區(qū) 實(shí)際是N個(gè)Reducer,但假定分成 *N 個(gè)分區(qū)(為整數(shù))。 例如Samples: 1, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 5個(gè)ReducerJoin Partition: 1,3,4,4, 5,5,6,6, 6,6,6,6, 9,10,10,11,11,1
5、1, 15,16 = 2,則分成2*5=10個(gè)分區(qū)Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 10個(gè)ReducerJoin Partition: 1,3,3, 4, 5,5, 6,6, 6,6, 6,6, 9,10,10, 11, 11,11, 15,16 采用虛擬范圍分區(qū),數(shù)據(jù)分配更加均衡 處理方式: 輪叫調(diào)度 或 當(dāng)某一節(jié)點(diǎn)完成時(shí),將下一剩余任務(wù)分配給該節(jié)點(diǎn) 論文的實(shí)驗(yàn)結(jié)果表明虛擬范圍分區(qū)優(yōu)于簡(jiǎn)單范圍分區(qū)SAND_JOIN algoririthmLocality-Aware的的reduce任務(wù)調(diào)度任務(wù)調(diào)度思想:盡量將某個(gè)key分配給所有節(jié)點(diǎn)中該key最大的節(jié)點(diǎn)。 優(yōu)點(diǎn):減少數(shù)據(jù)量的傳輸。“Hadoops framework adopts a pull scheduling strategy rather than a push one” 意思就是說JobTracker并不是把map和reduce任務(wù)push給TaskTracer,而是TaskTracker通過請(qǐng)求向JobTracker pull一個(gè)map或者reduce任務(wù)?;谖恢酶兄膔educe任務(wù)調(diào)度Locality-Awa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 水利水電工程項(xiàng)目管理試題及答案分析
- 中級(jí)經(jīng)濟(jì)師常見錯(cuò)誤分析試題及答案
- 2025年音樂產(chǎn)業(yè)版權(quán)運(yùn)營(yíng)與音樂版權(quán)交易市場(chǎng)潛力挖掘與市場(chǎng)拓展:科技創(chuàng)新與產(chǎn)業(yè)發(fā)展報(bào)告
- xx市工業(yè)用地開發(fā)可行性研究報(bào)告
- 建筑技術(shù)在城市更新中的應(yīng)用試題及答案
- 行政管理與社會(huì)價(jià)值創(chuàng)造的結(jié)合研究試題及答案
- 2025年行政管理學(xué)考試的經(jīng)驗(yàn)分享與試題及答案
- 行政管理與社會(huì)參與意識(shí)提升的緊密關(guān)系試題及答案
- 2025年工程經(jīng)濟(jì)經(jīng)驗(yàn)交流試題及答案
- 加強(qiáng)理解的市政工程試題及答案
- 2023年山東煙草專賣局筆試試題
- 護(hù)患溝通情景實(shí)例
- 殘疾、弱智兒童送教上門教案12篇
- 農(nóng)貿(mào)市場(chǎng)建設(shè)項(xiàng)目可行性研究報(bào)告
- 幼兒園紅色故事《閃閃的紅星》課件
- 小學(xué)道德與法治-大家排好隊(duì)教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 開工報(bào)告規(guī)范文本樣板
- 老年人口腔功能的衰退與對(duì)策
- (完整版)建筑工程技術(shù)說專業(yè)、專業(yè)剖析
- 肝硬化護(hù)理查房個(gè)案介紹ppt
- A-Rose-For-Emily-William-Faulkner課文、作者、背景講解-(課堂PPT)
評(píng)論
0/150
提交評(píng)論