



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
通過MapReduce對(duì)HBase數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析目錄一、概述 1二、應(yīng)用場(chǎng)景 1三、Map程序 2四、Reduce程序 2五、Combiner程序 3六、作業(yè)執(zhí)行 3一、概述HBase作為一種kv數(shù)據(jù)庫,能夠很好的面對(duì)高吞吐率的在線數(shù)據(jù)讀寫服務(wù),尤其是寫操作,但是在非rowkey多條件查詢、數(shù)據(jù)分析、統(tǒng)計(jì)等場(chǎng)景下,HBase表現(xiàn)的就不是很好了,這些場(chǎng)景下就比較適合MapReduce出場(chǎng)了。二、應(yīng)用場(chǎng)景這里就通過一個(gè)示例程序,一步一步帶著大家學(xué)習(xí)MapReduce的開發(fā)。假設(shè)我們有一張業(yè)務(wù)表(biz_detail),它有一列是業(yè)務(wù)發(fā)生日期(ts),每行數(shù)據(jù)就是一條業(yè)務(wù)發(fā)生,現(xiàn)在我們要統(tǒng)計(jì)業(yè)務(wù)發(fā)生日期每天的業(yè)務(wù)量(數(shù)據(jù)行數(shù)),對(duì)于這樣一個(gè)簡單統(tǒng)計(jì)需求,我們可以通過MapReduce程序來實(shí)現(xiàn)。三、Map程序TableAnalyzeMap繼承HBase的TableMapper基類,把ts看做文本,行數(shù)自然是整數(shù),所以key-value輸出類型自然是<Text,IntWritable>,具體代碼如下:四、Reduce程序TableAnalyzeReduce繼承HBase的TableReducer基類,這里我們把最終聚合后的結(jié)果寫到目標(biāo)表中,rowkey對(duì)應(yīng)ts,行數(shù)對(duì)應(yīng)目標(biāo)表的cf:count列,具體代碼如下:五、Combiner程序分析map程序,我們可以看到,map階段處理后的數(shù)據(jù)是沒有任何合并的,key為日期,value都是1,這樣的話,如果直接進(jìn)入reduce階段,要分發(fā)的數(shù)據(jù)量還是比較大的,會(huì)造成網(wǎng)絡(luò)負(fù)擔(dān),針對(duì)這個(gè)問題,我們可以在map階段后,做一下本地reduce,這樣進(jìn)入reduce的階段的數(shù)據(jù)量會(huì)大大減少。六、作業(yè)執(zhí)行程序接收四個(gè)參數(shù),依次為:業(yè)務(wù)表名稱、日期字段列族、日期字段列名、目標(biāo)表名。當(dāng)然你也可以使用ApacheCommonsCLI類解析命令行參數(shù),這里就不做說明了。其中scan.setCaching(500)設(shè)置每次讀取行數(shù),根據(jù)實(shí)際情況進(jìn)行配置,scan.setCacheBlocks(false)告訴HBase本次掃描的數(shù)據(jù)不要放入緩存中,其他就不再詳述,通過代碼就能夠看明白。這樣,整個(gè)mapreduce程序我們已經(jīng)開發(fā)完成,生成相應(yīng)jar包后,我
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度環(huán)??萍脊締T工工資待遇及環(huán)保業(yè)績提成合同
- 2025年度高速公路服務(wù)區(qū)停車場(chǎng)停車服務(wù)協(xié)議
- 模具開發(fā)、生產(chǎn)及國際市場(chǎng)拓展合作協(xié)議(2025年度)
- 2025年度汽車過戶交易全程免責(zé)承諾書
- 二零二五年度食品飲料區(qū)域代理加盟協(xié)議范本
- 二零二五年度影視制作與影視衍生品開發(fā)合同
- 2025年度租賃協(xié)議原告代理詞:租賃合同履行過程中的爭議處理
- 二零二五年度租賃房屋租賃保證金管理協(xié)議
- 2025年度環(huán)保糾紛民事調(diào)解協(xié)議書編制指南
- 二零二五年度知識(shí)產(chǎn)權(quán)法律風(fēng)險(xiǎn)防控與保密協(xié)議
- GB/T 4292-2017氟化鋁
- GB/T 41-20161型六角螺母C級(jí)
- GB/T 3811-2008起重機(jī)設(shè)計(jì)規(guī)范
- GB/T 19477-2018畜禽屠宰操作規(guī)程牛
- GB/T 16451-2008天然脂肪醇
- 中國高分子院士簡介
- CB/T 615-1995船底吸入格柵
- 施工圖紙接收及分發(fā)臺(tái)賬
- 物流系統(tǒng)建模與仿真課件
- 小??Х仍耘嗉夹g(shù)措施課件
- 2022年河南省對(duì)口升學(xué)計(jì)算機(jī)類專業(yè)課考試真題卷
評(píng)論
0/150
提交評(píng)論