![Hadoop3.0大數(shù)據(jù)平臺性能_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/6/70f1492b-9b6d-442c-aad6-72c8561a4447/70f1492b-9b6d-442c-aad6-72c8561a44471.gif)
![Hadoop3.0大數(shù)據(jù)平臺性能_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/6/70f1492b-9b6d-442c-aad6-72c8561a4447/70f1492b-9b6d-442c-aad6-72c8561a44472.gif)
![Hadoop3.0大數(shù)據(jù)平臺性能_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/6/70f1492b-9b6d-442c-aad6-72c8561a4447/70f1492b-9b6d-442c-aad6-72c8561a44473.gif)
![Hadoop3.0大數(shù)據(jù)平臺性能_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/6/70f1492b-9b6d-442c-aad6-72c8561a4447/70f1492b-9b6d-442c-aad6-72c8561a44474.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、 hadoop3.0大數(shù)據(jù)平臺性能 李士果 盧建云摘要 針對發(fā)布的hadoop3.0,本文研究了hadoop3.0大數(shù)據(jù)平臺性能。首先,采用華為云服務器搭建大數(shù)據(jù)平臺;其次,利用hadoop框架提供的基準性能測試程序進行性能驗證,測試指標包括testdfsio、mrbench和terasort。最后,對比分析不同負載、不同數(shù)據(jù)量對平臺性能的影響。實驗結(jié)果表明,hadoop3.0在hdfs讀寫能力、mapreduce計算能力上均表現(xiàn)出較優(yōu)的性能。【關鍵詞】大數(shù)據(jù) hadoop3.0 性能測試1 引言hadoo
2、p作為開源的分布式系統(tǒng)基礎架構(gòu),具有高擴展性、高可靠性、高容錯性、低成本等特性,在政府、金融、工業(yè)、教育等領域得到了廣泛的應用。hadoop平臺發(fā)展至今,發(fā)布了三個大版本,分別是hadoop1.0、2.0和3.0。從hadoop1.0到hadoop2.0,增加了資源管理系統(tǒng)yarn,使得hadoop2.0具有更好的擴展性和性能,并支持多種計算框架。近來,apache發(fā)布了hadoop3.0版本,該版本在功能和性能方面做了多項改進,使得hadoop3.0在存儲和計算性能方面得到很大提升。因此,對hadoop3.0平臺性能進行研究具有重要的實際應用意義。本文基于華為云服務器搭建hadoop3.0完
3、全分布式集群,使用hadoop3.0提供的基準測試程序?qū)ζ脚_進行性能測試。分析對比不同負載、不同數(shù)據(jù)量對hadoop3.0平臺的性能影響。2 hadoop3.0平臺特性hadoop是apache旗下一個頂級分布式計算開源框架項目,主要包括兩個核心組件:分布式存儲子系統(tǒng)hdfs和分布式計算子系統(tǒng)mapreduce。hadoop采用主/從架構(gòu)管理存儲和計算。通常,在hadoop完全分布式集群上,運行了一系列后臺程序。這些后臺程序代表了不同的服務,例如namenode、datanode、secondary namenode、jobtracker、tasktracker等。其中namenode、sec
4、ondary namenode、jobtracker運行在master節(jié)點上,而在每個worker節(jié)點上,部署一個datanode和tasktracker,以便這個worker服務器運行的數(shù)據(jù)處理程序能盡可能直接處理本機的數(shù)據(jù)。hadoop3.0框架如圖1所示。hadoop3.0引入了一些重要的特性,如hdfs可擦除編碼技術(shù)、支持多namenode、yarn基于cgroup的內(nèi)存和磁盤io隔離、mr native task優(yōu)化等,綜合性能有很大提升。3 實驗與結(jié)果分析為了測試hadoop3.0平臺性能,方便對平臺性能進行調(diào)優(yōu)。實驗采用hadoop3.0具有代表性的基準測試工具testdfsio
5、、mrbench和terasort對hdfs讀寫性能、mapreduce并行計算能力進行測試,通過吞吐量、執(zhí)行時間等指標對測試結(jié)果進行分析。3.1 實驗環(huán)境實驗采用4臺華為云服務器搭建hadoop3.0完全分布式集群。該集群包含4個節(jié)點,其中2個節(jié)點部署為master,全部4個節(jié)點作為worker。linux操作系統(tǒng)版本是centos7.4,java版本是1.8.0_191,hadoop版本是3.1.0。表1列出了hadoop3.0完全分布式集群部署信息。3.2 實驗與分析3.2.1 testdfsio測試testdfsio是hadoop提供的基準測試工具,用于測試hdfs的讀寫性能。test
6、dfsio設計原理是每個文件讀寫都在單獨的map任務中進行,map任務以并行方式讀寫文件,reduce任務用于收集和匯總文件處理性能數(shù)據(jù)。該實驗數(shù)據(jù)總量為20g,不斷增加文件數(shù)量進行測試。測試結(jié)果如圖2和圖3所示。圖2和圖3表明,在20g數(shù)據(jù)量保持不變的情況下,隨著文件數(shù)量的增加,并發(fā)map數(shù)量不斷增加,hdfs讀寫吞吐量和讀寫時間均呈下降趨勢。其中,寫數(shù)據(jù)的吞吐量明顯低于讀數(shù)據(jù)的吞吐量,寫數(shù)據(jù)的執(zhí)行時間明顯高于讀數(shù)據(jù)的執(zhí)行時間。3.2.2 mrbench測試mrbench用于檢驗小作業(yè)是否可重復高效運行,它通過多次重復執(zhí)行一個小作業(yè)來驗證mapreduce的并行處理性能。本實驗使用mrben
7、ch默認配置重復執(zhí)行小作業(yè)進行測試。mrbench配置如下:inputlines=1,mapper=2,reducer=1,分別重復執(zhí)行10次、50次、100次、200次、500次和1000次,運行結(jié)果如圖4所示。圖4結(jié)果顯示,隨著重復執(zhí)行次數(shù)的增加,作業(yè)的平均執(zhí)行時間緩慢下降并趨于穩(wěn)定。從最后兩次測試結(jié)果發(fā)現(xiàn),重復執(zhí)行500次和1000次的時間相對持平,說明小作業(yè)重復執(zhí)行500次到1000次的性能趨于穩(wěn)定。3.2.3 terasort測試terasort是hadoop壓力測試最具代表性的工具之一。terasort不僅測試hdfs文件系統(tǒng)的讀寫性能,也是對mapreduce自動排序能力的一種測
8、試。terasort包含三個工具,其中teragen用來生成排序的隨機數(shù)據(jù),terasort用來將隨機數(shù)據(jù)排序,teravalidate用于校驗terasort的排序結(jié)果是否正確。實驗分別對1g、2g、5g、10g、20g、50g和100g文件進行terasort測試,測試結(jié)果如圖5所示。從圖5可以看出,隨著數(shù)據(jù)量的增加,terasort排序時間呈曲線增長。當數(shù)據(jù)量在20g以內(nèi)時,排序時間增長比較緩慢,當數(shù)據(jù)量增加到50g,甚至100g時,排序時間增長顯著。5 總結(jié)本文采用華為云服務器搭建hadoop3.0平臺,利用hadoop3.0提供的基準測試工具testdfsio、mrbench和ter
9、esort對平臺性能進行測試。實驗結(jié)果表明,hadoop3.0大數(shù)據(jù)平臺在hdfs讀寫能力、mapreduce計算能力上均表現(xiàn)出較優(yōu)的性能。后續(xù)我們將對hadoop2.0與3.0平臺進行性能對比研究。參考文獻1white t.hadoop權(quán)威指南m.清華大學出版社,2015.2apache hadoop website, http:/hadoop. .3michealg.noll. benchmarking and stress testing an hadoop clusterwith terasort, testdfsio& co., http:/ benchmarking-and-st
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公樓裝修改造項目經(jīng)濟效益分析
- 2025年度企業(yè)員工家屬食宿優(yōu)惠服務協(xié)議
- 2025年度知識產(chǎn)權(quán)戰(zhàn)略規(guī)劃與執(zhí)行顧問聘用協(xié)議
- 廣告行業(yè)合作居間協(xié)議
- 倉儲物流中心經(jīng)典裝修合同
- 鄉(xiāng)村展覽館裝修合作協(xié)議
- 第3章信息系統(tǒng)的基礎設施3.1信息系統(tǒng)中的計算機與移動終端 -高中教學同步《信息技術(shù)-信息系統(tǒng)與社會》教學設計(人民教育出版社)
- 重大版四年級下冊 第4課 插入藝術(shù)字 教學設計
- 8制作我的小樂器 教學設計-2024-2025學年科學四年級上冊教科版
- 11十六年前的回憶 教學設計-2023-2024學年語文六年級下冊統(tǒng)編版
- 安全評價工作程序框圖流程圖
- 空間生產(chǎn)理論
- 網(wǎng)絡營銷教案完整版講義
- 《固體物理學》全冊完整教學課件
- 體育測量與評價PPT課件-第三章 身體形態(tài)的測量與評價
- 學生個人成長檔案實用模板
- 經(jīng)典老歌簡譜100首
- 三一電氣產(chǎn)品外觀通用檢驗標準
- 五線譜打印用(共4頁)
- 10kV環(huán)網(wǎng)柜改造工程施工組織設計方案
- 機加工質(zhì)量控制計劃范例-HT
評論
0/150
提交評論