版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中科普開HADOOP大數(shù)據(jù)課程運用Hadoop開源技術(shù)
推動大數(shù)據(jù)落地大數(shù)據(jù)開源技術(shù)分析EasyHadoop社區(qū)創(chuàng)始人童小軍tongxiaojun@EasyHadoop簡介EasyHadoop讓大數(shù)據(jù)更簡單【軟件社區(qū)】起源:一鍵Hadoop安裝腳本。發(fā)展:暴風(fēng),藍訊,優(yōu)酷,億贊普,人民搜索【聚會】立足:中小型,可落地的,10-500節(jié)點技術(shù)經(jīng)驗分享致力于在中國推廣和普及Hadoop相關(guān)技術(shù)EasyHadoopOpenSourceCommunity個人介紹2012年5月2日-第一個在國內(nèi)成功通過Cloudera認證考試,成為首位在國內(nèi)獲得美國Cloudera公司認證的ApacheHadoop開發(fā)工程師(ClouderaCertifiedDeveloperforApacheHadoop,CCDH)。作為ApacheHadoop在中國商業(yè)化的開始的標志。被列入Hadoop百度百科,Hadoop大事記中。詳見:/view/908354.htm社區(qū)Hadoop技術(shù)電子出版物EasyHadoop實戰(zhàn)手冊:Hadoop企業(yè)級部署實施指南EasyHive手冊:Hive企業(yè)實施指南EasyHadoop社區(qū)技術(shù)聚會成功舉辦了七次Hadoop開發(fā)者活動。暴風(fēng)、藍訊、百度、淘寶、騰訊、阿里巴巴、
人民搜索、億贊普等一線開發(fā)者的分享經(jīng)驗。我們?nèi)绾尾拍茏龅母?培訓(xùn)目標熟悉HADOOP應(yīng)用背景123了解Hadoop應(yīng)用案例了解Hadoop技術(shù)最佳實踐培訓(xùn)目錄大數(shù)據(jù)和數(shù)據(jù)倉庫概述1Hadoop應(yīng)用案例和云平臺2Hadoop數(shù)據(jù)倉庫[python/java]最佳實踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉庫平臺改造變遷5阿里金融通過大數(shù)據(jù)整合掘金! 阿里金融的信用評估系統(tǒng)會自動分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過支付寶,淘寶進行的支付數(shù)據(jù),最終算出信用評估和放貸額度。 截止2011年底,阿里金融對近30萬家小微企業(yè)進行信用評估。累計投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實時業(yè)務(wù)墻阿里金融的數(shù)據(jù)模型任務(wù)(局部)每個模型任務(wù)都是面向海量數(shù)據(jù)的大規(guī)模運算任務(wù)。天貓/淘寶雙十一191億背后的開源技術(shù)?@dbatools:雙十一一天時間,支付寶核心數(shù)據(jù)庫集群處理了41億個事務(wù),執(zhí)行285億次SQL,訪問1931億次內(nèi)存數(shù)據(jù)塊,13億個物理讀,生成15TB日志。數(shù)據(jù)應(yīng)用開發(fā)平臺——數(shù)據(jù)工場
Hive報表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺-產(chǎn)品架構(gòu)實時計算
底層平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)應(yīng)用是需求驅(qū)動技術(shù),技術(shù)帶動需求?思考-云計算技術(shù)有兩極3200臺主機Hadoop解決了什么難題?移動計算而非移動數(shù)據(jù),化整為零,分片處理。本地化計算,并行IO,降低網(wǎng)絡(luò)通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標思考-數(shù)據(jù)分析系統(tǒng)的基本指標海量用戶大規(guī)模批量服務(wù)(服務(wù)1.0)
決策邏輯
數(shù)據(jù)庫用戶1邏輯1邏輯N數(shù)據(jù)集編輯人員用戶N
編輯邏輯信息生產(chǎn)者信息消費者Mysql/Oracle
大數(shù)據(jù)倉庫海量用戶大規(guī)模個性化服務(wù)(服務(wù)2.0)
決策邏輯
大數(shù)據(jù)庫用戶1邏輯1服務(wù)數(shù)據(jù)1用戶N邏輯N服務(wù)數(shù)據(jù)N原始數(shù)據(jù)N挖掘邏輯NHiveHbaseStormHadoop原始數(shù)據(jù)1原始數(shù)據(jù)2信息生產(chǎn)者/消費者規(guī)則制定上帝之手本質(zhì):智能組織->智能群體實時思考-數(shù)據(jù)分析系統(tǒng)的基本指標反饋決策周期!快反饋決策粒度!細反饋決策準確性!準
反饋總體成本!廉價數(shù)據(jù)統(tǒng)計/分析是一個組織
自動控制,自學(xué)習(xí),自調(diào)整系統(tǒng)核心組成部分。機會成本!想象空間!Hadoop前的數(shù)據(jù)倉庫流程反饋決策周期!快?反饋決策粒度!細?反饋決策準確性!準?
反饋總體成本!廉價?perl,shell,awkHadoop后的數(shù)據(jù)倉庫流程反饋決策周期!快?反饋決策粒度!細?反饋決策準確性!準?
反饋總體成本!廉價?持續(xù)擴展成本?Hql,Pig,Mapreduce,工作流
那些用戶需要Hadoop(合)技術(shù)?
案例解析UserCase1(網(wǎng)頁游戲)國內(nèi)網(wǎng)頁游戲廠商百個服/網(wǎng)頁游戲,30-50個庫/服10G用戶數(shù)據(jù)/天/游戲[十幾款游戲]場景:游戲玩家行為分析其他平臺:數(shù)據(jù)無法導(dǎo)出中間數(shù)據(jù)匯總丟棄,無法用戶級分析UserCase2(智慧交通)用戶:最大城市,交通領(lǐng)域(Citytraffic)場景:車牌記錄[CarLicencePlate],100億[10Billion]/年需求:小時級別->優(yōu)化到分鐘級[Minute]->未來優(yōu)化到秒級[Seconds]查詢IntelligentTransportationSmarterCities場景:車輛異??焖僮R別VehicleAbnormal交通安全問題Hadoop技術(shù)其他應(yīng)用領(lǐng)域電信醫(yī)療交通公安航空電力金融搜索社交游戲視頻民生核心基于hadoop的數(shù)據(jù)平臺總體架構(gòu)Python結(jié)合HadoopStreaming
原理解析MapReduce基本流程實現(xiàn)distinct一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python實現(xiàn)distinct/count一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624 importsys forlineinsys.stdin: try: flags=line[1:-2] str=flags+'\t'+'1' printstr exceptException,e: printe#!/usr/bin/pythonimportsysres={} forlineinsys.stdin:try:flags=line[:-1].split('\t')iflen(flags)!=2:continuefield_key=flags[0]ifres.has_key(field_key)==False:res[field_key]=[0]res[field_key][0]=1exceptException,e:passforkeyinres:printkey
(distinct\count)--map(distinct)--red#!/usr/bin/pythonimportsyslastuid=""num=1forlineinsys.stdin:uid,count=line[:-1].split('\t')iflastuid=="":lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum
(count的優(yōu)化實現(xiàn))--reduce基于PythonMapReduceStreaming快速并行編程一、單機測試 headtest.log|pythonmap.py|pythonred.py一、將文件上傳到集群 /bin/hadoop fs-copyFromLocaltest.log/hdfs/三、運行mapred/bin/hadoopjarcontrib/streaming/hadoop-streaming-.jar-file/path/map.py-file/path/red.py-mappermap.py
-reducerred.py-input /path/test.log-output/path/通過界面查看任務(wù)狀態(tài)Python快速構(gòu)建數(shù)據(jù)分析模塊ComETL軟件地址:/zhuyeqing/ComETL1.支持簡單工作流2.支持自動恢復(fù)3.支持自定義驅(qū)動4.支持HiveMysqlMapReduce等模式作者:趙修湘極少的代碼量,幾萬行吧!類似系統(tǒng)SqoopDataXOozieComEtl配置樣例etl_op={"run_mode":'day',"delay_hours":2,"jobs":[{"job_name":"job1","analysis":[{'etl_class_name':'ExtractionEtl','step_name':'mysql_e_1','db_type':'hive','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_save_type':'SimpleOutput',"sql_assemble":'SimpleAssemble','sql':'select*fromtest.a2limit30',},],"transform":[{'etl_class_name':'TransformEtl','step_name':'transform1','data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],'data_transform_type':'SimpleTransform',},],"loading":[{'etl_class_name':'LoadingEtl','step_name':'load1','data_source':{"job_name":"job1","step_name":'transform1'},'db_type':'mysql','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_load_type':'SplitLoad','data_field':'a|b'},]}}Pig內(nèi)嵌JPython實現(xiàn)PageRank算法JPython+pig代碼實現(xiàn)演示/julienledem/Pig-scripting-examples/blob/其他PythonMapReduce框架Pydoop-PythonAPIforHadoopMapReduceandHDFS/docs/Happy-/p/happy/datafu-Pig算法庫linkedin/linkedin/datafu總體數(shù)據(jù)規(guī)??偪臻g150T以上,
每日新增數(shù)據(jù)0.5T20+服務(wù)器的Hadoop/hive計算平臺單個任務(wù)優(yōu)化從7個小時到1個小時每日Hive查詢1200+每天處理3000+作業(yè)任務(wù)每天處理10T+數(shù)據(jù)集群資源利用率Page
46Hadoop集群監(jiān)控Cacti默認Cacti模板太少
增加模板
我們的模板
磁盤IO
內(nèi)存詳情
單個內(nèi)核使用
CPU總和及IOWait
JMX支持監(jiān)控Hadoop
HAProxy+Hive網(wǎng)絡(luò)拓撲QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高可用集群數(shù)據(jù)平臺技術(shù)路線發(fā)展PythonHadoop最佳實踐通過TornadoNginx接受日志通過Scribe同步數(shù)據(jù)使用Python編寫加載和清洗腳本使用ComEtl通過Hive做ETL參考HappyEtl,Pydoop編寫PythonStreaming使用CronHub做定時調(diào)度使用phpHiveAdmin提供自助查詢使用Mysql存儲中間結(jié)果通過Tornado+highcharts/gnuplot提供報表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+pig基礎(chǔ)平臺之上。參加EasyHadoop聚會學(xué)習(xí)使用EasyHadoop管理集群HadoopJAVA數(shù)據(jù)最佳實踐通過
Nginx+tomcat接受日志通過Scribe,Flume-Ng同步數(shù)據(jù)使用Jython編寫加載和清洗腳本使用Sqoop,DataX通過Hive做ETL參考JavaMapReduceAPI編寫程序使用CronHub做定時調(diào)度使用phpHiveAdmin+hive+haproxy提供自助查詢使用Mysql/Oracle存儲中間結(jié)果通過Spring+struts+highcharts/gnuplot/JFreeChart提供報表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+Pig基礎(chǔ)平臺之上。參加EasyHadoop聚會學(xué)習(xí)使用ClouderaManager管理集群基于云平臺構(gòu)建的集群性能?HDCluster:80Core,180GHZ,10TB20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GBHadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->Hadoop用EasyHadoop安裝和管理節(jié)點啟動100個Map生成100億數(shù)據(jù)通過100個Map用Perl隨機生成數(shù)據(jù)準備,1kw,1億,10億,100億,100GB數(shù)據(jù)集通過Hive創(chuàng)建測試庫表結(jié)構(gòu)使用phpHiveadmin+HQL查詢返回結(jié)果PhpHiveAdmin界面查詢SELECTidFROM
Tablewhereidlike'%JA-sq%';
(模糊匹配查詢出ID帶JA-sq的車牌號)1億數(shù)據(jù),并行5Map進程,144w/s掃描速度,69s返回10億數(shù)據(jù),并行46Map進程,800w/s掃描速度,117s返回100億數(shù)據(jù),并行453Map進程,5400w/s掃描速度,3分鐘返回,基本滿足需求。SELECTid,COUNT(*)FROMTable
GROUP
BYid
(對每個車牌號分組歸并,并求出現(xiàn)次數(shù))1億數(shù)據(jù),并行5Map進程,2Reduce進程,104w/s處理速度,96s返回10億數(shù)據(jù),并行46Map進程,13Reduce進程,230w/s處理速度,7分鐘返回100億數(shù)據(jù),并行453Map進程,121Reduce進程,500w/s處理速度,54分鐘返回。Hadoop預(yù)算解析
其他方案的成本對比!投入成本
(10TB預(yù)算)IOE(IBM+Oracle+EMC)時代(x)kw+
自建Hadoop集群(20*4w+4w)=80w+
使用云主機構(gòu)建Hadoop[2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024葡萄酒年份酒經(jīng)銷商售后服務(wù)與銷售合同3篇
- 2024藥品質(zhì)量檢驗與監(jiān)管合同
- 二零二四年委托創(chuàng)作合同:原創(chuàng)音樂作品委托創(chuàng)作協(xié)議
- 二零二五年度綠色復(fù)墾土地流轉(zhuǎn)合同模板3篇
- 二零二五年度大巴車租賃與綠色出行宣傳合同3篇
- 2025年度餐飲店食品安全風(fēng)險評估合同9篇
- 二零二四年三人共同投資大數(shù)據(jù)科技公司合同3篇
- 2025年度鐵路旅游列車運營管理合同3篇
- 2025年度綠色家居產(chǎn)品認證服務(wù)合同簡易版2篇
- 2024年環(huán)境工程監(jiān)理研發(fā)合同
- 專升本英語閱讀理解50篇
- 施工單位值班人員安全交底和要求
- 中國保險用戶需求趨勢洞察報告
- 數(shù)字化轉(zhuǎn)型指南 星展銀行如何成為“全球最佳銀行”
- 中餐烹飪技法大全
- 靈芝孢子油減毒作用課件
- 現(xiàn)場工藝紀律檢查表
- 醫(yī)院品管圈與護理質(zhì)量持續(xù)改進PDCA案例降低ICU病人失禁性皮炎發(fā)生率
- 新型電力系統(tǒng)研究
- 烘干廠股東合作協(xié)議書
- 法院服務(wù)外包投標方案(技術(shù)標)
評論
0/150
提交評論