運用Hadoo開源技術(shù)推動大數(shù)據(jù)落地2_第1頁
運用Hadoo開源技術(shù)推動大數(shù)據(jù)落地2_第2頁
運用Hadoo開源技術(shù)推動大數(shù)據(jù)落地2_第3頁
運用Hadoo開源技術(shù)推動大數(shù)據(jù)落地2_第4頁
運用Hadoo開源技術(shù)推動大數(shù)據(jù)落地2_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

培訓目標熟悉HADOOP應(yīng)用背景123了解Hadoop應(yīng)用案例了解Hadoop技術(shù)最佳實踐培訓目錄大數(shù)據(jù)和數(shù)據(jù)倉庫概述1Hadoop應(yīng)用案例和云平臺2Hadoop數(shù)據(jù)倉庫[python/java]最佳實踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉庫平臺改造變遷5阿里金融通過大數(shù)據(jù)整合掘金!

阿里金融的信用評估系統(tǒng)會自動分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過支付寶,淘寶進行的支付數(shù)據(jù),最終算出信用評估和放貸額度。

截止2011年底,阿里金融對近30萬家小微企業(yè)進行信用評估。累計投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實時業(yè)務(wù)墻阿里金融的數(shù)據(jù)模型任務(wù)(局部)每個模型任務(wù)都是面向海量數(shù)據(jù)的大規(guī)模運算任務(wù)。天貓/淘寶雙十一191億背后的開源技術(shù)?@dbatools:雙十一一天時間,支付寶核心數(shù)據(jù)庫集群處理了41億個事務(wù),執(zhí)行285億次SQL,訪問1931億次內(nèi)存數(shù)據(jù)塊,13億個物理讀,生成15TB日志。數(shù)據(jù)應(yīng)用開發(fā)平臺——數(shù)據(jù)工場

Hive報表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺-產(chǎn)品架構(gòu)實時計算

底層平臺數(shù)據(jù)開發(fā)平臺數(shù)據(jù)應(yīng)用是需求驅(qū)動技術(shù),技術(shù)帶動需求?思考-云計算技術(shù)有兩極3200臺主機Hadoop解決了什么難題?移動計算而非移動數(shù)據(jù),化整為零,分片處理。本地化計算,并行IO,降低網(wǎng)絡(luò)通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標思考考-數(shù)數(shù)據(jù)據(jù)分分析析系系統(tǒng)統(tǒng)的的基基本本指指標標海量量用用戶戶大規(guī)規(guī)模模批批量量服服務(wù)務(wù)(服服務(wù)務(wù)1.0)決策策邏邏輯輯數(shù)據(jù)據(jù)庫庫用戶戶1邏輯輯1邏輯輯N數(shù)據(jù)據(jù)集集編輯輯人人員員用戶戶N編輯輯邏輯輯信息息生生產(chǎn)產(chǎn)者者信息息消消費費者者Mysql/Oracle大數(shù)數(shù)據(jù)據(jù)倉倉庫庫海量量用用戶戶大規(guī)規(guī)模模個個性性化化服服務(wù)務(wù)(服服務(wù)務(wù)2.0)決策策邏邏輯輯大數(shù)數(shù)據(jù)據(jù)庫庫用戶戶1邏輯輯1服務(wù)務(wù)數(shù)數(shù)據(jù)據(jù)1用戶戶N邏輯輯N服務(wù)務(wù)數(shù)數(shù)據(jù)據(jù)N原始始數(shù)數(shù)據(jù)據(jù)N挖掘掘邏邏輯輯NHiveHbaseStormHadoop原始始數(shù)數(shù)據(jù)據(jù)1原始始數(shù)數(shù)據(jù)據(jù)2信息息生生產(chǎn)產(chǎn)者者/消消費費者者規(guī)則則制制定定上帝帝之之手手本質(zhì)質(zhì):智智能能組組織織->智智能能群群體體實時時思考考-數(shù)數(shù)據(jù)據(jù)分分析析系系統(tǒng)統(tǒng)的的基基本本指指標標反饋決策周期期!快反饋決策粒度度!細反饋決策準確確性!準反饋總體成本本!廉價數(shù)據(jù)統(tǒng)計/分分析是一個個組織自動控制,自自學習,自調(diào)調(diào)整系統(tǒng)核心組成部分分。機會成本本!想象空空間!Hadoop前的數(shù)據(jù)據(jù)倉庫流程反饋決策周期期!快?反饋決策粒度度!細??反饋決策準確確性!準??反饋總體成本本!廉價??perl,shell,awkHadoop后的數(shù)據(jù)倉倉庫流程反饋決策周期期!快?反饋決策粒度度!細??反饋決策準確確性!準??反饋總體成本本!廉價??持續(xù)擴展成本本?Hql,Pig,Mapreduce,工作流流那些用戶需要要Hadoop(合))技術(shù)?案案例解析UserCase1(網(wǎng)頁游游戲)國內(nèi)網(wǎng)頁游戲戲廠商百個服/網(wǎng)頁頁游戲,30-50個庫庫/服10G用戶數(shù)數(shù)據(jù)/天/游游戲[十幾幾款游戲]場景:游戲戲玩家行為分分析其他平臺:數(shù)數(shù)據(jù)無法導出出中間數(shù)據(jù)匯總總丟棄,無法法用戶級分析析UserCase2(智慧交通通)用戶:最大城城市,交通領(lǐng)領(lǐng)域(Citytraffic)場景:車牌記記錄[CarLicencePlate],100億[10Billion]/年需求:小時級級別->優(yōu)化化到分鐘級[Minute]->未來優(yōu)化化到秒級[Seconds]查詢詢IntelligentTransportationSmarterCities場景:車輛輛異常快速識識別VehicleAbnormal交通安全問題題Hadoop技術(shù)其他他應(yīng)用領(lǐng)域電信醫(yī)療交通公安航空電力金融搜索社交游戲視頻民生核心基于hadoop的數(shù)據(jù)平臺臺總體架構(gòu)Python結(jié)合HadoopStreaming

原理解解析MapReduce基本本流程實現(xiàn)distinct一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python實現(xiàn)distinct/count一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624importsysforlineinsys.stdin:try:flags=line[1:-2]str=flags+'\t'+'1'printstrexceptException,e:printe#!/usr/bin/pythonimportsysres={}forlineinsys.stdin:try:flags=line[:-1].split('\t')iflen(flags)!=2:continuefield_key=flags[0]ifres.has_key(field_key)==False:res[field_key]=[0]res[field_key][0]=1exceptException,e:passforkeyinres:printkey(distinct\count)--map(distinct)--red#!/usr/bin/pythonimportsyslastuid=""num=1forlineinsys.stdin:uid,count=line[:-1].split('\t')iflastuid=="":lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum(count的優(yōu)化實現(xiàn))--reduce基于PythonMapReduceStreaming快速速并行編程程一、單機測測試headtest.log|pythonmap.py|pythonred.py一、將文件件上傳到集集群/bin/hadoopfs-copyFromLocaltest.log/hdfs/三、運行mapred/bin/hadoopjarcontrib/streaming/hadoop-streaming-.jar-file/path/map.py-file/path/red.py-input/path/test.log-output/path/通過界面查查看任務(wù)狀狀態(tài)Python快速構(gòu)構(gòu)建數(shù)據(jù)據(jù)分析模塊塊ComETL軟件地址:/zhuyeqing/ComETL1.支持簡簡單工作流流2.支持自自動恢復3.支持自自定義驅(qū)動動4.支持HiveMysqlMapReduce等模式式作者:趙修修湘極少的代碼碼量,幾萬萬行吧!類似系統(tǒng)SqoopDataXOozieComEtl配置樣樣例etl_op={"run_mode":'day',"delay_hours":2,"jobs":[{"job_name":"job1","analysis":[{'etl_class_name':'ExtractionEtl','step_name':'mysql_e_1','db_type':'hive','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_save_type':'SimpleOutput',"sql_assemble":'SimpleAssemble','sql':'select*fromtest.a2limit30',},],"transform":[{'etl_class_name':'TransformEtl','step_name':'transform1','data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],'data_transform_type':'SimpleTransform',},],"loading":[{'etl_class_name':'LoadingEtl','step_name':'load1','data_source':{"job_name":"job1","step_name":'transform1'},'db_type':'mysql','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_load_type':'SplitLoad','data_field':'a|b'},]}}Pig內(nèi)內(nèi)嵌JPython實實現(xiàn)PageRank算法法JPython+pig代代碼實現(xiàn)現(xiàn)演示/julienledem/Pig-scripting-examples/blob/其他PythonMapReduce框框架Pydoop-PythonAPIforHadoopMapReduceandHDFSdatafu-Pig算法法庫linkedin/linkedin/datafu總體數(shù)據(jù)規(guī)??偪臻g300T以上,每日新增增數(shù)據(jù)2T20+服務(wù)器的的Hadoop/hive計計算平臺臺單個任任務(wù)優(yōu)優(yōu)化從從7個小小時到到1個小小時每日Hive查查詢1200+每天處處理3000+作業(yè)任任務(wù)每天處處理10T+數(shù)據(jù)集群資源利用率Page40Hadoop集集群監(jiān)監(jiān)控Cacti默認Cacti模板板太少少增加模模板我們的的模板板磁盤IO內(nèi)內(nèi)存詳詳情單單個內(nèi)內(nèi)核使使用CPU總和和及IOWaitJMX支持持監(jiān)控控HadoopHAProxy+Hive網(wǎng)網(wǎng)絡(luò)絡(luò)拓撲撲QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高高可用用集群群數(shù)據(jù)平平臺技技術(shù)術(shù)路線線發(fā)展展PythonHadoop最佳佳實踐踐通過TornadoNginx接接受日日志通過Scribe同同步步數(shù)據(jù)據(jù)使用Python編編寫寫加載載和清清洗腳腳本使用ComEtl通通過過Hive做ETL參考HappyEtl,Pydoop編寫寫PythonStreaming使用CronHub做做定時時調(diào)度度使用phpHiveAdmin提提供供自助助查詢詢使用Mysql存存儲儲中間間結(jié)果果通過Tornado+highcharts/gnuplot提提供供報表表展現(xiàn)現(xiàn)使用Python+NagiosCactiGanglia監(jiān)監(jiān)控集集群整體構(gòu)建在在Hadoop+Hive+pig基礎(chǔ)平平臺之上。。參加EasyHadoop聚聚會學學習使用EasyHadoop管管理集群群HadoopJAVA數(shù)數(shù)據(jù)最佳佳實踐通過Nginx+tomcat接受受日志通過Scribe,Flume-Ng同同步數(shù)據(jù)據(jù)使用Jython編寫寫加載和和清洗腳腳本使用Sqoop,DataX通過Hive做ETL參考JavaMapReduceAPI編編寫程序使用CronHub做做定時調(diào)度使用phpHiveAdmin+hive+haproxy提供自自助查詢使用Mysql/Oracle存存儲中間結(jié)果果通過Spring+struts+highcharts/gnuplot/JFreeChart提提供報表展展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控控集群整體構(gòu)建在Hadoop+Hive+Pig基礎(chǔ)平臺臺之上。參加EasyHadoop聚會學學習使用ClouderaManager管理集集群基于云平臺構(gòu)構(gòu)建的集群性性能?HDCluster:80Core,180GHZ,10TB20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GBHadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->Hadoop用EasyHadoop安裝和管管理節(jié)點啟動100個個Map生成成100億數(shù)數(shù)據(jù)通過100個個Map用Perl隨隨機生成數(shù)數(shù)據(jù)準備,1kw,1億,10億,100億,100GB數(shù)據(jù)據(jù)集通過Hive創(chuàng)建測試庫庫表結(jié)構(gòu)使用phpHiveadmin+HQL查詢返返回結(jié)果PhpHiveAdmin界面查查詢SELECTidFROMTablewhereidlike'%JA-sq%';(模糊匹配配查詢出ID帶JA-sq的的車牌號)1億數(shù)據(jù),并行5Map進程,144w/s掃描速速度,69s返回10億數(shù)據(jù),并行46Map進程程,800w/s掃描描速度,117s返回回100億數(shù)據(jù)據(jù),并行453Map進進程,5400w/s掃掃描速度,3分鐘返回回,基本滿足足需求。SELECTid,COUNT(*)FROMTableGROUPBYid(對對每每個個車車牌牌號號分分組組歸歸并并,并并求求出出現(xiàn)現(xiàn)次次數(shù)數(shù))1億億數(shù)數(shù)據(jù)據(jù),并并行行5Map進進程程,2Reduce進進程程,104w/s處處理理速速度度,96s返返回回10億億數(shù)數(shù)據(jù)據(jù),并并行行46Map進進程程,13Reduce進進程程,230w/s處處理理速速度度,7分分鐘鐘返返回回100億億數(shù)數(shù)據(jù)據(jù),并并行行453Map進進程程,121Reduce進進程程,500w/s處處理理速速度度,54分分鐘鐘返返回回。。Hadoop預(yù)預(yù)算算解解析析其其他他方方案案的的成成本本對對比比!投入入成成本本(10TB預(yù)預(yù)算算)IOE(IBM+Oracle+EMC)時時代代(x)kw+自建建Hadoop集集群群(20*4w+4w)=80w+使用云云主機機構(gòu)建建Hadoop[20*7970=15.94w/年年]轉(zhuǎn)變轉(zhuǎn)變千萬時時代百萬時時代十幾萬萬時代代初創(chuàng)型型公司司中型技技術(shù)型型公司司政府,銀行行,電電信年成本本:1.5w/T我們還還有那那些成成本壓壓縮空空間?實施周周期IBM+Oracle+EMC時時代代(月月)自建Hadoop集集群(1年年-半半年)[學學習和和培訓訓]阿里云云Hadoop時代代(星星期/月)轉(zhuǎn)變轉(zhuǎn)變季度/月1年/半年年月/星星期個人,初創(chuàng)創(chuàng)公司司中型公公司政府,銀行行,電電信月1年/半年年中型公公司政府,銀行行,電電信維護成成本IBM+Oracle+EMC時時代代(規(guī)劃劃,實實施,維護護,管管理,)廠廠商商專業(yè)業(yè)人員員配合合[每每次按按小時時收費費]自建Hadoop集集群(學習習,經(jīng)經(jīng)驗,人才才培育育)Hadoop云云時時代(統(tǒng)統(tǒng)一專專人管管理和和維護護)轉(zhuǎn)變轉(zhuǎn)變統(tǒng)一維維護個人,初創(chuàng)創(chuàng)公司司廠商專專業(yè)支支持自己培培養(yǎng)中型公公司政府,銀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論