《大數(shù)據(jù)與云計(jì)算》課件-18.大數(shù)據(jù)分析案例_第1頁(yè)
《大數(shù)據(jù)與云計(jì)算》課件-18.大數(shù)據(jù)分析案例_第2頁(yè)
《大數(shù)據(jù)與云計(jì)算》課件-18.大數(shù)據(jù)分析案例_第3頁(yè)
《大數(shù)據(jù)與云計(jì)算》課件-18.大數(shù)據(jù)分析案例_第4頁(yè)
《大數(shù)據(jù)與云計(jì)算》課件-18.大數(shù)據(jù)分析案例_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與云計(jì)算智能建造技術(shù)專(zhuān)業(yè)資源庫(kù)知識(shí)點(diǎn)大數(shù)據(jù)分析案例(一)3交通流量分析1日志分析2電商購(gòu)買(mǎi)記錄分析大數(shù)據(jù)分析案例日志分析

大規(guī)模系統(tǒng)每天會(huì)產(chǎn)生大量的日志,日志是企業(yè)后臺(tái)服務(wù)系統(tǒng)的重要組成部分,企業(yè)每天通過(guò)日志分析監(jiān)控可以及時(shí)地發(fā)現(xiàn)系統(tǒng)運(yùn)行中出現(xiàn)的問(wèn)題,從而盡量將損失減小到最少。

由于企業(yè)中的日志數(shù)據(jù)一般規(guī)模比較龐大,需要Hadoop這樣的大數(shù)據(jù)處理系統(tǒng)來(lái)處理大量的日志。日志分析

以一個(gè)運(yùn)行一段時(shí)間的Hadoop集群產(chǎn)生的日志文件為例,來(lái)說(shuō)明使用Hadoop來(lái)進(jìn)行日志分析的過(guò)程。

現(xiàn)在我們有Hadoop運(yùn)行的日志文件,需要找出WARN級(jí)別的日志記錄信息,輸出結(jié)果信息包括日志文件中的行號(hào)和日志記錄內(nèi)容。

該問(wèn)題的解決方法是采用類(lèi)似Grep的方法,在Map階段對(duì)輸人的每條日志記錄匹配查找,如果有匹配關(guān)健字WARN,則產(chǎn)生<行號(hào),記錄內(nèi)容>這樣的key-value鍵值對(duì);在Reduce階段,則基本不采取任何操作,只是把所有的key-value鍵值對(duì)輸出到HDFS文件中。關(guān)鍵部分代碼:日志分析publicstaticciassMyMapperextendsMapper<LongWritable,Text,Longhritable,Test>{publicvoidmap(Longwritablelinenumber,Textline,Contextcontext)throwsIOException,InterruptedException{Stringpattern=context.getConfiguration().get("grep");Stringlinecontent=line.toString();if(linecontent.index0f(pattern)==-1){return;}context.write(linenumber,line);}}publicstaticclassMyReducerextendsReducer<LongWritable,Text,Longlwritable,Text>{publicvoidreduce(LongWritablelinenumber,Iterable<Text>line,Contextcontext)throwsIOException,InterruptedException{for(Textelement:line){context.write(linenumber.element);}}}日志分析

詳細(xì)完整的代碼和數(shù)據(jù)可以從GitHub上下載(ttps://github.com/bdintro/bdintro.git)。

編譯源代碼采用mvnpackage的方式,測(cè)試數(shù)據(jù)為hadoopuser-datanodedell119.log.zip.

在測(cè)試之前先把對(duì)應(yīng)數(shù)據(jù)上傳到HDFS集群中,把使用mvnpackage編譯好的jar文件復(fù)制到Hadoop集群節(jié)點(diǎn)上,當(dāng)前測(cè)試為復(fù)制到del119機(jī)器上。日志分析啟動(dòng)如下命令,執(zhí)行日志分析任務(wù)./bin/hdfsdfs/user/root/log/output./bin/hadoopjar/home/qzhong/bigdata-0.0.1.jar\bigdata.bigdata,.GrepWARN/user/root/log/input/hadoopyangyarudatanode-dell119.log/user/root/log/output運(yùn)行結(jié)果如下圖,圖中左邊是原始日志文件中對(duì)應(yīng)WARN記錄的符號(hào),右邊是對(duì)應(yīng)WARN級(jí)別日志記錄的具體內(nèi)容:知識(shí)點(diǎn)大數(shù)據(jù)分析案例(二)3交通流量分析1日志分析2電商購(gòu)買(mǎi)記錄分析大數(shù)據(jù)分析案例電商購(gòu)買(mǎi)記錄分析當(dāng)前電子商務(wù)快速發(fā)展,大量的用戶開(kāi)始在網(wǎng)上進(jìn)行購(gòu)物。各大電商為了更好地給用戶推薦商品,會(huì)將用戶的購(gòu)買(mǎi)行為記錄下來(lái)。電商平臺(tái)存儲(chǔ)了大量用于挖掘產(chǎn)生價(jià)值的數(shù)據(jù)。單臺(tái)物理服務(wù)器無(wú)法完成分析大量數(shù)據(jù)的任務(wù),因此需要部署大規(guī)模大數(shù)據(jù)分析系統(tǒng)來(lái)完整電商購(gòu)買(mǎi)記錄分析。電商購(gòu)買(mǎi)記錄分析有一個(gè)電商平臺(tái)的部分用戶購(gòu)買(mǎi)記錄數(shù)據(jù),利用上述搭建的簡(jiǎn)易的Hndop運(yùn)行平臺(tái),分析得出每個(gè)商家每天的成交量信息。購(gòu)買(mǎi)記錄為一個(gè)CSV格式文件,數(shù)器的格式為<用戶ID.商家ID,日期,時(shí)間>.前面三個(gè)字段采用逗號(hào)分隔,最后面的一個(gè)字段采用空格分隔,部分?jǐn)?shù)據(jù)格式如圖。采用Hadop的MapReduce來(lái)進(jìn)行商家每天的成交量電商購(gòu)買(mǎi)記錄分析采用Hadoop的MoapReduce來(lái)進(jìn)行商家每天的成交量分析。在Map階段對(duì)于每個(gè)輸人的購(gòu)買(mǎi)記錄信息分隔,產(chǎn)生key為<商家ID,日期>和value為1的鍵值對(duì):在Reduce階段對(duì)于相同的key<商家ID,日期>的進(jìn)行合并。完整的代碼可以在GitHub上下載(ttps//githubcombdintro/bdintro.git)。測(cè)試數(shù)據(jù)為shop.txt.zi。在測(cè)試之前需要先上傳shop.1x文件到HDFS集群中.利用mvnpacknge生成的jar文件,執(zhí)行如下命令如左圖,運(yùn)行結(jié)果如右圖交通流量分析現(xiàn)在車(chē)輛迅速增多,交通產(chǎn)生了大量的數(shù)據(jù)。為了有效地減少交通事故以及減少交通擁堵時(shí)間,需要有效地利用交通數(shù)據(jù)進(jìn)行海量數(shù)據(jù)分析?,F(xiàn)在有交通違規(guī)的數(shù)據(jù)信息,需要找出每天的交通違規(guī)數(shù)據(jù)總的統(tǒng)計(jì)信息。交通流量的數(shù)據(jù)是csv格式文件,詳細(xì)的交通流量數(shù)據(jù)格式描述如網(wǎng)站所述(https://www./jana36/ustrafficviolationsmontgomery-countypolict)。采用MapReduce的方式來(lái)解決上述問(wèn)題。在Map階段,產(chǎn)生<日期,1>這樣的key-value鍵值對(duì);在Reduce階段,對(duì)相同的日期做總數(shù)相加統(tǒng)計(jì)操作。對(duì)應(yīng)的關(guān)鍵代碼如圖(見(jiàn)下一張幻燈片)交通流量分析完整的代碼可以從GitHub上下載https:/

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論