《大數(shù)據(jù)導(dǎo)論》課件-第7章 日志分析實(shí)戰(zhàn)_第1頁(yè)
《大數(shù)據(jù)導(dǎo)論》課件-第7章 日志分析實(shí)戰(zhàn)_第2頁(yè)
《大數(shù)據(jù)導(dǎo)論》課件-第7章 日志分析實(shí)戰(zhàn)_第3頁(yè)
《大數(shù)據(jù)導(dǎo)論》課件-第7章 日志分析實(shí)戰(zhàn)_第4頁(yè)
《大數(shù)據(jù)導(dǎo)論》課件-第7章 日志分析實(shí)戰(zhàn)_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)導(dǎo)論1.日志生成目錄01概述02日志生成必要性03日志分析日志在計(jì)算機(jī)系統(tǒng)中是一個(gè)非常廣泛的概念,任何程序都有可能輸出日志:操作系統(tǒng)內(nèi)核、各種應(yīng)用服務(wù)器等等。日志的內(nèi)容、規(guī)模和用途也各不相同,很難一概而論。本文討論的日志處理方法中的日志,僅指Web日志。其實(shí)并沒(méi)有精確的定義,可能包括但不限于各種前端Web服務(wù)器——apache、lighttpd、tomcat等產(chǎn)生的用戶訪問(wèn)日志,以及各種Web應(yīng)用程序自己輸出的日志。在Web日志中,每條日志通常代表著用戶的一次訪問(wèn)行為。從日志中,我們可以得到很多有用的信息,例如訪問(wèn)者的IP、訪問(wèn)的時(shí)間、訪問(wèn)的目標(biāo)網(wǎng)頁(yè)、來(lái)源的地址以及訪問(wèn)者所使用的客戶端的UserAgent信息等。如果需要更多的信息,則要用其它手段去獲?。豪缦氲玫接脩羝聊坏姆直媛剩话阈枰褂胘s代碼單獨(dú)發(fā)送請(qǐng)求;而如果想得到諸如用戶訪問(wèn)的具體新聞標(biāo)題等信息,則可能需要Web應(yīng)用程序在自己的代碼里輸出。日志生成必要性毫無(wú)疑問(wèn),Web日志中包含了大量人們——主要是產(chǎn)品分析人員會(huì)感興趣的信息,最簡(jiǎn)單的,我們可以從中獲取網(wǎng)站每類頁(yè)面的PV值(PageView,頁(yè)面訪問(wèn)量)、獨(dú)立IP數(shù)(即去重之后的IP數(shù)量)等;稍微復(fù)雜一些的,可以計(jì)算得出用戶所檢索的關(guān)鍵詞排行榜、用戶停留時(shí)間最高的頁(yè)面等;更復(fù)雜的,構(gòu)建廣告點(diǎn)擊模型、分析用戶行為特征等等。既然這些數(shù)據(jù)是如此的有用,那么當(dāng)然已經(jīng)有無(wú)數(shù)現(xiàn)成的工具可以幫助我們來(lái)分析它們,例如awstats、Webalizer,都是專門用于統(tǒng)計(jì)分析Web服務(wù)器日志的免費(fèi)程序。另外還有一類產(chǎn)品,它們不分析直接日志,而是通過(guò)讓用戶在頁(yè)面中嵌入js代碼的方式來(lái)直接進(jìn)行數(shù)據(jù)統(tǒng)計(jì),或者說(shuō)我們可以認(rèn)為它是直接讓日志輸出到了它們的服務(wù)器。典型的代表產(chǎn)品——大名鼎鼎的GoogleAnalytics,另外還有國(guó)內(nèi)的cnzz、百度統(tǒng)計(jì)等。很多人可能會(huì)說(shuō),既然如此,我們?yōu)槭裁催€需要自己來(lái)分析日志,有必要嗎?當(dāng)然有。我們的用戶(產(chǎn)品分析人員)需求是無(wú)窮盡的,上面說(shuō)的這幾類工具雖然很好很強(qiáng)大,但顯然沒(méi)辦法滿足全部的需求。日志要求怎么進(jìn)行日志分析:這并不是一個(gè)簡(jiǎn)單的問(wèn)題。即使我們把“日志”限定為Web日志,依然包含了成千上萬(wàn)種可能的格式和數(shù)據(jù),而是“分析”更是難以定義,也許是簡(jiǎn)單的統(tǒng)計(jì)值的計(jì)算,也許是復(fù)雜的數(shù)據(jù)挖掘算法。下面并不打算討論這些復(fù)雜的問(wèn)題,而只是籠統(tǒng)的討論如何構(gòu)建進(jìn)行日志分析工作的基礎(chǔ)。有了這些基礎(chǔ)會(huì)讓基于日志的簡(jiǎn)單統(tǒng)計(jì)分析變得很簡(jiǎn)單,并讓復(fù)雜的分析挖掘等變得可行。少量數(shù)據(jù)的情況:先考慮最簡(jiǎn)單的情況,在數(shù)據(jù)規(guī)模比較小的時(shí)候,也許是幾十MB、幾百M(fèi)B或者幾十GB,總之就是在單機(jī)處理尚能忍受的時(shí)候。一切都很好辦,現(xiàn)成的各種Unix/Linux工具——awk、grep、sort、join等都是日志分析的利器,如果僅僅是想知道某個(gè)頁(yè)面的PV,一個(gè)wc+grep就能搞定。如果有稍復(fù)雜的邏輯,那就使用各種腳本語(yǔ)言,尤其是perl,配合偉大的正則表達(dá)式,基本就可以解決所有的問(wèn)題。日志分析大數(shù)據(jù)導(dǎo)論2.日志格式介紹目錄01日志簡(jiǎn)介03日志舉例02日志要求04json格式日志日志(Log)

日志(Log)是系統(tǒng)在運(yùn)行過(guò)程中變化的一種抽象,其內(nèi)容為指定對(duì)象的某些操作和其操作結(jié)果按時(shí)間的有序集合。文件日志(LogFile)、事件(Event)、數(shù)據(jù)庫(kù)日志(BinLog)、度量(Metric)數(shù)據(jù)都是日志的不同載體。在文件日志中,每個(gè)日志文件由一條或多條日志組成,每條日志描述了一次單獨(dú)的系統(tǒng)事件,是日志服務(wù)中處理的最小數(shù)據(jù)單元。日志簡(jiǎn)介日志服務(wù)采用半結(jié)構(gòu)數(shù)據(jù)模式定義一條日志。該模式中包含主題(Topic)、時(shí)間(Time)、內(nèi)容(Content)、來(lái)源(Source)和標(biāo)簽(Tags)五個(gè)數(shù)據(jù)域。日志要求日志服務(wù)對(duì)日志各字段的格式有不同要求,具體如下表所示:數(shù)據(jù)域含義格式主題(Topic)用戶自定義字段,用以標(biāo)記一批日志。例如訪問(wèn)日志可根據(jù)不同站點(diǎn)進(jìn)行標(biāo)記。包括空字符串在內(nèi)的任意字符串,長(zhǎng)度不超過(guò)128字節(jié)。默認(rèn)情況下,該字段為空字符串。時(shí)間(Time)日志中的保留字段,用以表示日志產(chǎn)生的時(shí)間,一般由日志中的時(shí)間信息直接提取生成。整型,Unix標(biāo)準(zhǔn)時(shí)間格式。單位為秒,表示從1970-1-100:00:00UTC計(jì)算起的秒數(shù)。內(nèi)容(Content)用以記錄日志的具體內(nèi)容。內(nèi)容部分由一個(gè)或多個(gè)內(nèi)容項(xiàng)組成,每一個(gè)內(nèi)容項(xiàng)為一個(gè)Key-Value對(duì)。Key為UTF-8編碼字符串,包含字母、下劃線和數(shù)字,且不以數(shù)字開頭。長(zhǎng)度不超過(guò)128字節(jié)。不可以使用如下關(guān)鍵字:__time____source____topic____partition_time___extract_others___extract_others__Value為任意字符串,長(zhǎng)度不超過(guò)1024*1024字節(jié)。來(lái)源(Source)日志的來(lái)源地,例如產(chǎn)生該日志機(jī)器的IP地址。任意字符串,長(zhǎng)度不超過(guò)128字節(jié)。默認(rèn)情況下該字段為空。標(biāo)簽(Tags)日志的標(biāo)簽,包括:用戶自定義標(biāo)簽:您通過(guò)APIPutLogs寫入數(shù)據(jù)時(shí)添加的標(biāo)簽。字典格式,Key和Value均為字符串類型。在控制臺(tái)查詢?nèi)罩緯r(shí),以__tag__:為前綴展示。日志要求實(shí)際使用場(chǎng)景中,日志的格式多樣。為了幫助理解,以下以一條nginx原始訪問(wèn)日志如何映射到日志服務(wù)日志數(shù)據(jù)模型為例說(shuō)明。假設(shè)用戶nginx服務(wù)器的IP地址為17,以下為該服務(wù)器的一條原始日志:92--[01/Mar/2012:18:12:07+0800]"GET/Send?AccessKeyId=8225105404HTTP/1.1"2005"-""Mozilla/5.0(X11;Linuxi686onx86_64;rv:10.0.2)Gecko/20100101Firefox/10.0.2"日志舉例把該條原始日志映射到日志服務(wù)日志數(shù)據(jù)模型,如下:數(shù)據(jù)域內(nèi)容說(shuō)明Topic“”沿用默認(rèn)值,即空字符串。Time1331588527日志產(chǎn)生的精確時(shí)間,表示從1970-1-100:00:00UTC計(jì)算起的秒數(shù)。從原始日志中的時(shí)間轉(zhuǎn)換為時(shí)間戳。ContentKey-Value對(duì)日志具體內(nèi)容。Source“12.249.221.107”使用服務(wù)器IP地址作為日志源。Tags無(wú)由用戶添加或者服務(wù)端添加。日志舉例用戶可以自己決定如何提取日志原始內(nèi)容并組合成Key-Value對(duì),例如下表:keyvalueip93methodGETstatus200length5ref_url-browserMozilla/5.0(X11;Linuxi686onx86_64;rv:10.0.2)Gecko/20100101Firefox/10.0.2日志舉例JSON(JavaScriptObjectNotation,JS對(duì)象簡(jiǎn)譜)是一種輕量級(jí)的數(shù)據(jù)交換格式。它基于ECMAScript(歐洲計(jì)算機(jī)協(xié)會(huì)制定的js規(guī)范)的一個(gè)子集,采用完全獨(dú)立于編程語(yǔ)言的文本格式來(lái)存儲(chǔ)和表示數(shù)據(jù)。簡(jiǎn)潔和清晰的層次結(jié)構(gòu)使得JSON成為理想的數(shù)據(jù)交換語(yǔ)言。易于人閱讀和編寫,同時(shí)也易于機(jī)器解析和生成,并有效地提升網(wǎng)絡(luò)傳輸效率。一段json格式的日志:{"name":"李四","sex":"女","年齡":20,"生日":"2016-01-0223:12:13"}json格式日志大數(shù)據(jù)導(dǎo)論3.回流用戶分析教學(xué)設(shè)計(jì)

教育培訓(xùn)

信息化

微課目錄01回流用戶定義02回流用戶分析回流用戶定義01回流用戶:相當(dāng)于回頭客,以前用過(guò)某物,過(guò)一段時(shí)間再次使用某物,這樣的用戶

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論