日志采集與用戶行為鏈路分析用戶行為鏈路分析 市賽獲獎_第1頁
日志采集與用戶行為鏈路分析用戶行為鏈路分析 市賽獲獎_第2頁
日志采集與用戶行為鏈路分析用戶行為鏈路分析 市賽獲獎_第3頁
日志采集與用戶行為鏈路分析用戶行為鏈路分析 市賽獲獎_第4頁
日志采集與用戶行為鏈路分析用戶行為鏈路分析 市賽獲獎_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata日志采集與用戶行為鏈路分析用戶行為鏈路分析011用戶行為鏈路分析用戶行為所謂用戶行為,就是用戶在網(wǎng)站或者APP上所做的動作,比如:搜索內(nèi)容,瀏覽頁面,觀看視頻,購買商品,收藏,評論等等。分析用戶行為的目的是提高產(chǎn)品服務(wù)質(zhì)量,為用戶提供個性化服務(wù)。圖片來自互聯(lián)網(wǎng)用戶行為鏈路分析相比通過獨立的單條日志就能完成的簡單匯總類統(tǒng)計來說,用戶瀏覽行為的鏈路跟蹤,就麻煩很多了。比如想要知道用戶是如何到達一個特定的商品頁面的,是通過首頁的廣告位,還是通過會場活動,抑或是首頁/圖墻/商鋪/詳情這樣的瀏覽鏈路過來的,這就需要串聯(lián)多條日志才能完成相關(guān)的分析工作。圖片來自互聯(lián)網(wǎng)用戶行為鏈路分析例如,作為電商類平臺,往往需要跟蹤一個訂單的下單鏈路,也就是所謂的訂單來源分析。這種業(yè)務(wù)場景,通過URL匹配或者單純的頁面ID來做就會比較棘手,因為用戶的瀏覽行為可能是反復(fù)隨機跳轉(zhuǎn)的,可能存在重復(fù)的瀏覽行為路徑。如何鑒別他是通過哪條路徑過來的呢?對日志做一下時間排序可能是一種解決方案,但是日志如果存在亂序到達,或者丟失的情況,如何能夠發(fā)現(xiàn)呢??傊鲆彩强梢?,但是代價和可靠性都會是比較大的問題。用戶行為鏈路分析對于類似訂單來源這種多次跳轉(zhuǎn)類行為的精確分析,很容易想到的一種方式就是在作為可能來源的入口頁面,埋下一個唯一標(biāo)識,然后一路透傳到最后的訂單頁面為止,這樣事后統(tǒng)計分析時,省去頁面跟蹤的過程,直接獲取這個標(biāo)識就好了。圖片來自互聯(lián)網(wǎng)用戶行為鏈路分析兩種可以使用的解決方案是,通過cookie記錄,或者生成一個唯一的TraceID,然后一路通過URL傳參往下游發(fā)送。對于cookie來說,一方面種cookie的代價比較高,另一方面?zhèn)€數(shù)也是有限的。而對于URL傳遞TraceID參數(shù)這種方式來說,意味著業(yè)務(wù)鏈路上的所有頁面都要特殊處理這個參數(shù),繼續(xù)往下游傳遞,一來代價更高,二來用戶的瀏覽行為很隨意,三來業(yè)務(wù)的流程也隨時可能變更,因此這種方案的維護代價和可靠性也是堪憂的,而且如果需要跟蹤的業(yè)務(wù)流程類型越來越多,這種ID和Cookie的方式也是無法擴展的。用戶行為鏈路分析另一種優(yōu)化方案是,使用SPM編碼,是用來跟蹤頁面模塊位置的編碼,早期的spm編碼由4段組成,采用a.b.c.d的格式,后來添加了e字段,所以總共5個字段組成。用戶行為鏈路分析鏈接中的spm值為a21bt.11147082.969263.1.7d3b3e73Mojzzo,其中:a字段代表的是站點,這里a21bt可以認(rèn)為是淘寶;b字段代表了這個業(yè)務(wù)下的頁面ID(示例中11147082);c字段代表了具體的一個鏈接在頁面中的模塊(示例中969263.1.7)。d字段代表的是點擊的鏈接在模塊內(nèi)部的索引位置(示例中d3);e字段是一個按特定規(guī)則生成的UniqueID,用途較多,如反作弊等(示例中b3e73Mojzzo)。用戶行為鏈路分析SPM就是一個分層級的定位體系,這么做的好處很多,例如,可根據(jù)不同的統(tǒng)計粒度需求,摘取特定字段進行匯總,匯總的規(guī)則也非常標(biāo)準(zhǔn),與具體業(yè)務(wù)幾乎無關(guān)。比如需要按頁面類型統(tǒng)計PV,那么取a.b兩個字段分組聚合就可以了。如果要統(tǒng)計具體頁面模塊的流量,那么統(tǒng)計到a.b.c字段就好了。要精確定位某一個推薦欄位的效果,就需要用到a.b.c.d四個字段。用戶行為鏈路分析SPM參數(shù)唯一標(biāo)識了特定站點頁面模塊內(nèi)部的一個鏈接,這個參數(shù)實際上是在用戶點擊該鏈接的時候,自動生成并附加在目標(biāo)鏈接的URL地址上的,所以在一個頁面的URL上的SPM參數(shù),實際上表示的不是這個頁面的SPM參數(shù),而是這個頁面的點擊來源的SPM參數(shù)。圖片來自互聯(lián)網(wǎng)用戶行為鏈路分析在頁面打開以后,保存用戶日志,在日志里面,可以記錄URL中鏈接來源SPM的5個字段,以及當(dāng)前頁面SPM的abe三個字段。這樣通過abe三個字段在頁面之間就可以形成一個鏈表關(guān)系,通過追蹤這個鏈表我們就可以還原用戶的瀏覽行為鏈路了。如果要具體統(tǒng)計模塊位置的流量,再把來源頁面的cd字段補上就好了。圖片來自互聯(lián)網(wǎng)總結(jié)SPM方案在各種精確鏈路追蹤,來源分析,活動統(tǒng)計等業(yè)務(wù)場景中都有不錯的表現(xiàn),不過,在應(yīng)用模式上,SPM方案的實踐還不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論