用戶行為數(shù)據(jù)分析的項目計劃書課件

上傳人：w*** IP屬地：貴州上傳時間：2022-07-29 格式：PPT 頁數(shù)：48 大?。?.92MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、用戶行為數(shù)據(jù)分析項目計劃書用戶行為數(shù)據(jù)分析項目計劃書2019/5/4修改記錄版本修改日期修改人修改內(nèi)容審核人V1.01技術(shù)開發(fā)部創(chuàng)建，初稿用戶行為數(shù)據(jù)分析項目計劃書V1.01V1.01V1.01V1.01V1.01V1.01數(shù)據(jù)采集方式分析數(shù)據(jù)分析模型需求描述和示例網(wǎng)站用戶身份識別；web 日志缺陷；漏斗模型數(shù)據(jù)分析模型與數(shù)據(jù)庫表的對應(yīng)關(guān)系WEKA 開源數(shù)據(jù)挖掘工具統(tǒng)計分析系統(tǒng)項目周期和項目開發(fā)進(jìn)度Analysis.mpp技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書目錄一、項目背景 5二、相關(guān)術(shù)語 51. Web 數(shù)據(jù)挖掘 51) Web 數(shù)據(jù)挖掘分類 62) Web 數(shù)據(jù)的特點 73) 典型

2、 Web 挖掘的處理流程 74) 常用的數(shù)據(jù)挖掘技術(shù) 75) Web 商業(yè)智能 BI（Business Intelligence） 82. 網(wǎng)站流量統(tǒng)計 103. 統(tǒng)計指標(biāo)/術(shù)語 104. 用戶分析 - 網(wǎng)站用戶的識別 135. WEB 日志的作用和缺陷 156. 漏斗模型（Funnel Model） 177. 目前提供此服務(wù)產(chǎn)品/企業(yè) 18三、項目目的 18四、項目需求 181. 頁面統(tǒng)計 182. 用戶行為指標(biāo) 193. 潛在用戶特征分析 194. 指定 User Cookie 的分析 205. 用戶趨勢分析 20五、項目系統(tǒng)設(shè)計 20六、項目詳細(xì)設(shè)計 211. 數(shù)據(jù)收集 212.

3、數(shù)據(jù)模型 221) 統(tǒng)計 PV 量(趨勢) 222) 消重統(tǒng)計獨立 IP 量 / IP 的平均訪問頁面量(趨勢) 223) 消重統(tǒng)計獨立 UV 量 / UV 的平均訪問頁面量(趨勢) 234) 統(tǒng)計 URL 的訪問來源 Ref 的量 / Ref 排行(趨勢) 235) 統(tǒng)計 Ref=URL 的去訪 URL*/跳出的量 / 去訪/跳出排行(趨勢) 236) 統(tǒng)計分析/預(yù)測/規(guī)律特定用戶的行為(趨勢) 247) 統(tǒng)計新訪客/老訪客(趨勢) 248) 頁面平均停留時間 / 頁面平均時長 (趨勢) 249) 搜索引擎列表 2410) 搜索引擎關(guān)鍵詞 2511) 搜索引擎關(guān)鍵詞(各搜索引擎) 2

4、512) 老用戶回頭率（用戶黏性） 2513) 新增用戶增加/流失（用戶黏性） 2514) 不活躍用戶激活（用戶黏性） 2615) 用戶瀏覽深度（用戶黏性） 26技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書16) 用戶訪問興趣分析（用戶黏性） 2617) 性別結(jié)構(gòu)(訪客特征分析) 2618) 年齡結(jié)構(gòu)(訪客特征分析) 2619) 學(xué)歷結(jié)構(gòu)(訪客特征分析) 2620) 收入結(jié)構(gòu)(訪客特征分析) 2721) 操作系統(tǒng)類型(客戶端信息) 2722) 操作系統(tǒng)語言(客戶端信息) 2723) 操作系統(tǒng)時區(qū)(客戶端信息) 2724) 瀏覽器(客戶端信息) 2725) 顯示器顏色(客戶端信息) 2726) 屏幕分辨

5、率(客戶端信息) 2827) 國家/省份 - 地址位置(客戶端信息) 2828) 城市 - 地址位置(客戶端信息) 2829) 接入商(客戶端信息) 2830) 場所(客戶端信息) 283. 數(shù)據(jù)處理 284. 數(shù)據(jù)展示 281) 參考網(wǎng)站 292) 趨勢曲線圖趨勢 353) 忠誠度 / 用戶黏性 394) 用戶客戶端瀏覽器 415) 來源分析：Ref 分析、站內(nèi)/站外、站外統(tǒng)計 416) 用戶行為 45七、項目約束 45八、項目資源 45九、項目周期 46十、項目交付 48十一、其他信息 48技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書一、項目背景數(shù)據(jù)挖掘技術(shù)是近年來計算機技術(shù)發(fā)展

6、的熱點之一。通過對歷史積累的大量數(shù)據(jù)的有效挖掘，可以發(fā)現(xiàn)隱藏的規(guī)律或模式，為決策提供支持，而這些規(guī)律或模式是不能夠依靠簡單的數(shù)據(jù)查詢得到，或者是不能在可接受的時間內(nèi)得到。這些規(guī)律或模式可以進(jìn)一步在專業(yè)人員的識別下成為知識。數(shù)據(jù)挖掘面對的任務(wù)是復(fù)雜的，通常包括分類、預(yù)測、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和聚類分析等。企業(yè)網(wǎng)站的績效考評就是指企業(yè)網(wǎng)站訪問情況的績效考評，在網(wǎng)絡(luò)營銷評價方法中，網(wǎng)站訪問統(tǒng)計分析是重要的方法之一，通過網(wǎng)站訪問統(tǒng)計報告，不僅可以了解網(wǎng)絡(luò)營銷所取得的效果，而且可以從統(tǒng)計數(shù)字中發(fā)現(xiàn)許多有說服力的問題。網(wǎng)站訪問量統(tǒng)計分析無論對于某項具體的網(wǎng)絡(luò)營銷活動還是總體效果都有參考價值，也是網(wǎng)絡(luò)營銷評價體系中

7、最具有說服力的量化指標(biāo)。銷售預(yù)測在提高企業(yè)的經(jīng)濟效益及決策支持水平方面占有重要的地位。隨著企業(yè)信息化水平的提高，企業(yè)銷售數(shù)據(jù)的日益豐富，管理者對其中隱藏的銷售預(yù)測信息的渴望日益強烈。用傳統(tǒng)的方法來分析這些海量數(shù)據(jù)中的銷售信息非常困難，已不能適應(yīng)時代的要求。如何找到更好的方法挖掘出銷售數(shù)據(jù)中隱藏的銷售預(yù)測信息。二、相關(guān)術(shù)語1. Web 數(shù)據(jù)挖掘Web 數(shù)據(jù)挖掘建立在對大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上，采用相應(yīng)的數(shù)據(jù)挖掘算法，在具體的應(yīng)用模型上進(jìn)行數(shù)據(jù)的提取、數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和模式分析，最后做出歸納性的推理、預(yù)測客戶的個性化行為以及用戶習(xí)慣，從而幫助進(jìn)行決策和管理，減少決策的風(fēng)險。We

8、b 數(shù)據(jù)挖掘涉及多個領(lǐng)域，除數(shù)據(jù)挖掘外，還涉及計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索、可視化、自然語言理解等技術(shù)。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書1) Web 數(shù)據(jù)挖掘分類Web 數(shù)據(jù)挖掘可分為四類：Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘、Web 使用記錄挖掘和 Web 用戶性質(zhì)挖掘。其中，Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和 Web 使用記錄挖掘是 Web1.0 時代就已經(jīng)有了的，而 Web 用戶性質(zhì)挖掘則是伴隨著 Web2.0 的出現(xiàn)而出現(xiàn)的。2.1 Web 內(nèi)容挖掘(WCM，Web Content Mining)2.2 Web 結(jié)構(gòu)挖掘(WSM，Web Structure Mi

9、ning)的基本思想是將 Web 看作一個有向圖，他的頂點是 Web 頁面，頁面間的超鏈就是圖的邊。然后利用圖論對 Web 的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。2.3 Web 使用記錄挖掘(WUM，Web Usage Mining)Web 使用記錄挖掘也叫 Web 日志挖掘或 Web 訪問信息挖掘。它是通過挖掘相關(guān)的 Web 日志記錄，來發(fā)現(xiàn)用戶訪問 Web 頁面的模式，通過分析日志記錄中的規(guī)律，可以識別用戶的喜好、滿意度，可以發(fā)現(xiàn)潛在用戶，增強站點的服務(wù)競爭力。Web 使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外，還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie 中的信息、用戶查詢

10、、等一切用戶與站點之間可能的交互記錄。Web 使用記錄挖掘方法主要有以下兩種：(1) 將網(wǎng)絡(luò)服務(wù)器的日志文件作為原始數(shù)據(jù)，應(yīng)用特定的預(yù)處理方法進(jìn)行處理后再進(jìn)行挖掘；(2) 將網(wǎng)絡(luò)服務(wù)器的日志文件轉(zhuǎn)換為圖表，然后再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。通常，在對原始數(shù)據(jù)進(jìn)行預(yù)處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。2.4 Web 用戶性質(zhì)挖掘Web 用戶性質(zhì)挖掘是伴隨著 Web2.0 的出現(xiàn)而出現(xiàn)的。基于 RSS、Blog、SNS、Tag 以及 WiKi等互聯(lián)網(wǎng)軟件的廣泛應(yīng)用，Web2.0 幫助人們從 Web10 時代各大門戶網(wǎng)站“填鴨”式的信息轟炸，過渡到了“人人對話”，每個普通用戶既是信息的獲取者，也是

11、信息的提供者。4面對 Web2.0 的誕生，Web 數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)。如果說 Web 使用記錄挖掘是挖掘網(wǎng)站訪問者在各大網(wǎng)站上留下的痕跡，那么 Web 用戶性質(zhì)挖掘則是要去 Web 用戶的老巢探尋究竟。在 Web2.0 時代，網(wǎng)絡(luò)徹底個人化了，它完全允許客戶用自己的方式、喜好和個性化的定制服務(wù)創(chuàng)造自己的互聯(lián)網(wǎng)，它一方面給予互聯(lián)網(wǎng)用戶最大的自由度，另一方面給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對 Web 用戶自建的RSS、Blog 等 Web2.0 功能模塊下客戶信息的統(tǒng)計分析，能夠幫助運營商以較低成本獲得準(zhǔn)確度較高的客戶興趣傾向、個性化需求以及新業(yè)務(wù)發(fā)展趨勢等信息。有關(guān) We

12、b2.0 下的數(shù)據(jù)挖掘正在進(jìn)一步的研究中。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書2) Web 數(shù)據(jù)的特點1)異構(gòu)數(shù)據(jù)庫環(huán)境。Web 上的每一個站點就是一個數(shù)據(jù)源，每個數(shù)據(jù)源都是異構(gòu)的，因而每一站點的信息和組織都不一樣，這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫。2)分布式數(shù)據(jù)源。Web 頁面散布在世界各地的 Web 服務(wù)器上，形成了分布式數(shù)據(jù)源。3)半結(jié)構(gòu)化。半結(jié)構(gòu)化是 Web 上數(shù)據(jù)的最大特點。Web 上的數(shù)據(jù)非常復(fù)雜，沒有特定的模型描述，是一種非完全結(jié)構(gòu)化的數(shù)據(jù)，稱之為半結(jié)構(gòu)化數(shù)據(jù)。4)動態(tài)性強。Web 是一個動態(tài)性極強的信息源，信息不斷地快速更新，各站點的鏈接信息和訪問記錄的更新非常頻繁。5)多樣復(fù)雜

13、性。Web 包含了各種信息和資源，有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。3) 典型 Web 挖掘的處理流程包括如下四個過程：1)查找資源：根據(jù)挖掘目的，從 Web 資源中提取相關(guān)數(shù)據(jù)，構(gòu)成目標(biāo)數(shù)據(jù)集，Web 數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取。其任務(wù)是從日標(biāo) Web 數(shù)據(jù)(包括 Web 文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。2)數(shù)據(jù)預(yù)處理：在進(jìn)行 Web 挖掘之前對“雜質(zhì)”數(shù)據(jù)進(jìn)行過濾。例如消除數(shù)據(jù)的不一致性；將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預(yù)處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預(yù)處理主

14、要包括站點識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。3)模式發(fā)現(xiàn)：利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術(shù)包括：路徑分析、關(guān)聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。4)模式分析：利用合適的工具和技術(shù)對挖掘出來的模式進(jìn)行分析、解釋、可視化，把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識。4) 常用的數(shù)據(jù)挖掘技術(shù)6.1 路徑分析技術(shù)我們通常采用圖的方法來分析 Web 頁面之問的路徑關(guān)系。G(V，E)，其中：V 是頁面的集合，E 是頁面之間的超鏈接集合，頁面定義為圖中的頂點，而頁面聞的超鏈接定義為圖技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書中的有向邊。頂點 v

15、的人邊表示對 v 的引用，出邊表示 v 引用了其他的頁面，這樣形成網(wǎng)站的結(jié)構(gòu)圖，從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進(jìn)行改進(jìn)站點的結(jié)構(gòu)。如 70的用戶訪問companyproduct 時，是從company 開始，經(jīng)過companynewcompanyproductscompanyproduct。此時可以將路徑放在比較顯著的地方，方便了用戶訪問，也提高了該產(chǎn)品的點擊率。6.2 關(guān)聯(lián)規(guī)則技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則，就是要挖掘出用戶在一個訪問期限(Session)，從服務(wù)器上訪問的頁面文件之間的聯(lián)系，這些頁面之間并不存在直接的參引(Re

16、ference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如：某信息 A 和 B，同時被很多用戶瀏覽，則說明 A 和 B 有可能相關(guān)。同時點擊的用戶越多，其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當(dāng)當(dāng)電子書店就采用了這一模式用以推薦相關(guān)書目。當(dāng)你選擇某本圖書時，系統(tǒng)會自動給你推薦信息，告知“很多讀者在購買此書時還購買的其他書目”。ACM 數(shù)字圖書館也采用了這一思想，推出信息推薦服務(wù)“Peer to Peer”。6.3 序列模式挖掘技術(shù)序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問

17、的規(guī)律，關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系，而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式，便于預(yù)測用戶的訪問模式，有助于開展基于這種模式的有針對性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式，能夠在服務(wù)器方動態(tài)地創(chuàng)立特定的有針對性的頁面。以滿足訪問者的特定需求。6.4 聚類分類技術(shù)分類規(guī)則可挖掘出某些共同的特性，而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進(jìn)行分類。在 Web 數(shù)據(jù)挖掘中，分類技術(shù)可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對符合某一訪問規(guī)律特征的用戶進(jìn)行用戶待征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述，這種描述可以用于分類新

18、的檢索。如政府機關(guān)的用戶一般感興趣的頁面是companyproduct。聚類可以從 Web 訪問信息數(shù)據(jù)庫巾聚集出具有相似特性的用戶群。在 Web 事務(wù)日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在：在找出用戶共同興趣后，進(jìn)行合作式信息推薦，共同體的成員町以互相推薦新的滾動信息；自動給一個特定的用戶聚類發(fā)送銷售郵件，為用戶聚類動態(tài)地改變一個特殊的站點等。5) Web 商業(yè)智能 BI（Business Intelligence）深入分析訪問數(shù)據(jù)，從訪問數(shù)據(jù)中挖掘財富。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書web-ia/1、文本挖掘技術(shù)和聚類模型分析的網(wǎng)站自動分類；

19、2、用戶訪問興趣聚類；3、用戶等級自動分類；4、用途分析；5、新產(chǎn)品推廣預(yù)測分析和精算分析；等一系列基于數(shù)學(xué)模型的 True BI 決策分析工具，幫助企業(yè)進(jìn)行產(chǎn)品 BI 分析、用戶 BI 分析、服務(wù)質(zhì)量測評、新產(chǎn)品市場預(yù)測與分析等一系列 True BI 服務(wù)。一、異常訪問分析一般情況下，正常的用戶訪問網(wǎng)站都是通過瀏覽器（IE、FireFox 等）向網(wǎng)站發(fā)送 URL 請求，操作是一個手動平緩的過程。所謂“異常訪問”，是指不是通過瀏覽器，而是通過程序進(jìn)行的一個高速機械化的連續(xù) URL 請求過程。這包括不良程序黑客攻擊、搜索引擎蜘蛛程序?qū)W(wǎng)站的訪問等。 “異常訪問”主要包括 5 個功能：異常訪

20、問分析、搜索引擎訪問分析、發(fā)生錯誤分析、異常 URL 分析、時段訪問分析。通過“異常訪問分析”，可以讓用戶發(fā)現(xiàn)異常訪問行為和訪問規(guī)律，通過對 URL 請求頻度、服務(wù)器處理時間、請求流量等時序圖形趨勢分析，確定黑客攻擊點，排查軟件錯誤、診斷服務(wù)器處理能力、網(wǎng)站Internet 帶寬限制“瓶頸”所在點。二、頻道關(guān)聯(lián)分析頻道關(guān)聯(lián)分析應(yīng)用對象是內(nèi)容管理者。網(wǎng)站在內(nèi)容服務(wù)層面被抽象為“頻道-子頻道-內(nèi)容”，組成“網(wǎng)站結(jié)構(gòu)樹”。數(shù)據(jù)挖掘的經(jīng)典故事是“啤酒和尿布”關(guān)聯(lián)發(fā)現(xiàn)，說的是對某個商場的數(shù)據(jù)挖掘發(fā)現(xiàn)，購買啤酒的人有很多同時購買尿布。關(guān)聯(lián)分析的目的，是發(fā)現(xiàn)在一個事物中，各個元素的關(guān)聯(lián)關(guān)系，通過關(guān)聯(lián)

21、關(guān)系的發(fā)現(xiàn)，指導(dǎo)“關(guān)系設(shè)置”，進(jìn)而引導(dǎo)事物向有利于管理者主觀傾向的方向發(fā)展。 Web-DM 中的“頻道關(guān)聯(lián)分析”，針對 Web的具體應(yīng)用情況，對經(jīng)典的“關(guān)聯(lián)分析”算法進(jìn)行了改進(jìn)，使關(guān)聯(lián)分析速度更快，分析結(jié)果也更加有效。簡單的結(jié)果可能不能給管理者更多的指導(dǎo)。Web-DM 不僅僅簡單地給出關(guān)聯(lián)分析中的“支持度”和“置信度”指標(biāo)，在此基礎(chǔ)上，提出了“置信差”指標(biāo)，進(jìn)一步提高關(guān)聯(lián)分析結(jié)果的可用性。在給出關(guān)聯(lián)分析技術(shù)指標(biāo)的同時，給出包含關(guān)聯(lián)項的訪問 Session，使用戶可以更加詳細(xì)觀察和研究關(guān)聯(lián)分析的結(jié)果。三、特定關(guān)聯(lián)分析 “頻道關(guān)聯(lián)分析”是在內(nèi)邏輯層面的關(guān)聯(lián)分析，對于“廣告”和用戶特別關(guān)心的 P

22、age 關(guān)聯(lián)分析是網(wǎng)站管理者希望掌握的數(shù)據(jù)。哪些 Page 對于廣告的貢獻(xiàn)有多大？看廣告的人更多的看了哪些 Page？特別推出的內(nèi)容與網(wǎng)站的其他 URL 有哪些關(guān)聯(lián)？關(guān)聯(lián)程度如何？ Web-DM 的“特定關(guān)聯(lián)分析”給出深入分析結(jié)果，同時以簡單直觀的形式展示給用戶。以提供新聞或本地新聞為主的門戶網(wǎng)站，管理人員關(guān)心網(wǎng)站總體訪問情況，整體訪問趨勢，內(nèi)容編輯人員關(guān)心熱門新聞和冷門新聞以及 TOP 排名，經(jīng)營人員關(guān)心訪問者從哪個頻道登錄網(wǎng)站、從哪個頻道的哪個頁面離開網(wǎng)站，其訪問行為呈現(xiàn)什么規(guī)律，設(shè)計人員關(guān)心網(wǎng)站頻道的如何設(shè)置以及頁面版面的如何布局，維護(hù)人員關(guān)心錯誤是怎么產(chǎn)生的、如何跳轉(zhuǎn)的、網(wǎng)站是否收

23、到惡意攻擊等。商務(wù)網(wǎng)站主要針對在網(wǎng)站上已經(jīng)注冊的客戶群，作為網(wǎng)站的經(jīng)營者不僅要掌握用戶在網(wǎng)上技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書關(guān)心哪些商品，更重要的是要掌握匿名用戶怎么變成注冊用戶，轉(zhuǎn)化率是多少，匿名用戶是直接訪問的還是通過搜索引擎鏈接來的，購買行為如何，營業(yè)額是多少等。對于電子郵件市場推廣，通過沉默用戶分析其沉默時間，根據(jù)發(fā)出量、返回量、成交量來判斷市場推廣效果。對于廣告市場推廣，通過曝光量、點擊量、成交量來反映市場推廣的效果。2. 網(wǎng)站流量統(tǒng)計流量統(tǒng)計是什么是指通過各種科學(xué)的方式，準(zhǔn)確的紀(jì)錄來訪某一頁面的訪問者的流量信息，目前而言，必須具備可以統(tǒng)計：統(tǒng)計獨立的訪問者數(shù)量（獨立用戶、獨立

24、訪客）；可以統(tǒng)計獨立的 IP 地址數(shù)量；可以統(tǒng)計頁面被刷新的數(shù)量。其他附加信息。3. 統(tǒng)計指標(biāo)/術(shù)語頁面瀏覽數(shù)（page views）PV(page view)，即頁面瀏覽量，或點擊量;通常是衡量一個網(wǎng)絡(luò)新聞頻道或網(wǎng)站甚至一條網(wǎng)絡(luò)新聞的主要指標(biāo)。高手對 PV 的解釋是，一個訪問者在 24 小時(0 點到 24 點)內(nèi)到底看了你網(wǎng)站幾個頁面。這里需要強調(diào):同一個人瀏覽你網(wǎng)站同一個頁面，不重復(fù)計算 PV 量，點 100 次也算 1 次。說白了，PV 就是一個訪問者打開了你的幾個頁面。PV 之于網(wǎng)站，就像收視率之于電視，從某種程度上已成為投資者衡量商業(yè)網(wǎng)站表現(xiàn)的最重要尺度。PV 的計算:當(dāng)一個訪問者

25、訪問的時候，記錄他所訪問的頁面和對應(yīng)的 IP，然后確定這個 IP今天訪問了這個頁面沒有。如果你的網(wǎng)站到了 23 點，單純 IP 有 60 萬條的話，每個訪問者平均訪問了 3 個頁面，那么 PV 表的記錄就要有 180 萬條。影響 PV 的因素：新聞發(fā)布的時間訪問的周期突發(fā)事件獨立訪客數(shù) （unique visitor）UV(unique visitor)：指訪問某個站點或點擊某條新聞的不同 IP 地址的人數(shù)。在同一天內(nèi)，UV 只記錄第一次進(jìn)入網(wǎng)站的具有獨立 IP 的訪問者，在同一天內(nèi)再次訪問該網(wǎng)站則不計數(shù)。獨立 IP 訪問者提供了一定時間內(nèi)不同觀眾數(shù)量的統(tǒng)計指標(biāo)，而沒有反應(yīng)出網(wǎng)站的全面活動。每

26、個訪問者的頁面瀏覽數(shù)（Page Views per user）技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書Page Views per user: 這是一個平均數(shù)，即在一定時間內(nèi)全部頁面瀏覽數(shù)與所有訪問者相除的結(jié)果，即一個用戶瀏覽的網(wǎng)頁數(shù)量。這一指標(biāo)表明了訪問者對網(wǎng)站內(nèi)容或者產(chǎn)品信息感興趣的程度，也就是常說的網(wǎng)站“粘性”。重復(fù)訪客者數(shù)（repeat visitors）repeat visitors：重復(fù)訪問者。是指在一定時期內(nèi)不止一次訪問一個網(wǎng)站的獨立用戶。瀏覽數(shù) Page Views：網(wǎng)頁(含文件及動態(tài)網(wǎng)頁)被訪客瀏覽的次數(shù)。Page View 的計算范圍包括了所有格式的網(wǎng)頁，例如：.htm、.h

27、tml、.asp、.cfm、 asa、cdx、htmls、shtm、shtml、txt等等，可以由用戶根據(jù)實際情況自己設(shè)定。訪問數(shù) Visits：也稱為登陸數(shù)，一個登陸是指客戶開始訪問網(wǎng)站到離開網(wǎng)站的過程。其中：相鄰兩次點擊頁面時間間隔在 30 分鐘以內(nèi)（系統(tǒng)默認(rèn) 30 分鐘，用戶可以修改默認(rèn)值）為一次登陸，大于 30 分鐘為兩次登陸。用戶數(shù) Unique Visitors：也稱為唯一客戶數(shù)，是指一天內(nèi)訪問本網(wǎng)站的唯一 IP 個數(shù)。點擊數(shù) Hits：是指日志文件中的總記錄條數(shù)。停留時間 Visiting Times：也稱為訪問時長，是用同一個訪問過程中最后一個頁面的訪問時間減去第一個頁

28、面的訪問時間，得到此訪問在網(wǎng)站上的停留時間。首頁瀏覽數(shù)：網(wǎng)站首頁被訪客瀏覽的次數(shù)。過濾瀏覽數(shù) Filter Page Views：網(wǎng)站中的某些頁面并不是獨立的頁面，而是附屬于某個頁面，如滾動條頁面就是附屬于首頁的頁面，用戶可以將這些附屬頁面設(shè)置為過濾頁面，過濾頁面被訪客瀏覽的次數(shù)即為過濾瀏覽數(shù)。有效瀏覽數(shù) Effective Page Views：去除過濾頁面后的其他所有頁面被訪客瀏覽的次數(shù)，即有效瀏覽數(shù)=瀏覽數(shù)-過濾瀏覽數(shù)。平均訪問瀏覽數(shù)：一次訪問平均產(chǎn)生的瀏覽數(shù)，即平均訪問瀏覽數(shù)=瀏覽數(shù)訪問數(shù)。重復(fù)訪問數(shù) Returning Visits during a day：一天內(nèi)訪問兩次

29、以上的用戶數(shù)。曝光數(shù)：廣告彈出次數(shù)。廣告點擊數(shù)：用戶點擊彈出廣告的次數(shù)，即 Click 數(shù)。返回數(shù)：通過電子郵件進(jìn)行市場推廣時，用戶通過點擊郵件中的鏈接地址訪問網(wǎng)站的次數(shù)。注冊數(shù)：用戶通過電子郵件和廣告訪問本網(wǎng)站，并最終轉(zhuǎn)換為注冊用戶的數(shù)量。返回率：廣告彈出后，被用戶點擊的程度，即返回率=點擊數(shù)曝光數(shù)100%?？蛻艮D(zhuǎn)化率：客戶轉(zhuǎn)化率包含兩方面含義：用戶通過廣告訪問本網(wǎng)站，并最終轉(zhuǎn)化成注冊用戶的程度，即客戶轉(zhuǎn)化率=注冊數(shù)點擊數(shù)100%；用戶通過郵件上的鏈接地址訪問本網(wǎng)站，并最終轉(zhuǎn)化成注冊用戶的程度，即客戶轉(zhuǎn)化率=注冊數(shù)返回數(shù)100%。發(fā)送字節(jié)數(shù)：從服務(wù)器端向客戶端發(fā)出的字節(jié)數(shù)。接收

30、字節(jié)數(shù)：服務(wù)器端從客戶端接收的字節(jié)數(shù)?？傋止?jié)數(shù)：是發(fā)送字節(jié)數(shù)和接收字節(jié)數(shù)的總和，即總字節(jié)數(shù)發(fā)送字節(jié)數(shù)接收字節(jié)數(shù)。行為/路徑：在一個訪問過程中，客戶訪問過的所有頁面的軌跡稱為路徑，或稱為行為。特定行為：由用戶自行定義的行為，包含若干行為步驟，其中行為步驟不受限制，即可以任意設(shè)定行為步驟。進(jìn)而分析出滿足設(shè)定行為的發(fā)生次數(shù)及各個步驟之間的轉(zhuǎn)化率。特定行為轉(zhuǎn)化率：在特定行為中，兩個步驟之間的轉(zhuǎn)化率。行為入口：客戶開始訪問網(wǎng)站的第一個頁面。在 Web-IA 中，根據(jù)入口給出典型行為分析。行為出口：客戶訪問網(wǎng)站的最后一個頁面。在 Web-IA 中，根據(jù)出口給出典型行為分析。沉默時間：注冊用

31、戶最后一次訪問網(wǎng)站到分析日的天數(shù)。沉默用戶：在沉默時間內(nèi)未訪問網(wǎng)站的注冊用戶。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書重復(fù)訪問用戶比例：一天內(nèi)訪問兩次以上用戶占總用戶數(shù)的比例，該值越大表明用戶品質(zhì)越高，理想值為 100%。用戶粘著度指數(shù)：一天內(nèi)的總訪問數(shù)與總用戶數(shù)之比，該值越大表明用戶品質(zhì)越高。重度訪問用戶：按每次訪問的停留時間劃分，把停留時間超過 20 分鐘的用戶歸為重度訪問用戶；也可以按照每次訪問產(chǎn)生的瀏覽數(shù)劃分，把一次訪問瀏覽超過 10 個頁面的用戶歸為重度訪問用戶。對于重度訪問用戶，包括以下四個指標(biāo)，每個指標(biāo)值越大，表明用戶品質(zhì)越高。重度用戶比例（次數(shù)）=（瀏覽數(shù)11 頁面的訪問數(shù)

32、）總訪問數(shù)重度用戶比例（時長）=（20 分鐘的訪問數(shù)）總訪問數(shù)重度用戶指數(shù)=（20 分鐘的瀏覽數(shù)）（20 分鐘的訪問數(shù)）重度訪問量比列=（20 分鐘的瀏覽數(shù)）總瀏覽數(shù)輕度訪問用戶：按每次訪問的停留時間劃分，把停留時間不超過 1 分鐘的用戶歸為輕度訪問用戶。對于輕度訪問用戶，包括以下三個指標(biāo)，每個指標(biāo)值越小，表明用戶品質(zhì)越高。輕度用戶比例=（0-1 分鐘的訪問數(shù)）總訪問數(shù)輕度用戶指數(shù)=（0-1 分鐘的瀏覽數(shù)）（0-1 分鐘的訪問數(shù)）輕度訪問量比例=（0-1 分鐘的瀏覽數(shù)）總瀏覽數(shù)拒絕率：一次訪問只訪問一個頁面的訪問次數(shù)占總訪問數(shù)的比例，比例越小，表明用戶品質(zhì)越高。拒絕率（一個頁面）=只訪問

33、1 個頁面的訪問數(shù)總訪問數(shù)拒絕率（首頁）=只訪問首頁的訪問數(shù)總訪問數(shù)地區(qū)：訪問客戶的來源地區(qū)，是根據(jù) IP 地區(qū)對照表，查詢訪問客戶的 IP 地址落在哪個 IP區(qū)段內(nèi)，而得到其對應(yīng)的地區(qū)。地區(qū)包括國內(nèi)地區(qū)和國外地區(qū)，國內(nèi)地區(qū)以省為單位，國外地區(qū)以國家為單位。時段：按照一天 24 個小時自然時間段進(jìn)行劃分。趨勢：趨勢分為兩種，第一種是以時段為單位的一天 24 小時發(fā)展趨勢。第二種是以日為單位的周、月、以及指定區(qū)間發(fā)展趨勢。IP 地址： IP 地址由 4 個數(shù)組成，每個數(shù)可取值 0255，各數(shù)之間用一個點號.分開，例如： 6。頁面：網(wǎng)站中的所有格式的網(wǎng)頁(含文件及動態(tài)網(wǎng)頁)，例如：.ht

34、m、.html、.asp、.cfm、 asa、cdx、htmls、shtm、shtml、txt 等等，可以由用戶根據(jù)實際情況自己設(shè)定屬于頁面的文件格式。特定頁面：對于需要特殊分析的頁面，通過設(shè)置，從眾多頁面中獨立出來，進(jìn)行特定分析的頁面。過濾頁面：網(wǎng)站中的某些頁面并不是獨立的頁面，而是附屬于某個頁面，如滾動條頁面就是附屬于首頁的頁面，用戶可以將這些附屬頁面設(shè)置為過濾頁面。過濾后的瀏覽數(shù)方能真正反映網(wǎng)站的訪問情況。離開頁面：客戶訪問網(wǎng)站的最后一個頁面。未定義頁面：頁面功能沒有定義的頁面，即沒有歸類到任何頻道的頁面。頻道/欄目：將網(wǎng)站中的各種內(nèi)容根據(jù)功能歸類，劃分出若干邏輯上的頻道或欄目

35、。網(wǎng)站：網(wǎng)站是由 Web Server 組成，專業(yè)版一個網(wǎng)站只有一個 Web Server，企業(yè)版和商務(wù)版一個網(wǎng)站至少由一個 Web Server 組成。熱點：將一個網(wǎng)頁中包含的各個鏈接根據(jù)功能歸類劃分出若干板塊，比如新聞板塊、財經(jīng)板塊、體育板塊、科技板塊等，每個板塊成為一個熱點。進(jìn)而分析出該頁面上的各個熱點板塊被點擊的情況。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書匯總：對多網(wǎng)站的分析進(jìn)行匯總。同期比較：對任意兩個日、周、月、以及指定區(qū)間的瀏覽數(shù)（或訪問數(shù)、或用戶數(shù)、停留時間）進(jìn)行比較。比較對象可以是頁面、頻道、欄目、廣告、地區(qū)等。聚合：對日期的聚合，比如周聚合就是將 7 天的數(shù)據(jù)合在一

36、起為一個分析項，聚合目的就是以聚合項為單位分析網(wǎng)站發(fā)展的趨勢。環(huán)比：在趨勢分析中，當(dāng)前日期數(shù)據(jù)與上一日期數(shù)據(jù)的比成為環(huán)比。跳轉(zhuǎn)：狀態(tài)代碼為 302 的訪問請求。熱門：最受歡迎的頁面或頻道，即瀏覽數(shù)排名前若干位（可由用戶自行定義）的頁面或頻道。冷門：最不受歡迎的頁面或頻道，即瀏覽數(shù)排名后若干位（可由用戶自行定義）的頁面或頻道。廣告：通過在別的網(wǎng)站上彈出窗口等方式介紹本網(wǎng)站的一種商業(yè)活動。郵件：通過發(fā)送電子郵件，郵件中包含鏈接地址，吸引用戶通過點擊郵件中包含的鏈接地址訪問本網(wǎng)站，實際上也是廣告的一種。搜索引擎：在互聯(lián)網(wǎng)上為您提供信息檢索服務(wù)的網(wǎng)站。關(guān)鍵字：通過搜索引擎檢索的內(nèi)容。E

37、xcel 輸出：將分析結(jié)果以 Excel 表格形式輸出。網(wǎng)站拓?fù)浣Y(jié)構(gòu)：網(wǎng)站的拓?fù)浣Y(jié)構(gòu)是由網(wǎng)站匯總、網(wǎng)站分析和頻道分析三類節(jié)點構(gòu)成。其中，網(wǎng)站匯總下可以有部門匯總，網(wǎng)站分析下可以有子網(wǎng)站，頻道分析下可以有子頻道。用戶根據(jù)網(wǎng)站拓?fù)浣Y(jié)構(gòu)，來查詢所需要的分析結(jié)果。匿名用戶：登陸網(wǎng)站不用確認(rèn)身份，便可訪問網(wǎng)站內(nèi)容的用戶。認(rèn)證用戶：通過身份認(rèn)證后，方可訪問網(wǎng)站內(nèi)容的用戶。一般情況，用戶通過注冊成為認(rèn)證用戶。日志文件：在 Web-IA 中，日志文件是指被分析網(wǎng)站的工作日志。瀏覽器：客戶端通過什么瀏覽器訪問網(wǎng)站。操作系統(tǒng)：客戶端通過什么操作系統(tǒng)訪問網(wǎng)站。運營商：客戶端接入互聯(lián)網(wǎng)的服務(wù)提供商，比

38、如中國電信、中國網(wǎng)通、教研網(wǎng)等。接入方式：客戶端接入互聯(lián)網(wǎng)的方式，比如撥號、專線、ISDN、ADSL 等。狀態(tài)代碼：也稱作錯誤代碼，是為服務(wù)器所接收每個請求（網(wǎng)頁點擊）分配的 3 位數(shù)代碼。4. 用戶分析 - 網(wǎng)站用戶的識別用戶分析是網(wǎng)站分析中一個重要的組成部分，在分析用戶之前我們必須首先能夠識別每個用戶，分辨哪些是”New Customer”，哪些是”Repeat Customer”。這樣不但能夠更加清晰地了解到底有多少用戶訪問了你的網(wǎng)站，分辨他們是誰（用戶 ID、郵箱、性別年齡等）；同時也能夠幫助你更好地跟蹤你的用戶，發(fā)現(xiàn)它們的行為特征、興趣愛好及個性化的設(shè)置等，以便于更好地把握用戶需

39、求，提升用戶體驗。通常當(dāng)你的網(wǎng)站提供了注冊服務(wù)，而用戶注冊并登陸過你的網(wǎng)站，那么用戶可以更容易地被識別，因為網(wǎng)站一般都會保存注冊用戶的詳細(xì)信息；但是你的網(wǎng)站并不需要注冊，而用戶的行為以瀏覽為主，這是用戶識別就會顯得較為困難，下面提供了幾種常用的用戶識別的方法：技術(shù)開發(fā)部1)2)3)4)用戶行為數(shù)據(jù)分析項目計劃書識別用戶的幾種方法當(dāng)用戶并未注冊登錄的情況下，識別用戶的唯一途徑就只剩下用戶瀏覽行為的點擊流數(shù)據(jù)，通常情況下它們會保存在 WEB 日志里面。而 WEB 日志本身存在的缺陷可能導(dǎo)致用戶識別的不準(zhǔn)確性，所以我們在選擇用戶識別方法的過程中，在條件允許的情況下盡量選擇更為準(zhǔn)確的方法：基于 IP

40、的用戶識別IP 地址是最容易獲取的信息，任何的 WEB 日志中均會包含，但其局限性也較為明顯：偽 IP、代理、動態(tài) IP、局域網(wǎng)共享同一公網(wǎng) IP 出口這些情況都會影響基于 IP 來識別用戶的準(zhǔn)確性，所以 IP 識別用戶的準(zhǔn)確性比較低，目前一般不會直接采用 IP 來識別用戶。獲取難度：準(zhǔn)確度：基于 IP+Agent 的用戶識別同樣基于最簡單形式的 WEB 日志，我們可以增加一項Agent，來提高單一 IP 方式識別用戶的準(zhǔn)確性。Agent 也是 WEB 日志中一般都會包含的信息，通過 IP+Agent 的方式可以適當(dāng)提高 IP 代理、公用 IP 這類情況下用戶的分辨度，同時通過 Agent 還

41、可以識別網(wǎng)絡(luò)爬蟲等特殊“用戶”，但同樣準(zhǔn)確度也欠高。獲取難度：準(zhǔn)確度：基于 cookie 的用戶識別當(dāng)你通過自定義 Apache 日志格式或者 JavaScript 的方法獲得用戶 cookie 的時候，其實你已經(jīng)找到了一個更有效的用戶識別的手段。cookie 在未被清除的其前提下可以認(rèn)為是跟某個訪問客戶端電腦綁定的（一個客戶端有可能包含多個 cookie），所以用 cookie 來標(biāo)識用戶其實指的是用戶使用的客戶端電腦，而并非用戶本身。用 cookie 識別用戶的方法當(dāng)然也存在缺陷：最常見的就是 cookie 被清除而導(dǎo)致用戶無法與原先記錄實現(xiàn)對應(yīng)；同時由于客戶端電腦會被共用，或者用戶會在不

42、同的電腦上訪問你的網(wǎng)站，這個時候 cookie 就無法直接對應(yīng)到該用戶了。獲取難度：準(zhǔn)確度：基于用戶 ID 的用戶識別基于用戶 ID 的用戶識別是最為準(zhǔn)確，因為一般情況下用戶不同共享他的用戶 ID，所以我們可以認(rèn)為數(shù)據(jù)中的 userid 唯一地指向該用戶，幾乎不存在偏差。當(dāng)然要使用用戶 ID 來識別用戶是需要一定的前提條件的：網(wǎng)站必須是提供用戶注冊登錄服務(wù)的，并且可以通過一些手段在點擊流數(shù)據(jù)中記錄 userid。技術(shù)開發(fā)部5)6)用戶行為數(shù)據(jù)分析項目計劃書獲取難度：準(zhǔn)確度：所以對于一個需要用戶 ID 注冊登錄的網(wǎng)站來說，用戶唯一標(biāo)識符的選擇可以遵從以下順序：當(dāng)用戶注冊登錄時以 userid 為

43、準(zhǔn)，當(dāng)用戶在未登錄狀態(tài)瀏覽時以用戶的 cookie 為準(zhǔn)，當(dāng)用戶未登錄且 cookie 無法獲取的情況下以 IP+Agent 為準(zhǔn)；這樣就能從最大程度上識別唯一用戶。這里推薦一個網(wǎng)站日志中 cookie 項的自定義設(shè)置方法，以便更好地識別用戶。cookie是從用戶端存放的 cookie 文件記錄中獲取的，這個文件里面一般在包含一個 cookieid 的同時也會記下用戶在該網(wǎng)站的 userid（如果你的網(wǎng)站需要注冊登陸并且該用戶曾經(jīng)登錄過你的網(wǎng)站且 cookie 未被刪除），所以在記錄日志文件中 cookie 項的時候可以優(yōu)先去查詢 cookie中是否含有用戶 ID 類的信息，如果存在則將用戶

44、ID 寫到日志的 cookie 項，如果不存在則查找是否有 cookieid，如果有則記錄，沒有則記為”-”，這樣日志中的 cookie 就可以直接作為最有效的用戶唯一標(biāo)識符被用作統(tǒng)計。當(dāng)然這里需要注意該方法只有網(wǎng)站本身才能夠?qū)崿F(xiàn)，因為用戶 ID 作為用戶隱私信息只有該網(wǎng)站才知道其在 cookie 的設(shè)置及存放位置，第三方統(tǒng)計工具一般很難獲取。獲取用戶信息的途徑通過以上的方法實現(xiàn)用戶身份的唯一標(biāo)識后，我們可以通過一些途徑來采集用戶的基礎(chǔ)信息、特征信息及行為信息，然后為每位用戶建立起詳細(xì)的 Profile：1) 用戶注冊時填寫的用戶注冊信息及基本資料；2) 從網(wǎng)站日志中得到的用戶瀏覽行為數(shù)據(jù)；3

45、) 從數(shù)據(jù)庫中獲取的用戶網(wǎng)站業(yè)務(wù)應(yīng)用數(shù)據(jù)；4) 基于用戶歷史數(shù)據(jù)的推導(dǎo)和預(yù)測；5) 通過直接聯(lián)系用戶或者用戶調(diào)研的途徑獲得的用戶數(shù)據(jù)；6) 有第三方服務(wù)機構(gòu)提供的用戶數(shù)據(jù)。識別并獲取用戶信息的價值通過用戶身份識別及用戶基本信息的采集，我們可以通過網(wǎng)站分析的各種方法在網(wǎng)站是實現(xiàn)一些有價值的應(yīng)用：基于用戶特征信息的用戶細(xì)分；基于用戶的個性化頁面設(shè)置；基于用戶行為數(shù)據(jù)的關(guān)聯(lián)推薦；基于用戶興趣的定向營銷；參考：webdataanalysis/data-collection-and-preprocessing/5. WEB 日志的作用和缺陷Avinash Kaushik 將點擊流數(shù)據(jù)的獲取方式分為 4

46、種：log files、web beacons、JavaScript tags和 packet sniffers，其中包嗅探器（packet sniffers）比較不常見，最傳統(tǒng)的獲取方式是通過技術(shù)開發(fā)部；2)用戶行為數(shù)據(jù)分析項目計劃書WEB 日志文件（log files）而 beacons 和 JavaScript 是目前較為流行的方式，Google Analytics目前就是采用 beacons+JavaScript 來獲取數(shù)據(jù)的，我們可以來簡單看一下傳統(tǒng)的網(wǎng)站日志和 beacons+JavaScript 方式各自的優(yōu)缺點：1)WEB 日志文件優(yōu)勢：簡單方便，不需要修改網(wǎng)頁代碼，可以自定

47、義日志格式；較多的現(xiàn)成的日志分析工具的支持（AWStats、Webalizer 等）；獲取網(wǎng)絡(luò)爬蟲數(shù)據(jù)的唯一途徑；可以收集底層數(shù)據(jù)供反復(fù)的分析。缺陷：數(shù)據(jù)的質(zhì)量較低，網(wǎng)站日志包含所有日志數(shù)據(jù)，包括 CSS、圖片、腳本文件的請求信息，所以過濾和預(yù)處理來提升數(shù)據(jù)質(zhì)量必不可少；頁面緩存導(dǎo)致瀏覽無日志記錄，這個是比較致命的。beacons+JavaScript優(yōu)勢：只需要在頁面代碼中操作，不需要配置服務(wù)器；數(shù)據(jù)的獲取有較高的可控性，可以只在需要統(tǒng)計的頁面植入代碼；能夠獲取點擊、響應(yīng)等數(shù)據(jù)；不需要擔(dān)心緩存等的影響，數(shù)據(jù)的準(zhǔn)確度較高；可用第三方 cookie 實現(xiàn)多網(wǎng)站跟蹤比較。缺陷：當(dāng)瀏覽器禁止接收圖片

48、或者禁用 JS 時，都可能導(dǎo)致數(shù)據(jù)獲取的失?。恢辉趹?yīng)用服務(wù)層操作，無法獲取后臺的數(shù)據(jù)；對圖片、文件等請求信息的獲取難度相對較大；過多地JS 可能導(dǎo)致頁面性能的下降，雖然這方面的影響一般可以忽略。無論通過何種方式，最終數(shù)據(jù)都是通過日志文件來記錄的，只是通過 JS 可以更容易控制想要獲取的數(shù)據(jù)，并通過在 URL 帶參數(shù)的方式記錄到日志文件中共解析和統(tǒng)計。所以底層的數(shù)據(jù)形式無非就是記錄在日志文件中的那幾項，在 WEB 日志格式一文中，已經(jīng)對網(wǎng)站日志的類型和組成做了基本的介紹，這里就再來解析下 WEB 日志中各項對網(wǎng)站數(shù)據(jù)分析的作用，以及存在的不確定性和缺陷。3)日志的不準(zhǔn)確性WEB 日志在技術(shù)層面的

49、獲取方式及各類外部因素的影響使基于網(wǎng)站日志的數(shù)據(jù)分析會存在許多的不準(zhǔn)確性，下面來介紹下 WEB 日志中那些項目可能造成數(shù)據(jù)的不準(zhǔn)確，以及造成這些缺陷的原因。a) 客戶端的控制和限制由于一些瀏覽網(wǎng)站的用戶信息都是有客戶端發(fā)送的，所以用戶的 IP、Agent 都是可以人為設(shè)置的；另外 cookie 可以被清理，瀏覽器出于安全的設(shè)置，用戶的可以在訪問過程中限制 cookie、referrer 的發(fā)送。這些都會導(dǎo)致用戶訪問數(shù)據(jù)的丟失或者數(shù)據(jù)的不準(zhǔn)確，而這類問題目前很難得到解決。b) 緩存瀏覽器緩存、服務(wù)器緩存、后退按鈕操作等都會導(dǎo)致頁面點擊日志的丟失及 referrer 的丟失，目前主要的處理方法是保

50、持頁面信息的不斷更新，可以在頁面中添加隨機數(shù)。當(dāng)然如果你使用的 JavaScript 的方法，那么就不需要擔(dān)心緩存的問題。技術(shù)開發(fā)部而用戶行為數(shù)據(jù)分析項目計劃書c) 跳轉(zhuǎn)一些跳轉(zhuǎn)導(dǎo)致 referrer 信息的丟失，致使用戶的訪問足跡中斷無法跟蹤。解決方法是將referer 通過 URL 重寫，作為 URL 參數(shù)帶入下一頁面，不過這樣會是頁面的 URL 顯得混亂。d) 代理 IP、動態(tài) IP、局域網(wǎng)（家庭）公用 IPIP 其實準(zhǔn)確性并不高，現(xiàn)在不止存在偽 IP，而且局域網(wǎng)共享同一公網(wǎng) IP、代理的使用及動態(tài) IP 分配方式，都可能使 IP 地址并不是與某個用戶綁定的，所以如果有更好的方法，盡量不

51、要使用 IP 來識別用戶。e) session 的定義與多 cookie不同的網(wǎng)站對 session 的定義和獲取方法可能差異，比如非活動狀態(tài) session 的失效時間、多進(jìn)程同時瀏覽時 sessionid 的共享等，所以同一個網(wǎng)站中 session 的定義標(biāo)準(zhǔn)必須統(tǒng)一才能保證統(tǒng)計數(shù)據(jù)的準(zhǔn)確。cookie 的不準(zhǔn)確一方面是由于某些情況下 cookie 無法獲取，另一方面是由于一個客戶端可以有多個 cookie，諸如 chrome、Firefox 等瀏覽器的 cookie 存放路徑都會與 IE 的 cookie 存放路徑分開，所以如果你是用不同的瀏覽器瀏覽同一網(wǎng)站，很有可能你的 cookie

52、就是不同的。f) 停留時間停留時間并不是直接獲取的，而是通過底層日志中的數(shù)據(jù)計算得到的，因為所有日志中的時間都是時刻的概念，即點擊的時間點。這里不得不提的是一個 session 的最后一個頁面的停留時間是無法計算得到的，可以來看一下停留時間的計算過程：假設(shè)一個用戶在一個 session 里面依次點擊了 A-B-C 這 3 個頁面，并在點完 C 之后關(guān)閉了瀏覽器，或者長時間的禁止導(dǎo)致了 session 的中斷。那么我們可以從日志中獲得的數(shù)據(jù)為 3 個頁面的點擊時間（HitTime），假設(shè) A、B、C 點擊時間分別為 HTA、HTB、HTC，那么 A 和 B 頁面的停留時間（StayTime）就可

53、以通過計算得到：STA= HTB-HTA，STB= HTC-HTB，而因為我們無法獲取 session 結(jié)束的時間，所以 STC 是無法通過計算得到的，所以一般 session 最后頁面的停留時間是 0， session 得停留時間，即一次訪問的時間（Time on site）是 HTC- HTA，其實是從打開第一個頁面到打開最后一個頁面的時間間隔，也是不準(zhǔn)確的。另外，我們也無法獲知用戶在瀏覽一個頁面的時候到底做了什么，是不是一直在閱讀博客上的文章或者瀏覽網(wǎng)站上展示的商品，用戶也有可能在期間上了個廁所、接了通電話或者放空的片刻，所以計算得到的停留時間并不能說明用戶一直處于 Engagement

54、的狀態(tài)。參考：webdataanalysis/data-collection-and-preprocessing/effect-of-we/6. 漏斗模型（Funnel Model）漏斗模型不僅顯示了用戶在進(jìn)入流程到實現(xiàn)目標(biāo)的最終轉(zhuǎn)化率，同時還可以展示整個關(guān)鍵路徑中每一步的轉(zhuǎn)化率。單一的漏斗模型對于分析來說沒有任何意義，我們不能單從一個漏斗模型中評價網(wǎng)站某個關(guān)鍵流程中各步驟的轉(zhuǎn)化率的好壞，所以必須通過趨勢、比較和細(xì)分的方法對流程中各步技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書驟的轉(zhuǎn)化率進(jìn)行分析：趨勢（Trend）：從時間軸的變化情況進(jìn)行分析，適用于對某一流程或其中某個步驟進(jìn)行改進(jìn)或優(yōu)化的效果監(jiān)控；

55、比較（Compare）：通過比較類似產(chǎn)品或服務(wù)間購買或使用流程的轉(zhuǎn)化率，發(fā)現(xiàn)某些產(chǎn)品或應(yīng)用中存在的問題；細(xì)分（Segment）：細(xì)分來源或不同的客戶類型在轉(zhuǎn)化率上的表現(xiàn)，發(fā)現(xiàn)一些高質(zhì)量的來源或客戶，通常用于分析網(wǎng)站的廣告或推廣的效果及 ROI。所以，漏斗模型適用于網(wǎng)站中某些關(guān)鍵路徑的轉(zhuǎn)化率的分析，以確定整個流程的設(shè)計是否合理，各步驟的優(yōu)劣，是否存在優(yōu)化的空間等。試著去了解用戶來你的網(wǎng)站的真正目的，為他們提供合理的訪問路徑或操作流程，而不是一味地去提高轉(zhuǎn)化率。7. 目前提供此服務(wù)產(chǎn)品/企業(yè)北京藍(lán)太平洋科技開發(fā)有限公司 webdss/（目前公司就購買的此產(chǎn)品 IIS 日志分析）般若網(wǎng)絡(luò)科技有限公司

56、 web-ia/Web 商業(yè)智能 Bi，深入分析訪問數(shù)據(jù)，從訪問數(shù)據(jù)中挖掘財富。WEKA 懷卡托智能分析環(huán)境（Waikato Environment for Knowledge Analysis）開源軟件。官方網(wǎng)址：cs.waikato.ac.nz/ml/weka/WEKA 作為一個公開的數(shù)據(jù)挖掘工作平臺，集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法，包括對數(shù)據(jù)進(jìn)行預(yù)處理，分類，回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。WEKA 提供的接口文檔可以實現(xiàn)自定義的數(shù)據(jù)挖掘算法。三、項目目的四、項目需求1. 頁面統(tǒng)計頁面 PageView 訪問數(shù)頁面 Ref 跳入頁面 UserView

57、用戶數(shù)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書頁面 IP 獨立 IP 數(shù)頁面 Out 跳出2. 用戶行為指標(biāo)用戶行為指標(biāo)主要反映用戶是如何來到網(wǎng)站的、在網(wǎng)站上停留了多長時間、訪問了那些頁面等，主要的統(tǒng)計指標(biāo)包括：用戶在網(wǎng)站的停留時間；用戶來源網(wǎng)站（也叫“引導(dǎo)網(wǎng)站”）；用戶所使用的搜索引擎及其關(guān)鍵詞；在不同時段的用戶訪問量情況等。用戶區(qū)域分布用戶對在線支付功能的使用情況用戶對在線教室功能的使用情況用戶瀏覽網(wǎng)站的方式時間設(shè)備、瀏覽器名稱和版本、操作系統(tǒng)用戶瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計指標(biāo)主要包括：用戶瀏覽器的名稱和版本；用戶瀏覽器的版本分布；訪問者電腦分辨率顯示模式；用戶所使用的操作系統(tǒng)名稱和版本；用

58、戶所在地理區(qū)域分布狀況等。3. 潛在用戶特征分析（ / 網(wǎng)易郵箱廣告分區(qū)域/分學(xué)歷/分職業(yè)投放）1、最常瀏覽該網(wǎng)站的用戶性別分布2、最常瀏覽該網(wǎng)站的用戶年齡分布3、最常瀏覽該網(wǎng)站的用戶學(xué)歷分布4、最常瀏覽該網(wǎng)站的用戶婚姻狀況分布5、最常瀏覽該網(wǎng)站的用戶職業(yè)分布6、最常瀏覽該網(wǎng)站的用戶收入分布7、最常瀏覽該網(wǎng)站的用戶區(qū)域分布最后：那些人是我們潛在的用戶？技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書首頁有多少 PV 數(shù)？UV 數(shù)？有多少獨立 IP 訪問？都從那些網(wǎng)址跳入？用戶又跳出到哪里去了？頻道/欄目首頁網(wǎng)站欄目分類的優(yōu)勢有多少 PV 數(shù)？UV 數(shù)？有多少獨立 IP 訪問？都從那些網(wǎng)址跳入？用

59、戶又跳出到哪里去了？新/舊功能頁面聽課行為 / 記筆記行為有多少 PV 數(shù)？UV 數(shù)？有多少獨立 IP 訪問？都從那些網(wǎng)址跳入？用戶又跳出到哪里去了？用戶都是用那個頁面進(jìn)入到聽課功能頁面的？是否和我們設(shè)定/假象的用戶行為一致？4. 指定 User Cookie 的分析用戶瀏覽軌跡特征；用戶頁面時長特征；用戶操作軌跡特征；新學(xué)員/老學(xué)員的操作行為差異？功能選擇差異？瀏覽/關(guān)注點差異？5. 用戶趨勢分析用戶瀏覽的趨勢；使用產(chǎn)品的趨勢；五、項目系統(tǒng)設(shè)計如何獲取流量統(tǒng)計信息獲取網(wǎng)站訪問統(tǒng)計資料通常有兩種方法：一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計分析軟件來進(jìn)行網(wǎng)站流量監(jiān)測；另一種是采用第三方提供

60、的網(wǎng)站流量分析服務(wù)。兩種方法各有利弊，采用第一種方法可以方便地獲得詳細(xì)的網(wǎng)站統(tǒng)計信息，并且除了訪問統(tǒng)計軟件的費用之外無需其他直接的費用，但由于這些資料在自己的服務(wù)器上，因此在向第三方提供有關(guān)數(shù)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書據(jù)時缺乏說服力；第二種方法則正好具有這種優(yōu)勢，但通常要為這種服務(wù)付費，雖然也有一些免費網(wǎng)站流量統(tǒng)計服務(wù)，但由于在功能方面會有一定的限制，或者通常需要在網(wǎng)站上出現(xiàn)服務(wù)商的標(biāo)識甚至廣告，對于商業(yè)網(wǎng)站來說使用免費服務(wù)肯那個不太合適。此外，如果必要，也可以根據(jù)需要自行開發(fā)網(wǎng)站流量統(tǒng)計系統(tǒng)。具體采取哪種形式，或者哪些形式的組合，可根據(jù)企業(yè)網(wǎng)絡(luò)營銷的實際需要決定。在線流量統(tǒng)計網(wǎng)站有

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

用戶行為數(shù)據(jù)分析的項目計劃書課件

文檔簡介

溫馨提示

最新文檔

評論

用戶行為數(shù)據(jù)分析的項目計劃書課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔