




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、網(wǎng)站分析我們的數(shù)據(jù)準確嗎?導(dǎo)言】在做網(wǎng)站分析的漫長歷程中,被問到最多的問題就是“你的數(shù)據(jù)精確嗎?”網(wǎng)站分析的數(shù)據(jù)究竟準確與否,如何看待網(wǎng)站分析數(shù)據(jù)可能存在的偏差,本文將會給出答案。 【正文】準確和精確在漢語里面是近義詞,我們在口語中是可以混用的,英語中也如此,accurate和precise人們也是隨性而用,脫口而出??墒?,既然有兩個詞存在,而沒有在文字演化的長河中消亡其中一個,就說明它們還是有微妙的不同。事實上,準確和精確絕對不是同一個概念,它們在工程學(xué)、統(tǒng)計學(xué)以及其他許許多多的科學(xué)中都被嚴格的區(qū)分,對于網(wǎng)站分析這么新興的學(xué)科而言,也完全如此。我們先看看準確和精確到底有什么不同,然
2、后再看看網(wǎng)站分析工具能夠做到準確還是精確,或是二者皆備。何為準確,何為精確維基百科上有關(guān)于準確和精確的極佳的解釋,堪稱經(jīng)典詞條。這里我用漢語向它致敬:準確是指現(xiàn)象或者測量值相對事實之間的離散程度小,也就是我們口語的“接近事實、符合事實”等;精確是指在條件不變的情況下,現(xiàn)象或者測量值能夠低離散程度的反復(fù)再現(xiàn),也就是我們口語說的“次次如此、回回一樣”等。如果我們把準確和精確作為兩個不同的維度建立矩陣,可以得到下面的圖:圖1:準確和精確矩陣(圖片來源:)左上象限是我們最喜歡的,既準確,且精確對物理學(xué)和絕大多數(shù)理工科的要求就是如此;右下角是最糟糕的情況,不僅不精確,而且不準確這是生活中最常見的,我們的
3、社會生活其實很離散也很混沌。那么,自然而然的你會問,網(wǎng)站分析屬于哪個象限呢?一定是左上角的象限對嗎?網(wǎng)站分析是準確的嗎?首先,這個問題沒有固定的答案,因為網(wǎng)站分析的準確度很大程度上取決于你的期望和所采用的監(jiān)測方法和所使用的工具。不過,就我們最常使用的網(wǎng)站分析方法而言,網(wǎng)站分析絕對不屬于圖3中左邊的兩個象限(即不屬于既準確又精確的象限,也不屬于準確但不精確的象限),更簡單說,就是網(wǎng)站分析的數(shù)據(jù)不會準確。這可能會讓你失望,但相信并不出乎你的意料。你肯定已經(jīng)發(fā)現(xiàn),如果我們使用不同的網(wǎng)站分析工具衡量同一個網(wǎng)站的時候,各工具的結(jié)果之間有令人費解的差異,而且我們也無法知道哪個工具是更準確的還原了事實上的數(shù)
4、據(jù)。所以,如果GA顯示你的網(wǎng)站在一個月內(nèi)有36,954個Unique Visitor,你的網(wǎng)站的真實訪問者(一個個活生生的網(wǎng)友!)肯定不是36,954個!事實上,我們幾乎找不出來任何一個能夠準確被統(tǒng)計的度量,即使是最基本最簡單的度量Page View也是如此!因此,如果你的老板想要100%沒有誤差地知道網(wǎng)站到底有多少個人訪問過,這個想要本身已經(jīng)沒有意義。為什么網(wǎng)站分析數(shù)據(jù)無法準確你可能會吃驚,因為我們的物理學(xué)實際上也是不可能100%準確的,原因是我們都聽說過的“測不準原理”。同樣,網(wǎng)站分析也因為一個最基本的事實而無法準確,即:網(wǎng)站分析的監(jiān)測媒介是瀏覽器和服務(wù)器,而不是真實的人,這注定了我們不可
5、能尋求到準確的結(jié)果。具體而言,就目前我們通常使用的兩種監(jiān)測方法Server Log和Page Tag都不可能準確對網(wǎng)站分析的一些最基本度量進行計數(shù)。Server Log的誤差(Bias): · Unique Visitor的誤差: 如果用Server Log的方法監(jiān)測數(shù)據(jù),那么很顯然,獲取真實的訪問者數(shù)量是不可能的任務(wù)。本身Server Log對于訪問者的估算只能依據(jù)誤差巨大IP,而網(wǎng)絡(luò)爬蟲/機器人的訪問又使這種誤差進一步擴大。· Page View的誤差: 本來Server Log是可以很準確的記錄Page View的,但是可惜Cache的出現(xiàn)讓這成為歷史。Cache極有
6、可能會屏蔽服務(wù)器端的響應(yīng),這樣Server Log可能不會留下任何關(guān)于某次Page View記錄。· 時間記錄的誤差: 在沒有Cache干擾的情況下,服務(wù)器能準確探知訪問開始的時間,但是訪問結(jié)束的時間無法了解。因為訪問結(jié)束往往是隨關(guān)閉瀏覽器而一同結(jié)束的。關(guān)閉瀏覽器本身不能激發(fā)一條新的Server Log記錄。· Flash站點誤差: 如果一個網(wǎng)站主要構(gòu)成部分是包含多個頁面的一個Flash文件,或多個此類Flash文件的組合,那么Server Log不會記錄Flash內(nèi)部的操作,監(jiān)測會幾乎失效。Page Tag的誤差:· Page Tag失效: Page Tag失效
7、是會發(fā)生的。首先,一部分瀏覽器(例如手機上的一些瀏覽器)不支持JavaScript或者被設(shè)置為JavaScript禁止。其次,Page Tag可能會因為它之前的JavaScript出錯而無法運行。再次,我們也看到過因為變量名沖突而發(fā)生Page Tag和頁面上其他JavaScript沖突而無法運行的案例。最后,受網(wǎng)絡(luò)速度的影響,頁面上的Page Tag沒有完全下載,瀏覽器就可能被人為關(guān)閉或者直接鏈向一個新的頁面。顯然,如果Page Tag失效,那么網(wǎng)站分析工具就會失去部分或者全部數(shù)據(jù)。· Page Tag的位置: Page Tag在頁面中的位置會影響網(wǎng)站分析工具的計數(shù)。如果Page T
8、ag在頁面的上端,那么它會更快的被執(zhí)行,受到其他因素(例如Page Tag之前其他JavaScript失效或者網(wǎng)速問題)干擾的情況就越小,計數(shù)也就會因此增大。Stone Temple Consulting的統(tǒng)計表明,代碼在上的情況下,Visitor計數(shù)比在頁面下的多4.3%。· Unique Visitor的誤差: 一個計算機可能被多人使用;一個計算機可能有多個瀏覽器(造成訪問同一個網(wǎng)站有多個Cookie);人們會刪除Cookie(2007年comScore的統(tǒng)計表明,一個月內(nèi)有30%的美國用戶會刪除瀏覽器的Cookie);Cookie被禁用(盡管WA工具一般都使用第一方Cookie
9、,但仍有約10%不到的第一方Cookie會被用戶設(shè)為禁止)。· Page View的誤差:主要由Page Tag失效引起。 · 時間記錄的誤差:同Server Log一樣,Page Tag能夠準確記錄訪問開始的時間,但是結(jié)束時間無法了解,因為一般情況下訪問的結(jié)束并不會觸發(fā)Page Tag的執(zhí)行。 由于諸如Page View,訪問者和訪問時間之類的基本的度量實際上是無法準確記錄的,因此其他一些更高級的度量,例如我們常用的復(fù)合度量(Bounce Rate,Avg. Time on Site)就更不可能準確了。不過,知道了這些誤差產(chǎn)生的原因,有助于我們進一步修正誤差。有些監(jiān)測工具
10、(例如DoubleClick,一個廣告監(jiān)測工具)具有自修正功能,就是利用了這個原理。其他監(jiān)測方法的誤差:網(wǎng)站分析的其他獲取數(shù)據(jù)的方式比如通過客戶端的軟件搜集數(shù)據(jù)(Alexa,iResearch等),以及Sniffer(包嗅探)則因其本身的監(jiān)測方式所限,會有更大的誤差。例如,通過客戶端來搜集數(shù)據(jù),很顯然存在樣本量的偏差;而Sniffer本質(zhì)上是Server Log方式的翻版,但卻增加了包丟失以及數(shù)據(jù)記錄有限的問題。它們不可能比我們前面的兩種方法更準確。網(wǎng)站分析工具精確嗎?現(xiàn)在,你知道了網(wǎng)站分析工具并不能準確計數(shù)。那么,網(wǎng)站分析工具精確嗎?我要說,精確是網(wǎng)站分析工具的必備特征,網(wǎng)站分析工具做不到準
11、確,但必須精確。如果某個網(wǎng)站分析工具不精確,那么它就與垃圾無異。網(wǎng)站分析工具必須精確的原因很簡單,因為我們需要數(shù)據(jù)具有高度的一致性。如圖4(下圖)所示,如果網(wǎng)站分析工具的精確度存在-20%到+20%的誤差,那么假設(shè)11月4日的網(wǎng)站準確流量是50個UV,網(wǎng)站分析工具所報告的數(shù)值可能是40和60之間的任何一個數(shù)。同樣,我們假設(shè)次日(11月5日)的網(wǎng)站準確流量是51個UV,那么網(wǎng)站分析工具所報告的數(shù)值可能是41到61之間的任何數(shù)。那么,因為存在不精確,那么11月4日的數(shù)據(jù)有可能最終呈現(xiàn)40,而11月5日的數(shù)據(jù)則完全可能被最終呈現(xiàn)為61,這樣網(wǎng)站分析工具會誤報出一個令人滿意的增長但事實上這個增長并不存
12、在。反過來,如果11月4日的數(shù)據(jù)被報為60,而次日被報為41,那么更糟糕,這與實際情況是完全相反的。圖4:如果網(wǎng)站分析工具不精確會產(chǎn)生嚴重后果因此網(wǎng)站分析工具必須精確,如果它與事實有-20%的誤差,那么不論是哪一天哪一刻,它都必須比準確值小20%。否則我們就會得到錯誤的結(jié)論。當然,100%的精確也是不存在的,一般而言,允許+/-5%左右的系統(tǒng)偏差,這一來一去其實已經(jīng)有最大10%的分離度,實際上已經(jīng)是非常寬的標準了。網(wǎng)站分析工具不能做到100%精確的原因其實也是受跟上一節(jié)的那些因素一樣的影響,另外還有一些網(wǎng)站訪問者所處環(huán)境的變化造成的未知異常,例如網(wǎng)絡(luò)帶寬的變化或是數(shù)據(jù)傳輸過程中的異常丟失等。那
13、么,我們實際使用的網(wǎng)站分析工具精確度如何?如果5顆星是滿分最精確的話,那么:Google Analytics,精確度3顆半星,可以及格。但是我們的朋友Ben(曾海銀)和我都發(fā)現(xiàn)Google Analytics并不完全精確,這可能與數(shù)據(jù)的再處理有關(guān)系。Ben的案例中出現(xiàn)了+/-20%的情況,但極為罕見。其他的朋友有發(fā)現(xiàn)嗎?Omniture,精確度4顆星,較好。當然,我沒有辦法去驗證,只是因為他們家的數(shù)據(jù)比較少給我惹麻煩,也比較少有無法解釋的時候。但是Omniture的問題在于,定義的度量太多,且相同度量的定義在不同場合給出的數(shù)值有微小差異(盡管沒有實質(zhì)影響)實在是一個太龐大的數(shù)據(jù)系統(tǒng)了。WebT
14、rends,4顆星。評分較高的原因在于WebTrends是實施在網(wǎng)站服務(wù)器端,或者是被網(wǎng)站所有者所擁有的,所以被外界環(huán)境干擾的情況相對較少。如何面對網(wǎng)站分析工具的不準確但精確的特性?網(wǎng)站分析工具不準確但精確的特性不妨礙我們獲得真正的insight(見解)。我們需要遵循三個網(wǎng)站分析的基本原則(簡直是我壓箱子底的寶貝了):原則一:趨勢??蹿厔荻皇强垂铝?shù)據(jù)是網(wǎng)站分析最重要的原則。你不可能因為網(wǎng)站今天的流量是500個而狂喜,但是如果上個月的平均流量是300,而這個月的平均流量是500,那么我會恭喜你,你也值得高興一番。我們在以前的文章中對這個有討論哦。由于網(wǎng)站分析工具是精確的,因此雖然不能準確反映數(shù)據(jù),卻能夠準確反映趨勢。這也是我們所有的網(wǎng)站分析師會認為趨勢是最重要的方法論的原因。原則二:細分。因為網(wǎng)站分析工具的精確性,如果整體值比實際準確值偏小20%的話,那么構(gòu)成整體的各部分也會同比比各自的準確值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國三足式袋卸料離心機數(shù)據(jù)監(jiān)測研究報告
- 深度解析教育科技行業(yè)未來發(fā)展方向
- 教育機構(gòu)如何利用游戲化平臺提高教學(xué)效果
- 企業(yè)培訓(xùn)中多媒體技術(shù)的應(yīng)用與創(chuàng)新-以智慧教室為例
- 新版培訓(xùn)課件模板圖片
- 碧桂園張家港拓客內(nèi)部培訓(xùn)89
- 全民健身設(shè)施補短板工程實施方案在城市老舊小區(qū)健身設(shè)施改造中的應(yīng)用研究
- 全球鈾礦資源市場前景與2025年核能產(chǎn)業(yè)綠色低碳發(fā)展戰(zhàn)略報告
- 公交優(yōu)先戰(zhàn)略在2025年城市交通擁堵治理中的可持續(xù)發(fā)展報告
- Carpetimycin-B-生命科學(xué)試劑-MCE
- -2024屆高考英語二輪復(fù)習:讀后續(xù)寫適用句型-定語從句課件
- 板式換熱器、半容積式換熱器換熱器面積計算表(自動計算)
- 直流屏檢修作業(yè)指導(dǎo)書
- 冷鐓機 質(zhì)量要求技術(shù)條件
- 《全國統(tǒng)一安裝工程預(yù)算定額》工程量計算規(guī)則
- translated-NCCN臨床實踐指南:非小細胞肺癌(中文版2022.V5)
- GB/T 8312-2002茶咖啡堿測定
- 通信線路工程施工組織設(shè)計方案【實用文檔】doc
- 護士注冊健康體檢表下載【可直接打印版本】
- 預(yù)計財務(wù)報表編制及分析課件
- Q∕SY 1347-2010 石油化工蒸汽透平式壓縮機組節(jié)能監(jiān)測方法
評論
0/150
提交評論