Web日志數(shù)據(jù)分析系統(tǒng)研究_第1頁
Web日志數(shù)據(jù)分析系統(tǒng)研究_第2頁
Web日志數(shù)據(jù)分析系統(tǒng)研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Web日志數(shù)據(jù)分析系統(tǒng)研究1Web日志數(shù)據(jù)分析模型的設(shè)計思想 本論文設(shè)計平臺通過對web日志文件分析,統(tǒng)計出哪個頁面最受歡迎,訪問者來自哪里,訪問時段分布情況等。分析結(jié)果生成HTML代碼,最終通過瀏覽器以頁面的形式將各種報表呈現(xiàn)在用戶面前。其中要用到目前比較常用的ASP技術(shù),由于要將海量的日志數(shù)據(jù)存入,所以還要用到SQL-Server這個功能強大的數(shù)據(jù)庫。 1.1系統(tǒng)的體系結(jié)構(gòu) Web日志數(shù)據(jù)分析系統(tǒng)的主要用戶是一般企業(yè)網(wǎng)站或個人網(wǎng)站管理員,目前常見的網(wǎng)絡(luò)開發(fā)模式共有3種體系結(jié)構(gòu):兩層Client/Server(C/S)體系結(jié)構(gòu);三層Client/Server/Database(C/S/D)體

2、系結(jié)構(gòu);三層Browser/Server/Database(B/S/D)體系結(jié)構(gòu)。綜合考慮本系統(tǒng)的用戶群特點及這三種體系結(jié)構(gòu)特點,最終采用的體系結(jié)構(gòu)是目前國際上流行的“Browser/WebServer/Database”即三層網(wǎng)絡(luò)結(jié)構(gòu)模型。這種體系結(jié)構(gòu)簡單實用,客戶端只要采用標(biāo)準(zhǔn)瀏覽器與網(wǎng)絡(luò)進行連接就可以了。 1.2系統(tǒng)功能模塊設(shè)計 系統(tǒng)功能模塊是系統(tǒng)與用戶交互的接口,本系統(tǒng)包括:數(shù)據(jù)預(yù)處理模塊、基本分析模塊、智能分析模塊和可視化模塊,系統(tǒng)功能模塊.數(shù)據(jù)預(yù)處理模塊:該模塊主要功能是首先去掉原先存放在關(guān)系數(shù)據(jù)庫中的部分沒有用的原始日志,然后設(shè)置日志文件格式、采樣方法,依據(jù)包含替換規(guī)則對數(shù)據(jù)進行

3、凈化,再將該數(shù)據(jù)導(dǎo)入源數(shù)據(jù)庫,形成頁面映射表信息,最后形成用戶表?;痉治瞿K:該模塊主要是對網(wǎng)站的訪問情況進行以下6方面的統(tǒng)計匯總,即時段分析模塊、地域分析模塊、來源統(tǒng)計模塊、客戶端分析模塊、受訪頁分析模塊、搜索引擎模塊。智能分析模塊:該模塊主要功能是利用關(guān)聯(lián)規(guī)則對Web站點的頁面之間的鏈接關(guān)系和站點結(jié)構(gòu)進行分析,構(gòu)建一個新的Web站點拓撲結(jié)構(gòu),尋有關(guān)聯(lián)的客戶群體,開展有針對性和個性化的電子商務(wù)活動。 2Web日志數(shù)據(jù)分析系統(tǒng)功能的實現(xiàn) 2.1數(shù)據(jù)收集 由于本系統(tǒng)是對Web日志的分析,所以數(shù)據(jù)收集部分的工作實際上就是對日志的收集工作,所以最重要得一點是網(wǎng)站的管理者允許對其日志文件進行研究,在

4、同意對日志文件保密的前提下,筆者從電腦商網(wǎng)中國IT商務(wù)門戶()獲取了一段時間的網(wǎng)站日志文件以此作為分析對象。 2.2數(shù)據(jù)預(yù)處理 數(shù)據(jù)的預(yù)處理過程是將Web日志整理成適合數(shù)據(jù)挖掘的數(shù)據(jù)模型。整個挖掘預(yù)處理過程分為數(shù)據(jù)凈化、用戶識別、會話識別、路徑補充、事務(wù)識別5個步驟。 2.3智能分析模塊實現(xiàn) 我們利用了Apriori算法的思想,但同時對APriori算法進行了改造,采用了改進的APriori算法進行頻繁路徑挖掘。改進Apriori是受到APriori算法的啟發(fā),但它適合頻繁路徑的挖掘。 2.4基本分析模塊實現(xiàn) 基本分析可以分為兩個方面,一是網(wǎng)站整體的訪問統(tǒng)計,另一方

5、面是具體網(wǎng)頁的訪問分析。整體分析可以統(tǒng)計用戶數(shù)、點擊數(shù),分析客戶端信息等等;對具體網(wǎng)頁可以統(tǒng)計其訪問量,以分析其受歡迎程度,也可表示其重要程度。這些工作的數(shù)據(jù)來源是預(yù)處理中數(shù)據(jù)清理階段產(chǎn)生的源數(shù)據(jù)庫和整個預(yù)處理階段后產(chǎn)生的用戶事務(wù)數(shù)據(jù)庫,實現(xiàn)方法也比較簡單,一般都是簡單的統(tǒng)計分析處理?;痉治瞿K由時段分析模塊、地域分析模塊、來源統(tǒng)計模塊、客戶端分析模塊、受訪頁分析模塊、搜索引擎分析模塊6個模塊組成。本文以時段分析模塊為例進行闡述。根據(jù)日志中的日期域(data)、時間域(time)以及所花時間域(timetaken)可以統(tǒng)計出每天哪個時段的訪問人數(shù)和具體逗留時間,每個小時訪問量的變化,通過一天中每小時的訪問數(shù)可以得出站點哪個時間段的訪問人數(shù)最多是訪問高峰期,進而分析出訪問人群的職業(yè)和上網(wǎng)習(xí)慣等相關(guān)信息。 Web日志數(shù)據(jù)分析是internet信息處理的一個重要應(yīng)用,目前我們只是實現(xiàn)了一些簡單的功能,還可以對WEB日志的分析處理上進行某些更詳細的深入分析,譬如可以根據(jù)訪問者的登錄時間、訪問頁面、停留時間等信息進行統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論