版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
web日記挖掘數(shù)據(jù)預(yù)處理研究
1web測量方法隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息的急劇擴張,其中包含的知識尚未得到充分利用。因此,web數(shù)據(jù)結(jié)構(gòu)已成為研究數(shù)據(jù)技術(shù)的熱點。web數(shù)據(jù)主要分為三種類型:網(wǎng)絡(luò)內(nèi)容挖掘(web內(nèi)容獲?。﹚eb結(jié)構(gòu)挖掘(web結(jié)構(gòu)提升)和web動態(tài)挖掘(web應(yīng)用)。Web日志挖掘的主要目標是從Web的訪問記錄中抽取感興趣的模式.當前,Web日志挖掘領(lǐng)域的研究已取得了很大的進展,但是目前的研究重點大多集中在Web日志挖掘系統(tǒng)和算法的設(shè)計、分析與改進,對于Web日志挖掘預(yù)處理研究較少,對其中的關(guān)鍵算法研究更少.然而,由于本地緩存、代理服務(wù)器和防火墻的存在,使得WebLog中的數(shù)據(jù)并不精確,直接在其上進行挖掘非常困難.因此,數(shù)據(jù)預(yù)處理是Web日志挖掘的基礎(chǔ),正確有效地對Log文件進行預(yù)處理,對于挖掘出準確可靠的模式和其他隱含的知識極為重要.文中研究了Web日志挖掘數(shù)據(jù)預(yù)處理的主要步驟,重點設(shè)計了用戶識別、訪問操作識別和路徑完善三個步驟的關(guān)鍵算法.2web紀事數(shù)據(jù)的預(yù)處理過程2.1基于平臺的信息,用戶的需求,以及請求的過程是由客戶主機的信典型的訪問Log文件中記錄的是用戶訪問信息,不同的服務(wù)器的Web日志記錄是不同的,但其中都包含有用戶訪問的基本信息.典型的Log文件包含信息有:客戶主機的IP;時間戳;請求的方法(GET、POST等);請求文檔的URL;HTTP版本號;返回碼(即請求的狀態(tài):成功或錯誤碼);傳輸?shù)谋忍財?shù);引用Web頁的URL(該頁面可鏈接到當前訪問的URL,命名為Re_URL);代理服務(wù)器(如proxy或客戶端瀏覽器)AgentID.2.2數(shù)據(jù)預(yù)處理流程一般來講,Web日志挖掘數(shù)據(jù)預(yù)處理階段的輸入為服務(wù)器的Log文件、站點文件和統(tǒng)計數(shù)據(jù)等,輸出為用戶訪問操作文件、用戶模式文件和站點拓撲結(jié)構(gòu).Web日志挖掘數(shù)據(jù)預(yù)處理流程圖如圖1所示.2.3web紀事數(shù)據(jù)提取和預(yù)處理步驟Web日志挖掘數(shù)據(jù)預(yù)處理步驟主要包括:數(shù)據(jù)凈化、用戶識別、訪問操作識別、路徑完善和用戶模式識別等.2.3.1過濾條件表的建立數(shù)據(jù)凈化是指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù).要實現(xiàn)數(shù)據(jù)凈化,關(guān)鍵是利用一些啟發(fā)式規(guī)則建立過濾條件表,根據(jù)過濾條件表過濾無關(guān)的數(shù)據(jù).主要的規(guī)則有:2.3.2實現(xiàn)服務(wù)器的cache技術(shù)數(shù)據(jù)凈化完成以后,下一個步驟是用戶識別.由于客戶端和服務(wù)器端往往使用了cache技術(shù),Web服務(wù)器的Log文件無法記錄訪問存儲在cache中的Web頁的操作.2.3.3多次訪問的時間間隔特性對于跨度很長時間的Log文件,可能包含了一個用戶多次訪問同一個Web站點的訪問操作記錄.識別用戶的每一次訪問操作,最有效的方法是利用每一次訪問操作的時間戳的時間間隔特性.2.3.4推廣路徑可靠識別不同用戶的訪問操作的另一個關(guān)鍵就是確定訪問日志中是否有重要的請求沒有被記錄.這一問題我們稱之為路徑完善.2.3.5用戶模式和時間窗法經(jīng)過前面的各個數(shù)據(jù)預(yù)處理步驟,可以得到用戶訪問操作序列集合.但是這對于Web日志挖掘來講,仍不夠精確.因此,需要進一步進行用戶模式的識別.所謂用戶模式,就是對用戶的每一次訪問操作序列進行語義分組后得到的頁面序列.用戶模式識別方法主要有三種:引用時長法、最大向前訪問路徑法(MFP)和時間窗法.經(jīng)過以上幾個步驟,可以獲得多個用戶模式,并且可以生成每一個用戶的模式文件,每一個用戶的模式文件包含了若干個用戶模式.用戶模式如定義1所示.設(shè)L為用戶訪問操作集合,每一條訪問記錄l∈L包括:用戶主機地址l.ip,用戶ID號l.uid,被訪問Web頁的URL地址l.url,訪問時間戳l.time和訪問Web頁的時長l.timelength.定義1用戶模式定義為三元組,形式化表示如下:t=<ipt,uidt,URLt>;URLt={(ltllt.url,ltllt.time,ltllt.timelength),…,(ltmmt.url,ltmmt.time,ltmmt.timelength)}其中,ltkkt∈L,ipt=ltkkt.ip,uidt=ltkkt.uid,l≤k≤m;ltkkt.timelength=ltk+1k+1t.time-ltkkt.time,l≤k≤m-1.3數(shù)據(jù)預(yù)處理關(guān)鍵算法用戶識別、訪問操作識別和路徑完善是Web日志挖掘數(shù)據(jù)預(yù)處理的三個關(guān)鍵步驟,但是當前對這三個步驟的關(guān)鍵算法研究較少.針對這三個關(guān)鍵步驟,文中設(shè)計了相應(yīng)的關(guān)鍵算法.3.1gllog采用文中采用一些啟發(fā)式規(guī)則來識別不同的用戶,用戶識別啟發(fā)式算法如下:算法1從數(shù)據(jù)凈化的Log文件記錄中識別用戶的啟發(fā)式算法輸入:數(shù)據(jù)凈化的Log文件GL_LogFile,站點的拓撲結(jié)構(gòu)文件;輸出:用戶的訪問操作序列集合USER[i].對于GL_LogFile中的每一條記錄{i=1;while(i<=m)/*m為當前已經(jīng)判別出的用戶數(shù)*/{if(USER[i]序列為空){將該次用戶的訪問操作添加到USER[i]序列中;對GL_LogFile中下一條記錄進行操作;/*本記錄操作完成,跳出while循環(huán)*/}elseif((USER[i].IP==IP)&&(USER[i].Agent==Agent.ID))/*IP為當前記錄的用戶IP地址,Agent.ID為當前記錄的的Agent值*/{if(當前記錄的URL被USER[i]的已訪問的URL鏈接){將該次用戶的訪問操作合并到USER[i]序列的最后;對GL_LogFile中的下一條記錄進行操作;/*跳出while循環(huán)*/}}elsei=i+1;/*endif*/}/*endwhile*/if(當前記錄的URL沒有添加到任何用戶的訪問操作序列){m=m+1;/*增加一個新的用戶*/將該次用戶的訪問操作添加到新增加用戶的訪問操作序列中;}}3.2生成訪問操作序列為了識別用戶的每一次訪問操作,文中設(shè)計了用戶訪問操作識別算法,主要利用訪問操作的時間戳的時間間隔特性來確定.用戶訪問操作識別算法如下:算法2用戶訪問操作序列中識別用戶每一次訪問操作序列的算法輸入:用戶的訪問操作序列集合USER[i],連續(xù)兩次訪問操作的時間間隔interval_time;輸出:用戶的訪問操作序列集合USER_URL[i,j],i為用戶序號,j為第i個用戶的訪問操作序列序號.對于用戶的每一訪問操作序列USER[i]{i=1;while(i<=m)/*m為用戶數(shù)*/{j=1;將URL對應(yīng)的訪問操作添加到USER_URL[i,j]序列中;/*URL為USER[i]中的第一步訪問操作*/k=2;while(k<=mi)/*mi為第i個用戶的訪問操作序列長度*/{if((URL[k].time-URL[k-1].time)<=interval_time)/*URL[k]為USER[i]中的某步訪問操作*/{將該步用戶的訪問操作添加到USER_URL[i,j]序列的最后;k=k+1;}else{j=j+1;/*增加訪問操作序列*/將該步用戶的訪問操作添加到新增加的訪問操作序列中;k=k+1;}}/*endwhile*/i=i+1;}/*endwhile*/}3.3生成文件2/循環(huán),把訪問者打造成網(wǎng)絡(luò)空間歷史上的錯誤訪問,將對方下載到了創(chuàng)建一個錯誤的機制路徑完善的任務(wù)是完善沒有被記錄在Log文件中的訪問操作.文中采用啟發(fā)式規(guī)則來進行路徑完善.該算法的基本思想是利用站點的拓撲結(jié)構(gòu)實現(xiàn)用戶訪問操作的路徑完善.路徑完善啟發(fā)式算法如下:算法3路徑完善啟發(fā)式算法輸入:用戶的訪問操作序列集合USER_URL[i,j],站點拓撲結(jié)構(gòu)文件;輸出:用戶的每一次訪問操作序列集合USER_URLt[i,j],i為用戶序號,j為每一次訪問操作序列序號.對于用戶的每一訪問操作序列USER_URL[i,j]{i=1;while(i<=m)/*m為用戶數(shù)*/{while(j<=ni)/*ni為第i個用戶的訪問操作序列總數(shù)*/{j=1;將URL對應(yīng)的訪問操作直接添加到USER_URLt[i,j]序列中;/*URL為USER_URL[i,j]中的第一步訪問操作*/for(k=2;k<=mij;k++)/*mij為第i個用戶第j次訪問操作序列長度*/{if(URL[k-1].URL?URL[k].Re_URL)/*URL[k].Re_URL為URL[k].URL的引用,即URL[k].Re_URL可鏈接到當前訪問的URL[k].URL*//*URL[k]為USER_URL[i,j]中的某步訪問操作*/{if(URL[k].URL可由已經(jīng)訪問過的Web頁的URL直達)/*通過引用日志判斷*/添加相應(yīng)的返回操作到USER_URLt[i,j]序列中;else通過分析站點結(jié)構(gòu)文件確定;/*通過站點的拓撲結(jié)構(gòu)判斷*/}else將該步用戶的訪問操作直接添加到USER_URLt[i,j]序列的最后;}/*endfor*/j=j+1;}/*endwhile(j<=ni)*/i=i+1;}/*endwhile(i<=m)*/}4實驗結(jié)果與分析文中利用C++builder6.0實現(xiàn)了上述三個算法和用戶模式識別的最大向前訪問路徑法(MFP),采用SQLServer2005作為數(shù)據(jù)庫管理系統(tǒng),實驗數(shù)據(jù)來源于自建站點的訪問Log文件,總的數(shù)據(jù)量是4個月的訪問記錄.經(jīng)過實驗,針對Log文件中第1個月數(shù)據(jù)生成的用戶模式數(shù)為56
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三年級英語暑假特色作業(yè)
- 互聯(lián)網(wǎng)數(shù)據(jù)接入采集系統(tǒng)建設(shè)方案
- 智慧工地施工方案1
- 網(wǎng)球俱樂部合同(2篇)
- 南京工業(yè)大學(xué)浦江學(xué)院《食品基礎(chǔ)實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 鵝媽媽買鞋的說課稿
- 翔荷雅苑2-樓施工組織設(shè)計
- 南京工業(yè)大學(xué)浦江學(xué)院《結(jié)構(gòu)力學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 《小小的船》的說課稿
- 中學(xué)語文教學(xué)反思1
- 2024年專技人員公需科目考試答
- 2024年高壓電工特種作業(yè)考試初審復(fù)審訓(xùn)練題庫及答案(共333題)
- 2022電動汽車充電設(shè)施建設(shè)技術(shù)導(dǎo)則
- 落實《中小學(xué)德育工作指南》制定的實施方案(pdf版)
- 中國軟件行業(yè)基準數(shù)據(jù)報告(SSM-BK-202409)
- 專題09 完形填空 考點2 生活哲理類2024年中考英語真題分類匯編
- 抖音短視頻年度打包服務(wù)合作協(xié)議2024年
- 人教版體育與健康八年級9武術(shù)《健身南拳》參考教學(xué)設(shè)計
- 亮化工程項目管理組織機構(gòu)架設(shè)
- 打印耗材供貨協(xié)議
- 空調(diào)設(shè)備的安裝和修理行業(yè)發(fā)展全景調(diào)研與投資趨勢預(yù)測研究報告
評論
0/150
提交評論