下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于ID3算法的Web日志挖掘預(yù)處理中的Frame頁(yè)面過(guò)濾技術(shù)的研究 計(jì)算機(jī)論文 摘 要 描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一種改進(jìn)技術(shù)Frame過(guò)濾技術(shù),對(duì)其關(guān)鍵部分與運(yùn)作模式進(jìn)行了 研究 與改進(jìn)。討論了Frame頁(yè)面過(guò)濾預(yù)處理技術(shù)在Web頁(yè)面挖掘中的效率 問(wèn)題 , 分析 了決策樹(shù)算法中最著名的算法ID3算法,并用ID3算法對(duì)Frame過(guò)濾算法進(jìn)行了改進(jìn),比較新舊算法
2、的執(zhí)行效率及算法結(jié)果質(zhì)量,得出了新算法執(zhí)行效率更高及質(zhì)量更好的結(jié)論,從而搞高了對(duì)存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)挖掘結(jié)果的興趣度。 關(guān)鍵詞 ID3算法;Web日志挖掘;Web日志預(yù)處理;Frame頁(yè)面過(guò)濾本文由中國(guó)論文范文收集整理。 1 引言 Internet的迅速 發(fā)展 使得Web為人們提供了 內(nèi)容 豐富且數(shù)量龐大的信息,隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)以及發(fā)展,數(shù)據(jù)挖掘逐漸被 應(yīng)用 于Web數(shù)據(jù)。 Web日志挖掘是三大類(lèi)Web挖掘之一,它主要
3、包括數(shù)據(jù)預(yù)處理和挖掘算法實(shí)施兩個(gè)主要階段.實(shí)施挖掘算法之前要對(duì)Web日志文件進(jìn)行預(yù)處理,將其轉(zhuǎn)化為用戶會(huì)話集.本文著重討論Web日志挖掘預(yù)處理技術(shù)中的Frame頁(yè)面過(guò)濾預(yù)處理技術(shù),即在傳統(tǒng)的Web日志預(yù)處理過(guò)程中加入Frame頁(yè)面過(guò)濾這一步驟,并提出了用決策樹(shù)算法著名的ID3算法進(jìn)行Frame頁(yè)面過(guò)濾,進(jìn)一步提高了日志數(shù)據(jù)預(yù)處理的質(zhì)量和效率,從而為挖掘算法的實(shí)施提供更為準(zhǔn)確的數(shù)據(jù),提高了對(duì)存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)整個(gè)Web日志挖掘的效率及挖掘結(jié)果的興趣性。2 Web日志預(yù)處理中的Frame頁(yè)面過(guò)濾技術(shù)2.1 Web日志預(yù)處理技術(shù)現(xiàn)狀 &
4、#160; Web日志挖掘 是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶訪問(wèn)模式。Web日志預(yù)處理是在Web日志挖掘前,對(duì)Web日志進(jìn)行清理、過(guò)濾以及重新組合的過(guò)程,其目的是剔除日志中對(duì)挖掘過(guò)程無(wú)用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的保存形式。 到 目前 為止提出的Web日志的預(yù)處理技術(shù),它包含三種 方法 識(shí)別用戶的活動(dòng)集合: (1) Web服務(wù)器提供Cookie,則具有相同Cookie值的頁(yè)面請(qǐng)求是來(lái)自同一個(gè)用戶,則用戶會(huì)話識(shí)別的主要的任務(wù)就是將Web日志劃分為不同C
5、ookie值所對(duì)應(yīng)的頁(yè)面請(qǐng)求集合。 (2) Web服務(wù)器沒(méi)有提供Cookie,但每個(gè)網(wǎng)站用戶都要一個(gè)登錄標(biāo)識(shí)符方可訪問(wèn)站點(diǎn),則分析工具即可利用登錄標(biāo)識(shí)符識(shí)別會(huì)話。 如果Web服務(wù)器既沒(méi)有Cookie也沒(méi)有登錄標(biāo)識(shí)符,可以利用主機(jī)地址,同時(shí)分析日志中每條記錄的請(qǐng)求頁(yè)和引用頁(yè)的URL,然后根據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)(超鏈接)和其它啟發(fā)式規(guī)則識(shí)別用戶會(huì)話,但是這種方法的精確度較低,不能100正確地識(shí)別出每個(gè)請(qǐng)求對(duì)應(yīng)的用戶。這里主要討論第3種預(yù)處理方法。 一般W
6、eb日志預(yù)處理主要包括:數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別數(shù)據(jù)凈化指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。由于在Web日志中通常只有HTML文件與用戶會(huì)話相關(guān),所以通過(guò)檢查URL的后綴刪除不相關(guān)的數(shù)據(jù)。 用戶識(shí)別是指要識(shí)別出每個(gè)訪問(wèn)網(wǎng)站的用戶。一般Web日志挖掘工具中常使用基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識(shí)別用戶。 會(huì)話識(shí)別是將用戶的訪問(wèn)記錄分為單個(gè)的會(huì)話。通常采用超時(shí)方法識(shí)別用戶會(huì)話,如果兩頁(yè)間請(qǐng)求時(shí)間的差值超過(guò)一定的界限(超時(shí)閾值)就認(rèn)為用戶開(kāi)始了一個(gè)新的會(huì)話。
7、 路徑補(bǔ)充是由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。路徑補(bǔ)充就是將這些遺漏的請(qǐng)求補(bǔ)充到用戶會(huì)話中,解決的方法類(lèi)似于用戶識(shí)別中的方法。事務(wù)識(shí)別,用戶會(huì)話是Web日志挖掘中唯一具備 自然 事務(wù)特征的元素,但是,對(duì)于某些挖掘算法來(lái)說(shuō)可能用戶會(huì)話的粒度太大,需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù)。 一般通常采用圖1所示的數(shù)據(jù)預(yù)處理過(guò)程。 如果按照前面所介紹的日志預(yù)處理技術(shù)對(duì)Web日志進(jìn)行預(yù)處理,則Frame頁(yè)面和其SubFrame頁(yè)面也將一起出現(xiàn)在用戶會(huì)話文件中。在這樣的用戶會(huì)話文
8、件上進(jìn)行數(shù)據(jù)挖掘,F(xiàn)rame頁(yè)面和SubFrame頁(yè)面作為頻繁遍歷路徑或者頻繁訪問(wèn)頁(yè)組出現(xiàn)的概率很高,并且他們同時(shí)出現(xiàn)在挖掘結(jié)果中,這就降低了挖掘結(jié)果的興趣性。圖1 典型的Web日志數(shù)據(jù)預(yù)處理過(guò)程2.2 Frame頁(yè)面過(guò)濾預(yù)處理技術(shù) HTML規(guī)范通過(guò)“Frame”標(biāo)記支持多窗口頁(yè)面,每個(gè)窗口里裝載的頁(yè)面對(duì)應(yīng)一個(gè)URL。 當(dāng)用戶請(qǐng)求Frame頁(yè)面的URL時(shí),F(xiàn)rame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)多窗口頁(yè)面展現(xiàn)在用戶面前,我們可以將用戶對(duì)Frame頁(yè)面的請(qǐng)求看成就是對(duì)多窗口頁(yè)面的請(qǐng)求。這樣,在數(shù)據(jù)預(yù)處理階段將Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)整體考慮,并且把Frame頁(yè)面對(duì)應(yīng)的URL當(dāng)作這個(gè)整體的代表。從全局而言,這樣處理可以有效地消除Frame頁(yè)面對(duì)日志挖掘的 影響 ,最終提高挖掘結(jié)果的興趣性。 關(guān)鍵詞:頁(yè)面,過(guò)濾,技術(shù),研究,處理,挖掘,計(jì)算機(jī)論文,基于ID3算法的Web日志挖掘預(yù)處理中的Frame頁(yè)面過(guò)濾技術(shù)的研究 內(nèi)容摘要:摘 要 描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同管理培訓(xùn)合同:上海項(xiàng)目實(shí)踐與招投標(biāo)(2025版)
- 二零二五年度智慧城市建設(shè)名義合伙人合同3篇
- 2025年度農(nóng)民工勞動(dòng)合同電子化管理方案及實(shí)施細(xì)則3篇
- 二零二五年度農(nóng)業(yè)產(chǎn)業(yè)鏈金融服務(wù)創(chuàng)新合同-@-1
- 2025版企業(yè)內(nèi)部設(shè)備維修承包合同規(guī)范文本4篇
- 2025年度排洪渠項(xiàng)目監(jiān)理合同模板3篇
- 二零二五年度人工智能核心算法軟件知識(shí)產(chǎn)權(quán)獨(dú)家轉(zhuǎn)讓合同3篇
- 二零二五年度全新品牌專(zhuān)賣(mài)店開(kāi)設(shè)服務(wù)合同范本4篇
- 2025年度票據(jù)代理業(yè)務(wù)委托合同范本6篇
- 2025年度苗圃技術(shù)員崗位聘用合同修訂版
- 勞務(wù)派遣勞務(wù)外包服務(wù)方案(技術(shù)方案)
- GB/T 43391-2023市場(chǎng)、民意和社會(huì)調(diào)查調(diào)查報(bào)告編制指南
- 拔罐技術(shù)操作考核評(píng)分標(biāo)準(zhǔn)
- 戒賭法律協(xié)議書(shū)范本
- 競(jìng)選市級(jí)三好學(xué)生PPT
- 2024屆甘肅省蘭州市五十一中生物高一上期末檢測(cè)模擬試題含解析
- 高標(biāo)準(zhǔn)農(nóng)田建設(shè)上圖入庫(kù)(技術(shù)培訓(xùn))
- 火災(zāi)隱患整改登記表
- 天津華寧KTC101說(shuō)明書(shū)
- 【智慧校園】-智慧校園系統(tǒng)方案
- 外研版高中新教材英語(yǔ)單詞表(必修一)
評(píng)論
0/150
提交評(píng)論