Web日志挖掘探析

上傳人：d*** IP屬地：江西上傳時(shí)間：2021-10-14 格式：DOCX 頁數(shù)：5 大?。?5.98KB 積分：6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Web日志挖掘探析摘要：Web資源不斷豐富的同時(shí)，Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜，給用戶查找信息和網(wǎng)站設(shè)計(jì)人員的工作帶來了一定困難，傳統(tǒng)的Web站點(diǎn)缺乏智能性和主動(dòng)性，因此需要對Web站點(diǎn)進(jìn)行優(yōu)化以提供智能的Web服務(wù)，如個(gè)性化服務(wù)、自適應(yīng)站點(diǎn)等，滿足不同用戶的信息需求，使用戶快速找到所需信息。Web日志挖掘能夠有效地發(fā)現(xiàn)用戶的訪問行為，為站點(diǎn)的建設(shè)和改進(jìn)提供有力依據(jù)，實(shí)現(xiàn)Web站點(diǎn)的智能化，從而解決上述問題。從Web發(fā)展所帶來的問題、Web日志挖掘的應(yīng)用以及Web日志挖掘模式發(fā)現(xiàn)這三個(gè)方面展開對Web日志挖掘的探析。論文關(guān)鍵詞：Web挖掘,Web日志挖掘Web起源于20世紀(jì)80年代，由位

2、于瑞士的歐洲量子物理實(shí)驗(yàn)室CERN（the European Laboratory for Particle Physics）所發(fā)展出來的一種主從結(jié)構(gòu)分布式超媒體系統(tǒng)。到20世紀(jì)90年代，Web技術(shù)有了突破性的進(jìn)展，從此迅速成長為全球范圍內(nèi)的信息寶庫，成為當(dāng)今信息時(shí)代人們獲取信息的一個(gè)重要途徑。如何從海量的Web數(shù)據(jù)中找到潛在的、有用的知識，以幫助用戶更快地獲取自己所需要的信息是一個(gè)新的挑戰(zhàn)，將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web日志可以有效地解決問題，這就是Web日志挖掘。Web日志挖掘是Web挖掘的一個(gè)重要分支。2. Web挖掘簡介Web挖掘是結(jié)合了Web和數(shù)據(jù)挖掘的一種技術(shù)，是數(shù)據(jù)挖掘技術(shù)在Web上

3、的應(yīng)用，它的出現(xiàn)使得從海量的Web信息中抽取潛在的、有用的模式和知識成為可能。因此，在已有的KDD (Knowledge Discovery in Database，數(shù)據(jù)庫中的知識發(fā)現(xiàn))方法和技術(shù)已不能滿足人們從Web中獲取知識的需要的情況下，O.Etzioni于1996年最早提出Web挖掘這個(gè)概念。圖1 Web挖掘的分類Web挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘，它比傳統(tǒng)的數(shù)據(jù)挖掘復(fù)雜和困難，要用到更多的有別于傳統(tǒng)數(shù)據(jù)挖掘的技術(shù)和方法，對傳統(tǒng)的挖掘方法進(jìn)行擴(kuò)展和改進(jìn)，將其應(yīng)用到Web信息上進(jìn)行挖掘，得到有用的知識。Web信息是Web挖掘的數(shù)據(jù)來源，典型的Web信息包括：Web頁面、Web結(jié)構(gòu)、Web日志

4、。Web挖掘相應(yīng)地分為三大類1：Web內(nèi)容挖掘（Web Content Mining）、Web結(jié)構(gòu)挖掘（Web Structure Mining)和Web使用挖掘(Web Usage Mining，Web日志挖掘），如圖1所示。3 Web日志挖掘探析3.1 Web發(fā)展帶來的問題及解決方法Web作為一個(gè)巨大的信息服務(wù)中心，為用戶提供了大量而豐富的信息資源，是人們生活中不可缺少的最重要的信息獲取手段。然而，Web資源不斷豐富的同時(shí)，Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜，從而會出現(xiàn)以下問題：（1）面對復(fù)雜的Web站點(diǎn)，用戶想快速地獲得自己所需要的資源比較費(fèi)勁，甚至不知道從何下手。（2）傳統(tǒng)的Web服務(wù)

5、缺乏智能性，只是為人們提供資源，對所有的用戶一視同仁，不能針對不同的用戶提供不同的服務(wù)，不能根據(jù)用戶的興趣為用戶尋找到他們所需要的信息等。（3）Web站點(diǎn)的經(jīng)營和管理者的設(shè)計(jì)工作變得困難，為了提高網(wǎng)站的聲譽(yù)和效益以吸引更多的用戶，他們會竭盡全力對站點(diǎn)進(jìn)行合理的設(shè)計(jì)或改進(jìn)，來優(yōu)化站點(diǎn)。這些問題使得用戶對Web服務(wù)提出了更高的要求。提供高質(zhì)量的Web服務(wù)的一個(gè)重要前提就是需要了解用戶的訪問行為，然后根據(jù)用戶訪問行為來推薦和提供服務(wù)，滿足不同層次、不同愛好的用戶的信息需求。了解用戶的訪問行為特性對提高Web站點(diǎn)的服務(wù)質(zhì)量尤其重要。但由于一個(gè)Web站點(diǎn)有大量的用戶對其進(jìn)行訪問，而這些用戶又分布在世界各

6、個(gè)不同的地區(qū)，直接去找用戶了解他們的興趣和特性不切實(shí)際，能夠有效地反應(yīng)用戶訪問Web站點(diǎn)行為的一種數(shù)據(jù)就是Web日志，它具有以下特點(diǎn)：（1）Web日志是一種大規(guī)模的數(shù)據(jù)，每個(gè)網(wǎng)站每天隨時(shí)都會有大量的不同的用戶進(jìn)行訪問，Web日志隨著時(shí)間的推移，數(shù)據(jù)會變得非常龐大。（2）Web日志具有豐富的內(nèi)涵，記錄了用戶的行為，包含決策可用的信息，是網(wǎng)站設(shè)計(jì)者和用戶進(jìn)行溝通的橋梁。傳統(tǒng)的數(shù)據(jù)庫技術(shù)對Web日志進(jìn)行處理沒有多大意義，因?yàn)椴恍枰M(jìn)行簡單的查詢或存取操作，真正需要的是對Web日志數(shù)據(jù)進(jìn)行深層次的處理，把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息，從中獲取隱藏在Web日志背后的知識。通過數(shù)據(jù)挖掘的方法對Web日志進(jìn)行分

7、析和處理，發(fā)現(xiàn)有關(guān)用戶訪問站點(diǎn)行為的知識，這就是Web日志挖掘?；赪eb日志的特點(diǎn)，可以看出Web日志是一種良好的數(shù)據(jù)挖掘?qū)ο?，對它進(jìn)行挖掘可以解決Web發(fā)展所帶來的問題，Web日志挖掘的產(chǎn)生成為必然。3.2 Web日志挖掘的應(yīng)用Web日志挖掘可以完成兩類任務(wù)：統(tǒng)計(jì)分析和智能分析。統(tǒng)計(jì)分析包括流量分析、廣告分析、網(wǎng)站出入口分析、用戶來源分析以及瀏覽器和平臺分析等。智能分析是進(jìn)行深層次的數(shù)據(jù)分析，通過數(shù)據(jù)挖掘的模式發(fā)現(xiàn)階段來實(shí)現(xiàn)，是具有重要意義的一類。Web日志挖掘得到的知識稱為用戶訪問模式，這些模式有著廣闊的應(yīng)用：（1）改進(jìn)Web服務(wù)器的性能。通過Web日志挖掘，可以提供網(wǎng)站服務(wù)效率全方位的

8、信息，提高系統(tǒng)效率和服務(wù)質(zhì)量，包括分析網(wǎng)站流量，發(fā)現(xiàn)系統(tǒng)性能瓶頸，找到平衡服務(wù)器負(fù)荷，優(yōu)化傳輸，減少擁塞，縮短用戶等待時(shí)間。（2）優(yōu)化Web站點(diǎn)的結(jié)構(gòu)。站點(diǎn)結(jié)構(gòu)描述了某Web站點(diǎn)的頁面以及頁面之間的關(guān)系。通常Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識設(shè)計(jì)Web頁面的結(jié)構(gòu)，而Web站點(diǎn)主要是為用戶提供服務(wù)，滿足用戶的需要。那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理？是否能夠吸引更多的用戶？這些問題的出現(xiàn)要根據(jù)用戶需要對站點(diǎn)進(jìn)行改進(jìn)，優(yōu)化站點(diǎn)。（3）實(shí)現(xiàn)Web個(gè)性化服務(wù)和自適應(yīng)站點(diǎn)。目前Web系統(tǒng)為所有用戶提供相同的服務(wù)，其典型的服務(wù)方式是通過建立一個(gè)Web站點(diǎn)來向所有用戶發(fā)布相同的信息。然而用戶的需求千差萬別，因此，

9、用戶希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個(gè)性化的服務(wù)。Web個(gè)性化實(shí)質(zhì)上就是一種以用戶需求為中心的Web服務(wù)。利用序列模式、頻繁訪問路徑等方法對站點(diǎn)訪問者的行為進(jìn)行預(yù)測和聚類，為他們提供具有類似瀏覽模式的用戶群體的個(gè)性化服務(wù)，更好地滿足用戶的需求。自適應(yīng)站點(diǎn)是指能根據(jù)用戶的訪問模式自動(dòng)學(xué)習(xí)和調(diào)整自身組織架構(gòu)的網(wǎng)站。通過觀察用戶的訪問模式自動(dòng)改進(jìn)站點(diǎn)的結(jié)構(gòu)和表現(xiàn)形式，以反映用戶的興趣所在。（4）商業(yè)智能發(fā)現(xiàn)。Web數(shù)據(jù)的商業(yè)智能發(fā)現(xiàn)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)以發(fā)現(xiàn)有商業(yè)價(jià)值的決策知識。通過加工處理涉及消費(fèi)行為的大量信息，確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣和消費(fèi)需求，進(jìn)而推斷出他們下一步的消費(fèi)行為，然后以此為基礎(chǔ)，對所識別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Web日志挖掘探析

文檔簡介

溫馨提示

最新文檔

評論

Web日志挖掘探析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔