Web日志挖掘探析_第1頁
Web日志挖掘探析_第2頁
Web日志挖掘探析_第3頁
Web日志挖掘探析_第4頁
Web日志挖掘探析_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Web日志挖掘探析摘要:Web資源不斷豐富的同時(shí),Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜,給用戶查找信息和網(wǎng)站設(shè)計(jì)人員的工作帶來了一定困難,傳統(tǒng)的Web站點(diǎn)缺乏智能性和主動(dòng)性,因此需要對Web站點(diǎn)進(jìn)行優(yōu)化以提供智能的Web服務(wù),如個(gè)性化服務(wù)、自適應(yīng)站點(diǎn)等,滿足不同用戶的信息需求,使用戶快速找到所需信息。Web日志挖掘能夠有效地發(fā)現(xiàn)用戶的訪問行為,為站點(diǎn)的建設(shè)和改進(jìn)提供有力依據(jù),實(shí)現(xiàn)Web站點(diǎn)的智能化,從而解決上述問題。從Web發(fā)展所帶來的問題、Web日志挖掘的應(yīng)用以及Web日志挖掘模式發(fā)現(xiàn)這三個(gè)方面展開對Web日志挖掘的探析。論文關(guān)鍵詞:Web挖掘,Web日志挖掘Web起源于20世紀(jì)80年代,由位

2、于瑞士的歐洲量子物理實(shí)驗(yàn)室CERN(the European Laboratory for Particle Physics)所發(fā)展出來的一種主從結(jié)構(gòu)分布式超媒體系統(tǒng)。到20世紀(jì)90年代,Web技術(shù)有了突破性的進(jìn)展,從此迅速成長為全球范圍內(nèi)的信息寶庫,成為當(dāng)今信息時(shí)代人們獲取信息的一個(gè)重要途徑。如何從海量的Web數(shù)據(jù)中找到潛在的、有用的知識,以幫助用戶更快地獲取自己所需要的信息是一個(gè)新的挑戰(zhàn),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web日志可以有效地解決問題,這就是Web日志挖掘。Web日志挖掘是Web挖掘的一個(gè)重要分支。2. Web挖掘簡介Web挖掘是結(jié)合了Web和數(shù)據(jù)挖掘的一種技術(shù),是數(shù)據(jù)挖掘技術(shù)在Web上

3、的應(yīng)用,它的出現(xiàn)使得從海量的Web信息中抽取潛在的、有用的模式和知識成為可能。因此,在已有的KDD (Knowledge Discovery in Database,數(shù)據(jù)庫中的知識發(fā)現(xiàn))方法和技術(shù)已不能滿足人們從Web中獲取知識的需要的情況下,O.Etzioni于1996年最早提出Web挖掘這個(gè)概念。圖1 Web挖掘的分類Web挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘,它比傳統(tǒng)的數(shù)據(jù)挖掘復(fù)雜和困難,要用到更多的有別于傳統(tǒng)數(shù)據(jù)挖掘的技術(shù)和方法,對傳統(tǒng)的挖掘方法進(jìn)行擴(kuò)展和改進(jìn),將其應(yīng)用到Web信息上進(jìn)行挖掘,得到有用的知識。Web信息是Web挖掘的數(shù)據(jù)來源,典型的Web信息包括:Web頁面、Web結(jié)構(gòu)、Web日志

4、。Web挖掘相應(yīng)地分為三大類1:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining,Web日志挖掘),如圖1所示。3 Web日志挖掘探析3.1 Web發(fā)展帶來的問題及解決方法Web作為一個(gè)巨大的信息服務(wù)中心,為用戶提供了大量而豐富的信息資源,是人們生活中不可缺少的最重要的信息獲取手段。然而,Web資源不斷豐富的同時(shí),Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜,從而會出現(xiàn)以下問題:(1)面對復(fù)雜的Web站點(diǎn),用戶想快速地獲得自己所需要的資源比較費(fèi)勁,甚至不知道從何下手。(2)傳統(tǒng)的Web服務(wù)

5、缺乏智能性,只是為人們提供資源,對所有的用戶一視同仁,不能針對不同的用戶提供不同的服務(wù),不能根據(jù)用戶的興趣為用戶尋找到他們所需要的信息等。(3)Web站點(diǎn)的經(jīng)營和管理者的設(shè)計(jì)工作變得困難,為了提高網(wǎng)站的聲譽(yù)和效益以吸引更多的用戶,他們會竭盡全力對站點(diǎn)進(jìn)行合理的設(shè)計(jì)或改進(jìn),來優(yōu)化站點(diǎn)。這些問題使得用戶對Web服務(wù)提出了更高的要求。提供高質(zhì)量的Web服務(wù)的一個(gè)重要前提就是需要了解用戶的訪問行為,然后根據(jù)用戶訪問行為來推薦和提供服務(wù),滿足不同層次、不同愛好的用戶的信息需求。了解用戶的訪問行為特性對提高Web站點(diǎn)的服務(wù)質(zhì)量尤其重要。但由于一個(gè)Web站點(diǎn)有大量的用戶對其進(jìn)行訪問,而這些用戶又分布在世界各

6、個(gè)不同的地區(qū),直接去找用戶了解他們的興趣和特性不切實(shí)際,能夠有效地反應(yīng)用戶訪問Web站點(diǎn)行為的一種數(shù)據(jù)就是Web日志,它具有以下特點(diǎn):(1)Web日志是一種大規(guī)模的數(shù)據(jù),每個(gè)網(wǎng)站每天隨時(shí)都會有大量的不同的用戶進(jìn)行訪問,Web日志隨著時(shí)間的推移,數(shù)據(jù)會變得非常龐大。(2)Web日志具有豐富的內(nèi)涵,記錄了用戶的行為,包含決策可用的信息,是網(wǎng)站設(shè)計(jì)者和用戶進(jìn)行溝通的橋梁。傳統(tǒng)的數(shù)據(jù)庫技術(shù)對Web日志進(jìn)行處理沒有多大意義,因?yàn)椴恍枰M(jìn)行簡單的查詢或存取操作,真正需要的是對Web日志數(shù)據(jù)進(jìn)行深層次的處理,把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,從中獲取隱藏在Web日志背后的知識。通過數(shù)據(jù)挖掘的方法對Web日志進(jìn)行分

7、析和處理,發(fā)現(xiàn)有關(guān)用戶訪問站點(diǎn)行為的知識,這就是Web日志挖掘?;赪eb日志的特點(diǎn),可以看出Web日志是一種良好的數(shù)據(jù)挖掘?qū)ο?,對它進(jìn)行挖掘可以解決Web發(fā)展所帶來的問題,Web日志挖掘的產(chǎn)生成為必然。3.2 Web日志挖掘的應(yīng)用Web日志挖掘可以完成兩類任務(wù):統(tǒng)計(jì)分析和智能分析。統(tǒng)計(jì)分析包括流量分析、廣告分析、網(wǎng)站出入口分析、用戶來源分析以及瀏覽器和平臺分析等。智能分析是進(jìn)行深層次的數(shù)據(jù)分析,通過數(shù)據(jù)挖掘的模式發(fā)現(xiàn)階段來實(shí)現(xiàn),是具有重要意義的一類。Web日志挖掘得到的知識稱為用戶訪問模式,這些模式有著廣闊的應(yīng)用:(1)改進(jìn)Web服務(wù)器的性能。通過Web日志挖掘,可以提供網(wǎng)站服務(wù)效率全方位的

8、信息,提高系統(tǒng)效率和服務(wù)質(zhì)量,包括分析網(wǎng)站流量,發(fā)現(xiàn)系統(tǒng)性能瓶頸,找到平衡服務(wù)器負(fù)荷,優(yōu)化傳輸,減少擁塞,縮短用戶等待時(shí)間。(2)優(yōu)化Web站點(diǎn)的結(jié)構(gòu)。站點(diǎn)結(jié)構(gòu)描述了某Web站點(diǎn)的頁面以及頁面之間的關(guān)系。通常Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識設(shè)計(jì)Web頁面的結(jié)構(gòu),而Web站點(diǎn)主要是為用戶提供服務(wù),滿足用戶的需要。那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理?是否能夠吸引更多的用戶?這些問題的出現(xiàn)要根據(jù)用戶需要對站點(diǎn)進(jìn)行改進(jìn),優(yōu)化站點(diǎn)。(3)實(shí)現(xiàn)Web個(gè)性化服務(wù)和自適應(yīng)站點(diǎn)。目前Web系統(tǒng)為所有用戶提供相同的服務(wù),其典型的服務(wù)方式是通過建立一個(gè)Web站點(diǎn)來向所有用戶發(fā)布相同的信息。然而用戶的需求千差萬別,因此,

9、用戶希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個(gè)性化的服務(wù)。Web個(gè)性化實(shí)質(zhì)上就是一種以用戶需求為中心的Web服務(wù)。利用序列模式、頻繁訪問路徑等方法對站點(diǎn)訪問者的行為進(jìn)行預(yù)測和聚類,為他們提供具有類似瀏覽模式的用戶群體的個(gè)性化服務(wù),更好地滿足用戶的需求。自適應(yīng)站點(diǎn)是指能根據(jù)用戶的訪問模式自動(dòng)學(xué)習(xí)和調(diào)整自身組織架構(gòu)的網(wǎng)站。通過觀察用戶的訪問模式自動(dòng)改進(jìn)站點(diǎn)的結(jié)構(gòu)和表現(xiàn)形式,以反映用戶的興趣所在。(4)商業(yè)智能發(fā)現(xiàn)。Web數(shù)據(jù)的商業(yè)智能發(fā)現(xiàn)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)以發(fā)現(xiàn)有商業(yè)價(jià)值的決策知識。通過加工處理涉及消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣和消費(fèi)需求,進(jìn)而推斷出他們下一步的消費(fèi)行為,然后以此為基礎(chǔ),對所識別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論