下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Web日志挖掘探析摘要:Web資源不斷豐富的同時(shí),Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜,給用戶查找信息和網(wǎng)站設(shè)計(jì)人員的工作帶來了一定困難,傳統(tǒng)的Web站點(diǎn)缺乏智能性和主動(dòng)性,因此需要對Web站點(diǎn)進(jìn)行優(yōu)化以提供智能的Web服務(wù),如個(gè)性化服務(wù)、自適應(yīng)站點(diǎn)等,滿足不同用戶的信息需求,使用戶快速找到所需信息。Web日志挖掘能夠有效地發(fā)現(xiàn)用戶的訪問行為,為站點(diǎn)的建設(shè)和改進(jìn)提供有力依據(jù),實(shí)現(xiàn)Web站點(diǎn)的智能化,從而解決上述問題。從Web發(fā)展所帶來的問題、Web日志挖掘的應(yīng)用以及Web日志挖掘模式發(fā)現(xiàn)這三個(gè)方面展開對Web日志挖掘的探析。論文關(guān)鍵詞:Web挖掘,Web日志挖掘Web起源于20世紀(jì)80年代,由位
2、于瑞士的歐洲量子物理實(shí)驗(yàn)室CERN(the European Laboratory for Particle Physics)所發(fā)展出來的一種主從結(jié)構(gòu)分布式超媒體系統(tǒng)。到20世紀(jì)90年代,Web技術(shù)有了突破性的進(jìn)展,從此迅速成長為全球范圍內(nèi)的信息寶庫,成為當(dāng)今信息時(shí)代人們獲取信息的一個(gè)重要途徑。如何從海量的Web數(shù)據(jù)中找到潛在的、有用的知識,以幫助用戶更快地獲取自己所需要的信息是一個(gè)新的挑戰(zhàn),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web日志可以有效地解決問題,這就是Web日志挖掘。Web日志挖掘是Web挖掘的一個(gè)重要分支。2. Web挖掘簡介Web挖掘是結(jié)合了Web和數(shù)據(jù)挖掘的一種技術(shù),是數(shù)據(jù)挖掘技術(shù)在Web上
3、的應(yīng)用,它的出現(xiàn)使得從海量的Web信息中抽取潛在的、有用的模式和知識成為可能。因此,在已有的KDD (Knowledge Discovery in Database,數(shù)據(jù)庫中的知識發(fā)現(xiàn))方法和技術(shù)已不能滿足人們從Web中獲取知識的需要的情況下,O.Etzioni于1996年最早提出Web挖掘這個(gè)概念。圖1 Web挖掘的分類Web挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘,它比傳統(tǒng)的數(shù)據(jù)挖掘復(fù)雜和困難,要用到更多的有別于傳統(tǒng)數(shù)據(jù)挖掘的技術(shù)和方法,對傳統(tǒng)的挖掘方法進(jìn)行擴(kuò)展和改進(jìn),將其應(yīng)用到Web信息上進(jìn)行挖掘,得到有用的知識。Web信息是Web挖掘的數(shù)據(jù)來源,典型的Web信息包括:Web頁面、Web結(jié)構(gòu)、Web日志
4、。Web挖掘相應(yīng)地分為三大類1:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining,Web日志挖掘),如圖1所示。3 Web日志挖掘探析3.1 Web發(fā)展帶來的問題及解決方法Web作為一個(gè)巨大的信息服務(wù)中心,為用戶提供了大量而豐富的信息資源,是人們生活中不可缺少的最重要的信息獲取手段。然而,Web資源不斷豐富的同時(shí),Web站點(diǎn)的結(jié)構(gòu)也將變得越來越復(fù)雜,從而會出現(xiàn)以下問題:(1)面對復(fù)雜的Web站點(diǎn),用戶想快速地獲得自己所需要的資源比較費(fèi)勁,甚至不知道從何下手。(2)傳統(tǒng)的Web服務(wù)
5、缺乏智能性,只是為人們提供資源,對所有的用戶一視同仁,不能針對不同的用戶提供不同的服務(wù),不能根據(jù)用戶的興趣為用戶尋找到他們所需要的信息等。(3)Web站點(diǎn)的經(jīng)營和管理者的設(shè)計(jì)工作變得困難,為了提高網(wǎng)站的聲譽(yù)和效益以吸引更多的用戶,他們會竭盡全力對站點(diǎn)進(jìn)行合理的設(shè)計(jì)或改進(jìn),來優(yōu)化站點(diǎn)。這些問題使得用戶對Web服務(wù)提出了更高的要求。提供高質(zhì)量的Web服務(wù)的一個(gè)重要前提就是需要了解用戶的訪問行為,然后根據(jù)用戶訪問行為來推薦和提供服務(wù),滿足不同層次、不同愛好的用戶的信息需求。了解用戶的訪問行為特性對提高Web站點(diǎn)的服務(wù)質(zhì)量尤其重要。但由于一個(gè)Web站點(diǎn)有大量的用戶對其進(jìn)行訪問,而這些用戶又分布在世界各
6、個(gè)不同的地區(qū),直接去找用戶了解他們的興趣和特性不切實(shí)際,能夠有效地反應(yīng)用戶訪問Web站點(diǎn)行為的一種數(shù)據(jù)就是Web日志,它具有以下特點(diǎn):(1)Web日志是一種大規(guī)模的數(shù)據(jù),每個(gè)網(wǎng)站每天隨時(shí)都會有大量的不同的用戶進(jìn)行訪問,Web日志隨著時(shí)間的推移,數(shù)據(jù)會變得非常龐大。(2)Web日志具有豐富的內(nèi)涵,記錄了用戶的行為,包含決策可用的信息,是網(wǎng)站設(shè)計(jì)者和用戶進(jìn)行溝通的橋梁。傳統(tǒng)的數(shù)據(jù)庫技術(shù)對Web日志進(jìn)行處理沒有多大意義,因?yàn)椴恍枰M(jìn)行簡單的查詢或存取操作,真正需要的是對Web日志數(shù)據(jù)進(jìn)行深層次的處理,把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,從中獲取隱藏在Web日志背后的知識。通過數(shù)據(jù)挖掘的方法對Web日志進(jìn)行分
7、析和處理,發(fā)現(xiàn)有關(guān)用戶訪問站點(diǎn)行為的知識,這就是Web日志挖掘?;赪eb日志的特點(diǎn),可以看出Web日志是一種良好的數(shù)據(jù)挖掘?qū)ο?,對它進(jìn)行挖掘可以解決Web發(fā)展所帶來的問題,Web日志挖掘的產(chǎn)生成為必然。3.2 Web日志挖掘的應(yīng)用Web日志挖掘可以完成兩類任務(wù):統(tǒng)計(jì)分析和智能分析。統(tǒng)計(jì)分析包括流量分析、廣告分析、網(wǎng)站出入口分析、用戶來源分析以及瀏覽器和平臺分析等。智能分析是進(jìn)行深層次的數(shù)據(jù)分析,通過數(shù)據(jù)挖掘的模式發(fā)現(xiàn)階段來實(shí)現(xiàn),是具有重要意義的一類。Web日志挖掘得到的知識稱為用戶訪問模式,這些模式有著廣闊的應(yīng)用:(1)改進(jìn)Web服務(wù)器的性能。通過Web日志挖掘,可以提供網(wǎng)站服務(wù)效率全方位的
8、信息,提高系統(tǒng)效率和服務(wù)質(zhì)量,包括分析網(wǎng)站流量,發(fā)現(xiàn)系統(tǒng)性能瓶頸,找到平衡服務(wù)器負(fù)荷,優(yōu)化傳輸,減少擁塞,縮短用戶等待時(shí)間。(2)優(yōu)化Web站點(diǎn)的結(jié)構(gòu)。站點(diǎn)結(jié)構(gòu)描述了某Web站點(diǎn)的頁面以及頁面之間的關(guān)系。通常Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識設(shè)計(jì)Web頁面的結(jié)構(gòu),而Web站點(diǎn)主要是為用戶提供服務(wù),滿足用戶的需要。那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理?是否能夠吸引更多的用戶?這些問題的出現(xiàn)要根據(jù)用戶需要對站點(diǎn)進(jìn)行改進(jìn),優(yōu)化站點(diǎn)。(3)實(shí)現(xiàn)Web個(gè)性化服務(wù)和自適應(yīng)站點(diǎn)。目前Web系統(tǒng)為所有用戶提供相同的服務(wù),其典型的服務(wù)方式是通過建立一個(gè)Web站點(diǎn)來向所有用戶發(fā)布相同的信息。然而用戶的需求千差萬別,因此,
9、用戶希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個(gè)性化的服務(wù)。Web個(gè)性化實(shí)質(zhì)上就是一種以用戶需求為中心的Web服務(wù)。利用序列模式、頻繁訪問路徑等方法對站點(diǎn)訪問者的行為進(jìn)行預(yù)測和聚類,為他們提供具有類似瀏覽模式的用戶群體的個(gè)性化服務(wù),更好地滿足用戶的需求。自適應(yīng)站點(diǎn)是指能根據(jù)用戶的訪問模式自動(dòng)學(xué)習(xí)和調(diào)整自身組織架構(gòu)的網(wǎng)站。通過觀察用戶的訪問模式自動(dòng)改進(jìn)站點(diǎn)的結(jié)構(gòu)和表現(xiàn)形式,以反映用戶的興趣所在。(4)商業(yè)智能發(fā)現(xiàn)。Web數(shù)據(jù)的商業(yè)智能發(fā)現(xiàn)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)以發(fā)現(xiàn)有商業(yè)價(jià)值的決策知識。通過加工處理涉及消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣和消費(fèi)需求,進(jìn)而推斷出他們下一步的消費(fèi)行為,然后以此為基礎(chǔ),對所識別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教學(xué)研究:三角形分類教案的發(fā)展趨勢(2024年)
- 北京大學(xué)2024年有機(jī)化學(xué)教案:實(shí)現(xiàn)教學(xué)個(gè)性化
- 2024年教案設(shè)計(jì)新趨勢:以《2小毛蟲》為例
- 《假設(shè)檢驗(yàn)完全》課件
- 《銷售課題模板》課件
- 《千人糕》課件在遠(yuǎn)程教育中的趣味實(shí)踐:2024年新視角
- 2024年教育扶貧:利用《最佳路徑》課件提高教育資源分配
- 家庭教育指導(dǎo)師試卷及答案
- 2024高考地理一輪復(fù)習(xí)課時(shí)規(guī)范練44中國地理分區(qū)含解析湘教版
- 2025屆高考物理一輪復(fù)習(xí)第十章電磁感應(yīng)第一節(jié)磁通量電磁感應(yīng)現(xiàn)象和楞次定律學(xué)案新人教版
- 2024屆重慶市永川區(qū)物理高一第一學(xué)期期中質(zhì)量檢測試題含解析
- 傳統(tǒng)節(jié)日文化在幼兒園課程中的應(yīng)用研究 論文
- 瀝青改色路面修補(bǔ)施工方案
- 香菇種植示范基地項(xiàng)目可行性策劃實(shí)施方案
- 混凝土硫酸鹽侵蝕基本機(jī)理研究
- 《機(jī)械設(shè)計(jì)基礎(chǔ)A》機(jī)械電子 教學(xué)大綱
- 水工巖石分級及圍巖分類
- 基因擴(kuò)增實(shí)驗(yàn)室常用儀器使用課件
- 斜井敷設(shè)電纜措施
- 施工機(jī)械設(shè)備租賃實(shí)施方案
- 牙膏產(chǎn)品知識課件
評論
0/150
提交評論