第七章Web挖掘技術(shù)ppt課件_第1頁
第七章Web挖掘技術(shù)ppt課件_第2頁
第七章Web挖掘技術(shù)ppt課件_第3頁
第七章Web挖掘技術(shù)ppt課件_第4頁
第七章Web挖掘技術(shù)ppt課件_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)發(fā)掘原理與算法數(shù)據(jù)發(fā)掘原理與算法第七章第七章 WebWeb發(fā)掘技術(shù)發(fā)掘技術(shù)第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法7.1 Web發(fā)掘的意義發(fā)掘的意義v 從大量的信息中發(fā)現(xiàn)用戶感興趣的信息從大量的信息中發(fā)現(xiàn)用戶感興趣的信息 :因特網(wǎng)上蘊(yùn)藏:因特網(wǎng)上蘊(yùn)藏著大量的信息著大量的信息v 經(jīng)過簡單的閱讀或關(guān)鍵詞匹配的搜索引擎得

2、到的是孤立而經(jīng)過簡單的閱讀或關(guān)鍵詞匹配的搜索引擎得到的是孤立而混亂的混亂的“外表信息外表信息 v Web發(fā)掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。發(fā)掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。7.1 Web發(fā)掘的意義發(fā)掘的意義v 將Web上的豐富信息轉(zhuǎn)變成有用的知識(shí):v Web發(fā)掘是面向Web數(shù)據(jù)進(jìn)展分析和知識(shí)提取的。v 因特網(wǎng)中頁面內(nèi)部、頁面間、頁面鏈接、頁面訪問等都包含大量對(duì)用戶可用的信息,v 而這些信息的深層次含義是很難被用戶直接運(yùn)用的,必需經(jīng)過濃縮和提煉。7.1 Web發(fā)掘的意義發(fā)掘的意義v 對(duì)用戶進(jìn)展信息個(gè)性化:v 網(wǎng)站信息的個(gè)性化是未來的開展趨勢v 經(jīng)過Web發(fā)掘,可以到達(dá)對(duì)用戶訪問行為、頻度、內(nèi)

3、容等的分析v 可以得到關(guān)于群體用戶訪問行為和方式的普遍知識(shí),用以改良Web效力方的設(shè)計(jì),提供個(gè)性化的效力 第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法7.2 Web發(fā)掘的分類發(fā)掘的分類vWeb發(fā)掘依托它所發(fā)掘的信息來源可以分為:發(fā)掘依托它所發(fā)掘的信息來源可以分為:vWeb內(nèi)容發(fā)掘內(nèi)容發(fā)掘Web Content Mining

4、:v對(duì)站點(diǎn)的對(duì)站點(diǎn)的Web頁面的各類信息進(jìn)展集成、概化、頁面的各類信息進(jìn)展集成、概化、分類等,發(fā)掘某類信息所蘊(yùn)含的知識(shí)方式。分類等,發(fā)掘某類信息所蘊(yùn)含的知識(shí)方式。 7.2 Web發(fā)掘的分類發(fā)掘的分類vWeb發(fā)掘依托它所發(fā)掘的信息來源可以分為:發(fā)掘依托它所發(fā)掘的信息來源可以分為:vWeb訪問信息發(fā)掘訪問信息發(fā)掘Web Usage Mining:vWeb訪問信息發(fā)掘是對(duì)用戶訪問訪問信息發(fā)掘是對(duì)用戶訪問Web時(shí)在效力器時(shí)在效力器方留下的訪問記錄進(jìn)展發(fā)掘。方留下的訪問記錄進(jìn)展發(fā)掘。v經(jīng)過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠經(jīng)過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、稱心度,可以發(fā)現(xiàn)潛在用戶

5、,加強(qiáng)實(shí)度、喜好、稱心度,可以發(fā)現(xiàn)潛在用戶,加強(qiáng)站點(diǎn)的效力競爭力。站點(diǎn)的效力競爭力。7.2 Web發(fā)掘的分類發(fā)掘的分類vWeb發(fā)掘依托它所發(fā)掘的信息來源可以分為:發(fā)掘依托它所發(fā)掘的信息來源可以分為:vWeb構(gòu)造發(fā)掘構(gòu)造發(fā)掘Web Structure Mining:vWeb構(gòu)造發(fā)掘是對(duì)構(gòu)造發(fā)掘是對(duì)Web頁面之間的鏈接構(gòu)造進(jìn)展頁面之間的鏈接構(gòu)造進(jìn)展發(fā)掘。在整個(gè)發(fā)掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含空間里,有用的知識(shí)不僅包含在在Web頁面的內(nèi)容之中,而且也包含在頁面的鏈頁面的內(nèi)容之中,而且也包含在頁面的鏈接構(gòu)造之中。接構(gòu)造之中。v對(duì)于給定的對(duì)于給定的Web頁面集合,經(jīng)過構(gòu)造發(fā)掘可以發(fā)頁面集合,

6、經(jīng)過構(gòu)造發(fā)掘可以發(fā)現(xiàn)頁面之間的關(guān)聯(lián)信息,頁面之間的包含、援用現(xiàn)頁面之間的關(guān)聯(lián)信息,頁面之間的包含、援用或者從屬關(guān)系等?;蛘邚膶訇P(guān)系等。第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法Web發(fā)掘的含義發(fā)掘的含義vWeB發(fā)掘是一個(gè)看廣泛的概念,可以簡單地描畫發(fā)掘是一個(gè)看廣泛的概念,可以簡單地描畫為:為:v針對(duì)包括針對(duì)包括Web頁面

7、內(nèi)容、頁面之間的構(gòu)造、用戶頁面內(nèi)容、頁面之間的構(gòu)造、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù)數(shù)據(jù)v運(yùn)用數(shù)據(jù)發(fā)掘方法以協(xié)助人們從因特網(wǎng)中提取知運(yùn)用數(shù)據(jù)發(fā)掘方法以協(xié)助人們從因特網(wǎng)中提取知識(shí),為訪問者、站點(diǎn)運(yùn)營者以及包括電子商務(wù)在識(shí),為訪問者、站點(diǎn)運(yùn)營者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。 Web發(fā)掘與信息檢索發(fā)掘與信息檢索v兩種截然不同的觀念:兩種截然不同的觀念:vWeb上的信息檢索是上的信息檢索是Web發(fā)掘的一個(gè)方面:發(fā)掘的一個(gè)方面:Web發(fā)掘旨在處理信息檢索、知識(shí)抽取以及更廣泛的發(fā)掘旨在處理信息

8、檢索、知識(shí)抽取以及更廣泛的商業(yè)問題,是商業(yè)問題,是Web上上IR技術(shù)的延伸。這種觀念大技術(shù)的延伸。這種觀念大多來自于數(shù)據(jù)發(fā)掘研討領(lǐng)域。多來自于數(shù)據(jù)發(fā)掘研討領(lǐng)域。vWeb發(fā)掘是智能化的信息檢索:對(duì)于發(fā)掘是智能化的信息檢索:對(duì)于IR領(lǐng)域的研領(lǐng)域的研討人員來說,討人員來說, Web發(fā)掘是發(fā)掘是IR研討向著智能化的方研討向著智能化的方向開展的結(jié)果。向開展的結(jié)果。Web發(fā)掘與信息檢索發(fā)掘與信息檢索v信息檢索能夠經(jīng)常被說成是Web發(fā)掘的初級(jí)階段 v是為了強(qiáng)調(diào)Web發(fā)掘不是簡單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過程,它可以支持更高級(jí)的商業(yè)決策和分析。 Web發(fā)掘與信息抽取vWeb上的上的I

9、E的研討目的是希望從眾多的的研討目的是希望從眾多的Web文擋文擋中抽取可供分析的信息,與中抽取可供分析的信息,與Web發(fā)掘的關(guān)系也有發(fā)掘的關(guān)系也有不同的觀念:不同的觀念:vIE是是Web發(fā)掘整個(gè)過程的一部分:這是由于發(fā)掘整個(gè)過程的一部分:這是由于Web上的數(shù)據(jù)普通是半構(gòu)造化或無構(gòu)造的,因此需求上的數(shù)據(jù)普通是半構(gòu)造化或無構(gòu)造的,因此需求進(jìn)展規(guī)格化的信息抽取這樣的預(yù)處置。進(jìn)展規(guī)格化的信息抽取這樣的預(yù)處置。vWeb發(fā)掘是發(fā)掘是IE的一個(gè)特殊技術(shù):既然的一個(gè)特殊技術(shù):既然IE是希望把是希望把Web蘊(yùn)藏的信息抽取出來,那么蘊(yùn)藏的信息抽取出來,那么Web發(fā)掘或者文發(fā)掘或者文本發(fā)掘只不過是到達(dá)這個(gè)目的的特殊

10、技術(shù)手段。本發(fā)掘只不過是到達(dá)這個(gè)目的的特殊技術(shù)手段。Web發(fā)掘與信息抽取v信息抽取經(jīng)常被說成是Web發(fā)掘的一個(gè)預(yù)處置階段,那是由于在數(shù)據(jù)發(fā)掘領(lǐng)域,Web發(fā)掘的更廣義的了解應(yīng)該是一個(gè)知識(shí)提取的完好過程。 第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法Web發(fā)掘的主要數(shù)據(jù)源發(fā)掘的主要數(shù)據(jù)源vWeb發(fā)掘的數(shù)據(jù)來源是廣泛的:凡是在發(fā)

11、掘的數(shù)據(jù)來源是廣泛的:凡是在Web站點(diǎn)站點(diǎn)中對(duì)用戶有價(jià)值的數(shù)據(jù)都可以成為它發(fā)掘的數(shù)據(jù)中對(duì)用戶有價(jià)值的數(shù)據(jù)都可以成為它發(fā)掘的數(shù)據(jù)源。源。v由于這些對(duì)象的數(shù)據(jù)方式及含義的差別,其發(fā)掘由于這些對(duì)象的數(shù)據(jù)方式及含義的差別,其發(fā)掘技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有:技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有:v效力器日志數(shù)據(jù):效力器日志數(shù)據(jù):Web訪問信息發(fā)掘的主要數(shù)據(jù)訪問信息發(fā)掘的主要數(shù)據(jù)源。源。效力器日志數(shù)據(jù)效力器日志數(shù)據(jù)v 對(duì)對(duì)Web效力器的訪問,效力器方將會(huì)產(chǎn)生效力器的訪問,效力器方將會(huì)產(chǎn)生3種類型的日志種類型的日志文件:文件:v Server logs:記錄用戶的訪問時(shí)間、:記錄用戶的訪問時(shí)間

12、、IP地址以及懇求等地址以及懇求等信息。信息。v Error logs:存取懇求失敗的數(shù)據(jù),例如喪失銜接、授權(quán):存取懇求失敗的數(shù)據(jù),例如喪失銜接、授權(quán)失敗或超時(shí)等失敗或超時(shí)等 v Cookie logs:Cookie是由是由web效力器產(chǎn)生的記號(hào)并由客效力器產(chǎn)生的記號(hào)并由客戶端持有,用于識(shí)別用戶和用戶的會(huì)話。戶端持有,用于識(shí)別用戶和用戶的會(huì)話。 FieldDescriptionDateDate, time, and timezone of requestClient IPRemote host IP and / or DNS entryUser nameRemote log name of t

13、he userBytesBytes transferred (sent and received)ServerServer name, IP address and portRequestURI query and stemStatus status code returned to the clientService name Requested service nameTime takenTime taken for transaction to completeProtocol versionVersion of used transfer protocolUser agentServi

14、ce providerCookieCookie IDReferrerPrevious pageServer logs的的一個(gè)格式表示一個(gè)格式表示在線市場數(shù)據(jù)v 在線市場數(shù)據(jù)是指和市場活動(dòng)相關(guān)的信息。例如一個(gè)電子商務(wù)站點(diǎn),存儲(chǔ)相關(guān)的電子商務(wù)信息。v 從內(nèi)容上說,不同目的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系數(shù)據(jù)庫構(gòu)造來存儲(chǔ)數(shù)據(jù)。v 在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)展業(yè)務(wù)相關(guān)分析的主體。用戶的發(fā)掘目的只需結(jié)合在線市場數(shù)據(jù)分析才干到達(dá)目的。Web頁面vWeb頁面是網(wǎng)站信息的主體,但是它們的主要信息不能夠像關(guān)系型數(shù)據(jù)庫那樣規(guī)整,因此Web頁面的內(nèi)容組織方式的分析是研討Web發(fā)掘的詳細(xì)方

15、法的根底。v目前的Web頁面大多滿足HTML規(guī)范,現(xiàn)有的Web發(fā)掘方法大多是針對(duì)Web頁面開展的。Web頁面v 2 0 1 9 年 W W W 社 團(tuán) 提 出 了 X M L 言 語 規(guī) 范eXtensible Markup Language。v 該規(guī)范經(jīng)過把一些描畫頁面內(nèi)容的標(biāo)志tag添加到HTML頁面中,用于對(duì)HTML頁面內(nèi)容進(jìn)展自描畫。第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)

16、掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法Web內(nèi)容發(fā)掘的主要方法內(nèi)容發(fā)掘的主要方法v一種一種Web內(nèi)容發(fā)掘的分類方法是分為代理人方法內(nèi)容發(fā)掘的分類方法是分為代理人方法和數(shù)據(jù)庫方法。和數(shù)據(jù)庫方法。v代理人方法運(yùn)用軟件系統(tǒng)代理來完成內(nèi)容發(fā)代理人方法運(yùn)用軟件系統(tǒng)代理來完成內(nèi)容發(fā)掘。例如,掘。例如,v智能檢索代理超越了簡單的檢索機(jī)制運(yùn)用經(jīng)過關(guān)智能檢索代理超越了簡單的檢索機(jī)制運(yùn)用經(jīng)過關(guān)鍵詞之外的技術(shù)來完成檢索,可以利用用戶模版鍵詞之外的技術(shù)來完成檢索,可以利用用戶模版或其關(guān)懷的知識(shí)領(lǐng)域等來實(shí)現(xiàn)信息的抽取?;蚱潢P(guān)懷的知識(shí)領(lǐng)域等來實(shí)現(xiàn)信息的抽取。v信息過濾利用信息檢索技術(shù)、銜接構(gòu)造的

17、知識(shí)和信息過濾利用信息檢索技術(shù)、銜接構(gòu)造的知識(shí)和其他方法來分析和分類文檔。其他方法來分析和分類文檔。v個(gè)性化個(gè)性化Web代理運(yùn)用有關(guān)用戶的喜好的信息來指代理運(yùn)用有關(guān)用戶的喜好的信息來指點(diǎn)它們的檢索。點(diǎn)它們的檢索。Web內(nèi)容發(fā)掘的主要方法內(nèi)容發(fā)掘的主要方法v一種一種Web內(nèi)容發(fā)掘的分類方法是分為代理人方法內(nèi)容發(fā)掘的分類方法是分為代理人方法和數(shù)據(jù)庫方法。和數(shù)據(jù)庫方法。v數(shù)據(jù)庫方法將一切的數(shù)據(jù)庫方法將一切的Web數(shù)據(jù)描畫為一個(gè)數(shù)據(jù)庫數(shù)據(jù)描畫為一個(gè)數(shù)據(jù)庫系統(tǒng)。系統(tǒng)。v意味著意味著Web是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫系統(tǒng),可是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫系統(tǒng),可以經(jīng)過多種查詢言語來獲得以經(jīng)過多種查詢言語來獲得Web

18、的信息來完成信的信息來完成信息的抽取。息的抽取。文本發(fā)掘是文本發(fā)掘是Web內(nèi)容發(fā)掘的根底內(nèi)容發(fā)掘的根底v 文本發(fā)掘文本發(fā)掘TD的方式和目的的方式和目的是多種多樣的,根本層次有:是多種多樣的,根本層次有:v 關(guān)鍵詞檢索:最簡單的方式,關(guān)鍵詞檢索:最簡單的方式,它和傳統(tǒng)的搜索技術(shù)類似。它和傳統(tǒng)的搜索技術(shù)類似。v 發(fā)掘工程關(guān)聯(lián):聚焦在頁面的發(fā)掘工程關(guān)聯(lián):聚焦在頁面的信息包括關(guān)鍵詞之間的關(guān)信息包括關(guān)鍵詞之間的關(guān)聯(lián)信息發(fā)掘上。聯(lián)信息發(fā)掘上。v 信息分類和聚類:利用數(shù)據(jù)發(fā)信息分類和聚類:利用數(shù)據(jù)發(fā)掘的分類和聚類技術(shù)實(shí)現(xiàn)頁面掘的分類和聚類技術(shù)實(shí)現(xiàn)頁面的分類,將頁面在一個(gè)更到層的分類,將頁面在一個(gè)更到層次上進(jìn)

19、展籠統(tǒng)和整理。次上進(jìn)展籠統(tǒng)和整理。v 自然言語處置:提示自然言語自然言語處置:提示自然言語處置技術(shù)中的語義,實(shí)現(xiàn)處置技術(shù)中的語義,實(shí)現(xiàn)Web內(nèi)容的更準(zhǔn)確處置。內(nèi)容的更準(zhǔn)確處置。 Clusteringion Classification Term association Keyword Natural language processing圖7-1文本發(fā)掘體系表示搜索引擎與搜索引擎與Web內(nèi)容發(fā)掘內(nèi)容發(fā)掘v 傳統(tǒng)的搜索引擎Searching Engine效率低下。v 由于是基于Web中超文本構(gòu)造分解的:它從一個(gè)網(wǎng)頁開場的,經(jīng)過查閱和記錄這個(gè)網(wǎng)頁的一切銜接并把它們陳列起來,然后再從找到的新頁面繼續(xù)

20、開場反復(fù)任務(wù)。搜索引擎與搜索引擎與Web內(nèi)容發(fā)掘內(nèi)容發(fā)掘v 利用數(shù)據(jù)發(fā)掘技術(shù)來改良搜索引擎是有價(jià)值的。這種價(jià)值表達(dá)在許多方面。例如,v 經(jīng)過對(duì)搜索結(jié)果進(jìn)展關(guān)聯(lián)分析或聚類等,對(duì)結(jié)果進(jìn)展清洗和濃縮。v 面向主題進(jìn)展搜索,即只檢索與某一主題有關(guān)的頁面。v 聚焦用戶感興趣的頁面,在有限的資源下使有效內(nèi)容發(fā)掘力度提高。搜索引擎與搜索引擎與Web內(nèi)容發(fā)掘內(nèi)容發(fā)掘v 基于搜索引擎的發(fā)掘任務(wù)有下面一些重要方面:v 利用超文本鏈接構(gòu)造進(jìn)展頁面內(nèi)容分類,使搜索引擎檢索的頁面符合用戶的興趣。v 有些頁面包含很多鏈接,而這些鏈接的頁面是用戶感興趣的,因此它們需求被檢索。v 采用合理而高效的方法對(duì)被選擇的頁面進(jìn)展內(nèi)容分

21、析和發(fā)掘。虛擬的Web視圖v一個(gè)有效的處理在一個(gè)有效的處理在Web中大量無構(gòu)造數(shù)據(jù)的方法是在這中大量無構(gòu)造數(shù)據(jù)的方法是在這些數(shù)據(jù)之上建立一個(gè)些數(shù)據(jù)之上建立一個(gè)MLDBMultiple Layered Database。v這個(gè)數(shù)據(jù)庫是多層次的,這個(gè)數(shù)據(jù)庫是多層次的, 每層索引都比它下一層要小。每層索引都比它下一層要小。v對(duì)于最底層來說,需求了解對(duì)于最底層來說,需求了解Web文檔構(gòu)造,而最高層那文檔構(gòu)造,而最高層那么有著完善的構(gòu)造并可以經(jīng)過類似么有著完善的構(gòu)造并可以經(jīng)過類似SQL的查詢言語進(jìn)展的查詢言語進(jìn)展訪問或發(fā)掘。訪問或發(fā)掘。虛擬的Web視圖v MLDB提供一個(gè)被稱為VMVVirtual We

22、b View的視圖機(jī)制,Web中的感興趣的構(gòu)造被濃縮在這個(gè)視圖中。v 等級(jí)概念近意詞組、詞匯和語義聯(lián)絡(luò)等將協(xié)助歸納過程來架構(gòu)更高層的MLDB。 個(gè)性化與Web內(nèi)容發(fā)掘v 經(jīng)過個(gè)性化,網(wǎng)頁的內(nèi)容和組織將更加適宜用戶經(jīng)過個(gè)性化,網(wǎng)頁的內(nèi)容和組織將更加適宜用戶的需求。個(gè)性化效力是的需求。個(gè)性化效力是Web發(fā)掘技術(shù)的重要目發(fā)掘技術(shù)的重要目的之一。的之一。v 經(jīng)過個(gè)性化,基于用戶所關(guān)懷內(nèi)容的廣告會(huì)被發(fā)經(jīng)過個(gè)性化,基于用戶所關(guān)懷內(nèi)容的廣告會(huì)被發(fā)送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問一個(gè)站送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問一個(gè)站點(diǎn)時(shí),會(huì)有一個(gè)特別為它定制的廣告出現(xiàn),這對(duì)點(diǎn)時(shí),會(huì)有一個(gè)特別為它定制的廣告出現(xiàn),

23、這對(duì)那些能夠購買的用戶來說是一個(gè)極大的誘惑。那些能夠購買的用戶來說是一個(gè)極大的誘惑。個(gè)性化與Web內(nèi)容發(fā)掘v Web內(nèi)容發(fā)掘的目的之一是基于頁面內(nèi)容類似度進(jìn)展用戶分類或聚類的,個(gè)性化的建立是經(jīng)過用戶過去的檢索內(nèi)容分析而建立起來的。v 自動(dòng)的個(gè)性化技術(shù)可以經(jīng)過過去的需求和類似用戶的需求來預(yù)知特定用戶未來的需求。Web頁面內(nèi)文本信息發(fā)掘v發(fā)掘的目的是對(duì)頁面進(jìn)展摘要和分類。發(fā)掘的目的是對(duì)頁面進(jìn)展摘要和分類。v頁面摘要:對(duì)每一個(gè)頁面運(yùn)用傳統(tǒng)的文本摘要方頁面摘要:對(duì)每一個(gè)頁面運(yùn)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。法可以得到相應(yīng)的摘要信息。v頁面分類:分類器輸入的是一個(gè)頁面分類:分類器輸入的是一個(gè)

24、Web頁面集訓(xùn)頁面集訓(xùn)練集,再根據(jù)頁面文本信息內(nèi)容進(jìn)展監(jiān)視學(xué)習(xí),練集,再根據(jù)頁面文本信息內(nèi)容進(jìn)展監(jiān)視學(xué)習(xí),然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸入的頁面。入的頁面。Web頁面內(nèi)文本信息發(fā)掘v 在文本學(xué)習(xí)中常用的方法是在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法,它是一種向量表示法,它是一種文檔的詞集文檔的詞集Bag-of-Words表示法,一切的詞從文檔表示法,一切的詞從文檔中抽取出來,而不思索詞間的次序和文本的構(gòu)造。這種構(gòu)中抽取出來,而不思索詞間的次序和文本的構(gòu)造。這種構(gòu)造二維表的方法是:造二維表的方法是:v 每一列為一個(gè)詞,列集特征集為辭典中的

25、一切有區(qū)分每一列為一個(gè)詞,列集特征集為辭典中的一切有區(qū)分價(jià)值的詞,所以整個(gè)列集能夠有幾十萬列之多。價(jià)值的詞,所以整個(gè)列集能夠有幾十萬列之多。v 每一行存儲(chǔ)一個(gè)頁面內(nèi)詞的信息,這時(shí),該頁面中的一切每一行存儲(chǔ)一個(gè)頁面內(nèi)詞的信息,這時(shí),該頁面中的一切詞對(duì)應(yīng)到列集特征集上。詞對(duì)應(yīng)到列集特征集上。Web頁面內(nèi)文本信息發(fā)掘 對(duì)中文頁面來說,還需先分詞然后再進(jìn)展以上兩步處置。 這樣構(gòu)造的二維表表示的是Web頁面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進(jìn)展分類發(fā)掘。 在發(fā)掘之前,普通要先進(jìn)展特征子集的選取,以降低維數(shù)。Web頁面內(nèi)多媒體信息

26、發(fā)掘v多媒體發(fā)掘是一個(gè)大研討分支,總的發(fā)掘過程是先要運(yùn)多媒體發(fā)掘是一個(gè)大研討分支,總的發(fā)掘過程是先要運(yùn)用多媒體信息特征提取工具,構(gòu)成特征用多媒體信息特征提取工具,構(gòu)成特征2維表,然后就維表,然后就可以采用傳統(tǒng)的數(shù)據(jù)發(fā)掘方法進(jìn)展發(fā)掘??梢圆捎脗鹘y(tǒng)的數(shù)據(jù)發(fā)掘方法進(jìn)展發(fā)掘。v在特征提取階段,利用多媒體信息提取工具進(jìn)展特征提在特征提取階段,利用多媒體信息提取工具進(jìn)展特征提取。取。v普通地,信息提取工具可以抽取出普通地,信息提取工具可以抽取出image和和video的文件的文件名、名、URL、父、父URL、類型、鍵值表、顏色向量等。對(duì)這、類型、鍵值表、顏色向量等。對(duì)這些特征可以進(jìn)展如下發(fā)掘操作:些特征可

27、以進(jìn)展如下發(fā)掘操作:Web頁面內(nèi)多媒體信息發(fā)掘v 關(guān)聯(lián)規(guī)那么發(fā)現(xiàn):例如,假設(shè)圖像是“大的而且與關(guān)鍵詞“天空有關(guān),那么它是藍(lán)色的概率為68%。v 分類:根據(jù)提供的某種類標(biāo),針對(duì)特征集,利用決策樹可以進(jìn)展分類。第七章第七章 Web發(fā)掘技術(shù)發(fā)掘技術(shù)v7.1 Web發(fā)掘的意義發(fā)掘的意義v7.2 Web發(fā)掘的分類發(fā)掘的分類v7.3 Web發(fā)掘的含義發(fā)掘的含義v7.4 Web發(fā)掘的數(shù)據(jù)來源發(fā)掘的數(shù)據(jù)來源 v7.5 Web內(nèi)容發(fā)掘方法內(nèi)容發(fā)掘方法v7.6 Web訪問信息發(fā)掘方法訪問信息發(fā)掘方法 v7.7 Web構(gòu)造發(fā)掘方法構(gòu)造發(fā)掘方法Web訪問信息發(fā)掘的特點(diǎn)訪問信息發(fā)掘的特點(diǎn)v 1 Web訪問數(shù)據(jù)容量大、分

28、布廣、內(nèi)涵豐富和形狀多樣訪問數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形狀多樣v 一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問信息。一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問信息。v 廣泛分布于世界各處。廣泛分布于世界各處。v 訪問信息形狀多樣。訪問信息形狀多樣。v 訪問信息具有豐富的內(nèi)涵。訪問信息具有豐富的內(nèi)涵。Web訪問信息發(fā)掘的特點(diǎn)訪問信息發(fā)掘的特點(diǎn) 2 Web訪問數(shù)據(jù)包含決策可用的信息訪問數(shù)據(jù)包含決策可用的信息每個(gè)用戶的訪問特點(diǎn)可以被用來識(shí)別該用戶和網(wǎng)站訪問的特性。每個(gè)用戶的訪問特點(diǎn)可以被用來識(shí)別該用戶和網(wǎng)站訪問的特性。同一類用戶的訪問,代表同一類用戶的個(gè)性。同一類用戶的訪問,代表同一類用戶的個(gè)

29、性。一段時(shí)期的訪問數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。一段時(shí)期的訪問數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。Web訪問信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問者進(jìn)展溝通的橋梁。訪問信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問者進(jìn)展溝通的橋梁。Web訪問信息數(shù)據(jù)是開展數(shù)據(jù)發(fā)掘研討的良好的對(duì)象。訪問信息數(shù)據(jù)是開展數(shù)據(jù)發(fā)掘研討的良好的對(duì)象。Web訪問信息發(fā)掘的特點(diǎn)訪問信息發(fā)掘的特點(diǎn)v 3 Web訪問信息發(fā)掘?qū)ο蟮奶攸c(diǎn)訪問信息發(fā)掘?qū)ο蟮奶攸c(diǎn)v 訪問事務(wù)的元素是訪問事務(wù)的元素是Web頁面,事務(wù)元素之間存在著豐富的頁面,事務(wù)元素之間存在著豐富的構(gòu)造信息。構(gòu)造信息。v 訪問事務(wù)的元素代表的是每個(gè)訪問者的順序關(guān)系,事務(wù)元訪問事務(wù)

30、的元素代表的是每個(gè)訪問者的順序關(guān)系,事務(wù)元素之間存在著豐富的順序信息。素之間存在著豐富的順序信息。v 每個(gè)頁面的內(nèi)容可以被籠統(tǒng)出不同的概念,訪問順序和訪每個(gè)頁面的內(nèi)容可以被籠統(tǒng)出不同的概念,訪問順序和訪問量部分決議概念。問量部分決議概念。v 用戶對(duì)頁面存在不同的訪問時(shí)長,訪問長代表了用戶的訪用戶對(duì)頁面存在不同的訪問時(shí)長,訪問長代表了用戶的訪問興趣。問興趣。 Web訪問信息發(fā)掘的意義訪問信息發(fā)掘的意義v經(jīng)過分析日志文件,可以發(fā)現(xiàn)用戶訪問頁面的特征、頁面被用戶訪問的規(guī)律、用戶頻繁訪問的頁組等,以便其合理、有效地優(yōu)化站點(diǎn)的構(gòu)造,最終為用戶提供一個(gè)方便快捷信息獲取環(huán)境。有三方面的應(yīng)器具有代表性:Web

31、訪問信息發(fā)掘的意義訪問信息發(fā)掘的意義v第一方面第一方面v Web效力方主要根據(jù)本人的領(lǐng)域知識(shí)設(shè)計(jì)效力方主要根據(jù)本人的領(lǐng)域知識(shí)設(shè)計(jì)Web頁頁面的構(gòu)造,而群體用戶根據(jù)各自的訪問興趣訪問面的構(gòu)造,而群體用戶根據(jù)各自的訪問興趣訪問這些頁面,那么效力方的構(gòu)造設(shè)計(jì)能否合理?這些頁面,那么效力方的構(gòu)造設(shè)計(jì)能否合理?v怎樣的設(shè)計(jì)以便利于群體用戶的訪問,更加吸引怎樣的設(shè)計(jì)以便利于群體用戶的訪問,更加吸引訪問者?訪問者?v這些問題的處理是這些問題的處理是Web訪問信息發(fā)掘的主要目的。訪問信息發(fā)掘的主要目的。Web訪問信息發(fā)掘的意義訪問信息發(fā)掘的意義v第二方面v群體用戶的訪問存在哪些特點(diǎn)?v假設(shè)掌握了這些特點(diǎn),那么

32、就可以利用其開展進(jìn)一步的商務(wù)活動(dòng)。Web訪問信息發(fā)掘的意義訪問信息發(fā)掘的意義v第三方面v對(duì)于每一個(gè)新的Web站點(diǎn)的訪問者,都會(huì)在曾經(jīng)訪問的群體用戶中找到一些最類似的一樣的訪問者,那么那些訪問者的訪問就可以給這個(gè)新的訪問者提供引薦,以便利于該訪問者的進(jìn)一步訪問。 典型的商業(yè)價(jià)值典型的商業(yè)價(jià)值v 面向群體訪問者,可以:面向群體訪問者,可以:v 提供高效訪問:減少有用信息的檢索時(shí)間,提高在大負(fù)載提供高效訪問:減少有用信息的檢索時(shí)間,提高在大負(fù)載下的效力性能。下的效力性能。v 吸引訪問者。吸引訪問者。v 堅(jiān)持訪問者:假設(shè)網(wǎng)站具有更好的構(gòu)造設(shè)計(jì),就能留住用堅(jiān)持訪問者:假設(shè)網(wǎng)站具有更好的構(gòu)造設(shè)計(jì),就能留住

33、用戶。戶。v 防止訪問者分開:找到分開緣由,改良網(wǎng)站的構(gòu)造設(shè)計(jì)。防止訪問者分開:找到分開緣由,改良網(wǎng)站的構(gòu)造設(shè)計(jì)。v 地域地域/行業(yè)行業(yè)/階層的分析:根據(jù)買賣者留下的信息,可以知階層的分析:根據(jù)買賣者留下的信息,可以知道訪問者所在的地域、所屬的行業(yè)或階層。道訪問者所在的地域、所屬的行業(yè)或階層。v 防止訪問者迷航:訪問者不能找到相應(yīng)的訪問目的,或者防止訪問者迷航:訪問者不能找到相應(yīng)的訪問目的,或者面對(duì)復(fù)雜的頁面構(gòu)造不知所措,那么遇到了迷航的問題。面對(duì)復(fù)雜的頁面構(gòu)造不知所措,那么遇到了迷航的問題。改良頁面的構(gòu)造設(shè)計(jì)是必要的。改良頁面的構(gòu)造設(shè)計(jì)是必要的。v 群體引薦:針對(duì)群體用戶的訪問偏好,引薦他們

34、感興趣的群體引薦:針對(duì)群體用戶的訪問偏好,引薦他們感興趣的東西。東西。v 針對(duì)性效力:如在適宜途徑上,就可以放置相應(yīng)內(nèi)容的廣針對(duì)性效力:如在適宜途徑上,就可以放置相應(yīng)內(nèi)容的廣告。告。典型的商業(yè)價(jià)值典型的商業(yè)價(jià)值v 面向群體每一個(gè)訪問者,可以:面向群體每一個(gè)訪問者,可以:v 個(gè)性化引薦。個(gè)性化引薦。v 用戶建模:根據(jù)已有群體用戶的訪問,推斷當(dāng)前用戶的特用戶建模:根據(jù)已有群體用戶的訪問,推斷當(dāng)前用戶的特征。征。v 個(gè)性化推銷個(gè)性化推銷Direct Marketing:識(shí)別出對(duì)某種產(chǎn)品或:識(shí)別出對(duì)某種產(chǎn)品或效力的能夠購買者,對(duì)其引薦相應(yīng)的產(chǎn)品或效力。效力的能夠購買者,對(duì)其引薦相應(yīng)的產(chǎn)品或效力。Web

35、訪問信息發(fā)掘的數(shù)據(jù)源訪問信息發(fā)掘的數(shù)據(jù)源v 由于Web世界的分布性,用戶訪問行為被廣泛地分布記錄在Web效力器、用戶客戶端,和代理效力器中。v 在各個(gè)分布地點(diǎn)的不同的用戶訪問信息表征了不同類型的用戶訪問行為。v 發(fā)掘任務(wù)必需針對(duì)數(shù)據(jù)的特點(diǎn)來決議相應(yīng)的發(fā)掘義務(wù)。v 用戶訪問信息的分布簡單歸結(jié)為:Web訪問信息發(fā)掘的數(shù)據(jù)源訪問信息發(fā)掘的數(shù)據(jù)源v 效力器方:普通地,在一個(gè)Web效力器上,效力器日志記錄了多個(gè)用戶對(duì)單個(gè)站點(diǎn)的用戶訪問行為。v 客戶方:普通地,在客戶端計(jì)算機(jī)上,客戶端的代理記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)或單個(gè)用戶對(duì)多個(gè)站點(diǎn)的用戶訪問行為??蛻舳说腃ache記錄了用戶訪問內(nèi)容??蛻舳说腂ookM

36、ark也記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問偏好。v 客戶端代理效力器:代理效力器記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問行為,同時(shí)代理效力器內(nèi)部的Cache記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問內(nèi)容。效力器方訪問信息效力器方訪問信息v一個(gè)一個(gè)Web效力器日志效力器日志Server log反映出多個(gè)反映出多個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問行為。用戶對(duì)單個(gè)站點(diǎn)的訪問行為。v一個(gè)從實(shí)踐一個(gè)從實(shí)踐Web效力器上采集的效力器上采集的Log文件片段文件片段: IP AddressUser IDTimeMethod/URI/ProtocolStautsSize159.226.219.52- -10/Dec/2019:12:34:16 -0

37、600GET /images/lchzhi.gif /1.120044851159.226.219.52- -10/Dec/2019:12:34:32 -0600GET /graduate.htm /1.12007403159.226.219.52- -10/Dec/2019:12:34:32 -0600GET /images/sxwys2.jpg /1.120018481203.141.89.99- -10/Dec/2019:12:34:48 -0600GET /result.htm /1.020012302159.226.219.52- -10/Dec/2019:12:34:58 0600

38、GET /structure.htm /1.1200367159.226.219.52- -10/Dec/2019:12:34:58 0600GET /struc-index.htm /1.12004370159.226.219.52- -10/Dec/2019:12:34:58 0600GET /struc-content.htm /1.120012047159.226.219.52- -10/Dec/2019:12:34:58 0600GET /images/znkfsys.jpg /1.120022574代理效力器端訪問信息代理效力器端訪問信息v代理效力器端的訪問信息包括用戶訪問日志和在

39、代理效力器端的訪問信息包括用戶訪問日志和在Cache中被訪問的頁面信息。中被訪問的頁面信息。v一個(gè)代理效力器日志的例子基于一個(gè)代理效力器日志的例子基于WindowsNT4.0的代理效力器的代理效力器: 200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 200, 582, 6, , tcp, GET, ict.ac/cjc/cjcw2.html, -, Inet,

40、304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 270, 2101, 1254, , tcp, GET, ict.ac/cjc/introc.html, -, VCache, 304, 0200.121.2.88, HEADSWANG Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28

41、, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 171, 449, 1110, , tcp, GET, ict.ac/cjc/star.gif, -, Inet, 304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, 159.226.39.2, 80, 211, 455, 826, , tcp, GET, ict.ac/c

42、jc/INTROCG.JPG, -, Inet, 304, 0Web訪問信息發(fā)掘的預(yù)處置訪問信息發(fā)掘的預(yù)處置v Web訪問信息發(fā)掘的根底和最煩瑣的任務(wù)是數(shù)據(jù)的預(yù)處置。v 預(yù)處置用戶訪問信息是整個(gè)數(shù)據(jù)預(yù)備的中心任務(wù),也是開展下一階段Web訪問信息發(fā)掘的根底。v 預(yù)處置階段主要的任務(wù)是識(shí)別用戶訪問事務(wù)和訪問片斷。Web訪問信息發(fā)掘的預(yù)處置訪問信息發(fā)掘的預(yù)處置vWeb Usage Mining在預(yù)處置階段主要的任務(wù)有:在預(yù)處置階段主要的任務(wù)有:v數(shù)據(jù)清洗:由于數(shù)據(jù)表示、寫入的對(duì)象差別以及數(shù)據(jù)清洗:由于數(shù)據(jù)表示、寫入的對(duì)象差別以及用戶的興趣和發(fā)掘算法對(duì)數(shù)據(jù)要求的不同,對(duì)于用戶的興趣和發(fā)掘算法對(duì)數(shù)據(jù)要求

43、的不同,對(duì)于Web日志中的數(shù)據(jù)需求確定合理的數(shù)據(jù)清洗戰(zhàn)略日志中的數(shù)據(jù)需求確定合理的數(shù)據(jù)清洗戰(zhàn)略 。v識(shí)別用戶訪問事務(wù):在對(duì)識(shí)別用戶訪問事務(wù):在對(duì)Web日志數(shù)據(jù)進(jìn)展數(shù)據(jù)日志數(shù)據(jù)進(jìn)展數(shù)據(jù)發(fā)掘之前,需求把對(duì)發(fā)掘之前,需求把對(duì)Web頁的訪問序列組織成邏頁的訪問序列組織成邏輯單元以表征事務(wù)或用戶會(huì)話。輯單元以表征事務(wù)或用戶會(huì)話。數(shù)據(jù)清洗數(shù)據(jù)清洗v 合并數(shù)據(jù)v 剔除不相關(guān)的數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)清洗v 代理訪問的處置: v 正規(guī)化URIUniform Resource Identifier v 數(shù)據(jù)項(xiàng)解析: 識(shí)別用戶訪問事務(wù)識(shí)別用戶訪問事務(wù)v 在在Web日志中,用戶的訪問事務(wù)并不是一個(gè)顯然的結(jié)果,日志中,用戶的

44、訪問事務(wù)并不是一個(gè)顯然的結(jié)果,需求專門的算法來進(jìn)展識(shí)別和生成。找到相應(yīng)的事務(wù)集,需求專門的算法來進(jìn)展識(shí)別和生成。找到相應(yīng)的事務(wù)集,才干對(duì)這個(gè)事務(wù)集進(jìn)展關(guān)聯(lián)規(guī)那么和序列方式發(fā)現(xiàn)等發(fā)掘才干對(duì)這個(gè)事務(wù)集進(jìn)展關(guān)聯(lián)規(guī)那么和序列方式發(fā)現(xiàn)等發(fā)掘任務(wù)。任務(wù)。v 時(shí)間窗時(shí)間窗C大小的界定是一個(gè)閱歷值有人建議大小的界定是一個(gè)閱歷值有人建議30分鐘較為分鐘較為適宜。適宜。定義定義7-1 設(shè)設(shè)L為用戶訪問日志,其中的一個(gè)項(xiàng)為用戶訪問日志,其中的一個(gè)項(xiàng)lL包括用戶的包括用戶的IP地址地址l.ip,用戶,用戶的標(biāo)識(shí)符的標(biāo)識(shí)符l.uid,被存取頁的,被存取頁的URI地址地址l.url,長度為,長度為l.length以及存取

45、訪問的時(shí)間以及存取訪問的時(shí)間l.time,存取訪問的時(shí)長,存取訪問的時(shí)長l.timelength,訪問事務(wù)被定義為:,訪問事務(wù)被定義為:這里這里C是一個(gè)固定的時(shí)間窗。是一個(gè)固定的時(shí)間窗。timeltimeltimelengthlCtimeltimeluiduidlipiplLlmkforwherelengthltimelengthltimelurll.uidl.ipl.lengthlh.timelengtl.timel.urll.uidl.ipluidipttktktktktkttkttktktmtmtmtmtmtmtttttttt.,. ,. ,. , , 1 , ).,.,.,.,( ,.

46、, ),( ,111111111其他信息的預(yù)處置技術(shù)1導(dǎo)航內(nèi)容片斷導(dǎo)航內(nèi)容片斷 在一些電子商務(wù)網(wǎng)站中,需求知道用戶到達(dá)一個(gè)內(nèi)容在一些電子商務(wù)網(wǎng)站中,需求知道用戶到達(dá)一個(gè)內(nèi)容頁之前是閱歷哪些導(dǎo)航頁的。頁之前是閱歷哪些導(dǎo)航頁的。 例如,一個(gè)用戶訪問事務(wù)為:例如,一個(gè)用戶訪問事務(wù)為:N1,N2,N3,C1, N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中,其中N為導(dǎo)航頁,為導(dǎo)航頁,C為內(nèi)容頁。識(shí)別導(dǎo)航內(nèi)容片斷為內(nèi)容頁。識(shí)別導(dǎo)航內(nèi)容片斷就是要從用戶訪問事務(wù)中識(shí)別出:就是要從用戶訪問事務(wù)中識(shí)別出:片斷片斷1:N1,N2,N3,C1。片斷片斷2:N4,N5,N6,C2。

47、片斷片斷3:N7,N8,C3。片斷片斷4:N9,N10,N11,N12,C4。其他信息的預(yù)處置技術(shù)2最大前向訪問序列 所謂用戶最大前向訪問序列是指在用戶訪問回退之前不斷被訪問的頁面序列。每個(gè)最大前向訪問序列就構(gòu)成一個(gè)訪問片段。定義該片斷的優(yōu)點(diǎn)是有利于發(fā)現(xiàn)用戶感興趣的事務(wù)。顯然在用戶訪問事務(wù)中尋覓最大前向序列必需求根據(jù)Web站點(diǎn)的拓?fù)錁?gòu)造。 在Web訪問發(fā)掘中的常用技術(shù)1途徑分析途徑分析途徑分析最常用的運(yùn)用是用于斷定在一個(gè)途徑分析最常用的運(yùn)用是用于斷定在一個(gè)Web站點(diǎn)中最頻繁站點(diǎn)中最頻繁訪問的途徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息訪問的途徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息平安評(píng)價(jià)是

48、非常重要的。平安評(píng)價(jià)是非常重要的。2關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)運(yùn)用關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)方法可以從運(yùn)用關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,找到普訪問事務(wù)集中,找到普通性的關(guān)聯(lián)知識(shí)。通性的關(guān)聯(lián)知識(shí)。 3序列方式發(fā)現(xiàn)序列方式發(fā)現(xiàn)在時(shí)間戳有序的事務(wù)集中,序列方式的發(fā)現(xiàn)就是指找到那些在時(shí)間戳有序的事務(wù)集中,序列方式的發(fā)現(xiàn)就是指找到那些如如“一些項(xiàng)跟隨另一個(gè)項(xiàng)這樣的內(nèi)部事務(wù)方式。一些項(xiàng)跟隨另一個(gè)項(xiàng)這樣的內(nèi)部事務(wù)方式。 在Web訪問發(fā)掘中的常用技術(shù)4分類分類發(fā)現(xiàn)分類規(guī)那么可以給出識(shí)別一個(gè)特殊群體的公共屬性的描發(fā)現(xiàn)分類規(guī)那么可以給出識(shí)別一個(gè)特殊群體的公共屬性的描畫。這種描畫可以用于分類新的項(xiàng)。畫。這種描畫

49、可以用于分類新的項(xiàng)。 5聚類聚類可以從可以從Web Usage數(shù)據(jù)中聚集出具有類似特性的那些客戶。數(shù)據(jù)中聚集出具有類似特性的那些客戶。在在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就可以便于事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就可以便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。開發(fā)和執(zhí)行未來的市場戰(zhàn)略。 Web訪問信息發(fā)掘的要素構(gòu)成訪問信息發(fā)掘的要素構(gòu)成1數(shù)據(jù)來源數(shù)據(jù)來源 數(shù)據(jù)的來源分為效力器,代理效力器,和客戶端。數(shù)據(jù)的來源分為效力器,代理效力器,和客戶端。2數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)的類型主要分為構(gòu)造數(shù)據(jù)的類型主要分為構(gòu)造,內(nèi)容內(nèi)容,訪問信息訪問信息,用戶概貌文件。用戶概貌文件。3用戶的數(shù)量用戶的數(shù)量 用戶的數(shù)量

50、表現(xiàn)為:或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu)用戶的數(shù)量表現(xiàn)為:或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu) 成,或者數(shù)據(jù)由多個(gè)用戶的信息構(gòu)成。成,或者數(shù)據(jù)由多個(gè)用戶的信息構(gòu)成。4站點(diǎn)的數(shù)量站點(diǎn)的數(shù)量 在數(shù)據(jù)集中的在數(shù)據(jù)集中的Web站點(diǎn)的個(gè)數(shù)表現(xiàn)為:或者在數(shù)據(jù)集中站點(diǎn)的個(gè)數(shù)表現(xiàn)為:或者在數(shù)據(jù)集中只記錄單個(gè)站點(diǎn)的信息,或者記錄多個(gè)站點(diǎn)的信息。只記錄單個(gè)站點(diǎn)的信息,或者記錄多個(gè)站點(diǎn)的信息。Web訪問信息發(fā)掘的要素構(gòu)成訪問信息發(fā)掘的要素構(gòu)成5效力對(duì)象效力對(duì)象 Web訪問信息發(fā)掘的結(jié)果由訪問信息發(fā)掘的結(jié)果由Web效力方進(jìn)展運(yùn)用。運(yùn)用的效力方進(jìn)展運(yùn)用。運(yùn)用的結(jié)果即效力對(duì)象可以是當(dāng)個(gè)單個(gè)用戶,或群體用戶。單個(gè)結(jié)果即效力對(duì)象可以

51、是當(dāng)個(gè)單個(gè)用戶,或群體用戶。單個(gè)用戶即意味著個(gè)性化。用戶即意味著個(gè)性化。6發(fā)掘手段發(fā)掘手段 Web訪問信息發(fā)掘所采用的各種數(shù)據(jù)發(fā)掘方法,例如關(guān)聯(lián)訪問信息發(fā)掘所采用的各種數(shù)據(jù)發(fā)掘方法,例如關(guān)聯(lián)規(guī)那么發(fā)現(xiàn),聚類,分類,統(tǒng)計(jì)等等。規(guī)那么發(fā)現(xiàn),聚類,分類,統(tǒng)計(jì)等等。利用利用Web訪問信息發(fā)掘?qū)崿F(xiàn)用戶建模訪問信息發(fā)掘?qū)崿F(xiàn)用戶建模v由于Web網(wǎng)站的特性,對(duì)網(wǎng)站的運(yùn)營者和設(shè)計(jì)者而言,無法直接了解用戶的特性。v然而對(duì)訪問者個(gè)人特性和群體用戶特性的了解對(duì)Web網(wǎng)站的效力方而言顯得尤為重要。v僥幸的是可以經(jīng)過數(shù)據(jù)發(fā)掘的方法得到用戶的特性。利用利用Web訪問信息發(fā)掘?qū)崿F(xiàn)用戶建模訪問信息發(fā)掘?qū)崿F(xiàn)用戶建模v “用戶建模

52、用戶建模Modelling Users是指根據(jù)訪問者對(duì)一是指根據(jù)訪問者對(duì)一個(gè)個(gè)Web站點(diǎn)上站點(diǎn)上Web頁面的的訪問情況,可以模型化用戶的頁面的的訪問情況,可以模型化用戶的本身特性。本身特性。v 在識(shí)別出用戶的特性后就可以開展針對(duì)性的效力。在識(shí)別出用戶的特性后就可以開展針對(duì)性的效力。v 用戶建模主要有三種途徑。用戶建模主要有三種途徑。 v 推斷匿名訪問者的人口統(tǒng)計(jì)特性推斷匿名訪問者的人口統(tǒng)計(jì)特性 v 在不打擾用戶的情況下,得到用戶概貌文件在不打擾用戶的情況下,得到用戶概貌文件 v 根據(jù)用戶的訪問方式來聚類用戶根據(jù)用戶的訪問方式來聚類用戶利用利用Web訪問信息發(fā)掘發(fā)現(xiàn)導(dǎo)航方式訪問信息發(fā)掘發(fā)現(xiàn)導(dǎo)航方

53、式v發(fā)現(xiàn)導(dǎo)航方式發(fā)現(xiàn)導(dǎo)航方式Discovering Navigation Patterns是是Web訪問信息發(fā)掘的一個(gè)重要的研訪問信息發(fā)掘的一個(gè)重要的研討領(lǐng)域。討領(lǐng)域。v用戶的導(dǎo)航方式是指群體用戶對(duì)用戶的導(dǎo)航方式是指群體用戶對(duì)Web站點(diǎn)內(nèi)的頁站點(diǎn)內(nèi)的頁面的閱讀順序方式。面的閱讀順序方式。利用利用Web訪問信息發(fā)掘發(fā)現(xiàn)導(dǎo)航方式訪問信息發(fā)掘發(fā)現(xiàn)導(dǎo)航方式v 用戶導(dǎo)航方式的主要運(yùn)用在改良站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等用戶導(dǎo)航方式的主要運(yùn)用在改良站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等方面。方面。v 1改良改良Web站點(diǎn)的構(gòu)造設(shè)計(jì)站點(diǎn)的構(gòu)造設(shè)計(jì)v 2個(gè)性化行銷個(gè)性化行銷Direct Marketing:v 3利用關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)算

54、法發(fā)現(xiàn)導(dǎo)航方式利用關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航方式v 4利用模板發(fā)現(xiàn)導(dǎo)航方式利用模板發(fā)現(xiàn)導(dǎo)航方式v 5利用超文本概率文法發(fā)現(xiàn)導(dǎo)航方式利用超文本概率文法發(fā)現(xiàn)導(dǎo)航方式利用利用Web訪問信息發(fā)掘改良訪問效率訪問信息發(fā)掘改良訪問效率1Web效力器推送技術(shù)效力器推送技術(shù)2自順應(yīng)網(wǎng)站自順應(yīng)網(wǎng)站3運(yùn)用導(dǎo)航方式的結(jié)果改良運(yùn)用導(dǎo)航方式的結(jié)果改良Web站點(diǎn)的訪問效率站點(diǎn)的訪問效率4改良改良Web效力器的性能效力器的性能利用利用Web訪問信息發(fā)掘改良訪問效率訪問信息發(fā)掘改良訪問效率表表7-107-10改良改良WebWeb站點(diǎn)訪問效率方法的比較站點(diǎn)訪問效率方法的比較方法特點(diǎn)優(yōu)點(diǎn)缺點(diǎn)Web服務(wù)器推送技術(shù)Bin Lan相關(guān)

55、的文檔會(huì)被服務(wù)器提前推送到Proxy上。存在冗余推送問題。自適應(yīng)網(wǎng)站Perkowitz M.通過增加索引頁來幫助用戶進(jìn)行訪問,以改進(jìn)訪問效率。這些索引頁難于被用戶理解。應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)改進(jìn)Web站點(diǎn)的訪問效率Myra Spiliopoulou 基于規(guī)則的動(dòng)態(tài)Web站點(diǎn)。規(guī)則需要人工判定。改進(jìn)Web服務(wù)器的性能Cohen E. AlmeidaSchechter通過對(duì)頁面的特性的挖掘,改進(jìn)服務(wù)器的效率。改進(jìn)集中于頁面這一級(jí),不涉及更高級(jí)的邏輯結(jié)構(gòu)改進(jìn)。利用Web訪問信息發(fā)掘進(jìn)展個(gè)性化效力在在Web站點(diǎn)開展個(gè)性化站點(diǎn)開展個(gè)性化Personalization效力的總的思緒效力的總的思緒和步驟是:

56、和步驟是:模型化頁面和用戶;模型化頁面和用戶;分類頁面和用戶;分類頁面和用戶;在頁面和對(duì)象之間進(jìn)展匹配;在頁面和對(duì)象之間進(jìn)展匹配;判別當(dāng)前訪問的類別以進(jìn)展引薦。判別當(dāng)前訪問的類別以進(jìn)展引薦。而且,個(gè)性化系統(tǒng)普通分為兩個(gè)部分:離線部分和在線部分。而且,個(gè)性化系統(tǒng)普通分為兩個(gè)部分:離線部分和在線部分。利用利用Web訪問信息發(fā)掘進(jìn)展個(gè)性化效力訪問信息發(fā)掘進(jìn)展個(gè)性化效力在表表7-11個(gè)性化方法的比較個(gè)性化方法的比較方法特點(diǎn)缺點(diǎn)離線聚類和動(dòng)態(tài)鏈接結(jié)合可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。 隨著用戶訪問長度的增加,可供推薦的元素會(huì)趨于零。基于關(guān)鍵詞學(xué)習(xí)引入時(shí)間特性為用戶提供推薦。需要用戶人工干預(yù),無法做到自動(dòng)。

57、識(shí)別感興趣的鏈接建立代理服務(wù)器識(shí)別用戶的訪問興趣提供推薦。用戶興趣的實(shí)效性考慮不夠。自動(dòng)定制不同用戶訪問界面利用用戶建模技術(shù)自動(dòng)定制不同的用戶訪問界面?!巴普摗币蕾囉谟脩羲诘念I(lǐng)域,適應(yīng)性不好。利用客戶端代理進(jìn)行個(gè)性化客戶端的代理,完全為個(gè)人服務(wù)。冗余搜索過大。聚類推薦可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。 聚類的個(gè)數(shù)是人為事先給定的,不能隨著每個(gè)用戶的訪問特性而動(dòng)態(tài)調(diào)整。利用利用Web訪問信息發(fā)掘進(jìn)展商業(yè)智能發(fā)現(xiàn)訪問信息發(fā)掘進(jìn)展商業(yè)智能發(fā)現(xiàn)表表7-12商業(yè)智能方法的比較商業(yè)智能方法的比較方法特點(diǎn)Buchner其貢獻(xiàn)在于首次在Web訪問信息挖掘的基礎(chǔ)上提出了商業(yè)智能的發(fā)現(xiàn)的框架;其不足在于發(fā)現(xiàn)的知識(shí)

58、局限于用戶確實(shí)發(fā)生的購買行為,而對(duì)用戶潛在的購買興趣無法發(fā)現(xiàn)。Yun C.優(yōu)點(diǎn)是挖掘了遷移和購買行為之間的內(nèi)在關(guān)系。缺點(diǎn)是發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購買行為,對(duì)用戶潛在購買興趣無法發(fā)現(xiàn)。SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends優(yōu)點(diǎn)是通過分析頁面的點(diǎn)擊率來為推斷商業(yè)智能提供Web流量分析。缺點(diǎn)是無法發(fā)現(xiàn)高級(jí)的商業(yè)職能。利用利用Web訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn)訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn) v 在挪動(dòng)計(jì)算環(huán)境中,一個(gè)新的發(fā)掘方法,即用戶的挪動(dòng)方在挪動(dòng)計(jì)算環(huán)境中,一個(gè)新的發(fā)掘方法,即用戶的挪動(dòng)方式發(fā)掘被提出。式發(fā)掘被提出。v 發(fā)掘的

59、結(jié)果可以用于開發(fā)數(shù)據(jù)的分配方式以改動(dòng)挪動(dòng)系統(tǒng)發(fā)掘的結(jié)果可以用于開發(fā)數(shù)據(jù)的分配方式以改動(dòng)挪動(dòng)系統(tǒng)的總的性能。的總的性能。v 首先,對(duì)挪動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)展發(fā)掘,可以得到首先,對(duì)挪動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)展發(fā)掘,可以得到頻繁用戶挪動(dòng)方式。頻繁用戶挪動(dòng)方式。v 然后,根據(jù)發(fā)掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配方式。然后,根據(jù)發(fā)掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配方式。利用利用Web訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn)訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn) v 根據(jù)不同層次的發(fā)掘結(jié)果,有兩種個(gè)人數(shù)據(jù)分配方式:v 利用集合層次的用戶挪動(dòng)方式DS方式;v 利用途徑層次的用戶挪動(dòng)方式DP方式。AGDHCB12345

60、678910Partition1Partition2圖7-2在一個(gè)挪動(dòng)計(jì)算系統(tǒng)中挪動(dòng)方式的例子利用利用Web訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn)訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn) 利用利用Web訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn)可訪問信息發(fā)掘進(jìn)展用戶挪動(dòng)方式發(fā)現(xiàn)可以分為如下三個(gè)主要步驟:以分為如下三個(gè)主要步驟:數(shù)據(jù)搜集階段:從各個(gè)效力器的日志集合中判別最數(shù)據(jù)搜集階段:從各個(gè)效力器的日志集合中判別最大的挪動(dòng)序列和挪動(dòng)對(duì)的出現(xiàn)次數(shù)。大的挪動(dòng)序列和挪動(dòng)對(duì)的出現(xiàn)次數(shù)。發(fā)掘階段:從第一步的結(jié)果集中的每發(fā)掘階段:從第一步的結(jié)果集中的每w個(gè)最大挪動(dòng)個(gè)最大挪動(dòng)序列中判別大項(xiàng)挪動(dòng)序列。思索到新近的挪動(dòng)方序列中判別大項(xiàng)挪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論