Web挖掘技術(shù)內(nèi)容提要.ppt_第1頁
Web挖掘技術(shù)內(nèi)容提要.ppt_第2頁
Web挖掘技術(shù)內(nèi)容提要.ppt_第3頁
Web挖掘技術(shù)內(nèi)容提要.ppt_第4頁
Web挖掘技術(shù)內(nèi)容提要.ppt_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2019年6月28日星期五,DMKD Sides By MAO,1,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,2,Web挖掘的價(jià)值,從大量的信息中發(fā)現(xiàn)用戶感興趣的信息 :因特網(wǎng)上蘊(yùn)藏著大量的信息,通過簡單的瀏覽或關(guān)鍵詞匹配的搜索引擎得到的是孤立而凌亂的“表面信息” ,Web挖掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。 將Web上的豐富信息轉(zhuǎn)變成有用的知識(shí):Web挖掘是面向Web數(shù)據(jù)進(jìn)行分析和知識(shí)提取的。因特網(wǎng)中頁面內(nèi)部、頁面間、頁面鏈接、頁面訪問等都包含大量對用戶可用的信息,而這些信息的深層次含義是很難被用戶直接使用的,必須經(jīng)過濃縮和提煉。 對用戶進(jìn)行信息個(gè)性化:網(wǎng)站信息的個(gè)性化是將來的發(fā)展趨勢。通過Web挖掘,可以達(dá)到對用戶訪問行為、頻度、內(nèi)容等的分析,可以得到關(guān)于群體用戶訪問行為和方式的普遍知識(shí),用以改進(jìn)Web服務(wù)方的設(shè)計(jì),提供個(gè)性化的服務(wù)。,2019年6月28日星期五,DMKD Sides By MAO,3,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,4,Web挖掘的類型,Web挖掘依靠它所挖掘的信息來源可以分為: Web內(nèi)容挖掘(Web Content Mining):對站點(diǎn)的Web頁面的各類信息進(jìn)行集成、概化、分類等,挖掘某類信息所蘊(yùn)含的知識(shí)模式。 Web訪問信息挖掘(Web Usage Mining):Web訪問信息挖掘是對用戶訪問Web時(shí)在服務(wù)器方留下的訪問記錄進(jìn)行挖掘。通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。 Web結(jié)構(gòu)挖掘(Web Structure Mining):Web結(jié)構(gòu)挖掘是對Web頁面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁面的內(nèi)容之中,而且也包含在頁面的鏈接結(jié)構(gòu)之中。對于給定的Web頁面集合,通過結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁面之間的關(guān)聯(lián)信息,頁面之間的包含、引用或者從屬關(guān)系等。,2019年6月28日星期五,DMKD Sides By MAO,5,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,6,Web挖掘的含義,WeB挖掘是一個(gè)看寬泛的概念,可以簡單地描述為: 針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí),為訪問者、站點(diǎn)經(jīng)營者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。,2019年6月28日星期五,DMKD Sides By MAO,7,Web挖掘與信息檢索,兩種截然不同的觀點(diǎn): Web上的信息檢索是Web挖掘的一個(gè)方面:Web挖掘旨在解決信息檢索、知識(shí)抽取以及更寬泛的商業(yè)問題,是Web上IR技術(shù)的延伸。這種觀點(diǎn)大多來自于數(shù)據(jù)挖掘研究領(lǐng)域。 Web挖掘是智能化的信息檢索:對于IR領(lǐng)域的研究人員來說, Web挖掘是IR研究向著智能化的方向發(fā)展的結(jié)果。 信息檢索可能經(jīng)常被說成是Web挖掘的初級(jí)階段,是為了強(qiáng)調(diào)Web挖掘不是簡單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過程,它可以支持更高級(jí)的商業(yè)決策和分析。,2019年6月28日星期五,DMKD Sides By MAO,8,Web挖掘與信息抽取,Web上的IE的研究目的是希望從眾多的Web文擋中抽取可供分析的信息,與Web挖掘的關(guān)系也有不同的觀點(diǎn): IE是Web挖掘整個(gè)過程的一部分:這是因?yàn)閃eb上的數(shù)據(jù)一般是半結(jié)構(gòu)化或無結(jié)構(gòu)的,因此需要進(jìn)行規(guī)格化的信息抽取這樣的預(yù)處理。 Web挖掘是IE的一個(gè)特殊技術(shù):既然IE是希望把Web蘊(yùn)藏的信息抽取出來,那么Web挖掘或者文本挖掘只不過是達(dá)到這個(gè)目的的特殊技術(shù)手段。 信息抽取經(jīng)常被說成是Web挖掘的一個(gè)預(yù)處理階段,那是因?yàn)樵跀?shù)據(jù)挖掘領(lǐng)域,Web挖掘的更廣義的理解應(yīng)該是一個(gè)知識(shí)提取的完整過程。,2019年6月28日星期五,DMKD Sides By MAO,9,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,10,Web挖掘的主要數(shù)據(jù)源,Web挖掘的數(shù)據(jù)來源是寬泛的:凡是在Web站點(diǎn)中對用戶有價(jià)值的數(shù)據(jù)都可以成為它挖掘的數(shù)據(jù)源。 由于這些對象的數(shù)據(jù)形式及含義的差異,其挖掘技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有: 服務(wù)器日志數(shù)據(jù):Web訪問信息挖掘的主要數(shù)據(jù)源。,2019年6月28日星期五,DMKD Sides By MAO,11,服務(wù)器日志數(shù)據(jù),對Web服務(wù)器的訪問,服務(wù)器方將會(huì)產(chǎn)生3種類型的日志文件: Server logs:記錄用戶的訪問時(shí)間、IP地址以及請求等信息。 Error logs:存取請求失敗的數(shù)據(jù),例如丟失連接、授權(quán)失敗或超時(shí)等 ookie logs:Cookie是由web服務(wù)器產(chǎn)生的記號(hào)并由客戶端持有,用于識(shí)別用戶和用戶的會(huì)話。,Field Description Date Date, time, and timezone of request Client IP Remote host IP and / or DNS entry User name Remote log name of the user Bytes Bytes transferred (sent and received) Server Server name, IP address and port Request URI query and stem Status http status code returned to the client Service name Requested service name Time taken Time taken for transaction to complete Protocol version Version of used transfer protocol User agent Service provider Cookie Cookie ID Referrer Previous page ,Server logs的一個(gè)格式示意,2019年6月28日星期五,DMKD Sides By MAO,12,在線市場數(shù)據(jù),在線市場數(shù)據(jù)是指和市場活動(dòng)相關(guān)的信息。例如一個(gè)電子商務(wù)站點(diǎn),存儲(chǔ)相關(guān)的電子商務(wù)信息。 從內(nèi)容上說,不同目的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系數(shù)據(jù)庫結(jié)構(gòu)來存儲(chǔ)數(shù)據(jù)。 在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只有結(jié)合在線市場數(shù)據(jù)分析才能達(dá)到目的。,2019年6月28日星期五,DMKD Sides By MAO,13,Web頁面,Web頁面是網(wǎng)站信息的主體,但是它們的主要信息不可能像關(guān)系型數(shù)據(jù)庫那樣規(guī)整,因此Web頁面的內(nèi)容組織形式的分析是研究Web挖掘的具體方法的基礎(chǔ)。 目前的Web頁面大多滿足HTML標(biāo)準(zhǔn),現(xiàn)有的Web挖掘方法大多是針對Web頁面開展的。 1998年WWW社團(tuán)提出了XML語言標(biāo)準(zhǔn)(eXtensible Markup Language)。該標(biāo)準(zhǔn)通過把一些描述頁面內(nèi)容的標(biāo)記(tag)添加到HTML頁面中,用于對HTML頁面內(nèi)容進(jìn)行自描述?;赬ML規(guī)范的挖掘研究也是一個(gè)重要的研究分支。,2019年6月28日星期五,DMKD Sides By MAO,14,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,15,Web內(nèi)容挖掘的主要方法,一種Web內(nèi)容挖掘的分類方法是分為代理人方法和數(shù)據(jù)庫方法。 代理人方法使用軟件系統(tǒng)(代理)來完成內(nèi)容挖掘。例如, 智能檢索代理超越了簡單的檢索機(jī)制使用通過關(guān)鍵詞之外的技術(shù)來完成檢索,可以利用用戶模版或其關(guān)心的知識(shí)領(lǐng)域等來實(shí)現(xiàn)信息的抽取。 信息過濾利用信息檢索技術(shù)、連接結(jié)構(gòu)的知識(shí)和其他方法來分析和分類文檔。 個(gè)性化Web代理使用有關(guān)用戶的喜好的信息來指導(dǎo)它們的檢索。 數(shù)據(jù)庫方法將所有的Web數(shù)據(jù)描述為一個(gè)數(shù)據(jù)庫系統(tǒng)。意味著Web是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫系統(tǒng),可以通過多種查詢語言來獲得Web的信息來完成信息的抽取。,2019年6月28日星期五,DMKD Sides By MAO,16,文本挖掘是Web內(nèi)容挖掘的基礎(chǔ),文本挖掘(TD)的方式和目標(biāo)是多種多樣的,基本層次有: 關(guān)鍵詞檢索:最簡單的方式,它和傳統(tǒng)的搜索技術(shù)類似。 挖掘項(xiàng)目關(guān)聯(lián):聚焦在頁面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。 信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁面的分類,將頁面在一個(gè)更到層次上進(jìn)行抽象和整理。 自然語言處理:揭示自然語言處理技術(shù)中的語義,實(shí)現(xiàn)Web內(nèi)容的更精確處理。,2019年6月28日星期五,DMKD Sides By MAO,17,搜索引擎與Web內(nèi)容挖掘,傳統(tǒng)的搜索引擎(Searching Engine)效率低下。由于是基于Web中超文本結(jié)構(gòu)分解的:它從一個(gè)網(wǎng)頁開始的,通過查閱和記錄這個(gè)網(wǎng)頁的所有連接并把它們排列起來,然后再從找到的新頁面繼續(xù)開始重復(fù)工作。 利用數(shù)據(jù)挖掘技術(shù)來改進(jìn)搜索引擎是有價(jià)值的。這種價(jià)值體現(xiàn)在許多方面。例如, 通過對搜索結(jié)果進(jìn)行關(guān)聯(lián)分析或聚類等,對結(jié)果進(jìn)行清洗和濃縮。 面向主題進(jìn)行搜索,即只檢索與某一主題有關(guān)的頁面。 聚焦用戶感興趣的頁面,在有限的資源下使有效內(nèi)容挖掘力度提高。 基于搜索引擎的挖掘工作有下面一些重要方面: 利用超文本鏈接結(jié)構(gòu)進(jìn)行頁面內(nèi)容分類,使搜索引擎檢索的頁面符合用戶的興趣。 有些頁面包含很多鏈接,而這些鏈接的頁面是用戶感興趣的,因此它們需要被檢索。 采用合理而高效的方法對被選擇的頁面進(jìn)行內(nèi)容分析和挖掘。,2019年6月28日星期五,DMKD Sides By MAO,18,虛擬的Web視圖,一個(gè)有效的解決在Web中大量無結(jié)構(gòu)數(shù)據(jù)的方法是在這些數(shù)據(jù)之上建立一個(gè)MLDB(Multiple Layered Database)。這個(gè)數(shù)據(jù)庫是多層次的, 每層索引都比它下一層要小。對于最底層來說,需要了解Web文檔結(jié)構(gòu),而最高層則有著完善的結(jié)構(gòu)并可以通過類似SQL的查詢語言進(jìn)行訪問或挖掘。 MLDB提供一個(gè)被稱為VMV(Virtual Web View)的視圖機(jī)制,Web中的感興趣的結(jié)構(gòu)被濃縮在這個(gè)視圖中。 等級(jí)概念(近意詞組、詞匯和語義聯(lián)系等)將幫助歸納過程來架構(gòu)更高層的MLDB。,2019年6月28日星期五,DMKD Sides By MAO,19,個(gè)性化與Web內(nèi)容挖掘,通過個(gè)性化,網(wǎng)頁的內(nèi)容和組織將更加適合用戶的需要。個(gè)性化服務(wù)是Web挖掘技術(shù)的重要目標(biāo)之一。 通過個(gè)性化,基于用戶所關(guān)心內(nèi)容的廣告會(huì)被發(fā)送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問一個(gè)站點(diǎn)時(shí),會(huì)有一個(gè)特別為它定制的廣告出現(xiàn),這對那些可能購買的用戶來說是一個(gè)極大的誘惑。 Web內(nèi)容挖掘的目的之一是基于頁面內(nèi)容相似度進(jìn)行用戶分類或聚類的,個(gè)性化的建立是通過用戶過去的檢索內(nèi)容分析而建立起來的。自動(dòng)的個(gè)性化技術(shù)可以通過過去的需要和相似用戶的需要來預(yù)知特定用戶將來的需要。,2019年6月28日星期五,DMKD Sides By MAO,20,Web頁面內(nèi)文本信息挖掘,挖掘的目標(biāo)是對頁面進(jìn)行摘要和分類。 頁面摘要:對每一個(gè)頁面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。 頁面分類:分類器輸入的是一個(gè)Web頁面集(訓(xùn)練集),再根據(jù)頁面文本信息內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí),然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸入的頁面。 在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來,而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是: 每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞,所以整個(gè)列集可能有幾十萬列之多。 每一行存儲(chǔ)一個(gè)頁面內(nèi)詞的信息,這時(shí),該頁面中的所有詞對應(yīng)到列集(特征集)上。列集中的每一個(gè)列(詞),如果在該頁面中不出現(xiàn),則其值為0;如果出現(xiàn)k次,那么其值就為k;頁面中的詞如果不出現(xiàn)在列集上,可以被放棄。這種方法可以表征出頁面中詞的頻度。 對中文頁面來說,還需先分詞然后再進(jìn)行以上兩步處理。 這樣構(gòu)造的二維表表示的是Web頁面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進(jìn)行分類挖掘。 在挖掘之前,一般要先進(jìn)行特征子集的選取,以降低維數(shù)。,2019年6月28日星期五,DMKD Sides By MAO,21,Web頁面內(nèi)多媒體信息挖掘,多媒體挖掘是一個(gè)大研究分支,總的挖掘過程是先要應(yīng)用多媒體信息特征提取工具,形成特征2維表,然后就可以采用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。 在特征提取階段,利用多媒體信息提取工具進(jìn)行特征提取。一般地,信息提取工具能夠抽取出image和video的文件名、URL、父URL、類型、鍵值表、顏色向量等。對這些特征可以進(jìn)行如下挖掘操作: 關(guān)聯(lián)規(guī)則發(fā)現(xiàn):例如,如果圖像是“大”的而且與關(guān)鍵詞“天空”有關(guān),那么它是藍(lán)色的概率為68%。 分類:根據(jù)提供的某種類標(biāo),針對特征集,利用決策樹可以進(jìn)行分類。,2019年6月28日星期五,DMKD Sides By MAO,22,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,23,Web訪問信息挖掘的特點(diǎn),Web訪問數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣 一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問信息。 廣泛分布于世界各處。 訪問信息形態(tài)多樣。 訪問信息具有豐富的內(nèi)涵。 Web訪問數(shù)據(jù)包含決策可用的信息 每個(gè)用戶的訪問特點(diǎn)可以被用來識(shí)別該用戶和網(wǎng)站訪問的特性。 同一類用戶的訪問,代表同一類用戶的個(gè)性。 一段時(shí)期的訪問數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。 Web訪問信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問者進(jìn)行溝通的橋梁。 Web訪問信息數(shù)據(jù)是開展數(shù)據(jù)挖掘研究的良好的對象。 Web訪問信息挖掘?qū)ο蟮奶攸c(diǎn) 訪問事務(wù)的元素是Web頁面,事務(wù)元素之間存在著豐富的結(jié)構(gòu)信息。 訪問事務(wù)的元素代表的是每個(gè)訪問者的順序關(guān)系,事務(wù)元素之間存在著豐富的順序信息。 每個(gè)頁面的內(nèi)容可以被抽象出不同的概念,訪問順序和訪問量部分決定概念。 用戶對頁面存在不同的訪問時(shí)長,訪問長代表了用戶的訪問興趣。,2019年6月28日星期五,DMKD Sides By MAO,24,Web訪問信息挖掘的意義,通過分析日志文件,可以發(fā)現(xiàn)用戶訪問頁面的特征、頁面被用戶訪問的規(guī)律、用戶頻繁訪問的頁組等,以便其合理、有效地優(yōu)化站點(diǎn)的結(jié)構(gòu),最終為用戶提供一個(gè)方便快捷信息獲取環(huán)境。有三方面的應(yīng)用具有代表性: Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識(shí)設(shè)計(jì)Web頁面的結(jié)構(gòu),而群體用戶根據(jù)各自的訪問興趣訪問這些頁面,那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理?怎樣的設(shè)計(jì)以便利于群體用戶的訪問,更加吸引訪問者?這些問題的解決是Web訪問信息挖掘的主要目的。 群體用戶的訪問存在哪些特點(diǎn)?如果掌握了這些特點(diǎn),那么就可以利用其開展進(jìn)一步的商務(wù)活動(dòng)。 對于每一個(gè)新的Web站點(diǎn)的訪問者,都會(huì)在曾經(jīng)訪問的群體用戶中找到一些最相似的相同的訪問者,那么那些訪問者的訪問就可以給這個(gè)新的訪問者提供推薦,以便利于該訪問者的進(jìn)一步訪問。,2019年6月28日星期五,DMKD Sides By MAO,25,典型的商業(yè)價(jià)值,面向群體訪問者,能夠: 提供高效訪問:減少有用信息的檢索時(shí)間,提高在大負(fù)載下的服務(wù)性能。 吸引訪問者。 保持訪問者:如果網(wǎng)站具有更好的結(jié)構(gòu)設(shè)計(jì),就能留住用戶。 避免訪問者離開:找到離開原因,改進(jìn)網(wǎng)站的結(jié)構(gòu)設(shè)計(jì)。 地區(qū)/行業(yè)/階層的分析:根據(jù)交易者留下的信息,可以知道訪問者所在的地區(qū)、所屬的行業(yè)或階層。 防止訪問者迷航:訪問者不能找到相應(yīng)的訪問目標(biāo),或者面對復(fù)雜的頁面結(jié)構(gòu)不知所措,那么遇到了迷航的問題。改進(jìn)頁面的結(jié)構(gòu)設(shè)計(jì)是必要的。 群體推薦:針對群體用戶的訪問偏好,推薦他們感興趣的東西。 針對性服務(wù):如在合適路徑上,就可以放置相應(yīng)內(nèi)容的廣告。 面向群體每一個(gè)訪問者,能夠: 個(gè)性化推薦。 用戶建模:根據(jù)已有群體用戶的訪問,推斷當(dāng)前用戶的特征。 個(gè)性化推銷(Direct Marketing):識(shí)別出對某種產(chǎn)品或服務(wù)的可能購買者,對其推薦相應(yīng)的產(chǎn)品或服務(wù)。,2019年6月28日星期五,DMKD Sides By MAO,26,Web訪問信息挖掘的數(shù)據(jù)源,由于Web世界的分布性,用戶訪問行為被廣泛地分布記錄在Web服務(wù)器、用戶客戶端,和代理服務(wù)器中。在各個(gè)分布地點(diǎn)的不同的用戶訪問信息表征了不同類型的用戶訪問行為。挖掘工作必須針對數(shù)據(jù)的特點(diǎn)來決定相應(yīng)的挖掘任務(wù)。用戶訪問信息的分布簡單歸結(jié)為: 服務(wù)器方:一般地,在一個(gè)Web服務(wù)器上,服務(wù)器日志記錄了多個(gè)用戶對單個(gè)站點(diǎn)的用戶訪問行為。 客戶方:一般地,在客戶端計(jì)算機(jī)上,客戶端的代理記錄了單個(gè)用戶對單個(gè)站點(diǎn)或單個(gè)用戶對多個(gè)站點(diǎn)的用戶訪問行為。客戶端的Cache記錄了用戶訪問內(nèi)容??蛻舳说腂ookMark也記錄了單個(gè)用戶對單個(gè)站點(diǎn)的訪問偏好。 客戶端代理服務(wù)器:代理服務(wù)器記錄了多個(gè)用戶對多個(gè)站點(diǎn)的訪問行為,同時(shí)代理服務(wù)器內(nèi)部的Cache記錄了多個(gè)用戶對多個(gè)站點(diǎn)的訪問內(nèi)容。,2019年6月28日星期五,DMKD Sides By MAO,27,服務(wù)器方訪問信息,一個(gè)Web服務(wù)器日志(Server log)反映出多個(gè)用戶對單個(gè)站點(diǎn)的訪問行為。 一個(gè)從實(shí)際Web服務(wù)器上采集的Log文件片段:,IP Address User ID Time Method/URI/Protocol Stauts Size 2 - - 10/Dec/1998:12:34:16 -0600 “GET /images/lchzhi.gif HTTP/1.1“ 200 44851 2 - - 10/Dec/1998:12:34:32 -0600 “GET /graduate.htm HTTP/1.1“ 200 7403 2 - - 10/Dec/1998:12:34:32 -0600 “GET /images/sxwys2.jpg HTTP/1.1“ 200 18481 9 - - 10/Dec/1998:12:34:48 -0600 “GET /result.htm HTTP/1.0“ 200 12302 2 - - 10/Dec/1998:12:34:58 0600 “GET /structure.htm HTTP/1.1“ 200 367 2 - - 10/Dec/1998:12:34:58 0600 “GET /struc-index.htm HTTP/1.1“ 200 4370 2 - - 10/Dec/1998:12:34:58 0600 “GET /struc-content.htm HTTP/1.1“ 200 12047 2 - - 10/Dec/1998:12:34:58 0600 “GET /images/znkfsys.jpg HTTP/1.1“ 200 22574,2019年6月28日星期五,DMKD Sides By MAO,28,代理服務(wù)器端訪問信息,代理服務(wù)器端的訪問信息包括用戶訪問日志和在Cache中被訪問的頁面信息。 一個(gè)代理服務(wù)器日志的例子(基于WindowsNT4.0的代理服務(wù)器):,8, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 200, 582, 1376, http, tcp, GET, /cjc/cjcw2.html, -, Inet, 304, 0 8, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 270, 2101, 1254, http, tcp, GET, /cjc/introc.html, -, VCache, 304, 0 8, HEADSWANG Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 171, 449, 1110, http, tcp, GET, /cjc/star.gif, -, Inet, 304, 0 8, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 211, 455, 826, http, tcp, GET, /cjc/INTROCG.JPG, -, Inet, 304, 0,2019年6月28日星期五,DMKD Sides By MAO,29,Web訪問信息挖掘的預(yù)處理,Web訪問信息挖掘的基礎(chǔ)和最煩瑣的工作是數(shù)據(jù)的預(yù)處理。預(yù)處理用戶訪問信息是整個(gè)數(shù)據(jù)準(zhǔn)備的核心工作,也是開展下一階段Web訪問信息挖掘的基礎(chǔ)。預(yù)處理階段主要的工作是識(shí)別用戶訪問事務(wù)和訪問片斷。 Web Usage Mining在預(yù)處理階段主要的工作有: 數(shù)據(jù)清洗:由于數(shù)據(jù)表示、寫入的對象差異以及用戶的興趣和挖掘算法對數(shù)據(jù)要求的不同,對于Web日志中的數(shù)據(jù)需要確定合理的數(shù)據(jù)清洗策略 。 識(shí)別用戶訪問事務(wù):在對Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,需要把對Web頁的訪問序列組織成邏輯單元以表征事務(wù)或用戶會(huì)話。,2019年6月28日星期五,DMKD Sides By MAO,30,數(shù)據(jù)清洗,合并數(shù)據(jù):在給定挖掘時(shí)間段后,數(shù)據(jù)清洗需要合并Web服務(wù)器上的多個(gè)日志文件,并且解析每個(gè)文件,將其轉(zhuǎn)化到數(shù)據(jù)庫或特定格式的數(shù)據(jù)文件中。 剔除不相關(guān)的數(shù)據(jù):在Web日志中一些存取記錄可能對挖掘來說是不必要的,例如圖形文件,壓縮文件等的存取可能對面向文本挖掘的用戶不需要考慮,所以應(yīng)該被剔除。通過檢查后綴gif、jpeg、zip、ps等就可以實(shí)現(xiàn)。 代理訪問的處理:由于搜索引擎或其他一些自動(dòng)代理的存在,日志中存在大量的由它們發(fā)出的請求。因此從日志中識(shí)別代理(Agent)或網(wǎng)絡(luò)爬蟲(Crawler or Spider)對站點(diǎn)的訪問是必須的。 正規(guī)化URI(Uniform Resource Identifier) :由于各種默認(rèn)情況的存在,需要進(jìn)一步正規(guī)化URI。 數(shù)據(jù)項(xiàng)解析:CGI數(shù)據(jù)項(xiàng)必須被解析在不同的域中,并被解析為對的形式。,2019年6月28日星期五,DMKD Sides By MAO,31,識(shí)別用戶訪問事務(wù),在Web日志中,用戶的訪問事務(wù)并不是一個(gè)顯然的結(jié)果,需要專門的算法來進(jìn)行識(shí)別和生成。找到相應(yīng)的事務(wù)集,才能對這個(gè)事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)等挖掘工作。 時(shí)間窗C大小的界定是一個(gè)經(jīng)驗(yàn)值(有人建議30分鐘較為合適)。,定義7-1 設(shè)L為用戶訪問日志,其中的一個(gè)項(xiàng)lL包括用戶的IP地址l.ip,用戶的標(biāo)識(shí)符l.uid,被存取頁的URI地址l.url,長度為l.length以及存取訪問的時(shí)間l.time,存取訪問的時(shí)長l.timelength,訪問事務(wù)被定義為: 這里C是一個(gè)固定的時(shí)間窗。,2019年6月28日星期五,DMKD Sides By MAO,32,其他信息的預(yù)處理技術(shù),1導(dǎo)航內(nèi)容片斷 在一些電子商務(wù)網(wǎng)站中,需要知道用戶到達(dá)一個(gè)內(nèi)容頁之前是經(jīng)歷哪些導(dǎo)航頁的。例如,一個(gè)用戶訪問事務(wù)為:N1,N2,N3,C1, N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中N為導(dǎo)航頁,C為內(nèi)容頁。識(shí)別導(dǎo)航內(nèi)容片斷就是要從用戶訪問事務(wù)中識(shí)別出: 片斷1:N1,N2,N3,C1。 片斷2:N4,N5,N6,C2。 片斷3:N7,N8,C3。 片斷4:N9,N10,N11,N12,C4。 2最大前向訪問序列 所謂用戶最大前向訪問序列是指在用戶訪問回退之前一直被訪問的頁面序列。每個(gè)最大前向訪問序列就構(gòu)成一個(gè)訪問片段。定義該片斷的優(yōu)點(diǎn)是有利于發(fā)現(xiàn)用戶感興趣的事務(wù)。顯然在用戶訪問事務(wù)中尋找最大前向序列必須要依據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)。,2019年6月28日星期五,DMKD Sides By MAO,33,在Web訪問挖掘中的常用技術(shù),1路徑分析 路徑分析最常用的應(yīng)用是用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問的路徑,這樣的知識(shí)對于一個(gè)電子商務(wù)網(wǎng)站或者信息安全評估是非常重要的。 2關(guān)聯(lián)規(guī)則發(fā)現(xiàn) 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,找到一般性的關(guān)聯(lián)知識(shí)。 3序列模式發(fā)現(xiàn) 在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。 4分類 發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。 5聚類 可以從Web Usage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。,2019年6月28日星期五,DMKD Sides By MAO,34,Web訪問信息挖掘的要素構(gòu)成,1數(shù)據(jù)來源 數(shù)據(jù)的來源分為服務(wù)器,代理服務(wù)器,和客戶端。 2數(shù)據(jù)類型 數(shù)據(jù)的類型主要分為結(jié)構(gòu),內(nèi)容,訪問信息,用戶概貌文件。 3用戶的數(shù)量 用戶的數(shù)量表現(xiàn)為:或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu)成,或者數(shù)據(jù)由多個(gè)用戶的信息構(gòu)成。 4站點(diǎn)的數(shù)量 在數(shù)據(jù)集中的Web站點(diǎn)的個(gè)數(shù)表現(xiàn)為:或者在數(shù)據(jù)集中只記錄單個(gè)站點(diǎn)的信息,或者記錄多個(gè)站點(diǎn)的信息。 5服務(wù)對象 Web訪問信息挖掘的結(jié)果由Web服務(wù)方進(jìn)行應(yīng)用。應(yīng)用的結(jié)果即服務(wù)對象可以是當(dāng)個(gè)單個(gè)用戶,或群體用戶。單個(gè)用戶即意味著個(gè)性化。 6挖掘手段 Web訪問信息挖掘所采用的各種數(shù)據(jù)挖掘方法,例如關(guān)聯(lián)規(guī)則發(fā)現(xiàn),聚類,分類,統(tǒng)計(jì)等等。,2019年6月28日星期五,DMKD Sides By MAO,35,利用Web訪問信息挖掘?qū)崿F(xiàn)用戶建模,由于Web網(wǎng)站的特性,對網(wǎng)站的經(jīng)營者和設(shè)計(jì)者而言,無法直接了解用戶的特性。然而對訪問者個(gè)人特性和群體用戶特性的了解對Web網(wǎng)站的服務(wù)方而言顯得尤為重要。幸運(yùn)的是可以通過數(shù)據(jù)挖掘的方法得到用戶的特性。 “用戶建?!保∕odelling Users)是指根據(jù)訪問者對一個(gè)Web站點(diǎn)上Web頁面的的訪問情況,可以模型化用戶的自身特性。在識(shí)別出用戶的特性后就可以開展針對性的服務(wù)。用戶建模主要有三種途徑。 推斷匿名訪問者的人口統(tǒng)計(jì)特性 在不打擾用戶的情況下,得到用戶概貌文件 根據(jù)用戶的訪問模式來聚類用戶,2019年6月28日星期五,DMKD Sides By MAO,36,利用Web訪問信息挖掘發(fā)現(xiàn)導(dǎo)航模式,發(fā)現(xiàn)導(dǎo)航模式(Discovering Navigation Patterns)是Web訪問信息挖掘的一個(gè)重要的研究領(lǐng)域。用戶的導(dǎo)航模式是指群體用戶對Web站點(diǎn)內(nèi)的頁面的瀏覽順序模式。 用戶導(dǎo)航模式的主要應(yīng)用在改進(jìn)站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等方面。 1改進(jìn)Web站點(diǎn)的結(jié)構(gòu)設(shè)計(jì) 2個(gè)性化行銷(Direct Marketing): 3利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航模式 4利用模板發(fā)現(xiàn)導(dǎo)航模式 5利用超文本概率文法發(fā)現(xiàn)導(dǎo)航模式,2019年6月28日星期五,DMKD Sides By MAO,37,利用Web訪問信息挖掘改進(jìn)訪問效率,1Web服務(wù)器推送技術(shù) 2自適應(yīng)網(wǎng)站 3應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)Web站點(diǎn)的訪問效率 4改進(jìn)Web服務(wù)器的性能 表7-10 改進(jìn)Web站點(diǎn)訪問效率方法的比較,2019年6月28日星期五,DMKD Sides By MAO,38,利用Web訪問信息挖掘進(jìn)行個(gè)性化服務(wù),在Web站點(diǎn)開展個(gè)性化(Personalization)服務(wù)的總的思路和步驟是: 模型化頁面和用戶; 分類頁面和用戶; 在頁面和對象之間進(jìn)行匹配; 判斷當(dāng)前訪問的類別以進(jìn)行推薦。 而且,個(gè)性化系統(tǒng)一般分為兩個(gè)部分:離線部分和在線部分。,表7-11個(gè)性化方法的比較,2019年6月28日星期五,DMKD Sides By MAO,39,利用Web訪問信息挖掘進(jìn)行商業(yè)智能發(fā)現(xiàn),表7-12 商業(yè)智能方法的比較,2019年6月28日星期五,DMKD Sides By MAO,40,利用Web訪問信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn),在移動(dòng)計(jì)算環(huán)境中,一個(gè)新的挖掘方法,即用戶的移動(dòng)模式挖掘被提出。挖掘的結(jié)果可以用于開發(fā)數(shù)據(jù)的分配模式以改變移動(dòng)系統(tǒng)的總的性能。首先,對移動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)行挖掘,可以得到頻繁用戶移動(dòng)模式。然后,根據(jù)挖掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配模式。 根據(jù)不同層次的挖掘結(jié)果,有兩種個(gè)人數(shù)據(jù)分配模式: 利用集合層次的用戶移動(dòng)模式(DS模式); 利用路徑層次的用戶移動(dòng)模式(DP模式)。,圖7-2 在一個(gè)移動(dòng)計(jì)算系統(tǒng)中移動(dòng)模式的例子,2019年6月28日星期五,DMKD Sides By MAO,41,利用Web訪問信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn),利用Web訪問信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)可以分為如下三個(gè)主要步驟: 數(shù)據(jù)收集階段:從各個(gè)服務(wù)器的日志集合中判斷最大的移動(dòng)序列和移動(dòng)對的出現(xiàn)次數(shù)。 挖掘階段:從第一步的結(jié)果集中的每w個(gè)最大移動(dòng)序列中判斷大項(xiàng)移動(dòng)序列??紤]到新近的移動(dòng)模式,設(shè)立w為一個(gè)回顧因子,一個(gè)可調(diào)整的窗口。 產(chǎn)生模式階段:根據(jù)第二步的得到的大項(xiàng)移動(dòng)序列,判斷用戶的移動(dòng)模式。,2019年6月28日星期五,DMKD Sides By MAO,42,利用協(xié)作推薦的方法實(shí)現(xiàn)實(shí)時(shí)個(gè)性化推薦,基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)的結(jié)構(gòu)如圖7-3所示。 圖7-3 基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng) 整個(gè)處理過程分為兩部分: 離線部分:包括數(shù)據(jù)準(zhǔn)備、得到推薦池、建立協(xié)作篩。 在線部分:推薦引擎。,2019年6月28日星期五,DMKD Sides By MAO,43,第七章 Web挖掘技術(shù) 內(nèi)容提要,Web挖掘的意義 Web挖掘的分類 Web挖掘的含義 Web挖掘的數(shù)據(jù)來源 Web內(nèi)容挖掘方法 Web訪問信息挖掘方法 Web結(jié)構(gòu)挖掘方法,2019年6月28日星期五,DMKD Sides By MAO,44,頁面重要性的評價(jià)方法,在設(shè)計(jì)搜索引擎等服務(wù)時(shí),對Web頁面的鏈接結(jié)構(gòu)進(jìn)行挖掘以得出有用的知識(shí)是提高檢索效率的重要手段。Web頁面的鏈接類似學(xué)術(shù)上的引用,因此一個(gè)重要的頁面可能會(huì)有很多頁面的鏈接指向它。 定義7-3 設(shè)u為一個(gè)Web頁,F(xiàn)u為所有u指向的頁面的集合,Bu為所有指向u的頁面的集合。設(shè)Nu= |Fu|為從u發(fā)出的鏈接的個(gè)數(shù),c(1)為一個(gè)歸一化的因子(因此所有頁面的總的PageRank為一個(gè)常數(shù)),那么u頁面的PageRank被定義為: 一個(gè)頁面對應(yīng)的PageRank值被分配到所有它所指向的頁面中;每一個(gè)頁面求和所有指向它的鏈接所帶來的PageRank以得到它的新的PageRank。在計(jì)算時(shí)可以從任何一個(gè)頁面開始,通過上面的公式反復(fù)計(jì)算直到其收斂。,2019年6月28日星期五,DMKD Sides By MAO,45,頁面等級(jí),一般地說,頁面的頁面等級(jí)值是通過指向這個(gè)頁面的數(shù)量來計(jì)算的,即通過指向向后連接數(shù)來計(jì)算的。向后連接是指向這個(gè)頁面的連接減去它指向外面的連接。計(jì)算量不是簡單地向后連接的數(shù)量加合,而是要考慮向后連接的頁面的重要性。 給定一個(gè)頁面p,我們使用Bp作為指向一系列指向P的頁面,并且用Fp作為一系列由外部指向P的連接,則 這里的Nq=|Fq|。常量c是一個(gè)介于0,1之間的數(shù),用于標(biāo)準(zhǔn)化。 這里有一個(gè)循環(huán)分級(jí)的問題。當(dāng)計(jì)算一個(gè)頁面的頁面等級(jí)時(shí),如果發(fā)生循環(huán)則產(chǎn)生這個(gè)錯(cuò)誤(頁面A指向頁面B,頁面B同時(shí)指向頁面A),此時(shí)頁面等級(jí)值隨這些頁面增加??梢酝ㄟ^另一個(gè)公式解決: 其中c是最大值,E(v)是一個(gè)矢量來增加一個(gè)人工連接。它是模擬一個(gè)用戶不隨著連接訪問其他頁面,而是隨機(jī)跳到一個(gè)新的頁面。E(v)增加一對結(jié)點(diǎn)中間可能的連接。,2019年6月28日星期五,DMKD Sides By MAO,46,權(quán)威頁面和中心頁面,所謂權(quán)威頁面是指包含需求信息的最佳資源頁面。所謂中心頁面是一個(gè)包含權(quán)威頁面連接的頁面。 HITS(Hyperlink-Induced Topic Search)是遵照尋找權(quán)威頁面和中心頁面的典型方法。HITS技術(shù)由兩部分組成: 基于一組給定的關(guān)鍵字,可以找到相關(guān)的頁面。 權(quán)威和中心頁面與上述頁面有關(guān),返回具有最高權(quán)重的頁面。,算法7-3 HITS 輸入: (把www 看作)一個(gè)引導(dǎo)圖W;查詢請求q;支持s。 輸出:權(quán)威頁面的集合A;中心頁面的集合H。 (1)BEGIN (2) R=SE(W, q);/利用q得到頁面的根集合R (3) B= R 指向R的連接來自R的連接; (4) G(B, L)= 由B導(dǎo)出的W的子圖; (5) G(B, L1)=刪除G中相同站點(diǎn)的連接; (6) xp=q Yq;/ L1,得到權(quán)威頁面的權(quán)重; (7) yp=q Xq;/ L1 ,得到中心頁面的權(quán)重; (8) A=p|p為具有最高xp值的頁面; (9) H=p|p為具有最高yp值的頁面; (10)END,2019年6月28日星期五,DMKD Sides By MAO,47,Web訪問信息的一些概念,W3C國際組織已經(jīng)為Web訪問信息定義了一些基本概念: 定義7-4 用戶(User):用戶被定義為一個(gè)通過瀏覽器訪問一個(gè)或者多個(gè)Web服務(wù)器的訪問者。一個(gè)用戶可以通過幾臺(tái)PC機(jī)或者使用多個(gè)瀏覽器來訪問,因此識(shí)別用戶是任務(wù)之一。 定義7-5 頁面文件(Page File):一個(gè)頁面文件是通過HTTP請求發(fā)給用戶的文件。頁面文件有靜態(tài)的和動(dòng)態(tài)的,動(dòng)態(tài)頁面文件由Web服務(wù)器動(dòng)態(tài)生成響應(yīng)用戶的請求。 定義7-6 頁面視圖(Page View):一個(gè)頁面視圖由一個(gè)集合的頁面文件組成,頁面視圖通常與一個(gè)用戶的行為相關(guān)(如一次鼠標(biāo)點(diǎn)擊)。由框架(frame)、圖片、和script等組成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論