32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件

上傳人：s*** IP屬地：貴州上傳時(shí)間：2023-07-22 格式：PPT 頁(yè)數(shù)：52 大小：349.50KB 積分：25 舉報(bào) 版權(quán)申訴

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第2頁(yè)

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第3頁(yè)

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第4頁(yè)

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第5頁(yè)

已閱讀5頁(yè)，還剩47頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/211整體概述THEFIRSTPARTOFTHEOVERALLOVERVIEW,PLEASESUMMARIZETHECONTENT第一部分Web挖掘的價(jià)值從大量的信息中發(fā)現(xiàn)用戶感興趣的信息

：因特網(wǎng)上蘊(yùn)藏著大量的信息，通過(guò)簡(jiǎn)單的瀏覽或關(guān)鍵詞匹配的搜索引擎得到的是孤立而凌亂的“表面信息”，Web挖掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。將Web上的豐富信息轉(zhuǎn)變成有用的知識(shí)：Web挖掘是面向Web數(shù)據(jù)進(jìn)行分析和知識(shí)提取的。因特網(wǎng)中頁(yè)面內(nèi)部、頁(yè)面間、頁(yè)面鏈接、頁(yè)面訪問(wèn)等都包含大量對(duì)用戶可用的信息，而這些信息的深層次含義是很難被用戶直接使用的，必須經(jīng)過(guò)濃縮和提煉。對(duì)用戶進(jìn)行信息個(gè)性化：網(wǎng)站信息的個(gè)性化是將來(lái)的發(fā)展趨勢(shì)。通過(guò)Web挖掘，可以達(dá)到對(duì)用戶訪問(wèn)行為、頻度、內(nèi)容等的分析，可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí)，用以改進(jìn)Web服務(wù)方的設(shè)計(jì)，提供個(gè)性化的服務(wù)。2023/7/213第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/214Web挖掘的類型Web挖掘依靠它所挖掘的信息來(lái)源可以分為：Web內(nèi)容挖掘（WebContentMining）：對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等，挖掘某類信息所蘊(yùn)含的知識(shí)模式。Web訪問(wèn)信息挖掘（WebUsageMining）：Web訪問(wèn)信息挖掘是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器方留下的訪問(wèn)記錄進(jìn)行挖掘。通過(guò)分析日志記錄中的規(guī)律，可以識(shí)別用戶的忠實(shí)度、喜好、滿意度，可以發(fā)現(xiàn)潛在用戶，增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。Web結(jié)構(gòu)挖掘（WebStructureMining）：Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里，有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中，而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的Web頁(yè)面集合，通過(guò)結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián)信息，頁(yè)面之間的包含、引用或者從屬關(guān)系等。2023/7/215第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/216Web挖掘的含義WeB挖掘是一個(gè)看寬泛的概念，可以簡(jiǎn)單地描述為：針對(duì)包括Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù)，應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí)，為訪問(wèn)者、站點(diǎn)經(jīng)營(yíng)者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。2023/7/217Web挖掘與信息檢索兩種截然不同的觀點(diǎn)：Web上的信息檢索是Web挖掘的一個(gè)方面：Web挖掘旨在解決信息檢索、知識(shí)抽取以及更寬泛的商業(yè)問(wèn)題，是Web上IR技術(shù)的延伸。這種觀點(diǎn)大多來(lái)自于數(shù)據(jù)挖掘研究領(lǐng)域。Web挖掘是智能化的信息檢索：對(duì)于IR領(lǐng)域的研究人員來(lái)說(shuō)，Web挖掘是IR研究向著智能化的方向發(fā)展的結(jié)果。信息檢索可能經(jīng)常被說(shuō)成是Web挖掘的初級(jí)階段，是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù)，而是實(shí)現(xiàn)信息濃縮成知識(shí)的過(guò)程，它可以支持更高級(jí)的商業(yè)決策和分析。2023/7/218Web挖掘與信息抽取Web上的IE的研究目的是希望從眾多的Web文擋中抽取可供分析的信息，與Web挖掘的關(guān)系也有不同的觀點(diǎn)：IE是Web挖掘整個(gè)過(guò)程的一部分：這是因?yàn)閃eb上的數(shù)據(jù)一般是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的，因此需要進(jìn)行規(guī)格化的信息抽取這樣的預(yù)處理。Web挖掘是IE的一個(gè)特殊技術(shù)：既然IE是希望把Web蘊(yùn)藏的信息抽取出來(lái)，那么Web挖掘或者文本挖掘只不過(guò)是達(dá)到這個(gè)目的的特殊技術(shù)手段。信息抽取經(jīng)常被說(shuō)成是Web挖掘的一個(gè)預(yù)處理階段，那是因?yàn)樵跀?shù)據(jù)挖掘領(lǐng)域，Web挖掘的更廣義的理解應(yīng)該是一個(gè)知識(shí)提取的完整過(guò)程。2023/7/219第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源

Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/2110Web挖掘的主要數(shù)據(jù)源Web挖掘的數(shù)據(jù)來(lái)源是寬泛的：凡是在Web站點(diǎn)中對(duì)用戶有價(jià)值的數(shù)據(jù)都可以成為它挖掘的數(shù)據(jù)源。由于這些對(duì)象的數(shù)據(jù)形式及含義的差異，其挖掘技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有：服務(wù)器日志數(shù)據(jù)：Web訪問(wèn)信息挖掘的主要數(shù)據(jù)源。2023/7/2111服務(wù)器日志數(shù)據(jù)對(duì)Web服務(wù)器的訪問(wèn)，服務(wù)器方將會(huì)產(chǎn)生3種類型的日志文件：Serverlogs：記錄用戶的訪問(wèn)時(shí)間、IP地址以及請(qǐng)求等信息。Errorlogs：存取請(qǐng)求失敗的數(shù)據(jù)，例如丟失連接、授權(quán)失敗或超時(shí)等?ookielogs：Cookie是由web服務(wù)器產(chǎn)生的記號(hào)并由客戶端持有，用于識(shí)別用戶和用戶的會(huì)話。

Field Description

Date Date，time，andtimezoneofrequest ClientIP RemotehostIPand/orDNSentry Username Remotelognameoftheuser Bytes Bytestransferred(sentandreceived) Server Servername，IPaddressandport Request URIqueryandstem Status httpstatuscodereturnedtotheclient Servicename Requestedservicename Timetaken Timetakenfortransactiontocomplete Protocolversion Versionofusedtransferprotocol Useragent Serviceprovider Cookie CookieID Referrer Previouspage … … Serverlogs的一個(gè)格式示意2023/7/2112在線市場(chǎng)數(shù)據(jù)在線市場(chǎng)數(shù)據(jù)是指和市場(chǎng)活動(dòng)相關(guān)的信息。例如一個(gè)電子商務(wù)站點(diǎn)，存儲(chǔ)相關(guān)的電子商務(wù)信息。從內(nèi)容上說(shuō)，不同目的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是，這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù)。在線市場(chǎng)數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù)，是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只有結(jié)合在線市場(chǎng)數(shù)據(jù)分析才能達(dá)到目的。2023/7/2113Web頁(yè)面Web頁(yè)面是網(wǎng)站信息的主體，但是它們的主要信息不可能像關(guān)系型數(shù)據(jù)庫(kù)那樣規(guī)整，因此Web頁(yè)面的內(nèi)容組織形式的分析是研究Web挖掘的具體方法的基礎(chǔ)。目前的Web頁(yè)面大多滿足HTML標(biāo)準(zhǔn)，現(xiàn)有的Web挖掘方法大多是針對(duì)Web頁(yè)面開(kāi)展的。1998年WWW社團(tuán)提出了XML語(yǔ)言標(biāo)準(zhǔn)（eXtensibleMarkupLanguage）。該標(biāo)準(zhǔn)通過(guò)把一些描述頁(yè)面內(nèi)容的標(biāo)記（tag）添加到HTML頁(yè)面中，用于對(duì)HTML頁(yè)面內(nèi)容進(jìn)行自描述?；赬ML規(guī)范的挖掘研究也是一個(gè)重要的研究分支。2023/7/2114第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法

Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/2115Web內(nèi)容挖掘的主要方法一種Web內(nèi)容挖掘的分類方法是分為代理人方法和數(shù)據(jù)庫(kù)方法。代理人方法使用軟件系統(tǒng)（代理）來(lái)完成內(nèi)容挖掘。例如，智能檢索代理超越了簡(jiǎn)單的檢索機(jī)制使用通過(guò)關(guān)鍵詞之外的技術(shù)來(lái)完成檢索，可以利用用戶模版或其關(guān)心的知識(shí)領(lǐng)域等來(lái)實(shí)現(xiàn)信息的抽取。信息過(guò)濾利用信息檢索技術(shù)、連接結(jié)構(gòu)的知識(shí)和其他方法來(lái)分析和分類文檔。個(gè)性化Web代理使用有關(guān)用戶的喜好的信息來(lái)指導(dǎo)它們的檢索。數(shù)據(jù)庫(kù)方法將所有的Web數(shù)據(jù)描述為一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)。意味著Web是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng)，可以通過(guò)多種查詢語(yǔ)言來(lái)獲得Web的信息來(lái)完成信息的抽取。2023/7/2116文本挖掘是Web內(nèi)容挖掘的基礎(chǔ)文本挖掘（TD）的方式和目標(biāo)是多種多樣的，基本層次有：關(guān)鍵詞檢索：最簡(jiǎn)單的方式，它和傳統(tǒng)的搜索技術(shù)類似。挖掘項(xiàng)目關(guān)聯(lián)：聚焦在頁(yè)面的信息（包括關(guān)鍵詞）之間的關(guān)聯(lián)信息挖掘上。信息分類和聚類：利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁(yè)面的分類，將頁(yè)面在一個(gè)更到層次上進(jìn)行抽象和整理。自然語(yǔ)言處理：揭示自然語(yǔ)言處理技術(shù)中的語(yǔ)義，實(shí)現(xiàn)Web內(nèi)容的更精確處理。

ClusteringionClassificationTermassociationKeywordNaturallanguageprocessing圖7-1文本挖掘體系示意2023/7/2117搜索引擎與Web內(nèi)容挖掘傳統(tǒng)的搜索引擎（SearchingEngine）效率低下。由于是基于Web中超文本結(jié)構(gòu)分解的：它從一個(gè)網(wǎng)頁(yè)開(kāi)始的，通過(guò)查閱和記錄這個(gè)網(wǎng)頁(yè)的所有連接并把它們排列起來(lái)，然后再?gòu)恼业降男马?yè)面繼續(xù)開(kāi)始重復(fù)工作。利用數(shù)據(jù)挖掘技術(shù)來(lái)改進(jìn)搜索引擎是有價(jià)值的。這種價(jià)值體現(xiàn)在許多方面。例如，通過(guò)對(duì)搜索結(jié)果進(jìn)行關(guān)聯(lián)分析或聚類等，對(duì)結(jié)果進(jìn)行清洗和濃縮。面向主題進(jìn)行搜索，即只檢索與某一主題有關(guān)的頁(yè)面。聚焦用戶感興趣的頁(yè)面，在有限的資源下使有效內(nèi)容挖掘力度提高?；谒阉饕娴耐诰蚬ぷ饔邢旅嬉恍┲匾矫妫豪贸谋炬溄咏Y(jié)構(gòu)進(jìn)行頁(yè)面內(nèi)容分類，使搜索引擎檢索的頁(yè)面符合用戶的興趣。有些頁(yè)面包含很多鏈接，而這些鏈接的頁(yè)面是用戶感興趣的，因此它們需要被檢索。采用合理而高效的方法對(duì)被選擇的頁(yè)面進(jìn)行內(nèi)容分析和挖掘。2023/7/2118虛擬的Web視圖一個(gè)有效的解決在Web中大量無(wú)結(jié)構(gòu)數(shù)據(jù)的方法是在這些數(shù)據(jù)之上建立一個(gè)MLDB（MultipleLayeredDatabase）。這個(gè)數(shù)據(jù)庫(kù)是多層次的，每層索引都比它下一層要小。對(duì)于最底層來(lái)說(shuō)，需要了解Web文檔結(jié)構(gòu)，而最高層則有著完善的結(jié)構(gòu)并可以通過(guò)類似SQL的查詢語(yǔ)言進(jìn)行訪問(wèn)或挖掘。MLDB提供一個(gè)被稱為VMV（VirtualWebView）的視圖機(jī)制，Web中的感興趣的結(jié)構(gòu)被濃縮在這個(gè)視圖中。等級(jí)概念（近意詞組、詞匯和語(yǔ)義聯(lián)系等）將幫助歸納過(guò)程來(lái)架構(gòu)更高層的MLDB。

2023/7/2119個(gè)性化與Web內(nèi)容挖掘通過(guò)個(gè)性化，網(wǎng)頁(yè)的內(nèi)容和組織將更加適合用戶的需要。個(gè)性化服務(wù)是Web挖掘技術(shù)的重要目標(biāo)之一。通過(guò)個(gè)性化，基于用戶所關(guān)心內(nèi)容的廣告會(huì)被發(fā)送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問(wèn)一個(gè)站點(diǎn)時(shí)，會(huì)有一個(gè)特別為它定制的廣告出現(xiàn)，這對(duì)那些可能購(gòu)買(mǎi)的用戶來(lái)說(shuō)是一個(gè)極大的誘惑。Web內(nèi)容挖掘的目的之一是基于頁(yè)面內(nèi)容相似度進(jìn)行用戶分類或聚類的，個(gè)性化的建立是通過(guò)用戶過(guò)去的檢索內(nèi)容分析而建立起來(lái)的。自動(dòng)的個(gè)性化技術(shù)可以通過(guò)過(guò)去的需要和相似用戶的需要來(lái)預(yù)知特定用戶將來(lái)的需要。2023/7/2120Web頁(yè)面內(nèi)文本信息挖掘挖掘的目標(biāo)是對(duì)頁(yè)面進(jìn)行摘要和分類。頁(yè)面摘要：對(duì)每一個(gè)頁(yè)面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。頁(yè)面分類：分類器輸入的是一個(gè)Web頁(yè)面集（訓(xùn)練集），再根據(jù)頁(yè)面文本信息內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí)，然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸入的頁(yè)面。在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法，它是一種文檔的詞集（Bag-of-Words）表示法，所有的詞從文檔中抽取出來(lái)，而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是：每一列為一個(gè)詞，列集（特征集）為辭典中的所有有區(qū)分價(jià)值的詞，所以整個(gè)列集可能有幾十萬(wàn)列之多。每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息，這時(shí)，該頁(yè)面中的所有詞對(duì)應(yīng)到列集（特征集）上。列集中的每一個(gè)列（詞），如果在該頁(yè)面中不出現(xiàn)，則其值為0；如果出現(xiàn)k次，那么其值就為k；頁(yè)面中的詞如果不出現(xiàn)在列集上，可以被放棄。這種方法可以表征出頁(yè)面中詞的頻度。對(duì)中文頁(yè)面來(lái)說(shuō)，還需先分詞然后再進(jìn)行以上兩步處理。這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息，最終就可以采用NaiveBayesian方法或k-NearestNeighbor等方法進(jìn)行分類挖掘。在挖掘之前，一般要先進(jìn)行特征子集的選取，以降低維數(shù)。2023/7/2121Web頁(yè)面內(nèi)多媒體信息挖掘多媒體挖掘是一個(gè)大研究分支，總的挖掘過(guò)程是先要應(yīng)用多媒體信息特征提取工具，形成特征2維表，然后就可以采用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。在特征提取階段，利用多媒體信息提取工具進(jìn)行特征提取。一般地，信息提取工具能夠抽取出image和video的文件名、URL、父URL、類型、鍵值表、顏色向量等。對(duì)這些特征可以進(jìn)行如下挖掘操作：關(guān)聯(lián)規(guī)則發(fā)現(xiàn)：例如，如果圖像是“大”的而且與關(guān)鍵詞“天空”有關(guān)，那么它是藍(lán)色的概率為68%。分類：根據(jù)提供的某種類標(biāo)，針對(duì)特征集，利用決策樹(shù)可以進(jìn)行分類。2023/7/2122第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法

Web結(jié)構(gòu)挖掘方法2023/7/2123Web訪問(wèn)信息挖掘的特點(diǎn)Web訪問(wèn)數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問(wèn)信息。廣泛分布于世界各處。訪問(wèn)信息形態(tài)多樣。訪問(wèn)信息具有豐富的內(nèi)涵。Web訪問(wèn)數(shù)據(jù)包含決策可用的信息每個(gè)用戶的訪問(wèn)特點(diǎn)可以被用來(lái)識(shí)別該用戶和網(wǎng)站訪問(wèn)的特性。同一類用戶的訪問(wèn)，代表同一類用戶的個(gè)性。一段時(shí)期的訪問(wèn)數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。Web訪問(wèn)信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問(wèn)者進(jìn)行溝通的橋梁。Web訪問(wèn)信息數(shù)據(jù)是開(kāi)展數(shù)據(jù)挖掘研究的良好的對(duì)象。Web訪問(wèn)信息挖掘?qū)ο蟮奶攸c(diǎn)訪問(wèn)事務(wù)的元素是Web頁(yè)面，事務(wù)元素之間存在著豐富的結(jié)構(gòu)信息。訪問(wèn)事務(wù)的元素代表的是每個(gè)訪問(wèn)者的順序關(guān)系，事務(wù)元素之間存在著豐富的順序信息。每個(gè)頁(yè)面的內(nèi)容可以被抽象出不同的概念，訪問(wèn)順序和訪問(wèn)量部分決定概念。用戶對(duì)頁(yè)面存在不同的訪問(wèn)時(shí)長(zhǎng)，訪問(wèn)長(zhǎng)代表了用戶的訪問(wèn)興趣。2023/7/2124Web訪問(wèn)信息挖掘的意義通過(guò)分析日志文件，可以發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的特征、頁(yè)面被用戶訪問(wèn)的規(guī)律、用戶頻繁訪問(wèn)的頁(yè)組等，以便其合理、有效地優(yōu)化站點(diǎn)的結(jié)構(gòu)，最終為用戶提供一個(gè)方便快捷信息獲取環(huán)境。有三方面的應(yīng)用具有代表性：Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識(shí)設(shè)計(jì)Web頁(yè)面的結(jié)構(gòu)，而群體用戶根據(jù)各自的訪問(wèn)興趣訪問(wèn)這些頁(yè)面，那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理？怎樣的設(shè)計(jì)以便利于群體用戶的訪問(wèn)，更加吸引訪問(wèn)者？這些問(wèn)題的解決是Web訪問(wèn)信息挖掘的主要目的。群體用戶的訪問(wèn)存在哪些特點(diǎn)？如果掌握了這些特點(diǎn)，那么就可以利用其開(kāi)展進(jìn)一步的商務(wù)活動(dòng)。對(duì)于每一個(gè)新的Web站點(diǎn)的訪問(wèn)者，都會(huì)在曾經(jīng)訪問(wèn)的群體用戶中找到一些最相似的相同的訪問(wèn)者，那么那些訪問(wèn)者的訪問(wèn)就可以給這個(gè)新的訪問(wèn)者提供推薦，以便利于該訪問(wèn)者的進(jìn)一步訪問(wèn)。2023/7/2125典型的商業(yè)價(jià)值面向群體訪問(wèn)者，能夠：提供高效訪問(wèn)：減少有用信息的檢索時(shí)間，提高在大負(fù)載下的服務(wù)性能。吸引訪問(wèn)者。保持訪問(wèn)者：如果網(wǎng)站具有更好的結(jié)構(gòu)設(shè)計(jì)，就能留住用戶。避免訪問(wèn)者離開(kāi)：找到離開(kāi)原因，改進(jìn)網(wǎng)站的結(jié)構(gòu)設(shè)計(jì)。地區(qū)/行業(yè)/階層的分析：根據(jù)交易者留下的信息，可以知道訪問(wèn)者所在的地區(qū)、所屬的行業(yè)或階層。防止訪問(wèn)者迷航：訪問(wèn)者不能找到相應(yīng)的訪問(wèn)目標(biāo)，或者面對(duì)復(fù)雜的頁(yè)面結(jié)構(gòu)不知所措，那么遇到了迷航的問(wèn)題。改進(jìn)頁(yè)面的結(jié)構(gòu)設(shè)計(jì)是必要的。群體推薦：針對(duì)群體用戶的訪問(wèn)偏好，推薦他們感興趣的東西。針對(duì)性服務(wù)：如在合適路徑上，就可以放置相應(yīng)內(nèi)容的廣告。面向群體每一個(gè)訪問(wèn)者，能夠：個(gè)性化推薦。用戶建模：根據(jù)已有群體用戶的訪問(wèn)，推斷當(dāng)前用戶的特征。個(gè)性化推銷（DirectMarketing）：識(shí)別出對(duì)某種產(chǎn)品或服務(wù)的可能購(gòu)買(mǎi)者，對(duì)其推薦相應(yīng)的產(chǎn)品或服務(wù)。2023/7/2126Web訪問(wèn)信息挖掘的數(shù)據(jù)源由于Web世界的分布性，用戶訪問(wèn)行為被廣泛地分布記錄在Web服務(wù)器、用戶客戶端，和代理服務(wù)器中。在各個(gè)分布地點(diǎn)的不同的用戶訪問(wèn)信息表征了不同類型的用戶訪問(wèn)行為。挖掘工作必須針對(duì)數(shù)據(jù)的特點(diǎn)來(lái)決定相應(yīng)的挖掘任務(wù)。用戶訪問(wèn)信息的分布簡(jiǎn)單歸結(jié)為：服務(wù)器方：一般地，在一個(gè)Web服務(wù)器上，服務(wù)器日志記錄了多個(gè)用戶對(duì)單個(gè)站點(diǎn)的用戶訪問(wèn)行為?？蛻舴剑阂话愕?，在客戶端計(jì)算機(jī)上，客戶端的代理記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)或單個(gè)用戶對(duì)多個(gè)站點(diǎn)的用戶訪問(wèn)行為?？蛻舳说腃ache記錄了用戶訪問(wèn)內(nèi)容?？蛻舳说腂ookMark也記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)偏好?？蛻舳舜矸?wù)器：代理服務(wù)器記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)行為，同時(shí)代理服務(wù)器內(nèi)部的Cache記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)內(nèi)容。2023/7/2127服務(wù)器方訪問(wèn)信息一個(gè)Web服務(wù)器日志（Serverlog）反映出多個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)行為。一個(gè)從實(shí)際Web服務(wù)器上采集的Log文件片段:IPAddress UserID Time Method/URI/Protocol Stauts Size2 -- 10/Dec/1998:12:34:16-0600 "GET/images/lchzhi.gifHTTP/1.1" 200 44851 2 -- 10/Dec/1998:12:34:32-0600 "GET/graduate.htmHTTP/1.1" 200 7403 2 -- 10/Dec/1998:12:34:32-0600 "GET/images/sxwys2.jpgHTTP/1.1" 200 18481 9 -- 10/Dec/1998:12:34:48-0600 "GET/result.htmHTTP/1.0" 200 12302 2 -- 10/Dec/1998:12:34:58–0600 "GET/structure.htmHTTP/1.1" 200 367 2 -- 10/Dec/1998:12:34:58–0600 "GET/struc-index.htmHTTP/1.1" 200 4370 2 -- 10/Dec/1998:12:34:58–0600 "GET/struc-content.htmHTTP/1.1" 200 12047 2 -- 10/Dec/1998:12:34:58–0600 "GET/images/znkfsys.jpgHTTP/1.1" 200 22574 2023/7/2128代理服務(wù)器端訪問(wèn)信息代理服務(wù)器端的訪問(wèn)信息包括用戶訪問(wèn)日志和在Cache中被訪問(wèn)的頁(yè)面信息。一個(gè)代理服務(wù)器日志的例子（基于WindowsNT4.0的代理服務(wù)器）:8，HEAD\SWANG，Mozilla/4.0(compatible;MSIE4.0;Windows95)，Y，99-3-28，15:57:44，W3Proxy，NTPROXY，-，，，80，200，582，1376，http，tcp，GET，/cjc/cjcw2.html，-，Inet，304，08，HEAD\SWANG，Mozilla/4.0(compatible;MSIE4.0;Windows95)，Y，99-3-28，15:57:44，W3Proxy，NTPROXY，-，，，80，270，2101，1254，http，tcp，GET，/cjc/introc.html，-，VCache，304，08，HEAD\SWANGMozilla/4.0(compatible;MSIE4.0;Windows95)，Y，99-3-28，15:57:44，W3Proxy，NTPROXY，-，，，80，171，449，1110，http，tcp，GET，/cjc/star.gif，-，Inet，304，08，HEAD\SWANG，Mozilla/4.0(compatible;MSIE4.0;Windows95)，Y，99-3-28，15:57:44，W3Proxy，NTPROXY，-，，，80，211，455，826，http，tcp，GET，/cjc/INTROCG.JPG，-，Inet，304，02023/7/2129Web訪問(wèn)信息挖掘的預(yù)處理Web訪問(wèn)信息挖掘的基礎(chǔ)和最煩瑣的工作是數(shù)據(jù)的預(yù)處理。預(yù)處理用戶訪問(wèn)信息是整個(gè)數(shù)據(jù)準(zhǔn)備的核心工作，也是開(kāi)展下一階段Web訪問(wèn)信息挖掘的基礎(chǔ)。預(yù)處理階段主要的工作是識(shí)別用戶訪問(wèn)事務(wù)和訪問(wèn)片斷。WebUsageMining在預(yù)處理階段主要的工作有：數(shù)據(jù)清洗：由于數(shù)據(jù)表示、寫(xiě)入的對(duì)象差異以及用戶的興趣和挖掘算法對(duì)數(shù)據(jù)要求的不同，對(duì)于Web日志中的數(shù)據(jù)需要確定合理的數(shù)據(jù)清洗策略。識(shí)別用戶訪問(wèn)事務(wù)：在對(duì)Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前，需要把對(duì)Web頁(yè)的訪問(wèn)序列組織成邏輯單元以表征事務(wù)或用戶會(huì)話。2023/7/2130數(shù)據(jù)清洗合并數(shù)據(jù)：在給定挖掘時(shí)間段后，數(shù)據(jù)清洗需要合并Web服務(wù)器上的多個(gè)日志文件，并且解析每個(gè)文件，將其轉(zhuǎn)化到數(shù)據(jù)庫(kù)或特定格式的數(shù)據(jù)文件中。剔除不相關(guān)的數(shù)據(jù)：在Web日志中一些存取記錄可能對(duì)挖掘來(lái)說(shuō)是不必要的，例如圖形文件，壓縮文件等的存取可能對(duì)面向文本挖掘的用戶不需要考慮，所以應(yīng)該被剔除。通過(guò)檢查后綴gif、jpeg、zip、ps等就可以實(shí)現(xiàn)。代理訪問(wèn)的處理：由于搜索引擎或其他一些自動(dòng)代理的存在，日志中存在大量的由它們發(fā)出的請(qǐng)求。因此從日志中識(shí)別代理（Agent）或網(wǎng)絡(luò)爬蟲(chóng)（CrawlerorSpider）對(duì)站點(diǎn)的訪問(wèn)是必須的。正規(guī)化URI（UniformResourceIdentifier）：由于各種默認(rèn)情況的存在，需要進(jìn)一步正規(guī)化URI。數(shù)據(jù)項(xiàng)解析：CGI數(shù)據(jù)項(xiàng)必須被解析在不同的域中，并被解析為<名字，值>對(duì)的形式。2023/7/2131識(shí)別用戶訪問(wèn)事務(wù)在Web日志中，用戶的訪問(wèn)事務(wù)并不是一個(gè)顯然的結(jié)果，需要專門(mén)的算法來(lái)進(jìn)行識(shí)別和生成。找到相應(yīng)的事務(wù)集，才能對(duì)這個(gè)事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)等挖掘工作。

時(shí)間窗C大小的界定是一個(gè)經(jīng)驗(yàn)值（有人建議30分鐘較為合適）。定義7-1設(shè)L為用戶訪問(wèn)日志，其中的一個(gè)項(xiàng)lL包括用戶的IP地址l.ip，用戶的標(biāo)識(shí)符l.uid，被存取頁(yè)的URI地址l.url，長(zhǎng)度為l.length以及存取訪問(wèn)的時(shí)間l.time，存取訪問(wèn)的時(shí)長(zhǎng)l.timelength，訪問(wèn)事務(wù)被定義為：

這里C是一個(gè)固定的時(shí)間窗。2023/7/2132其他信息的預(yù)處理技術(shù)1．導(dǎo)航內(nèi)容片斷

在一些電子商務(wù)網(wǎng)站中，需要知道用戶到達(dá)一個(gè)內(nèi)容頁(yè)之前是經(jīng)歷哪些導(dǎo)航頁(yè)的。例如，一個(gè)用戶訪問(wèn)事務(wù)為：N1，N2，N3，C1，

N4，N5，N6，C2，N7，N8，C3，N9，N10，N11，N12，C4，其中N為導(dǎo)航頁(yè)，C為內(nèi)容頁(yè)。識(shí)別導(dǎo)航內(nèi)容片斷就是要從用戶訪問(wèn)事務(wù)中識(shí)別出：片斷1：N1，N2，N3，C1。片斷2：N4，N5，N6，C2。片斷3：N7，N8，C3。片斷4：N9，N10，N11，N12，C4。2．最大前向訪問(wèn)序列所謂用戶最大前向訪問(wèn)序列是指在用戶訪問(wèn)回退之前一直被訪問(wèn)的頁(yè)面序列。每個(gè)最大前向訪問(wèn)序列就構(gòu)成一個(gè)訪問(wèn)片段。定義該片斷的優(yōu)點(diǎn)是有利于發(fā)現(xiàn)用戶感興趣的事務(wù)。顯然在用戶訪問(wèn)事務(wù)中尋找最大前向序列必須要依據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)。2023/7/2133在Web訪問(wèn)挖掘中的常用技術(shù)1．路徑分析路徑分析最常用的應(yīng)用是用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問(wèn)的路徑，這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息安全評(píng)估是非常重要的。2．關(guān)聯(lián)規(guī)則發(fā)現(xiàn)使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問(wèn)事務(wù)集中，找到一般性的關(guān)聯(lián)知識(shí)。

3．序列模式發(fā)現(xiàn)在時(shí)間戳有序的事務(wù)集中，序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。4．分類發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。

5．聚類可以從WebUsage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中，聚類顧客信息或數(shù)據(jù)項(xiàng)，就能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。2023/7/2134Web訪問(wèn)信息挖掘的要素構(gòu)成1．?dāng)?shù)據(jù)來(lái)源數(shù)據(jù)的來(lái)源分為服務(wù)器，代理服務(wù)器，和客戶端。2．?dāng)?shù)據(jù)類型數(shù)據(jù)的類型主要分為結(jié)構(gòu),內(nèi)容,訪問(wèn)信息,用戶概貌文件。3．用戶的數(shù)量用戶的數(shù)量表現(xiàn)為：或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu)成，或者數(shù)據(jù)由多個(gè)用戶的信息構(gòu)成。4．站點(diǎn)的數(shù)量在數(shù)據(jù)集中的Web站點(diǎn)的個(gè)數(shù)表現(xiàn)為：或者在數(shù)據(jù)集中只記錄單個(gè)站點(diǎn)的信息，或者記錄多個(gè)站點(diǎn)的信息。5．服務(wù)對(duì)象Web訪問(wèn)信息挖掘的結(jié)果由Web服務(wù)方進(jìn)行應(yīng)用。應(yīng)用的結(jié)果即服務(wù)對(duì)象可以是當(dāng)個(gè)單個(gè)用戶，或群體用戶。單個(gè)用戶即意味著個(gè)性化。6．挖掘手段Web訪問(wèn)信息挖掘所采用的各種數(shù)據(jù)挖掘方法，例如關(guān)聯(lián)規(guī)則發(fā)現(xiàn)，聚類，分類，統(tǒng)計(jì)等等。2023/7/2135利用Web訪問(wèn)信息挖掘?qū)崿F(xiàn)用戶建模由于Web網(wǎng)站的特性，對(duì)網(wǎng)站的經(jīng)營(yíng)者和設(shè)計(jì)者而言，無(wú)法直接了解用戶的特性。然而對(duì)訪問(wèn)者個(gè)人特性和群體用戶特性的了解對(duì)Web網(wǎng)站的服務(wù)方而言顯得尤為重要。幸運(yùn)的是可以通過(guò)數(shù)據(jù)挖掘的方法得到用戶的特性?！坝脩艚！保∕odellingUsers）是指根據(jù)訪問(wèn)者對(duì)一個(gè)Web站點(diǎn)上Web頁(yè)面的的訪問(wèn)情況，可以模型化用戶的自身特性。在識(shí)別出用戶的特性后就可以開(kāi)展針對(duì)性的服務(wù)。用戶建模主要有三種途徑。推斷匿名訪問(wèn)者的人口統(tǒng)計(jì)特性在不打擾用戶的情況下，得到用戶概貌文件根據(jù)用戶的訪問(wèn)模式來(lái)聚類用戶2023/7/2136利用Web訪問(wèn)信息挖掘發(fā)現(xiàn)導(dǎo)航模式發(fā)現(xiàn)導(dǎo)航模式（DiscoveringNavigationPatterns）是Web訪問(wèn)信息挖掘的一個(gè)重要的研究領(lǐng)域。用戶的導(dǎo)航模式是指群體用戶對(duì)Web站點(diǎn)內(nèi)的頁(yè)面的瀏覽順序模式。用戶導(dǎo)航模式的主要應(yīng)用在改進(jìn)站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等方面。1．改進(jìn)Web站點(diǎn)的結(jié)構(gòu)設(shè)計(jì)2．個(gè)性化行銷（DirectMarketing）：3．利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航模式4．利用模板發(fā)現(xiàn)導(dǎo)航模式5．利用超文本概率文法發(fā)現(xiàn)導(dǎo)航模式2023/7/2137利用Web訪問(wèn)信息挖掘改進(jìn)訪問(wèn)效率1．Web服務(wù)器推送技術(shù)2．自適應(yīng)網(wǎng)站3．應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)Web站點(diǎn)的訪問(wèn)效率4．改進(jìn)Web服務(wù)器的性能表7-10 改進(jìn)Web站點(diǎn)訪問(wèn)效率方法的比較方法特點(diǎn)優(yōu)點(diǎn)缺點(diǎn)Web服務(wù)器推送技術(shù)BinLan相關(guān)的文檔會(huì)被服務(wù)器提前推送到Proxy上。存在冗余推送問(wèn)題。自適應(yīng)網(wǎng)站PerkowitzM.通過(guò)增加索引頁(yè)來(lái)幫助用戶進(jìn)行訪問(wèn)，以改進(jìn)訪問(wèn)效率。這些索引頁(yè)難于被用戶理解。應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)改進(jìn)Web站點(diǎn)的訪問(wèn)效率MyraSpiliopoulou基于規(guī)則的動(dòng)態(tài)Web站點(diǎn)。規(guī)則需要人工判定。改進(jìn)Web服務(wù)器的性能CohenE.AlmeidaSchechter通過(guò)對(duì)頁(yè)面的特性的挖掘，改進(jìn)服務(wù)器的效率。改進(jìn)集中于頁(yè)面這一級(jí)，不涉及更高級(jí)的邏輯結(jié)構(gòu)改進(jìn)。2023/7/2138利用Web訪問(wèn)信息挖掘進(jìn)行個(gè)性化服務(wù)在Web站點(diǎn)開(kāi)展個(gè)性化（Personalization）服務(wù)的總的思路和步驟是：模型化頁(yè)面和用戶；分類頁(yè)面和用戶；在頁(yè)面和對(duì)象之間進(jìn)行匹配；判斷當(dāng)前訪問(wèn)的類別以進(jìn)行推薦。而且，個(gè)性化系統(tǒng)一般分為兩個(gè)部分：離線部分和在線部分。表7-11個(gè)性化方法的比較方法特點(diǎn)缺點(diǎn)離線聚類和動(dòng)態(tài)鏈接結(jié)合可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。隨著用戶訪問(wèn)長(zhǎng)度的增加，可供推薦的元素會(huì)趨于零?；陉P(guān)鍵詞學(xué)習(xí)引入時(shí)間特性為用戶提供推薦。需要用戶人工干預(yù)，無(wú)法做到自動(dòng)。識(shí)別感興趣的鏈接建立代理服務(wù)器識(shí)別用戶的訪問(wèn)興趣提供推薦。用戶興趣的實(shí)效性考慮不夠。自動(dòng)定制不同用戶訪問(wèn)界面利用用戶建模技術(shù)自動(dòng)定制不同的用戶訪問(wèn)界面?！巴普摗币蕾囉谟脩羲诘念I(lǐng)域，適應(yīng)性不好。利用客戶端代理進(jìn)行個(gè)性化客戶端的代理，完全為個(gè)人服務(wù)。冗余搜索過(guò)大。聚類推薦可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。聚類的個(gè)數(shù)是人為事先給定的，不能隨著每個(gè)用戶的訪問(wèn)特性而動(dòng)態(tài)調(diào)整。2023/7/2139利用Web訪問(wèn)信息挖掘進(jìn)行商業(yè)智能發(fā)現(xiàn)表7-12 商業(yè)智能方法的比較方法特點(diǎn)Buchner其貢獻(xiàn)在于首次在Web訪問(wèn)信息挖掘的基礎(chǔ)上提出了商業(yè)智能的發(fā)現(xiàn)的框架；其不足在于發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買(mǎi)行為，而對(duì)用戶潛在的購(gòu)買(mǎi)興趣無(wú)法發(fā)現(xiàn)。YunC.優(yōu)點(diǎn)是挖掘了遷移和購(gòu)買(mǎi)行為之間的內(nèi)在關(guān)系。缺點(diǎn)是發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買(mǎi)行為，對(duì)用戶潛在購(gòu)買(mǎi)興趣無(wú)法發(fā)現(xiàn)。SurfAid，Accrue，NetGenesis，Aria，Hitlist，WebTrends優(yōu)點(diǎn)是通過(guò)分析頁(yè)面的點(diǎn)擊率來(lái)為推斷商業(yè)智能提供Web流量分析。缺點(diǎn)是無(wú)法發(fā)現(xiàn)高級(jí)的商業(yè)職能。2023/7/2140利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)在移動(dòng)計(jì)算環(huán)境中，一個(gè)新的挖掘方法，即用戶的移動(dòng)模式挖掘被提出。挖掘的結(jié)果可以用于開(kāi)發(fā)數(shù)據(jù)的分配模式以改變移動(dòng)系統(tǒng)的總的性能。首先，對(duì)移動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)行挖掘，可以得到頻繁用戶移動(dòng)模式。然后，根據(jù)挖掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配模式。根據(jù)不同層次的挖掘結(jié)果，有兩種個(gè)人數(shù)據(jù)分配模式：利用集合層次的用戶移動(dòng)模式（DS模式）；利用路徑層次的用戶移動(dòng)模式（DP模式）。圖7-2 在一個(gè)移動(dòng)計(jì)算系統(tǒng)中移動(dòng)模式的例子2023/7/2141利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)可以分為如下三個(gè)主要步驟：數(shù)據(jù)收集階段：從各個(gè)服務(wù)器的日志集合中判斷最大的移動(dòng)序列和移動(dòng)對(duì)的出現(xiàn)次數(shù)。挖掘階段：從第一步的結(jié)果集中的每w個(gè)最大移動(dòng)序列中判斷大項(xiàng)移動(dòng)序列?？紤]到新近的移動(dòng)模式，設(shè)立w為一個(gè)回顧因子，一個(gè)可調(diào)整的窗口。產(chǎn)生模式階段：根據(jù)第二步的得到的大項(xiàng)移動(dòng)序列，判斷用戶的移動(dòng)模式。2023/7/2142利用協(xié)作推薦的方法實(shí)現(xiàn)實(shí)時(shí)個(gè)性化推薦基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)的結(jié)構(gòu)如圖7-3所示。圖7-3 基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)整個(gè)處理過(guò)程分為兩部分：離線部分：包括數(shù)據(jù)準(zhǔn)備、得到推薦池、建立協(xié)作篩。在線部分：推薦引擎。2023/7/2143第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法

2023/7/2144頁(yè)面重要性的評(píng)價(jià)方法在設(shè)計(jì)搜索引擎等服務(wù)時(shí)，對(duì)Web頁(yè)面的鏈接結(jié)構(gòu)進(jìn)行挖掘以得出有用的知識(shí)是提高檢索效率的重要手段。Web頁(yè)面的鏈接類似學(xué)術(shù)上的引用，因此一個(gè)重要的頁(yè)面可能會(huì)有很多頁(yè)面的鏈接指向它。定義7-3設(shè)u為一個(gè)Web頁(yè)，F(xiàn)u為所有u指向的頁(yè)面的集合，Bu為所有指向u的頁(yè)面的集合。設(shè)Nu=|Fu|為從u發(fā)出的鏈接的個(gè)數(shù)，c（<1）為一個(gè)歸一化的因子（因此所有頁(yè)面的總的PageRank為一個(gè)常數(shù)），那么u頁(yè)面的PageRank被定義為：

一個(gè)頁(yè)面對(duì)應(yīng)的PageRank值被分配到所有它所指向的頁(yè)面中；每一個(gè)頁(yè)面求和所有指向它的鏈接所帶來(lái)的PageRank以得到它的新的PageRank。在計(jì)算時(shí)可以從任何一個(gè)頁(yè)面開(kāi)始，通過(guò)上面的公式反復(fù)計(jì)算直到其收斂。2023/7/2145頁(yè)面等級(jí)一般地說(shuō)，頁(yè)面的頁(yè)面等級(jí)值是通過(guò)指向這個(gè)頁(yè)面的數(shù)量來(lái)計(jì)算的，即通過(guò)指向向后連接數(shù)來(lái)計(jì)算的。向后連接是指向這個(gè)頁(yè)面的連接減去它指向外面的連接。計(jì)算量不是簡(jiǎn)單地向后連接的數(shù)量加合，而是要考慮向后連接的頁(yè)面的重要性。給定一個(gè)頁(yè)面p，我們使用Bp作為指向一系列指向P的頁(yè)面，并且用Fp作為一系列由外部指向P的連接，則這里的Nq=|Fq|。常量c是一個(gè)介于0，1之間的數(shù)，用于標(biāo)準(zhǔn)化。這里有一個(gè)循環(huán)分級(jí)的問(wèn)題。當(dāng)計(jì)算一個(gè)頁(yè)面的頁(yè)面等級(jí)時(shí)，如果發(fā)生循環(huán)則產(chǎn)生這個(gè)錯(cuò)誤（頁(yè)面A指向頁(yè)面B，頁(yè)面B同時(shí)指向頁(yè)面A），此時(shí)頁(yè)面等級(jí)值隨這些頁(yè)面增加?？梢酝ㄟ^(guò)另一個(gè)公式解決：其中c是最大值，E(v)是一個(gè)矢量來(lái)增加一個(gè)人工連接。它是模擬一個(gè)用戶不隨著連接訪問(wèn)其他頁(yè)面，而是隨機(jī)跳到一個(gè)新的頁(yè)面。E(v)增加一對(duì)結(jié)點(diǎn)中間可能的連接。2023/7/2146權(quán)威頁(yè)面和中心頁(yè)面所謂權(quán)威頁(yè)面是指包含需求信息的最佳資源頁(yè)面。所謂中心頁(yè)面是一個(gè)包含權(quán)威頁(yè)面連接的頁(yè)面。HITS（Hyperlink-InducedTopicSearch）是遵照尋找權(quán)威頁(yè)面和中心頁(yè)面的典型方法。HITS技術(shù)由兩部分組成：基于一組給定的關(guān)鍵字，可以找到相關(guān)的頁(yè)面。權(quán)威和中心頁(yè)面與上述頁(yè)面有關(guān)，返回具有最高權(quán)重的頁(yè)面。

算法7-3HITS輸入：（把www看作）一個(gè)引導(dǎo)圖W；查詢請(qǐng)求q；支持s。輸出：權(quán)威頁(yè)面的集合A；中心頁(yè)面的集合H。（1）BEGIN（2）R=SE(W,

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔