32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第1頁(yè)
32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第2頁(yè)
32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第3頁(yè)
32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第4頁(yè)
32數(shù)據(jù)挖掘-第七章-Web挖掘技術(shù)課件_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/211整體概述THEFIRSTPARTOFTHEOVERALLOVERVIEW,PLEASESUMMARIZETHECONTENT第一部分Web挖掘的價(jià)值從大量的信息中發(fā)現(xiàn)用戶感興趣的信息

:因特網(wǎng)上蘊(yùn)藏著大量的信息,通過(guò)簡(jiǎn)單的瀏覽或關(guān)鍵詞匹配的搜索引擎得到的是孤立而凌亂的“表面信息”,Web挖掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。將Web上的豐富信息轉(zhuǎn)變成有用的知識(shí):Web挖掘是面向Web數(shù)據(jù)進(jìn)行分析和知識(shí)提取的。因特網(wǎng)中頁(yè)面內(nèi)部、頁(yè)面間、頁(yè)面鏈接、頁(yè)面訪問(wèn)等都包含大量對(duì)用戶可用的信息,而這些信息的深層次含義是很難被用戶直接使用的,必須經(jīng)過(guò)濃縮和提煉。對(duì)用戶進(jìn)行信息個(gè)性化:網(wǎng)站信息的個(gè)性化是將來(lái)的發(fā)展趨勢(shì)。通過(guò)Web挖掘,可以達(dá)到對(duì)用戶訪問(wèn)行為、頻度、內(nèi)容等的分析,可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí),用以改進(jìn)Web服務(wù)方的設(shè)計(jì),提供個(gè)性化的服務(wù)。2023/7/213第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/214Web挖掘的類型Web挖掘依靠它所挖掘的信息來(lái)源可以分為:Web內(nèi)容挖掘(WebContentMining):對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等,挖掘某類信息所蘊(yùn)含的知識(shí)模式。Web訪問(wèn)信息挖掘(WebUsageMining):Web訪問(wèn)信息挖掘是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器方留下的訪問(wèn)記錄進(jìn)行挖掘。通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。Web結(jié)構(gòu)挖掘(WebStructureMining):Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的Web頁(yè)面集合,通過(guò)結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián)信息,頁(yè)面之間的包含、引用或者從屬關(guān)系等。2023/7/215第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/216Web挖掘的含義WeB挖掘是一個(gè)看寬泛的概念,可以簡(jiǎn)單地描述為:針對(duì)包括Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí),為訪問(wèn)者、站點(diǎn)經(jīng)營(yíng)者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。2023/7/217Web挖掘與信息檢索兩種截然不同的觀點(diǎn):Web上的信息檢索是Web挖掘的一個(gè)方面:Web挖掘旨在解決信息檢索、知識(shí)抽取以及更寬泛的商業(yè)問(wèn)題,是Web上IR技術(shù)的延伸。這種觀點(diǎn)大多來(lái)自于數(shù)據(jù)挖掘研究領(lǐng)域。Web挖掘是智能化的信息檢索:對(duì)于IR領(lǐng)域的研究人員來(lái)說(shuō),Web挖掘是IR研究向著智能化的方向發(fā)展的結(jié)果。信息檢索可能經(jīng)常被說(shuō)成是Web挖掘的初級(jí)階段,是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過(guò)程,它可以支持更高級(jí)的商業(yè)決策和分析。2023/7/218Web挖掘與信息抽取Web上的IE的研究目的是希望從眾多的Web文擋中抽取可供分析的信息,與Web挖掘的關(guān)系也有不同的觀點(diǎn):IE是Web挖掘整個(gè)過(guò)程的一部分:這是因?yàn)閃eb上的數(shù)據(jù)一般是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,因此需要進(jìn)行規(guī)格化的信息抽取這樣的預(yù)處理。Web挖掘是IE的一個(gè)特殊技術(shù):既然IE是希望把Web蘊(yùn)藏的信息抽取出來(lái),那么Web挖掘或者文本挖掘只不過(guò)是達(dá)到這個(gè)目的的特殊技術(shù)手段。信息抽取經(jīng)常被說(shuō)成是Web挖掘的一個(gè)預(yù)處理階段,那是因?yàn)樵跀?shù)據(jù)挖掘領(lǐng)域,Web挖掘的更廣義的理解應(yīng)該是一個(gè)知識(shí)提取的完整過(guò)程。2023/7/219第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源

Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/2110Web挖掘的主要數(shù)據(jù)源Web挖掘的數(shù)據(jù)來(lái)源是寬泛的:凡是在Web站點(diǎn)中對(duì)用戶有價(jià)值的數(shù)據(jù)都可以成為它挖掘的數(shù)據(jù)源。由于這些對(duì)象的數(shù)據(jù)形式及含義的差異,其挖掘技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有:服務(wù)器日志數(shù)據(jù):Web訪問(wèn)信息挖掘的主要數(shù)據(jù)源。2023/7/2111服務(wù)器日志數(shù)據(jù)對(duì)Web服務(wù)器的訪問(wèn),服務(wù)器方將會(huì)產(chǎn)生3種類型的日志文件:Serverlogs:記錄用戶的訪問(wèn)時(shí)間、IP地址以及請(qǐng)求等信息。Errorlogs:存取請(qǐng)求失敗的數(shù)據(jù),例如丟失連接、授權(quán)失敗或超時(shí)等?ookielogs:Cookie是由web服務(wù)器產(chǎn)生的記號(hào)并由客戶端持有,用于識(shí)別用戶和用戶的會(huì)話。

Field Description

Date Date,time,andtimezoneofrequest ClientIP RemotehostIPand/orDNSentry Username Remotelognameoftheuser Bytes Bytestransferred(sentandreceived) Server Servername,IPaddressandport Request URIqueryandstem Status httpstatuscodereturnedtotheclient Servicename Requestedservicename Timetaken Timetakenfortransactiontocomplete Protocolversion Versionofusedtransferprotocol Useragent Serviceprovider Cookie CookieID Referrer Previouspage … … Serverlogs的一個(gè)格式示意2023/7/2112在線市場(chǎng)數(shù)據(jù)在線市場(chǎng)數(shù)據(jù)是指和市場(chǎng)活動(dòng)相關(guān)的信息。例如一個(gè)電子商務(wù)站點(diǎn),存儲(chǔ)相關(guān)的電子商務(wù)信息。從內(nèi)容上說(shuō),不同目的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù)。在線市場(chǎng)數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只有結(jié)合在線市場(chǎng)數(shù)據(jù)分析才能達(dá)到目的。2023/7/2113Web頁(yè)面Web頁(yè)面是網(wǎng)站信息的主體,但是它們的主要信息不可能像關(guān)系型數(shù)據(jù)庫(kù)那樣規(guī)整,因此Web頁(yè)面的內(nèi)容組織形式的分析是研究Web挖掘的具體方法的基礎(chǔ)。目前的Web頁(yè)面大多滿足HTML標(biāo)準(zhǔn),現(xiàn)有的Web挖掘方法大多是針對(duì)Web頁(yè)面開(kāi)展的。1998年WWW社團(tuán)提出了XML語(yǔ)言標(biāo)準(zhǔn)(eXtensibleMarkupLanguage)。該標(biāo)準(zhǔn)通過(guò)把一些描述頁(yè)面內(nèi)容的標(biāo)記(tag)添加到HTML頁(yè)面中,用于對(duì)HTML頁(yè)面內(nèi)容進(jìn)行自描述?;赬ML規(guī)范的挖掘研究也是一個(gè)重要的研究分支。2023/7/2114第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法

Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法2023/7/2115Web內(nèi)容挖掘的主要方法一種Web內(nèi)容挖掘的分類方法是分為代理人方法和數(shù)據(jù)庫(kù)方法。代理人方法使用軟件系統(tǒng)(代理)來(lái)完成內(nèi)容挖掘。例如,智能檢索代理超越了簡(jiǎn)單的檢索機(jī)制使用通過(guò)關(guān)鍵詞之外的技術(shù)來(lái)完成檢索,可以利用用戶模版或其關(guān)心的知識(shí)領(lǐng)域等來(lái)實(shí)現(xiàn)信息的抽取。信息過(guò)濾利用信息檢索技術(shù)、連接結(jié)構(gòu)的知識(shí)和其他方法來(lái)分析和分類文檔。個(gè)性化Web代理使用有關(guān)用戶的喜好的信息來(lái)指導(dǎo)它們的檢索。數(shù)據(jù)庫(kù)方法將所有的Web數(shù)據(jù)描述為一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)。意味著Web是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng),可以通過(guò)多種查詢語(yǔ)言來(lái)獲得Web的信息來(lái)完成信息的抽取。2023/7/2116文本挖掘是Web內(nèi)容挖掘的基礎(chǔ)文本挖掘(TD)的方式和目標(biāo)是多種多樣的,基本層次有:關(guān)鍵詞檢索:最簡(jiǎn)單的方式,它和傳統(tǒng)的搜索技術(shù)類似。挖掘項(xiàng)目關(guān)聯(lián):聚焦在頁(yè)面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁(yè)面的分類,將頁(yè)面在一個(gè)更到層次上進(jìn)行抽象和整理。自然語(yǔ)言處理:揭示自然語(yǔ)言處理技術(shù)中的語(yǔ)義,實(shí)現(xiàn)Web內(nèi)容的更精確處理。

ClusteringionClassificationTermassociationKeywordNaturallanguageprocessing圖7-1文本挖掘體系示意2023/7/2117搜索引擎與Web內(nèi)容挖掘傳統(tǒng)的搜索引擎(SearchingEngine)效率低下。由于是基于Web中超文本結(jié)構(gòu)分解的:它從一個(gè)網(wǎng)頁(yè)開(kāi)始的,通過(guò)查閱和記錄這個(gè)網(wǎng)頁(yè)的所有連接并把它們排列起來(lái),然后再?gòu)恼业降男马?yè)面繼續(xù)開(kāi)始重復(fù)工作。利用數(shù)據(jù)挖掘技術(shù)來(lái)改進(jìn)搜索引擎是有價(jià)值的。這種價(jià)值體現(xiàn)在許多方面。例如,通過(guò)對(duì)搜索結(jié)果進(jìn)行關(guān)聯(lián)分析或聚類等,對(duì)結(jié)果進(jìn)行清洗和濃縮。面向主題進(jìn)行搜索,即只檢索與某一主題有關(guān)的頁(yè)面。聚焦用戶感興趣的頁(yè)面,在有限的資源下使有效內(nèi)容挖掘力度提高?;谒阉饕娴耐诰蚬ぷ饔邢旅嬉恍┲匾矫妫豪贸谋炬溄咏Y(jié)構(gòu)進(jìn)行頁(yè)面內(nèi)容分類,使搜索引擎檢索的頁(yè)面符合用戶的興趣。有些頁(yè)面包含很多鏈接,而這些鏈接的頁(yè)面是用戶感興趣的,因此它們需要被檢索。采用合理而高效的方法對(duì)被選擇的頁(yè)面進(jìn)行內(nèi)容分析和挖掘。2023/7/2118虛擬的Web視圖一個(gè)有效的解決在Web中大量無(wú)結(jié)構(gòu)數(shù)據(jù)的方法是在這些數(shù)據(jù)之上建立一個(gè)MLDB(MultipleLayeredDatabase)。這個(gè)數(shù)據(jù)庫(kù)是多層次的,每層索引都比它下一層要小。對(duì)于最底層來(lái)說(shuō),需要了解Web文檔結(jié)構(gòu),而最高層則有著完善的結(jié)構(gòu)并可以通過(guò)類似SQL的查詢語(yǔ)言進(jìn)行訪問(wèn)或挖掘。MLDB提供一個(gè)被稱為VMV(VirtualWebView)的視圖機(jī)制,Web中的感興趣的結(jié)構(gòu)被濃縮在這個(gè)視圖中。等級(jí)概念(近意詞組、詞匯和語(yǔ)義聯(lián)系等)將幫助歸納過(guò)程來(lái)架構(gòu)更高層的MLDB。

2023/7/2119個(gè)性化與Web內(nèi)容挖掘通過(guò)個(gè)性化,網(wǎng)頁(yè)的內(nèi)容和組織將更加適合用戶的需要。個(gè)性化服務(wù)是Web挖掘技術(shù)的重要目標(biāo)之一。通過(guò)個(gè)性化,基于用戶所關(guān)心內(nèi)容的廣告會(huì)被發(fā)送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問(wèn)一個(gè)站點(diǎn)時(shí),會(huì)有一個(gè)特別為它定制的廣告出現(xiàn),這對(duì)那些可能購(gòu)買(mǎi)的用戶來(lái)說(shuō)是一個(gè)極大的誘惑。Web內(nèi)容挖掘的目的之一是基于頁(yè)面內(nèi)容相似度進(jìn)行用戶分類或聚類的,個(gè)性化的建立是通過(guò)用戶過(guò)去的檢索內(nèi)容分析而建立起來(lái)的。自動(dòng)的個(gè)性化技術(shù)可以通過(guò)過(guò)去的需要和相似用戶的需要來(lái)預(yù)知特定用戶將來(lái)的需要。2023/7/2120Web頁(yè)面內(nèi)文本信息挖掘挖掘的目標(biāo)是對(duì)頁(yè)面進(jìn)行摘要和分類。頁(yè)面摘要:對(duì)每一個(gè)頁(yè)面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。頁(yè)面分類:分類器輸入的是一個(gè)Web頁(yè)面集(訓(xùn)練集),再根據(jù)頁(yè)面文本信息內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí),然后就可以把學(xué)成的分類器用于分類每一個(gè)新輸入的頁(yè)面。在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來(lái),而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是:每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞,所以整個(gè)列集可能有幾十萬(wàn)列之多。每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息,這時(shí),該頁(yè)面中的所有詞對(duì)應(yīng)到列集(特征集)上。列集中的每一個(gè)列(詞),如果在該頁(yè)面中不出現(xiàn),則其值為0;如果出現(xiàn)k次,那么其值就為k;頁(yè)面中的詞如果不出現(xiàn)在列集上,可以被放棄。這種方法可以表征出頁(yè)面中詞的頻度。對(duì)中文頁(yè)面來(lái)說(shuō),還需先分詞然后再進(jìn)行以上兩步處理。這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息,最終就可以采用NaiveBayesian方法或k-NearestNeighbor等方法進(jìn)行分類挖掘。在挖掘之前,一般要先進(jìn)行特征子集的選取,以降低維數(shù)。2023/7/2121Web頁(yè)面內(nèi)多媒體信息挖掘多媒體挖掘是一個(gè)大研究分支,總的挖掘過(guò)程是先要應(yīng)用多媒體信息特征提取工具,形成特征2維表,然后就可以采用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。在特征提取階段,利用多媒體信息提取工具進(jìn)行特征提取。一般地,信息提取工具能夠抽取出image和video的文件名、URL、父URL、類型、鍵值表、顏色向量等。對(duì)這些特征可以進(jìn)行如下挖掘操作:關(guān)聯(lián)規(guī)則發(fā)現(xiàn):例如,如果圖像是“大”的而且與關(guān)鍵詞“天空”有關(guān),那么它是藍(lán)色的概率為68%。分類:根據(jù)提供的某種類標(biāo),針對(duì)特征集,利用決策樹(shù)可以進(jìn)行分類。2023/7/2122第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法

Web結(jié)構(gòu)挖掘方法2023/7/2123Web訪問(wèn)信息挖掘的特點(diǎn)Web訪問(wèn)數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問(wèn)信息。廣泛分布于世界各處。訪問(wèn)信息形態(tài)多樣。訪問(wèn)信息具有豐富的內(nèi)涵。Web訪問(wèn)數(shù)據(jù)包含決策可用的信息每個(gè)用戶的訪問(wèn)特點(diǎn)可以被用來(lái)識(shí)別該用戶和網(wǎng)站訪問(wèn)的特性。同一類用戶的訪問(wèn),代表同一類用戶的個(gè)性。一段時(shí)期的訪問(wèn)數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。Web訪問(wèn)信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問(wèn)者進(jìn)行溝通的橋梁。Web訪問(wèn)信息數(shù)據(jù)是開(kāi)展數(shù)據(jù)挖掘研究的良好的對(duì)象。Web訪問(wèn)信息挖掘?qū)ο蟮奶攸c(diǎn)訪問(wèn)事務(wù)的元素是Web頁(yè)面,事務(wù)元素之間存在著豐富的結(jié)構(gòu)信息。訪問(wèn)事務(wù)的元素代表的是每個(gè)訪問(wèn)者的順序關(guān)系,事務(wù)元素之間存在著豐富的順序信息。每個(gè)頁(yè)面的內(nèi)容可以被抽象出不同的概念,訪問(wèn)順序和訪問(wèn)量部分決定概念。用戶對(duì)頁(yè)面存在不同的訪問(wèn)時(shí)長(zhǎng),訪問(wèn)長(zhǎng)代表了用戶的訪問(wèn)興趣。2023/7/2124Web訪問(wèn)信息挖掘的意義通過(guò)分析日志文件,可以發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的特征、頁(yè)面被用戶訪問(wèn)的規(guī)律、用戶頻繁訪問(wèn)的頁(yè)組等,以便其合理、有效地優(yōu)化站點(diǎn)的結(jié)構(gòu),最終為用戶提供一個(gè)方便快捷信息獲取環(huán)境。有三方面的應(yīng)用具有代表性:Web服務(wù)方主要根據(jù)自己的領(lǐng)域知識(shí)設(shè)計(jì)Web頁(yè)面的結(jié)構(gòu),而群體用戶根據(jù)各自的訪問(wèn)興趣訪問(wèn)這些頁(yè)面,那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)是否合理?怎樣的設(shè)計(jì)以便利于群體用戶的訪問(wèn),更加吸引訪問(wèn)者?這些問(wèn)題的解決是Web訪問(wèn)信息挖掘的主要目的。群體用戶的訪問(wèn)存在哪些特點(diǎn)?如果掌握了這些特點(diǎn),那么就可以利用其開(kāi)展進(jìn)一步的商務(wù)活動(dòng)。對(duì)于每一個(gè)新的Web站點(diǎn)的訪問(wèn)者,都會(huì)在曾經(jīng)訪問(wèn)的群體用戶中找到一些最相似的相同的訪問(wèn)者,那么那些訪問(wèn)者的訪問(wèn)就可以給這個(gè)新的訪問(wèn)者提供推薦,以便利于該訪問(wèn)者的進(jìn)一步訪問(wèn)。2023/7/2125典型的商業(yè)價(jià)值面向群體訪問(wèn)者,能夠:提供高效訪問(wèn):減少有用信息的檢索時(shí)間,提高在大負(fù)載下的服務(wù)性能。吸引訪問(wèn)者。保持訪問(wèn)者:如果網(wǎng)站具有更好的結(jié)構(gòu)設(shè)計(jì),就能留住用戶。避免訪問(wèn)者離開(kāi):找到離開(kāi)原因,改進(jìn)網(wǎng)站的結(jié)構(gòu)設(shè)計(jì)。地區(qū)/行業(yè)/階層的分析:根據(jù)交易者留下的信息,可以知道訪問(wèn)者所在的地區(qū)、所屬的行業(yè)或階層。防止訪問(wèn)者迷航:訪問(wèn)者不能找到相應(yīng)的訪問(wèn)目標(biāo),或者面對(duì)復(fù)雜的頁(yè)面結(jié)構(gòu)不知所措,那么遇到了迷航的問(wèn)題。改進(jìn)頁(yè)面的結(jié)構(gòu)設(shè)計(jì)是必要的。群體推薦:針對(duì)群體用戶的訪問(wèn)偏好,推薦他們感興趣的東西。針對(duì)性服務(wù):如在合適路徑上,就可以放置相應(yīng)內(nèi)容的廣告。面向群體每一個(gè)訪問(wèn)者,能夠:個(gè)性化推薦。用戶建模:根據(jù)已有群體用戶的訪問(wèn),推斷當(dāng)前用戶的特征。個(gè)性化推銷(DirectMarketing):識(shí)別出對(duì)某種產(chǎn)品或服務(wù)的可能購(gòu)買(mǎi)者,對(duì)其推薦相應(yīng)的產(chǎn)品或服務(wù)。2023/7/2126Web訪問(wèn)信息挖掘的數(shù)據(jù)源由于Web世界的分布性,用戶訪問(wèn)行為被廣泛地分布記錄在Web服務(wù)器、用戶客戶端,和代理服務(wù)器中。在各個(gè)分布地點(diǎn)的不同的用戶訪問(wèn)信息表征了不同類型的用戶訪問(wèn)行為。挖掘工作必須針對(duì)數(shù)據(jù)的特點(diǎn)來(lái)決定相應(yīng)的挖掘任務(wù)。用戶訪問(wèn)信息的分布簡(jiǎn)單歸結(jié)為:服務(wù)器方:一般地,在一個(gè)Web服務(wù)器上,服務(wù)器日志記錄了多個(gè)用戶對(duì)單個(gè)站點(diǎn)的用戶訪問(wèn)行為??蛻舴剑阂话愕?,在客戶端計(jì)算機(jī)上,客戶端的代理記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)或單個(gè)用戶對(duì)多個(gè)站點(diǎn)的用戶訪問(wèn)行為??蛻舳说腃ache記錄了用戶訪問(wèn)內(nèi)容??蛻舳说腂ookMark也記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)偏好??蛻舳舜矸?wù)器:代理服務(wù)器記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)行為,同時(shí)代理服務(wù)器內(nèi)部的Cache記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)內(nèi)容。2023/7/2127服務(wù)器方訪問(wèn)信息一個(gè)Web服務(wù)器日志(Serverlog)反映出多個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)行為。一個(gè)從實(shí)際Web服務(wù)器上采集的Log文件片段:IPAddress UserID Time Method/URI/Protocol Stauts Size2 -- 10/Dec/1998:12:34:16-0600 "GET/images/lchzhi.gifHTTP/1.1" 200 44851 2 -- 10/Dec/1998:12:34:32-0600 "GET/graduate.htmHTTP/1.1" 200 7403 2 -- 10/Dec/1998:12:34:32-0600 "GET/images/sxwys2.jpgHTTP/1.1" 200 18481 9 -- 10/Dec/1998:12:34:48-0600 "GET/result.htmHTTP/1.0" 200 12302 2 -- 10/Dec/1998:12:34:58–0600 "GET/structure.htmHTTP/1.1" 200 367 2 -- 10/Dec/1998:12:34:58–0600 "GET/struc-index.htmHTTP/1.1" 200 4370 2 -- 10/Dec/1998:12:34:58–0600 "GET/struc-content.htmHTTP/1.1" 200 12047 2 -- 10/Dec/1998:12:34:58–0600 "GET/images/znkfsys.jpgHTTP/1.1" 200 22574 2023/7/2128代理服務(wù)器端訪問(wèn)信息代理服務(wù)器端的訪問(wèn)信息包括用戶訪問(wèn)日志和在Cache中被訪問(wèn)的頁(yè)面信息。一個(gè)代理服務(wù)器日志的例子(基于WindowsNT4.0的代理服務(wù)器):8,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-28,15:57:44,W3Proxy,NTPROXY,-,,,80,200,582,1376,http,tcp,GET,/cjc/cjcw2.html,-,Inet,304,08,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-28,15:57:44,W3Proxy,NTPROXY,-,,,80,270,2101,1254,http,tcp,GET,/cjc/introc.html,-,VCache,304,08,HEAD\SWANGMozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-28,15:57:44,W3Proxy,NTPROXY,-,,,80,171,449,1110,http,tcp,GET,/cjc/star.gif,-,Inet,304,08,HEAD\SWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-28,15:57:44,W3Proxy,NTPROXY,-,,,80,211,455,826,http,tcp,GET,/cjc/INTROCG.JPG,-,Inet,304,02023/7/2129Web訪問(wèn)信息挖掘的預(yù)處理Web訪問(wèn)信息挖掘的基礎(chǔ)和最煩瑣的工作是數(shù)據(jù)的預(yù)處理。預(yù)處理用戶訪問(wèn)信息是整個(gè)數(shù)據(jù)準(zhǔn)備的核心工作,也是開(kāi)展下一階段Web訪問(wèn)信息挖掘的基礎(chǔ)。預(yù)處理階段主要的工作是識(shí)別用戶訪問(wèn)事務(wù)和訪問(wèn)片斷。WebUsageMining在預(yù)處理階段主要的工作有:數(shù)據(jù)清洗:由于數(shù)據(jù)表示、寫(xiě)入的對(duì)象差異以及用戶的興趣和挖掘算法對(duì)數(shù)據(jù)要求的不同,對(duì)于Web日志中的數(shù)據(jù)需要確定合理的數(shù)據(jù)清洗策略。識(shí)別用戶訪問(wèn)事務(wù):在對(duì)Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,需要把對(duì)Web頁(yè)的訪問(wèn)序列組織成邏輯單元以表征事務(wù)或用戶會(huì)話。2023/7/2130數(shù)據(jù)清洗合并數(shù)據(jù):在給定挖掘時(shí)間段后,數(shù)據(jù)清洗需要合并Web服務(wù)器上的多個(gè)日志文件,并且解析每個(gè)文件,將其轉(zhuǎn)化到數(shù)據(jù)庫(kù)或特定格式的數(shù)據(jù)文件中。剔除不相關(guān)的數(shù)據(jù):在Web日志中一些存取記錄可能對(duì)挖掘來(lái)說(shuō)是不必要的,例如圖形文件,壓縮文件等的存取可能對(duì)面向文本挖掘的用戶不需要考慮,所以應(yīng)該被剔除。通過(guò)檢查后綴gif、jpeg、zip、ps等就可以實(shí)現(xiàn)。代理訪問(wèn)的處理:由于搜索引擎或其他一些自動(dòng)代理的存在,日志中存在大量的由它們發(fā)出的請(qǐng)求。因此從日志中識(shí)別代理(Agent)或網(wǎng)絡(luò)爬蟲(chóng)(CrawlerorSpider)對(duì)站點(diǎn)的訪問(wèn)是必須的。正規(guī)化URI(UniformResourceIdentifier):由于各種默認(rèn)情況的存在,需要進(jìn)一步正規(guī)化URI。數(shù)據(jù)項(xiàng)解析:CGI數(shù)據(jù)項(xiàng)必須被解析在不同的域中,并被解析為<名字,值>對(duì)的形式。2023/7/2131識(shí)別用戶訪問(wèn)事務(wù)在Web日志中,用戶的訪問(wèn)事務(wù)并不是一個(gè)顯然的結(jié)果,需要專門(mén)的算法來(lái)進(jìn)行識(shí)別和生成。找到相應(yīng)的事務(wù)集,才能對(duì)這個(gè)事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)等挖掘工作。

時(shí)間窗C大小的界定是一個(gè)經(jīng)驗(yàn)值(有人建議30分鐘較為合適)。定義7-1設(shè)L為用戶訪問(wèn)日志,其中的一個(gè)項(xiàng)lL包括用戶的IP地址l.ip,用戶的標(biāo)識(shí)符l.uid,被存取頁(yè)的URI地址l.url,長(zhǎng)度為l.length以及存取訪問(wèn)的時(shí)間l.time,存取訪問(wèn)的時(shí)長(zhǎng)l.timelength,訪問(wèn)事務(wù)被定義為:

這里C是一個(gè)固定的時(shí)間窗。2023/7/2132其他信息的預(yù)處理技術(shù)1.導(dǎo)航內(nèi)容片斷

在一些電子商務(wù)網(wǎng)站中,需要知道用戶到達(dá)一個(gè)內(nèi)容頁(yè)之前是經(jīng)歷哪些導(dǎo)航頁(yè)的。例如,一個(gè)用戶訪問(wèn)事務(wù)為:N1,N2,N3,C1,

N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中N為導(dǎo)航頁(yè),C為內(nèi)容頁(yè)。識(shí)別導(dǎo)航內(nèi)容片斷就是要從用戶訪問(wèn)事務(wù)中識(shí)別出:片斷1:N1,N2,N3,C1。片斷2:N4,N5,N6,C2。片斷3:N7,N8,C3。片斷4:N9,N10,N11,N12,C4。2.最大前向訪問(wèn)序列所謂用戶最大前向訪問(wèn)序列是指在用戶訪問(wèn)回退之前一直被訪問(wèn)的頁(yè)面序列。每個(gè)最大前向訪問(wèn)序列就構(gòu)成一個(gè)訪問(wèn)片段。定義該片斷的優(yōu)點(diǎn)是有利于發(fā)現(xiàn)用戶感興趣的事務(wù)。顯然在用戶訪問(wèn)事務(wù)中尋找最大前向序列必須要依據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)。2023/7/2133在Web訪問(wèn)挖掘中的常用技術(shù)1.路徑分析路徑分析最常用的應(yīng)用是用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問(wèn)的路徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息安全評(píng)估是非常重要的。2.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問(wèn)事務(wù)集中,找到一般性的關(guān)聯(lián)知識(shí)。

3.序列模式發(fā)現(xiàn)在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。4.分類發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。

5.聚類可以從WebUsage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。2023/7/2134Web訪問(wèn)信息挖掘的要素構(gòu)成1.?dāng)?shù)據(jù)來(lái)源數(shù)據(jù)的來(lái)源分為服務(wù)器,代理服務(wù)器,和客戶端。2.?dāng)?shù)據(jù)類型數(shù)據(jù)的類型主要分為結(jié)構(gòu),內(nèi)容,訪問(wèn)信息,用戶概貌文件。3.用戶的數(shù)量用戶的數(shù)量表現(xiàn)為:或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu)成,或者數(shù)據(jù)由多個(gè)用戶的信息構(gòu)成。4.站點(diǎn)的數(shù)量在數(shù)據(jù)集中的Web站點(diǎn)的個(gè)數(shù)表現(xiàn)為:或者在數(shù)據(jù)集中只記錄單個(gè)站點(diǎn)的信息,或者記錄多個(gè)站點(diǎn)的信息。5.服務(wù)對(duì)象Web訪問(wèn)信息挖掘的結(jié)果由Web服務(wù)方進(jìn)行應(yīng)用。應(yīng)用的結(jié)果即服務(wù)對(duì)象可以是當(dāng)個(gè)單個(gè)用戶,或群體用戶。單個(gè)用戶即意味著個(gè)性化。6.挖掘手段Web訪問(wèn)信息挖掘所采用的各種數(shù)據(jù)挖掘方法,例如關(guān)聯(lián)規(guī)則發(fā)現(xiàn),聚類,分類,統(tǒng)計(jì)等等。2023/7/2135利用Web訪問(wèn)信息挖掘?qū)崿F(xiàn)用戶建模由于Web網(wǎng)站的特性,對(duì)網(wǎng)站的經(jīng)營(yíng)者和設(shè)計(jì)者而言,無(wú)法直接了解用戶的特性。然而對(duì)訪問(wèn)者個(gè)人特性和群體用戶特性的了解對(duì)Web網(wǎng)站的服務(wù)方而言顯得尤為重要。幸運(yùn)的是可以通過(guò)數(shù)據(jù)挖掘的方法得到用戶的特性?!坝脩艚!保∕odellingUsers)是指根據(jù)訪問(wèn)者對(duì)一個(gè)Web站點(diǎn)上Web頁(yè)面的的訪問(wèn)情況,可以模型化用戶的自身特性。在識(shí)別出用戶的特性后就可以開(kāi)展針對(duì)性的服務(wù)。用戶建模主要有三種途徑。推斷匿名訪問(wèn)者的人口統(tǒng)計(jì)特性在不打擾用戶的情況下,得到用戶概貌文件根據(jù)用戶的訪問(wèn)模式來(lái)聚類用戶2023/7/2136利用Web訪問(wèn)信息挖掘發(fā)現(xiàn)導(dǎo)航模式發(fā)現(xiàn)導(dǎo)航模式(DiscoveringNavigationPatterns)是Web訪問(wèn)信息挖掘的一個(gè)重要的研究領(lǐng)域。用戶的導(dǎo)航模式是指群體用戶對(duì)Web站點(diǎn)內(nèi)的頁(yè)面的瀏覽順序模式。用戶導(dǎo)航模式的主要應(yīng)用在改進(jìn)站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等方面。1.改進(jìn)Web站點(diǎn)的結(jié)構(gòu)設(shè)計(jì)2.個(gè)性化行銷(DirectMarketing):3.利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航模式4.利用模板發(fā)現(xiàn)導(dǎo)航模式5.利用超文本概率文法發(fā)現(xiàn)導(dǎo)航模式2023/7/2137利用Web訪問(wèn)信息挖掘改進(jìn)訪問(wèn)效率1.Web服務(wù)器推送技術(shù)2.自適應(yīng)網(wǎng)站3.應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)Web站點(diǎn)的訪問(wèn)效率4.改進(jìn)Web服務(wù)器的性能表7-10 改進(jìn)Web站點(diǎn)訪問(wèn)效率方法的比較方法特點(diǎn)優(yōu)點(diǎn)缺點(diǎn)Web服務(wù)器推送技術(shù)BinLan相關(guān)的文檔會(huì)被服務(wù)器提前推送到Proxy上。存在冗余推送問(wèn)題。自適應(yīng)網(wǎng)站PerkowitzM.通過(guò)增加索引頁(yè)來(lái)幫助用戶進(jìn)行訪問(wèn),以改進(jìn)訪問(wèn)效率。這些索引頁(yè)難于被用戶理解。應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)改進(jìn)Web站點(diǎn)的訪問(wèn)效率MyraSpiliopoulou基于規(guī)則的動(dòng)態(tài)Web站點(diǎn)。規(guī)則需要人工判定。改進(jìn)Web服務(wù)器的性能CohenE.AlmeidaSchechter通過(guò)對(duì)頁(yè)面的特性的挖掘,改進(jìn)服務(wù)器的效率。改進(jìn)集中于頁(yè)面這一級(jí),不涉及更高級(jí)的邏輯結(jié)構(gòu)改進(jìn)。2023/7/2138利用Web訪問(wèn)信息挖掘進(jìn)行個(gè)性化服務(wù)在Web站點(diǎn)開(kāi)展個(gè)性化(Personalization)服務(wù)的總的思路和步驟是:模型化頁(yè)面和用戶;分類頁(yè)面和用戶;在頁(yè)面和對(duì)象之間進(jìn)行匹配;判斷當(dāng)前訪問(wèn)的類別以進(jìn)行推薦。而且,個(gè)性化系統(tǒng)一般分為兩個(gè)部分:離線部分和在線部分。表7-11個(gè)性化方法的比較方法特點(diǎn)缺點(diǎn)離線聚類和動(dòng)態(tài)鏈接結(jié)合可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。隨著用戶訪問(wèn)長(zhǎng)度的增加,可供推薦的元素會(huì)趨于零?;陉P(guān)鍵詞學(xué)習(xí)引入時(shí)間特性為用戶提供推薦。需要用戶人工干預(yù),無(wú)法做到自動(dòng)。識(shí)別感興趣的鏈接建立代理服務(wù)器識(shí)別用戶的訪問(wèn)興趣提供推薦。用戶興趣的實(shí)效性考慮不夠。自動(dòng)定制不同用戶訪問(wèn)界面利用用戶建模技術(shù)自動(dòng)定制不同的用戶訪問(wèn)界面?!巴普摗币蕾囉谟脩羲诘念I(lǐng)域,適應(yīng)性不好。利用客戶端代理進(jìn)行個(gè)性化客戶端的代理,完全為個(gè)人服務(wù)。冗余搜索過(guò)大。聚類推薦可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。聚類的個(gè)數(shù)是人為事先給定的,不能隨著每個(gè)用戶的訪問(wèn)特性而動(dòng)態(tài)調(diào)整。2023/7/2139利用Web訪問(wèn)信息挖掘進(jìn)行商業(yè)智能發(fā)現(xiàn)表7-12 商業(yè)智能方法的比較方法特點(diǎn)Buchner其貢獻(xiàn)在于首次在Web訪問(wèn)信息挖掘的基礎(chǔ)上提出了商業(yè)智能的發(fā)現(xiàn)的框架;其不足在于發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買(mǎi)行為,而對(duì)用戶潛在的購(gòu)買(mǎi)興趣無(wú)法發(fā)現(xiàn)。YunC.優(yōu)點(diǎn)是挖掘了遷移和購(gòu)買(mǎi)行為之間的內(nèi)在關(guān)系。缺點(diǎn)是發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買(mǎi)行為,對(duì)用戶潛在購(gòu)買(mǎi)興趣無(wú)法發(fā)現(xiàn)。SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends優(yōu)點(diǎn)是通過(guò)分析頁(yè)面的點(diǎn)擊率來(lái)為推斷商業(yè)智能提供Web流量分析。缺點(diǎn)是無(wú)法發(fā)現(xiàn)高級(jí)的商業(yè)職能。2023/7/2140利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)在移動(dòng)計(jì)算環(huán)境中,一個(gè)新的挖掘方法,即用戶的移動(dòng)模式挖掘被提出。挖掘的結(jié)果可以用于開(kāi)發(fā)數(shù)據(jù)的分配模式以改變移動(dòng)系統(tǒng)的總的性能。首先,對(duì)移動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)行挖掘,可以得到頻繁用戶移動(dòng)模式。然后,根據(jù)挖掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配模式。根據(jù)不同層次的挖掘結(jié)果,有兩種個(gè)人數(shù)據(jù)分配模式:利用集合層次的用戶移動(dòng)模式(DS模式);利用路徑層次的用戶移動(dòng)模式(DP模式)。圖7-2 在一個(gè)移動(dòng)計(jì)算系統(tǒng)中移動(dòng)模式的例子2023/7/2141利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)可以分為如下三個(gè)主要步驟:數(shù)據(jù)收集階段:從各個(gè)服務(wù)器的日志集合中判斷最大的移動(dòng)序列和移動(dòng)對(duì)的出現(xiàn)次數(shù)。挖掘階段:從第一步的結(jié)果集中的每w個(gè)最大移動(dòng)序列中判斷大項(xiàng)移動(dòng)序列??紤]到新近的移動(dòng)模式,設(shè)立w為一個(gè)回顧因子,一個(gè)可調(diào)整的窗口。產(chǎn)生模式階段:根據(jù)第二步的得到的大項(xiàng)移動(dòng)序列,判斷用戶的移動(dòng)模式。2023/7/2142利用協(xié)作推薦的方法實(shí)現(xiàn)實(shí)時(shí)個(gè)性化推薦基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)的結(jié)構(gòu)如圖7-3所示。圖7-3 基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)整個(gè)處理過(guò)程分為兩部分:離線部分:包括數(shù)據(jù)準(zhǔn)備、得到推薦池、建立協(xié)作篩。在線部分:推薦引擎。2023/7/2143第七章Web挖掘技術(shù)

內(nèi)容提要Web挖掘的意義Web挖掘的分類Web挖掘的含義Web挖掘的數(shù)據(jù)來(lái)源Web內(nèi)容挖掘方法Web訪問(wèn)信息挖掘方法Web結(jié)構(gòu)挖掘方法

2023/7/2144頁(yè)面重要性的評(píng)價(jià)方法在設(shè)計(jì)搜索引擎等服務(wù)時(shí),對(duì)Web頁(yè)面的鏈接結(jié)構(gòu)進(jìn)行挖掘以得出有用的知識(shí)是提高檢索效率的重要手段。Web頁(yè)面的鏈接類似學(xué)術(shù)上的引用,因此一個(gè)重要的頁(yè)面可能會(huì)有很多頁(yè)面的鏈接指向它。定義7-3設(shè)u為一個(gè)Web頁(yè),F(xiàn)u為所有u指向的頁(yè)面的集合,Bu為所有指向u的頁(yè)面的集合。設(shè)Nu=|Fu|為從u發(fā)出的鏈接的個(gè)數(shù),c(<1)為一個(gè)歸一化的因子(因此所有頁(yè)面的總的PageRank為一個(gè)常數(shù)),那么u頁(yè)面的PageRank被定義為:

一個(gè)頁(yè)面對(duì)應(yīng)的PageRank值被分配到所有它所指向的頁(yè)面中;每一個(gè)頁(yè)面求和所有指向它的鏈接所帶來(lái)的PageRank以得到它的新的PageRank。在計(jì)算時(shí)可以從任何一個(gè)頁(yè)面開(kāi)始,通過(guò)上面的公式反復(fù)計(jì)算直到其收斂。2023/7/2145頁(yè)面等級(jí)一般地說(shuō),頁(yè)面的頁(yè)面等級(jí)值是通過(guò)指向這個(gè)頁(yè)面的數(shù)量來(lái)計(jì)算的,即通過(guò)指向向后連接數(shù)來(lái)計(jì)算的。向后連接是指向這個(gè)頁(yè)面的連接減去它指向外面的連接。計(jì)算量不是簡(jiǎn)單地向后連接的數(shù)量加合,而是要考慮向后連接的頁(yè)面的重要性。給定一個(gè)頁(yè)面p,我們使用Bp作為指向一系列指向P的頁(yè)面,并且用Fp作為一系列由外部指向P的連接,則這里的Nq=|Fq|。常量c是一個(gè)介于0,1之間的數(shù),用于標(biāo)準(zhǔn)化。這里有一個(gè)循環(huán)分級(jí)的問(wèn)題。當(dāng)計(jì)算一個(gè)頁(yè)面的頁(yè)面等級(jí)時(shí),如果發(fā)生循環(huán)則產(chǎn)生這個(gè)錯(cuò)誤(頁(yè)面A指向頁(yè)面B,頁(yè)面B同時(shí)指向頁(yè)面A),此時(shí)頁(yè)面等級(jí)值隨這些頁(yè)面增加??梢酝ㄟ^(guò)另一個(gè)公式解決:其中c是最大值,E(v)是一個(gè)矢量來(lái)增加一個(gè)人工連接。它是模擬一個(gè)用戶不隨著連接訪問(wèn)其他頁(yè)面,而是隨機(jī)跳到一個(gè)新的頁(yè)面。E(v)增加一對(duì)結(jié)點(diǎn)中間可能的連接。2023/7/2146權(quán)威頁(yè)面和中心頁(yè)面所謂權(quán)威頁(yè)面是指包含需求信息的最佳資源頁(yè)面。所謂中心頁(yè)面是一個(gè)包含權(quán)威頁(yè)面連接的頁(yè)面。HITS(Hyperlink-InducedTopicSearch)是遵照尋找權(quán)威頁(yè)面和中心頁(yè)面的典型方法。HITS技術(shù)由兩部分組成:基于一組給定的關(guān)鍵字,可以找到相關(guān)的頁(yè)面。權(quán)威和中心頁(yè)面與上述頁(yè)面有關(guān),返回具有最高權(quán)重的頁(yè)面。

算法7-3HITS輸入:(把www看作)一個(gè)引導(dǎo)圖W;查詢請(qǐng)求q;支持s。輸出:權(quán)威頁(yè)面的集合A;中心頁(yè)面的集合H。(1)BEGIN(2)R=SE(W,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論