![數(shù)據(jù)挖掘研究生課件第七章Web挖掘技術(shù)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/26/50f92a0f-8d95-443f-beb0-288419f7c9af/50f92a0f-8d95-443f-beb0-288419f7c9af1.gif)
![數(shù)據(jù)挖掘研究生課件第七章Web挖掘技術(shù)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/26/50f92a0f-8d95-443f-beb0-288419f7c9af/50f92a0f-8d95-443f-beb0-288419f7c9af2.gif)
![數(shù)據(jù)挖掘研究生課件第七章Web挖掘技術(shù)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/26/50f92a0f-8d95-443f-beb0-288419f7c9af/50f92a0f-8d95-443f-beb0-288419f7c9af3.gif)
![數(shù)據(jù)挖掘研究生課件第七章Web挖掘技術(shù)_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/26/50f92a0f-8d95-443f-beb0-288419f7c9af/50f92a0f-8d95-443f-beb0-288419f7c9af4.gif)
![數(shù)據(jù)挖掘研究生課件第七章Web挖掘技術(shù)_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-5/26/50f92a0f-8d95-443f-beb0-288419f7c9af/50f92a0f-8d95-443f-beb0-288419f7c9af5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 Web挖掘的價(jià)值n從大量的信息中發(fā)現(xiàn)用戶感興趣的信息從大量的信息中發(fā)現(xiàn)用戶感興趣的信息 :因特網(wǎng)上蘊(yùn)藏著大量的信息,通過(guò)簡(jiǎn)單的瀏覽或關(guān)鍵詞匹配的搜索引擎得到的是孤立而凌亂的“表面信息” ,Web挖掘可以發(fā)現(xiàn)潛在的、豐富的關(guān)聯(lián)信息。n將將WebWeb上的豐富信息轉(zhuǎn)變成有用的知識(shí):上的豐富信息轉(zhuǎn)變成有用的知識(shí):Web挖掘是面向Web數(shù)據(jù)進(jìn)行分析和知識(shí)提取的。因特網(wǎng)中頁(yè)面內(nèi)部、頁(yè)面間、頁(yè)面鏈接、
2、頁(yè)面訪問(wèn)等都包含大量對(duì)用戶可用的信息,而這些信息的深層次含義是很難被用戶直接使用的,必須經(jīng)過(guò)濃縮和提煉。n對(duì)用戶進(jìn)行信息個(gè)性化:對(duì)用戶進(jìn)行信息個(gè)性化:網(wǎng)站信息的個(gè)性化是將來(lái)的發(fā)展趨勢(shì)。通過(guò)Web挖掘,可以達(dá)到對(duì)用戶訪問(wèn)行為、頻度、內(nèi)容等的分析,可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí),用以改進(jìn)Web服務(wù)方的設(shè)計(jì),提供個(gè)性化的服務(wù)。 第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 Web挖掘的類型nWeb挖掘依靠它所挖掘的信息來(lái)源可以
3、分為:nWeb內(nèi)容挖掘(Web Content Mining):對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等,挖掘某類信息所蘊(yùn)含的知識(shí)模式。 nWeb訪問(wèn)信息挖掘(Web Usage Mining):Web訪問(wèn)信息挖掘是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器方留下的訪問(wèn)記錄進(jìn)行挖掘。通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。nWeb結(jié)構(gòu)挖掘(Web Structure Mining):Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的W
4、eb頁(yè)面集合,通過(guò)結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián)信息,頁(yè)面之間的包含、引用或者從屬關(guān)系等。第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 Web挖掘的含義nWeb挖掘是一個(gè)看寬泛的概念,可以簡(jiǎn)單地描述為:n針對(duì)包括Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí),為訪問(wèn)者、站點(diǎn)經(jīng)營(yíng)者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。 Web挖掘與信息檢索
5、n兩種截然不同的觀點(diǎn):nWebWeb上的信息檢索是上的信息檢索是WebWeb挖掘的一個(gè)方面挖掘的一個(gè)方面:Web挖掘旨在解決信息檢索、知識(shí)抽取以及更寬泛的商業(yè)問(wèn)題,是Web上IR技術(shù)的延伸。這種觀點(diǎn)大多來(lái)自于數(shù)據(jù)挖掘研究領(lǐng)域。nWebWeb挖掘是智能化的信息檢索挖掘是智能化的信息檢索:對(duì)于IR領(lǐng)域的研究人員來(lái)說(shuō), Web挖掘是IR研究向著智能化的方向發(fā)展的結(jié)果。n信息檢索可能經(jīng)常被說(shuō)成是Web挖掘的初級(jí)階段,是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過(guò)程,它可以支持更高級(jí)的商業(yè)決策和分析。 WebWeb挖掘與信息抽取挖掘與信息抽取nWeb上的IE的研究目的
6、是希望從眾多的Web文擋中抽取可供分析的信息,與Web挖掘的關(guān)系也有不同的觀點(diǎn):nIEIE是是WebWeb挖掘整個(gè)過(guò)程的一部分:挖掘整個(gè)過(guò)程的一部分:這是因?yàn)閃eb上的數(shù)據(jù)一般是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,因此需要進(jìn)行規(guī)格化的信息抽取這樣的預(yù)處理。nWebWeb挖掘是挖掘是IEIE的一個(gè)特殊技術(shù):的一個(gè)特殊技術(shù):既然IE是希望把Web蘊(yùn)藏的信息抽取出來(lái),那么Web挖掘或者文本挖掘只不過(guò)是達(dá)到這個(gè)目的的特殊技術(shù)手段。n信息抽取經(jīng)常被說(shuō)成是Web挖掘的一個(gè)預(yù)處理階段,那是因?yàn)樵跀?shù)據(jù)挖掘領(lǐng)域,Web挖掘的更廣義的理解應(yīng)該是一個(gè)知識(shí)提取的完整過(guò)程。 第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要
7、nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 Web挖掘的主要數(shù)據(jù)源nWeb挖掘的數(shù)據(jù)來(lái)源是寬泛的:凡是在Web站點(diǎn)中對(duì)用戶有價(jià)值的數(shù)據(jù)都可以成為它挖掘的數(shù)據(jù)源。n由于這些對(duì)象的數(shù)據(jù)形式及含義的差異,其挖掘技術(shù)會(huì)不同。一些比較有代表性的數(shù)據(jù)源有:n服務(wù)器日志數(shù)據(jù):Web訪問(wèn)信息挖掘的主要數(shù)據(jù)源。服務(wù)器日志數(shù)據(jù)n對(duì)Web服務(wù)器的訪問(wèn),服務(wù)器方將會(huì)產(chǎn)生3種類型的日志文件:nServer logs:記錄用戶的訪問(wèn)時(shí)間、IP地址以及請(qǐng)求等信息。nError logs:存取請(qǐng)求失敗的數(shù)據(jù),例如丟失連接、
8、授權(quán)失敗或超時(shí)等 nookie logs:Cookie是由web服務(wù)器產(chǎn)生的記號(hào)并由客戶端持有,用于識(shí)別用戶和用戶的會(huì)話。 FieldDescriptionDateDate, time, and timezone of requestClient IPRemote host IP and / or DNS entryUser nameRemote log name of the userBytesBytes transferred (sent and received)ServerServer name, IP address and portRequestURI query and stem
9、Statushttp status code returned to the clientService name Requested service nameTime takenTime taken for transaction to completeProtocol versionVersion of used transfer protocolUser agentService providerCookieCookie IDReferrerPrevious pageServer logs的一個(gè)格式示意在線市場(chǎng)數(shù)據(jù)在線市場(chǎng)數(shù)據(jù)n在線市場(chǎng)數(shù)據(jù)是指和市場(chǎng)活動(dòng)相關(guān)的信息。例如一個(gè)電子商務(wù)站點(diǎn),
10、存儲(chǔ)相關(guān)的電子商務(wù)信息。n從內(nèi)容上說(shuō),不同目的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù)。n在線市場(chǎng)數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只有結(jié)合在線市場(chǎng)數(shù)據(jù)分析才能達(dá)到目的。WebWeb頁(yè)面頁(yè)面nWeb頁(yè)面是網(wǎng)站信息的主體,但是它們的主要信息不可能像關(guān)系型數(shù)據(jù)庫(kù)那樣規(guī)整,因此Web頁(yè)面的內(nèi)容組織形式的分析是研究Web挖掘的具體方法的基礎(chǔ)。n目前的Web頁(yè)面大多滿足HTML標(biāo)準(zhǔn),現(xiàn)有的Web挖掘方法大多是針對(duì)Web頁(yè)面開(kāi)展的。n1 9 9 8 年 W W W 社 團(tuán) 提 出 了 X M L 語(yǔ) 言 標(biāo) 準(zhǔn)(eXtensible Markup
11、 Language)。該標(biāo)準(zhǔn)通過(guò)把一些描述頁(yè)面內(nèi)容的標(biāo)記(tag)添加到HTML頁(yè)面中,用于對(duì)HTML頁(yè)面內(nèi)容進(jìn)行自描述?;赬ML規(guī)范的挖掘研究也是一個(gè)重要的研究分支。第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 Web內(nèi)容挖掘的主要方法n一種Web內(nèi)容挖掘的分類方法是分為代理人方法和數(shù)據(jù)庫(kù)方法。n代理人方法代理人方法使用軟件系統(tǒng)(代理)來(lái)完成內(nèi)容挖掘。例如,n智能檢索代理超越了簡(jiǎn)單的檢索機(jī)制使用通過(guò)關(guān)鍵智能檢索代理超越了簡(jiǎn)單的檢索
12、機(jī)制使用通過(guò)關(guān)鍵詞之外的技術(shù)來(lái)完成檢索,可以利用用戶模版或其詞之外的技術(shù)來(lái)完成檢索,可以利用用戶模版或其關(guān)心的知識(shí)領(lǐng)域等來(lái)實(shí)現(xiàn)信息的抽取。關(guān)心的知識(shí)領(lǐng)域等來(lái)實(shí)現(xiàn)信息的抽取。n信息過(guò)濾利用信息檢索技術(shù)、連接結(jié)構(gòu)的知識(shí)和其信息過(guò)濾利用信息檢索技術(shù)、連接結(jié)構(gòu)的知識(shí)和其他方法來(lái)分析和分類文檔。他方法來(lái)分析和分類文檔。n個(gè)性化個(gè)性化WebWeb代理使用有關(guān)用戶的喜好的信息來(lái)指導(dǎo)它代理使用有關(guān)用戶的喜好的信息來(lái)指導(dǎo)它們的檢索。們的檢索。n數(shù)據(jù)庫(kù)方法數(shù)據(jù)庫(kù)方法將所有的Web數(shù)據(jù)描述為一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)。意味著Web是一個(gè)多級(jí)的異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng),可以通過(guò)多種查詢語(yǔ)言來(lái)獲得Web的信息來(lái)完成信息的抽取。文本挖掘是W
13、eb內(nèi)容挖掘的基礎(chǔ)n文本挖掘(TD)的方式和目標(biāo)是多種多樣的,基本層次有:n關(guān)鍵詞檢索:最簡(jiǎn)單的方式,它和傳統(tǒng)的搜索技術(shù)類似。n挖掘項(xiàng)目關(guān)聯(lián):聚焦在頁(yè)面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。n信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁(yè)面的分類,將頁(yè)面在一個(gè)更到層次上進(jìn)行抽象和整理。n自然語(yǔ)言處理:揭示自然語(yǔ)言處理技術(shù)中的語(yǔ)義,實(shí)現(xiàn)Web內(nèi)容的更精確處理。 Clusteringion Classification Term association Keyword Natural language processing圖7-1文本挖掘體系示意搜索引擎與Web內(nèi)容挖掘n傳統(tǒng)的搜索引擎(S
14、earching Engine)效率低下。由于是基于Web中超文本結(jié)構(gòu)分解的:它從一個(gè)網(wǎng)頁(yè)開(kāi)始的,通過(guò)查閱和記錄這個(gè)網(wǎng)頁(yè)的所有連接并把它們排列起來(lái),然后再?gòu)恼业降男马?yè)面繼續(xù)開(kāi)始重復(fù)工作。n利用數(shù)據(jù)挖掘技術(shù)來(lái)改進(jìn)搜索引擎是有價(jià)值的。這種價(jià)值體現(xiàn)在許多方面。例如,n通過(guò)對(duì)搜索結(jié)果進(jìn)行關(guān)聯(lián)分析或聚類等,對(duì)結(jié)果進(jìn)行清洗和濃縮。n面向主題進(jìn)行搜索,即只檢索與某一主題有關(guān)的頁(yè)面。n聚焦用戶感興趣的頁(yè)面,在有限的資源下使有效內(nèi)容挖掘力度提高。n基于搜索引擎的挖掘工作有下面一些重要方面:n利用超文本鏈接結(jié)構(gòu)進(jìn)行頁(yè)面內(nèi)容分類,使搜索引擎檢索的頁(yè)面符合用戶的興趣。n有些頁(yè)面包含很多鏈接,而這些鏈接的頁(yè)面是用戶感興
15、趣的,因此它們需要被檢索。n采用合理而高效的方法對(duì)被選擇的頁(yè)面進(jìn)行內(nèi)容分析和挖掘。虛擬的虛擬的WebWeb視圖視圖n一個(gè)有效的解決在Web中大量無(wú)結(jié)構(gòu)數(shù)據(jù)的方法是在這些數(shù)據(jù)之上建立一個(gè)MLDB(Multiple Layered Database)。這個(gè)數(shù)據(jù)庫(kù)是多層次的, 每層索引都比它下一層要小。對(duì)于最底層來(lái)說(shuō),需要了解Web文檔結(jié)構(gòu),而最高層則有著完善的結(jié)構(gòu)并可以通過(guò)類似SQL的查詢語(yǔ)言進(jìn)行訪問(wèn)或挖掘。nMLDB提供一個(gè)被稱為VMV(Virtual Web View)的視圖機(jī)制,Web中的感興趣的結(jié)構(gòu)被濃縮在這個(gè)視圖中。n等級(jí)概念(近意詞組、詞匯和語(yǔ)義聯(lián)系等)將幫助歸納過(guò)程來(lái)架構(gòu)更高層的ML
16、DB。 個(gè)性化與個(gè)性化與WebWeb內(nèi)容挖掘內(nèi)容挖掘n通過(guò)個(gè)性化,網(wǎng)頁(yè)的內(nèi)容和組織將更加適合用戶的需要。個(gè)性化服務(wù)是Web挖掘技術(shù)的重要目標(biāo)之一。n通過(guò)個(gè)性化,基于用戶所關(guān)心內(nèi)容的廣告會(huì)被發(fā)送到潛在的用戶。當(dāng)一個(gè)特別的用戶訪問(wèn)一個(gè)站點(diǎn)時(shí),會(huì)有一個(gè)特別為它定制的廣告出現(xiàn),這對(duì)那些可能購(gòu)買的用戶來(lái)說(shuō)是一個(gè)極大的誘惑。nWeb內(nèi)容挖掘的目的之一是基于頁(yè)面內(nèi)容相似度進(jìn)行用戶分類或聚類的,個(gè)性化的建立是通過(guò)用戶過(guò)去的檢索內(nèi)容分析而建立起來(lái)的。自動(dòng)的個(gè)性化技術(shù)可以通過(guò)過(guò)去的需要和相似用戶的需要來(lái)預(yù)知特定用戶將來(lái)的需要。WebWeb頁(yè)面內(nèi)文本信息挖掘頁(yè)面內(nèi)文本信息挖掘n挖掘的目標(biāo)是對(duì)頁(yè)面進(jìn)行摘要和分類。n頁(yè)
17、面摘要:對(duì)頁(yè)面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。n頁(yè)面分類:分類器輸入的是一個(gè)Web頁(yè)面集(訓(xùn)練集),再根據(jù)頁(yè)面文本信息內(nèi)容進(jìn)行學(xué)習(xí),就可以把學(xué)成的分類器用于分類新輸入的頁(yè)面。n在文本學(xué)習(xí)中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來(lái),而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是:n每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞。n每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息,這時(shí),該頁(yè)面中的所有詞對(duì)應(yīng)到列集(特征集)上。列集中的每一個(gè)列(詞),如果在該頁(yè)面中不出現(xiàn),則其值為0;如果出現(xiàn)k次,那么其值就為k;
18、頁(yè)面中的詞如果不出現(xiàn)在列集上,可以被放棄。這種方法可以表征出頁(yè)面中詞的頻度。n對(duì)中文頁(yè)面來(lái)說(shuō),還需先分詞然后再進(jìn)行以上兩步處理。n這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進(jìn)行分類挖掘。n在挖掘之前,一般要先進(jìn)行特征子集的選取,以降低維數(shù)。WebWeb頁(yè)面內(nèi)多媒體信息挖掘頁(yè)面內(nèi)多媒體信息挖掘n多媒體挖掘是一個(gè)大研究分支,總的挖掘過(guò)程是先要應(yīng)用多媒體信息特征提取工具,形成特征2維表,然后就可以采用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。n在特征提取階段,利用多媒體信息提取工具進(jìn)行特征提取。一般地,信息提取工
19、具能夠抽取出image和video的文件名、URL、父URL、類型、鍵值表、顏色向量等。對(duì)這些特征可以進(jìn)行如下挖掘操作:n關(guān)聯(lián)規(guī)則發(fā)現(xiàn):例如,如果圖像是關(guān)聯(lián)規(guī)則發(fā)現(xiàn):例如,如果圖像是“大大”的而且的而且與關(guān)鍵詞與關(guān)鍵詞“天空天空”有關(guān),那么它是藍(lán)色的概率為有關(guān),那么它是藍(lán)色的概率為68%68%。n分類:根據(jù)提供的某種類標(biāo),針對(duì)特征集,利用分類:根據(jù)提供的某種類標(biāo),針對(duì)特征集,利用決策樹(shù)可以進(jìn)行分類。決策樹(shù)可以進(jìn)行分類。第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖
20、掘方法 nWeb結(jié)構(gòu)挖掘方法 Web訪問(wèn)信息挖掘的特點(diǎn)nWebWeb訪問(wèn)數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣訪問(wèn)數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣n一個(gè)中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問(wèn)信息。n廣泛分布于世界各處。n訪問(wèn)信息形態(tài)多樣。n訪問(wèn)信息具有豐富的內(nèi)涵。nWebWeb訪問(wèn)數(shù)據(jù)包含決策可用的信息訪問(wèn)數(shù)據(jù)包含決策可用的信息n每個(gè)用戶的訪問(wèn)特點(diǎn)可以被用來(lái)識(shí)別該用戶和網(wǎng)站訪問(wèn)的特性。n同一類用戶的訪問(wèn),代表同一類用戶的個(gè)性。n一段時(shí)期的訪問(wèn)數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。nWeb訪問(wèn)信息數(shù)據(jù)是網(wǎng)站的設(shè)計(jì)者和訪問(wèn)者進(jìn)行溝通的橋梁。nWeb訪問(wèn)信息數(shù)據(jù)是開(kāi)展數(shù)據(jù)挖掘研究的良好的
21、對(duì)象。nWebWeb訪問(wèn)信息挖掘?qū)ο蟮奶攸c(diǎn)訪問(wèn)信息挖掘?qū)ο蟮奶攸c(diǎn)n訪問(wèn)事務(wù)的元素是Web頁(yè)面,事務(wù)元素之間存在豐富的結(jié)構(gòu)信息。n訪問(wèn)事務(wù)間的順序信息。n每個(gè)頁(yè)面的內(nèi)容可以被抽象出不同的概念,訪問(wèn)決定概念。n用戶對(duì)頁(yè)面存在不同的訪問(wèn)時(shí)長(zhǎng),訪問(wèn)長(zhǎng)代表了用戶訪問(wèn)興趣。 Web訪問(wèn)信息挖掘的意義n通過(guò)分析日志文件,可以發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的特征、頁(yè)面被用戶訪問(wèn)的規(guī)律、用戶頻繁訪問(wèn)的頁(yè)組等,以便其合理、有效地優(yōu)化站點(diǎn)的結(jié)構(gòu),最終為用戶提供一個(gè)方便快捷信息獲取環(huán)境。有三方面的應(yīng)用具有代表性:nWeb服務(wù)方主要根據(jù)自己的領(lǐng)域知識(shí)設(shè)計(jì)Web頁(yè)面的結(jié)構(gòu),而群體用戶根據(jù)各自的訪問(wèn)興趣訪問(wèn)這些頁(yè)面,那么服務(wù)方的結(jié)構(gòu)設(shè)計(jì)
22、是否合理?怎樣的設(shè)計(jì)以便利于群體用戶的訪問(wèn),更加吸引訪問(wèn)者?這些問(wèn)題的解決是Web訪問(wèn)信息挖掘的主要目的。n群體用戶的訪問(wèn)存在哪些特點(diǎn)?如果掌握了這些特點(diǎn),那么就可以利用其開(kāi)展進(jìn)一步的商務(wù)活動(dòng)。n對(duì)于每一個(gè)新的Web站點(diǎn)的訪問(wèn)者,都會(huì)在曾經(jīng)訪問(wèn)的群體用戶中找到一些最相似的相同的訪問(wèn)者,那么那些訪問(wèn)者的訪問(wèn)就可以給這個(gè)新的訪問(wèn)者提供推薦,以便利于該訪問(wèn)者的進(jìn)一步訪問(wèn)。 典型的商業(yè)價(jià)值n面向群體訪問(wèn)者,能夠:面向群體訪問(wèn)者,能夠:n提供高效訪問(wèn):減少有用信息的檢索時(shí)間,提高服務(wù)性能。n吸引訪問(wèn)者。n保持訪問(wèn)者:如果網(wǎng)站具有更好的結(jié)構(gòu)設(shè)計(jì),就能留住用戶。n避免訪問(wèn)者離開(kāi):找到離開(kāi)原因,改進(jìn)網(wǎng)站的結(jié)構(gòu)
23、設(shè)計(jì)。n地區(qū)/行業(yè)/階層的分析:根據(jù)交易者留下的信息,推測(cè)。n防止訪問(wèn)者迷航:改進(jìn)頁(yè)面的結(jié)構(gòu)設(shè)計(jì)是必要的。n群體推薦:針對(duì)群體用戶的訪問(wèn)偏好,推薦他們感興趣的東西。n針對(duì)性服務(wù):如在合適路徑上,就可以放置相應(yīng)內(nèi)容的廣告。n面向群體每一個(gè)訪問(wèn)者,能夠:面向群體每一個(gè)訪問(wèn)者,能夠:n個(gè)性化推薦。n用戶建模:根據(jù)已有群體用戶的訪問(wèn),推斷當(dāng)前用戶的特征。n個(gè)性化推銷(Direct Marketing):識(shí)別出對(duì)某種產(chǎn)品或服務(wù)的可能購(gòu)買者,對(duì)其推薦相應(yīng)的產(chǎn)品或服務(wù)。Web訪問(wèn)信息挖掘的數(shù)據(jù)源n由于Web世界的分布性,用戶訪問(wèn)行為被廣泛地分布記錄在Web服務(wù)器、用戶客戶端,和代理服務(wù)器中。在各個(gè)分布地點(diǎn)的
24、不同的用戶訪問(wèn)信息表征了不同類型的用戶訪問(wèn)行為。挖掘工作必須針對(duì)數(shù)據(jù)的特點(diǎn)來(lái)決定相應(yīng)的挖掘任務(wù)。用戶訪問(wèn)信息的分布簡(jiǎn)單歸結(jié)為:n服務(wù)器方:一般地,在一個(gè)Web服務(wù)器上,服務(wù)器日志記錄了多個(gè)用戶對(duì)單個(gè)站點(diǎn)的用戶訪問(wèn)行為。n客戶方:一般地,在客戶端計(jì)算機(jī)上,客戶端的代理記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)或單個(gè)用戶對(duì)多個(gè)站點(diǎn)的用戶訪問(wèn)行為??蛻舳说腃ache記錄了用戶訪問(wèn)內(nèi)容??蛻舳说腂ookMark也記錄了單個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)偏好。n客戶端代理服務(wù)器:代理服務(wù)器記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)行為,同時(shí)代理服務(wù)器內(nèi)部的Cache記錄了多個(gè)用戶對(duì)多個(gè)站點(diǎn)的訪問(wèn)內(nèi)容。服務(wù)器方訪問(wèn)信息n一個(gè)Web服務(wù)器日志(S
25、erver log)反映出多個(gè)用戶對(duì)單個(gè)站點(diǎn)的訪問(wèn)行為。n一個(gè)從實(shí)際Web服務(wù)器上采集的Log文件片段: IP AddressUser IDTimeMethod/URI/ProtocolStautsSize2- -10/Dec/1998:12:34:16 -0600GET /images/lchzhi.gif HTTP/1.1200448512- -10/Dec/1998:12:34:32 -0600GET /graduate.htm HTTP/1.120074032- -10/Dec/1998:12:34:32 -
26、0600GET /images/sxwys2.jpg HTTP/1.1200184819- -10/Dec/1998:12:34:48 -0600GET /result.htm HTTP/1.0200123022- -10/Dec/1998:12:34:58 0600GET /structure.htm HTTP/1.12003672- -10/Dec/1998:12:34:58 0600GET /struc-index.htm HTTP/1.1 20043702- -10/Dec/1998:
27、12:34:58 0600GET /struc-content.htm HTTP/1.1200120472- -10/Dec/1998:12:34:58 0600GET /images/znkfsys.jpg HTTP/1.120022574代理服務(wù)器端訪問(wèn)信息n代理服務(wù)器端的訪問(wèn)信息包括用戶訪問(wèn)日志和在Cache中被訪問(wèn)的頁(yè)面信息。n一個(gè)代理服務(wù)器日志的例子(基于WindowsNT4.0的代理服務(wù)器): 8, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-2
28、8, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 200, 582, 1376, http, tcp, GET, http:/ -, Inet, 304, 08, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 270, 2101, 1254, http, tcp, GET, http:/ -, VCache, 304,
29、08, HEADSWANG Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , , 80, 171, 449, 1110, http, tcp, GET, http:/ -, Inet, 304, 08, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, N T P
30、R O X Y , - , w w w . i c t . a c . c n , 1 5 9 . 2 2 6 . 3 9 . 2 , 8 0 , 2 1 1 , 4 5 5 , 8 2 6 , h t t p , t c p , G E T , http:/ -, Inet, 304, 0Web訪問(wèn)信息挖掘的預(yù)處理nWeb訪問(wèn)信息挖掘的基礎(chǔ)和最煩瑣的工作是數(shù)據(jù)的預(yù)處理。預(yù)處理用戶訪問(wèn)信息是整個(gè)數(shù)據(jù)準(zhǔn)備的核心工作,也是開(kāi)展下一階段Web訪問(wèn)信息挖掘的基礎(chǔ)。預(yù)處理階段主要的工作是識(shí)別用戶訪問(wèn)事務(wù)和訪問(wèn)片斷。nWeb Usage Mining在預(yù)處理階段主要的工作有:n數(shù)據(jù)清洗:數(shù)據(jù)清洗:由于數(shù)據(jù)
31、表示、寫(xiě)入的對(duì)象差異以及用戶的興趣和挖掘算法對(duì)數(shù)據(jù)要求的不同,對(duì)于Web日志中的數(shù)據(jù)需要確定合理的數(shù)據(jù)清洗策略 。n識(shí)別用戶訪問(wèn)事務(wù):識(shí)別用戶訪問(wèn)事務(wù):在對(duì)Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,需要把對(duì)Web頁(yè)的訪問(wèn)序列組織成邏輯單元以表征事務(wù)或用戶會(huì)話。數(shù)據(jù)清洗n合并數(shù)據(jù):在給定挖掘時(shí)間段后,數(shù)據(jù)清洗需要合并Web服務(wù)器上的多個(gè)日志文件,并且解析每個(gè)文件,將其轉(zhuǎn)化到數(shù)據(jù)庫(kù)或特定格式的數(shù)據(jù)文件中。n剔除不相關(guān)的數(shù)據(jù):在Web日志中一些存取記錄可能對(duì)挖掘來(lái)說(shuō)是不必要的,例如圖形文件,壓縮文件等的存取可能對(duì)面向文本挖掘的用戶不需要考慮,所以應(yīng)該被剔除。通過(guò)檢查后綴gif、jpeg、zip、ps等就可以實(shí)
32、現(xiàn)。n代理訪問(wèn)的處理:由于搜索引擎或其他一些自動(dòng)代理的存在,日志中存在大量的由它們發(fā)出的請(qǐng)求。因此從日志中識(shí)別代理(Agent)或網(wǎng)絡(luò)爬蟲(chóng)(Crawler or Spider)對(duì)站點(diǎn)的訪問(wèn)是必須的。n正規(guī)化URI(Uniform Resource Identifier) :由于各種默認(rèn)情況的存在,需要進(jìn)一步正規(guī)化URI。n數(shù)據(jù)項(xiàng)解析:CGI數(shù)據(jù)項(xiàng)必須被解析在不同的域中,并被解析為對(duì)的形式。識(shí)別用戶訪問(wèn)事務(wù)n在Web日志中,用戶的訪問(wèn)事務(wù)并不是一個(gè)顯然的結(jié)果,需要專門(mén)的算法來(lái)進(jìn)行識(shí)別和生成。找到相應(yīng)的事務(wù)集,才能對(duì)這個(gè)事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)等挖掘工作。n n 時(shí)間窗C大小的界定是一個(gè)經(jīng)
33、驗(yàn)值(有人建議30分鐘較為合適)。定義定義7-1 設(shè)L為用戶訪問(wèn)日志,其中的一個(gè)項(xiàng)lL,包括用戶的IP地址l.ip,用戶的標(biāo)識(shí)符l.uid,被存取頁(yè)的URI地址l.url,長(zhǎng)度為l.length以及存取訪問(wèn)的時(shí)間l.time,存取訪問(wèn)的時(shí)長(zhǎng)l.timelength,訪問(wèn)事務(wù)被定義為:這里C是一個(gè)固定的時(shí)間窗。timeltimeltimelengthlCtimeltimeluiduidlipiplLlmkforwherelengthltimelengthltimelurll.uidl.ipl.lengthlh.timelengtl.timel.urll.uidl.ipluidipttktktkt
34、ktkttkttktktmtmtmtmtmtmtttttttt.,. ,. ,. , , 1 , ).,.,.,.,( ,., ),( ,111111111其他信息的預(yù)處理技術(shù)其他信息的預(yù)處理技術(shù)1 1導(dǎo)航內(nèi)容片斷導(dǎo)航內(nèi)容片斷 在一些電子商務(wù)網(wǎng)站中,需要知道用戶到達(dá)一個(gè)內(nèi)容頁(yè)之前是經(jīng)歷哪些導(dǎo)航頁(yè)的。例如,一個(gè)用戶訪問(wèn)事務(wù)為:N1,N2,N3,C1, N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中N為導(dǎo)航頁(yè),C為內(nèi)容頁(yè)。識(shí)別導(dǎo)航內(nèi)容片斷就是要從用戶訪問(wèn)事務(wù)中識(shí)別出:n片斷1:N1,N2,N3,C1。n片斷2:N4,N5,N6,C2。n片斷3:N7,N8,C3。
35、n片斷4:N9,N10,N11,N12,C4。2 2最大前向訪問(wèn)序列最大前向訪問(wèn)序列 所謂用戶最大前向訪問(wèn)序列是指在用戶訪問(wèn)回退之前一直被訪問(wèn)的頁(yè)面序列。每個(gè)最大前向訪問(wèn)序列就構(gòu)成一個(gè)訪問(wèn)片段。定義該片斷的優(yōu)點(diǎn)是有利于發(fā)現(xiàn)用戶感興趣的事務(wù)。顯然在用戶訪問(wèn)事務(wù)中尋找最大前向序列必須要依據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)。 在在WebWeb訪問(wèn)挖掘中的常用技術(shù)訪問(wèn)挖掘中的常用技術(shù)1 1路徑分析路徑分析n路徑分析最常用的應(yīng)用是用于判定在一個(gè)路徑分析最常用的應(yīng)用是用于判定在一個(gè)WebWeb站點(diǎn)中最頻站點(diǎn)中最頻繁訪問(wèn)的路徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信繁訪問(wèn)的路徑,這樣的知識(shí)對(duì)于一個(gè)電子商務(wù)網(wǎng)站或者信息安全
36、評(píng)估是非常重要的。息安全評(píng)估是非常重要的。2 2關(guān)聯(lián)規(guī)則發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)n使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從WebWeb訪問(wèn)事務(wù)集中,找到一訪問(wèn)事務(wù)集中,找到一般性的關(guān)聯(lián)知識(shí)。般性的關(guān)聯(lián)知識(shí)。 3 3序列模式發(fā)現(xiàn)序列模式發(fā)現(xiàn)n在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。這樣的內(nèi)部事務(wù)模式。 4 4分類分類n發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。述。這種描述可以用
37、于分類新的項(xiàng)。 5 5聚類聚類n可以從可以從Web UsageWeb Usage數(shù)據(jù)中聚集出具有相似特性的那些客戶。數(shù)據(jù)中聚集出具有相似特性的那些客戶。在在WebWeb事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。 WebWeb訪問(wèn)信息挖掘的要素構(gòu)成訪問(wèn)信息挖掘的要素構(gòu)成1 1數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源n數(shù)據(jù)的來(lái)源分為服務(wù)器,代理服務(wù)器,和客戶端。2 2數(shù)據(jù)類型數(shù)據(jù)類型n數(shù)據(jù)的類型主要分為結(jié)構(gòu),內(nèi)容,訪問(wèn)信息,用戶概貌文件。3 3用戶的數(shù)量用戶的數(shù)量n用戶的數(shù)量表現(xiàn)為:或者數(shù)據(jù)集只由一個(gè)用戶的信息構(gòu)成,或者數(shù)據(jù)
38、由多個(gè)用戶的信息構(gòu)成。4 4站點(diǎn)的數(shù)量站點(diǎn)的數(shù)量n在數(shù)據(jù)集中的Web站點(diǎn)的個(gè)數(shù)表現(xiàn)為:或者在數(shù)據(jù)集中只記錄單個(gè)站點(diǎn)的信息,或者記錄多個(gè)站點(diǎn)的信息。5 5服務(wù)對(duì)象服務(wù)對(duì)象nWeb訪問(wèn)信息挖掘的結(jié)果由Web服務(wù)方進(jìn)行應(yīng)用。應(yīng)用的結(jié)果即服務(wù)對(duì)象可以是當(dāng)個(gè)單個(gè)用戶,或群體用戶。單個(gè)用戶即意味著個(gè)性化。6 6挖掘手段挖掘手段nWeb訪問(wèn)信息挖掘所采用的各種數(shù)據(jù)挖掘方法,例如關(guān)聯(lián)規(guī)則發(fā)現(xiàn),聚類,分類,統(tǒng)計(jì)等等。利用利用WebWeb訪問(wèn)信息挖掘?qū)崿F(xiàn)用戶建模訪問(wèn)信息挖掘?qū)崿F(xiàn)用戶建模n由于Web網(wǎng)站的特性,對(duì)網(wǎng)站的經(jīng)營(yíng)者和設(shè)計(jì)者而言,無(wú)法直接了解用戶的特性。然而對(duì)訪問(wèn)者個(gè)人特性和群體用戶特性的了解對(duì)Web網(wǎng)站的
39、服務(wù)方而言顯得尤為重要。幸運(yùn)的是可以通過(guò)數(shù)據(jù)挖掘的方法得到用戶的特性。n“用戶建?!保∕odelling Users)是指根據(jù)訪問(wèn)者對(duì)一個(gè)Web站點(diǎn)上Web頁(yè)面的的訪問(wèn)情況,可以模型化用戶的自身特性。在識(shí)別出用戶的特性后就可以開(kāi)展針對(duì)性的服務(wù)。用戶建模主要有三種途徑。 n推斷匿名訪問(wèn)者的人口統(tǒng)計(jì)特性 n在不打擾用戶的情況下,得到用戶概貌文件 n根據(jù)用戶的訪問(wèn)模式來(lái)聚類用戶利用利用WebWeb訪問(wèn)信息挖掘發(fā)現(xiàn)導(dǎo)航模式訪問(wèn)信息挖掘發(fā)現(xiàn)導(dǎo)航模式n發(fā)現(xiàn)導(dǎo)航模式(發(fā)現(xiàn)導(dǎo)航模式(Discovering Navigation PatternsDiscovering Navigation Patterns)是
40、是WebWeb訪問(wèn)信息挖掘的一個(gè)重要的研究領(lǐng)域。用訪問(wèn)信息挖掘的一個(gè)重要的研究領(lǐng)域。用戶的導(dǎo)航模式是指群體用戶對(duì)戶的導(dǎo)航模式是指群體用戶對(duì)WebWeb站點(diǎn)內(nèi)的頁(yè)面站點(diǎn)內(nèi)的頁(yè)面的瀏覽順序模式。的瀏覽順序模式。n用戶導(dǎo)航模式的主要應(yīng)用在改進(jìn)站點(diǎn)設(shè)計(jì)和個(gè)性用戶導(dǎo)航模式的主要應(yīng)用在改進(jìn)站點(diǎn)設(shè)計(jì)和個(gè)性化推銷等方面?;其N等方面。n1 1改進(jìn)改進(jìn)WebWeb站點(diǎn)的結(jié)構(gòu)設(shè)計(jì)站點(diǎn)的結(jié)構(gòu)設(shè)計(jì)n2 2個(gè)性化行銷(個(gè)性化行銷(Direct MarketingDirect Marketing):):n3 3利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航模式利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)導(dǎo)航模式n4 4利用模板發(fā)現(xiàn)導(dǎo)航模式利用模板發(fā)現(xiàn)導(dǎo)航模式
41、n5 5利用超文本概率文法發(fā)現(xiàn)導(dǎo)航模式利用超文本概率文法發(fā)現(xiàn)導(dǎo)航模式利用利用WebWeb訪問(wèn)信息挖掘改進(jìn)訪問(wèn)效率訪問(wèn)信息挖掘改進(jìn)訪問(wèn)效率1 1WebWeb服務(wù)器推送技術(shù)服務(wù)器推送技術(shù)2 2自適應(yīng)網(wǎng)站自適應(yīng)網(wǎng)站3 3應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)WebWeb站點(diǎn)的訪問(wèn)效率站點(diǎn)的訪問(wèn)效率4 4改進(jìn)改進(jìn)WebWeb服務(wù)器的性能服務(wù)器的性能表表7-107-10改進(jìn)改進(jìn)WebWeb站點(diǎn)訪問(wèn)效率方法的比較站點(diǎn)訪問(wèn)效率方法的比較方法特點(diǎn)優(yōu)點(diǎn)缺點(diǎn)Web服務(wù)器推送技術(shù)Bin Lan相關(guān)的文檔會(huì)被服務(wù)器提前推送到Proxy上。存在冗余推送問(wèn)題。自適應(yīng)網(wǎng)站Perkowitz M.通過(guò)增加索引頁(yè)來(lái)幫助用
42、戶進(jìn)行訪問(wèn),以改進(jìn)訪問(wèn)效率。這些索引頁(yè)難于被用戶理解。應(yīng)用導(dǎo)航模式的結(jié)果改進(jìn)改進(jìn)Web站點(diǎn)的訪問(wèn)效率Myra Spiliopoulou 基于規(guī)則的動(dòng)態(tài)Web站點(diǎn)。規(guī)則需要人工判定。改進(jìn)Web服務(wù)器的性能Cohen E. AlmeidaSchechter通過(guò)對(duì)頁(yè)面的特性的挖掘,改進(jìn)服務(wù)器的效率。改進(jìn)集中于頁(yè)面這一級(jí),不涉及更高級(jí)的邏輯結(jié)構(gòu)改進(jìn)。利用利用WebWeb訪問(wèn)信息挖掘進(jìn)行個(gè)性化服務(wù)訪問(wèn)信息挖掘進(jìn)行個(gè)性化服務(wù)在Web站點(diǎn)開(kāi)展個(gè)性化(Personalization)服務(wù)的總的思路和步驟是:n模型化頁(yè)面和用戶;n分類頁(yè)面和用戶;n在頁(yè)面和對(duì)象之間進(jìn)行匹配;n判斷當(dāng)前訪問(wèn)的類別以進(jìn)行推薦。而且,
43、個(gè)性化系統(tǒng)一般分為兩個(gè)部分:離線部分和在線部分。表7-11個(gè)性化方法的比較方法特點(diǎn)缺點(diǎn)離線聚類和動(dòng)態(tài)鏈接結(jié)合可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。 隨著用戶訪問(wèn)長(zhǎng)度的增加,可供推薦的元素會(huì)趨于零。基于關(guān)鍵詞學(xué)習(xí)引入時(shí)間特性為用戶提供推薦。需要用戶人工干預(yù),無(wú)法做到自動(dòng)。識(shí)別感興趣的鏈接建立代理服務(wù)器識(shí)別用戶的訪問(wèn)興趣提供推薦。用戶興趣的實(shí)效性考慮不夠。自動(dòng)定制不同用戶訪問(wèn)界面利用用戶建模技術(shù)自動(dòng)定制不同的用戶訪問(wèn)界面?!巴普摗币蕾囉谟脩羲诘念I(lǐng)域,適應(yīng)性不好。利用客戶端代理進(jìn)行個(gè)性化客戶端的代理,完全為個(gè)人服務(wù)。冗余搜索過(guò)大。聚類推薦可以實(shí)時(shí)個(gè)性化地為用戶提供推薦。 聚類的個(gè)數(shù)是人為事先給定的,不能
44、隨著每個(gè)用戶的訪問(wèn)特性而動(dòng)態(tài)調(diào)整。利用利用WebWeb訪問(wèn)信息挖掘進(jìn)行商業(yè)智能發(fā)現(xiàn)訪問(wèn)信息挖掘進(jìn)行商業(yè)智能發(fā)現(xiàn)表7-12商業(yè)智能方法的比較方法特點(diǎn)Buchner其貢獻(xiàn)在于首次在Web訪問(wèn)信息挖掘的基礎(chǔ)上提出了商業(yè)智能的發(fā)現(xiàn)的框架;其不足在于發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買行為,而對(duì)用戶潛在的購(gòu)買興趣無(wú)法發(fā)現(xiàn)。Yun C.優(yōu)點(diǎn)是挖掘了遷移和購(gòu)買行為之間的內(nèi)在關(guān)系。缺點(diǎn)是發(fā)現(xiàn)的知識(shí)局限于用戶確實(shí)發(fā)生的購(gòu)買行為,對(duì)用戶潛在購(gòu)買興趣無(wú)法發(fā)現(xiàn)。SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends優(yōu)點(diǎn)是通過(guò)分析頁(yè)面的點(diǎn)擊率來(lái)為推斷商業(yè)智能提供Web流量分析。缺
45、點(diǎn)是無(wú)法發(fā)現(xiàn)高級(jí)的商業(yè)職能。利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn) n在移動(dòng)計(jì)算環(huán)境中,一個(gè)新的挖掘方法,即用戶的移動(dòng)模式挖掘被提出。挖掘的結(jié)果可以用于開(kāi)發(fā)數(shù)據(jù)的分配模式以改變移動(dòng)系統(tǒng)的總的性能。首先,對(duì)移動(dòng)環(huán)境中的一些日志數(shù)據(jù)進(jìn)行挖掘,可以得到頻繁用戶移動(dòng)模式。然后,根據(jù)挖掘結(jié)果和數(shù)據(jù)的特性設(shè)定個(gè)人數(shù)據(jù)分配模式。n根據(jù)不同層次的挖掘結(jié)果,有兩種個(gè)人數(shù)據(jù)分配模式:n利用集合層次的用戶移動(dòng)模式(DS模式);n利用路徑層次的用戶移動(dòng)模式(DP模式)。AGDHCB12345678910Partition1Partition2圖7-2在一個(gè)移動(dòng)計(jì)算系統(tǒng)中移動(dòng)模式的例子利用Web訪問(wèn)信息挖掘進(jìn)行用戶
46、移動(dòng)模式發(fā)現(xiàn) 利用Web訪問(wèn)信息挖掘進(jìn)行用戶移動(dòng)模式發(fā)現(xiàn)可以分為如下三個(gè)主要步驟:n數(shù)據(jù)收集階段:從各個(gè)服務(wù)器的日志集合中判斷最大的移動(dòng)序列和移動(dòng)對(duì)的出現(xiàn)次數(shù)。n挖掘階段:從第一步的結(jié)果集中的每w個(gè)最大移動(dòng)序列中判斷大項(xiàng)移動(dòng)序列??紤]到新近的移動(dòng)模式,設(shè)立w為一個(gè)回顧因子,一個(gè)可調(diào)整的窗口。n產(chǎn)生模式階段:根據(jù)第二步的得到的大項(xiàng)移動(dòng)序列,判斷用戶的移動(dòng)模式。利用協(xié)作推薦的方法實(shí)現(xiàn)實(shí)時(shí)個(gè)性化推薦 基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)的結(jié)構(gòu)如圖7-3所示。圖7-3基于協(xié)作篩方法的Web站點(diǎn)實(shí)時(shí)個(gè)性化系統(tǒng)n整個(gè)處理過(guò)程分為兩部分:n離線部分:包括數(shù)據(jù)準(zhǔn)備、得到推薦池、建立協(xié)作篩。n在線部分:推薦
47、引擎。Web站點(diǎn)用戶訪問(wèn)日志數(shù)據(jù)準(zhǔn)備協(xié)作篩推薦引擎(s11,t11),(s12,t12),.,(s1k,t1k).用戶交互Web服務(wù)器當(dāng)前用戶帶有時(shí)長(zhǎng)的訪問(wèn)頁(yè)面集.推薦頁(yè)面集(s21,t21),(s22,t22),.,(s2k,t2k)(sf1,tf1),(sf2,tf2),.,(sfk,tfk)(s11,t11),.,(s1k,t1k),.,(s1m,t1m)(s21,t21),.,(s2k,t2k),.,(s2m,t2m)(sf1,tf1),.,(sfk,tfk),.,(sfm,tfm)第七章第七章 WebWeb挖掘技術(shù)挖掘技術(shù) 內(nèi)容提要內(nèi)容提要nWeb挖掘的意義nWeb挖掘的分類nWeb
48、挖掘的含義nWeb挖掘的數(shù)據(jù)來(lái)源 nWeb內(nèi)容挖掘方法 nWeb訪問(wèn)信息挖掘方法 nWeb結(jié)構(gòu)挖掘方法 頁(yè)面重要性的評(píng)價(jià)方法頁(yè)面重要性的評(píng)價(jià)方法n在設(shè)計(jì)搜索引擎等服務(wù)時(shí),對(duì)Web頁(yè)面的鏈接結(jié)構(gòu)進(jìn)行挖掘以得出有用的知識(shí)是提高檢索效率的重要手段。n定義7-3 設(shè)u為一個(gè)Web頁(yè),F(xiàn)u為所有u指向的頁(yè)面的集合,Bu為所有指向u的頁(yè)面的集合。設(shè)Nu= |Fu|為從u發(fā)出的鏈接的個(gè)數(shù),c(1)為一個(gè)歸一化的因子(因此所有頁(yè)面的總的PageRank為一個(gè)常數(shù)),那么u頁(yè)面的PageRank被定義為:n n一個(gè)頁(yè)面對(duì)應(yīng)的PageRank值被分配到所有它所指向的頁(yè)面中;每一個(gè)頁(yè)面求和所有指向它的鏈接所帶來(lái)的P
49、ageRank以得到它的新的PageRank。在計(jì)算時(shí)可以從任何一個(gè)頁(yè)面開(kāi)始,通過(guò)上面的公式反復(fù)計(jì)算直到其收斂。 uBvvNvRcuR)()(頁(yè)面等級(jí)頁(yè)面等級(jí)n一般地說(shuō),頁(yè)面的頁(yè)面等級(jí)值是通過(guò)指向這個(gè)頁(yè)面的數(shù)量來(lái)計(jì)算的,即通過(guò)指向向后連接數(shù)來(lái)計(jì)算的。向后連接是指向這個(gè)頁(yè)面的連接減去它指向外面的連接。要考慮向后連接的頁(yè)面的重要性。n給定一個(gè)頁(yè)面p,我們使用Bp作為指向一系列指向P的頁(yè)面,并且用Fp作為一系列由外部指向P的連接,則這里的Nq=|Fq|。常量c是一個(gè)介于0,1之間的數(shù),用于標(biāo)準(zhǔn)化。n這里有一個(gè)循環(huán)分級(jí)的問(wèn)題。當(dāng)計(jì)算一個(gè)頁(yè)面的頁(yè)面等級(jí)時(shí),如果發(fā)生循環(huán)則產(chǎn)生這個(gè)錯(cuò)誤(頁(yè)面A指向頁(yè)面B,頁(yè)
50、面B同時(shí)指向頁(yè)面A),此時(shí)頁(yè)面等級(jí)值隨這些頁(yè)面增加??梢酝ㄟ^(guò)另一個(gè)公式解決:其中c是最大值,E(v)是一個(gè)矢量來(lái)增加一個(gè)人工連接。它是模擬一個(gè)用戶不隨著連接訪問(wèn)其他頁(yè)面,而是隨機(jī)跳到一個(gè)新的頁(yè)面。E(v)增加一對(duì)結(jié)點(diǎn)中間可能的連接。pBqqNqRcpR)()()()()(vcENqRcpRpBqq權(quán)威頁(yè)面和中心頁(yè)面n所謂權(quán)威頁(yè)面是指包含需求信息的最佳資源頁(yè)面。所謂中心頁(yè)面是一個(gè)包含權(quán)威頁(yè)面連接的頁(yè)面。nHITS(Hyperlink-Induced Topic Search)是遵照尋找權(quán)威頁(yè)面和中心頁(yè)面的典型方法。HITS技術(shù)由兩部分組成:n基于一組給定的關(guān)鍵字,可以找到相關(guān)的頁(yè)面。n權(quán)威和中心
51、頁(yè)面與上述頁(yè)面有關(guān),返回具有最高權(quán)重的頁(yè)面。n 算法算法7-3 HITS輸入: (把www 看作)一個(gè)引導(dǎo)圖W;查詢請(qǐng)求q;支持s。輸出:權(quán)威頁(yè)面的集合A;中心頁(yè)面的集合H。(1)BEGIN(2) R=SE(W, q);/利用q得到頁(yè)面的根集合R(3) B= R 指向R的連接來(lái)自R的連接;(4) G(B, L)= 由B導(dǎo)出的W的子圖;(5) G(B, L1)=刪除G中相同站點(diǎn)的連接;(6) xp=q Yq;/ L1,得到權(quán)威頁(yè)面的權(quán)重;(7) yp=q Xq;/ L1 ,得到中心頁(yè)面的權(quán)重;(8) A=p|p為具有最高xp值的頁(yè)面;(9) H=p|p為具有最高yp值的頁(yè)面;(10)ENDWeb訪問(wèn)信息的一些概念nW3C國(guó)際組織已經(jīng)為Web訪問(wèn)信息定義了一些基本概念:n定義定義7-4 7-4 用戶(User):用戶被定義為一個(gè)通過(guò)瀏覽器訪問(wèn)一個(gè)或者多個(gè)Web服務(wù)器的訪問(wèn)者。一個(gè)用戶可以通過(guò)幾臺(tái)PC機(jī)或者使用多個(gè)瀏覽器來(lái)訪問(wèn),因此識(shí)別用戶是任務(wù)之一。n定義定義7-5 7-5 頁(yè)面文件(Page File):一個(gè)頁(yè)面文件是通過(guò)HTTP請(qǐng)求發(fā)給用戶的文件。頁(yè)面文件有靜態(tài)的和動(dòng)態(tài)的,動(dòng)態(tài)頁(yè)面文件由Web服務(wù)器動(dòng)態(tài)生成響應(yīng)用戶的請(qǐng)求。n定義定義7-6 7-6 頁(yè)面視圖(Page V
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)保理念下的現(xiàn)代家居設(shè)計(jì)風(fēng)格
- 現(xiàn)代飲食文化與胃腸健康的平衡
- 生產(chǎn)環(huán)境下的操作規(guī)范與質(zhì)量控制
- 現(xiàn)代企業(yè)網(wǎng)絡(luò)攻擊的防范與應(yīng)對(duì)
- 現(xiàn)代企業(yè)決策分析與科學(xué)決策
- 2023三年級(jí)語(yǔ)文下冊(cè) 第八單元 口語(yǔ)交際:趣味故事會(huì)配套說(shuō)課稿 新人教版
- Unit5 Humans and nature Lesson 1 A sea story 說(shuō)課稿-2024-2025學(xué)年高中英語(yǔ)北師大版(2019)必修第二冊(cè)001
- 2024-2025學(xué)年新教材高中數(shù)學(xué) 第五章 三角函數(shù) 5.7 三角函數(shù)的應(yīng)用(2)說(shuō)課稿 新人教A版必修第一冊(cè)
- 2023八年級(jí)數(shù)學(xué)下冊(cè) 第18章 平行四邊形18.1 平行四邊形的性質(zhì)第2課時(shí) 平行四邊形的性質(zhì)定理3說(shuō)課稿 (新版)華東師大版
- 2023二年級(jí)語(yǔ)文上冊(cè) 第二單元 2 樹(shù)之歌配套說(shuō)課稿 新人教版
- (人衛(wèi)版第九版?zhèn)魅静W(xué)總論(一))課件
- 壓力性損傷護(hù)理質(zhì)控細(xì)則及集束化管理措施
- 《批判性思維原理和方法》全套教學(xué)課件
- 產(chǎn)后康復(fù)-腹直肌分離
- 丙烯-危險(xiǎn)化學(xué)品安全周知卡
- 粉條加工廠建設(shè)項(xiàng)目可行性研究報(bào)告
- 《配電網(wǎng)設(shè)施可靠性評(píng)價(jià)指標(biāo)導(dǎo)則》
- 2024年國(guó)家電網(wǎng)招聘之通信類題庫(kù)附參考答案(考試直接用)
- CJJ 169-2012城鎮(zhèn)道路路面設(shè)計(jì)規(guī)范
- 食品企業(yè)日管控周排查月調(diào)度記錄及其報(bào)告格式參考
- 產(chǎn)品質(zhì)量法解讀課件1
評(píng)論
0/150
提交評(píng)論