基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究_第1頁(yè)
基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究_第2頁(yè)
基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究_第3頁(yè)
基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究_第4頁(yè)
基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于Web數(shù)據(jù)挖掘的站點(diǎn)個(gè)性化技術(shù)研究朱方平中國(guó)礦業(yè)大學(xué)(北京),(100083)E-mail:(zhffpp)摘 要 針對(duì)用戶特點(diǎn)向用戶提供個(gè)性化服務(wù)已經(jīng)成為Web站點(diǎn)發(fā)展的趨勢(shì)。本文首先分析了站點(diǎn)個(gè)性化技術(shù)的基本思路,提出了基于Web數(shù)據(jù)挖掘的個(gè)性化站點(diǎn)模型,并對(duì)模型實(shí)現(xiàn)的關(guān)鍵技術(shù)及其在電子商務(wù)中的應(yīng)用進(jìn)行了研究。關(guān)鍵詞 Web數(shù)據(jù)挖掘 個(gè)性化技術(shù) 搜索引擎 信息獲取1引 言互聯(lián)網(wǎng)的飛速發(fā)展,使越來(lái)越多的信息呈現(xiàn)在用戶面前。網(wǎng)絡(luò)用戶要找到所需的信息需要借助一些網(wǎng)絡(luò)工具,因此一些優(yōu)秀的搜索引擎應(yīng)運(yùn)而生并取得了飛速的發(fā)展,其中包括Google ()、Baidu ( )等,這些優(yōu)秀的搜索引擎從一

2、定程度上幫助我們從網(wǎng)絡(luò)中找到我們所需的信息,但現(xiàn)有的搜索引擎技術(shù)還存在一些不足,這主要體現(xiàn)在:查詢結(jié)果缺乏準(zhǔn)確、有效的相關(guān)度評(píng)價(jià)及排序、對(duì)中文信息的處理不夠有效以及當(dāng)用戶面臨大量的查詢結(jié)果時(shí)仍面臨“迷航”的問(wèn)題。另一方面,根據(jù)CNNIC的最新調(diào)查統(tǒng)計(jì),中國(guó)已有的網(wǎng)絡(luò)用戶已經(jīng)突破9400萬(wàn)。Web已經(jīng)成為獲取信息最重要的手段之一。海量的網(wǎng)頁(yè)在為人們提供包羅萬(wàn)象、無(wú)比豐富的信息資源的同時(shí),也向人們提出了如何快速?gòu)男畔⒑Q笾蝎@取其所需信息的挑戰(zhàn)。目前Web系統(tǒng)為所有用戶提供相同的服務(wù)。其典型的服務(wù)方式為通過(guò)建立一個(gè)Web站點(diǎn)來(lái)向所有用戶發(fā)布相同的信息。然而Web用戶的需求千差萬(wàn)別,我們不可能奢望幾千

3、萬(wàn)的用戶具有相同的需求。因此,用戶希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個(gè)性化的服務(wù)。事實(shí)上,針對(duì)用戶特性并向用戶提供個(gè)性化服務(wù)已經(jīng)成為信息獲取技術(shù)的一個(gè)研究熱點(diǎn)。在個(gè)性化服務(wù)技術(shù)方面,以往主要運(yùn)用的技術(shù)是協(xié)同過(guò)濾技術(shù),但是隨著應(yīng)用環(huán)境的改變,協(xié)同過(guò)濾技術(shù)表現(xiàn)出了一些明顯的缺點(diǎn),例如:需要用戶提供主觀的評(píng)價(jià)信息、不利于處理大規(guī)模的數(shù)據(jù)量、用戶的評(píng)價(jià)信息可能會(huì)過(guò)時(shí)以及使用不方便等。而將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用在個(gè)性化推薦領(lǐng)域?qū)⒂型鉀Q上述問(wèn)題,因?yàn)閃eb數(shù)據(jù)挖掘不依賴用戶提供主觀的評(píng)價(jià)信息,甚至不依賴用戶提供注冊(cè)信息;并且大數(shù)據(jù)量本來(lái)就是數(shù)據(jù)挖掘技術(shù)產(chǎn)生的前提,- 1 -基于web的數(shù)據(jù)挖掘?qū)⒃?/p>

4、大數(shù)據(jù)量的環(huán)境中表現(xiàn)較好的性能,此外基于web的數(shù)據(jù)挖掘?qū)⒂型麨閷?shí)現(xiàn)動(dòng)態(tài)的個(gè)性化推薦系統(tǒng)提供解決方案。2支持WEB個(gè)性化的關(guān)鍵技術(shù)2.1 個(gè)性化簡(jiǎn)介所謂個(gè)性化是指這樣一個(gè)系統(tǒng)過(guò)程:收集并存儲(chǔ)關(guān)于站點(diǎn)訪問(wèn)者的信息,分析這些信息,然后根據(jù)分析在合適的時(shí)間向每一個(gè)訪問(wèn)者發(fā)送正確的信息。個(gè)性化的原理是根據(jù)用戶特征模型尋找與其匹配的信息,或者尋找具有相近興趣的用戶群而后相互推薦瀏覽過(guò)的信息。個(gè)性化的實(shí)質(zhì)是一種“信息找人”的服務(wù)模式,可以減少用戶尋找信息的時(shí)間,提高瀏覽效率,并且是主動(dòng)型電子商務(wù)應(yīng)用系統(tǒng)所需要的一項(xiàng)關(guān)鍵性技術(shù)。盡管每一個(gè)領(lǐng)域應(yīng)用程序都需要度身定制,特別是在用戶界面和數(shù)據(jù)收集領(lǐng)域,但個(gè)性化的

5、核心技術(shù)都是類似的,可用如下的系統(tǒng)模型圖表示:圖2 個(gè)性化系統(tǒng)工作流程圖3.2 基于Web數(shù)據(jù)挖掘站點(diǎn)個(gè)性化的關(guān)鍵技術(shù)3.2.1 目標(biāo)樣本的特征提取WEB信息挖掘系統(tǒng)采用向量空間模型(Vector Space Modal,VSM),用特征詞條(,n)及其權(quán)值Wi代表目標(biāo)信息,在進(jìn)行信息匹配時(shí),使用這些特征項(xiàng)評(píng)價(jià)未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運(yùn)行效果。詞條在不同內(nèi)容的文檔中所呈現(xiàn)出同的,因此可以- 2 -根據(jù)詞條的頻率特性進(jìn)行特征提取和權(quán)重評(píng)價(jià)。一個(gè)有效的特征項(xiàng)集應(yīng)該既能體現(xiàn)目標(biāo)內(nèi)容,也能將目標(biāo)同其它文檔相區(qū)分,因

6、此詞條權(quán)重的正比于詞條的文檔內(nèi)頻數(shù),反比于訓(xùn)練文本內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。構(gòu)造如下特征項(xiàng)權(quán)值評(píng)價(jià)函數(shù):的頻率分布是不Weight(word)= tfik*IDFi= tfik*log(N/nk+1)其中tfik表示詞條Tk在文檔Di中的出現(xiàn)頻數(shù),IDFi為逆文檔頻數(shù),N表示全部目標(biāo)樣本的文檔數(shù),nk表示出現(xiàn)詞條Tk的文檔數(shù)。若考慮詞長(zhǎng)因素,可進(jìn)行標(biāo)準(zhǔn)化處理可得: Weight(word)=tfik*log(N/nk+1)(tfk=1nik)*log(N/nk+1) 22與普通的文本文件相比,HTML文檔中有明顯的標(biāo)識(shí)符,結(jié)構(gòu)信息更加明顯,對(duì)象的屬性更為豐富。系統(tǒng)在計(jì)算特征詞條權(quán)值時(shí),充分考慮H

7、TML文檔的特點(diǎn),對(duì)于標(biāo)題和特征信息較多的文本賦予較高權(quán)重。為了提高運(yùn)行效率,系統(tǒng)對(duì)特征向量進(jìn)行降維處理,僅保留權(quán)值較高的詞條作為文檔的特征項(xiàng),從而形成維數(shù)較低的目標(biāo)特征向量。3.2.2 使用內(nèi)容高速緩存提高推薦性能實(shí)時(shí)應(yīng)用程序提供個(gè)性化(如動(dòng)態(tài)地構(gòu)建基于訪問(wèn)者簡(jiǎn)檔的 Web 頁(yè)面)會(huì)影響系統(tǒng)性能。個(gè)性化如何實(shí)施非常重要,需要集成到整體系統(tǒng)設(shè)計(jì)當(dāng)中去。這對(duì)海量網(wǎng)站尤其重要。高速緩存技術(shù)很早就用于改善系統(tǒng)性能了。使用內(nèi)容高速緩存,被頻繁訪問(wèn)的頁(yè)面在每次訪問(wèn)時(shí)無(wú)需被遠(yuǎn)程檢索,也無(wú)需每次在服務(wù)器上被生成。這樣可以顯著地減少獲取 Web 頁(yè)面的延遲,還可以減輕服務(wù)器和網(wǎng)絡(luò)上的負(fù)載。在 Web 環(huán)境中,

8、頻繁訪問(wèn)的 Web 頁(yè)面可以在客戶機(jī)瀏覽器、代理服務(wù)器和服務(wù)器高速緩存中進(jìn)行緩存。要使緩存有效,需要頻繁地重新使用數(shù)據(jù)。使用個(gè)性化后,每個(gè) Web 頁(yè)面對(duì)每個(gè)訪問(wèn)者都是特定的。個(gè)性化識(shí)別使用 cookie 或會(huì)話登錄的訪問(wèn)者,并動(dòng)態(tài)地生成特定于該訪問(wèn)者的頁(yè)面。動(dòng)態(tài)頁(yè)面在代理服務(wù)器和大多數(shù)服務(wù)器高速緩存中是不進(jìn)行緩存的。即使頁(yè)面在服務(wù)器或代理服務(wù)器上進(jìn)行了緩存,重新使用個(gè)性化頁(yè)面的可能性也很低。這樣做會(huì)嚴(yán)重地影響緩存的命中率。還要注意,Web 服務(wù)器上創(chuàng)建個(gè)性化頁(yè)面的 CPU 開銷會(huì)比處理靜態(tài)頁(yè)面高出很多。這樣,在 Web 站點(diǎn)中引入個(gè)性化就可能帶來(lái)性能損失。處理個(gè)性化和其它動(dòng)態(tài)頁(yè)面的基本方法是

9、從服務(wù)器上處理基本的 HTML 頁(yè)面,同時(shí)緩存內(nèi)嵌的圖像文件。這樣不需要新的技術(shù),而且也是今天代理服務(wù)在 Web 上工作的典型方法。例如,IBM WebSphere Performance Pack(安裝在 Deutsche Telekom 作為代理服務(wù)器)對(duì)流行頁(yè)面內(nèi)嵌的圖像進(jìn)行緩存。因?yàn)閳D像文件的數(shù)目趨向于比 HTML 頁(yè)面多,仍然可能有相當(dāng)?shù)拇砻新?。缺點(diǎn)是,即使個(gè)性化的 HTML 頁(yè)面表現(xiàn)出從 Web 站點(diǎn)近 50 的請(qǐng)求和字節(jié)數(shù),生成個(gè)性化頁(yè)面的 CPU 開銷仍然相當(dāng)高,會(huì)影響 Web 站點(diǎn)的處理量。在使用 SSL 保護(hù)頁(yè)面的地方,要避免加密和解密 GIF 圖像文件,從而通過(guò)增加緩

10、存- 3 -圖像的重用來(lái)改善性能3.2.3 獲取網(wǎng)絡(luò)中的動(dòng)態(tài)信息Robot是傳統(tǒng)搜索引擎的重要組成部分,它依照HTTP協(xié)議讀取Web頁(yè)面并根據(jù)HTML文檔中的超鏈在WWW上進(jìn)行自動(dòng)漫游,Robot也被稱為Spider、Worm或Crawler。但Robot只能獲取Web上的靜態(tài)頁(yè)面,而有價(jià)值的信息往往存放在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,人們無(wú)法通過(guò)搜索引擎獲取這些數(shù)據(jù),只能登錄專業(yè)信息網(wǎng)站,利用網(wǎng)站提供的查詢接口提交查詢請(qǐng)求,獲取并瀏覽系統(tǒng)生成的動(dòng)態(tài)頁(yè)面。網(wǎng)絡(luò)信息挖掘系統(tǒng)則通過(guò)網(wǎng)站提供的查詢接口對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的信息進(jìn)行遍歷,并根據(jù)專業(yè)知識(shí)庫(kù)對(duì)遍歷的結(jié)果進(jìn)行自動(dòng)的分析整理,最后導(dǎo)入本地的信息庫(kù)。4. WEB站點(diǎn)

11、個(gè)性化技術(shù)的應(yīng)用前景在國(guó)外,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛地應(yīng)用于金融業(yè)、零售業(yè)、遠(yuǎn)程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,而它在網(wǎng)絡(luò)中的應(yīng)用也正在成為一個(gè)熱點(diǎn)。個(gè)性化技術(shù)的應(yīng)用涉及到電子商務(wù)、網(wǎng)站設(shè)計(jì)和搜索引擎服務(wù)等眾多方面。下面主要從這三個(gè)方面介紹其應(yīng)用。4.1 電子商務(wù)運(yùn)用WEB使用挖掘站點(diǎn)個(gè)性化技術(shù),能夠從服務(wù)器以及瀏覽器端的日志記錄中自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,包括系統(tǒng)的訪問(wèn)模式以及用戶的行為模式,從而做出預(yù)測(cè)性分析。例如通過(guò)評(píng)價(jià)用戶對(duì)某一信息資源瀏覽所花的時(shí)間,可以判斷出用戶對(duì)資源興趣如何;對(duì)日志文件所收集到的域名數(shù)據(jù),根據(jù)國(guó)家或類型(.com,. edu,.gov)進(jìn)行分類分析

12、;應(yīng)用聚類分析來(lái)識(shí)別用戶的訪問(wèn)動(dòng)機(jī)和訪問(wèn)趨勢(shì)等。這項(xiàng)技術(shù)已經(jīng)有效地運(yùn)用在電子商務(wù)之中。4.2 網(wǎng)站設(shè)計(jì)通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘,主要是對(duì)文本內(nèi)容的挖掘,可以有效地為用戶定制網(wǎng)站信息,例如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性(hierarchy)組織;同時(shí) 可以結(jié)合對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。目前PDA(Personal Digital Assistant個(gè)人數(shù)字助理)以及Cellular phone(移動(dòng)電話)都已經(jīng)可以直接接受網(wǎng)絡(luò)信息服務(wù)。這些設(shè)備的顯示界面較小,因而網(wǎng)站面向這些設(shè)備的設(shè)計(jì)就應(yīng)當(dāng)突出精品化、個(gè)性化的特點(diǎn),而這

13、類特色推送服務(wù)就必須采用個(gè)性化技術(shù)。4.3 搜索引擎WEB個(gè)性化技術(shù)在搜索引擎上有著廣闊的應(yīng)用前景。Google搜索的最大特色就體現(xiàn)在它所采用的對(duì)網(wǎng)頁(yè)Links信息的挖掘技術(shù)上。而實(shí)際上,WEB信息挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個(gè)關(guān)鍵。如通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類、分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;同時(shí),通過(guò)用戶所使用的提問(wèn)式(query)的歷史記錄的分析,可以有效地- 4 -進(jìn)行提問(wèn)擴(kuò)展(query expansion),提高用戶的檢索效果(查全率,precision;查準(zhǔn)率,recall);另外,運(yùn)用個(gè)性化技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。

14、上面僅僅列舉了WEB個(gè)性化技術(shù)在這三個(gè)方面的應(yīng)用。這項(xiàng)技術(shù)的應(yīng)用正變得越來(lái)越廣泛;用戶對(duì)高品質(zhì)、個(gè)性化的信息的需求也將進(jìn)一步推動(dòng)著學(xué)術(shù)界與實(shí)業(yè)界的研究開發(fā)工作。參考文獻(xiàn)1 Lin T Y. Granular Fuzzy Sets : A View from Rough Set and Probability Theoies J . International Journal of Fuzzy sys2 tems ,2001 ,3 (2) :373 - 381.2 Pawlak Z. Rough Classification J . International Journal of Man -

15、Machine Studies ,1984 ,20 :469 - 483. 3 Kusiak A. Decomposition in Data Mining :An Industrial Case StudyJ . IEEE Transactions on Electronics Packa ging Manu2 facturing ,2000 ,23 (4) :345 - 353.4 Gudivada V NInformation retrieval on the World Wide WebIEEE Internet Computing, 1997,1(5):5868 5 章成敏 章成志

16、章成敏 “淺談互聯(lián)網(wǎng)信息挖掘技術(shù)”中國(guó)藥科大學(xué)圖書館6 徐澤平 2001 徐澤平. “數(shù)據(jù)挖掘在Internet信息檢索中的應(yīng)用”碩士論文D.北京:中科院計(jì)算所 20017 徐寶文 張衛(wèi)豐 搜索引擎與信息獲取技術(shù) 清華大學(xué)出版社 2003出版 1731928Research of Personalize Technology BasedOn Web MiningZHU-FangpingE-mail: zhffppAbstractIt is a trend to provide personalize service according as userinfo. This paper introduces the personalize technology and the working model.,expoundes the key technology, the system process

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論