Web挖掘個性化模型研究

上傳人：冷*** IP屬地：上海上傳時間：2022-08-26 格式：DOC 頁數(shù)：7 大小：21KB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、Web挖掘個性化模型研究摘要本文對個性化建模技術(shù)進展了研究，提出一個基于用戶興趣挖掘的個性化模型，并將其用于個性化元搜索引擎中，為個性化分析提供根據(jù)。該模型基于客戶端，將用戶的訪問頁面作為挖掘?qū)ο?，不需要用戶過多的參與，自動從用戶的隱式反響中推導(dǎo)出用戶的興趣。模型中將用戶的興趣分時分段，分層分類的進展記錄、管理，并仿照人類記憶的遺忘規(guī)律對用戶興趣進展有選擇、非平等的遺忘，通過不斷的更新與優(yōu)化模型，使模型能準確反映用戶的興趣特征。關(guān)鍵詞個性化；用戶興趣挖掘2.1用戶興趣挖掘技術(shù)在eb挖掘系統(tǒng)中對用戶興趣的挖掘所采取的途徑主要有下面三種：從表達用戶個性化的文件中獲取用戶的興趣。該文件可包括兩種信息

2、：一種是用戶主動填寫的需求信息；另一種是用戶提交的背景信息、注冊信息等。監(jiān)視用戶的信息搜索與閱讀過程，分析用戶的興趣愛好，然后根據(jù)用戶的興趣愛好進展信息推薦如letizia1、ebath2等。從用戶的閱讀行為中推斷出用戶的興趣，主要采用eb使用挖掘技術(shù)，通過感知用戶的反響，分析用戶行為的意圖，獲取用戶感興趣的相關(guān)信息及其感興趣的感性程度。2.2用戶建模技術(shù)根據(jù)建模過程中用戶的參與程度，用戶建模技術(shù)可以分為：用戶手工定制建模、例如建模和自動用戶建模3。用戶手工定制建模用戶手工定制建模是指用戶模型由用戶自己手工輸入或選擇的用戶建模方法。用戶手工定制建模的典型代表是yYah和ebather。例如建模

3、例如建模是指由用戶提供與自己興趣相關(guān)的例如及其類別屬性來建立用戶模型的建模方法。例如建模對用戶的依賴很少，構(gòu)建的模型也更能全面地反映用戶的興趣愛好，但需要用戶在閱讀的過程中標注頁面以得到例如，這就嚴重干擾了用戶的正常閱讀。自動用戶建模自動用戶建模是指根據(jù)用戶的閱讀內(nèi)容和閱讀行為構(gòu)建用戶模型。此方法改良了例如建模方法中的例如獲取途徑，將其轉(zhuǎn)化為無需用戶標注的自動例如獲取方法。這種方法容易引入噪聲，不利于構(gòu)建高質(zhì)量的模型。此外，對用戶訪問日志進展挖掘也是一條實現(xiàn)自動建模的途徑。通過日志挖掘可以發(fā)現(xiàn)用戶的訪問形式、購置習(xí)慣等特點，構(gòu)建用戶模型。eb挖掘個性化模型主要由四個模塊組成：頁面預(yù)處理模塊，頁

4、面分類模塊，興趣生成模塊，更新與優(yōu)化模塊。它們之間的關(guān)系如圖1所示。圖1eb挖掘個性化模型設(shè)計頁面集合中存儲了用戶最近訪問的頁面，這些頁面隱含著用戶的興趣，是該模型挖掘的起點。首先去除無用數(shù)據(jù)，只保存用戶感興趣的內(nèi)容頁面，并對這些內(nèi)容頁面進展特征提取等工作。隨后，頁面分類模塊根據(jù)用戶的個性化模型和分類參考模型將各個頁面歸類。興趣生成模塊負責(zé)統(tǒng)計各個興趣類中的頁面特征詞信息，綜合生成用戶興趣向量。更新與優(yōu)化模塊是模擬人類記憶的遺忘規(guī)律，對興趣類特征詞的權(quán)值、各個興趣類的興趣度進展調(diào)整、更新，并有選擇地將一些短期興趣轉(zhuǎn)化成長期興趣，逐步優(yōu)化模型。各個模塊的功能詳細介紹如下：頁面預(yù)處理模塊該模塊主要

5、完成兩局部工作：一、對緩沖區(qū)中的數(shù)據(jù)進展凈化，去除與用戶興趣挖掘無關(guān)的文件；二、對保存的內(nèi)容頁面進展格式轉(zhuǎn)換，切分出頁面中所有的特征詞，濾除詞條中判斷才能較差的停用詞、超高頻詞和超低頻詞，然后根據(jù)詞在頁面中出現(xiàn)的位置，分別乘以不同的加權(quán)系數(shù)，得到最終的權(quán)值，構(gòu)成頁面特征向量。頁面分類模塊得到頁面特征向量后，可通過計算頁面與主題概念類之間的相似度來判斷頁面屬于哪一類。計算相似度時，我們綜合考慮了個性化模型中的用戶興趣向量和分類參考模型中的主題興趣類向量，將頁面與這兩者的相似度和的平均值作為頁面與主題概念類的相似度，然后將頁面歸類到相似度值最大的主題類。興趣生成模塊所有頁面處理完以后，參考興趣分類

6、模型與分類詞表，逐類統(tǒng)計頁面信息與特征詞信息，并根據(jù)TF-IDF方法計算出各個特征詞的權(quán)值，生成用戶興趣類向量，進而將用戶的興趣特征由關(guān)鍵詞抽象成概念主題，同時引入時間機制，突出用戶興趣的時效性。更新與優(yōu)化模塊更新與優(yōu)化模塊是對興趣類特征詞和興趣類信息進展有選擇的遺忘，調(diào)整用戶對各個興趣類的愛好程度，并周期性地將用戶短期興趣中的重要信息轉(zhuǎn)移到長期興趣中。通過不斷的更新與優(yōu)化，個性化模型能及時表達用戶興趣的變化，準確反響用戶的真實興趣信息。根據(jù)用戶的興趣需求信息建立個性化模型，首先要獲得用戶興趣信息；然后才能對用戶的興趣特征進展形式化的描繪，從中歸納出可計算的模型；并能跟隨用戶興趣的變化，不斷地

7、對模型進展更新與維護。4.1用戶興趣類向量表示更新與優(yōu)化模塊是對興趣類特征詞和興趣類信息進展有選擇的遺忘，調(diào)整用戶對各個興趣類的愛好程用戶興趣類向量是用一個加權(quán)關(guān)鍵詞向量來表示，特征詞權(quán)值的計算過程如下：1統(tǒng)計興趣類中所有內(nèi)容頁面的數(shù)目N；2求出所有頁面的特征詞的并集KK1,K2,K作為用戶興趣類向量的候選特征詞；3統(tǒng)計特征詞Ki在多少篇文檔中出現(xiàn)，將其數(shù)目記為Ni；4利用TF-IDF方法計算各個特征詞的權(quán)值：其中，tfij(I=1,2,;j=1,2,n)表示特征詞Ki在頁面Pj中的權(quán)值；依次計算了各個特征詞的權(quán)值后，就可得用戶的興趣類向量。定義：興趣類特征向量由一組特征詞及其權(quán)值構(gòu)成，表示為

8、：u(K1,1),(Ki,i),(K,)，其中KiKK為興趣類特征詞全集，i表示其對應(yīng)的權(quán)值。4.2用戶興趣存儲方式為了區(qū)分用戶的不同興趣類別，我們將用戶的興趣表示成與興趣分類參考模型相一致的類似于樹的構(gòu)造形式，稱為用戶興趣樹。在大多情況下，用戶興趣樹只是興趣分類參考模型的局部映射。這種樹形構(gòu)造可以保存用戶的興趣類型信息，也可以保存用戶興趣特征詞的信息，如圖2示：樹中除虛擬根結(jié)點外，中間兩層表示用戶興趣類別的結(jié)點稱為興趣結(jié)點，最底層的結(jié)點稱為特征詞結(jié)點。為了適應(yīng)用戶興趣的變化，我們把用戶興趣分為長期興趣和短期興趣。用戶的兩棵興趣樹，可單獨用來進展個性化分析，也可綜合起來使用。4.3用戶個性化模

9、型表示在此提出的個性化模型仍然是使用傳統(tǒng)的詞頻法來衡量用戶的興趣，下面介紹一下個性化模型中對用戶興趣的各種描繪方式。定義：興趣類特征詞集T(i)由類i中的特征詞構(gòu)成，表示為：t1,t2,tk,其中ti(1ik)表示特征詞名稱，k為特征詞總個數(shù)。定義：用戶興趣集由用戶所有的興趣類別構(gòu)成，表示為：1,2,，其中i(1i)為用戶感興趣的興趣類別名稱，表示用戶興趣類別總數(shù)。用戶的長期興趣和短期興趣也可分別拿來使用，它們相對獨立，長期興趣比擬穩(wěn)定，短期興趣那么能表達用戶最近的興趣。將個性化模型用于個性化效勞系統(tǒng)時，可以抽取不同層次的興趣類信息對用戶的興趣進展描繪。第一層興趣結(jié)點的信息，可以粗略理解用戶的

10、興趣方向,第二層結(jié)點的信息，可以更詳細的理解用戶的興趣，當然也可以提取用戶興趣全集。4.4用戶個性化模型更新在基于內(nèi)容的興趣表示方式中，用戶的興趣大多采用加權(quán)關(guān)鍵詞向量表示，并沒有將用戶的興趣歸類分析，興趣更新的方法大致可分為以下兩種5。興趣交集淘汰法這種方法以用戶反響的新文檔向量作為當前的興趣向量，而興趣模型中存儲的向量那么作為歷史興趣向量。做法為：將興趣模型中的興趣詞條與當前興趣向量中的詞條作比照，假設(shè)一樣，那么把該詞條在兩向量中的權(quán)值相加后得到的新權(quán)值賦予用戶當前向量中的一樣詞條；假設(shè)不同，那么保存當前興趣向量中的詞條和權(quán)值。這種方法節(jié)省了存放用戶興趣信息的容量，在用戶興趣發(fā)生轉(zhuǎn)移時，能

11、快速調(diào)整模型，及時獲得新的興趣信息，但由于模型中只記錄了當前興趣，并不保存歷史興趣，記錄的用戶興趣信息不全面，導(dǎo)致了用戶興趣淘汰太快，而且容易引起興趣反復(fù)變化。興趣合集歸并法這種方法同樣需要對用戶反響的新文檔進展抽詞，得出文檔向量，然后進展詞條比照操作。詞條一樣，那么將其權(quán)值相加后得到的新權(quán)值作為模型中該詞條的權(quán)值；詞條不一樣，就分別保存不作任何改動。這種方式，意在降低用戶興趣變化的影響力，但該方法獲取用戶興趣信息周期相對較長，而且隨著時間的積累，模型中存放的興趣信息越來越全面，將逐漸弱化用戶興趣之間的差異。為了更好的監(jiān)測到用戶興趣的變化，更好的解決興趣交集淘汰法對興趣淘汰太快和興趣合集歸并法

12、對興趣變化適應(yīng)太慢的問題以及減小存儲空間的問題，我們嘗試了將用戶興趣分為短期興趣和長期興趣來分別對待。短期興趣以用戶當前的興趣為主，每個特征詞都添加了時間屬性，用以來區(qū)分新舊興趣。當短期興趣中的信息積累到一定的程度，構(gòu)成穩(wěn)定興趣時，可將其轉(zhuǎn)化為長期興趣，因此長期興趣存儲了長期以來用戶的主要興趣，這樣可以更好地描繪用戶的興趣特征。另外，目前對用戶興趣的分析大都是基于關(guān)鍵詞，由于詞在語義上的多義性，一定程度上影響了用戶模型的準確度，所以，我們采取關(guān)鍵詞和主題概念相結(jié)合的方法來表示用戶的興趣特征，通過挖掘蘊含在文檔中的概念，建立加權(quán)概念層次的興趣模型，描繪和捕捉用戶的興趣偏好。人類記憶遵循自然遺忘的

13、規(guī)律，我們假設(shè)用戶興趣的遺忘也遵循這個規(guī)律，即用戶的興趣也隨著時間的流逝逐漸減弱。用戶最近屢次訪問的詞條往往最能代表用戶最近的興趣，而長時間沒有更新的詞條，不再代表用戶的當前興趣，可以通過讓其不斷“衰老到達過濾的目的。模型的更新過程分三步實現(xiàn)：短期興趣的更新，包括參加用戶的最新興趣和對舊興趣的遺忘。短期興趣向長期興趣的轉(zhuǎn)化，將短期興趣中相比照擬重要的特征詞及興趣度超過一定閾值的興趣類轉(zhuǎn)成長期興趣。長期興趣的更新，隨著時間的推移，也需對用戶的長期興趣逐漸遺忘，逐漸淘汰用戶不感興趣的主題，重點突出用戶的主要興趣愛好。這樣，個性化模型就能根據(jù)用戶閱讀的信息，動態(tài)地感知用戶興趣需求的變化，并通過不斷更

14、新來逐步明確用戶的興趣需求。本文詳細描繪了用戶模型的建立及更新過程。首先，根據(jù)用戶首次使用系統(tǒng)時的定制信息生成用戶長期興趣樹，利用第一次挖掘的用戶興趣生成初始的短期興趣樹；然后，分析、比擬了兩種更新用戶興趣的方法和基于時間窗機制的遺忘方法，模擬人類記憶的遺忘規(guī)律，提出一種新的遺忘機制；最后，利用這種遺忘機制，不斷的更新、優(yōu)化模型，目前，關(guān)于個性化效勞方面的相關(guān)研究還有很多，本文只是關(guān)于個性化效勞方面研究的一種方法。我們相信，隨著個性化效勞形式的開展，個性化建模技術(shù)將得到進一步的快速開展，并能得到廣泛應(yīng)用。參考文獻1Pazzani,uraatsuJ.andBillsusD.Syskillebert:IdentifyingInterestingebSites.Preedingfthe13thNatinalnferenenArtifiialIntelligene,1996:54-61.2JahisT.,FrEitagD.andithellT.ebather:ATurGuidefrtherldideeb.Preedingf15thInternatinalJintnferenenArtifiialIntelligene,August,1997.3應(yīng)曉敏,竇文華.

人人文庫> 全部分類> 專業(yè)文獻 > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Web挖掘個性化模型研究

文檔簡介

溫馨提示

最新文檔

評論

Web挖掘個性化模型研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔