個性化條件下的用戶興趣模型_第1頁
個性化條件下的用戶興趣模型_第2頁
個性化條件下的用戶興趣模型_第3頁
個性化條件下的用戶興趣模型_第4頁
個性化條件下的用戶興趣模型_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

個性化條件下的用戶興趣模型

0信息定位和網(wǎng)站設(shè)置隨著網(wǎng)絡(luò)的快速發(fā)展和普及,網(wǎng)絡(luò)信息的脆弱性增加。搜索引擎技術(shù)的出現(xiàn)為網(wǎng)民快速找到所需信息帶來了福音。搜索引擎以一定的策略在互聯(lián)網(wǎng)中收集信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。隨著人工智能、自然語言處理、數(shù)據(jù)挖掘等技術(shù)的發(fā)展和在搜索引擎系統(tǒng)中的進一步應(yīng)用,目前,許多搜索引擎已開始提供個性化的服務(wù),使結(jié)果更符合用戶的要求。個性化搜索引擎系統(tǒng)采用知識庫將網(wǎng)絡(luò)信息的收集與查詢有力地結(jié)合在一起,運用數(shù)據(jù)挖掘、分布式處理等技術(shù),幫助用戶檢索。它通過建立用戶模型對知識進行收集、索引、過濾,并將用戶感興趣的信息提交給用戶,具有不斷學習、適應(yīng)變化的能力。個性化搜索引擎已成為一個新的研究和開發(fā)領(lǐng)域。本文對個性化條件下搜索引擎的檢索方法進行研究,建立了基于用戶興趣的檢索模型,并且在此基礎(chǔ)上完成了個性化搜索引擎的設(shè)計。1個性化搜索引擎設(shè)計搜索引擎并不真正搜索互聯(lián)網(wǎng),它實際上是搜索預(yù)先整理好的Internet上幾千萬到幾十億網(wǎng)頁的網(wǎng)頁索引數(shù)據(jù)庫。本文設(shè)計的個性化搜索引擎由搜索器、文檔分析器、分類器、索引器、檢索器、個性化分析器、用戶接口七部分組成。其結(jié)構(gòu)設(shè)計如圖1所示。1.1網(wǎng)頁信息的下載和提取搜索器又稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人。其原理是以一個或幾個有代表性的URL起始,按照某些策略跟蹤鏈接,遍歷網(wǎng)絡(luò),將遍歷過的網(wǎng)頁下載到本地服務(wù)器上,并提取網(wǎng)頁信息,本系統(tǒng)提取的信息包括:網(wǎng)頁ID、網(wǎng)頁名稱、URL、存儲時間、網(wǎng)頁長度、存儲位置、更新時間。當網(wǎng)頁被下載以后,搜索器以一定的頻率對網(wǎng)頁進行刷新或重新訪問,其頻率與網(wǎng)頁自身更新的頻率相適應(yīng),這通過對網(wǎng)頁更新周期的自學習可以得到一個結(jié)果。由于網(wǎng)上信息數(shù)量龐大,因此要使多個搜索器在多臺機器上并行工作下載網(wǎng)頁,再將下載的結(jié)果進行處理。1.2搜集分詞,提取文本并進行轉(zhuǎn)化文檔分析器對搜索器下載的網(wǎng)頁進行下一步處理,包括文檔格式的轉(zhuǎn)化、分詞和特征提取三部分。搜索器抓取的Web文檔有多種格式,如HTML、XML等。首先要將這些格式的文檔轉(zhuǎn)換成統(tǒng)一的格式再進行處理,本系統(tǒng)將其統(tǒng)一轉(zhuǎn)換成記事本格式。1.3各類別網(wǎng)頁的檢索由于網(wǎng)頁數(shù)量的巨大,為了便于查找和組織管理,要將網(wǎng)頁進行分類處理。本系統(tǒng)將網(wǎng)頁分為8個類:教育、科學、生活、文化、政治、服務(wù)、新聞、休閑,每個類的網(wǎng)頁及相關(guān)信息分別存儲在一個服務(wù)器上。一個網(wǎng)頁可以從屬于多個類。用戶檢索時,在頁面上可以對要檢索的類別進行選擇,對于選中的類別可以并行的查詢其所在的服務(wù)器。這樣可以在最短時間內(nèi)查到最多的網(wǎng)頁。1.4網(wǎng)頁信息表和關(guān)鍵詞表為了提高效率,加快查找速度,要對相關(guān)信息以一定結(jié)構(gòu)存放,這是索引器的功能。與用戶查詢相關(guān)的表主要有網(wǎng)頁信息表和關(guān)鍵詞表。網(wǎng)頁信息表存放網(wǎng)頁ID、網(wǎng)頁名稱、URL、存儲時間、網(wǎng)頁長度、存儲位置、更新時間。關(guān)鍵詞表采用倒排表結(jié)構(gòu),包括:詞、包含該詞的網(wǎng)頁ID、該詞出現(xiàn)的位置。由于網(wǎng)頁分類存儲,每一類索引數(shù)據(jù)的結(jié)構(gòu)相同,因此,為每個不同服務(wù)器上的類的相關(guān)信息都建立相同的索引結(jié)構(gòu)。1.5用戶查詢界面的組成用戶接口為用戶和系統(tǒng)交互提供輸入輸出界面,包括用戶注冊界面(如圖2所示)、登錄界面、查詢界面(如圖3所示)和結(jié)果輸出界面(如圖4所示)。用戶第一次訪問的時候要進行注冊,將注冊的內(nèi)容存入用戶信息表中,注冊信息包括:用戶ID、密碼、職業(yè)、專業(yè)、愛好。以后用戶每次訪問搜索引擎時都要進行登錄,沒有經(jīng)過登錄的用戶不能使用搜索引擎。用戶查詢界面由三部分組成:熱門話題部分、歷史訪問記錄部分、信息查詢部分。信息查詢界面中用戶可以輸入查詢關(guān)鍵詞,并選擇查詢方式(全文、題目),以及要查詢的類別(可以多選)。另外,熱門話題部分顯示的是所有用戶近期訪問頻率最高的幾個詞,點擊關(guān)鍵詞,可以直接檢索到該詞所對應(yīng)的網(wǎng)頁信息。歷史訪問記錄部分是當前用戶的訪問記錄,分為三個時間段:三天之內(nèi)、一周之內(nèi)、一周以前。結(jié)果輸出界面顯示了符合規(guī)定的所有記錄。在每一條結(jié)果中,文檔題目用綠顏色顯示,查詢關(guān)鍵字用紅顏色顯示,點擊題目可以鏈到本地硬盤上文檔位置信息。在上方可以輸入頁數(shù),并提示總共頁數(shù)。點擊返回可以連接到結(jié)果輸出界面進行下一次檢索。1.6用戶興趣向量個性化分析器的功能是根據(jù)用戶信息庫的信息訓練得到用戶興趣向量。如果某一次用戶查詢了某一些關(guān)鍵詞,訪問了一組網(wǎng)頁,則在一段時期內(nèi),用戶仍然會查詢這些關(guān)鍵詞,訪問同類的這些網(wǎng)頁。也就是說:用戶的愛好,感興趣的主題具有局部性,同樣,對于不同用戶,同一時期內(nèi),感興趣的內(nèi)容也具有局部性。根據(jù)這個特點,本文提出一個基于用戶興趣的檢索模型。用戶興趣向量的挖掘分為兩部分:(1)用戶注冊信息和自身訪問歷史記錄的挖掘。(2)同一時期不同用戶訪問記錄的挖掘。數(shù)學模型表示為:V=αV1+(1-α)V2(1)其中,V代表用戶興趣向量,V1代表由用戶自身信息訓練的興趣向量,V2代表由其他用戶信息訓練的興趣向量。α和(1-α)是依據(jù)向量V1,V2在挖掘用戶興趣向量時所起作用的大小規(guī)定的影響因子。1.用戶行為表中網(wǎng)頁向量為用戶在數(shù)據(jù)庫中建立一個用戶行為表,用來記錄每一個用戶最近一段時間訪問過的網(wǎng)頁及訪問時的相關(guān)數(shù)據(jù),在新用戶進行信息注冊時為該用戶建立相應(yīng)記錄,其內(nèi)容包括:用戶ID、訪問的網(wǎng)頁名稱、該次訪問查詢關(guān)鍵詞、該網(wǎng)頁在本地硬盤的位置、網(wǎng)頁的URL、點擊次數(shù)、用戶訪問時間長度、最后一次訪問時間、網(wǎng)頁長度。該表按照最后一次訪問時間倒序排列。當表內(nèi)容過多時,替換最久沒訪問的網(wǎng)頁,也就是最后一次訪問時間最遠的記錄。將用戶行為表中存在的記錄對應(yīng)的網(wǎng)頁向量提取出來,點擊次數(shù)(ni),網(wǎng)頁長度(li)和訪問時間長度(ti)從某些方面反映了用戶對該網(wǎng)頁的重視程度,因此,將點擊次數(shù)、網(wǎng)頁長度、訪問時間長度作為參考參數(shù)。這樣用戶自身信息訓練的興趣向量V1可以用數(shù)學方法表示為:V1=k∑i=0vi×pi×ti=k∑i=0vi×nik∑i=0ni×tili(2)V1=∑i=0kvi×pi×ti=∑i=0kvi×ni∑i=0kni×tili(2)其中,k代表此時用戶行為表中當前用戶對應(yīng)的網(wǎng)頁數(shù);vi代表每個網(wǎng)頁的特征向量;ni代表每個網(wǎng)頁的點擊次數(shù),k∑i=0ni∑i=0kni代表所有網(wǎng)頁總點擊次數(shù)的值;ti代表每個網(wǎng)頁用戶訪問時間長度,li代表每個網(wǎng)頁長度。2.其他用戶偏好產(chǎn)生的相似度用戶查詢具有局部性,尤其是背景相近的用戶,在同一時期檢索的內(nèi)容都具有共性。因此,對同一時期不同用戶訪問記錄進行挖掘,也是挖掘用戶興趣向量的一個重要方面。首先,查詢用戶日志,提取出最近一段時間內(nèi)使用過搜索引擎的所有不同用戶,然后訪問用戶信息表,提取用戶的相關(guān)信息,包括:職業(yè)、專業(yè)、愛好。將當前用戶的這些信息與最近一段時間內(nèi)訪問網(wǎng)頁的其他用戶同類信息進行比較,找到其他用戶與當前用戶的相似程度βj。由其他用戶信息訓練的興趣向量可以表示為如下形式:V2=m∑j=0uj×βj(3)其中,βj為第j篇網(wǎng)頁的訪問用戶與當前用戶的相似程度;m是找到的用戶行為表中除當前用戶外,所有其他用戶對應(yīng)的網(wǎng)頁數(shù)量;uj為第j篇網(wǎng)頁的特征向量。其中,βj=raj+(1-r)bj,r和(1-r)是依據(jù)aj、bj,在挖掘不同用戶興趣向量時所起作用的大小規(guī)定的影響因子。aj、bj,定義方法如下:由于愛好的度量值bj是一個0~1之間的小數(shù),因此為了使數(shù)據(jù)影響相同,職業(yè)、專業(yè)度量值aj也定義在0~1之間。將職業(yè)、專業(yè)分成幾大類,不同類之間規(guī)定相似度,選擇同類的內(nèi)容相似度都為1,選擇不同類的內(nèi)容直接看他們的類相似度。愛好度量值bj,它是根據(jù)規(guī)定的類別對每一類提取出相同個數(shù)的特征確定的。本系統(tǒng)中,分為8個類,從每個類中選擇3個有代表性的詞作為愛好,如:休閑類中選擇體育/旅游,醫(yī)療/健身,影音/娛樂三個作為愛好。具體見圖2。這樣一共24個愛好。根據(jù)用戶的選擇,可以計算用戶在每個類中選了多少個愛好,以此來體現(xiàn)用戶對每類網(wǎng)頁的偏愛程度,這樣就可以形成一個8維向量來表征用戶愛好,即愛好向量,不同用戶之間愛好相似性可以轉(zhuǎn)化為愛好向量的相似程度,采用余弦法計算二者相似性。如,類:教育(A)、科學(B)、生活(C)、文化(D)、政治(E)、服務(wù)(F)、新聞(G)、休閑(H),用戶甲在A中選了2個愛好,B中選了3個,C中沒選,D中選了1個,E中沒選,F中選了3個,G中選了1個,H中選了1個,則用戶甲的愛好向量為:D1:{23,33,0,13,0,33,13,13};同理,用戶乙在A中選了1個愛好,B中沒選,C中選了1個,D中選了3個,E中選了2個,F中選了2個,G中選了1個,H中選了1個,則用戶乙的愛好向量為:D2:{13,0,13,33,23,23,13,13}。用戶甲和乙的愛好相似程度為:Sim(D1,D2)=8∑i=1d1id2i√8∑i=1d21i√8∑i=1d22i=0.5673(4)于是,對于用戶興趣向量可以最終表示為:V=αV1+(1-α)V2=αk∑i=0vi×nik∑i=0ni×tili+(1-α)m∑j=0uj×(raj+(1-r)bj)(5)參數(shù)含義同上。1.7用戶興趣向量的過濾檢索器主要作用是從數(shù)據(jù)庫中找到與用戶查詢相關(guān)的網(wǎng)頁。不同用戶的背景、習慣不同,對于相同的含義不同的人會有不同的表達方式;同樣,相同的詞其對于不同的人代表的含義也可能不同。這樣,為了避免歧義現(xiàn)象,需要建立同義詞庫,對查詢關(guān)鍵詞進行同義詞擴展,將查詢詞的同義詞也一起查詢,以提高查全率。本系統(tǒng)所采用的檢索方法:通過用戶興趣向量進行信息過濾,判斷網(wǎng)頁向量與用戶興趣向量的相似性,并按照倒序排列,將結(jié)果返回給用戶。具體過程如下:第一步,將用戶輸入的查詢內(nèi)容調(diào)用分詞程序進行詞的切分,然后再將分詞后的結(jié)果進行同義詞擴展。第二步,根據(jù)用戶檢索時所選定的類別信息,查詢對應(yīng)類別的索引。按照用戶注冊時提供的愛好信息,也就是前文中敘述的愛好向量中的每一項,作為每一類網(wǎng)頁的權(quán)重,表示用戶對不同類信息的愛好程度,當一個網(wǎng)頁同時屬于多個類時,取各個類的權(quán)重最大者。第三步,將檢索出來的網(wǎng)頁與用戶興趣向量采用余弦公式來求向量相似度。如果二向量是相近的,則它們所表示的語意是相關(guān)的。這個相似計算的值就是表示該網(wǎng)頁接近用戶愛好的程度。值越大,也就是說網(wǎng)頁越接近用戶要求。sim′(D,Di)=C?(m∑j=1WDj*WDij)√m∑j=1(WDj)2*m∑j=1(WDij)2(6)式中,D是用戶興趣向量,Di是網(wǎng)頁向量,C是類別權(quán)重,WD用戶興趣向量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論