個性化檢索中的相似用戶群的獲取與更新_第1頁
個性化檢索中的相似用戶群的獲取與更新_第2頁
個性化檢索中的相似用戶群的獲取與更新_第3頁
個性化檢索中的相似用戶群的獲取與更新_第4頁
個性化檢索中的相似用戶群的獲取與更新_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、個性化信息檢索摘要下一代搜索引擎的一個突出特點是個性化,個性化信息檢索是以用戶為中心的信息檢索技術(shù),它獲取以多種形式表達的用戶需求(包括顯式的、隱式的以及相關(guān)用戶的需求),并綜合利用這些用戶信息,提高信息檢索系統(tǒng)的性能。作為個性化檢索中的重要研究子課題,相似用戶群的建立與更新的任務(wù)是,通過對用戶檢索和瀏覽歷史的分析,建立興趣相似的用戶群,并隨著用戶信息和檢索領(lǐng)域的變化對相似用戶群進行更新。相似用戶群的建立與更新任務(wù)面臨的主要問題是,缺乏合理的任務(wù)劃分和標(biāo)準(zhǔn)評測集,無法對相似用戶群系統(tǒng)進行公正的評價。因此,本文通過對個性化檢索進行合理的任務(wù)劃分,將相似用戶群劃分為一個獨立的子任務(wù),并利用開發(fā)的語

2、料標(biāo)注輔助系統(tǒng),為其建立了標(biāo)準(zhǔn)評測集,使得可以對相似用戶群的系統(tǒng)進行公正的評價和比較。在相似用戶群的研究中,由于用戶間共同評價過的網(wǎng)頁較少,數(shù)據(jù)稀疏成為限制相似用戶群建立效果的重要問題,因此,本文對相似用戶群建立的研究主要集中在解決數(shù)據(jù)稀疏問題上。本文提出了基于相關(guān)性模型的相似用戶群建立方法,采用相關(guān)性模型,利用相似領(lǐng)域中的相似用戶,對當(dāng)前領(lǐng)域中的用戶查看數(shù)據(jù)進行擴充,以解決數(shù)據(jù)稀疏問題。同時,根據(jù)實際情況,隨著領(lǐng)域的不同對相似用戶群不斷進行更新,以使相似用戶群的建立更加準(zhǔn)確。實驗語料為標(biāo)注者針對天網(wǎng)100g語料進行的檢索行為和標(biāo)注的答案,評測指標(biāo)采用錯檢率、漏檢率和系統(tǒng)性能損耗代價。此方法的

3、性能在測試語料集上比baseline方法提高了7.12%,說明基于相關(guān)性模型的相似用戶群方法可以很好地解決數(shù)據(jù)稀疏,同時由于利用用戶群興趣挖掘單個用戶興趣,防止了用戶興趣判斷的偏差,提高相似用戶群建立的效果。關(guān)鍵詞個性化檢索;協(xié)作過濾;相似用戶群;相關(guān)性模型abstractan important characteristic of next generation search engine is personalization. personalized information retrieval (pir) focuses on users. it captures users inter

4、est in different kinds (explicit, implicit interest and interest of similar users). these information of users are integrated and used to improve the result of information retrieval system.the establishment and update of similar users cluster is an important subtask of personalized information retri

5、eval. its task is to establish clusters of similar users by analyzing users retrieval and browsing history. the clusters will also be updated with the change of users information and retrieval areas. the problem in this task is the lack of tasks division and standard evaluation dataset. therefore, t

6、his paper defines four subtasks of pir, which include the establishment and update of similar users cluster. the establishment standard evaluation dataset makes it possible to evaluate and compare the systems of user clustering. the data sparseness limits the performance of user clustering because w

7、eb pages rated by different users are rare. therefore, the research of this paper focuses on solving the problem of data sparseness. this paper proposes a user clustering method based on relevance model. it uses users data in similar domains to expand the data of users in current domain by relevance

8、 model. the users clusters will also be updated with the change of retrieval domains. the retrieval information and labeled answers of users are used to establish the experimental dataset. the evaluation matrix includes false alarm rate, miss alarm rate and cost of detection. in the experiment, user

9、 clustering based on relevance model improves the result of baseline system by 7.12%. this result proves that the proposed algorithm can alleviate the problem of data sparseness. whats more, mining users interest by its cluster can decrease the false information in users models and improve the resul

10、t of precision of user clustering. keywordspersonalized information retrieval;collaborative filtering; user clustering; relevance model不要刪除行尾的分節(jié)符,此行不會被打印47- -目錄摘要iabstractii第1章 緒論11.1 課題背景11.2 課題的研究目的和意義21.2.1 課題的研究目的21.2.2 課題的研究意義21.2.3 相似用戶群研究的應(yīng)用31.3 國內(nèi)外相關(guān)研究41.3.1 相似用戶的判斷41.3.2 解決數(shù)據(jù)稀疏問題的研究71.4 本章小

11、結(jié)8第2章 個性化檢索任務(wù)劃分及評測92.1 個性化檢索的任務(wù)劃分92.1.1 用戶新興趣發(fā)現(xiàn)92.1.2 用戶興趣跟蹤112.1.3 相似用戶群建立122.1.4 個性化檢索142.2 語料標(biāo)注的輔助系統(tǒng)142.2.1 系統(tǒng)介紹142.2.2 正確答案記錄172.2.3 語料規(guī)模182.3 相似用戶群的評測182.3.1 評測機制182.3.2 評測方法192.4 本章小結(jié)19第3章 用戶興趣發(fā)現(xiàn)與跟蹤213.1 用戶新興趣發(fā)現(xiàn)213.1.1 基于向量空間模型的新興趣發(fā)現(xiàn)方法213.1.2 基于texttiling的新興趣發(fā)現(xiàn)方法223.1.3 實驗結(jié)果及分析243.2 用戶興趣跟蹤253.

12、2.1 實驗方法253.2.2 實驗結(jié)果及分析253.3 本章小結(jié)26第4章 基于相關(guān)性模型的數(shù)據(jù)擴充方法研究274.1 話題跟蹤研究簡介274.2 相關(guān)性模型284.3 基于向量空間模型的相關(guān)性模型284.4 基于話題核心與新穎部分的話題跟蹤294.4.1 話題核心的構(gòu)建304.4.2 利用改進相關(guān)性模型調(diào)整話題的新穎部分304.4.3 話題模型的構(gòu)建314.5 實驗及結(jié)果分析314.5.1 實驗語料及評測機制324.5.2 實驗結(jié)果324.6 本章小結(jié)34第5章 基于相關(guān)性模型的相似用戶群研究355.1 相關(guān)研究355.2 基于相關(guān)性模型的相似用戶群建立385.2.1 用戶數(shù)據(jù)擴充385.

13、2.2 用戶相似度計算395.3 實驗及結(jié)果分析395.3.1 實驗語料405.3.2 實驗結(jié)果分析405.4 本章小結(jié)42結(jié)論43參考文獻44攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文48哈爾濱工業(yè)大學(xué)碩士學(xué)位論文原創(chuàng)性聲明49哈爾濱工業(yè)大學(xué)碩士學(xué)位論文使用授權(quán)書49哈爾濱工業(yè)大學(xué)碩士學(xué)位涉密論文管理49致謝50千萬不要刪除行尾的分節(jié)符,此行不會被打印。在目錄上點右鍵“更新域”,然后“更新整個目錄”。打印前,不要忘記把上面“abstract”這一行后加一空行第1章 緒論1.1 課題背景由于web信息的日益增長,人們不得不花費大量的時間去搜索、瀏覽自己需要的信息。搜索引擎是最普遍的輔助人們檢索web信息的工具

14、,比如傳統(tǒng)的搜索引擎altavista、yahoo和新一代的搜索引擎google等。盡管商業(yè)搜索引擎已經(jīng)取得了相當(dāng)?shù)某晒Α5蟛糠炙阉饕媸腔陉P(guān)鍵詞匹配的方式進行檢索的,導(dǎo)致檢索結(jié)果中無關(guān)的網(wǎng)頁過多并且沒有考慮不同用戶的個性差異和需要。由此可見,目前所廣泛采用的信息檢索技術(shù)無法滿足不同背景、不同目的和不同時期的查詢請求。舉例來說,研究計算機和果樹栽培的兩個用戶,在搜索 “蘋果”時分別想查找“蘋果電腦”和關(guān)于蘋果栽培的知識。如果我們能夠根據(jù)這兩個用戶的職業(yè)以及平時查詢和瀏覽的內(nèi)容為這兩個用戶建立不同的檔案,就可以為他們返回不同的結(jié)果。個性化檢索系統(tǒng)就是利用用戶的注冊信息以及瀏覽和查詢歷史等信

15、息挖掘和預(yù)測用戶興趣,從而結(jié)合用戶當(dāng)前的查詢關(guān)鍵詞,返回符合用戶個人興趣的檢索結(jié)果。同時,物以類聚,人以群分,每個人都有自己的興趣,而和他興趣最接近的一些用戶會組成一個用戶群。比如有一些用戶都對“飛碟”非常感興趣,我們可以利用用戶群在查詢和瀏覽中的行為作為判斷當(dāng)前用戶檢索興趣的依據(jù),從而更加準(zhǔn)確地把握用戶的檢索意圖。因此,相似用戶群的建立對提高個性化檢索的性能有重要意義。同時相似用戶群還可以用來預(yù)測用戶的潛在興趣,將用戶可能感興趣的信息推薦給用戶。例如,某些用戶都對“飛碟”有共同的興趣,如果某一天出現(xiàn)了新聞“英國天空驚現(xiàn)ufo”,對“飛碟”感興趣的很多用戶都對這個新聞感興趣,那么,系統(tǒng)就可以將

16、這則新聞推薦給這些用戶。這就是利用相似用戶的興趣判斷和預(yù)測單個用戶的興趣。利用這個原理進行個性化檢索和信息推薦將能夠更好地滿足用戶的個性需求。1.2 課題的研究目的和意義相似用戶群建立的研究不僅對個性化檢索和個性化推薦系統(tǒng)1有重要意義,而且具有重要的實際應(yīng)用價值。1.2.1 課題的研究目的基于相似用戶群的個性化信息檢索的解決思路是協(xié)作過濾和信息社會化檢索。主要方法是系統(tǒng)通過對用戶按興趣模式聚類來增強用戶間的協(xié)同與協(xié)作。我們將從以下幾個方面展開相關(guān)研究:(1) 相似用戶群建立的評價以往研究中,由于缺乏有效評測系統(tǒng),因此對相似用戶群建立任務(wù)的性能缺乏公正的評價。本文將個性化檢索劃分成四個相對獨立又

17、相互關(guān)聯(lián)的子任務(wù),相似用戶群的建立作為獨立的子任務(wù),通過用戶對每個檢索對象提交的答案構(gòu)建標(biāo)準(zhǔn)評測集,以便對相似用戶建立的效果進行公正的評價。(2) 用戶評價數(shù)據(jù)的擴充協(xié)作過濾中由于不同用戶間評價過的網(wǎng)頁較少,從而導(dǎo)致用戶相似度計算的準(zhǔn)確率不高。因此,如何解決數(shù)據(jù)稀疏問題,是一個重要研究課題。本文將利用用戶對網(wǎng)頁的點擊代替用戶的顯式評價分?jǐn)?shù),同時基于改進的相關(guān)性模型,利用相似領(lǐng)域內(nèi)相似用戶的查看歷史,對當(dāng)前用戶進行數(shù)據(jù)擴充,解決數(shù)據(jù)稀疏問題,提高相似用戶群建立的效果。(3) 相似用戶群建立策略以往的用戶群建立工作大部分是對所有用戶建立一個靜態(tài)的相似用戶群,但是實際中,用戶在不同領(lǐng)域的興趣是不同的

18、,因此在不同領(lǐng)域其相似用戶群也是不一樣的。本文探討在每個領(lǐng)域中分別建立一個相似用戶群,并對用戶群進行動態(tài)的更新,以便使群內(nèi)的用戶興趣盡可能一致。1.2.2 課題的研究意義相似興趣用戶群的建立主要可以起到以下幾點作用:(1)提高個性化檢索系統(tǒng)的性能。由于單個用戶的查詢和檢索數(shù)據(jù)比較有限,而判斷單個用戶興趣時常常會有偏差,導(dǎo)致對用戶興趣判斷的錯誤累積現(xiàn)象。而通過用戶群的整體興趣判斷單個用戶的興趣,可以防止用戶興趣判斷的偏差。(2) 提高個性化信息推薦的效果。相似用戶群建立后,可以將群中大部分用戶感興趣的信息推薦給其它用戶,提供個性化推薦功能。評價問題是相似用戶群建立中的重要問題。當(dāng)前的很多研究都將

19、相似用戶群建立的任務(wù)依附于其它任務(wù)中,缺少專門針對此任務(wù)的評測。本論文為相似用戶群建立的任務(wù)構(gòu)建合理的自動評測集語料以及對應(yīng)的評測答案為后續(xù)針對此任務(wù)的研究奠定基礎(chǔ),對其它研究的評測方法也有重要的參考價值。1.2.3 相似用戶群研究的應(yīng)用相似用戶群建立的研究,不僅具有重要的理論價值,而且有重要的實際應(yīng)用價值。1.2.3.1 相似用戶群在電子商務(wù)中的應(yīng)用基于相似用戶群的個性化服務(wù)方式通過對不同用戶群體興趣取向的挖掘和分析,制定適合此用戶群體的產(chǎn)品的設(shè)計、開發(fā)以及市場營銷策略。基于相似用戶群的個性化電子商務(wù)具備如下優(yōu)點:(1)面向群體用戶,可以分析用戶群體的興趣,制定針對性的生產(chǎn)和銷售策略。(2)

20、個性化電子商務(wù)具備自適應(yīng)的學(xué)習(xí)機制,從而能夠輔助電子商務(wù)系統(tǒng)識別商務(wù)趨勢敏感變化并智能化地調(diào)整商品分配。1.2.3.2 相似用戶群在電子政務(wù)中的應(yīng)用電子政務(wù)主要應(yīng)用于企業(yè)內(nèi)部行政事務(wù)和業(yè)務(wù)企劃的發(fā)布、數(shù)據(jù)和資源共享以及保密信息交互?;谙嗨朴脩羧旱膫€性化信息檢索應(yīng)用于電子政務(wù)的優(yōu)點主要包括:(1)有益于企業(yè)高效快捷的內(nèi)部管理。相似用戶群建立起對應(yīng)不同職能部門的相似用戶群,自動挖掘與每個用戶群管理和業(yè)務(wù)職能相關(guān)的信息。(2)海量數(shù)據(jù)的合理保存與維護,建立基于相似用戶群對于海量資源的分類保存和快速精準(zhǔn)的查詢提供了良性平臺。1.2.3.3 相似用戶群在電子家務(wù)中的應(yīng)用電子家務(wù)就是:“家庭事務(wù)的電子化

21、,旨在提高家庭管理的水平和效率,是信息化建設(shè)的重要目標(biāo)?!??;谙嗨朴脩羧旱膮f(xié)作過濾可以記錄家庭事務(wù)的核心需求,實時監(jiān)控信息流,從而輔助電子家務(wù)系統(tǒng)智能化的信息推送,將用戶從繁多的事務(wù)中解放出來。此外,相似用戶群的建立還可以應(yīng)用在數(shù)字圖書館23中,為用戶提高個性化的檢索和個性化推薦功能。1.3 國內(nèi)外相關(guān)研究以往的相似用戶群的研究主要集中在協(xié)作過濾領(lǐng)域。協(xié)作過濾4是指分析用戶興趣,在用戶群中找到與指定用戶的興趣相同或相似的用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預(yù)測。協(xié)作過濾分為基于模型和基于記憶的協(xié)作過濾?;谀P偷膮f(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的關(guān)系建

22、立需求模型,過濾后續(xù)的信息資源。其中常用的方法包括貝葉斯網(wǎng)絡(luò)方法5、聚類的方法67和aspect model方法8?;谟洃浀膮f(xié)作過濾主要通過用戶對項目打分的差別找到相似的用戶或項目,然后對用戶的興趣進行預(yù)測?;谟洃浀膮f(xié)作過濾分為基于項目的協(xié)作過濾910和基于用戶的協(xié)作過濾1112兩種?;陧椖康膮f(xié)作過濾系統(tǒng)的核心問題是檢測兩個項目之間的協(xié)作相似性,然后利用用戶對相似項目的興趣預(yù)測用戶對未評價過的項目的興趣?;谟脩舻膮f(xié)作過濾主要研究如何建立和應(yīng)用相似用戶群。比如,兩名具備相似知識背景的用戶ua和ub,在獲取知識時采用不同特征集合構(gòu)成profile,相似的知識背景使得系統(tǒng)相信ua和ub具備相

23、同的需求趨向,從而將ua和ub感興趣的反饋結(jié)果互相推送,以達到協(xié)作式的檢索或過濾功能,如圖1-1所示。用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)圖1-1 協(xié)作過濾樣例figure 1-1 sample of collaborative filtering1.3.1 相似用戶的判斷基于用戶協(xié)作過濾的核心思想是根據(jù)用戶評分的相似性獲得活動用戶的若干最近鄰,也就是相似用戶群的建立,然后通過這些最近鄰對項目評分的加權(quán)和來預(yù)測活動用戶對項目的評分。其步驟如

24、圖1-2。所有用戶與活動用戶相似度計算選擇近鄰計算近鄰用戶對項目評分加權(quán)和圖1-2 基于用戶的協(xié)作過濾中用戶對項目評分流程figure 1-2 process for users to rate items in user-based collaborative filtering通?;谟脩舻膮f(xié)作過濾采用最近鄰方法。即對活動用戶ua,獲取按照相關(guān)度大小排列的相似“近鄰”集13u=u1,u2,un,可以通過設(shè)置閾值控制u=u1,u2,un的規(guī)模。基于活動用戶ua的近鄰集u=u1,u2,un,用戶ua對項目ti的評價定義為近鄰集u中所有用戶對項目ti評價指標(biāo)的加權(quán)和,公式14如下: (1-1)其

25、中,w(ua,uk)為活動用戶ua與uk的相似度;r(uk,ti)為uk對項目ti的評分;為uk對項目的平均評分;為當(dāng)前活動用戶ua先驗的平均評分。用戶間相似度計算成為決定協(xié)作過濾系統(tǒng)性能的一個主要方面,常用的用戶間相似度如下: 余弦(cosine)相似性余弦相似性115首先將用戶對項目的評分映射為n維評價矢量ua=rel(ua,ti)|tit,其中每一維代表用戶對某一項目的評分,通常可以簡化地將評分的取值范圍設(shè)置為0,1,評分越高說明用戶對項目的興趣程度越高。用戶之間的相似性通過評價矢量間的余弦夾角進行度量,其公式如下: (1-2)其中,分母部分是由兩個評價向量的模乘積而成,其作用在于對余弦

26、相似性進行歸一化。 相關(guān)(correlation)相似性假設(shè)用戶ua和ub共同評價過的項目集為i=t1,tn,相關(guān)相似性csim(ua,ub)可以采用person相關(guān)系數(shù)16進行度量。其公式如下: (1-3)其中,csim(ua,ub)是用戶ua和ub的相似度;r(ua,ti)與r(ub,ti)分別代表用戶ua和ub對項目ti的評分;與分別代表用戶ua和ub對其共有的項目集i=t1,tn的評價平均值;n為ua和ub共同評價過的項目總數(shù)。person相關(guān)系數(shù)要求數(shù)據(jù)的分布條件滿足連續(xù)的線性關(guān)系。在實際中往往預(yù)先設(shè)置評價的等級,用戶按照等級對項目進行評價。這造成數(shù)據(jù)的分布趨向于離散,因此采用spe

27、arman等級相關(guān)系數(shù)17衡量用戶之間的相關(guān)相似性,公式如下: (1-4)其中,rank(ua,ti)和rank(ub,ti)代表用戶ua和ub對ti的關(guān)注級別,比如“關(guān)注”、“一般”和“不關(guān)注”分別對應(yīng)1、0.5和0;和代表ua和ub對公共項目集i=t1,tn評價的平均級別。余弦相似度計算法和相關(guān)相似性計算法提高了推薦項目的準(zhǔn)確性,但是過分相似的用戶共有的項目集規(guī)模相對很大,削弱了用戶間可以互相推薦的未知項目空間。通常協(xié)作過濾系統(tǒng)可以采用項目的反流行度18為候選用戶賦予權(quán)值,公式如下: (1-5)其中,n(ti)表示對項目ti評價過的用戶總數(shù),即項目ti的流行程度;m是先驗的歸一化參數(shù)。根據(jù)

28、公式(1-5),一個項目的流行程度越大,則其反流行度invpop(i)越小,從而包含該項目的候選用戶獲得的權(quán)值越低?;顒佑脩艨梢院喕剡x擇經(jīng)過反流行度加權(quán)后權(quán)值相對較高的用戶作為鄰居。但在實際應(yīng)用中,又有用戶與評分的稀疏性,導(dǎo)致協(xié)作過濾系統(tǒng)無法有效識別相似用戶。1.3.2 解決數(shù)據(jù)稀疏問題的研究用戶對項目的評價值可以構(gòu)成一個用戶-項目矩陣,由于用戶對網(wǎng)頁的的評價較少,導(dǎo)致此矩陣數(shù)據(jù)較稀疏1920。如圖1-3所示。圖1-3 用戶-項目評價矩陣figure 1-3 matrix of user-item ratings數(shù)據(jù)稀疏問題導(dǎo)致用戶相似度計算時很不準(zhǔn)確。為了解決數(shù)據(jù)稀疏問題,許多相應(yīng)算法被提

29、出。減少維度的方法致力于直接將用戶-項目評價矩陣的維度降低。原理成分分析(pca)技術(shù)21以及信息檢索中的潛在語義索引技術(shù)2223也都被用來解決這個問題。清華大學(xué)24提出了將用戶-項目矩陣進行轉(zhuǎn)換從而計算用戶間相似度的方法。降低維度的方法通過去除不重要的用戶或項目達到減少數(shù)據(jù)稀疏的問題。關(guān)聯(lián)檢索技術(shù)25考慮用戶和項目之間的關(guān)系,迭代地增強用戶和相關(guān)項目之間的相似度。內(nèi)容驅(qū)動的協(xié)作過濾方法2627增加額外的信息,將項目表示成為向量而計算他們之間的相似度。賓夕法尼亞大學(xué)28提出了對內(nèi)容信息進行一體化的統(tǒng)一概率模型解決數(shù)據(jù)稀疏問題。協(xié)作過濾以及相似用戶群建立也有了一些實際應(yīng)用系統(tǒng)。其中,最為有名的是

30、amazon網(wǎng)站的個性化推薦系統(tǒng)29,其利用協(xié)作過濾技術(shù),將用戶可能感興趣的商品信息推薦給用戶,節(jié)省用戶搜索的時間并可以發(fā)掘用戶潛在興趣。與此類似的還有g(shù)oogle的個性化新聞推薦系統(tǒng)30。雅虎公司將相似用戶群的研究應(yīng)用到了個性化電影搜索網(wǎng)站中31。其根據(jù)當(dāng)前用戶所在的用戶群信息預(yù)測用戶對每個電影的興趣,然后計算每個電影針對每個用戶的個性化權(quán)威性,從而實現(xiàn)檢索結(jié)果的個性化。1.4 本章小結(jié)本章先對個性化檢索以及相似用戶群研究的背景進行了介紹,介紹了現(xiàn)有檢索系統(tǒng)的缺點,說明了此研究的必要性。然后,對相似用戶群的研究目的進行了闡述,介紹了研究重點,分別是對用戶數(shù)據(jù)的擴充、相似用戶群建立的策略以及評

31、價方法,并對研究意義做了說明。之后,通過相似用戶群在電子商務(wù)、電子政務(wù)和電子家務(wù)方面的應(yīng)用,說明相似用戶群研究的重要價值。最后對相似用戶群建立的相關(guān)研究和應(yīng)用進行了介紹。后續(xù)章節(jié)的安排如下:第二章詳細說明個性化檢索的任務(wù)劃分以及相似用戶群的評測方法,主要對個性化檢索各個子任務(wù)進行了詳細介紹,并介紹了對語料收集的輔助系統(tǒng)和其收集到的語料規(guī)模,最后對相似用戶群的評測機制和方法進行了說明;第三章介紹用戶新興趣發(fā)現(xiàn)和興趣跟蹤的初步研究,這兩個子任務(wù)是相似用戶群建立的前序任務(wù),因此本文對這兩個子任務(wù)進行了初步研究;第四章探討相關(guān)性模型在數(shù)據(jù)擴充中的作用并對其進行改進,相關(guān)性模型可以解決相似用戶群中的數(shù)據(jù)

32、稀疏問題,因此本章對相關(guān)性模型進行了深入研究并提出了改進的相關(guān)性模型以便應(yīng)用到相似用戶群建立任務(wù)中;第五章提出基于相關(guān)性模型的相似用戶建立與更新方法,本章利用相關(guān)性模型解決相似用戶群的數(shù)據(jù)稀疏問題,并根據(jù)用戶新興趣發(fā)現(xiàn)和興趣跟蹤任務(wù)的結(jié)果,探討利用相關(guān)領(lǐng)域中的相似用戶擴充當(dāng)前領(lǐng)域中用戶的數(shù)據(jù)。第2章 個性化檢索任務(wù)劃分及評測作為個性化檢索中的一個重要模塊,相似用戶群的建立的研究第一步是有合理的任務(wù)劃分、明確的任務(wù)定義以及詳細的入口和出口數(shù)據(jù)格式。以往對個性化檢索以及相似用戶群的研究因為沒有明確的任務(wù)劃分和評測方案,導(dǎo)致研究無法針對其中重要問題進行深入研究,并且各種研究的結(jié)果缺乏客觀的評價。因此

33、,對個性化檢索任務(wù)進行合理的劃分并給出合理的評測方案,使得相似用戶群的建立任務(wù)可以成為獨立的研究,并且可以有機地融合到個性化檢索任務(wù)中,是研究相似用戶群的重要一步。2.1 個性化檢索的任務(wù)劃分個性化檢索任務(wù)主要是挖掘單個和群體用戶的興趣,并利用用戶興趣對檢索結(jié)果進行優(yōu)化,使得檢索結(jié)果更加符合用戶的個性化需求。因此,個性化檢索面臨的主要問題是如何從用戶的檢索行為中發(fā)現(xiàn)并跟蹤用戶的興趣,建立興趣相似的用戶群,以及利用挖掘的用戶興趣對檢索結(jié)果進行優(yōu)化。個性化檢索的任務(wù)劃分應(yīng)該保證各任務(wù)之間具有相互獨立性,并且各個任務(wù)解決的是個性化檢索中最重要的問題,最終各個任務(wù)的有機組合可以構(gòu)成一個初步的個性化檢索

34、實用系統(tǒng)?;谝陨系脑瓌t,本文將個性化檢索劃分為用戶新興趣發(fā)現(xiàn)、用戶興趣跟蹤、相似用戶群建立以及個性化檢索四個子任務(wù)。下面就對四個子任務(wù)進行詳細介紹。2.1.1 用戶新興趣發(fā)現(xiàn)用戶使用搜索引擎時,會有比較明確的檢索目的,而搜索過程實際是一個不斷學(xué)習(xí)不斷優(yōu)化query,使其能夠更好地描述自己的個性化需要,從而找到符合自己興趣的結(jié)果的過程,這也是個性化檢索所要解決的問題,也就是自動挖掘用戶興趣,從而自動返回符合用戶興趣的結(jié)果。例如,用戶想觀看一些關(guān)于計算機智能方面的電影,當(dāng)他利用搜索引擎進行檢索時,他的檢索目的是計算機智能電影,如圖2-1所示的檢索過程。而由于剛開始不知道具體的電影名,他先輸入了“

35、計算機智能電影”的檢索關(guān)鍵詞,然后,根據(jù)從結(jié)果中獲得的信息,用戶找到自己可能感興趣的電影(例如“黑客帝國”),再輸入精確的電影名以獲得更加詳細的關(guān)于電影的介紹等信息。在這個過程中,用戶需要不斷優(yōu)化自己的query,從而最終搜索到自己想要的結(jié)果。但在用戶不斷優(yōu)化query的過程中,他的檢索對象一直沒變,都是想檢索關(guān)于計算機智能方面的電影。因此,前三個query的檢索對象相同。之后,用戶可能又想找到一家比較合適的電影院觀看電影,也就是產(chǎn)生了一個新的檢索興趣,因此他又輸入了“北京電影院”和“首都電影院票價”檢索相關(guān)信息,這兩個query屬于相同的檢索對象。圖2-1 用戶檢索過程figure 2-1

36、process of users retrieving如果系統(tǒng)可以判斷用戶的檢索對象,自動識別出用戶新的檢索興趣的出現(xiàn)。則對每個query,可以找到與它檢索對象相同的query,利用這些query中用戶的行為判斷用戶對哪些信息感興趣,哪些網(wǎng)頁是用戶真正需要的,這樣就可以使得對用戶隱式信息的利用更加準(zhǔn)確。因此個性化檢索任務(wù)中將用戶新興趣的發(fā)現(xiàn)作為一個獨立任務(wù),此任務(wù)的目的是對用戶的query分析,發(fā)現(xiàn)用戶新的檢索需求,將檢索對象相同的query劃分為同一段落。此任務(wù)的入口數(shù)據(jù)是每個用戶的query內(nèi)容,系統(tǒng)返回的檢索結(jié)果以及snippet,用戶查看的過的結(jié)果網(wǎng)頁,對網(wǎng)頁的瀏覽時間,用戶對結(jié)果的翻

37、頁信息。此任務(wù)的標(biāo)準(zhǔn)答案格式如圖2-2。標(biāo)準(zhǔn)答案采用xml標(biāo)簽的形式,標(biāo)簽包圍的是當(dāng)前用戶名,每個和標(biāo)簽中包含的是一個檢索對象的信息,中內(nèi)容是此檢索對象的編號,中包含的是在此檢索對象中用戶輸入的所有query內(nèi)容。此標(biāo)準(zhǔn)答案由標(biāo)注輔助系統(tǒng)生成,具體的產(chǎn)生方法見3.2節(jié)。用戶新興趣發(fā)現(xiàn)任務(wù)通過對給定入口數(shù)據(jù)進行處理,需要生成系統(tǒng)認為的query段落,然后通過系統(tǒng)判定的結(jié)果與標(biāo)準(zhǔn)答案進行對比可以對系統(tǒng)的性能進行評價,評價指標(biāo)將采用話題檢測與跟蹤中的錯檢率和漏檢率方法,具體的評測方法將和評測指標(biāo)將在3.3節(jié)進行詳細的介紹。 圖2-2 用戶新興趣發(fā)現(xiàn)任務(wù)的標(biāo)準(zhǔn)答案圖2-3用戶興趣跟蹤任務(wù)的標(biāo)準(zhǔn)答案fi

38、gure 2-2 answer of new interest detectionfigure 2-3 answer of users interest tracking2.1.2 用戶興趣跟蹤由于用戶經(jīng)常會重復(fù)檢索同一領(lǐng)域內(nèi)的信息,而用戶在同一領(lǐng)域內(nèi)的興趣相對較為固定,因此判定用戶的哪些檢索是在同一興趣領(lǐng)域內(nèi)對個性化檢索也很重要。例如,如果用戶較喜歡的運動是滑雪,那么在他平常的檢索中就會經(jīng)常檢索關(guān)于滑雪方面的信息。如果系統(tǒng)可以將用戶針對運動方面的檢索關(guān)聯(lián)起來,則可以建立用戶在運動方面的興趣模型。這樣,當(dāng)用戶在后續(xù)再檢索運動相關(guān)的信息時,系統(tǒng)就會根據(jù)用戶在運動方面的興趣模型對檢索結(jié)果進行優(yōu)化,

39、可以將結(jié)果中關(guān)于滑雪方面的網(wǎng)頁位置提前,突出用戶的個性化需要。由于用戶新興趣跟蹤任務(wù)已經(jīng)將相鄰的query按照檢索對象劃分為query段落,因此用戶興趣跟蹤任務(wù)主要目標(biāo)是,找到所在領(lǐng)域相同的query段落。此任務(wù)在個性化檢索中的作用是,可以為每個用戶在不同興趣領(lǐng)域內(nèi)分別建立興趣模型,從而更準(zhǔn)確地挖掘和利用用戶興趣。同時,由于在不同領(lǐng)域內(nèi)用戶的相似用戶也是不同的,因此在相似用戶群的建立中,可以利用此任務(wù)劃定興趣領(lǐng)域,在每個興趣領(lǐng)域分別建立興趣相似的用戶群。此任務(wù)的入口數(shù)據(jù)為每個用戶的query,系統(tǒng)檢索結(jié)果,用戶查看的過的網(wǎng)頁,瀏覽時間,翻頁信息。同時第一個任務(wù)的標(biāo)準(zhǔn)答案,圖2-2中按照檢索對象

40、劃分的用戶query也是本任務(wù)的入口數(shù)據(jù)。本任務(wù)的標(biāo)準(zhǔn)答案如圖2-3,記錄的分別是每個query段落的相同領(lǐng)域的query段落編號。答案的標(biāo)注以及評測方法將分別在3.2與3.3節(jié)介紹。2.1.3 相似用戶群建立由于每個人都生活在一定的群體中,因此每個用戶的興趣也會與其它用戶具有一定的相似性,興趣相似的用戶就會構(gòu)成相似用戶群。建立相似用戶群對個性化檢索和個性化推薦都有重要意義。例如,某個用戶在音樂中比較感興趣的是抒情歌曲,與他相同,也會有其他用戶對抒情歌曲很感興趣,這樣在音樂的領(lǐng)域內(nèi)這個群體的興趣都是抒情歌曲。因此,因此這個群體的成員搜索歌曲相關(guān)的信息時,就可以將那首新出的抒情歌歌曲以及風(fēng)格相似

41、的歌曲在檢索結(jié)果中的位置提前,這樣就可以根據(jù)群體的興趣判定單個用戶的興趣。同時,如果新出一首較受歡迎的抒情歌曲,這個興趣群體的一部分成員對這首歌曲的都比較感興趣,那么就可以將這首歌曲推薦給這個群體中的其它成員。但是,由于在一個領(lǐng)域內(nèi)的相似用戶在其它領(lǐng)域內(nèi)未必興趣相似,因此相似用戶群的建立應(yīng)該是以領(lǐng)域為界限,在每個領(lǐng)域內(nèi)分別建立相似用戶群。例如,如果用戶a在音樂方面的興趣是抒情歌曲,而在體育方面興趣是足球;用戶b在音樂方面興趣是抒情歌曲,但在體育方面興趣是網(wǎng)球。這樣a與b雖然在音樂方面興趣相同,但在體育方面興趣差別較大,因此需要在每個領(lǐng)域內(nèi)分別建立相似用戶群。相似用戶群的建立任務(wù),可以利用用戶新

42、興趣發(fā)現(xiàn)和用戶興趣跟蹤的結(jié)果,將每個用戶的query劃分為query段落,之后通過第二個任務(wù),找到用戶間的興趣領(lǐng)域相同的query段落,最后,在每個興趣領(lǐng)域內(nèi)分別計算用戶之間的相似度,找到每個用戶的相似用戶,如圖2-4所示。此任務(wù)的入口數(shù)據(jù)是圖2-2與2-3中所示的用戶新興趣發(fā)現(xiàn)與興趣跟蹤的標(biāo)準(zhǔn)答案。系統(tǒng)需要在每個對應(yīng)的query段落下對標(biāo)注者找到相似用戶。同時,用戶之間的興趣不具有傳遞性。例如a感興趣的電影是“我是傳奇”與“黑客帝國”,b的興趣是“黑客帝國”與“阿甘正傳”,c興趣是“阿甘正傳”與“肖申克的救贖”,用戶a與b興趣相似,b與c興趣相似,但a與c興趣不同。所以本任務(wù)中,系統(tǒng)需要在每

43、個query段落中找到每個標(biāo)注者的相似用戶,而不是對用戶進行聚類。本任務(wù)的標(biāo)準(zhǔn)答案格式如圖2-5,分別標(biāo)出的是在每個query段落id下每個用戶的相似用戶。圖2-4 相似用戶群任務(wù)figure 2-4 task of users clustering 圖2-5 相似用戶群標(biāo)準(zhǔn)答案圖2-6 個性化檢索標(biāo)準(zhǔn)答案figure 2-5 answer of users clustering figure 2-6 answer of pir2.1.4 個性化檢索最后一個任務(wù)是綜合以上三個任務(wù)的結(jié)果,對用戶的query給出個性化的檢索結(jié)果。由于用戶的每個query段落的目標(biāo)都是相同的檢索對象,因此本任務(wù)的語

44、料也以query段落作為一個完整的單位。對用戶每個query的檢索結(jié)果,系統(tǒng)分別記錄其前20個結(jié)果以及用戶查看過的結(jié)果,這樣在一個query段落內(nèi)的所有query記錄的檢索結(jié)果就構(gòu)成了本段落的語料。系統(tǒng)需要在每個query中,對此段落內(nèi)的語料網(wǎng)頁進行重排序,返回符合用戶個性化的檢索結(jié)果,然后用系統(tǒng)的排序結(jié)果與用戶標(biāo)注的結(jié)果進行比較,從而評測系統(tǒng)性能。本任務(wù)的入口數(shù)據(jù)是圖2-2、2-3與2-5中前三個任務(wù)的正確答案,標(biāo)準(zhǔn)答案格式如圖2-6,包含的是query段落編號,包含的是用戶在此段落內(nèi)輸入的query,包含的是記錄的返回結(jié)果以及用戶的正確性標(biāo)注,1是相關(guān),0是不相關(guān)。2.2 語料標(biāo)注的輔助系

45、統(tǒng)為了收集用戶檢索時的各種行為信息,為相似用戶群建立提供語料,我們開發(fā)了個性化檢索語料標(biāo)注輔助系統(tǒng)。本系統(tǒng)是在基于天網(wǎng)100g語料的普通檢索系統(tǒng)上增加了記錄用戶隱式行為信息的模塊,是標(biāo)注者模擬用戶的普通檢索行為,同時記錄下用戶在檢索過程過的各種隱式信息,供研究使用。最后,讓標(biāo)注者對曾瀏覽過的網(wǎng)頁進行正確性標(biāo)注,為各個子任務(wù)提供標(biāo)準(zhǔn)答案。2.2.1 系統(tǒng)介紹圖2-7是用戶登陸界面,新用戶需要注冊一個新用戶,如圖2-8。在注冊時,用戶需要顯式提交自己的個人信息,包括性別、年齡、收入、職業(yè)和關(guān)注的領(lǐng)域等。注冊完后,用戶就可以登陸系統(tǒng)進行信息檢索。 圖2-7 用戶登陸界面圖2-8 用戶注冊界面figu

46、re 2-7 interface of user login figure 2-8 interface of user registration 圖2-9 檢索界面figure 2-9 interface of retrieve登陸后,標(biāo)注者將進入檢索界面,如圖2-9。檢索中,以檢索問題為檢索和標(biāo)注的基本單位,標(biāo)注者需要針對系統(tǒng)已經(jīng)設(shè)定的問題檢索其答案。圖2-9的上方顯示的是標(biāo)注者當(dāng)前需要檢索的問題,標(biāo)注者針對一個問題可以進行多次檢索,直到檢索到問題答案信息為止。當(dāng)用戶輸入query后,系統(tǒng)將返回普通的檢索結(jié)果。用戶可以對結(jié)果進行查看、瀏覽等操作。用戶對結(jié)果網(wǎng)頁瀏覽時可以點擊右側(cè)的藍色條框,可

47、以將結(jié)果網(wǎng)頁翻開或關(guān)閉,如圖2-11。此時,系統(tǒng)則會記錄用戶點擊的結(jié)果網(wǎng)頁、瀏覽時間以及用戶的翻頁信息。如果用戶在結(jié)果中找到與檢索問題相關(guān)的答案,則可以將答案信息填入下方的文本框中,并點擊“保存答案”保存檢索的答案信息。當(dāng)用戶針對此問題找到所有答案后,可以點擊圖2-10中的“提交object”提交此問題。此時系統(tǒng)自動進入此檢索問題的標(biāo)注圖2-10 檢索結(jié)果頁面figure 2-10 interface of retrieve results圖2-11 瀏覽網(wǎng)頁界面figure 2-11 interface of browsing pages界面,如圖2-12。系統(tǒng)記錄用戶在此檢索問題中輸入的q

48、uery,以及每個query的前20個檢索結(jié)果和用戶查看過的結(jié)果,將這些網(wǎng)頁返回,標(biāo)注者根據(jù)每個網(wǎng)頁是否與檢索問題的答案相關(guān)進行正確性標(biāo)注。當(dāng)標(biāo)注者對每個網(wǎng)頁的正確性標(biāo)注后,就可以點擊提交進入下一個檢索問題,如圖2-13。圖2-12 答案標(biāo)注界面figure 2-12 interface of answer labeling圖2-13 一個檢索問題結(jié)束界面figure 2-13 interface of the end of a retrieving question2.2.2 正確答案記錄在上述用戶檢索和標(biāo)注過程中,系統(tǒng)對每個用戶形成其個人的語料,同時可以記錄個性化檢索中四個子任務(wù)的標(biāo)準(zhǔn)答案

49、。用戶新興趣發(fā)現(xiàn)任務(wù):用戶針對每個檢索問題會進行多次檢索,當(dāng)用戶找到檢索答案后,在圖2-10中點擊“提交object”時,系統(tǒng)會自動記錄用戶在此問題中輸入的所有query,作為一個query段落,形成圖2-2中所示的答案。用戶興趣跟蹤任務(wù):在制定檢索問題時,已經(jīng)記錄在每個問題中需要挖掘用戶哪方面的興趣,根據(jù)這些興趣,我們找到挖掘用戶相同領(lǐng)域興趣的檢索問題,將其所代表的query段落關(guān)聯(lián),形成圖2-3中所示的答案。相似用戶群:在圖2-10中,用戶對每個檢索問題都提交了答案,我們根據(jù)每個用戶在每個檢索問題中的答案,找到在每個檢索問題中的相似用戶,作為標(biāo)準(zhǔn)的相似用戶,形成如圖2-4所示的答案。個性化

50、檢索:用戶在圖2-12中對每個檢索結(jié)果都進行了個性化的標(biāo)注,以這些標(biāo)注結(jié)果作為個性化檢索的標(biāo)準(zhǔn)答案。2.2.3 語料規(guī)模利用前面介紹的標(biāo)注輔助系統(tǒng),我們收集了9名同學(xué)的標(biāo)注結(jié)果。其中每個人對100個檢索問題進行檢索和標(biāo)注,平均每個人進行了230次檢索,每個query段落的相關(guān)段落平均個數(shù)為4.5個,每個用戶平均對5086個網(wǎng)頁進行了正確性標(biāo)注。2.3 相似用戶群的評測相似用戶群的評價指標(biāo)將借鑒話題跟蹤與檢測(topic detection and tracking, 簡稱tdt)中的評價指標(biāo),對系統(tǒng)性能進行評測。2.3.1 評測機制本任務(wù)借鑒tdt2003的評測方法32,通過錯檢率和漏檢率對系

51、統(tǒng)性能進行評測。其計算公式如下: (2-1)其中a、b、c、d如表2-1所示,a為系統(tǒng)認為相關(guān)的用戶且答案也是相關(guān)的個數(shù)。pfa、pmiss是系統(tǒng)錯檢率和漏檢率,值越小則系統(tǒng)性能越好。表2-1 評測的參數(shù)table 2-1 parameters in evaluation系統(tǒng)判定相關(guān)系統(tǒng)判定不相關(guān)答案相關(guān)ab答案不相關(guān)cd之后,通過錯檢率和漏檢率計算總的評價指標(biāo)(cdet)norm,公式如下: (2-2)其中,cmiss是系統(tǒng)進行一次漏檢的代價、cfa是系統(tǒng)進行一次錯檢的代價,由于實際中,找到錯誤的相似用戶和漏掉正確相似用戶對后續(xù)模塊的影響差不多,因此將cmiss和cfa都設(shè)為1;ptarge

52、t是每個用戶為相似用戶的概率,pnon-targe是無關(guān)用戶的概率,針對語料中的答案,將ptarget和pnon-target分別設(shè)為0.394與0.606。(cdet)norm是系統(tǒng)性能損耗代價,此值越小則系統(tǒng)性能越好。為了使系統(tǒng)性能得到更直觀的體現(xiàn),我們引入tdt的中的決策錯誤權(quán)衡曲線(decision error tradeoff curve,簡稱det曲線)評測系統(tǒng)性能,如圖2-14所示。橫坐標(biāo)是錯檢率,縱坐標(biāo)是漏檢率,曲線越靠近圖的左下角則性能越好,在圖中還標(biāo)出了最小性能損耗代價,此值越小則系統(tǒng)綜合性能越好。圖2-14 det曲線樣例figure 2-14 sample of det

53、 curve2.3.2 評測方法通過2.2節(jié)介紹的標(biāo)注輔助系統(tǒng),可以對每個用戶形成其個人的語料,系統(tǒng)在語料上運行,找出在每個對應(yīng)的query段落中的每個用戶的相似用戶有哪些,然后與圖2-4的答案進行對比,先計算每個query段落中每個用戶的錯檢率和漏檢率,然后平均得到每個query段落的錯檢率和漏檢率,之后再對query段落進行平均,計算得到系統(tǒng)總的錯檢率、漏檢率和(cdet)norm值,畫出det曲線,對系統(tǒng)的性能進行總體評價。2.4 本章小結(jié)本章對個性化檢索的任務(wù)劃分和各子任務(wù)的研究目的、入口數(shù)據(jù)以及標(biāo)準(zhǔn)答案進行了介紹。然后,通過對語料標(biāo)注系統(tǒng)的介紹詳細,說明了如何收集語料和標(biāo)準(zhǔn)答案的過程

54、。最后,對相似用戶群子任務(wù)的標(biāo)準(zhǔn)答案和評測方法進行了介紹。主要借鑒話題檢測與跟蹤中的評測方法和指標(biāo),通過錯檢率、漏檢率、系統(tǒng)性能損耗代價以及det曲線評測系統(tǒng)的性能。第3章 用戶興趣發(fā)現(xiàn)與跟蹤根據(jù)第二章的介紹,相似用戶群建立被劃分為個性化檢索的第三個獨立子任務(wù),使得可以開展相似用戶群的獨立研究。但同時,相似用戶群的研究也必須基于前兩個子任務(wù)的研究成果,即用戶新興趣發(fā)現(xiàn)和興趣跟蹤子任務(wù)。因此,在本章中,將先對用戶的新興趣發(fā)現(xiàn)和興趣跟蹤兩個子任務(wù)進行初步的研究,利用較簡單的方法實現(xiàn)baseline系統(tǒng),為后續(xù)的相似用戶群研究奠定一定的基礎(chǔ)。3.1 用戶新興趣發(fā)現(xiàn)用戶在實際搜索過程中,會有比較明確的

55、檢索對象,而當(dāng)用戶的初始query無法搜索到所需信息時,他就會變換query搜索同一個檢索對象,因此,用戶的搜索過程實際是一個不斷學(xué)習(xí)不斷優(yōu)化query以找到檢索對象的過程。而如果可以判斷用戶哪些query是開始一個新的檢索對象,即找到用戶哪些query是關(guān)于同一檢索對象,這樣就可以從與當(dāng)前query檢索對象相同的query中挖掘哪些信息是用戶需要的,哪些是無關(guān)信息,提高個性化檢索效果。后續(xù)相似用戶群建立也可以基于檢索對象,對不同領(lǐng)域內(nèi)的檢索對象分別建立不同的相似用戶群。用戶新興趣發(fā)現(xiàn)的任務(wù)是,通過對用戶query及對應(yīng)的行為進行分析,發(fā)現(xiàn)用戶開始新興趣檢索的query,將用戶輸入的query

56、按照檢索對象劃分為不同的段落。3.1.1 基于向量空間模型的新興趣發(fā)現(xiàn)方法文獻33中提出了一個較基本的用戶新興趣發(fā)現(xiàn)的方法。其基本思想是檢索結(jié)果建立query的模型,然后用vsm方法計算相鄰query模型的相似度,如果相似度小于閾值則發(fā)現(xiàn)一個新興趣的query。每個query模型的構(gòu)建主要采用query內(nèi)容以及系統(tǒng)對query返回的前50個檢索結(jié)果的snippet構(gòu)建。構(gòu)建公式如下: (3-1)其中是query模型,采用向量空間模型存放。是query權(quán)重系數(shù),決定query內(nèi)容以及snippet在query模型中的比重。是當(dāng)前query的內(nèi)容,利用向量空間模型表示。k是采用的snippet的個

57、數(shù),論文中將其設(shè)置為50。是第i個snippet的內(nèi)容,也用向量空間表示。采用上述公式構(gòu)建完每個query模型后,系統(tǒng)就對每兩個相鄰兩query模型計算其相似度,相似度采用公式(1-2)的余弦相似度計算。如果兩query模型x1和x2相似度小于預(yù)先設(shè)置的閾值,則認為x2對應(yīng)的query為用戶的新興趣。依次進行,當(dāng)對所有相鄰query都處理完后,就找到了用戶的所有新興趣query,同時也將query按照檢索對象是否相同劃分成了的query段落。圖3-1 baseline方法過程figure 3-1 process of baseline system此方法的實現(xiàn)過程如圖3-1所示。其中橫坐標(biāo)是按照用戶檢索順序編號的query,縱坐標(biāo)是query間相似度,圖中的點是相鄰query模型的相似度。小于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論