fab推薦系統(tǒng)翻譯_第1頁
fab推薦系統(tǒng)翻譯_第2頁
fab推薦系統(tǒng)翻譯_第3頁
fab推薦系統(tǒng)翻譯_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Fab推薦系統(tǒng)從一些固有的數(shù)據(jù)中推薦項目已有廣泛的研究,并且已有兩種主要的方法被實現(xiàn)。一個 在基于內(nèi)容推薦中試著去推薦一些相似的項目給一些在以前曾喜歡這種類型的用戶,一個在 協(xié)同過濾推薦中確定用戶的興趣會嘗試去推薦跟他找相似的用戶喜歡的項目。在Fab中我們 的方法是融合這兩種方法。在這里,我們解釋下一個混合系統(tǒng)怎樣才能吸取兩者的優(yōu)點同時 彌補他們的缺點。另外在任何的混合系統(tǒng)中都固有一種基本優(yōu)勢,具有獨特設(shè)計的Fab架構(gòu)具有兩種額外 的特點。第一,兩個比例問題在所有的Web服務(wù)中都存在一一越來越多的用戶和越來越多 的文檔。第二系統(tǒng)自動識別用戶群體的公共興趣,使能夠加強群體意識和交流。這里我們描述

2、基于內(nèi)容和協(xié)同過濾推薦這兩種方法,解釋了一個混合系統(tǒng)怎樣能被創(chuàng)建, 同時也描述了 Fab。更多關(guān)于實施的架構(gòu)和實驗設(shè)計請閱讀文獻1.基于內(nèi)容的方法推薦在信息檢索領(lǐng)域有他的來源,并產(chǎn)生許多使用同樣技術(shù)的領(lǐng)域。文檔 被推薦是基于他們的內(nèi)容和用戶模型之間的比對。他們之間的數(shù)據(jù)結(jié)構(gòu)被用從文檔中提取的 特征詞創(chuàng)建。通常一些權(quán)重組合是用那些有高權(quán)重的有概括的詞來組合。例如,F(xiàn)ab的5個 高權(quán)重詞是從信息檢索系統(tǒng)和出版頁中提取。當(dāng)一個頁面被一個用戶選中,可以顯示他們并 反饋一些不同的信息。如果這個用戶喜歡這個頁面,從這個頁面提取的詞的權(quán)重將會被添加 到用戶模型中的相關(guān)的詞中。這個過程就是關(guān)聯(lián)反饋。不但做起來

3、簡單迅速,而且他可以提 高正常信息檢索中的結(jié)果準(zhǔn)確度。許多供選擇的方法存在權(quán)重此或者其他特征從內(nèi)容中提取 并更新到用戶模型中。我們選擇的這個方法沒有影響我們的分析。協(xié)同推薦協(xié)同方法推薦與其他是不同的:不是推薦項目,因為他們是推薦在過去有相似愛好的用 戶的項目推薦給另一個用戶。我們不是計算項目的相似性,而是計算用戶的相似性。典型地, 為每一個用戶設(shè)置一個最近鄰居用戶去尋找其中曾經(jīng)跟他有最近關(guān)系的用戶。對沒有看見的 項目預(yù)測是基于一個從最近鄰居得到的組合得分。至于基于內(nèi)容實例,它將對定義一個純理論的系統(tǒng)推薦系統(tǒng)有用。事實上一個純理論 協(xié)同推薦系統(tǒng)是一個根本不分析項目,只知道關(guān)于項目的一個唯一標(biāo)識。

4、給一個用戶推薦是 基于跟其他用戶相似來做的。列出的系統(tǒng)中使用這個方法包括GropLens,the Bellcore video recommender 和 Ringo。單一個協(xié)同推薦解決單一基于內(nèi)容系統(tǒng)所有已知的缺點,通過用其他用戶的推薦,我 們能處理各種各樣的內(nèi)容和在過去他們看過的接收的不相似內(nèi)容。從其他用戶的反饋改變推 薦,這很有可能是保持有效推薦性能給一些缺少評分的個別用戶推薦的好辦法。不管怎樣,這種方法解決了某些他們自己已有的問題。如果一個新項目出現(xiàn)在數(shù)據(jù)庫 中,那是直到有更多關(guān)于他的信息從其他用戶評分或列舉出跟它相似的項目中獲取更多關(guān)于 它的信息才能推薦給用戶。因此,如果一些用戶有很

5、少相關(guān)的信息量在系統(tǒng)中(因為這是一 個非常龐大或經(jīng)常改變的數(shù)據(jù)庫),此時就有問題評分的覆蓋很稀疏,推薦項目集也很稀疏。 第二個問題是一個用戶品味與其它人相比不一樣,那將不能找到許多特別相似的其他用戶, 導(dǎo)致推薦不準(zhǔn)確。前面提出的兩個問題決定了群體大小和用戶復(fù)雜度,同時也影響一個用戶最近鄰居簇。 未來在一個情況下反饋失敗引起這個最近鄰居簇改變,表達不喜歡的項目將沒有必要阻止來 自接收相似項目的用戶。此外,缺乏訪問的項目內(nèi)容阻止相似用戶做匹配除非他們認為相同 項目除外。因此,如果一個用戶喜歡CNN天氣網(wǎng)頁和其他人喜歡MSNBC天氣網(wǎng)頁,這兩 個必然不會成為最近鄰居。創(chuàng)建一個混合基于內(nèi)容協(xié)同系統(tǒng),我

6、們維護用戶模型基于內(nèi)容分析,并直接比較這些 模型去決定相似用戶適用于系統(tǒng)推薦。用戶即在他們評分比較依靠他們自己的模型,又在當(dāng) 他們認為一個用戶模型有很高的相似度時才能接收推薦項目?;旌戏椒ㄏ嘶趦?nèi)容和系 統(tǒng)系統(tǒng)提到的限制,也添加了重要的好處。有人認為結(jié)合兩者單一方法我們已在在我們這個新的組合中討論過特有的案例。如果 內(nèi)容分析組件返回一個唯一標(biāo)識而不是提取任何特征,此時會成為單一的系統(tǒng)推薦;如果那 只是單一的一個的用戶,他成為基于內(nèi)容推薦。Fab系統(tǒng)Fab是一個分布式實施的混合系統(tǒng),也是斯坦福大學(xué)數(shù)字圖書館項目的一部分。為了能理 解Fab的用途我們做如下說明。推薦的過程能分割成兩段:從易管理

7、的數(shù)據(jù)庫或索引創(chuàng)建項 目集,其后從這個數(shù)據(jù)中為特有的用戶挑選項目。在一些實例中采集階段是瑣碎的或者第三 方做,但是在Web實例中他是一個真實的問題要被系統(tǒng)設(shè)計者面對。圖1顯示我們基礎(chǔ)模 型。收集階段收集有關(guān)一定數(shù)目主題的頁面,計算生成簇的興趣留下改變用戶群體的痕跡。 這些頁面通過選擇階段傳送給大數(shù)目的用戶。一個主題能對許多用戶產(chǎn)生興趣,同時一個用 戶能對多個主題產(chǎn)生興趣。圖2的結(jié)構(gòu)反應(yīng)了這個模型的關(guān)系。他有3個主要的部分:收集代理(尋找某個專題的頁 面),選擇代理(為專一用戶搜索頁面)和控制中心。每一個階段部門有一個屬性,基于包 含在頁面中詞組被評估。一個收集階段的屬性文件代表他當(dāng)前主題,然而

8、一個選擇階段的屬 性文件代表單一用戶的興趣。頁面在收集階段找到發(fā)送給分配中心,這之后就看他們的屬性文件臨界值與用戶匹配并顯 示給用戶。因此,每一個用戶接收的頁面匹配他們的屬性文件在收集階段,添加功能在用戶 個性化選擇階段:頁面被用戶已瀏覽過丟棄,在任何單一批量推薦(通常為10頁),我們確保多 個頁面從任意站點獲得。用戶的反饋代表一個及時的給力的重大收獲。在存儲他到他們自己 私有的選擇階段的屬性文件,我們確保它從來不被其他用戶的反饋影響。事實上,他是很容 易使用在其他應(yīng)用程序中。當(dāng)用戶請求,接收,然后看完他們的推薦內(nèi)容,他們需要去分配適當(dāng)?shù)姆謹?shù)從7個百分點 中作出選擇。圖3中就是設(shè)置推薦圖解Fa

9、b接口。用戶的評分用于更新他們個人選擇階段的 屬性文件,也同時反饋給收集階段,他們用他們?nèi)ミm應(yīng)改變他們的屬性。此外,任何高評分 的頁面直接推薦個這個用戶的最近鄰居-其他用戶有相似的屬性文件。一些協(xié)同推薦是處理 在接受用戶選擇階段用同樣方法給出頁面從分配中心。創(chuàng)建精確的屬性文件是一個關(guān)鍵任務(wù)一一系統(tǒng)的成功將決定于一個大的范圍在學(xué)習(xí)屬性 文件中表達用戶的準(zhǔn)確興趣。精確屬性配置使能夠在基于內(nèi)容組件(確保推薦作出適應(yīng))和 協(xié)同組件(確保用戶有相似的配置甚至完全相似)做出準(zhǔn)確推薦。收集階段的配置文件代表一個興趣主題動態(tài)地改變用戶群體,和對一個用戶配置一樣,他 們代表多樣興趣很可能被多個收集代理收集。收集

10、代理的群體作為一個整個適應(yīng)用戶的群 體,不針對任何特殊用戶。補充這個過程,不受歡迎的收集代理(他們的頁面不被許多用戶 看到)或者不成功的(他將受到很低的反饋分數(shù))定期會被淘汰同時把最好的填充到他們的 空間。因此,收集階段的專門化不需要提前確定,但是隨著時間過去他們將被動態(tài)的改變。 實際上,我們的系統(tǒng)吸收了兩種不同又聯(lián)立的平衡方法,表現(xiàn)在兩種動態(tài)改變連接設(shè)置:文 檔和收集代理之間,收集代理與用戶之間。我們其中一個目的是研究這個混合適應(yīng)能力的性 能。我們應(yīng)用多種不同收集代理。搜索代理執(zhí)行一個最優(yōu)的網(wǎng)絡(luò)搜索,他們假設(shè)一個頁面有 一個鏈接是相似頁面,然后跟著這個鏈接從一個頁面到一個頁面,他們發(fā)現(xiàn)與一個

11、專一主題 相關(guān)信息。索引代理構(gòu)造查詢通過各種商業(yè)Web搜索引擎執(zhí)行詳盡的索引。與這些目的相 比,我們也有包括代理提供的隨機摘要頁面,代理收集各種摘要信息,同時代理嘗試給用戶 服務(wù)(所有用戶配置的評價值在我們系統(tǒng)中),而不是維護他們自己特有的屬性文件。系統(tǒng)展示了混合系統(tǒng)帶來的優(yōu)勢在選擇過程中:使用協(xié)同推薦,我們能用其他經(jīng)驗作為基礎(chǔ)而不是用不完全的不準(zhǔn)確的內(nèi)容分析方法在我 們的方法中。使用基于內(nèi)容推薦同樣也是,我們能處理項目中不被其他用戶看到的。我們能用我們從項目內(nèi)容建立的屬性文件去給用戶作出好的推薦,即食如果沒有其他用戶 跟他們相似,我們也能找到相似的項目。我們能用系統(tǒng)推薦在用戶還沒有給任何相同

12、的項目評分(他們在很長的時間內(nèi)已經(jīng)評論相 似項目),擴展協(xié)同系統(tǒng)的范圍包含數(shù)據(jù)看能快速變化或關(guān)聯(lián)更多的用戶。利用反饋信息我們能分析出用戶在相同級別下的潛在興趣。此外,收集代理適應(yīng)使一些純系統(tǒng)或單一基于內(nèi)容方法不可能孤立:我們能列舉一個小 數(shù)目的收集代理比他們用戶好,或許甚至一個準(zhǔn)確數(shù)目。這應(yīng)該允許系統(tǒng)平衡用戶和文檔的 增量。準(zhǔn)確數(shù)目的收集代理需求是決定于一些因素,包含準(zhǔn)確的用戶的興趣重復(fù)部門和計算 資源和推薦需求質(zhì)量間的平衡。收集代理自動標(biāo)識群體的熱門星期,允許我們提供社會干預(yù)在中性人和自動聚合和個人 推薦一樣好。實際上,有相似意向的用戶聯(lián)合他們的資源,作為每一個收集代理將會從所有 用戶感興趣

13、的主題中獲得反饋。這些特征依靠收集代理去專業(yè)化并學(xué)習(xí)用戶屬性的能力,這 些的確代表用戶的興趣相似區(qū)域。實驗我們已經(jīng)對Fab系統(tǒng)的幾個方面做了測試。這里我們出現(xiàn)三種結(jié)果集一一兩種統(tǒng)計辦法和 一種(anecdotal)從一個有小數(shù)目用戶的可控制實驗。我們所有的集合已在現(xiàn)實中設(shè)置, 推薦當(dāng)前的頁面給真實的用戶。由于基于網(wǎng)頁內(nèi)容獲取準(zhǔn)確的屬性文件是一個我們設(shè)計的基礎(chǔ),我們開始用我們第一個實 驗預(yù)測學(xué)習(xí)屬性的能力:他們這樣才能更好的預(yù)測用戶的項目集的等級?如果他們不能預(yù)測 準(zhǔn)確,他們可能仍然可用來為協(xié)同推薦提供一個點,但是他們將不可能提供好的基于內(nèi)容推 薦。我們詢問了 11個用戶去提前預(yù)測一個單一主題的

14、興趣(允許簡單的分析結(jié)果屬性)。只有 9個是有充分的結(jié)果可以解釋。他們的主題是:電腦繪圖,游戲設(shè)計,圖書目錄和分類,后 工業(yè)音樂,體育信息和游戲,美國文化,烹調(diào)術(shù),19世紀(jì)60年代音樂,徒步旅行和進化論。 在每第五個評估(每五天做一次評估),用戶看了一個專門的項目并給予他們的評分只是為 評估目的做的,將不會影響他們的屬性文件。這個專門的選擇集構(gòu)成對這個實驗不是至關(guān)重 要的,但是使用一個有意義的角色在最終的實驗中被描述,同時將在這個章節(jié)解釋。我們用每一個用戶的評分等級去排序他們看過的文檔,創(chuàng)建一個評分等級傾向(可能包括 tites)。對每一個點我們及時判斷用戶的評級和從他們的屬性文件預(yù)計的評級之

15、間的差距, 用ndpm估量作為由Yao定義。實驗大約持續(xù)了一個月。圖4顯示配置文件是怎么樣的,給 出更多的例子,隨著時間的過去產(chǎn)生較好的用戶評級預(yù)測。個別項目,ndpm值接近于0.02 到達估值25,這相當(dāng)于一個不同的16個項目預(yù)測并對單一的項目在不同的兩個地方都有真 實的評分。假設(shè)我們的系統(tǒng)的優(yōu)勢是利用公共的用戶興趣,用收集代理鉆們對主題和服務(wù)復(fù)雜用固 話較適合。當(dāng)我們在這個問題上還沒有結(jié)果時,我們做了記錄證明該系統(tǒng)在這種方式下世可 行的。在純自動特殊化,一個代理做一個“烹飪報告:”前400項的77%在他們的屬性中明 顯有烹飪關(guān)聯(lián)。它主要服務(wù)于在烹飪的用戶興趣,他們能從這一個代理收到50%到

16、90%的 他的或她的文檔。兩個用戶共同的興趣在音樂反應(yīng)在實際中那是3個代理用一個接近相等數(shù) 目有明顯關(guān)聯(lián)項目在他們的屬性中,且這兩個用戶收到他們的音樂關(guān)聯(lián)頁面從這三個代理混 合中獲得。盡管有小數(shù)目的明顯不同的主題,該系統(tǒng)仍然設(shè)法找出一些有關(guān)聯(lián)的地方,一個代理專 門對一個主題的興趣頁面給一些用戶。這個最好的例子就是一個代理服務(wù)頁面關(guān)于India (結(jié) 果來自一個混淆的美國文化主題)。這個代理把這些頁面判斷為India推給對進化論感興趣的 用戶并把Indian食譜推薦對對烹飪感興趣的用戶。同樣地,對網(wǎng)絡(luò)發(fā)展和電腦制圖感興趣 的用戶收到關(guān)于計算文本有關(guān)這兩個的主題。這些例子表明該代理久而久之能專門解

17、決特殊主題,并能自動的聚集用戶間的共同愛好 內(nèi)容。我們的目的是利用這個特征去發(fā)現(xiàn)更多的用戶,我們能成功的從固定的代理聯(lián)合服務(wù) 于這些用戶。整體性能最終的結(jié)果又一次從本質(zhì)上統(tǒng)計,并把Fab系統(tǒng)的性能作為一個整體看。在這個實驗中專門的評價頁面集顯示出用戶從不同的來源組合頁面:定期的個性化Fab 推薦,隨機的選擇頁面,頁面從人們已選過的站點,同時在系統(tǒng)中頁面經(jīng)過最優(yōu)匹配所有用 戶屬性的平均值。當(dāng)那有多種方式從4個來源得到用戶評價頁面的結(jié)果能被展現(xiàn)出來,我們選擇用ndpm再 次估量。為了做這個我們需要對每一個資源定義一個理想的評分級別。一批資源S的文檔 的一個理想的評分級別是一個用戶喜歡每一個頁面從S

18、到每一個不是S。既然這個概念是有 意地這樣一一他不沒有原因:用戶評級這個頁面從S關(guān)聯(lián)到另一個,沒有頁面來自$。這個 強大的傾向用戶明確S的頁面沒有其他頁面提供,小的ndpm又顯示了用戶的真實評級和 對S的理想評級的差距。圖5劃分了這個用戶真實評級和對每一個資源的理想評級。他表明個人頁面由Fab提 供的頁面明顯勝過其他資源,在該實驗中改善推薦資源。公共頁面表示一個系統(tǒng)模擬但是不 是對個別用戶的個性化。雖然沒有和整體Fab系統(tǒng)一樣好,但是公共頁面仍然等級幣隨機 和冷門頁面高,這結(jié)束同樣困難。未來工作Web是一個巨大的信息空間,也是一個有效的服務(wù)提供個性化推薦毫無疑問的價值。這 兩個基于內(nèi)容和協(xié)同系統(tǒng)能提供這樣一個服務(wù),但是他們單獨的都有缺點Fab是一個實 現(xiàn)混合基于內(nèi)容和協(xié)同過濾網(wǎng)頁推薦系統(tǒng),他消除了許多單獨應(yīng)用的障礙。他不但提現(xiàn)了一個混合計劃的價值,而且Fab風(fēng)格還添加了好處,他使用更對的用戶 興趣間共同興趣協(xié)同選擇。設(shè)計的適應(yīng)選擇代理運用一些

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論