基于用戶的協(xié)同過(guò)濾算法_第1頁(yè)
基于用戶的協(xié)同過(guò)濾算法_第2頁(yè)
基于用戶的協(xié)同過(guò)濾算法_第3頁(yè)
基于用戶的協(xié)同過(guò)濾算法_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上基于用戶的協(xié)同過(guò)濾算法作者:羅沐陽(yáng)(28)指導(dǎo)教師:張勇【摘要】:隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用和普及、電子商務(wù)的迅猛發(fā)展,越來(lái)越多的信息充斥在網(wǎng)絡(luò)之上。如何在眾多的資源中找到適合自己需求的信息,成為眾多學(xué)者、專家和網(wǎng)絡(luò)用戶火心的核心問(wèn)題之一。個(gè)性化推薦技術(shù)在這樣的背景下應(yīng)運(yùn)而生。協(xié)同過(guò)濾技術(shù)是個(gè)性化推薦技術(shù)最為核心的技術(shù)之一,也是目前應(yīng)用最為廣泛和成功的技術(shù)。本文主要研究的是基于用戶的協(xié)同過(guò)濾推薦算法的實(shí)現(xiàn)?!娟P(guān)鍵詞】:協(xié)同過(guò)濾,相似度,個(gè)性化推薦1.電子商務(wù)個(gè)性化推薦技術(shù)1.1個(gè)性化推薦技術(shù)電子商務(wù)對(duì)傳統(tǒng)的商務(wù)交易產(chǎn)生了革命性的變化,從而要求“以產(chǎn)品為中心”向“面向客戶”、“

2、以客戶為中心”的新的商業(yè)模式的轉(zhuǎn)變,要求電子商務(wù)網(wǎng)站按客戶群劃分產(chǎn)品,圍繞客戶進(jìn)行服務(wù),為客戶提供所需要的東西,所以對(duì)每個(gè)顧客提供個(gè)性化的服務(wù)成為必要。在這種背景下,推薦系統(tǒng)(Recommender System)應(yīng)運(yùn)而生,它是根據(jù)用戶個(gè)人的喜好、習(xí)慣來(lái)向其推薦信息、商品的程序。電子商務(wù)網(wǎng)站可以使用推薦系統(tǒng)分析客戶的消費(fèi)偏好,向每個(gè)客戶具有針對(duì)性地推薦產(chǎn)品,幫助用戶從龐大的商品目錄中挑選真正適合自己需要的商品,盡可能為每個(gè)顧客提供個(gè)性化的服務(wù)。個(gè)性化推薦(personalized recommendation)技術(shù)通過(guò)研究不同用戶的興趣,主動(dòng)為用戶推薦最需要的資源,從而更好

3、地解決互聯(lián)網(wǎng)信息日益龐大與用戶需求之間的矛盾。目前,推薦技術(shù)被廣泛應(yīng)用到電子商務(wù)、數(shù)字圖書館、新聞網(wǎng)站等系統(tǒng)中。因此,各種適用于推薦系統(tǒng)的技術(shù)應(yīng)運(yùn)而生,如協(xié)同過(guò)濾技(CF)、bayesian網(wǎng)技術(shù)、聚類分析技術(shù)、關(guān)聯(lián)規(guī)則技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)和圖模型技術(shù)等,其中,協(xié)同過(guò)濾是應(yīng)用最為廣泛的個(gè)性化推薦技術(shù)。協(xié)同過(guò)濾推薦又分為基于模型(Model-based)的協(xié)同過(guò)濾和基于用戶的協(xié)同過(guò)濾。后來(lái),sarwr教授在2001年提出基于項(xiàng)目的協(xié)同過(guò)濾算法1.2協(xié)同過(guò)濾協(xié)同過(guò)濾推薦技術(shù)是用“相似統(tǒng)計(jì)”的方法發(fā)現(xiàn)具有相似偏好或是興趣特征的“相鄰用戶”?!皡f(xié)同過(guò)濾”的思想最早由美國(guó)明尼蘇達(dá)州大學(xué)的學(xué)者Paul Re

4、snick在1994年,發(fā)表的GroupLens: AnOpen Architecture for Collaborative Filtering of Netnews 一文中提出的。迄今為止, 協(xié)同過(guò)濾是在個(gè)性化推薦系統(tǒng)中應(yīng)用最廣泛和最被人們所認(rèn)可的一種推薦技術(shù)。協(xié)同過(guò)濾的基本原理是:根據(jù)用戶對(duì)信息產(chǎn)品的評(píng)分情況,對(duì)其他用戶進(jìn)行檢索, 找出與該用戶“品味”相似的一小群人, 也就是“鄰居”,然后再基于這些相似性進(jìn)行信息產(chǎn)品評(píng)分預(yù)測(cè),產(chǎn)生Top-N的推薦結(jié)果。協(xié)同過(guò)濾具有以下幾個(gè)主要優(yōu)點(diǎn):第一,可以處理非結(jié)構(gòu)化的信息產(chǎn)品,對(duì)非結(jié)構(gòu)化如電影、音視頻等復(fù)雜對(duì)象進(jìn)行推薦;第二,奇異興趣發(fā)現(xiàn)。協(xié)同過(guò)濾推

5、薦技術(shù)可以根據(jù)如信息產(chǎn)品的質(zhì)量, 用戶的品味等一些復(fù)雜的、不易表達(dá)的概念進(jìn)行信息過(guò)濾, 并發(fā)現(xiàn)用戶的潛在興趣; 第三, 推薦的個(gè)性化、自動(dòng)化程度較高。本文主要研究的是基于用戶的協(xié)同過(guò)濾推薦算法的實(shí)現(xiàn)。2.基于用戶的協(xié)同過(guò)濾推薦算法 2.1算法簡(jiǎn)介 基于用戶的協(xié)同過(guò)濾是個(gè)性化推薦中應(yīng)用最為廣泛的方法,它是基于鄰居用戶的興趣愛好預(yù)測(cè)目標(biāo)用戶的興趣偏好。算法先使用統(tǒng)計(jì)技術(shù)尋找與目標(biāo)用戶有相同喜好的鄰居,然后根據(jù)目標(biāo)用戶的鄰居的偏好產(chǎn)生向目標(biāo)用戶的推薦。 它的基本原理是利用用戶訪問(wèn)行為的相似性來(lái)互相推薦用戶可能感興趣的資源對(duì)當(dāng)前用戶,系統(tǒng)通過(guò)其歷史訪問(wèn)記錄及特定相似度函數(shù),計(jì)算出與其訪問(wèn)行為

6、(購(gòu)買的產(chǎn)品集合、訪問(wèn)的網(wǎng)頁(yè)集等)最相近的N個(gè)用戶作為用戶的最近鄰居集,統(tǒng)計(jì)的近鄰用戶訪問(wèn)過(guò)而目標(biāo)用未訪問(wèn)的資源生成候選推薦集,然后計(jì)算候選推薦集中每個(gè)資源對(duì)用戶的推薦度,取其中K個(gè)排在最前面的資源作為用戶的推薦集。2.2算法步驟2.2.1發(fā)現(xiàn)興趣相似的用戶 通常用Jaccard公式或者余弦相似度計(jì)算兩個(gè)用戶之間的相似度。設(shè)N(u)為用戶 u 喜歡的物品集合。N(v)為用戶v喜歡的物品集合,那么u和v的相似度是多少呢:      Jaccard 公式:      余弦相似度: 

7、0;假設(shè)目前共有4個(gè)用戶:A、B、C、D;共有5個(gè)物品:a、b、c、d、e。用戶與物品的關(guān)系(用戶喜歡物品)如下所示:AabdBacCbeDcde  如何一下子計(jì)算所有用戶之間的相似度呢?為計(jì)算方便,通常首先需要建立“物品用戶”的倒排表,如下所示:abcdeAABACBCDDD  然后對(duì)于每個(gè)物品,喜歡他的用戶,兩兩之間相同物品加1。例如喜歡物品a的用戶有A和B,那么在矩陣中他們兩兩加1。如下所示:  計(jì)算用戶兩兩之間的相似度,上面的矩陣僅僅代表的是公式的分子部分。以余弦相似度為例,對(duì)上進(jìn)行進(jìn)一步計(jì)算:  到此,計(jì)

8、算用戶相似度就大功告成,可以很直觀的找到與目標(biāo)用戶興趣較相似的用戶。2.2.2推薦物品首先需要從矩陣中找出與目標(biāo)用戶u最相似的K個(gè)用戶,用集合S(u, K) 表示,將S中用戶喜歡的物品全部提取出來(lái),并去除u已經(jīng)喜歡的物品。對(duì)于每個(gè)候選物品i,用戶u對(duì)它感興趣的程度用如下公式計(jì)算:  其中rvi表示用戶v對(duì)i的喜歡程度,在本例中都是為1,在一些需要用戶給予評(píng)分的推薦系統(tǒng)中,則要代入用戶評(píng)分。  舉個(gè)例子,假設(shè)我們要給A推薦物品,選取K = 3個(gè)相似用戶,相似用戶則是:B、C、D,那么他們喜歡過(guò)并且A沒有喜歡過(guò)的物品有:c、e,那么分別計(jì)算p(A, c) 和p(A, e):  看樣子用戶A對(duì)c和e的喜歡程度可能是一樣的,在真實(shí)的推薦系統(tǒng)中,只要按得分排序,取前幾個(gè)物品就可以了。3.總結(jié)我覺得關(guān)于協(xié)同過(guò)濾的推薦算法是一個(gè)很有趣的課題,但這個(gè)需要我們有很大的耐心,因?yàn)橹虚g可能會(huì)出現(xiàn)很多錯(cuò),即使是一個(gè)小的誤區(qū),可能導(dǎo)致結(jié)論相差很多,只有通過(guò)不斷試驗(yàn),得出一些數(shù)據(jù),才有可能發(fā)現(xiàn)自己存在的問(wèn)題,然后再改進(jìn)。 經(jīng)過(guò)本次試驗(yàn),雖然對(duì)基于用戶的協(xié)同過(guò)濾推薦算法的研究沒有深入到能提出一些建設(shè)性的改進(jìn),但對(duì)于算法已經(jīng)有了一定的了解,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論