推薦系統(tǒng)總結(jié)

上傳人：w*** IP屬地：天津上傳時(shí)間：2022-05-02 格式：DOCX 頁數(shù)：20 大?。?17.50KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Xiaolv2009-Relevanceismoresignificantthancorrelation:Informationfilteringonsparsedata本文提出了在針對(duì)數(shù)據(jù)稀疏時(shí)，使用相關(guān)性信息比關(guān)聯(lián)性信息效果更好，因?yàn)樵陉P(guān)聯(lián)性信息中，會(huì)用到更多的數(shù)據(jù)，RecommendationSystem推薦系統(tǒng)存在的主要挑戰(zhàn)：1.Datasparsity.2.Scalability解決該問題的一般方法（28-30）a）有必要考慮計(jì)算成本問題和需找推薦算法，這些算法要么是小點(diǎn)的要求或易于并行化（或兩者）b）使用基于增量的算法，隨著數(shù)據(jù)的增加，不重新計(jì)算所有的數(shù)據(jù)，而是微調(diào)的進(jìn)行3 .Co

2、ldstart解決該問題的方法一般有a）使用混合推薦技術(shù)，結(jié)合content和collaborative數(shù)據(jù)，或者需要基礎(chǔ)信息的使用比如用戶年齡、位置、喜好genres（31、32）b）識(shí)別不同web服務(wù)上的單獨(dú)用戶。比如Baifendian開發(fā)了一個(gè)可以跟蹤到單獨(dú)用戶在幾個(gè)電子商務(wù)網(wǎng)站上的活動(dòng)，所以對(duì)于在網(wǎng)站A的一個(gè)冷啟動(dòng)用戶，我們可以根據(jù)他在B,C,D網(wǎng)站上的記錄來解決其冷啟動(dòng)問題。4 .Diversityvs.Accuracy（多樣性和精確性）將一些很受歡迎的且高評(píng)分的商品推薦給一個(gè)用戶時(shí)，推薦非常高效，但是這種推薦不起多少作用，因?yàn)檫@些商品可以很容易的找到。因此一個(gè)好的推薦商品的列表應(yīng)

3、該包含一些不明顯的不容易被該用戶自己搜索到的商品。解決該問題的方法主要是提高推薦列表的多樣性，以及使用混合推薦方法。（34-37）5 .Vulnerabilitytoattacks6 .Thevalueoftime.7 .Evaluationofrecommendations8 .erinterface.除了這些問題外，還有其他的。隨著相關(guān)學(xué)科分支的出現(xiàn)，特別是網(wǎng)絡(luò)分析工具，科學(xué)家考慮網(wǎng)絡(luò)結(jié)構(gòu)對(duì)推薦的效果影響，以及如何有效使用已知的結(jié)構(gòu)屬性來提高推薦。比如，（45）分析了消費(fèi)者-商品網(wǎng)絡(luò)并提出了一個(gè)基于喜好邊（preferringedges）改進(jìn)的推薦算法，該算法提高了局部聚類屬性。（46）設(shè)

4、計(jì)并提高了算法，該算法充分利用了社區(qū)結(jié)構(gòu)（communitystructure）。隨之而來的挑戰(zhàn)主要有：帶有GPS移動(dòng)手機(jī)成為主流，并且可以訪問網(wǎng)絡(luò)，因此，基于位置的推薦更需要精確的推薦，其需要對(duì)人的移動(dòng)有一個(gè)高效預(yù)測(cè)能力（47、48）并且高質(zhì)量的定義位置和人之間的相似性的方法。（49、50）。智能推薦系統(tǒng)需考慮不同人的不同行為模式。比如新用戶比較喜歡訪問popular商品并且選擇相似的商品，而老的用戶有更不同的喜好（51,52）用戶行為在低風(fēng)險(xiǎn)商品和高風(fēng)險(xiǎn)商品之間更加的不同。（53,54）推薦系統(tǒng)的一些概念網(wǎng)絡(luò)網(wǎng)絡(luò)分析對(duì)于復(fù)雜系統(tǒng)的組織原則的發(fā)現(xiàn)是一個(gè)萬能的工具（5-9）。網(wǎng)絡(luò)是由一些元素點(diǎn)

5、和連接點(diǎn)的邊組成的。點(diǎn)即為個(gè)人或者組織，邊為他們之間的交互。網(wǎng)絡(luò)G可用（V,E）表示，V（vertice）為節(jié)點(diǎn)的集合，E為邊（edge）的集合。在無向網(wǎng)絡(luò)中，邊無方向。在有向網(wǎng)絡(luò)中，邊有向。我們假設(shè)網(wǎng)絡(luò)中不存在回路以及兩個(gè)節(jié)點(diǎn)之間不存在多條邊。G（V,E）圖中，一些參數(shù)表示工是指與節(jié)點(diǎn)x連接的節(jié)點(diǎn)（即x的鄰居）的集合。%|r工I即為x節(jié)點(diǎn)的度。Plk)即為度為k的所有節(jié)點(diǎn)被隨機(jī)選中的概率，假設(shè)度為k的節(jié)點(diǎn)有x個(gè)，總節(jié)點(diǎn)為N,則/)(k)=x/N。W=1Vzl即網(wǎng)絡(luò)中的節(jié)點(diǎn)個(gè)數(shù)。dm婚即為網(wǎng)絡(luò)直徑，指在所有節(jié)點(diǎn)間最大的距離。”為平均距離，計(jì)算公式為：足4工盧V1"工"為x節(jié)

6、點(diǎn)到y(tǒng)節(jié)點(diǎn)的距離?！岸?，即給定節(jié)點(diǎn)x的聚集系數(shù)，即x節(jié)點(diǎn)的鄰居之間存在的邊數(shù)/x的鄰居對(duì)的個(gè)數(shù)。=%、泳式h1),已上為x節(jié)點(diǎn)的位工個(gè)鄰居之間的邊數(shù)網(wǎng)絡(luò)聚集系數(shù)，即為所有節(jié)點(diǎn)x匕1)的聚集參數(shù)的和的平均。Bipartitenetwork(由兩部分構(gòu)成的網(wǎng)絡(luò))即一個(gè)網(wǎng)絡(luò)G(V;E),如果存在一個(gè)分割(VI；V2),使得Viu%i"In%="，并且vi集合的節(jié)點(diǎn)與V2集合的節(jié)點(diǎn)都有一個(gè)邊連接。Web-baseduser-objectnetworks即為該類網(wǎng)絡(luò)。(51、76-78)以下為對(duì)分網(wǎng)絡(luò)的信息來源：對(duì)分網(wǎng)絡(luò)即bipartitenetwork,是一個(gè)屬于復(fù)雜網(wǎng)絡(luò)研究的對(duì)象

7、。在這篇文章里，作者第一次把它引入到推薦系統(tǒng)的應(yīng)用當(dāng)中。依我來看，這是一種非正統(tǒng)的推薦方法，又是去年新發(fā)表的文章，兼且我對(duì)作者的思路也有一些了解，所以想拿出來介紹一下。所謂正統(tǒng)的推薦方法，可以參考這里的概述。發(fā)展到現(xiàn)在，比較成熟常用的推薦方法主要可分類為：1、contented-based;2、collaborativefiltering；3、hybridmethodo又有以：基于個(gè)人歷史的推薦、基于社會(huì)化的推薦、基于產(chǎn)品的推薦這樣的分法。無一例外地，以描述用戶的興趣為出發(fā)點(diǎn)，通過不同的搜索策略，最后落腳于對(duì)用戶未來興趣的預(yù)測(cè)。與以往不同的是，這篇文章從開始就以網(wǎng)絡(luò)模型為研究的基本對(duì)象，而非網(wǎng)

8、絡(luò)中的節(jié)點(diǎn)，出發(fā)點(diǎn)在于網(wǎng)絡(luò)特性的研究，在解決了對(duì)分網(wǎng)絡(luò)加權(quán)映射的問題之后，有點(diǎn)生產(chǎn)副產(chǎn)品意味地把方法應(yīng)用在推薦系統(tǒng)上。作者是我的校友，在學(xué)期間我也曾經(jīng)聽過他的幾次報(bào)告，他屬于典型的具有理科思維的人。其物理背景加上一個(gè)研究復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)的團(tuán)隊(duì)，造就了作者喜歡從模型的高度，而非從具體某個(gè)問題出發(fā)思考的習(xí)慣。所以我覺得這篇文章對(duì)于沖淡以往已成定勢(shì)的推薦系統(tǒng)思維方式，是有好處的。什么是對(duì)分網(wǎng)絡(luò)如果我們把網(wǎng)絡(luò)理解為描述現(xiàn)實(shí)世界對(duì)象間某種關(guān)系的數(shù)學(xué)模型，對(duì)分網(wǎng)絡(luò)就是描述這樣的一種特殊的關(guān)系：對(duì)象可以分為兩個(gè)集合，如X與Y,關(guān)系(即網(wǎng)絡(luò)的邊)僅僅存在于不同集合的節(jié)點(diǎn)之間，同一個(gè)集合內(nèi)的節(jié)點(diǎn)不存在直接連接

9、，而是通過另一個(gè)集合而產(chǎn)生間接關(guān)聯(lián)。這是一種具有廣泛意義的模型，如不同作者通過共同撰寫的文章所形成的合作關(guān)系；化學(xué)物質(zhì)與化學(xué)反應(yīng)所組成的新陳代謝網(wǎng)絡(luò)；豆瓣上不同的讀者因看一樣的書而形成的閱讀同好網(wǎng)絡(luò)；amazon上不同用戶因購(gòu)買共同的商品所構(gòu)成的購(gòu)買興趣網(wǎng)絡(luò)等等。對(duì)分網(wǎng)絡(luò)的單模態(tài)映射與賦權(quán)要使得對(duì)分網(wǎng)絡(luò)具有應(yīng)用價(jià)值，通常要得到同一個(gè)集合內(nèi)元素之間存在的關(guān)系，研究上這叫作對(duì)X(或Y)的單模態(tài)映射(one-modeprojection)o這種映射的結(jié)果不單可以實(shí)現(xiàn)數(shù)據(jù)的壓縮，并可同時(shí)得到極具意義的同一集合內(nèi)各節(jié)點(diǎn)之間的關(guān)系。例如，得到“閱讀同好網(wǎng)絡(luò)”中各個(gè)用戶之間的興趣相似度或是書籍之間的相似度，

10、自然要比原始的對(duì)分網(wǎng)絡(luò)更有價(jià)值。怎樣給節(jié)點(diǎn)的連接邊加權(quán)是單模態(tài)映射及其應(yīng)用中關(guān)鍵的問題，因?yàn)檫叺臋?quán)值意味著兩個(gè)節(jié)點(diǎn)關(guān)系的密切程度。比較常見的映射方法可參看圖1:對(duì)于集合X中的節(jié)點(diǎn)x(i)與x(j),如果它們共同地連接了n個(gè)Y集中的節(jié)點(diǎn)，則x(i)與x(j)的連接權(quán)值為no但這種方法存在著很多的問題，例如：x(i)與x(j)的連接權(quán)值隨著n的增加而呈線性增長(zhǎng)的趨勢(shì)，但這并非一種符合現(xiàn)實(shí)的描述方式，其實(shí)我們可以設(shè)想兩個(gè)作者共同合作的文章數(shù)從1增長(zhǎng)到2,其意義當(dāng)然是比從100增長(zhǎng)到101要更大，所以有人提出要采用雙曲正切函數(shù)而非線性函數(shù)來對(duì)n進(jìn)行映射。這些方法我在這里都不再贅述，只介紹作者在文中提出

11、的比較好的一個(gè)解決方案：資源一分配過程，來處理這個(gè)賦權(quán)的問題。圖1,對(duì)分網(wǎng)絡(luò)的單模態(tài)映射資源一分配過程(resource-allocationprocess)見圖2,(a)是一個(gè)對(duì)分網(wǎng)絡(luò)，上面的三個(gè)節(jié)點(diǎn)構(gòu)成一個(gè)集合，下面的四個(gè)節(jié)點(diǎn)構(gòu)成另一個(gè)集合。設(shè)上面三個(gè)節(jié)點(diǎn)的初始資源值為x,y,z,第一步這些資源根據(jù)連接關(guān)系流動(dòng)到另一個(gè)集合中(b),流動(dòng)過程中某節(jié)點(diǎn)的資源根據(jù)它的“出度”(即從該節(jié)點(diǎn)出發(fā)的邊)而被稀釋，如x有三個(gè)“出邊”，則每一個(gè)終點(diǎn)都得到了x/3。在資源分配到下面四個(gè)節(jié)點(diǎn)后，第二步，把資源再流回原來的集合，遵循的原則與第一步是一致的。這樣就得到了原集合最終的資源分配，這個(gè)分配是通過兩個(gè)集合

12、之間的共同連接關(guān)系所實(shí)現(xiàn)的再分配，攜帶了這個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息。對(duì)比原資源與最終的資源值，我們可以得到一個(gè)矩陣的映射關(guān)系，見圖3。這就是資源-分配過程的結(jié)果，得到一個(gè)從原始資源到最終資源的映射結(jié)果。矩陣中w(i,j)所代表的意義為：對(duì)于i來說，j有多大的價(jià)值。這實(shí)質(zhì)上實(shí)現(xiàn)了給節(jié)點(diǎn)i與節(jié)點(diǎn)j的連接賦權(quán)這么一個(gè)任務(wù)。圖2,資源-分配過程圖3,資源-分配過程后的映射矩陣個(gè)性化推薦到目前為止，我們都只是解決了對(duì)分網(wǎng)絡(luò)中權(quán)值分配這么一個(gè)問題，最后我們關(guān)注的是這么一個(gè)問題的解決對(duì)于推薦系統(tǒng)有些什么幫助。卜、111/181/65/18/x/=11內(nèi)5/125/18yLVz/5/185/124/9lzl圉3.

13、資源一分配過程后的映射矩陣(b)根據(jù)上面介紹的模型與流程，可以開始把數(shù)學(xué)抽象與實(shí)際問題結(jié)合起來了?，F(xiàn)在我們考慮用戶看電影這么一個(gè)網(wǎng)絡(luò)，以用戶作為一個(gè)集合Uu(1),u(2),u(3),u(m),電影條目作為一個(gè)集合Oo(1),o(2),o(3),o(n),根據(jù)某個(gè)用戶看過某部電影的關(guān)系，我們可以連接兩個(gè)集合中的對(duì)應(yīng)節(jié)點(diǎn)(如果系統(tǒng)記錄的是打分關(guān)系而非看過關(guān)系，可以對(duì)打分的分值進(jìn)行分段處理，較大的分值有連接，較小的無連接)，這樣就形成了一個(gè)用戶電影的對(duì)分網(wǎng)絡(luò)。下一步，要通過單模態(tài)映射來實(shí)現(xiàn)對(duì)用戶的推薦。假設(shè)現(xiàn)在要對(duì)用戶u(i)進(jìn)行推薦,該用戶看過電影的集合為Oio(j),o(j+1),o(j+2)

14、,如果不考慮電影之間的差別，可以給每一個(gè)Oi中的電影都賦予一個(gè)初始的資源值1,不在Oi中的電影則資源值為0。接下來根據(jù)上一節(jié)介紹的資源一分配過程，讓O中的資源從O流向U,再?gòu)腢流回O。這樣我們可以得到一個(gè)從原始O的資源值到最終O的資源值的一個(gè)映射矩陣，就像圖3那個(gè)矩陣一樣。不同的是，現(xiàn)在每一個(gè)O都有一個(gè)初始的資源值，而不是一個(gè)抽象的符號(hào)，所以我們可以計(jì)算得到每一個(gè)O節(jié)點(diǎn)的資源值。最后把所有O節(jié)點(diǎn)根據(jù)資源值的大小進(jìn)行排序，把資源值高的并且未為U(i)所看過的電影推薦給他。即完成對(duì)一個(gè)用戶的推薦。討論這種方法來自于復(fù)雜網(wǎng)絡(luò)的研究(用于推薦時(shí)作者稱該方法為Network-BasedInference

15、,NBI),在某些方面卻與協(xié)同過濾(CF)有著異曲同工之妙，都是利用一個(gè)同好網(wǎng)絡(luò)進(jìn)行社會(huì)化的推薦。相比而言，CF的原理更為直接，從矢量計(jì)算的角度來理解顯得很簡(jiǎn)單明了。NBI本質(zhì)上也利用用戶之間的共同興趣對(duì)條目進(jìn)行劃分，但其基礎(chǔ)是網(wǎng)絡(luò)的動(dòng)力學(xué)，看起來并不那么地直觀(但喜歡動(dòng)態(tài)變化的人會(huì)覺得這個(gè)很優(yōu)美)。據(jù)作者對(duì)一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的測(cè)試結(jié)果聲稱，NBI在預(yù)測(cè)性能上相比于CF存在著優(yōu)勢(shì)。推薦系統(tǒng)參數(shù)說明：M為用戶數(shù)；N為對(duì)象(object,item)數(shù);i,j代表用戶表小方式；q、d為商品的表示方式；沁即為用戶i對(duì)0的評(píng)價(jià)推薦系統(tǒng)分類：基于內(nèi)容的推薦：推薦的商品是那些與目標(biāo)用戶以前喜歡的商品在內(nèi)容上相似

16、。協(xié)同推薦：推薦的商品是基于很多用戶對(duì)該商品的評(píng)價(jià)的基礎(chǔ)上選擇的。又可分為：基于內(nèi)存的協(xié)同過濾(Memory-basedcollaborativefiltering):推薦的商品是與目標(biāo)用戶具有相似偏好的用戶喜歡的商品?；蛘呤悄切┡c目標(biāo)用戶喜歡的其他商品相似的商品。主要模型包括：1)貝葉斯網(wǎng)絡(luò)模型(Bayesiannetworksmodels2)聚類模型(clusteringmodels)3)潛在語義模型(latentsemanticmodels)4)MD喉型(MDPmodel)基于模型的協(xié)同過濾(Model-basedcollaborativefiltering)：是由模式選擇的，這些模式可

17、以識(shí)別輸入數(shù)據(jù)的模型。1)基于用戶的2)基于商品的混合方法：將協(xié)同和基于內(nèi)容的方法結(jié)合起來。3.4推薦的評(píng)價(jià)MetricsRankLTable3:Summaryofthepresentedrecommendationmetrics.Thethirdcolumnrepresentsthepreferenceofthemetric(e.g.,smallerMAEmeanshigherratingaccuracy).Thefourthcolumndescribesthescopeofthemetric.Thelasttwocolumnsshowwhetherthemetricisobtainedfr

18、omarankingandwhetheritdependsofthelengthoftherecommendationlistL.NameSvml>o|PretrreTirrSmpeMAEsmallraringciccurac'RMSKsnudlratingarrtiracyBrarsoiiPCCUrgrr?iriiirnrrHntinnSlJrHniVltlhrgrratingfunrlaricjnKeiidall>FanTlargtratingcurrelatiunNDPMXDPfstnUrankingrorrelatiimPwdsionwn川似<Htkni；u&

19、lt;nr；iiyRw'alKLlail；i-<atintLrU'cinitrF-si'urtfRQcLiilicalionnecimnAUCAUClarge<ntinu泣RankingscoifRSsniallTriiikins;ncfiiriKyilnli-lifcutilih-HL(LlargeionUkcountedCumulativeDCG(b,L)hlL,atlstactiuuandpteckiuliRruik-biasedPrecisionnBPp,L)laiECsatisfactionandprecisionHamminEdi?tnnwUL)

20、largeintcr-<iivcrsir-Iiitrasimilarity5MLiintradiversityPcjplLlJLiily內(nèi)hiiihIIlirprisulriliilnovellyStll-iiilornidi<triulurgcUTKXprt1Exh“,4Iht.r/anddiTrsitv3.4.1 精確度度量(AccuracyMatrics)1)給定一個(gè)用戶i,推薦系統(tǒng)對(duì)所有i沒有的商品進(jìn)行排序，然后推薦最好的幾個(gè)商品給用戶io如何評(píng)價(jià)一個(gè)推薦系統(tǒng)推薦的結(jié)果。評(píng)價(jià)度量標(biāo)準(zhǔn)有：評(píng)分精確性，有兩種方法來計(jì)算預(yù)測(cè)的評(píng)分與真實(shí)評(píng)分的接近程度，即MeanAbsoluteE

21、rror(MAE),RootMeanSquaredError(RMSE)MAE二RMSE參數(shù)說明:Ep飛即為用戶i對(duì)%口即為用戶i對(duì)Ep-zct1£（丁沁-八0爐的真實(shí)評(píng)價(jià);的預(yù)測(cè)評(píng)價(jià);即為隱藏掉的用戶-商品評(píng)分集;1/2這兩個(gè)算法那缺陷是：對(duì)list中的商品一視同仁，不考慮他們?cè)谕扑]list中的位置。優(yōu)點(diǎn)是簡(jiǎn)單性。且結(jié)果越小，推薦效果越好。2）評(píng)分和排名相關(guān)性另一個(gè)評(píng)估預(yù)測(cè)準(zhǔn)確性的方法是計(jì)算預(yù)測(cè)值與真實(shí)評(píng)分之間的相關(guān)性。Spearmancorrelation；3.Kendall'sTau有三種相2.the關(guān)性計(jì)算方法：1.Pearsonproduct-momentcorre

22、lation皮爾森相關(guān)性計(jì)算：PCC=£式九一»（4一）別是真實(shí)評(píng)分和預(yù)測(cè)評(píng)分。斯皮爾曼才目關(guān)系數(shù)(Spearmancorrelationcoefficient),二產(chǎn)"）3一加）,（招一可步一刃2即斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)于樣本容量為n的樣本，n個(gè)原始數(shù)據(jù)被轉(zhuǎn)換成等級(jí)數(shù)據(jù)，原始數(shù)據(jù)依據(jù)其在總體數(shù)據(jù)中平均的降序位置，被分配了一個(gè)相應(yīng)的等級(jí)。實(shí)際應(yīng)用中，變量間的連結(jié)是無關(guān)緊要的，于是可以通過簡(jiǎn)單的步驟計(jì)算p.被觀測(cè)的兩個(gè)變量的等級(jí)的差值由=索=陰計(jì)算步驟為：首先，我們必須根據(jù)以下步驟計(jì)算出1 .排列第一列數(shù)據(jù)(Xi)。創(chuàng)建新列(xi)并賦以等級(jí)值1,2,3,.n。2

23、.然后，排列第二列數(shù)據(jù)(Yi).創(chuàng)建第四列(yi),并相似地賦以等級(jí)值1,2,3,.n。3 .創(chuàng)建第五列di保存兩個(gè)等級(jí)列的差值(川)和朝).4 .創(chuàng)建最后一列W保存&的平方.Kendall'sTau:跟斯皮爾曼相關(guān)系數(shù)相似，也是計(jì)算評(píng)分的等級(jí)，計(jì)算公式為：C-DT«,r，(C+/+Sr)(C+D+S-',c為預(yù)測(cè)評(píng)分在正確的等級(jí)排名上的等級(jí)數(shù)，D是預(yù)測(cè)在錯(cuò)誤的等級(jí)排名的等級(jí)數(shù)。丁=1,即預(yù)測(cè)等級(jí)與真實(shí)等級(jí)完全相同時(shí)，丁=-1,當(dāng)預(yù)測(cè)等級(jí)與真實(shí)等級(jí)完全相反時(shí)。St為真實(shí)評(píng)分相同的商品數(shù)量。Sp是商品對(duì)預(yù)測(cè)評(píng)分相同時(shí)的數(shù)值。Kendall'stau是數(shù)學(xué)

24、統(tǒng)計(jì)中一個(gè)常用的系數(shù)，用來描述兩個(gè)序列的相關(guān)系數(shù)。這是一個(gè)很有用的參數(shù)，可以用來比較兩個(gè)序列的相似性，例如可以用于搜索引擎的排序結(jié)果的好壞。比較一個(gè)序列與一個(gè)類似標(biāo)準(zhǔn)答案的排序序列的相似性(人工評(píng)價(jià))，得出排序序列的有效性。舉例：如果兩個(gè)序列完全一致，則Kendall'stau值為1,兩個(gè)毫不相關(guān)的序列的Kendall'stau值為0,而兩個(gè)互逆的序列的Kendall'stau系數(shù)為-1.具體的計(jì)算方式為：1-2*symDif/(n*(n-1),其中n為排列的長(zhǎng)度(兩個(gè)序列的長(zhǎng)度相同)，symDif為對(duì)稱距離。對(duì)稱距離的計(jì)算方式如下：對(duì)于兩個(gè)給定的序列S1=a,b,c,

25、d;S2=a,c,b,d.分別找出兩個(gè)序列的二元約束集。在這個(gè)仞子中S1的所有二元約束集為(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),S2的所有二元約束集為(a,c),(a,b),(a,d),(c,b),(c,d),(b,d),比較兩個(gè)二元約束集，其中不同的二元約束有兩個(gè)(b,c)和(c,b),所以對(duì)稱距離為2。代入上面的計(jì)算公式可以得到這兩個(gè)序列的相關(guān)系數(shù)為：1-2*2/(4*3)=2/3=0.667thenormalizeddistance-basedperformancemeasure(NDPM)計(jì)算公式為：2C+CuNDPM二一二一.試用于用戶對(duì)商品非常的喜

26、歡的情況。3）分類精度度量（ClassificationAccuracyMetrics）該類度量適合像“尋找好商品”這類的只有隱含評(píng)分的任務(wù)，即沒有確切的評(píng)分值。計(jì)算方法有：1） AUC（AreaUnderROCCurve）.該方法試圖檢測(cè)一個(gè)推薦系統(tǒng)區(qū)分相關(guān)商品（一個(gè)用戶喜歡的）和非相關(guān)商品（其他用戶）的效果。計(jì)算時(shí)，是比較相關(guān)商品被推薦的概率和非相關(guān)商品被推薦的概率。艱;0.5a”,nr表示相關(guān)產(chǎn)品比非相關(guān)商品取得更高得分的次數(shù)；ntf表示兩方得相等的分?jǐn)?shù)時(shí)的次數(shù)。當(dāng)所有相關(guān)商品比非相關(guān)商品分?jǐn)?shù)都高時(shí)，AUC=1表示一個(gè)非常好白推薦列表；AUC=0.5時(shí)，表示一個(gè)隨機(jī)的等級(jí)推薦列表。2）

27、RankingScore與AUC相似，一個(gè)給定用戶,我們檢測(cè)的是該用戶推薦列表中的相關(guān)對(duì)象（即用戶喜歡的對(duì)象）的相對(duì)排名。當(dāng)有O個(gè)商品被推薦時(shí)，那么排名r的一個(gè)相關(guān)商品的相對(duì)排名為r/o。然后對(duì)所有用戶的相關(guān)商品的相對(duì)排名取平均值，我們得到一個(gè)平均排名得分RS,越小說明該算準(zhǔn)確性越高。precisionandrecallofrecommendation只考慮推薦列表中的最高L個(gè)用戶相關(guān)商品。給定一個(gè)用戶i凡=竽表示在推薦列表中的最高L個(gè)相關(guān)商品（由i收集的商品）的數(shù)量。Di表示用戶i的相關(guān)商品的總數(shù)。L表示取最高排名的前L個(gè)。RDR（z）表示對(duì)所有至少有一個(gè)相關(guān)對(duì)象的用戶的的和的平均值;最后公

28、式為：MNNeP(L)=PL)r：Sr(L)=R(L)t，MLm是用戶數(shù)量,N是商品數(shù)量；D是相關(guān)商品的總數(shù)量。3.4.2等級(jí)加權(quán)指數(shù)(Rank-weightedIndexes)通過考慮每個(gè)相關(guān)商品的位置并對(duì)其進(jìn)行加權(quán)，可以很好的檢測(cè)用戶滿意度。下三種方法：1)Half-lifeUtility.4,基于相似的方法4.1 預(yù)測(cè)評(píng)分算法4.1.1. 用戶相似度(Usersimilarity)通過集合其他用戶的評(píng)分?jǐn)?shù)據(jù)，來自動(dòng)的對(duì)用戶喜好進(jìn)行預(yù)測(cè)。計(jì)算用戶u對(duì)已評(píng)分過的商品的平均評(píng)分:小二O£口針即為用戶u對(duì)商品”的評(píng)分；宜為用戶u已評(píng)分過的商品集合；用戶U對(duì)商品Q的預(yù)測(cè)評(píng)分公式計(jì)算為ua

29、%十&E品式必一參數(shù)說明：Uu為與用戶u相似的用戶集合;曉助為用戶u與用戶v之間的相似度;K.=_J-,為歸一化因子。當(dāng)評(píng)分不是清晰的，而是隱含的，只知道用戶所收集的商品集,我們欲預(yù)測(cè)一個(gè)用戶以后會(huì)搜集的商品。此時(shí)，公式為:Pud一PuQ為用戶u薦得是一個(gè)用戶-商品關(guān)聯(lián)矩陣，即當(dāng)用戶V搜集了0時(shí)，值為1,否則為0；即為用戶u的鄰居集合,選擇鄰居的策略有:1）關(guān)聯(lián)閾值；選擇所有相似度大于給定閾值的用戶。2）設(shè)置鄰居最大數(shù)量；選擇k個(gè)最大的與用戶u相似的用戶。4.1.2. 商品相似（Itemsimilarity,即為商品之間的相似，使用加權(quán)平均來估算未知評(píng)分££公Sc附

30、岬IACI參數(shù)介紹:Sia,表示對(duì)兩個(gè)商品都評(píng)分了的用戶集合;參數(shù)說明：,即為用戶U已評(píng)價(jià)過的商品集合；優(yōu)勢(shì)：該方法中商品之間的相似度相比用戶之間的相似度更靜態(tài)化;混合協(xié)同過濾算法：結(jié)合基于用戶、商品或者屬性的相似度；該方法不僅提高了預(yù)測(cè)精確度,而且處理數(shù)據(jù)稀疏性更健壯性。4.1.3. SlopeOnepredictor是基于商品的協(xié)同過濾最簡(jiǎn)單的形式尸甲一丁山devj表示所有用戶對(duì),3商品與商品的平均偏差。給定評(píng)分，則用戶u對(duì)N的預(yù)測(cè)評(píng)分為：&北+胡¥加,加權(quán)SlopeOne算法:雙極SlopeOne算法（Bi-PolarSlopeOne由給定的用戶將商品分組成喜歡和不喜歡

31、兩組（一個(gè)直接的標(biāo)示喜歡和不喜歡的準(zhǔn)則是檢查他們的評(píng)分相比指定用戶授予的平均評(píng)分是高還是低）。這兩個(gè)組分別進(jìn)行預(yù)測(cè)，即S+i（q；8）,§一1隆,8）。他們各自的偏差是:最后的合成的一個(gè)預(yù)測(cè)公式是:區(qū)的0>十d咽）+EJS-1（q）|（r/十d唱）Ejs仇|+£甘（用。）|SlopOne算法可以和基于用戶的協(xié)同過濾結(jié)合，通過填充用戶-商品矩陣的空白評(píng)分，來解決數(shù)據(jù)稀疏性問題，提高預(yù)測(cè)精確度。4.2 .如何定義相似度（Howtodefinesimilarity）基于相似度的算法的關(guān)鍵問題是如何定義用戶之間或者商品之間的相似度，當(dāng)有確切的評(píng)分時(shí)，相似度一般定義相關(guān)性度量比

32、如Pearson;當(dāng)沒有有效的評(píng)分信息時(shí)，相似度可以從輸入數(shù)據(jù)的結(jié)構(gòu)屬性來推斷（比如當(dāng)兩個(gè)用戶都喜歡或者買了許多相同的商品）；也可以從額外的信息比如用戶屬性、標(biāo)簽、商品內(nèi)容元數(shù)據(jù)等信息來評(píng)估相似度。4.2.1. .基于評(píng)分的相似度（Rating-basedsimilarity）計(jì)算相似度的算法有：1） Cosineindex2）皮爾森系數(shù)Pearsoncoefficient（PC）評(píng)分相關(guān)性可由PC方法，為了進(jìn)行量化相似性，有如下公式:普（九。一七產(chǎn)，£<1£0汽匕（s七產(chǎn)參數(shù)說明:constrained,即用戶u和用戶v都評(píng)價(jià)過的商品集;3）約束性皮爾森系數(shù)（Con

33、strainedPearsoncoefficient在上面的公式中，由中心評(píng)分代替用戶評(píng)分平均值（中心評(píng)分即為，假設(shè)分?jǐn)?shù)從1到5,那么中心評(píng)分即為3）4)加權(quán)皮爾森系數(shù)(weightedPearsoncoefficientbasedontheideaofcapturingtheconfidencethatcanbeplacedonsimilarityvalues(whentwousersevaluatedonlyafewobjectsincommon,theirpotentiallyhighsimilarityshouldnotbetrustedasmuchasforapairofusersw

34、ithmanyoverlappingobjects).備吃forO.V<H,otherwise系數(shù)說明：H是一個(gè)閾值，由實(shí)驗(yàn)決定。5）商品間的皮爾森相似度參數(shù)說明：小£,同時(shí)評(píng)價(jià)qand8.的用戶的集合;才），商品0的所有評(píng)分的平均值;實(shí)驗(yàn)證明，皮爾森系數(shù)比Cosineindex表現(xiàn)的更好。4.2.2. .結(jié)構(gòu)相似性（Structuralsimilarity）結(jié)構(gòu)化相似性是基于數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)的，最近調(diào)查發(fā)現(xiàn)，基于結(jié)構(gòu)的相似性在推薦效果方面比皮爾森系數(shù)效果更好，特別是數(shù)據(jù)稀疏時(shí)。為了計(jì)算結(jié)構(gòu)相似，可將用戶-商品對(duì)分網(wǎng)絡(luò)分成一個(gè)用戶-用戶或者商品-商品網(wǎng)絡(luò)。最簡(jiǎn)單的案例是，判斷兩個(gè)

35、用戶是否相似的方法是如果兩個(gè)用戶對(duì)至少一個(gè)共同商品都參與評(píng)分了，則認(rèn)為相似。這方面的相似性度量主要有：node-dependentvs.path-dependent,localvs.global,parameterfreevs.parameter-dependent(i)節(jié)點(diǎn)獨(dú)立相似度(node-dependentsimilarity()最簡(jiǎn)單的加權(quán)相似度指數(shù)是CN(CommonNeighbors),兩個(gè)節(jié)點(diǎn)的相似度是直接由共同的鄰居個(gè)數(shù)決定的。然后延伸出六個(gè)變化的相似度度量1)SaltonIndex2)JaccardIndex3)SorensenIndex4);uL5)1?.'11：

36、,H6)Leicht-HolmeNewmanIndex(LHN16)TableMhI-Ihstia.licali.kHhdlu!isufllieiiotkYk此1HLjhlHiitiilHirilviiicliitsi.工tkaiutiy；Llic：sclulliiijhburs.utlicjdejrwbkbcaiihe-I'itlu-iaUm邛uranubjutlijwdu)hiiiLhishrulnudejIndexDefinitionCM*jr(i=S：ilron,譚"=rnr(,/品兒JlR'ClUd%=nr,/|rTurJSimm8n=力工c/1/(鼠+4)

37、1114息ayHUI=r.rCIrj|/masULHM3nr,nrj/(A.Jty)AAICAPA=L.MEu1，上再“=卜卡警(ii) Path-dependentsimilarity兩個(gè)節(jié)點(diǎn)相似即為他們之間存在了很多連接的路徑。A”即為N次方鄰接矩陣,里面的元素是不同對(duì)節(jié)點(diǎn)之間存在的不同路徑數(shù)量。度量公式為：4；(A%)+e(Aa)xy,該公式只包含長(zhǎng)度為2,3的路徑，提出了包含所有長(zhǎng)度路徑白計(jì)算方法：Katzsimilarity.£必=S&y+的A2K+樂(A?K+.參數(shù)說明：,阻尼因數(shù)，控制路徑權(quán)重;(iii) Random-walk-basedsimilarityA

38、verageCommuteTime:節(jié)點(diǎn)x與節(jié)點(diǎn)y之間的平均commute時(shí)間即為從節(jié)點(diǎn)x到節(jié)點(diǎn)y加上從y到x走的平均步數(shù)?？梢酝ㄟ^網(wǎng)絡(luò)的拉普拉斯算子矩陣L，的偽逆獲取。皿(身)猾=2(L%)E,E為網(wǎng)絡(luò)中的邊數(shù)。那么節(jié)點(diǎn)x與節(jié)點(diǎn)y的相似度公式為:ACT_'即通勤時(shí)間的倒0一(L»十(L+K2(L%('osiue-basedtniL+RandomWalkwithRestartSimRank4.2.3. Similarityinvolvingexternalinformation(i) Attributes.兩個(gè)用戶(商品)相似是通過計(jì)算他們相應(yīng)屬性向量的相關(guān)性。比如一

39、個(gè)用戶的個(gè)人文檔包括年齡、性別、國(guó)籍、位置、工作等。那么可以通過認(rèn)為兩個(gè)相似用戶有很多共同的特征時(shí)為相似用戶，進(jìn)而得到量化相似。有一篇文章寫的是混合推薦方法，通過使用用戶屬性和評(píng)分信息來提高推薦的精確度。(ii) Contents.現(xiàn)在存在很多可以自動(dòng)抽取一個(gè)有效對(duì)象的內(nèi)容和元數(shù)據(jù)的技術(shù)。因此對(duì)象相似性可以通過計(jì)算給定對(duì)象的內(nèi)容比較進(jìn)行確定。該方法一般叫基于內(nèi)容的推薦算法。該推薦算法一般通過分析目標(biāo)用戶評(píng)分過的對(duì)象的內(nèi)容。故問題變?yōu)槿绾螌?duì)給定一個(gè)由目標(biāo)用戶喜歡的對(duì)象的內(nèi)容來找出與該內(nèi)容相似的對(duì)象。典型方法是：TF-IDF(termfrequency-inversedocumentfrequen

40、cy)，該方法常用來信息檢索和文本挖掘。叱©=x.工二參數(shù)說明：t是一個(gè)術(shù)語；d是一個(gè)文檔；表示t在文檔d中的出現(xiàn)次數(shù)；ID|表示所有觀察文檔的數(shù)量；11'Ld,用于檢測(cè)對(duì)象的相似度；基于內(nèi)容的和協(xié)同過濾方法都有各自的局限性。比如CF無法精確的合并屬性信息，并且面臨數(shù)據(jù)稀疏性和冷啟動(dòng)問題。而基于內(nèi)容的系統(tǒng)沒有不必要合并用戶喜好信息?；旌戏椒ㄓ兴念悾?i) implementseparatecollaborativeandcontent-basedmethodsandthencombinetheirpredictions(ii) addcontent-basedcharacte

41、risticstocollaborativemodels(iii) addcollaborativecharacteristicstocontent-basedmodels(iv) developageneralunifiedmodelthatintegratebothcontent-basedandcollaborativecharacteristics而這些方法只能用在對(duì)象有很多可以自動(dòng)抽取的內(nèi)容信息時(shí)才有效。一般用在書籍，文章，書簽等情況，而無法使用在視頻，音樂和圖片。(iii) Tags.隨著Web2.0的出現(xiàn)，協(xié)同標(biāo)簽系統(tǒng)也出現(xiàn)了，標(biāo)簽系統(tǒng)允許用戶自由的指定關(guān)鍵詞，而不會(huì)有一個(gè)詞匯的

42、限制。標(biāo)簽信息的出現(xiàn)，通過用戶領(lǐng)域或者商品領(lǐng)域的標(biāo)簽向量，使得推薦系統(tǒng)可以很容易的計(jì)算用戶相似度和商品相似度。為了減少垃圾郵件的影響以及擴(kuò)大個(gè)性化用戶喜好，權(quán)重技術(shù)經(jīng)常用來顯示在給定的標(biāo)簽向量中各個(gè)元素的重要性。5 .降維技術(shù)(DimensionalityReductionTechniques)主要目的是減少相關(guān)數(shù)據(jù)的規(guī)模，同時(shí)保留住主要信息。一般用在數(shù)據(jù)挖掘，機(jī)器學(xué)習(xí)，聚類分析。主要的技術(shù)包括：特征提取(充分利用隱藏變量、或者叫做潛在變量)。比如在電影選擇時(shí)，潛在用戶可能考慮到genres，比如動(dòng)作片、浪漫片或者喜劇片等特征，這些變量經(jīng)常描述為多維向量。用于實(shí)現(xiàn)推薦系統(tǒng)的幾、Bayesian

43、個(gè)降維技術(shù)有：singularvaluedecomposition(SVD)clustering、probabilisticlatentsemanticanalysis(pLSA)latentdirichletallocation(LDA)5.1 奇異值分解(SVD)R矩陣是N*M,矩陣元素廠沁表示用戶i對(duì)商品。的評(píng)分(如果還沒有評(píng)分，則其相應(yīng)值為0)。假設(shè)沒有數(shù)值評(píng)分的情況下，R是一個(gè)關(guān)聯(lián)矩陣，即如果用戶-商品連接，則/ki=1,否則為0.降維技術(shù)主要是用于生成K個(gè)隱藏變量，這K個(gè)變量將用戶的興趣和商品屬性歸類。原始的R矩陣為：參數(shù)說明：w和v分別表示維數(shù)為NxK、KxM的矩陣。w矩陣元素是用戶的興趣信息，V元素是商品的內(nèi)容信息。當(dāng)隱藏變量數(shù)值K小于N、M時(shí)，那么表示R的WV中的NM改為NK+KM,即將矩陣的維數(shù)降低。該方法叫矩陣因子分解(MF,matrixfactorization)。為了得到W和V,SVD方法是LSA的一個(gè)常用代數(shù)工具，用于減少相關(guān)數(shù)據(jù)，并找到一個(gè)相似的R矩陣。在SVD中，R表示形式為：R=工是一個(gè)AXA對(duì)角矩陣，且其元素

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

推薦系統(tǒng)總結(jié)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

推薦系統(tǒng)總結(jié)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔