




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Xiaolv2009-Relevanceismoresignificantthancorrelation:Informationfilteringonsparsedata本文提出了在針對(duì)數(shù)據(jù)稀疏時(shí),使用相關(guān)性信息比關(guān)聯(lián)性信息效果更好,因?yàn)樵陉P(guān)聯(lián)性信息中,會(huì)用到更多的數(shù)據(jù),RecommendationSystem推薦系統(tǒng)存在的主要挑戰(zhàn):1.Datasparsity.2.Scalability解決該問題的一般方法(28-30)a)有必要考慮計(jì)算成本問題和需找推薦算法,這些算法要么是小點(diǎn)的要求或易于并行化(或兩者)b)使用基于增量的算法,隨著數(shù)據(jù)的增加,不重新計(jì)算所有的數(shù)據(jù),而是微調(diào)的進(jìn)行3 .Co
2、ldstart解決該問題的方法一般有a)使用混合推薦技術(shù),結(jié)合content和collaborative數(shù)據(jù),或者需要基礎(chǔ)信息的使用比如用戶年齡、位置、喜好genres(31、32)b)識(shí)別不同web服務(wù)上的單獨(dú)用戶。比如Baifendian開發(fā)了一個(gè)可以跟蹤到單獨(dú)用戶在幾個(gè)電子商務(wù)網(wǎng)站上的活動(dòng),所以對(duì)于在網(wǎng)站A的一個(gè)冷啟動(dòng)用戶,我們可以根據(jù)他在B,C,D網(wǎng)站上的記錄來解決其冷啟動(dòng)問題。4 .Diversityvs.Accuracy(多樣性和精確性)將一些很受歡迎的且高評(píng)分的商品推薦給一個(gè)用戶時(shí),推薦非常高效,但是這種推薦不起多少作用,因?yàn)檫@些商品可以很容易的找到。因此一個(gè)好的推薦商品的列表應(yīng)
3、該包含一些不明顯的不容易被該用戶自己搜索到的商品。解決該問題的方法主要是提高推薦列表的多樣性,以及使用混合推薦方法。(34-37)5 .Vulnerabilitytoattacks6 .Thevalueoftime.7 .Evaluationofrecommendations8 .erinterface.除了這些問題外,還有其他的。隨著相關(guān)學(xué)科分支的出現(xiàn),特別是網(wǎng)絡(luò)分析工具,科學(xué)家考慮網(wǎng)絡(luò)結(jié)構(gòu)對(duì)推薦的效果影響,以及如何有效使用已知的結(jié)構(gòu)屬性來提高推薦。比如,(45)分析了消費(fèi)者-商品網(wǎng)絡(luò)并提出了一個(gè)基于喜好邊(preferringedges)改進(jìn)的推薦算法,該算法提高了局部聚類屬性。(46)設(shè)
4、計(jì)并提高了算法,該算法充分利用了社區(qū)結(jié)構(gòu)(communitystructure)。隨之而來的挑戰(zhàn)主要有:帶有GPS移動(dòng)手機(jī)成為主流,并且可以訪問網(wǎng)絡(luò),因此,基于位置的推薦更需要精確的推薦,其需要對(duì)人的移動(dòng)有一個(gè)高效預(yù)測(cè)能力(47、48)并且高質(zhì)量的定義位置和人之間的相似性的方法。(49、50)。智能推薦系統(tǒng)需考慮不同人的不同行為模式。比如新用戶比較喜歡訪問popular商品并且選擇相似的商品,而老的用戶有更不同的喜好(51,52)用戶行為在低風(fēng)險(xiǎn)商品和高風(fēng)險(xiǎn)商品之間更加的不同。(53,54)推薦系統(tǒng)的一些概念網(wǎng)絡(luò)網(wǎng)絡(luò)分析對(duì)于復(fù)雜系統(tǒng)的組織原則的發(fā)現(xiàn)是一個(gè)萬能的工具(5-9)。網(wǎng)絡(luò)是由一些元素點(diǎn)
5、和連接點(diǎn)的邊組成的。點(diǎn)即為個(gè)人或者組織,邊為他們之間的交互。網(wǎng)絡(luò)G可用(V,E)表示,V(vertice)為節(jié)點(diǎn)的集合,E為邊(edge)的集合。在無向網(wǎng)絡(luò)中,邊無方向。在有向網(wǎng)絡(luò)中,邊有向。我們假設(shè)網(wǎng)絡(luò)中不存在回路以及兩個(gè)節(jié)點(diǎn)之間不存在多條邊。G(V,E)圖中,一些參數(shù)表示工是指與節(jié)點(diǎn)x連接的節(jié)點(diǎn)(即x的鄰居)的集合。%|r工I即為x節(jié)點(diǎn)的度。Plk)即為度為k的所有節(jié)點(diǎn)被隨機(jī)選中的概率,假設(shè)度為k的節(jié)點(diǎn)有x個(gè),總節(jié)點(diǎn)為N,則/)(k)=x/N。W=1Vzl即網(wǎng)絡(luò)中的節(jié)點(diǎn)個(gè)數(shù)。dm婚即為網(wǎng)絡(luò)直徑,指在所有節(jié)點(diǎn)間最大的距離。”為平均距離,計(jì)算公式為:足4工盧V1"工"為x節(jié)
6、點(diǎn)到y(tǒng)節(jié)點(diǎn)的距離?!岸?,即給定節(jié)點(diǎn)x的聚集系數(shù),即x節(jié)點(diǎn)的鄰居之間存在的邊數(shù)/x的鄰居對(duì)的個(gè)數(shù)。=%、泳式h1),已上為x節(jié)點(diǎn)的位工個(gè)鄰居之間的邊數(shù)網(wǎng)絡(luò)聚集系數(shù),即為所有節(jié)點(diǎn)x匕1)的聚集參數(shù)的和的平均。Bipartitenetwork(由兩部分構(gòu)成的網(wǎng)絡(luò))即一個(gè)網(wǎng)絡(luò)G(V;E),如果存在一個(gè)分割(VI;V2),使得Viu%i"In%=",并且vi集合的節(jié)點(diǎn)與V2集合的節(jié)點(diǎn)都有一個(gè)邊連接。Web-baseduser-objectnetworks即為該類網(wǎng)絡(luò)。(51、76-78)以下為對(duì)分網(wǎng)絡(luò)的信息來源:對(duì)分網(wǎng)絡(luò)即bipartitenetwork,是一個(gè)屬于復(fù)雜網(wǎng)絡(luò)研究的對(duì)象
7、。在這篇文章里,作者第一次把它引入到推薦系統(tǒng)的應(yīng)用當(dāng)中。依我來看,這是一種非正統(tǒng)的推薦方法,又是去年新發(fā)表的文章,兼且我對(duì)作者的思路也有一些了解,所以想拿出來介紹一下。所謂正統(tǒng)的推薦方法,可以參考這里的概述。發(fā)展到現(xiàn)在,比較成熟常用的推薦方法主要可分類為:1、contented-based;2、collaborativefiltering;3、hybridmethodo又有以:基于個(gè)人歷史的推薦、基于社會(huì)化的推薦、基于產(chǎn)品的推薦這樣的分法。無一例外地,以描述用戶的興趣為出發(fā)點(diǎn),通過不同的搜索策略,最后落腳于對(duì)用戶未來興趣的預(yù)測(cè)。與以往不同的是,這篇文章從開始就以網(wǎng)絡(luò)模型為研究的基本對(duì)象,而非網(wǎng)
8、絡(luò)中的節(jié)點(diǎn),出發(fā)點(diǎn)在于網(wǎng)絡(luò)特性的研究,在解決了對(duì)分網(wǎng)絡(luò)加權(quán)映射的問題之后,有點(diǎn)生產(chǎn)副產(chǎn)品意味地把方法應(yīng)用在推薦系統(tǒng)上。作者是我的校友,在學(xué)期間我也曾經(jīng)聽過他的幾次報(bào)告,他屬于典型的具有理科思維的人。其物理背景加上一個(gè)研究復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)的團(tuán)隊(duì),造就了作者喜歡從模型的高度,而非從具體某個(gè)問題出發(fā)思考的習(xí)慣。所以我覺得這篇文章對(duì)于沖淡以往已成定勢(shì)的推薦系統(tǒng)思維方式,是有好處的。什么是對(duì)分網(wǎng)絡(luò)如果我們把網(wǎng)絡(luò)理解為描述現(xiàn)實(shí)世界對(duì)象間某種關(guān)系的數(shù)學(xué)模型,對(duì)分網(wǎng)絡(luò)就是描述這樣的一種特殊的關(guān)系:對(duì)象可以分為兩個(gè)集合,如X與Y,關(guān)系(即網(wǎng)絡(luò)的邊)僅僅存在于不同集合的節(jié)點(diǎn)之間,同一個(gè)集合內(nèi)的節(jié)點(diǎn)不存在直接連接
9、,而是通過另一個(gè)集合而產(chǎn)生間接關(guān)聯(lián)。這是一種具有廣泛意義的模型,如不同作者通過共同撰寫的文章所形成的合作關(guān)系;化學(xué)物質(zhì)與化學(xué)反應(yīng)所組成的新陳代謝網(wǎng)絡(luò);豆瓣上不同的讀者因看一樣的書而形成的閱讀同好網(wǎng)絡(luò);amazon上不同用戶因購(gòu)買共同的商品所構(gòu)成的購(gòu)買興趣網(wǎng)絡(luò)等等。對(duì)分網(wǎng)絡(luò)的單模態(tài)映射與賦權(quán)要使得對(duì)分網(wǎng)絡(luò)具有應(yīng)用價(jià)值,通常要得到同一個(gè)集合內(nèi)元素之間存在的關(guān)系,研究上這叫作對(duì)X(或Y)的單模態(tài)映射(one-modeprojection)o這種映射的結(jié)果不單可以實(shí)現(xiàn)數(shù)據(jù)的壓縮,并可同時(shí)得到極具意義的同一集合內(nèi)各節(jié)點(diǎn)之間的關(guān)系。例如,得到“閱讀同好網(wǎng)絡(luò)”中各個(gè)用戶之間的興趣相似度或是書籍之間的相似度,
10、自然要比原始的對(duì)分網(wǎng)絡(luò)更有價(jià)值。怎樣給節(jié)點(diǎn)的連接邊加權(quán)是單模態(tài)映射及其應(yīng)用中關(guān)鍵的問題,因?yàn)檫叺臋?quán)值意味著兩個(gè)節(jié)點(diǎn)關(guān)系的密切程度。比較常見的映射方法可參看圖1:對(duì)于集合X中的節(jié)點(diǎn)x(i)與x(j),如果它們共同地連接了n個(gè)Y集中的節(jié)點(diǎn),則x(i)與x(j)的連接權(quán)值為no但這種方法存在著很多的問題,例如:x(i)與x(j)的連接權(quán)值隨著n的增加而呈線性增長(zhǎng)的趨勢(shì),但這并非一種符合現(xiàn)實(shí)的描述方式,其實(shí)我們可以設(shè)想兩個(gè)作者共同合作的文章數(shù)從1增長(zhǎng)到2,其意義當(dāng)然是比從100增長(zhǎng)到101要更大,所以有人提出要采用雙曲正切函數(shù)而非線性函數(shù)來對(duì)n進(jìn)行映射。這些方法我在這里都不再贅述,只介紹作者在文中提出
11、的比較好的一個(gè)解決方案:資源一分配過程,來處理這個(gè)賦權(quán)的問題。圖1,對(duì)分網(wǎng)絡(luò)的單模態(tài)映射資源一分配過程(resource-allocationprocess)見圖2,(a)是一個(gè)對(duì)分網(wǎng)絡(luò),上面的三個(gè)節(jié)點(diǎn)構(gòu)成一個(gè)集合,下面的四個(gè)節(jié)點(diǎn)構(gòu)成另一個(gè)集合。設(shè)上面三個(gè)節(jié)點(diǎn)的初始資源值為x,y,z,第一步這些資源根據(jù)連接關(guān)系流動(dòng)到另一個(gè)集合中(b),流動(dòng)過程中某節(jié)點(diǎn)的資源根據(jù)它的“出度”(即從該節(jié)點(diǎn)出發(fā)的邊)而被稀釋,如x有三個(gè)“出邊”,則每一個(gè)終點(diǎn)都得到了x/3。在資源分配到下面四個(gè)節(jié)點(diǎn)后,第二步,把資源再流回原來的集合,遵循的原則與第一步是一致的。這樣就得到了原集合最終的資源分配,這個(gè)分配是通過兩個(gè)集合
12、之間的共同連接關(guān)系所實(shí)現(xiàn)的再分配,攜帶了這個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息。對(duì)比原資源與最終的資源值,我們可以得到一個(gè)矩陣的映射關(guān)系,見圖3。這就是資源-分配過程的結(jié)果,得到一個(gè)從原始資源到最終資源的映射結(jié)果。矩陣中w(i,j)所代表的意義為:對(duì)于i來說,j有多大的價(jià)值。這實(shí)質(zhì)上實(shí)現(xiàn)了給節(jié)點(diǎn)i與節(jié)點(diǎn)j的連接賦權(quán)這么一個(gè)任務(wù)。圖2,資源-分配過程圖3,資源-分配過程后的映射矩陣個(gè)性化推薦到目前為止,我們都只是解決了對(duì)分網(wǎng)絡(luò)中權(quán)值分配這么一個(gè)問題,最后我們關(guān)注的是這么一個(gè)問題的解決對(duì)于推薦系統(tǒng)有些什么幫助。卜、111/181/65/18/x/=11內(nèi)5/125/18yLVz/5/185/124/9lzl圉3.
13、資源一分配過程后的映射矩陣(b)根據(jù)上面介紹的模型與流程,可以開始把數(shù)學(xué)抽象與實(shí)際問題結(jié)合起來了?,F(xiàn)在我們考慮用戶看電影這么一個(gè)網(wǎng)絡(luò),以用戶作為一個(gè)集合Uu(1),u(2),u(3),u(m),電影條目作為一個(gè)集合Oo(1),o(2),o(3),o(n),根據(jù)某個(gè)用戶看過某部電影的關(guān)系,我們可以連接兩個(gè)集合中的對(duì)應(yīng)節(jié)點(diǎn)(如果系統(tǒng)記錄的是打分關(guān)系而非看過關(guān)系,可以對(duì)打分的分值進(jìn)行分段處理,較大的分值有連接,較小的無連接),這樣就形成了一個(gè)用戶電影的對(duì)分網(wǎng)絡(luò)。下一步,要通過單模態(tài)映射來實(shí)現(xiàn)對(duì)用戶的推薦。假設(shè)現(xiàn)在要對(duì)用戶u(i)進(jìn)行推薦,該用戶看過電影的集合為Oio(j),o(j+1),o(j+2)
14、,如果不考慮電影之間的差別,可以給每一個(gè)Oi中的電影都賦予一個(gè)初始的資源值1,不在Oi中的電影則資源值為0。接下來根據(jù)上一節(jié)介紹的資源一分配過程,讓O中的資源從O流向U,再?gòu)腢流回O。這樣我們可以得到一個(gè)從原始O的資源值到最終O的資源值的一個(gè)映射矩陣,就像圖3那個(gè)矩陣一樣。不同的是,現(xiàn)在每一個(gè)O都有一個(gè)初始的資源值,而不是一個(gè)抽象的符號(hào),所以我們可以計(jì)算得到每一個(gè)O節(jié)點(diǎn)的資源值。最后把所有O節(jié)點(diǎn)根據(jù)資源值的大小進(jìn)行排序,把資源值高的并且未為U(i)所看過的電影推薦給他。即完成對(duì)一個(gè)用戶的推薦。討論這種方法來自于復(fù)雜網(wǎng)絡(luò)的研究(用于推薦時(shí)作者稱該方法為Network-BasedInference
15、,NBI),在某些方面卻與協(xié)同過濾(CF)有著異曲同工之妙,都是利用一個(gè)同好網(wǎng)絡(luò)進(jìn)行社會(huì)化的推薦。相比而言,CF的原理更為直接,從矢量計(jì)算的角度來理解顯得很簡(jiǎn)單明了。NBI本質(zhì)上也利用用戶之間的共同興趣對(duì)條目進(jìn)行劃分,但其基礎(chǔ)是網(wǎng)絡(luò)的動(dòng)力學(xué),看起來并不那么地直觀(但喜歡動(dòng)態(tài)變化的人會(huì)覺得這個(gè)很優(yōu)美)。據(jù)作者對(duì)一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的測(cè)試結(jié)果聲稱,NBI在預(yù)測(cè)性能上相比于CF存在著優(yōu)勢(shì)。推薦系統(tǒng)參數(shù)說明:M為用戶數(shù);N為對(duì)象(object,item)數(shù);i,j代表用戶表小方式;q、d為商品的表示方式;沁即為用戶i對(duì)0的評(píng)價(jià)推薦系統(tǒng)分類:基于內(nèi)容的推薦:推薦的商品是那些與目標(biāo)用戶以前喜歡的商品在內(nèi)容上相似
16、。協(xié)同推薦:推薦的商品是基于很多用戶對(duì)該商品的評(píng)價(jià)的基礎(chǔ)上選擇的。又可分為:基于內(nèi)存的協(xié)同過濾(Memory-basedcollaborativefiltering):推薦的商品是與目標(biāo)用戶具有相似偏好的用戶喜歡的商品?;蛘呤悄切┡c目標(biāo)用戶喜歡的其他商品相似的商品。主要模型包括:1)貝葉斯網(wǎng)絡(luò)模型(Bayesiannetworksmodels2)聚類模型(clusteringmodels)3)潛在語義模型(latentsemanticmodels)4)MD喉型(MDPmodel)基于模型的協(xié)同過濾(Model-basedcollaborativefiltering):是由模式選擇的,這些模式可
17、以識(shí)別輸入數(shù)據(jù)的模型。1)基于用戶的2)基于商品的混合方法:將協(xié)同和基于內(nèi)容的方法結(jié)合起來。3.4推薦的評(píng)價(jià)MetricsRankLTable3:Summaryofthepresentedrecommendationmetrics.Thethirdcolumnrepresentsthepreferenceofthemetric(e.g.,smallerMAEmeanshigherratingaccuracy).Thefourthcolumndescribesthescopeofthemetric.Thelasttwocolumnsshowwhetherthemetricisobtainedfr
18、omarankingandwhetheritdependsofthelengthoftherecommendationlistL.NameSvml>o|PretrreTirrSmpeMAEsmallraringciccurac'RMSKsnudlratingarrtiracyBrarsoiiPCCUrgrr?iriiirnrrHntinnSlJrHniVltlhrgrratingfunrlaricjnKeiidall>FanTlargtratingcurrelatiunNDPMXDPfstnUrankingrorrelatiimPwdsionwn川似<Htkni;u&
19、lt;nr;iiyRw'alKLlail;i-<atintLrU'cinitrF-si'urtfRQcLiilicalionnecimnAUCAUClarge<ntinu泣RankingscoifRSsniallTriiikins;ncfiiriKyilnli-lifcutilih-HL(LlargeionUkcountedCumulativeDCG(b,L)hlL,atlstactiuuandpteckiuliRruik-biasedPrecisionnBPp,L)laiECsatisfactionandprecisionHamminEdi?tnnwUL)
20、largeintcr-<iivcrsir-Iiitrasimilarity5MLiintradiversityPcjplLlJLiily內(nèi)hiiihIIlirprisulriliilnovellyStll-iiilornidi<triulurgcUTKXprt1Exh“,4Iht.r/anddiTrsitv3.4.1 精確度度量(AccuracyMatrics)1)給定一個(gè)用戶i,推薦系統(tǒng)對(duì)所有i沒有的商品進(jìn)行排序,然后推薦最好的幾個(gè)商品給用戶io如何評(píng)價(jià)一個(gè)推薦系統(tǒng)推薦的結(jié)果。評(píng)價(jià)度量標(biāo)準(zhǔn)有:評(píng)分精確性,有兩種方法來計(jì)算預(yù)測(cè)的評(píng)分與真實(shí)評(píng)分的接近程度,即MeanAbsoluteE
21、rror(MAE),RootMeanSquaredError(RMSE)MAE二RMSE參數(shù)說明:Ep飛即為用戶i對(duì)%口即為用戶i對(duì)Ep-zct1£(丁沁-八0爐的真實(shí)評(píng)價(jià);的預(yù)測(cè)評(píng)價(jià);即為隱藏掉的用戶-商品評(píng)分集;1/2這兩個(gè)算法那缺陷是:對(duì)list中的商品一視同仁,不考慮他們?cè)谕扑]list中的位置。優(yōu)點(diǎn)是簡(jiǎn)單性。且結(jié)果越小,推薦效果越好。2)評(píng)分和排名相關(guān)性另一個(gè)評(píng)估預(yù)測(cè)準(zhǔn)確性的方法是計(jì)算預(yù)測(cè)值與真實(shí)評(píng)分之間的相關(guān)性。Spearmancorrelation;3.Kendall'sTau有三種相2.the關(guān)性計(jì)算方法:1.Pearsonproduct-momentcorre
22、lation皮爾森相關(guān)性計(jì)算:PCC=£式九一»(4一)別是真實(shí)評(píng)分和預(yù)測(cè)評(píng)分。斯皮爾曼才目關(guān)系數(shù)(Spearmancorrelationcoefficient),二產(chǎn)")3一加),(招一可步一刃2即斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)于樣本容量為n的樣本,n個(gè)原始數(shù)據(jù)被轉(zhuǎn)換成等級(jí)數(shù)據(jù),原始數(shù)據(jù)依據(jù)其在總體數(shù)據(jù)中平均的降序位置,被分配了一個(gè)相應(yīng)的等級(jí)。實(shí)際應(yīng)用中,變量間的連結(jié)是無關(guān)緊要的,于是可以通過簡(jiǎn)單的步驟計(jì)算p.被觀測(cè)的兩個(gè)變量的等級(jí)的差值由=索=陰計(jì)算步驟為:首先,我們必須根據(jù)以下步驟計(jì)算出1 .排列第一列數(shù)據(jù)(Xi)。創(chuàng)建新列(xi)并賦以等級(jí)值1,2,3,.n。2
23、.然后,排列第二列數(shù)據(jù)(Yi).創(chuàng)建第四列(yi),并相似地賦以等級(jí)值1,2,3,.n。3 .創(chuàng)建第五列di保存兩個(gè)等級(jí)列的差值(川)和朝).4 .創(chuàng)建最后一列W保存&的平方.Kendall'sTau:跟斯皮爾曼相關(guān)系數(shù)相似,也是計(jì)算評(píng)分的等級(jí),計(jì)算公式為:C-DT«,r,(C+/+Sr)(C+D+S-',c為預(yù)測(cè)評(píng)分在正確的等級(jí)排名上的等級(jí)數(shù),D是預(yù)測(cè)在錯(cuò)誤的等級(jí)排名的等級(jí)數(shù)。丁=1,即預(yù)測(cè)等級(jí)與真實(shí)等級(jí)完全相同時(shí),丁=-1,當(dāng)預(yù)測(cè)等級(jí)與真實(shí)等級(jí)完全相反時(shí)。St為真實(shí)評(píng)分相同的商品數(shù)量。Sp是商品對(duì)預(yù)測(cè)評(píng)分相同時(shí)的數(shù)值。Kendall'stau是數(shù)學(xué)
24、統(tǒng)計(jì)中一個(gè)常用的系數(shù),用來描述兩個(gè)序列的相關(guān)系數(shù)。這是一個(gè)很有用的參數(shù),可以用來比較兩個(gè)序列的相似性,例如可以用于搜索引擎的排序結(jié)果的好壞。比較一個(gè)序列與一個(gè)類似標(biāo)準(zhǔn)答案的排序序列的相似性(人工評(píng)價(jià)),得出排序序列的有效性。舉例:如果兩個(gè)序列完全一致,則Kendall'stau值為1,兩個(gè)毫不相關(guān)的序列的Kendall'stau值為0,而兩個(gè)互逆的序列的Kendall'stau系數(shù)為-1.具體的計(jì)算方式為:1-2*symDif/(n*(n-1),其中n為排列的長(zhǎng)度(兩個(gè)序列的長(zhǎng)度相同),symDif為對(duì)稱距離。對(duì)稱距離的計(jì)算方式如下:對(duì)于兩個(gè)給定的序列S1=a,b,c,
25、d;S2=a,c,b,d.分別找出兩個(gè)序列的二元約束集。在這個(gè)仞子中S1的所有二元約束集為(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),S2的所有二元約束集為(a,c),(a,b),(a,d),(c,b),(c,d),(b,d),比較兩個(gè)二元約束集,其中不同的二元約束有兩個(gè)(b,c)和(c,b),所以對(duì)稱距離為2。代入上面的計(jì)算公式可以得到這兩個(gè)序列的相關(guān)系數(shù)為:1-2*2/(4*3)=2/3=0.667thenormalizeddistance-basedperformancemeasure(NDPM)計(jì)算公式為:2C+CuNDPM二一二一.試用于用戶對(duì)商品非常的喜
26、歡的情況。3)分類精度度量(ClassificationAccuracyMetrics)該類度量適合像“尋找好商品”這類的只有隱含評(píng)分的任務(wù),即沒有確切的評(píng)分值。計(jì)算方法有:1) AUC(AreaUnderROCCurve).該方法試圖檢測(cè)一個(gè)推薦系統(tǒng)區(qū)分相關(guān)商品(一個(gè)用戶喜歡的)和非相關(guān)商品(其他用戶)的效果。計(jì)算時(shí),是比較相關(guān)商品被推薦的概率和非相關(guān)商品被推薦的概率。艱;0.5a”,nr表示相關(guān)產(chǎn)品比非相關(guān)商品取得更高得分的次數(shù);ntf表示兩方得相等的分?jǐn)?shù)時(shí)的次數(shù)。當(dāng)所有相關(guān)商品比非相關(guān)商品分?jǐn)?shù)都高時(shí),AUC=1表示一個(gè)非常好白推薦列表;AUC=0.5時(shí),表示一個(gè)隨機(jī)的等級(jí)推薦列表。2)
27、RankingScore與AUC相似,一個(gè)給定用戶,我們檢測(cè)的是該用戶推薦列表中的相關(guān)對(duì)象(即用戶喜歡的對(duì)象)的相對(duì)排名。當(dāng)有O個(gè)商品被推薦時(shí),那么排名r的一個(gè)相關(guān)商品的相對(duì)排名為r/o。然后對(duì)所有用戶的相關(guān)商品的相對(duì)排名取平均值,我們得到一個(gè)平均排名得分RS,越小說明該算準(zhǔn)確性越高。precisionandrecallofrecommendation只考慮推薦列表中的最高L個(gè)用戶相關(guān)商品。給定一個(gè)用戶i凡=竽表示在推薦列表中的最高L個(gè)相關(guān)商品(由i收集的商品)的數(shù)量。Di表示用戶i的相關(guān)商品的總數(shù)。L表示取最高排名的前L個(gè)。RDR(z)表示對(duì)所有至少有一個(gè)相關(guān)對(duì)象的用戶的的和的平均值;最后公
28、式為:MNNeP(L)=PL)r:Sr(L)=R(L)t,MLm是用戶數(shù)量,N是商品數(shù)量;D是相關(guān)商品的總數(shù)量。3.4.2等級(jí)加權(quán)指數(shù)(Rank-weightedIndexes)通過考慮每個(gè)相關(guān)商品的位置并對(duì)其進(jìn)行加權(quán),可以很好的檢測(cè)用戶滿意度。下三種方法:1)Half-lifeUtility.4,基于相似的方法4.1 預(yù)測(cè)評(píng)分算法4.1.1. 用戶相似度(Usersimilarity)通過集合其他用戶的評(píng)分?jǐn)?shù)據(jù),來自動(dòng)的對(duì)用戶喜好進(jìn)行預(yù)測(cè)。計(jì)算用戶u對(duì)已評(píng)分過的商品的平均評(píng)分:小二O£口針即為用戶u對(duì)商品”的評(píng)分;宜為用戶u已評(píng)分過的商品集合;用戶U對(duì)商品Q的預(yù)測(cè)評(píng)分公式計(jì)算為ua
29、%十&E品式必一參數(shù)說明:Uu為與用戶u相似的用戶集合;曉助為用戶u與用戶v之間的相似度;K.=_J-,為歸一化因子。當(dāng)評(píng)分不是清晰的,而是隱含的,只知道用戶所收集的商品集,我們欲預(yù)測(cè)一個(gè)用戶以后會(huì)搜集的商品。此時(shí),公式為:Pud一PuQ為用戶u薦得是一個(gè)用戶-商品關(guān)聯(lián)矩陣,即當(dāng)用戶V搜集了0時(shí),值為1,否則為0;即為用戶u的鄰居集合,選擇鄰居的策略有:1)關(guān)聯(lián)閾值;選擇所有相似度大于給定閾值的用戶。2)設(shè)置鄰居最大數(shù)量;選擇k個(gè)最大的與用戶u相似的用戶。4.1.2. 商品相似(Itemsimilarity,即為商品之間的相似,使用加權(quán)平均來估算未知評(píng)分££公Sc附
30、岬IACI參數(shù)介紹:Sia,表示對(duì)兩個(gè)商品都評(píng)分了的用戶集合;參數(shù)說明:,即為用戶U已評(píng)價(jià)過的商品集合;優(yōu)勢(shì):該方法中商品之間的相似度相比用戶之間的相似度更靜態(tài)化;混合協(xié)同過濾算法:結(jié)合基于用戶、商品或者屬性的相似度;該方法不僅提高了預(yù)測(cè)精確度,而且處理數(shù)據(jù)稀疏性更健壯性。4.1.3. SlopeOnepredictor是基于商品的協(xié)同過濾最簡(jiǎn)單的形式尸甲一丁山devj表示所有用戶對(duì),3商品與商品的平均偏差。給定評(píng)分,則用戶u對(duì)N的預(yù)測(cè)評(píng)分為:&北+胡¥加,加權(quán)SlopeOne算法:雙極SlopeOne算法(Bi-PolarSlopeOne由給定的用戶將商品分組成喜歡和不喜歡
31、兩組(一個(gè)直接的標(biāo)示喜歡和不喜歡的準(zhǔn)則是檢查他們的評(píng)分相比指定用戶授予的平均評(píng)分是高還是低)。這兩個(gè)組分別進(jìn)行預(yù)測(cè),即S+i(q;8),§一1隆,8)。他們各自的偏差是:最后的合成的一個(gè)預(yù)測(cè)公式是:區(qū)的0>十d咽)+EJS-1(q)|(r/十d唱)Ejs仇|+£甘(用。)|SlopOne算法可以和基于用戶的協(xié)同過濾結(jié)合,通過填充用戶-商品矩陣的空白評(píng)分,來解決數(shù)據(jù)稀疏性問題,提高預(yù)測(cè)精確度。4.2 .如何定義相似度(Howtodefinesimilarity)基于相似度的算法的關(guān)鍵問題是如何定義用戶之間或者商品之間的相似度,當(dāng)有確切的評(píng)分時(shí),相似度一般定義相關(guān)性度量比
32、如Pearson;當(dāng)沒有有效的評(píng)分信息時(shí),相似度可以從輸入數(shù)據(jù)的結(jié)構(gòu)屬性來推斷(比如當(dāng)兩個(gè)用戶都喜歡或者買了許多相同的商品);也可以從額外的信息比如用戶屬性、標(biāo)簽、商品內(nèi)容元數(shù)據(jù)等信息來評(píng)估相似度。4.2.1. .基于評(píng)分的相似度(Rating-basedsimilarity)計(jì)算相似度的算法有:1) Cosineindex2)皮爾森系數(shù)Pearsoncoefficient(PC)評(píng)分相關(guān)性可由PC方法,為了進(jìn)行量化相似性,有如下公式:普(九。一七產(chǎn),£<1£0汽匕(s七產(chǎn)參數(shù)說明:constrained,即用戶u和用戶v都評(píng)價(jià)過的商品集;3)約束性皮爾森系數(shù)(Con
33、strainedPearsoncoefficient在上面的公式中,由中心評(píng)分代替用戶評(píng)分平均值(中心評(píng)分即為,假設(shè)分?jǐn)?shù)從1到5,那么中心評(píng)分即為3)4)加權(quán)皮爾森系數(shù)(weightedPearsoncoefficientbasedontheideaofcapturingtheconfidencethatcanbeplacedonsimilarityvalues(whentwousersevaluatedonlyafewobjectsincommon,theirpotentiallyhighsimilarityshouldnotbetrustedasmuchasforapairofusersw
34、ithmanyoverlappingobjects).備吃forO.V<H,otherwise系數(shù)說明:H是一個(gè)閾值,由實(shí)驗(yàn)決定。5)商品間的皮爾森相似度參數(shù)說明:小£,同時(shí)評(píng)價(jià)qand8.的用戶的集合;才),商品0的所有評(píng)分的平均值;實(shí)驗(yàn)證明,皮爾森系數(shù)比Cosineindex表現(xiàn)的更好。4.2.2. .結(jié)構(gòu)相似性(Structuralsimilarity)結(jié)構(gòu)化相似性是基于數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)的,最近調(diào)查發(fā)現(xiàn),基于結(jié)構(gòu)的相似性在推薦效果方面比皮爾森系數(shù)效果更好,特別是數(shù)據(jù)稀疏時(shí)。為了計(jì)算結(jié)構(gòu)相似,可將用戶-商品對(duì)分網(wǎng)絡(luò)分成一個(gè)用戶-用戶或者商品-商品網(wǎng)絡(luò)。最簡(jiǎn)單的案例是,判斷兩個(gè)
35、用戶是否相似的方法是如果兩個(gè)用戶對(duì)至少一個(gè)共同商品都參與評(píng)分了,則認(rèn)為相似。這方面的相似性度量主要有:node-dependentvs.path-dependent,localvs.global,parameterfreevs.parameter-dependent(i)節(jié)點(diǎn)獨(dú)立相似度(node-dependentsimilarity()最簡(jiǎn)單的加權(quán)相似度指數(shù)是CN(CommonNeighbors),兩個(gè)節(jié)點(diǎn)的相似度是直接由共同的鄰居個(gè)數(shù)決定的。然后延伸出六個(gè)變化的相似度度量1)SaltonIndex2)JaccardIndex3)SorensenIndex4);uL5)1?.'11:
36、,H6)Leicht-HolmeNewmanIndex(LHN16)TableMhI-Ihstia.licali.kHhdlu!isufllieiiotkYk此1HLjhlHiitiilHirilviiicliitsi.工tkaiutiy;Llic:sclulliiijhburs.utlicjdejrwbkbcaiihe-I'itlu-iaUm邛uranubjutlijwdu)hiiiLhishrulnudejIndexDefinitionCM*jr(i=S:ilron,譚"=rnr(,/品兒JlR'ClUd%=nr,/|rTurJSimm8n=力工c/1/(鼠+4)
37、1114息ayHUI=r.rCIrj|/masULHM3nr,nrj/(A.Jty)AAICAPA=L.MEu1,上再“=卜卡警(ii) Path-dependentsimilarity兩個(gè)節(jié)點(diǎn)相似即為他們之間存在了很多連接的路徑。A”即為N次方鄰接矩陣,里面的元素是不同對(duì)節(jié)點(diǎn)之間存在的不同路徑數(shù)量。度量公式為:4;(A%)+e(Aa)xy,該公式只包含長(zhǎng)度為2,3的路徑,提出了包含所有長(zhǎng)度路徑白計(jì)算方法:Katzsimilarity.£必=S&y+的A2K+樂(A?K+.參數(shù)說明:,阻尼因數(shù),控制路徑權(quán)重;(iii) Random-walk-basedsimilarityA
38、verageCommuteTime:節(jié)點(diǎn)x與節(jié)點(diǎn)y之間的平均commute時(shí)間即為從節(jié)點(diǎn)x到節(jié)點(diǎn)y加上從y到x走的平均步數(shù)??梢酝ㄟ^網(wǎng)絡(luò)的拉普拉斯算子矩陣L,的偽逆獲取。皿(身)猾=2(L%)E,E為網(wǎng)絡(luò)中的邊數(shù)。那么節(jié)點(diǎn)x與節(jié)點(diǎn)y的相似度公式為:ACT_'即通勤時(shí)間的倒0一(L»十(L+K2(L%('osiue-basedtniL+RandomWalkwithRestartSimRank4.2.3. Similarityinvolvingexternalinformation(i) Attributes.兩個(gè)用戶(商品)相似是通過計(jì)算他們相應(yīng)屬性向量的相關(guān)性。比如一
39、個(gè)用戶的個(gè)人文檔包括年齡、性別、國(guó)籍、位置、工作等。那么可以通過認(rèn)為兩個(gè)相似用戶有很多共同的特征時(shí)為相似用戶,進(jìn)而得到量化相似。有一篇文章寫的是混合推薦方法,通過使用用戶屬性和評(píng)分信息來提高推薦的精確度。(ii) Contents.現(xiàn)在存在很多可以自動(dòng)抽取一個(gè)有效對(duì)象的內(nèi)容和元數(shù)據(jù)的技術(shù)。因此對(duì)象相似性可以通過計(jì)算給定對(duì)象的內(nèi)容比較進(jìn)行確定。該方法一般叫基于內(nèi)容的推薦算法。該推薦算法一般通過分析目標(biāo)用戶評(píng)分過的對(duì)象的內(nèi)容。故問題變?yōu)槿绾螌?duì)給定一個(gè)由目標(biāo)用戶喜歡的對(duì)象的內(nèi)容來找出與該內(nèi)容相似的對(duì)象。典型方法是:TF-IDF(termfrequency-inversedocumentfrequen
40、cy),該方法常用來信息檢索和文本挖掘。叱©=x.工二參數(shù)說明:t是一個(gè)術(shù)語;d是一個(gè)文檔;表示t在文檔d中的出現(xiàn)次數(shù);ID|表示所有觀察文檔的數(shù)量;11'Ld,用于檢測(cè)對(duì)象的相似度;基于內(nèi)容的和協(xié)同過濾方法都有各自的局限性。比如CF無法精確的合并屬性信息,并且面臨數(shù)據(jù)稀疏性和冷啟動(dòng)問題。而基于內(nèi)容的系統(tǒng)沒有不必要合并用戶喜好信息?;旌戏椒ㄓ兴念悾?i) implementseparatecollaborativeandcontent-basedmethodsandthencombinetheirpredictions(ii) addcontent-basedcharacte
41、risticstocollaborativemodels(iii) addcollaborativecharacteristicstocontent-basedmodels(iv) developageneralunifiedmodelthatintegratebothcontent-basedandcollaborativecharacteristics而這些方法只能用在對(duì)象有很多可以自動(dòng)抽取的內(nèi)容信息時(shí)才有效。一般用在書籍,文章,書簽等情況,而無法使用在視頻,音樂和圖片。(iii) Tags.隨著Web2.0的出現(xiàn),協(xié)同標(biāo)簽系統(tǒng)也出現(xiàn)了,標(biāo)簽系統(tǒng)允許用戶自由的指定關(guān)鍵詞,而不會(huì)有一個(gè)詞匯的
42、限制。標(biāo)簽信息的出現(xiàn),通過用戶領(lǐng)域或者商品領(lǐng)域的標(biāo)簽向量,使得推薦系統(tǒng)可以很容易的計(jì)算用戶相似度和商品相似度。為了減少垃圾郵件的影響以及擴(kuò)大個(gè)性化用戶喜好,權(quán)重技術(shù)經(jīng)常用來顯示在給定的標(biāo)簽向量中各個(gè)元素的重要性。5 .降維技術(shù)(DimensionalityReductionTechniques)主要目的是減少相關(guān)數(shù)據(jù)的規(guī)模,同時(shí)保留住主要信息。一般用在數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),聚類分析。主要的技術(shù)包括:特征提取(充分利用隱藏變量、或者叫做潛在變量)。比如在電影選擇時(shí),潛在用戶可能考慮到genres,比如動(dòng)作片、浪漫片或者喜劇片等特征,這些變量經(jīng)常描述為多維向量。用于實(shí)現(xiàn)推薦系統(tǒng)的幾、Bayesian
43、個(gè)降維技術(shù)有:singularvaluedecomposition(SVD)clustering、probabilisticlatentsemanticanalysis(pLSA)latentdirichletallocation(LDA)5.1 奇異值分解(SVD)R矩陣是N*M,矩陣元素廠沁表示用戶i對(duì)商品。的評(píng)分(如果還沒有評(píng)分,則其相應(yīng)值為0)。假設(shè)沒有數(shù)值評(píng)分的情況下,R是一個(gè)關(guān)聯(lián)矩陣,即如果用戶-商品連接,則/ki=1,否則為0.降維技術(shù)主要是用于生成K個(gè)隱藏變量,這K個(gè)變量將用戶的興趣和商品屬性歸類。原始的R矩陣為:參數(shù)說明:w和v分別表示維數(shù)為NxK、KxM的矩陣。w矩陣元素是用戶的興趣信息,V元素是商品的內(nèi)容信息。當(dāng)隱藏變量數(shù)值K小于N、M時(shí),那么表示R的WV中的NM改為NK+KM,即將矩陣的維數(shù)降低。該方法叫矩陣因子分解(MF,matrixfactorization)。為了得到W和V,SVD方法是LSA的一個(gè)常用代數(shù)工具,用于減少相關(guān)數(shù)據(jù),并找到一個(gè)相似的R矩陣。在SVD中,R表示形式為:R=工是一個(gè)AXA對(duì)角矩陣,且其元素
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 原廠服務(wù)合同范本
- 利益保障合同范本
- 中醫(yī)師承拜師合同范本
- 個(gè)體房屋租賃合同范本
- 發(fā)包合同范本格式
- 內(nèi)蒙辣椒購(gòu)銷合同范本
- 賣車協(xié)議合同范例
- 專用配件銷售合同范本
- 叉車承攬合同范例
- 農(nóng)業(yè)養(yǎng)豪豬合同范本
- 學(xué)前兒童游戲智慧樹知到期末考試答案章節(jié)答案2024年麗水學(xué)院
- 2023-2024學(xué)年高中政治統(tǒng)編版必修三第四課 人民民主專政的社會(huì)主義國(guó)家 同步練習(xí)
- ERP原理及應(yīng)用教程(第四版)全套教學(xué)課件
- 湖州市第七屆“期望杯”小學(xué)數(shù)學(xué)競(jìng)賽試題(六年級(jí))附參考答案
- 壓力容器作業(yè)人員培訓(xùn)課件下
- 【初中數(shù)學(xué)】你有多少種畫平行線的方法課件 2023-2024學(xué)年人教版數(shù)學(xué)七年級(jí)下冊(cè)
- 第三單元簡(jiǎn)易方程(二)(知識(shí)精講+典題精練)-2023-2024學(xué)年五年級(jí)下冊(cè)數(shù)學(xué)高頻考點(diǎn)重難點(diǎn)講義(滬教版)
- 《中國(guó)傳統(tǒng)民歌欣賞》課件
- JGJ107-2010鋼筋機(jī)械連接技術(shù)規(guī)程課件
- 高鐵無砟軌道精調(diào)精測(cè)課件
- 西班牙語筆記A1
評(píng)論
0/150
提交評(píng)論