北郵郭軍web搜索chapter6_第1頁(yè)
北郵郭軍web搜索chapter6_第2頁(yè)
北郵郭軍web搜索chapter6_第3頁(yè)
北郵郭軍web搜索chapter6_第4頁(yè)
北郵郭軍web搜索chapter6_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Web搜索

郭軍

北京郵電大學(xué)

第6章信息推薦關(guān)聯(lián)規(guī)則挖掘的基本算法可信關(guān)聯(lián)規(guī)則及其挖掘算法基于FPT的超團(tuán)模式快速挖掘算法協(xié)同過(guò)濾推薦的基本算法基于局部偏好的協(xié)同過(guò)濾推薦算法基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾面向排序的協(xié)同過(guò)濾引言應(yīng)用舉例在電子商務(wù)系統(tǒng)中,新商品會(huì)不斷推出,向一個(gè)用戶主動(dòng)提供哪些商品信息便是一個(gè)典型的信息推薦問(wèn)題InformationRetrieval被檢索的文檔相對(duì)穩(wěn)定用戶查詢需求不同InformationFilter信息資源動(dòng)態(tài)變化用戶需求相對(duì)固定InformationRecommendation信息資源動(dòng)態(tài)變化用戶的需求不確切,只能通過(guò)歷史數(shù)據(jù)和相關(guān)數(shù)據(jù)進(jìn)行挖掘(預(yù)測(cè))信息推薦技術(shù)的種類基于內(nèi)容(contentbased)對(duì)用戶和商品的描述信息分別建模通過(guò)比較兩類模型之間關(guān)聯(lián)度(相似度)進(jìn)行推薦基于關(guān)聯(lián)(associationbased)通過(guò)歷史上的交易或評(píng)價(jià)數(shù)據(jù)挖掘用戶之間、商品之間、用戶-商品之間的關(guān)聯(lián)性基于上述關(guān)聯(lián)性預(yù)測(cè)用戶對(duì)商品的態(tài)度不需要關(guān)于用戶和商品的描述信息通常也不需要領(lǐng)域知識(shí)關(guān)聯(lián)規(guī)則挖掘(AssociationRulesMining)和協(xié)同過(guò)濾(CollaborativeFiltering)是兩種主要算法關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)挖掘的一個(gè)重要研究方向1993年,IBM的R.Agrawal等人提出在大型商品交易數(shù)據(jù)庫(kù)中挖掘商品項(xiàng)(Item)之間的關(guān)聯(lián)規(guī)則的問(wèn)題,并提出Apriori算法后提出多種改進(jìn)算法,以減小計(jì)算量或內(nèi)存的占用量最初主要應(yīng)用在大型超市的商品關(guān)系的挖掘等方面目前已在信息推薦中得到重要應(yīng)用協(xié)同過(guò)濾算法來(lái)自信息推薦系統(tǒng)方法:通過(guò)他人對(duì)某一商品已知的需求來(lái)預(yù)測(cè)一個(gè)用戶對(duì)該商品未知的需求基本假設(shè):歷史上的需求類似,則當(dāng)前的需求也類似算法的核心:通過(guò)歷史數(shù)據(jù)找出與被預(yù)測(cè)用戶有類似需求的用戶(組)基于用戶(Userbased)的算法基于項(xiàng)目(Itembased)的算法關(guān)聯(lián)規(guī)則挖掘的基本算法基本定義I={i1,i2,…,im}為m個(gè)不同項(xiàng)目的集合事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn},其中每個(gè)交易Ti是I中一組項(xiàng)目的集合關(guān)聯(lián)規(guī)則就是一個(gè)形如X→Y的蘊(yùn)涵式,其中X?I,Y?I,而且X∩Y=支持度和置信度是傳統(tǒng)關(guān)聯(lián)規(guī)則的主要客觀度量如果D中S%的事務(wù)同時(shí)包含X和Y,則關(guān)聯(lián)規(guī)則X→Y的支持度為S%,記support(X→Y)=S%若D中包含X的事務(wù)中有C%也包含Y,則關(guān)聯(lián)規(guī)則X→Y的置信度為C%,記confidence(X→Y)=P(Y|X)=C%同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強(qiáng)規(guī)則挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生強(qiáng)規(guī)則的問(wèn)題Apriori算法關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟找出D中滿足minSup的k項(xiàng)集,由這些項(xiàng)集生成關(guān)聯(lián)規(guī)則找出置信度不小于minConf的規(guī)則頻繁項(xiàng)集的向下封閉性頻繁項(xiàng)集的所有非空子集一定是頻繁項(xiàng)集Apriori算法把由頻繁k-1項(xiàng)集的集合Fk-1生成頻繁k項(xiàng)集的集合Fk的過(guò)程分為連接和剪枝兩步連接和剪枝連接:將Fk-1中的項(xiàng)集進(jìn)行連接,產(chǎn)生k項(xiàng)集的集合Ck假設(shè)f1和f2是Fk-1中的項(xiàng)集,記fi[j]為fi的第j項(xiàng),并令fi[j-1]≤fi[j]如果f1和f2滿足:(f1[1]=f2[1])∧…∧(f1[k-2]=f2[k-2])∧(f1[k-1]<f2[k-1])那么稱f1和f2是可連接的,進(jìn)行連接操作,結(jié)果為一個(gè)k項(xiàng)集f1[1]f1[2]…f1[k-1]f2[k-1]剪枝:將生成的Ck中的非頻繁項(xiàng)集刪除Ck中的某個(gè)候選頻繁k項(xiàng)集不被刪除的條件是:它的所有k-1項(xiàng)子集都在Fk-1中Ck中保留下來(lái)的k項(xiàng)集構(gòu)成Fk遞推挖掘方法首先產(chǎn)生頻繁1項(xiàng)集F1,然后是頻繁2項(xiàng)集F2,直到某個(gè)r值使得Fr為空,算法停止在第k次循環(huán)中,先產(chǎn)生k項(xiàng)集的集合Ck頻繁項(xiàng)集Fk是Ck的一個(gè)子集:Ck中的每個(gè)元素需在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證來(lái)決定其是否加入FkApriori算法的兩大缺點(diǎn)可能產(chǎn)生大量的候選集需要重復(fù)掃描數(shù)據(jù)庫(kù)Apriori算法例

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TID

ListofItemID001

002

003

004

005

006

007

008ABCDEFGABCDGHIEFGHJCDEGIABCDGIFIJEGHIDIminsup=40%minconf=80%AJIHGFEDCB3345436362JABDFH4243244424CDG:CD→G(4/4)CG→D(4/4)

DG→C(4/4)DI:D→I(4/5)I→D(4/6)EG:E→G(4/4)G→E(4/6)GI:G→I(4/6)I→G(4/6)CD→G(50%100%)CG→D(50%100%)DG→C(50%100%)D→I(50%80%)E→G(50%100%)43CECGCIEGEIGICDDEDGDICECGCIEGEIGICDDEDGDICDGDGIDGIApriori算法描述輸入:事務(wù)數(shù)據(jù)庫(kù)D,最小支持度minsup輸出:頻繁項(xiàng)目集合F符號(hào):X—項(xiàng)目集合;Fi—頻繁i-項(xiàng)集集合步驟:(1)F1={X|XD,support(X)minsup};(2)for(k=2;Fk-1!=;k=k+1){(3) Ck=apriori_gen(Fk-1,minsup);(4) foralltransactionstD{(5) support(C)=support(C)+1,CCk}(6) Fk={C|CCk,support(C)minsup};}(7)F=Fk;Apriori算法的優(yōu)化剪枝技術(shù)原理項(xiàng)集是頻繁的當(dāng)且僅當(dāng)它的所有子集都是頻繁的如果Ck中某個(gè)候選項(xiàng)集有任意一個(gè)(k-1)子集不屬于Fk-1,則這個(gè)項(xiàng)集就應(yīng)被剪掉散列用于生成頻繁2項(xiàng)集F2劃分把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊采樣利用數(shù)據(jù)子集進(jìn)行挖掘,然后在整個(gè)數(shù)據(jù)集中驗(yàn)證基于FPT的算法

韓家煒[Han00]提出利用頻繁模式樹(shù)FPT進(jìn)行頻繁模式挖掘的FP-growth算法1)采用FPT存放數(shù)據(jù)庫(kù)的主要信息,算法只需掃描數(shù)據(jù)庫(kù)兩次2)不需要產(chǎn)生候選項(xiàng)集,從而減少了產(chǎn)生和測(cè)試候選項(xiàng)集所耗費(fèi)的大量時(shí)間3)采用分而治之的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘,在挖掘過(guò)程中,大大減少了搜索空間FPT的樹(shù)結(jié)構(gòu)構(gòu)成標(biāo)記為“null”的根節(jié)點(diǎn)(root)項(xiàng)前綴子樹(shù)(itemprefixsubtrees)的集合頻繁項(xiàng)頭表(frequent-itemheadertable)項(xiàng)前綴子樹(shù)中的每個(gè)節(jié)點(diǎn)包含5個(gè)域item-namecountnode-linkchildren-linkparent-link頻繁項(xiàng)頭表中的每行至少存儲(chǔ)兩個(gè)域item-namenode-linkFPT例

CreateFPtree()算法Step1掃描DB中的每個(gè)事務(wù)ti,收集由所有項(xiàng)構(gòu)成的集合F及其支持度Step2根據(jù)最小支持度,獲得F中的頻繁項(xiàng),并按照支持度降序的順序?qū)⑺鼈兎湃隖PT的項(xiàng)頭表Step3建立FPT的根節(jié)點(diǎn)T,并將其標(biāo)記為“null”Step4對(duì)DB中的每個(gè)事務(wù)ti,根據(jù)項(xiàng)頭表選擇ti中的頻繁項(xiàng)并對(duì)它們進(jìn)行排序以構(gòu)成ri;如果ri不為空,調(diào)用insert_tree(ri,T)Step5輸出以T為根節(jié)點(diǎn)的FPTinsert_tree()算法輸入:項(xiàng)集{p1,P},節(jié)點(diǎn)N輸出:無(wú)符號(hào):n代表樹(shù)中節(jié)點(diǎn)N的子節(jié)點(diǎn)Step1若有N的子節(jié)點(diǎn)n,使得n.item-name=p1.item-name,則n.count=n.count+1,否則轉(zhuǎn)Step2Step2建立N的子節(jié)點(diǎn)n,執(zhí)行n.item-name=p1.item-name;n.parent-link=N;n.count=1;將節(jié)點(diǎn)n加入到項(xiàng)p1.item-name的節(jié)點(diǎn)鏈接node-link中Step3如果P不為空,則繼續(xù)調(diào)用insert_tree(P,n)111FP-Growth例NullGECD6I133minsup=40%minconf=80%GIDC6654I4CD2利用條件FP樹(shù)得到頻繁項(xiàng)集:GEGDCIDGI

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001

002

003

004

005

006

007

008ABCDEFG:GDCEABCDGHI:GIDCEFGHJ:GECDEGI:GlDCEABCDGI:GIDCFIJ:IEGHI:GIEDI:IDE4E1EE1D1111NullGECD6I133GIDC6654I4CD2E4E1EE1D1111NullGECD4111I2CDE1EE111NullGCD411I2CD{E}{E}NullG4{EG}cond.fp-treeofE可信關(guān)聯(lián)規(guī)則及其挖掘算法在數(shù)據(jù)分布嚴(yán)重傾斜的情況下,會(huì)遇到最小支持度難以設(shè)定的問(wèn)題支持度稍一偏高,就會(huì)漏掉很多重要的置信度較高的關(guān)聯(lián)規(guī)則支持度稍一偏低,就會(huì)產(chǎn)生大量的虛假規(guī)則抑制虛假規(guī)則的產(chǎn)生[Omie03]提出了all-confidence興趣度測(cè)度[Xiong03]提出h-confidence興趣度測(cè)度可信關(guān)聯(lián)規(guī)則相關(guān)定義設(shè)I={i1,i2,…,im}是m個(gè)不同項(xiàng)目的集合

給定事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn}若存在k個(gè)項(xiàng)目x1,…,xk,對(duì)于i,j∈{1,…,k}(i≠j)有(xixj)∧(﹁xi﹁xj)則稱由這k個(gè)項(xiàng)目構(gòu)成k項(xiàng)可信關(guān)聯(lián)規(guī)則

(CredibleAssociationRule,CAR),記為R(x1,…,xk)(xixj)(xixj)xixj。其物理含義為:若xi出現(xiàn),則xj出現(xiàn);若xi不出現(xiàn),則xj不出現(xiàn),即xi與xj是同現(xiàn)的規(guī)則中的各個(gè)項(xiàng)目具有很強(qiáng)的親密度/共現(xiàn)度,任意一個(gè)項(xiàng)目的出現(xiàn)很強(qiáng)地暗示規(guī)則中其他項(xiàng)目也會(huì)出現(xiàn)可信度度量k-項(xiàng)可信關(guān)聯(lián)規(guī)則的可信度定義為規(guī)則中任意項(xiàng)目出現(xiàn)時(shí),所有項(xiàng)目同時(shí)出現(xiàn)的概率:

重要性質(zhì):k-項(xiàng)集的可信度不大于其任意子集的可信度例:事務(wù)數(shù)據(jù)庫(kù)中的交易有1000項(xiàng),其中包含項(xiàng)A的交易有20,包含項(xiàng)B的交易有900項(xiàng),同時(shí)包含項(xiàng)AB的交易有15項(xiàng)性質(zhì)命題1:設(shè)可信關(guān)聯(lián)規(guī)則x1x2的置信度為D中x1的支持度為sup(x1),x2的支持度為sup(x2),則有命題2:設(shè)傳統(tǒng)關(guān)聯(lián)規(guī)則x1x2的置信度為C1,

x2x1的置信度為C2,則有用鄰接矩陣求2項(xiàng)可信集2項(xiàng)集鄰接矩陣A={aij}(i,j=1,…n)被定義為:(1)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目集{vi,vj}(i≠j)則矩陣中的元素aij=k(2)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目vi,則矩陣中的元素aii=k2項(xiàng)集鄰接矩陣記為D2可信關(guān)聯(lián)規(guī)則vi

vj的置信度=2項(xiàng)可信集鄰接矩陣若2項(xiàng)集鄰接矩陣D2中非對(duì)角線元素aij所對(duì)應(yīng)的可信關(guān)聯(lián)規(guī)則的置信度小于minconf,則令aij=0,由此形成2項(xiàng)可信集鄰接矩陣,記為Dc2對(duì)Dc2中的每一個(gè)非零元素aij(i≠j),若項(xiàng)目vi和vj的支持度均大于1項(xiàng)集的最小支持度閾值minsup,則稱aij對(duì)應(yīng)的項(xiàng)目集{vi,vj}為2項(xiàng)可信集計(jì)算鄰接矩陣

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001

002

003

004

005

006

007

008ABCDEFGIABCGHICEFGHIJCDEGIABCEGIFIJCEGHIDI2-項(xiàng)集鄰接矩陣itemABCDEFGHIJA3331213130B3331213130C3362526361D1123212030E2252525251F1121232132G3362526361H1130213331I3363536382J0010121122通過(guò)鄰接矩陣求可信2-項(xiàng)集

可信2-項(xiàng)集鄰接矩陣

minconf=0.5minsup=0itemABCDEFGHIJA3330003000B3330003000C3360506360D0003000000E0050505050F0000030002G3360506360H0030003300I0060506080J0000020002EBCDIFAGHJ由k項(xiàng)可信集生成(k+1)項(xiàng)可信集EBCDIFAGHJABC

ABG

ACG

BCG

CEG

CEI

CGH

CGI

EGIABCG

CEGIAB

AC

AG

BC

BG

CE

CG

CH

CI

EG

EI

FJ

GH

GIABC

ABG

ACG

BCG

CEG

CEI

CGH

CGI

EGIABCG

CEGICGH

FJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJFJABCG

CEGICGH

FJ定理設(shè)x1,x2,x3為項(xiàng)目集I中的3個(gè)項(xiàng)目,并且任意兩項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2,Cx2x3,Cx1x3,設(shè)C2min=min{Cx1x2,Cx2x3,Cx1x3},則由x1,x2,x3構(gòu)成的可信關(guān)聯(lián)規(guī)則的可信度Cx1x2x3滿足:(1)Cx1x2x3C2min(2)Cx1x2x3max{0,1.5C2min-0.5}推論設(shè)x1,x2,…,xk,xk+1為項(xiàng)目集I中的k+1個(gè)項(xiàng)目,任意k項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2…xk,…,Cx2x3…xk+1,設(shè)其中最小的可信度為Ckmin,則這k+1個(gè)項(xiàng)目構(gòu)成的規(guī)則的可信度Cx1x2…xkxk+1滿足:(1)Cx1x2…xkxk+1

Ckmin(2)Cx1x2…xkxk+1

max{0,((k+1)Ckmin-1)/k}(3)Cx1x2…xkxk+1

max{0,1-(k+1)(1-C2min)/2}基于極大團(tuán)挖掘可信關(guān)聯(lián)規(guī)則算法特點(diǎn)可以忽略最小支持度的限制采用鄰接矩陣產(chǎn)生2-項(xiàng)可信集,進(jìn)而利用極大團(tuán)思想產(chǎn)生所有的可信集實(shí)驗(yàn)結(jié)果表明,相對(duì)于相關(guān)統(tǒng)計(jì)算法及超團(tuán)挖掘算法等常見(jiàn)算法具有更高的效率和準(zhǔn)確性。各種度量都適用于該方法步驟k-項(xiàng)集≠TF結(jié)束計(jì)算所有1項(xiàng)集,2項(xiàng)集的支持度,存放到鄰接矩陣中用鄰接矩陣求可信2-項(xiàng)集k=2極大團(tuán)方法由可信k項(xiàng)集求所有(k+1)-項(xiàng)集,k++基于FPT的超團(tuán)模式快速挖掘算法h-置信度:設(shè)項(xiàng)集P={i1,i2,…,im}(m≥2),定義其h置信度為min{conf(i1i2,…,im),…,conf(imi1,…,im-1)},記為hconf(P)其中conf為傳統(tǒng)關(guān)聯(lián)規(guī)則的置信度超團(tuán)模式:滿足sup(P)≥且hconf(P)≥的含有m(m≥2)個(gè)項(xiàng)目的項(xiàng)集P

m被稱為超團(tuán)模式P的長(zhǎng)度是最小支持度閾值是最小h置信度閾值當(dāng)為0時(shí),超團(tuán)模式變?yōu)轭l繁模式極大超團(tuán)模式:一個(gè)含有m個(gè)項(xiàng)目的超團(tuán)模式HP,若其任意超集都不再是超團(tuán)模式,則被稱為極大超團(tuán)模式h-置信度設(shè)項(xiàng)集P={a1,a2,…,am}(m2),定義其h-置信度對(duì)于含有m(m2)個(gè)項(xiàng)目的項(xiàng)集P,若sup(P)且hconf(P),則稱P是超團(tuán)模式(hypercliquepattern)極大超團(tuán)模式超團(tuán)模式是可信關(guān)聯(lián)規(guī)則的一種特定形式

基于FPT的超團(tuán)模式和極大超團(tuán)模式挖掘算法特點(diǎn)統(tǒng)一了超團(tuán)模式和極大超團(tuán)模式的挖掘遞歸處理,無(wú)需存儲(chǔ)大量候選項(xiàng)集多種剪枝策略最小支持度剪枝策略、最大支持度剪枝策略、項(xiàng)目自剪枝策略、剩余項(xiàng)目剪枝策略比原有的超團(tuán)模式和極大超團(tuán)模式挖掘算法效率高挖掘思路首先將數(shù)據(jù)庫(kù)構(gòu)造為FPT按支持度依次處理每個(gè)項(xiàng)目,得到包含該項(xiàng)目的超團(tuán)模式或極大超團(tuán)模式構(gòu)造FP-tree數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDItemListSorted001

002

003

004

005abcdeabcdcefcdeabceceabdcabdcecedceabh-置信度閾值=0.65

最小支持度計(jì)數(shù)=2

項(xiàng)目支持度計(jì)數(shù)排序ceabdf543331最小支持度剪枝策略基于FPT挖掘超團(tuán)模式(含項(xiàng)目d)d的條件模式基:

(b:1,a:1,e:1)(e:1)(b:1,a:1)新的支持度計(jì)數(shù)

(a:2,b:2,e:2)可與d構(gòu)成超團(tuán)模式的項(xiàng)目:

(a:2,b:2)最小支持度剪枝策略項(xiàng)目自剪枝策略d的搜索路徑:baeb的搜索路徑:aea的搜索路徑:ee的搜索路徑:c最大支持度剪枝策略CHCP-treeof“d”:遞歸挖掘,得到超團(tuán)模式abd:2CHCP-treeof“bd”:基于FPT挖掘極大超團(tuán)模式局部極大超團(tuán)模式挖掘超團(tuán)模式時(shí),每次新產(chǎn)生的超團(tuán)模式都會(huì)包含遞歸前的超團(tuán)模式只有當(dāng)遞歸終止時(shí),產(chǎn)生的超團(tuán)模式P才有可能是極大超團(tuán)模式,定義P為局部極大超團(tuán)模式例:上例中超團(tuán)模式:abd:2協(xié)同過(guò)濾推薦的基本算法協(xié)同過(guò)濾推薦系統(tǒng):預(yù)測(cè)用戶A是否喜歡項(xiàng)目x基于用戶的推薦(用戶間協(xié)同)基于項(xiàng)目的推薦系統(tǒng)(項(xiàng)目間協(xié)同)推薦系統(tǒng)的基本數(shù)據(jù)是用戶對(duì)項(xiàng)目的評(píng)分表:假設(shè)有m個(gè)用戶,n個(gè)項(xiàng)目,則評(píng)分表R就是一個(gè)m×n

的矩陣推薦系統(tǒng)的任務(wù)就是預(yù)測(cè)這個(gè)稀疏矩陣中的空缺項(xiàng)的值如何計(jì)算用戶之間或項(xiàng)目之間的相似度是推薦系統(tǒng)的核心問(wèn)題相似度測(cè)度余弦相似度(cosine)相關(guān)度(correlation)

修正的余弦相似度(adjustedcosine):預(yù)測(cè)獲得k個(gè)對(duì)x打了分的A的最相近者后,A對(duì)x的打分可以通過(guò)這k個(gè)相近者對(duì)x的打分的加權(quán)平均進(jìn)行預(yù)測(cè),所加的權(quán)重就是A與各相近者的相似度計(jì)算方法有多種,如面臨的挑戰(zhàn)精度問(wèn)題R矩陣具有天然的稀疏性為了保證精度,推薦系統(tǒng)需要盡量利用所有可以利用的信息——存儲(chǔ)整個(gè)R矩陣可伸縮性問(wèn)題當(dāng)R矩陣非常大時(shí),基于存儲(chǔ)的方法無(wú)法被采用基于模型的(modelbased)方法例如,將用戶通過(guò)聚類等方法分成若干組,然后對(duì)各個(gè)組(類)建立描述模型——只利用用戶所在組的數(shù)據(jù)進(jìn)行計(jì)算算法的評(píng)價(jià)評(píng)價(jià)協(xié)同過(guò)濾推薦算法的常用測(cè)度是平均絕對(duì)誤差MAE(MeanAbsoluteError)設(shè){p1,p2,…pN}為用戶對(duì)項(xiàng)目的實(shí)際評(píng)分,{q1,q2,…,qN}為通過(guò)某推薦算法預(yù)測(cè)得到的對(duì)這些項(xiàng)目的評(píng)分,則基于局部偏好的協(xié)同過(guò)濾推薦算法選出k個(gè)類代表對(duì)整個(gè)用戶數(shù)據(jù)空間中的聚類狀況以k個(gè)中心點(diǎn)進(jìn)行描述根據(jù)每個(gè)用戶與各個(gè)類代表之間的相似度來(lái)確定用戶與類之間的所屬關(guān)系(程度)預(yù)測(cè)用戶A對(duì)項(xiàng)目x的評(píng)分在A所屬的所有類中選擇類代表在x上極化分值最大的類利用該類中的用戶對(duì)x的評(píng)分來(lái)預(yù)測(cè)A對(duì)x的評(píng)分兩個(gè)特殊的操作評(píng)分值的極化利用用戶對(duì)所有項(xiàng)目評(píng)分的平均值將其評(píng)分轉(zhuǎn)化為+1、0和-1評(píng)分行向量的合并操作將兩個(gè)以上的極化用戶評(píng)分向量(R矩陣中的兩個(gè)及以上行)合并為一個(gè)向量可定量地獲得被合并的用戶對(duì)于指定項(xiàng)目偏好的一致程度算法的三個(gè)主要環(huán)節(jié)類代表的選取與計(jì)算通過(guò)聚類的方法獲得類代表向量用戶歸屬類計(jì)算一個(gè)用戶可歸屬于多個(gè)相似度大于閾值的類評(píng)分預(yù)測(cè)在用戶A所屬的各個(gè)類中,選擇類代表在給定的項(xiàng)目x上有最高的絕對(duì)極化分值的類的前k個(gè)近鄰預(yù)測(cè)。k近鄰按下式求得:

基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾基本思想:系統(tǒng)對(duì)新加入的用戶主動(dòng)提示一些對(duì)訓(xùn)練用戶模型最有幫助的項(xiàng)目讓其進(jìn)行評(píng)價(jià),以便盡快獲得其偏好特點(diǎn)應(yīng)用于以下基于模型的協(xié)同過(guò)濾系統(tǒng):對(duì)給定用戶和項(xiàng)目條件下的各種打分的概率建模,即P(r|u,i)方面模型AM(AspectModel)柔性混合模型FMM(FlexibleMixtureModel)方面模型AM是概率潛語(yǔ)義模型,將用戶看作由多方面潛在興趣構(gòu)成的“混合體”設(shè)用戶集合為U,潛在興趣集合為Z,則任意用戶u∈U對(duì)任意興趣組z∈Z都有一個(gè)歸屬的概率同一興趣組中的用戶對(duì)項(xiàng)目具有相同的打分模式,即給定潛在類變量z,用戶u與項(xiàng)目i是相互獨(dú)立的,因此有用戶的所有個(gè)性項(xiàng)構(gòu)成用戶模型FMMAM的一種改造,將模型中的潛在變量分成兩個(gè)代表具有類似興趣的用戶組的潛在變量zu代表具有類似訂購(gòu)用戶的項(xiàng)目組的潛在變量zi最小化熵主動(dòng)學(xué)習(xí)一種流行的主動(dòng)學(xué)習(xí)方法是請(qǐng)用戶對(duì)能夠最大限度降低用戶模型的熵的項(xiàng)目進(jìn)行打分Bayes選擇法最小化熵的方法會(huì)導(dǎo)致每個(gè)用戶趨于只具有一個(gè)興趣方面為了對(duì)此進(jìn)行改進(jìn),提出了Bayes選擇法以加速當(dāng)前模型向“真實(shí)”模型逼近為目標(biāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論