版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于知識的推薦動(dòng)機(jī)傳統(tǒng)推薦方法(基于內(nèi)容和基于協(xié)同過濾)適合于推薦書籍、電影、新聞等高頻、低成本的消費(fèi)品不適合推薦房產(chǎn)、汽車、專業(yè)設(shè)備、金融服務(wù)等低頻、高成本的項(xiàng)目原因:用戶冷啟動(dòng):無法向新用戶(無歷史行為數(shù)據(jù)的用戶)推薦項(xiàng)目低頻行為:歷史行為年代久遠(yuǎn),時(shí)間間隔長,缺乏參考意義風(fēng)險(xiǎn)高:購買房產(chǎn)、汽車、金融服務(wù)等項(xiàng)目的成本和風(fēng)險(xiǎn)都很高基于知識的推薦基本思想:利用用戶的顯式需求和項(xiàng)目的領(lǐng)域知識為用戶進(jìn)行推薦三種基本類型:基于約束的推薦vs.基于效用的推薦vs.基于實(shí)例的推薦基于約束的推薦基于約束的推薦基本思想:根據(jù)用戶給定的顯式需求(約束集)推薦合適的候選項(xiàng)目把推薦任務(wù)看作是一個(gè)解決約束滿足問題的過程應(yīng)用領(lǐng)域:不經(jīng)常被購買且產(chǎn)品復(fù)雜的領(lǐng)域例如:房產(chǎn)、專業(yè)設(shè)備、金融服務(wù)等示例:購買筆記本電腦
用戶總是希望能夠以較低的成本(例如:價(jià)格)獲得較高質(zhì)量或性能的項(xiàng)目當(dāng)用戶對目標(biāo)領(lǐng)域還不夠了解時(shí),給出的約束集通常不切實(shí)際,找不到合適的項(xiàng)目約束放寬算法:MinRlex
01100011100111001001111011001101項(xiàng)目-約束滿足矩陣PQRS約束放寬算法:示例
01100011100111001001111011001101基于效用的推薦基于效用的推薦
基于效用的推薦:示例
取值性能經(jīng)濟(jì)性price01006size50100RAM40100GPUyes100no30
性能[40%]經(jīng)濟(jì)性[60%]效用值[排名]7.6
[4]8.5[1]7.6
[4]6.7[8]7.6[4]7.6
[4]8.4
[3]8.5
[1]評分規(guī)則項(xiàng)目效用基于實(shí)例的推薦基于實(shí)例的推薦
基于距離的匹配度度量
基于實(shí)例的推薦:示例
基于實(shí)例的推薦:示例
pricesizeRAMGPU匹配度排名1.00.50.81.00.2400.4620.42910.55040.9000.846010.70410.9650.615000.38670.65010.14300.38380.7200.3850.14310.614200.385110.60430.9150.7310.14300.423510.615000.3966混合推薦系統(tǒng)混合推薦目標(biāo):提升系統(tǒng)的準(zhǔn)確度和穩(wěn)定性動(dòng)機(jī):各種基礎(chǔ)推薦算法雖然各有利弊,但相互之間存在互補(bǔ)現(xiàn)狀:Netflix、Amazon、淘寶、頭條等平臺都采用混合推薦混合推薦:通過多種算法的組合來避免或彌補(bǔ)各自的弱點(diǎn)(取長補(bǔ)短)推薦方法優(yōu)點(diǎn)缺點(diǎn)基于人口統(tǒng)計(jì)學(xué)能為新用戶推薦個(gè)性化程度低協(xié)同過濾個(gè)性化程度高結(jié)果具有新穎性數(shù)據(jù)稀疏問題冷啟動(dòng)問題基于內(nèi)容能推薦新項(xiàng)目容易解釋用戶冷啟動(dòng)結(jié)果缺乏新穎性基于知識沒有冷啟動(dòng)問題結(jié)果具有可解釋性需要人工交互
知識獲取困難Netflix百萬美金公開賽$1millionprizefora10%improvementoverNetflix’scurrentmovierecommender/classifier(MSE=0.9514)1個(gè)月,接近5%2個(gè)月,接近6%6個(gè)月,接近7%1年,接近8%3年,超過10%一個(gè)由工程師和統(tǒng)計(jì)學(xué)家組成的七人團(tuán)隊(duì)奪得了大獎(jiǎng)理論依據(jù)與方法分類誤差分析
不同推薦模型的信息源示意圖只有模型組合才可能還原問題的全貌!混合/組合方法分類根據(jù)是否使用標(biāo)注樣本:有監(jiān)督組合vs.無監(jiān)督組合根據(jù)基模型之間的依賴關(guān)系:并行式混合vs.串行式混合vs.整體式混合混合/組合并行式串行式整體式混合/組合有監(jiān)督無監(jiān)督常見無監(jiān)督組合模型包括:各種Bagging算法;例如隨機(jī)森林(RandomForest)等無監(jiān)督組合訓(xùn)練測試假設(shè)各個(gè)基模型的貢獻(xiàn)相同常見有監(jiān)督組合模型:各種Boosting和Stacking算法;例如AdaBoost、GBDT等有監(jiān)督組合訓(xùn)練測試從標(biāo)注數(shù)據(jù)中學(xué)習(xí)組合模型并行式vs.串行式vs.整體式并行式混合:各基模型可獨(dú)立、并行地進(jìn)行訓(xùn)練或構(gòu)造串行式混合:后面基模型的訓(xùn)練或構(gòu)造依賴于前面的基模型整體式混合:只包含一個(gè)推薦單元通過預(yù)處理和組合多個(gè)知識源將多模型整合在一起并行式混合并行式混合基本思想:直接對已有推薦器(基推薦器)的輸出結(jié)果進(jìn)行混合無需對現(xiàn)有基推薦器做任何修改方法分類:加權(quán)式混合vs.切換式混合vs.排序混合加權(quán)式混合
加權(quán)推薦(0.5:0.5)項(xiàng)目171項(xiàng)目24.52項(xiàng)目33.53項(xiàng)目40.54推薦器1項(xiàng)目161項(xiàng)目20項(xiàng)目332項(xiàng)目413推薦器2項(xiàng)目182項(xiàng)目291項(xiàng)目343項(xiàng)目40加權(quán)式混合
HongzhiLiu,YingpengDu,ZhonghaiWu.AEM:AttentionalEnsembleModelforPersonalizedClassifierWeightLearning,
PatternRecognition,96,10697:1-8,2019切換式混合(Switching)動(dòng)機(jī):在不同場景,針對不同用戶,各基推薦器的性能表現(xiàn)可能有較大差異活躍用戶、新用戶(不活躍用戶)、新項(xiàng)目(冷門項(xiàng)目)、熱門項(xiàng)目基本思想:在不同的場景下選擇不同的基推薦器切換式混合(Switching)
排序混合動(dòng)機(jī):加權(quán)式混合要求各基推薦器的輸出在同一范圍內(nèi)并且采用相同的量綱基本思想:采用基于排序的方式來進(jìn)行歸一化處理對各基推薦器輸出的推薦(排序)列表進(jìn)行混合排序,以形成最終排序列表常用方法:波達(dá)計(jì)數(shù)(BordaCount)、凱梅尼優(yōu)化(KemenyOptimization)、成對投票表決波達(dá)計(jì)數(shù)法(BordaCount)Borda
Count:
score(a)
=
4+
5+
3=12;
score(b)
=
3+3+5=11;
…基本思想:根據(jù)各排序列表對項(xiàng)目進(jìn)行重新打分,并采用加和的方式計(jì)算最終得分;Top-N推薦:排在第1位的得N分,排在第2位的得N-1分,…,排在最后一位的得1分串行式混合串行式混合基本假設(shè):基推薦器之間存在一定的依賴關(guān)系后面的基推薦器的構(gòu)造或輸出依賴于前面的基推薦器的輸出方法分類:級聯(lián)過濾
vs.級聯(lián)學(xué)習(xí)級聯(lián)過濾
級聯(lián)過濾推薦結(jié)果項(xiàng)目181項(xiàng)目20項(xiàng)目342項(xiàng)目40推薦器1項(xiàng)目161項(xiàng)目20項(xiàng)目332項(xiàng)目413推薦器2項(xiàng)目182項(xiàng)目291項(xiàng)目343項(xiàng)目40后續(xù)推薦器不會引入額外項(xiàng)目
級聯(lián)過濾基本思想:基推薦器按一定規(guī)則排序,后面的推薦器對前面推薦器的結(jié)果進(jìn)行優(yōu)化關(guān)鍵:基推薦器的選擇和排序:算法效果、算法復(fù)雜度召回-排序框架就是典型的級聯(lián)過濾方法級聯(lián)學(xué)習(xí)動(dòng)機(jī):級聯(lián)過濾是一種嚴(yán)格基于優(yōu)先級的混合方法如果前面(高優(yōu)先級)的推薦器出現(xiàn)錯(cuò)誤(刪除了一些相關(guān)項(xiàng)目),后面的推薦器將無法挽回基本思想:在應(yīng)用或驗(yàn)證階段和加權(quán)式混合類似不同之處在于訓(xùn)練階段,級聯(lián)學(xué)習(xí)依賴于串行(逐個(gè))訓(xùn)練各基推薦器常用方法:Boosting集成模型,例如:AdaBoost、GBDT等級聯(lián)學(xué)習(xí):
Adaboost在每一輪基學(xué)習(xí)器訓(xùn)練完成后都會更新樣本權(quán)重,再訓(xùn)練下一個(gè)基學(xué)習(xí)器;對于分類錯(cuò)誤的樣本,加大其對應(yīng)權(quán)重;而對于分類正確的樣本,降低其權(quán)重整體式混合整體式混合基本思想:通過對算法進(jìn)行內(nèi)部調(diào)整,將多個(gè)知識源或多種方法整合在一起整體上看只包含一個(gè)推薦單元常用方法:特征組合
vs.特征擴(kuò)充
vs.基于圖模型的混合特征組合
特征擴(kuò)充MelvilleP,et
al.Content-boostedcollaborativefilteringforimprovedrecommendations,
AAAI2002:187-192.基于圖模型的混合基于圖模型的混合基本思想:利用圖(Graph)將多種不同的信息整合在一起進(jìn)行統(tǒng)一表示將推薦問題轉(zhuǎn)化為一個(gè)圖搜索(GraphSearch)或邊預(yù)測問題目標(biāo):使推薦具有一個(gè)全面、統(tǒng)一的表示,能靈活支持多種推薦方法基于雙層圖模型的混合推薦基本思想:對用戶-項(xiàng)目二部圖進(jìn)行擴(kuò)展,得到一個(gè)雙層圖通過查找與目標(biāo)用戶節(jié)點(diǎn)高度關(guān)聯(lián)的項(xiàng)目節(jié)點(diǎn),進(jìn)而得出推薦列表雙層圖:一層為用戶層,另一層為項(xiàng)目層兩層之間的邊為層間連接(表示用戶對項(xiàng)目的反饋)用戶層中每個(gè)節(jié)點(diǎn)代表一個(gè)用戶,用戶節(jié)點(diǎn)之間的邊表示用戶之間的相似關(guān)系項(xiàng)目層中每個(gè)節(jié)點(diǎn)代表一個(gè)項(xiàng)目,項(xiàng)目節(jié)點(diǎn)之間的邊表示項(xiàng)目之間的相似關(guān)系項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于雙層圖模型的混合推薦基于內(nèi)容的推薦:從與目標(biāo)用戶關(guān)聯(lián)的項(xiàng)目節(jié)點(diǎn)開始,通過項(xiàng)目層的邊探索其他相關(guān)項(xiàng)目基于用戶的協(xié)同過濾:從目標(biāo)用戶節(jié)點(diǎn)開始,先在用戶層搜索相似用戶,再通過層之間的邊探索相關(guān)項(xiàng)目混合推薦:從目標(biāo)用戶節(jié)點(diǎn)開始,通過利用圖中所有(三種)類型的邊探索相關(guān)項(xiàng)目項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于內(nèi)容推薦基于用戶協(xié)同過濾目標(biāo)用戶協(xié)同用戶推薦系統(tǒng)評測評測視角針對同一問題,不同推薦算法可能會生成不同的推薦列表這些推薦結(jié)果是否合理?哪個(gè)更好?從不同參與方的角度,需構(gòu)建不同的評測方法和評價(jià)指標(biāo)用戶的角度、商家或平臺的角度、算法研究員的角度等項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于內(nèi)容推薦基于用戶協(xié)同過濾目標(biāo)用戶協(xié)同用戶項(xiàng)目流行度頭部長尾部從長尾部分推薦項(xiàng)目評測視角用戶好的推薦系統(tǒng)應(yīng)該能降低其信息獲取的交互成本應(yīng)該優(yōu)先從“長尾”區(qū)域選擇項(xiàng)目進(jìn)行推薦,推薦用戶可能真正喜歡的項(xiàng)目商家或平臺好的推薦系統(tǒng)應(yīng)能增加“用戶點(diǎn)擊率”、“用戶轉(zhuǎn)化率”、“平臺活躍度”等能夠?yàn)樯碳一蚱脚_帶來收益或利潤算法研究員好的推薦系統(tǒng)應(yīng)該能夠準(zhǔn)確預(yù)測用戶對項(xiàng)目的偏好程度并且在某些指標(biāo)上表現(xiàn)得比現(xiàn)有的系統(tǒng)更好實(shí)驗(yàn)方法在線實(shí)驗(yàn)A/B測試(A/BTests):一種典型的在線實(shí)驗(yàn)方法,本質(zhì)是分離式組間實(shí)驗(yàn),也叫對照實(shí)驗(yàn)將具有相同特征的用戶均勻分配到各實(shí)驗(yàn)組,以避免出現(xiàn)數(shù)據(jù)偏差優(yōu)缺點(diǎn):保證所有算法所處環(huán)境的一致性;實(shí)驗(yàn)結(jié)果客觀、準(zhǔn)確成本高、風(fēng)險(xiǎn)大,容易導(dǎo)致用戶流失用戶調(diào)查基本思想:通過尋找少量的真實(shí)用戶或領(lǐng)域?qū)<遥瑢ο到y(tǒng)進(jìn)行試用觀測并記錄用戶的行為以及他們對系統(tǒng)滿意度的反饋(問卷調(diào)查)分析試用用戶的行為和反饋來了解被測系統(tǒng)的性能優(yōu)缺點(diǎn):不會因體驗(yàn)較差而導(dǎo)致真實(shí)用戶流失能夠了解真實(shí)用戶對系統(tǒng)的評價(jià)時(shí)間周期相對較長,需要邀請用戶、用戶試用、用戶反饋、反饋分析離線實(shí)驗(yàn)假設(shè):收集到的用戶歷史行為與系統(tǒng)部署后的用戶行為相似基本思想:通過用戶的歷史行為數(shù)據(jù)來模擬用戶與系統(tǒng)的交互行為優(yōu)點(diǎn):不需要真實(shí)用戶的參與,成本低、速度快過濾不合適算法,為成本高的用戶調(diào)查和在線實(shí)驗(yàn)提供較小的算法候選集評價(jià)指標(biāo)Top-N推薦評價(jià)指標(biāo)通常采用分類準(zhǔn)確度指標(biāo)或是基于排序的指標(biāo)例如:精確度、召回率、AUC、MAP、nDCG等評分預(yù)測評價(jià)指標(biāo)基于預(yù)測評分和真實(shí)評分的誤差來構(gòu)建評價(jià)指標(biāo)例如:平均絕對誤差、平均平方誤差(均方誤差)、均方根誤差等其他評價(jià)指標(biāo)例如:多樣性、新穎性、覆蓋率等評價(jià)指標(biāo):分類準(zhǔn)確率分類準(zhǔn)確度
混淆矩陣真實(shí)值預(yù)測值分類準(zhǔn)確度
混淆矩陣真實(shí)值預(yù)測值F1與F-Measure
ROC曲線
縱軸:橫軸:0.01.01.0ROC曲線AUC真陽性率TPR假陽性率FPR混淆矩陣真實(shí)值正例(Positive)負(fù)例(Negative)預(yù)測值正例(Positive)負(fù)例(Negative)AUC值
評價(jià)指標(biāo):排序、評分及其他基于排序的評價(jià)指標(biāo)
基于排序的評價(jià)指標(biāo):MAP
基于排序的評價(jià)指標(biāo):nDCG
基于排序的評價(jià)指標(biāo):nDCG
評分預(yù)測評價(jià)指標(biāo)評分預(yù)測準(zhǔn)確度
符號含義用戶u對項(xiàng)目i的實(shí)際評分系統(tǒng)的預(yù)測評分測試數(shù)據(jù)集評分預(yù)測準(zhǔn)確度:歸一化
符號含義用戶評分區(qū)間的最大值用戶評分區(qū)間的最小值其它常用評價(jià)指標(biāo)
公開數(shù)據(jù)集離線實(shí)驗(yàn)數(shù)據(jù)集動(dòng)機(jī):為離線驗(yàn)證一個(gè)算法或系統(tǒng)的性能,需在實(shí)驗(yàn)數(shù)據(jù)集上對其進(jìn)行評測針對不同類型的算法,需要使用不同類型的數(shù)據(jù)集為驗(yàn)證算法的穩(wěn)定性,通常還需在多個(gè)不同的數(shù)據(jù)集上對其進(jìn)行評測數(shù)據(jù)來源:常用數(shù)據(jù)集:MovieLens、Netflix、Last.FM、AmazonProduct等各種數(shù)據(jù)競賽平臺,例如Kaggle、天池等MovieLens數(shù)據(jù)集推薦系統(tǒng)領(lǐng)域最為常用的實(shí)驗(yàn)數(shù)據(jù)集MovieLens:一個(gè)非商業(yè)性的、以研究為目的的實(shí)驗(yàn)性電影推薦網(wǎng)站允許用戶對自己看過的電影進(jìn)行評分,評分區(qū)間為1~5分根據(jù)用戶歷史評分信息,預(yù)測對未看電影的評分和并為其推薦電影目前該數(shù)據(jù)集有三個(gè)不同規(guī)模的子數(shù)據(jù)集(數(shù)據(jù)采樣)MovieLens-100K:943個(gè)用戶對1682部電影的十萬條評分?jǐn)?shù)據(jù)MovieLens-1M:6040個(gè)用戶對3900部電影的一百萬條評分?jǐn)?shù)據(jù)MovieLens-10M:71567個(gè)用戶對10681部電影的一千萬條評分?jǐn)?shù)據(jù)每個(gè)用戶至少給20部電影評過分(刪除評分過少用戶,數(shù)據(jù)過濾)/datasets/movielens/消費(fèi)者評論數(shù)據(jù)集Epinions數(shù)據(jù)集:E是一個(gè)知名的消費(fèi)者評論網(wǎng)站用戶可以在該網(wǎng)站上評價(jià)(評論、評分)自己使用過的商品其他用戶可以查看這些打分和評論,并給出肯定或者反對的評價(jià)網(wǎng)站會為每個(gè)用戶建立一個(gè)信任用戶列表數(shù)據(jù)集特色:包含評分?jǐn)?shù)據(jù)、評論文本、社交關(guān)系等下載地址:/epinions.htmlYelp數(shù)據(jù)集:Yelp是美國一個(gè)著名的商戶點(diǎn)評網(wǎng)站囊括各地餐館、購物中心、酒店、旅游等領(lǐng)域的商戶用戶可以在Yelp網(wǎng)站上給商戶打分、提交評論、交流購物體驗(yàn)等數(shù)據(jù)集特色:包含用戶評分、評論文本、商戶屬性等下載地址:/dataset電商數(shù)據(jù)集Amazonproduct數(shù)據(jù)集:電商評論數(shù)據(jù)集從亞馬遜(Amazon)電商平臺上爬取的用戶-商品數(shù)據(jù)用戶對商品的評論信息(評分、文本、投票等)商品的屬性信息(描述、類別、價(jià)格、品牌和特性)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版土地流轉(zhuǎn)承包項(xiàng)目合作開發(fā)投資合同范本3篇
- 2025年代理費(fèi)用協(xié)議范本
- 2025年銷售人員任職協(xié)議書:互聯(lián)網(wǎng)銷售團(tuán)隊(duì)建設(shè)協(xié)議2篇
- 2025年度風(fēng)力發(fā)電場建設(shè)與運(yùn)營合同范本4篇
- 二零二五年藝術(shù)品鑒定兼職人員保密責(zé)任書3篇
- 基于2025年度房產(chǎn)政策的商品房銷售合同
- 2025年度跨境電子商務(wù)稅收風(fēng)險(xiǎn)擔(dān)保協(xié)議4篇
- 二零二五年度直播主播與影視作品合作合同
- 2025年度供應(yīng)鏈金融貨物沖抵貨款風(fēng)險(xiǎn)控制協(xié)議
- 二零二五年度門面房房屋租賃押金合同
- 寒潮雨雪應(yīng)急預(yù)案范文(2篇)
- 垃圾車駕駛員聘用合同
- 變壓器搬遷施工方案
- 單位轉(zhuǎn)賬個(gè)人合同模板
- 八年級語文下冊 成語故事 第十五課 諱疾忌醫(yī) 第六課時(shí) 口語交際教案 新教版(漢語)
- 2024年1月高考適應(yīng)性測試“九省聯(lián)考”數(shù)學(xué) 試題(學(xué)生版+解析版)
- EPC項(xiàng)目采購階段質(zhì)量保證措施
- T-NAHIEM 101-2023 急診科建設(shè)與設(shè)備配置標(biāo)準(zhǔn)
- 四川2024年專業(yè)技術(shù)人員公需科目“數(shù)字經(jīng)濟(jì)與驅(qū)動(dòng)發(fā)展”參考答案(通用版)
- 煤炭裝卸服務(wù)合同
- 廣東省佛山市順德區(qū)2023學(xué)年中考一模物理試題(含答案解析)
評論
0/150
提交評論