




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、會計學(xué)1推薦系統(tǒng)評價推薦系統(tǒng)評價(pngji)指標(biāo)綜述指標(biāo)綜述第一頁,共32頁。n 文獻(xiàn)文獻(xiàn)(wnxin)來源:來源:n 朱郁筱朱郁筱,呂琳媛呂琳媛. 推薦系統(tǒng)評價指標(biāo)綜述推薦系統(tǒng)評價指標(biāo)綜述J. 電子科技大學(xué)學(xué)報電子科技大學(xué)學(xué)報,2012,02:163-175.第1頁/共32頁第二頁,共32頁。3研究研究(ynji)背景背景信息信息(xnx)過載過載多種推薦多種推薦(tujin)算算法法孰優(yōu)孰劣孰優(yōu)孰劣第2頁/共32頁第三頁,共32頁。4研究研究(ynji)背景背景時代,每個人既是信息(xnx)接收者,也是信息(xnx)創(chuàng)造者。信息(xnx)數(shù)量龐大但質(zhì)量參差不齊,造成信息(xnx)過載。信
2、息信息(xnx)過載過載多種推薦算法多種推薦算法信息過濾,為滿足用戶需求推薦個性化推薦。協(xié)同過濾算法、基于內(nèi)容的推薦算法、混合推薦算法。孰優(yōu)孰劣孰優(yōu)孰劣如何有效、客觀評價推薦系統(tǒng)的效能,從實驗室到實際應(yīng)用的轉(zhuǎn)換。第3頁/共32頁第四頁,共32頁。研究研究(ynji)背景背景第4頁/共32頁第五頁,共32頁。6評價評價(pngji)方法方法在線評價在線評價n 設(shè)計在線用戶實驗,根據(jù)用戶在線實時反饋或事后問卷調(diào)查等結(jié)果來衡量推薦系統(tǒng)(xtng)的表現(xiàn)n A/B測試n 高額成本離線評價離線評價n根據(jù)待評價的推薦系統(tǒng)在實驗數(shù)據(jù)集上的表現(xiàn)來衡量推薦系統(tǒng)的質(zhì)量n方便、經(jīng)濟(jì)n數(shù)據(jù)集的劃分(常用(chn yn
3、)隨機(jī)劃分)與評價指標(biāo)的選擇第5頁/共32頁第六頁,共32頁。7評價評價(pngji)指標(biāo)指標(biāo) 準(zhǔn)確度指標(biāo)(zhbio) 基于排序加權(quán)的指標(biāo)(zhbio) 覆蓋率 多樣性和新穎性第6頁/共32頁第七頁,共32頁。準(zhǔn)確度指標(biāo)準(zhǔn)確度指標(biāo)(zhbio)第7頁/共32頁第八頁,共32頁。預(yù)測預(yù)測(yc)評分的準(zhǔn)確度評分的準(zhǔn)確度衡量算法預(yù)測的評分與用戶實際(shj)評分的貼近程度思路:計算預(yù)測評分(png fn)和用戶真實評分(png fn)的差異 局限:對MAE指標(biāo)貢獻(xiàn)大的往往是那種很難預(yù)測準(zhǔn)確的低分商品第8頁/共32頁第九頁,共32頁。預(yù)測預(yù)測(yc)評分的準(zhǔn)確度評分的準(zhǔn)確度 MSE和RMSE指標(biāo)對
4、每個絕對誤差首先做平方運算,所以(suy)這兩個指標(biāo)對比較大的絕對誤差有了更重的懲罰第9頁/共32頁第十頁,共32頁。 預(yù)測預(yù)測(yc)評分的準(zhǔn)確度評分的準(zhǔn)確度第10頁/共32頁第十一頁,共32頁。預(yù)測預(yù)測(yc)評分關(guān)聯(lián)評分關(guān)聯(lián)衡量算法預(yù)測的評分與用戶(yngh)實際評分之間的相關(guān)性最常見的三種相關(guān)性指標(biāo):Pearson積距相關(guān)、Spearman相關(guān)、Kendalls Tau 第11頁/共32頁第十二頁,共32頁。預(yù)測預(yù)測(yc)評分關(guān)聯(lián)評分關(guān)聯(lián) 第12頁/共32頁第十三頁,共32頁。預(yù)測預(yù)測(yc)評分關(guān)聯(lián)評分關(guān)聯(lián) 弱關(guān)系排序問題:在實際系統(tǒng)(xtng)中可能有某用戶對兩個或者多個商品評分
5、一致的情況。第13頁/共32頁第十四頁,共32頁。預(yù)測評分預(yù)測評分(png fn)關(guān)聯(lián)關(guān)聯(lián) 第14頁/共32頁第十五頁,共32頁。某用戶對商品實際評分為:,推薦系統(tǒng)預(yù)測評分為:那么此時,具有(jyu)嚴(yán)格偏好差別的商品對有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、(3,4)、(3,5) 、(4,5)排序相悖的商品對: (1,4)、 (3,5) 排序兼容的商品對: (2,5) 得 預(yù)測評分預(yù)測評分(png fn)關(guān)聯(lián)關(guān)聯(lián)NDMP指標(biāo)不僅適用于弱關(guān)系排序問題還可以用來評價推薦算法在不同(b tn)數(shù)據(jù)及上的表現(xiàn)。PS:這些預(yù)測評分關(guān)聯(lián)額性指標(biāo)都是只關(guān)注于預(yù)測排序
6、值而不關(guān)注于具體的預(yù)測評分值,所以它們不適用于那些旨在為用戶提供精確預(yù)測評分值的系統(tǒng)。第15頁/共32頁第十六頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度衡量推薦系統(tǒng)能正確預(yù)測用戶喜歡或者不喜歡某個商品的能力。適用(shyng)于那些有明確二分喜好的用戶系統(tǒng),對于非二分喜好系統(tǒng),需要設(shè)定一個閾值來區(qū)分用戶的喜好。并非衡量系統(tǒng)預(yù)測(yc)具體評分值的能力,只要是沒有影響商品分類的評分偏差都是被允許的。最常用的分類準(zhǔn)確度指標(biāo):準(zhǔn)確率(precision)、召回率(recall)、F1指標(biāo)和AUC。第16頁/共32頁第十七頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度 第17頁/共32頁第十八
7、頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度 第18頁/共32頁第十九頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度準(zhǔn)確率與召回率容易受到推薦列表長度、評分稀疏性以及喜好閾值的等多方面因素的影響,很多學(xué)者不提倡用準(zhǔn)確率與召回率來評價系統(tǒng),特別是只考慮一種指標(biāo)時偏差(pinch)極大。準(zhǔn)確率和召回(zho hu)率指標(biāo)往往是負(fù)相關(guān)的而且依賴于推薦列表長度。一般情況下,隨著推薦列表長度的增大,準(zhǔn)確率指標(biāo)會減小而召回(zho hu)率會增大。 第19頁/共32頁第二十頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度對于一個沒有(mi yu)明確二分喜好的系統(tǒng)?推薦的閾值不確定?往往采用AUC指
8、標(biāo)來衡量推薦效果的準(zhǔn)確性。AUC指標(biāo)表示ROC(receiver operator curve)曲線下的面積,它衡量一個推薦系統(tǒng)能夠在多大程度上將用戶喜歡的商品與不喜歡的商品區(qū)分開來。正如我們(w men)在這個ROC曲線的示例圖中看到的那樣,ROC曲線的橫坐標(biāo)為false positive rate(FPR),縱坐標(biāo)為true positive rate(TPR)第20頁/共32頁第二十一頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度經(jīng)過(jnggu)分析,ROC曲線越接近左上角,該分類器性能越好。AUC的取值范圍介于和1之間。第21頁/共32頁第二十二頁,共32頁。分類分類(fn li)
9、準(zhǔn)確度準(zhǔn)確度假如(jir)我們已經(jīng)得到了所有樣本的概率輸出(屬于正樣本的概率)。根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序。圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標(biāo)簽(p表示正樣本,n表示負(fù)樣本),“Score”表示每個測試樣本屬于正樣本的概率第22頁/共32頁第二十三頁,共32頁。分類分類(fn li)準(zhǔn)確度準(zhǔn)確度從高到低依次將”Score”值作為閾值threshold,當(dāng)測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認(rèn)為它為正樣本,否則為負(fù)樣本。AUC指標(biāo)僅用一個數(shù)值就表征了推薦算法的整體表現(xiàn),而且它涵蓋了所有不同推薦列表長度的表現(xiàn)。但是AU
10、C指標(biāo)沒有考慮具體排序位置的影響,導(dǎo)致在ROC曲線面積相同的情況下很難比較算法好壞,所以(suy)它的適用范圍也受到了一些限制第23頁/共32頁第二十四頁,共32頁。排序排序(pi x)準(zhǔn)確度準(zhǔn)確度 第24頁/共32頁第二十五頁,共32頁?;诨?jy)排序加權(quán)的指標(biāo)排序加權(quán)的指標(biāo) 第25頁/共32頁第二十六頁,共32頁。基于基于(jy)排序加權(quán)的指標(biāo)排序加權(quán)的指標(biāo) 目前半衰期效用(xioyng)指標(biāo)的使用仍然是有很大的局限性:首先參數(shù)的選取尚未有統(tǒng)一的標(biāo)準(zhǔn)。用戶的瀏覽概率與商品在推薦列表中的位置呈指數(shù)遞減這一假設(shè)并不是在所有系統(tǒng)中都適用。第26頁/共32頁第二十七頁,共32頁。覆蓋率覆蓋率覆蓋率指算法向用戶推薦的商品能覆蓋全部(qunb)商品的比例。 第27頁/共32頁第二十八頁,共32頁。多樣性和新穎性多樣性和新穎性推薦系統(tǒng)中的多樣性體現(xiàn)(txin)在用戶間的多樣性和用戶內(nèi)的多樣性。 在信息論中,兩個字碼中不同(b tn)位值的數(shù)目稱為漢明距離(異或操作)例如: 1011101 與 1001001 之
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國塑料煙缸市場調(diào)查研究報告
- 租房合同轉(zhuǎn)讓協(xié)議書格式
- 租賃辦公中介合同協(xié)議
- 萬圣節(jié)活動工作計劃書
- 租電瓶電子合同協(xié)議
- 直播業(yè)務(wù)訂單合同協(xié)議
- 小車過戶協(xié)議合同協(xié)議
- 租用廚房合同協(xié)議
- 土方開挖合同安全協(xié)議
- 知識產(chǎn)權(quán)解約合同協(xié)議
- 統(tǒng)信服務(wù)器UOS操作系統(tǒng)-產(chǎn)品白皮書
- 糧庫火災(zāi)的防控措施與技術(shù)
- 5G-Advanced通感融合仿真評估方法研究報告
- DB33 860-2012 危險化學(xué)品重大危險源安全監(jiān)控管理規(guī)范
- 隱蔽工程影像資料采集要求和拍攝方法(網(wǎng)絡(luò)版)
- DB37T 1913-2011 金屬非金屬地下礦山特種作業(yè)人員配置
- 2025年日歷(日程安排-可直接打印)
- 大單元教學(xué)學(xué)歷案4 《現(xiàn)代詩二首》(略讀實踐課) 統(tǒng)編版語文四年級上冊
- 3.1 農(nóng)業(yè)區(qū)位因素及其變化-看《種地吧》思考 課件 高一下學(xué)期 地理 人教版(2019)必修二
- 《保護(hù)板培訓(xùn)教材》課件
- 綠色醫(yī)療器械設(shè)計
評論
0/150
提交評論