推薦系統(tǒng)評價指標綜述學習教案_第1頁
推薦系統(tǒng)評價指標綜述學習教案_第2頁
推薦系統(tǒng)評價指標綜述學習教案_第3頁
推薦系統(tǒng)評價指標綜述學習教案_第4頁
推薦系統(tǒng)評價指標綜述學習教案_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、會計學1推薦系統(tǒng)評價推薦系統(tǒng)評價(pngji)指標綜述指標綜述第一頁,共32頁。n 文獻文獻(wnxin)來源:來源:n 朱郁筱朱郁筱,呂琳媛呂琳媛. 推薦系統(tǒng)評價指標綜述推薦系統(tǒng)評價指標綜述J. 電子科技大學學報電子科技大學學報,2012,02:163-175.第1頁/共32頁第二頁,共32頁。3研究研究(ynji)背景背景信息信息(xnx)過載過載多種推薦多種推薦(tujin)算算法法孰優(yōu)孰劣孰優(yōu)孰劣第2頁/共32頁第三頁,共32頁。4研究研究(ynji)背景背景時代,每個人既是信息(xnx)接收者,也是信息(xnx)創(chuàng)造者。信息(xnx)數(shù)量龐大但質(zhì)量參差不齊,造成信息(xnx)過載。信

2、息信息(xnx)過載過載多種推薦算法多種推薦算法信息過濾,為滿足用戶需求推薦個性化推薦。協(xié)同過濾算法、基于內(nèi)容的推薦算法、混合推薦算法。孰優(yōu)孰劣孰優(yōu)孰劣如何有效、客觀評價推薦系統(tǒng)的效能,從實驗室到實際應用的轉(zhuǎn)換。第3頁/共32頁第四頁,共32頁。研究研究(ynji)背景背景第4頁/共32頁第五頁,共32頁。6評價評價(pngji)方法方法在線評價在線評價n 設計在線用戶實驗,根據(jù)用戶在線實時反饋或事后問卷調(diào)查等結(jié)果來衡量推薦系統(tǒng)(xtng)的表現(xiàn)n A/B測試n 高額成本離線評價離線評價n根據(jù)待評價的推薦系統(tǒng)在實驗數(shù)據(jù)集上的表現(xiàn)來衡量推薦系統(tǒng)的質(zhì)量n方便、經(jīng)濟n數(shù)據(jù)集的劃分(常用(chn yn

3、)隨機劃分)與評價指標的選擇第5頁/共32頁第六頁,共32頁。7評價評價(pngji)指標指標 準確度指標(zhbio) 基于排序加權(quán)的指標(zhbio) 覆蓋率 多樣性和新穎性第6頁/共32頁第七頁,共32頁。準確度指標準確度指標(zhbio)第7頁/共32頁第八頁,共32頁。預測預測(yc)評分的準確度評分的準確度衡量算法預測的評分與用戶實際(shj)評分的貼近程度思路:計算預測評分(png fn)和用戶真實評分(png fn)的差異 局限:對MAE指標貢獻大的往往是那種很難預測準確的低分商品第8頁/共32頁第九頁,共32頁。預測預測(yc)評分的準確度評分的準確度 MSE和RMSE指標對

4、每個絕對誤差首先做平方運算,所以(suy)這兩個指標對比較大的絕對誤差有了更重的懲罰第9頁/共32頁第十頁,共32頁。 預測預測(yc)評分的準確度評分的準確度第10頁/共32頁第十一頁,共32頁。預測預測(yc)評分關聯(lián)評分關聯(lián)衡量算法預測的評分與用戶(yngh)實際評分之間的相關性最常見的三種相關性指標:Pearson積距相關、Spearman相關、Kendalls Tau 第11頁/共32頁第十二頁,共32頁。預測預測(yc)評分關聯(lián)評分關聯(lián) 第12頁/共32頁第十三頁,共32頁。預測預測(yc)評分關聯(lián)評分關聯(lián) 弱關系排序問題:在實際系統(tǒng)(xtng)中可能有某用戶對兩個或者多個商品評分

5、一致的情況。第13頁/共32頁第十四頁,共32頁。預測評分預測評分(png fn)關聯(lián)關聯(lián) 第14頁/共32頁第十五頁,共32頁。某用戶對商品實際評分為:,推薦系統(tǒng)預測評分為:那么此時,具有(jyu)嚴格偏好差別的商品對有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、(3,4)、(3,5) 、(4,5)排序相悖的商品對: (1,4)、 (3,5) 排序兼容的商品對: (2,5) 得 預測評分預測評分(png fn)關聯(lián)關聯(lián)NDMP指標不僅適用于弱關系排序問題還可以用來評價推薦算法在不同(b tn)數(shù)據(jù)及上的表現(xiàn)。PS:這些預測評分關聯(lián)額性指標都是只關注于預測排序

6、值而不關注于具體的預測評分值,所以它們不適用于那些旨在為用戶提供精確預測評分值的系統(tǒng)。第15頁/共32頁第十六頁,共32頁。分類分類(fn li)準確度準確度衡量推薦系統(tǒng)能正確預測用戶喜歡或者不喜歡某個商品的能力。適用(shyng)于那些有明確二分喜好的用戶系統(tǒng),對于非二分喜好系統(tǒng),需要設定一個閾值來區(qū)分用戶的喜好。并非衡量系統(tǒng)預測(yc)具體評分值的能力,只要是沒有影響商品分類的評分偏差都是被允許的。最常用的分類準確度指標:準確率(precision)、召回率(recall)、F1指標和AUC。第16頁/共32頁第十七頁,共32頁。分類分類(fn li)準確度準確度 第17頁/共32頁第十八

7、頁,共32頁。分類分類(fn li)準確度準確度 第18頁/共32頁第十九頁,共32頁。分類分類(fn li)準確度準確度準確率與召回率容易受到推薦列表長度、評分稀疏性以及喜好閾值的等多方面因素的影響,很多學者不提倡用準確率與召回率來評價系統(tǒng),特別是只考慮一種指標時偏差(pinch)極大。準確率和召回(zho hu)率指標往往是負相關的而且依賴于推薦列表長度。一般情況下,隨著推薦列表長度的增大,準確率指標會減小而召回(zho hu)率會增大。 第19頁/共32頁第二十頁,共32頁。分類分類(fn li)準確度準確度對于一個沒有(mi yu)明確二分喜好的系統(tǒng)?推薦的閾值不確定?往往采用AUC指

8、標來衡量推薦效果的準確性。AUC指標表示ROC(receiver operator curve)曲線下的面積,它衡量一個推薦系統(tǒng)能夠在多大程度上將用戶喜歡的商品與不喜歡的商品區(qū)分開來。正如我們(w men)在這個ROC曲線的示例圖中看到的那樣,ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)第20頁/共32頁第二十一頁,共32頁。分類分類(fn li)準確度準確度經(jīng)過(jnggu)分析,ROC曲線越接近左上角,該分類器性能越好。AUC的取值范圍介于和1之間。第21頁/共32頁第二十二頁,共32頁。分類分類(fn li)

9、準確度準確度假如(jir)我們已經(jīng)得到了所有樣本的概率輸出(屬于正樣本的概率)。根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序。圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率第22頁/共32頁第二十三頁,共32頁。分類分類(fn li)準確度準確度從高到低依次將”Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。AUC指標僅用一個數(shù)值就表征了推薦算法的整體表現(xiàn),而且它涵蓋了所有不同推薦列表長度的表現(xiàn)。但是AU

10、C指標沒有考慮具體排序位置的影響,導致在ROC曲線面積相同的情況下很難比較算法好壞,所以(suy)它的適用范圍也受到了一些限制第23頁/共32頁第二十四頁,共32頁。排序排序(pi x)準確度準確度 第24頁/共32頁第二十五頁,共32頁?;诨?jy)排序加權(quán)的指標排序加權(quán)的指標 第25頁/共32頁第二十六頁,共32頁。基于基于(jy)排序加權(quán)的指標排序加權(quán)的指標 目前半衰期效用(xioyng)指標的使用仍然是有很大的局限性:首先參數(shù)的選取尚未有統(tǒng)一的標準。用戶的瀏覽概率與商品在推薦列表中的位置呈指數(shù)遞減這一假設并不是在所有系統(tǒng)中都適用。第26頁/共32頁第二十七頁,共32頁。覆蓋率覆蓋率覆蓋率指算法向用戶推薦的商品能覆蓋全部(qunb)商品的比例。 第27頁/共32頁第二十八頁,共32頁。多樣性和新穎性多樣性和新穎性推薦系統(tǒng)中的多樣性體現(xiàn)(txin)在用戶間的多樣性和用戶內(nèi)的多樣性。 在信息論中,兩個字碼中不同(b tn)位值的數(shù)目稱為漢明距離(異或操作)例如: 1011101 與 1001001 之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論