學(xué)習(xí)心得第二篇

上傳人：d*** IP屬地：天津上傳時間：2022-07-23 格式：DOCX 頁數(shù)：5 大小：28.94KB 積分：6 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、學(xué)習(xí)心得第二篇在對于推薦系統(tǒng)有一個大概的了解之后，下一步的計劃是閱讀與推薦系統(tǒng)評價指標(biāo)有關(guān) 的論文。目標(biāo)：首先對推薦系統(tǒng)評價指標(biāo)的分類以及每個類別下的指標(biāo)進(jìn)行了解，然后再對每項指標(biāo)的具體含義以及公式進(jìn)行探究。首先閱讀的論文是推薦系統(tǒng)評價指標(biāo)綜述(電子科技大學(xué)學(xué)報-2012年)。測評方法推薦系統(tǒng)的評測主要分為在線評價和離線評價兩種方式。在線方式中最為常用的是A/B 測試，即為了同一個目標(biāo)制定兩個方案，記錄用戶使用情況，比較兩個方案的優(yōu)劣。它的核心思想是：1)多個方案并行測試；2)每個方案只有一個變量不同；3)以某種規(guī)則優(yōu)勝劣汰。所以唯一變量為推薦算法。離線測評是根據(jù)待評價的推薦系統(tǒng)在實驗數(shù)

2、據(jù)集上的表現(xiàn)，然后再根據(jù)下文將要提到的評價指標(biāo)來衡量推薦系統(tǒng)的質(zhì)量。1.準(zhǔn)確度指標(biāo)推薦的準(zhǔn)確度是評價推薦算法最基本的指標(biāo)，衡量的是推薦算法在多大程度上能夠準(zhǔn)確預(yù)測用戶對推薦商品的喜歡程度。分為四類：預(yù)測評分準(zhǔn)確度、預(yù)測評分關(guān)聯(lián)性、分類準(zhǔn)確度和排序準(zhǔn)確度。1.1預(yù)測評分準(zhǔn)確度衡量的是算法預(yù)測的評分和用戶的實際評分的貼近程度。平均絕對誤差(mean absolute error,MAE)error, MAE)*勺，如果用表示用戶h對商品。的真實評分，己表示用戶w對商品空的預(yù)測評分.E 表示測試集，那么MAE定義為，f法H 平均平方誤差(mean squared error,MSE)IMSE

3、 = V (rj-iP I W _r 射皿 UZJf JI E I E叩平均方根誤差(root mean squared error， RMSE)標(biāo)準(zhǔn)平均絕對誤差(normalized mean absolute error， NMAE)max mrmax和rmin分別為用戶評分區(qū)間的最大值和最小值。由于MSE和RMSE指標(biāo)對每個絕對誤差首先做了平方，所以這兩個指標(biāo)對比較大的絕對誤差有更重的懲罰。NMAE由于在評分區(qū)間上做了歸一化，從而可以在不同的數(shù)據(jù)集上對同一個推薦算法表現(xiàn)進(jìn)行比較。1.2預(yù)測評分關(guān)聯(lián)衡量的是預(yù)測評分和用戶真實評分之間的相關(guān)性。最常見的3種相關(guān)性指標(biāo)分別是Pearson

4、積距相關(guān)、Spearman 相關(guān)和 KendallsTau。Pearson積距相關(guān)系數(shù)衡量的是預(yù)測評分和真實評分的線性相關(guān)程度，定義為：住-刃S -尸)PLC = _ _掙5在Era和ra分別表示商品的真實評分和預(yù)測評分。Spearman關(guān)聯(lián)和Pearson關(guān)聯(lián)定義的形式是一樣的，唯一不同的是Spearman關(guān)聯(lián)考慮的不是預(yù)測評分值，而是根據(jù)預(yù)測評分值所得到的排序值，即將式中分別替換成商品的真實排名和預(yù)測排名。KendallsTau刻畫兩種排序值的統(tǒng)一程度，定義為C-DT =C十。廣為TF悴時的勵FL。表示逆序?qū)Φ挠兹?為了比較兩個不同的弱排序序列，有一種歸一化的基于距離的評價指標(biāo)(nor

5、malized distance-based performance measure，NDPM)，主要是想是先統(tǒng)計兩個排序相悖的商品對個數(shù)C-以及兩個排序兼容的商品對個數(shù)Cu。T表示用戶實際評分中具有嚴(yán)格偏好差別的商品對個數(shù)。NDMP =2T1.3分類準(zhǔn)確度衡量的是推薦系統(tǒng)能夠正確預(yù)測用戶喜歡或者不喜歡某個商品的能力，尤其適用于那些有著明確二分喜好的用戶系統(tǒng)。目前最常用的分類準(zhǔn)確度指標(biāo)有準(zhǔn)確率、召回率、F1指標(biāo)和 AUC這四種。準(zhǔn)確率表示用戶對推薦系統(tǒng)商品感興趣的概率，在計算準(zhǔn)確率的時候，最常用的做法是設(shè)定推薦長度列表L，根據(jù)預(yù)測評分商品排序，系統(tǒng)認(rèn)為排在前L位的商品是用戶最可能喜歡

6、的，因此推薦給用戶。表1待預(yù)測的商品可能的4種情況用戶喜好系統(tǒng)推吞系統(tǒng)不推薦Ture-Posilive %印False-Ntiuve不喜湖False-Positive； %,lurc-Ncgativc A Ert對于某-用戶s其推薦準(zhǔn)確率為系統(tǒng)推薦的匕個商品中用戶喜歡的商品所占的比例，即：(9)只)= / - 中將系統(tǒng)中所有用戶的準(zhǔn)確率求平均得到系統(tǒng)整體的推薦準(zhǔn)確率，M表示測試用戶的數(shù)量召回率表示一個用戶喜歡的商品被推薦的概率，定義為推薦列表中用戶喜歡的商品與系統(tǒng)中用戶喜歡的所有商品的比率。B表示用戶喜歡的商品數(shù)。因為不能準(zhǔn)確知道系統(tǒng)沒有推薦的商品中哪些是用戶喜歡的，因此召回率很難應(yīng)用于

7、在線評估。將系統(tǒng)中所有用戶的召回率求平均得到系統(tǒng)整體的推薦召回率。碓)=握脂)另一種常用的方法同時考慮準(zhǔn)確率和召回率，因為兩者是負(fù)相關(guān)的而且依賴于推薦列表長度。F1指標(biāo)包含準(zhǔn)確率和召回率，定義為： 2心叫P(L) + R(L)上述的一系列指標(biāo)對于沒有二分喜好的系統(tǒng)不太適用，這時候往往采用AUC指標(biāo)。AUC 指標(biāo)表示ROC(receiver operator curve)曲線下的面積，衡量一個推薦系統(tǒng)能夠在多大程度上將用戶喜歡的商品與不喜歡的商品分出來。果商品Q的預(yù)測評分值大于商品。的評分，那么就加一分，如果兩個評分值相等就加0-5分。這樣獨立地比較次，如果有/次商品二的預(yù)測評分值大于

8、商品0的評分，有/次兩評分值相等，那么AUC就可以近似寫作：(16)1.4排序準(zhǔn)確度排序準(zhǔn)確度對于只注重分類準(zhǔn)確度的系統(tǒng)來說太敏感了，考慮到排序位置的影響，用平均排序分來度量推薦系統(tǒng)的排序準(zhǔn)確度。對于某一用戶u來說，商品a的排序分定義為：Lu表示用戶u的待排序商品個數(shù)。在離線測試中Lu等于| O- E u t|，也即用戶u在測試集中的商品數(shù)目(| | EuP )加上未選擇過的商品數(shù)目(| |O- E 2。扁為待預(yù)測商品a在用戶u的推薦列表中的排名(此時推薦列表長度為Lu )。排序分值越小，說明系統(tǒng)越趨向于把用戶喜歡的商品排在前面。反之，則說明系統(tǒng)把用戶喜歡的商品排在了后面。2.基于排序

9、加權(quán)的指標(biāo)半衰期效用指標(biāo)(half-life utility)是在用戶瀏覽商品的概率與該商品在推薦列表中的具體排序值呈指數(shù)遞減的假設(shè)下提出來的，度量的是用戶真實評分和系統(tǒng)默認(rèn)評分值的差別。rua表示用戶u對商品a的實際評分;而lua為商品a在用戶u的推薦列表中的排名； d為默認(rèn)評分(如說平均評分值)；h為系統(tǒng)的半衰期，也即是有50%的概率用戶會瀏覽的推薦列表的位置。折扣累計利潤(discounted cumulative gain，DCG)的主要思想是用戶喜歡的商品被排在推薦列表前面比后面會更大程度上增加用戶體驗。弓林宅。冬高表示排在第i位的商品是否是用戶喜歡的；ri=1表示用戶喜歡該商

10、品；ri=0表示用戶不喜歡該商品；b是自由參數(shù)多設(shè)為2；L為推薦列表長度。排序偏差準(zhǔn)確率(rank-biased precision，RBP)假設(shè)用戶先瀏覽排在列表首位的商品然后依次按照固定的概率p瀏覽下一個，以1-p的概率不再看此類推薦列表。=p)% 廣r=l3.覆蓋率是指算法向用戶推薦的商品能夠覆蓋全部商品的比例。主要分為預(yù)測覆蓋率、推薦覆蓋率和種類覆蓋率。預(yù)測覆蓋率表示可以預(yù)測評分的商品占所有商品的比例，定義為：Nd表示系統(tǒng)可以評分的商品數(shù)目，N為所有商品數(shù)目。推薦覆蓋率表示系統(tǒng)能夠為用戶推薦的商品占所有商品的比例，定義為：covq 二種類覆蓋率表示推薦系統(tǒng)為用戶推薦的商品種類占全

11、部種類的比例，目前應(yīng)用較少4多樣性和新穎性一個好的推薦系統(tǒng)不僅準(zhǔn)確率高的商品而且還有用戶其他途徑?jīng)]了解到的商品。在推薦系統(tǒng)中，多樣性分為兩個層次，一是推薦系統(tǒng)對不同用戶推薦不同商品的能力，而是推薦系統(tǒng)對一個用戶推薦商品的多樣性。漢明距離定義為：久() 二 1-耳殳 m、 He .吐-frH F.ll -irt B I BQu t( L)表示用戶u和t推薦列表中相同商品的個數(shù)。如果兩個推薦列表是完全一致的，那么Hut (L ) =0，反之如果兩個推薦列表沒有任何重疊的商品則Hut (L ) = 1。所有的用戶對的漢明距離的平均值即是整個系統(tǒng)的漢明距離H( L)。漢明距離越主，表示推薦的多樣性越高。將系統(tǒng)為用戶推薦的商品集合記為；

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

學(xué)習(xí)心得第二篇

文檔簡介

溫馨提示

最新文檔

評論

學(xué)習(xí)心得第二篇

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔