學(xué)習(xí)心得第二篇_第1頁
學(xué)習(xí)心得第二篇_第2頁
學(xué)習(xí)心得第二篇_第3頁
學(xué)習(xí)心得第二篇_第4頁
學(xué)習(xí)心得第二篇_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、學(xué)習(xí)心得第二篇在對于推薦系統(tǒng)有一個大概的了解之后,下一步的計劃是閱讀與推薦系統(tǒng)評價指標(biāo)有關(guān) 的論文。目標(biāo):首先對推薦系統(tǒng)評價指標(biāo)的分類以及每個類別下的指標(biāo)進(jìn)行了解,然后再對 每項指標(biāo)的具體含義以及公式進(jìn)行探究。首先閱讀的論文是推薦系統(tǒng)評價指標(biāo)綜述(電子科技大學(xué)學(xué)報-2012年)。測評方法推薦系統(tǒng)的評測主要分為在線評價和離線評價兩種方式。在線方式中最為常用的是A/B 測試,即為了同一個目標(biāo)制定兩個方案,記錄用戶使用情況,比較兩個方案的優(yōu)劣。它的核 心思想是:1)多個方案并行測試;2)每個方案只有一個變量不同;3)以某種規(guī)則優(yōu)勝劣 汰。所以唯一變量為推薦算法。離線測評是根據(jù)待評價的推薦系統(tǒng)在實驗數(shù)

2、據(jù)集上的表現(xiàn), 然后再根據(jù)下文將要提到的評價指標(biāo)來衡量推薦系統(tǒng)的質(zhì)量。1.準(zhǔn)確度指標(biāo)推薦的準(zhǔn)確度是評價推薦算法最基本的指標(biāo),衡量的是推薦算法在多大程度上能夠準(zhǔn)確 預(yù)測用戶對推薦商品的喜歡程度。分為四類:預(yù)測評分準(zhǔn)確度、預(yù)測評分關(guān)聯(lián)性、分類準(zhǔn)確 度和排序準(zhǔn)確度。1.1預(yù)測評分準(zhǔn)確度衡量的是算法預(yù)測的評分和用戶的實際評分的貼近程度。平均絕對誤差(mean absolute error,MAE)error, MAE)*勺,如果用表示用戶h對商品。的 真實評分,己表示用戶w對商品空的預(yù)測評分.E 表示測試集,那么MAE定義為,f法H 平均平方誤差(mean squared error,MSE)IMSE

3、 = V (rj-iP I W _r 射皿 UZJf JI E I E叩平均方根誤差(root mean squared error, RMSE)標(biāo)準(zhǔn)平均絕對誤差(normalized mean absolute error, NMAE)max mrmax和rmin分別為用戶評分區(qū)間的最大值和最小值。由于MSE和RMSE指標(biāo)對每個絕 對誤差首先做了平方,所以這兩個指標(biāo)對比較大的絕對誤差有更重的懲罰。NMAE由于在 評分區(qū)間上做了歸一化,從而可以在不同的數(shù)據(jù)集上對同一個推薦算法表現(xiàn)進(jìn)行比較。1.2預(yù)測評分關(guān)聯(lián)衡量的是預(yù)測評分和用戶真實評分之間的相關(guān)性。最常見的3種相關(guān)性指標(biāo)分別是Pearson

4、積距相關(guān)、Spearman 相關(guān)和 KendallsTau。Pearson積距相關(guān)系數(shù)衡量的是預(yù)測評分和真實評分的線性相關(guān)程度,定義為:住-刃S -尸)PLC = _ _掙5在Era和ra分別表示商品的真實評分和預(yù)測評分。Spearman關(guān)聯(lián)和Pearson關(guān)聯(lián)定義的 形式是一樣的,唯一不同的是Spearman關(guān)聯(lián)考慮的不是預(yù)測評分值,而是根據(jù)預(yù)測評分值 所得到的排序值,即將式中分別替換成商品的真實排名和預(yù)測排名。KendallsTau刻畫兩種排序值的統(tǒng)一程度,定義為C-DT =C十。廣為TF悴時的勵FL。表示逆序?qū)Φ挠兹?為了比較兩個不同的弱排序序列,有一種歸一化的基于距離的評價指標(biāo)(nor

5、malized distance-based performance measure,NDPM),主要是想是先統(tǒng)計兩個排序相悖的商品對個 數(shù)C-以及兩個排序兼容的商品對個數(shù)Cu。T表示用戶實際評分中具有嚴(yán)格偏好差別的商品 對個數(shù)。NDMP =2T1.3分類準(zhǔn)確度衡量的是推薦系統(tǒng)能夠正確預(yù)測用戶喜歡或者不喜歡某個商品的能力,尤其適用于那些 有著明確二分喜好的用戶系統(tǒng)。目前最常用的分類準(zhǔn)確度指標(biāo)有準(zhǔn)確率、召回率、F1指標(biāo)和 AUC這四種。準(zhǔn)確率表示用戶對推薦系統(tǒng)商品感興趣的概率,在計算準(zhǔn)確率的時候,最常用的做法是 設(shè)定推薦長度列表L,根據(jù)預(yù)測評分商品排序,系統(tǒng)認(rèn)為排在前L位的商品是用戶最可能喜 歡

6、的,因此推薦給用戶。表1待預(yù)測的商品可能的4種情況用戶喜好系統(tǒng)推吞系統(tǒng)不推薦Ture-Posilive %印False-Ntiuve不喜湖False-Positive; %,lurc-Ncgativc A Ert對于某-用戶s其推薦準(zhǔn)確率為系統(tǒng)推薦的匕 個商品中用戶喜歡的商品所占的比例,即:(9)只)= / - 中將系統(tǒng)中所有用戶的準(zhǔn)確率求平均得到系統(tǒng)整體的推薦準(zhǔn)確率,M表示測試用戶的數(shù)量召回率表示一個用戶喜歡的商品被推薦的概率,定義為推薦列表中用戶喜歡的商品與系 統(tǒng)中用戶喜歡的所有商品的比率。B表示用戶喜歡的商品數(shù)。因為不能準(zhǔn)確知道系統(tǒng)沒有推薦的商品中哪些是用戶喜歡 的,因此召回率很難應(yīng)用于

7、在線評估。將系統(tǒng)中所有用戶的召回率求平均得到系統(tǒng)整體的推 薦召回率。碓)=握脂)另一種常用的方法同時考慮準(zhǔn)確率和召回率,因為兩者是負(fù)相關(guān)的而且依賴于推薦列表 長度。F1指標(biāo)包含準(zhǔn)確率和召回率,定義為: 2心叫P(L) + R(L)上述的一系列指標(biāo)對于沒有二分喜好的系統(tǒng)不太適用,這時候往往采用AUC指標(biāo)。AUC 指標(biāo)表示ROC(receiver operator curve)曲線下的面積,衡量一個推薦系統(tǒng)能夠在多大程度 上將用戶喜歡的商品與不喜歡的商品分出來。果商品Q的預(yù)測評分值大于商品。的評分,那么就加一分,如果兩個評分值相等就加0-5分。這樣獨立 地比較次,如果有/次商品二的預(yù)測評分值大于

8、商品0的評分,有/次兩評分值相等,那么AUC就 可以近似寫作:(16)1.4排序準(zhǔn)確度排序準(zhǔn)確度對于只注重分類準(zhǔn)確度的系統(tǒng)來說太敏感了,考慮到排序位置的影響,用平 均排序分來度量推薦系統(tǒng)的排序準(zhǔn)確度。對于某一用戶u來說,商品a的排序分定義為:Lu表示用戶u的待排序商品個數(shù)。在離線測試中Lu等于| O- E u t|,也即用戶u在測 試集中的商品數(shù)目(| | EuP )加上未選擇過的商品數(shù)目(| |O- E 2。扁為待預(yù)測商品a在用戶u的推薦列表中的排名(此時推薦列表長度為Lu )。排序分值越小,說明系統(tǒng)越趨向于把用戶喜歡的商品排在前面。反之,則說明系統(tǒng)把用 戶喜歡的商品排在了后面。2.基于排序

9、加權(quán)的指標(biāo)半衰期效用指標(biāo)(half-life utility)是在用戶瀏覽商品的概率與該商品在推薦列表中的具 體排序值呈指數(shù)遞減的假設(shè)下提出來的,度量的是用戶真實評分和系統(tǒng)默認(rèn)評分值的差別。rua表示用戶u對商品a的實際評分;而lua為商品a在用戶u的推薦列表中的排名; d為默認(rèn)評分(如說平均評分值);h為系統(tǒng)的半衰期,也即是有50%的概率用戶會瀏覽的 推薦列表的位置。折扣累計利潤(discounted cumulative gain,DCG)的主要思想是用戶喜歡的商品被排在 推薦列表前面比后面會更大程度上增加用戶體驗。弓林宅。冬高表示排在第i位的商品是否是用戶喜歡的;ri=1表示用戶喜歡該商

10、品;ri=0表示用戶 不喜歡該商品;b是自由參數(shù)多設(shè)為2;L為推薦列表長度。排序偏差準(zhǔn)確率(rank-biased precision,RBP)假設(shè)用戶先瀏覽排在列表首位的商品然 后依次按照固定的概率p瀏覽下一個,以1-p的概率不再看此類推薦列表。=p)% 廣r=l3.覆蓋率是指算法向用戶推薦的商品能夠覆蓋全部商品的比例。主要分為預(yù)測覆蓋率、推薦覆蓋 率和種類覆蓋率。預(yù)測覆蓋率表示可以預(yù)測評分的商品占所有商品的比例,定義為:Nd表示系統(tǒng)可以評分的商品數(shù)目,N為所有商品數(shù)目。推薦覆蓋率表示系統(tǒng)能夠為用戶推薦的商品占所有商品的比例,定義為:covq 二種類覆蓋率表示推薦系統(tǒng)為用戶推薦的商品種類占全

11、部種類的比例,目前應(yīng)用較少4多樣性和新穎性一個好的推薦系統(tǒng)不僅準(zhǔn)確率高的商品而且還有用戶其他途徑?jīng)]了解到的商品。在推薦 系統(tǒng)中,多樣性分為兩個層次,一是推薦系統(tǒng)對不同用戶推薦不同商品的能力,而是推薦系統(tǒng)對一個用戶推薦商品的多樣性。漢明距離定義為:久() 二 1-耳殳 m、 He .吐-frH F.ll -irt B I BQu t( L)表示用戶u和t推薦列表中相同商品的個數(shù)。如果兩個推薦列表是完全一致 的,那么Hut (L ) =0,反之如果兩個推薦列表沒有任何重疊的商品則Hut (L ) = 1。所有的用 戶對的漢明距離的平均值即是整個系統(tǒng)的漢明距離H( L)。漢明距離越主,表示推薦的多樣 性越高。將系統(tǒng)為用戶推薦的商品集合記為;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論