版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、推薦算法之潛在因子(Latent Factor)算法這種算法是在NetFlix (沒錯,就是用大數(shù)據(jù)捧火紙牌屋的那家公司)的推薦算法競賽中獲獎的 算法,最早被應用于電影推薦中。這種算法在實際應用中比現(xiàn)在排名第一的邰原朗所介紹的算法 誤差(RMSE)會小不少,效率更高。我下面僅利用基礎的矩陣知識來介紹下這種算法。這種算法的思想是這樣:每個用戶(user)都有自己的偏好,比如A喜歡帶有小清新的、吉他伴奏的、 王菲等元素(latent factor),如果一首歌(item)帶有這些元素,那么就將這首歌推薦給該用戶,也 就是用元素去連接用戶和音樂。每個人對不同的元素偏好不同,而每首歌包含的元素也不一樣
2、。我們 希望能找到這樣兩個矩陣:一,用戶-潛在因子矩陣Q,表示不同的用戶對于不用元素的偏好程度,1代表很喜歡,0代表不喜歡。 比如下面這樣:二,潛在因子-音樂矩陣P,表示每種音樂含有各種元素的成分,比如下表中,音樂A是一個偏小清 新的音樂,含有小清新這個Latent Factor的成分是0.9,重口味的成分是0.1,優(yōu)雅的成分是0.2小清新重口味優(yōu)雅傷感五月天音樂A0. 90. 10.20. 40音樂B0. 50.60. 10. 91音樂C0.10.20.50.10音樂D00.60. 10. 20利用這兩個矩陣,我們能得出張三對音樂A的喜歡程度是:張三對小清新的偏好*音樂A含有小清新 的成分+
3、對重口味的偏好*音樂A含有重口味的成分+對優(yōu)雅的偏好*音樂A含有優(yōu)雅的成分+小清新重口味優(yōu)雅傷感五月天音樂A0. 90. 10.20. 40即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69每個用戶對每首歌都這樣計算可以得到不同用戶對不同歌曲的評分矩陣。(注,這里的破浪線 表示的是估計的評分,接下來我們還會用到不帶波浪線的R表示實際的評分):音樂A音樂B音樂C音樂D張三0. 68L 58280.51李四0.310. 430.470.11王五L06L570. 730. 69因此我們隊張三推薦四首歌中得分最高的B,對李四推薦得分最高的C,王五推薦B。 如果用矩
4、陣表示即為:下面問題來了,這個潛在因子(latent factor)是怎么得到的呢?由于面對海量的讓用戶自己給音樂分類并告訴我們自己的偏好系數(shù)顯然是不現(xiàn)實的,事實上我們能獲 得的數(shù)據(jù)只有用戶行為數(shù)據(jù)。我們沿用邰原朗的量化標準:單曲循環(huán)=5,分享=4,收藏=3,主動播 放=2 ,聽完=1,跳過=-2,拉黑=-5,在分析時能獲得的實際評分矩陣R,也就是輸入矩陣大概是這個 樣子:音樂音樂2音樂3音樂4音樂5音樂6音樂7音樂用戶15 5用戶23用戶312-54用戶4443凌用戶55-5543用戶64用戶7我5用戶8-255事實上這是個非常非常稀疏的矩陣,因為大部分用戶只聽過全部音樂中很少一部分。如何利
5、用這個矩 陣去找潛在因子呢?這里主要應用到的是矩陣的UV分解。也就是將上面的評分矩陣分解為兩個低維 度的矩陣,用Q和P兩個矩陣的乘積去估計實際的評分矩陣,而且我們希望估計的評分矩陣和實際的評分矩陣不要相差太多,也就是求解下面的目標函數(shù):這里涉及到最優(yōu)化理論,在實際應用中,往往還要在后面加上2范數(shù)的罰項,然后利用梯度下降法就 可以求得這P,Q兩個矩陣的估計值。這里我們就不展開說了。例如我們上面給出的那個例子可以分解 成為這樣兩個矩陣:因予2園于M國的用戶 1 0.W8(X642 用戶2。里77 0.620 用戶3 0.768 0lW3 用戶4 0舶3場03 用戶 5 &847用戶6 tkfi朋0
6、.62S 階7 W70 Cu615 用聲8 0.870 06210524 0454 0.406 0.506 0.438 0.392 0.443 0384 0.344 。崩9。顯6 0.3&1 0.489 0.424 0.379 0.510 04d2 0.395 2海。書5 0海0.507 枇439 0.352音樂音樂2音隊 1.914 0.913 注0L64S 任6 0.52$ 慫/ 0.5. 0457 0456 U.4 0仙 040 g這兩個矩陣相乘就可以得到估計的得分矩陣:音樂音樂3音樂4音樂5音樂6音樂7HP12.102.0S2.12典2.12用戶22.032.032.011.892.002.04用戶a1.781.781.801.9&1.341.95用戶51.9&1-98193鬲戶62.0S2042.061玩2.06有戶了2.02ZOO2.031.872.03用戶82.032.01Z051.892.04將用戶已經聽過的音樂剔除后,選擇分數(shù)最高音樂的推薦給用戶即可(紅體字)。在這個例
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 注射模具保養(yǎng)培訓課件
- 向家長介紹區(qū)域活動
- 華為交換機培訓詳解
- 左肺癌病人護理查房
- 2.1大氣的組成和垂直分層(教學設計)高一地理同步高效課堂(人教版2019必修一)
- 北京市大興區(qū)2024-2025學年八年級上學期期中考試英語試題(含答案)
- 大單元視域下的單元整體教學與實施
- 信息技術(第2版)(拓展模塊)教案4-模塊3 3.4 大數(shù)據(jù)分析算法
- 2024年內蒙古包頭市中考英語試題含解析
- 新版人教版一年級下冊思想品德全冊教案
- +山東省棗莊市滕州市善國中學等校聯(lián)考2023-2024學年七年級+上學期期中數(shù)學試卷
- 神經重癥腸內營養(yǎng)病歷分享
- 真石漆高空施工方案
- 弘揚愛國主義精神主題班會課件
- 危重孕產婦的救治及轉診
- 國民經濟行業(yè)分類與代碼
- 對數(shù)函數(shù)的圖象和性質PPT
- 醫(yī)療信息安全與患者隱私保護
- 教學設備安裝調試方案投標方案
- 基于教學評一體化的大單元教學設計
- 數(shù)學五上《平行四邊形的面積》公開課教學設計西南師大版-五年級數(shù)學教案
評論
0/150
提交評論