版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、推薦算法綜述推薦算法綜述蘇芳芳 2014-10-14電子商務(wù)推薦電子商務(wù)推薦l將電子商務(wù)系統(tǒng)的瀏覽者轉(zhuǎn)變?yōu)橘徺I者:瀏覽者經(jīng)常沒有購買欲望,電子商務(wù)推薦他們感興趣的商品,從而完成購買過程。l提高電子商務(wù)系統(tǒng)的交叉銷售:推薦用戶確實需要但是在購買過程中沒有想到的商品列表。l保留用戶:提高推薦質(zhì)量,讓用戶對該系統(tǒng)產(chǎn)生依賴。研究內(nèi)容和方向研究內(nèi)容和方向l推薦技術(shù)研究l實時性研究l推薦質(zhì)量研究l多種數(shù)據(jù)多種技術(shù)的集成l數(shù)據(jù)挖掘技術(shù)的應(yīng)用(關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類 分析、貝葉斯分類)l用戶隱私保護研究l推薦系統(tǒng)可視化研究(可視化研究和推薦結(jié)果解釋研究)推薦算法主要算法推薦算法主要算法l協(xié)同過濾推薦
2、算法l基于內(nèi)容的推薦算法l基于圖結(jié)構(gòu)推薦l基于關(guān)聯(lián)規(guī)則推薦l基于知識推薦l混合推薦協(xié)同過濾推薦協(xié)同過濾推薦l協(xié)同過濾推薦算法有: 基于用戶的協(xié)同過濾推薦算法 基于項目的協(xié)同過濾推薦算法 基于降維的協(xié)同過濾推薦算法 基于聚類的協(xié)同過濾推薦算法基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦l基于用戶協(xié)同過濾推薦根據(jù)其他用戶的觀點產(chǎn)生對目標用戶的推薦列表基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦l算法步驟:1、數(shù)據(jù)表示:對用戶已經(jīng)購買過的商品進行建模2、最近鄰查詢:計算相似度,搜索當前用戶的最近鄰居3、推薦產(chǎn)生:根據(jù)最近鄰對商品的評分預(yù)測當前用戶對商品的評分,產(chǎn)生top-N商品基于用戶的協(xié)同過濾推薦
3、基于用戶的協(xié)同過濾推薦1、數(shù)據(jù)表示基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦2、最近鄰查詢計算當前用戶和其他用戶的相似度,選擇相似度高的若干用戶作為最近鄰。相似度計算: 余弦相似性 修正的余弦相似性 相關(guān)相似性(pearson correlation) 基于圖結(jié)構(gòu)的相似度基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦l相似度計算方法余弦相似性:修正的余弦相似性:相關(guān)相似性:基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦3、推薦產(chǎn)生計算用戶u對項i的預(yù)測評分Pu,i : 選擇評分高的的若干項目推薦給用戶u?;陧椖康膮f(xié)同過濾推薦基于項目的協(xié)同過濾推薦l基于項目協(xié)同過濾推薦根據(jù)用戶對相似項最近鄰居的
4、評分產(chǎn)生對目標用戶的推薦列表基于項目的協(xié)同過濾推薦基于項目的協(xié)同過濾推薦l算法步驟:1、最近鄰查詢:搜索目標項的最近鄰居2、推薦產(chǎn)生:根據(jù)用戶對目標項最近鄰居的評分預(yù)測用戶對目標項的評分,產(chǎn)生top-N商品基于聚類的協(xié)同過濾推薦基于聚類的協(xié)同過濾推薦l將整個用戶空間根據(jù)用戶的購買習(xí)慣和評分特點劃分為若干個不同的聚類;l根據(jù)每個聚類中用戶對商品的評分信息生成一個虛擬用戶,將所有虛擬用戶對商品的評分作為新的搜索空間;l查詢當前用戶在虛擬用戶空間中的最近鄰居,產(chǎn)生對應(yīng)的推薦結(jié)果。l查詢效率高、實時響應(yīng)快基于聚類的協(xié)同過濾推薦基于聚類的協(xié)同過濾推薦- -劃分聚類劃分聚類lK-means聚類算法:1).
5、隨機選擇k個用戶作為種子節(jié)點,將k個用戶對項的評分數(shù)據(jù)作為初始的聚類中心。2)對剩余的用戶集合,計算每條用戶與k個聚類中心的相似性,將每個用戶分配到相似性最高的聚類中。3)對新生成的聚類,計算聚類中所有用戶對項的平均評分,生成新的聚類中心。4)重復(fù)以上2到3步,直到聚類不再發(fā)生改變?yōu)橹埂;诰垲惖膮f(xié)同過濾推薦基于聚類的協(xié)同過濾推薦l虛擬用戶集生成根據(jù)不同的聚類生成對應(yīng)的聚類中心,聚類中心與聚類中其他用戶的距離之和最小,代表該聚類中用戶對商品的典型評分。將所有的聚類中心作為虛擬的用戶集合?;诰垲惖膮f(xié)同過濾推薦基于聚類的協(xié)同過濾推薦l推薦產(chǎn)生在虛擬的用戶集合上使用各種相似性度量方法搜索當前用戶的
6、若干最近鄰居,然后根據(jù)最近鄰居對商品的評分信息產(chǎn)生對應(yīng)的推薦結(jié)果。最近鄰搜索和推薦產(chǎn)生的方法跟協(xié)同過濾推薦算法類似,在此不再贅述。協(xié)同過濾優(yōu)缺點及改進協(xié)同過濾優(yōu)缺點及改進l協(xié)同過濾優(yōu)點:交叉推薦l協(xié)同過濾缺點:冷啟動基于內(nèi)容的過濾基于內(nèi)容的過濾l協(xié)同過濾方法只考慮了用戶評分數(shù)據(jù),忽略了項目和用戶本身的諸多特征,如電影的導(dǎo)演、演員和發(fā)布時間等,用戶的地理位置、性別、年齡等.如何充分、合理的利用這些特征,獲得更好的推薦效果,是基于內(nèi)容推薦策略所要解決的主要問題。l主要算法:l文本推薦方法l基于潛在語義分析的推薦l自適應(yīng)推薦文本推薦方法文本推薦方法l基于內(nèi)容的推薦方法根據(jù)歷史信息(如評價、分享、收藏
7、過的文檔)構(gòu)造用戶偏好文檔,計算推薦項目與用戶偏好文檔的相似度,將最相似的項目推薦給用戶。l相比于多媒體信息(視頻、音頻、圖片等),文本類項目(新聞、網(wǎng)頁、博客)的特征提取相對容易,因而基于內(nèi)容的推薦方法在文本類推薦領(lǐng)域得到了廣泛應(yīng)用?;跐撛谡Z義分析的推薦基于潛在語義分析的推薦l關(guān)鍵詞的同義和多義現(xiàn)象往往導(dǎo)致文檔相似度計算不準確。l基本思想:采用文檔-詞矩陣奇異值分解的方法將文檔和詞語映射到同一個低維的潛在語義空間中計算各文檔與用戶查詢之間的相似度,據(jù)此返回最相關(guān)的文檔l缺點:采用奇異值分解得到的潛在語義空間物理意義不明確,矩陣的奇異值分解計算量大。自適應(yīng)推薦自適應(yīng)推薦l基于內(nèi)容推薦的關(guān)鍵是
8、 構(gòu)建和更新用戶偏好文檔。l用戶的興趣會隨時間動態(tài)變化。l解決方法:采用貝葉斯分類、決策樹、聚類、人工神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)方法?;趦?nèi)容的推薦算法基于內(nèi)容的推薦算法l缺點:新用戶問題、過擬合問題、多媒體信息特征難提取等?;陉P(guān)聯(lián)規(guī)則推薦算法基于關(guān)聯(lián)規(guī)則推薦算法l關(guān)聯(lián)規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同事購買了商品集Y。l基于關(guān)聯(lián)規(guī)則的推薦算法根據(jù)生成的關(guān)聯(lián)規(guī)則推薦模型和用戶的購買行為向用戶產(chǎn)生推薦。l關(guān)聯(lián)規(guī)則推薦模型的建立離線進行,可以保證有效推薦算法的實時性要求?;趫D結(jié)構(gòu)的推薦算法基于圖結(jié)構(gòu)的推薦算法1、用戶-項目矩陣可建模為一個二部圖(bipartite
9、graph),其中節(jié)點分別表示用戶和項目,邊表示用戶對項目的評價?;趫D結(jié)構(gòu)的推薦算法基于圖結(jié)構(gòu)的推薦算法2、計算資源分配矩陣W。項目j到項目i的資源分配權(quán)重wij計算如下:l其中Dj表示節(jié)點j的度。基于圖結(jié)構(gòu)的推薦算法基于圖結(jié)構(gòu)的推薦算法3 、 針 對 指 定 用 戶 計 算 各 項 目 的 資 源 分 配 。 令fi=(ai1,ai2,aim)表示用戶i的對m個項目的初始資源分配,fi表示用戶i的對m個項目的最終資源分配,則有fi=Wfi 。4、根據(jù)fi產(chǎn)生推薦列表。按fi中從大到小的順序排列生成一個推薦項目列表(用戶已經(jīng)偏好的項目除外)?;谥R的推薦算法基于知識的推薦算法l協(xié)同過濾和基
10、于內(nèi)容的推薦算法各有優(yōu)勢。但在很多情況下這些方法并不是最好的選擇。比較典型的是,我們并不會非常頻繁的購買房屋、汽車或計算機。 這樣我們可能無法依賴購買記錄。l基于知識的推薦不需要評分數(shù)據(jù),沒有冷啟動問題。l基于知識的算法根據(jù)顯示知識領(lǐng)域 模型進行推理?;谥R的推薦算法基于知識的推薦算法l用戶必須指定需求,然后系統(tǒng)設(shè)法給出解決方案。如果找不到解決方案,用戶必須修改需求。此外系統(tǒng)還要給出推薦物品的解釋。l“汽車的最高價是X,顏色應(yīng)該是黑的”混合推薦算法混合推薦算法l混合推薦是為解決協(xié)同過濾、基于內(nèi)容和基于圖結(jié)構(gòu)推薦算法各自問題而提出的,達到“相互取長補短”的推薦效果。例如,基于內(nèi)容方法可以解決協(xié)
11、同過濾中“新項目”問題,而協(xié)同過濾可降低基于內(nèi)容算法面臨的“過擬合”問題。l混合推薦可以獨立運用協(xié)同過濾、基于內(nèi)容和基于圖結(jié)構(gòu)的推薦算法,將兩者或多者產(chǎn)生的推薦結(jié)果進行融合,再將融合后的結(jié)果推薦給用戶。問題和分析問題和分析l推薦算法缺點和挑戰(zhàn) 數(shù)據(jù)的稀疏性 冷啟動 可擴展性 實時性 特征提取 推薦結(jié)果解釋 過擬合 托攻擊問題 隱私問題 多種數(shù)據(jù)和多種推薦技術(shù)的有效集成 自動化推薦(根據(jù)用戶行為,不一定要 顯示評分)數(shù)據(jù)的稀疏性數(shù)據(jù)的稀疏性l數(shù)據(jù)稀疏性的解決辦法:降維技術(shù)-壓縮矩陣(采用奇異值分解方法刪除不重要的或噪音用戶和項目)采用潛在語義索引技術(shù)將 用戶-項目 矩陣轉(zhuǎn)換成 用戶-類別 矩陣矩
12、陣填充技術(shù)(BP神經(jīng)網(wǎng)絡(luò)、Nave Bayesian分類方法、基于內(nèi)容的預(yù)測、基于項評分預(yù)測的IRPRec)冷啟動冷啟動l 協(xié)同過濾的缺點:冷啟動l冷啟動問題的解決方法:基于內(nèi)容的最近鄰居查找技術(shù)可擴展性可擴展性l可擴展性解決方法: 降維 聚類 分類SVD等降維技術(shù)、基于最近鄰的KNN算法、新的最近鄰度量相似度支持度、基于模型的CF算法(如聚類協(xié)同過濾算法)數(shù)據(jù)集數(shù)據(jù)集l常用的數(shù)據(jù)集:MovieLensEachMovieBookCrossingJester JokeNetflixUsenet NewsgroupsUCI知識庫評價準則評價準則l統(tǒng)計精度度量:平均絕對誤差MAE、均方根誤差RMSE -為用戶估計特定項目的評分l決策支持精度度量:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車美容隔斷施工合同
- 風(fēng)力發(fā)電機組裝生產(chǎn)線合同
- 電商客服人員聘用合同范例
- 私募基金協(xié)議休假管理辦法
- 老年公寓保健員招聘協(xié)議
- 電子產(chǎn)品招投標委托協(xié)議
- 退房協(xié)議書中
- 古董居間合同范例
- 郵輪旅游貨物裝卸合同三篇
- 貴金屬供應(yīng)合同(2篇)
- 影視理論基礎(chǔ)知識
- 中考復(fù)習(xí)-初中英語單詞表大全(2182個帶音標)
- 腹主動脈瘤護理查房課件(PPT 55頁)
- 農(nóng)業(yè)比較效益低的成因及應(yīng)對
- 生產(chǎn)部績效手冊ppt課件
- 藍色唯美創(chuàng)意潑水節(jié)主題宣傳PPT模板課件
- 小學(xué)一年級上冊數(shù)學(xué)20以內(nèi)進位加法單元測試卷1
- 直觀教具在小學(xué)英語詞匯教學(xué)中的運用初探
- 《制冷設(shè)備原理與維修》期末試卷試題及參考答案
- 初中生物教學(xué)儀器配備明細目錄
- 供水管道工程現(xiàn)場管理辦法
評論
0/150
提交評論