




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、推薦系統(tǒng)作者:苗原聯(lián)系方式:編輯ppt目標 推薦系統(tǒng)的意義 基于內(nèi)容推薦 協(xié)同過濾推薦 頻繁模式挖掘 標簽系統(tǒng) 推薦結(jié)果評價編輯ppt推薦系統(tǒng)的意義 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長,“信息過載”問題愈來愈嚴重,愈發(fā)帶來很大的信息負擔。 施拉姆施拉姆信息選擇公式信息選擇公式,人們對媒體的注意或選擇的可能性(然率)與它能夠提供的報償(價值)程度成正比,與人們獲得它的代價(費力)程度成反比。 人們愿意用最小的代價獲取價值最大的新聞信息。人們愿意用最小的代價獲取價值最大的新聞信息。編輯ppt推薦系統(tǒng)的意義 在互聯(lián)網(wǎng)時代由于網(wǎng)絡(luò)技術(shù)能以很低的成本讓人們?nèi)カ@得更多的信息和選擇,事 實上,每一個
2、人的品味和偏好都并非和主流人群完全一致,當我們發(fā)現(xiàn)得越多,我們就越能體會到我們需要更多的選擇。如果說搜索引擎體現(xiàn)著馬 太效應(yīng)的話,那么長尾理論則闡述了推薦系統(tǒng)發(fā)揮的價值。編輯ppt推薦系統(tǒng)的意義編輯ppt基于內(nèi)容推薦信息來源: 物品基本信息 用戶的基本信息 用戶和物品之間的信息編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學的推薦)基于人口統(tǒng)計學的推薦思想:根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度,然后將相似用戶喜愛的其他物品推薦給當前用戶編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學的推薦)A用戶基本信息:年齡25-30歲,性別:女年齡分:0-10 10-25 25-30 30-35 35-60 60-B用戶基本信息
3、:年齡30-35歲,性別:男C用戶基本信息:年齡25-30歲,性別:女性別:男 女a(chǎn)(3,1)b(4,0)c(3,1)編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學的推薦)余弦相似性編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學的推薦)優(yōu)缺點:(1)由于不使用當前用戶對物品的喜好歷史數(shù)據(jù),所以對于新用戶來講沒有“冷啟動”的問題;(2)可能涉及到一些與信息發(fā)現(xiàn)問題本身無關(guān)卻比較敏感的信息,比如用戶的年齡等,這些用戶信息不是很好獲??;編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)系統(tǒng)首先對物品的屬性進行建模,圖中用類型作為屬性。通過 相似度計算,發(fā)現(xiàn)電影A和C相似度較高,因為他們都屬于愛情類。系統(tǒng)還會發(fā)現(xiàn)用戶A喜歡電影A,由此得
4、出結(jié)論,用戶A很可能對電影C也感興趣。于是將電影 C推薦給A。編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)物品相似度計算方法物品相似度計算方法: 基于物品基本信息 基于語義特征編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)TF-IDF算法:自動提取關(guān)鍵詞算法:自動提取關(guān)鍵詞如果如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。了這篇文章的特性,正是我們所需要的關(guān)鍵詞。編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)優(yōu)缺點優(yōu)缺點:能能很好的建模用戶的口味,能提供更加精確的推薦很好的建模用戶的口味,能提
5、供更加精確的推薦;物品物品相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態(tài)度相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態(tài)度;因為因為需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有“冷啟動冷啟動”的的問題;問題;編輯ppt基于協(xié)同過濾推薦 基于用戶的協(xié)同過濾(user-based CF) 基于商品的協(xié)同過濾(item-based CF)信息來源: 用戶和物品之間的信息編輯ppt基于協(xié)同過濾推薦( user-based CF ) 思想:根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當前用戶口味和偏好相似的“鄰居”用
6、戶群,為當前戶進行推薦;編輯ppt基于協(xié)同過濾推薦( item-based CF ) 思想:使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶;編輯ppt基于協(xié)同過濾推薦( item-based CF )考慮到大多數(shù)電商網(wǎng)站多人多熱門商品要遠少于人數(shù),一般會選擇基于物品的協(xié)同過濾算法。編輯ppt基于協(xié)同過濾推薦編輯ppt基于協(xié)同過濾推薦優(yōu)缺點優(yōu)缺點: 不需要考慮物品內(nèi)容和人口屬性,需要歷史記錄。 由于需要用戶的歷史偏好,所以存在新用戶的“冷啟動”問題;編輯ppt頻繁模式挖掘 關(guān)聯(lián)規(guī)則挖掘的典型案例: 購物籃問題 在商場中擁有大量的商
7、品(項目),如:牛奶、面包等,客戶將所購買的商品放入到自己的購物籃中。 編輯ppt頻繁模式挖掘(支持度與置信度支持度與置信度 )關(guān)聯(lián)關(guān)聯(lián)規(guī)則的規(guī)則的支持度支持度 如果交易數(shù)據(jù)庫D中s的交易包含AB,則稱規(guī)則A =B在事務(wù)集D上的支持度為s。Support(A=B)=P(AB) 關(guān)聯(lián)關(guān)聯(lián)規(guī)則的規(guī)則的置信度置信度 如果交易數(shù)據(jù)庫D中,包含A的交易中有c(%)的交易同時也包含B,稱規(guī)則的置信度為c。(條件概率)Confidence (A =B)=P(B|A) =support(A = B)/support(A)(注:這里的U是指在交易中同時出現(xiàn)A和B) 編輯ppt頻繁模式挖掘查找所有的規(guī)則 A=C
8、具有最小支持度和可信度 支持度 , s , 一次交易中包含 A 、 C 的可能性 置信度 , c, 包含 A 的交易中也包含 C 的條件概率 編輯ppt頻繁模式挖掘rule A=C : support = support( A C ) = 50% confidence = support( A C )/support( A ) = 66.7% rule C =A (50%, 100%) 編輯ppt頻繁模式挖掘(頻繁項集 )項集 (Itemset): a set of items 例如 acm=a, c, m , sup=3 頻繁項集(高頻項集) 如果項集滿足最小支持度,則稱之為頻繁項集 如果
9、min_sup = 3, 則 acm 是頻繁項集 如果頻繁項集中包含 K 個項,則稱為頻繁 K 項集 編輯ppt頻繁模式挖掘(Apriori算法 )尋找最大頻繁集逐層搜索的迭代方法。 用k-項集探求(k+1)-項集。 具體地: 首先找出頻繁1-項集,該集合記為L 用L找出頻繁2-項集的集合L 如此繼續(xù)下去,直到找到最大頻繁項集 該方法,主要有連接和剪枝兩步構(gòu)成。 編輯ppt標簽系統(tǒng)編輯ppt標簽系統(tǒng) 表明物品是什么 比如是一只鳥,就會有“鳥”這個詞的標簽 表明物品的種類 比如在Delicious的書簽中,表示一個網(wǎng)頁類別的標簽包括 article(文章)、blog(博客)、 book(圖書)等。 表明誰擁有物品 比如很多博客的標簽中會包括博客的作者等信息。 表達用戶的觀點 比如用戶認為網(wǎng)頁很有趣,就會打上標簽funny(有趣),認為很無聊,就會打上標簽boring(無聊)。 用戶相關(guān)的標簽 比如 my favorite(我最喜歡的)、my comment(我的評論)等。 用戶的任務(wù) 比如 to read(即將閱讀)、job search(找工作)編輯ppt基于標簽系統(tǒng)的推薦編輯ppt標簽系統(tǒng) KNN聚類算法編輯ppt標簽系統(tǒng) 主題模型算法編輯ppt標簽系統(tǒng) 用戶畫像用戶畫像的核心工作是為用戶打標簽,打標簽的重要目的之一是為了讓人能夠理解并且方便計算機處理。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 腫瘤治療2025年精準醫(yī)療臨床實踐效果與生物技術(shù)產(chǎn)業(yè)投資報告
- 陜西自考計劃管理辦法
- 餐廳成本結(jié)算管理辦法
- 銀行保險信訪管理辦法
- 長沙綠化管理辦法細則
- 2025年全球創(chuàng)新藥研發(fā)市場區(qū)域差異與競爭格局研究報告
- 2025年工業(yè)互聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)庫融合技術(shù)在能源領(lǐng)域的應(yīng)用案例報告
- 兒童教育旅行報告
- 大寒營銷策略實施
- 稀土廢棄礦山生態(tài)修復(fù)實施方案
- 2024 ESC慢性冠脈綜合征指南解讀(全)
- 委外合作與供應(yīng)商管理制度
- 康復(fù)評定學課件第十一章心肺功能評定
- 2024年新版(外研版新交際)二年級英語上冊單詞帶音標
- 江蘇省蘇州市蘇州地區(qū)學校2024屆七年級英語第二學期期末統(tǒng)考試題含答案
- 電商客服周工作計劃
- 數(shù)據(jù)交換平臺設(shè)計方案
- DL∕T 1563-2016 中壓配電網(wǎng)可靠性評估導則
- Vericut培訓教程(可修改)
- 校級課題結(jié)題報告會方案
- 基于PLC的冷卻系統(tǒng)自整定模糊控制研究
評論
0/150
提交評論