推薦算法介紹ppt課件_第1頁
推薦算法介紹ppt課件_第2頁
推薦算法介紹ppt課件_第3頁
推薦算法介紹ppt課件_第4頁
推薦算法介紹ppt課件_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、推薦算法介紹,目錄,二、為什么需要推薦算法 - Why,三、推薦算法的常用領(lǐng)域 - Where,四、寫在推薦之前 - 冷啟動(dòng)問題,五、推薦引擎分類,一、什么是推薦算法 - What,六、常用推薦算法介紹,一、 什么是推薦算法 - What,所謂推薦算法就是利用用戶的一些行為,通過一些數(shù)學(xué)算法,推測出用戶可能喜歡的東西。 最早的推薦系統(tǒng)出現(xiàn)在1992年,是一種基于協(xié)同過濾算法的郵件過濾系統(tǒng)。近些年由于互聯(lián)網(wǎng)的爆發(fā),推薦算法變得比較火熱,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),二、為什么需要推薦算法 - Why,信息超載 用戶無明確需求,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),二、為什么需要推薦算

2、法 - Why,隨著互聯(lián)網(wǎng)技術(shù)和社會(huì)化網(wǎng)絡(luò)的發(fā)展,每天大量的信息被發(fā)布到網(wǎng)上,使得信息資源呈幾何級(jí)速度增長。在這樣的情形下,搜索引擎(Google、百度、Bing等等)成為大家快速找到目標(biāo)信息的最好途徑。在用戶對(duì)自己需求相對(duì)明確的時(shí)候,用搜索引擎通過關(guān)鍵字搜索能很快的找到自己需要的信息。但搜索引擎并不能完全滿足用戶對(duì)信息發(fā)現(xiàn)的需求,因?yàn)樵诤芏嗲闆r下,用戶并不明確自己的需要,或者他們的需求很難用簡單的關(guān)鍵字來表述,又或者他們需要更加符合他們個(gè)人口味和喜好的結(jié)果。 正是由于這種信息的爆炸式增長,以及對(duì)信息獲取的有效性、有針對(duì)性的需求使得推薦系統(tǒng)應(yīng)運(yùn)而生。與搜索引擎相對(duì)應(yīng),大家習(xí)慣稱之為推薦引擎,數(shù)

3、據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),二、為什么需要推薦算法 - Why,推薦系統(tǒng)的主要任務(wù)就是聯(lián)系用戶和信息。對(duì)用戶而言,推薦系統(tǒng)能幫助用戶找到喜歡的物品/服務(wù),幫忙進(jìn)行決策,發(fā)現(xiàn)用戶可能喜歡的新事物;對(duì)商家而言,推薦系統(tǒng)可以給用戶提供個(gè)性化的服務(wù),提高用戶信任度和粘性,增加營收。我們可以通過一組數(shù)據(jù)了解推薦系統(tǒng)的價(jià)值: Netflix:2/3被觀看的電影來自推薦; Google新聞:38%的點(diǎn)擊量來自推薦; Amazon:35%的銷量來自推薦,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),三、推薦算法的常用領(lǐng)域 - Where,目前,推薦系統(tǒng)已經(jīng)滲透到了我們?nèi)粘I钪械姆椒矫婷妫弘娮由虅?wù)、電影或

4、視頻網(wǎng)站、個(gè)性化音樂網(wǎng)絡(luò)電臺(tái)、社交網(wǎng)絡(luò)、個(gè)性化閱讀、基于位置的服務(wù)、個(gè)性化郵件、個(gè)性化廣告。 在你逛淘寶、訂外賣、聽網(wǎng)絡(luò)電臺(tái)、看美劇、查郵件、淘攻略的時(shí)候,推薦系統(tǒng)在你不知不覺中將你可能感興趣的內(nèi)容推送給你。和搜索引擎不同,個(gè)性化推薦系統(tǒng)需要依賴用戶的行為數(shù)據(jù),一般都是作為一個(gè)應(yīng)用存在于不同網(wǎng)站之中。在互聯(lián)網(wǎng)的各大網(wǎng)站中都可以看到推薦系統(tǒng)的影子,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),三、推薦算法的常用領(lǐng)域 - Where,淘寶 京東 當(dāng)當(dāng) 亞馬遜,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),三、推薦算法的常用領(lǐng)域 - Where,音樂(網(wǎng)易云音樂、QQ音樂、酷狗、蝦米等) 電影(時(shí)光網(wǎng)、豆瓣)

5、圖書(豆瓣),數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),三、推薦算法的常用領(lǐng)域 - Where,各社交平臺(tái) 今日頭條,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),三、推薦算法的常用領(lǐng)域 - Where,瀏覽網(wǎng)頁時(shí)出現(xiàn)在頁面上的各種廣告,廣告聯(lián)盟,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前 - 冷啟動(dòng)問題,推薦系統(tǒng)需要根據(jù)用戶的歷史行為和興趣來預(yù)測用戶未來的行為和興趣,如何在沒有用戶行為數(shù)據(jù),對(duì)用戶一無所知的情況下進(jìn)行最有效的推薦呢?這就衍生了冷啟動(dòng)問題,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前 - 冷啟動(dòng)問題,用戶冷啟動(dòng):如何給新用戶做個(gè)性化推薦。新的用戶因?yàn)闆]有在產(chǎn)品

6、上留下行為數(shù)據(jù),自然無法得知新用戶的喜好。 物品冷啟動(dòng):如何將新的物品推薦給可能對(duì)它感興趣的用戶。因?yàn)樾挛锲愤€沒有用戶行為數(shù)據(jù),自然也無法得知什么樣的用戶對(duì)其感興趣; 系統(tǒng)冷啟動(dòng):如何在一個(gè)新開發(fā)的網(wǎng)站上設(shè)計(jì)個(gè)性化推薦系統(tǒng),從而在網(wǎng)站剛發(fā)布時(shí)就讓用戶體會(huì)到個(gè)性化推薦。新網(wǎng)站沒有用戶,沒有用戶行為,只有部分物品信息,冷啟動(dòng)的分類,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前 - 冷啟動(dòng)問題,1、提供非個(gè)性化的推薦 提供熱門排行榜:最簡單的例子就是給用戶推薦熱門排行榜,等到用戶數(shù)據(jù)收集到一定的時(shí)候,再切換為個(gè)性化推薦; 推薦隨機(jī)的熱門內(nèi)容:推薦隨機(jī)的熱門內(nèi)容,再通過評(píng)估用戶的點(diǎn)擊來快速

7、調(diào)整(實(shí)時(shí)推薦的好處); 提供具有很高覆蓋率的啟動(dòng)物品集合:在冷啟動(dòng)時(shí),我們不知道用戶的興趣,而用戶興趣的可能性非常多,我們需要提供具有很高覆蓋率的啟動(dòng)物品集合,這些物品能覆蓋幾乎所有主流的用戶興趣,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前 - 冷啟動(dòng)問題,2、利用用戶注冊(cè)信息 人口統(tǒng)計(jì)學(xué)信息:年齡、性別、職業(yè)、民族、學(xué)歷和居住地等; 用戶興趣的描述:部分網(wǎng)站會(huì)讓用戶用文字來描述興趣; 從其他網(wǎng)站導(dǎo)入的用戶站外行為:比如用戶利用社交網(wǎng)站賬號(hào)登錄,就可以在獲得用戶授權(quán)的情況下導(dǎo)入用戶在該社交網(wǎng)站的部分行為數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù),數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前

8、 - 冷啟動(dòng)問題,3、利用內(nèi)容特征的相似度 如果是要對(duì)一個(gè)新內(nèi)容推薦相關(guān)的其他內(nèi)容,那么可以多多利用內(nèi)容特征的相似度。 此外,很多系統(tǒng)在建立的時(shí)候,既沒有用戶的行為數(shù)據(jù),也沒有充足的物品內(nèi)容信息來計(jì)算物品相似度。在這種情況下,很多系統(tǒng)都利用專家進(jìn)行標(biāo)注。比如個(gè)性化網(wǎng)絡(luò)電臺(tái)Pandora雇用了一批音樂人對(duì)幾萬名歌手的歌曲進(jìn)行各個(gè)維度的標(biāo)注,最終選定了400多個(gè)特征。每首歌都可以標(biāo)識(shí)為一個(gè)400維的向量,然后通過常見的向量相似度算法計(jì)算出歌曲的相似度,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),四、寫在推薦之前 - 冷啟動(dòng)問題,4、利用用戶的手機(jī)等興趣偏好進(jìn)行冷啟動(dòng) Android手機(jī)開放的比較高,所

9、以在安裝自己的app時(shí),就可以順路了解下手機(jī)上還安裝了什么其他的app,可以比較精準(zhǔn)的判定用戶,對(duì)于解決冷啟動(dòng)問題有很好的幫助,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),五、推薦引擎分類,通用推薦:也叫根據(jù)大眾行為的推薦引擎,對(duì)每個(gè)用戶都給出同樣的推薦,這些推薦可以是靜態(tài)的由系統(tǒng)管理員人工設(shè)定的,或者基于系統(tǒng)所有用戶的反饋統(tǒng)計(jì)計(jì)算出的當(dāng)下比較流行的物品。 個(gè)性化推薦:對(duì)不同的用戶,根據(jù)他們的口味和喜好給出更加精確的推薦,這時(shí),系統(tǒng)需要了解需推薦內(nèi)容和用戶的特質(zhì),或者基于社會(huì)化網(wǎng)絡(luò),通過找到與當(dāng)前用戶相同喜好的用戶,實(shí)現(xiàn)推薦,根據(jù)是否為不同的用戶推薦不同的數(shù)據(jù),數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展

10、現(xiàn),五、推薦引擎分類,大部分推薦引擎的工作原理還是基于物品或者用戶的相似集進(jìn)行推薦,根據(jù)不同的數(shù)據(jù)源發(fā)現(xiàn)數(shù)據(jù)相關(guān)性的方法可以分為以下幾種。 基于人口統(tǒng)計(jì)學(xué)的推薦:根據(jù)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度(比如可以把年齡或性別相同的用戶判定為相似用戶)。 基于內(nèi)容的推薦:根據(jù)推薦物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或者內(nèi)容的相關(guān)性(比如物品具有相同關(guān)鍵詞和標(biāo)簽,這里沒有考慮人為因素)。 基于協(xié)同過濾的推薦:根據(jù)用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān)性,或者是發(fā)現(xiàn)用戶的相關(guān)性,根據(jù)推薦引擎的數(shù)據(jù)源,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),五、推薦引擎分類,基于物品和用戶本身推薦:將每個(gè)用戶和每個(gè)

11、物品都當(dāng)作獨(dú)立的實(shí)體,預(yù)測每個(gè)用戶對(duì)于每個(gè)物品的喜好程度,這些信息往往是用一個(gè)二維矩陣描述的。 基于關(guān)聯(lián)規(guī)則的推薦:主要是挖掘一些數(shù)據(jù)的依賴關(guān)系,比如購物籃問題,通過關(guān)聯(lián)規(guī)則的挖掘,可以找到哪些物品經(jīng)常被同時(shí)購買,或者用戶購買了一些物品后通常會(huì)購買哪些其他物品,當(dāng)挖掘出這些關(guān)聯(lián)規(guī)則之后可以基于這些規(guī)則給用戶進(jìn)行推薦。 基于模型的推薦:這是一個(gè)典型的機(jī)器學(xué)習(xí)的問題,可以將已有的用戶喜好信息作為訓(xùn)練樣本,訓(xùn)練出一個(gè)預(yù)測用戶喜好的模型,這樣以后用戶可以基于此模型計(jì)算來推薦。這種方法的問題在于如何將用戶實(shí)時(shí)或者近期的喜好信息反饋給訓(xùn)練好的模型,從而提高推薦的準(zhǔn)確度,根據(jù)推薦模型的建立方式,數(shù)據(jù)抽取 數(shù)

12、據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),六、常用推薦算法介紹,根據(jù)物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或內(nèi)容的相關(guān)性,然后基于用戶以前的喜好記錄推薦給用戶相似的物品,基于內(nèi)容的推薦,對(duì)電影元數(shù)據(jù)進(jìn)行建模,這里只簡單的描述了一下電影的類型,然后通過電影的元數(shù)據(jù)發(fā)現(xiàn)電影間的相似度。因?yàn)殡娪癆和C的類型相同,所以電影 A 和 C 被認(rèn)為是相似的電影,對(duì)于用戶 A,他喜歡看電影 A,那么系統(tǒng)就可以給他推薦類似的電影 C。當(dāng)然要得到更好的推薦,除了類型還可以考慮電影的導(dǎo)演、演員等等,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),六、常用推薦算法介紹,在現(xiàn)今的推薦技術(shù)和算法中,最被大家廣泛認(rèn)可和采用的就是基于協(xié)同過濾的推薦方法。

13、它的原理就是根據(jù)用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān)性,或者是發(fā)現(xiàn)用戶的相關(guān)性,然后再基于這些關(guān)聯(lián)性進(jìn)行推薦。比如你想看一部電影但不知道看哪部,這時(shí)大部分人會(huì)問周圍的朋友,而我們一般更傾向于從口味比較類似的朋友那里得到推薦。這就是協(xié)同過濾的核心思想。 物以類聚,人以群分,基于協(xié)同過濾的推薦,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),六、常用推薦算法介紹,基于協(xié)同過濾的推薦,1、基于用戶的協(xié)同過濾算法(user-based collaborative filtering) 先使用統(tǒng)計(jì)技術(shù)尋找與目標(biāo)用戶有相同喜好的鄰居,然后根據(jù)目標(biāo)用戶的鄰居的喜好產(chǎn)生向目標(biāo)用戶的推薦?;驹砭褪抢?/p>

14、用用戶訪問行為的相似性來互相推薦用戶可能感興趣的資源,上圖示意出基于用戶的協(xié)同過濾推薦機(jī)制的基本原理,假設(shè)用戶A喜歡物品A、C,用戶B喜歡物品B,用戶C喜歡物品A、C和D。從這些用戶的歷史喜好信息中,我們可以發(fā)現(xiàn)用戶A和用戶C的口味和偏好是比較類似的,同時(shí)用戶C還喜歡物品D,那么我們可以推斷用戶A可能也喜歡物品D,因此可以將物品D推薦給用戶A,數(shù)據(jù)抽取 數(shù)據(jù)倉庫 數(shù)據(jù)建模 前端展現(xiàn),六、常用推薦算法介紹,基于協(xié)同過濾的推薦,2、基于物品的協(xié)同過濾算法(item-based collaborative filtering) 根據(jù)所有用戶對(duì)物品或者信息的評(píng)價(jià),發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息將類似的物品推薦給該用戶,上圖表明基于物品的協(xié)同過濾推薦的基本原理,用戶A喜歡物品A和物品C,用戶B喜歡物品A、B和C,用戶C喜歡物品A,從這些用戶的歷史喜好中可以認(rèn)為物品A與物品C比較類似,喜歡物品A的都喜歡物品C,基于這個(gè)判斷用戶C可能也喜歡物品C,所以推

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論