數(shù)據(jù)挖掘之推薦算法入門阿里大數(shù)據(jù)競賽參賽經(jīng)歷ppt課件_第1頁
數(shù)據(jù)挖掘之推薦算法入門阿里大數(shù)據(jù)競賽參賽經(jīng)歷ppt課件_第2頁
數(shù)據(jù)挖掘之推薦算法入門阿里大數(shù)據(jù)競賽參賽經(jīng)歷ppt課件_第3頁
數(shù)據(jù)挖掘之推薦算法入門阿里大數(shù)據(jù)競賽參賽經(jīng)歷ppt課件_第4頁
數(shù)據(jù)挖掘之推薦算法入門阿里大數(shù)據(jù)競賽參賽經(jīng)歷ppt課件_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)發(fā)掘之引薦算法入門阿里大數(shù)據(jù)競賽參賽閱歷蔡珉星廈門大學(xué)數(shù)據(jù)庫實(shí)驗室2019級碩士研討生指點(diǎn)教師:林子雨2019年11月1日遇到的問題遇到的問題目錄什么是引薦系統(tǒng)阿里巴巴大數(shù)據(jù)競賽引薦算法入門Part 1什么是引薦系統(tǒng) 協(xié)助用戶從大量信息中找到本人感興趣的信息。 比如他今天想下載一部電影看看,但當(dāng)他翻開某個下載網(wǎng)站,面對100年來發(fā)行的數(shù)不勝數(shù)的電影,他會手足無措,不知道該看哪一部。 引薦系統(tǒng)可以根據(jù)他以往的觀影記錄,為他引薦相關(guān)的電影。 引薦可以兩方面入手:基于內(nèi)容的引薦 - 相關(guān)導(dǎo)演、演員的其他作品;基于協(xié)同過濾的引薦 - 找到與本人歷史興趣一樣的用戶群,引薦該

2、用戶群喜歡的電影。 什么是引薦系統(tǒng)什么是引薦系統(tǒng) 電影運(yùn)用豆瓣電影:的引薦的引薦引薦構(gòu)成:導(dǎo)演、演員其他作品;同類型電影。引薦構(gòu)成:導(dǎo)演、演員其他作品;同類型電影。什么是引薦系統(tǒng) 音樂運(yùn)用蝦米音樂:引薦構(gòu)成:喜歡的歌曲所屬專輯的其他曲目;風(fēng)格類似的曲目。引薦構(gòu)成:喜歡的歌曲所屬專輯的其他曲目;風(fēng)格類似的曲目。什么是引薦系統(tǒng) 電商運(yùn)用京東商城:引薦構(gòu)成:協(xié)同過濾、屬性類似的商品。引薦構(gòu)成:協(xié)同過濾、屬性類似的商品。的引薦的引薦什么是引薦系統(tǒng) 引薦系統(tǒng)的本質(zhì)經(jīng)過一定的方式將用戶與物品聯(lián)絡(luò)起來。Part 2阿里巴巴大數(shù)據(jù)競賽阿里巴巴大數(shù)據(jù)競賽7000+參賽隊伍,凸顯了如今大數(shù)據(jù)方向的搶手參賽隊伍,凸

3、顯了如今大數(shù)據(jù)方向的搶手 賽題引見賽題引見 在天貓,每天都會有數(shù)千萬的用戶經(jīng)過品牌發(fā)現(xiàn)本人喜歡的商品,在天貓,每天都會有數(shù)千萬的用戶經(jīng)過品牌發(fā)現(xiàn)本人喜歡的商品,品牌是聯(lián)接消費(fèi)者與商品最重要的紐帶。本屆賽題的義務(wù)就是根據(jù)用戶品牌是聯(lián)接消費(fèi)者與商品最重要的紐帶。本屆賽題的義務(wù)就是根據(jù)用戶4個月在天貓的行為日志,建立用戶的品牌偏好,并預(yù)測他們在未來一個月個月在天貓的行為日志,建立用戶的品牌偏好,并預(yù)測他們在未來一個月內(nèi)對品牌下商品的購買行為。內(nèi)對品牌下商品的購買行為。 數(shù)據(jù):數(shù)據(jù): 行為日志:用戶行為日志:用戶id、品牌、品牌id、用戶對品牌的行為、行為時間。、用戶對品牌的行為、行為時間。 用戶行為

4、:點(diǎn)擊、購買、參與購物車、收藏。用戶行為:點(diǎn)擊、購買、參與購物車、收藏。阿里巴巴大數(shù)據(jù)競賽 競賽方式競賽方式 設(shè)計一個引薦算法,基于算法和已有數(shù)據(jù)得出第五個月用戶能夠設(shè)計一個引薦算法,基于算法和已有數(shù)據(jù)得出第五個月用戶能夠購買的品牌。購買的品牌。 訓(xùn)練集:用于建立模型;訓(xùn)練集:用于建立模型;驗證集:用于評價模型。驗證集:用于評價模型。 例如可以用例如可以用 1-2月月 的數(shù)據(jù)作為訓(xùn)練集,的數(shù)據(jù)作為訓(xùn)練集,3月的數(shù)據(jù)作為驗證集,月的數(shù)據(jù)作為驗證集,以此來檢驗算法的效果。然后再用以此來檢驗算法的效果。然后再用 3-4月月 的數(shù)據(jù)作為訓(xùn)練集,得出引薦的數(shù)據(jù)作為訓(xùn)練集,得出引薦結(jié)果。最終提交引薦結(jié)果,

5、由系統(tǒng)給出分?jǐn)?shù)。結(jié)果。最終提交引薦結(jié)果,由系統(tǒng)給出分?jǐn)?shù)。 評價目的評價目的 預(yù)測的品牌準(zhǔn)確率越高越好,也希望覆蓋的用戶和品牌越多越好。預(yù)測的品牌準(zhǔn)確率越高越好,也希望覆蓋的用戶和品牌越多越好。阿里巴巴大數(shù)據(jù)競賽 參賽成果:第60名 競賽時間較長,繼續(xù)4個月,比較耗時間。后勁缺乏,沒有到達(dá)預(yù)期的成果。 經(jīng)過競賽,對引薦算法的入門有了深化的了解與實(shí)際。阿里巴巴大數(shù)據(jù)競賽Part 3引薦算法入門 阿里大數(shù)據(jù)競賽提供的數(shù)據(jù):阿里大數(shù)據(jù)競賽提供的數(shù)據(jù):行為日志:用戶行為日志:用戶id、品牌、品牌id、用戶對品牌的行為、行為時間。、用戶對品牌的行為、行為時間。用戶行為:點(diǎn)擊、購買、參與購物車、收藏。用戶行

6、為:點(diǎn)擊、購買、參與購物車、收藏。 對數(shù)據(jù)的處置:提取特征對數(shù)據(jù)的處置:提取特征 特征:引薦算法所思索的要素,如特征:引薦算法所思索的要素,如 用戶過去一個月對品牌的點(diǎn)擊次數(shù)用戶過去一個月對品牌的點(diǎn)擊次數(shù) 用戶過去一個月對品牌的購買次數(shù)用戶過去一個月對品牌的購買次數(shù) 品牌過去一個月的總銷量品牌過去一個月的總銷量.引薦算法原始數(shù)據(jù)處置后的特征數(shù)據(jù) 算法1:簡單的推測規(guī)律點(diǎn)擊次數(shù)多,購買能夠性較大;參與購物車、收藏,購買能夠性較大;最近有閱讀過的品牌,購買能夠性較大;.引薦算法點(diǎn)擊次數(shù)與能否購買的關(guān)系 算法算法1:簡單的推測:簡單的推測規(guī)律規(guī)律 首先將數(shù)據(jù)轉(zhuǎn)化為特征值:首先將數(shù)據(jù)轉(zhuǎn)化為特征值:點(diǎn)擊

7、次數(shù)點(diǎn)擊次數(shù) click參與購物車參與購物車 is_cart收藏收藏 is_fav幾天前有閱讀過幾天前有閱讀過 days 實(shí)現(xiàn)實(shí)現(xiàn)1:直接利用規(guī)律:直接利用規(guī)律 if ( this.days = 10) then recommend(this); if ( this.is_cart & days = 3 ) then recommend(this); .引薦算法簡單粗暴且有效,只需規(guī)律找的好,效果還是可以的簡單粗暴且有效,只需規(guī)律找的好,效果還是可以的 算法算法1:簡單的推測:簡單的推測規(guī)律規(guī)律點(diǎn)擊次數(shù)點(diǎn)擊次數(shù) click參與購物車參與購物車 is_cart收藏收藏 is_fav幾天前

8、有閱讀過幾天前有閱讀過 days 實(shí)現(xiàn)實(shí)現(xiàn)2:設(shè)定權(quán)值,并計算分值經(jīng)過驗證集找到較優(yōu)權(quán)值:設(shè)定權(quán)值,并計算分值經(jīng)過驗證集找到較優(yōu)權(quán)值 W = w1 * click + w2 * is_cart + w3 * is_fav + w4 * 1/days 例如得到一個較有權(quán)值例如得到一個較有權(quán)值: w1 = 0.1, w2 = 0.2, w3 = 0.2, w4 = 0.5引薦算法簡單有效,實(shí)現(xiàn)方便,有一定效果簡單有效,實(shí)現(xiàn)方便,有一定效果用戶用戶品牌品牌交互數(shù)據(jù)交互數(shù)據(jù)得分得分1133click = 2, is_cart = 1, is_fav = 0, days = 11.42133click

9、= 10, is_cart = 0, is_fav = 0, days = 5 1.1 算法2:邏輯回歸(Logistic regression) Logistic regression 邏輯回歸是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計某事件的能夠性。如某用戶購買某商品的能夠性、廣告被某用戶點(diǎn)擊的能夠性等。引薦算法公式定義將能夠性限定在0和1之間 算法2:邏輯回歸(Logistic regression) 組成1:回歸 回歸是對知公式的未知參數(shù)進(jìn)展估計。 如知公式是y = a*x + b,未知參數(shù)是 a 和 b。我們?nèi)缃裼泻芏嗾鎸?shí)的(x,y)數(shù)據(jù)訓(xùn)練樣本,回歸就是利用這些數(shù)據(jù)對 a 和 b

10、的取值去自動估計。引薦算法 算法2:邏輯回歸(Logistic regression)組成2:線性回歸 如鞋子定價與鞋子銷量的問題。y = a*x + b,x是價錢,y是銷售量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確的a, b取值,使 y = a * x + b 在一切樣本集上誤差最小。引薦算法線性回歸例如 算法算法2:邏輯回歸:邏輯回歸(Logistic regression)組成組成2:線性回歸:線性回歸 如鞋子定價與鞋子銷量的問題。如鞋子定價與鞋子銷量的問題。y = a*x + b,x是價錢,是價錢,y是銷售是銷售量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確

11、的量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確的a, b取值,使取值,使 y = a * x + b 在一切樣本集上誤差最小。在一切樣本集上誤差最小。 一元變量關(guān)系比較直觀,但假設(shè)是多元就難以直觀的看出來了。一元變量關(guān)系比較直觀,但假設(shè)是多元就難以直觀的看出來了。比如說除了鞋子的價錢外,鞋子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人比如說除了鞋子的價錢外,鞋子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人流量都會影響銷量,我們想得到這樣的公式:流量都會影響銷量,我們想得到這樣的公式:sell = a*x + b*y + c*z + d* + e。這個時候畫圖就畫不出來了,規(guī)律也非常難找,這時就得

12、交給。這個時候畫圖就畫不出來了,規(guī)律也非常難找,這時就得交給線性回歸程序去完成。線性回歸程序去完成。引薦算法 算法2:邏輯回歸(Logistic regression)組成3:Logsitic方程 上面提到的 sell 計算出來是一個數(shù)值,但我們需求的是一個0, 1,類似概率的值,于是引入了 Logistic 方程,來做歸一化。 所以邏輯回歸就是一個被Logistic方程歸一化后的線性回歸。引薦算法線性回歸邏輯回歸 算法2:邏輯回歸(Logistic regression) 實(shí)現(xiàn):運(yùn)用算法庫 R言語、Python等都有邏輯回歸的算法庫,運(yùn)用方便。最重要的還是要提取相關(guān)特征,邏輯回歸的效果直接取

13、決于特征的選取當(dāng)然,追求更好的效果就需求去優(yōu)化算法的實(shí)現(xiàn)。引薦算法邏輯回歸代碼例如 算法算法3:協(xié)同過濾:協(xié)同過濾(Collaborative Filtering) 基于用戶的協(xié)同過濾算法是引薦系統(tǒng)中最古老的算法。可以不夸張基于用戶的協(xié)同過濾算法是引薦系統(tǒng)中最古老的算法??梢圆豢鋸埖卣f,這個算法的誕生標(biāo)志了引薦系統(tǒng)的誕生。地說,這個算法的誕生標(biāo)志了引薦系統(tǒng)的誕生。 在個性化引薦系統(tǒng)中,當(dāng)用戶在個性化引薦系統(tǒng)中,當(dāng)用戶A需求個性化引薦時,可以先找到和需求個性化引薦時,可以先找到和他有類似興趣的其他用戶,然后把那些類似興趣用戶喜歡的、而用戶他有類似興趣的其他用戶,然后把那些類似興趣用戶喜歡的、而用

14、戶A沒沒有聽說過的物品引薦給有聽說過的物品引薦給A。這種方法稱為基于用戶的協(xié)同過濾算法。這種方法稱為基于用戶的協(xié)同過濾算法。 基于用戶的協(xié)同過濾算法主要包括兩個步驟。基于用戶的協(xié)同過濾算法主要包括兩個步驟。找到和目的用戶興趣類似的用戶集合。找到和目的用戶興趣類似的用戶集合。將這個集合中用戶喜歡的,且目的用戶沒有聽說過的物品引薦給目的用將這個集合中用戶喜歡的,且目的用戶沒有聽說過的物品引薦給目的用戶。戶。 相對應(yīng)的,還有基于物品的協(xié)同過濾算法,比如給喜歡相對應(yīng)的,還有基于物品的協(xié)同過濾算法,比如給喜歡的用戶引薦的用戶引薦,由于這兩部作品都是武俠小說,且作者都,由于這兩部作品都是武俠小說,且作者都

15、是金庸。是金庸。引薦算法 算法3:協(xié)同過濾(Collaborative Filtering) 協(xié)同過濾算法的中心是計算類似度,以基于物品的協(xié)同過濾為例:引薦算法 左邊每一行代表一個用戶感興趣的物品集合 中間是某用戶感興趣物品的類似矩陣 右側(cè)是一切用戶感興趣物品類似矩陣相加的結(jié)果 最后進(jìn)展歸一化就可得到一個0,1的物品類似度矩陣 算法3:協(xié)同過濾(Collaborative Filtering) 引薦算法基于用戶的協(xié)同過濾User CF(用戶A和用戶C都喜歡物品A、C)基于物品的協(xié)同過濾基于物品的協(xié)同過濾Item CF(喜歡物品喜歡物品A的人也喜歡物品的人也喜歡物品C)基于物品的協(xié)同過濾引薦例如

16、 給用戶引薦,是由于這本書和和都類似,類似度分別為 0.4 和 0.5。 而用戶對的興趣度是1.3,對的興趣度是0.9,那么用戶對的興趣度就是1.3 0.4 + 0.90.5 = 0.97。 邏輯回歸與協(xié)同過濾的比較邏輯回歸與協(xié)同過濾的比較 最主要的一個區(qū)別是運(yùn)用場景不同:邏輯回歸針對的是已有交互的最主要的一個區(qū)別是運(yùn)用場景不同:邏輯回歸針對的是已有交互的物品,而協(xié)同過濾那么主要針對沒有交互過的物品。物品,而協(xié)同過濾那么主要針對沒有交互過的物品。 如購物網(wǎng)站的引薦系統(tǒng),如購物網(wǎng)站的引薦系統(tǒng),邏輯回歸可以引薦給用戶,其閱讀過且較有能夠購買的商品;邏輯回歸可以引薦給用戶,其閱讀過且較有能夠購買的商品;協(xié)同過濾那么可以引薦給用戶,其未閱讀過但能夠感興趣的商品。協(xié)同過濾那么可以引薦給用戶,其未閱讀過但能夠感興趣的商品。 引薦算法亞馬遜的圖書引薦主要運(yùn)用了協(xié)同過濾。 其他引薦算法: 隨機(jī)森林(Logistic regression) 支持向量機(jī)SVM 神經(jīng)網(wǎng)絡(luò) Slope One.引薦算法 總結(jié):總結(jié):引見了阿里

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論