




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
廈門大學(xué)計算機(jī)科學(xué)系2016年版
第11章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用
(PPT版本號:2016年1月29日版本)
《大數(shù)據(jù)技術(shù)原理與應(yīng)用》溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大?;蘸偷撞课淖痔峋V11.1推薦系統(tǒng)概述11.2推薦算法–協(xié)同過濾11.3協(xié)同過濾實踐–電影推薦系統(tǒng)歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》教材官方網(wǎng)站:本PPT是如下教材的配套講義:21世紀(jì)高等教育計算機(jī)規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲、處理、分析與應(yīng)用》(2015年6月第1版)廈門大學(xué)林子雨編著,人民郵電出版社ISBN:978-7-115-39287-911.1 推薦系統(tǒng)概述11.1.1 什么是推薦系統(tǒng)11.1.2 長尾理論11.1.3 推薦方法11.1.4 推薦系統(tǒng)模型11.1.5 推薦系統(tǒng)的應(yīng)用11.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息過載的時代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動為用戶推薦其感興趣的信息,滿足用戶的個性化推薦需求“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟(jì)模式電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計的總銷售額將是一個可觀的數(shù)字,也許會超過熱門商品所帶來的銷售額因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個性化推薦來實現(xiàn)11.1.2長尾理論熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時期內(nèi)也相對固定個性化推薦可通過推薦系統(tǒng)來實現(xiàn)。推薦系統(tǒng)通過發(fā)掘用戶的行為記錄,找到用戶的個性化需求,發(fā)現(xiàn)用戶潛在的消費傾向,從而將長尾商品準(zhǔn)確地推薦給需要它的用戶,進(jìn)而提升銷量,實現(xiàn)用戶與商家的雙贏11.1.2長尾理論推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦:人工推薦,由資深的專業(yè)人士來進(jìn)行物品的篩選和推薦,需要較多的人力成本基于統(tǒng)計的推薦:基于統(tǒng)計信息的推薦(如熱門推薦),易于實現(xiàn),但對用戶個性化偏好的描述能力較弱基于內(nèi)容的推薦:通過機(jī)器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一,利用與目標(biāo)用戶相似的用戶已有的商品評價信息,來預(yù)測目標(biāo)用戶對特定商品的喜好程度混合推薦:結(jié)合多種推薦算法來提升推薦效果11.1.3推薦方法一個完整的推薦系統(tǒng)通常包括3個組成模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊:用戶建模模塊:對用戶進(jìn)行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求推薦對象建模模塊:根據(jù)對象數(shù)據(jù)對推薦對象進(jìn)行建模推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計算得到用戶可能感興趣的對象,并根據(jù)推薦場景對推薦結(jié)果進(jìn)行一定調(diào)整,將推薦結(jié)果最終展示給用戶11.1.4推薦系統(tǒng)模型圖11-1推薦系統(tǒng)基本架構(gòu)目前在推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品11.1.5推薦系統(tǒng)的應(yīng)用圖11-2亞馬遜網(wǎng)站根據(jù)用戶的瀏覽記錄來推薦商品推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更為龐大,個人口味偏向也更為明顯,僅依靠熱門推薦是遠(yuǎn)遠(yuǎn)不夠的蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏記錄來分析用戶的音樂偏好,以進(jìn)行推薦。例如,推薦同一風(fēng)格的歌曲,或是推薦同一歌手的其他歌曲11.1.5推薦系統(tǒng)的應(yīng)用圖11-3蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏來推薦歌曲推薦薦技技術(shù)術(shù)從從被被提提出出到到現(xiàn)現(xiàn)在在已已有有十十余余年年,,在在多多年年的的發(fā)發(fā)展展歷歷程程中中誕誕生生了了很很多多新新的的推推薦薦算算法法。。協(xié)協(xié)同同過過濾濾作作為為最最早早、、最最知知名名的的推推薦薦算算法法,,不不僅僅在在學(xué)學(xué)術(shù)術(shù)界界得得到到了了深深入入研研究究,,而而且且至至今今在在業(yè)業(yè)界界仍仍有有廣廣泛泛的的應(yīng)應(yīng)用用協(xié)同同過過濾濾可可分分為為基基于于用用戶戶的的協(xié)協(xié)同同過過濾濾和和基基于于物物品品的的協(xié)協(xié)同同過過濾濾基于于用用戶戶的的協(xié)協(xié)同同過過濾濾((UserCF)基于于物物品品的的協(xié)協(xié)同同過過濾濾((ItemCF)算法法和和ItemCF算法法的的對對比比11.2協(xié)協(xié)同同過過濾濾基于于用用戶戶的的協(xié)協(xié)同同過過濾濾算算法法((簡簡稱稱UserCF算法法))在在1992年被被提提出出,是推推薦薦系系統(tǒng)統(tǒng)中中最最古古老老的的算算法法UserCF算法法符符合合人人們們對對于于““趣趣味味相相投投””的的認(rèn)認(rèn)知知,,即即興興趣趣相相似似的的用用戶戶往往往往有有相相同同的的物物品品喜喜好好:當(dāng)目目標(biāo)標(biāo)用用戶戶需需要要個個性性化化推推薦薦時時,,可可以以先先找找到到和和目目標(biāo)標(biāo)用用戶戶有有相相似似興興趣趣的的用用戶戶群群體體,,然然后后將將這這個個用用戶戶群群體體喜喜歡歡的的、、而而目目標(biāo)標(biāo)用用戶戶沒沒有有聽聽說說過過的的物物品品推推薦薦給給目目標(biāo)標(biāo)用用戶戶UserCF算法法的的實實現(xiàn)現(xiàn)主主要要包包括括兩兩個個步步驟驟::第一一步步::找找到到和和目目標(biāo)標(biāo)用用戶戶興興趣趣相相似似的的用用戶戶集集合合第二二步步::找找到到該該集集合合中中的的用用戶戶所所喜喜歡歡的的、、且且目目標(biāo)標(biāo)用用戶戶沒沒有有聽聽說說過過的的物物品品推推薦薦給給目目標(biāo)標(biāo)用用戶戶基基于于用用戶戶的的協(xié)協(xié)同同過過濾濾((UserCF))基基于于用用戶戶的的協(xié)協(xié)同同過過濾濾((UserCF))圖11-4基于于用用戶戶的的協(xié)協(xié)同同過過濾濾((UserCF)實現(xiàn)現(xiàn)UserCF算法法的的關(guān)關(guān)鍵鍵步步驟驟是是計計算算用用戶戶與與用用戶戶之之間間的的興興趣趣相相似似度度。。目目前前較較多多使使用用的的相相似似度度算算法法有::泊松松相相關(guān)關(guān)系系數(shù)數(shù)((PersonCorrelationCoefficient)余弦弦相相似似度度((Cosine-basedSimilarity)調(diào)整整余余弦弦相相似似度度((AdjustedCosineSimilarity)給定定用用戶戶u和用用戶戶v,令令N(u)表示示用用戶戶u感興興趣趣的的物物品品集集合合,,令令N(v)為用用戶戶v感興興趣趣的的物物品品集集合合,,則則使使用用余余弦弦相相似似度度進(jìn)進(jìn)行行計計算算用用戶戶相相似似度度的的公公式式為為:基基于于用用戶戶的的協(xié)協(xié)同同過過濾濾((UserCF))由于于很很多多用用戶戶相相互互之之間間并并沒沒有有對對同同樣樣的的物物品品產(chǎn)產(chǎn)生生過過行行為為,,因因此此其其相相似似度度公公式式的的分分子子為為0,相相似似度度也也為為0我們們可以以利利用用物物品品到到用用戶戶的的倒倒排排表表((每每個個物物品品所所對對應(yīng)應(yīng)的的、、對對該該物物品品感感興興趣趣的的用用戶戶列列表表)),,僅僅對對有有對對相相同同物物品品產(chǎn)產(chǎn)生生交交互互行行為為的的用用戶戶進(jìn)進(jìn)行行計計算算基基于于用戶戶的協(xié)協(xié)同過過濾((UserCF)圖11-5物品到到用戶戶倒排排表及及用戶戶相似似度矩矩陣得到用用戶間間的相相似度度后,,再使使用如如下公公式來來度量量用戶戶u對物品品i的興趣趣程度度Pui:其中,,S(u,K)是和用用戶u興趣最最接近近的K個用戶戶的集集合,,N(i)是喜歡歡物品品i的用戶戶集合合,Wuv是用戶戶u和用戶戶v的相似似度,,rvi是隱反反饋信信息,,代表表用戶戶v對物品品i的感興興趣程程度,,為簡簡化計計算可可令rvi=1對所有有物品品計算算Pui后,可可以對Pui進(jìn)行降序處處理,,取前前N個物品品作為為推薦薦結(jié)果果展示示給用用戶u(稱為為Top-N推薦))基基于于用戶戶的協(xié)協(xié)同過過濾((UserCF)基于物物品的的協(xié)同同過濾濾算法法(簡簡稱ItemCF算法))是目目前業(yè)業(yè)界應(yīng)應(yīng)用最最多的的算法法。無無論是是亞馬馬遜還還是Netflix,其推推薦系系統(tǒng)的的基礎(chǔ)礎(chǔ)都是是ItemCF算法ItemCF算法是是給目目標(biāo)用用戶推推薦那那些和和他們們之前前喜歡歡的物物品相相似的的物品品。ItemCF算法主主要通通過分分析用用戶的的行為為記錄錄來計計算物物品之之間的的相似似度該算法法基于于的假假設(shè)是是:物物品A和物品品B具有很很大的的相似似度是是因為為喜歡歡物品品A的用戶戶大多多也喜喜歡物物品B。例如如,該該算法法會因因為你你購買買過《《數(shù)據(jù)據(jù)挖掘掘?qū)д撜摗范o你你推薦薦《機(jī)機(jī)器學(xué)學(xué)習(xí)實實戰(zhàn)》》,因因為買買過《《數(shù)據(jù)據(jù)挖掘掘?qū)д撜摗返牡挠脩魬舳鄶?shù)數(shù)也購購買了了《機(jī)機(jī)器學(xué)學(xué)習(xí)實實戰(zhàn)》》基基于于物品品的協(xié)協(xié)同過過濾((ItemCF)基基于于物品品的協(xié)協(xié)同過過濾((ItemCF)圖11-6基于物物品的的協(xié)同同過濾濾(ItemCF)ItemCF算法與與UserCF算法類類似,,計算也分為為兩步步:第一步步:計計算物物品之之間的的相似似度;;第二步步:根根據(jù)物物品的的相似似度和和用戶戶的歷歷史行行為,,給用用戶生生成推推薦列列表。。ItemCF計算的的是物品相相似度度,再再使用用如下下公式式來度度量用用戶u對物品品j的興趣趣程度度Puj(與UserCF類似):基基于于物品品的協(xié)協(xié)同過過濾((ItemCF)ItemCF算法通通過建建立用用戶到到物品品倒排排表((每個個用戶戶喜歡歡的物物品的的列表表)來來計算算物品相相似度度基基于于物品品的協(xié)協(xié)同過過濾((ItemCF)圖11-7用戶戶到物物品倒倒排表表及物物品相相似度度矩陣陣UserCF算法和和ItemCF算法的的思想想、計算算過程程都相相似兩者最主要要的區(qū)區(qū)別:UserCF算法推推薦的的是那那些和和目標(biāo)標(biāo)用戶戶有共共同興興趣愛愛好的的其他他用戶戶所喜喜歡的的物品品ItemCF算法推推薦的是那些和和目標(biāo)標(biāo)用戶戶之前前喜歡歡的物物品類類似的的其他他物品品UserCF算法的的推薦薦更偏偏向社社會化化,而而ItemCF算法的的推薦薦更偏偏向于于個性性化11.2.3UserCF算法法和ItemCF算算法的的對比比UserCF算法的的推薦薦更偏偏向社社會化化:適合應(yīng)應(yīng)用于于新聞聞推薦薦、微微博話話題推推薦等等應(yīng)用用場景景,其其推薦薦結(jié)果果在新新穎性性方面面有一一定的的優(yōu)勢勢UserCF缺點::隨著用用戶數(shù)數(shù)目的的增大大,用用戶相相似度度計算復(fù)復(fù)雜度度越來來越高高。而且UserCF推薦結(jié)結(jié)果相相關(guān)性性較弱弱,難以對對推薦結(jié)結(jié)果作作出解解釋,容易受受大眾眾影響響而推推薦熱熱門物物品ItemCF算法的的推薦薦更偏偏向于于個性性化::適合合應(yīng)用用于電子商商務(wù)、、電影影、圖圖書等等應(yīng)用用場景景,可可以利利用用用戶的的歷史史行為為給推推薦結(jié)結(jié)果作作出解解釋,,讓用用戶更更為信信服推推薦的的效果果ItemCF缺點::傾向于于推薦薦與用用戶已已購買買商品品相似似的商商品,,往往往會出出現(xiàn)多多樣性性不足足、推推薦新新穎度度較低低的問問題11.2.3UserCF算法法和ItemCF算算法的的對比比11.3協(xié)協(xié)同同過濾濾實踐踐實踐背背景數(shù)據(jù)處處理計算相相似度度矩陣陣計算推推薦結(jié)結(jié)果展示推推薦結(jié)結(jié)果我們選選擇以以MovieLens公開數(shù)數(shù)據(jù)集集作為實實驗數(shù)數(shù)據(jù),,采用用ItemCF算法,,使用用Python語言來來實現(xiàn)現(xiàn)一個個簡易易的電電影推推薦系系統(tǒng)具體采采用的的MovieLens100k數(shù)據(jù)集集包括括了1000名用戶戶對1700部電影影的評評分記記錄,,每個個用戶戶都至至少對對20部電影影進(jìn)行行過評評分,,一共共有100000條電影影評分分記錄錄基于這這個數(shù)數(shù)據(jù)集集,我我們解解決的的是一一個評評分預(yù)預(yù)測問問題,,即如如何通通過已已知的的用戶戶評分分記錄錄來預(yù)預(yù)測未未知的的用戶戶評分分對于用用戶未未進(jìn)行行評分分的電電影,,我們們希望望能夠夠預(yù)測測出一一個評評分,,而這這個評評分反反過來來也可可以用用于猜猜測用用戶是是否會會喜歡歡這部部電影影,從從而決決定是是否給給用戶戶推薦薦該電電影實實踐踐背景景用戶對電影影評分的數(shù)據(jù)格式如如下,包含了用戶ID、電影ID、評分、評評分時間戳戳通過評分?jǐn)?shù)數(shù)據(jù),我們們便可以采采用如余弦弦相似度來來計算用戶戶之間的相相似度11.3.2實踐踐數(shù)據(jù)圖11-8用戶對對電影的評評分?jǐn)?shù)據(jù)具體實現(xiàn)流流程如下((具體代碼碼見教材)):預(yù)處理:讀讀取數(shù)據(jù),,提取評分分計算相似度度:使用余余弦相似度度計算電影影間的相似似度計算推薦結(jié)結(jié)果:針對對目標(biāo)用戶戶,對該用用戶未評分分的電影計計算預(yù)測評評分展示推薦結(jié)結(jié)果:對計計算的評分分進(jìn)行降序序排序,取取Top-N個結(jié)果,作作為最終的的推薦結(jié)果果11.3.3實踐踐流程例如我們對對用戶ID為1的用戶,取取10個推薦結(jié)果果如下:11.3.3實踐踐流程圖11-10推薦薦結(jié)果本章小結(jié)本章內(nèi)容首首先介紹了了推薦系統(tǒng)統(tǒng)的概念,,推薦系統(tǒng)統(tǒng)可幫助用用戶從海量量信息中高高效地獲得得自己所需需的信息接著介紹了了不同的推推薦方法以以及推薦系系統(tǒng)在電子子商務(wù)、在在線音樂等等網(wǎng)站中的的具體應(yīng)用用本章重點介介紹了協(xié)同同過濾算法法,協(xié)同過過濾算法是是最早推出出的推薦算算法,至今今仍獲得廣廣泛的應(yīng)用用,協(xié)同過過濾包括基基于用戶的的協(xié)同過濾濾算法(UserCF)和基于物物品的協(xié)同同過濾算法法(ItemCF)。這兩種種協(xié)同過濾濾算法思想想相近,核核心是計算算用戶、物物品的相似似度,依據(jù)據(jù)相似度來來做出推薦薦。然而,,這兩種協(xié)協(xié)同過濾算算法各自適適合的應(yīng)用用場景不同同,UserCF適合社交化化應(yīng)用,可可作出新穎穎的推薦,,而ItemCF則適合用于于電子商務(wù)務(wù)、電影等等應(yīng)用。在在具體實踐踐中,常常常結(jié)合多種種推薦算法法來提升推推薦效果本章最后通通過一個具具體的實例例,介紹了了如何使用用Python語言實現(xiàn)一一個簡易的的電影推薦薦系統(tǒng),深深化對推薦薦系統(tǒng)的認(rèn)認(rèn)識附錄:主講講教師主講教師::林子雨林子雨,男男,1978年出生,博博士(畢業(yè)業(yè)于北京大大學(xué)),現(xiàn)現(xiàn)為廈門大大學(xué)計算機(jī)機(jī)科學(xué)系助助理教授((講師),,曾任廈門門大學(xué)信息息科學(xué)與技技術(shù)學(xué)院院院長助理、、晉江市發(fā)發(fā)展和改革革局副局長長。中國高高校首個““數(shù)字教師師”提出者者和建設(shè)者者,廈門大大學(xué)數(shù)據(jù)庫庫實驗室負(fù)負(fù)責(zé)人,廈廈門大學(xué)云云計算與大大數(shù)據(jù)研究究中心主要要建設(shè)者和和骨干成員員,2013年度廈門大大學(xué)獎教金金獲得者。。主要研究究方向為數(shù)數(shù)據(jù)庫、數(shù)數(shù)據(jù)倉庫、、數(shù)據(jù)挖掘掘、大數(shù)據(jù)據(jù)、云計算算和物聯(lián)網(wǎng)網(wǎng),編著出出版中國高高校第一本本系統(tǒng)介紹紹大數(shù)據(jù)知知識的專業(yè)業(yè)教材《大數(shù)據(jù)技術(shù)術(shù)原理與應(yīng)應(yīng)用》并成為暢銷銷書籍,編編著并免費費網(wǎng)絡(luò)發(fā)布布40余萬字中國國高校第一一本閃存數(shù)數(shù)據(jù)庫研究究專著《閃存數(shù)據(jù)庫庫概念與技技術(shù)》;主講廈門門大學(xué)計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于數(shù)據(jù)去噪與深度學(xué)習(xí)的組合優(yōu)化建模及其在氣溫預(yù)測中的應(yīng)用
- 工程保險的合同范本
- 車輛過戶前合同范本
- 2025年中國古典琴專用壓電拾音器市場調(diào)查研究報告
- 2025年中國雙面黏貼乙烯地毯帶市場調(diào)查研究報告
- 低價餐具租賃合同范本
- 2025年中國低壓電器開關(guān)市場調(diào)查研究報告
- 2025年中國UPS電池市場調(diào)查研究報告
- 加工合同范本簡介
- 海寧大酒店智能化弱電工程施工合同范本
- 2024國家安全人人有責(zé)
- 《檔案管理培訓(xùn)》課件
- 承包送貨合同模板
- 第一章-社會心理學(xué)概論
- 氧化還原反應(yīng)配平專項訓(xùn)練
- 全國教育科學(xué)規(guī)劃課題申報書:02.《鑄牢中華民族共同體意識的學(xué)校教育研究》
- GB/T 44679-2024叉車禁用與報廢技術(shù)規(guī)范
- 《船舶精通急救》全套教學(xué)課件
- 2024智能家居行業(yè)創(chuàng)新發(fā)展與前景展望研究報告
- 貴州人民版五年級勞動下冊全冊教案
評論
0/150
提交評論