




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第11章商務(wù)智能應(yīng)用Lecture11:The
Applications
of
BI主要內(nèi)容11.1商務(wù)智能應(yīng)用領(lǐng)域11.2推薦系統(tǒng)11.3意見挖掘11.1商務(wù)智能應(yīng)用領(lǐng)域商務(wù)智能經(jīng)過多年的發(fā)展不僅在技術(shù)方面不斷進(jìn)步,其應(yīng)用也深入了各行各業(yè),有著廣泛的應(yīng)用領(lǐng)域,在零售、金融、電信、保險(xiǎn)、制造等領(lǐng)域都有很多成功應(yīng)用的案例。關(guān)系營銷(relationalmarketing)風(fēng)險(xiǎn)管理生產(chǎn)管理11.1.1關(guān)系營銷關(guān)系營銷(relationalmarketing)是一種用于管理企業(yè)與其利益相關(guān)者關(guān)系、培養(yǎng)和維護(hù)一種長期良好關(guān)系的戰(zhàn)略。交易營銷(transactionalmarketing)
關(guān)系營銷最早用于金融、電信等行業(yè),逐步擴(kuò)展到了制造業(yè)領(lǐng)域。
關(guān)系營銷旨在培養(yǎng)客戶忠誠性,提高客戶滿意度,維護(hù)良好溝通,有效開發(fā)客戶生命周期內(nèi)的價(jià)值。
客戶生命周期客戶生命周期指的是一個(gè)客戶從潛在客戶變?yōu)橐饪蛻?、真正客戶,最終成為流失客戶的整個(gè)過程。在客戶所處的各個(gè)階段,借助商務(wù)智能技術(shù)可以進(jìn)行有效的關(guān)系營銷活動(dòng),以達(dá)到客戶滿意、企業(yè)獲利的雙贏狀態(tài)。
針對(duì)關(guān)系營銷的BI系統(tǒng)是一個(gè)不斷循環(huán)使用的系統(tǒng)
為了完成有效關(guān)系營銷活動(dòng),每次活動(dòng)通常都涉及分析、計(jì)劃、執(zhí)行以及評(píng)價(jià)等一系列環(huán)節(jié)。
用戶生命周期中的關(guān)鍵關(guān)系營銷環(huán)節(jié)客戶獲?。╟ustomeracquisition)客戶保留(customerretention)交叉/提升銷售(cross/upsale)11.1.2生產(chǎn)管理商務(wù)智能可以用于生產(chǎn)企業(yè)的生產(chǎn)流程優(yōu)化和質(zhì)量控制,提高生產(chǎn)效率,降低生產(chǎn)成本,從而增加企業(yè)收入。很多產(chǎn)品的自動(dòng)化生產(chǎn)過程都設(shè)計(jì)了數(shù)量眾多的工藝參數(shù),如電壓、電流等,以及環(huán)境變量,如溫度、濕度、大氣壓等,這些變量互相影響,與產(chǎn)品質(zhì)量息息相關(guān)。發(fā)現(xiàn)這些變量與產(chǎn)品質(zhì)量之間的關(guān)系,發(fā)現(xiàn)生產(chǎn)過程中的異常,從而及時(shí)改進(jìn)生產(chǎn)流程,提高產(chǎn)品質(zhì)量,是很多生產(chǎn)型企業(yè)都面臨的關(guān)鍵問題。解決生產(chǎn)管理中的問題BobEvans為解決印刷公司的生產(chǎn)過程問題而構(gòu)建了CylinderBand數(shù)據(jù)集。BobEvans所在的一家從事轉(zhuǎn)輪凹版印刷的印刷廠在生產(chǎn)過程中經(jīng)常出現(xiàn)非正常停機(jī)。停機(jī)是由于出現(xiàn)滾筒條紋,導(dǎo)致大量的印刷品出現(xiàn)質(zhì)量問題,浪費(fèi)大量紙張和油墨,并且浪費(fèi)生產(chǎn)時(shí)間,提高了生產(chǎn)成本,提高了不能按期完成產(chǎn)品的風(fēng)險(xiǎn)。該問題出現(xiàn)在很多印刷廠,是一個(gè)普遍存在的問題,因此引起了廣泛的關(guān)注。CylinderBand數(shù)據(jù)集示例為了找出導(dǎo)致滾筒花紋出現(xiàn)的原因,收集了生產(chǎn)過程的很多變量,如油墨粘度、濕度、溫度,紙張型號(hào)、紙張重量、溶劑型號(hào)、印刷機(jī)型號(hào)、印刷速度、靜電輔助電壓、靜電輔助電流、通用的靜電輔助密度等等。利用分類技術(shù)解決了生產(chǎn)質(zhì)量問題利用決策樹分類技術(shù)構(gòu)建模型經(jīng)過分析,發(fā)現(xiàn)了成功印刷的規(guī)律,例如,保持低的油墨溫度,保持高的油墨粘度等。將這些規(guī)律轉(zhuǎn)變?yōu)椴僮饕?guī)則告知操作工人之后,滾筒條紋出現(xiàn)的頻率慢慢降低了。利用商務(wù)智能實(shí)現(xiàn)生產(chǎn)過程的優(yōu)化成功地解決了該生產(chǎn)問題,提高了生產(chǎn)效率,降低了成本。11.2推薦系統(tǒng)MotivationSystemsinActionAConceptualFrameworkUser-UserMethodsItem-ItemMethods先看一個(gè)例子京東商城購物網(wǎng)站上的推薦信息Motivation20年前,我們?cè)谥挥袔讉€(gè)臺(tái)的電視機(jī)前歡天喜地地度過一整個(gè)假期。20年后,互聯(lián)網(wǎng)上成千上萬部電影即點(diǎn)即看,卻不知道要看哪一部。Amazon的數(shù)百萬圖書,Netflix的10萬部電影,淘寶的8億件在線商品,以及數(shù)以億萬計(jì)用戶的資料和行為記錄……互聯(lián)網(wǎng)公司最近十年的迅猛發(fā)展伴隨著海量數(shù)據(jù)的積累。Motivation(Cont.)然而,在線用戶常常面對(duì)過多的選擇而顯得無所適從。心理學(xué)研究證實(shí)這類情境下的用戶有時(shí)做出放棄交易的決定,從而造成大量潛在的用戶流失。最好的選擇,就是不需要選擇。這就是推薦系統(tǒng)一個(gè)經(jīng)過十多年技術(shù)發(fā)展,現(xiàn)在逐漸浮出水面的前沿技術(shù),所要解決的問題。統(tǒng)計(jì)技術(shù)的發(fā)展能夠?yàn)樵诰€服務(wù)商提供更有效的推薦算法,在幫助用戶走出信息過載困境、改善用戶體驗(yàn)的同時(shí),還能夠挖掘商品長尾、提升企業(yè)價(jià)值。Motivation(Cont.)UserPerspectiveLotsofonlineproducts,books,movies,etc.Reducemychoices…please…ManagerPerspective“ifIhave3millioncustomersontheweb,Ishouldhave3millionstoresontheweb.”
CEOofA
[SCH01]四個(gè)階段之一—面向系統(tǒng)的探索階段證明了推薦系統(tǒng)的可行性和效果,激發(fā)了人們推動(dòng)該領(lǐng)域在科研及商業(yè)實(shí)踐方面不斷向前發(fā)展。事件:1996年3月在伯克利舉辦的協(xié)同過濾專題研討會(huì)。四個(gè)階段之二—快速商業(yè)化,規(guī)模和價(jià)值上的挑戰(zhàn)MIT的PattieMaes研究組于1995年創(chuàng)立了Agents公司GroupLens于1996年創(chuàng)立了NetPerceptions等等,其他公司奮起直追競(jìng)爭(zhēng)激烈,公司不得不提高精確度目標(biāo):開發(fā)新的算法四個(gè)階段之三—研究大爆發(fā),推薦成主流2000-2005,隨著互聯(lián)網(wǎng)泡沫破滅,或者無法抗衡將推薦整合到更全面的商業(yè)產(chǎn)品線的主流公司,許多推薦系統(tǒng)公司逐漸消亡。然而推薦系統(tǒng)作為一門技術(shù)仍然存在,并廣泛應(yīng)用在電子商務(wù),大規(guī)模零售業(yè)和各種知識(shí)管理應(yīng)用中。與此同時(shí),來自人工智能、信息檢索、數(shù)據(jù)挖掘、安全與隱私以及其他領(lǐng)域的研究,都為推薦系統(tǒng)提供了新的分析和方法。高峰:2006年,Netflix懸賞100萬美元尋找提高準(zhǔn)確度10%的算法四個(gè)階段之四——前進(jìn)推薦領(lǐng)域得到了極大的促動(dòng)舉例…Example:RecommendationExample:Personalization個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)Netflix公司(中文譯名:奈飛公司)是成立于1997年的美國最大的在線DVD租賃商。2006年10月,Netflix公司宣布啟動(dòng)一項(xiàng)名為Netflix大獎(jiǎng)的推薦系統(tǒng)算法競(jìng)賽,鼓勵(lì)全世界的研究團(tuán)隊(duì),以Netflix目前使用中的推薦系統(tǒng)Cinematch為競(jìng)爭(zhēng)標(biāo)的,比Cinematch推薦績效提高10%的團(tuán)隊(duì),將有資格獲得一百萬美元的獎(jiǎng)勵(lì)。CEOReedHastings說:“這個(gè)大賽的魅力之處在于,你可以是身在羅馬尼亞的數(shù)學(xué)家,也可以是在臺(tái)灣的統(tǒng)計(jì)學(xué)家,無論你在哪里,都可以成為贏家”個(gè)性化推薦Netflix百萬美金大獎(jiǎng)(2)這項(xiàng)頗具挑戰(zhàn)性的比賽吸引了5萬名計(jì)算機(jī)科學(xué)家、專家、愛好者等參與角逐,短短2周它就收到169個(gè)遞交,一個(gè)月后就超過了一千。參賽隊(duì)伍都在為提高這一推薦系統(tǒng)算法的10%的神奇大關(guān)而奮斗,但當(dāng)?shù)梅肿罡哒唠x目標(biāo)越來越接近的時(shí)候,之前看起來簡(jiǎn)單的事情變得越來越難,進(jìn)展越來越慢。當(dāng)時(shí)排在NetflixPrize得分榜前列的參與者都很接近,僅有小數(shù)點(diǎn)的差距。個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)(3)當(dāng)人們認(rèn)為10%的目標(biāo)有點(diǎn)遙不可及的時(shí)候,2007年10月一個(gè)名字叫“Justaguyinagarage”的競(jìng)爭(zhēng)者突然冒了出來,并迅速擠進(jìn)前10。他遞交的第一個(gè)就達(dá)到了7.15%,12月20日他超過多倫多大學(xué)團(tuán)隊(duì),2009年1月8日,他達(dá)到了8%,現(xiàn)在是8.14%。一開始沒人知道這位匿名參與者究竟是何方神圣,因?yàn)樗B鏈接都沒留下。個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)(4)《連線》雜志最終找到了他:GavinPotter,48歲英國人,心理學(xué)肄業(yè)生,管理顧問,2006年離開IBM去研究機(jī)器學(xué)習(xí)。他把參與NetflixPrize當(dāng)作是事業(yè),他說“我想在沒有取得一些進(jìn)展之前提供一個(gè)link是任何意義的”,“決定參加NetflixPrize是嚴(yán)肅的,看起來有幾分玩笑意味。但并沒有多少把握,因?yàn)槲也皇歉阊芯康?,也不是?shù)學(xué)家。優(yōu)勢(shì)是作為一位沒有工作的心理學(xué)者,我的時(shí)間很充裕”。GavinPotter在他的算法里應(yīng)用了心理學(xué)方法,女兒Emily是他的數(shù)學(xué)參謀?;蛟S讓心理學(xué)家和計(jì)算機(jī)科學(xué)家聯(lián)合起來才能取得最后的成功。個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)(5)來自AT&T的研究小組BellKor,它的算法比Cinematch好8.43%,曾位于排行榜第一名。但之后的第一名變?yōu)榱耸?月1日遞交的WhenGravityandDinosaursUnite,高8.82%)。這場(chǎng)比賽已經(jīng)演變成一場(chǎng)學(xué)術(shù)研究事件,像BellKor根本就不是為了金錢,一些參與者甚至還將自己的算法完整公布出來供同行參考,而多數(shù)參與者都是搞數(shù)學(xué)研究的。個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)(6)直到2009年6月26日,這一大關(guān)才終于由頂級(jí)團(tuán)隊(duì)聯(lián)手形成的BellKor‘sPragmaticChaos團(tuán)隊(duì)打破,新算法首次突破了10%門檻,達(dá)到了10.05%。如果在接下來的30天內(nèi)無人能遞交高于BellKor的新算法,那么它將贏得這場(chǎng)比賽。7月26日,比賽結(jié)束的最后一天發(fā)生了一件戲劇性的事件,勝券在握的BellKor于18:18又遞交了超過10.06%的新算法。20分鐘之后的18:38,包括國內(nèi)開發(fā)者xlvector(項(xiàng)亮)在內(nèi)的TheEnsemble團(tuán)隊(duì)遞交了一個(gè)比長期領(lǐng)跑的BellKor的算法高出0.01%的新算法,似乎有資格問鼎百萬美元獎(jiǎng)金。個(gè)性化推薦—Netflix百萬美金大獎(jiǎng)(7)不幸的是,測(cè)試結(jié)果顯示:TheEnsemble的算法和BellKor’sPragmaticChaos的算法最終都為10.06%。然而,TheEnsemble團(tuán)隊(duì)因?yàn)楸菳ellKor晚提交了20分鐘而與冠軍失之交臂,BellKor贏得了獎(jiǎng)金。《紐約時(shí)報(bào)》博客采訪了Ensemble團(tuán)隊(duì)的領(lǐng)導(dǎo)者GregMcAlpin,他表示合作有利于創(chuàng)新,但合作也需要克服困難,他認(rèn)為多數(shù)的合作沒有什么用。Netflix發(fā)表聲明,正式宣布了NetflixPrize2。后來NetflixPrize2因?yàn)殡[私問題而被取消。Netflix比賽前幾名的報(bào)告TheBellkorsolutiontothenetflixgrandprize(.bib)TheBigChaosSolutiontotheNetflixGrandPrize(.bib)ThePragmaticTheorysolutiontotheNetflixgrandprize(.bib)Netflix的競(jìng)賽只是從推薦準(zhǔn)確性的角度評(píng)價(jià)算法,事實(shí)上,還有很多的評(píng)價(jià)指標(biāo)可以度量推薦算法的表現(xiàn)。因此,也可以從多個(gè)角度對(duì)算法進(jìn)行改進(jìn)。NETFLIXDVDRentingcontest1milliondollarsOtherExamplesMovielens:moviesMoviecritic:moviesagainMylaunch:musicGustosstarrater:webpagesJester:JokesTVRecommender:TVshowsSuggest1.0:differentproductsAndmuchmore…HowitWorks?EachuserhasaprofileUsersrateitemsExplicitly:scorefrom1..5Implicitly:webusageminingTimespentinviewingtheitemNavigationpathEtc…Systemdoestherest,How?Thisiswhatwewillshowtoday推薦系統(tǒng)的構(gòu)成收集用戶信息的行為記錄模塊負(fù)責(zé)記錄用戶的喜好行為。例如:?jiǎn)柎?、評(píng)分、購買、下載、瀏覽等。分析用戶喜好的模型分析模塊通過其他方式對(duì)不愿向系統(tǒng)提供行為信息的用戶的行為進(jìn)行分析。如購買、下載、瀏覽等行為,分析用戶的潛在喜好產(chǎn)品和喜歡程度,建立合適的模型來描述用戶的喜好信息。推薦算法模塊實(shí)時(shí)地從產(chǎn)品集合中篩選出用戶感興趣的產(chǎn)品進(jìn)行推薦。BasicApproachesCollaborativeFiltering(CF,協(xié)同過濾)LookatuserscollectivebehaviorLookattheactiveuserhistoryCombine!Content-basedFilteringRecommenditemsbasedonkey-words依據(jù)用戶選擇的產(chǎn)品內(nèi)容信息計(jì)算用戶間相似性信息抽取信息過濾Today’sFocusCollaborativeFiltering:AFrameworku1u2…ui...umItems:Ii1i2…ij
…in31.5
….
52213rij=?Thetask:Q1:FindUnknownratings?Q2:Whichitemsshouldwerecommendtothisuser?...Unknownfunctionf:UxIRUsers:U推薦方法之一:協(xié)同過濾推薦基本思想:如果用戶A和用戶B的購買經(jīng)歷非常重疊,而且A最近買了一本B還不知道的書,那么這是基本的邏輯就是向B推薦這本書。由于選擇可能感興趣的書涉及從大量集合中過濾出最有希望的書,而且用戶(這里指用戶B)是在隱式地同其他人(用戶A)相互協(xié)作,因此這種技術(shù)也被成為協(xié)同過濾CF,CollaborativeFiltering推薦方法之二:基于內(nèi)容的推薦一般推薦系統(tǒng)有兩個(gè)目的:1.激發(fā)用戶去做某件事情,比如購買一本書或觀賞一部電影。2.推薦系統(tǒng)也可以被看做是解決信息過載的工具因此推薦系統(tǒng)深深根植于信息檢索和信息過濾領(lǐng)域。這些領(lǐng)域主要強(qiáng)調(diào)區(qū)分相關(guān)和不相關(guān)的文檔。(相對(duì)于傳統(tǒng)電子商務(wù)領(lǐng)域的書或數(shù)碼相機(jī)等實(shí)物而言)技術(shù)之一:利用文檔內(nèi)容信息進(jìn)行排名。推薦方法之三:基于知識(shí)的推薦需求:為我推薦一款適合我的相機(jī)問題:大量單次購買記錄(沒有交集),我們無法依賴購買記錄(這是協(xié)同過濾和基于內(nèi)容過濾的前提條件。)此時(shí),系統(tǒng)需要利用額外的因果知識(shí)生成推薦,通常會(huì)用到有關(guān)用戶和有效物品的額外信息。(這些信息一般人工提供)在個(gè)性化交互中,系統(tǒng)能夠摸索到用戶的喜好最后根據(jù)知識(shí)庫生成推薦,知識(shí)庫由領(lǐng)域知識(shí)生成。推薦方法之四:混合推薦組合以上不同技術(shù)產(chǎn)生更好或更精確的推薦1.群體知識(shí)2.詳盡的物品信息把基于內(nèi)容的技術(shù)與協(xié)同或社會(huì)化過濾技術(shù)相混合就可以增強(qiáng)推薦系統(tǒng)的效果。問題:哪種方法能被組合?順序組合還是其他方式?不同方法如何分配權(quán)重?推薦方法之五:推薦系統(tǒng)的解釋解釋:為了讓用戶更容易理解推薦系統(tǒng)的推理脈絡(luò)。提高用戶對(duì)系統(tǒng)的信任度,讓用戶相信系統(tǒng)給出的建議是"公正的"舉例:蝦米音樂電臺(tái)推薦方法之六:評(píng)估推薦系統(tǒng)推薦系統(tǒng)領(lǐng)域研究的主要推動(dòng)力是提高推薦質(zhì)量。問題:如何實(shí)際衡量推薦系統(tǒng)所給出建議的質(zhì)量?方法之一:從歷史數(shù)據(jù)實(shí)驗(yàn)中評(píng)估示例:如何構(gòu)建一個(gè)推薦系統(tǒng)構(gòu)建推薦系統(tǒng)的基本步驟1.搜集偏好(CollectingPreferences)2.尋找相近的用戶(FindingSimilarUsers)3.為評(píng)論者打分(RankingtheCritics)4.推薦物品(RecommendingItems)1.搜集偏好(CollectingPreferences)目標(biāo):建立一種方法來使得你的用戶來參與表達(dá),并把他們表達(dá)的內(nèi)容對(duì)應(yīng)到數(shù)字以形成相應(yīng)的數(shù)據(jù)集合。關(guān)鍵:尋找一種表達(dá)不同人及其偏好的方法。舉例:購物網(wǎng)站——用數(shù)字1來代表有人過去購買過某件商品,用數(shù)字0來代表未曾購買過任何商品。新聞故事投票網(wǎng)站——可以分別用數(shù)字-1、0和1來表達(dá)“不喜歡”、“沒有投票”、“喜歡”。豆瓣:要求用戶對(duì)每部電影用1到5顆星來評(píng)分,以此體現(xiàn)包括本人在內(nèi)的每位影評(píng)者對(duì)某一影片的喜愛程度。2.尋找相近的用戶(FindingSimilarUsers)目的:設(shè)計(jì)一種確定人們?cè)谄肺环矫娴南嗨瞥潭鹊姆椒āW幾里德距離(EuclideanDistanceScore)皮爾遜相關(guān)度(PersonCorrelationCoefficient)余弦相似性(Cosine-basedSimilarity)調(diào)整余弦相似性(AdjustedCosineSimilarity)Jaccard系數(shù)曼哈頓距離算法等歐幾里德距離(EuclideanDistanceScore)以經(jīng)過人們一致評(píng)價(jià)的物品為坐標(biāo)軸,然后將參與評(píng)價(jià)的人繪制到圖上,并考察他們彼此間的距離。皮爾遜相關(guān)度(PearsonCorrelationScore)通過判斷兩組數(shù)據(jù)與某一直線擬合程度來判斷相似度。它在數(shù)據(jù)不是很規(guī)范的時(shí)候,如影評(píng)者對(duì)影片的評(píng)價(jià)總是相對(duì)于平均水平偏離很大時(shí),會(huì)傾向于給出更好的結(jié)果。更高相關(guān)系數(shù)的情況LisaRose和JackMatthews在這幾部電影上有著更高的相似度(各點(diǎn)更靠近最佳擬合曲線)。相關(guān)系數(shù)的計(jì)算皮爾遜的相關(guān)度算法首先會(huì)找出兩位評(píng)論者都曾評(píng)價(jià)過的物品,然后計(jì)算兩者的評(píng)分總和和平方和,并求得評(píng)分的乘積之和。最后,利用這些計(jì)算結(jié)果計(jì)算出相關(guān)系數(shù):3.為評(píng)論者打分(RankingtheCritics)目的:根據(jù)指定的人員對(duì)每個(gè)人進(jìn)行打分,找出最接近的匹配結(jié)果,也即所謂該人的最近鄰。前面例子中,即是要尋找與自己品位相似的影評(píng)者。4.推薦物品(RecommendingItems)(最終)目的:一份影片的推薦列表。方法:查找與自己品位最相近的人推薦給你某人特別熱衷的一部影片推薦列表Critic列是與Toby進(jìn)行相似度對(duì)比的人名Similarity列表示他們與Toby的相似度系數(shù)Night、Lady和Luck都是電影名S.x打頭的那幾列給出了相似度系數(shù)和評(píng)分后相乘的結(jié)果。總結(jié)CollaborativeFilteringRoadMapUser-UserMethodsIdentifylike-mindedusersMemory-based:KNNModel-based:ClusteringItem-ItemMethodIdentifybuyingpatternsCorrelationAnalysisLinearRegressionAssociationRuleMiningU4U1U3U2U5用戶層項(xiàng)目層R1
R2
R3
R4I1基于用戶的協(xié)同過濾
User-UserMethodIntuitionSimilarusershavesimilarpreferencesIfuu’,thenforallo’s,f(u,o)f(u’,o)Usersimilarity(ZhangSanvs.LiSi)SupposeZhangSanandLiSiviewedsimilarmoviesinthepastsixmonths…IfZhangSanlikedthepaper,LiSiwilllikethepaperUser-UserSimilarity:Intuition
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?其中:用戶i的偏好均值:
Ii表示用戶i的投票范圍HowtoMeasureSimilarity?Pearsoncorrelationcoefficient(相關(guān)系數(shù)法)uauii1in...ua…ui...umi1i2…
ij
…inra1ra2…ranri1ri2…rinrm1rm2…rmnHowtoMeasureSimilarity?i1i2i3i4i5i6u11223u22325u334512u423421HowtoMeasureSimilarity?CosinemeasureUsersarevectorsinproduct-dimensionspace...ua…ui...umi1i2…
ij
…inra1ra2…ranri1ri2…rinrm1rm2…rmn
CosinemeasureCosinemeasureE.g:ra=(ra1,ra2)ri=(ri1,ri2)余弦定理cos()=(a2+b2-c2)/2aba2=(ra1
-0)2+(ra2-0)2=ra1
2+ra2
2b2=ri1
2+ri2
2c2=(ra1
-ri1)2+(ra2
–ri2)2ra1ri1ra2
ri2abcHowtoMeasureSimilarity?i1i2i3i4i5i6u11223u22325u334512u423421DidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?Howtopredict?用戶a對(duì)項(xiàng)目j的預(yù)測(cè)偏好Usera’sneutralUseri’sdeviationUsera’sestimateddeviationi是a的鄰居i1i2i3i4i5i6u11223u22?325u334512u423421W(u1,u2)=0.997W(u2,u4)=0.86DidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?(Breeseetal.98)AllusersNearestNeighborApproaches[SAR00a]Offlinephase:Donothing—juststoretransactionsOnlinephase:IdentifyhighlysimilaruserstotheactiveoneBestKonesAllwithameasuregreaterthanathresholdPredictionClustering[BRE98]Offlinephase:Buildclusters:k-mean,k-medoid,etcOnlinephase:IdentifythenearestclustertotheactiveuserPrediction:UsethecenteroftheclusterWeightedaveragebetweenclustermembersWeightsdependontheactiveuserFasterSlowerbutalittlemoreaccurateClusteringvs.k-NNApproachesK-NNusingPearsonmeasureisslowerbutmoreaccurateClusteringismorescalableActiveuserDidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?User-UserMethodsEvaluationAchievegoodqualityinpracticeThemoreprocessingwepushoffline,thebetterthemethodscaleHowever:UserpreferenceisdynamicHighupdatefrequencyofoffline-calculatedinformationNorecommendationfornewusersWedon’tknowmuchaboutthemyet基于產(chǎn)品的協(xié)同過濾
Item-ItemMethodItem-ItemSimilarity:TheIntuitionItemsimilaritySince90%ofthosewholikedStarWarsalsolikedIndependenceDay,and,youlikedStarWarsYoumayalsolikeIndependenceDaySearchforsimilaritiesamongitemsAllcomputationscanbedoneofflineItem-Itemsimilarityismorestablethanuser-usersimilarityNoneedforfrequentupdatesCollaborativeFilteringRoadMapItem-ItemMethodCorrelationAnalysisLinearRegressionAssociationRuleMiningBeliefNetworkCorrelation-basedMethods[SAR01]Sameasinuser-usersimilaritybutonitemvectorsBasicidea:IsolateuserswhohaveratedbothiandjApplysimilaritycomputationCo-rateditemsonlyr1ir1jruirujr(m-1)ir(m-1)jr2jrmiItemSimilarityComputationPearsoncorrelationcoefficientLookforuserswhoratedbothitemsu1umi1iiijinItemSimilarityComputationCosine-basedSimilarityu1umi1iiijini1i2i3i4i5i6u11223u22325u334512u423421CosinesimilarityS12=0.99S32=0.99S42=0.989S52=0.79S62=0.98i1i2i3i4i5i6u11223u22325u334512u4234521ItemSimilarityComputationAdjustedCosineSimilarityDifferencesinratingscalesbetweendifferentusersaverageoftheu-thuser’sratingsu1umi1iiijinCorrelation-basedMethods:predictionOfflinephase:Calculaten(n-1)similaritymeasuresForeachitemDetermineitsmostk-similaritemsOnlinephase:Predictratingforagivenuser-itempairasaweightedsumoversimilar
itemsthatheratedUa?234jCorrelation-basedMethods:predictionUa?234jS12=0.99S32=0.99S42=0.989S52=0.79S62=0.98i1i2i3i4i5i6u11223u22?325u334512u4234521ExperimentalevaluationEvaluationmetricsChoiceoftheMeanAbsoluteError(MAE)testsetpi=numericalrecommendationscoresqi=actualuserratingsConclusionItem-itemschemeprovidesbetterqualityofpredictionsthanuser-userschemeRecommandersystems:acrucialtoolinE-Commerce協(xié)同過濾系統(tǒng)優(yōu)點(diǎn)具有推薦新信息的能力,可以發(fā)現(xiàn)用戶潛在的但自己尚未察覺到的興趣偏好。能夠推薦藝術(shù)品、音樂、電影等難以進(jìn)行內(nèi)容分析的產(chǎn)品。缺點(diǎn)如何對(duì)新用戶推薦或任何推薦新產(chǎn)品給用戶(冷啟動(dòng))打分稀疏性問題算法可擴(kuò)展性問題最新進(jìn)展當(dāng)前研究和最新進(jìn)展,主要涉及的問題如下:隱私和魯棒性。如何識(shí)別惡意用戶操縱推薦系統(tǒng)?如何保護(hù)用戶隱私?在線消費(fèi)決策。傳統(tǒng)銷售渠道總結(jié)的經(jīng)驗(yàn)?zāi)芊褶D(zhuǎn)換到在線渠道,如何在推薦系統(tǒng)中體現(xiàn)這些知識(shí)?社交和語義網(wǎng)背景下的推薦系統(tǒng)。如何利用用戶間已有的信用結(jié)構(gòu)或社交關(guān)系提高推薦精準(zhǔn)度?語義網(wǎng)技術(shù)如何影響推薦算法?推薦系統(tǒng)在web2.0中的角色是什么?無處不在的應(yīng)用。這些應(yīng)用如何影響推薦算法,比如會(huì)更強(qiáng)調(diào)上下文情景和環(huán)境參數(shù)嗎?11.3意見挖掘意見挖掘(opinionmining)或者情感分析(sentimentanalysis)是從文本信息中識(shí)別、抽取用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 龍池鎮(zhèn)屋頂防水施工方案
- 三亞市海棠區(qū)青田健康養(yǎng)護(hù)中心項(xiàng)目環(huán)境影響報(bào)告表環(huán)評(píng)報(bào)告表
- 鋪裝廣場(chǎng)專項(xiàng)施工方案
- 庭院洗手池設(shè)計(jì)與施工方案
- 低壓輸電線路搶修施工方案
- 天津陽臺(tái)垂直綠化施工方案
- 鄭州餐廳防滑地板施工方案
- 遵義鋁合金防滑條施工方案
- 數(shù)控加工工藝與編程技術(shù)基礎(chǔ) 教案 模塊三 項(xiàng)目一 任務(wù)5 孔的加工
- 茶葉多角度精細(xì)化栽培種植優(yōu)勢(shì)與路徑的建議分析
- 2025年中考英語時(shí)文閱讀:6篇有關(guān)電影哪吒2的英語閱讀及相關(guān)題目(無答案)
- 2024年山東省濟(jì)南市中考地理試題卷(含答案解析)
- 艾媒咨詢|趙一鳴零食店消費(fèi)行為洞察及行業(yè)趨勢(shì)報(bào)告2024
- 《質(zhì)量管理標(biāo)準(zhǔn)化手冊(cè)》
- 2024年南京機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫標(biāo)準(zhǔn)卷
- 縣級(jí)林長制培訓(xùn)
- 少兒財(cái)商教育講座課件
- 陜西省西安市鐵一中2025屆高三下學(xué)期聯(lián)合考試英語試題含解析
- 醫(yī)院醫(yī)用耗材SPD服務(wù)項(xiàng)目投標(biāo)方案
- 2025東方電氣風(fēng)電限公司招聘63人管理單位筆試遴選500模擬題附帶答案詳解
- 2025年保密知識(shí)試題庫附參考答案(精練)
評(píng)論
0/150
提交評(píng)論