版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
字,從0到1構建系統(tǒng)一、前言
本文主要是筆者在負責實際項目中積累的關于推舉系統(tǒng)的皮毛認知和理解。
原先都是以用戶的身份接觸推舉系統(tǒng),所以在以PM的身份接到任務時自然是一頭霧水。各種問題出現(xiàn)在腦海:推舉系統(tǒng)是什么?能解決什么問題?如何構建?等等。
說實話,這些問題每一個都困擾了我許久。光是思索第一個問題就花了一個多月,回過頭來看,整個項目周期中,也許70%的時間用于思索“是什么”的問題,剩下30%的時間是解決“怎么做”的問題(實際上整個項目中的應用系統(tǒng)除了推舉系統(tǒng)還有用戶畫像系統(tǒng))。
當然最終的結果是樂觀的。所以有意寫下此文,一來是記錄心得,二來是給有需要的伴侶做實戰(zhàn)共享,三來就是拋磚引玉,促進共同溝通。因筆者在該行業(yè)中閱歷積累較為淺薄,疑慮和不妥之處還望賜教和指正。
二、推舉系統(tǒng)簡述
1.推舉系統(tǒng)是什么
從應用層面簡而言之,推舉系統(tǒng)的主要功能是基于已知的用戶數(shù)據(jù)通過算法計算并給出用戶可能感愛好的信息/物品。
2.推舉系統(tǒng)誕生背景簡述
隨著學問的運用積累、科學技術的進步等,人類在近幾百年來通過幾次工業(yè)革命使得社會的生產(chǎn)力水平得到大幅提升。此外,從其次次世界大戰(zhàn)結束后,人類社會加速邁入全面和平常代,全球各國的主基調以經(jīng)濟進展為核心主題,因而進一步加速了社會經(jīng)濟進展水平。
在此基礎上,我們從一個生產(chǎn)力水平相對低下、生活物品匱乏的年月漸漸向物質水平充分、信息爆炸再過渡到當下的商品過剩、信息過載的年月??梢灶A見的是在將來人們在同一決策下將面臨越來越多的選擇。
在此背景下,消費者(用戶)在面臨大量的信息或者物品時可能無法真正從中獲得自己期望或有用的信息或商品。與此同時,生產(chǎn)者的困擾在于如何讓自己的信息/商品呈現(xiàn)給更多用戶,如何在海量的信息/商品中脫穎而出。
而推舉系統(tǒng)正是解決這一沖突重要工具。尤其是在平臺經(jīng)濟模式下,推舉系統(tǒng)的應用最為廣泛,其中較為典型并具有良好的進展和應用前景的領域包括電子商務領域、電影/視頻、音樂、閱讀等。
本文主要以項目中涉及的領域【電影/視頻】領域為動身點進行綻開。
三、從0到1構建推舉系統(tǒng)
1.推舉系統(tǒng)的核心功能
推舉系統(tǒng)的核心功能就是為用戶推舉其可能感愛好的商品。大致的過程可以簡述為:推舉系統(tǒng)依據(jù)已知的用戶數(shù)據(jù),經(jīng)過推舉引擎(推舉算法)計算,并給出用戶可能感愛好的商品集合,最終再通過前端界面的方式將特定的商品呈現(xiàn)在用戶眼前。
比如:已知用戶的觀影數(shù)據(jù),此時可通過推舉算法得知用戶是一名喜劇電影愛好者,于是便可以向用戶推舉喜劇電影題材的視頻內容。
此外,這里需要重點說明的是,如何推斷用戶是否感愛好的主要依據(jù)來源于已知的用戶數(shù)據(jù)。本質上是基于數(shù)據(jù)統(tǒng)計推斷。所以這里描述的是可能感愛好。這一點很重要。而說到用戶數(shù)據(jù),這里需要提一下便利后續(xù)的理解和擴展,用戶數(shù)據(jù)的主要類型:
用戶基本屬性:這里主要是用戶地理信息,用戶社會屬性數(shù)據(jù)(性別、年齡等)等。用戶行為數(shù)據(jù):這里主要是用戶的觀影數(shù)據(jù)(點擊、播放、保藏、訂購)等。當然,考慮到人類行為動力學特征討論結果(大多數(shù)狀況下,人對一件事情的關注只能持續(xù)較短的時間),在此還需要做拆分,即歷史行為數(shù)據(jù)和實時行為數(shù)據(jù)。比較典型的實時推舉:某寶購物在線輸入關鍵字搜尋后退出,此時再次進入app則可能會看到與搜尋關鍵字相關的物品。下圖為推舉系統(tǒng)基本功能和簡要的過程:
2.推舉系統(tǒng)的構建
說到這里,我們好像發(fā)覺了,其實推舉系統(tǒng)說簡潔一點就是:給用戶推舉商品。
假如拓展一下:那就是給什么樣的用戶推舉什么樣的商品。再拓展一下:給什么樣的(具有某種特征的用戶)用戶用什么樣的方式(不同場景下的推舉算法)推舉什么樣的(與用戶特征相匹配的商品)商品。
這樣理解的話,我們好像知道可以從哪里下手了。
1)用戶特征與商品特征定義
①用戶和商品的關聯(lián)關系
我們需要定義一套規(guī)章把用戶和商品關聯(lián)起來。這樣可以使得用戶和商品存在某種關聯(lián)關系以便達到對某特征的用戶推舉關聯(lián)特征的商品。
可以說用戶特征和商品特征之間的關聯(lián)是相輔相依的。比如:為喜劇電影偏好者推舉喜劇電影。
那么問題來了,用戶和商品之間本身不存在關聯(lián)關系,可以說都是相對獨立的,何來關系之有?何談建立關聯(lián)關系?
這里的答案是用戶的行為,用戶行為使得用戶和商品之間產(chǎn)生關聯(lián)。由于一次交互,所以產(chǎn)生了聯(lián)系。于是便有了關聯(lián)關系。那么這個“交互”其實就是方才提到的:點擊、播放、保藏、訂購等。用戶播放了喜劇電影,則意味著用戶與該喜劇電影產(chǎn)生了關聯(lián)關系。
于是乎,我們好像可以下一個初步的結論,用戶可能對喜劇電影感愛好。進而我們是否可以考慮為該用戶推舉喜劇電影呢?有點欠妥,由于僅憑一次觀影,數(shù)據(jù)量不足。
但是假如我們依據(jù)用戶的大量歷史行為數(shù)據(jù)發(fā)覺該用戶看的電影中喜劇偏多,而此刻我們認為用戶對喜劇電影有偏好的結論好像就可以站得住腳了。進而,我們可以試著給用戶推舉喜劇電影了。
②商品特征和用戶特征
商品特征源自于對商品不同維度的描述。這里用商品屬性代替。下表中的第一列就是商品屬性(業(yè)界通常把電影電視劇等統(tǒng)稱為媒資,因而后文中牽涉到商品的內容將以媒資來描述)。
商品屬性及其屬性值。這個比較好理解。下圖中的【媒資題材】其實就是屬性的一種,對應的屬性值有:喜劇、懸疑、動作等等。
而我們可以通過商品具備的屬性來建立屬于商品固有的特征。商品屬性越多,商品特征越豐富。如:一部喜劇電影和一部成龍主演的喜劇電影。很明顯是后者的特征更豐富。所以我們明確一點:屬性是構成特征的基本要素。
同理,對于用戶特征亦是如此。通過用戶屬性來建立用戶固有的特征(通常用用戶標簽來描述)。下表中是用戶特征的簡要示例。
在說完商品特征/用戶特征以及二者之間的關系后,我們可以發(fā)覺。用戶通過主動行為,與商品發(fā)生關聯(lián)關系,從而建立了用戶與商品之間的聯(lián)系,因而這就為我們做商品推舉奠定了基礎。
2)推舉場景及算法規(guī)律構建
①推舉場景和推舉算法的聯(lián)系
通過上述過程,我們建立了用戶和商品之間的聯(lián)系,剩下的工作就是需要一套自動化的程序將二者的關系打通。這個自動化程序即我們要說的推舉算法。
方才有提到,推舉的本質上是基于數(shù)據(jù)統(tǒng)計推斷。而數(shù)據(jù)我們在這里主要分為兩種:
基于用戶基本屬性數(shù)據(jù);基于用戶行為數(shù)據(jù)(包含歷史行為數(shù)據(jù)和實時行為數(shù)據(jù))。我們先做個小結:這里全部的推舉算法都是基于上述兩種數(shù)據(jù)完成的。
與此同時,我們不妨再回顧一下:給什么樣的(具有某種特征的用戶)用戶用什么樣的方式(不同場景下的推舉算法)推舉什么樣的(與用戶特征相匹配的商品)商品。
這里需要有一個問題值得思索,為什么推舉算法還需要區(qū)分場景。
這其實主要源自于應用端需求。比如,我打開了某寶,首頁中可能消失了我搜尋過的商品種類推舉,而在我下單后可能系統(tǒng)又為我推舉了其他的商品。
這里提到的“首頁狀態(tài)”和“下單后”兩種分別屬于不同的場景。前者是我剛進app,系統(tǒng)可能通過我過去的行為數(shù)據(jù)發(fā)覺我可能對搜尋過的商品比較感愛好,所以為我推舉相關商品,而后者是系統(tǒng)通過全網(wǎng)用戶數(shù)據(jù)發(fā)覺購買了當前商品A的用戶同時也購買了另一款產(chǎn)品B,而此時我購買了該商品于是認為我可能也會下單商品B,所以為我推舉了商品B。
不同的場景下,需要有對應合適的推舉方式。于是我們將推舉場景和推舉算法聯(lián)系到了一起。
我們簡潔地整理出示意表格中的實例:基于不同場景下對用戶數(shù)據(jù)采納特定的推舉算法進行計算。
至此,我們還需要完成一項工作才能構成一個簡潔的推舉系統(tǒng):推舉算法的規(guī)律。
②推舉算法的規(guī)律構建
在上述的示例中,我們列舉了部分推舉算法,下面一一說明:
用戶偏好推舉
簡而言之,依據(jù)用戶歷史的行為數(shù)據(jù)推舉他平常喜愛看的內容。
還是拿前面說過的:為喜劇電影偏好者推舉喜劇電影。所以我們可以制定量化規(guī)章。
如:我們統(tǒng)計了該用戶過去的觀影數(shù)據(jù),其中觀看【喜劇片】10次,【懸疑片】5次,【戰(zhàn)斗片】4次,【愛情片】1次,那么加起來合計觀影次數(shù)=10+5+4+1=20次,其中根據(jù)比例計算分別占比:50%、25%、20%、5%。
那么我們通過現(xiàn)有的數(shù)據(jù)可以觀看到,該用戶的僅有數(shù)據(jù)中顯示其對【喜劇片】和【懸疑片】較為有愛好(這里我們定義從歷史數(shù)據(jù)中取Top2,【喜劇】和【懸疑】符合我們自定規(guī)章),于是當用戶下次開機時,我們有了在首頁為用戶推舉肯定數(shù)量的【喜劇片】和【懸疑片】的依據(jù)。上述,也許是簡潔的用戶偏好推舉算法。
協(xié)同過濾推舉
這里我就不獻丑了。這種推舉算法比較經(jīng)典,也是業(yè)界常用的推舉算法。比較典型的案例是:啤酒和尿布。超市人員發(fā)覺購買啤酒的用戶同時也購買了尿布。于是這個故事可以寫成:買尿布的家庭中有嬰兒,母親照看嬰兒,父親去超市買尿布同時也買啤酒。
明星偏好推舉
這里同上述第一項相像,就不再贅述了。主要目的有兩個,一個是篩選出近期比較熱的明星,推舉他的內容;另一部分是根據(jù)用戶對明星的偏好,推舉用戶偏好的明星的內容。
通過上述的推舉算法的規(guī)章的建立,結合已知的數(shù)據(jù),我們好像可以為單個用戶做共性化推舉了。下圖所示,但這里只是整個系統(tǒng)的一部分。
3)推舉結果的過濾和排序
完成了前面的內容后,理論上我們可以做出一個較為簡潔的推舉系統(tǒng)。但是在實際業(yè)務中還會牽涉到兩項比較重要的工作需要完成:過濾和排序。
①推舉結果的過濾
這里的過濾:主要是針對媒資庫中剔除不符合業(yè)務規(guī)章的媒資的過程。而不符合業(yè)務規(guī)章需要依據(jù)實際的業(yè)務來確定,常見的不符合規(guī)章的類型有如下:
被加入黑名單的媒資內容:加入黑名單后將不再呈現(xiàn)在用戶視野中,故而需要過濾掉。媒資版權過期:媒資庫中過濾掉版權過期的內容。話題敏感的媒資內容:某些時間段或特別大事引發(fā)的敏感內容“下架”。排重過濾:這里的排重過濾也有多種形式,常見的是:推舉系統(tǒng)在最近的一段時間段為用戶推舉過某電影,但是用戶并沒有播放,可能是用戶對該項推舉不感愛好。當推舉次數(shù)積累到肯定程度時,系統(tǒng)將自動過濾該媒資。其他:這里的過濾條件可能會有多種,主要源自于業(yè)務需求,故而不再一一列舉。下面的流程圖中是實際業(yè)務中需要進行過濾的選項。
②推舉結果的排序
通過上述過濾,推舉結果的媒資集合已經(jīng)被清理了一輪。但集合中剩余的內容并不是全部的媒資都需要呈現(xiàn)給用戶。用戶的視野是有限的,推舉位的數(shù)量也是有限的,所以我們應當從這個集合中再次篩選出比較“易產(chǎn)生愛好”的內容,進而提升用戶可能對推舉內容產(chǎn)生的愛好。
排序的方式有多種,這里只列舉了一部分并且是單一的排序方式。也可以通過算法規(guī)章進行綜合排序等,這里只爭論單一排序。排序方式包括:
熱度排序:媒資集合中全部的媒資根據(jù)熱度來排序;評分排序:根據(jù)評分大小來排序;上線時間排序:根據(jù)上線的時間遠近來排序;其他。
4)推舉結果的展現(xiàn)
推舉結果的展現(xiàn)
在經(jīng)過媒資的過濾和排序后,推舉內容已經(jīng)預備好進入用戶的視野了。我們重新整理并對從前的示意圖做一下優(yōu)化,如下:
整個過程相對清楚,但總有點抽象。所以,我準備用一個簡潔的示例來進行回顧和說明。
連續(xù)上述提到的例子。我們統(tǒng)計了小明過去的觀影數(shù)據(jù),其中觀看【喜劇片】10次、【懸疑片】5次、【戰(zhàn)斗片】4次、【愛情片】1次,那么加起來合計觀影次數(shù)=10+5+4+1=20次,其中根據(jù)比例計算分別占比:50%、25%、20%、5%。
那么我們通過現(xiàn)有的數(shù)據(jù)可以觀看到,該用戶的僅有數(shù)據(jù)中顯示其對【喜劇片】和【懸疑片】較為有愛好(這里我們定義從歷史數(shù)據(jù)中取Top2,【喜劇】和【懸疑】符合我們自定規(guī)章)。于是當小明下次開機時,來到了首頁(這里示例默認了只使用一種推舉引擎)。此時系統(tǒng)的工作:
a.從媒資庫中取了1000部【喜劇片】和1000部【懸疑片】,并對兩種類型的電影做了【過濾】,各剩下500部符合業(yè)務規(guī)章的電影。
b.系統(tǒng)各將這500部電影根據(jù)【熱度】進行了排序,原先的無序媒資集合有序了。
但是值得留意的是,這個集合很大,而我們現(xiàn)在首頁的推舉位只有9個。我們需要解決的問題有兩個,一個是我們已經(jīng)知道的,我們1次最多只能推9個,另一個是我們要給小明推舉兩種類型的影片,如何安排數(shù)量。
信任說到這里,大家自有答案。我們根據(jù)【喜劇片】50%占比,【懸疑片】25%占比:即【喜劇片】比【懸疑片】=2:1來安排數(shù)量。于是【喜劇片】=9*2/3=6個,【懸疑片】=9*1/3=3個。
c.如此,我們將媒資集合中【喜劇片】排名前6個影片以及【懸疑片】前3個影片,呈現(xiàn)在小明的眼前。
以上大致是一個簡要的推舉系統(tǒng)的構建以及整個過程的描述。
當然在實際的業(yè)務中,會有偏差,也有一部分重要的問題這里沒有提及。比如:推舉算法種類的多樣性和精確?????性;推舉結果的反饋、推舉效果如何等等。
總而言之,通過整個過程我們大致了解了推舉系統(tǒng)的本質,也了解到一個簡要的推舉系統(tǒng)如何構建以及可能存在的問題和優(yōu)化的方向。假如這個目的實現(xiàn)了,那么本文的目的也就達到了。盼望對有需要的伴侶供應思路,同時也歡迎多多溝通。
四、心得:寫在最終
推舉系統(tǒng)對于一個產(chǎn)品經(jīng)理來說不是一個常見的產(chǎn)品,由于市面上幾乎找不到類似的產(chǎn)品,更別說做什么競品分析。由
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物價指數(shù)的預測模型研究-洞察分析
- 性別平等法律保障機制-洞察分析
- 硬化劑在建筑材料中的應用-洞察分析
- 網(wǎng)絡隱私權保護策略-洞察分析
- 虛擬現(xiàn)實技術在娛樂產(chǎn)業(yè)的應用-洞察分析
- 養(yǎng)血生發(fā)膠囊副作用及應對策略-洞察分析
- 相機傳感器技術演進研究-洞察分析
- 勤儉節(jié)約升旗精彩講話稿(12篇)
- 污染控制經(jīng)濟效應-洞察分析
- 創(chuàng)新學校心理健康教育模式
- 【企業(yè)盈利能力探析的國內外文獻綜述2400字】
- 2024年新人教版三年級數(shù)學上冊《第7單元第2課時 周長》教學課件
- 【核心素養(yǎng)目標】浙教版勞動一年級上項目四 任務一《瓶瓶罐罐做花瓶》教案
- 2024年事業(yè)單位公開選調工作人員報名及資格審查表
- 2024年全國(保衛(wèi)管理員安全及理論)知識考試題庫與答案
- 幼兒園冬至主題班會課件
- 畜禽解剖生理第八章生殖系統(tǒng)資料教學課件
- 《2008遼寧省建設工程計價依據(jù)執(zhí)行標準》大建委發(fā)200875號
- 清潔灌腸護理
- 2024至2030年中國魔方行業(yè)市場前景調查及投融資戰(zhàn)略研究報告
- 園林工程智慧樹知到答案2024年浙江農林大學
評論
0/150
提交評論