貝殼用戶偏好挖掘的思考與實踐_第1頁
貝殼用戶偏好挖掘的思考與實踐_第2頁
貝殼用戶偏好挖掘的思考與實踐_第3頁
貝殼用戶偏好挖掘的思考與實踐_第4頁
貝殼用戶偏好挖掘的思考與實踐_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

貝殼用戶偏好挖掘的思考與實踐1.

背景1.1

什么是\o"用戶偏好"用戶偏好挖掘用戶偏好,即對用戶內(nèi)在需求的具體刻畫。通過用戶的歷史行為和數(shù)據(jù),對用戶進行多角度全方位的刻畫與描述,利用統(tǒng)計分析或算法,來挖掘出用戶潛在的需求傾向。用戶在平臺有多種多樣的行為,用戶的行為都是有內(nèi)在的驅(qū)動因素的,而挖掘用戶偏好可以幫助我們從雜亂的信息中抽象出對用戶需求的具體描述,從而指導(dǎo)搜索、推薦、push等策略的制定,圈定用戶群,進行精準(zhǔn)營銷與精細化運營。1.2

偏好挖掘工作面臨的挑戰(zhàn)準(zhǔn)確表達:用戶偏好挖掘工作對準(zhǔn)確的要求是天然存在的,有兩點需要考慮:首先,用戶偏好的準(zhǔn)確應(yīng)當(dāng)如何度量,決定了我們以何為目標(biāo);其次,用戶的偏好可能存在多峰的情況,因此在挖掘任務(wù)中需要對多峰的特性做出準(zhǔn)確反映。可理解:本質(zhì)上我們希望對用戶的偏好信息進行編碼和傳遞,基于貝殼的業(yè)態(tài),下游不止有規(guī)則與算法,還有運營與經(jīng)紀(jì)人等‘人’,這對偏好挖掘輸出的可理解提出了要求。高維的偏好:在偏好挖掘工作中,另一個重點是,存在部分高維非序數(shù)偏好,比如房產(chǎn)場景下的地理位置屬性。如何有效的對高維偏好進行挖掘,是我們要面臨的第三個問題。2

常見的偏好挖掘思路偏好的挖掘是通過用戶的歷史行為來判斷一個用戶在各種屬性的不同維度上的偏好程度,進而挖掘出用戶的潛在需求。比如,在貝殼的場景下,衡量一個用戶偏好200萬還是偏好300萬、喜歡二居室還是三居室。常見的偏好挖掘的方法可以分為統(tǒng)計和模型兩類。2.1

基于統(tǒng)計的偏好挖掘通過統(tǒng)計的方法挖掘用戶偏好的思想是基于一定的業(yè)務(wù)假設(shè)的,即用戶行為越多則偏好越重、距當(dāng)前時間越近越偏好。技術(shù)方案:用戶偏好通過用戶在不同屬性的維度上行為次數(shù)的帶衰減的線性加權(quán)求和,再進行歸一化得到。這里有兩個關(guān)鍵點:第一個關(guān)鍵點是:不同行為的權(quán)重如何衡量用戶有著多種不同的行為,例如,在購物網(wǎng)站,用戶可能發(fā)生瀏覽、收藏、加購物車、下單等行為,顯然,下單的成本要比普通的瀏覽成本要高,即在不同行為上花費的成本是存在差異的,在數(shù)據(jù)上的反映是不同行為的權(quán)重差異很大,如何定義、衡量并驗證不同行為的權(quán)重是一件并不容易的事情。我們采用的權(quán)重計算方法有:后驗轉(zhuǎn)化率的方法,轉(zhuǎn)化率的倒數(shù)作為權(quán)重;有監(jiān)督的方法,bagging+LR模型,可以將成交或者下單作為label,模型得到的特征重要性作為權(quán)重;通過貝葉斯模型計算權(quán)重。第二個關(guān)鍵點是:衰減系數(shù)的定義用戶的需求并不是持續(xù)穩(wěn)定的,會隨時間會發(fā)生變化和轉(zhuǎn)移,這種需求的變化需要被偏好捕捉到,因此,距離當(dāng)前越近的行為越能反映現(xiàn)在的需求。對于衰減形式,我們采取了指數(shù)衰減以及階躍形式衰減。指數(shù)形式用戶行為對未來偏好的影響程度,隨著時間的拉長呈指數(shù)型下降,對于t天前的行為,衰減因子為λ的t次方;階躍形式將時間人為劃分成若干不同的時間區(qū)間,同一個時間區(qū)間內(nèi)的行為的衰減因子是相同的。因此,增加了衰減系數(shù)和行為權(quán)重的偏好計算公式為:挑戰(zhàn):很難證明什么樣的行為權(quán)重是最優(yōu)的,且很難找到優(yōu)化方向;人為選定的衰減方式以及衰減因子的選取具有主觀因素,并不適用于所有的偏好;基于統(tǒng)計的偏好挖掘難以優(yōu)化。2.2

基于模型的偏好計算基于統(tǒng)計的偏好計算方法的優(yōu)點是直觀,可解釋性強,但缺點是難以優(yōu)化,因此我們考慮通過有監(jiān)督模型的方式解決偏好預(yù)估的優(yōu)化問題。技術(shù)方案:對于低維且等長的偏好,可以通過有監(jiān)督的多分類模型。利用用戶過去發(fā)生不同行為所對應(yīng)的屬性,預(yù)測未來在不同屬性上發(fā)生重行為的概率。需要解決的問題主要是歷史行為的時間窗口的劃分,這類低維、行為相對稠密、長度統(tǒng)一的偏好,可以采用有監(jiān)督模型XGBoost、DNN,以及時序模型LSTM和GRU等。然而,對于枚舉值較多的屬性的用戶偏好,例如地理位置相關(guān)的屬性,用戶在不同枚舉值上的行為稀疏,且用戶過去行為覆蓋的位置Item數(shù)目不同,導(dǎo)致召回的候選集長度不統(tǒng)一,因此使用傳統(tǒng)意義上的多分類模型很難去完成。對于這類偏好,常見的方法是embedding,通過用戶近期交互過的物品,將偏好預(yù)估視為top-n推薦,使用pair-wise訓(xùn)練策略訓(xùn)練模型,得到個性化的用戶偏好向量。雖然用embedding表征用戶偏好在推薦系統(tǒng)中取的了很好的效果,然而這種向量化的偏好表征方法不可解釋,在需要人去理解不同偏好意義的場景中具有局限性。挑戰(zhàn):高維、稀疏的偏好,很難預(yù)估;輸出需要是可解釋的。3

偏好挖掘在貝殼找房的實踐貝殼找房作為一個居住服務(wù)類的平臺,將用戶、經(jīng)紀(jì)人和房源鏈接在一起,幫助用戶找到更滿意的居住環(huán)境,幫助經(jīng)紀(jì)人更好地服務(wù)用戶,對用戶的偏好進行挖掘可以幫助平臺更好的了解用戶。偏好挖掘在貝殼找房主要有兩類的應(yīng)用場景,一方面是對業(yè)務(wù)賦能,有助于平臺算法和策略的制定,如個性化推薦、定向push等場景;另一方面是給人傳達可理解的用戶需求,比如幫助運營人員圈人群包,進行精細化運營和定向推送,或者在用戶從線上轉(zhuǎn)線下的過程中,將用戶的需求無損地傳遞給經(jīng)紀(jì)人,更快地了解用戶。3.1

基于多分類的偏好挖掘3.1.1

問題抽象問題定義:在用戶信息交互中,如果用戶對某一屬性的Item付出了較大成本,則說明用戶對Item背后的屬性有較強的偏好,基于此假設(shè),在已知用戶過去發(fā)生不同行為及行為對應(yīng)的屬性維度,將偏好預(yù)估問題定義為預(yù)測未來時間段內(nèi)發(fā)生重行為所對應(yīng)的屬性維度。樣本構(gòu)造:我們需要思考偏好的主要應(yīng)用場景,以及環(huán)境對動作的解釋能力。如果我們對線上行為的采集能力明顯高于線下環(huán)節(jié),那么我們在思考“重行為”時,就要考慮如果使用大量生命周期末端的線下行為,基于線上的特征是否可以很好的解釋。優(yōu)化目標(biāo):模型的目標(biāo)為預(yù)估用戶在不同屬性的Item上發(fā)生重行為的概率。這里我們要考慮用戶的偏好是multi-hot還是one-hot,基于這兩種形式,我們需要考慮對輸出層的構(gòu)造方法。但需要強調(diào)的是,使用one-hot并不意味著否定用戶多峰偏好的事實。離線后驗:這是一個被高頻提問的點,即偏好的質(zhì)量如何評估,自然我們可以從下游應(yīng)用的角度進行評估,但該評估方式存在實驗難、效果回收慢、影響因素多等諸多不便。從中臺角度我們更希望建立中間指標(biāo)實現(xiàn)對偏好質(zhì)量的獨立可衡量,建立小閉環(huán)。我們通過預(yù)估向量與真實行為向量的內(nèi)積或交叉熵來衡量預(yù)估的效果,內(nèi)積越大、交叉熵越小,則預(yù)估越準(zhǔn)確。如何選擇適合自己的指標(biāo)建議從下游應(yīng)用出發(fā),例如下游使用內(nèi)積的方式進行排序操作,那么內(nèi)積可能更為合適。但使用內(nèi)積的方式進行評價可能存在與模型的優(yōu)化方向不一致的問題,需要在模型評價時考慮進來。3.1.2

樹模型、DNN模型思想:通過用戶的行為,構(gòu)建一個有監(jiān)督的分類模型,預(yù)估用戶的各維度的偏好。特征工程:特征工程的原問題是什么可以反應(yīng)用戶的偏好,需要考慮兩個層面,一是,基于用戶歷史與屬性Item交互反應(yīng)用戶愿為什么屬性付出成本;二是考慮用戶當(dāng)前的業(yè)務(wù)進程,反應(yīng)了用戶的偏好是否在未來發(fā)生發(fā)幅度的遷移和改變,即用戶的偏好預(yù)估多大程度上依托歷史交互行為?;谶@兩點思考,我們將兩類信息編碼進特征中:用戶歷史與不同Item交互,例如,用戶在某個屬性上訪問次數(shù)、頻率、轉(zhuǎn)化率等;用戶的生命周期,例如,用戶當(dāng)前各類行為的帶衰減線性加權(quán),或用戶最重行為的one-hot都可以表達用戶的生命周期。優(yōu)化點:特征工程實際上是對用戶個體與用戶歷史交互序列進行了編碼,編碼的過程中引入了較多的人工先驗知識,例如人為劃分行為聚合時間的長度。3.1.3

在模型中引入用戶行為序列思想:用戶偏好是個復(fù)雜且不穩(wěn)定的問題,當(dāng)前偏好與過去的不同階段的行為量及偏好有關(guān)系,而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)很難去捕捉不同時間對當(dāng)前階段的偏好的影響,因此我們把將偏好預(yù)估問題抽象為一個多變量時間序列預(yù)測的問題,將用戶行為按照時間劃分成不同周期,根據(jù)每個周期內(nèi)的行為,預(yù)估下一周期用戶發(fā)生重行為所在的屬性維度。這樣,模型可以感知到過去偏好的變化情況,通過時序模型學(xué)習(xí)到過去對未來偏好的影響。LSTM時序模型:圖

3.1LSTM結(jié)構(gòu)及計算公式LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),可以將過去的信息與當(dāng)前的目標(biāo)之間建立連接,例如,在空氣質(zhì)量預(yù)測中,用過去每個時間點的天氣狀況、氣溫、風(fēng)速等特征,來幫助推測下一個時間點的空氣質(zhì)量。LSTM有兩個傳輸狀態(tài),一個cellstate(C_t),一個hiddenstate(h_t),其中

C_t

改變較為緩慢,作為貫穿整個cell的傳送帶,保存長期記憶,而

h_t

在每個cell內(nèi)的區(qū)別相對較大。LSTM通過“門”來決定將哪些信息保留、哪些信息刪除,forgetgate決定了上一時刻的單元狀態(tài)C_t-1

有多少保留到當(dāng)前時刻

C_t;inputgate決定了當(dāng)前時刻網(wǎng)絡(luò)的輸入

x_t有多少保存到單元狀態(tài)C_t,outputgate控制單元狀態(tài)

C_t有多少輸出到

LSTM

的當(dāng)前輸出值

h_t。其網(wǎng)絡(luò)結(jié)構(gòu)和前向計算公式如圖3.1所示。特征工程:劃定周期,將一個周期內(nèi)的行為次數(shù)與屬性Item、行為類別進行交叉聚合。周期的選擇根據(jù)下游場景的需求和業(yè)務(wù)類型,選擇不同長度的周期,對于用戶需求相對穩(wěn)定、下游場景不需要緊隨用戶當(dāng)前實時偏好的場景中,可以選擇周為周期粒度,反之,如果需要實時關(guān)注用戶當(dāng)前的偏好變化,可以以天為周期粒度。優(yōu)化點:在貝殼平臺,由于城市對用戶偏好的影響很大,所以我們加入城市作為特征,先將城市進行embedding,再將embedding后的結(jié)果與sequence特征經(jīng)過LSTM的結(jié)果進行拼接,進入全連接層。技術(shù)路線:獲取用戶每個周期內(nèi)的行為次數(shù)與屬性Item、行為類別作交叉得到的序列特征,以及城市的編碼結(jié)果或one-hot結(jié)果;序列特征經(jīng)過LSTM,得到用戶的歷史行為表達;城市特征經(jīng)過Embedding層,得到的向量作為城市屬性表達;歷史行為表達與城市屬性表達進行拼接,經(jīng)過全連接層輸出概率向量。整體的架構(gòu)如下圖:圖

3.2

基于行為序列的偏好預(yù)估架構(gòu)圖3.2

基于二分類的偏好挖掘?qū)τ贗tem數(shù)目較多的屬性,多分類的方法存在局限性,一是構(gòu)造特征時,屬性Item與行為進行交叉會導(dǎo)致特征維度爆炸;二是用戶的行為稀疏,絕大部分Item上沒有行為;三是當(dāng)類別較多時多分類模型表現(xiàn)不夠好。因此,為了在高維稀疏的偏好預(yù)估問題中取得更好的效果,我們對模型進行了進一步的優(yōu)化,將多分類問題轉(zhuǎn)化為二分類問題。3.2.1Seq4Rec模型思考:實際上,對于Item數(shù)量較多的屬性,我們只需要關(guān)注用戶對其訪問過的Item的偏好情況,我們可將問題簡化為預(yù)估用戶對其訪問過的屬性的Item的偏好情況,這樣大大縮減了問題的難度。但是每個用戶訪問過的Item不同、Item數(shù)量不一,依然無法使用多分類模型。那么,既然不能多分類,能否將多分類的問題轉(zhuǎn)化為二分類呢?沿著這個思路,我們將多分類中的不同屬性信息作為召回項加入到特征中,將后續(xù)是否在召回項上發(fā)生重行為作為目標(biāo)。這樣,序列特征作為用戶表達,召回項特征作為Item表達,這種方法我們稱其為Seq4Rec。特征工程:Seq4Rec方法的用戶序列特征不是基于時間的行為交叉聚合,而是用戶的每次交互,序列特征包含序列類型的編碼,以及行為所在的屬性Item的編碼,最后加上召回項Item的編碼。特征構(gòu)造的主要步驟如下:首先,獲取用戶交互過的屬性Item編碼以及行為類型編碼,構(gòu)造基于行為的sequence,作為用戶的表達;第二步,獲取召回集,用戶歷史訪問過的Item作為其召回集;第三步,將召回集中的每個Item作為屬性表達;最后,屬性表達與用戶表達的sequence拼接到一起。Item的Embedding:在模型訓(xùn)練過程中,為了降低維度,并且更好地表達屬性信息,需要對sequence中的Item以及召回的Item進行embedding,將高維稀疏的離散特征轉(zhuǎn)化為低維稠密的向量特征。為此將我們采取預(yù)訓(xùn)練的方式,先進行embedding,再用得到的向量對Item進行替換。對Item進行embedding的技術(shù)路線為:根據(jù)用戶在每個session中瀏覽的房源的時間順序,構(gòu)建去重的屬性Item的序列;根據(jù)曝光次數(shù),對Item編碼成字典;根據(jù)時間序列,生成樣本;skip-gram模型得到屬性的Item的embedding值。模型架構(gòu):整體的架構(gòu)流程圖如下。首先將用戶交互行為的Item編碼替換成與訓(xùn)練的embedding向量,與行為類型編碼共同形成用戶行為sequence,經(jīng)過LSTM,與召回項Item的embedding向量進行concat,進入全連接層,最終輸出0到1范圍內(nèi)的概率值。圖3.3Seq4Rec模型架構(gòu)3.2.2

優(yōu)化用戶側(cè)表達思考:在LSTM的方案中,我們將用戶歷史屬性交互序列用于用戶的編碼,取得了一定的效果提升。接下來,我們進一步探索序列的更優(yōu)表達形式。在前述版本中,用戶的行為序列被壓縮編碼到了一個定長向量中參與后續(xù)計算,是否會成為瓶頸。其次對于一個屬性枚舉而言,用戶行為序列是否等權(quán)重,等作用的影響特定屬性。最后,在匹配邏輯上,歷史訪問序列與目標(biāo)屬性的關(guān)系,應(yīng)當(dāng)被如何表達與強調(diào)。我們嘗試結(jié)合深度興趣網(wǎng)絡(luò)思路,對偏好挖掘任務(wù)進行優(yōu)化。對深度興趣網(wǎng)絡(luò)的借鑒:從思想上,深度興趣網(wǎng)絡(luò)框架提出在基于用戶序列進行用戶編碼過程中考慮目標(biāo)Item,而不是對用戶的多峰偏好進行等重表達。公式表達如下:其中U(A)為用戶表達,e_1,e_2,…,e_H為用戶序列,v_A為目標(biāo)Item。從實踐上,深度興趣網(wǎng)絡(luò)相比BaseModel增加了ActivationUnit,通過用戶序列與目標(biāo)Item的element-wiseminus以及用戶序列Item與目標(biāo)Item成對輸入FCs的方法,計算用戶Seq中每個節(jié)點相對于目標(biāo)Item的權(quán)重,內(nèi)積用戶Seq的Embedding從而實現(xiàn)目標(biāo)影響用戶編碼的目的。圖3.4深度興趣網(wǎng)絡(luò)模型用戶偏好多峰的理解:在購房場景下,滿足用戶需求的方案存在多種,以北京為例,可以購買高價地段的中戶型獲得優(yōu)質(zhì)的配套資源,也可以購買遠郊房產(chǎn)選擇大空間接父母來居住,更可以以較低價格購買小戶型、將剩余的錢留做他用。不同居住方案,產(chǎn)生了用戶的復(fù)雜偏好,當(dāng)用戶瀏覽一個內(nèi)環(huán)高單價中戶型時,對用戶的編碼應(yīng)當(dāng)更加關(guān)注歷史對相似高價地段方案產(chǎn)生的序列。而非關(guān)注其在京郊別墅方案中對容積率的要求。圖3.5

用戶不同的購房方案用戶偏好序列構(gòu)造:在偏好挖掘場景中,我們將其抽象為偏好推薦問題,因此用戶的訪問序列由用戶訪問房源的偏好組合構(gòu)成,其中組合的概念我們可以理解為多通道。圖3.6

用戶偏好序列偏好挖掘網(wǎng)絡(luò)結(jié)構(gòu):用戶對房源的訪問實際是與偏好的組合做了交互,這里我們假設(shè),用戶對小區(qū)屬性的偏好會受到其包括價格、面積等多維度偏好的影響。從另一個層面看,目標(biāo)屬性對用戶交互序列的多屬性的信息提取都會產(chǎn)生影響,而非單獨影響對應(yīng)屬性。因此注意力對用戶S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論