版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)智能推存系統(tǒng)架構(gòu)設(shè)計(jì)白鴿學(xué)膽一,題記58同城智能推薦系統(tǒng)大約誕生于2014年(C+實(shí)現(xiàn)),該套系統(tǒng)先后經(jīng)歷了招聘、房產(chǎn)、二手車、黃頁和二手物品等產(chǎn)品線的推薦業(yè)務(wù)迭代,但該系統(tǒng)耦合性高,難以適應(yīng)推薦策略的快速迭代。58同城APP猜你喜歡推薦和推送項(xiàng)目在2016年快速迭代,產(chǎn)出了一套基于微服務(wù)架構(gòu)的推薦系統(tǒng)(Java實(shí)現(xiàn)),該系統(tǒng)穩(wěn)定、高性能且耦合性低,支持推薦策略的快速迭代,大大提高了推薦業(yè)務(wù)的迭代效率。此后,我們對舊的推薦系統(tǒng)進(jìn)行了重構(gòu),將所有業(yè)務(wù)接入至新的推薦系統(tǒng),最終成功打造了統(tǒng)一的58同城智能推薦系統(tǒng)。下面我們將對58同城智能推薦系統(tǒng)展開介紹,首先會概覽整體架構(gòu),然后從算法、系統(tǒng)和
2、數(shù)據(jù)三方面做詳細(xì)介紹。整體架構(gòu)首先看一下 58同城推薦系統(tǒng)整體架構(gòu), 一共分?jǐn)?shù)據(jù)層、策略層和應(yīng)用層三層, 基于58平臺產(chǎn)生的各類業(yè)務(wù)數(shù)據(jù)和用戶積累的豐富的行為數(shù)據(jù),我們采用各類策略對數(shù)據(jù)進(jìn)行挖掘分析,最終將結(jié)果應(yīng)用于各類推薦場景。協(xié)同過謔召回蕭珞DNN策略層失器召回用戶畫像數(shù)據(jù)層琲毒模型基礎(chǔ)數(shù)據(jù)計(jì)茸帖子里像數(shù)據(jù)分析計(jì)算工具TensorflowTheanoID MICSparkKylinHiveMapReduce業(yè)者數(shù)據(jù)用戶數(shù)據(jù)帖子數(shù)據(jù)日志的據(jù)前端埋點(diǎn)后端埋點(diǎn)!據(jù)存儲Kafka:架押晚2演推薦系統(tǒng)整體架構(gòu) 一一58晴怛喜歡相關(guān)推薦捱索少無結(jié)果推薦Feed流堆在 個性優(yōu)Pum主要包括業(yè)務(wù)數(shù)據(jù)和用戶
3、行為日志數(shù)據(jù)。業(yè)務(wù)數(shù)據(jù)主要包含用戶數(shù)據(jù)和帖子數(shù)據(jù),用戶數(shù)據(jù)即58平臺上注冊用戶的基礎(chǔ)數(shù)據(jù),這里包括C端用戶和企業(yè)用戶的信息,帖子數(shù)據(jù)即用戶在58平臺上發(fā)布的帖子的基礎(chǔ)屬性數(shù)據(jù)。這里的帖子是指用戶發(fā)布的房源、車源、職位、黃頁等信息,為方便表達(dá),后文將這些信息統(tǒng)稱為帖子。用戶行為日志數(shù)據(jù)來源于在前端和后臺的埋點(diǎn),例如用戶在APP上的篩選、點(diǎn)擊、收藏、打電話、微聊等各類操作日志。1鴿學(xué)岷這些數(shù)據(jù)都存在兩種存儲方式,一種是批量存儲在 HDFS上以用作離線分析,一種是實(shí)時流向 Kafka以用作實(shí)時計(jì)算。三,策略層基于離線和實(shí)時數(shù)據(jù),首先會開展各類基礎(chǔ)數(shù)據(jù)計(jì)算,例如用戶畫像、帖子畫像和各類數(shù)據(jù)分析,在這些
4、 基礎(chǔ)數(shù)據(jù)之上便是推薦系統(tǒng)中最重要的兩個環(huán)節(jié):召回和排序。召回環(huán)節(jié)包括多種召回源的計(jì)算,例如熱 門召回、用戶興趣召回、關(guān)聯(lián)規(guī)則、協(xié)同過濾、矩陣分解和DNN等。我們采用機(jī)器學(xué)習(xí)模型來做推薦排序,先后迭代了LR、FM、GBDT、融合模型以及 DNN ,基于這些基礎(chǔ)機(jī)器學(xué)習(xí)模型,我們開展了點(diǎn)擊率、轉(zhuǎn)化率和停留時長多指標(biāo)的排序。這一層的數(shù)據(jù)處理使用了多種計(jì)算工具,例如使用 MapReduce 和Hive做離線計(jì)算,使用 Kylin做多維 數(shù)據(jù)分析,使用 Spark、DMLC做大規(guī)模分布式機(jī)器學(xué)習(xí)模型訓(xùn)練,使用 theano和tensorflow 做深度 模型訓(xùn)練。三,應(yīng)用層再往上就是應(yīng)用層,我們通過對
5、外提供rpc和http接口來實(shí)現(xiàn)推薦業(yè)務(wù)的接入。58同城的推薦應(yīng)用大多是向用戶展示一個推薦結(jié)果列表,屬于topN推薦模式,這里介紹下 58同城的幾個重要的推薦產(chǎn)品:白鴿學(xué)膽猜你喜歡:58同城最重要的推薦產(chǎn)品,推薦場景包括 APP首頁和不同品類的大類頁,目標(biāo)是讓用戶打開APP或進(jìn)入大類頁時可以快速找到他們想要的帖子信息,這主要根據(jù)用戶的個人偏好進(jìn)行推薦。詳情頁相關(guān)推薦:用戶進(jìn)入帖子詳情頁,會向用戶推薦與當(dāng)前帖子相關(guān)的帖子。該場景下 用戶意圖較明顯,會采用以當(dāng)前帖子信息為主用戶偏好信息為輔的方式進(jìn)行推薦。搜索少無結(jié)果推薦:用戶會通過品類列表頁上的篩選項(xiàng)或搜索框進(jìn)入品類列表頁獲取信息, 若當(dāng)前篩選項(xiàng)
6、或搜索條件搜索出的結(jié)果較少或者沒有結(jié)果,便會觸發(fā)推薦邏輯進(jìn)行信息推薦。此時會結(jié)合當(dāng)前搜索條件的擴(kuò)展以及用戶偏好信息進(jìn)行推薦。個性化推送(Pu sh ):在用戶打開APP前,將用戶感興趣的信息推送給他們,促使用戶 點(diǎn)擊,提高用戶活躍度。這里包含推送通知的生成和推送落地頁上帖子列表的生成兩個推薦 邏輯。值得一提的是推送是強(qiáng)制性的推薦,會對用戶形成騷擾,因此如何降低用戶騷擾并給 用戶推薦真正感興趣的信息尤為重要。Feed流推薦:我們的推薦產(chǎn)品在某些推薦場景下是以Feed流的形式展現(xiàn)的,例如 APP消息中心的今日推薦場景、推送落地頁場景。用戶可以在這些頁面中不斷下拉刷新消費(fèi)信息,類似時下火熱的各大資
7、訊Feed流推薦。推薦系統(tǒng)是一個復(fù)雜的工程,涉及算法策略、工程架構(gòu)和效果數(shù)據(jù)評估三方面的技術(shù),后文將分別從這三 方面介紹58同城推薦系統(tǒng)。四,算法推薦涉及了前端頁面到后臺算法策略間的各個流程,我們將推薦流程抽象成如下圖所示的召回、排序、規(guī)則和展示四個主要環(huán)節(jié):推薦流程讓生活58召回環(huán)節(jié)即使用各種算法邏輯從海量的帖子中篩選出用戶感興趣的帖子候選集合,一般集合大小是幾十到 上百。排序即對候選集合中的帖子進(jìn)行打分排序,這里一般會使用機(jī)器學(xué)習(xí)排序模型,排序環(huán)節(jié)會生成一個排序列表。規(guī)則環(huán)節(jié)即我們可能對排序列表采取一定的規(guī)則策略,最終生成一個包含 N條結(jié)果的列表。例如在規(guī)則環(huán)節(jié)我們可能會采取不同的去重策略
8、,如文本去重、圖片去重、混合去重等,可能會采取不同的列表打散策 略,可能會迭代產(chǎn)品經(jīng)理提出的各種規(guī)則邏輯。1鴿學(xué)岷由于推薦系統(tǒng)的最終評價(jià)是看統(tǒng)計(jì)效果,因此各種人為的規(guī)則都會影響最終結(jié)果,我們抽象出規(guī)則環(huán)節(jié)后便可以對任何邏輯做線上 ABTest,最終評價(jià)相關(guān)邏輯是否合理。生成N條推薦結(jié)果列表后,不同的前端展示方式也會影響最終的推薦效果,例如不同的UI設(shè)計(jì),采用大圖模式還是小圖模式,頁面上展示哪些字段都會影響用戶在推薦列表頁上的點(diǎn)擊,因此在推薦產(chǎn)品迭代過 程中不同的展示樣式迭代也很重要。在上述的四個環(huán)節(jié)中,召回和排序是推薦系統(tǒng)最重要的兩個環(huán)節(jié)。規(guī)則和展示樣式一般變化周期較長,而 召回和排序有很大的
9、挖掘空間,會被不斷的迭代,我們的推薦算法工作也主要是圍繞召回和排序進(jìn)行。下圖是我們推薦算法的整體框架,主要包括基礎(chǔ)數(shù)據(jù)的計(jì)算以及上層的召回策略和排序模型的迭代。,白鴿學(xué)刪推薦算法單58召回分細(xì)融合I,Lkpr-RasedCFl CFis藝兼現(xiàn)到DNNSVDAB Test排序1點(diǎn)擊帆估卜轉(zhuǎn)陸率竭停酊時場麓怯I:筒單床件 蛔儂 修合授型 尊惶里GRDT+FM DNM LIGBDT-tLft*r-nnpi月行為日志站了苴河|信化月五礎(chǔ)信司哥勾師小秘圈SWCF山回樣本生成特征1程 樽電附介H;I I I基礎(chǔ)數(shù)據(jù)計(jì)算主要包括用戶標(biāo)簽和帖子標(biāo)簽的挖掘,這部分工作由用戶畫像、搜索和推薦多個團(tuán)隊(duì)共同完成,最終
10、各團(tuán)隊(duì)共享數(shù)據(jù)?;谟脩糇詴r填寫的基礎(chǔ)屬性信息和用戶行為日志,可以挖掘出用戶人口屬性和興趣偏好信息,如用戶的年齡、性別、學(xué)歷、收入等基礎(chǔ)屬性,用戶感興趣的地域商圈、 二手房均價(jià)、 廳室、裝修程度等偏好信息。帖子標(biāo)簽挖掘包括提取帖子的固定屬性、挖掘衍生屬性以及計(jì)算動態(tài)屬性。固定屬性直接從帖子數(shù)據(jù)庫提取即可,如分類、地域、標(biāo)題、正文、圖片、房源價(jià)格、廳室、小區(qū)等。我們還會基于貼子信息是否完備、價(jià)格是否合理、圖片質(zhì)量好壞、發(fā)帖人質(zhì)量等多個維度來計(jì)算帖子質(zhì)量分?;谟脩粜袨槿罩緮?shù)據(jù)可以計(jì)算帖子的PV、UV、點(diǎn)擊率、轉(zhuǎn)化率、停留時長等動態(tài)屬性。這些數(shù)據(jù)最終會在召回環(huán)節(jié)和排序環(huán)節(jié)使用,例如基于用戶標(biāo)簽和
11、帖子標(biāo)簽可以進(jìn)行興趣召回,將用戶標(biāo)1鴿學(xué)岷簽和帖子標(biāo)簽作為特征迭代機(jī)器學(xué)習(xí)模型。召回主要負(fù)責(zé)生成推薦的候選集,我們采用多種召回源融合的方式來完成該過程。我們先后迭代了如下各類召回策略:熱門召回。基于曝光和點(diǎn)擊日志,我們會計(jì)算不同粒度的熱門數(shù)據(jù)。以二手車業(yè)務(wù)線為例,從粗粒度到細(xì)粒度的數(shù)據(jù)包括:城市下的熱門商圈、商圈下的熱門車系和品牌、特定車系和品牌下的熱門車源等。每一個車源的熱度我們通過最近一段時間內(nèi)帖子的PV、UV、CTR等指標(biāo)來衡量,這里的CTR會通過貝葉斯和COEC做平滑處理。熱門召回策略會在冷啟動時被大量采用。地域召回。58同城是向用戶提供本地生活服務(wù)類信息,用戶的每次訪問都會帶上地域信
12、息,如選擇的城市、定位的地點(diǎn)等。我們主要結(jié)合地域信息和熱門數(shù)據(jù)做召回,如附近最新或最熱帖子召回、城市熱門帖子召回等。興趣召回?;谔踊A(chǔ)屬性字段和帖子標(biāo)簽信息,我們構(gòu)建了一套帖子檢索系統(tǒng),通過該系統(tǒng)能夠以標(biāo)簽或?qū)傩宰侄螜z索出最新發(fā)布的帖子。在用戶畫像中,我們計(jì)算了每個用戶的興趣標(biāo)簽,因此基于用戶興趣標(biāo)簽便能在檢索系統(tǒng)中檢索出一批帖子,這可以作為一種召回源。 此外,在帖子詳情頁相關(guān)推薦場景中,我們也可以利用當(dāng)前帖子的屬性和標(biāo)簽信息去檢索系統(tǒng)中檢索出相關(guān)帖子作為召回?cái)?shù)據(jù)源。這兩種檢索召回其實(shí)就是我們常說的基于內(nèi)容的推薦。關(guān)聯(lián)規(guī)則。這里并非直接采用傳統(tǒng)Apriori、FP-growth 關(guān)聯(lián)規(guī)則算
13、法,而是參考關(guān)聯(lián)規(guī)則思想,將最近段時間中每個用戶點(diǎn)擊所有物品當(dāng)做一次事務(wù),由此計(jì)算兩兩物品之間的支持度,并在支持度中融入時1鴿學(xué)岷間衰減因子,最終可以得到每個物品的 topK個關(guān)聯(lián)性強(qiáng)的物品。這種召回方式其實(shí)類似協(xié)同過濾中的item相似度矩陣計(jì)算,我們主要將其應(yīng)用在詳情頁相關(guān)推薦中。協(xié)同過濾。我們使用 Spark實(shí)現(xiàn)了基于User和基于Item的批量協(xié)同過濾計(jì)算,由于數(shù)據(jù)量大,批量計(jì)算會較消耗時間,我們又實(shí)現(xiàn)了基于Item的實(shí)時協(xié)同過濾算法。通常情況下我們會直接將用戶的推薦結(jié)果列表作為一種召回源,而在詳情頁相關(guān)推薦場景,我們還會使用協(xié)同過濾計(jì)算出的Item相似度矩陣,將帖子最相似的topK個帖
14、子也作為一種召回源。矩陣分解。我們引入了SVD算法,將用戶對帖子的點(diǎn)擊、收藏、分享、微聊和電話等行為操作看作用戶對帖子進(jìn)行不同檔次的評分,從而構(gòu)建評分矩陣數(shù)據(jù)集來做推薦。DNN召回。Google在YouTube視頻推薦上使用了 DNN來做召回,我們也正在進(jìn)行相關(guān)嘗試, 通過DNN來學(xué)習(xí)用戶向量和帖子向量,并計(jì)算用戶最相近的topK個帖子做為召回源。上述不同的召回算法都產(chǎn)生出了一部分推薦候選數(shù)據(jù),我們需要將不同的召回?cái)?shù)據(jù)融合起來以提高候選集的多樣性和覆蓋率,這里我們主要使用兩種召回融合策略:分級融合。設(shè)置一個候選集目標(biāo)數(shù)量值,然后按照效果好壞的次序選擇候選物品,直至滿足候選集大小。假設(shè)召回算法效
15、果好壞的順序是A、B、C、D,則優(yōu)先從A中取數(shù)據(jù),不足候選集目標(biāo)數(shù)量時則從B中取數(shù)據(jù),依次類推。我們的系統(tǒng)支持分級融合策略的配置化,不同召回算法的先后順序可以靈活配置。這里的效果好壞順序是根據(jù)離線評價(jià)和線上評價(jià)來決定的,例如離線我們會比較不同召回算法的召回率和準(zhǔn)確 率,線上我們會比較最終點(diǎn)擊或轉(zhuǎn)化數(shù)據(jù)中不同召回算法的覆蓋率。103鴿學(xué)岷調(diào)制融合。按照不同的比例分別從不同召回算法中取數(shù)據(jù),然后疊加產(chǎn)生最終總的候選集。我們的系統(tǒng)也支持調(diào)制融合策略的配置化,選擇哪些召回算法、每種召回算法的選擇比例均可以靈活配置。這里的比例 主要根據(jù)最終線上點(diǎn)擊或轉(zhuǎn)化數(shù)據(jù)中不同召回算法的覆蓋率來設(shè)置。召回環(huán)節(jié)新召回源
16、的添加或者新融合策略的上線,例如開發(fā)了一種新召回算法、需要修改調(diào)制融合策略中的配比等,我們都會做線上ABTest ,最終通過比較不同策略的效果來指導(dǎo)我們的迭代。值得一提的是,召回環(huán)節(jié)我們還會有一些過濾規(guī)則,例如過濾低質(zhì)量帖子、在某些特定場景下對召回算法產(chǎn)生的結(jié)果加一些條件限制等。排序環(huán)節(jié)我們主要采用 Pointwise方法,為每個帖子打分并進(jìn)行排序,通過使用機(jī)器學(xué)習(xí)模型預(yù)估帖子的點(diǎn)擊率、轉(zhuǎn)化率和停留時長等多指標(biāo)來做排序。早期我們主要優(yōu)化點(diǎn)擊率,目前我們不僅關(guān)注點(diǎn)擊率外還會注重轉(zhuǎn)化率的提高。在 58同城的產(chǎn)品場景中,轉(zhuǎn)化主要指用戶在帖子詳情頁上的微聊、打電話操作。排序離線流程主要包括樣本生成和選
17、擇、特征抽取、模型訓(xùn)練和評價(jià)。首先對埋點(diǎn)日志中的曝光、點(diǎn)擊、轉(zhuǎn)化和停留時長等數(shù)據(jù)做抽取解析,如基于曝光序列號關(guān)聯(lián)各類操作、解析埋點(diǎn)參數(shù)(例如日志中記錄的實(shí)時特征)、解析上下文特征等,并同時打上 label ,生成模型樣本。然后對樣本進(jìn)行過濾,例如過濾惡意用戶樣本、過濾無效曝光樣本等。然后對樣本做特征抽取,生成帶特征的樣本,我們主要從用戶、帖子、發(fā)帖人和上下文四個維度做特征工程。之后,按照一定正負(fù)樣本比例做采樣,最終進(jìn)行模型訓(xùn)練和評估,離線評估指標(biāo)主要參考AUG,離線效果有提升后會進(jìn)行 ABTest上線,逐步迭代。我們先后迭代上線了如下排序策略:11白鴿學(xué)膽規(guī)則序。早期未上線機(jī)器學(xué)習(xí)模型時,對候
18、選集中的帖子會直接使用刷新時間、統(tǒng)計(jì)CTR或者一些產(chǎn)品規(guī)則來做排序。單機(jī)器學(xué)習(xí)模型。我們最早實(shí)踐的是LR模型,它是線性模型,簡單高效、可解釋性好,但對特征工程要求較高,需要我們自己做特征組合來增強(qiáng)模型的非線性表達(dá)能力,早期我們使用LibLinear來訓(xùn)練模型,后來遷移到了 Spark上。之后我們引入了 XGBoost樹模型,它非線性表達(dá)能力強(qiáng)、高效穩(wěn)定,是目前開源社區(qū)里最火熱的模型之一,最初我們采用單機(jī)版本訓(xùn)練,后期將 XGBoost部署在我們的yarn集群上, 使用分布式版本進(jìn)行訓(xùn)練。同時,我們應(yīng)用了FM模型,相比于LR模型它引進(jìn)了特征組合,能夠解決大規(guī)模稀疏數(shù)據(jù)下的特征組合問題,我們主要使
19、用分布式FM ( DiFacto , FM on Yarn )來進(jìn)行模型訓(xùn)練。上述這些模型都是批量更新,通常是一天更新一次,為了快速捕捉用戶行為的變化,我們還引入OnlineLearning模型,主要嘗試應(yīng)用 FTRL方式去更新LR模型,在某些場景下獲得了穩(wěn)定的效果提升。融合模型。類似 Facebook、Kaggle的做法,我們實(shí)踐了 GBDT+LR和GBDT+FM 的模型融合方案。首 先利用XGBoost對原始特征做處理生成高階特征, 然后輸入到LR和FM模型中,目前我們的點(diǎn)擊率預(yù)估 模型中效果最佳的是 GBDT+LR融合模型,轉(zhuǎn)化率預(yù)估模型中效果最佳的是 GBDT+FM 融合模型。此外,
20、我們還會嘗試將某個單指標(biāo)(如點(diǎn)擊率)下多個模型的預(yù)測結(jié)果進(jìn)行融合(如相加或相乘等),也會將多個指標(biāo)(點(diǎn)擊率、轉(zhuǎn)化率和停留時長)的模型進(jìn)行融合(如相乘)以觀察效果。深度模型。深度學(xué)習(xí)正逐漸被各大公司應(yīng)用于推薦系統(tǒng)中,我們也正在進(jìn)行嘗試。目前,我們已將FNN(Factorisation machine supported neuralnetwork)模型應(yīng)用在我們的推薦排序中,相比單機(jī)器學(xué)習(xí)模型,F(xiàn)NN有較穩(wěn)定的效果提升,但比融合模型效果要稍差,目前我們正在進(jìn)行深度模型的調(diào)優(yōu),并在嘗試引入Wide&Deep 等其他深度模型?;谏鲜龌A(chǔ)機(jī)器學(xué)習(xí)工具,目前我們主要會迭代點(diǎn)擊率、轉(zhuǎn)化率和停留時長預(yù)估模
21、型,線上會ABTest上線單指標(biāo)模型、多指標(biāo)融合模型,以提高推薦效果。12白鴿學(xué)咆五,架構(gòu)對于推薦系統(tǒng)來說,一套支撐算法策略高效迭代的推薦后臺系統(tǒng)至關(guān)重要,我們基于微服務(wù)架構(gòu)設(shè)計(jì)了推薦后臺系統(tǒng),它擴(kuò)展性好、性能高,系統(tǒng)架構(gòu)如下圖所示,系統(tǒng)分為數(shù)據(jù)層、邏輯層和接入層,數(shù)據(jù)層提供各類基礎(chǔ)數(shù)據(jù)的讀取,邏輯層實(shí)現(xiàn)召回和排序策略并支持不同策略的ABTest ,接入層對外提供了通用的訪問接口。推薦系統(tǒng)后臺架構(gòu)業(yè)務(wù)方接入層ABTest中心(H展示服務(wù)推薦主體服務(wù)O介數(shù)據(jù)層召回服務(wù)排序服務(wù)檢索服務(wù)容回源燧取帖子特征中心用戶特征中心索耳文件 召回源1召同源/召RI源Item Profile.,人仃叫的向J L
22、II IL JBI 二里謝剛數(shù)據(jù)層提供推薦邏輯所需要的各類數(shù)據(jù),這些數(shù)據(jù)存儲在WRedis、文件、WTable等多種設(shè)備上,我們將所有數(shù)據(jù)的讀取都封裝成RPC服務(wù),屏蔽了底層的存儲細(xì)節(jié)。這里包括檢索服務(wù)、召回源讀取服務(wù)、帖子特征中心和用戶特征中心:13白鴿學(xué)膽檢索服務(wù)。我們搭建了一套搜索引擎用做召回檢索,支持基于各類搜索條件去檢索數(shù)據(jù),例如可以檢索出價(jià)格在200萬至300萬之間的回龍觀兩室的房源、檢索出中關(guān)村附近的最新房源。該服務(wù)主要應(yīng)用于這幾類場景:在猜你喜歡推薦場景中基于用戶標(biāo)簽去檢索帖子、在相關(guān)推薦場景中基于當(dāng)前帖子屬性去檢索相關(guān)帖子、冷啟動時基于地域信息召回附近的帖子等。召回源讀取服務(wù)
23、。提供各類召回源數(shù)據(jù)的讀取,這些召回源數(shù)據(jù)通過離線或?qū)崟r計(jì)算得到,包括熱門數(shù)據(jù)、協(xié)同過濾數(shù)據(jù)、關(guān)聯(lián)規(guī)則數(shù)據(jù)、矩陣分解結(jié)果等。該服務(wù)設(shè)計(jì)得較靈活,支持任意召回源的增加。帖子特征中心。提供帖子所有屬性字段的讀取,在召回、排序和推薦主體邏輯中會使用到這些帖子屬性,一般情況我們會在召回環(huán)節(jié)讀取出所有帖子屬性,然后應(yīng)用于排序和規(guī)則邏輯中。召回得到的候選集大小一般是幾十到幾百,為了支持高性能的批量讀取,我們選擇使用WRedis集群存儲帖子屬性,并通過多線程并發(fā)讀取、緩存、JVM調(diào)優(yōu)等多項(xiàng)技術(shù)保證服務(wù)性能。目前,該服務(wù)每天承接數(shù)億級請求,平均每次讀取150條數(shù)據(jù),耗時保證在 2ms之內(nèi)。用戶特征中心。Use
24、rProfile數(shù)據(jù)包括用戶離線/實(shí)時興趣標(biāo)簽、人口屬性等,該數(shù)據(jù)會在召回環(huán)節(jié)使用,例如使用用戶興趣標(biāo)簽去檢索帖子作為一種召回源,也會在排序環(huán)節(jié)使用,例如將用戶標(biāo)簽作為機(jī)器學(xué)習(xí)排序模型的特征。邏輯層實(shí)現(xiàn)了詳細(xì)的推薦策略,包括推薦主體服務(wù)、召回服務(wù)、排序服務(wù)和ABTest實(shí)驗(yàn)中心。這些服務(wù)由不同的開發(fā)人員維護(hù),保證了推薦策略的高效迭代,例如召回和排序是我們經(jīng)常迭代的環(huán)節(jié),由不同的算法人員來完成,召回服務(wù)和排序服務(wù)的分離降低了耦合,提高了迭代效率。推薦主體服務(wù)。接收推薦請求,解析推薦場景參數(shù),調(diào)用用戶特征中心獲取用戶信息,請求ABTest實(shí)驗(yàn)中心獲取對應(yīng)場景的 ABTest實(shí)驗(yàn)參數(shù),如召回策略號、排序算法號、規(guī)則號和展示號。然后將推薦場景參數(shù)、ABTest實(shí)驗(yàn)參數(shù)等發(fā)送至召回服務(wù)獲得候選集列表,之后再調(diào)用排序服務(wù)對候選集進(jìn)行排序,最 終對排序列表做相關(guān)規(guī)則處理,將結(jié)果列表封裝返回。14白鴿學(xué)膽召回服務(wù)。接收場景參數(shù)和召回策略號參數(shù),調(diào)用檢索服務(wù)和召回源讀取服務(wù)讀取各類召回?cái)?shù)據(jù),并進(jìn)行 分級融合或調(diào)制融
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技進(jìn)步與項(xiàng)目優(yōu)化
- 專利使用權(quán)及收益分配合同版B版
- 2025年度運(yùn)動健身器材試用買賣服務(wù)合同4篇
- 二零二五年度大數(shù)據(jù)中心建設(shè)不可撤銷數(shù)據(jù)安全保密合同3篇
- 2025年度產(chǎn)學(xué)研產(chǎn)學(xué)研合作企業(yè)社會責(zé)任合作協(xié)議:社會責(zé)任履行與產(chǎn)業(yè)和諧發(fā)展3篇
- 2025年度文化用品場買賣合同規(guī)范文本4篇
- 二零二五年度獵頭服務(wù)與人才效能提升合作協(xié)議3篇
- 2024藥店門店店長聘用合同范本3篇
- 二零二五年度車輛租賃與車輛租賃行業(yè)規(guī)范制定協(xié)議3篇
- 專用消防設(shè)備增補(bǔ)協(xié)議規(guī)范文本版B版
- 2023事業(yè)單位筆試《公共基礎(chǔ)知識》備考題庫(含答案)
- 《水下拋石基床振動夯實(shí)及整平施工規(guī)程》
- 化學(xué)-廣東省廣州市2024-2025學(xué)年高一上學(xué)期期末檢測卷(一)試題和答案
- 2025四川中煙招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年云南大理州工業(yè)投資(集團(tuán))限公司招聘31人管理單位筆試遴選500模擬題附帶答案詳解
- 風(fēng)電危險(xiǎn)源辨識及控制措施
- 《教師職業(yè)道德與政策法規(guī)》課程教學(xué)大綱
- EHS工程師招聘筆試題與參考答案(某大型央企)2024年
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 兒童傳染病預(yù)防課件
- 護(hù)理組長年底述職報(bào)告
評論
0/150
提交評論