騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)_第1頁(yè)
騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)_第2頁(yè)
騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)_第3頁(yè)
騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)_第4頁(yè)
騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、騰訊個(gè)性化精準(zhǔn)推薦平臺(tái)技術(shù)創(chuàng)新,引領(lǐng)未來推薦業(yè)務(wù)介紹精準(zhǔn)推薦架構(gòu)的演進(jìn)推薦引擎設(shè)計(jì)與實(shí)現(xiàn)總結(jié)與未來展望目錄推薦業(yè)務(wù)介紹推薦業(yè)務(wù)介紹 預(yù)測(cè)未來 預(yù)測(cè)每個(gè)人的未來 實(shí)時(shí)預(yù)測(cè)每個(gè)人的未來核心技術(shù)挑戰(zhàn):如何在100ms的時(shí)間內(nèi), 面對(duì)8億活躍用戶中的任意一人,預(yù)測(cè)其在未來下一秒內(nèi), 最可能點(diǎn)擊10,000個(gè)廣告主提供的250,000個(gè)廣告中的哪一個(gè)?難點(diǎn):1、從1萬個(gè)廣告主、25萬個(gè)廣告中挑出最合適的一個(gè)。最合適?2、8億活躍用戶, 每個(gè)人的結(jié)果都是個(gè)性化的。為什么?3、100ms內(nèi)完成,移動(dòng)端50ms4、效果廣告-廣點(diǎn)通每天即執(zhí)行120億次實(shí)時(shí)預(yù)測(cè)請(qǐng)求僅為了這120億次預(yù)測(cè):1、每天僅實(shí)時(shí)點(diǎn)擊預(yù)估算

2、法預(yù)測(cè)的廣告數(shù)即超過12000億個(gè)2、每天實(shí)時(shí)接入2PB 、50000億條數(shù)據(jù)3、每天流式計(jì)算的事件數(shù)超過36000億次4、每天實(shí)時(shí)數(shù)據(jù)存儲(chǔ)層訪問超過5000億次我們所做的核心特征:離線文件傳輸批量暴力計(jì)算實(shí)時(shí)匹配查詢存在的問題:數(shù)據(jù)時(shí)延高人群聚類粗?jǐn)U展性差廣告投放系統(tǒng)文件傳輸實(shí)時(shí)查詢引擎分布式計(jì)算平臺(tái) 算法模型+用戶畫像精準(zhǔn)推薦第一代架構(gòu)廣告投放系統(tǒng)實(shí)時(shí)接入 HINA分布式計(jì)算平臺(tái) 算法模型+用戶畫像流式計(jì)算 S4分布式cache HOLD推薦引擎 TREV1特征:實(shí)時(shí)數(shù)據(jù)傳輸在線實(shí)時(shí)計(jì)算優(yōu)點(diǎn):秒級(jí)延遲低耦合易擴(kuò)展精準(zhǔn)推薦第二代架構(gòu)TDBank實(shí) 時(shí) 采 集TDProcess 流式計(jì)算TDE

3、ngine 實(shí)時(shí)存儲(chǔ)引擎Spark 實(shí)時(shí)建模平臺(tái)Mariana 深度學(xué)習(xí)平臺(tái)TDW業(yè)務(wù)側(cè)廣告投放系統(tǒng)TREV2實(shí)時(shí)推薦精準(zhǔn)推薦第三代架構(gòu)用戶畫像用戶 畫像自然屬性 年齡、性別、 學(xué)歷等社會(huì)屬性 職業(yè)、人生 狀態(tài)等社交屬性 QQ, Qzone,微 信.廣告興趣廣告點(diǎn)擊.內(nèi)容興趣 騰訊網(wǎng)、視 頻、音樂、 公眾號(hào).設(shè)備屬性手機(jī)品牌、app偏好.用戶群體QQ月活8.5EQQ智能終端月活6.42E微信和WeChat月活6.97EQQ空間活躍6.4EQQ空間智能終端月活5.73E用戶畫像用戶基礎(chǔ)屬性行為興趣屬性核心需求海量數(shù)據(jù)接入秒級(jí)接入延時(shí)低成本、高效率、 強(qiáng)安全方便數(shù)據(jù)管理和使用主要難點(diǎn)數(shù)據(jù)總量巨大數(shù)

4、據(jù)源種類繁多數(shù)據(jù)格式各異數(shù)據(jù)分布IDC眾多特色功能配置驅(qū)動(dòng)多種數(shù)據(jù)源適配平衡讀寫支持多種序列化協(xié) 議Hippo支持事務(wù)TDBank實(shí)時(shí)接入業(yè)務(wù)數(shù)據(jù)源消息文件DB其他Agent(binlog解析/打包/壓縮)數(shù)據(jù)接入中心Bus(協(xié)議解析/解壓/濾重)數(shù)據(jù)存儲(chǔ)中心Tube/Hippo(消息訂閱/推 送)TRCTDW數(shù)據(jù)分揀中心Sort(協(xié)議轉(zhuǎn)換/分揀)HDFSHBaseMySQL數(shù)據(jù)存儲(chǔ)層TDBank業(yè)務(wù)管理系統(tǒng)元數(shù)據(jù)管理 業(yè)務(wù)配置 權(quán)限管理 運(yùn)營(yíng)操作TDProcess流式處理用戶基礎(chǔ)屬性 行為屬性 興趣標(biāo)簽 關(guān)系鏈項(xiàng)目廣告位 廣告廣告類目所屬行業(yè) 素材特征上下文地理位 置時(shí)間天氣 節(jié)假日千萬級(jí)特

5、征向量 千億級(jí)向量空間預(yù)測(cè)用戶A最可能點(diǎn)擊廣告,如何準(zhǔn)備好預(yù)測(cè)相關(guān)數(shù)據(jù)?對(duì)每個(gè)廣告,實(shí)時(shí)計(jì)算“用戶*廣告*時(shí)間”多個(gè)不同維度組合的指標(biāo)反饋特征點(diǎn)擊 曝光 瀏覽 轉(zhuǎn)發(fā) 點(diǎn)贊滑動(dòng)時(shí)間窗1分鐘1小時(shí)1天7天1個(gè)月交叉維度的動(dòng)態(tài) 反饋特征 廣點(diǎn)通120億請(qǐng)求對(duì)應(yīng)的每1條曝光日志, 平均計(jì)算50多種交叉特征 僅廣點(diǎn)通業(yè)務(wù)每天實(shí)時(shí)計(jì)算量超過6000億次 整個(gè)集群的計(jì)算量超過36000億次 秒級(jí)滑動(dòng)時(shí)間窗,每一秒的數(shù)據(jù)都在變化TDProcess流式處理核心需求基于消息的流式處理分布式(方便線性擴(kuò)展,應(yīng)對(duì)數(shù)據(jù)的爆炸式增 長(zhǎng)計(jì)算)實(shí)時(shí)(數(shù)據(jù)消費(fèi)計(jì)算延時(shí) 毫秒級(jí))難點(diǎn)挑戰(zhàn)高度容錯(cuò)(分布式系統(tǒng), 宕機(jī)是常態(tài))任務(wù)間

6、資源隔離(多任 務(wù)并發(fā)不相互影響)基于資源消耗自動(dòng)擴(kuò)容/ 縮容業(yè)界無成熟方案特色功能服務(wù)級(jí)功能抽象統(tǒng)一的資源管理多種編程接口 核心需求高并發(fā),低延遲高可用性,數(shù)據(jù)安全關(guān)注成本,關(guān)注資源利用率線性擴(kuò)展DataNode A數(shù)據(jù)塊Bucket1Bucket 2DataNode C數(shù)據(jù)塊Bucket1Bucket 3DataNode BBucket 2數(shù)據(jù)塊Bucket 4DataNode D數(shù)據(jù)塊Bucket 4Bucket 3數(shù)據(jù)遷移數(shù)據(jù)遷移分布式集群管理擴(kuò)容管理心跳狀態(tài)上報(bào)數(shù)據(jù)復(fù)制Keeper狀態(tài)管理DataNode1DataNode2DataNodeN路由管理MS1AC2BA3CD4BD.10

7、24.Client下發(fā)路由Write bucket1Read bucket1特色功能支持多副本數(shù)據(jù)備份,確保數(shù)據(jù)安全主備機(jī)同時(shí)提供服務(wù),提升集群資源利用率集群高可用,容災(zāi)切換過程中仍然提供讀寫服務(wù)全內(nèi)存設(shè)計(jì),多引擎支持每天支撐5000億數(shù)據(jù)訪問請(qǐng)求TDEngine存儲(chǔ)引擎效果廣告推薦的核心技術(shù)挑戰(zhàn):如何在100ms的時(shí)間內(nèi), 面對(duì)8億活躍用戶中的任意一人,預(yù)測(cè)其在 未來下一秒內(nèi),最可能點(diǎn)擊10,000個(gè)廣告主提供的250,000個(gè)廣告中 的哪一個(gè)?“8億用戶25萬實(shí)時(shí)變化廣告”的相關(guān)度計(jì)算非常復(fù)雜100ms內(nèi)完成,移動(dòng)端50ms廣點(diǎn)通每天執(zhí)行120億次這樣的預(yù)測(cè)TRE推薦引擎挑戰(zhàn)效果廣告的在線

8、業(yè)務(wù)流程廣告粗選定向條件25w-1w廣告精選1w-100廣告預(yù)測(cè)100廣告點(diǎn)擊預(yù)估廣告排序排序策略投放策略廣告廣告主數(shù)據(jù)用戶畫像 關(guān)系鏈數(shù)據(jù)動(dòng)態(tài)反饋特征數(shù) 據(jù)pctr前端投放頁(yè)面用戶標(biāo)識(shí)(QQ等),場(chǎng)景(廣告位)獲取用戶畫像信息,場(chǎng)景信息廣告檢索:檢索該用戶,該場(chǎng)景下可投廣告 列表廣告索引廣告主投放廣告,設(shè) 定廣告定向條件。涉 及年齡,性別,地 域,投放金額等25w廣告信息,粗CTR等信息每15分鐘內(nèi)被索引實(shí)時(shí)更新上下架廣告對(duì)廣告分類 分桶處理保證每類廣告召回打分公式計(jì)算廣告總分根據(jù)廣告分值取TOP100個(gè)廣告多樣性控制:廣告類目多樣性 等,控制同一類 廣告出現(xiàn)次數(shù)等新鮮度控制:對(duì) 該用戶一天

9、內(nèi)展 示過幾次的不再 展示轉(zhuǎn)化率預(yù)估:競(jìng)價(jià)排名等廣告預(yù)估:針對(duì)每個(gè) 廣告單獨(dú)計(jì)算用戶-廣 告點(diǎn)擊概率實(shí)時(shí)更新用 戶點(diǎn)擊反饋 數(shù)據(jù)實(shí)時(shí)更新用戶行為數(shù)據(jù)用戶畫像基礎(chǔ)數(shù)據(jù)源廣告訂單基 礎(chǔ)數(shù)據(jù)模型數(shù)據(jù)15 分鐘一致性 更新篩選出符合廣告主定向 條件可投的10000個(gè)訂 單廣告初選:盡可能滿足多種條件的100個(gè)廣告20s內(nèi)將100M模型 更新到整個(gè) 集群6000億/天更量實(shí)時(shí)點(diǎn)擊反饋:一 筆請(qǐng)求經(jīng)過704次查 詢和計(jì)算邏輯回歸:10次與 廣告無關(guān)緯度 +100廣告 * 10與廣告相關(guān)緯度用戶對(duì)100個(gè)廣告, 每個(gè)廣告可能的點(diǎn) 擊率廣告重排:預(yù)估后的 廣告進(jìn)行多樣性, 新鮮度控制等最終投放TOP1-5的廣

10、告所有這一切在100ms內(nèi)完成, 支持每天120億次廣告推薦27歲 男 廣東 本科 .0.339%0.352%0.288%點(diǎn)擊率深度神經(jīng)網(wǎng)絡(luò):一 筆請(qǐng)求查詢3000+ 特征及廣告數(shù)據(jù)業(yè)務(wù)邏輯復(fù)雜每次請(qǐng)求,經(jīng)過實(shí)時(shí)檢索,初選,精選,重排等多個(gè)業(yè)務(wù)流程 分布式任務(wù)管理,調(diào)度每次請(qǐng)求,對(duì)100個(gè)廣告進(jìn)行精確預(yù)測(cè)、排序 預(yù)測(cè)每個(gè)廣告點(diǎn)擊率,需要訪問30多種數(shù)據(jù) 每秒9億次數(shù)據(jù)訪問量每個(gè)請(qǐng)求100ms返回 移動(dòng)端要求50ms業(yè)務(wù)流量大每天為8億用戶執(zhí)行預(yù)測(cè)120億次預(yù)測(cè),峰值每秒30萬次每天執(zhí)行12000億“用戶廣告”相關(guān)度預(yù)測(cè)(精排序),峰值每秒3000萬次算法管理在線和實(shí)驗(yàn)算法100多個(gè),15分鐘模

11、型數(shù)據(jù)迭代更新一次,每天更新9600多次集群管理上千臺(tái)在線計(jì)算服務(wù)器的管理TRE推薦引擎難點(diǎn)TRE一代架構(gòu)核心需求海量+實(shí)時(shí):廣告計(jì)算復(fù)雜響應(yīng) 時(shí)耗要求高大規(guī)模分布式系統(tǒng)流量、算法和 數(shù)據(jù)管理主要痛點(diǎn)擴(kuò)展難:業(yè)務(wù)定制化,分支版本 眾多,管理困難;數(shù)據(jù)層層傳遞, 下游變更,所有上游計(jì)算層都跟 著變;質(zhì)量監(jiān)控依賴外部系統(tǒng)join,成本很高靜態(tài)路由,關(guān)聯(lián)系統(tǒng)各自為政: 路由事先靜態(tài)生成,無法動(dòng)態(tài)變 化;系統(tǒng)模塊增加,但相互獨(dú)立;配置繁多,依賴性配置人工出錯(cuò) 頻繁 可運(yùn)營(yíng)性差:加載算法狀態(tài),緩 存狀態(tài)不透明;更新算法子系統(tǒng) 配置需重啟,集群無法動(dòng)態(tài)擴(kuò)縮 容。應(yīng)用客戶端推薦邏輯推薦數(shù)據(jù)ClientAcc

12、ess SvrCompute SvrCompute SvrTask SvrTask Svr數(shù)據(jù)服務(wù)L2 cacheScoringPCTRRTearasknkSivnrgTRE二代架構(gòu)主要優(yōu)點(diǎn)易擴(kuò)展:通過中心節(jié)點(diǎn) Router進(jìn)行不同的業(yè)務(wù)流 程控制,數(shù)據(jù)管理,多模 塊日志join 動(dòng)態(tài)智能路由:集群管理 中心提供動(dòng)態(tài)路由,關(guān)聯(lián) 系統(tǒng)根據(jù)同一份路由數(shù)據(jù) 進(jìn)行數(shù)據(jù)和請(qǐng)求的聯(lián)動(dòng)變 更集群透明:集群管理中心收集節(jié)點(diǎn)元數(shù)據(jù),包括配 置,算法,節(jié)點(diǎn)狀態(tài)等, 前臺(tái)可展示,運(yùn)維監(jiān)控更 方便TRE算法管理核心需求針對(duì)不同流量建模支持100+在線,實(shí)驗(yàn)算 法效果調(diào)優(yōu),頻繁更新, 上下架支持多種業(yè)務(wù)流程特色功能插件

13、式管理支持動(dòng)態(tài)上下架算法作為系統(tǒng)調(diào)度的路由 依據(jù)接口解耦,狀態(tài)機(jī)分離配置驅(qū)動(dòng)流程調(diào)度ZooKeeper集群快照Static SnapshotDynamic Snapshot機(jī)器節(jié)點(diǎn)1算法A RouterStage ManagerRoute Manager算法B機(jī)器節(jié)點(diǎn)N算法J 算法K機(jī)器節(jié)點(diǎn)2算法C 算法DTRE實(shí)時(shí)數(shù)據(jù)更新核心需求保證算法模型一致性支持100+在線實(shí)驗(yàn)算法模 型數(shù)據(jù)推送每15分鐘粒度定期推送到線上幾百臺(tái)服務(wù)器保證關(guān)鍵性數(shù)據(jù)查詢命中特色功能文件Pipeline任務(wù)調(diào)度100MB文件,10S內(nèi)發(fā)送 到集群所有集群上實(shí)時(shí)流數(shù)據(jù)毫秒級(jí)更新到server緩存數(shù)據(jù)快照,支持計(jì)算節(jié)點(diǎn) 快速

14、恢復(fù)ZooKeeper集群快照Static SnapshotDynamic SnapshotFileSchedulerRTScheduler路由管理文件管理路由管理數(shù)據(jù)快照PushServerIP1Set1SetN推送路由IP1IP2共享內(nèi)存L2緩存AlgAAlgBAlgCSet1共享內(nèi)存L2緩存AlgAAlgBAlgCSet1共享內(nèi)存L2緩存AlgAAlgBAlgCSet1文件數(shù)據(jù)流TRE集群管理核心需求平行可擴(kuò)容負(fù)載均衡管理路由管理特色功能智能路由管理set/ip級(jí)別的負(fù)載均衡動(dòng)態(tài)擴(kuò)縮容,算法/模型/ 文件延遲刪除機(jī)制狀態(tài)上報(bào),收集整理統(tǒng)一接入Router1Router2Router3Ro

15、uterN算法1算法2算法1算法2NodeNSet1Node1算法1算法2算法1算法2NodeNSet2Node1算法子系統(tǒng)1算法1算法2算法1算法2NodeNSet3Node1算法1算法2算法1算法2NodeNSet4Node1算法子系統(tǒng)2FileSchedulerRTSchedulerRTSchedulerPushServerPushServer數(shù)據(jù)推送ConfigServer請(qǐng)求/回復(fù)公共調(diào)度請(qǐng)求/回復(fù)整理/配置拉取配置注冊(cè)/上報(bào)ZooKeeper集群快照Static SnapshotDynamic SnapshotTRE多地容災(zāi)深圳Set1LR流量Router實(shí)驗(yàn)集群LR/DNN/FM數(shù)據(jù) 訪問數(shù)據(jù) 訪問深圳Set2DNN流量TDE主TDE備深圳沙箱集群LR/DNN/FMTDP流式計(jì)算HDFSSpark模型訓(xùn)練Mariana模型訓(xùn)練模型推送Router上海數(shù)據(jù)推送上海Set1實(shí)驗(yàn)集群LR流量LR/DNN/FM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論