版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
騰訊Yoo視頻底層頁推薦系統(tǒng)234的行為)。請求TriggerTrigger合并召回結(jié)果,輸入rank層做排序;listfaissredis,做消息隊列的Hippo,還有一些數(shù)據(jù)分發(fā)服務(wù)。Hadoop,Spark,SparkStreaming,以及機(jī)器學(xué)習(xí)計算平臺Angel和Tensorflow。itemitemlistitemInception模型,輸入圖像做前向計算,將softmax前的輸出層取出來即可得到一個embeddingfaiss前采用人工的方法,人工評估召回的topN圖片中有幾個是相似的。Title/TagEmbeddingword2vecNetworkEmbeddingGraphEmbedding,有三種方式:1.矩陣分解:效果不太好,用的比較少2.隨機(jī)游走:利用隨機(jī)游走構(gòu)造一些序列做embedding3.具體使nlp(每個視頻作為一個單詞)訓(xùn)練word2vec。直接用word2vec會有一些問題,可以優(yōu)化的方式包括:1.對高低頻的item(視頻)做過濾和降采樣2.合理的劃分session(取多少天的數(shù)據(jù))。NetworkEmbedding常見的做法并不是先將樣本直接構(gòu)造成skip-gram的形式,而是先Embedding學(xué)習(xí)。這樣做存在的問題1:新的item缺少行為數(shù)據(jù)導(dǎo)致圖稀疏,解決方案tree-baseddeepmatchitem,為了減少問題的規(guī)模,將候選集構(gòu)建成樹結(jié)構(gòu),只有葉子節(jié)點才是單個的item,每個非葉子節(jié)點潛在表達(dá)了子孫items。listlistlistb)每層選擇兄弟節(jié)點作為負(fù)樣本,這faiss的是TDM這種全庫查詢的方式。sparsefeatureidembedding,每一列是一個field,比如畫像信息、上下文等等。然后concat,經(jīng)過全聯(lián)接的隱藏層之后輸出。DNN模型的效果與LR相比沒有很大提升,原因是低階特征組合能力不足,但好處Wide&DeepWideLRDNNauc對LR/DNN有1%的提升,不過依然依賴于人工做一些交叉特征。Wide&DCN模型是2017cross層做特征交叉,具體的交叉方式如公式所示:每一層的Embedding由上一層和第0層交叉,每一層中的aucW&D1%,而DeepFM和W&D相比提升不大。Tensorflowvs(TFRecord)。明文的特點是可讀性String結(jié)構(gòu)比較占用空間,解析速度也慢。特征結(jié)構(gòu)嘗試過三種方式。第一種是明文形式,F(xiàn)eatureColumn的速度非常慢,特征ID化方式FeatureColumnIDidhash結(jié)構(gòu)無法支持。第二種是序列化特征id,這種做法的缺點是序列化速度慢,好處是可以做斷是采用同一個線程,所以在加載模型的時候會出現(xiàn)推斷服務(wù)短暫阻塞,造成超時。WarmUp不過可以通過BatchThread提升計算效率。TensorflowAPI不限制于一定要固定的時間間隔加載一次。另外還可以自行調(diào)用session函數(shù)進(jìn)行并行推batchsizeTensorflowdatasetapicacheEmbeddingTensorflowtimeline在提高模型的推斷效率方面,可以優(yōu)化線上特征數(shù)據(jù)拼接效率,及控制線程和batch之間的關(guān)注點是有一些不同的,推薦更關(guān)注對用戶興趣的描述,而搜索關(guān)注對query的理解。阿里的DIN和DIEN是大家公認(rèn)對效果提升比較明顯的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中華文明的起源與早期國家課件-2024-2025學(xué)年高一上學(xué)期統(tǒng)編版(2019)必修中外歷史綱要上
- 內(nèi)蒙古名校聯(lián)盟2023-2024學(xué)年高一下學(xué)期教學(xué)質(zhì)量檢測語文試題(解析版)
- 咖啡制作師知識試題與答案
- 人力資源政策對老年人就業(yè)影響的研究
- 股權(quán)結(jié)構(gòu)對公司營銷策略的影響分析
- 江蘇省南通市海安市八校聯(lián)考2024年中考五模數(shù)學(xué)試題含解析
- unit2(進(jìn)階作業(yè))2024-2025學(xué)年六年級上冊 英語 人教版
- 二手商品交易電商行業(yè)的消費(fèi)市場分析
- 2023年鹽城市濱??h農(nóng)村訂單定向醫(yī)學(xué)生定向招聘考試試題及答案
- 2023年三穗縣第十批城鎮(zhèn)公益性崗位招聘考試試題及答案
- 熱電廠鍋爐安裝工程施工方案
- 《聽蕉記》2020年浙江溫州中考文言文閱讀真題(含答案與翻譯)
- 公司高技能人才培養(yǎng)規(guī)劃
- 中小學(xué)思政課教學(xué)設(shè)計(3篇)
- MySQL數(shù)據(jù)庫PPT完整全套教學(xué)課件
- 遼寧廣告職業(yè)學(xué)院單獨招生《英語》考試大綱
- 農(nóng)村宅基地和建房(規(guī)劃許可) 申請表
- 人教版 七年級上 生物 同步練習(xí) 全冊
- 2023學(xué)年完整公開課版敵對進(jìn)路
- 房地產(chǎn)估價方法之市場比較法
- 全要素加強(qiáng)化工過程安全管理
評論
0/150
提交評論