2024騰訊Yoo視頻底層頁系統(tǒng)

上傳人：1*** IP屬地：山東上傳時間：2024-09-30 格式：DOCX 頁數(shù)：17 大?。?.32MB 積分：8.4 舉報 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

騰訊Yoo視頻底層頁推薦系統(tǒng)234的行為）。請求TriggerTrigger合并召回結(jié)果，輸入rank層做排序；listfaissredis，做消息隊列的Hippo，還有一些數(shù)據(jù)分發(fā)服務(wù)。Hadoop，Spark，SparkStreaming，以及機(jī)器學(xué)習(xí)計算平臺Angel和Tensorflow。itemitemlistitemInception模型，輸入圖像做前向計算，將softmax前的輸出層取出來即可得到一個embeddingfaiss前采用人工的方法，人工評估召回的topN圖片中有幾個是相似的。Title/TagEmbeddingword2vecNetworkEmbeddingGraphEmbedding，有三種方式：1.矩陣分解：效果不太好，用的比較少2.隨機(jī)游走：利用隨機(jī)游走構(gòu)造一些序列做embedding3.具體使nlp（每個視頻作為一個單詞）訓(xùn)練word2vec。直接用word2vec會有一些問題，可以優(yōu)化的方式包括：1.對高低頻的item（視頻）做過濾和降采樣2.合理的劃分session（取多少天的數(shù)據(jù)）。NetworkEmbedding常見的做法并不是先將樣本直接構(gòu)造成skip-gram的形式，而是先Embedding學(xué)習(xí)。這樣做存在的問題1：新的item缺少行為數(shù)據(jù)導(dǎo)致圖稀疏，解決方案tree-baseddeepmatchitem，為了減少問題的規(guī)模，將候選集構(gòu)建成樹結(jié)構(gòu)，只有葉子節(jié)點才是單個的item，每個非葉子節(jié)點潛在表達(dá)了子孫items。listlistlistb)每層選擇兄弟節(jié)點作為負(fù)樣本，這faiss的是TDM這種全庫查詢的方式。sparsefeatureidembedding，每一列是一個field，比如畫像信息、上下文等等。然后concat，經(jīng)過全聯(lián)接的隱藏層之后輸出。DNN模型的效果與LR相比沒有很大提升，原因是低階特征組合能力不足，但好處Wide&DeepWideLRDNNauc對LR/DNN有1%的提升，不過依然依賴于人工做一些交叉特征。Wide&DCN模型是2017cross層做特征交叉，具體的交叉方式如公式所示：每一層的Embedding由上一層和第0層交叉，每一層中的aucW&D1%，而DeepFM和W&D相比提升不大。Tensorflowvs（TFRecord）。明文的特點是可讀性String結(jié)構(gòu)比較占用空間，解析速度也慢。特征結(jié)構(gòu)嘗試過三種方式。第一種是明文形式，F(xiàn)eatureColumn的速度非常慢，特征ID化方式FeatureColumnIDidhash結(jié)構(gòu)無法支持。第二種是序列化特征id，這種做法的缺點是序列化速度慢，好處是可以做斷是采用同一個線程，所以在加載模型的時候會出現(xiàn)推斷服務(wù)短暫阻塞，造成超時。WarmUp不過可以通過BatchThread提升計算效率。TensorflowAPI不限制于一定要固定的時間間隔加載一次。另外還可以自行調(diào)用session函數(shù)進(jìn)行并行推batchsizeTensorflowdatasetapicacheEmbeddingTensorflowtimeline在提高模型的推斷效率方面，可以優(yōu)化線上特征數(shù)據(jù)拼接效率，及控制線程和batch之間的關(guān)注點是有一些不同的，推薦更關(guān)注對用戶興趣的描述，而搜索關(guān)注對query的理解。阿里的DIN和DIEN是大家公認(rèn)對效果提升比較明顯的

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024騰訊Yoo視頻底層頁系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

2024騰訊Yoo視頻底層頁系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔