2024CTR 預(yù)估系統(tǒng)實(shí)踐

上傳人：1*** IP屬地：北京上傳時(shí)間：2024-09-30 格式：DOCX 頁數(shù)：11 大?。?.22MB 積分：8.4 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

CTRCTR預(yù)估系統(tǒng)在商業(yè)并線領(lǐng)域有一個(gè)非常大的應(yīng)用，也是非常核心的一個(gè)模塊。業(yè)內(nèi)各大CTR享的是OPPOCTRCTR首先介紹一下CTR預(yù)估系統(tǒng)業(yè)務(wù)對接的一個(gè)場景，應(yīng)用層主要在應(yīng)用分發(fā)領(lǐng)域、搜索、聯(lián)征或符號(hào)。這里面就包含各種各樣的挖掘算法，比如ID特征、統(tǒng)計(jì)類特征等；再往上就是CTR），DNN注是ECPM，或者轉(zhuǎn)化率等，這些通過配置化都是可以實(shí)現(xiàn)的。右邊是我們的一些支撐系HadoopSpark、MPI、Kafka等集群系統(tǒng)。OfflineNearlineOnline，時(shí)效是從天級(jí)接下來講一下我們CTR預(yù)估系統(tǒng)的一個(gè)演進(jìn)，我們是從16年開始做CTR預(yù)估系統(tǒng)，通過我們可以更細(xì)粒度的去統(tǒng)計(jì)，比如之前我們有一個(gè)排行榜，每個(gè)item是一個(gè)榜，我們可以161.02.0，從用戶群體的粒度做到真正的個(gè)性化（離線、在線預(yù)估，特征引擎，batchLR步特征引擎都在CTR2.0版本完成。17年上半年我們主要是做特征工程，各種各樣的特征17OnlineLR去做學(xué)習(xí)的時(shí)候，是怎么快怎么來，最開始是單機(jī)liblinear，這個(gè)代碼比較簡單易用效果OKsparkmllibSparkLBFGSSGD，發(fā)現(xiàn)前者效果要好些，但是樣本的權(quán)重以及線上效果并不是很理想；之后我們切換到了sparkliblinear平臺(tái)，他是TRON優(yōu)化算spark的BatchGD算法。支持支持pretrain、稀疏特征優(yōu)化、細(xì)粒度正則、checkpoint基于sparkMPI的OWLQN的算法訓(xùn)練速度7BatchGDMPI是很底層框架，需要很多額外工作。但是有些場景還是無法滿足，比如快速反應(yīng)類場景無法滿足，因此基于TensorFlowOnlineLRMPIOnlineLR算法及優(yōu)化。我們從spark切換到MPI6小時(shí)，需要的核數(shù)從1000下降240，BatchModelOnlineModelOnlineModelmodel是偏向歷史樣本還是當(dāng)前樣本、如何調(diào)參、穩(wěn)定性問題（線上斷流，作弊流量很容我們在OnlineLR模型做了一些優(yōu)化，F(xiàn)TRL算法是google在13年提出的一個(gè)算法，主要解決在廣告場景下大規(guī)模離線LR訓(xùn)練的問題。第一項(xiàng)其實(shí)是一個(gè)梯度，第二項(xiàng)是一個(gè)嚴(yán)0-tFTRLρt-s，模型會(huì)做歷史樣本衰減，隨著樣本不斷訓(xùn)練，歷史樣本的BatchModelOnlineModel61（BatchLR30OnlineLR每個(gè)樣本過濾一遍另一個(gè)效果方面在信息流場景下天氣預(yù)測方面BatchLR能達(dá)到2.6%這么復(fù)雜呢？DNNLR10100LRDNN特征。第三個(gè)就是業(yè)界的一些經(jīng)驗(yàn)，Google、BAT等大公司在深度學(xué)習(xí)積累很多經(jīng)驗(yàn)。DNNDNNtrick、調(diào)參難度大（papers不會(huì)透露很多細(xì)節(jié)）。另一個(gè)相比于圖像領(lǐng)域，端對端學(xué)習(xí)，CTR預(yù)估面對的是非標(biāo)準(zhǔn)化CTR預(yù)估是用在線上而不是刷比賽或者實(shí)驗(yàn)，線上需要達(dá)到穩(wěn)定性的要求，對工我們在選型的時(shí)候是Google16Wide&DeepLearningforRecommender樣模型層面比較優(yōu)雅，我們先前的LR有很多經(jīng)驗(yàn)可以借鑒。在我們網(wǎng)絡(luò)結(jié)構(gòu)確定后，我們?nèi)绾稳ヂ涞厝?shí)現(xiàn)這個(gè)系統(tǒng)。深度學(xué)習(xí)框架有很多，如TensorFlow、Caffe、Keras、CNTK等，TensorFlow相對于其他框架優(yōu)點(diǎn)在于：易用性們優(yōu)化就是將python邏輯下發(fā)到C++層，另一個(gè)算子、io、特征工程性能優(yōu)化，做到更CNNRNN，因此我們自己去EmbeddingPythonJava生命周期，最大限度進(jìn)行cache，提升提取性能。最后講一下快速實(shí)驗(yàn)機(jī)制&EE的一些工作。隨著系統(tǒng)復(fù)雜度增加，各種調(diào)參和調(diào)參，比如bin做A/BText，特征升級(jí)等都能做，后面參數(shù)調(diào)整大部分都是可以支持的。因?yàn)樘剿魇遣淮_定性的，效果可能很差；另一個(gè)是效果的評估很難，

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024CTR 預(yù)估系統(tǒng)實(shí)踐

文檔簡介

溫馨提示

最新文檔

評論

2024CTR 預(yù)估系統(tǒng)實(shí)踐

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔