超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用課件_第1頁(yè)
超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用課件_第2頁(yè)
超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用課件_第3頁(yè)
超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用課件_第4頁(yè)
超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用課件_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、超大規(guī)模深度學(xué)習(xí)在美團(tuán)的應(yīng)用余建平美團(tuán)點(diǎn)評(píng)用戶平臺(tái)研究員自我介紹2011年碩士畢業(yè)于南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系。畢業(yè)后曾在百度鳳巢從事機(jī)器學(xué)習(xí)工程相關(guān)的工作,加入美團(tuán)后,負(fù)責(zé)超大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng),從無(wú)到有搭建起支持千億級(jí)別規(guī)模的深度學(xué)習(xí)系統(tǒng),與推薦、搜索、廣告業(yè)務(wù)深度合作,在算法上提供從召回到排序的全系統(tǒng)優(yōu)化方案,在工程上提供離線、近線、在線的全流程解決方案。目錄 美團(tuán)超大規(guī)模模型場(chǎng)景簡(jiǎn)介 超大規(guī)模機(jī)器學(xué)習(xí)MLX MLX平臺(tái)目標(biāo) MLX平臺(tái)架構(gòu) 模型場(chǎng)景應(yīng)用 召回模型 排序模型目錄 美團(tuán)超大規(guī)模模型場(chǎng)景簡(jiǎn)介 超大規(guī)模機(jī)器學(xué)習(xí)MLX MLX平臺(tái)目標(biāo) MLX平臺(tái)架構(gòu) 模型場(chǎng)景應(yīng)用 召回模型 排序模

2、型美團(tuán)超大規(guī)模模型應(yīng)用場(chǎng)景美團(tuán)推薦美團(tuán)搜索美團(tuán)應(yīng)用場(chǎng)景簡(jiǎn)介 場(chǎng)景特點(diǎn) 模型特點(diǎn)億級(jí)的用戶,千萬(wàn)級(jí)的O2O商品海量的用戶行為,完整的交易閉環(huán)LBS相關(guān)的推薦百億級(jí)別的訓(xùn)練數(shù)據(jù)千億級(jí)別的模型特征秒級(jí)實(shí)時(shí)的模型反饋目錄 美團(tuán)超大規(guī)模模型場(chǎng)景簡(jiǎn)介 超大規(guī)模機(jī)器學(xué)習(xí)MLX MLX平臺(tái)目標(biāo) MLX平臺(tái)架構(gòu) 模型場(chǎng)景應(yīng)用 召回模型 排序模型超大規(guī)模模型的有效性 VC維理論 描述模型的學(xué)習(xí)能力:VC維越大模型越復(fù)雜,學(xué)習(xí)能力越強(qiáng) 機(jī)器學(xué)習(xí)能力 = 數(shù)據(jù) + 特征 + 模型 數(shù)據(jù) 海量數(shù)據(jù): 美團(tuán)的億級(jí)用戶、千萬(wàn)級(jí)POI 特征 大規(guī)模離散特征 小規(guī)模泛化特征 模型 DNN 樹模型 LR美團(tuán)超大規(guī)模模型應(yīng)用場(chǎng)景

3、可擴(kuò)展的機(jī)器學(xué)習(xí)架構(gòu) 基于Parameter Server架構(gòu) 數(shù)據(jù)并行 支持超大規(guī)模訓(xùn)練集 模型并行 支持超大規(guī)模模型 業(yè)界千億級(jí)以上的機(jī)器學(xué)習(xí)平臺(tái) 開源: PaddlePaddle、XDL,etc. 內(nèi)部: Abacus、XPS, etc.關(guān)于Online Learning Online Learning的價(jià)值 用戶的近期行為,更能表現(xiàn)意圖和偏好 增強(qiáng)新item的模型感知能力 更快數(shù)據(jù)反饋、更少資源消耗 分鐘級(jí)的數(shù)據(jù)反饋 增量訓(xùn)練、避免batch重訓(xùn)帶來(lái)的資源消耗MLX的模型能力 支持千億級(jí)特征、千億級(jí)樣本 支持計(jì)算圖模式,模型結(jié)構(gòu)靈活多樣 支持推薦、搜索、廣告場(chǎng)景常用的深度學(xué)習(xí)模型 FT

4、RL、FM、FFM、WDL、DCN、DeepFM、MTL等MLX的模型能力 Optimizer FTRL、AdaGrad、AdaDelta、ADAM、AmsGrad、etc Loss Function LogLoss、SquareLoss、Cross Entropy、etc 評(píng)估指標(biāo) AUC、Loss、MAE、RMSE 支持外部eval工具,計(jì)算MAP、NDCGMLX模型能力 提供離線、近線、在線全流程解決方案,各階段提供擴(kuò)展方案,降低算法迭代成本; 支持Online Learning,提供從近線到在線的模型數(shù)據(jù)通路; 提供從召回到排序全流程的模型解決方案,為業(yè)務(wù)提供最佳實(shí)踐; 提供系統(tǒng)的平臺(tái)

5、化工具,為用戶提供易用的界面操作;MLX平臺(tái)架構(gòu)MLX平臺(tái)架構(gòu)模型訓(xùn)練框架 基于Worker + PS架構(gòu)搭建 Worker 模型計(jì)算引擎(Engine) 計(jì)算圖框架(Graph) 模型計(jì)算引擎Engine 模型結(jié)構(gòu)處理 與PS通信交換模型參數(shù) 計(jì)算圖的計(jì)算 計(jì)算圖框架Graph 計(jì)算邏輯抽象op,通過op組合形成模型結(jié)構(gòu) 提供正向(forward)、反向(backward)、Loss的操作擴(kuò)展模型訓(xùn)練框架 模型可變計(jì)算路徑 應(yīng)用場(chǎng)景離線預(yù)計(jì)算 運(yùn)行階段 模型召回,ANN檢索 計(jì)算圖裁剪 粗排模型,降低線上計(jì)算量Parameter Server 分布式Sharding 模型分片存儲(chǔ),支持超大規(guī)

6、模模型 數(shù)據(jù)并行計(jì)算,加速Optimizer計(jì)算 低頻特征過濾 Counting Bloom Filter 概率方式 模型數(shù)據(jù)通路 Base + Delta方式 增量提供ACK機(jī)制,確保模型正確性PS的參數(shù)放置策略 模型數(shù)據(jù)的統(tǒng)一管理 Ps分布式分片的均衡,避免分片大小不一致 模型結(jié)構(gòu) 模型參數(shù)NN網(wǎng)絡(luò)矩陣按行切分,解決請(qǐng)求包不均衡問題特征按照Hash方式分布式存儲(chǔ)PS的多模型訓(xùn)練 模型并行調(diào)超參 提高內(nèi)存使用效率 grid search random search model group內(nèi)共享特征key的存儲(chǔ)PS的長(zhǎng)尾效應(yīng) 超大規(guī)模模型 - 高扇出的分布式PS 長(zhǎng)尾效應(yīng):?jiǎn)蝹€(gè)分片的抖動(dòng)(網(wǎng)絡(luò)

7、、CPU)對(duì)請(qǐng)求影響變大 單分片4個(gè)9的可用性 16分片整體可用性:99.99% 16 = 99.84% 64分片整體可用性:99.99% 64 = 99.36% 128分片整體可用性:99.99% 128 = 98.72% Backup Request Jeff Dean在解決BigTable高扇出時(shí)提出的方案Backup RequestPredictorPS Reqreply 1req 1reply 2 reply Nreq Nreq 2Backup Request超過tCancel Request副本1副本2副本1副本2PS Shard 1PS Shard 2流式模型的通路 持久化存儲(chǔ)

8、PS快速failover 本地disk存儲(chǔ),持久化對(duì)齊kafka的數(shù)據(jù) Compaction機(jī)制,降低load數(shù)據(jù)量流式拼接框架 Online Learning對(duì)數(shù)據(jù)流的要求 不重不丟:重復(fù)的數(shù)據(jù)會(huì)使模型有偏,數(shù)據(jù)的缺失會(huì)使模型丟失重要信息 數(shù)據(jù)有序性:數(shù)據(jù)亂序會(huì)導(dǎo)致樣本穿越的現(xiàn)象 Log Join框架 雙流拼接框架,通過組合方式支持多流拼接 基于Event Time的Window機(jī)制拼接方式 基于Low Watermark解決流亂序、流延遲等流式常見問題流式拼接 Low Watermark機(jī)制 定義了流式數(shù)據(jù)的時(shí)鐘,不可逆性 Smooth low watermark:異常數(shù)據(jù)時(shí)間跳變 Che

9、ckpoint解決不重不丟問題 外存解決大數(shù)據(jù)量性能問題 在引擎中流轉(zhuǎn)log key,特征數(shù)據(jù)在外存在線預(yù)估服務(wù) 分業(yè)務(wù)場(chǎng)景支持 輕量級(jí)predictor:僅支持模型的計(jì)算,特征由業(yè)務(wù)傳入,無(wú)狀態(tài)設(shè)計(jì) 自定義predictor: 提供業(yè)務(wù)抽象,支持業(yè)務(wù)自定義邏輯,插件化實(shí)現(xiàn) 邏輯階段抽象,業(yè)務(wù)根據(jù)自身需求選擇性實(shí)現(xiàn) 數(shù)據(jù)獲?。?根據(jù)業(yè)務(wù)的自身邏輯獲取特征原始數(shù)據(jù) 特征抽取: 將特征數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換成模型所需的格式,比如離散化 模型計(jì)算: 傳入轉(zhuǎn)換后的特征數(shù)據(jù),調(diào)用模型計(jì)算引擎特征抽取框架 特征編碼方式 通過明文hash的方式編碼 適用于特征的動(dòng)態(tài)增長(zhǎng) 不需要預(yù)分配,提高處理效率 框架與實(shí)現(xiàn)分

10、離 提供op形式的特征抽取類 邏輯一致性:在線、近線、離線目錄 美團(tuán)超大規(guī)模模型場(chǎng)景簡(jiǎn)介 超大規(guī)模機(jī)器學(xué)習(xí)MLX MLX平臺(tái)目標(biāo) MLX平臺(tái)架構(gòu) 模型場(chǎng)景應(yīng)用 召回模型 排序模型美團(tuán)推薦場(chǎng)景的應(yīng)用 漏斗模型 召回模型 排序模型推薦的漏斗模型漏斗模型策略漏斗模型數(shù)千千萬(wàn)數(shù)百召回粗排精排候選集模型召回解決方案 模型的設(shè)計(jì) 樣本&特征的設(shè)計(jì) 模型的通路召回模型設(shè)計(jì) 基于雙塔的模型召回架構(gòu) 基于用戶和item的DNN結(jié)構(gòu) 產(chǎn)出用戶和item兩側(cè)向量 基于ANN的向量相似度檢索 Item側(cè)離線計(jì)算,形成ANN詞表 用戶側(cè)向量實(shí)時(shí)計(jì)算,通過ANN找出相似item向量樣本 & 特征設(shè)計(jì) LBS的負(fù)例采樣特征

11、設(shè)計(jì) 用戶側(cè):能設(shè)計(jì)完整的特征,個(gè)性化,實(shí)時(shí)特征 Item側(cè):預(yù)計(jì)算帶來(lái)的副作用,不能使用實(shí)時(shí)特征 與位置相關(guān)的negative sampling全體集合同地域無(wú)效信息多僅曝光分布偏差大點(diǎn)擊(+)樣本分布召回模型通路 在線、近線、離線全流程解決方案排序模型解決方案 粗排模型 精排模型粗排模型 粗排階段的特點(diǎn) 候選集大,通常在千到萬(wàn)級(jí)別 線上的響應(yīng)時(shí)間要求高,通常在幾到十幾ms 簡(jiǎn)單模型 計(jì)算耗時(shí)短:線性模型LR、樹模型 模型表達(dá)能力不足,效果一般 復(fù)雜模型 DNN模型解決耗時(shí)是關(guān)鍵,利用預(yù)計(jì)算解決耗時(shí)問題 效果保障:保證用戶的個(gè)性化信息,降低候選集計(jì)算復(fù)雜度精排模型 精排階段的特點(diǎn) 候選集較少,通常在百級(jí)別 線上耗時(shí)相對(duì)寬松,幾十毫秒(視效果而定)小規(guī)樹模型 精排模型的特點(diǎn) 結(jié)構(gòu)復(fù)雜,怎么有效果怎么來(lái)1. Random Forest2. XGBoost 特征多樣:歷史行為、統(tǒng)計(jì)值、id類特征、高維交叉, etc. 模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論