




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于Spark的大規(guī)模機(jī)器學(xué)習(xí)在微博的應(yīng)用新浪微博議題微博業(yè)務(wù)場景大規(guī)模機(jī)器學(xué)習(xí)微博機(jī)器學(xué)習(xí)框架新浪微博中國領(lǐng)先社交媒體平臺(tái)數(shù)據(jù)MAU:3.40億+(2017Q1)DAU:1.54億+(2017Q1)同比增長:30%左右用戶分布:91移動(dòng)端刷新數(shù):百億級(jí)曝光數(shù):千億級(jí)新浪微博微博業(yè)務(wù)場景微博業(yè)務(wù)場景業(yè)務(wù)場景復(fù)雜業(yè)務(wù)場景多樣性(Feed, Hot, Rec, PUSH, Anti-spam, etc)特征類別多特征維度巨大近百億級(jí)別特征維度近萬億級(jí)別樣本量 算法模型多樣化(LR, SVM, GBDT, RF, NN, FP, FM,etc)用戶體量大高頻訪問用戶間關(guān)系紛雜微博內(nèi)容體量大微博內(nèi)容數(shù)
2、據(jù)多樣(文本、圖片、音頻、視頻,等)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark Mllib的嘗試&實(shí)踐經(jīng)驗(yàn)之談:挑戰(zhàn):億維特征空間Too many RDD union stackoverflowDriver out of memory spark.driver.maxResultSizeModel AUC=0.5 lower learning rateInteger.MAX_VALUE partition.size less than 2GShuffle fetch failed spark.local.dirShuffle fetch failed JVM G
3、C adjustmentShuffle fetch failed work.timeout參數(shù)矩陣巨大內(nèi)存開銷網(wǎng)絡(luò)開銷大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器PS Server:主從架構(gòu)服務(wù)化梯度更新權(quán)重更新多參數(shù)副本PS Client:Spark executorsSummon PS actors讀取參數(shù)(PUSH)拉取參數(shù)(PULL)Yarn大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器異步隨機(jī)梯度下降算法將數(shù)據(jù)分塊分塊數(shù)據(jù)拉取參數(shù)計(jì)算分塊數(shù)據(jù)梯度將梯度更新到參數(shù)服務(wù)器重復(fù)上述操作大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)
4、器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器性能優(yōu)化:Batch SizePS server countSparsePartitioningSpark memory tuning大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器優(yōu)化實(shí)例:Batch Size對(duì)性能的影響B(tài)atchSizeParameter(MB)Tx(MB)Pull(ms)Push(ms)Time(s)2000060251925.916868.882118100003035862.3733013.54192450001547300150015732000650984041392100035055.56199.791307500
5、1.58763.95193.2210592000.694.387.64176.5871302大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器優(yōu)化實(shí)例:Batch Size大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器新的挑戰(zhàn):更多的算法支持性能優(yōu)化半同步嘗試Whats next?Contained with Docker通過ZooKeeper實(shí)現(xiàn)配置化微博機(jī)器學(xué)習(xí)框架微博機(jī)器學(xué)習(xí)框架微博機(jī)器學(xué)習(xí)框架機(jī)器學(xué)習(xí)流圖發(fā)博流原始樣本訓(xùn)練樣本模型訓(xùn)練、評(píng)估、驗(yàn)證線上離線數(shù)據(jù)處理模型文件映射規(guī)則特征映射曝光流互動(dòng)流特征工程自動(dòng)部署實(shí)時(shí)預(yù)測XXX 流微博機(jī)器學(xué)習(xí)框架現(xiàn)存挑戰(zhàn)&問題計(jì)算框
6、架多樣性迭代上線業(yè)務(wù)開發(fā)流程冗長業(yè)務(wù)腳本調(diào)用混亂系統(tǒng)運(yùn)行門檻高平臺(tái)化需求執(zhí)行性能差 溝通效率低redisstormhivehadoopsparkpythontensorflow算法多樣性模型多樣性特征、數(shù)據(jù)處理繁瑣微博機(jī)器學(xué)習(xí)框架weiflow 統(tǒng)一計(jì)算框架nodenodenodenodehivesparktensorflowinputprocessoutputTextCsvLibsvmParquetOrcJson統(tǒng)計(jì)清洗過濾組合采樣轉(zhuǎn)換。微博機(jī)器學(xué)習(xí)框架One XML to rule them allNode DAG構(gòu)造Node內(nèi)input、process、output12121微博機(jī)器學(xué)習(xí)
7、框架weiflow 開發(fā)API支持語言:ScalaJava微博機(jī)器學(xué)習(xí)框架weiflow 實(shí)現(xiàn)框架部分:XML解析JVM反射Scala語言特性業(yè)務(wù)部分:Array HashMapmap mapPartitionsDense SparseCurrying、Partial functionsBusy driverBroadcast variablesSpark SQLSpark MLDataFrame微博機(jī)器學(xué)習(xí)框架weiflow 功效業(yè)務(wù)開發(fā)效率 提升顯著執(zhí)行性能(6T,1000億) 20hours 20mins業(yè)務(wù)代碼貢獻(xiàn) 更加活躍模型性能(GBDT+LR) AUC up 0.050.1業(yè)務(wù)部
8、門溝通效率提升微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)性別設(shè)備互動(dòng) 時(shí)間粉絲數(shù)2203615logErange21600維 2 20 36 15組合特征微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)組合特征的使用featureIndexfeatureNamemapTypeoperatorargs 16combinedFeauture1enumcartesianf1+f2+f3+fN微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)Feature1(localIndex, dim)Feature2(localIndex, dim)Feature1.localIndex * Feature2.dim + Feature2.localIndex組合特征的實(shí)現(xiàn)微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)特征庫人選特征GBDT機(jī)選特征數(shù)據(jù)處理特征映射人選特征空間機(jī)選特征空間模型訓(xùn)練LR微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)node1node2GBDT模型訓(xùn)練GBDT預(yù)測LR特征映射LR模型訓(xùn)練微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)讀取模型文件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑消防安裝工程施工分包合同
- 農(nóng)資互購買賣合同書
- 個(gè)人房屋抵押貸款合同
- 單位物業(yè)承包合同
- 承運(yùn)方貨物運(yùn)輸合同
- 世界各大河流流量與水質(zhì)監(jiān)測數(shù)據(jù)表
- 預(yù)制梁安裝施工方案
- 進(jìn)水格柵施工方案范本
- 衛(wèi)星基站土建施工方案
- 濱州古建閣樓施工方案
- 經(jīng)濟(jì)效益證明(模板)
- 接力版六年級(jí)下冊(cè)小學(xué)英語 Lesson 4 Sally is going to Beijing. 第一課時(shí) 教案(教學(xué)設(shè)計(jì))
- 食堂蔬菜品種及質(zhì)量標(biāo)準(zhǔn)
- Q∕SY 01004-2016 氣田水回注技術(shù)規(guī)范
- 《大數(shù)據(jù)分析與應(yīng)用》教學(xué)大綱
- FZW2812F(FDR)型用戶分界真空負(fù)荷開關(guān)安裝使用說明書完
- 股權(quán)轉(zhuǎn)讓委托書(6篇)
- 韓國出入境卡中韓文對(duì)照模板
- 五輥研磨機(jī)(課堂PPT)
- 二次函數(shù)求最值(動(dòng)軸定區(qū)間、動(dòng)區(qū)間定軸)(課堂PPT)
- 髖關(guān)節(jié)脫位2教學(xué)課件
評(píng)論
0/150
提交評(píng)論