基于Spark的機(jī)器學(xué)習(xí)在微博的應(yīng)用_第1頁
基于Spark的機(jī)器學(xué)習(xí)在微博的應(yīng)用_第2頁
基于Spark的機(jī)器學(xué)習(xí)在微博的應(yīng)用_第3頁
基于Spark的機(jī)器學(xué)習(xí)在微博的應(yīng)用_第4頁
基于Spark的機(jī)器學(xué)習(xí)在微博的應(yīng)用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于Spark的大規(guī)模機(jī)器學(xué)習(xí)在微博的應(yīng)用新浪微博議題微博業(yè)務(wù)場景大規(guī)模機(jī)器學(xué)習(xí)微博機(jī)器學(xué)習(xí)框架新浪微博中國領(lǐng)先社交媒體平臺(tái)數(shù)據(jù)MAU:3.40億+(2017Q1)DAU:1.54億+(2017Q1)同比增長:30%左右用戶分布:91移動(dòng)端刷新數(shù):百億級(jí)曝光數(shù):千億級(jí)新浪微博微博業(yè)務(wù)場景微博業(yè)務(wù)場景業(yè)務(wù)場景復(fù)雜業(yè)務(wù)場景多樣性(Feed, Hot, Rec, PUSH, Anti-spam, etc)特征類別多特征維度巨大近百億級(jí)別特征維度近萬億級(jí)別樣本量 算法模型多樣化(LR, SVM, GBDT, RF, NN, FP, FM,etc)用戶體量大高頻訪問用戶間關(guān)系紛雜微博內(nèi)容體量大微博內(nèi)容數(shù)

2、據(jù)多樣(文本、圖片、音頻、視頻,等)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark Mllib的嘗試&實(shí)踐經(jīng)驗(yàn)之談:挑戰(zhàn):億維特征空間Too many RDD union stackoverflowDriver out of memory spark.driver.maxResultSizeModel AUC=0.5 lower learning rateInteger.MAX_VALUE partition.size less than 2GShuffle fetch failed spark.local.dirShuffle fetch failed JVM G

3、C adjustmentShuffle fetch failed work.timeout參數(shù)矩陣巨大內(nèi)存開銷網(wǎng)絡(luò)開銷大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器PS Server:主從架構(gòu)服務(wù)化梯度更新權(quán)重更新多參數(shù)副本PS Client:Spark executorsSummon PS actors讀取參數(shù)(PUSH)拉取參數(shù)(PULL)Yarn大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器異步隨機(jī)梯度下降算法將數(shù)據(jù)分塊分塊數(shù)據(jù)拉取參數(shù)計(jì)算分塊數(shù)據(jù)梯度將梯度更新到參數(shù)服務(wù)器重復(fù)上述操作大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)

4、器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器性能優(yōu)化:Batch SizePS server countSparsePartitioningSpark memory tuning大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器優(yōu)化實(shí)例:Batch Size對(duì)性能的影響B(tài)atchSizeParameter(MB)Tx(MB)Pull(ms)Push(ms)Time(s)2000060251925.916868.882118100003035862.3733013.54192450001547300150015732000650984041392100035055.56199.791307500

5、1.58763.95193.2210592000.694.387.64176.5871302大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器優(yōu)化實(shí)例:Batch Size大規(guī)模機(jī)器學(xué)習(xí)大規(guī)模機(jī)器學(xué)習(xí)- 基于Spark的參數(shù)服務(wù)器新的挑戰(zhàn):更多的算法支持性能優(yōu)化半同步嘗試Whats next?Contained with Docker通過ZooKeeper實(shí)現(xiàn)配置化微博機(jī)器學(xué)習(xí)框架微博機(jī)器學(xué)習(xí)框架微博機(jī)器學(xué)習(xí)框架機(jī)器學(xué)習(xí)流圖發(fā)博流原始樣本訓(xùn)練樣本模型訓(xùn)練、評(píng)估、驗(yàn)證線上離線數(shù)據(jù)處理模型文件映射規(guī)則特征映射曝光流互動(dòng)流特征工程自動(dòng)部署實(shí)時(shí)預(yù)測XXX 流微博機(jī)器學(xué)習(xí)框架現(xiàn)存挑戰(zhàn)&問題計(jì)算框

6、架多樣性迭代上線業(yè)務(wù)開發(fā)流程冗長業(yè)務(wù)腳本調(diào)用混亂系統(tǒng)運(yùn)行門檻高平臺(tái)化需求執(zhí)行性能差 溝通效率低redisstormhivehadoopsparkpythontensorflow算法多樣性模型多樣性特征、數(shù)據(jù)處理繁瑣微博機(jī)器學(xué)習(xí)框架weiflow 統(tǒng)一計(jì)算框架nodenodenodenodehivesparktensorflowinputprocessoutputTextCsvLibsvmParquetOrcJson統(tǒng)計(jì)清洗過濾組合采樣轉(zhuǎn)換。微博機(jī)器學(xué)習(xí)框架One XML to rule them allNode DAG構(gòu)造Node內(nèi)input、process、output12121微博機(jī)器學(xué)習(xí)

7、框架weiflow 開發(fā)API支持語言:ScalaJava微博機(jī)器學(xué)習(xí)框架weiflow 實(shí)現(xiàn)框架部分:XML解析JVM反射Scala語言特性業(yè)務(wù)部分:Array HashMapmap mapPartitionsDense SparseCurrying、Partial functionsBusy driverBroadcast variablesSpark SQLSpark MLDataFrame微博機(jī)器學(xué)習(xí)框架weiflow 功效業(yè)務(wù)開發(fā)效率 提升顯著執(zhí)行性能(6T,1000億) 20hours 20mins業(yè)務(wù)代碼貢獻(xiàn) 更加活躍模型性能(GBDT+LR) AUC up 0.050.1業(yè)務(wù)部

8、門溝通效率提升微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)性別設(shè)備互動(dòng) 時(shí)間粉絲數(shù)2203615logErange21600維 2 20 36 15組合特征微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)組合特征的使用featureIndexfeatureNamemapTypeoperatorargs 16combinedFeauture1enumcartesianf1+f2+f3+fN微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(特征組合)Feature1(localIndex, dim)Feature2(localIndex, dim)Feature1.localIndex * Feature2.dim + Feature2.localIndex組合特征的實(shí)現(xiàn)微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)特征庫人選特征GBDT機(jī)選特征數(shù)據(jù)處理特征映射人選特征空間機(jī)選特征空間模型訓(xùn)練LR微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)node1node2GBDT模型訓(xùn)練GBDT預(yù)測LR特征映射LR模型訓(xùn)練微博機(jī)器學(xué)習(xí)框架weiflow 應(yīng)用(GBDT+LR)讀取模型文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論