大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用-v_第1頁(yè)
大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用-v_第2頁(yè)
大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用-v_第3頁(yè)
大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用-v_第4頁(yè)
大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用-v_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大規(guī)模機(jī)器學(xué)習(xí)及其應(yīng)用數(shù)據(jù) + 算法 + 系統(tǒng)螞蟻金服-人工智能部 西亭2016-05-28Outline大數(shù)據(jù)時(shí)代分布式機(jī)器學(xué)習(xí)算法& 系統(tǒng) 在阿里的應(yīng)用Q & A2Big Data Era每天30億query, 300億served,30indexed網(wǎng)頁(yè)全球超過(guò)14億用戶,每天43億內(nèi)容每天產(chǎn)生4.3億Tts每天App量1億一年產(chǎn)生86億,每天2356萬(wàn)個(gè)2015年雙十一當(dāng)天生7.1億筆支付3Big Data Big M4Outline大數(shù)據(jù)時(shí)代分布式機(jī)器學(xué)習(xí)算法& 系統(tǒng) 在阿里的應(yīng)用Q & A5單機(jī) VS 分布式數(shù)據(jù)量太大,單機(jī)無(wú)法處理單機(jī)內(nèi)存有限,無(wú)oad m需考慮通信、計(jì)算、fai

2、lover、算法收斂性等系列問(wèn)題(系統(tǒng) + 算法)工業(yè)界:MapRedupark、MPI、Graarameter Server等6分布式機(jī)器學(xué)習(xí)特點(diǎn)迭代性:模型的更新需要多次迭代,涉及到通信/計(jì)算容錯(cuò)性: 節(jié)點(diǎn)數(shù)越多,平均單個(gè)節(jié)點(diǎn)失敗率越高參數(shù)收斂的非均勻性:模型中有些參數(shù)經(jīng)過(guò)幾個(gè)循環(huán)便不再改變,其他參數(shù)需要很長(zhǎng)時(shí)間收斂慢機(jī):機(jī)器配置跟負(fù)載不一樣,導(dǎo)致一個(gè)計(jì)算在不同機(jī)器上,時(shí)間差異巨大7工業(yè)界常用系統(tǒng)MapReduce:迭代式計(jì)算低效,節(jié)點(diǎn)之間通信效率不高 MPI:無(wú)法支撐大數(shù)據(jù),任意節(jié)點(diǎn)掛掉,任務(wù)就失敗 Graph:用圖來(lái)做抽象,類似深度學(xué)習(xí)無(wú)法高效求解,只能同步,不支持異步Spark:通用

3、框架,高維度 + 稀疏數(shù)據(jù)支持不夠Parameter Server:大規(guī)模機(jī)器學(xué)習(xí)大殺器8模型參數(shù)更新方式(1)參數(shù)更新的方式:同步、有界異步、完全異步同步:最常用,易受慢機(jī)影響,效率不高異步:深度學(xué)習(xí)領(lǐng)域應(yīng)用較多,效率高,收斂有界異步:介于兩者之間,更加容易應(yīng)用9模型參數(shù)更新方式(2)10參數(shù)服務(wù)器相對(duì)其他框架(Graph/Mpi等)的優(yōu)勢(shì)Built-in Failover vs. no Failover (Robustness)Multiple Servers vs. Single Server (MScalability)AsynchronouConvergence)Sparse Rep

4、resenEfficiency)pport vs. Synchronous Communication only (Fasterions vs. Dense Represenion (Memory & Communication11Outline大數(shù)據(jù)時(shí)代分布式機(jī)器學(xué)習(xí)算法& 系統(tǒng) 在阿里的應(yīng)用Q & A12算法& 系統(tǒng)創(chuàng)新:MSRA13Parameter Server 框架-RolesServer Node:模型分片Worker Node: 數(shù)據(jù)分片Coordinator: 總體流程控制14Data&Data&Data&Data& Workload Workload Workload WorkloadWorker NodesCoordinatorServer NodesParameter算法超大規(guī)模Online Learning15Outline大數(shù)據(jù)時(shí)代分布式機(jī)器學(xué)習(xí)算法& 系統(tǒng) 在阿里的應(yīng)用Q & A16阿里應(yīng)用實(shí)例雙十一個(gè)性化搜索CTR預(yù)估神馬搜索Relevance智能深度學(xué)習(xí)17參考文獻(xiàn) HYPERLINK http:/conf/mla15/files/liuty.pdf http:/conf/mla15/files/liuty.pdfhttp/note/509315643/htt/articles/122Mu Li, et. al, “Scaling Distrib

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論