Spark大數(shù)據(jù)算法平臺課件_第1頁
Spark大數(shù)據(jù)算法平臺課件_第2頁
Spark大數(shù)據(jù)算法平臺課件_第3頁
Spark大數(shù)據(jù)算法平臺課件_第4頁
Spark大數(shù)據(jù)算法平臺課件_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、Spark大數(shù)據(jù)算法平臺第1頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第2頁,共33頁。平臺緣起大背景:隨著攜程的業(yè)務(wù)發(fā)展,各個BU的機器學(xué)習(xí)的應(yīng)用越來越多,訓(xùn)練 的數(shù)據(jù)集也越來越大,單機的模型訓(xùn)練方式很難滿足實際的需要,所以越 來越多的同學(xué)會考慮使用Spark進行訓(xùn)練直接使用Spark進行模型訓(xùn)練的難點(特別是對于非工程背景的數(shù)據(jù)科學(xué) 家):入門時間較長環(huán)境設(shè)置麻煩程序調(diào)試?yán)щy關(guān)注太多細(xì)節(jié)獨立開發(fā),經(jīng)驗,代碼無法分享第3頁,共33頁。平臺基本目標(biāo)服務(wù)工程經(jīng)驗較少的數(shù)據(jù)科學(xué)家無需編程,模塊拖拽完成模型訓(xùn)練處理流程的構(gòu)建執(zhí)行過程可視化方便地數(shù)據(jù)

2、探索功能覆蓋機器學(xué)習(xí)應(yīng)用的整個生命周期覆蓋模型訓(xùn)練,導(dǎo)出,線上服務(wù)整個機器學(xué)習(xí)應(yīng)用的生命周期 系統(tǒng)開放,高度可定制簡便地模塊定制,分享(適合工程能力強的資深用戶)第4頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第5頁,共33頁。平臺功能簡介整個平臺由以下4個功能模塊構(gòu)成:模型訓(xùn)練創(chuàng)建模型訓(xùn)練流程(Pipeline)運行和調(diào)試模型訓(xùn)練流程數(shù)據(jù)探索模塊定制(高級)訓(xùn)練結(jié)果導(dǎo)出線上服務(wù)的開發(fā)支持第6頁,共33頁。機器學(xué)習(xí)Sample Case使用協(xié)同過濾算法進行電影推薦(Data from Ne5lex)1.訓(xùn)練數(shù)據(jù)(用戶對于電影的評分?jǐn)?shù)據(jù))分流(訓(xùn)

3、練集 / 測試級 7:3)模型訓(xùn)練模型檢驗第7頁,共33頁。模型訓(xùn)練 流程創(chuàng)建1. 點擊相應(yīng)模塊,拖拽構(gòu)成整個訓(xùn)練的流程第8頁,共33頁。模型訓(xùn)練 流程創(chuàng)建2. 填寫相關(guān)模塊的參數(shù)第9頁,共33頁。模型訓(xùn)練 模塊詳解模塊分為兩種類型:Transformer 輸入是1或多個DataFrame,輸出是1或多個DataFrameModel Trainer - 輸入是1或多個DataFrame,輸出是一個Model特殊模塊 Model Transformer 輸入1個模型, 1或多個DataFrame,輸出 1或多個DataFrame第10頁,共33頁。模型訓(xùn)練 - 訓(xùn)練模型的運行和調(diào)試第11頁,共3

4、3頁。模型訓(xùn)練 - Scala和Python自定義模塊第12頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)預(yù)覽對于每個模塊輸出的DataFrame,我們都提供了數(shù)據(jù)預(yù)覽和用戶自定義SQL(SparkSQL)查詢的功能第13頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)探索數(shù)據(jù)繪圖:集成Pandas,matplotlib第14頁,共33頁。模塊定制模塊代碼:一段普通的Spark的代 碼參數(shù)使用特殊的占位符參數(shù)信息自動識別為配 置項* 如果模塊需要保存,則 相關(guān)邏輯必須封裝為 spark.ml包中Transformer 和EsImator的形式第15頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出導(dǎo)出的訓(xùn)練模型會保存在HDFS相關(guān)的路徑下第16

5、頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出查看已經(jīng)保存的模型第17頁,共33頁。線上服務(wù)開發(fā)的支持提供Jar包,用戶只要在maven中 添加依賴,就能夠使用相關(guān)的 API開發(fā)步驟:初始化將輸入數(shù)據(jù)轉(zhuǎn)化為DataFrameLoad起已經(jīng)保存的Transformer和Model按照順序調(diào)用Transform和predict方法第18頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第19頁,共33頁??傮w架構(gòu)YARN ClusterWeb ServerZeppelin ThriW Serverstartcreate SparkContextstartrunSpark-

6、ReplSparkIMain interpret第20頁,共33頁。總體架構(gòu)2每個訓(xùn)練任務(wù)(稱為pipeline)會單獨起一個Zeppelin的ThriW Server初始化(Lazy):Web Server調(diào)用Marathon(Mesos)的Res5ul API啟動Zepplin ThriW ServerZepplin ThriW Server會在YARN集群中創(chuàng)建一個常駐的Spark任務(wù) 執(zhí)行:Web Server中集成了Zeppelin Client,我們先將Pipeline和Module映射成為Zeppelin的Note和Paragraph,然后就會被提交到Zeppelin的ThriW

7、 Server執(zhí) 行Zeppelin的ThriW Server使用Spark-Repl(Spark的交互界面就是使用這個實 現(xiàn)的),將scala的代碼編譯后提交到常駐在YARN集群的Spark任務(wù)中執(zhí)行第21頁,共33頁。執(zhí)行引擎 - Docker負(fù)責(zé)Zeppelin ThriW Server的生命周期的管理執(zhí)行引擎MarathonMesosHM 2Hive / Spark / Hadoop EnvHost MachineContainer1Container2Web ServerAPIAPI第22頁,共33頁。執(zhí)行引擎 - ZeppelinWeb ServerZeppelin ClientZ

8、eppelinThriWServerRemoteInterpreterServerNotebookThriW ServerSparkSQL InterpreterSpark IMainSpark InterpreterPySpark Interpreter將CML Studio的pipeline和module轉(zhuǎn)換為zeppelin的Note和paragraph第23頁,共33頁。技術(shù)選型的考慮選擇Docker和Zeppelin的原因:Mesos提供了方便的資源管理的功能Marathon提供了簡便的應(yīng)用管理的功能Zeppelin則提供了一個Spark交互執(zhí)行的引擎由于人力資源的原因,使我們選擇使

9、用開源產(chǎn)品或是在開源項目的基礎(chǔ)上 進行2次開發(fā)整體加速了項目的進展在二次開發(fā)的過程中鍛煉了團隊的技術(shù)能力第24頁,共33頁。經(jīng)驗分享不斷的打磨產(chǎn)品目前的產(chǎn)品形態(tài)經(jīng)過了幾個不同版本的演化產(chǎn)品的易用性和穩(wěn)定性是它的生命,關(guān)注使用細(xì)節(jié)Example1 最初版本每個模塊的結(jié)果都會落地,每個模塊的輸入輸 出都是需要用戶手動填寫的Example2 批量結(jié)果導(dǎo)出的功能在最初的版本中不存在,只提供用 戶手動導(dǎo)出單個模塊的訓(xùn)練結(jié)果的功能Example 3 數(shù)據(jù)探索的功能是根據(jù)用戶的需求加入的第25頁,共33頁。技術(shù)經(jīng)驗和踩過的坑技術(shù)經(jīng)驗分享(具體技術(shù)點)Python代碼模塊的加入:將Input的Datafram

10、e注冊成為臨時表Spark資源的釋放:Zeppelin的后端獲取到當(dāng)前Zeppelin ThriW Server的狀 態(tài),如果狀態(tài)超過一定時間為NO_OP,則關(guān)閉它XGBoost模塊加入過程中的經(jīng)驗hcps:/dmlc/xgboost/issues/1276nWorkers的值不能大于可用的核數(shù),否則會出現(xiàn)Hang住不動的情況hcps:/dmlc/xgboost/issues/1284第26頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第27頁,共33頁。機票 - 產(chǎn)品智能推薦用戶在攜程上購買機票后, 攜程會給他們推薦一些機票 的附加產(chǎn)品我們根據(jù)

11、用戶歷史的購買行為的 信息用戶畫像的信息航班本身的信息來預(yù)測用戶購買這些產(chǎn)品的 概率,從而來決定是否默認(rèn) 幫用戶勾選上某些產(chǎn)品第28頁,共33頁。根據(jù)天氣(主要)航班的信息其他信息來預(yù)測需要的客服人員的 數(shù)量(每周一次)根據(jù)預(yù)測的客服的需求量 進行客服的自動排班機票 - 客服話務(wù)量預(yù)測第29頁,共33頁。度假 - 刷單行為的識別 1度假平臺上零售、代理產(chǎn)品的刷單比較猖獗,據(jù)估計非自營刷單占到訂單 整體的30%左右。這些刷單產(chǎn)生了嚴(yán)重的負(fù)面影響,亟待清理。端全5分好評評論無圖評論均來自PC 點評時間均在工作時間C都有總有差評評論帶圖評論APP、P 點評時間分散典典型型刷刷單單全5分好評評論均來自PC端評論無圖點評時間均在工作時間正正常常產(chǎn)產(chǎn)品品總有差評評論APP、PC都有評論帶圖點評時間分散第30頁,共33頁。度假 - 刷單行為的識別 2攜程外網(wǎng)基礎(chǔ)數(shù)據(jù)規(guī)則系統(tǒng)機器學(xué)習(xí)人工正例人工負(fù) 例刷單懲罰平臺申訴渠道恢復(fù)銷 量點評在刷單識別項目開展初期,通過總 結(jié)業(yè)務(wù)經(jīng)驗、對各維度數(shù)據(jù)進行統(tǒng) 計分析,擬定了一系列規(guī)則來識別 刷單,取得的一定的進展將繁復(fù)的人工規(guī)則設(shè)定、閾值調(diào)節(jié) 工作轉(zhuǎn)化為新特征的整理,并通過 各個渠道積累正例和反例通過分類(主要使用XgBoost)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論