版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、Spark大數(shù)據(jù)算法平臺第1頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第2頁,共33頁。平臺緣起大背景:隨著攜程的業(yè)務(wù)發(fā)展,各個BU的機器學(xué)習(xí)的應(yīng)用越來越多,訓(xùn)練 的數(shù)據(jù)集也越來越大,單機的模型訓(xùn)練方式很難滿足實際的需要,所以越 來越多的同學(xué)會考慮使用Spark進行訓(xùn)練直接使用Spark進行模型訓(xùn)練的難點(特別是對于非工程背景的數(shù)據(jù)科學(xué) 家):入門時間較長環(huán)境設(shè)置麻煩程序調(diào)試?yán)щy關(guān)注太多細(xì)節(jié)獨立開發(fā),經(jīng)驗,代碼無法分享第3頁,共33頁。平臺基本目標(biāo)服務(wù)工程經(jīng)驗較少的數(shù)據(jù)科學(xué)家無需編程,模塊拖拽完成模型訓(xùn)練處理流程的構(gòu)建執(zhí)行過程可視化方便地數(shù)據(jù)
2、探索功能覆蓋機器學(xué)習(xí)應(yīng)用的整個生命周期覆蓋模型訓(xùn)練,導(dǎo)出,線上服務(wù)整個機器學(xué)習(xí)應(yīng)用的生命周期 系統(tǒng)開放,高度可定制簡便地模塊定制,分享(適合工程能力強的資深用戶)第4頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第5頁,共33頁。平臺功能簡介整個平臺由以下4個功能模塊構(gòu)成:模型訓(xùn)練創(chuàng)建模型訓(xùn)練流程(Pipeline)運行和調(diào)試模型訓(xùn)練流程數(shù)據(jù)探索模塊定制(高級)訓(xùn)練結(jié)果導(dǎo)出線上服務(wù)的開發(fā)支持第6頁,共33頁。機器學(xué)習(xí)Sample Case使用協(xié)同過濾算法進行電影推薦(Data from Ne5lex)1.訓(xùn)練數(shù)據(jù)(用戶對于電影的評分?jǐn)?shù)據(jù))分流(訓(xùn)
3、練集 / 測試級 7:3)模型訓(xùn)練模型檢驗第7頁,共33頁。模型訓(xùn)練 流程創(chuàng)建1. 點擊相應(yīng)模塊,拖拽構(gòu)成整個訓(xùn)練的流程第8頁,共33頁。模型訓(xùn)練 流程創(chuàng)建2. 填寫相關(guān)模塊的參數(shù)第9頁,共33頁。模型訓(xùn)練 模塊詳解模塊分為兩種類型:Transformer 輸入是1或多個DataFrame,輸出是1或多個DataFrameModel Trainer - 輸入是1或多個DataFrame,輸出是一個Model特殊模塊 Model Transformer 輸入1個模型, 1或多個DataFrame,輸出 1或多個DataFrame第10頁,共33頁。模型訓(xùn)練 - 訓(xùn)練模型的運行和調(diào)試第11頁,共3
4、3頁。模型訓(xùn)練 - Scala和Python自定義模塊第12頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)預(yù)覽對于每個模塊輸出的DataFrame,我們都提供了數(shù)據(jù)預(yù)覽和用戶自定義SQL(SparkSQL)查詢的功能第13頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)探索數(shù)據(jù)繪圖:集成Pandas,matplotlib第14頁,共33頁。模塊定制模塊代碼:一段普通的Spark的代 碼參數(shù)使用特殊的占位符參數(shù)信息自動識別為配 置項* 如果模塊需要保存,則 相關(guān)邏輯必須封裝為 spark.ml包中Transformer 和EsImator的形式第15頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出導(dǎo)出的訓(xùn)練模型會保存在HDFS相關(guān)的路徑下第16
5、頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出查看已經(jīng)保存的模型第17頁,共33頁。線上服務(wù)開發(fā)的支持提供Jar包,用戶只要在maven中 添加依賴,就能夠使用相關(guān)的 API開發(fā)步驟:初始化將輸入數(shù)據(jù)轉(zhuǎn)化為DataFrameLoad起已經(jīng)保存的Transformer和Model按照順序調(diào)用Transform和predict方法第18頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第19頁,共33頁??傮w架構(gòu)YARN ClusterWeb ServerZeppelin ThriW Serverstartcreate SparkContextstartrunSpark-
6、ReplSparkIMain interpret第20頁,共33頁。總體架構(gòu)2每個訓(xùn)練任務(wù)(稱為pipeline)會單獨起一個Zeppelin的ThriW Server初始化(Lazy):Web Server調(diào)用Marathon(Mesos)的Res5ul API啟動Zepplin ThriW ServerZepplin ThriW Server會在YARN集群中創(chuàng)建一個常駐的Spark任務(wù) 執(zhí)行:Web Server中集成了Zeppelin Client,我們先將Pipeline和Module映射成為Zeppelin的Note和Paragraph,然后就會被提交到Zeppelin的ThriW
7、 Server執(zhí) 行Zeppelin的ThriW Server使用Spark-Repl(Spark的交互界面就是使用這個實 現(xiàn)的),將scala的代碼編譯后提交到常駐在YARN集群的Spark任務(wù)中執(zhí)行第21頁,共33頁。執(zhí)行引擎 - Docker負(fù)責(zé)Zeppelin ThriW Server的生命周期的管理執(zhí)行引擎MarathonMesosHM 2Hive / Spark / Hadoop EnvHost MachineContainer1Container2Web ServerAPIAPI第22頁,共33頁。執(zhí)行引擎 - ZeppelinWeb ServerZeppelin ClientZ
8、eppelinThriWServerRemoteInterpreterServerNotebookThriW ServerSparkSQL InterpreterSpark IMainSpark InterpreterPySpark Interpreter將CML Studio的pipeline和module轉(zhuǎn)換為zeppelin的Note和paragraph第23頁,共33頁。技術(shù)選型的考慮選擇Docker和Zeppelin的原因:Mesos提供了方便的資源管理的功能Marathon提供了簡便的應(yīng)用管理的功能Zeppelin則提供了一個Spark交互執(zhí)行的引擎由于人力資源的原因,使我們選擇使
9、用開源產(chǎn)品或是在開源項目的基礎(chǔ)上 進行2次開發(fā)整體加速了項目的進展在二次開發(fā)的過程中鍛煉了團隊的技術(shù)能力第24頁,共33頁。經(jīng)驗分享不斷的打磨產(chǎn)品目前的產(chǎn)品形態(tài)經(jīng)過了幾個不同版本的演化產(chǎn)品的易用性和穩(wěn)定性是它的生命,關(guān)注使用細(xì)節(jié)Example1 最初版本每個模塊的結(jié)果都會落地,每個模塊的輸入輸 出都是需要用戶手動填寫的Example2 批量結(jié)果導(dǎo)出的功能在最初的版本中不存在,只提供用 戶手動導(dǎo)出單個模塊的訓(xùn)練結(jié)果的功能Example 3 數(shù)據(jù)探索的功能是根據(jù)用戶的需求加入的第25頁,共33頁。技術(shù)經(jīng)驗和踩過的坑技術(shù)經(jīng)驗分享(具體技術(shù)點)Python代碼模塊的加入:將Input的Datafram
10、e注冊成為臨時表Spark資源的釋放:Zeppelin的后端獲取到當(dāng)前Zeppelin ThriW Server的狀 態(tài),如果狀態(tài)超過一定時間為NO_OP,則關(guān)閉它XGBoost模塊加入過程中的經(jīng)驗hcps:/dmlc/xgboost/issues/1276nWorkers的值不能大于可用的核數(shù),否則會出現(xiàn)Hang住不動的情況hcps:/dmlc/xgboost/issues/1284第26頁,共33頁。目錄背景介紹算法平臺的功能算法平臺的架構(gòu)和實現(xiàn) 算法平臺的應(yīng)用算法平臺未來的方向第27頁,共33頁。機票 - 產(chǎn)品智能推薦用戶在攜程上購買機票后, 攜程會給他們推薦一些機票 的附加產(chǎn)品我們根據(jù)
11、用戶歷史的購買行為的 信息用戶畫像的信息航班本身的信息來預(yù)測用戶購買這些產(chǎn)品的 概率,從而來決定是否默認(rèn) 幫用戶勾選上某些產(chǎn)品第28頁,共33頁。根據(jù)天氣(主要)航班的信息其他信息來預(yù)測需要的客服人員的 數(shù)量(每周一次)根據(jù)預(yù)測的客服的需求量 進行客服的自動排班機票 - 客服話務(wù)量預(yù)測第29頁,共33頁。度假 - 刷單行為的識別 1度假平臺上零售、代理產(chǎn)品的刷單比較猖獗,據(jù)估計非自營刷單占到訂單 整體的30%左右。這些刷單產(chǎn)生了嚴(yán)重的負(fù)面影響,亟待清理。端全5分好評評論無圖評論均來自PC 點評時間均在工作時間C都有總有差評評論帶圖評論APP、P 點評時間分散典典型型刷刷單單全5分好評評論均來自PC端評論無圖點評時間均在工作時間正正常常產(chǎn)產(chǎn)品品總有差評評論APP、PC都有評論帶圖點評時間分散第30頁,共33頁。度假 - 刷單行為的識別 2攜程外網(wǎng)基礎(chǔ)數(shù)據(jù)規(guī)則系統(tǒng)機器學(xué)習(xí)人工正例人工負(fù) 例刷單懲罰平臺申訴渠道恢復(fù)銷 量點評在刷單識別項目開展初期,通過總 結(jié)業(yè)務(wù)經(jīng)驗、對各維度數(shù)據(jù)進行統(tǒng) 計分析,擬定了一系列規(guī)則來識別 刷單,取得的一定的進展將繁復(fù)的人工規(guī)則設(shè)定、閾值調(diào)節(jié) 工作轉(zhuǎn)化為新特征的整理,并通過 各個渠道積累正例和反例通過分類(主要使用XgBoost)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度律師事務(wù)所專業(yè)復(fù)印機及法律文件管理系統(tǒng)采購合同3篇
- 二零二五年度禽類養(yǎng)殖標(biāo)準(zhǔn)化示范項目禽類采購合同3篇
- 二零二五年度電子商務(wù)大賽賽事知識產(chǎn)權(quán)保護與侵權(quán)處理合同3篇
- 2024種植業(yè)務(wù)戰(zhàn)略合作伙伴合同樣本版B版
- 二零二五版高端石材采購與安裝服務(wù)合同3篇
- 二零二五年度車隊車輛租賃與售后服務(wù)合同2篇
- 2024藥品采購及冷鏈物流服務(wù)保障協(xié)議3篇
- 2025年度校園食堂廚房設(shè)備采購與安裝綜合服務(wù)合同2篇
- 2025年度拍賣合同信息安全與隱私保護
- 2025年度智能穿戴設(shè)備銷售合同協(xié)議4篇
- 2024年工程咨詢服務(wù)承諾書
- 青桔單車保險合同條例
- 車輛使用不過戶免責(zé)協(xié)議書范文范本
- 《獅子王》電影賞析
- 2023-2024學(xué)年天津市部分區(qū)九年級(上)期末物理試卷
- DB13-T 5673-2023 公路自愈合瀝青混合料薄層超薄層罩面施工技術(shù)規(guī)范
- 河北省保定市定州市2025屆高二數(shù)學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 哈爾濱研學(xué)旅行課程設(shè)計
- 2024 smart汽車品牌用戶社區(qū)運營全案
- 中醫(yī)護理人文
- 2024-2030年中國路亞用品市場銷售模式與競爭前景分析報告
評論
0/150
提交評論