




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
唯品會(huì)大數(shù)據(jù)實(shí)際CONTENT目錄關(guān)于唯品會(huì)01數(shù)據(jù)平臺(tái)建立02大數(shù)據(jù)運(yùn)用建立03一些想法04數(shù)據(jù)平臺(tái)實(shí)際離線計(jì)算分析平臺(tái)演化實(shí)時(shí)計(jì)算平臺(tái)演化一些技術(shù)選型和閱歷數(shù)據(jù)運(yùn)用實(shí)際系統(tǒng)開發(fā)和運(yùn)營業(yè)務(wù)和產(chǎn)品運(yùn)營惡意用戶識(shí)別/風(fēng)控系統(tǒng)商品品牌引薦個(gè)性化排序|產(chǎn)品|系統(tǒng)|算法數(shù)據(jù)儀表盤、數(shù)據(jù)魔方、比價(jià)系統(tǒng)、地圖效力等精準(zhǔn)引薦根底算法庫選品、分倉與預(yù)調(diào)撥數(shù)據(jù)實(shí)時(shí)接入離線計(jì)算平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)VRC資源管理平臺(tái)運(yùn)維監(jiān)控測(cè)試|數(shù)據(jù)細(xì)分人群用戶Lookalike唯品會(huì)用戶畫像唯品會(huì)大數(shù)據(jù)VIPBigData整體規(guī)劃平臺(tái)效力數(shù)據(jù)效力數(shù)坊分析師平臺(tái)對(duì)外效力VRC開發(fā)者平臺(tái)畫像計(jì)算VRESqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運(yùn)維監(jiān)控測(cè)試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedisClusterVRE實(shí)時(shí)算法預(yù)測(cè)MLLib實(shí)時(shí)訓(xùn)練分析統(tǒng)計(jì)義務(wù)GPStorm自助報(bào)表平臺(tái)運(yùn)用產(chǎn)品效力接入計(jì)算存儲(chǔ)調(diào)度系統(tǒng)-大數(shù)據(jù)根底平臺(tái)規(guī)劃自助取數(shù)平臺(tái)數(shù)據(jù)平臺(tái)的建立離線計(jì)算分析平臺(tái)選建立混合平臺(tái):Hadoop+Greenplum遷移戰(zhàn)略和方案dailyjob,hourlyjob,minjob擴(kuò)容,擴(kuò)容,擴(kuò)容離線和實(shí)時(shí)的混合開放平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)的建立Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge穩(wěn)定性挑戰(zhàn)開放平臺(tái)碰到的問題離線平臺(tái)的演化-12021年底:CDC調(diào)度+GP10節(jié)點(diǎn)系統(tǒng)穩(wěn)定2021Q1:CDC調(diào)度+ETLGp+QueryGp,Tuning2021Q2:自有調(diào)度平臺(tái)開發(fā)+自有抽取系統(tǒng)+Hadoop流量開場(chǎng)遷移+GP買賣數(shù)據(jù)+QueryGP2021Q3:自有調(diào)度平臺(tái)+抽取遷移Hadoop流量遷移終了〔70〕,買賣數(shù)據(jù)遷移開場(chǎng)GP買賣數(shù)據(jù)+QueryGP中心數(shù)據(jù)小時(shí)級(jí)ETL2021Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETLGp完好遷移開場(chǎng)QueryGP擴(kuò)容40節(jié)點(diǎn)2021Q1 全部ETL@Hadoop~200nodescluster+40Ad-HocEDWHybridnodeconfiguration離線混合平臺(tái)-2Referene:Netflex,LinkedIn,eBayGreenPlum+Hadoop維護(hù)現(xiàn)有投資Hadoop海量數(shù)據(jù)分析ETL復(fù)雜計(jì)算權(quán)限打通Greenplum:GP擅長adhocquery速度快,分析師順應(yīng)缺乏夠scalable長期本錢HadoopMassivescalable,但是單個(gè)查詢慢海量ETL計(jì)算Web查詢離線開放平臺(tái)-3開放平臺(tái)自助ETL開發(fā)自助報(bào)表開發(fā)和展現(xiàn)自助取數(shù)分析本錢breakdown,changeback性能,實(shí)時(shí),擴(kuò)展性,本錢PrestoDruid實(shí)時(shí)計(jì)算系統(tǒng)架構(gòu)采集引薦建模
打點(diǎn)日志binlog音訊數(shù)據(jù)實(shí)時(shí)增量抽取計(jì)算模型訓(xùn)練效果反響Render&RouterLayerCandidateScanLayerCalculateLayerVRC模型訓(xùn)練平臺(tái)Flume/VDP/VMSVRE運(yùn)用開發(fā):義務(wù)配置可視化編程EsperEPL平臺(tái)組件:輸入組件輸出組件UDFVRCPortal:義務(wù)發(fā)布日志查看監(jiān)控訴警RuleLayerHbasevsRedis背景:個(gè)性化userprofile,highQPS,verytimesensitive用戶信譽(yù)體系userprofile,lowQPS,non-critical用戶實(shí)時(shí)閱讀,訂單歷史,hightps,highqps都是海量數(shù)據(jù)看上去Hbase更加適宜,但是不放心選擇:Critical的RedisNon-critical的Hbase積累閱歷,逐漸往Hbasedualwrite其實(shí)Hbase也不廉價(jià),就是scale不動(dòng)系統(tǒng)Redis某種程度上也可以實(shí)現(xiàn)2024/1/1911RedisStorm計(jì)算用redis保管中間和結(jié)果數(shù)據(jù)流量不斷添加大促流量狂漲計(jì)算復(fù)雜度不斷添加不停拆分。。。每次改代碼怎樣辦?逐個(gè)模塊拆分一開場(chǎng)就按模塊寫不同instance一開場(chǎng)就ShardTwemproxy優(yōu)化數(shù)據(jù)構(gòu)造Pipeline/Batch不求100%準(zhǔn)確hlllogRedisCluster2024/1/1912Challange實(shí)時(shí)計(jì)算作為平臺(tái)離線和實(shí)時(shí)的交融離線向?qū)崟r(shí)的遷移本錢運(yùn)用實(shí)際業(yè)務(wù)運(yùn)用運(yùn)營分析協(xié)助公司買協(xié)助公司賣技術(shù)開發(fā)和運(yùn)營Telescope業(yè)務(wù)監(jiān)控(storm)Logview/Titan效力監(jiān)控(spark)Applicationlogging(Spark)CDN日志分析(Hive)Sitespeed分析(storm)平安審計(jì)分析(impala/storm)大數(shù)據(jù)對(duì)于技術(shù)運(yùn)營2024/1/1915實(shí)時(shí)業(yè)務(wù)監(jiān)控7現(xiàn)有平臺(tái)訪問地址:xxxx.vipshop商品展現(xiàn)登錄注冊(cè)訂單信息代金券信息支付模塊商品展現(xiàn)購物車登錄注冊(cè)訂單信息代金券信息支付模塊FDS探求號(hào)CDNNginx域B2C挪動(dòng)端用戶添加數(shù)挪動(dòng)端下單數(shù)整體下單數(shù)訂單總金額購物車添加數(shù)購物車內(nèi)貨品數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊(cè)熱力地圖訂單熱力地圖購物車訪問熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕2024/1/1916實(shí)時(shí)頁面加載時(shí)間監(jiān)控實(shí)時(shí)PV分布監(jiān)控商業(yè)CDN質(zhì)量分析AppServiceQualitySparkStreaming,30secmini-batch進(jìn)去可以看到每個(gè)pool,每個(gè)效力器,每個(gè)url的懇求次數(shù),呼應(yīng)時(shí)間,錯(cuò)誤率,在過去兩周的各個(gè)維度的統(tǒng)計(jì)數(shù)據(jù)和曲線;可以看到pool之間的相互調(diào)用關(guān)系,調(diào)用量…全無入侵,運(yùn)用上線即插即用;DataServiceQuality大數(shù)據(jù)在唯品會(huì)特賣方式的業(yè)務(wù)價(jià)值大數(shù)據(jù)對(duì)于數(shù)據(jù)化運(yùn)營2024/1/1924運(yùn)用于唯品會(huì)全面客戶關(guān)系管理數(shù)據(jù)化運(yùn)營-數(shù)據(jù)產(chǎn)品對(duì)外:供應(yīng)商:數(shù)據(jù)魔方對(duì)內(nèi):高管:手機(jī)數(shù)據(jù)儀表盤,運(yùn)營分析商務(wù):選品,比價(jià)物流:分倉,預(yù)調(diào)撥產(chǎn)品/運(yùn)營:指點(diǎn)產(chǎn)品分析和決策,運(yùn)營分析,效果評(píng)價(jià),產(chǎn)品優(yōu)化金融:供應(yīng)商貸款,消費(fèi)者:個(gè)性化引薦,唯品白條營銷:個(gè)性化EDM,個(gè)性化Push,CRM業(yè)務(wù)平安:風(fēng)控用戶管理及運(yùn)營供應(yīng)商打法一:數(shù)據(jù)從按天更新向?qū)崟r(shí)化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式數(shù)據(jù)儀表盤打法二:合規(guī)前提下,開放更多數(shù)據(jù)給供應(yīng)商豐富數(shù)據(jù)接口格式及實(shí)時(shí)性數(shù)據(jù)魔方打法三:實(shí)時(shí)比價(jià)與價(jià)高告警比價(jià)數(shù)據(jù)與銷售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析比價(jià)系統(tǒng)數(shù)據(jù)儀表盤數(shù)據(jù)魔方比價(jià)系統(tǒng)產(chǎn)品-數(shù)據(jù)產(chǎn)品及效力PC用戶挪動(dòng)用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume->kafkaBinlog->kafkaStorm/C++ProfileredisItemredisTrainingDataBusinessRuleEPDebugPlatformhadoop2024/1/1927系統(tǒng)架構(gòu)挑戰(zhàn)用戶數(shù)據(jù)稀疏,有效反響少長尾嚴(yán)重用戶體驗(yàn),50ms前往ITEM冷啟動(dòng)特征難抽取,比如圖片素材場(chǎng)景短少上下文沒有明顯意圖,不同于“搜索〞28底層數(shù)據(jù)品牌歷史和實(shí)時(shí)銷售數(shù)據(jù)價(jià)錢,品類,顏色尺碼風(fēng)格,季節(jié)品牌類似性商品商品profile的長期開發(fā)歷史和實(shí)時(shí)商品信息〔庫存,銷售,轉(zhuǎn)化〕用戶用戶點(diǎn)擊閱讀,購物車,購買,收藏行為按品類,風(fēng)格,價(jià)位,性別,尺碼用戶實(shí)時(shí)行為途徑2024/1/1929我們走過的路2024/1/19302021Q4-2021Q1:基于人群分組和人工排序的個(gè)性化運(yùn)營嘗試人群劃分首頁人工排序列表頁人工規(guī)那么自動(dòng)排序無效果。。。2021Q2:開場(chǎng)有時(shí)機(jī)在小流量新版首頁嘗試技術(shù)主導(dǎo)機(jī)器學(xué)習(xí)+業(yè)務(wù)規(guī)那么首頁動(dòng)態(tài)生成個(gè)性化引薦模塊首頁動(dòng)態(tài)生成個(gè)性化排序頁面提高了首頁到列表頁轉(zhuǎn)化率,降低了跳出率,提高了銷售我們走過的路2021Q3-Now:首頁和列表頁的個(gè)性化排序機(jī)器學(xué)習(xí)trainmodelHadoop生成userprofile/brandprofileStorm計(jì)算實(shí)時(shí)轉(zhuǎn)化銷售數(shù)據(jù),用戶實(shí)時(shí)行為和意圖實(shí)時(shí)排序首頁和列表頁下一步更多引入個(gè)性化因子(feature)細(xì)化user/brandprofile,更多數(shù)據(jù)引入更多其他算法,做到算法可以靈敏替代不但個(gè)性化排序和引薦,還可以有更多2024/1/1931個(gè)性化引薦下一個(gè)階段實(shí)時(shí),實(shí)時(shí),再實(shí)時(shí)實(shí)時(shí)計(jì)算商品品牌信息,用戶profile實(shí)時(shí)引薦實(shí)時(shí)算法迭代更新實(shí)時(shí)Abtestverify個(gè)性化,個(gè)性化,個(gè)性化挪動(dòng)天然是個(gè)個(gè)性化的好場(chǎng)所更多的個(gè)性化因子更加全面的數(shù)據(jù):用戶畫像建立,曝光數(shù)據(jù)的搜集…個(gè)性化階段性成果PC端引薦:10%~12%PC銷售占比首頁個(gè)性化排序~4%銷售金額提升挪動(dòng)端(2021/12)首頁個(gè)性化排序~4%銷售金額提升列表頁排序優(yōu)化~15%銷售金額提升Overall:~17%2024/1/1933引薦關(guān)鍵點(diǎn)34推薦用戶場(chǎng)景ITEM處理之道35推薦數(shù)據(jù)算法系統(tǒng)一些小結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度教育機(jī)構(gòu)講師團(tuán)隊(duì)合作協(xié)議
- 公司文員勞動(dòng)協(xié)議
- 全球環(huán)境治理項(xiàng)目資金捐贈(zèng)協(xié)議
- 中國地理讀后感
- 《數(shù)學(xué)競賽題庫設(shè)計(jì)與復(fù)習(xí)教學(xué)教案》
- 大宗商品貿(mào)易管理流程手冊(cè)
- 委托貸款借款合同
- 農(nóng)產(chǎn)品質(zhì)量安全追溯手冊(cè)
- 互聯(lián)網(wǎng)軟件開發(fā)合同協(xié)議
- 綠化工程承包合同協(xié)議
- 小兒抽動(dòng)癥中西醫(yī)治療
- 一年級(jí)下冊(cè)《綜合實(shí)踐活動(dòng)》全冊(cè)教案【完整版】
- 人教版小學(xué)一年級(jí)英語課本上冊(cè)課件
- 電子對(duì)抗原理與技術(shù)PPT完整全套教學(xué)課件
- 烹飪美學(xué)PPT完整全套教學(xué)課件
- 人美版初中美術(shù)知識(shí)點(diǎn)匯總九年級(jí)全冊(cè)
- 中交第三航務(wù)工程局有限公司安全管理制度匯編(2020版)
- 公路工程崗位安全操作規(guī)程
- 中藥知識(shí)全解及分類大全
- 中醫(yī)學(xué)理論體系的基本特點(diǎn)(中醫(yī)基礎(chǔ)理論課件)
- 川74取心筒說明書
評(píng)論
0/150
提交評(píng)論