




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國數(shù)據(jù)資產(chǎn)管理峰會-唯品會大數(shù)據(jù)CONTENT目錄關(guān)于唯品會01數(shù)據(jù)平臺建設(shè)02大數(shù)據(jù)應(yīng)用建設(shè)03一些想法04數(shù)據(jù)平臺實踐離線計算分析平臺演化實時計算平臺演化一些技術(shù)選型和經(jīng)驗數(shù)據(jù)應(yīng)用實踐系統(tǒng)開發(fā)和運營業(yè)務(wù)和產(chǎn)品運營惡意用戶識別/風(fēng)控系統(tǒng)商品品牌推薦個性化排序|產(chǎn)品|系統(tǒng)|算法數(shù)據(jù)儀表盤、數(shù)據(jù)魔方、比價系統(tǒng)、地圖服務(wù)等精準推薦基礎(chǔ)算法庫選品、分倉與預(yù)調(diào)撥數(shù)據(jù)實時接入離線計算平臺實時計算平臺VRC資源管理平臺運維監(jiān)控測試|數(shù)據(jù)細分人群用戶Lookalike唯品會用戶畫像唯品會大數(shù)據(jù)VIPBigData整體規(guī)劃平臺服務(wù)數(shù)據(jù)服務(wù)數(shù)坊分析師平臺對外服務(wù)VRC開發(fā)者平臺畫像計算VRESqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運維監(jiān)控測試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedisClusterVRE實時算法預(yù)測MLLib實時訓(xùn)練分析統(tǒng)計任務(wù)GPStorm自助報表平臺應(yīng)用產(chǎn)品服務(wù)接入計算存儲調(diào)度
系統(tǒng)-大數(shù)據(jù)基礎(chǔ)平臺規(guī)劃自助取數(shù)平臺數(shù)據(jù)平臺的建設(shè)離線計算分析平臺選建設(shè)混合平臺:Hadoop+Greenplum遷移策略和計劃dailyjob,hourlyjob,
min
job
擴容,擴容,擴容離線和實時的混合開放平臺實時計算平臺的建設(shè)Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge穩(wěn)定性挑戰(zhàn)開放平臺碰到的問題離線平臺的演化-12012年底:CDC調(diào)度+GP10節(jié)點系統(tǒng)穩(wěn)定2013Q1:CDC調(diào)度+ETLGp+QueryGp,Tuning2013Q2:自有調(diào)度平臺開發(fā)+自有抽取系統(tǒng)+Hadoop流量開始遷移+GP交易數(shù)據(jù)+QueryGP2013Q3:自有調(diào)度平臺+抽取遷移Hadoop流量遷移結(jié)束(70),交易數(shù)據(jù)遷移開始GP交易數(shù)據(jù)+QueryGP核心數(shù)據(jù)小時級ETL2013Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETLGp完整遷移開始QueryGP擴容40節(jié)點2014
Q1 全部ETL@Hadoop
~200
nodes
cluster
+
40
Ad-Hoc
EDW
Hybrid
node
configuration
離線混合平臺-2Referene:Netflex,LinkedIn,eBayGreenPlum
+
Hadoop保護現(xiàn)有投資Hadoop海量數(shù)據(jù)分析ETL復(fù)雜計算權(quán)限打通Greenplum:GP擅長adhoc
query速度快,分析師適應(yīng)不足夠scalable長期成本Hadoop
Massive
scalable,但是單個查詢慢海量ETL計算Web查詢離線開放平臺-3開放平臺自助ETL開發(fā)自助報表開發(fā)和展現(xiàn)自助取數(shù)分析成本breakdown,changeback性能,實時,擴展性,成本PrestoDruid實時計算系統(tǒng)架構(gòu)采集推薦建模
打點日志binlog消息數(shù)據(jù)實時增量抽取計算模型訓(xùn)練效果反饋Render&RouterLayerCandidateScanLayerCalculateLayerVRC模型訓(xùn)練平臺Flume/VDP/VMSVRE應(yīng)用開發(fā):任務(wù)配置可視化編程EsperEPL平臺組件:輸入組件輸出組件UDFVRCPortal:任務(wù)發(fā)布日志查看監(jiān)控告警RuleLayerHbase
vs
Redis背景:個性化user
profile,
high
QPS,
very
time
sensitive
用戶信用體系user
profile
,low
QPS,
non-critical
用戶實時瀏覽,訂單歷史,high
tps,
high
qps
都是海量數(shù)據(jù)看上去Hbase更加合適,但是不放心選擇:Critical的RedisNon-critical的Hbase積累經(jīng)驗,逐漸往Hbase
dual
write
其實Hbase也不便宜,就是scale不動系統(tǒng)Redis某種程度上也可以實現(xiàn)10:57:5711RedisStorm計算用redis保存中間和結(jié)果數(shù)據(jù)流量一直增加大促流量狂漲計算復(fù)雜度一直增加不停拆分。。每次改代碼怎么辦?逐個模塊拆分一開始就按模塊寫不同instance一開始就ShardTwemproxy優(yōu)化數(shù)據(jù)結(jié)構(gòu)Pipeline/Batch不求100%準確hlllogRedisCluster10:57:5712Challange實時計算作為平臺離線和實時的融合離線向?qū)崟r的遷移成本應(yīng)用實踐業(yè)務(wù)應(yīng)用運營分析幫助公司買幫助公司賣技術(shù)開發(fā)和運營Telescope業(yè)務(wù)監(jiān)控(storm)Logview/Titan服務(wù)監(jiān)控(spark)Application
logging(Spark)CDN日志分析(Hive)Sitespeed分析(storm)安全審計分析(impala/storm)大數(shù)據(jù)對于技術(shù)運營10:57:5715實時業(yè)務(wù)監(jiān)控7現(xiàn)有平臺訪問地址:商品展示登錄注冊訂單信息代金券信息支付模塊商品展示購物車登錄注冊訂單信息代金券信息支付模塊FDS探索號CDNNginx域B2C移動端用戶增加數(shù)移動端下單數(shù)整體下單數(shù)訂單總金額購物車增加數(shù)購物車內(nèi)貨品數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊熱力地圖訂單熱力地圖購物車訪問熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕10:57:5716實時頁面加載時間監(jiān)控實時PV分布監(jiān)控商業(yè)CDN質(zhì)量分析AppServiceQualitySparkStreaming,30secmini-batch進去可以看到每個pool,每個服務(wù)器,每個url的請求次數(shù),響應(yīng)時間,錯誤率,在過去兩周的各個維度的統(tǒng)計數(shù)據(jù)和曲線;可以看到pool之間的互相調(diào)用關(guān)系,調(diào)用量…全無入侵,應(yīng)用上線即插即用;DataServiceQuality大數(shù)據(jù)在唯品會特賣模式的業(yè)務(wù)價值大數(shù)據(jù)對于數(shù)據(jù)化運營10:57:5724應(yīng)用于唯品會全面客戶關(guān)系管理數(shù)據(jù)化運營-數(shù)據(jù)產(chǎn)品對外:供應(yīng)商:數(shù)據(jù)魔方對內(nèi):高管:手機數(shù)據(jù)儀表盤,經(jīng)營分析商務(wù):選品,比價物流:分倉,預(yù)調(diào)撥產(chǎn)品/運營:指導(dǎo)產(chǎn)品分析和決策,經(jīng)營分析,效果評估,產(chǎn)品優(yōu)化金融:供應(yīng)商貸款,消費者:個性化推薦,唯品白條營銷:個性化EDM,個性化Push,CRM業(yè)務(wù)安全:風(fēng)控用戶管理及運營供應(yīng)商打法一:數(shù)據(jù)從按天更新向?qū)崟r化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式數(shù)據(jù)儀表盤打法二:合規(guī)前提下,開放更多數(shù)據(jù)給供應(yīng)商豐富數(shù)據(jù)接口格式及實時性數(shù)據(jù)魔方打法三:實時比價與價高告警比價數(shù)據(jù)與銷售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析比價系統(tǒng)數(shù)據(jù)儀表盤數(shù)據(jù)魔方比價系統(tǒng)產(chǎn)品-數(shù)據(jù)產(chǎn)品及服務(wù)PC用戶移動用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume->kafkaBinlog->kafkaStorm/C++ProfileredisItemredisTrainingDataBusinessRuleEPDebugPlatformhadoop10:57:5727系統(tǒng)架構(gòu)挑戰(zhàn)用戶數(shù)據(jù)稀疏,有效反饋少長尾嚴重用戶體驗,50ms返回ITEM冷啟動特征難抽取,比如圖片素材場景缺少上下文沒有明顯意圖,不同于“搜索”28底層數(shù)據(jù)品牌歷史和實時銷售數(shù)據(jù)價格,品類,顏色尺碼風(fēng)格,季節(jié)品牌相似性商品商品profile的長期開發(fā)歷史和實時商品信息(庫存,銷售,轉(zhuǎn)化)用戶用戶點擊瀏覽,購物車,購買,收藏行為按品類,風(fēng)格,價位,性別,尺碼用戶實時行為路徑10:57:5729我們走過的路10:57:57302013Q4-2014Q1:基于人群分組和人工排序的個性化運營嘗試人群劃分首頁人工排序列表頁人工規(guī)則自動排序無效果。。2014Q2:開始有機會在小流量新版首頁嘗試技術(shù)主導(dǎo)機器學(xué)習(xí)+業(yè)務(wù)規(guī)則首頁動態(tài)生成個性化推薦模塊首頁動態(tài)生成個性化排序頁面提高了首頁到列表頁轉(zhuǎn)化率,降低了跳出率,提高了銷售我們走過的路2014
Q3-Now:首頁和列表頁的個性化排序機器學(xué)習(xí)train
model
Hadoop生成user
profile/brand
profileStorm計算實時轉(zhuǎn)化銷售數(shù)據(jù),用戶實時行為和意圖實時排序首頁和列表頁下一步更多引入個性化因子(feature)細化user/brand
profile
,更多數(shù)據(jù)引入更多其他算法,做到算法可以靈活替代不但個性化排序和推薦,還可以有更多10:57:5731個性化推薦下一個階段實時,實時,再實時實時計算商品品牌信息,用戶profile實時推薦實時算法迭代更新實時Abtestverify個性化,個性化,個性化移動天然是個個性化的好場所更多的個性化因子更加全面的數(shù)據(jù):用戶畫像建設(shè),曝光數(shù)據(jù)的收集…個性化階段性成果PC端推薦:10%~12%PC銷售占比首頁個性化排序~4%銷售金額提升移動端(2014/12)首頁個性化排序~4%銷售金額提升列表頁排序優(yōu)化~15%銷售金額提升Overall:~17%10:57:5733推薦關(guān)鍵點34推薦用戶場景ITEM解決之道35推薦數(shù)據(jù)算法系統(tǒng)一些小結(jié)技術(shù)選型:業(yè)界標準be
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公路勞動施工合同范本
- 出租機械合同范本
- 醫(yī)療設(shè)備簡易合同范本
- 2025年河南省安全員B證考試題庫及答案
- 借用公司資質(zhì)合同范本
- 勞務(wù)外包公司合同范本
- 南市區(qū)家電運輸合同范本
- 公司棉花訂購合同范本
- 勞務(wù)外包協(xié)議合同范本
- 勤工儉學(xué)合同范本
- 【重慶長安汽車公司績效管理現(xiàn)狀、問題及優(yōu)化對策(7600字論文)】
- 家鄉(xiāng)-延安課件
- 孔軸的極限偏差表
- 熱軋鋼板和鋼帶尺寸允許偏差
- 無人機導(dǎo)航與通信技術(shù)PPT完整全套教學(xué)課件
- BBC-商務(wù)英語會話
- 中等職業(yè)學(xué)校畢業(yè)生就業(yè)推薦表
- 鋼結(jié)構(gòu)設(shè)計原理全套PPT完整教學(xué)課件
- 2023年浙江首考讀后續(xù)寫真題講評課件 高三英語二輪復(fù)習(xí)寫作專項+
- 各期前列腺癌治療的指南推薦
- 《植物學(xué)教學(xué)資料》第2章細胞與組織2馬煒梁版
評論
0/150
提交評論