淘寶大數(shù)據(jù)案例_第1頁
淘寶大數(shù)據(jù)案例_第2頁
淘寶大數(shù)據(jù)案例_第3頁
淘寶大數(shù)據(jù)案例_第4頁
淘寶大數(shù)據(jù)案例_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、淘寶大數(shù)據(jù)案例【篇一:淘寶大數(shù)據(jù)案例】【編者按】近兩年,“大數(shù)據(jù)”這個詞越來越為大眾所熟悉,“大數(shù)據(jù)” 一直是以高冷的形象出現(xiàn)在大眾面前,面對大數(shù)據(jù),相信許多人都 一頭霧水。下面我們通過十個經(jīng)典案例,讓大家實打?qū)嵱|摸一把“大 數(shù)據(jù)”。你會發(fā)現(xiàn)它其實就在身邊而且也是很有趣的。馬云說:互聯(lián)網(wǎng)還沒搞清楚的時候,移動互聯(lián)就來了,移動互聯(lián)還 沒搞清楚的時候,大數(shù)據(jù)就來了。近兩年,“大數(shù)據(jù)”這個詞越來越 為大眾所熟悉,“大數(shù)據(jù)”一直是以高冷的形象出現(xiàn)在大眾面前,面 對大數(shù)據(jù),相信許多人都一頭霧水。下面我們通過十個經(jīng)典案例, 讓大家實打?qū)嵱|摸一把“大數(shù)據(jù)”。你會發(fā)現(xiàn)它其實就在身邊而且也 是很有趣的。啤酒與尿

2、布全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客 在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗 試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然匹1=1使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分 析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂道。數(shù)據(jù)新聞讓英國撤軍2010年10月23日衛(wèi)報利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新 聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標注于地圖之上。地圖 上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有 詳細的說明:傷亡人數(shù)、時間,造成傷亡的具體原因。密布的紅點 多達39萬,顯得格外觸目驚心。一經(jīng)

3、刊出立即引起朝野震動,推動 英國最終做出撤出駐伊拉克軍隊的決定。=y最意料之外:胸部最大的是新疆妹子 淘寶數(shù)據(jù)平臺顯示,購買最多的文胸尺碼為b罩杯。b罩杯占比達41.45%,其中又以75b的銷量最好。其次是a罩杯,購買占比達 25.26%,c罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。qq圈子把前女友推薦給未婚妻2012年3月騰訊推出qq圈子,按共同好友的連鎖反應(yīng)攤開用戶的 人際關(guān)系網(wǎng),把用戶的前女友推薦給未婚妻,把同學同事朋友圈子 分門別類,利用大數(shù)據(jù)處理能力給人帶來“震撼”。“魔鏡”預知石油市場走向如果你對“魔鏡”還停留在“魔鏡魔鏡,告訴我誰是世界上最

4、美的女 人”,那你就真的out 了?!澳хR”不僅僅是童話中王后的寶貝,而且 是真實世界中的一款神器。其實,“魔鏡”是蘇州國云數(shù)據(jù)科技公司 的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國內(nèi)首款喔。在現(xiàn)在,“魔鏡”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是 世界上最美的女人,還能通過價量關(guān)系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學的判 斷、決策,節(jié)約成本,合理配置資源,提高了收益?!酒禾詫毚髷?shù)據(jù)案例】在這個時代能夠存活下來的,不是最強大的企業(yè),而是能夠隨環(huán)境 變化而迅速做出調(diào)整的企業(yè)。很多人有這樣的體驗。有一天在一個b2c商城選剃須刀,發(fā)現(xiàn)沒有 合適的。第二

5、天。上其他新聞網(wǎng)站的時候,看到了很多這類產(chǎn)品的 推薦廣告,又忍不住去點擊瀏覽,甚至購買。這項反復跟蹤推薦的技術(shù),就是營銷公司開發(fā)的所謂 到訪定位技術(shù), 針對目標用戶進行再次營銷,其精準的效果要大大好于其他定向技 術(shù)。而這背后則是在起作用,將數(shù)據(jù)運用于營銷正改變著傳統(tǒng)傳播 方式和消費者洞察方式。2013年是爆發(fā)年,作為以數(shù)據(jù)和技術(shù)為驅(qū)動力的互聯(lián)網(wǎng)營銷,大數(shù) 據(jù)將為其帶來巨大的應(yīng)用價值,也會在廣告營銷層面上幫助企業(yè)做 得更好。無論是百度、騰訊還是淘寶、新浪,每個平臺上都有海量的數(shù)據(jù), 即便是一個單一的媒體平臺,其數(shù)據(jù)也反映著網(wǎng)民的各種行為,例 如百度的平臺上呈現(xiàn)的是網(wǎng)民的各種與搜索有關(guān)的行為,而淘

6、寶上 則顯示著網(wǎng)民的購買行為,新浪的平臺上則可以看到網(wǎng)民的閱讀行 為。從商業(yè)本質(zhì)上說,營銷的過程就是就是滿足需求、提供價值、完成 交易實現(xiàn)利潤的過程,互聯(lián)網(wǎng)的迅速發(fā)展,改變了消費者的消費模 式和行為習慣,也飛速改變著傳統(tǒng)的商業(yè)模式,這是最好的時代, 這是最壞的時代,狄更斯的這句話,用在今天再合適不過。巨變是這個時代的特點,在這個時代能夠存活下來的,不是最強大 的企業(yè),而是能夠隨環(huán)境變化而迅速做出調(diào)整的企業(yè)。而要調(diào)整的, 最重要的是一種思維模式。在大數(shù)據(jù)時代之前,企業(yè)多從哪些平臺提取數(shù)據(jù)、提取哪些營銷數(shù) 據(jù)呢? 一般是crm或bi系統(tǒng)中的顧客信息、市場促銷、廣告活動、 展覽等結(jié)構(gòu)化數(shù)據(jù)以及企業(yè)官

7、網(wǎng)一些數(shù)據(jù)。但這些信息只能達到企 業(yè)正常營銷管理需求的10%的量能,并不足夠給出一個重要洞察和 發(fā)現(xiàn)規(guī)律。而其他85%的數(shù)據(jù),諸如社交媒體數(shù)據(jù)、郵件數(shù)據(jù)、地理位置、音 視頻等這類不斷增加的信息數(shù)據(jù),和包括數(shù)據(jù)量更大、逐漸廣泛應(yīng) 用、以傳感器為主的物聯(lián)網(wǎng)信息,以及風起云涌的移動3g互聯(lián)網(wǎng)信 息等,這些就是大數(shù)據(jù)所指的非結(jié)構(gòu)性或者叫作多元結(jié)構(gòu)性所需的 數(shù)據(jù),它們更多以圖片、視頻等方式,幾年前可能被置之度外不會 被運用,而今大數(shù)據(jù)能進一步提高算法和機器分析的作用,這類數(shù) 據(jù)在如今競爭激烈的市場日顯寶貴、作用突出,并能被大數(shù)據(jù)技術(shù) 所充分挖掘、運用。但目前,雖然大數(shù)據(jù)展示了非凡的前景和巨大作用,不過,

8、大數(shù)據(jù) 營銷仍面臨不少問題與挑戰(zhàn)。首先面臨的是技術(shù)難題,畢竟大數(shù)據(jù) 技術(shù)尚處于活躍前期,各方面技術(shù)并不太扎實,各項工具需要進一 步完善。但實際情況是,真正啟動大數(shù)據(jù)營銷,你面臨的不僅僅是 技術(shù)和工具問題,更重要的是要轉(zhuǎn)變經(jīng)營思維和組織架構(gòu),來真正 地挖掘那座數(shù)據(jù)金礦?!酒禾詫毚髷?shù)據(jù)案例】圖1數(shù)據(jù)倉庫平臺發(fā)展三個階段第一個階段:rac時代2008年前的單節(jié)點oracle,這個時候還稱不上數(shù)據(jù)倉庫,只能承擔 簡單的數(shù)據(jù)處理工作,也基本上沒有數(shù)據(jù)倉庫架構(gòu),隨著業(yè)務(wù)的飛 速發(fā)展,很快單節(jié)點的oracle因無擴展能力,計算存儲能力就應(yīng)付 不了了;=12008年之后,為了應(yīng)對日益增長的數(shù)據(jù)量,rac集

9、群應(yīng)運而生,從 一開始的4個節(jié)點逐步發(fā)展到20個節(jié)點,成為當時號稱全球最大的 rac集群,在oracle官網(wǎng)上也作為了經(jīng)典案例,rac集群當時不管在 穩(wěn)定性、安全性、存儲能力還是計算能力都表現(xiàn)非常優(yōu)秀,隨之而來 第一代數(shù)據(jù)倉庫架構(gòu)也逐步形成;凹1=1這個階段數(shù)據(jù)的etl過程主要通過oracle的存儲過程實現(xiàn),大量的 sql腳本任務(wù)運行在集群上,任務(wù)運行的調(diào)度過程是通過crontab來 進行控制管理,隨著任務(wù)數(shù)的不斷增長,這時面臨最大的問題是如何保證這成千上萬的腳本每天是正常運行,出錯后如何及時發(fā)現(xiàn)解 決,這在當時天天困擾著開發(fā),一直處于每天救火的狀態(tài),也就是 這個時候,為了解決這個難題,數(shù)據(jù)團

10、隊開始自主研發(fā)調(diào)度系統(tǒng), 并將之命名為天網(wǎng)調(diào)度系統(tǒng),形成了如下第一代調(diào)度系統(tǒng)的架構(gòu)和 原型:圖2天網(wǎng)調(diào)度系統(tǒng)架構(gòu) 圖3天網(wǎng)調(diào)度系統(tǒng)原型第二個階段:hadoop時代匹1=1上的存儲過程,改寫成hive和mr腳本, hadoop上,hadoop集群命名為云梯1, 據(jù)倉庫架構(gòu),如下圖4: 圖4云梯1數(shù)據(jù)倉庫架構(gòu)進入2010年底,數(shù)據(jù)應(yīng)用場景越來越多調(diào)度系統(tǒng)的上線很好的解決了每天救火的狀態(tài),但是好景不常 在;2008年,淘寶b2c新平臺淘寶商城(天貓前身)上線;2009年,淘 寶網(wǎng)成為中國最大的綜合賣場;2010年1月1日淘寶網(wǎng)發(fā)布全新首 頁,此后聚劃算上線,然后又推出一淘網(wǎng);業(yè)務(wù)的飛速發(fā)展給數(shù)據(jù)帶

11、來的挑戰(zhàn),就是每天處理的數(shù)據(jù)量也在不斷的翻倍,首先碰上瓶頸 的是rac集群針對網(wǎng)站的訪問日志數(shù)據(jù)已經(jīng)搞不定了,rac集群雖然 有一定的擴展能力,但是無法無限制的線性擴展,并且擴容就意味 著高昂的機器成本和軟件成本,為了應(yīng)對日益增長的數(shù)據(jù)量,2009 年數(shù)據(jù)團隊開始探索新的技術(shù)領(lǐng)域,同時探索應(yīng)用了兩個方向的技 術(shù):greenplum和hadoop,主要的場景就是用來解決海量的日志 數(shù)據(jù),hadoop因其良好的線性擴展能力,并且是開源的系統(tǒng),能夠 基于官方版本二次開發(fā)適合淘寶的特性功能,逐漸占據(jù)了優(yōu)勢; 2010年初,最終確定放棄greenplum和rac,全面使用hadoop, 也就是這個時候我

12、加入了淘寶數(shù)據(jù)團隊,之后不久數(shù)據(jù)團隊啟動了 去o項目,整個數(shù)據(jù)團隊歷經(jīng)一個多月時間,風風火火將所有rac 并將所有的數(shù)據(jù)都搬到了 形成了 hadoop時代的數(shù)1=/最2010年底發(fā)布了量子統(tǒng) 計(淘寶官方版),2011年4月1日淘寶發(fā)布了數(shù)據(jù)魔方,將數(shù)據(jù)對 外進行開放,廣告和搜索團隊也大量將數(shù)據(jù)應(yīng)用到業(yè)務(wù)系統(tǒng)中,對 內(nèi)的淘數(shù)據(jù)產(chǎn)品也越來越成熟,數(shù)據(jù)的大量應(yīng)用,帶來的一個問題 是如何保證數(shù)據(jù)的準確性和穩(wěn)定性,需要從數(shù)據(jù)采集到數(shù)據(jù)加工及 最終的數(shù)據(jù)應(yīng)用全流程的保障;這時第一個環(huán)節(jié)就碰到了問題,數(shù)據(jù)同步,業(yè)務(wù)系統(tǒng)有各種各樣的 數(shù)據(jù)源,oracle、mysqlB志系統(tǒng)、爬蟲數(shù)據(jù),當時有多種同步的 方式

13、,有通過shell腳本的、也有通過jdbcdump的、還有別的方 式,當時負責數(shù)據(jù)同步的同學,最痛苦的事情莫過于,業(yè)務(wù)系統(tǒng)進 行數(shù)據(jù)庫變更時,各種同步任務(wù)需要不斷的調(diào)整,每次調(diào)整幾百個 任務(wù)極其容易出錯,當時為了解決數(shù)據(jù)同步的問題,數(shù)據(jù)工具團隊 開始研發(fā)專門的同步工具datax,也就是現(xiàn)在同步中心的前身,同時 還研發(fā)了針對db的實時同步工具dbsync和針對日志的tt,現(xiàn)在統(tǒng) 一叫tt,如圖5:圖5云梯1數(shù)據(jù)同步工具天網(wǎng)調(diào)度系統(tǒng)也不斷進行完善,開始支持小時調(diào)度、甚至分鐘調(diào)度, 并且集成了自動告警等一系統(tǒng)功能,升級為在云端,相關(guān)的dqc系 統(tǒng)、數(shù)據(jù)地圖、血緣分析等周邊系統(tǒng)在這個時期不斷推出,數(shù)據(jù)

14、團 隊也不在斷壯大。在這期間,雙十一網(wǎng)購狂歡節(jié)的影響力不斷放大,已成為中國電子 商務(wù)行業(yè)的年度盛事,并且逐漸影響到國際電子商務(wù)行業(yè),不斷刷 新的成交記錄刺激著所有人的神經(jīng)。這時為了直觀的提供第一線的 數(shù)據(jù)給到?jīng)Q策層,產(chǎn)生了數(shù)據(jù)直播間的數(shù)據(jù)應(yīng)用,需要活動當天及 統(tǒng)計相關(guān)的數(shù)據(jù),2013年前,采用的方式都是基于hadoop 一個小 時計算一次的方式進行數(shù)據(jù)計算,數(shù)據(jù)存在一定的延遲性,從2013 年開始,數(shù)據(jù)團隊開始投入研發(fā)實時計算平臺,也就是現(xiàn)在的 galaxy,并在當年的雙11上線了第一個應(yīng)用,雙11數(shù)據(jù)直播間實 時版本。第三個階段:maxcompute(原odps)時代就在hadoop大量應(yīng)用

15、的同時,另外一個項目正在悄悄進行,那就 是阿里云團隊自主研發(fā)的odps系統(tǒng),odps所有的代碼都由阿里自 己完成,在統(tǒng)一、安全、可管理、能開放方面相比于hadoop做了 大量的完善,odps系統(tǒng)命名為云梯二,從2010年開始,在很長一 段時間內(nèi),一直處于云梯一和云梯二并存的狀態(tài);這期間,集團為更好的打造數(shù)據(jù)生態(tài),成立了 cdo,統(tǒng)一數(shù)據(jù)平臺 事業(yè)群,專門投入研發(fā)大數(shù)據(jù)平臺的相關(guān)工具,包含計算存儲平臺、 周邊的調(diào)度系統(tǒng)、元數(shù)據(jù)血緣系統(tǒng)、數(shù)據(jù)質(zhì)量管理系統(tǒng)、還有dqc 等;這個狀態(tài)持續(xù)到2013年4月,這時出現(xiàn)了一個新的挑戰(zhàn),hadoop 集群的上限是5000個節(jié)點,按照當時數(shù)據(jù)增長數(shù)據(jù)的推算,集群

16、存 儲即將撞墻,但是基于當時的狀況,odps無法完全替代hadoop, 于是當時啟動了一個規(guī)模非常龐大的項目,叫做5k項目,同時進行云梯一和云梯二的跨機房集群項目,當時世界上沒有任何一家公司 具備跨機房的能力,存在非常大的技術(shù)挑戰(zhàn),最后項目歷經(jīng)近5個 月的周期,攻克大量技術(shù)難點,項目取得了成功;在5k項目成功的同時,odps架構(gòu)逐步成熟,于是全集團又啟動了 一個規(guī)模更龐大的項目,叫做登月項目,將全集團的數(shù)據(jù)加工應(yīng)用 全部搬移到odps,項目一直持續(xù)到2015年,hadoop正式下線, 淘寶大數(shù)據(jù)徹底進入odps時代,整個數(shù)據(jù)的生態(tài)圈也越來越豐富, 同時,阿里云開始對外提供云服務(wù),其中大數(shù)據(jù)解決

17、方案作為其中 重要的組成部分,也開始對外提供;時間回到2013年時,當時淘寶數(shù)據(jù)團隊的每個成員都在忙于應(yīng)對各 類需求,每天都有做不完的各類報表,當時為了解救自己,數(shù)據(jù)團 隊開始摸索探索新的數(shù)據(jù)服務(wù)模式,思考如何解決數(shù)據(jù)冗余、口徑 統(tǒng)一、數(shù)據(jù)交換、用戶自助等一系統(tǒng)問題,最終通過一段時間思考 和摸索,開始研發(fā)孔明燈產(chǎn)品,針對不同的數(shù)據(jù)角色形成了一套完 整的數(shù)據(jù)解決方案,如下: 圖6孔明燈解決方案 孔明燈產(chǎn)品的出現(xiàn),對傳統(tǒng)的開發(fā)模式做了個升級,對整個大數(shù)據(jù) 建設(shè)也起到了非常好的管理作用,當時在淘寶內(nèi)部,覆蓋了大部分 的業(yè)務(wù)bu,對數(shù)據(jù)使用成本的降低,釋放了大量的人力,同時也吸 引了外部用戶高德地圖、阿里健康基于這套體系進行大數(shù)據(jù)建設(shè);2014年,集團公共層項目啟動,集團內(nèi)的各個數(shù)據(jù)團隊,開始進行數(shù)據(jù)內(nèi)容重構(gòu)和整合,同時,cco正式成立,七公來到cco帶領(lǐng)技 術(shù)團

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論