大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?_第1頁(yè)
大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?_第2頁(yè)
大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?_第3頁(yè)
大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?_第4頁(yè)
大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)應(yīng)用案例-如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?本文章來(lái)自于阿里云云棲社區(qū)如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?有沒(méi)有好的大數(shù)據(jù)平臺(tái)架構(gòu)案例?本文以掌慧縱盈為案例,闡述了物聯(lián)網(wǎng)企業(yè)的業(yè)務(wù)架構(gòu)和數(shù)據(jù)架構(gòu),以及技術(shù)選型的思考過(guò)程。如何搭建大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)?有沒(méi)有好的大數(shù)據(jù)平臺(tái)架構(gòu)案例?本文以掌慧縱盈為案例,闡述了物聯(lián)網(wǎng)企業(yè)的業(yè)務(wù)架構(gòu)和數(shù)據(jù)架構(gòu),以及技術(shù)選型的思考過(guò)程。借助互聯(lián)網(wǎng)+大數(shù)據(jù)+機(jī)場(chǎng)”三輪驅(qū)動(dòng),掌慧縱盈每年為 6.4億人次出行提供無(wú)線網(wǎng)絡(luò)連接服務(wù)。 隨著業(yè)務(wù)的拓展,隨之后來(lái)的挑戰(zhàn)是數(shù)據(jù)量的暴增。2016年,掌慧縱盈通過(guò)阿里云產(chǎn)品,率先構(gòu)建了業(yè)界領(lǐng)先的大數(shù)據(jù)平臺(tái)。以下來(lái)自掌慧縱盈的大數(shù)據(jù)平臺(tái)架構(gòu)師的分享

2、:業(yè)務(wù)架構(gòu)舉琶Wi-Fi出晶線上打通ONLINE橄主活醫(yī)療字戲縱盈大數(shù)揭障數(shù)齬采毎、IDMapping.人業(yè)霸分析200京三甲圧扯細(xì)軒金辭星恥店、加 油鮎一遷特小止丨制W F伽IFi線下場(chǎng)景OFFLINE掌慧縱盈的業(yè)務(wù)架構(gòu)如圖所示。我們的業(yè)務(wù)模式主要就是通過(guò)自有設(shè)備對(duì)數(shù)據(jù)進(jìn) 行收集,對(duì)數(shù)據(jù)的價(jià)值進(jìn)行挖掘,最后對(duì)這些數(shù)據(jù)應(yīng)用。數(shù)據(jù)收集層,我們創(chuàng)立了國(guó)內(nèi)機(jī)場(chǎng)官方Wi-Fi第一品牌“Airpo-Free-WiFi”,網(wǎng)絡(luò)遍布全國(guó)25個(gè)樞紐機(jī)場(chǎng)和39個(gè)樞紐高鐵站,每年為6.4億人次出行提供無(wú) 線網(wǎng)絡(luò)連接服務(wù);我們擁有全國(guó)最大的駕校 Wi-Fi網(wǎng)絡(luò),到17年底將覆蓋1500+ 所駕校;我們也是中國(guó)四大車

3、展(北京、上海、廣州、成都)Wi-Fi服務(wù)商,為超過(guò)120萬(wàn)人次提供了網(wǎng)絡(luò)服務(wù);此外,我們還運(yùn)營(yíng)了全國(guó)2000+個(gè)加油站和600+個(gè)汽車4S經(jīng)銷店的 Wi-Fi網(wǎng)絡(luò)。數(shù)據(jù)應(yīng)用層,我們打通了線上和線下行為數(shù)據(jù),用于用戶畫(huà)像,為包括SSP,DSP,DMP,RTB在內(nèi)的廣告業(yè)務(wù)提供更高效的精準(zhǔn)觸達(dá);并和公安部合作, 排查公共網(wǎng)絡(luò)安全威脅。掌慧縱盈的大數(shù)據(jù)平臺(tái)和廣告投放平臺(tái)還為企業(yè)輸出技術(shù)能力,幫助企業(yè)建立自己的大數(shù)據(jù)平臺(tái),用豐富的量化數(shù)據(jù)提升企業(yè)的運(yùn)營(yíng)管理效率。數(shù)據(jù)架構(gòu)圖2掌卓縱掘的裁揖聖構(gòu)數(shù) 據(jù) 存丄MAC116 億IMEI:2 億IDFA:1500萬(wàn)PHONE:4000萬(wàn)基于我們的業(yè)務(wù)架構(gòu),我們

4、抽象除了我們的數(shù)據(jù)架構(gòu),其中包含了許多主題,其 主題視圖如圖所示。圖中本體可以簡(jiǎn)單的理解為人,客體可以簡(jiǎn)單的理解為物; 本體與客體以各種形式進(jìn)行連接,這種連接是一種時(shí)間維度和空間維度上的交匯, 這種連接通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)和電信網(wǎng)絡(luò)完成。 本體在連接網(wǎng)絡(luò)中有自己的像,可以 簡(jiǎn)單的理解為虛擬身份(Avatars );客體在連接網(wǎng)絡(luò)中也有自己的像,例如維 基百科對(duì)某一事物的描述,再比如某一事物商業(yè)化后形成產(chǎn)品或服務(wù), 再經(jīng)過(guò)廣 告包裝成其廣告形象,這些都是其客像。本體與客體的交互實(shí)際上就是本像和客 像的交互,這種交互在時(shí)間和空間的維度上都會(huì)留下軌跡。本體的個(gè)體特征和群體特征,客體的個(gè)體特征和群體特征,本

5、客交互的所有軌跡, 所有這些主題形成的大數(shù)據(jù),經(jīng)過(guò)深度挖掘和學(xué)習(xí),可以得出強(qiáng)大的洞察力,這 種洞察力具有不可估量的商業(yè)價(jià)值。掌慧縱盈目前在本體域和交互域的數(shù)據(jù)體量:場(chǎng)站:10億ENT: 10億ADOS: 50億 億點(diǎn)APP : 1500萬(wàn) 每日新增用戶:2萬(wàn)技術(shù)選型接下來(lái)說(shuō)一下我們技術(shù)選型的思路。我認(rèn)為,沒(méi)有最好的技術(shù)架構(gòu),只有最合適的架構(gòu)。成功的IT規(guī)劃就是從業(yè)務(wù)架構(gòu)岀發(fā),針對(duì)其每一個(gè)業(yè)務(wù)場(chǎng)景,給岀最合適的技術(shù)架構(gòu)。功能需求首先來(lái)看我們的功能需求。以我們的廣告業(yè)務(wù)為例,目標(biāo)是日消息處理量達(dá)到100億條。其對(duì)大數(shù)據(jù)能力的要求如下:主懸日齟QPS壹湖范國(guó)H屈訟request10r000(000r

6、000115(741 (T-3flT-1H 90900,000,000,0001時(shí)request10,000X)00,000115(741 (T-1 年.T-3月)3651 砧 000.00比0002天bid3%300,000,0003,472 (13月,T-10)9027,000.000,0005秒bid3%300,000,0003,472 (T-1.» . T 3月)548164.400.000,0002天unbid97%9700.000,000112r269(T-3月,T-W分)9087OO0pQC0fQ005秒unbid97%9700.000001U269 (T-15年 t3

7、月)5485r3Bf600R000f0002天pv50%150,000,0001,736 (T 3 , F10&)9013,500000.0005杪pv50%150,000,0001736 (T-1.5 . T 3月)5489200.000,0002天dick5%7rS00p00087 (T-3月,Td吩)9067S.OOOrOOO5秒dick5%7,500,00087 (T-15年,IT月)5484J IQ.000.0002天behavior50%3750,00043 (T-3fl t T-10&)90337.500,0005秒bchdviur50%43 ( T-15 . T

8、-3fl )5482,055.000,0002天團(tuán)4廣告業(yè)務(wù)對(duì)大數(shù)據(jù)能力的要求假設(shè)記錄大小是 2KB,容納這些數(shù)據(jù)我們需要70PB的物理容量。對(duì)查詢范圍的要求,推導(dǎo)岀,離線計(jì)算的處理時(shí)長(zhǎng) 24小時(shí),在線計(jì)算10分鐘。非功能需求希望通過(guò)云平臺(tái)將基礎(chǔ)設(shè)施安裝運(yùn)維外包。*大數(shù)據(jù)技術(shù)日新月異,希組件版本能夠及時(shí)更新。* 外部商業(yè)環(huán)境迅速變化,希望計(jì)算資源可以動(dòng)態(tài)增減,以節(jié)約成本。* 希望以較低的成本獲取相對(duì)專業(yè)的安全服務(wù)。*盡量使用開(kāi)源組件,方便整體輸岀。產(chǎn)品選擇綜合考察國(guó)內(nèi)的云服務(wù)提供商,我們選擇了阿里云,尤其是其E-MapReduce 產(chǎn)品,購(gòu)買之后,集群馬上就創(chuàng)建好了,Hive, Spark,

9、HBase 等開(kāi)源大數(shù)據(jù)組件即刻可用。首先我們選擇數(shù)據(jù)存儲(chǔ)引擎。HiveRow25TB25T03,700轅霖宜詢只治加就遠(yuǎn)Col + Idr2 STS15TB10,445霧表査詞可車蘇.陸機(jī)柱線分折GrecnPlumMPP2ST025T0怏000多表査詢,完整SQL在線分析Log ServiceIdx2 STBSTB9750單表直洵,嗨應(yīng)福疋f含臥列冥時(shí)分忻tlaticSearchIdx2blBSOT 8J4PBSD輾色甸+閩應(yīng)鶴足全交煌索注:F lasticSearcyi需要額外站 人力戌本均100C/月圖5報(bào)據(jù)育儲(chǔ)引華的造癢我們以存儲(chǔ)25TB的數(shù)據(jù)為基準(zhǔn),考察各個(gè)選項(xiàng)的性能和價(jià)格。從圖中可

10、以看出, 針對(duì)離線分析來(lái)說(shuō),如果想用開(kāi)源組件,可以考慮 Hive on OSS勺模式,來(lái)存儲(chǔ) 近一年的數(shù)據(jù)。針對(duì)在線分析的場(chǎng)景,使用HBase存儲(chǔ)近三個(gè)月的數(shù)據(jù),可以獲 得很高的性價(jià)比,這個(gè)方案可以多表聯(lián)查,但是SQL的響應(yīng)對(duì)場(chǎng)景敏感,不同復(fù) 雜度的SQL響應(yīng)時(shí)間是不一樣的。如果希望響應(yīng)時(shí)間恒定,可以考慮基于索引的 方案,即日志服務(wù),缺點(diǎn)就是不能多表聯(lián)查;如果想使用開(kāi)源組件,可以自行在ECS上搭建ELK接下來(lái)我們選擇查詢引擎。我們使用一個(gè)基準(zhǔn) SQL,方便對(duì)其響應(yīng)時(shí)間進(jìn)行橫 向?qū)Ρ?,基?zhǔn)SQL如下圖所示:%sqlselect IdAdUnitId,count(1) , 20161120 fro

11、m(select distinct IdAdUnitIdf Userid from pv where IdAdUnitld is not nulland IdAdUnitId != 11and datadate = 20161121133) a group by a-IdAdUnitid;ffi 6若靈查詢引舉Hf用的基準(zhǔn)SQL使用各種直詢引篥茯得結(jié)耒的響應(yīng)周期如下HiveQL76sMapReduceSparkSQL23sSparkRDDPhoenix0.133sHBase (列存儲(chǔ))圖?響應(yīng)周期的驗(yàn)證結(jié)果結(jié)論是,使用Phoenix基于HBase進(jìn)行交互式查詢,可以獲得很滿意的響應(yīng)周期 選型部

12、分告一段,接下來(lái)給出大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)。技術(shù)架構(gòu)幵炭覇試環(huán)tn(分布董)存代碼車田農(nóng)辛驀?yán)順莿〗匀蝿?shì)冒度自動(dòng)匡團(tuán)軌共拿工"理ECSSS® ADSEiS*心黑賈幻土血祗女至DOost 護(hù)簾呂技術(shù)架幽麻覽大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)概覽如圖所示, 圖中幾乎所有的服務(wù)和功能都是通過(guò)阿里云產(chǎn)品來(lái)實(shí)現(xiàn)的, 其中開(kāi)發(fā)測(cè)試環(huán)境也是基于阿里云的 ECS搭建的。從圖中可以看出,我們并不需要關(guān)心機(jī)房的 電源、網(wǎng)絡(luò)、虛擬化、硬盤(pán)更換等一系列基礎(chǔ)設(shè)施問(wèn)題,直接基于云平臺(tái),專注于我們自己的業(yè) 務(wù)。產(chǎn)品使用中有一些心得,總結(jié)如下:E-MapReduce阿里云的E-MapReduce 是我們大數(shù)據(jù)平臺(tái)的核心產(chǎn)

13、品,其涵蓋了Hive, Spark, HBase, Storm等大數(shù)據(jù)領(lǐng)域核心的開(kāi)源組件,還有Phoenix. Presto 等業(yè)界前沿的查詢引擎,其Zeppelin. Hue等交互組件也是開(kāi)箱即用。E-MapReduce 不斷有新的版本發(fā)布,其中的組件版本也是不斷更新,但是已經(jīng)購(gòu)買的E-MapReduce 是無(wú)法方便的升級(jí)的,為了及時(shí)升級(jí)組件版本,我們采取包月而不是包年模式。包月到期,想要升級(jí),直接買新的,舊的不續(xù)費(fèi),自行銷毀。阿里的E-MapReduce只能增加節(jié)點(diǎn)不能減少節(jié)點(diǎn),通過(guò)上述的滾動(dòng)模式,還可以隨時(shí)調(diào)整集群規(guī)模和各種配置。上述的這種滾動(dòng)模式,對(duì)于計(jì)算集群來(lái)說(shuō)沒(méi)問(wèn)題,數(shù)據(jù)存儲(chǔ)怎么辦

14、呢?E-MapReduce 所用的機(jī)器配置都很高,用來(lái)存儲(chǔ)數(shù)據(jù)就可惜了,數(shù)據(jù)可以存儲(chǔ)在OSS上,使用Hive加載即可。不過(guò)要使用HBase還是要把數(shù)據(jù)存到 E-MapReduce 上,一但放到 E-MapReduce 上,這個(gè)集群就 不能隨意銷毀了。 所以,我們實(shí)踐當(dāng)中將數(shù)據(jù)集群和計(jì)算集群分開(kāi),計(jì)算集群可以隨時(shí)銷毀和升級(jí),數(shù)據(jù)集群需要長(zhǎng)期穩(wěn)定提供服務(wù)。這兩種的集群配置也是不一樣的,計(jì)算集群用SSD,主攻 快”數(shù)據(jù)集群(HBase )用高效云盤(pán),主攻大”那按量付費(fèi)呢,什么場(chǎng)景下使用?我們計(jì)算過(guò),如果計(jì)算時(shí)長(zhǎng)超過(guò)7天,那么還是直接購(gòu)買包月的集群比較劃算。按量付費(fèi)的集群可以用于臨時(shí)突發(fā)的計(jì)算任務(wù)。工

15、單管理使用阿里的云服務(wù),最吸引人的就是工單服務(wù)。由于我們的運(yùn)維團(tuán)隊(duì)會(huì)經(jīng)常遇到復(fù)雜且需要緊迫解決的問(wèn)題,團(tuán)隊(duì)成員可以直接通過(guò)工單請(qǐng)求阿里的工程師協(xié)助解決。溝通問(wèn)題的過(guò)程也是我們學(xué)習(xí)的過(guò)程,我們向阿里云服務(wù)的工程師們學(xué)到了不少的東西。軟件視圖 基于技術(shù)概覽,我們技術(shù)架構(gòu)中的軟件視圖如下所示:命*k宜EmyPdvqurtLogHUDI ogMtwindeedECS1Outer5叫LogrfarcherZeppelin圖g技犬課構(gòu)較件規(guī)至I一些使用心得總結(jié)如下:負(fù)載均衡SLB原來(lái),為了管理方便,我們好多云服務(wù)器ECS都開(kāi)通了外網(wǎng),但是實(shí)際使用率不高,外網(wǎng)帶寬的成本占用云服務(wù)器成本很大的一部分,現(xiàn)在我們

16、所有云服務(wù)器都去掉了外網(wǎng)帶寬,統(tǒng)一走負(fù)載均衡SLB,共享負(fù)載均衡 SLB的外網(wǎng)帶寬,包括 SSH等所有應(yīng)用的端口都是用負(fù)載均衡SLB轉(zhuǎn)發(fā)。負(fù)載均衡 SLB帶寬不受限制,速度上來(lái)了,成本下來(lái)了,算是我們對(duì)負(fù)載均衡SLB的一個(gè)活用。云服務(wù)器ECS由于我們的業(yè)務(wù)環(huán)境變化很快,有些機(jī)器可能今天還有用,明天就沒(méi)用了,所以我們采用包月加自動(dòng)續(xù)費(fèi)的模式,隨時(shí)增減機(jī)器,隨時(shí)增配減配。ONS也即阿里的日志服務(wù),阿里內(nèi)部叫MQ,其響應(yīng)時(shí)間很快,吞吐量很大,可以應(yīng)用于實(shí)時(shí)性非常高的場(chǎng)景,例如實(shí)時(shí)競(jìng)價(jià)。日志服務(wù)Log Service其包含 Logtail , LogStore, LogHub , LogShipper

17、 和 LogSearch 服務(wù),其中日志投遞(LogShipper ) 功能很有用,可以自動(dòng)將采集的日志投遞到對(duì)象存儲(chǔ)OSS,這樣就可以直接使用Hive加載了,不過(guò)目前只支持json格式。在我們的建議下,日志服務(wù)團(tuán)隊(duì)將會(huì)支持CSV,SequenceFile 和Parquet格式,預(yù)計(jì)于 2017年1月上線。Spark其官方給岀的例子和阿里幫助文檔里的例子都是基于Scala的,不過(guò)我們還是選擇了用Java進(jìn)行Spark應(yīng)用的開(kāi)發(fā),這樣我們開(kāi)發(fā)團(tuán)隊(duì)的組建會(huì)更加便利。如果能使用Java 8 ,那么從函數(shù)式編程方式尤其是lambda表達(dá)式的角度就十分接近Scala的表現(xiàn)能力了。 在我們的建議下,目前阿

18、里云新版本的 E-MapReduce 已經(jīng)支持了 Java 8。需要提一句,數(shù)據(jù)在大數(shù)據(jù)計(jì)算服務(wù) ODPS (現(xiàn)名稱 MaxCompute ),那也沒(méi)關(guān)系。E-MapReduce 提供SparkSQL服務(wù),可以無(wú)縫訪問(wèn)大數(shù)據(jù)計(jì)算服務(wù)ODPS數(shù)據(jù)。使用大數(shù)據(jù)計(jì)算服務(wù) ODPSStorm目前 E-MapReduce或者通過(guò)引導(dǎo)操作在的用戶也可以加入到 Spark生態(tài)體系中。從日志服務(wù)消費(fèi);已經(jīng)提供了 Storm組件,想要使用此組件,有兩個(gè)選擇:E-MapReduce 上安裝Kafka,支持增加節(jié)點(diǎn)。對(duì)象存儲(chǔ)OSS對(duì)象存儲(chǔ)OSS主要用于存儲(chǔ),與 E-MapReduce 結(jié)合,實(shí)現(xiàn)了計(jì)算與存儲(chǔ)的分離。

19、Zeppeli n這真的是一個(gè)好東西, 業(yè)務(wù)人員通過(guò)它,可以通過(guò) Web的形式使用 HiveQL, SparkSQL, Phoenix. Presto等對(duì)數(shù)據(jù)進(jìn)行探索式和交互式的查詢,而無(wú)需編程和登錄SSH,并且可以保存過(guò)往的查詢,還可以形成簡(jiǎn)單的柱狀圖餅圖。我們的DMP工程師再也不用為了某一個(gè)統(tǒng)計(jì)數(shù)字通宵寫(xiě)代碼了,業(yè)務(wù)人員自己就可以搞定。Phoe nixHBase本身是NoSQL數(shù)據(jù)庫(kù),結(jié)構(gòu)化查詢是其弱項(xiàng),我們就是有很多OLAP的需求,希望交互式出結(jié)果,原來(lái)的做法是自己創(chuàng)建HBase的二級(jí)索引,對(duì)非主鍵字段進(jìn)行跳轉(zhuǎn)查詢。后來(lái)發(fā)現(xiàn),E-MapReduce 上, Phoenix已經(jīng)為我們搭建好了

20、啊,其索引機(jī)制生成的 HBase索引表,不就是我們?cè)瓉?lái)手工創(chuàng)建的索引表嗎。于是全部轉(zhuǎn)向使用Phoenix進(jìn)行交互式查詢。E-MapReduce老版本的Phoenix的默認(rèn)查詢超時(shí)是 1分鐘,對(duì)我們來(lái)說(shuō)太短了,改參數(shù)又要重啟。在我們的 建議下,目前 E-MapReduce 新版本的Phoenix的默認(rèn)超時(shí)時(shí)長(zhǎng)已經(jīng)設(shè)置為半個(gè)小時(shí)了。場(chǎng)景舉例批量計(jì)算,LogTail + LogHub + LogShipper + OSS + Hive + SparkSQL批量計(jì)算重在采集,使用 LogTail配置好采集規(guī)則,通過(guò) LogShipper自動(dòng)投遞到OSS,使用 Hive直接加載形成數(shù)據(jù)倉(cāng)庫(kù),在 Zeppelin

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論