互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的架構(gòu)_第1頁(yè)
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的架構(gòu)_第2頁(yè)
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的架構(gòu)_第3頁(yè)
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的架構(gòu)_第4頁(yè)
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)的架構(gòu)互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)平臺(tái)的用途1)整合公司所有業(yè)務(wù)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)中心;2)提供各種報(bào)表,有給高層的,有給各個(gè)業(yè)務(wù)的;3)為網(wǎng)站或APP運(yùn)營(yíng)提供運(yùn)營(yíng)上的數(shù)據(jù)支持,就是通過(guò)數(shù)據(jù),讓運(yùn)營(yíng)及時(shí)了解網(wǎng)站和產(chǎn)品4)為各個(gè)業(yè)務(wù)提供線上或線下的數(shù)據(jù)支持,成為公司統(tǒng)一的數(shù)據(jù)交換與提供平臺(tái);5)分析用戶行為數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本,提高投入效果;比如廣告定向精準(zhǔn)6)開發(fā)數(shù)據(jù)產(chǎn)品,直接或間接為公司盈利;7)建設(shè)開放數(shù)據(jù)平臺(tái),開放公司數(shù)據(jù);上面列出的內(nèi)容看上去和傳統(tǒng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)用途差不多,并且都要求數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平但在互聯(lián)網(wǎng)行業(yè),除了數(shù)據(jù)量大之外,越來(lái)越多的業(yè)務(wù)要求時(shí)效性,甚至很多是要求實(shí)時(shí)的,另外,互聯(lián)網(wǎng)行業(yè)的業(yè)務(wù)變化非???,不可能像傳統(tǒng)行業(yè)一樣,可以使用自頂向下如果一上來(lái)就想著建立一套能兼容所有數(shù)據(jù)和業(yè)務(wù)的數(shù)據(jù)模型,那就又回到傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的務(wù)進(jìn)行深度建模(比如:基于網(wǎng)站日志建立的網(wǎng)站統(tǒng)計(jì)分析模型和用戶瀏覽軌跡模型;基于公司核心用戶數(shù)據(jù)建立的用戶模型),其它的業(yè)務(wù)一般都采用維度+寬表的方式來(lái)建立數(shù)據(jù)模型。整體架構(gòu)可能叫法有所不同,本質(zhì)上的角色都大同小異。我們從下往上看數(shù)據(jù)采集數(shù)據(jù)采集層的任務(wù)就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲(chǔ)到數(shù)據(jù)存儲(chǔ)上,期間可能會(huì)做一些簡(jiǎn)單的清洗。作為互聯(lián)網(wǎng)行業(yè),網(wǎng)站日志占的份額最大,網(wǎng)站日志存儲(chǔ)在多臺(tái)網(wǎng)站日志服務(wù)一般是在每臺(tái)網(wǎng)站日志服務(wù)器上部署,實(shí)時(shí)的收集網(wǎng)站日志并存儲(chǔ)到上;我們迫切的需要一種能從各種數(shù)據(jù)庫(kù)中將數(shù)據(jù)同步到上的工具,是一而且需要集群的每臺(tái)機(jī)器都能訪問(wèn)業(yè)務(wù)數(shù)據(jù)庫(kù);應(yīng)對(duì)此場(chǎng)景,淘寶開源的,是一個(gè)很好的解決方案有資源的話,可以基于之上做二次開發(fā),就。有可能一些合作伙伴提供的數(shù)據(jù),需要通過(guò)比如一些手工錄入的數(shù)據(jù),只需要提供一個(gè)接口或小程序,即可完成;數(shù)據(jù)存儲(chǔ)于分析毋庸置疑,HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。ORC文件存儲(chǔ)格式;非常方多,一句SQL可以完成的需求,開發(fā)MR可能需要上百行代碼;當(dāng)然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很樂意開發(fā)數(shù)據(jù)共享實(shí)就是關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù);但大多業(yè)務(wù)和應(yīng)用不可能直接從上獲取數(shù)據(jù),那么就需要一個(gè)數(shù)據(jù)共享的地方,使得各業(yè)務(wù)和產(chǎn)品能方便的獲取數(shù)據(jù);和數(shù)據(jù)采集層到將數(shù)據(jù)同步至其他目另外,一些實(shí)時(shí)計(jì)算的結(jié)果數(shù)據(jù)可能由實(shí)時(shí)計(jì)算模塊直接寫入數(shù)據(jù)共享。數(shù)據(jù)應(yīng)用業(yè)務(wù)產(chǎn)品報(bào)表人員、甚至是部門老大,他們都有即席查詢數(shù)據(jù)的需求;數(shù)據(jù)存儲(chǔ)層直接查詢。即席查詢一般是通過(guò)SQL完成,最大的難度在于響應(yīng)速度上,使用Hive有點(diǎn)慢,目前目前,很多的OLAP工具不能很好的支持從HDFS上直接獲取數(shù)據(jù),都是通過(guò)將需要的數(shù)據(jù)同步到關(guān)系型數(shù)據(jù)庫(kù)中做OLAP,但如果數(shù)據(jù)量巨大的話,關(guān)系型數(shù)據(jù)庫(kù)顯然取數(shù)據(jù)來(lái)展示。其它數(shù)據(jù)接口的,所有的業(yè)務(wù)都可以調(diào)用這個(gè)接口來(lái)獲取用戶屬性。實(shí)時(shí)計(jì)算實(shí)時(shí)的獲取一個(gè)廣告的曝光和點(diǎn)擊;在海量數(shù)據(jù)下,依靠傳統(tǒng)數(shù)據(jù)庫(kù)和傳統(tǒng)實(shí)現(xiàn)方法基Storm,JStorm,SparkStreaming等實(shí)時(shí)框架已經(jīng)非常成熟了。志和廣告日志,實(shí)時(shí)的發(fā)送給Storm,JStorm,SparkStreaming,由實(shí)時(shí)計(jì)算框架完成統(tǒng)任務(wù)調(diào)度與監(jiān)控在數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)中,有各種各樣非常多的程序和任務(wù),比如:數(shù)據(jù)采集任務(wù)、數(shù)析任務(wù)等;相應(yīng)的數(shù)據(jù)采集任務(wù)完成后才能開始;數(shù)據(jù)同步任務(wù)需要等數(shù)據(jù)分析任務(wù)完成后才能開

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論