版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)的架構(gòu)互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)平臺(tái)的用途1)整合公司所有業(yè)務(wù)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)中心;2)提供各種報(bào)表,有給高層的,有給各個(gè)業(yè)務(wù)的;3)為網(wǎng)站或APP運(yùn)營(yíng)提供運(yùn)營(yíng)上的數(shù)據(jù)支持,就是通過(guò)數(shù)據(jù),讓運(yùn)營(yíng)及時(shí)了解網(wǎng)站和產(chǎn)品4)為各個(gè)業(yè)務(wù)提供線上或線下的數(shù)據(jù)支持,成為公司統(tǒng)一的數(shù)據(jù)交換與提供平臺(tái);5)分析用戶行為數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本,提高投入效果;比如廣告定向精準(zhǔn)6)開發(fā)數(shù)據(jù)產(chǎn)品,直接或間接為公司盈利;7)建設(shè)開放數(shù)據(jù)平臺(tái),開放公司數(shù)據(jù);上面列出的內(nèi)容看上去和傳統(tǒng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)用途差不多,并且都要求數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平但在互聯(lián)網(wǎng)行業(yè),除了數(shù)據(jù)量大之外,越來(lái)越多的業(yè)務(wù)要求時(shí)效性,甚至很多是要求實(shí)時(shí)的,另外,互聯(lián)網(wǎng)行業(yè)的業(yè)務(wù)變化非???,不可能像傳統(tǒng)行業(yè)一樣,可以使用自頂向下如果一上來(lái)就想著建立一套能兼容所有數(shù)據(jù)和業(yè)務(wù)的數(shù)據(jù)模型,那就又回到傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的務(wù)進(jìn)行深度建模(比如:基于網(wǎng)站日志建立的網(wǎng)站統(tǒng)計(jì)分析模型和用戶瀏覽軌跡模型;基于公司核心用戶數(shù)據(jù)建立的用戶模型),其它的業(yè)務(wù)一般都采用維度+寬表的方式來(lái)建立數(shù)據(jù)模型。整體架構(gòu)可能叫法有所不同,本質(zhì)上的角色都大同小異。我們從下往上看數(shù)據(jù)采集數(shù)據(jù)采集層的任務(wù)就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲(chǔ)到數(shù)據(jù)存儲(chǔ)上,期間可能會(huì)做一些簡(jiǎn)單的清洗。作為互聯(lián)網(wǎng)行業(yè),網(wǎng)站日志占的份額最大,網(wǎng)站日志存儲(chǔ)在多臺(tái)網(wǎng)站日志服務(wù)一般是在每臺(tái)網(wǎng)站日志服務(wù)器上部署,實(shí)時(shí)的收集網(wǎng)站日志并存儲(chǔ)到上;我們迫切的需要一種能從各種數(shù)據(jù)庫(kù)中將數(shù)據(jù)同步到上的工具,是一而且需要集群的每臺(tái)機(jī)器都能訪問(wèn)業(yè)務(wù)數(shù)據(jù)庫(kù);應(yīng)對(duì)此場(chǎng)景,淘寶開源的,是一個(gè)很好的解決方案有資源的話,可以基于之上做二次開發(fā),就。有可能一些合作伙伴提供的數(shù)據(jù),需要通過(guò)比如一些手工錄入的數(shù)據(jù),只需要提供一個(gè)接口或小程序,即可完成;數(shù)據(jù)存儲(chǔ)于分析毋庸置疑,HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。ORC文件存儲(chǔ)格式;非常方多,一句SQL可以完成的需求,開發(fā)MR可能需要上百行代碼;當(dāng)然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很樂意開發(fā)數(shù)據(jù)共享實(shí)就是關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù);但大多業(yè)務(wù)和應(yīng)用不可能直接從上獲取數(shù)據(jù),那么就需要一個(gè)數(shù)據(jù)共享的地方,使得各業(yè)務(wù)和產(chǎn)品能方便的獲取數(shù)據(jù);和數(shù)據(jù)采集層到將數(shù)據(jù)同步至其他目另外,一些實(shí)時(shí)計(jì)算的結(jié)果數(shù)據(jù)可能由實(shí)時(shí)計(jì)算模塊直接寫入數(shù)據(jù)共享。數(shù)據(jù)應(yīng)用業(yè)務(wù)產(chǎn)品報(bào)表人員、甚至是部門老大,他們都有即席查詢數(shù)據(jù)的需求;數(shù)據(jù)存儲(chǔ)層直接查詢。即席查詢一般是通過(guò)SQL完成,最大的難度在于響應(yīng)速度上,使用Hive有點(diǎn)慢,目前目前,很多的OLAP工具不能很好的支持從HDFS上直接獲取數(shù)據(jù),都是通過(guò)將需要的數(shù)據(jù)同步到關(guān)系型數(shù)據(jù)庫(kù)中做OLAP,但如果數(shù)據(jù)量巨大的話,關(guān)系型數(shù)據(jù)庫(kù)顯然取數(shù)據(jù)來(lái)展示。其它數(shù)據(jù)接口的,所有的業(yè)務(wù)都可以調(diào)用這個(gè)接口來(lái)獲取用戶屬性。實(shí)時(shí)計(jì)算實(shí)時(shí)的獲取一個(gè)廣告的曝光和點(diǎn)擊;在海量數(shù)據(jù)下,依靠傳統(tǒng)數(shù)據(jù)庫(kù)和傳統(tǒng)實(shí)現(xiàn)方法基Storm,JStorm,SparkStreaming等實(shí)時(shí)框架已經(jīng)非常成熟了。志和廣告日志,實(shí)時(shí)的發(fā)送給Storm,JStorm,SparkStreaming,由實(shí)時(shí)計(jì)算框架完成統(tǒng)任務(wù)調(diào)度與監(jiān)控在數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)中,有各種各樣非常多的程序和任務(wù),比如:數(shù)據(jù)采集任務(wù)、數(shù)析任務(wù)等;相應(yīng)的數(shù)據(jù)采集任務(wù)完成后才能開始;數(shù)據(jù)同步任務(wù)需要等數(shù)據(jù)分析任務(wù)完成后才能開
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 版權(quán)買賣合同文本
- 建筑石灰石購(gòu)銷合同
- 壽光金屬聲屏障施工方案
- 軟件功能改進(jìn)協(xié)議
- 工傷補(bǔ)償保證書
- 管道設(shè)備采購(gòu)協(xié)議
- 商場(chǎng)高效供暖招標(biāo)文件
- 無(wú)抵押借款合同注意事項(xiàng)
- 鮮活農(nóng)產(chǎn)品運(yùn)輸協(xié)議
- 專業(yè)勞務(wù)中介服務(wù)合同
- 2024-2025學(xué)年人教版七年級(jí)地理上冊(cè)知識(shí)清單
- 倉(cāng)庫(kù)防腐除銹措施方案
- 2.1世界氣溫與降水的變化和分布(課件)八年級(jí)地理上冊(cè)(中圖版北京)
- 江蘇省鹽城市濱??h2024屆九年級(jí)上學(xué)期期中考試數(shù)學(xué)試卷(含答案)
- 黑龍江哈爾濱歷年中考語(yǔ)文現(xiàn)代文閱讀真題56篇(含答案)(2003-2023)
- 《初心與使命-時(shí)代的美術(shù)擔(dān)當(dāng)》參考課件3
- 3.2 代數(shù)式的值第2課時(shí)(課件)-2024-2025學(xué)年七年級(jí)數(shù)學(xué)上冊(cè)(人教版2024)
- 2024年湖北省中考道德與法治真題含解析
- 品牌專員招聘面試題與參考回答(某大型集團(tuán)公司)
- 四年級(jí)數(shù)學(xué)人教版(上冊(cè))第1課時(shí)口算除法(課件)
- 教科版小學(xué)科學(xué)三年級(jí)上冊(cè)單元測(cè)試題附答案(全冊(cè))
評(píng)論
0/150
提交評(píng)論