分析:大數(shù)據(jù)環(huán)境下如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層_第1頁(yè)
分析:大數(shù)據(jù)環(huán)境下如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層_第2頁(yè)
分析:大數(shù)據(jù)環(huán)境下如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【計(jì)算機(jī)論文】分析:大數(shù)據(jù)環(huán)境下如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層

發(fā)個(gè)牢騷,搞大數(shù)據(jù)的也得建設(shè)數(shù)據(jù)倉(cāng)庫(kù)吧。而且不管是傳統(tǒng)行業(yè)還是現(xiàn)在的互聯(lián)網(wǎng)公司,都需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)有一定的重視,而不是談一句自己是搞大數(shù)據(jù)的就很厲害了。數(shù)據(jù)倉(cāng)庫(kù)更多代表的是一種對(duì)數(shù)據(jù)的管理和使用的方式,它是一整套包括了etl、調(diào)度、建模在內(nèi)的完整的理論體系?,F(xiàn)在所謂的大數(shù)據(jù)更多的是一種數(shù)據(jù)量級(jí)的增大和工具的上的更新。兩者并無(wú)沖突,相反,而是一種更好的結(jié)合。話說(shuō),單純用用Hadoop、Spark、Flume處理處理數(shù)據(jù),其實(shí)只是學(xué)會(huì)幾種新的工具,這是搞工具的,只是在數(shù)據(jù)倉(cāng)庫(kù)中etl中的一部分。當(dāng)然,技術(shù)的更新往往能領(lǐng)到一個(gè)時(shí)代的變革,比如Hadoop的誕生,光是深入研究一個(gè)大數(shù)據(jù)組件就要花很大的時(shí)間和精力。但是在熱潮冷卻之后,我們更應(yīng)該考慮地是如何更好地管理和使用自己的數(shù)據(jù)。對(duì)于數(shù)據(jù)的從業(yè)者來(lái)講,要始終重視緊跟技術(shù)的變革,但是切記數(shù)據(jù)為王,在追求技術(shù)的極致的時(shí)候,不要忘了我們是搞數(shù)據(jù)的。文章主題吐槽完畢,本文主要講解數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要環(huán)節(jié):如何設(shè)計(jì)數(shù)據(jù)分層!本文對(duì)數(shù)據(jù)分層的討論適合下面一些場(chǎng)景,超過(guò)該范圍場(chǎng)景or數(shù)據(jù)倉(cāng)庫(kù)經(jīng)驗(yàn)豐富的大神就不必浪費(fèi)時(shí)間看了。數(shù)據(jù)建設(shè)剛起步,大部分的數(shù)據(jù)經(jīng)過(guò)粗暴的數(shù)據(jù)接入后就直接對(duì)接業(yè)務(wù)。數(shù)據(jù)建設(shè)發(fā)展到一定階段,發(fā)現(xiàn)數(shù)據(jù)的使用雜亂無(wú)章,各種業(yè)務(wù)都是從原始數(shù)據(jù)直接計(jì)算而得。各種重復(fù)計(jì)算,嚴(yán)重浪費(fèi)了計(jì)算資源,需要優(yōu)化性能。文章結(jié)構(gòu)最初在做數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候遇到了很多坑,由于自身資源有限,接觸數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,感覺(jué)在互聯(lián)網(wǎng)行業(yè)里面的數(shù)據(jù)倉(cāng)庫(kù)成功經(jīng)驗(yàn)很少,網(wǎng)上很難找到比較實(shí)踐性強(qiáng)的資料。而那幾本經(jīng)典書(shū)籍里面又過(guò)于理論,折騰起來(lái)真是生不如死。還好現(xiàn)在過(guò)去了那個(gè)坎,因此多花一些時(shí)間整理自己的思路,幫助其他的小伙伴少踩一些坑。為什么要分層?這個(gè)問(wèn)題被好幾個(gè)同學(xué)質(zhì)疑過(guò)。因此分層的價(jià)值還是要說(shuō)清楚的。分享一下經(jīng)典的數(shù)據(jù)分層模型,以及每一層的數(shù)據(jù)的作用和如何加工得來(lái)。分享兩個(gè)數(shù)據(jù)分層的設(shè)計(jì),通過(guò)這兩個(gè)實(shí)際的例子來(lái)說(shuō)明每一層該怎么存數(shù)據(jù)。給出一些建議,不是最好的,但是可以做參考。為什么要分層我們對(duì)數(shù)據(jù)進(jìn)行分層的一個(gè)主要原因就是希望在管理數(shù)據(jù)的時(shí)候,能對(duì)數(shù)據(jù)有一個(gè)更加清晰的掌控,詳細(xì)來(lái)講,主要有下面幾個(gè)原因:清晰數(shù)據(jù)結(jié)構(gòu):每一個(gè)數(shù)據(jù)分層都有它的作用域,這樣我們?cè)谑褂帽淼臅r(shí)候能更方便地定位和理解。數(shù)據(jù)血緣追蹤:簡(jiǎn)單來(lái)講可以這樣理解,我們最終給業(yè)務(wù)誠(chéng)信的是一能直接使用的張業(yè)務(wù)表,但是它的來(lái)源有很多,如果有一張來(lái)源表出問(wèn)題了,我們希望能夠快速準(zhǔn)確地定位到問(wèn)題,并清楚它的危害范圍。減少重復(fù)開(kāi)發(fā):規(guī)范數(shù)據(jù)分層,開(kāi)發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。把復(fù)雜問(wèn)題簡(jiǎn)單化。講一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來(lái)完成,每一層只處理單一的步驟,比較簡(jiǎn)單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問(wèn)題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問(wèn)題的步驟開(kāi)始修復(fù)。屏蔽原始數(shù)據(jù)的異常。屏蔽業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論