數(shù)據(jù)倉庫面試題_第1頁
數(shù)據(jù)倉庫面試題_第2頁
數(shù)據(jù)倉庫面試題_第3頁
數(shù)據(jù)倉庫面試題_第4頁
數(shù)據(jù)倉庫面試題_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫面試題

問題1:inexists的區(qū)別notin和notexists的區(qū)別?

答案:n是一個集合運算符.ain{a,c,d,s,d…}這個運算中,前面是一個元素,

后面是一個集合,集合中的元素類型是和前面的元素一樣的.而exists是一個存在

判斷,如果后面的查詢中有結(jié)果,則exists為真,否則為假。

notin和notexists如果查詢語句使用了notin那么內(nèi)外表都進行全表掃描,

沒有用到索引;而notextsts的子查詢依然能用到表上的索引。所以無論那個表

大,用notexists都比notin要快。

總之:

盡量使用notexist,避免使用notin

notin會默認調(diào)用子查詢

notexist會調(diào)用關(guān)聯(lián)子查詢

問題2:拉鏈表知道么?

答案:拉鏈表就是隨著時間變遷產(chǎn)生歷史數(shù)據(jù)。

拉鏈表的含義:就是記錄歷史。記錄一個事務(wù)從開始一直到當(dāng)前狀態(tài)的所有變化信

息。

問題3:數(shù)倉三層架構(gòu),具體每層作用?

答案:

1:數(shù)據(jù)訪問層:主要是對非原始數(shù)據(jù)(數(shù)據(jù)庫或者文本文件等存放數(shù)據(jù)的形式)

的操作層,而不是指原始數(shù)據(jù),也就是說,是對數(shù)據(jù)庫的操作,而不是數(shù)據(jù),具體

為業(yè)務(wù)邏輯層或表示層提供數(shù)據(jù)服務(wù)。

2:業(yè)務(wù)邏輯層:主要是針對具體的問題的操作,也可以理解成對數(shù)據(jù)層的操作,

對數(shù)據(jù)業(yè)務(wù)邏輯處理,如果說數(shù)據(jù)層是積木,那邏輯層就是對這些積木的搭建。

3:界面層:主要表示W(wǎng)EB方式,也可以表示成WINFORM方式,WEB方式也可以表現(xiàn)

成:aspx,如果邏輯層相當(dāng)強大和完善,無論表現(xiàn)層如何定義和更改,邏輯層都能

完善地提供服務(wù)。

問題4:為什么叫星型模型和雪花模型?

答案:

星型模型是:多維表的數(shù)據(jù)關(guān)系,它由一個事實表和一組維表組成,每個維作為主

雪花模型是:當(dāng)一個或多個維沒有直接連接到事實表上,而是通過其他維表連接到

事實表上的時候,其圖解就像雪花模型連接在一起、

使用場景:雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客

戶或者公司是在線的?”星形模型用來做指標(biāo)分析更適合,比如“給定的一個客戶

他們的收入是多少?”

問題5:星型模型和雪花模型各自的優(yōu)點?

答案:

概念一一根據(jù)事實表和維度表的關(guān)系,可將常見的模型分為星型模型和雪花模型。

在數(shù)據(jù)倉庫的建設(shè)中,一般都會圍繞著這兩種模型來設(shè)計表關(guān)系或者結(jié)構(gòu)。那么什

么是事實表和維度表呢?在維度建模中,將度量稱為“事實”,將環(huán)境描述為“維

度”。維度是用于分析事實所需要的多樣環(huán)境。例如,在分析交易過程時,可以通

過買家、賣家、商品和時間等維度描述交易發(fā)生的環(huán)境。事實則緊緊圍繞著業(yè)務(wù)過

程來設(shè)計,通過獲取描述業(yè)務(wù)過程的度量來表達業(yè)務(wù)過程,包含了引用的維度和與

業(yè)務(wù)過程有關(guān)的度量。例如訂單作為交易行為的核心載體,直觀反映了交易的狀況。

訂單的流轉(zhuǎn)會產(chǎn)生很多業(yè)務(wù)過程,而下單、支付和成功完結(jié)三個業(yè)務(wù)過程是整個訂

單的關(guān)鍵節(jié)點。獲取這三個業(yè)務(wù)過程的筆數(shù)、金額以及轉(zhuǎn)化率是日常數(shù)據(jù)統(tǒng)計分析

的重點,事務(wù)事實表設(shè)計可以很好地滿足這個需求。

當(dāng)所有維表都直接連接到事實表上時,整個圖解就像星星一樣,故將該模型稱為星

型模型。

星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個維度都直接與事實表相連

接,不存在漸變維度,所以數(shù)據(jù)有一點的冗余。如在地域維度表中,存在國家A省

B的城市C以及國家A省B的城市D兩條記錄,那么國家A和省B的信息

分別存儲了兩次,即存在冗余。

品B

品W

星型模型強調(diào)的是對維度進行預(yù)處理,將多個維度集合到一個事實表,形成一個寬

表。這也是我們在使用hive時,經(jīng)常會看到一些大寬表的原因,大寬表一般都是

事實表,包含了維度關(guān)聯(lián)的主鍵和一些度量信息,而維度表則是事實表里面維度的

具體信息,使用時候一般通過join來組合數(shù)據(jù),相對來說對OLAP的分析比較方便。

當(dāng)有一個或多個維表沒有直接連接到事實表上,而是通過其他維度表連接到事實表

上時,其圖解就像多個雪花連接在一起,故稱雪花模型。

雪花模型是對星型模型的擴展,它對星型模型的維表進一步層次化,原有的各維表

可能被擴展為小的事實表,形成一些局部的〃層次”區(qū)域,這些被分解的表都連

接到主維度表而不是事實表。如將地域維表分解為國家,省份,城市等維表。它的

優(yōu)點是:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能,去

除了數(shù)據(jù)冗余,但是在分析數(shù)據(jù)的時候,操作比較復(fù)雜,需要.join的表比較多所

以其性能并不一定比星型模型高。

■*9

”0

區(qū)別及優(yōu)缺點

星型模型因為數(shù)據(jù)的冗余所以很多統(tǒng)計查詢不需要做外部的連接,因此一般情況下

效率比雪花模型要高。

星型模型不用考慮很多正規(guī)化的因素,設(shè)計與實現(xiàn)都比較簡單。

雪花模型由于去除了冗余,有些統(tǒng)計就需要通過表的連接才能產(chǎn)生,所以效率不一

定有星型模型高。

正規(guī)化也是一種比較復(fù)雜的過程,相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計、數(shù)據(jù)的ETL、以及后期

的維護都要復(fù)雜一些。因此在冗余可以接受的前提下,實際運用中星型模型使用更

多,也更有效率。

屬性星型模型孰耀

數(shù)據(jù)總量多少

可讀性容易差

表個數(shù)少多

查詢速度快慢

冗余度高低

對實時表的情況增加寬度字段比較少,冗余底

擴展性左好

什么時候使用雪花模型?

RalphKimball,數(shù)據(jù)倉庫大師,講述了三個例子。對于三個例子,使用雪花模型

不僅僅是可接受的,而且可能是一個成功設(shè)計的關(guān)鍵。

1、一個用戶維度表且數(shù)據(jù)量較大。其中,80%的事實度量表是匿名訪問者,僅包含

少數(shù)詳細信息。20%的是可靠的注冊用戶,且這些注冊用戶有較為詳細的信息,與

多個維度表中的數(shù)據(jù)相連。

2、例如一個金融產(chǎn)品維度表,且這些金融產(chǎn)品有銀行類的,保險類等等區(qū)別。因

此不同種類的產(chǎn)品有自己一系列的特殊屬性,且這些屬性并非是所有產(chǎn)品共享的。

3、多個企業(yè)共用的日歷維度表。但每個企業(yè)的財政周期不同,節(jié)假日不同等等。

在數(shù)據(jù)倉庫的環(huán)境中用雪花模型,降低儲存的空間,到了具體某個主題的數(shù)據(jù)集市

再用星型模型。

雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客戶或者公司

是在線的?",星形模型用來做指標(biāo)分析更適合,比如“給定的一個客戶他們的收

入是多少?”

總結(jié)

通過上面的對比我們可以發(fā)現(xiàn),在數(shù)據(jù)倉庫建設(shè)中大多時候比較適合使用星型模型

構(gòu)建底層數(shù)據(jù)Hive表,通過大量的冗余來提升查詢效率,星型模型對OLAP的分析

引擎支持比較友好,這一點在Kylin中比較能體現(xiàn)。而雪花模型在關(guān)系型數(shù)據(jù)庫中

如MySQL,Oracle中非常常見,尤其像電商的數(shù)據(jù)庫表。在數(shù)據(jù)倉庫中雪花模型的

應(yīng)用場景比較少,但也不是沒有,所以在具體設(shè)計的時候,可以考慮是不是能結(jié)合

兩者的優(yōu)點參與設(shè)計,以此達到設(shè)計的最優(yōu)化目的。

問題6:什么是緩慢變化維

答案:緩慢變化維

1.緩慢變化維在數(shù)據(jù)倉庫中,有個概念叫緩慢變化維,經(jīng)常簡寫為SCD,

2.緩慢變化維的提出是因為現(xiàn)實世界中,維度的屬性并不是靜態(tài)的,它會隨時間的

流失發(fā)生緩慢的變化。這種隨著時間變化的我們稱之為緩慢變化維。

問題7:如果現(xiàn)在有一千張表從一個庫到另外一個庫的ODS層,你會怎么做?

答案:利用消息隊列做數(shù)據(jù)訂閱發(fā)布

問題8:'2019-04-12'取周幾

答案:weekofyear

問題9:說說數(shù)倉分層?

答案:

、數(shù)據(jù)倉片分U

ODSVJ:除除數(shù)據(jù)層?。故,―期,I'l接加我竦始H3、數(shù)據(jù),數(shù)據(jù)保持原權(quán)不做處庠.

DWD晶結(jié)構(gòu)和粒度與原始表保持ft.HQDSJ',;,,';”修,.??;,",.

10過極限危國的數(shù)據(jù))

以DWD為及礎(chǔ)?/?'『:I

ADSjg.力A種統(tǒng)計報要/供數(shù)州

問題10:為什么要對數(shù)倉進行分層?

答案

八數(shù)據(jù)倉片為什么要分公

I)把復(fù)雜向遨筒中化

將個乂雜的;分分二成多個步舞來完成,悔星只處理單一的步舞?比較脩單、井J1方便定位向1

,2)M少幣復(fù)開發(fā)

規(guī)范數(shù)據(jù)分層,通過的中佃—能銘通少極大的用復(fù)計Y-次計?結(jié)果的V"H:

,3)隔向原始數(shù)據(jù)

不論是數(shù)據(jù)的界常還是數(shù)據(jù)的收感性,使其實數(shù)據(jù)9統(tǒng)計數(shù)據(jù),桐開.

問題11:說說你對數(shù)據(jù)倉庫的理解?

答案:數(shù)據(jù)倉庫是面向主題進行組織的,數(shù)據(jù)是集成的、不可更新的、隨時間變化

的的。數(shù)據(jù)倉庫經(jīng)歷了這樣三個階段:簡單報表階段、數(shù)據(jù)集市階段、數(shù)據(jù)倉庫階

段。

問題12:數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別?

數(shù)據(jù)庫:是一種邏輯概念,用來存放數(shù)據(jù)的倉庫,通過數(shù)據(jù)庫軟件來實現(xiàn)。數(shù)據(jù)庫

由很多表組成,表是二維的,一張表里可以有很多字段。

數(shù)據(jù)倉庫:是數(shù)據(jù)庫概念的升級。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都

是通過數(shù)據(jù)庫軟件實現(xiàn)存放數(shù)據(jù)的地方,但是從數(shù)據(jù)量來講數(shù)據(jù)倉庫比數(shù)據(jù)庫更龐

大些。數(shù)據(jù)倉庫的主要作用用于數(shù)據(jù)挖掘、數(shù)據(jù)分析,輔助領(lǐng)導(dǎo)來做決策的。

區(qū)別:實際上二者之間講的是OLTP和nAP

操作型處理OLTP:它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機的日常操作,通常對少數(shù)記錄

進行查詢、修改。分析型處理OLAP:一般針對某些主題的歷史數(shù)據(jù)進行分析,支

持管理決策。

問題13:如何構(gòu)建數(shù)據(jù)倉庫?

答案:數(shù)據(jù)倉庫模型的選擇是靈活的,不局限與某種模型方法;數(shù)據(jù)倉庫數(shù)據(jù)是靈

活的,以實際需求場景為導(dǎo)向;數(shù)倉設(shè)計要兼顧靈活性、可擴展性、要考慮技術(shù)可

靠性和實現(xiàn)成本

1)調(diào)研:業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研

2)劃分主題域:通過業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研最終確定主題域

3)構(gòu)建總線矩陣、維度建模

總線矩陣:把總線架構(gòu)列表形成矩陣形式,行表示業(yè)務(wù)處理過程,即事實,列表示

一致性的維度,在交叉點上打上標(biāo)記表示該業(yè)務(wù)處理過程與該維度相關(guān)(交叉探查)

4)設(shè)計數(shù)倉分層架構(gòu)

5)模型落地

6)數(shù)據(jù)治理

問題14:什么是數(shù)據(jù)中臺?

答案:數(shù)據(jù)中臺是通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時

統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標(biāo)準(zhǔn)數(shù)據(jù),再進行存儲,形成

大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務(wù)。這些服務(wù)和企業(yè)的業(yè)務(wù)有較強關(guān)聯(lián)性,

是企業(yè)所獨有且能復(fù)用的,他是企業(yè)業(yè)務(wù)和數(shù)據(jù)的積淀,其不僅能降低重復(fù)建設(shè),

減少煙囪式協(xié)助的成本,也是差異化競爭的優(yōu)勢所在。

數(shù)據(jù)中臺是通過整合公司開發(fā)工具、打通全域數(shù)據(jù)、讓數(shù)據(jù)持續(xù)為業(yè)務(wù)賦能,實現(xiàn)

數(shù)據(jù)平臺化、數(shù)據(jù)服務(wù)化和數(shù)據(jù)價值化。數(shù)據(jù)中臺更加側(cè)重于“復(fù)用”和“業(yè)務(wù)”。

問題15:數(shù)據(jù)中臺、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)湖的關(guān)鍵區(qū)別是什么?

答案:

1)基礎(chǔ)能力上的區(qū)別

數(shù)據(jù)平臺:提供的是計算和存儲能力

數(shù)據(jù)倉庫:利用數(shù)據(jù)平臺提供的計算和存儲能力,在一套方法論的指導(dǎo)下建設(shè)的一

整套的數(shù)據(jù)表

數(shù)據(jù)中臺:包含了數(shù)據(jù)平臺和數(shù)據(jù)倉庫的所有內(nèi)容,將其打包,并且以更加整合以

及更加產(chǎn)品化的方式對外提供服務(wù)和價值

數(shù)據(jù)湖:一個存儲企業(yè)各種各樣原始數(shù)據(jù)的大型倉庫,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),

其中湖里的數(shù)據(jù)可供存取、處理、分析和傳輸

2)業(yè)務(wù)能力上的區(qū)別

數(shù)據(jù)平臺:為業(yè)務(wù)提供數(shù)據(jù)主要方式是提供數(shù)據(jù)集

數(shù)據(jù)倉庫:相對具體的功能概念是存儲和管理一個或多個主題數(shù)據(jù)的集合,為業(yè)務(wù)

提供服務(wù)的方式主要是分析報表

數(shù)據(jù)中臺:企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)產(chǎn)生價值的能力,為業(yè)務(wù)提供服務(wù)的

主要方式是數(shù)據(jù)API

數(shù)據(jù)湖:數(shù)據(jù)倉庫的數(shù)據(jù)來源

總的來說,數(shù)據(jù)中臺距離業(yè)務(wù)更近,數(shù)據(jù)復(fù)用能力更強,能為業(yè)務(wù)提供速度更快的

服務(wù),數(shù)據(jù)中臺在數(shù)據(jù)倉庫和數(shù)據(jù)平臺的基礎(chǔ)上,將數(shù)據(jù)生產(chǎn)為一個個數(shù)據(jù)API服

務(wù),以更高效的方式提供給業(yè)務(wù)。數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,

是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的過程的中間層。

問題16:大數(shù)據(jù)有哪些相關(guān)的系統(tǒng)?

答案:

數(shù)倉設(shè)計中心:按照主題域、業(yè)務(wù)過程,分層的設(shè)計方式,以維度建模作為基本理

論依據(jù),按照維度、度量設(shè)計模型,確保模型、字段有統(tǒng)一的命名規(guī)范

數(shù)據(jù)資產(chǎn)中心:梳理數(shù)據(jù)資產(chǎn),基于數(shù)據(jù)血緣,數(shù)據(jù)的訪問熱度,做成本的治理

數(shù)據(jù)質(zhì)量中心:通過豐富的稽查監(jiān)控系統(tǒng),對數(shù)據(jù)進行事后校驗,確保問題數(shù)據(jù)第

一時間被發(fā)現(xiàn),避免下游的無效計算,分析數(shù)據(jù)的影響范圍。

指標(biāo)系統(tǒng):管理指標(biāo)的業(yè)務(wù)口徑、計算邏輯和數(shù)據(jù)來源,通過流程化的方式,建立

從指標(biāo)需求、指標(biāo)開發(fā)、指標(biāo)發(fā)布的全套協(xié)作流程

數(shù)據(jù)地圖:提供元數(shù)據(jù)的快速索引,數(shù)據(jù)字典、數(shù)據(jù)血緣、數(shù)據(jù)特征信息的查詢,

相當(dāng)于元數(shù)據(jù)中心的門戶。

問題17:如何建設(shè)數(shù)據(jù)中臺?

答案:數(shù)據(jù)中臺在企業(yè)落地實踐時,結(jié)合技術(shù)、產(chǎn)品、數(shù)據(jù)、服務(wù)、運營等方面,

逐步開展相關(guān)工作

1)理現(xiàn)狀:了解業(yè)務(wù)現(xiàn)狀、數(shù)據(jù)現(xiàn)狀、IT現(xiàn)狀、現(xiàn)有的組織架構(gòu)

2)定架構(gòu):確認業(yè)務(wù)架構(gòu)、技術(shù)架構(gòu)、應(yīng)用架構(gòu)、組織架構(gòu)

3)建資產(chǎn):建立貼近數(shù)據(jù)層、統(tǒng)一數(shù)倉層、標(biāo)簽數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層

4)用數(shù)據(jù):對數(shù)據(jù)進行輸出、應(yīng)用

5)數(shù)據(jù)運營:持續(xù)運營、持續(xù)迭代

中臺建設(shè)需要有全員共識,由管理層從上往下推進,由技術(shù)和業(yè)務(wù)人員去執(zhí)行和落

地是一個漫長的過程,在實施數(shù)據(jù)中臺時,最困難的地方就是需要有人推動。

問題18:數(shù)據(jù)倉庫最重要的是什么?

答案:個人認為是數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量。企業(yè)的數(shù)據(jù)通常存儲在多個異構(gòu)數(shù)據(jù)庫中,

要進行分析,必須對數(shù)據(jù)進行一致性整合,整合后才能對數(shù)據(jù)進行分析挖掘出潛在

的價值;數(shù)據(jù)質(zhì)量必須有保障,數(shù)據(jù)質(zhì)量不過關(guān),別人怎么會使用你的數(shù)據(jù)?

問題19:概念模型、邏輯模型、物理模型分別介紹一下?

答案:

I)概念模型CM:概念模型是最終用戶對數(shù)據(jù)存儲的看法,反映了最終用戶綜合性

的信息需求,以數(shù)據(jù)類的方式描述企業(yè)級的數(shù)據(jù)需求

概念模型的內(nèi)容包括重要的實體與實體之間的關(guān)系,在概念模型中不包含實體的屬

性,也不包含定義實體的主鍵

概念模型的目的是統(tǒng)一業(yè)務(wù)概念,作為業(yè)務(wù)人員和技術(shù)人員之間的溝通橋梁,確定

不同實體之間的最高層次的關(guān)系

2)邏輯模型LDM:邏輯模型反映的是系統(tǒng)分析人員對數(shù)據(jù)存儲的觀點,是對概念模

型的進一步分解和細化,邏輯模型是根據(jù)業(yè)務(wù)規(guī)則確定的,關(guān)于業(yè)務(wù)對象,業(yè)務(wù)對

象的數(shù)據(jù)項以及業(yè)務(wù)對象之間關(guān)系的基本藍圖

邏輯模型的內(nèi)容包括所有的實體和關(guān)系,確定每個實體的屬性,定義每個實體的主

鍵,指定實體的外鍵,需要進行范式化處理

邏輯模型的目標(biāo)是盡可能詳細的描述數(shù)據(jù),并不考慮物理上如何實現(xiàn)

3)物理模型PDM:物理模型是在邏輯模型的基礎(chǔ)上,考慮各種具體的技術(shù)實現(xiàn)因素,

進行數(shù)據(jù)體系結(jié)構(gòu)設(shè)計,真正實現(xiàn)數(shù)據(jù)在數(shù)據(jù)倉庫中的存放

物理模型的內(nèi)容包括確定所有的表和列,定義外鍵用確認表之間的關(guān)系,基于用戶

的需求可能要進行反范式化等內(nèi)容

問題20:SCD常用的處理方式有哪些?

答案:slowlychangingdimensions緩慢變化維度

常見的緩慢變化維處理方式有三種:

1)直接覆蓋:不記錄歷史數(shù)據(jù),薪數(shù)據(jù)覆蓋舊數(shù)據(jù)

2)新加一行數(shù)據(jù)(縱向擴展):使用代理主鍵+生效失效時間或者是代理主鍵+生

效失效標(biāo)識(保存多條記錄,直接新添一條記錄,同時保留原有記錄,并用單獨的

專用字段保存)

3)新加兩個字段(橫向擴展):一個是previous,一個是current,每次更新只

更新這兩個值,但是這樣職能保留最近兩次的變化(添加歷史列,用不同的字段保

存變化痕跡,因為只保存兩次變化記錄,使用與變化不超過兩次的維度)

問題21:怎么理解元數(shù)據(jù)?

答案:狹義來講就是:元數(shù)據(jù)就用來描述數(shù)據(jù)的數(shù)據(jù)

廣義來講,除了業(yè)務(wù)邏輯直接讀寫處理的業(yè)務(wù)數(shù)據(jù),所有其他用來維護整個系統(tǒng)運

轉(zhuǎn)所需要的數(shù)據(jù),都可以認為是元數(shù)據(jù)

在數(shù)倉中,元數(shù)據(jù)可以幫助數(shù)倉人員方便找到他們所關(guān)系的數(shù)據(jù),是描述數(shù)倉內(nèi)部

數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。按照用途可分為:技術(shù)元數(shù)據(jù)、業(yè)務(wù)員數(shù)據(jù)

技術(shù)元數(shù)據(jù):存儲關(guān)于數(shù)據(jù)倉庫技術(shù)細節(jié)的數(shù)據(jù),用于開發(fā)和管理數(shù)倉使用的數(shù)據(jù)

業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),提供介于使用者和實際系統(tǒng)之

間的語義層,使不懂計算機技術(shù)的業(yè)務(wù)人員也能讀懂?dāng)?shù)倉中的數(shù)據(jù)元數(shù)據(jù)管理功

數(shù)據(jù)地圖:以拓撲圖的形式對數(shù)據(jù)系統(tǒng)的各類數(shù)據(jù)實體、數(shù)據(jù)處理過程元數(shù)據(jù)進行

分層次的圖形化展示,并通過不同層次的圖形展現(xiàn)。元數(shù)據(jù)分析:血緣分析、影響

分析、實體關(guān)聯(lián)分析、實體差異分析、指標(biāo)一致性分析。輔助應(yīng)用優(yōu)化:結(jié)合元數(shù)

據(jù)分析功能,可以對數(shù)據(jù)系統(tǒng)的應(yīng)用進行優(yōu)化。輔助安全管理:采用合理的安全管

理機制來保障系統(tǒng)的數(shù)據(jù)安全;對數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問和功能使用進行有效監(jiān)控。

基于元數(shù)據(jù)的開發(fā)管理:通過元數(shù)據(jù)管理系統(tǒng)規(guī)范日常開發(fā)的工作流程(包括任務(wù)

調(diào)度系統(tǒng))。

問題22:數(shù)倉如何確定主題域?

答案:主題是在較高層次上將數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念,每

一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域,在邏輯意義上,他是對企業(yè)中某一宏觀分

析領(lǐng)域所涉及的分析對象。

面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整并且一

致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。

主題域通常是聯(lián)系較為機密的數(shù)據(jù)主題的集合,可以根據(jù)業(yè)務(wù)的關(guān)注度,將這些數(shù)

據(jù)主題劃分到不同的主題域(也就是說對某個主題進行分析后確定的主題的邊界)。

關(guān)于主題域的劃分,可以考慮幾方面:

1、按照業(yè)務(wù)或者業(yè)務(wù)過程劃分:比如一個靠銷售廣告位置的門戶網(wǎng)站主題域可能

會有廣告域,客戶域等,而廣告域可能就會有廣告的庫存,銷售分析、內(nèi)部投放分

析等主題;

2、根據(jù)需求方劃分:比如需求方為財務(wù)部,就可以設(shè)定對應(yīng)的財務(wù)主題域,而財

務(wù)主題域里面可能就會有員工工資分析,投資回報比分析等主題;

3、按照功能或者應(yīng)用劃分::比如微信中的朋友圈數(shù)據(jù)域、群聊數(shù)據(jù)域等,而朋

友圈數(shù)據(jù)域可能就會有用戶動態(tài)信息主題、廣告主題等;

4、按照部門劃分:比如可能會有運營域、技術(shù)域等,運營域中可能會有工資支出

分析、活動宣傳效果分析等主題;

總而言之,切入的出發(fā)點邏輯不一樣,就可以存在不同的劃分邏輯。在建設(shè)過程中

可采用迭代方式,不糾結(jié)于一次完成所有主題的抽象,可先從明確定義的主題開始,

后續(xù)逐步歸納總結(jié)成自身行業(yè)的標(biāo)準(zhǔn)模型。

問題23:如何控制數(shù)據(jù)質(zhì)量?

答案:

1)校驗機制,每天對比數(shù)據(jù)量,比如count(*),早發(fā)現(xiàn),早修復(fù)

2)數(shù)據(jù)內(nèi)容的比對,抽樣對比

3)復(fù)盤、每月做一次全量

問題24:模型設(shè)計的思路?業(yè)務(wù)驅(qū)動?數(shù)據(jù)驅(qū)動?

答案:構(gòu)建數(shù)據(jù)倉庫有兩種方式:自上而下、自下而上

BillInmon推崇自上而下的方式,一個企業(yè)建立唯一的數(shù)據(jù)中心,數(shù)據(jù)是經(jīng)過整合、

清洗、去掉臟數(shù)據(jù)、標(biāo)準(zhǔn)的、能夠提供統(tǒng)一的視圖。要從整個企業(yè)的環(huán)境入手,建

立數(shù)據(jù)倉庫,要做很全面的設(shè)計。偏數(shù)據(jù)驅(qū)動

RalphKimball推崇自下而上的方式,認為數(shù)據(jù)倉庫應(yīng)該按照實際的應(yīng)用需求,架

子啊需要的數(shù)據(jù),不需要的數(shù)據(jù)不要加載到數(shù)據(jù)倉庫中。這種方式建設(shè)周期短,用

戶能很快看到結(jié)果。偏業(yè)務(wù)驅(qū)動

問題25:為什么需要數(shù)據(jù)倉庫建模?

答案:數(shù)倉建模需要按照一定的數(shù)據(jù)模型,對整個企業(yè)的數(shù)據(jù)進行采集,整理,提

供跨部門、完全一致的報表數(shù)據(jù)。

合適的數(shù)據(jù)模型,對于大數(shù)據(jù)處理來講,可以獲得得更好的性能、成本、效率和質(zhì)

量。良好的模型可以幫助我們快速查詢數(shù)據(jù),減少不必要的數(shù)據(jù)冗余,提高用戶的

使用效率。

數(shù)據(jù)建模進行全方面的業(yè)務(wù)梳理,改進業(yè)務(wù)流程,消滅信息孤島,更好的推進數(shù)倉

系統(tǒng)的建設(shè)。

1.簡單報表階段:這個階段,系統(tǒng)的主要目標(biāo)是解決一些日常的工作中業(yè)務(wù)人

員需要的報表,以及生成一些簡單的能夠幫助領(lǐng)導(dǎo)進行決策所需要的匯總數(shù)據(jù)。

大部分表現(xiàn)形式為數(shù)據(jù)庫和前端報表工具。

2.數(shù)據(jù)集市階段:這個階段,主要是根據(jù)某個業(yè)務(wù)部門的需要,進行一定的數(shù)

據(jù)的采集,整理,按照業(yè)務(wù)人員的需要,進行多維報表的展現(xiàn),能夠提供對特定

業(yè)務(wù)指導(dǎo)的數(shù)據(jù),并且能夠提供特定的領(lǐng)導(dǎo)決策數(shù)據(jù)。

3.數(shù)據(jù)倉庫階段:這個階段,主要是按照一定的數(shù)據(jù)模型,對整個企業(yè)的數(shù)據(jù)

進行采集,整理,并且能夠按照各個業(yè)務(wù)部門的需要,提供跨部門的,完全一致

的業(yè)務(wù)報表數(shù)據(jù),能夠通過數(shù)據(jù)倉庫生成對對業(yè)務(wù)具有指導(dǎo)性的數(shù)據(jù),同時,為領(lǐng)

導(dǎo)決策提供全面的數(shù)據(jù)支持。

通過數(shù)據(jù)倉庫建設(shè)的發(fā)展階段,其實可以看出,數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)集市的建設(shè)

的重要區(qū)別就在于數(shù)據(jù)模型的支持。因此,數(shù)據(jù)模型的建設(shè),對于我們數(shù)據(jù)倉庫的

建設(shè),有著決定性的意義。

一般來說,數(shù)據(jù)模型的建設(shè)主要能夠幫助我們解決以下的一些問題:

進行全面的業(yè)務(wù)梳理,改進業(yè)務(wù)流程。

1.在業(yè)務(wù)模型建設(shè)的階段,能夠幫助我們的企業(yè)或者是管理機關(guān)對本單位的業(yè)

務(wù)進行全面的梳理。

2.通過業(yè)務(wù)模型的建設(shè),我們應(yīng)該能夠全面了解該單位的業(yè)務(wù)架構(gòu)圖和整個業(yè)

務(wù)的運行情況,能夠?qū)I(yè)務(wù)按照特定的規(guī)律進行分門別類和程序化。

3.同時,幫助我們進一步的改進業(yè)務(wù)的流程,提高業(yè)務(wù)效率,指導(dǎo)我們的業(yè)務(wù)

部門的生產(chǎn)。

建立全方位的數(shù)據(jù)視角,消滅信息孤島和數(shù)據(jù)差異。

1.通過數(shù)據(jù)倉庫的模型建設(shè),能夠為企業(yè)提供一個整體的數(shù)據(jù)視角,不再是各

個部門只是關(guān)注自己的數(shù)據(jù)。

2.而且通過模型的建設(shè),勾勒出了部門之間內(nèi)在的聯(lián)系,幫助消滅各個部門之

間的信息孤島的問題。

3.更為重要的是,通過數(shù)據(jù)模型的建設(shè),能夠保證整個企業(yè)的數(shù)據(jù)的一致性,

各個部門之間數(shù)據(jù)的差異將會得到有效解決。

解決業(yè)務(wù)的變動和數(shù)據(jù)倉庫的靈活性。

通過數(shù)據(jù)模型的建設(shè),能夠很好的分離出底層技術(shù)的實現(xiàn)和上層業(yè)務(wù)的展現(xiàn)。當(dāng)上

層業(yè)務(wù)發(fā)生變化時,通過數(shù)據(jù)模型,底層的技術(shù)實現(xiàn)可以非常輕松的完成業(yè)務(wù)的變

動,從而達到整個數(shù)據(jù)倉庫系統(tǒng)的靈活性。

幫助數(shù)據(jù)倉庫系統(tǒng)本身的建設(shè)。

1.通過數(shù)據(jù)倉庫的模型建設(shè),開發(fā)人員和業(yè)務(wù)人員能夠很容易的達成系統(tǒng)建設(shè)

范圍的界定,以及長期目標(biāo)的規(guī)劃,從而能夠使整個項目組明確當(dāng)前的任務(wù),

2.加快整個系統(tǒng)建設(shè)的速度。

建模大致分為四個階段,業(yè)務(wù)建模,這部分建模工作,主要包含以下幾個部分:

1.劃分整個單位的業(yè)務(wù),一般按照業(yè)務(wù)部門的劃分,進行各個部分之間業(yè)務(wù)工

作的界定,理清各業(yè)務(wù)部門之間的關(guān)系。

2.深入了解各個業(yè)務(wù)部門的內(nèi)具體業(yè)務(wù)流程并將其程序化。

3.提出修改和改進業(yè)務(wù)部門工作流程的方法并程序化。

4.數(shù)據(jù)建模的范圍界定,整個數(shù)據(jù)倉庫項目的目標(biāo)和階段劃分。

領(lǐng)域概念建模,這部分建模工作,主要包含以下幾個部分:

1.抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。

2.將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線聚合類似的分組概念。

3.細化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。

4.理清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。

概念模型具體要求如下:

1.明確需求

2.明確要做的決策類型

1/

界定系統(tǒng)邊界]3.決策者感興趣的問題

4.這些問題需要什么樣的信息

5.要導(dǎo)到這些信息包含源數(shù)據(jù)的哪些雌

r—~~11.主題域的公共碼鍵

廠概志---------------

-------------確定主要的主邈域及其內(nèi)容,,2.主題域之間的聯(lián)系

〔3.充分代表主題的屬性組

確定主題域間的關(guān)系從企業(yè)角度深入了解各個信息系統(tǒng)的業(yè)務(wù)

邏輯建模,這部分的建模工作,主要包含以下幾個部分:

1.業(yè)務(wù)概念實體化,并考慮其具體的屬性。

2.事件實體化,也就是所謂的事實,并考慮其屬性內(nèi)容。

3.說明實體化,也就是所謂的維度,并考慮其屬性內(nèi)容。

邏輯模型具體要求如下:

選擇主題域盡量小

分析豐富主題域,確定當(dāng)前要裝載的主題.------------------

逐步求精

必須保存最細粒度數(shù)據(jù)

確定粒度層次的劃分-----------------------

-----------------------根據(jù)業(yè)務(wù)部門的查詢需求考慮多重粒度耒提高復(fù)雜查詢度

1.數(shù)據(jù)量大小是決定是否進行數(shù)據(jù)分割和如何分割的主要因素

2.數(shù)據(jù)分析處理的要求是選擇數(shù)據(jù)分割標(biāo)準(zhǔn)的一個主要依據(jù)

邏輯模型確定數(shù)據(jù)分割笫略(表劃分,列劃分)

3.所選擇的敖據(jù)分割的標(biāo)準(zhǔn)是自然地、易于實施的

4考慮我據(jù)分割的標(biāo)準(zhǔn)與粒度劃分層次是適應(yīng)的

f現(xiàn)對應(yīng)多個表

關(guān)系橫式定義---------------------

------------,確認主題的公共碼鍵,確定各個表的關(guān)系模式

記錄系統(tǒng)定義記錄數(shù)據(jù)來源以及數(shù)據(jù)規(guī)范化標(biāo)準(zhǔn)

物理建模,這部分的建模工作,主要包含以下幾個部分:

1.針對特定物理化平臺,做出相應(yīng)的技術(shù)調(diào)整。

2.針對模型的性能考慮,對特定平臺作出相應(yīng)的調(diào)整。

3.針對管理的需要,結(jié)合特定的平臺,做出相應(yīng)的調(diào)整。

4.生成最后的執(zhí)行腳本,并完善之。

物理模型具體要求如下:

根據(jù)預(yù)算和項目需求,對該項目的成本周期和資源進行估算

1.確定項目資源

ETL占據(jù)燈項目的70%,同時確定生命周期

估算數(shù)據(jù)容量

2.確定軟硬件配置

宗主要向fix

從應(yīng)用系統(tǒng)采集而來,只保存一定期限,同時支持部分近實時性報

ODS層表的展示____________________________________________________

保存經(jīng)過清洗,轉(zhuǎn)換和重新組織的歷史業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)將保留較

DWD層久,滿足系統(tǒng)最細粒度的查詢需要。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論