版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉庫面試題
問題1:inexists的區(qū)別notin和notexists的區(qū)別?
答案:n是一個集合運算符.ain{a,c,d,s,d…}這個運算中,前面是一個元素,
后面是一個集合,集合中的元素類型是和前面的元素一樣的.而exists是一個存在
判斷,如果后面的查詢中有結(jié)果,則exists為真,否則為假。
notin和notexists如果查詢語句使用了notin那么內(nèi)外表都進行全表掃描,
沒有用到索引;而notextsts的子查詢依然能用到表上的索引。所以無論那個表
大,用notexists都比notin要快。
總之:
盡量使用notexist,避免使用notin
notin會默認調(diào)用子查詢
notexist會調(diào)用關(guān)聯(lián)子查詢
問題2:拉鏈表知道么?
答案:拉鏈表就是隨著時間變遷產(chǎn)生歷史數(shù)據(jù)。
拉鏈表的含義:就是記錄歷史。記錄一個事務(wù)從開始一直到當(dāng)前狀態(tài)的所有變化信
息。
問題3:數(shù)倉三層架構(gòu),具體每層作用?
答案:
1:數(shù)據(jù)訪問層:主要是對非原始數(shù)據(jù)(數(shù)據(jù)庫或者文本文件等存放數(shù)據(jù)的形式)
的操作層,而不是指原始數(shù)據(jù),也就是說,是對數(shù)據(jù)庫的操作,而不是數(shù)據(jù),具體
為業(yè)務(wù)邏輯層或表示層提供數(shù)據(jù)服務(wù)。
2:業(yè)務(wù)邏輯層:主要是針對具體的問題的操作,也可以理解成對數(shù)據(jù)層的操作,
對數(shù)據(jù)業(yè)務(wù)邏輯處理,如果說數(shù)據(jù)層是積木,那邏輯層就是對這些積木的搭建。
3:界面層:主要表示W(wǎng)EB方式,也可以表示成WINFORM方式,WEB方式也可以表現(xiàn)
成:aspx,如果邏輯層相當(dāng)強大和完善,無論表現(xiàn)層如何定義和更改,邏輯層都能
完善地提供服務(wù)。
問題4:為什么叫星型模型和雪花模型?
答案:
星型模型是:多維表的數(shù)據(jù)關(guān)系,它由一個事實表和一組維表組成,每個維作為主
鍵
雪花模型是:當(dāng)一個或多個維沒有直接連接到事實表上,而是通過其他維表連接到
事實表上的時候,其圖解就像雪花模型連接在一起、
使用場景:雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客
戶或者公司是在線的?”星形模型用來做指標(biāo)分析更適合,比如“給定的一個客戶
他們的收入是多少?”
問題5:星型模型和雪花模型各自的優(yōu)點?
答案:
概念一一根據(jù)事實表和維度表的關(guān)系,可將常見的模型分為星型模型和雪花模型。
在數(shù)據(jù)倉庫的建設(shè)中,一般都會圍繞著這兩種模型來設(shè)計表關(guān)系或者結(jié)構(gòu)。那么什
么是事實表和維度表呢?在維度建模中,將度量稱為“事實”,將環(huán)境描述為“維
度”。維度是用于分析事實所需要的多樣環(huán)境。例如,在分析交易過程時,可以通
過買家、賣家、商品和時間等維度描述交易發(fā)生的環(huán)境。事實則緊緊圍繞著業(yè)務(wù)過
程來設(shè)計,通過獲取描述業(yè)務(wù)過程的度量來表達業(yè)務(wù)過程,包含了引用的維度和與
業(yè)務(wù)過程有關(guān)的度量。例如訂單作為交易行為的核心載體,直觀反映了交易的狀況。
訂單的流轉(zhuǎn)會產(chǎn)生很多業(yè)務(wù)過程,而下單、支付和成功完結(jié)三個業(yè)務(wù)過程是整個訂
單的關(guān)鍵節(jié)點。獲取這三個業(yè)務(wù)過程的筆數(shù)、金額以及轉(zhuǎn)化率是日常數(shù)據(jù)統(tǒng)計分析
的重點,事務(wù)事實表設(shè)計可以很好地滿足這個需求。
當(dāng)所有維表都直接連接到事實表上時,整個圖解就像星星一樣,故將該模型稱為星
型模型。
星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個維度都直接與事實表相連
接,不存在漸變維度,所以數(shù)據(jù)有一點的冗余。如在地域維度表中,存在國家A省
B的城市C以及國家A省B的城市D兩條記錄,那么國家A和省B的信息
分別存儲了兩次,即存在冗余。
二
品
名
豆
挎
品B
品W
星型模型強調(diào)的是對維度進行預(yù)處理,將多個維度集合到一個事實表,形成一個寬
表。這也是我們在使用hive時,經(jīng)常會看到一些大寬表的原因,大寬表一般都是
事實表,包含了維度關(guān)聯(lián)的主鍵和一些度量信息,而維度表則是事實表里面維度的
具體信息,使用時候一般通過join來組合數(shù)據(jù),相對來說對OLAP的分析比較方便。
當(dāng)有一個或多個維表沒有直接連接到事實表上,而是通過其他維度表連接到事實表
上時,其圖解就像多個雪花連接在一起,故稱雪花模型。
雪花模型是對星型模型的擴展,它對星型模型的維表進一步層次化,原有的各維表
可能被擴展為小的事實表,形成一些局部的〃層次”區(qū)域,這些被分解的表都連
接到主維度表而不是事實表。如將地域維表分解為國家,省份,城市等維表。它的
優(yōu)點是:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能,去
除了數(shù)據(jù)冗余,但是在分析數(shù)據(jù)的時候,操作比較復(fù)雜,需要.join的表比較多所
以其性能并不一定比星型模型高。
■*9
”0
區(qū)別及優(yōu)缺點
星型模型因為數(shù)據(jù)的冗余所以很多統(tǒng)計查詢不需要做外部的連接,因此一般情況下
效率比雪花模型要高。
星型模型不用考慮很多正規(guī)化的因素,設(shè)計與實現(xiàn)都比較簡單。
雪花模型由于去除了冗余,有些統(tǒng)計就需要通過表的連接才能產(chǎn)生,所以效率不一
定有星型模型高。
正規(guī)化也是一種比較復(fù)雜的過程,相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計、數(shù)據(jù)的ETL、以及后期
的維護都要復(fù)雜一些。因此在冗余可以接受的前提下,實際運用中星型模型使用更
多,也更有效率。
屬性星型模型孰耀
數(shù)據(jù)總量多少
可讀性容易差
表個數(shù)少多
查詢速度快慢
冗余度高低
對實時表的情況增加寬度字段比較少,冗余底
生
擴展性左好
什么時候使用雪花模型?
RalphKimball,數(shù)據(jù)倉庫大師,講述了三個例子。對于三個例子,使用雪花模型
不僅僅是可接受的,而且可能是一個成功設(shè)計的關(guān)鍵。
1、一個用戶維度表且數(shù)據(jù)量較大。其中,80%的事實度量表是匿名訪問者,僅包含
少數(shù)詳細信息。20%的是可靠的注冊用戶,且這些注冊用戶有較為詳細的信息,與
多個維度表中的數(shù)據(jù)相連。
2、例如一個金融產(chǎn)品維度表,且這些金融產(chǎn)品有銀行類的,保險類等等區(qū)別。因
此不同種類的產(chǎn)品有自己一系列的特殊屬性,且這些屬性并非是所有產(chǎn)品共享的。
3、多個企業(yè)共用的日歷維度表。但每個企業(yè)的財政周期不同,節(jié)假日不同等等。
在數(shù)據(jù)倉庫的環(huán)境中用雪花模型,降低儲存的空間,到了具體某個主題的數(shù)據(jù)集市
再用星型模型。
雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客戶或者公司
是在線的?",星形模型用來做指標(biāo)分析更適合,比如“給定的一個客戶他們的收
入是多少?”
總結(jié)
通過上面的對比我們可以發(fā)現(xiàn),在數(shù)據(jù)倉庫建設(shè)中大多時候比較適合使用星型模型
構(gòu)建底層數(shù)據(jù)Hive表,通過大量的冗余來提升查詢效率,星型模型對OLAP的分析
引擎支持比較友好,這一點在Kylin中比較能體現(xiàn)。而雪花模型在關(guān)系型數(shù)據(jù)庫中
如MySQL,Oracle中非常常見,尤其像電商的數(shù)據(jù)庫表。在數(shù)據(jù)倉庫中雪花模型的
應(yīng)用場景比較少,但也不是沒有,所以在具體設(shè)計的時候,可以考慮是不是能結(jié)合
兩者的優(yōu)點參與設(shè)計,以此達到設(shè)計的最優(yōu)化目的。
問題6:什么是緩慢變化維
答案:緩慢變化維
1.緩慢變化維在數(shù)據(jù)倉庫中,有個概念叫緩慢變化維,經(jīng)常簡寫為SCD,
2.緩慢變化維的提出是因為現(xiàn)實世界中,維度的屬性并不是靜態(tài)的,它會隨時間的
流失發(fā)生緩慢的變化。這種隨著時間變化的我們稱之為緩慢變化維。
問題7:如果現(xiàn)在有一千張表從一個庫到另外一個庫的ODS層,你會怎么做?
答案:利用消息隊列做數(shù)據(jù)訂閱發(fā)布
問題8:'2019-04-12'取周幾
答案:weekofyear
問題9:說說數(shù)倉分層?
答案:
、數(shù)據(jù)倉片分U
ODSVJ:除除數(shù)據(jù)層?。故,―期,I'l接加我竦始H3、數(shù)據(jù),數(shù)據(jù)保持原權(quán)不做處庠.
DWD晶結(jié)構(gòu)和粒度與原始表保持ft.HQDSJ',;,,';”修,.??;,",.
10過極限危國的數(shù)據(jù))
以DWD為及礎(chǔ)?/?'『:I
ADSjg.力A種統(tǒng)計報要/供數(shù)州
問題10:為什么要對數(shù)倉進行分層?
答案
八數(shù)據(jù)倉片為什么要分公
I)把復(fù)雜向遨筒中化
將個乂雜的;分分二成多個步舞來完成,悔星只處理單一的步舞?比較脩單、井J1方便定位向1
,2)M少幣復(fù)開發(fā)
規(guī)范數(shù)據(jù)分層,通過的中佃—能銘通少極大的用復(fù)計Y-次計?結(jié)果的V"H:
,3)隔向原始數(shù)據(jù)
不論是數(shù)據(jù)的界常還是數(shù)據(jù)的收感性,使其實數(shù)據(jù)9統(tǒng)計數(shù)據(jù),桐開.
問題11:說說你對數(shù)據(jù)倉庫的理解?
答案:數(shù)據(jù)倉庫是面向主題進行組織的,數(shù)據(jù)是集成的、不可更新的、隨時間變化
的的。數(shù)據(jù)倉庫經(jīng)歷了這樣三個階段:簡單報表階段、數(shù)據(jù)集市階段、數(shù)據(jù)倉庫階
段。
問題12:數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別?
數(shù)據(jù)庫:是一種邏輯概念,用來存放數(shù)據(jù)的倉庫,通過數(shù)據(jù)庫軟件來實現(xiàn)。數(shù)據(jù)庫
由很多表組成,表是二維的,一張表里可以有很多字段。
數(shù)據(jù)倉庫:是數(shù)據(jù)庫概念的升級。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都
是通過數(shù)據(jù)庫軟件實現(xiàn)存放數(shù)據(jù)的地方,但是從數(shù)據(jù)量來講數(shù)據(jù)倉庫比數(shù)據(jù)庫更龐
大些。數(shù)據(jù)倉庫的主要作用用于數(shù)據(jù)挖掘、數(shù)據(jù)分析,輔助領(lǐng)導(dǎo)來做決策的。
區(qū)別:實際上二者之間講的是OLTP和nAP
操作型處理OLTP:它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機的日常操作,通常對少數(shù)記錄
進行查詢、修改。分析型處理OLAP:一般針對某些主題的歷史數(shù)據(jù)進行分析,支
持管理決策。
問題13:如何構(gòu)建數(shù)據(jù)倉庫?
答案:數(shù)據(jù)倉庫模型的選擇是靈活的,不局限與某種模型方法;數(shù)據(jù)倉庫數(shù)據(jù)是靈
活的,以實際需求場景為導(dǎo)向;數(shù)倉設(shè)計要兼顧靈活性、可擴展性、要考慮技術(shù)可
靠性和實現(xiàn)成本
1)調(diào)研:業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研
2)劃分主題域:通過業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研最終確定主題域
3)構(gòu)建總線矩陣、維度建模
總線矩陣:把總線架構(gòu)列表形成矩陣形式,行表示業(yè)務(wù)處理過程,即事實,列表示
一致性的維度,在交叉點上打上標(biāo)記表示該業(yè)務(wù)處理過程與該維度相關(guān)(交叉探查)
4)設(shè)計數(shù)倉分層架構(gòu)
5)模型落地
6)數(shù)據(jù)治理
問題14:什么是數(shù)據(jù)中臺?
答案:數(shù)據(jù)中臺是通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時
統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標(biāo)準(zhǔn)數(shù)據(jù),再進行存儲,形成
大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務(wù)。這些服務(wù)和企業(yè)的業(yè)務(wù)有較強關(guān)聯(lián)性,
是企業(yè)所獨有且能復(fù)用的,他是企業(yè)業(yè)務(wù)和數(shù)據(jù)的積淀,其不僅能降低重復(fù)建設(shè),
減少煙囪式協(xié)助的成本,也是差異化競爭的優(yōu)勢所在。
數(shù)據(jù)中臺是通過整合公司開發(fā)工具、打通全域數(shù)據(jù)、讓數(shù)據(jù)持續(xù)為業(yè)務(wù)賦能,實現(xiàn)
數(shù)據(jù)平臺化、數(shù)據(jù)服務(wù)化和數(shù)據(jù)價值化。數(shù)據(jù)中臺更加側(cè)重于“復(fù)用”和“業(yè)務(wù)”。
問題15:數(shù)據(jù)中臺、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)湖的關(guān)鍵區(qū)別是什么?
答案:
1)基礎(chǔ)能力上的區(qū)別
數(shù)據(jù)平臺:提供的是計算和存儲能力
數(shù)據(jù)倉庫:利用數(shù)據(jù)平臺提供的計算和存儲能力,在一套方法論的指導(dǎo)下建設(shè)的一
整套的數(shù)據(jù)表
數(shù)據(jù)中臺:包含了數(shù)據(jù)平臺和數(shù)據(jù)倉庫的所有內(nèi)容,將其打包,并且以更加整合以
及更加產(chǎn)品化的方式對外提供服務(wù)和價值
數(shù)據(jù)湖:一個存儲企業(yè)各種各樣原始數(shù)據(jù)的大型倉庫,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),
其中湖里的數(shù)據(jù)可供存取、處理、分析和傳輸
2)業(yè)務(wù)能力上的區(qū)別
數(shù)據(jù)平臺:為業(yè)務(wù)提供數(shù)據(jù)主要方式是提供數(shù)據(jù)集
數(shù)據(jù)倉庫:相對具體的功能概念是存儲和管理一個或多個主題數(shù)據(jù)的集合,為業(yè)務(wù)
提供服務(wù)的方式主要是分析報表
數(shù)據(jù)中臺:企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)產(chǎn)生價值的能力,為業(yè)務(wù)提供服務(wù)的
主要方式是數(shù)據(jù)API
數(shù)據(jù)湖:數(shù)據(jù)倉庫的數(shù)據(jù)來源
總的來說,數(shù)據(jù)中臺距離業(yè)務(wù)更近,數(shù)據(jù)復(fù)用能力更強,能為業(yè)務(wù)提供速度更快的
服務(wù),數(shù)據(jù)中臺在數(shù)據(jù)倉庫和數(shù)據(jù)平臺的基礎(chǔ)上,將數(shù)據(jù)生產(chǎn)為一個個數(shù)據(jù)API服
務(wù),以更高效的方式提供給業(yè)務(wù)。數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,
是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的過程的中間層。
問題16:大數(shù)據(jù)有哪些相關(guān)的系統(tǒng)?
答案:
數(shù)倉設(shè)計中心:按照主題域、業(yè)務(wù)過程,分層的設(shè)計方式,以維度建模作為基本理
論依據(jù),按照維度、度量設(shè)計模型,確保模型、字段有統(tǒng)一的命名規(guī)范
數(shù)據(jù)資產(chǎn)中心:梳理數(shù)據(jù)資產(chǎn),基于數(shù)據(jù)血緣,數(shù)據(jù)的訪問熱度,做成本的治理
數(shù)據(jù)質(zhì)量中心:通過豐富的稽查監(jiān)控系統(tǒng),對數(shù)據(jù)進行事后校驗,確保問題數(shù)據(jù)第
一時間被發(fā)現(xiàn),避免下游的無效計算,分析數(shù)據(jù)的影響范圍。
指標(biāo)系統(tǒng):管理指標(biāo)的業(yè)務(wù)口徑、計算邏輯和數(shù)據(jù)來源,通過流程化的方式,建立
從指標(biāo)需求、指標(biāo)開發(fā)、指標(biāo)發(fā)布的全套協(xié)作流程
數(shù)據(jù)地圖:提供元數(shù)據(jù)的快速索引,數(shù)據(jù)字典、數(shù)據(jù)血緣、數(shù)據(jù)特征信息的查詢,
相當(dāng)于元數(shù)據(jù)中心的門戶。
問題17:如何建設(shè)數(shù)據(jù)中臺?
答案:數(shù)據(jù)中臺在企業(yè)落地實踐時,結(jié)合技術(shù)、產(chǎn)品、數(shù)據(jù)、服務(wù)、運營等方面,
逐步開展相關(guān)工作
1)理現(xiàn)狀:了解業(yè)務(wù)現(xiàn)狀、數(shù)據(jù)現(xiàn)狀、IT現(xiàn)狀、現(xiàn)有的組織架構(gòu)
2)定架構(gòu):確認業(yè)務(wù)架構(gòu)、技術(shù)架構(gòu)、應(yīng)用架構(gòu)、組織架構(gòu)
3)建資產(chǎn):建立貼近數(shù)據(jù)層、統(tǒng)一數(shù)倉層、標(biāo)簽數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層
4)用數(shù)據(jù):對數(shù)據(jù)進行輸出、應(yīng)用
5)數(shù)據(jù)運營:持續(xù)運營、持續(xù)迭代
中臺建設(shè)需要有全員共識,由管理層從上往下推進,由技術(shù)和業(yè)務(wù)人員去執(zhí)行和落
地是一個漫長的過程,在實施數(shù)據(jù)中臺時,最困難的地方就是需要有人推動。
問題18:數(shù)據(jù)倉庫最重要的是什么?
答案:個人認為是數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量。企業(yè)的數(shù)據(jù)通常存儲在多個異構(gòu)數(shù)據(jù)庫中,
要進行分析,必須對數(shù)據(jù)進行一致性整合,整合后才能對數(shù)據(jù)進行分析挖掘出潛在
的價值;數(shù)據(jù)質(zhì)量必須有保障,數(shù)據(jù)質(zhì)量不過關(guān),別人怎么會使用你的數(shù)據(jù)?
問題19:概念模型、邏輯模型、物理模型分別介紹一下?
答案:
I)概念模型CM:概念模型是最終用戶對數(shù)據(jù)存儲的看法,反映了最終用戶綜合性
的信息需求,以數(shù)據(jù)類的方式描述企業(yè)級的數(shù)據(jù)需求
概念模型的內(nèi)容包括重要的實體與實體之間的關(guān)系,在概念模型中不包含實體的屬
性,也不包含定義實體的主鍵
概念模型的目的是統(tǒng)一業(yè)務(wù)概念,作為業(yè)務(wù)人員和技術(shù)人員之間的溝通橋梁,確定
不同實體之間的最高層次的關(guān)系
2)邏輯模型LDM:邏輯模型反映的是系統(tǒng)分析人員對數(shù)據(jù)存儲的觀點,是對概念模
型的進一步分解和細化,邏輯模型是根據(jù)業(yè)務(wù)規(guī)則確定的,關(guān)于業(yè)務(wù)對象,業(yè)務(wù)對
象的數(shù)據(jù)項以及業(yè)務(wù)對象之間關(guān)系的基本藍圖
邏輯模型的內(nèi)容包括所有的實體和關(guān)系,確定每個實體的屬性,定義每個實體的主
鍵,指定實體的外鍵,需要進行范式化處理
邏輯模型的目標(biāo)是盡可能詳細的描述數(shù)據(jù),并不考慮物理上如何實現(xiàn)
3)物理模型PDM:物理模型是在邏輯模型的基礎(chǔ)上,考慮各種具體的技術(shù)實現(xiàn)因素,
進行數(shù)據(jù)體系結(jié)構(gòu)設(shè)計,真正實現(xiàn)數(shù)據(jù)在數(shù)據(jù)倉庫中的存放
物理模型的內(nèi)容包括確定所有的表和列,定義外鍵用確認表之間的關(guān)系,基于用戶
的需求可能要進行反范式化等內(nèi)容
問題20:SCD常用的處理方式有哪些?
答案:slowlychangingdimensions緩慢變化維度
常見的緩慢變化維處理方式有三種:
1)直接覆蓋:不記錄歷史數(shù)據(jù),薪數(shù)據(jù)覆蓋舊數(shù)據(jù)
2)新加一行數(shù)據(jù)(縱向擴展):使用代理主鍵+生效失效時間或者是代理主鍵+生
效失效標(biāo)識(保存多條記錄,直接新添一條記錄,同時保留原有記錄,并用單獨的
專用字段保存)
3)新加兩個字段(橫向擴展):一個是previous,一個是current,每次更新只
更新這兩個值,但是這樣職能保留最近兩次的變化(添加歷史列,用不同的字段保
存變化痕跡,因為只保存兩次變化記錄,使用與變化不超過兩次的維度)
問題21:怎么理解元數(shù)據(jù)?
答案:狹義來講就是:元數(shù)據(jù)就用來描述數(shù)據(jù)的數(shù)據(jù)
廣義來講,除了業(yè)務(wù)邏輯直接讀寫處理的業(yè)務(wù)數(shù)據(jù),所有其他用來維護整個系統(tǒng)運
轉(zhuǎn)所需要的數(shù)據(jù),都可以認為是元數(shù)據(jù)
在數(shù)倉中,元數(shù)據(jù)可以幫助數(shù)倉人員方便找到他們所關(guān)系的數(shù)據(jù),是描述數(shù)倉內(nèi)部
數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。按照用途可分為:技術(shù)元數(shù)據(jù)、業(yè)務(wù)員數(shù)據(jù)
技術(shù)元數(shù)據(jù):存儲關(guān)于數(shù)據(jù)倉庫技術(shù)細節(jié)的數(shù)據(jù),用于開發(fā)和管理數(shù)倉使用的數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),提供介于使用者和實際系統(tǒng)之
間的語義層,使不懂計算機技術(shù)的業(yè)務(wù)人員也能讀懂?dāng)?shù)倉中的數(shù)據(jù)元數(shù)據(jù)管理功
能
數(shù)據(jù)地圖:以拓撲圖的形式對數(shù)據(jù)系統(tǒng)的各類數(shù)據(jù)實體、數(shù)據(jù)處理過程元數(shù)據(jù)進行
分層次的圖形化展示,并通過不同層次的圖形展現(xiàn)。元數(shù)據(jù)分析:血緣分析、影響
分析、實體關(guān)聯(lián)分析、實體差異分析、指標(biāo)一致性分析。輔助應(yīng)用優(yōu)化:結(jié)合元數(shù)
據(jù)分析功能,可以對數(shù)據(jù)系統(tǒng)的應(yīng)用進行優(yōu)化。輔助安全管理:采用合理的安全管
理機制來保障系統(tǒng)的數(shù)據(jù)安全;對數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問和功能使用進行有效監(jiān)控。
基于元數(shù)據(jù)的開發(fā)管理:通過元數(shù)據(jù)管理系統(tǒng)規(guī)范日常開發(fā)的工作流程(包括任務(wù)
調(diào)度系統(tǒng))。
問題22:數(shù)倉如何確定主題域?
答案:主題是在較高層次上將數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念,每
一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域,在邏輯意義上,他是對企業(yè)中某一宏觀分
析領(lǐng)域所涉及的分析對象。
面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整并且一
致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。
主題域通常是聯(lián)系較為機密的數(shù)據(jù)主題的集合,可以根據(jù)業(yè)務(wù)的關(guān)注度,將這些數(shù)
據(jù)主題劃分到不同的主題域(也就是說對某個主題進行分析后確定的主題的邊界)。
關(guān)于主題域的劃分,可以考慮幾方面:
1、按照業(yè)務(wù)或者業(yè)務(wù)過程劃分:比如一個靠銷售廣告位置的門戶網(wǎng)站主題域可能
會有廣告域,客戶域等,而廣告域可能就會有廣告的庫存,銷售分析、內(nèi)部投放分
析等主題;
2、根據(jù)需求方劃分:比如需求方為財務(wù)部,就可以設(shè)定對應(yīng)的財務(wù)主題域,而財
務(wù)主題域里面可能就會有員工工資分析,投資回報比分析等主題;
3、按照功能或者應(yīng)用劃分::比如微信中的朋友圈數(shù)據(jù)域、群聊數(shù)據(jù)域等,而朋
友圈數(shù)據(jù)域可能就會有用戶動態(tài)信息主題、廣告主題等;
4、按照部門劃分:比如可能會有運營域、技術(shù)域等,運營域中可能會有工資支出
分析、活動宣傳效果分析等主題;
總而言之,切入的出發(fā)點邏輯不一樣,就可以存在不同的劃分邏輯。在建設(shè)過程中
可采用迭代方式,不糾結(jié)于一次完成所有主題的抽象,可先從明確定義的主題開始,
后續(xù)逐步歸納總結(jié)成自身行業(yè)的標(biāo)準(zhǔn)模型。
問題23:如何控制數(shù)據(jù)質(zhì)量?
答案:
1)校驗機制,每天對比數(shù)據(jù)量,比如count(*),早發(fā)現(xiàn),早修復(fù)
2)數(shù)據(jù)內(nèi)容的比對,抽樣對比
3)復(fù)盤、每月做一次全量
問題24:模型設(shè)計的思路?業(yè)務(wù)驅(qū)動?數(shù)據(jù)驅(qū)動?
答案:構(gòu)建數(shù)據(jù)倉庫有兩種方式:自上而下、自下而上
BillInmon推崇自上而下的方式,一個企業(yè)建立唯一的數(shù)據(jù)中心,數(shù)據(jù)是經(jīng)過整合、
清洗、去掉臟數(shù)據(jù)、標(biāo)準(zhǔn)的、能夠提供統(tǒng)一的視圖。要從整個企業(yè)的環(huán)境入手,建
立數(shù)據(jù)倉庫,要做很全面的設(shè)計。偏數(shù)據(jù)驅(qū)動
RalphKimball推崇自下而上的方式,認為數(shù)據(jù)倉庫應(yīng)該按照實際的應(yīng)用需求,架
子啊需要的數(shù)據(jù),不需要的數(shù)據(jù)不要加載到數(shù)據(jù)倉庫中。這種方式建設(shè)周期短,用
戶能很快看到結(jié)果。偏業(yè)務(wù)驅(qū)動
■
問題25:為什么需要數(shù)據(jù)倉庫建模?
答案:數(shù)倉建模需要按照一定的數(shù)據(jù)模型,對整個企業(yè)的數(shù)據(jù)進行采集,整理,提
供跨部門、完全一致的報表數(shù)據(jù)。
合適的數(shù)據(jù)模型,對于大數(shù)據(jù)處理來講,可以獲得得更好的性能、成本、效率和質(zhì)
量。良好的模型可以幫助我們快速查詢數(shù)據(jù),減少不必要的數(shù)據(jù)冗余,提高用戶的
使用效率。
數(shù)據(jù)建模進行全方面的業(yè)務(wù)梳理,改進業(yè)務(wù)流程,消滅信息孤島,更好的推進數(shù)倉
系統(tǒng)的建設(shè)。
1.簡單報表階段:這個階段,系統(tǒng)的主要目標(biāo)是解決一些日常的工作中業(yè)務(wù)人
員需要的報表,以及生成一些簡單的能夠幫助領(lǐng)導(dǎo)進行決策所需要的匯總數(shù)據(jù)。
大部分表現(xiàn)形式為數(shù)據(jù)庫和前端報表工具。
2.數(shù)據(jù)集市階段:這個階段,主要是根據(jù)某個業(yè)務(wù)部門的需要,進行一定的數(shù)
據(jù)的采集,整理,按照業(yè)務(wù)人員的需要,進行多維報表的展現(xiàn),能夠提供對特定
業(yè)務(wù)指導(dǎo)的數(shù)據(jù),并且能夠提供特定的領(lǐng)導(dǎo)決策數(shù)據(jù)。
3.數(shù)據(jù)倉庫階段:這個階段,主要是按照一定的數(shù)據(jù)模型,對整個企業(yè)的數(shù)據(jù)
進行采集,整理,并且能夠按照各個業(yè)務(wù)部門的需要,提供跨部門的,完全一致
的業(yè)務(wù)報表數(shù)據(jù),能夠通過數(shù)據(jù)倉庫生成對對業(yè)務(wù)具有指導(dǎo)性的數(shù)據(jù),同時,為領(lǐng)
導(dǎo)決策提供全面的數(shù)據(jù)支持。
通過數(shù)據(jù)倉庫建設(shè)的發(fā)展階段,其實可以看出,數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)集市的建設(shè)
的重要區(qū)別就在于數(shù)據(jù)模型的支持。因此,數(shù)據(jù)模型的建設(shè),對于我們數(shù)據(jù)倉庫的
建設(shè),有著決定性的意義。
一般來說,數(shù)據(jù)模型的建設(shè)主要能夠幫助我們解決以下的一些問題:
進行全面的業(yè)務(wù)梳理,改進業(yè)務(wù)流程。
1.在業(yè)務(wù)模型建設(shè)的階段,能夠幫助我們的企業(yè)或者是管理機關(guān)對本單位的業(yè)
務(wù)進行全面的梳理。
2.通過業(yè)務(wù)模型的建設(shè),我們應(yīng)該能夠全面了解該單位的業(yè)務(wù)架構(gòu)圖和整個業(yè)
務(wù)的運行情況,能夠?qū)I(yè)務(wù)按照特定的規(guī)律進行分門別類和程序化。
3.同時,幫助我們進一步的改進業(yè)務(wù)的流程,提高業(yè)務(wù)效率,指導(dǎo)我們的業(yè)務(wù)
部門的生產(chǎn)。
建立全方位的數(shù)據(jù)視角,消滅信息孤島和數(shù)據(jù)差異。
1.通過數(shù)據(jù)倉庫的模型建設(shè),能夠為企業(yè)提供一個整體的數(shù)據(jù)視角,不再是各
個部門只是關(guān)注自己的數(shù)據(jù)。
2.而且通過模型的建設(shè),勾勒出了部門之間內(nèi)在的聯(lián)系,幫助消滅各個部門之
間的信息孤島的問題。
3.更為重要的是,通過數(shù)據(jù)模型的建設(shè),能夠保證整個企業(yè)的數(shù)據(jù)的一致性,
各個部門之間數(shù)據(jù)的差異將會得到有效解決。
解決業(yè)務(wù)的變動和數(shù)據(jù)倉庫的靈活性。
通過數(shù)據(jù)模型的建設(shè),能夠很好的分離出底層技術(shù)的實現(xiàn)和上層業(yè)務(wù)的展現(xiàn)。當(dāng)上
層業(yè)務(wù)發(fā)生變化時,通過數(shù)據(jù)模型,底層的技術(shù)實現(xiàn)可以非常輕松的完成業(yè)務(wù)的變
動,從而達到整個數(shù)據(jù)倉庫系統(tǒng)的靈活性。
幫助數(shù)據(jù)倉庫系統(tǒng)本身的建設(shè)。
1.通過數(shù)據(jù)倉庫的模型建設(shè),開發(fā)人員和業(yè)務(wù)人員能夠很容易的達成系統(tǒng)建設(shè)
范圍的界定,以及長期目標(biāo)的規(guī)劃,從而能夠使整個項目組明確當(dāng)前的任務(wù),
2.加快整個系統(tǒng)建設(shè)的速度。
建模大致分為四個階段,業(yè)務(wù)建模,這部分建模工作,主要包含以下幾個部分:
1.劃分整個單位的業(yè)務(wù),一般按照業(yè)務(wù)部門的劃分,進行各個部分之間業(yè)務(wù)工
作的界定,理清各業(yè)務(wù)部門之間的關(guān)系。
2.深入了解各個業(yè)務(wù)部門的內(nèi)具體業(yè)務(wù)流程并將其程序化。
3.提出修改和改進業(yè)務(wù)部門工作流程的方法并程序化。
4.數(shù)據(jù)建模的范圍界定,整個數(shù)據(jù)倉庫項目的目標(biāo)和階段劃分。
領(lǐng)域概念建模,這部分建模工作,主要包含以下幾個部分:
1.抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。
2.將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線聚合類似的分組概念。
3.細化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。
4.理清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。
概念模型具體要求如下:
1.明確需求
2.明確要做的決策類型
1/
界定系統(tǒng)邊界]3.決策者感興趣的問題
4.這些問題需要什么樣的信息
5.要導(dǎo)到這些信息包含源數(shù)據(jù)的哪些雌
r—~~11.主題域的公共碼鍵
廠概志---------------
-------------確定主要的主邈域及其內(nèi)容,,2.主題域之間的聯(lián)系
〔3.充分代表主題的屬性組
確定主題域間的關(guān)系從企業(yè)角度深入了解各個信息系統(tǒng)的業(yè)務(wù)
邏輯建模,這部分的建模工作,主要包含以下幾個部分:
1.業(yè)務(wù)概念實體化,并考慮其具體的屬性。
2.事件實體化,也就是所謂的事實,并考慮其屬性內(nèi)容。
3.說明實體化,也就是所謂的維度,并考慮其屬性內(nèi)容。
邏輯模型具體要求如下:
選擇主題域盡量小
分析豐富主題域,確定當(dāng)前要裝載的主題.------------------
逐步求精
必須保存最細粒度數(shù)據(jù)
確定粒度層次的劃分-----------------------
-----------------------根據(jù)業(yè)務(wù)部門的查詢需求考慮多重粒度耒提高復(fù)雜查詢度
1.數(shù)據(jù)量大小是決定是否進行數(shù)據(jù)分割和如何分割的主要因素
2.數(shù)據(jù)分析處理的要求是選擇數(shù)據(jù)分割標(biāo)準(zhǔn)的一個主要依據(jù)
邏輯模型確定數(shù)據(jù)分割笫略(表劃分,列劃分)
3.所選擇的敖據(jù)分割的標(biāo)準(zhǔn)是自然地、易于實施的
4考慮我據(jù)分割的標(biāo)準(zhǔn)與粒度劃分層次是適應(yīng)的
f現(xiàn)對應(yīng)多個表
關(guān)系橫式定義---------------------
------------,確認主題的公共碼鍵,確定各個表的關(guān)系模式
記錄系統(tǒng)定義記錄數(shù)據(jù)來源以及數(shù)據(jù)規(guī)范化標(biāo)準(zhǔn)
物理建模,這部分的建模工作,主要包含以下幾個部分:
1.針對特定物理化平臺,做出相應(yīng)的技術(shù)調(diào)整。
2.針對模型的性能考慮,對特定平臺作出相應(yīng)的調(diào)整。
3.針對管理的需要,結(jié)合特定的平臺,做出相應(yīng)的調(diào)整。
4.生成最后的執(zhí)行腳本,并完善之。
物理模型具體要求如下:
根據(jù)預(yù)算和項目需求,對該項目的成本周期和資源進行估算
1.確定項目資源
ETL占據(jù)燈項目的70%,同時確定生命周期
估算數(shù)據(jù)容量
2.確定軟硬件配置
宗主要向fix
從應(yīng)用系統(tǒng)采集而來,只保存一定期限,同時支持部分近實時性報
ODS層表的展示____________________________________________________
保存經(jīng)過清洗,轉(zhuǎn)換和重新組織的歷史業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)將保留較
DWD層久,滿足系統(tǒng)最細粒度的查詢需要。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電力工程施工合同及安全協(xié)議
- 體育教室租賃合同模板
- 通信工程挖機租賃合同協(xié)議
- 總經(jīng)理職務(wù)聘請合同
- 光伏農(nóng)場灌溉系統(tǒng)施工合同
- 電子科技業(yè)防水施工合同
- 荒山探險租賃合同樣本
- 醫(yī)藥生物人才發(fā)展協(xié)議
- 苗木種植可持續(xù)發(fā)展合同
- 城市公共設(shè)施施工合同范本
- 食用菌現(xiàn)代高效農(nóng)業(yè)示范園區(qū)建設(shè)項目建議書
- 東營港加油、LNG加氣站工程環(huán)評報告表
- 2024年日歷(打印版每月一張)
- 車用動力電池回收利用 管理規(guī)范 第2部分:回收服務(wù)網(wǎng)點征求意見稿編制說明
- 新劍橋少兒英語第六冊全冊配套文本
- 科學(xué)預(yù)測方案
- 職業(yè)生涯規(guī)劃網(wǎng)絡(luò)與新媒體專業(yè)
- T-WAPIA 052.2-2023 無線局域網(wǎng)設(shè)備技術(shù)規(guī)范 第2部分:終端
- 市政管道開槽施工-市政排水管道的施工
- 初中八年級英語課件Reading Giant pandas-“江南聯(lián)賽”一等獎2
- 人工智能在教育行業(yè)中的應(yīng)用與管理
評論
0/150
提交評論