數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)課件_第1頁
數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)課件_第2頁
數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)課件_第3頁
數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)課件_第4頁
數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)課件_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章

數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)華南理工大學(xué)廖開際kaiji@163.com第3章

數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)華南理工大學(xué)1教學(xué)目標(biāo)掌握數(shù)據(jù)倉庫的設(shè)計(jì)和開發(fā)方法,包括數(shù)據(jù)模型的設(shè)計(jì)、粒度、維度設(shè)計(jì)以及數(shù)據(jù)倉庫的開發(fā)步驟。教學(xué)目標(biāo)2教學(xué)要求知識要點(diǎn)能力要求相關(guān)知識點(diǎn)數(shù)據(jù)倉庫的開發(fā)過程與方法(1)掌握數(shù)據(jù)倉庫的開發(fā)過程(2)掌握數(shù)據(jù)倉庫設(shè)計(jì)的內(nèi)容與步驟(1)數(shù)據(jù)倉庫開發(fā)的3個(gè)階段(2)數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì)(3)數(shù)據(jù)模型設(shè)計(jì)的重點(diǎn)數(shù)據(jù)模型設(shè)計(jì)(1)掌握概念模型的設(shè)計(jì)(2)掌握邏輯模型的設(shè)計(jì)(3)掌握物理模型的設(shè)計(jì)(4)掌握粒度的設(shè)計(jì)原則(1)面向主題的E-R模型(2)星型模型和雪花模型(3)事實(shí)表與維表(4)粒度數(shù)據(jù)倉庫的構(gòu)建掌握數(shù)據(jù)倉庫構(gòu)建的步驟(1)運(yùn)行環(huán)境(2)實(shí)現(xiàn)技術(shù)(3)

ETL(4)數(shù)據(jù)倉庫的維護(hù)教學(xué)要求知識要點(diǎn)能力要求相關(guān)知識點(diǎn)數(shù)據(jù)倉庫的開發(fā)過程與方法(3

引例:沃爾瑪?shù)臄?shù)據(jù)倉庫沃爾瑪利用NCR的Teradata可對7.5TB的數(shù)據(jù)進(jìn)行存儲,這些數(shù)據(jù)主要包括各個(gè)商店前端設(shè)備(POS、掃描儀)采集來的原始銷售數(shù)據(jù)和各個(gè)商店的庫存數(shù)。Teradata數(shù)據(jù)庫里存有196億條記錄,每天要處理并更新2億條記錄,要對來自6000多個(gè)用戶的4.8萬條查詢語句進(jìn)行處理。銷售數(shù)據(jù)、庫存數(shù)據(jù)每天夜間從3000多個(gè)商店自動(dòng)采集過來,并通過衛(wèi)星線路傳到總部的數(shù)據(jù)倉庫里。沃爾瑪數(shù)據(jù)倉庫里最大的一張表格(Table)容量已超過300GB、存有50億條記錄,可容納65個(gè)星期3000多個(gè)商店的銷售數(shù)據(jù),而每個(gè)商店有5萬到8萬個(gè)商品品種。利用數(shù)據(jù)倉庫技術(shù),沃爾瑪對商品進(jìn)行市場類組分析,即分析哪些商品顧客最有希望一起購買。

引例:沃爾瑪?shù)臄?shù)據(jù)倉庫沃爾瑪利用NCR的Teradata可4思考:請你估計(jì)一下沃爾瑪?shù)臄?shù)據(jù)倉庫中一年的數(shù)據(jù)量有多大?沃爾瑪?shù)臄?shù)據(jù)倉庫是怎樣建成的?思考:請你估計(jì)一下沃爾瑪?shù)臄?shù)據(jù)倉庫中一年的數(shù)據(jù)量有多大?5本章內(nèi)容數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫的粒度設(shè)計(jì)創(chuàng)建數(shù)據(jù)倉庫的基本步驟本章內(nèi)容數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)6數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)按照生命周期發(fā)法可將數(shù)據(jù)倉庫開發(fā)的全部過程分成三個(gè)階段。(1)數(shù)據(jù)倉庫規(guī)劃分析階段。(2)數(shù)據(jù)倉庫設(shè)計(jì)實(shí)施階段。(3)數(shù)據(jù)倉庫的使用維護(hù)階段。這三個(gè)階段不是簡單的循環(huán)往復(fù),而是不斷完善提高的過程。一般情況下,數(shù)據(jù)倉庫系統(tǒng)都不可能在一個(gè)循環(huán)過程中完成,而是經(jīng)過多次循環(huán)開發(fā),每次循環(huán)都會給系統(tǒng)增加新的功能,這種循環(huán)的工作永遠(yuǎn)不會終結(jié),數(shù)據(jù)倉庫也就一直處于一個(gè)不斷完善、不斷提高的循環(huán)過程中。數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)按照生命周期發(fā)法可將數(shù)據(jù)倉庫開發(fā)的7數(shù)據(jù)倉庫開發(fā)的生命周期數(shù)據(jù)倉庫開發(fā)的生命周期8數(shù)據(jù)倉庫開發(fā)的生命周期1.DW規(guī)劃分析階段調(diào)查、分析DW環(huán)境,完成DW的開發(fā)規(guī)劃,卻定DW開發(fā)需求。建立包括實(shí)體圖、星型模型、雪花模型、元數(shù)據(jù)模型及數(shù)據(jù)源分析的主題域數(shù)據(jù)模型,并且根據(jù)主題域數(shù)據(jù)模型開發(fā)DW邏輯模型。數(shù)據(jù)倉庫開發(fā)的生命周期1.DW規(guī)劃分析階段9數(shù)據(jù)倉庫開發(fā)的生命周期2.DW設(shè)計(jì)實(shí)施階段根據(jù)DW的邏輯模型設(shè)計(jì)DW體系結(jié)構(gòu);設(shè)計(jì)DW與物理數(shù)據(jù)庫,用物理數(shù)據(jù)庫元數(shù)據(jù)裝載面向最終用戶的元數(shù)據(jù)庫;為DW中每個(gè)目標(biāo)字段確定他在業(yè)務(wù)系統(tǒng)或外部數(shù)據(jù)源中的數(shù)據(jù)來源;開發(fā)或購買用于抽取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù)等中間件程序;將數(shù)據(jù)從數(shù)據(jù)源加載到DW,并且進(jìn)行測試。數(shù)據(jù)倉庫開發(fā)的生命周期2.DW設(shè)計(jì)實(shí)施階段10數(shù)據(jù)倉庫開發(fā)的生命周期3.DW使用維護(hù)階段DW投入使用,且在使用中改進(jìn)、維護(hù)DW;對DW進(jìn)行評價(jià),為下一個(gè)循環(huán)開發(fā)提供依據(jù)。數(shù)據(jù)倉庫開發(fā)的生命周期3.DW使用維護(hù)階段11DW開發(fā)的特點(diǎn)1.?dāng)?shù)據(jù)倉庫的開發(fā)是從數(shù)據(jù)出發(fā)的創(chuàng)建DW是在原有的數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,我們稱之為“數(shù)據(jù)驅(qū)動(dòng)”。數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心是利用數(shù)據(jù)模型有效的識別原有的數(shù)據(jù)庫中的數(shù)據(jù)和DW中主題的數(shù)據(jù)“共同性”。2.DW使用的需求不能在開發(fā)初期完全明確在數(shù)據(jù)倉庫環(huán)境中,并不存在固定的且較確切的物流、數(shù)據(jù)流、和信息流,數(shù)據(jù)分析處理的需求更加靈活,更沒有固定的模式,甚至用戶自己也對所要進(jìn)行的分析處理不能事先全部確定3.?dāng)?shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā)DW的開發(fā)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過程,一方面DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、力度、分割以及其他物理設(shè)計(jì)應(yīng)該根據(jù)用戶所返回的信息不斷的調(diào)整和完善,以提高系統(tǒng)的效率和性能;另一方面,通過不斷理解用戶的分析需求,不斷的調(diào)整和完善,以求向用戶提供更準(zhǔn)確、更有效的決策信息。DW開發(fā)的特點(diǎn)1.?dāng)?shù)據(jù)倉庫的開發(fā)是從數(shù)據(jù)出發(fā)的12思考數(shù)據(jù)倉庫的開發(fā)過程與數(shù)據(jù)庫的開發(fā)過程有什么不同?為什么?思考數(shù)據(jù)倉庫的開發(fā)過程與數(shù)據(jù)庫的開發(fā)過程有什么不同?為什么?13數(shù)據(jù)倉庫設(shè)計(jì)的主要內(nèi)容數(shù)據(jù)倉庫設(shè)計(jì)的主要內(nèi)容14數(shù)據(jù)模型設(shè)計(jì)DW數(shù)據(jù)模型具有如下特點(diǎn)。(1)去掉純操作性數(shù)據(jù)。(2)給鍵碼增加時(shí)間因素。(3)合適之處增加導(dǎo)出數(shù)據(jù)。(4)把OLTP系統(tǒng)中數(shù)據(jù)關(guān)系變?yōu)槿斯りP(guān)系。DW數(shù)據(jù)模型源于OLTP系統(tǒng)數(shù)據(jù)模型以及企業(yè)數(shù)據(jù)模型數(shù)據(jù)模型設(shè)計(jì)DW數(shù)據(jù)模型具有如下特點(diǎn)。15概念模型設(shè)計(jì)1.設(shè)計(jì)方法在建模之前定義數(shù)據(jù)模型的邊界,然后建立企業(yè)內(nèi)不同群體的實(shí)體-聯(lián)系模型,最后進(jìn)行集成企業(yè)的總體概念模型。概念模型設(shè)計(jì)1.設(shè)計(jì)方法16概念模型設(shè)計(jì)2.注意事項(xiàng)(1)在DW的數(shù)據(jù)模型中不包含操作性數(shù)據(jù),只包含用戶感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。例:在商品銷售分析DW模型中,商品的銷售數(shù)量、金額、企業(yè)利潤等是分析數(shù)據(jù);銷售的時(shí)間、地點(diǎn)等使用戶感興趣的描述數(shù)據(jù);銷售產(chǎn)品的詳細(xì)情況、購買商品的客戶詳細(xì)情況等是細(xì)節(jié)數(shù)據(jù)。(2)數(shù)據(jù)的歷史變遷性。DW的數(shù)據(jù)模型增加時(shí)間屬性作為碼的一部分(3)數(shù)據(jù)的概括性。DW的數(shù)據(jù)模型中增加了一些衍生數(shù)據(jù),專門用于分析的DW系統(tǒng)需要一些概括性的數(shù)據(jù),這些數(shù)據(jù)在業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)模型中是不需要的。例如,在銷售管理的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)模型中,通常只需要記錄當(dāng)前細(xì)數(shù)據(jù),而在數(shù)據(jù)倉庫的數(shù)據(jù)模型中,需要保存一些統(tǒng)計(jì)、累加而來的綜合數(shù)據(jù)。概念模型設(shè)計(jì)2.注意事項(xiàng)17概念模型設(shè)計(jì)3.E-R圖的描述方法(1)矩形。矩形表示實(shí)體,在數(shù)據(jù)倉庫中表示主題,在矩形框內(nèi)寫上主題名。(2)橢圓形。橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來。(3)菱形。菱形表示主題之間的聯(lián)系,菱形框內(nèi)寫上聯(lián)系的名字。用無向邊把菱形分別與有關(guān)的主題連接,在無向邊旁標(biāo)上聯(lián)系的類型。若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。概念模型設(shè)計(jì)3.E-R圖的描述方法18概念模型設(shè)計(jì)某商場的商品、顧客和供應(yīng)商之間的概念模型的E-R圖

概念模型設(shè)計(jì)某商場的商品、顧客和供應(yīng)商之間的概念模型的E-R19邏輯模型設(shè)計(jì)關(guān)系數(shù)據(jù)庫一般采用二維數(shù)據(jù)表的形式來表示數(shù)據(jù),一個(gè)維是行,另一個(gè)維是列,行和列的交叉處就是數(shù)據(jù)元素。關(guān)系數(shù)據(jù)的基礎(chǔ)是關(guān)系數(shù)據(jù)庫模型,通過標(biāo)準(zhǔn)的SQL語言來加以實(shí)現(xiàn)。數(shù)據(jù)倉庫是多維數(shù)據(jù)庫,它擴(kuò)展了關(guān)系數(shù)據(jù)庫模型,以星形架構(gòu)為主要結(jié)構(gòu)方式的,并在它的基礎(chǔ)上,擴(kuò)展出理論雪花形架構(gòu)和數(shù)據(jù)星座等方式,但不管是哪一種架構(gòu),維度表、事實(shí)表和事實(shí)表中的量度都是必不可少的組成要素。邏輯模型設(shè)計(jì)關(guān)系數(shù)據(jù)庫一般采用二維數(shù)據(jù)表的形式來表示數(shù)據(jù)20邏輯模型設(shè)計(jì)——星形模型星形模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式,它使數(shù)據(jù)倉庫形成了一個(gè)集成系統(tǒng),為最終用戶提供報(bào)表服務(wù),為用戶提供分析服務(wù)對象。星形模式通過使用一個(gè)包含主題的事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來支持各種決策查詢。星形模型可以采用關(guān)系型數(shù)據(jù)庫結(jié)構(gòu),模型的核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。維度表中的對象通過事實(shí)表與另一維度表中的對象相關(guān)聯(lián),這樣就能建立各個(gè)維度表對象之間的聯(lián)系。每一個(gè)維度表通過一個(gè)主鍵與事實(shí)表進(jìn)行連接。邏輯模型設(shè)計(jì)——星形模型星形模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的21邏輯模型設(shè)計(jì)——星形模型邏輯模型設(shè)計(jì)——星形模型22邏輯模型設(shè)計(jì)——星形模型事實(shí)表主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。一般情況下,事實(shí)表中的數(shù)據(jù)不允許修改,新的數(shù)據(jù)只是簡單地添加進(jìn)事實(shí)表中,維度表主要包含了存儲在事實(shí)表中數(shù)據(jù)的特征數(shù)據(jù)。每一個(gè)維度表利用維度關(guān)鍵字通過事實(shí)表中的外鍵約束于事實(shí)表中的某一行,實(shí)現(xiàn)與事實(shí)表的關(guān)聯(lián),這就要求事實(shí)表中的外鍵不能為空,這與一般數(shù)據(jù)庫中外鍵允許為空是不同的。這種結(jié)構(gòu)使用戶能夠很容易地從維度表中的數(shù)據(jù)分析開始,獲得維度關(guān)鍵字,以便連接到中心的事實(shí)表,進(jìn)行查詢。邏輯模型設(shè)計(jì)——星形模型事實(shí)表23邏輯模型設(shè)計(jì)——星形模型星形模型雖然是一個(gè)關(guān)系模型,但是它不是一個(gè)規(guī)范化的模型。在星形模式中,維度表被故意地非規(guī)范化了,這是星形模式與OLTP系統(tǒng)中關(guān)系模式的基本區(qū)別。使用星形模式主要有兩方面的原因:一是可以提高查詢的效率。采用星形模式設(shè)計(jì)的數(shù)據(jù)倉庫的優(yōu)點(diǎn)是由于數(shù)據(jù)的組織已經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中,所以只要掃描事實(shí)表就可以進(jìn)行查詢,而不必把多個(gè)龐大的表聯(lián)接起來,查詢訪問效率較高,同時(shí)由于維表一般都很小,甚至可以放在高速緩存中,與事實(shí)表進(jìn)行連接時(shí)其速度較快,便于用戶理解;二是對于非計(jì)算機(jī)專業(yè)的用戶而言,星形模式比較直觀,通過分析星形模式,很容易組合出各種查詢。邏輯模型設(shè)計(jì)——星形模型星形模型雖然是一個(gè)關(guān)系模型,但是它不24邏輯模型設(shè)計(jì)——星形模型邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系實(shí)體-聯(lián)系圖是代表企業(yè)中每一個(gè)可能的業(yè)務(wù)過程,一個(gè)實(shí)體-聯(lián)系圖可以拆分成多個(gè)維表、事實(shí)表構(gòu)成的邏輯模型。將E-R圖轉(zhuǎn)換成維度建模時(shí)的步驟是:(1)將E-R圖分成獨(dú)立的業(yè)務(wù)處理,然后對每個(gè)業(yè)務(wù)處理單獨(dú)建模。(2)在E-R圖中,對包含數(shù)字型事實(shí)和可加性非碼事實(shí)的實(shí)體,選擇其中的多對多關(guān)系,并且將他們設(shè)計(jì)成各個(gè)事實(shí)表。(3)將剩下的實(shí)體進(jìn)行非規(guī)范化處理,設(shè)計(jì)成為表。邏輯模型設(shè)計(jì)——星形模型邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系25星形模型基本設(shè)計(jì)技術(shù)(1)正確區(qū)分事實(shí)、屬性和維度。維度模型需要對事實(shí)和屬性進(jìn)行區(qū)分,業(yè)務(wù)層的很多事實(shí)都是數(shù)值型的,特別是該數(shù)值是浮點(diǎn)數(shù)時(shí),他很可能是一個(gè)事實(shí),而不是屬性。例如“標(biāo)準(zhǔn)價(jià)格”,好像是產(chǎn)品維度的一個(gè)屬性,似乎是事先一致的常量,但每年對標(biāo)準(zhǔn)價(jià)格進(jìn)行一、兩次調(diào)整,因此應(yīng)該設(shè)計(jì)成事實(shí)。屬性通常指文本字段,例如產(chǎn)品描述。維度是類似于文本形式的屬性組合,固定的數(shù)值型屬性應(yīng)放在維表中。例如,零售數(shù)據(jù)倉庫中,至少應(yīng)有一個(gè)產(chǎn)品維度,一個(gè)商店維度,一個(gè)客戶維,一個(gè)時(shí)間維,一個(gè)促銷維。星形模型基本設(shè)計(jì)技術(shù)(1)正確區(qū)分事實(shí)、屬性和維度。26星形模型基本設(shè)計(jì)技術(shù)(2)事實(shí)表的設(shè)計(jì)方法。事實(shí)表是數(shù)據(jù)倉庫中最大的表,在設(shè)計(jì)時(shí),一定注意使事實(shí)表盡可能的小,因?yàn)檫^大的事實(shí)表在表的處理、備份和恢復(fù)、用戶查詢等方面要用較長的時(shí)間。具體方法主要有:減少列的數(shù)量;降低每列的大?。话褮v史數(shù)據(jù)存檔;對行進(jìn)行分割。例如,零售營銷事實(shí)表設(shè)計(jì)如下:星形模型基本設(shè)計(jì)技術(shù)(2)事實(shí)表的設(shè)計(jì)方法。27星形模型基本設(shè)計(jì)技術(shù)(3)維表的設(shè)計(jì)。維表的屬性必須具有以下特征:可用文字描述;離散值;有規(guī)定的約束;在分析時(shí)可提供行標(biāo)題。時(shí)間維在數(shù)據(jù)倉庫中占有特定位置,建議使用時(shí)間維度。圖3.6是零售業(yè)營銷分析的星型模型圖。星形模型基本設(shè)計(jì)技術(shù)(3)維表的設(shè)計(jì)。28星形模型基本設(shè)計(jì)技術(shù)零售業(yè)營銷分析的星型模型圖星形模型基本設(shè)計(jì)技術(shù)零售業(yè)營銷分析的星型模型圖29邏輯模型設(shè)計(jì)——雪花模型雪花模型是對星形模型的擴(kuò)展,每一個(gè)維度都可以向外連接多個(gè)詳細(xì)類別表。在這種模式中,維度表除了具有星形模型中維度表的功能外,還連接對事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類別表通過對事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)表和提高查詢效率的目的。邏輯模型設(shè)計(jì)——雪花模型雪花模型是對星形模型的擴(kuò)展,每一個(gè)維30邏輯模型設(shè)計(jì)——雪花模型雪花模型架構(gòu)示意圖邏輯模型設(shè)計(jì)——雪花模型雪花模型架構(gòu)示意圖31邏輯模型設(shè)計(jì)——雪花模型雪花模型對星形模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對星形模型中的維度表進(jìn)行了規(guī)范化處理。雪花模型的維度表中存儲了正規(guī)化的數(shù)據(jù),這種結(jié)構(gòu)通過把多個(gè)較小的標(biāo)準(zhǔn)化表(而不是星形模型中的大的非標(biāo)準(zhǔn)化表)聯(lián)合在一起來改善查詢性能。由于采取了標(biāo)準(zhǔn)化及維的低粒度,雪花模型提高了數(shù)據(jù)倉庫應(yīng)用的靈活性。邏輯模型設(shè)計(jì)——雪花模型雪花模型對星形模型的維度表進(jìn)一步標(biāo)準(zhǔn)32邏輯模型設(shè)計(jì)——雪花模型在該模型中,將地理層次國家、區(qū)域和分區(qū)域嵌入到銷售員維度,這樣,公司的管理者想按照國家、區(qū)域、分區(qū)域和分區(qū)域內(nèi)的銷售員的層次關(guān)系來查看公司的銷售情況。邏輯模型設(shè)計(jì)——雪花模型在該模型中,將地理層次國家、區(qū)域和分33銷售數(shù)據(jù)倉庫邏輯模型(雪花型)銷售數(shù)據(jù)倉庫邏輯模型(雪花型)34邏輯模型設(shè)計(jì)——星座模型一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會在數(shù)據(jù)倉庫中存放多個(gè)事實(shí)表,這時(shí)就會出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,這就是事實(shí)星座,也稱為星系模型(galaxyschema)。數(shù)據(jù)倉庫由于是企業(yè)范圍的,能對多個(gè)相關(guān)的主題建模,所以在設(shè)計(jì)其數(shù)據(jù)構(gòu)成時(shí)一般采用星系模式。而數(shù)據(jù)集市是部門級的,具有選定的主題,可以采用星形或雪花模型。邏輯模型設(shè)計(jì)——星座模型一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會在數(shù)據(jù)倉35邏輯模型設(shè)計(jì)——維度的設(shè)計(jì)維是人們觀察客觀世界的角度,是一種高層次的類型劃分。如:對客戶、產(chǎn)品、服務(wù)、提供商、地點(diǎn)、渠道和事件發(fā)生的時(shí)間維表是由維主鍵和維屬性組成的一般情況下,在每次抽樣時(shí),如果數(shù)值數(shù)據(jù)字段的度量都改變,那么它就是事實(shí),如果它是某種東西的離散值描述,并幾乎保持為常數(shù),那么它就是維屬性。例如,商品的價(jià)格是為表的屬性,銷售量是事實(shí)。邏輯模型設(shè)計(jì)——維度的設(shè)計(jì)維是人們觀察客觀世界的角度,是一36維表舉例圖3.10時(shí)間維度及其層次關(guān)系圖3.11財(cái)務(wù)時(shí)間維度維表舉例圖3.10時(shí)間維度及其層次關(guān)系37維表舉例圖3.12地理維度層次圖3.13機(jī)構(gòu)維度層次維表舉例圖3.12地理維度層次圖3.13機(jī)構(gòu)維度層次38維表舉例客戶維度分類維表舉例客戶維度分類39物理模型設(shè)計(jì)數(shù)據(jù)倉庫的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如:物理存取方式數(shù)據(jù)存儲結(jié)構(gòu)數(shù)據(jù)存放位置以及存儲分配等物理數(shù)據(jù)模型設(shè)計(jì)實(shí)現(xiàn)時(shí),所考慮的主要因素有:I/O存取時(shí)間空間利用率和維護(hù)代價(jià)在進(jìn)行數(shù)據(jù)倉庫的物理數(shù)據(jù)模型設(shè)計(jì)時(shí),考慮到數(shù)據(jù)倉庫的數(shù)據(jù)量大但是操作單一的特點(diǎn),可采取其他的一些提高數(shù)據(jù)倉庫性能的技術(shù),如:合并表、建立數(shù)據(jù)序列、引入冗余、進(jìn)一步細(xì)分?jǐn)?shù)據(jù)、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。物理模型設(shè)計(jì)數(shù)據(jù)倉庫的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉40物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要性、使用頻率及對反應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類型的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要性高、經(jīng)常存取并對反應(yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲設(shè)備上;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以存放在低速存儲設(shè)備上。在設(shè)計(jì)時(shí)還要考慮數(shù)據(jù)在特定存儲介質(zhì)上的布局。物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要41物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)的布局時(shí)要注意遵循以下原則。(1)不要把經(jīng)常需要連接的幾張表放在同一存儲設(shè)備上,這樣可以利用存儲設(shè)備的并行操作功能加快數(shù)據(jù)查詢的速度。(2)如果幾臺服務(wù)器之間的連接會造成嚴(yán)重的網(wǎng)絡(luò)業(yè)務(wù)量的問題,則要考慮服務(wù)器復(fù)制表格,因?yàn)椴煌?wù)器之間的數(shù)據(jù)連接會給網(wǎng)絡(luò)帶來沉重的數(shù)據(jù)傳輸負(fù)擔(dān)。(3)考慮把整個(gè)企業(yè)共享的細(xì)節(jié)數(shù)據(jù)放在主機(jī)或其他集中式服務(wù)器上,提高這些共享數(shù)據(jù)的使用速度。(4)不要把表格和它們的索引放在同一設(shè)備上。一般可以將索引存放在高速存儲設(shè)備上,而表格則存放在一般存儲設(shè)備上,以加快數(shù)據(jù)的查詢速度。物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)的布局時(shí)要注意遵循以下原42物理模型設(shè)計(jì)——設(shè)計(jì)索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)地設(shè)計(jì)和選擇。由于數(shù)據(jù)倉庫的數(shù)據(jù)一般很少更新,所以可以設(shè)計(jì)索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。數(shù)據(jù)倉庫中的表通常要比聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)中的表建立更多的索引,表中應(yīng)用的最大索引數(shù)應(yīng)與表格的規(guī)模成正比。數(shù)據(jù)倉庫是個(gè)只讀的環(huán)境,建立索引可以取得靈活性,對性能極為有利。但是,表若有很多索引,那么數(shù)據(jù)加載時(shí)間就會延長,因此索引的建立需要進(jìn)行綜合的考慮。一般都是按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引,通常不要添加很多的其他索引。物理模型設(shè)計(jì)——設(shè)計(jì)索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對43物理模型設(shè)計(jì)——設(shè)計(jì)存儲策略確定數(shù)據(jù)的存儲位置和存儲策略,以提高系統(tǒng)的I/O效率。幾種常見的存儲優(yōu)化方法。表的歸并引入冗余其他方法物理模型設(shè)計(jì)——設(shè)計(jì)存儲策略確定數(shù)據(jù)的存儲位置和存儲策略,44數(shù)據(jù)倉庫的粒度設(shè)計(jì)數(shù)據(jù)倉庫的性能和存儲空間是一對矛盾。如果粒度設(shè)計(jì)得很小,則事實(shí)表將不得不記錄所有的細(xì)節(jié),儲存數(shù)據(jù)所需要的空間將會急劇的膨脹;若設(shè)計(jì)的粒度很大,雖然由于事實(shí)表體積大而帶來的諸多問題能夠得到一定程度的緩解,但決策者不能觀察細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫的粒度設(shè)計(jì)數(shù)據(jù)倉庫的性能和存儲空間是一對矛盾。45粒度設(shè)計(jì)的三個(gè)步驟粗略估計(jì)確定雙重還是單一粒度確定粒度的級別粒度設(shè)計(jì)的三個(gè)步驟粗略估計(jì)46粒度設(shè)計(jì)第一步——粗略估算(1)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的所有表,然后估計(jì)每張表中行的大小(2)估計(jì)一年內(nèi)表中的最少行數(shù)和最多行數(shù)。估計(jì)完一年內(nèi)數(shù)據(jù)倉庫中數(shù)據(jù)單位的數(shù)量(用上下限推測的方法)用同樣的方法對5年內(nèi)的數(shù)據(jù)進(jìn)行估計(jì)。計(jì)算一下索引數(shù)據(jù)所占的空間。對每張表(對表中的每個(gè)鍵碼)確定鍵碼的長度和原始表中每條數(shù)據(jù)是否存在鍵碼。(3)將各表中行數(shù)可能的最大值和最小值分別乘以數(shù)據(jù)的最大長度和最小長度。另外,還要將索引項(xiàng)的數(shù)目與鍵碼的長度的乘積累加到總的數(shù)據(jù)量中去。粒度設(shè)計(jì)第一步——粗略估算(1)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的47粒度設(shè)計(jì)第二步——確定雙重或單一的粒度將數(shù)據(jù)倉庫環(huán)境中總的行數(shù)和下表中所示的表格進(jìn)行比較,確定雙重或單一的粒度。1年數(shù)據(jù)5年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10000000雙重粒度并仔細(xì)設(shè)計(jì)20000000雙重粒度并仔細(xì)設(shè)計(jì)1000000雙重粒度10000000雙重粒度100000仔細(xì)設(shè)計(jì)1000000仔細(xì)設(shè)計(jì)10000不考慮100000不考慮粒度設(shè)計(jì)第二步——確定雙重或單一的粒度將數(shù)據(jù)倉庫環(huán)境中總的行48粒度設(shè)計(jì)第三步——確定粒度的級別

例如,對于銀行環(huán)境由于其信息量較大,設(shè)計(jì)成雙重粒度級。在DW中,輕度綜合級存十年的每月匯總的賬戶信息,當(dāng)前細(xì)節(jié)級數(shù)據(jù)存30天。在這個(gè)級別并不是把OLTP系統(tǒng)中所有的字段都送到DW中,只有對分析有價(jià)值的信息字段才被存儲。30天之后,把這部分細(xì)節(jié)數(shù)據(jù)送到磁帶上,騰出的空間存放下一個(gè)30天的當(dāng)前細(xì)節(jié)級數(shù)據(jù)。粒度設(shè)計(jì)第三步——確定粒度的級別例如,對于銀行環(huán)境49粒度設(shè)計(jì)原則對于業(yè)務(wù)量大,分析要求比較高的情況下,最佳解決辦法則是采用多重粒度的形式。而針對具體的某個(gè)事實(shí)的粒度而言,應(yīng)當(dāng)采用“最小粒度原則”,即將量度的粒度設(shè)置到最小。粒度設(shè)計(jì)原則對于業(yè)務(wù)量大,分析要求比較高的情況下,最佳解決辦50創(chuàng)建數(shù)據(jù)倉庫的基本步驟(1)收集運(yùn)營環(huán)境文檔。(2)選擇數(shù)據(jù)倉庫的實(shí)現(xiàn)技術(shù)。(3)設(shè)計(jì)數(shù)據(jù)倉庫模型。(4)創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū)。(5)創(chuàng)建數(shù)據(jù)倉庫數(shù)據(jù)庫。(6)從操作型系統(tǒng)中抽取數(shù)據(jù)。(7)清理和轉(zhuǎn)換數(shù)據(jù)。(8)將數(shù)據(jù)載入數(shù)據(jù)倉庫數(shù)據(jù)庫。(9)準(zhǔn)備顯示數(shù)據(jù)。(10)將數(shù)據(jù)分發(fā)到數(shù)據(jù)集市。創(chuàng)建數(shù)據(jù)倉庫的基本步驟(1)收集運(yùn)營環(huán)境文檔。51建立運(yùn)營環(huán)境文檔建立運(yùn)營環(huán)境的第一步是識別所有業(yè)務(wù)系統(tǒng)確定每個(gè)系統(tǒng)中存儲什么樣的數(shù)據(jù)建立運(yùn)營環(huán)境文檔建立運(yùn)營環(huán)境的第一步是識別所有業(yè)務(wù)系統(tǒng)52選擇數(shù)據(jù)倉庫的實(shí)現(xiàn)技術(shù)(1)數(shù)據(jù)倉庫的操作系統(tǒng)。(2)數(shù)據(jù)倉庫的數(shù)據(jù)庫。(3)數(shù)據(jù)倉庫模型工具。(4)數(shù)據(jù)倉庫開發(fā)工具。(5)數(shù)據(jù)倉庫監(jiān)視工具。(6)提取和清除工具。(7)報(bào)告工具。(8)

OLAP服務(wù)器。(8)數(shù)據(jù)挖掘工具選擇數(shù)據(jù)倉庫的實(shí)現(xiàn)技術(shù)(1)數(shù)據(jù)倉庫的操作系統(tǒng)。53選擇數(shù)據(jù)倉庫的實(shí)現(xiàn)技術(shù)下面是選擇供應(yīng)商需要注意的問題。(1)選擇“最好的”產(chǎn)品并不總是正確的解決方案。(2)選擇與行業(yè)標(biāo)準(zhǔn)相近的產(chǎn)品。花費(fèi)時(shí)間來評估幾個(gè)供應(yīng)商的不同軟件包是一件非常迫切需要的工作。選擇數(shù)據(jù)倉庫的實(shí)現(xiàn)技術(shù)下面是選擇供應(yīng)商需要注意的問題。54設(shè)計(jì)數(shù)據(jù)倉庫模型關(guān)系模型是當(dāng)前最流行數(shù)據(jù)模型最流行的數(shù)據(jù)倉庫模型是星型模型。設(shè)計(jì)數(shù)據(jù)倉庫模型關(guān)系模型是當(dāng)前最流行數(shù)據(jù)模型55創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū)為支持?jǐn)?shù)據(jù)抽取、清理和轉(zhuǎn)換操作以便準(zhǔn)備數(shù)據(jù)裝入數(shù)據(jù)倉庫,需要?jiǎng)?chuàng)建表和其他數(shù)據(jù)庫對象??梢詾閿?shù)據(jù)準(zhǔn)備區(qū)創(chuàng)建單獨(dú)的數(shù)據(jù)庫,或者可以在數(shù)據(jù)倉庫數(shù)據(jù)庫中創(chuàng)建這些項(xiàng)目。數(shù)據(jù)準(zhǔn)備區(qū)應(yīng)包括包含傳入數(shù)據(jù)的表、幫助實(shí)現(xiàn)代理鍵的表以及容納轉(zhuǎn)換數(shù)據(jù)的表。數(shù)據(jù)準(zhǔn)備區(qū)的特定設(shè)計(jì)取決于數(shù)據(jù)源的多樣性、組織數(shù)據(jù),以使在裝入數(shù)據(jù)倉庫時(shí)所需的轉(zhuǎn)換程度以及傳入數(shù)據(jù)的一致性。創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū)為支持?jǐn)?shù)據(jù)抽取、清理和轉(zhuǎn)換操作以便準(zhǔn)備數(shù)據(jù)裝56創(chuàng)建數(shù)據(jù)倉庫數(shù)據(jù)庫創(chuàng)建事實(shí)數(shù)據(jù)表和維度表,并在所有表中的主要字段上建立索引。星型架構(gòu)由單個(gè)事實(shí)數(shù)據(jù)表和一些維度表組成。雪花型架構(gòu)增加了次要維度表。例如,數(shù)據(jù)倉庫可能包含銷售信息和庫存信息。由于銷售數(shù)據(jù)和庫存數(shù)據(jù)在本質(zhì)上不同,它們應(yīng)存儲在不同的事實(shí)數(shù)據(jù)表中。有些維度表(如產(chǎn)品維度表)可能由銷售和庫存表共享,而有些維度表(如銷售隊(duì)伍或倉庫位置)則可能專用于個(gè)別的事實(shí)數(shù)據(jù)表。創(chuàng)建數(shù)據(jù)倉庫數(shù)據(jù)庫創(chuàng)建事實(shí)數(shù)據(jù)表和維度表,并在所有表中的主57從操作型系統(tǒng)中抽取數(shù)據(jù)抽取數(shù)據(jù)簡單抽取復(fù)雜抽取識別數(shù)據(jù)中的錯(cuò)誤和不一致問題。從操作型系統(tǒng)中抽取數(shù)據(jù)抽取數(shù)據(jù)58清理和轉(zhuǎn)換數(shù)據(jù)從源系統(tǒng)抽取后,數(shù)據(jù)應(yīng)駐留在數(shù)據(jù)準(zhǔn)備區(qū),在這里可以在數(shù)據(jù)裝入數(shù)據(jù)倉庫前完成清理和轉(zhuǎn)換。可以執(zhí)行一些過程來驗(yàn)證數(shù)據(jù)的一致性,將數(shù)據(jù)轉(zhuǎn)換成常用格式以及合并代理鍵??赡苄枰獔?zhí)行手工操作協(xié)調(diào)數(shù)據(jù)的不一致或解決二義性文本字段輸入項(xiàng)清理和轉(zhuǎn)換數(shù)據(jù)從源系統(tǒng)抽取后,數(shù)據(jù)應(yīng)駐留在數(shù)據(jù)準(zhǔn)備區(qū),在這59將數(shù)據(jù)裝入數(shù)據(jù)倉庫數(shù)據(jù)庫在數(shù)據(jù)被清洗、轉(zhuǎn)換之后,就可將數(shù)據(jù)加載到合適的數(shù)據(jù)倉庫事實(shí)表中。在數(shù)據(jù)加載后,還要更新元數(shù)據(jù)倉庫中的元數(shù)據(jù),以反映剛完成的數(shù)據(jù)加載活動(dòng),并且對受影響的概括數(shù)據(jù)重新概括處理。數(shù)據(jù)的加載話動(dòng)應(yīng)該使用標(biāo)準(zhǔn)方法和通用工具,例如,在關(guān)系DBMS中可以使用SQL,或?qū)iT用于管理數(shù)據(jù)倉庫的DBMS加載工具。將數(shù)據(jù)裝入數(shù)據(jù)倉庫數(shù)據(jù)庫在數(shù)據(jù)被清洗、轉(zhuǎn)換之后,就可將數(shù)據(jù)60準(zhǔn)備顯示信息因?yàn)橥ǔMㄟ^客戶端應(yīng)用程序提供對數(shù)據(jù)倉庫數(shù)據(jù)的訪問,所以必須在數(shù)據(jù)倉庫中完成某些任務(wù)以便為最終用戶準(zhǔn)備顯示信息。數(shù)據(jù)倉庫設(shè)計(jì)的一部分是識別這些應(yīng)用程序所需的任何特殊數(shù)據(jù)配置要求,并通常是按照應(yīng)用程序文檔中的描述配置應(yīng)用程序本身。準(zhǔn)備顯示信息因?yàn)橥ǔMㄟ^客戶端應(yīng)用程序提供對數(shù)據(jù)倉庫數(shù)據(jù)的61將數(shù)據(jù)分發(fā)到數(shù)據(jù)集市復(fù)制所有適用的共享維度表和適合于數(shù)據(jù)集市的事實(shí)數(shù)據(jù)表。如果將某個(gè)數(shù)據(jù)集市特有的特殊維度表只用于該數(shù)據(jù)集市所服務(wù)的部門或組,則可以在本地創(chuàng)建這些維度表。用于創(chuàng)建報(bào)表從而與來自其他數(shù)據(jù)集市的報(bào)表進(jìn)行比較的維度應(yīng)是共享維度,共享維度在數(shù)據(jù)倉庫中集中進(jìn)行管理并從數(shù)據(jù)倉庫表中裝載。將數(shù)據(jù)分發(fā)到數(shù)據(jù)集市復(fù)制所有適用的共享維度表和適合于數(shù)據(jù)集62總結(jié)數(shù)據(jù)倉庫的設(shè)計(jì)始于數(shù)據(jù)模型。在概念模型設(shè)計(jì)中,E-R模型中的實(shí)體用主題取代;邏輯模型設(shè)計(jì)中,依然使用關(guān)系模型,但數(shù)據(jù)以星型結(jié)構(gòu)或雪花結(jié)構(gòu)按主題組織。由于數(shù)據(jù)倉庫的需求是不可預(yù)先知道的,因此,數(shù)據(jù)倉庫以反復(fù)開發(fā)的方式建立。數(shù)據(jù)倉庫開發(fā)者面臨的基本問題是管理大量數(shù)據(jù)。為此,數(shù)據(jù)的粒度和分割是數(shù)據(jù)倉庫設(shè)計(jì)的兩個(gè)重要問題。然而,也存在許多其他物理設(shè)計(jì)的問題,其中,大多數(shù)都與數(shù)據(jù)訪問的效率有關(guān)。總結(jié)數(shù)據(jù)倉庫的設(shè)計(jì)始于數(shù)據(jù)模型。63作業(yè)閱讀“閱讀資料”和“案例分析”思考練習(xí)題作業(yè)閱讀“閱讀資料”和“案例分析”64第3章

數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)華南理工大學(xué)廖開際kaiji@163.com第3章

數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)華南理工大學(xué)65教學(xué)目標(biāo)掌握數(shù)據(jù)倉庫的設(shè)計(jì)和開發(fā)方法,包括數(shù)據(jù)模型的設(shè)計(jì)、粒度、維度設(shè)計(jì)以及數(shù)據(jù)倉庫的開發(fā)步驟。教學(xué)目標(biāo)66教學(xué)要求知識要點(diǎn)能力要求相關(guān)知識點(diǎn)數(shù)據(jù)倉庫的開發(fā)過程與方法(1)掌握數(shù)據(jù)倉庫的開發(fā)過程(2)掌握數(shù)據(jù)倉庫設(shè)計(jì)的內(nèi)容與步驟(1)數(shù)據(jù)倉庫開發(fā)的3個(gè)階段(2)數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì)(3)數(shù)據(jù)模型設(shè)計(jì)的重點(diǎn)數(shù)據(jù)模型設(shè)計(jì)(1)掌握概念模型的設(shè)計(jì)(2)掌握邏輯模型的設(shè)計(jì)(3)掌握物理模型的設(shè)計(jì)(4)掌握粒度的設(shè)計(jì)原則(1)面向主題的E-R模型(2)星型模型和雪花模型(3)事實(shí)表與維表(4)粒度數(shù)據(jù)倉庫的構(gòu)建掌握數(shù)據(jù)倉庫構(gòu)建的步驟(1)運(yùn)行環(huán)境(2)實(shí)現(xiàn)技術(shù)(3)

ETL(4)數(shù)據(jù)倉庫的維護(hù)教學(xué)要求知識要點(diǎn)能力要求相關(guān)知識點(diǎn)數(shù)據(jù)倉庫的開發(fā)過程與方法(67

引例:沃爾瑪?shù)臄?shù)據(jù)倉庫沃爾瑪利用NCR的Teradata可對7.5TB的數(shù)據(jù)進(jìn)行存儲,這些數(shù)據(jù)主要包括各個(gè)商店前端設(shè)備(POS、掃描儀)采集來的原始銷售數(shù)據(jù)和各個(gè)商店的庫存數(shù)。Teradata數(shù)據(jù)庫里存有196億條記錄,每天要處理并更新2億條記錄,要對來自6000多個(gè)用戶的4.8萬條查詢語句進(jìn)行處理。銷售數(shù)據(jù)、庫存數(shù)據(jù)每天夜間從3000多個(gè)商店自動(dòng)采集過來,并通過衛(wèi)星線路傳到總部的數(shù)據(jù)倉庫里。沃爾瑪數(shù)據(jù)倉庫里最大的一張表格(Table)容量已超過300GB、存有50億條記錄,可容納65個(gè)星期3000多個(gè)商店的銷售數(shù)據(jù),而每個(gè)商店有5萬到8萬個(gè)商品品種。利用數(shù)據(jù)倉庫技術(shù),沃爾瑪對商品進(jìn)行市場類組分析,即分析哪些商品顧客最有希望一起購買。

引例:沃爾瑪?shù)臄?shù)據(jù)倉庫沃爾瑪利用NCR的Teradata可68思考:請你估計(jì)一下沃爾瑪?shù)臄?shù)據(jù)倉庫中一年的數(shù)據(jù)量有多大?沃爾瑪?shù)臄?shù)據(jù)倉庫是怎樣建成的?思考:請你估計(jì)一下沃爾瑪?shù)臄?shù)據(jù)倉庫中一年的數(shù)據(jù)量有多大?69本章內(nèi)容數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫的粒度設(shè)計(jì)創(chuàng)建數(shù)據(jù)倉庫的基本步驟本章內(nèi)容數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)70數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)按照生命周期發(fā)法可將數(shù)據(jù)倉庫開發(fā)的全部過程分成三個(gè)階段。(1)數(shù)據(jù)倉庫規(guī)劃分析階段。(2)數(shù)據(jù)倉庫設(shè)計(jì)實(shí)施階段。(3)數(shù)據(jù)倉庫的使用維護(hù)階段。這三個(gè)階段不是簡單的循環(huán)往復(fù),而是不斷完善提高的過程。一般情況下,數(shù)據(jù)倉庫系統(tǒng)都不可能在一個(gè)循環(huán)過程中完成,而是經(jīng)過多次循環(huán)開發(fā),每次循環(huán)都會給系統(tǒng)增加新的功能,這種循環(huán)的工作永遠(yuǎn)不會終結(jié),數(shù)據(jù)倉庫也就一直處于一個(gè)不斷完善、不斷提高的循環(huán)過程中。數(shù)據(jù)倉庫的開發(fā)過程及特點(diǎn)按照生命周期發(fā)法可將數(shù)據(jù)倉庫開發(fā)的71數(shù)據(jù)倉庫開發(fā)的生命周期數(shù)據(jù)倉庫開發(fā)的生命周期72數(shù)據(jù)倉庫開發(fā)的生命周期1.DW規(guī)劃分析階段調(diào)查、分析DW環(huán)境,完成DW的開發(fā)規(guī)劃,卻定DW開發(fā)需求。建立包括實(shí)體圖、星型模型、雪花模型、元數(shù)據(jù)模型及數(shù)據(jù)源分析的主題域數(shù)據(jù)模型,并且根據(jù)主題域數(shù)據(jù)模型開發(fā)DW邏輯模型。數(shù)據(jù)倉庫開發(fā)的生命周期1.DW規(guī)劃分析階段73數(shù)據(jù)倉庫開發(fā)的生命周期2.DW設(shè)計(jì)實(shí)施階段根據(jù)DW的邏輯模型設(shè)計(jì)DW體系結(jié)構(gòu);設(shè)計(jì)DW與物理數(shù)據(jù)庫,用物理數(shù)據(jù)庫元數(shù)據(jù)裝載面向最終用戶的元數(shù)據(jù)庫;為DW中每個(gè)目標(biāo)字段確定他在業(yè)務(wù)系統(tǒng)或外部數(shù)據(jù)源中的數(shù)據(jù)來源;開發(fā)或購買用于抽取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù)等中間件程序;將數(shù)據(jù)從數(shù)據(jù)源加載到DW,并且進(jìn)行測試。數(shù)據(jù)倉庫開發(fā)的生命周期2.DW設(shè)計(jì)實(shí)施階段74數(shù)據(jù)倉庫開發(fā)的生命周期3.DW使用維護(hù)階段DW投入使用,且在使用中改進(jìn)、維護(hù)DW;對DW進(jìn)行評價(jià),為下一個(gè)循環(huán)開發(fā)提供依據(jù)。數(shù)據(jù)倉庫開發(fā)的生命周期3.DW使用維護(hù)階段75DW開發(fā)的特點(diǎn)1.?dāng)?shù)據(jù)倉庫的開發(fā)是從數(shù)據(jù)出發(fā)的創(chuàng)建DW是在原有的數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,我們稱之為“數(shù)據(jù)驅(qū)動(dòng)”。數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心是利用數(shù)據(jù)模型有效的識別原有的數(shù)據(jù)庫中的數(shù)據(jù)和DW中主題的數(shù)據(jù)“共同性”。2.DW使用的需求不能在開發(fā)初期完全明確在數(shù)據(jù)倉庫環(huán)境中,并不存在固定的且較確切的物流、數(shù)據(jù)流、和信息流,數(shù)據(jù)分析處理的需求更加靈活,更沒有固定的模式,甚至用戶自己也對所要進(jìn)行的分析處理不能事先全部確定3.?dāng)?shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā)DW的開發(fā)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過程,一方面DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、力度、分割以及其他物理設(shè)計(jì)應(yīng)該根據(jù)用戶所返回的信息不斷的調(diào)整和完善,以提高系統(tǒng)的效率和性能;另一方面,通過不斷理解用戶的分析需求,不斷的調(diào)整和完善,以求向用戶提供更準(zhǔn)確、更有效的決策信息。DW開發(fā)的特點(diǎn)1.?dāng)?shù)據(jù)倉庫的開發(fā)是從數(shù)據(jù)出發(fā)的76思考數(shù)據(jù)倉庫的開發(fā)過程與數(shù)據(jù)庫的開發(fā)過程有什么不同?為什么?思考數(shù)據(jù)倉庫的開發(fā)過程與數(shù)據(jù)庫的開發(fā)過程有什么不同?為什么?77數(shù)據(jù)倉庫設(shè)計(jì)的主要內(nèi)容數(shù)據(jù)倉庫設(shè)計(jì)的主要內(nèi)容78數(shù)據(jù)模型設(shè)計(jì)DW數(shù)據(jù)模型具有如下特點(diǎn)。(1)去掉純操作性數(shù)據(jù)。(2)給鍵碼增加時(shí)間因素。(3)合適之處增加導(dǎo)出數(shù)據(jù)。(4)把OLTP系統(tǒng)中數(shù)據(jù)關(guān)系變?yōu)槿斯りP(guān)系。DW數(shù)據(jù)模型源于OLTP系統(tǒng)數(shù)據(jù)模型以及企業(yè)數(shù)據(jù)模型數(shù)據(jù)模型設(shè)計(jì)DW數(shù)據(jù)模型具有如下特點(diǎn)。79概念模型設(shè)計(jì)1.設(shè)計(jì)方法在建模之前定義數(shù)據(jù)模型的邊界,然后建立企業(yè)內(nèi)不同群體的實(shí)體-聯(lián)系模型,最后進(jìn)行集成企業(yè)的總體概念模型。概念模型設(shè)計(jì)1.設(shè)計(jì)方法80概念模型設(shè)計(jì)2.注意事項(xiàng)(1)在DW的數(shù)據(jù)模型中不包含操作性數(shù)據(jù),只包含用戶感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。例:在商品銷售分析DW模型中,商品的銷售數(shù)量、金額、企業(yè)利潤等是分析數(shù)據(jù);銷售的時(shí)間、地點(diǎn)等使用戶感興趣的描述數(shù)據(jù);銷售產(chǎn)品的詳細(xì)情況、購買商品的客戶詳細(xì)情況等是細(xì)節(jié)數(shù)據(jù)。(2)數(shù)據(jù)的歷史變遷性。DW的數(shù)據(jù)模型增加時(shí)間屬性作為碼的一部分(3)數(shù)據(jù)的概括性。DW的數(shù)據(jù)模型中增加了一些衍生數(shù)據(jù),專門用于分析的DW系統(tǒng)需要一些概括性的數(shù)據(jù),這些數(shù)據(jù)在業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)模型中是不需要的。例如,在銷售管理的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)模型中,通常只需要記錄當(dāng)前細(xì)數(shù)據(jù),而在數(shù)據(jù)倉庫的數(shù)據(jù)模型中,需要保存一些統(tǒng)計(jì)、累加而來的綜合數(shù)據(jù)。概念模型設(shè)計(jì)2.注意事項(xiàng)81概念模型設(shè)計(jì)3.E-R圖的描述方法(1)矩形。矩形表示實(shí)體,在數(shù)據(jù)倉庫中表示主題,在矩形框內(nèi)寫上主題名。(2)橢圓形。橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來。(3)菱形。菱形表示主題之間的聯(lián)系,菱形框內(nèi)寫上聯(lián)系的名字。用無向邊把菱形分別與有關(guān)的主題連接,在無向邊旁標(biāo)上聯(lián)系的類型。若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。概念模型設(shè)計(jì)3.E-R圖的描述方法82概念模型設(shè)計(jì)某商場的商品、顧客和供應(yīng)商之間的概念模型的E-R圖

概念模型設(shè)計(jì)某商場的商品、顧客和供應(yīng)商之間的概念模型的E-R83邏輯模型設(shè)計(jì)關(guān)系數(shù)據(jù)庫一般采用二維數(shù)據(jù)表的形式來表示數(shù)據(jù),一個(gè)維是行,另一個(gè)維是列,行和列的交叉處就是數(shù)據(jù)元素。關(guān)系數(shù)據(jù)的基礎(chǔ)是關(guān)系數(shù)據(jù)庫模型,通過標(biāo)準(zhǔn)的SQL語言來加以實(shí)現(xiàn)。數(shù)據(jù)倉庫是多維數(shù)據(jù)庫,它擴(kuò)展了關(guān)系數(shù)據(jù)庫模型,以星形架構(gòu)為主要結(jié)構(gòu)方式的,并在它的基礎(chǔ)上,擴(kuò)展出理論雪花形架構(gòu)和數(shù)據(jù)星座等方式,但不管是哪一種架構(gòu),維度表、事實(shí)表和事實(shí)表中的量度都是必不可少的組成要素。邏輯模型設(shè)計(jì)關(guān)系數(shù)據(jù)庫一般采用二維數(shù)據(jù)表的形式來表示數(shù)據(jù)84邏輯模型設(shè)計(jì)——星形模型星形模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式,它使數(shù)據(jù)倉庫形成了一個(gè)集成系統(tǒng),為最終用戶提供報(bào)表服務(wù),為用戶提供分析服務(wù)對象。星形模式通過使用一個(gè)包含主題的事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來支持各種決策查詢。星形模型可以采用關(guān)系型數(shù)據(jù)庫結(jié)構(gòu),模型的核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。維度表中的對象通過事實(shí)表與另一維度表中的對象相關(guān)聯(lián),這樣就能建立各個(gè)維度表對象之間的聯(lián)系。每一個(gè)維度表通過一個(gè)主鍵與事實(shí)表進(jìn)行連接。邏輯模型設(shè)計(jì)——星形模型星形模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的85邏輯模型設(shè)計(jì)——星形模型邏輯模型設(shè)計(jì)——星形模型86邏輯模型設(shè)計(jì)——星形模型事實(shí)表主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。一般情況下,事實(shí)表中的數(shù)據(jù)不允許修改,新的數(shù)據(jù)只是簡單地添加進(jìn)事實(shí)表中,維度表主要包含了存儲在事實(shí)表中數(shù)據(jù)的特征數(shù)據(jù)。每一個(gè)維度表利用維度關(guān)鍵字通過事實(shí)表中的外鍵約束于事實(shí)表中的某一行,實(shí)現(xiàn)與事實(shí)表的關(guān)聯(lián),這就要求事實(shí)表中的外鍵不能為空,這與一般數(shù)據(jù)庫中外鍵允許為空是不同的。這種結(jié)構(gòu)使用戶能夠很容易地從維度表中的數(shù)據(jù)分析開始,獲得維度關(guān)鍵字,以便連接到中心的事實(shí)表,進(jìn)行查詢。邏輯模型設(shè)計(jì)——星形模型事實(shí)表87邏輯模型設(shè)計(jì)——星形模型星形模型雖然是一個(gè)關(guān)系模型,但是它不是一個(gè)規(guī)范化的模型。在星形模式中,維度表被故意地非規(guī)范化了,這是星形模式與OLTP系統(tǒng)中關(guān)系模式的基本區(qū)別。使用星形模式主要有兩方面的原因:一是可以提高查詢的效率。采用星形模式設(shè)計(jì)的數(shù)據(jù)倉庫的優(yōu)點(diǎn)是由于數(shù)據(jù)的組織已經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中,所以只要掃描事實(shí)表就可以進(jìn)行查詢,而不必把多個(gè)龐大的表聯(lián)接起來,查詢訪問效率較高,同時(shí)由于維表一般都很小,甚至可以放在高速緩存中,與事實(shí)表進(jìn)行連接時(shí)其速度較快,便于用戶理解;二是對于非計(jì)算機(jī)專業(yè)的用戶而言,星形模式比較直觀,通過分析星形模式,很容易組合出各種查詢。邏輯模型設(shè)計(jì)——星形模型星形模型雖然是一個(gè)關(guān)系模型,但是它不88邏輯模型設(shè)計(jì)——星形模型邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系實(shí)體-聯(lián)系圖是代表企業(yè)中每一個(gè)可能的業(yè)務(wù)過程,一個(gè)實(shí)體-聯(lián)系圖可以拆分成多個(gè)維表、事實(shí)表構(gòu)成的邏輯模型。將E-R圖轉(zhuǎn)換成維度建模時(shí)的步驟是:(1)將E-R圖分成獨(dú)立的業(yè)務(wù)處理,然后對每個(gè)業(yè)務(wù)處理單獨(dú)建模。(2)在E-R圖中,對包含數(shù)字型事實(shí)和可加性非碼事實(shí)的實(shí)體,選擇其中的多對多關(guān)系,并且將他們設(shè)計(jì)成各個(gè)事實(shí)表。(3)將剩下的實(shí)體進(jìn)行非規(guī)范化處理,設(shè)計(jì)成為表。邏輯模型設(shè)計(jì)——星形模型邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系89星形模型基本設(shè)計(jì)技術(shù)(1)正確區(qū)分事實(shí)、屬性和維度。維度模型需要對事實(shí)和屬性進(jìn)行區(qū)分,業(yè)務(wù)層的很多事實(shí)都是數(shù)值型的,特別是該數(shù)值是浮點(diǎn)數(shù)時(shí),他很可能是一個(gè)事實(shí),而不是屬性。例如“標(biāo)準(zhǔn)價(jià)格”,好像是產(chǎn)品維度的一個(gè)屬性,似乎是事先一致的常量,但每年對標(biāo)準(zhǔn)價(jià)格進(jìn)行一、兩次調(diào)整,因此應(yīng)該設(shè)計(jì)成事實(shí)。屬性通常指文本字段,例如產(chǎn)品描述。維度是類似于文本形式的屬性組合,固定的數(shù)值型屬性應(yīng)放在維表中。例如,零售數(shù)據(jù)倉庫中,至少應(yīng)有一個(gè)產(chǎn)品維度,一個(gè)商店維度,一個(gè)客戶維,一個(gè)時(shí)間維,一個(gè)促銷維。星形模型基本設(shè)計(jì)技術(shù)(1)正確區(qū)分事實(shí)、屬性和維度。90星形模型基本設(shè)計(jì)技術(shù)(2)事實(shí)表的設(shè)計(jì)方法。事實(shí)表是數(shù)據(jù)倉庫中最大的表,在設(shè)計(jì)時(shí),一定注意使事實(shí)表盡可能的小,因?yàn)檫^大的事實(shí)表在表的處理、備份和恢復(fù)、用戶查詢等方面要用較長的時(shí)間。具體方法主要有:減少列的數(shù)量;降低每列的大?。话褮v史數(shù)據(jù)存檔;對行進(jìn)行分割。例如,零售營銷事實(shí)表設(shè)計(jì)如下:星形模型基本設(shè)計(jì)技術(shù)(2)事實(shí)表的設(shè)計(jì)方法。91星形模型基本設(shè)計(jì)技術(shù)(3)維表的設(shè)計(jì)。維表的屬性必須具有以下特征:可用文字描述;離散值;有規(guī)定的約束;在分析時(shí)可提供行標(biāo)題。時(shí)間維在數(shù)據(jù)倉庫中占有特定位置,建議使用時(shí)間維度。圖3.6是零售業(yè)營銷分析的星型模型圖。星形模型基本設(shè)計(jì)技術(shù)(3)維表的設(shè)計(jì)。92星形模型基本設(shè)計(jì)技術(shù)零售業(yè)營銷分析的星型模型圖星形模型基本設(shè)計(jì)技術(shù)零售業(yè)營銷分析的星型模型圖93邏輯模型設(shè)計(jì)——雪花模型雪花模型是對星形模型的擴(kuò)展,每一個(gè)維度都可以向外連接多個(gè)詳細(xì)類別表。在這種模式中,維度表除了具有星形模型中維度表的功能外,還連接對事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類別表通過對事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)表和提高查詢效率的目的。邏輯模型設(shè)計(jì)——雪花模型雪花模型是對星形模型的擴(kuò)展,每一個(gè)維94邏輯模型設(shè)計(jì)——雪花模型雪花模型架構(gòu)示意圖邏輯模型設(shè)計(jì)——雪花模型雪花模型架構(gòu)示意圖95邏輯模型設(shè)計(jì)——雪花模型雪花模型對星形模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對星形模型中的維度表進(jìn)行了規(guī)范化處理。雪花模型的維度表中存儲了正規(guī)化的數(shù)據(jù),這種結(jié)構(gòu)通過把多個(gè)較小的標(biāo)準(zhǔn)化表(而不是星形模型中的大的非標(biāo)準(zhǔn)化表)聯(lián)合在一起來改善查詢性能。由于采取了標(biāo)準(zhǔn)化及維的低粒度,雪花模型提高了數(shù)據(jù)倉庫應(yīng)用的靈活性。邏輯模型設(shè)計(jì)——雪花模型雪花模型對星形模型的維度表進(jìn)一步標(biāo)準(zhǔn)96邏輯模型設(shè)計(jì)——雪花模型在該模型中,將地理層次國家、區(qū)域和分區(qū)域嵌入到銷售員維度,這樣,公司的管理者想按照國家、區(qū)域、分區(qū)域和分區(qū)域內(nèi)的銷售員的層次關(guān)系來查看公司的銷售情況。邏輯模型設(shè)計(jì)——雪花模型在該模型中,將地理層次國家、區(qū)域和分97銷售數(shù)據(jù)倉庫邏輯模型(雪花型)銷售數(shù)據(jù)倉庫邏輯模型(雪花型)98邏輯模型設(shè)計(jì)——星座模型一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會在數(shù)據(jù)倉庫中存放多個(gè)事實(shí)表,這時(shí)就會出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,這就是事實(shí)星座,也稱為星系模型(galaxyschema)。數(shù)據(jù)倉庫由于是企業(yè)范圍的,能對多個(gè)相關(guān)的主題建模,所以在設(shè)計(jì)其數(shù)據(jù)構(gòu)成時(shí)一般采用星系模式。而數(shù)據(jù)集市是部門級的,具有選定的主題,可以采用星形或雪花模型。邏輯模型設(shè)計(jì)——星座模型一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會在數(shù)據(jù)倉99邏輯模型設(shè)計(jì)——維度的設(shè)計(jì)維是人們觀察客觀世界的角度,是一種高層次的類型劃分。如:對客戶、產(chǎn)品、服務(wù)、提供商、地點(diǎn)、渠道和事件發(fā)生的時(shí)間維表是由維主鍵和維屬性組成的一般情況下,在每次抽樣時(shí),如果數(shù)值數(shù)據(jù)字段的度量都改變,那么它就是事實(shí),如果它是某種東西的離散值描述,并幾乎保持為常數(shù),那么它就是維屬性。例如,商品的價(jià)格是為表的屬性,銷售量是事實(shí)。邏輯模型設(shè)計(jì)——維度的設(shè)計(jì)維是人們觀察客觀世界的角度,是一100維表舉例圖3.10時(shí)間維度及其層次關(guān)系圖3.11財(cái)務(wù)時(shí)間維度維表舉例圖3.10時(shí)間維度及其層次關(guān)系101維表舉例圖3.12地理維度層次圖3.13機(jī)構(gòu)維度層次維表舉例圖3.12地理維度層次圖3.13機(jī)構(gòu)維度層次102維表舉例客戶維度分類維表舉例客戶維度分類103物理模型設(shè)計(jì)數(shù)據(jù)倉庫的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如:物理存取方式數(shù)據(jù)存儲結(jié)構(gòu)數(shù)據(jù)存放位置以及存儲分配等物理數(shù)據(jù)模型設(shè)計(jì)實(shí)現(xiàn)時(shí),所考慮的主要因素有:I/O存取時(shí)間空間利用率和維護(hù)代價(jià)在進(jìn)行數(shù)據(jù)倉庫的物理數(shù)據(jù)模型設(shè)計(jì)時(shí),考慮到數(shù)據(jù)倉庫的數(shù)據(jù)量大但是操作單一的特點(diǎn),可采取其他的一些提高數(shù)據(jù)倉庫性能的技術(shù),如:合并表、建立數(shù)據(jù)序列、引入冗余、進(jìn)一步細(xì)分?jǐn)?shù)據(jù)、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。物理模型設(shè)計(jì)數(shù)據(jù)倉庫的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉104物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要性、使用頻率及對反應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類型的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要性高、經(jīng)常存取并對反應(yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲設(shè)備上;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以存放在低速存儲設(shè)備上。在設(shè)計(jì)時(shí)還要考慮數(shù)據(jù)在特定存儲介質(zhì)上的布局。物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要105物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)的布局時(shí)要注意遵循以下原則。(1)不要把經(jīng)常需要連接的幾張表放在同一存儲設(shè)備上,這樣可以利用存儲設(shè)備的并行操作功能加快數(shù)據(jù)查詢的速度。(2)如果幾臺服務(wù)器之間的連接會造成嚴(yán)重的網(wǎng)絡(luò)業(yè)務(wù)量的問題,則要考慮服務(wù)器復(fù)制表格,因?yàn)椴煌?wù)器之間的數(shù)據(jù)連接會給網(wǎng)絡(luò)帶來沉重的數(shù)據(jù)傳輸負(fù)擔(dān)。(3)考慮把整個(gè)企業(yè)共享的細(xì)節(jié)數(shù)據(jù)放在主機(jī)或其他集中式服務(wù)器上,提高這些共享數(shù)據(jù)的使用速度。(4)不要把表格和它們的索引放在同一設(shè)備上。一般可以將索引存放在高速存儲設(shè)備上,而表格則存放在一般存儲設(shè)備上,以加快數(shù)據(jù)的查詢速度。物理模型設(shè)計(jì)——設(shè)計(jì)存儲結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)的布局時(shí)要注意遵循以下原106物理模型設(shè)計(jì)——設(shè)計(jì)索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)地設(shè)計(jì)和選擇。由于數(shù)據(jù)倉庫的數(shù)據(jù)一般很少更新,所以可以設(shè)計(jì)索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。數(shù)據(jù)倉庫中的表通常要比聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)中的表建立更多的索引,表中應(yīng)用的最大索引數(shù)應(yīng)與表格的規(guī)模成正比。數(shù)據(jù)倉庫是個(gè)只讀的環(huán)境,建立索引可以取得靈活性,對性能極為有利。但是,表若有很多索引,那么數(shù)據(jù)加載時(shí)間就會延長,因此索引的建立需要進(jìn)行綜合的考慮。一般都是按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引,通常不要添加很多的其他索引。物理模型設(shè)計(jì)——設(shè)計(jì)索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對107物理模型設(shè)計(jì)——設(shè)計(jì)存儲策略確定數(shù)據(jù)的存儲位置和存儲策略,以提高系統(tǒng)的I/O效率。幾種常見的存儲優(yōu)化方法。表的歸并引入冗余其他方法物理模型設(shè)計(jì)——設(shè)計(jì)存儲策略確定數(shù)據(jù)的存儲位置和存儲策略,108數(shù)據(jù)倉庫的粒度設(shè)計(jì)數(shù)據(jù)倉庫的性能和存儲空間是一對矛盾。如果粒度設(shè)計(jì)得很小,則事實(shí)表將不得不記錄所有的細(xì)節(jié),儲存數(shù)據(jù)所需要的空間將會急劇的膨脹;若設(shè)計(jì)的粒度很大,雖然由于事實(shí)表體積大而帶來的諸多問題能夠得到一定程度的緩解,但決策者不能觀察細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫的粒度設(shè)計(jì)數(shù)據(jù)倉庫的性能和存儲空間是一對矛盾。109粒度設(shè)計(jì)的三個(gè)步驟粗略估計(jì)確定雙重還是單一粒度確定粒度的級別粒度設(shè)計(jì)的三個(gè)步驟粗略估計(jì)110粒度設(shè)計(jì)第一步——粗略估算(1)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的所有表,然后估計(jì)每張表中行的大小(2)估計(jì)一年內(nèi)表中的最少行數(shù)和最多行數(shù)。估計(jì)完一年內(nèi)數(shù)據(jù)倉庫中數(shù)據(jù)單位的數(shù)量(用上下限推測的方法)用同樣的方法對5年內(nèi)的數(shù)據(jù)進(jìn)行估計(jì)。計(jì)算一下索引數(shù)據(jù)所占的空間。對每張表(對表中的每個(gè)鍵碼)確定鍵碼的長度和原始表中每條數(shù)據(jù)是否存在鍵碼。(3)將各表中行數(shù)可能的最大值和最小值分別乘以數(shù)據(jù)的最大長度和最小長度。另外,還要將索引項(xiàng)的數(shù)目與鍵碼的長度的乘積累加到總的數(shù)據(jù)量中去。粒度設(shè)計(jì)第一步——粗略估算(1)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的111粒度設(shè)計(jì)第二步——確定雙重或單一的粒度將數(shù)據(jù)倉庫環(huán)境中總的行數(shù)和下表中所示的表格進(jìn)行比較,確定雙重或單一的粒度。1年數(shù)據(jù)5年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10000000雙重粒度并仔細(xì)設(shè)計(jì)20000000雙重粒度并仔細(xì)設(shè)計(jì)1000000雙重粒度10000000雙重粒度100000仔細(xì)設(shè)計(jì)1000000仔細(xì)設(shè)計(jì)10000不考慮100000不考慮粒度設(shè)計(jì)第二步——確定雙重或單一的粒度將數(shù)據(jù)倉庫環(huán)境中總的行112粒度設(shè)計(jì)第三步——確定粒度的級別

例如,對于銀行環(huán)境由于其信息量較大,設(shè)計(jì)成雙重粒度級。在DW中,輕度綜合級存十年的每月匯總的賬戶信息,當(dāng)前細(xì)節(jié)級數(shù)據(jù)存30天。在這個(gè)級別并不是把OLTP系統(tǒng)中所有的字段都送到DW中,只有對分析有價(jià)值的信息字段才被存儲。30天之后,把這部分細(xì)節(jié)數(shù)據(jù)送到磁帶上,騰出的空間存放下一個(gè)30天的當(dāng)前細(xì)節(jié)級數(shù)據(jù)。粒度設(shè)計(jì)第三步——確定粒度的級別例如,對于銀行環(huán)境113粒度設(shè)計(jì)原則對于業(yè)務(wù)量大,分析要求比較高的情況下,最佳解決辦法則是采用多重粒度的形式。而針對具體的某個(gè)事實(shí)的粒度而言,應(yīng)當(dāng)采用“最小粒度原則”,即將量度的粒度設(shè)置到最小。粒度設(shè)計(jì)原則對于業(yè)務(wù)量大,分析要求比較高的情況下,最佳解決辦114創(chuàng)建數(shù)據(jù)倉庫的基本步驟(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論