最新-數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)-PPT精品課件_第1頁(yè)
最新-數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)-PPT精品課件_第2頁(yè)
最新-數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)-PPT精品課件_第3頁(yè)
最新-數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)-PPT精品課件_第4頁(yè)
最新-數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)-PPT精品課件_第5頁(yè)
已閱讀5頁(yè),還剩88頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第4章 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開(kāi)發(fā)24.1 數(shù)據(jù)倉(cāng)庫(kù)分析與設(shè)計(jì)4.2 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)4.3 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與開(kāi)發(fā)的困難34.1數(shù)據(jù)倉(cāng)庫(kù)分析與設(shè)計(jì)4.1.1 需求分析4.1.2概念模型設(shè)計(jì)4.1.3邏輯模型設(shè)計(jì)4.1.4物理模型設(shè)計(jì)4.1.5 數(shù)據(jù)倉(cāng)庫(kù)的索引技術(shù)44.1.1 需求分析1.確定主題域2.支持決策的數(shù)據(jù)來(lái)源3.數(shù)據(jù)倉(cāng)庫(kù)的成功標(biāo)準(zhǔn)和關(guān)鍵性能指標(biāo)4.數(shù)據(jù)量與更新頻率51.確定主題域(1)明確對(duì)于決策分析最有價(jià)值的主題領(lǐng)域有哪些?(2)每個(gè)主題域的商業(yè)維度是哪些?每個(gè)維度的粒度層次有哪些?(3)制定決策的商業(yè)分區(qū)是什么?(4)不同地區(qū)需要哪些信息來(lái)制定決策?(5)對(duì)哪個(gè)區(qū)域提供特定的商品和服務(wù)?62

2、.支持決策的數(shù)據(jù)來(lái)源(1)哪些源數(shù)據(jù)(操作型)與商品主題有關(guān)?(2)在已有報(bào)表和在線(xiàn)查詢(xún)中得到什么樣的信息?(3)提供決策支持的細(xì)節(jié)程度是怎樣的?73.數(shù)據(jù)倉(cāng)庫(kù)的成功標(biāo)準(zhǔn)和關(guān)鍵性能指標(biāo)(1)衡量數(shù)據(jù)倉(cāng)庫(kù)成功的標(biāo)準(zhǔn)是什么?(2)哪些關(guān)鍵的性能指標(biāo)?如何監(jiān)控?(3)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的期望是什么?(4)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的預(yù)期用途有哪些?(5)對(duì)計(jì)劃中的數(shù)據(jù)倉(cāng)庫(kù)的考慮要點(diǎn)是什么?84.數(shù)據(jù)量與更新頻率(1)數(shù)據(jù)倉(cāng)庫(kù)的總數(shù)據(jù)量有多少?(2)決策支持所需的數(shù)據(jù)更新頻率是多少?時(shí)間間隔是多長(zhǎng)?(3)每種決策分析與不同時(shí)間的標(biāo)準(zhǔn)對(duì)比如何?(4)數(shù)據(jù)倉(cāng)庫(kù)中的信息需求的時(shí)間界限是什么?9通過(guò)需求分析,需要的數(shù)據(jù)包括:1.數(shù)據(jù)

3、源(1)可用的數(shù)據(jù)源(2)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)(3)數(shù)據(jù)源的位置(4)數(shù)據(jù)源的計(jì)算機(jī)環(huán)境(5)數(shù)據(jù)抽取過(guò)程(6)可用的歷史數(shù)據(jù)102.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是為決策分析服務(wù),而源系統(tǒng)的數(shù)據(jù)為業(yè)務(wù)處理服務(wù)。需要決定如何正確地將這些源數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)。 113.數(shù)據(jù)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù)的詳細(xì)程度,包括足夠的關(guān)于存儲(chǔ)需求的信息,估計(jì)數(shù)據(jù)倉(cāng)庫(kù)需要多少歷史和存檔數(shù)據(jù)。124.決策分析(1)向下層鉆取分析(2)向上層鉆取分析(3)橫向鉆取分析(4)切片分析(5)特別查詢(xún)報(bào)表134.1.2 概念模型設(shè)計(jì)概念模型的特點(diǎn)是:(1)能真實(shí)反映現(xiàn)實(shí)世界,能滿(mǎn)足用戶(hù)對(duì)數(shù)據(jù)的分析,達(dá)到?jīng)Q策支持的要求,

4、它是現(xiàn)實(shí)世界的一個(gè)真實(shí)模型。(2)易于理解,便利和用戶(hù)交換意見(jiàn),在用戶(hù)的參與下,能有效地完成對(duì)數(shù)據(jù)倉(cāng)庫(kù)的成功設(shè)計(jì)。(3)易于更改,當(dāng)用戶(hù)需求發(fā)生變化時(shí),容易對(duì)概念模型修改和擴(kuò)充。(4)易于向數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。14 概念模型最常用的表示方法是實(shí)體關(guān)系法(E-R法)。 E-R圖描述的是實(shí)體以及實(shí)體之間的聯(lián)系:用長(zhǎng)方形表示實(shí)體,在數(shù)據(jù)倉(cāng)庫(kù)中就表示主題,橢圓形表示主題的屬性,并用無(wú)向邊把主題與其屬性連接起來(lái);用菱形表示主題之間的聯(lián)系,用無(wú)向邊把菱形分別與有關(guān)的主題連接。若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無(wú)向邊連接上。15例子有兩個(gè)主題:商品和客戶(hù),主題也是實(shí)體。商品有如下

5、屬性組:商品的固有信息(商品號(hào)、商品名、類(lèi)別、價(jià)格等);商品庫(kù)存信息(商品號(hào)、庫(kù)房號(hào)、庫(kù)存量、日期等);商品銷(xiāo)售信息(商品號(hào)、客戶(hù)號(hào)、銷(xiāo)售量等);客戶(hù)有如下屬性組:客戶(hù)固有信息(客戶(hù)號(hào)、客戶(hù)名、住址、電話(huà)等);客戶(hù)購(gòu)物信息(客戶(hù)號(hào)、商品號(hào)、售價(jià)、購(gòu)買(mǎi)量等)。商品的銷(xiāo)售信息與用戶(hù)的購(gòu)物信息是一致的,它們是兩個(gè)主題之間的聯(lián)系。16商品商品固有信息商品號(hào)商品庫(kù)存信息銷(xiāo)售信息購(gòu)物信息 客戶(hù)客戶(hù)固有信息客戶(hù)號(hào)=174.1.3邏輯模型設(shè)計(jì)主要工作為:(1)主題域進(jìn)行概念模型(ER圖)到邏輯模型(星型模型)的轉(zhuǎn)換(2)粒度層次劃分(3)關(guān)系模式定義(4)定義記錄系統(tǒng)181、主題域進(jìn)行概念模型到邏輯模型的轉(zhuǎn)換

6、星型模型的設(shè)計(jì)步驟如下:(1)確定決策分析需求決策需求是建立多維數(shù)據(jù)模型的依據(jù)。(2)從需求中識(shí)別出事實(shí)選擇或設(shè)計(jì)反映決策主題業(yè)務(wù)的表,如在“商品”主題中,以“銷(xiāo)售業(yè)務(wù)”作為事實(shí)表。(3)確定維確定影響事實(shí)的各種因素,對(duì)銷(xiāo)售業(yè)務(wù)的維包括商店,地區(qū),部門(mén),城市,時(shí)間,商品等,如圖4.2所示。19銷(xiāo)售數(shù)據(jù)和維銷(xiāo)售數(shù)據(jù)商品促銷(xiāo)時(shí)間部門(mén)城市地區(qū)商店圖4.2 銷(xiāo)售業(yè)務(wù)的多維數(shù)據(jù)(4)確定數(shù)據(jù)匯總水平 數(shù)據(jù)倉(cāng)庫(kù)中對(duì)數(shù)據(jù)不同粒度的集成和綜合,形成了多層次、多種知識(shí)的數(shù)據(jù)結(jié)構(gòu)。 例如,對(duì)于時(shí)間維,可以以“年”、“月”或者“日”等不同水平進(jìn)行匯總。(5)設(shè)計(jì)事實(shí)表和維表 設(shè)計(jì)事實(shí)表和維表的具體屬性。在事實(shí)表中應(yīng)

7、該記錄哪些屬性是由維表的數(shù)量決定的。 一般來(lái)說(shuō),與事實(shí)表相關(guān)的維表的數(shù)量應(yīng)該適中,太少的維表會(huì)影響查詢(xún)的質(zhì)量,用戶(hù)得不到需要的數(shù)據(jù),太多的維表又會(huì)影響查詢(xún)的速度。 (6)按使用的DBMS和分析用戶(hù)工具,證實(shí)設(shè)計(jì)方案的有效性 根據(jù)系統(tǒng)使用的DBMS,確定事實(shí)表和維表的具體實(shí)現(xiàn)。由于不同的DBMS對(duì)數(shù)據(jù)存儲(chǔ)有不同的要求,因此設(shè)計(jì)方案是否有效還要放在DBMS中進(jìn)行檢驗(yàn) (7)隨著需求變化修改設(shè)計(jì)方案 隨著應(yīng)用需求的變化,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模式也可能會(huì)發(fā)生變化。因此在設(shè)計(jì)之初,充分考慮數(shù)據(jù)模型的可修改性可以節(jié)省系統(tǒng)維護(hù)的代價(jià)。22從的ER圖轉(zhuǎn)換成星型模型實(shí)例說(shuō)明 (1)業(yè)務(wù)數(shù)據(jù)的E-R圖銷(xiāo)售銷(xiāo)售日期商

8、店號(hào)商品號(hào)銷(xiāo)售數(shù)量銷(xiāo)售單位商品商品號(hào)商品名商品類(lèi)號(hào)存貨星期商店號(hào)商品號(hào)數(shù)量1m1m商店商店號(hào)商店名地址城市省郵編地區(qū)號(hào)1mm11商品類(lèi)商品類(lèi)號(hào)商品類(lèi)名部門(mén)號(hào)m1m地區(qū)地區(qū)號(hào)地區(qū)名23(2)E-R圖向多維表的轉(zhuǎn)換該問(wèn)題的多維表模型中,商品維包括部門(mén)、商品和商品大類(lèi),地點(diǎn)維包括地區(qū)和商店,忽略存貨,而只注意銷(xiāo)售事實(shí)。在E-R圖中不出現(xiàn)的時(shí)間,在多維模型中增加時(shí)間維。在多維模型中,實(shí)體與維之間建立映射關(guān)系,聯(lián)系多個(gè)實(shí)體的實(shí)體就成為事實(shí),此處銷(xiāo)售實(shí)體作為事實(shí),其他實(shí)體作為維。然后用維關(guān)鍵字將它轉(zhuǎn)換為星型模型,如圖4.5所示。24商品維地區(qū)維時(shí)間維部門(mén)地區(qū)年商品大類(lèi)商店月商品周日銷(xiāo)售事實(shí) 圖4.4 E-

9、R圖向多維模型的轉(zhuǎn)換圖4.5 利用維關(guān)鍵字制定的星型模型26在各維中,只有部門(mén),商品類(lèi),地區(qū),商店的編號(hào)沒(méi)有具體的說(shuō)明。為了打印報(bào)表將增加這些編號(hào)的名稱(chēng)說(shuō)明,即部門(mén)名、商店名等,在維表中增加這些說(shuō)明,即修改該星型模型 如圖4.6 所示。圖4.6 修改后的星型模型282、粒度層次劃分所謂粒度是指數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。數(shù)據(jù)越詳細(xì),粒度越小,層次級(jí)別就越低;數(shù)據(jù)綜合度越高,粒度越大,層次級(jí)別就越高。 進(jìn)行粒度劃分,首先要確定所有在數(shù)據(jù)倉(cāng)庫(kù)中建立的表,然后估計(jì)每個(gè)表的大約行數(shù)。 293、關(guān)系模式定義在概念模型設(shè)計(jì)時(shí),我們就確定了數(shù)據(jù)倉(cāng)庫(kù)的基本主題,并對(duì)每個(gè)主題的公共碼鍵、基本內(nèi)容等做了描

10、述。在這一步里,我們將要對(duì)選定的當(dāng)前實(shí)施的主題進(jìn)行模式劃分,形成多個(gè)表,并確定各個(gè)表的關(guān)系模式。 30“商品”主題公共碼鍵:商品號(hào)。商品固有信息:商品表(商品號(hào)、商品名、類(lèi)型、顏色)細(xì)節(jié)級(jí)商品銷(xiāo)售信息:銷(xiāo)售表1(商品號(hào)、客戶(hù)號(hào)、銷(xiāo)售量、)細(xì)節(jié)級(jí)銷(xiāo)售表2(商品號(hào)、時(shí)間段1、銷(xiāo)售量、)綜合級(jí) 銷(xiāo)售表n(商品號(hào)、時(shí)間段n、銷(xiāo)售量、)綜合級(jí)314、定義記錄系統(tǒng)定義記錄系統(tǒng)是建立數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)以源系統(tǒng)中的數(shù)據(jù)的對(duì)照記錄。記錄系統(tǒng)的定義要記入數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)。商品主題的記錄系統(tǒng)在元數(shù)據(jù)中可描述如 表4.2所示。32主題名屬性名數(shù)據(jù)源系統(tǒng)源表名源屬性名商品商品商品商品商品商品商品商品商品商品號(hào)商品名類(lèi)別客

11、戶(hù)號(hào)銷(xiāo)售日期售價(jià)銷(xiāo)售量庫(kù)存量庫(kù)存號(hào)庫(kù)存子系統(tǒng)庫(kù)存子系統(tǒng)庫(kù)存子系統(tǒng)銷(xiāo)售子系統(tǒng)銷(xiāo)售子系統(tǒng)銷(xiāo)售子系統(tǒng)銷(xiāo)售子系統(tǒng)庫(kù)存子系統(tǒng)庫(kù)存子系統(tǒng)商品商品商品客戶(hù)銷(xiāo)售銷(xiāo)售銷(xiāo)售庫(kù)存?zhèn)}庫(kù)商品號(hào)商品名類(lèi)別客戶(hù)號(hào)日期單價(jià)數(shù)量庫(kù)存量倉(cāng)庫(kù)號(hào)表4.2 記錄系統(tǒng)的定義334.1.4 物理模型設(shè)計(jì)確定一個(gè)最適合應(yīng)用要求的物理結(jié)構(gòu)(包括存儲(chǔ)結(jié)構(gòu)和存取方法)。(1)估計(jì)存儲(chǔ)容量(2)確定數(shù)據(jù)的存儲(chǔ)計(jì)劃(3)確定索引策略(4)確定數(shù)據(jù)存放位置(5)確定存儲(chǔ)分配341.估計(jì)存儲(chǔ)容量(1)對(duì)每一個(gè)數(shù)據(jù)庫(kù)表確定數(shù)據(jù)量 (2)對(duì)所有的表確定索引 (3)估計(jì)臨時(shí)存儲(chǔ)352.確定數(shù)據(jù)的存儲(chǔ)計(jì)劃(1)建立聚集(匯總)計(jì)劃(2)確定數(shù)據(jù)分區(qū)方案(3)建立

12、聚類(lèi)選項(xiàng)363.確定索引策略在數(shù)據(jù)倉(cāng)庫(kù)中由于數(shù)據(jù)量很大,需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)設(shè)計(jì)和選擇,建立專(zhuān)用的復(fù)雜的索引,以獲得最高的存取效率。采用BTree索引,它是一個(gè)高效的索引,見(jiàn)圖4.7所示。B樹(shù)是一個(gè)平衡(balance)樹(shù),即每個(gè)葉結(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度相同。B樹(shù)索引是一個(gè)多級(jí)索引。374.確定數(shù)據(jù)存放位置在物理設(shè)計(jì)時(shí),我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類(lèi),并將不同類(lèi)的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間要求高的數(shù)據(jù)就存放在高速存儲(chǔ)設(shè)備上,如硬盤(pán);存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上,如磁盤(pán)或磁帶。 38

13、5.確定存儲(chǔ)分配物理存儲(chǔ)中以文件、塊和記錄來(lái)實(shí)現(xiàn)。一個(gè)文件包括很多塊,每個(gè)塊包括若干條記錄。文件中的塊是數(shù)據(jù)庫(kù)的數(shù)據(jù)和內(nèi)存之間I/O傳輸?shù)幕締挝?,在那里?duì)數(shù)據(jù)進(jìn)行操作。用一個(gè)簡(jiǎn)例來(lái)說(shuō)明邏輯模型和物理模型的內(nèi)容,見(jiàn)下圖所示。 名稱(chēng)類(lèi)型長(zhǎng)度注釋產(chǎn)品維表包括公司所有產(chǎn)品的信息Product-Keyinteger10主鍵Product-Namechar25產(chǎn)品名稱(chēng)Product-SKuchar20庫(kù)存單位銷(xiāo)售員維表包括不同地區(qū)的所有銷(xiāo)售員信息Salpers-Keyinteger15主鍵Salpers-Namechar30銷(xiāo)售員姓名Territorychar20銷(xiāo)售員所在區(qū)域Regionchar20所

14、在地區(qū)訂單事實(shí)表包括公司收到的所有訂單Order-Keyinteger10訂單鍵Order-Namechar20訂單名稱(chēng)Product-refinteger10參考產(chǎn)品主鍵Salpers-refinteger15參考銷(xiāo)售員主鍵Order-AmountNum8,2銷(xiāo)售額Order-CostNum8,2訂單成本邏輯模型產(chǎn)品維表產(chǎn)品鍵產(chǎn)品名庫(kù)存單位品牌訂單事實(shí)表訂單鍵訂單名產(chǎn)品鍵銷(xiāo)售員鍵銷(xiāo)售額訂單成本銷(xiāo)售員維表銷(xiāo)售員鍵姓名地域地區(qū)404.1.5 數(shù)據(jù)倉(cāng)庫(kù)的索引技術(shù)1.位索引技術(shù)2.標(biāo)識(shí)技術(shù)3.廣義索引411.位索引技術(shù)(1)Bit-Wise索引技術(shù)(2)B-Tree技術(shù)與Bit-Wise索引技術(shù)對(duì)比

15、42對(duì)于每一個(gè)記錄的字段滿(mǎn)足查詢(xún)條件的真假值用“1”或“0”的方式表示,或者用該字段中不同取值(即多位二進(jìn)制)來(lái)表示。 例如,檢索“美國(guó)加州有多少男性未申請(qǐng)保險(xiǎn)?”利用BitWise技術(shù)得到有兩個(gè)記錄 滿(mǎn)足條件。 性別保險(xiǎn)州1MYMA2MNCA3FYIL4MNCA=2男未保險(xiǎn)加州10011100011144(2)B-Tree技術(shù)與Bit-Wise索引技術(shù)對(duì)比Bit-Wise索引技術(shù)比B-Tree技術(shù)能提高相應(yīng)速度10100倍。對(duì)于檢索“美國(guó)加州有多少男性未申請(qǐng)保險(xiǎn)?”為例,假設(shè)數(shù)據(jù)庫(kù)有10M記錄,每個(gè)記錄長(zhǎng)800個(gè)字節(jié),每一頁(yè)16K字節(jié)。按傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的檢索:需要經(jīng)過(guò)50萬(wàn)次I/O操作。按

16、BitWise檢索:對(duì)于10M個(gè)記錄建立三列的BitWise索引。存取這些索引只要進(jìn)行235次I/O操作。452.標(biāo)識(shí)技術(shù) 姓名 籍貫 職稱(chēng) 年齡陳文東 江西 教授 56何玉輝 河北 講師 32李寶 湖南 副教授 37施東 江蘇 講師 28曹文 湖南 副教授 36趙玉 吉林 講師 32黃小斌 江蘇 講師 28賽英花 山東 副教授 32彭宏 江西 講師 25廖宇宙 湖南 教授 42樣本記錄: 46數(shù)據(jù)庫(kù)中的每個(gè)實(shí)體創(chuàng)建一個(gè)標(biāo)識(shí)?!敖鳌痹诩炛惺?1標(biāo)識(shí)。“28”在年齡中是02標(biāo)識(shí)?!爸v師”在職稱(chēng)名中有一個(gè)03標(biāo)識(shí)。上面的數(shù)據(jù)庫(kù)可以被減化為一系列標(biāo)識(shí),如下面所示: 47姓名 籍貫 職稱(chēng) 年齡陳文

17、東 01 江西 01 教授 01 25 01何玉輝 02 河北 02 副教授 02 28 02李寶 03 湖南 03 講師 03 32 03施東 04 江蘇 04 36 04曹文 05 吉林 05 37 05趙玉 06 山東 06 42 06黃小斌 07 56 07賽英花 08 彭宏 09 廖宇宙 10 48數(shù)據(jù)庫(kù)被精簡(jiǎn)如下:記錄1 01,01,01,07記錄2 02,02,03,03記錄3 03,03,02,05記錄4 04,04,03,02記錄5 05,03,02,05記錄6 06,05,03,03記錄7 07,04,03,02記錄8 08,06,02,03記錄9 09,01,03,014

18、93.廣義索引對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)很廣泛的應(yīng)用問(wèn)題是“這個(gè)月銷(xiāo)售最好和最差的10種商品是哪些?”,我們可以設(shè)計(jì)這么一塊“黑板”,在上面標(biāo)明了當(dāng)月銷(xiāo)售最好和最差的10種商品的名稱(chēng)或者它們相關(guān)記錄的存放地址。這塊“黑板”就是我們所說(shuō)的“廣義索引”。504.2 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)4.3 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與開(kāi)發(fā)的困難514.2 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)4.2.1數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程4.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗4.2.3 數(shù)據(jù)粒度與維度建模524.2.1數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程4.2.2.1 分析與設(shè)計(jì)階段 4.2.1.2 數(shù)據(jù)獲取階段4.2.1.3 決策支持階段4.2.1.4 維護(hù)與評(píng)估階段需求分析數(shù)據(jù)裝載信息查詢(xún)概念設(shè)計(jì)邏輯設(shè)計(jì)物理設(shè)

19、計(jì)數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換知識(shí)探索數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng)數(shù)據(jù)倉(cāng)庫(kù)維護(hù)數(shù)據(jù)倉(cāng)庫(kù)評(píng)估數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程544.2.1.1分析與設(shè)計(jì)階段 1.需求分析2.概念設(shè)計(jì)3.邏輯設(shè)計(jì)4.物理設(shè)計(jì)551.需求分析確定決策主題域分析主題域的商業(yè)維度分析支持決策的數(shù)據(jù)來(lái)源確定數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量大小分析數(shù)據(jù)更新的頻率確定決策分析方法562.概念設(shè)計(jì)建立概念模型:對(duì)每個(gè)決策主題與屬性以及主題之間的關(guān)系用E-R圖模型表示。E-R圖將現(xiàn)實(shí)世界表示成信息世界,便利向計(jì)算機(jī)的表示形式進(jìn)行轉(zhuǎn)化。573.邏輯設(shè)計(jì)將概念模型(E-R圖)轉(zhuǎn)換成邏輯模型,即計(jì)算機(jī)表示的數(shù)據(jù)模型。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型一般采用星型模型。星型模型由事實(shí)表、維表組成。584.物理設(shè)計(jì)

20、對(duì)邏輯模型設(shè)計(jì)的數(shù)據(jù)模型確定物理存儲(chǔ)結(jié)構(gòu)和存取方法。數(shù)據(jù)倉(cāng)庫(kù)的星型模型在計(jì)算機(jī)中仍用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。物理設(shè)計(jì)還需要進(jìn)行存儲(chǔ)容量的估計(jì);確定數(shù)據(jù)存儲(chǔ)的計(jì)劃;確定索引策略;確定數(shù)據(jù)存放位置以及確定存儲(chǔ)分配。594.2.1.2 數(shù)據(jù)獲取階段 1.數(shù)據(jù)抽取2.數(shù)據(jù)轉(zhuǎn)換3.數(shù)據(jù)裝載601.數(shù)據(jù)抽取對(duì)數(shù)據(jù)源的確認(rèn),確定數(shù)據(jù)抽取技術(shù),確認(rèn)數(shù)據(jù)抽取頻率,按照時(shí)間要求抽取數(shù)據(jù)。由于源系統(tǒng)的差異性,如計(jì)算機(jī)平臺(tái)、操作系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)、網(wǎng)絡(luò)協(xié)議等的不同造成了抽取數(shù)據(jù)的困難。612.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)格式的修正字段的解碼單個(gè)字段的分離信息的合并變量單位的轉(zhuǎn)化時(shí)間的轉(zhuǎn)化數(shù)據(jù)匯總623.數(shù)據(jù)裝載初始裝載:第一次裝入數(shù)據(jù)倉(cāng)

21、庫(kù)。增量裝載:根據(jù)定期應(yīng)用需求裝入數(shù)據(jù)倉(cāng) 庫(kù)。完全刷新:完全刪除現(xiàn)有數(shù)據(jù),重新裝入 新的數(shù)據(jù)。634.2.1.3 決策支持階段1.信息查詢(xún)2.知識(shí)探索641.信息查詢(xún)信息查詢(xún)者使用數(shù)據(jù)倉(cāng)庫(kù)能發(fā)現(xiàn)目前存在的問(wèn)題。創(chuàng)建數(shù)據(jù)陣列 將相關(guān)的數(shù)據(jù)(每月的數(shù)據(jù))放在同一個(gè)物理位置上。預(yù)連接表格 對(duì)于兩個(gè)或多個(gè)表格共享一個(gè)公用鏈。65預(yù)聚集數(shù)據(jù)以每天為基礎(chǔ)存儲(chǔ)數(shù)據(jù)。在一周結(jié)束時(shí),以每周為基礎(chǔ)存儲(chǔ)數(shù)據(jù)(即累加每天的數(shù)據(jù))。月末時(shí),則以每月為基礎(chǔ)存儲(chǔ)數(shù)據(jù)。聚類(lèi)數(shù)據(jù)聚類(lèi)將數(shù)據(jù)放置在同一地點(diǎn),這樣可以提高對(duì)聚類(lèi)數(shù)據(jù)的查詢(xún)。662.知識(shí)探索發(fā)現(xiàn)的問(wèn)題并找出原因。 創(chuàng)建一個(gè)單獨(dú)的探索倉(cāng)庫(kù),不影響數(shù)據(jù)倉(cāng)庫(kù)的常規(guī)用戶(hù)。同時(shí)

22、采用“標(biāo)識(shí)技術(shù)”進(jìn)行數(shù)據(jù)壓縮,提高數(shù)據(jù)分析速度。使用一些模型幫助決策分析,例如客戶(hù)分段、欺詐監(jiān)測(cè)、信用分險(xiǎn)、客戶(hù)生存期、渠道響應(yīng)、推銷(xiāo)響應(yīng)等模型。通過(guò)模型的計(jì)算來(lái)得出一些有價(jià)值的商業(yè)知識(shí)。67采用數(shù)據(jù)挖掘工具來(lái)獲取商業(yè)知識(shí)。例如,得到如下一些知識(shí):哪些商品一起銷(xiāo)售好?哪些商業(yè)事務(wù)處理可能帶有欺詐性?高價(jià)值客戶(hù)的共同點(diǎn)是什么?獲取的知識(shí)為企業(yè)領(lǐng)導(dǎo)者提供決策支持,達(dá)到保留客戶(hù),減少欺詐,提高公司利潤(rùn)具有重要作用。684.2.1.4 維護(hù)與評(píng)估階段1.數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng)2.數(shù)據(jù)倉(cāng)庫(kù)維護(hù)3.數(shù)據(jù)倉(cāng)庫(kù)評(píng)估691.數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng)數(shù)據(jù)倉(cāng)庫(kù)建立以后,隨著用戶(hù)的不斷增加,時(shí)間的增長(zhǎng),用戶(hù)查詢(xún)需求更多,數(shù)據(jù)會(huì)迅速增長(zhǎng)。

23、在數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)過(guò)程中需要適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)不斷增長(zhǎng)的現(xiàn)實(shí)。702.數(shù)據(jù)倉(cāng)庫(kù)維護(hù)適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng)的維護(hù)數(shù)據(jù)增長(zhǎng)的處理工作有:去掉沒(méi)有用的歷史數(shù)據(jù);根據(jù)用戶(hù)使用的情況,取消某些細(xì)節(jié)數(shù)據(jù)和無(wú)用的匯總數(shù)據(jù),增加些實(shí)用的匯總數(shù)據(jù)。 71正常系統(tǒng)維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的備份和恢復(fù)。 備份數(shù)據(jù)為系統(tǒng)恢復(fù)提供基礎(chǔ),一旦系統(tǒng)出現(xiàn)災(zāi)難時(shí),利用備份數(shù)據(jù)可以很快將數(shù)據(jù)倉(cāng)庫(kù)恢復(fù)到正常狀態(tài)。723.數(shù)據(jù)倉(cāng)庫(kù)評(píng)估(1)系統(tǒng)性能評(píng)定(2)投資回報(bào)分析(3)數(shù)據(jù)質(zhì)量評(píng)估73(1)系統(tǒng)性能評(píng)定硬件平臺(tái)是否能夠支持大數(shù)據(jù)量的工作和多類(lèi)用戶(hù)、多種工具的大量需求?軟件平臺(tái)是否是用一個(gè)高效的且優(yōu)化的方式來(lái)組織和管理數(shù)據(jù)?是否適應(yīng)系統(tǒng)(數(shù)據(jù)和處理)的擴(kuò)

24、展?74(2)投資回報(bào)分析定量分析:計(jì)算投資回報(bào)率(ROI),即收益與成本的比率。 定性分析:企業(yè)與客戶(hù)之間關(guān)系狀態(tài)?對(duì)機(jī)會(huì)快速反應(yīng)能力如何?改善管理能力如何?75(3)數(shù)據(jù)質(zhì)量評(píng)估數(shù)據(jù)是準(zhǔn)確的。數(shù)據(jù)符合它的類(lèi)型要求和取值要求。數(shù)據(jù)具有完整性和一致性。數(shù)據(jù)是清晰的且符合商業(yè)規(guī)則。數(shù)據(jù)保持時(shí)效性并不能出現(xiàn)異常。764.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗1. 數(shù)據(jù)質(zhì)量問(wèn)題2.數(shù)據(jù)污染產(chǎn)生的原因3.數(shù)據(jù)清洗771. 數(shù)據(jù)質(zhì)量問(wèn)題(1)字段中的虛假值。(2)數(shù)據(jù)值缺失。(3)不一致的值。(4)違反常規(guī)的不正確值。(5)一個(gè)字段有多種用途。(6)標(biāo)法不唯一。782.數(shù)據(jù)污染產(chǎn)生的原因(1)系統(tǒng)轉(zhuǎn)換(2)數(shù)據(jù)老化

25、(3)復(fù)雜的系統(tǒng)集成 (4)數(shù)據(jù)輸入的不完整信息 (5)輸入錯(cuò)誤 (6)欺詐 (7)缺乏相關(guān)政策 793.數(shù)據(jù)清洗只清洗那些重要的數(shù)據(jù),而忽略那些不重要的數(shù)據(jù)。數(shù)據(jù)在被存儲(chǔ)進(jìn)數(shù)據(jù)倉(cāng)庫(kù)之前就應(yīng)該進(jìn)行清洗。找到適合源系統(tǒng)的字段和格式的清洗工具。建立數(shù)據(jù)質(zhì)量領(lǐng)導(dǎo)小組;建立數(shù)據(jù)質(zhì)量政策和標(biāo)準(zhǔn);定義質(zhì)量指標(biāo)參數(shù)和基準(zhǔn);識(shí)別受壞數(shù)據(jù)影響最大的商業(yè)功能。對(duì)有較大影響力的數(shù)據(jù)元素定制清洗計(jì)劃,并執(zhí)行數(shù)據(jù)清洗。804.2.3 數(shù)據(jù)粒度與維度建模數(shù)據(jù)粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中保存數(shù)據(jù)的細(xì)化程度或綜合程度的級(jí)別。 數(shù)據(jù)粒度深深影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答的查詢(xún)類(lèi)型。811. 大維度與雪

26、花模型在數(shù)據(jù)倉(cāng)庫(kù)中,客戶(hù)維度和產(chǎn)品維度是典型的大維度。大維度表采用雪花模型的數(shù)據(jù)組織,是一種有效的方法。對(duì)產(chǎn)品維度,產(chǎn)品是分屬于產(chǎn)品品牌,品牌又分屬于產(chǎn)品分類(lèi)。對(duì)客戶(hù)維度,客戶(hù)分屬于地區(qū),地區(qū)分屬于國(guó)家。對(duì)于銷(xiāo)售的雪花模型如圖4.11所示。地區(qū)地區(qū)鍵地區(qū)名國(guó)家鍵產(chǎn)品鍵產(chǎn)品名品牌鍵包裝鍵包裝包裝鍵包裝類(lèi)別銷(xiāo)售事實(shí)產(chǎn)品鍵時(shí)間鍵客戶(hù)鍵銷(xiāo)售數(shù)目銷(xiāo)售總價(jià)利潤(rùn)時(shí)間時(shí)間鍵日期月季年客戶(hù)鍵客戶(hù)名地區(qū)鍵客戶(hù)分類(lèi)品牌鍵品牌名分類(lèi)鍵品牌分類(lèi)鍵分類(lèi)名產(chǎn)品國(guó)家鍵國(guó)家名國(guó)家圖4.11 銷(xiāo)售事實(shí)的雪花模型832. 綜合事實(shí)表大多數(shù)查詢(xún)不是基于基礎(chǔ)事實(shí)表上操作的,而是基于綜合數(shù)據(jù)的查詢(xún)。這樣建立綜合事實(shí)表是提高綜合數(shù)據(jù)查詢(xún)的非常有效的方法,且大大提高數(shù)據(jù)倉(cāng)庫(kù)的性能。在多維表中,很多維都是具有層次結(jié)構(gòu),對(duì)不同維的層次的提升,將可建立多種綜合事實(shí)表。 從圖4.12可見(jiàn),對(duì)基礎(chǔ)事實(shí)表查詢(xún)利用產(chǎn)品維表,對(duì)綜合事實(shí)表查詢(xún),利用產(chǎn)品分類(lèi)維表。 產(chǎn)品鍵產(chǎn)品名分類(lèi)部門(mén)產(chǎn)品鍵時(shí)間鍵商店鍵銷(xiāo)售量銷(xiāo)售總價(jià)時(shí)間時(shí)間鍵日期月季年商店鍵商店名地域地區(qū)商店產(chǎn)品分類(lèi)鍵分類(lèi)名部門(mén)產(chǎn)品分類(lèi)分類(lèi)鍵時(shí)間鍵商店鍵銷(xiāo)售量銷(xiāo)售總價(jià)綜合事實(shí)表銷(xiāo)售事實(shí)表(基礎(chǔ)表)圖4.12 綜合事實(shí)表和衍生維

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論