




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 DW的設(shè)計是一個復(fù)雜的過程:現(xiàn)實環(huán)境抽象模型具體實現(xiàn)。上述過程實現(xiàn)的期間,使用了諸多的數(shù)據(jù)模型, 1 引言 2 概念模型 3 邏輯模型 4 物理模型 5 元數(shù)據(jù)模型 6 粒度模型 7 聚集模型第二章 數(shù)據(jù)倉庫開發(fā)模型1 引言 創(chuàng)建DW時,需用各種數(shù)據(jù)模型對DW進行描述。DW的開發(fā)者依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個滿足用戶需求的DW。 為了使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要部分,模型要有很好的適應(yīng)性,更易于修改,且,當用戶的需求改變時,僅對模型做出相應(yīng)的變化就能反映這個改變。 CH2 模型是對現(xiàn)實世界進行抽象的工具。 信息管理中,需要將現(xiàn)實世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)
2、才能對信息進行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。 上述的轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過程。CH2現(xiàn)實世界概念世界邏輯世界計算機世界信用張三客戶客戶與產(chǎn)品特性屬性列(字段、數(shù)據(jù)項)個體實體記錄整體同質(zhì)總體表文件整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫現(xiàn)實世界與各個數(shù)據(jù)模型之間的關(guān)系CH2 此外,數(shù)據(jù)倉庫的開發(fā)過程中,還要使用下述很重要的幾個數(shù)據(jù)模型元數(shù)據(jù)模型和數(shù)據(jù)粒度和聚集模型。DW開發(fā)過程中,各個數(shù)據(jù)模型間的關(guān)系如下圖所示。現(xiàn)實世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型聚 集 模 型數(shù)據(jù)粒度和DW的靈魂!指導(dǎo)DW開發(fā)。CH22 概念模
3、型 概念模型是對真實世界中問題域內(nèi)的事物的描述,包括:記號、內(nèi)涵、外延,其中記號和內(nèi)涵(視圖)最具實際意義。 和業(yè)務(wù)處理系統(tǒng)一樣,數(shù)據(jù)倉庫構(gòu)建過程中,也可以用E-R圖來表示概念模型這樣做的直接好處是,數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)能夠得到很好的協(xié)調(diào)。 CH2 改進的E-R圖 與業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)庫概念設(shè)計一樣,數(shù)據(jù)倉庫也可以用三個層次的數(shù)據(jù)模型來描述 高層模型(E-R圖)、中層模型(邏輯層)和底層模型(物理層)。但要注意兩者之間的差異: 數(shù)據(jù)類型的差異 DW中不包含操作型數(shù)據(jù),只包含用戶感興趣的分析數(shù)據(jù)(如,商品的銷量、企業(yè)的利潤等)、描述數(shù)據(jù)(如,銷售時間、地點)CH2以及細節(jié)數(shù)據(jù)(如,所銷售商品
4、的詳情、客戶詳情等)。 數(shù)據(jù)的歷史變遷性 業(yè)務(wù)處理系統(tǒng)中,一般只包含當前數(shù)據(jù)而不含歷史數(shù)據(jù); 數(shù)據(jù)倉庫中,為了反映出組織的歷史變遷、業(yè)務(wù)的發(fā)展等,需要增加時間屬性進行描述(即把時間作為關(guān)鍵字的一部分)。 數(shù)據(jù)的概括性 為了提高使用的性能,往往在數(shù)據(jù)倉庫中增加一些由基本數(shù)據(jù)導(dǎo)出的衍生數(shù)據(jù),它們在業(yè)務(wù)處理系統(tǒng)中是不存在的。 為此,對傳統(tǒng)的E-R圖進行了一些改進:把實體擴展成三類指標實體(事實實體)、維實體和詳細類別實體。CH2其中:指標實體 指標實體處于概念模型的中心,是DW活動的中心; 是現(xiàn)實世界中的某一業(yè)務(wù)處理或某一事件(銷售、服務(wù)等)的邏輯表示; 體現(xiàn)了現(xiàn)實世界中的事務(wù)處理的值(從業(yè)務(wù)處理系
5、統(tǒng)獲取的),每個值只與每個相關(guān)維的一個點對應(yīng),是管理人員衡量業(yè)務(wù)好壞及其處理難度的基礎(chǔ)。CH2 隨著時間的推移,以及數(shù)據(jù)倉庫需求的變化,指標實體中的數(shù)據(jù)量會日益膨脹,因此,指標實體是數(shù)據(jù)倉庫管理的重點。 其主要特性如下:是分析中心,提供基本數(shù)據(jù);包含多個數(shù)據(jù)訪問路徑;包含標準數(shù)據(jù);能擴充成很大的表以容納日益增長的數(shù)據(jù)。 CH2維實體 主要用于對實體的過濾和重新組織,可將用戶的查詢結(jié)果按維指標進行篩選,可在指標實體之間以及指標實體與詳細類別實體之間建立聯(lián)系,使用戶對DW的使用更輕松。 其主要特性:訪問并過濾指標實體;是非標準實體(含完整的維體系編碼、關(guān)鍵詞及相關(guān)運算);引導(dǎo)用戶及進行查詢分析等等
6、。CH2詳細類別實體 與現(xiàn)實世界的某一實體(一個客戶/一個產(chǎn)品/一個銷售點)對應(yīng),為用戶提供更為詳細的分析數(shù)據(jù)。 其主要特性為:含參考數(shù)據(jù)及有助于完成指標數(shù)據(jù)職能的支持信息;與事務(wù)結(jié)構(gòu)有映射關(guān)系;是標準的數(shù)據(jù)結(jié)構(gòu);數(shù)據(jù)量比指標實體少,比維實體多。CH2 反規(guī)范化處理 業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)庫設(shè)計,是以規(guī)范化數(shù)據(jù)模型為目標的,如,RDBMS中的3NF等,規(guī)范化數(shù)據(jù)模型具有存儲的高效性和靈活性的特點。 數(shù)據(jù)倉庫中,若仍采用規(guī)范化數(shù)據(jù)模型的話,就會存在一系列“小”表,在進行大量的數(shù)據(jù)處理時,會頻繁地與這些小表進行動態(tài)連接,從而產(chǎn)生大量的I/O操作。CH2 反規(guī)范化處理,就是為了減少I/O次數(shù)而把上述的
7、諸多“小”表合并在一起的處理方法。 可見, 反規(guī)范化處理是以增加數(shù)據(jù)的冗余為代價來減少I/O次數(shù)的由于數(shù)據(jù)倉庫中要進行海量的數(shù)據(jù)處理,因此,這種以“空間換時間”的嘗試,在數(shù)據(jù)倉庫應(yīng)用中是值得的,也是易于被用戶所接受的。CH2 星形模型 僅從概念設(shè)計的角度來看,右圖給出了一個簡單的ER圖,其中的五個實體相互間是平等關(guān)系。 然而,從管理決策的角度看,這五個實體絕對不會是“平等關(guān)系”,例如,決策者真正關(guān)心的是“訂單”,其他實體(供應(yīng)商、產(chǎn)品、客戶等)只是針對“訂單”的諸多說明。CH2 進而,實際應(yīng)用中,會有大量數(shù)據(jù)載入訂單實體,其他實體只有少量數(shù)據(jù)載入因此需要一種有別于傳統(tǒng)ER圖的數(shù)據(jù)模型來描述某個
8、實體需載入大量數(shù)據(jù)的結(jié)構(gòu)星形模型就是這樣的模型之一。CH2 一個星形模型包含一個對應(yīng)于某個主題的事實表和若干個非正規(guī)化描述事實的維表。星形模型具有以下特性: 事實表的數(shù)據(jù)描述特定的商務(wù)事件,一 般可以添加不許修改; 維表存放事實表中數(shù)據(jù)的特征值,利用 維關(guān)鍵字通過事實表的外鍵約束于事實 表的某一行,因此,事實表的外鍵不許 為空(一般DB則可)優(yōu)點?; 每個維表通過一個主鍵與事實表鏈接; 通過事實表可以關(guān)聯(lián)各個維表。CH2 雪花模型 雪花模型是對星形模型的擴展每個維表均可向外鏈接多個詳細類別表,以對事實表進行詳細描述減小了事實表。CH2注: 雪花模型中, 維表被標準化、正規(guī)化了改善了 查詢的性能
9、; 由于采用了標準化以及低粒度,所以 雪花模型提高了數(shù)據(jù)倉庫應(yīng)用的靈活 性。CH23 邏輯模型 邏輯模型是三層模型中的中層模型,它是對高層模型(概念模型)的細化,如下圖。 CH2 邏輯模型的基本結(jié)構(gòu) 邏輯模型有四種基本結(jié)構(gòu):基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組。CH2基本數(shù)據(jù)組 其中存在著唯一的主要主題域?;緮?shù)據(jù)組在每個主題域中只出現(xiàn)一次,包含屬性和鍵碼。二級數(shù)據(jù)組 基本數(shù)據(jù)組中,有一組鏈接指向二級數(shù)據(jù)組,表示主要主題域所具有的屬性,有多少個屬性就有多少個二級數(shù)據(jù)組。CH2連接數(shù)據(jù)組 用于本組主要主題域與其他主要主題域間的關(guān)聯(lián),體現(xiàn)了概念模型中實體間的聯(lián)系。一般,它是一個主題的公共
10、碼主鍵。類型數(shù)據(jù)組 用于指明數(shù)據(jù)的類型,主要有超類型和子類型兩種。 除了連接數(shù)據(jù)組外,其他三類數(shù)據(jù)組的數(shù)據(jù)具有不同的穩(wěn)定性,由高到低依次為基本數(shù)據(jù)組、二級數(shù)據(jù)組、類型數(shù)據(jù)組。CH2 邏輯模型實例CH2可見: 中層(邏輯)模型向用戶提供了更為詳細的設(shè)計結(jié)果,用戶能夠借此了解數(shù)據(jù)倉庫可以給他提供一些什么信息; 邏輯模型設(shè)計中,DW開發(fā)者關(guān)心的是DW結(jié)構(gòu)的完整性數(shù)據(jù)倉庫中的所有數(shù)據(jù)元素都應(yīng)該包含在邏輯模型中至于如何獲取數(shù)據(jù),在此并不感興趣。CH2 事實表模型設(shè)計A.事實表的設(shè)計 確定了中層模型之后,就要設(shè)計事實表模型了。例如,根據(jù)上例,可以設(shè)計出以下事實模型: 客戶事實表客戶基本情況表(賬號 int
11、 9,姓名 ch 12,客戶類型 ch 20, 初次交易時間 date 8,)客戶變動情況表(賬號 int 9,住址 ch 50,文化程度 ch 10, 電話 int 11,郵政編碼 ch 6,)CH2 客戶交易事實表商品交易情況表(賬號 int 9,商品編號 ch 10, 交易量 r 10.2,交易時間 date 8,)服務(wù)交易情況表(賬號 int 9,服務(wù)時間 date 8, 服務(wù)編號 int10,服務(wù)費用,) 客戶反饋記錄表客戶反饋記錄表(賬號 int 9,反饋類型 ch 5, 反饋內(nèi)容 memo,記錄人 ch 8,) 客戶信用狀況表客戶信用狀況表(賬號 int 9,最大信用額 r 15
12、.2, 最近信用發(fā)生時間 date 8,)CH2B.事實表中的事實特性 事實指標的可加性; 完全可加性,半可加性,非可加性 派生事實 可加性的派生事實,不可加性的派生事實 總之,事實表是DW中的最大表,要盡可能設(shè)計得?。ㄋ伎迹耗男┓椒??),同時還要考慮數(shù)據(jù)的精度和粒度。CH2 維模型設(shè)計 維,是人們觀察某個數(shù)據(jù)集合的特定角度,是以對數(shù)據(jù)某個共性的提取為前提的。例如,前例中,可設(shè)計出客戶主題的維表模型如下: 時間維表(年 date,月 date,日 date); 地點維表(省 ch 20,市 ch 20,縣 ch 20,街道 ch 20); 交易維表(現(xiàn)金交易 ch 20,信用交易 ch 20)
13、 關(guān)于維的討論,將在OLAP一章進行。CH24 物理模型所謂物理模型,就是中層(邏輯)模型(包括事實表和維表)的物理實現(xiàn)。具體包括以下內(nèi)容: 確定存儲結(jié)構(gòu)(一般用RAID); 確定索引類型(位圖/廣義索引); 物理模型的優(yōu)化(表合并,建立數(shù)據(jù)序列,引入冗余,表的物理分割,生成衍生數(shù)據(jù)等)。RAID是“Redundant Array of Independent Disk”的縮寫,中文意思是獨立冗余磁盤陣列。 CH2 實際應(yīng)用中,DW設(shè)計者不必直接設(shè)計物理模型,只需借助于現(xiàn)成的工具(如,某個DBMS)設(shè)計即可。此時,需考慮的問題有: 全面了解所選用的DBMS,特別是其存儲結(jié)構(gòu)和存取方法; 了解數(shù)
14、據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時間要求等平衡、優(yōu)化時間和空間效率的重要依據(jù); 了解外部存儲設(shè)備的特性,如分塊原則,塊大小的規(guī)定,設(shè)備的IO特性等。 CH25 元數(shù)據(jù)模型 DW中元數(shù)據(jù)定義了許多對象表、列、查詢、商業(yè)規(guī)則以及DW內(nèi)部的數(shù)據(jù)轉(zhuǎn)移等。 元數(shù)據(jù)是DW的重要構(gòu)件,是DW的指示圖。 一般,元數(shù)據(jù)的來源有: 數(shù)據(jù)源的元數(shù)據(jù); 數(shù)據(jù)模型的元數(shù)據(jù); 數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù); 數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)。CH2 元數(shù)據(jù)的類型與組成 元數(shù)據(jù)通常分為靜態(tài)元數(shù)據(jù)和動態(tài)元數(shù)據(jù)兩類,其組成如下表所示: 靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時間來源索引類別域業(yè)務(wù)規(guī)則動態(tài)元數(shù)據(jù)入庫時間更新
15、周期數(shù)據(jù)質(zhì)量統(tǒng)計信息狀態(tài)處理存儲位置存儲大小引用處CH2 元數(shù)據(jù)的作用A.元數(shù)據(jù)的重要性 導(dǎo)航(DW的使用); 描述并記錄數(shù)據(jù)從業(yè)務(wù)系統(tǒng)的操作型環(huán)境到DW的轉(zhuǎn)換,以便利用其(靈活地、可變地)管理數(shù)據(jù)的轉(zhuǎn)換以及進行數(shù)據(jù)回溯等。 管理數(shù)據(jù),包括:粒度劃分、數(shù)據(jù)分割、索引;不同時期的數(shù)據(jù)內(nèi)容及形式;主題的增加及刪除這些管理工作均需在元數(shù)據(jù)中有相應(yīng)的描述。CH2B.元數(shù)據(jù)在DW開發(fā)期間的作用 DW的應(yīng)用管理,比如,捕獲數(shù)據(jù)轉(zhuǎn)化、凈化、概括、聚集的規(guī)則(商業(yè)規(guī)則與處理規(guī)則)等; 向用戶提供大量的數(shù)據(jù)關(guān)系; 從歷史數(shù)據(jù)抽取數(shù)據(jù)的規(guī)則; 存儲抽取、求精、重構(gòu)過程中數(shù)據(jù)源到DW的映射關(guān)系(以便確認數(shù)據(jù)質(zhì)量、實
16、現(xiàn)同步化及刷新、建立數(shù)據(jù)與商業(yè)規(guī)則間的映射關(guān)系)。CH2C.元數(shù)據(jù)在數(shù)據(jù)抽取中的作用 確定數(shù)據(jù)源 每個主題源于哪些數(shù)據(jù)源; 跟蹤歷史數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的變化 保證各個時期的歷史數(shù)據(jù)可以正確地轉(zhuǎn)換到DW中; 實現(xiàn)屬性到屬性的映射 元數(shù)據(jù)的屬性信息可以保證多個數(shù)據(jù)源的相同數(shù)據(jù)映射到一起; 屬性的轉(zhuǎn)換。CH2D.元數(shù)據(jù)在求精與重構(gòu)中的作用 數(shù)據(jù)的分割 以元數(shù)據(jù)形式(下同)保存分割方案; 數(shù)據(jù)的概括 保存概括中的數(shù)據(jù)關(guān)系; 預(yù)算與推導(dǎo) 保存預(yù)算與推導(dǎo)的算法; 轉(zhuǎn)換與再映射 保存(從關(guān)系模型到星形或雪花型模型的)轉(zhuǎn)換與再映射的方案。CH2 元數(shù)據(jù)的收集A.數(shù)據(jù)源元數(shù)據(jù) 可以通過程序自動掃描(數(shù)據(jù)源物理結(jié)構(gòu)以
17、及表結(jié)構(gòu))或手工方式獲得。一般,手工獲得的量較少,可容易地編輯成文檔。B.數(shù)據(jù)模型元數(shù)據(jù) 元數(shù)據(jù)庫中保存DW數(shù)據(jù)模型; 保存企業(yè)數(shù)據(jù)模型及元數(shù)據(jù)與DW數(shù)據(jù)模型的映射關(guān)系; 把數(shù)據(jù)源元數(shù)據(jù)移入DW元數(shù)據(jù)庫。CH2 從數(shù)據(jù)模型收集元數(shù)據(jù),可借助于CASE工具自動實現(xiàn),但重要的數(shù)據(jù)模型與元數(shù)據(jù)的對應(yīng)關(guān)系的確認,最好通過手工方式完成。C.數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù) 該映射包括抽取、轉(zhuǎn)換、加載等過程。 若手工完成,則需以數(shù)據(jù)庫或電子表格方式定義上述映射并存于元數(shù)據(jù)庫中; 若由DW開發(fā)工具完成,則,除了把映射存于元數(shù)據(jù)庫之外,還要提供訪問該映射的方式與工具。CH2D.數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù) 元數(shù)據(jù)模型構(gòu)造
18、中最后、最困難、最重要的內(nèi)容。 其主要工作是:確定DW中各個使用對象被使用的頻率高頻率者,可建立數(shù)據(jù)集市或增加概括數(shù)據(jù);低頻率者,可釋放相應(yīng)的概括、聚集數(shù)據(jù),回收它們占據(jù)的磁盤空間。 上述工作一般通過手工方式完成。CH26 粒度模型 所謂粒度,可定義成DW記錄數(shù)據(jù)/對數(shù)據(jù)進行綜合時使用的時間段參數(shù) 該參數(shù)越小,粒度級別越低,數(shù)據(jù)越詳細; 反之,粒度級別越高, 數(shù)據(jù)也越綜合(細節(jié)損失得也越多)。 根據(jù)粒度的劃分標準, 可以將數(shù)據(jù)劃分為:詳細數(shù)據(jù)、輕度總結(jié)、高度總結(jié) 三級或更多級粒度。 粒度的具體劃分將直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量。 CH2 數(shù)據(jù)粒度的劃分 最低級別的粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)細節(jié)的最低層次,如事務(wù)層次。這種數(shù)據(jù)層次是高度細節(jié)化的,能使用戶按所需的任何層次進行匯總,但它受外存空間以及響應(yīng)時間的制約。 涉及到時間和空間,自然與各個表的“體積”以及索引文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度雇主免責(zé)協(xié)議書:航空航天領(lǐng)域雇主責(zé)任界定合同
- 2025年度產(chǎn)業(yè)轉(zhuǎn)型升級信息咨詢服務(wù)合同
- 2025年度農(nóng)產(chǎn)品質(zhì)量安全監(jiān)管與風(fēng)險評估合作協(xié)議
- 2025年度國際會展中心招商合作合同協(xié)議
- 2025年度臨時工臨時性數(shù)據(jù)錄入與處理合同
- 2025年度出租房屋裝修改造及租賃糾紛解決協(xié)議
- 2025年度區(qū)塊鏈技術(shù)應(yīng)用合伙投資合同
- 2025年度城市老舊建筑拆除勞務(wù)合作合同
- 2025年度教師聘用的教育教學(xué)改革與創(chuàng)新合同
- 親子樂園裝修合同樣板
- GB 28482-2012嬰幼兒安撫奶嘴安全要求
- GA 979-2012D類干粉滅火劑
- 骨科病人健康教育處方
- 關(guān)鍵詞與有機關(guān)聯(lián)寫作課件
- 贛價協(xié)〔2023〕9號江西省建設(shè)工程造價咨詢服務(wù)收費基準價
- 小汽車掛靠協(xié)議書范本(2篇)
- 顱腦外傷(共61張PPT)
- 黃河流域生態(tài)保護與高質(zhì)量發(fā)展課件
- 化妝品產(chǎn)品召回模擬演練記錄表格
- 信息系統(tǒng)安全等級保護基本要求表格
- 京東考試答案
評論
0/150
提交評論