第4章 數(shù)據(jù)倉庫基本原理_第1頁
第4章 數(shù)據(jù)倉庫基本原理_第2頁
第4章 數(shù)據(jù)倉庫基本原理_第3頁
第4章 數(shù)據(jù)倉庫基本原理_第4頁
第4章 數(shù)據(jù)倉庫基本原理_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、主講:魯明羽主講:魯明羽大連海事大學計算機科學與技術學院大連海事大學計算機科學與技術學院研究方向:智能數(shù)據(jù)分析與數(shù)據(jù)挖掘研究方向:智能數(shù)據(jù)分析與數(shù)據(jù)挖掘電電 話:話mail:第第4 4章章 數(shù)據(jù)倉庫的基本原理數(shù)據(jù)倉庫的基本原理本章目標本章目標 隨著信息技術的不斷推廣和應用,許多企業(yè)都已在使用MIS系統(tǒng)處理管理事務和日常業(yè)務,積累了大量信息 企業(yè)管理者開始考慮如何利用這些海量信息為企業(yè)管理提供決策支持。因此,產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫有很大差異的數(shù)據(jù)環(huán)境要求和從這些海量數(shù)據(jù)中獲取特殊知識的深層需求。 這種需求加上計算機軟硬件能力的飛速發(fā)展,導致了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的出現(xiàn)。本

2、章目標本章目標 本章目標是:1) 了解數(shù)據(jù)倉庫的定義和特點了解數(shù)據(jù)倉庫的定義和特點2) 了解了解數(shù)據(jù)倉庫的數(shù)據(jù)組織方式數(shù)據(jù)倉庫的數(shù)據(jù)組織方式3)3)理解數(shù)據(jù)倉庫的體系結(jié)構和參照結(jié)構理解數(shù)據(jù)倉庫的體系結(jié)構和參照結(jié)構4)4)了解數(shù)據(jù)倉庫管理員的作用和常用工具集了解數(shù)據(jù)倉庫管理員的作用和常用工具集目目 錄錄1 1 數(shù)據(jù)倉庫的起源數(shù)據(jù)倉庫的起源2 2 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點3 3 與數(shù)據(jù)倉庫相關的幾個概念與數(shù)據(jù)倉庫相關的幾個概念4 4 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織5 5 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫管理員數(shù)據(jù)倉庫管理員數(shù)據(jù)倉

3、庫常用工具集數(shù)據(jù)倉庫常用工具集 練練 習習1. 1. 數(shù)據(jù)倉庫的起源數(shù)據(jù)倉庫的起源1.1 1.1 數(shù)據(jù)庫技術的發(fā)展數(shù)據(jù)庫技術的發(fā)展 6060年代早期:利用文件系統(tǒng),生成各種報告年代早期:利用文件系統(tǒng),生成各種報告 6060年代中期:大量的文件使得維護和開發(fā)的復年代中期:大量的文件使得維護和開發(fā)的復雜性提高,數(shù)據(jù)的同步亦成問題雜性提高,數(shù)據(jù)的同步亦成問題 7070年代早期:年代早期:E. F. CoddE. F. Codd提出關系數(shù)據(jù)模型和提出關系數(shù)據(jù)模型和E-RE-R數(shù)據(jù)建模方法,數(shù)據(jù)庫技術日趨成熟數(shù)據(jù)建模方法,數(shù)據(jù)庫技術日趨成熟 7070年代中期:高性能的年代中期:高性能的OLTPOLTP應

4、用越來越廣泛應用越來越廣泛1. 1. 數(shù)據(jù)倉庫的起源數(shù)據(jù)倉庫的起源1.1 1.1 數(shù)據(jù)庫技術的發(fā)展數(shù)據(jù)庫技術的發(fā)展 8080年代早期:年代早期:OLTPOLTP,MIS/DSSMIS/DSS,以,以IBMIBM的的“Information Warehouse”Information Warehouse”為代表,提出了為代表,提出了數(shù)據(jù)倉庫的思想數(shù)據(jù)倉庫的思想 8080年代中期:由于技術和實現(xiàn)費用的原因,數(shù)年代中期:由于技術和實現(xiàn)費用的原因,數(shù)據(jù)倉庫思想沒有引起太多注意據(jù)倉庫思想沒有引起太多注意 9090年代:以年代:以W.H.InmonW.H.Inmon為代表,數(shù)據(jù)倉庫為代表,數(shù)據(jù)倉庫(Dat

5、a (Data Warehouse)Warehouse)迅速興起迅速興起 = OLAP= OLAP,DMDM,OLAMOLAM1. 1. 數(shù)據(jù)倉庫的起源數(shù)據(jù)倉庫的起源1.2 1.2 從傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫從傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫 隨著市場競爭的加劇,信息系統(tǒng)的用戶已經(jīng)不滿足于僅僅用計算機處理每天所發(fā)生的事務數(shù)據(jù),而是需要利用信息輔助管理決策過程。這就需要一種能夠?qū)⑷粘I(yè)務處理中所收集到的各種數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂猩虡I(yè)價值信息的技術,而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)無法承擔這一責任,主要表現(xiàn)在決策處理中的系統(tǒng)響應問題、決策數(shù)據(jù)需系統(tǒng)響應問題、決策數(shù)據(jù)需求問題求問題和和決策數(shù)據(jù)操作問題決策數(shù)據(jù)操作問題,等等。 對比內(nèi)容數(shù)

6、據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當前值歷史的、存檔的、歸納的、計算的數(shù)據(jù)數(shù)據(jù)目標面向業(yè)務操作程序,重復處理面向主題域、管理決策分析應用數(shù)據(jù)特性動態(tài)變化,按字段更新靜態(tài),不能直接修改、只定時添加數(shù)據(jù)結(jié)構高度結(jié)構化,復雜,適合操作計算簡單,適合分析使用頻率高中到低數(shù)據(jù)訪問量每個事務只訪問少量記錄有的事務可能要訪問大量記錄對響應時間的要求以秒為單位計量以秒、分鐘、甚至小時為計量單位數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的對比數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的對比Prism SolutionsPrism Solutions公司創(chuàng)始人之一的公司創(chuàng)始人之一的W.H.InmonW.H.Inmon在在Building the Data Warehou

7、seBuilding the Data Warehouse一書中對一書中對“數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DW)”(DW)”定義如下:定義如下:數(shù)據(jù)倉庫是一個面向主題的、集成的、數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化的、非易失性的數(shù)據(jù)集合,用隨時間變化的、非易失性的數(shù)據(jù)集合,用于支持管理決策過程。于支持管理決策過程。2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點這個定義本身就說明了數(shù)據(jù)倉庫中數(shù)據(jù)的組這個定義本身就說明了數(shù)據(jù)倉庫中數(shù)據(jù)的組織方式以及建立數(shù)據(jù)倉庫的目的是什么??椃绞揭约敖?shù)據(jù)倉庫的目的是什么。數(shù)據(jù)倉庫特點:數(shù)據(jù)倉庫特點: 面向主題性 數(shù)據(jù)集成性 數(shù)據(jù)的時變性 數(shù)據(jù)的非易失性 數(shù)據(jù)

8、的集合性 支持決策作用2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點其中前4項是其主要特點。數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的. . 主題是數(shù)據(jù)歸類的標準,每個主題是數(shù)據(jù)歸類的標準,每個主題主題對應對應一個客一個客觀分析觀分析領域領域,如客戶和商店等,因此,數(shù)據(jù)倉庫中,如客戶和商店等,因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題要求而組織的。的數(shù)據(jù)是按主題要求而組織的。 業(yè)務應用業(yè)務應用 主題領域主題領域2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點例如,對一個保險公司來說,它的業(yè)務應用例如,對一個保險公司來說,它的業(yè)務應用系統(tǒng)可能有汽車保險、人壽保險、健康醫(yī)療保險系統(tǒng)可能

9、有汽車保險、人壽保險、健康醫(yī)療保險及家庭財產(chǎn)保險等,而保險公司的主題領域可以及家庭財產(chǎn)保險等,而保險公司的主題領域可以是客戶、保單、保費及索賠等。是客戶、保單、保費及索賠等。一個數(shù)據(jù)倉庫可以包含若干個主題,而每個一個數(shù)據(jù)倉庫可以包含若干個主題,而每個主題可以分解為若干個子主題,每個子主題又可主題可以分解為若干個子主題,每個子主題又可進一步分解為更細的子主題,形成逐層分解的主進一步分解為更細的子主題,形成逐層分解的主題層次結(jié)構。題層次結(jié)構。2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的. .

10、 為了實現(xiàn)輔助決策的目標和要求,數(shù)據(jù)倉庫需要集成為了實現(xiàn)輔助決策的目標和要求,數(shù)據(jù)倉庫需要集成多個部門、不同系統(tǒng)的大量數(shù)據(jù)。需要集成的數(shù)據(jù)源既多個部門、不同系統(tǒng)的大量數(shù)據(jù)。需要集成的數(shù)據(jù)源既有關系數(shù)據(jù)庫,也有文本數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫以及有關系數(shù)據(jù)庫,也有文本數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫以及文件系統(tǒng)等,而且同一種數(shù)據(jù)模型集合體中又有不同的文件系統(tǒng)等,而且同一種數(shù)據(jù)模型集合體中又有不同的DBMSDBMS。因此,數(shù)據(jù)集成是一個復雜問題。因此,數(shù)據(jù)集成是一個復雜問題。 不同數(shù)據(jù)源中的數(shù)據(jù)并不是全部轉(zhuǎn)移到數(shù)據(jù)倉庫中,不同數(shù)據(jù)源中的數(shù)據(jù)并不是全部轉(zhuǎn)移到數(shù)據(jù)倉庫中,而是運用多種轉(zhuǎn)換規(guī)則,通過選擇、合并、變換等方

11、法而是運用多種轉(zhuǎn)換規(guī)則,通過選擇、合并、變換等方法轉(zhuǎn)換為數(shù)據(jù)倉庫中的集成數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫中的集成數(shù)據(jù) -需要需要ETLETL模塊模塊支持。支持。 此外,數(shù)據(jù)源中可能存在數(shù)據(jù)重復、不一致和各種此外,數(shù)據(jù)源中可能存在數(shù)據(jù)重復、不一致和各種錯誤,因此,需要進行錯誤,因此,需要進行數(shù)據(jù)清洗數(shù)據(jù)清洗。2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的. . 不同的應用在編碼、命名、屬性的度量等方面都有不同的應用在編碼、命名、屬性的度量等方面都有很大的差別,數(shù)據(jù)集成就是要解決這些問題。很大的差別,數(shù)據(jù)集成就是要解決這些問題。舉例舉例1 1:編碼編碼APP

12、 AAPP A:M M,F(xiàn) FM M,F(xiàn) FAPP BAPP B:1 1,0 0APP CAPP C:X X,Y YAPP DAPP D:MALEMALE,F(xiàn)EMALEFEMALE2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點舉例舉例2 2:命名命名APP AAPP A:IDIDUser_IDUser_IDAPP BAPP B:IdentityIdentityAPP CAPP C:User_IDUser_IDAPP DAPP D:Custom_IDCustom_ID 舉例舉例3 3:屬性屬性度量度量APP AAPP A:CMCMCMCMAPP BAPP B:INCHESINCHESAPP

13、 CAPP C:M MAPP DAPP D:DMDM2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點舉例舉例4 4:關鍵字沖突關鍵字沖突APP AAPP AKEY CHARKEY CHAR(1010)APP BAPP BKEY DEC FIXEDKEY DEC FIXED(9 9,2 2)APP CAPP CKEY PIC 999999KEY PIC 999999APP DAPP DKEY CHARKEY CHAR(1212) KEY CHARKEY CHAR(1212)舉例舉例5 5:多源多源APP AAPP A:DESCRIPTION1DESCRIPTION1APP BAPP B:DE

14、SCRIPTION2DESCRIPTION2? DESCRIPTIONDESCRIPTIONAPP CAPP C:DESCRIPTION3 DESCRIPTION3 2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的. . 數(shù)據(jù)倉庫包含大量的歷史數(shù)據(jù),經(jīng)集成進入數(shù)據(jù)倉庫包含大量的歷史數(shù)據(jù),經(jīng)集成進入數(shù)據(jù)倉庫后主要用于決策分析(查詢類操作),數(shù)據(jù)倉庫后主要用于決策分析(查詢類操作),而極少更新??梢詫⑵淅斫鉃橹蛔x的而極少更新。可以將其理解為只讀的。 業(yè)務應用業(yè)務應用 數(shù)據(jù)倉庫數(shù)據(jù)倉庫插入插入更新更新刪除刪除插入插入訪問訪問查詢查詢加載加載 以記錄

15、為單位的數(shù)據(jù)操作以記錄為單位的數(shù)據(jù)操作大量的數(shù)據(jù)加載和數(shù)據(jù)訪問大量的數(shù)據(jù)加載和數(shù)據(jù)訪問2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫中的數(shù)據(jù)是隨時間變化的數(shù)據(jù)倉庫中的數(shù)據(jù)是隨時間變化的. . 主要體現(xiàn)在主要體現(xiàn)在數(shù)據(jù)的時限、數(shù)據(jù)的內(nèi)容、數(shù)據(jù)數(shù)據(jù)的時限、數(shù)據(jù)的內(nèi)容、數(shù)據(jù)的碼健的碼健。 業(yè)務應用業(yè)務應用 數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)時限:數(shù)據(jù)時限:1 1個月至個月至1 1年年 數(shù)據(jù)時限:數(shù)據(jù)時限:5 5到到1010年年數(shù)據(jù)內(nèi)容:記錄更新數(shù)據(jù)內(nèi)容:記錄更新 數(shù)據(jù)內(nèi)容:復雜的數(shù)據(jù)快照數(shù)據(jù)內(nèi)容:復雜的數(shù)據(jù)快照關鍵字結(jié)構:可能包含時間元素關鍵字結(jié)構:可能包含時間元素 關鍵字結(jié)構:包含時間標記關鍵字結(jié)

16、構:包含時間標記2. 2. 數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫是為管理決策提供服務的數(shù)據(jù)倉庫是為管理決策提供服務的. . 數(shù)據(jù)倉庫主要應用在兩個方面:數(shù)據(jù)倉庫主要應用在兩個方面:使用瀏覽分析工具在數(shù)據(jù)倉庫中尋找有用的信息;使用瀏覽分析工具在數(shù)據(jù)倉庫中尋找有用的信息;基于數(shù)據(jù)倉庫,在基于數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)上建立應用,形成上建立應用,形成決策支持系統(tǒng)決策支持系統(tǒng)。 事務處理事務處理 分析處理分析處理從數(shù)據(jù)從數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)從數(shù)據(jù)從數(shù)據(jù) 信息(知識)信息(知識) OLTPOLTP OLAP OLAP(DMDM、OLAMOLAM)DBDBDWDW3. 3. 與數(shù)據(jù)倉庫相關的

17、幾個概念與數(shù)據(jù)倉庫相關的幾個概念 OLTPOLTP:聯(lián)機事務處理,完成對數(shù)據(jù)的增、:聯(lián)機事務處理,完成對數(shù)據(jù)的增、刪、改等操作刪、改等操作 OLAPOLAP:聯(lián)機分析處理,完成對數(shù)據(jù)的向上:聯(lián)機分析處理,完成對數(shù)據(jù)的向上綜合、向下細化、旋轉(zhuǎn)、切片和分割(又綜合、向下細化、旋轉(zhuǎn)、切片和分割(又稱局部分析)等操作。稱局部分析)等操作。OLAPOLAP以多維分析為以多維分析為基礎,刻畫了管理和決策過程中對數(shù)據(jù)進基礎,刻畫了管理和決策過程中對數(shù)據(jù)進行多層面、多角度的分析處理。又分為行多層面、多角度的分析處理。又分為MOLAPMOLAP、ROLAPROLAP3. 3. 與數(shù)據(jù)倉庫相關的幾個概念與數(shù)據(jù)倉庫

18、相關的幾個概念 DMDM:數(shù)據(jù)挖掘,從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式:數(shù)據(jù)挖掘,從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式, , 預測趨勢和行為,致力于知識的自動發(fā)現(xiàn)預測趨勢和行為,致力于知識的自動發(fā)現(xiàn) OLAMOLAM:聯(lián)機分析挖掘,將:聯(lián)機分析挖掘,將OLAPOLAP與與DMDM技術結(jié)合起技術結(jié)合起來的一種技術來的一種技術 DSSDSS:決策支持系統(tǒng),利用:決策支持系統(tǒng),利用OLAPOLAP、DMDM、OLAMOLAM等等技術為企業(yè)或政府的管理決策提供服務的系統(tǒng)技術為企業(yè)或政府的管理決策提供服務的系統(tǒng)4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織 數(shù)據(jù)倉庫中的數(shù)據(jù)依據(jù)下面數(shù)據(jù)倉庫中的數(shù)據(jù)依據(jù)下面4 4個原則進行組

19、織:個原則進行組織:1)1) 面向主題面向主題2)2) 采用關系表結(jié)構形式的數(shù)據(jù)模式采用關系表結(jié)構形式的數(shù)據(jù)模式3)3) 在數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立轉(zhuǎn)換規(guī)則在數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立轉(zhuǎn)換規(guī)則4)4) 數(shù)據(jù)按粒度分為若干個層次數(shù)據(jù)按粒度分為若干個層次4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織1 1)面向主題組織數(shù)據(jù))面向主題組織數(shù)據(jù)構建數(shù)據(jù)倉庫的前提首先是確定數(shù)據(jù)倉庫的主題,然后構建數(shù)據(jù)倉庫的前提首先是確定數(shù)據(jù)倉庫的主題,然后才能以主題為單位,組織滿足主題目標與需求的數(shù)據(jù)。才能以主題為單位,組織滿足主題目標與需求的數(shù)據(jù)。一個數(shù)據(jù)倉庫一般有若干個主題,而每個主題又有一個一個數(shù)據(jù)倉庫一般有若干

20、個主題,而每個主題又有一個數(shù)據(jù)集合體作為支撐,稱為主題域(數(shù)據(jù)集合體作為支撐,稱為主題域(subject fieldsubject field),因此),因此,一個數(shù)據(jù)倉庫可以按主題劃分為若干個主題域。,一個數(shù)據(jù)倉庫可以按主題劃分為若干個主題域。主題域應具有:主題域應具有:獨立性:主題域有明確的邊界和獨立內(nèi)涵,可以有交叉獨立性:主題域有明確的邊界和獨立內(nèi)涵,可以有交叉,但不影響其獨立性。,但不影響其獨立性。完備性:每個主題的分析要求所需要的數(shù)據(jù)均能在其主完備性:每個主題的分析要求所需要的數(shù)據(jù)均能在其主題域中獲得。題域中獲得。4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織2 2)按關系模式組織

21、主題域)按關系模式組織主題域數(shù)據(jù)倉庫中的主題域按照傳統(tǒng)的關系表形式進行組織。數(shù)據(jù)倉庫中的主題域按照傳統(tǒng)的關系表形式進行組織。一個主題域往往由若干個關系表構成,而這些關系表中的數(shù)一個主題域往往由若干個關系表構成,而這些關系表中的數(shù)據(jù)來自于數(shù)據(jù)源,其中的屬性按統(tǒng)計、匯總需求,可分為三據(jù)來自于數(shù)據(jù)源,其中的屬性按統(tǒng)計、匯總需求,可分為三種形式:靜態(tài)的(即不可統(tǒng)計的)、動態(tài)的(即可統(tǒng)計的)種形式:靜態(tài)的(即不可統(tǒng)計的)、動態(tài)的(即可統(tǒng)計的)以及半動態(tài)的(即有時可統(tǒng)計的)。以及半動態(tài)的(即有時可統(tǒng)計的)。在同一個主題域內(nèi)的各個關系表之間,一般存在一定的在同一個主題域內(nèi)的各個關系表之間,一般存在一定的聯(lián)系

22、,為此,需要建議一個主題域的公共碼鍵,稱為主題碼聯(lián)系,為此,需要建議一個主題域的公共碼鍵,稱為主題碼(subject keysubject key),以關聯(lián)主題域內(nèi)各個關系表。),以關聯(lián)主題域內(nèi)各個關系表。4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織3 3)在數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立轉(zhuǎn)換規(guī)則)在數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立轉(zhuǎn)換規(guī)則由于不同數(shù)據(jù)源中的數(shù)據(jù)并不是全部轉(zhuǎn)移到數(shù)據(jù)倉庫中,由于不同數(shù)據(jù)源中的數(shù)據(jù)并不是全部轉(zhuǎn)移到數(shù)據(jù)倉庫中,而是通過選擇、合并、變換等方法,轉(zhuǎn)換為數(shù)據(jù)倉庫中的集而是通過選擇、合并、變換等方法,轉(zhuǎn)換為數(shù)據(jù)倉庫中的集成數(shù)據(jù),因此,需要在數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立成數(shù)據(jù),因此,需要在

23、數(shù)據(jù)源和數(shù)據(jù)倉庫之間建立數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換規(guī)則規(guī)則。這些數(shù)據(jù)轉(zhuǎn)換規(guī)則形成了。這些數(shù)據(jù)轉(zhuǎn)換規(guī)則形成了數(shù)據(jù)倉庫管理系統(tǒng)中元數(shù)據(jù)數(shù)據(jù)倉庫管理系統(tǒng)中元數(shù)據(jù),而,而ETLETL模塊模塊負責運用所建立的轉(zhuǎn)換規(guī)則進行數(shù)據(jù)加載。負責運用所建立的轉(zhuǎn)換規(guī)則進行數(shù)據(jù)加載。4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)轉(zhuǎn)換規(guī)則規(guī)定數(shù)據(jù)轉(zhuǎn)換規(guī)則規(guī)定:v數(shù)據(jù)源中的哪些數(shù)據(jù)進入數(shù)據(jù)倉庫哪個數(shù)據(jù)域的哪些數(shù)據(jù)源中的哪些數(shù)據(jù)進入數(shù)據(jù)倉庫哪個數(shù)據(jù)域的哪些關系表中?關系表中?v在進入數(shù)據(jù)倉庫之前,數(shù)據(jù)源中哪些數(shù)據(jù)需要合并為在進入數(shù)據(jù)倉庫之前,數(shù)據(jù)源中哪些數(shù)據(jù)需要合并為主題域中的哪項數(shù)據(jù)?主題域中的哪項數(shù)據(jù)?v在進入數(shù)據(jù)倉庫之前,

24、數(shù)據(jù)源中哪些數(shù)據(jù)需要進行何在進入數(shù)據(jù)倉庫之前,數(shù)據(jù)源中哪些數(shù)據(jù)需要進行何種變換?種變換?v其它轉(zhuǎn)換規(guī)定其它轉(zhuǎn)換規(guī)定 4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織4 4)數(shù)據(jù)按粒度分為若干個層次)數(shù)據(jù)按粒度分為若干個層次綜合與細化是數(shù)據(jù)倉庫中的兩種主要操作,為此,數(shù)據(jù)綜合與細化是數(shù)據(jù)倉庫中的兩種主要操作,為此,數(shù)據(jù)倉庫中的數(shù)據(jù)需要劃分為不同層次,而每個數(shù)據(jù)層次反映倉庫中的數(shù)據(jù)需要劃分為不同層次,而每個數(shù)據(jù)層次反映了數(shù)據(jù)綜合的程度(稱為粒度)。一般地,數(shù)據(jù)倉庫包含了數(shù)據(jù)綜合的程度(稱為粒度)。一般地,數(shù)據(jù)倉庫包含4 4個級別的數(shù)據(jù):個級別的數(shù)據(jù):a)a) 當前數(shù)據(jù)當前數(shù)據(jù)b)b) 輕度綜合數(shù)據(jù)

25、輕度綜合數(shù)據(jù)c)c) 高度綜合數(shù)據(jù)高度綜合數(shù)據(jù)d)d) 歷史數(shù)據(jù)歷史數(shù)據(jù) 數(shù)據(jù)倉庫從數(shù)據(jù)倉庫從傳統(tǒng)數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫或或其它數(shù)據(jù)源其它數(shù)據(jù)源獲得原始數(shù)據(jù),先獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當前按輔助決策的主題要求形成當前基本數(shù)據(jù)層基本數(shù)據(jù)層,再按綜合,再按綜合決策的要求形成決策的要求形成綜合數(shù)據(jù)層綜合數(shù)據(jù)層(又分為輕度綜合層和高度(又分為輕度綜合層和高度綜合層)。隨著時間的推移,由時間控制機制將當前基綜合層)。隨著時間的推移,由時間控制機制將當前基本數(shù)據(jù)層轉(zhuǎn)為本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層歷史數(shù)據(jù)層。高度綜合高度綜合 01-0201-02年所有產(chǎn)年所有產(chǎn) 品月銷售數(shù)據(jù)品月銷售數(shù)據(jù)輕度綜合輕度綜合

26、 01-0201-02年某產(chǎn)品年某產(chǎn)品 周銷售數(shù)據(jù)周銷售數(shù)據(jù)當前數(shù)據(jù)當前數(shù)據(jù) 01-0201-02年年 銷售數(shù)據(jù)銷售數(shù)據(jù)歷史數(shù)據(jù)歷史數(shù)據(jù) 1980-20001980-2000 銷售數(shù)據(jù)銷售數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)倉庫的邏輯結(jié)構邏輯結(jié)構元數(shù)據(jù)4. 4. 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織4 4)數(shù)據(jù)按粒度分為若干個層次)數(shù)據(jù)按粒度分為若干個層次數(shù)據(jù)粒度越大,其綜合度越高,細化程度越低;反之,數(shù)據(jù)粒度越大,其綜合度越高,細化程度越低;反之,數(shù)據(jù)粒度越小,其細節(jié)程度越大,綜合度越低。數(shù)據(jù)粒度越小,其細節(jié)程度越大,綜合度越低。上頁的數(shù)據(jù)倉庫數(shù)據(jù)層次劃分是一種常見方式,在實際上頁的數(shù)據(jù)倉庫數(shù)據(jù)層次劃分是一種

27、常見方式,在實際應用中,還可以進一步提升或降低。應用中,還可以進一步提升或降低。 元 數(shù) 據(jù)早期細節(jié)級銷售細節(jié)1994-1997操作型轉(zhuǎn) 換當前細節(jié)級銷售細節(jié)1998-2003子生產(chǎn)線每周銷售1990-2003高度綜合級 輕度綜合級(數(shù)據(jù)集市)生產(chǎn)線每月銷售1994-2003數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例1.1. 業(yè)務背景:業(yè)務背景:某個采用會員制的連鎖超市的數(shù)據(jù)倉庫某個采用會員制的連鎖超市的數(shù)據(jù)倉庫2.2. 現(xiàn)有系統(tǒng)現(xiàn)狀:現(xiàn)有系統(tǒng)現(xiàn)狀:采購管理系統(tǒng),銷售管理系統(tǒng),采購管理系統(tǒng),銷售管理系統(tǒng), 庫存管理系統(tǒng),人事管理系統(tǒng)庫存管理系統(tǒng),人事管理系統(tǒng)3.3. 現(xiàn)有系統(tǒng)的數(shù)據(jù)庫結(jié)構:現(xiàn)

28、有系統(tǒng)的數(shù)據(jù)庫結(jié)構:1)1) 采購管理系統(tǒng)采購管理系統(tǒng) 訂單(訂單號,供應商號,日期,總金額)訂單(訂單號,供應商號,日期,總金額) 訂單明細(訂單號,商品名,商品號,類別,訂單明細(訂單號,商品名,商品號,類別, 單價,數(shù)量)單價,數(shù)量) 供應商(供應商號,供應商名,地址,電話)供應商(供應商號,供應商名,地址,電話)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例2 2)銷售管理系統(tǒng))銷售管理系統(tǒng) 顧客(顧客號,姓名,性別,年齡,顧客(顧客號,姓名,性別,年齡, 文化程度,地址,電話)文化程度,地址,電話) 銷售(員工號,顧客號,商品號,數(shù)量,單價,金額)銷售(員工號,顧客號,商品號,數(shù)量,單

29、價,金額)3 3)庫存管理系統(tǒng))庫存管理系統(tǒng) 領料單(領料單號,領料人,商品號,數(shù)量,日期)領料單(領料單號,領料人,商品號,數(shù)量,日期) 進料單(進料單號,訂單號,進料人,收料人,日期)進料單(進料單號,訂單號,進料人,收料人,日期) 庫存(商品號,庫房號,庫存量,日期)庫存(商品號,庫房號,庫存量,日期) 庫房(庫房號,保管員,地點,庫存商品描述)庫房(庫房號,保管員,地點,庫存商品描述)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例4 4)人事管理系統(tǒng))人事管理系統(tǒng) 員工(員工號,姓名,性別,年齡,文化程度,部門號)員工(員工號,姓名,性別,年齡,文化程度,部門號) 部門(部門號,部門名稱

30、,部門主管,電話)部門(部門號,部門名稱,部門主管,電話)4.4. 主題選擇:商品,供應商,顧客主題選擇:商品,供應商,顧客5.5. 主題域:分別對應三個主題主題域:分別對應三個主題(1 1)商品商品主題域主題域 P P 數(shù)據(jù)源:采購,銷售和庫存管理系統(tǒng)數(shù)據(jù)源:采購,銷售和庫存管理系統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例 數(shù)據(jù)關系表:數(shù)據(jù)關系表: P1 - P1 - 商品固有信息:商品號,商品名,類別商品固有信息:商品號,商品名,類別 P2 - P2 - 商品采購信息:商品號,供應商號,供應價商品采購信息:商品號,供應商號,供應價 供貨日期,供應量供貨日期,供應量 P3 - P3 -

31、商品銷售信息:商品號,顧客號,售價商品銷售信息:商品號,顧客號,售價 銷售日期,銷售量銷售日期,銷售量 P4 - P4 - 商品庫存信息:商品號,庫存號,庫存量,日期商品庫存信息:商品號,庫存號,庫存量,日期 主題碼:商品號主題碼:商品號 數(shù)據(jù)屬性:數(shù)據(jù)屬性: P1 P1 :靜態(tài)或半動態(tài):靜態(tài)或半動態(tài) P2P2、P3P3、P4P4:動態(tài):動態(tài)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例(2 2)供應商供應商主題域主題域 S S 數(shù)據(jù)源:采購管理系統(tǒng)數(shù)據(jù)源:采購管理系統(tǒng) 數(shù)據(jù)關系表:數(shù)據(jù)關系表: S1 - S1 - 供應商固有信息:供應商號,供應商名供應商固有信息:供應商號,供應商名 地址,電話

32、地址,電話 S2 - S2 - 供應商品信息:供應商號,商品號,供應價供應商品信息:供應商號,商品號,供應價 供貨日期,供應量供貨日期,供應量 主題碼:供應商號主題碼:供應商號 數(shù)據(jù)屬性:數(shù)據(jù)屬性:S1 - S1 - 靜態(tài)或半動態(tài)靜態(tài)或半動態(tài) S2 - S2 - 動態(tài)動態(tài)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例(3 3)顧客顧客主題域主題域 C C 數(shù)據(jù)源:銷售管理系統(tǒng)數(shù)據(jù)源:銷售管理系統(tǒng) 數(shù)據(jù)關系表:數(shù)據(jù)關系表: C1 - C1 - 顧客固有信息:顧客號,顧客姓名,性別,年齡顧客固有信息:顧客號,顧客姓名,性別,年齡 文化程度,地址,電話文化程度,地址,電話 C2 - C2 - 顧客購物

33、信息:顧客號,商品號,售價顧客購物信息:顧客號,商品號,售價 購買日期,購買量購買日期,購買量 主題碼:顧客號主題碼:顧客號 數(shù)據(jù)屬性:數(shù)據(jù)屬性:C1 - C1 - 靜態(tài)或半動態(tài)靜態(tài)或半動態(tài) C2 - C2 - 動態(tài)動態(tài)數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例6.6. 按不同粒度組織數(shù)據(jù)按不同粒度組織數(shù)據(jù)(1 1)商品主題域)商品主題域1 1)商品采購信息)商品采購信息 單筆記錄:存儲與數(shù)據(jù)源中單筆記錄:存儲與數(shù)據(jù)源中 按日記錄按日記錄 P2.1: P2.1: 商品號,(年,月,日),采購總額商品號,(年,月,日),采購總額 按月記錄按月記錄 P2.2: P2.2: 商品號,(年,月),采

34、購總額商品號,(年,月),采購總額 按年記錄按年記錄 P2.3: P2.3: 商品號,年,采購總額商品號,年,采購總額數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例6.6. 按不同粒度組織數(shù)據(jù)按不同粒度組織數(shù)據(jù)(1 1)商品主題域)商品主題域2 2)商品銷售信息)商品銷售信息 單筆記錄:存儲與數(shù)據(jù)源中單筆記錄:存儲與數(shù)據(jù)源中 按日記錄按日記錄 P3.1: P3.1: 商品號,(年,月,日),銷售總額商品號,(年,月,日),銷售總額 按月記錄按月記錄 P3.2: P3.2: 商品號,(年,月),銷售總額商品號,(年,月),銷售總額 按年記錄按年記錄 P3.3: P3.3: 商品號,年,銷售總額商品

35、號,年,銷售總額數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例6.6. 按不同粒度組織數(shù)據(jù)按不同粒度組織數(shù)據(jù)(1 1)商品主題域)商品主題域3 3)商品庫存信息)商品庫存信息 單筆記錄:存儲與數(shù)據(jù)源中單筆記錄:存儲與數(shù)據(jù)源中 按日記錄按日記錄 P4.1: P4.1: 商品號,(年,月,日),庫存總額商品號,(年,月,日),庫存總額 按月記錄按月記錄 P4.2: P4.2: 商品號,(年,月),庫存總額商品號,(年,月),庫存總額 按年記錄按年記錄 P4.3: P4.3: 商品號,年,庫存總額商品號,年,庫存總額數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例6.6. 按不同粒度組織數(shù)據(jù)按不同粒度組織

36、數(shù)據(jù)(2 2)供應商主題域)供應商主題域 單筆記錄:存儲于數(shù)據(jù)源中單筆記錄:存儲于數(shù)據(jù)源中 按日記錄按日記錄 S2.1: S2.1: 供應商號,(年,月,日),供應總額供應商號,(年,月,日),供應總額 按月記錄按月記錄 S2.2: S2.2: 供應商號,(年,月),供應總額供應商號,(年,月),供應總額 按年記錄按年記錄 S2.3: S2.3: 供應商號,年,供應總額供應商號,年,供應總額數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例6.6. 按不同粒度組織數(shù)據(jù)按不同粒度組織數(shù)據(jù)(3 3)顧客主題域)顧客主題域 單筆記錄:存儲與數(shù)據(jù)源中單筆記錄:存儲與數(shù)據(jù)源中 按日記錄按日記錄 C2.1: C

37、2.1: 顧客號,(年,月,日),購買總額顧客號,(年,月,日),購買總額 按月記錄按月記錄 C2.2: C2.2: 顧客號,(年,月),購買總額顧客號,(年,月),購買總額 按年記錄按年記錄 C2.3: C2.3: 顧客號,年,購買總額顧客號,年,購買總額數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例7.7.數(shù)據(jù)倉庫中的數(shù)據(jù)組織概況數(shù)據(jù)倉庫中的數(shù)據(jù)組織概況 共有共有1818個關系表,個關系表,2929個屬性,其數(shù)據(jù)來自于個屬性,其數(shù)據(jù)來自于4 4個個管理系統(tǒng)管理系統(tǒng)(1 1)商品主題域)商品主題域 P P 主題碼:商品號主題碼:商品號 關系表關系表: P1: P1 P2.1, P2.2, P2

38、.3 P2.1, P2.2, P2.3 P3.1, P3.2, P3.3 P3.1, P3.2, P3.3 P4.1, P4.2, P4.3 P4.1, P4.2, P4.3數(shù)據(jù)倉庫的數(shù)據(jù)組織實例數(shù)據(jù)倉庫的數(shù)據(jù)組織實例(2 2)供應商主題域)供應商主題域 S S 主題碼:供應商號主題碼:供應商號 關系表關系表: S1: S1 S2.1, S2.2, S2.3 S2.1, S2.2, S2.3(3 3)顧客主題域)顧客主題域 C C 主題碼:顧客號主題碼:顧客號 關系表關系表: C1: C1 C2.1, C2.2, C2.3 C2.1, C2.2, C2.38.8. 數(shù)據(jù)轉(zhuǎn)換規(guī)則:見參考書,表數(shù)

39、據(jù)轉(zhuǎn)換規(guī)則:見參考書,表3.33.35. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構5.1 5.1 數(shù)據(jù)倉庫的概念結(jié)構數(shù)據(jù)倉庫的概念結(jié)構 從數(shù)據(jù)倉庫的概念結(jié)構看,應該包含:數(shù)據(jù)源數(shù)據(jù)源、數(shù)據(jù)數(shù)據(jù)準備區(qū)準備區(qū)、數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫、數(shù)據(jù)集市數(shù)據(jù)集市/ /知識挖掘庫知識挖掘庫以及各種管理工具和應用工具管理工具和應用工具。 數(shù)據(jù)源業(yè)務系統(tǒng)外部數(shù)據(jù)源數(shù)據(jù)準備區(qū)數(shù)據(jù)倉庫數(shù)據(jù)庫應用工具管理工具數(shù)據(jù)集市/知識挖掘庫應用工具數(shù)據(jù)集市/知識挖掘庫圖5.1 數(shù)據(jù)倉庫的概念結(jié)構結(jié)果展現(xiàn)結(jié)果展現(xiàn)5.2 5.2 數(shù)據(jù)倉庫的虛擬結(jié)構數(shù)據(jù)倉庫的虛擬結(jié)構 虛擬數(shù)據(jù)倉庫利用描述業(yè)務系統(tǒng)中數(shù)據(jù)位置和抽取虛擬數(shù)據(jù)倉庫利用描

40、述業(yè)務系統(tǒng)中數(shù)據(jù)位置和抽取數(shù)據(jù)算法的元數(shù)據(jù),直接從業(yè)務系統(tǒng)中抽取查詢的數(shù)據(jù),數(shù)據(jù)算法的元數(shù)據(jù),直接從業(yè)務系統(tǒng)中抽取查詢的數(shù)據(jù),進行概括、聚合操作后,將最終結(jié)果提供給用戶進行概括、聚合操作后,將最終結(jié)果提供給用戶 用戶圖1.2 虛擬數(shù)據(jù)倉庫結(jié)構數(shù)據(jù)倉庫查詢管理服務器業(yè)務系統(tǒng)數(shù)據(jù)庫5. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構5.3 5.3 數(shù)據(jù)集市數(shù)據(jù)集市 在為企業(yè)建立數(shù)據(jù)倉庫時,開發(fā)人員必須在為企業(yè)建立數(shù)據(jù)倉庫時,開發(fā)人員必須針對所有的用戶、從企業(yè)的全局出發(fā),來對待企針對所有的用戶、從企業(yè)的全局出發(fā),來對待企業(yè)需要的任何決策分析。這樣建立數(shù)據(jù)倉庫就成業(yè)需要的任何決策分析。這樣建立數(shù)據(jù)倉庫就成

41、了一個代價高、時間長、風險大的項目。了一個代價高、時間長、風險大的項目。 因此,更加緊湊集成、擁有完整應用工具、因此,更加緊湊集成、擁有完整應用工具、投資少、規(guī)模小的數(shù)據(jù)集市(投資少、規(guī)模小的數(shù)據(jù)集市(Data MarketData Market)就)就應運而生。應運而生。5. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構 數(shù)據(jù)倉庫查詢管理服務器業(yè)務系統(tǒng)數(shù)據(jù)庫應用1應用2 數(shù)據(jù)集市數(shù)據(jù)集市也稱為面向應用的數(shù)據(jù)倉庫面向應用的數(shù)據(jù)倉庫,是一種是一種更小、更集中的數(shù)據(jù)倉庫更小、更集中的數(shù)據(jù)倉庫,可以為企業(yè)提供分析,可以為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。商業(yè)數(shù)據(jù)的一條廉價途徑。5. 5. 數(shù)據(jù)倉庫的

42、體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)集市是具有特定應用的數(shù)據(jù)倉庫,主要針對數(shù)據(jù)集市是具有特定應用的數(shù)據(jù)倉庫,主要針對某個某個具有戰(zhàn)略意義的應用具有戰(zhàn)略意義的應用或具體或具體部門級的應用部門級的應用。 它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢,或找到進入新市場的整體解決方案。優(yōu)勢,或找到進入新市場的整體解決方案。5. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構 數(shù)據(jù)集市數(shù)據(jù)集市可通過兩種方式構建: (1) 獨立型數(shù)據(jù)集市:直接建立數(shù)據(jù)集市(2)依賴型數(shù)據(jù)集市:通過數(shù)據(jù)倉庫的發(fā)布而形成5. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)集市的特點:數(shù)據(jù)集市的特點:

43、 規(guī)模小規(guī)模小,面向部門,而不是整個企業(yè),面向部門,而不是整個企業(yè) 面向特定的應用面向特定的應用,不是滿足企業(yè)所有的決策,不是滿足企業(yè)所有的決策分析需求;分析需求; 主要由主要由業(yè)務部門定義、設計和實現(xiàn)業(yè)務部門定義、設計和實現(xiàn); 可以由可以由業(yè)務部門管理和維護業(yè)務部門管理和維護; 成本低,開發(fā)時間短,投資風險較小成本低,開發(fā)時間短,投資風險較小 可以升級可以升級到企業(yè)完整的數(shù)據(jù)倉庫。到企業(yè)完整的數(shù)據(jù)倉庫。5.4 5.4 單一數(shù)據(jù)倉庫結(jié)構單一數(shù)據(jù)倉庫結(jié)構 將所有的主題都集中到一個大型數(shù)據(jù)庫中的體系結(jié)構。數(shù)據(jù)源將所有的主題都集中到一個大型數(shù)據(jù)庫中的體系結(jié)構。數(shù)據(jù)源中數(shù)據(jù)被按照同一標準抽取到獨立的數(shù)

44、據(jù)倉庫中,用戶在使用時再中數(shù)據(jù)被按照同一標準抽取到獨立的數(shù)據(jù)倉庫中,用戶在使用時再根據(jù)主題將數(shù)據(jù)倉庫中的數(shù)據(jù)發(fā)布到數(shù)據(jù)集市中根據(jù)主題將數(shù)據(jù)倉庫中的數(shù)據(jù)發(fā)布到數(shù)據(jù)集市中。 數(shù)據(jù)倉庫查詢管理服務器業(yè)務系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)集市1數(shù)據(jù)集市25. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構 站點A 站點B 站點C 站點D全局數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫總部5.5 5.5 分布式數(shù)據(jù)倉庫結(jié)構分布式數(shù)據(jù)倉庫結(jié)構 在企業(yè)各個分公司具有相當大的獨立性時,企業(yè)總部設置一個在企業(yè)各個分公司具有相當大的獨立性時,企業(yè)總部設置一個全局數(shù)據(jù)倉庫,各個分公司設置各自的局部數(shù)據(jù)倉庫。局部數(shù)據(jù)倉全

45、局數(shù)據(jù)倉庫,各個分公司設置各自的局部數(shù)據(jù)倉庫。局部數(shù)據(jù)倉庫主要存儲各自的未經(jīng)轉(zhuǎn)換的細節(jié)數(shù)據(jù),全局數(shù)據(jù)倉庫中主要存儲庫主要存儲各自的未經(jīng)轉(zhuǎn)換的細節(jié)數(shù)據(jù),全局數(shù)據(jù)倉庫中主要存儲經(jīng)過轉(zhuǎn)換的綜合數(shù)據(jù)經(jīng)過轉(zhuǎn)換的綜合數(shù)據(jù)5. 5. 數(shù)據(jù)倉庫的體系結(jié)構數(shù)據(jù)倉庫的體系結(jié)構6. 6. 數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構 數(shù)據(jù)倉庫的基本功能層數(shù)據(jù)倉庫的基本功能層包含:數(shù)據(jù)抽取,數(shù)據(jù)篩選、清數(shù)據(jù)抽取,數(shù)據(jù)篩選、清洗,清洗后的數(shù)據(jù)加載,設立數(shù)據(jù)集市,完成數(shù)據(jù)倉庫洗,清洗后的數(shù)據(jù)加載,設立數(shù)據(jù)集市,完成數(shù)據(jù)倉庫的查詢、決策分析和知識的挖掘等操作的查詢、決策分析和知識的挖掘等操作。 數(shù)據(jù)倉庫的管理層數(shù)據(jù)倉庫的管理層:分

46、為數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負責對數(shù)據(jù)倉庫中的數(shù)據(jù)抽取、清理、加載、更新與刷新等操作進行管理。 環(huán)境支持層環(huán)境支持層:包含數(shù)據(jù)傳輸和數(shù)據(jù)倉庫基礎兩部分。數(shù)據(jù)倉庫基本功能層數(shù)據(jù)倉庫管理層數(shù)據(jù)倉庫環(huán)境支持層6.1 6.1 數(shù)據(jù)倉庫基本功能層數(shù)據(jù)倉庫基本功能層數(shù)據(jù)源數(shù)據(jù)準備區(qū)數(shù)據(jù)倉庫結(jié)構 數(shù)據(jù)集市/知識挖掘庫存取與使用6. 6. 數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)源數(shù)據(jù)源:主要包含業(yè)務數(shù)據(jù)、歷史數(shù)據(jù)、辦公數(shù)據(jù)、Web數(shù)據(jù)、外部數(shù)據(jù)以及數(shù)據(jù)源元數(shù)據(jù)。數(shù)據(jù)準備區(qū)數(shù)據(jù)準備區(qū):主要完成數(shù)據(jù)標準化處理、數(shù)據(jù)的過濾與數(shù)據(jù)標準化處理、數(shù)據(jù)的過濾與匹配、數(shù)據(jù)的凈化處理、標明數(shù)據(jù)的時間戳、匹配、數(shù)據(jù)的凈化

47、處理、標明數(shù)據(jù)的時間戳、確認數(shù)據(jù)質(zhì)量與元數(shù)據(jù)抽取和創(chuàng)建確認數(shù)據(jù)質(zhì)量與元數(shù)據(jù)抽取和創(chuàng)建等操作。6. 6. 數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫數(shù)據(jù)倉庫:其功能結(jié)構部分由數(shù)據(jù)重整數(shù)據(jù)重整、數(shù)據(jù)倉庫創(chuàng)建數(shù)據(jù)倉庫創(chuàng)建 以及元數(shù)據(jù)管理等元數(shù)據(jù)管理等組成。數(shù)據(jù)集市數(shù)據(jù)集市/ /知識挖掘庫知識挖掘庫:其功能結(jié)構與數(shù)據(jù)倉庫的功能 結(jié)構極為相似。數(shù)據(jù)倉庫的數(shù)據(jù)存取與使用數(shù)據(jù)倉庫的數(shù)據(jù)存取與使用:主要為數(shù)據(jù)倉庫的最終用戶提供決策分析和挖掘知識功能,包含數(shù)據(jù)倉庫數(shù)據(jù)倉庫的存取與檢索的存取與檢索、元數(shù)據(jù)管理元數(shù)據(jù)管理以及數(shù)據(jù)倉庫分析與數(shù)據(jù)倉庫分析與報告報告。6.2 6.2 數(shù)據(jù)倉庫的管理層數(shù)據(jù)倉庫的管理層 數(shù)

48、據(jù)抽取、新數(shù)據(jù)需求與查詢管理數(shù)據(jù)抽取、新數(shù)據(jù)需求與查詢管理 主要負責完成從數(shù)據(jù)源中抽取數(shù)據(jù)的管理。數(shù)據(jù)抽取,新數(shù)據(jù)需求與查詢管理數(shù)據(jù)加載、存儲、刷新和更新系統(tǒng)安全性與用戶授權管理系統(tǒng)數(shù)據(jù)歸檔、恢復及凈化系統(tǒng)6. 6. 數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構6.2.1 6.2.1 數(shù)據(jù)倉庫的數(shù)據(jù)管理層數(shù)據(jù)倉庫的數(shù)據(jù)管理層 數(shù)據(jù)加載、存儲、刷新和更新數(shù)據(jù)加載、存儲、刷新和更新 負責對從數(shù)據(jù)源中所抽取的數(shù)據(jù)在完成篩選、凈化處理以后,將這些數(shù)據(jù)加載、存儲加載、存儲到數(shù)據(jù)倉庫中;捕獲數(shù)據(jù)源中的數(shù)據(jù)變化,用最新數(shù)據(jù)刷新刷新數(shù)據(jù)倉庫;根據(jù)用戶的需求和數(shù)據(jù)倉庫管理的要求,對數(shù)據(jù)倉庫進行更新更新等工作。6. 6. 數(shù)據(jù)倉庫的層次結(jié)構數(shù)據(jù)倉庫的層次結(jié)構 安全性與用戶授權管理安全性與用戶授

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論