版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第 2 章 數(shù)據(jù)倉庫第2章 數(shù)據(jù)據(jù)倉庫主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計第2章 數(shù)據(jù)倉庫主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念隨著數(shù)據(jù)據(jù)庫技術(shù)術(shù)的應(yīng)用用普及和和發(fā)展,人們不不再僅僅僅滿足于于一般的業(yè)業(yè)務(wù)處理理,而對對系統(tǒng)提提出了更更高的要要求:提提供決策策支持(DSS、OLAP)應(yīng)用背景景及需求求需求一種面向向分析的的環(huán)境;一種把相相關(guān)的各各種數(shù)據(jù)據(jù)轉(zhuǎn)換成成有商業(yè)業(yè)價值的的信息
2、的的技術(shù)。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念從數(shù)據(jù)庫庫到數(shù)據(jù)據(jù)倉庫數(shù)據(jù)庫系系統(tǒng)能夠夠很好的的用于事事務(wù)處理理,但它它對分析析處理的的支持一直不不能令人人滿意。特別是是當以業(yè)業(yè)務(wù)處理理為主的的聯(lián)機事事務(wù)處理理(OLTP) 應(yīng)用用和以分分析處理理為主的的DSS應(yīng)用共存存于一個個數(shù)據(jù)庫庫系統(tǒng)時,就就會產(chǎn)生生許多問問題。例如,事事務(wù)處理理應(yīng)用一一般需要要的是當當前數(shù)據(jù)據(jù),主要要考慮較較短的響應(yīng)時時間;而而分析處處理應(yīng)用用需要是是歷史的的、綜合合的、集集成的數(shù)數(shù)據(jù),它的的分析處處理過程程可能持持續(xù)幾個個小時,從而消消耗大量量的系統(tǒng)統(tǒng)資源。人們逐漸漸認識到到直接用用事務(wù)處處理環(huán)境境來支持持DSS是行不通
3、通的。要提高分分析和決決策的有有效性,分析型型處理及及其數(shù)據(jù)據(jù)必須與與操作型型處理及其其數(shù)據(jù)分分離。必必須把分分析型數(shù)數(shù)據(jù)從事事務(wù)處理理環(huán)境中中提取出出來,按照照DSS處理的需需要進行行重新組組織,建建立單獨獨的分析析處理環(huán)環(huán)境。數(shù)據(jù)倉庫庫技術(shù)正正是為了了構(gòu)建這這種新的的分析處處理環(huán)境境而出現(xiàn)現(xiàn)的一種數(shù)據(jù)據(jù)存儲和和組織技技術(shù)。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念主要通過過以下五五點區(qū)分分開來。用戶和系系統(tǒng)的面面向性O(shè)LTP是面向顧顧客的,用于事務(wù)務(wù)和查詢詢處理; OLAP是面向市市場的,用于數(shù)據(jù)據(jù)分析數(shù)據(jù)內(nèi)容容OLTP系統(tǒng)管理理當前數(shù)數(shù)據(jù); OLAP系統(tǒng)管理理大量歷歷史數(shù)據(jù)據(jù),提供匯總總和聚集
4、集機制.數(shù)據(jù)庫設(shè)設(shè)計OLTP采用實體體-聯(lián)系ER模型和面面向應(yīng)用用的數(shù)據(jù)據(jù)庫設(shè)計計;OLAP采用星型型或雪花花模型和和面向主主題的數(shù)數(shù)據(jù)庫設(shè)設(shè)計.視圖OLTP主要關(guān)注注一個企企業(yè)或部部門內(nèi)部部的當前前數(shù)據(jù),不涉及歷歷史數(shù)據(jù)據(jù)或不同同組織的的數(shù)據(jù); OLAP則相反.訪問模式式OLTP系統(tǒng)的訪訪問主要要由短的的原子事事務(wù)組成成.這種系統(tǒng)統(tǒng)需要并并行和恢恢復(fù)機制制;OLAP系統(tǒng)的訪訪問大部部分是只只讀操作作OLTP(on-line transaction processing)與OLAP(On-Line AnalyticalProcessing)區(qū)別第2章 數(shù)據(jù)倉庫操作型數(shù)據(jù)分析型數(shù)據(jù)細節(jié)的綜合的,
5、或提煉的在存取瞬間是準確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事物驅(qū)動分析驅(qū)動面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫與決策策支持系系統(tǒng)用戶在進進行決策策制定時時需要得得到企業(yè)業(yè)各方面面的信息息,因此此用戶一般首首先根據(jù)據(jù)各個業(yè)業(yè)務(wù)部門門數(shù)據(jù)庫庫中的數(shù)數(shù)據(jù),創(chuàng)創(chuàng)建數(shù)據(jù)據(jù)倉庫,存儲各種種歷史信信息和匯匯總信息息。對數(shù)據(jù)倉倉庫的進進一步應(yīng)應(yīng)用由功功能強大大的分析析工具來來實現(xiàn)?,F(xiàn)在主要有有三類
6、分分析工具具可用于于決策支支持。第一類能能夠支持持涉及分分組和聚聚集查詢詢,并能能夠?qū)Ω鞲鞣N復(fù)雜雜的布爾條件件、統(tǒng)計計函數(shù)和和時間序序列分析析提供支支持的系系統(tǒng)。主主要由上上述查詢組組成的應(yīng)應(yīng)用稱為為聯(lián)機分分析處理理,即OLAP。在支持持OLAP查詢的系統(tǒng)統(tǒng)中,數(shù)數(shù)據(jù)最好好看成是是一個多多維數(shù)組組第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫與決策策支持系系統(tǒng)第二類系系統(tǒng)仍為為支持傳傳統(tǒng)SQL查詢的DBMS,但為了了有效地地執(zhí)行OLAP查詢而進進行了特特殊的設(shè)設(shè)計。這這些系統(tǒng)統(tǒng)可以看看作是為為決策支持應(yīng)應(yīng)用進行行了優(yōu)化化的關(guān)系系數(shù)據(jù)庫庫系統(tǒng)。許多關(guān)關(guān)系數(shù)據(jù)據(jù)庫廠商商對他們的的產(chǎn)品進進行了擴擴展
7、,并并且隨著著時間的的推移,專門的的OLAP系統(tǒng)和支支持決策策支持的的關(guān)系數(shù)數(shù)據(jù)庫系系統(tǒng)之間間的差別別將逐漸漸取消第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念第三類的的分析工工具可用用于在大大量的數(shù)數(shù)據(jù)集合合中,找找到有意意義的數(shù)據(jù)趨趨勢或者者模式,而不是是上面提提到的復(fù)復(fù)雜數(shù)據(jù)據(jù)查詢。在數(shù)據(jù)據(jù)分析過程程中,盡盡管分析析者能夠夠判定得得到的數(shù)數(shù)據(jù)模式式是否有有意義,但是生成成查詢來來得到有有意義的的模式還還是很困困難的。例如,分析者者查看信用用卡使用用記錄,希望從從中找出出不正常常的信用用卡使用用行為,以表明是是被濫用用的丟失失的信用用卡;商商人希望望通過查查看客戶戶記錄找找出潛在的的客戶來來提高收收
8、益。許許多應(yīng)用用涉及的的數(shù)據(jù)量量很大,很難用用人工分析析或者傳傳統(tǒng)的統(tǒng)統(tǒng)計分析析方法進進行分析析,數(shù)據(jù)據(jù)挖掘的的目的就就是對這種種大量數(shù)數(shù)據(jù)的分分析提供供支持。數(shù)據(jù)倉庫庫與決策策支持系系統(tǒng)第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征數(shù)據(jù)倉庫庫理論的的創(chuàng)始人人W.H.Inmon在其Buildingthe DataWarehouse一書中,給出了了數(shù)據(jù)倉倉庫的四四個基本特征征:面向主題題,數(shù)據(jù)是集集成的,數(shù)據(jù)是不不可更新新的,數(shù)據(jù)是隨隨時間不不斷變化化的第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征面向主題題主題是在在較高層層次上對對數(shù)據(jù)抽抽象;面向主題題的數(shù)據(jù)據(jù)組織分分
9、為兩步步驟:-抽取主題題;-確定每個個主題所所包含的的數(shù)據(jù)內(nèi)內(nèi)容每個主題題在數(shù)據(jù)據(jù)倉庫中中都是由由一組關(guān)關(guān)系表實實現(xiàn)的數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征面向主題題第2章 數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)庫面向應(yīng)用用面向主題題汽車人壽健康意外傷害害主題-顧客主題-保單主題-索賠主題-保費第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征集成的數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)是從原原有的分分散數(shù)據(jù)據(jù)庫數(shù)據(jù)據(jù)中抽取取來的需要消除除數(shù)據(jù)表表述的不不一致性性(數(shù)據(jù)據(jù)的清洗洗)數(shù)據(jù)的綜綜合第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征集成的數(shù)據(jù)庫環(huán)環(huán)境數(shù)據(jù)倉庫庫環(huán)境應(yīng)用A1,0應(yīng)用B男,女應(yīng)用CY,N集成
10、映射編碼多維數(shù)據(jù)據(jù)庫男,女應(yīng)用ACM應(yīng)用BInches應(yīng)用CCM映射轉(zhuǎn)換多維數(shù)據(jù)據(jù)庫CM第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫的主要要數(shù)據(jù)操操作是查查詢、分分析;不進行一一般意義義上的數(shù)數(shù)據(jù)更新新(過期期數(shù)據(jù)可可能被刪刪除)數(shù)據(jù)倉庫庫強化查查詢、淡淡化并發(fā)發(fā)控制和和完整性性保護等等技術(shù)數(shù)據(jù)倉庫庫定義及及特征不可更新新的第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征不可更新新的Insert、Update、DeleteSelect數(shù)據(jù)庫環(huán)環(huán)境數(shù)據(jù)的逐逐個記錄錄方式處處理數(shù)據(jù)倉庫庫環(huán)境數(shù)據(jù)的批批量載加加載,存存取ETL訪問第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念不斷增加加新的數(shù)數(shù)據(jù)內(nèi)
11、容容;不斷刪除除舊的數(shù)數(shù)據(jù)內(nèi)容容;定時綜合合;數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)表的鍵鍵碼都包包含時間間項,以以標明數(shù)數(shù)據(jù)的歷歷史時期期數(shù)據(jù)倉庫庫定義及及特征隨時間變變化的第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫定義及及特征隨時間變變化的數(shù)據(jù)庫環(huán)環(huán)境數(shù)據(jù)倉庫庫環(huán)境時間期限限:當前前到30-60天記錄更新新包含或者者不包含含時間概概念時間期限限:年數(shù)據(jù)的復(fù)復(fù)雜快照照包含時間間概念第2章 數(shù)據(jù)倉庫主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)用戶可視化工工具集多維分析析工具數(shù)據(jù)挖掘掘工具多維
12、數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)來源源數(shù)據(jù)倉庫庫層數(shù)據(jù)倉庫庫工具層數(shù)據(jù)倉庫庫層次結(jié)結(jié)構(gòu)第2章 數(shù)據(jù)倉庫RDBMS數(shù)據(jù)文件件其他綜合數(shù)據(jù)據(jù)當前數(shù)據(jù)據(jù)歷史數(shù)據(jù)據(jù)元數(shù)據(jù)抽取、轉(zhuǎn)轉(zhuǎn)換、裝裝載數(shù)據(jù)倉庫庫OLAP工具DM工具查詢工具具分析工具具數(shù)據(jù)源數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)實例例-稅務(wù)數(shù)據(jù)據(jù)倉庫增量抽取取完全抽取取計算算映射射清洗洗業(yè)務(wù)要求求數(shù)據(jù)要求求抽取取轉(zhuǎn)換換加載載數(shù)據(jù)倉庫庫數(shù)據(jù)加載載異常情況況處理及及回退機機制作業(yè)控制制管理第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)實例例-稅務(wù)數(shù)據(jù)據(jù)倉庫-ETL第2章 數(shù)據(jù)倉庫OLT
13、P系統(tǒng)RDBMSSybaseORACLESAP/ERP5-10 年過去詳細數(shù)據(jù)據(jù)當前詳細數(shù)據(jù)據(jù)輕度匯總數(shù)據(jù)據(jù)高度匯總數(shù)據(jù)據(jù)數(shù)據(jù)集市市分析型CRM業(yè)務(wù)指標標分析數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫庫/決策分析析系統(tǒng)EXCEL數(shù)據(jù)倉庫庫數(shù)據(jù)的的組織數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)第2章 數(shù)據(jù)倉庫數(shù)據(jù)由操操作型環(huán)環(huán)境(綜綜合)導(dǎo)導(dǎo)入數(shù)據(jù)據(jù)倉庫數(shù)據(jù)具有有不同的的細節(jié)早期細節(jié)節(jié)級(過過期數(shù)據(jù)據(jù))當前細節(jié)節(jié)級輕度綜合合數(shù)據(jù)級級(數(shù)據(jù)據(jù)集市)高度綜合合數(shù)據(jù)級級數(shù)據(jù)倉庫庫數(shù)據(jù)的的組織數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)采購子系系統(tǒng):訂單(訂訂單號,供應(yīng)商商號,商商品號,類別,單價。數(shù)量,總金額額,日期期,)供應(yīng)商(供應(yīng)
14、商商號,供供應(yīng)商名名,地址址,電話話,)銷售子系系統(tǒng):客戶(客客戶號,姓名,地址,電話,)銷售(客客戶號,商品號號,數(shù)量量,單價價,日期期,)庫存子系系統(tǒng):進庫單(編號,商品號號,數(shù)量量,單價價,日期期,)出庫單(編號,商品號號,數(shù)量量,單價價,日期期,)庫存(商商品號, 庫房房號,類類別,單單價,庫庫存數(shù)量量,總金額,日期,)數(shù)據(jù)庫系系統(tǒng)模式式(操作作型數(shù)據(jù)據(jù))第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)商品固有有信息:商品號號,類別別,單價價,顏色色,商品采購購信息:商品號號,類別別,供應(yīng)應(yīng)商號,供應(yīng)日日期,單單價,數(shù)數(shù)量,商品銷售售信息:商品號號,客戶戶號,數(shù)數(shù)量,單單價,銷銷售日期期,商品庫存
15、存信息:商品號號,庫庫房號,庫存數(shù)數(shù)量,日日期,)采購子系系統(tǒng)銷售子系系統(tǒng)庫存子系系統(tǒng)面向主題題的數(shù)據(jù)據(jù)倉庫數(shù)數(shù)據(jù)模式式第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)1996-2002年銷售明細細表20032009年銷售明細細表20032009年每月銷售售表20032009年每季度銷銷售表數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)分為為四個級級別:早早期細節(jié)節(jié)級,當當前細節(jié)節(jié)級,輕輕度綜合合級,高高度綜合合級。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)DW中還有一一類重要要的數(shù)據(jù)據(jù):元數(shù)數(shù)據(jù)(metedata)。元數(shù)據(jù)是是“關(guān)于于數(shù)據(jù)的的數(shù)據(jù)”(RDBMS中的數(shù)據(jù)據(jù)字典就就是一種種元數(shù)據(jù)據(jù))。數(shù)據(jù)倉庫庫中
16、的元元數(shù)據(jù)描描述了數(shù)數(shù)據(jù)的結(jié)結(jié)構(gòu)、內(nèi)內(nèi)容、索索引、碼碼、數(shù)據(jù)據(jù)轉(zhuǎn)換規(guī)規(guī)則、粒粒度定義義等關(guān)于元數(shù)數(shù)據(jù)在數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)中,元元數(shù)據(jù)可可以幫助助數(shù)據(jù)倉倉庫管理理員和數(shù)據(jù)倉庫庫的開發(fā)發(fā)人員非非常方便便地找到到他們所所關(guān)心的的數(shù)據(jù)。在數(shù)據(jù)倉庫庫系統(tǒng)中中,元數(shù)數(shù)據(jù)機制制主要支支持以下下五類系系統(tǒng)治理理功能:1描述哪些些數(shù)據(jù)在在數(shù)據(jù)倉倉庫中;2定義要進進入數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)和從數(shù)數(shù)據(jù)倉庫庫中產(chǎn)生生的數(shù)據(jù)據(jù);3記錄根據(jù)據(jù)業(yè)務(wù)事事件發(fā)生生而隨之之進行的的數(shù)據(jù)抽抽取工作作時間安安排;4記錄并檢檢測系統(tǒng)統(tǒng)數(shù)據(jù)一一致性的的要求和和執(zhí)行情情況;5衡量數(shù)據(jù)據(jù)質(zhì)量。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)元數(shù)據(jù)作作用及
17、功功能第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)粒度是指數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)單單位中保保存數(shù)據(jù)據(jù)的細化化或綜合合程度的的級別粒度級越越小,細細節(jié)程度度越高,綜合程程度越低低,回答答查詢的的種類越越多粒度影響響數(shù)據(jù)倉倉庫中數(shù)數(shù)據(jù)量的的大小粒度問題題是設(shè)計計數(shù)據(jù)倉倉庫的一一個重要要方面雙重粒度度在數(shù)據(jù)倉倉庫的細細節(jié)級上上創(chuàng)建兩兩種粒度度短期儲存存的低粒粒度(真真實檔案案),滿滿足細節(jié)節(jié)查詢具有綜合合的高粒粒度(輕輕度綜合合),做做分析數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)第2章 數(shù)據(jù)倉庫分割是指把數(shù)數(shù)據(jù)分散散到各自自的物理理單元中中去,以以便能分分別獨立立處理,提高數(shù)數(shù)據(jù)處理理效率。是
18、粒度度之后的的第二個個主要設(shè)設(shè)計問題題兩個層次次的分割割系統(tǒng)層:DBMS,一種定定義應(yīng)用層:開發(fā)者者,多種種定義多種分割割的標準準日期:最最常用的的地理位置置組織單位位.第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持:數(shù)據(jù)倉庫庫內(nèi)容的的描述;定義數(shù)據(jù)據(jù)抽取和和轉(zhuǎn)換;基于商業(yè)業(yè)事件的的抽取調(diào)調(diào)度;描述數(shù)據(jù)據(jù)同步需需求;衡量數(shù)據(jù)據(jù)質(zhì)量指指標元數(shù)據(jù)對對數(shù)據(jù)
19、倉倉庫功能能的支持持:(一)數(shù)據(jù)倉庫庫內(nèi)容的的描述描述數(shù)據(jù)據(jù)倉庫中中的各種種復(fù)雜關(guān)關(guān)系;(1)I/O對象:支支持數(shù)據(jù)據(jù)倉庫I/O操作的各各種對象象。例如如,裝入到數(shù)數(shù)據(jù)倉庫庫中的源源系統(tǒng)文文件及可可被用戶戶訪問表表的數(shù)據(jù)據(jù)均為I/O對象。元元數(shù)據(jù)要要描述該該I/O對象的定定義、類類型、狀狀態(tài)、存存檔(刷新)周期以及及引發(fā)初初始存檔檔的事件件。(2)關(guān)系:兩兩個I/O對象之間間的關(guān)聯(lián)聯(lián)。這種種關(guān)聯(lián)分分為一對對一、一一對多和和多對多多三種類類型。在在實際工工作中,一般只只考慮兩兩種類型型。即一一對一和和一對多多的關(guān)系系,多對對多可以以用多個個一對多多來表示示。(3)關(guān)系成員員 描述述每個關(guān)關(guān)系中I
20、/O對象的具具體角色色(在一對多多中是父父親還是是兒子)、關(guān)系度度(是一對一一還是一一對多)及約束條條件(是必須滿滿足還是是可選關(guān)關(guān)系)。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理(4)關(guān)系關(guān)鍵鍵字描描述兩個個I/O對象是如如何建立立關(guān)聯(lián)的的。每個個關(guān)系都都是通過過I/O對象的關(guān)鍵字字來建立立的,元數(shù)據(jù)要要指明建建立每個個關(guān)系相相應(yīng)對象象的關(guān)鍵鍵字。(5)域分配將將實際際數(shù)據(jù)元元素與I/O對象的某某個域相相關(guān)聯(lián)。除了常常規(guī)的域域特征外外,還要說明每每個域的的所屬源源系統(tǒng)及及訪問日日期。這這兩個特特征對數(shù)數(shù)據(jù)倉庫庫都是非非常重要要的(6)數(shù)據(jù)元素素 描述述數(shù)據(jù)倉倉庫中基基本單元元(字段級)的特征。這
21、些特特征包括括定義、類型、長度度、值域域標識等等。數(shù)據(jù)據(jù)元素要要能支持持多媒體體的大二二進制對對象。元數(shù)據(jù)描描述了數(shù)數(shù)據(jù)倉庫庫中有什什么數(shù)據(jù)據(jù)及數(shù)據(jù)據(jù)間的關(guān)關(guān)系,它們是用用戶使用用和系統(tǒng)管理數(shù)數(shù)據(jù)倉庫庫的基礎(chǔ)礎(chǔ)?;谟谶@種組組織的元元數(shù)據(jù)可可以開發(fā)發(fā)出各種種通用的的用戶接接口,用來支持持用戶從從數(shù)據(jù)倉倉庫中獲獲取數(shù)據(jù)據(jù)。用戶戶可以提提出所需需的表,系統(tǒng)從從中選擇表并得得到表之之間的關(guān)關(guān)系,重重復(fù)這個個過程直直到用戶戶得到他他們希望望的數(shù)據(jù)據(jù)。不僅僅如此,系系統(tǒng)還有有對某一一特殊表表(I/O對象)及域信息息的描述述功能。用這種種形式組組織的元數(shù)據(jù)據(jù)有利于于數(shù)據(jù)倉倉庫的擴擴充,因因此不必必修改已已
22、存在的的軟件就就可在數(shù)數(shù)據(jù)倉庫庫中增加新新表。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持(一)數(shù)數(shù)據(jù)倉庫庫內(nèi)容的的描述:描述數(shù)數(shù)據(jù)倉庫庫中的各各種復(fù)雜雜關(guān)系(二)定定義數(shù)據(jù)據(jù)抽取和和轉(zhuǎn)換第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持從源系統(tǒng)統(tǒng)數(shù)據(jù)到到數(shù)據(jù)倉倉庫中目目標數(shù)據(jù)據(jù)的轉(zhuǎn)移移是一項項復(fù)雜工工作,其工作量量占整個個數(shù)據(jù)倉庫庫開發(fā)的的80%。這里主主要涉及及到以下下兩個問問題:(1)抽取工作作間的復(fù)復(fù)雜關(guān)系系,一個抽取取要經(jīng)過過許多步步驟獲?。簭膹耐獠炕蚧騼?nèi)部源源數(shù)據(jù)系系統(tǒng)中獲獲取對決決策支持持系統(tǒng)用用戶有用用的數(shù)據(jù)據(jù)。過濾:過過濾掉不
23、不需要的的內(nèi)容(如上次抽抽取后一一直沒有有改變的的數(shù)據(jù))。驗證:從從DSS用戶的角角度驗證證數(shù)據(jù)的的質(zhì)量。融合:將將本次抽抽取的數(shù)數(shù)據(jù)與數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)進行行融合;綜合:對對數(shù)據(jù)進進行綜合合,生成概要要級數(shù)據(jù)據(jù)。裝載:把把新數(shù)據(jù)據(jù)裝入到到數(shù)據(jù)倉倉庫中。存檔:把把新裝入入的數(shù)據(jù)據(jù)單獨存存為一個個文件,以便減少少更新操操作的數(shù)數(shù)據(jù)量。(2)源數(shù)據(jù)與與目標數(shù)數(shù)據(jù)之間間的映射射是一種種復(fù)雜的的多對多多關(guān)系。元數(shù)據(jù)據(jù)要能夠夠描述這這些限制制所帶來的的一系列列問題。這組元元數(shù)據(jù)要要定義的的內(nèi)容有有以下幾幾點:抽取工作作:描述述每個抽抽取工作作,并為為其標識識源系統(tǒng)統(tǒng)。每一一抽取都都應(yīng)有一一個刷新新類
24、型代代碼,一般有四四種刷新新類型,包括全全倉庫替替換、全全倉庫附附加、更更新替換換、更新新追加。另外對對每一抽取都都要明確確其刷新新周期(兩次抽取取之間的的間隔)和初始觸觸發(fā)事件件(系統(tǒng)環(huán)境境中激活活第一次抽取的的事件)。抽取工作作步:定定義抽取取工作中中的步驟驟包括說說明每一一步的類類型(如過濾、驗證等等)及其作業(yè)業(yè)控制語言(Job ControlLanguge,TCL),JCL用來初始始化抽取取工作步步。抽取表映映射:為為每個抽抽取工作作步建立立輸入文文件/表和輸出出文件/表之間的的關(guān)聯(lián)。它應(yīng)提提供兩種類型的的屬性以以滿足抽抽取工作作的特殊殊處理要要求。一一類是過過程的輸輸入數(shù)據(jù)據(jù)集合;另
25、一類是是數(shù)據(jù)處理過過程標識識及其參參數(shù)。這這些屬性性用來自自動生成成程序代代碼以完完成相應(yīng)應(yīng)抽取工工作步。抽取域映映射:為為每個抽抽取工作作步建立立輸入表表(文件)的域與輸輸出表(文件)的域之間間的關(guān)聯(lián)聯(lián)。其定義的的內(nèi)容與與抽取表表類似,但是處理理的粒度度是表中中的每個個域。(二)定定義數(shù)據(jù)據(jù)抽取和和轉(zhuǎn)換第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持記錄篩選選規(guī)則:提供一一種過濾濾機制,以在抽取取工作的的每一步步驟中進進行記錄錄的篩選選。如下是一一個規(guī)則則的例子子:IFRecord.Last_Update_Date1996_11_01 ORRecord.Create_
26、Date 1996_11_01THEN Reserve(保留)ELSEDelete(刪除)這組元數(shù)數(shù)據(jù)可以以用來生生成源代代碼以完完成數(shù)據(jù)據(jù)的轉(zhuǎn)換換工作,即完成由由操作型型數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換生成以以特殊形形式存放放的、面面向主題題的數(shù)據(jù)據(jù)倉庫數(shù)數(shù)據(jù)。元元數(shù)據(jù)中中的抽取取表映射射和抽取域域映射定定義了進進行實際際抽取轉(zhuǎn)轉(zhuǎn)換工作作的過程程。數(shù)據(jù)據(jù)倉庫管管理核心心是:利用該組元數(shù)數(shù)據(jù)所定定義的抽抽取過程程生成某某種語言言的源代代碼,然后編譯譯成可執(zhí)執(zhí)行的程程序以完成數(shù)數(shù)據(jù)的抽抽取工作作。其核核心也可可直接以以解釋的的方式從從元數(shù)據(jù)據(jù)存儲中中讀出每每個抽取步步的處理理過程,從而進進行數(shù)據(jù)據(jù)轉(zhuǎn)換。(二)定定義數(shù)
27、據(jù)據(jù)抽取和和轉(zhuǎn)換第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持(三)基基于商業(yè)業(yè)事件的的抽取調(diào)調(diào)度第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持抽取調(diào)度度(ExtractSchedule)是指數(shù)據(jù)據(jù)抽取的的時間安安排,即什么時時間進行行從源數(shù)數(shù)據(jù)到數(shù)據(jù)倉庫庫的抽取取工作。抽取調(diào)調(diào)度的合合理與否否對整個個數(shù)據(jù)倉倉庫的有有效正常常運行影影響很大。元元數(shù)據(jù)必必須對數(shù)數(shù)據(jù)的抽抽取安排排加以說說明?;谏虡I(yè)業(yè)事件抽抽取調(diào)度度的元數(shù)數(shù)據(jù)要定義的的內(nèi)容有有以下幾幾點:事件:指指在公司司中能夠夠引發(fā)對對數(shù)據(jù)進進行處理理的各種種情況。其中有有些是周周期性的的
28、,有些是預(yù)預(yù)先安排排的,而而有些則則是突發(fā)發(fā)事件。事件依賴賴:事件件之間的的關(guān)系及及描述這這些關(guān)系系的時間間規(guī)律性性和特征征。一般般要指明明主事件和從從事件以以及兩者者的時間間間隔和和最大容容忍時間間。事件日志志:刻畫畫了事件件發(fā)生的的時間安安排,即指明事事件的調(diào)調(diào)度周期期。系統(tǒng)統(tǒng)應(yīng)允許許用戶定義事件件及相應(yīng)應(yīng)的調(diào)度度。抽取調(diào)度度:對一一個事件件響應(yīng)后后必須完完成的對對數(shù)據(jù)抽抽取工作作的安排排。抽取取調(diào)度把把事件和相應(yīng)的的抽取工工作聯(lián)系系起來。抽取日志志:對每每次抽取取工作進進行記錄錄,并記下相相關(guān)的引引發(fā)抽取取事件及及抽取調(diào)調(diào)度。抽抽取日志可以以用來維維護系統(tǒng)統(tǒng)工作,如輸入入和輸出出工作。時
29、間戳日日志:記記錄下各各表被抽抽取的時時間及表表中被更更新的數(shù)數(shù)據(jù)。時時間戳日日志可以以用來與系統(tǒng)數(shù)數(shù)據(jù)進行行比較以以引發(fā)抽抽取工作作。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持(四)描述數(shù)據(jù)據(jù)同步需需求在一個公公司各部部門間的的數(shù)據(jù)協(xié)協(xié)調(diào)中,時間是一一個關(guān)鍵鍵因素。上述的的抽取調(diào)調(diào)度是針對熟熟悉公司司各部門門之間數(shù)數(shù)據(jù)同步步關(guān)系的的用戶而而言的。對不熟熟悉的用用戶,則則需要進一一步利用用元數(shù)據(jù)據(jù)來幫助助用戶理理解數(shù)據(jù)據(jù)及數(shù)據(jù)據(jù)處理的的同步關(guān)關(guān)系,以以免誤用用數(shù)據(jù)。尤尤其當數(shù)數(shù)據(jù)倉庫庫中涉及及到復(fù)雜雜關(guān)系的的數(shù)據(jù)而而且抽取取調(diào)度受受多個事事件制約約時,這種種附加數(shù)
30、數(shù)據(jù)就更更不可缺缺少。時時間的元元數(shù)據(jù)要要定義的的內(nèi)容主主要有:同步視圖圖:為支支持不同同級別用用戶而標標識同步步數(shù)據(jù)的的時間規(guī)規(guī)則。同同步視圖圖可定義為一一個特殊殊功能視視圖的名名稱和描描述以及及該視圖圖中的一一系列表表,每個個表與有有關(guān)的事件件相關(guān)聯(lián)聯(lián)。事件件及抽取取調(diào)度如如前所述述。同步實例例:當實實際事件件發(fā)生時時,記錄下不不同系統(tǒng)統(tǒng)同步數(shù)數(shù)據(jù)集合合的更新新軌跡。當一個同同步視圖圖中的數(shù)數(shù)據(jù)都已已滿足時時,元數(shù)數(shù)據(jù)管理理機制就就提醒用用戶可用用的數(shù)據(jù)據(jù)已經(jīng)準備備好,系系統(tǒng)在抽抽取調(diào)度度后生成成同步實實例。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持(五)衡量
31、數(shù)據(jù)據(jù)質(zhì)量數(shù)據(jù)倉庫庫把數(shù)據(jù)據(jù)從源事事務(wù)系統(tǒng)統(tǒng)移到數(shù)數(shù)據(jù)倉庫庫中的目目的是用用于決策策支持。這就對數(shù)據(jù)據(jù)質(zhì)量提提出了新新的要求求。若忽忽視這個個問題,則意味著著在壞數(shù)據(jù)上做做決策,其風(fēng)險可可想而知知。保證證質(zhì)量的的第一步步是建立立支持商商業(yè)目標標的數(shù)據(jù)據(jù)質(zhì)量期期望標準準,以及達不不到該標標準所需需冒風(fēng)險險的大小小。下面面是一組組衡量數(shù)數(shù)據(jù)質(zhì)量量的公共共參數(shù),包括準確性性、完整整性、一一致性、相關(guān)性性、時間間性、唯唯一性、有效性性。在評評價體系系確定以后后,問題題往往變變?yōu)槭欠穹癜延匈|(zhì)質(zhì)量問題題的數(shù)據(jù)據(jù)放進數(shù)數(shù)據(jù)倉庫庫中。這這一般由由應(yīng)用本身身決定。對甲用用戶有用用的數(shù)據(jù)據(jù)未必對對乙用戶戶也有用用
32、。因此此元數(shù)據(jù)據(jù)必須提提供一個機機制,即針對特特定應(yīng)用用并根據(jù)據(jù)用戶確確立的數(shù)數(shù)據(jù)容忍忍程度來來提醒用用戶是否否采用該數(shù)據(jù)據(jù)進行決決策。數(shù)據(jù)質(zhì)量量的元數(shù)數(shù)據(jù)要定定義的內(nèi)內(nèi)容有以以下幾點點:目標質(zhì)量量特征:是針對對DSS應(yīng)用的某某一數(shù)據(jù)據(jù)域質(zhì)量量評價的的期望尺尺度,其基本屬屬性是目目標特征征值。實際質(zhì)量量特征:是針對對DSS應(yīng)用的某某一數(shù)據(jù)據(jù)域質(zhì)量量評價的的實際尺尺度,其基本屬屬性是實實際特征征值。用戶描述述的VV&C:針對DSS應(yīng)用需求求,從VV&C(驗證、有有效、證證實)對數(shù)據(jù)質(zhì)質(zhì)量進行行衡量。用戶功能能:周期期地檢查查針對某某一應(yīng)用用的數(shù)據(jù)據(jù)是否滿滿足VV&C或目標質(zhì)質(zhì)量的要求求。另外,這
33、組元數(shù)數(shù)據(jù)也應(yīng)應(yīng)從結(jié)構(gòu)構(gòu)上提供供記錄一一級的管管理,用以保證證數(shù)據(jù)質(zhì)質(zhì)量,消除因不不適當使使用數(shù)據(jù)據(jù)所帶來來的不一一致。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)對對數(shù)據(jù)倉倉庫功能能的支持持(五)衡量數(shù)據(jù)據(jù)質(zhì)量第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)分分類技術(shù)元數(shù)數(shù)據(jù)業(yè)務(wù)元數(shù)數(shù)據(jù)技術(shù)元數(shù)數(shù)據(jù)是存存儲關(guān)于于數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)技術(shù)細細節(jié)的數(shù)數(shù)據(jù),是是用于開發(fā)和和治理數(shù)數(shù)據(jù)倉庫庫使用的的數(shù)據(jù)。描述和和設(shè)計如如何訪問問和處理理數(shù)據(jù),包包括查詢詢、匯總總、遞交交等。它它主要包包括以下下信息:1數(shù)據(jù)倉庫庫結(jié)構(gòu)的的描述,包括倉倉庫模式式、視圖圖、維、層次結(jié)結(jié)構(gòu)和導(dǎo)出出數(shù)據(jù)的的定義,以及數(shù)數(shù)據(jù)集市市的位置
34、置和內(nèi)容容;2業(yè)務(wù)系統(tǒng)統(tǒng)、數(shù)據(jù)據(jù)倉庫和和數(shù)據(jù)集集市的體體系結(jié)構(gòu)構(gòu)和模式式;3匯總用的的算法,包括度度量和維維定義算算法,數(shù)數(shù)據(jù)粒度度、主題題領(lǐng)域、聚集集、匯總總、預(yù)定定義的查查詢與報報告;4由操作環(huán)環(huán)境到數(shù)數(shù)據(jù)倉庫庫環(huán)境的的映射,包括源源數(shù)據(jù)和和它們的的內(nèi)容、數(shù)據(jù)據(jù)分割、數(shù)據(jù)提提取、清清理、轉(zhuǎn)轉(zhuǎn)換規(guī)則則和數(shù)據(jù)據(jù)刷新規(guī)規(guī)則、安安全(用戶授授權(quán)和存存取控制制)。第2章 數(shù)據(jù)倉庫技術(shù)元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理技術(shù)元數(shù)數(shù)據(jù)示例例:用戶報表表和查詢詢訪問模模式、頻頻率和執(zhí)執(zhí)行時間間;審計控制制和負載載平衡信信息;數(shù)據(jù)的技技術(shù)結(jié)構(gòu)構(gòu);提供給DSS的記錄系系統(tǒng);源數(shù)據(jù)字字段標識識;從操作型型記錄系系統(tǒng)到
35、DSS的映射與與轉(zhuǎn)換;編碼/引用表轉(zhuǎn)轉(zhuǎn)換;物理和邏邏輯數(shù)據(jù)據(jù)模型;DSS表名、鍵鍵和索引引;域值值;DSS表結(jié)構(gòu)和和屬性;數(shù)據(jù)模型型和DSS之間的關(guān)關(guān)系;操作型系系統(tǒng)的表表結(jié)構(gòu)和和屬性;抽取歷史史;DSS表訪問模模式;DSS歸檔;工工作相關(guān)關(guān)性;程序名和和描述;版本維維護;安安全性;清洗規(guī)規(guī)則等。第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理業(yè)務(wù)元數(shù)數(shù)據(jù)從業(yè)業(yè)務(wù)角度度描述了了數(shù)據(jù)倉倉庫中的的數(shù)據(jù),它提供供了介于使用用者和實實際系統(tǒng)統(tǒng)之間的的語義層層,使得得不懂計計算機技技術(shù)的業(yè)業(yè)務(wù)人員也也能夠“讀懂”數(shù)據(jù)倉倉庫中的的數(shù)據(jù)。業(yè)務(wù)元數(shù)數(shù)據(jù)為DSS分析人員員提供了了訪問DSS底層的數(shù)數(shù)據(jù)倉庫庫和數(shù)據(jù)集市市中
36、信息息的線路路圖。第2章 數(shù)據(jù)倉庫業(yè)務(wù)元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理業(yè)務(wù)元數(shù)數(shù)據(jù)主要要包括以以下信息息:使用用者的業(yè)業(yè)務(wù)術(shù)語語所表達達的數(shù)據(jù)據(jù)模型、對象名名和屬性性名;訪訪問數(shù)據(jù)據(jù)的原則則和數(shù)據(jù)據(jù)的來源源;系統(tǒng)統(tǒng)所提供供的分析析方法以以及公式式和報表表的信息息;具體體包括以以下信息息:1企業(yè)概念念模型:這是業(yè)業(yè)務(wù)元數(shù)數(shù)據(jù)所應(yīng)應(yīng)提供的的重要的的信息,它表示示企業(yè)數(shù)數(shù)據(jù)模型型的高層層信息、整個企企業(yè)的業(yè)業(yè)務(wù)概念念和相互互關(guān)系。以這個個企業(yè)模模型為基基礎(chǔ),不不懂數(shù)據(jù)據(jù)庫技術(shù)術(shù)和SQL語句的業(yè)業(yè)務(wù)人員員對數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)也能做做到心中中有數(shù)。2多維數(shù)據(jù)據(jù)模型:這是企企業(yè)概念念模型的的重要組組成部
37、分分,它告告訴業(yè)務(wù)務(wù)分析人人員在數(shù)數(shù)據(jù)集市市當中有有哪些維維、維的的類別、數(shù)據(jù)立立方體以以及數(shù)據(jù)據(jù)集市中中的聚合合規(guī)則。這里的的數(shù)據(jù)立立方體表表示某主主題領(lǐng)域域業(yè)務(wù)事事實表和和維表的的多維組組織形式式。3業(yè)務(wù)概念念模型和和物理數(shù)數(shù)據(jù)之間間的依靠靠:以上上提到的的業(yè)務(wù)元元數(shù)據(jù)只只是表示示出了數(shù)數(shù)據(jù)的業(yè)業(yè)務(wù)視圖圖,這些些業(yè)務(wù)視視圖與實實際的數(shù)數(shù)據(jù)倉庫庫或數(shù)據(jù)據(jù)庫、多多維數(shù)據(jù)據(jù)庫中的的表、字字段、維維、層次次等之間間的對應(yīng)應(yīng)關(guān)系也也應(yīng)該在在元數(shù)據(jù)據(jù)知識庫庫中有所所體現(xiàn)。第2章 數(shù)據(jù)倉庫業(yè)務(wù)元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理業(yè)務(wù)數(shù)據(jù)據(jù)示例:業(yè)務(wù)分析析員了解解的數(shù)據(jù)據(jù)結(jié)構(gòu)(與技術(shù)術(shù)用戶比比較,產(chǎn)產(chǎn)品體系系對
38、于業(yè)務(wù)用用戶的意意義有所所不同);DSS中信息的的常見訪訪問例程程;主題領(lǐng)域域(例如如產(chǎn)品、客戶、銷售等等);表名的業(yè)業(yè)務(wù)定義義;屬性名和和業(yè)務(wù)術(shù)術(shù)語的定定義;數(shù)據(jù)質(zhì)量量的統(tǒng)計計信息;DSS字段映射射、轉(zhuǎn)換換和概要要;下鉆、上上鉆、鉆鉆過和鉆鉆透的規(guī)規(guī)則;域值;數(shù)據(jù)負責(zé)責(zé)人;數(shù)據(jù)位置置;DSS刷新日期期等。第2章 數(shù)據(jù)倉庫業(yè)務(wù)元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)源源元數(shù)據(jù)存存儲元數(shù)據(jù)用用戶ETL工具/處理過程程數(shù)據(jù)建模模工具業(yè)務(wù)人員員/文檔生產(chǎn)系統(tǒng)統(tǒng)應(yīng)用數(shù)據(jù)質(zhì)量量工具其他元數(shù)數(shù)據(jù)源報表和OLAP工具版本控制制/權(quán)限管理理數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)技術(shù)元數(shù)數(shù)據(jù)業(yè)務(wù)元數(shù)數(shù)據(jù)操作元數(shù)數(shù)據(jù)業(yè)務(wù)用戶戶管理員開發(fā)
39、人員員第2章 數(shù)據(jù)倉庫關(guān)于元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)管理元數(shù)據(jù)主主要工具具常見的元數(shù)據(jù)位置元數(shù)據(jù)類型常見工具ETL數(shù)據(jù)轉(zhuǎn)換規(guī)則Ardent Datastage程序任務(wù)間的相關(guān)性Sagent SolutionDSS負載平衡統(tǒng)計及加載統(tǒng)計Informatic PowermartSAS Institute數(shù)據(jù)譜系(Data Lineage)數(shù)據(jù)建模工具邏輯和物理數(shù)據(jù)模型Oracle Designer 2000技術(shù)實體和屬性定義Platnum Erwin域值Silverrun報表工具用戶訪問模式Brio報表執(zhí)行時間CognosBusiness Objects業(yè)務(wù)實
40、體、屬性、標準定義Informatic Advantage數(shù)據(jù)質(zhì)量工具數(shù)據(jù)質(zhì)量統(tǒng)計i.d Centric審核控制TrilliumVality生產(chǎn)商應(yīng)用程序邏輯和物理數(shù)據(jù)模型PeopleSoft數(shù)據(jù)字典SAPSiebol Systems主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計多維數(shù)據(jù)據(jù)建模以以直觀的的方式組組織數(shù)據(jù)據(jù),并支支持高性性能的數(shù)數(shù)據(jù)訪問。每每一個多多維數(shù)據(jù)據(jù)模型由由多個多多維數(shù)據(jù)據(jù)模式表表示,每每一個多多維數(shù)據(jù)模模式都是是由一個個事實表表和一組組維表組組成的。多維模模型最常常見的是星星形模式式。在星
41、星形模式式中,事事實表居居中,多多個維表表呈輻射射狀分布于于其四周周,并與與事實表表連接。 在星星型的基基礎(chǔ)上,發(fā)展出出雪花模式。數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫星型模式式(StarSchema)事實表(facttable),存放基基本數(shù)據(jù)據(jù),相關(guān)關(guān)主題的的數(shù)據(jù)主主體(BCNF)維(dimension),影響、分析主主體數(shù)據(jù)據(jù)的因素素量(measure),事實表表中的數(shù)數(shù)據(jù)屬性性維表(dimension table),表示維維的各種種表維是量的的取值條條件,維維用外鍵鍵表示以事實表表為中心心,加上上若干維維表,組組成星型型數(shù)據(jù)模模式例:產(chǎn)品品-商店-
42、銷售額CustSalesLocationSalesProdSalesTimeSalesSalestime idproduct idlocationidcustomeridsalesrevenueunitssoldProductproduct idmakemodelTimetime iddateyearquartermonthweekLocationlocationidregiondistrictstoreCustomercustomeridcategorygroupSalesfactSalesmeasuresTime dimensionAttributes of thetime dimensi
43、on數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫星型模式式位于星形形中心的的實體是是指標實實體,是是用戶最最關(guān)心的的基本實實體和查詢活活動的中中心,為為數(shù)據(jù)倉倉庫的查查詢活動動提供定定量數(shù)據(jù)據(jù)。每個個指標實體體代表一一系列相相關(guān)事實實,完成成一項指指定的功功能。位位于星形形圖星角上上的實體體是維度度實體,其作用用是限制制用戶的的查詢結(jié)結(jié)果,將將數(shù)據(jù)過濾濾使得從從指標實實體查詢詢返回較較少的行行,從而而縮小訪訪問范圍圍。每個維表表有自己己的屬性性,維表表和事實實表通過過關(guān)鍵字字相關(guān)聯(lián)聯(lián)。星形模式式雖然是是一個關(guān)關(guān)系模型型,但是是它不是是一個規(guī)規(guī)范化的的模型。在星星形模式式中,維維度表被被故意地地非規(guī)范
44、范化了,這是星星形模式式與OLTP系統(tǒng)中的的關(guān)系模模式的基基本區(qū)別別。使用星形形模式主主要原因因:提高查詢詢的效率率。采用用星形模模式設(shè)計計的數(shù)據(jù)倉倉庫的優(yōu)優(yōu)點是由由于數(shù)據(jù)據(jù)的組織織已經(jīng)過過預(yù)處理理,主要要數(shù)據(jù)都都在龐大的的事實表表中,所以只要要掃描事事實表就就可以進進行查詢詢,而不不必把多個龐龐大的表表聯(lián)接起起來,查查詢訪問問效率較較高。同同時由于于維表一一般都很小小,甚至可以以放在高高速緩存存中,與事實表表作連接接時其速速度較快;便于用戶戶理解。對于非非計算機機專業(yè)的的用戶而而言,星星形模式式比較直觀,通通過分析析星形模模式,很很容易組組合出各各種查詢詢。數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)
45、倉庫星型模式式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫雪花模式式(Snowflake Schema)維一般是是由若干干層次組組成把維按其其層次結(jié)結(jié)構(gòu)表示示成若干干個表規(guī)范化、節(jié)省存存儲空間間但需多做做連接操操作定單號銷售員號號客戶號產(chǎn)品號日期標識識地區(qū)名稱稱數(shù)量總價定單號定貨日期期客戶號客戶名稱稱客戶地址址銷售員號號姓名城市產(chǎn)品號產(chǎn)品名稱稱單價日期標識識日月年地區(qū)名稱稱省事實表雪花模式式產(chǎn)品號公司代碼碼公司代碼碼公司名稱稱地址雪花模式式(Snowflake Schema)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫雪花模式式是對星星形模式式維表的的進一步步層次化化,將某某些維表表擴展成事實實表,這這樣
46、既可可以應(yīng)付付不同級級別用戶戶的查詢詢,又可可以將源源數(shù)據(jù)通過過層次間間的聯(lián)系系向上綜綜合,最最大限度度地減少少數(shù)據(jù)存存儲量,因而提高高了查詢詢功能。數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式第2章 數(shù)據(jù)倉庫星模式與與雪花模模式的區(qū)區(qū)別主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計1.切片和切切塊(SliceandDice)在多維數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)中,按二維進進行切片片,按三維進進行切塊塊,可得到所所需要的的數(shù)據(jù)。如在“城市、產(chǎn)產(chǎn)品、時時間”三維立方方體中進進行切塊塊和切片片,可得到各各城市、各產(chǎn)品品的銷售售情況。2.鉆取(Drill)鉆
47、取包含含向下鉆鉆取(Drill-down)和向上鉆鉆取(Drill-up)/上卷(Roll-up)操作,鉆鉆取的的深度與與維所劃劃分的層層次相對對應(yīng)。3.旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋轉(zhuǎn)轉(zhuǎn)可以得得到不同同視角的的數(shù)據(jù)。第2章 數(shù)據(jù)倉庫多維分析析第2章 數(shù)據(jù)倉庫多維分析析OLAP的分析方方法(一)切片片(slicing)、切塊(dicing)按時間維維向上鉆鉆取60按時間維維向下鉆鉆取OLAP的分析方方法(二二)鉆取取(drill-down)第2章 數(shù)據(jù)倉庫多維分析析OLAP的分析方方法(三三)旋轉(zhuǎn)轉(zhuǎn)第2章 數(shù)據(jù)倉庫多維分析析第2章 數(shù)據(jù)倉庫多維分析析多維分析析方法總總結(jié)切片是在
48、在一部分分維上選選定值后后,關(guān)心心數(shù)據(jù)在在剩余維維上的數(shù)數(shù)據(jù)度量量。鉆取是改改變維的的層次,變換分分析的粒粒度;Roll up是在某一一維上將將低層次的的細節(jié)數(shù)數(shù)據(jù)概括括到高層層次的匯匯總數(shù)據(jù)據(jù);Drilldown則相反,它從匯總總數(shù)據(jù)深深入到細細節(jié)數(shù)據(jù)據(jù)進行觀觀察。旋轉(zhuǎn)式改改變維的的方向,即在表表格中重重新安排排維的位位置(如如行列互互換)。主要內(nèi)容容數(shù)據(jù)倉庫庫基本概概念數(shù)據(jù)倉庫庫體系結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)模式多維分析析高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計第2章 數(shù)據(jù)倉庫高性能物物理數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計在OLTP環(huán)境中,作業(yè)(任務(wù))的特征征是具有有高度選選擇性的查詢。并且此此查詢通通常不(應(yīng)該)包含大大量的復(fù)復(fù)雜的全全表掃描和連接接操作。與此相相反,數(shù)數(shù)據(jù)倉庫庫和數(shù)據(jù)據(jù)集市的的查詢通通常包含復(fù)雜的的連接操操作和掃掃描大量量的數(shù)據(jù)據(jù),并且且這些查查詢往往往包含重復(fù)的成成分。例例如,某某個用戶戶想查看看各銷售售區(qū)域的的收入。另一個用戶可可能希望望查看在在所有區(qū)區(qū)域中產(chǎn)產(chǎn)品A的銷售量量在各區(qū)區(qū)銷售收入中所所占的比比例。某某個查詢詢都包含含掃描整整個銷售售表格以以分組區(qū)域數(shù)據(jù)據(jù),并計計算區(qū)域域總量。在這樣的的環(huán)境中中數(shù)據(jù)并并行化和和非規(guī)格格化是實實行高性性能計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新型農(nóng)村宅基地使用權(quán)轉(zhuǎn)讓合同范本
- 二零二五年度噴漆作業(yè)場所職業(yè)健康監(jiān)護與疾病預(yù)防合同
- 二零二五年度企業(yè)VI系統(tǒng)全案定制合同3篇
- 二零二五年度戶外噴泉節(jié)能改造專項合同
- 二零二五年度土地整治土石方運輸及土壤改良合同6篇
- 2025年度智能車展合作項目合作協(xié)議書范本4篇
- 2025版中學(xué)校園食品安全供應(yīng)與配送合作協(xié)議3篇
- 二零二五年度工業(yè)用地土地廠房轉(zhuǎn)讓與產(chǎn)業(yè)升級合同
- 珠海城市職業(yè)技術(shù)學(xué)院《韓國語語法》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度農(nóng)產(chǎn)品供應(yīng)鏈合作協(xié)議書2篇
- 河北省石家莊市2023-2024學(xué)年高一上學(xué)期期末聯(lián)考化學(xué)試題(含答案)
- 小王子-英文原版
- 新版中國食物成分表
- 2024年山東省青島市中考生物試題(含答案)
- 河道綜合治理工程技術(shù)投標文件
- 專題24 短文填空 選詞填空 2024年中考英語真題分類匯編
- 再生障礙性貧血課件
- 產(chǎn)后抑郁癥的護理查房
- 2024年江蘇護理職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 電能質(zhì)量與安全課件
- 工程項目設(shè)計工作管理方案及設(shè)計優(yōu)化措施
評論
0/150
提交評論