全面認(rèn)識數(shù)據(jù)倉庫_第1頁
全面認(rèn)識數(shù)據(jù)倉庫_第2頁
全面認(rèn)識數(shù)據(jù)倉庫_第3頁
全面認(rèn)識數(shù)據(jù)倉庫_第4頁
全面認(rèn)識數(shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

全面認(rèn)識數(shù)據(jù)倉庫

1.前言

隨著我行信息科技工作進(jìn)入后藍(lán)圖時代,后線分析系統(tǒng)注I建設(shè)的需求會越來

越高,將在快速響應(yīng)、高效實施、靈活應(yīng)變、信息統(tǒng)一、全局分析、深度挖掘、

監(jiān)管有力、報送及時、降低成本等方面提出更多新的挑戰(zhàn)。面對藍(lán)圖成功投產(chǎn)后

新的產(chǎn)品體系,如何統(tǒng)一規(guī)劃全轄數(shù)據(jù)資源、整合后線產(chǎn)品架構(gòu)、準(zhǔn)備各項技術(shù)

預(yù)研可能是將來信息科技工作的一個重心。

數(shù)據(jù)倉庫(DW)是各行業(yè)后線系統(tǒng)進(jìn)展的一個重要方向,它在克服部門級

應(yīng)用的局限(數(shù)據(jù)分隔注2、重復(fù)存儲、重復(fù)中間加工過程注3、保護(hù)工作繁瑣、資

源重復(fù)投入等)、滿足全轄基礎(chǔ)數(shù)據(jù)共享、提供全局分析視角與應(yīng)用組件、支持

快捷靈活與低成本的開發(fā)部署等方面有著不可替代的功能與地位。

數(shù)據(jù)倉庫本身有著不一致視角的概念解釋,大可涵蓋整個企業(yè)級應(yīng)用架構(gòu),

小可專注于單純的數(shù)據(jù)建模與存儲;數(shù)據(jù)倉庫涉及重多有關(guān)技術(shù),如ETL、數(shù)據(jù)

模型設(shè)計、多維分析、數(shù)據(jù)挖掘等;數(shù)據(jù)倉庫建設(shè)可能是一個復(fù)雜高難的全局性

項目,正確的實施路徑、策略、方法與有效的質(zhì)量管理是項目成敗的關(guān)鍵;另外,

數(shù)據(jù)倉庫系統(tǒng)實施后的管理與保護(hù),也是保證各類后線應(yīng)用系統(tǒng)長期順利運行的

重要因素。針對這些數(shù)據(jù)倉庫有關(guān)的概念、技術(shù)、策略、方法等,可能并不是每

個人都有比較全面的熟悉。因此有必要對這些做一個系統(tǒng)的介紹,使大家對數(shù)據(jù)

倉庫有一個全面清晰的認(rèn)識。

2.數(shù)據(jù)倉庫入門介紹

>應(yīng)用需求背景

隨著聯(lián)機事務(wù)處理(OLTP)業(yè)務(wù)系統(tǒng)的深入應(yīng)用,企業(yè)各類業(yè)務(wù)數(shù)據(jù)不斷

積存與豐富,越來越需要從大量數(shù)據(jù)中提取有價值的信息,以輔助決策與指導(dǎo)經(jīng)

營。管理信息系統(tǒng)(MIS)與早期的決策支持系統(tǒng)注4(DSS)要緊是基于傳統(tǒng)的

數(shù)據(jù)庫技術(shù)與事務(wù)處理環(huán)境,這種系統(tǒng)結(jié)構(gòu)隨著業(yè)務(wù)系統(tǒng)建設(shè)規(guī)模的擴大、數(shù)據(jù)

量的巨增與數(shù)據(jù)復(fù)雜度的提高,已無法滿足綜合分析型應(yīng)用的需求,造成數(shù)據(jù)豐

富而信息貧乏的逆境。

首先,人們逐步認(rèn)識到,分析處理與事務(wù)處理具有極不相同的性質(zhì),事務(wù)處

理通常是對數(shù)據(jù)庫進(jìn)行聯(lián)機的查詢與修改操作,每筆交易的響應(yīng)時間與數(shù)據(jù)的安

全完整是關(guān)鍵;而分析型處理往往是對大規(guī)模歷史數(shù)據(jù)的批量加工計算,數(shù)據(jù)的

規(guī)范統(tǒng)一與整體時間窗口是重要關(guān)注點。因此直接使用傳統(tǒng)數(shù)據(jù)庫技術(shù)與使用事

務(wù)處理環(huán)境來支持分析型系統(tǒng)是不合適與失敗的。兩類系統(tǒng)的特點比較見表-1:

事務(wù)處理型應(yīng)用分析處理型應(yīng)用

很多用戶少量用戶

小事務(wù)、頻率高、時間短大事務(wù)、頻率低、時間長

一次數(shù)據(jù)操作量小,是小單元的隨一次數(shù)據(jù)操作量大,是大集合的批

機數(shù)據(jù)操作量數(shù)據(jù)操作

更新與插入操作都很頻繁更新操作較少,插入操作較多

需要當(dāng)前的細(xì)節(jié)的業(yè)務(wù)數(shù)據(jù)需要歷史的整合的綜合數(shù)據(jù)

響應(yīng)時間是關(guān)鍵總的處理時間是關(guān)鍵

面向應(yīng)用、事務(wù)驅(qū)動,數(shù)據(jù)范圍小面向分析、分析驅(qū)動,數(shù)據(jù)范圍大

表一1

另一方面,企業(yè)的各類應(yīng)用系統(tǒng)是在不一致時期通常由各部門或者分支機構(gòu)

面向特定應(yīng)用建設(shè)的,存在著數(shù)據(jù)平臺異構(gòu)、數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一等問題。

傳統(tǒng)的數(shù)據(jù)庫技術(shù)與事務(wù)處理環(huán)境關(guān)于實現(xiàn)基于個別業(yè)務(wù)系統(tǒng)的部門級MIS與

初級DSS系統(tǒng)尚可支持,而對實現(xiàn)全局范圍的離散數(shù)據(jù)整合與綜合信息利用,

建設(shè)跨部門的企業(yè)級分析應(yīng)用已無能為力。

>數(shù)據(jù)倉庫的提出

麻省理工學(xué)院在20世紀(jì)70年代對業(yè)務(wù)系統(tǒng)與分析系統(tǒng)的處理過程進(jìn)行研究,

結(jié)論是只能使用完全不一致的架構(gòu)與設(shè)計方法。1988年,IBM為解決全企業(yè)數(shù)

據(jù)集成問題,提出了信息倉庫的概念,確立了原理、架構(gòu)與規(guī)范,但沒有進(jìn)行實

際的設(shè)計。1991年,BiUInmon提出了數(shù)據(jù)倉庫概念,并對為什么建設(shè)數(shù)據(jù)倉庫

與如何建設(shè)數(shù)據(jù)倉庫進(jìn)行了論述。BillInmon被稱之?dāng)?shù)據(jù)倉庫之父。

Inmon對數(shù)據(jù)倉庫的定義是“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)固的、隨

時間變化的數(shù)據(jù)集合,它用以支持經(jīng)營管理中的決策制定過程二

這個定義要緊描述了數(shù)據(jù)倉庫的四個最基本特征。在數(shù)據(jù)倉庫的整體概念中,

這是對最核心部分的狹義定義。我們還應(yīng)該明白,除了這個最核心的倉庫體之外,

廣義的數(shù)據(jù)倉庫概念,還包含來自各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過采集、下傳與加載等

步驟進(jìn)行入倉庫體的過程,包含倉庫體的數(shù)據(jù)針對各類分析需求進(jìn)行多維加工、

挖掘、利用的過程,并包含全程數(shù)據(jù)流程設(shè)計與數(shù)據(jù)質(zhì)量管理等過程。從狹義上

說,數(shù)據(jù)倉庫是一個具有四個基本特征的數(shù)據(jù)倉儲體,從廣義上說,數(shù)據(jù)倉庫是

一種架設(shè)企業(yè)后線分析類應(yīng)用的解決方案。

伴隨著數(shù)據(jù)倉庫,同時期還出現(xiàn)了聯(lián)機分析處理(OLAP)與數(shù)據(jù)挖掘(DM)

等新技術(shù),從此,DW+OLAP+DM就逐步形成新決策支持系統(tǒng)的概念。再后來的

商務(wù)智能(BD應(yīng)用需求更是基于DW+OLAP+DM的支持。

>兩種數(shù)據(jù)倉庫設(shè)計思路

提出數(shù)據(jù)倉庫的不至Inmon一個人。BillInmon與RalphKimball都是數(shù)據(jù)倉

庫的首創(chuàng)者,但對數(shù)據(jù)倉庫設(shè)計的觀點很不相同。

首先需要熟悉一個數(shù)據(jù)集市(DM)的概念。相關(guān)于數(shù)據(jù)倉庫是一個企業(yè)級

的高度綜合數(shù)據(jù)集,數(shù)據(jù)集市就是部門級的輕度綜合數(shù)據(jù)集。

Inmon主張建立數(shù)據(jù)倉庫時使用DWDM方式,即先建一個統(tǒng)一數(shù)據(jù)層(狹

義DW,中央數(shù)據(jù)倉庫),將不一致的OLTP數(shù)據(jù)集中到面向主題、集成、穩(wěn)固、

隨時間變化的統(tǒng)一數(shù)據(jù)層中,其中數(shù)據(jù)可下列鉆到最細(xì)層,或者者上卷到匯總層。

再利用中間統(tǒng)一數(shù)據(jù)層,針對各部門的特殊分析需要設(shè)計獨立數(shù)據(jù)集市(數(shù)據(jù)倉

庫的子集)。見圖27:

企業(yè)供據(jù)倉庫

數(shù)據(jù)集市

圖27

而Kimball主張DMDW方式,即直接將源數(shù)據(jù)抽取轉(zhuǎn)換到面向各部門分析

需要的數(shù)據(jù)集市中,然后將一系列維數(shù)相同的數(shù)據(jù)集市聯(lián)合起來遞增地構(gòu)建數(shù)據(jù)

倉庫,通過一致的維(公共定義的元素)能夠共同看到不一致數(shù)據(jù)集市中的信息O

也即數(shù)據(jù)集市的聯(lián)合=數(shù)據(jù)倉庫。見圖2-2:

圖2-2

兩種設(shè)計思路產(chǎn)生兩種不一致的數(shù)據(jù)倉庫建設(shè)模式,一種是先構(gòu)建企業(yè)中央

數(shù)據(jù)倉庫,一次性的完成數(shù)據(jù)的重構(gòu)工作,最小化數(shù)據(jù)冗余度與不一致性,再從

中央數(shù)據(jù)倉庫中建造數(shù)據(jù)集市,數(shù)據(jù)集市從數(shù)據(jù)倉庫中得到大部分的集成數(shù)據(jù),

且直接依靠于數(shù)據(jù)倉庫的可用性。這種建設(shè)模式的問題在于:投資回報時間如何

保證?建設(shè)中央數(shù)據(jù)模型的必要性與可能性?初始費用如何預(yù)算?。

另一種建設(shè)模式是先建數(shù)據(jù)集市,即由各個部門在各自的主題區(qū)域內(nèi)進(jìn)行數(shù)

據(jù)重構(gòu),快速得到投資收益,然后通過聯(lián)合數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫,把建

造數(shù)據(jù)倉庫作為一個長期的目標(biāo)。這種由數(shù)據(jù)集市匯成數(shù)據(jù)倉庫的建設(shè)模式面臨

的要緊問題是:各個數(shù)據(jù)集市的數(shù)據(jù)不一致性難以解決,且存在一定的數(shù)據(jù)冗余。

這種方法更能滿足近期目標(biāo)的需求,但增加了未來轉(zhuǎn)換為獨立的數(shù)據(jù)倉庫的數(shù)據(jù)

體系結(jié)構(gòu)的困難。

從總的比較結(jié)果來看,Inmon的建設(shè)模式起步難度大,但假如走好了第一步,

長遠(yuǎn)利好;Kimbal的建設(shè)模式更能滿足近期目標(biāo)的需求,但當(dāng)未來試圖跨數(shù)據(jù)集

市獲取聯(lián)合視圖時,可能面臨嚴(yán)重問題。

數(shù)據(jù)倉庫建設(shè)模式的選擇要緊取決于商業(yè)驅(qū)動。假如企業(yè)正忍耐糟糕的數(shù)據(jù)

管理與不一致的數(shù)據(jù),那么Inmon的方法就更好一些,能夠帶來全面革命與解放;

假如企業(yè)迫切需要給用戶提供信息,那么Kimbal的方法更能滿足需求,能夠通

過逐步改革解決問題。大型項目通常會使用Inmon的數(shù)據(jù)倉庫建設(shè)策略,全球最

資深的數(shù)據(jù)倉庫服務(wù)商TERADATA就是這種模式的忠實支持者。

>數(shù)據(jù)倉庫的四個特征

Inmon的數(shù)據(jù)倉庫思想被奉為經(jīng)典,他在數(shù)據(jù)倉庫定義中描述的四個基本特

征是數(shù)據(jù)倉庫之路上的入門概念,是數(shù)據(jù)倉庫區(qū)別于事務(wù)處理環(huán)境與傳統(tǒng)獨立分

析應(yīng)用的最本質(zhì)內(nèi)容。

面向主題

OLTP應(yīng)用或者獨立分析應(yīng)用都是為滿足個別應(yīng)用需求而建設(shè)的,它們的數(shù)

據(jù)是各取所需的、局部的,其數(shù)據(jù)定義標(biāo)準(zhǔn)與組織方式也各具特色。

數(shù)據(jù)倉庫的設(shè)計思想與此不一致,它不是面向某個具體需求,而是對反映全

轄業(yè)務(wù)經(jīng)營情況的所有源數(shù)據(jù)進(jìn)行分門別類、統(tǒng)一組織,從而為現(xiàn)有與潛在的各

類分析需求提供一致范圍與一致標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)支持。

主題就是對企業(yè)內(nèi)結(jié)構(gòu)各異的源數(shù)據(jù)根據(jù)可用性、及時性、前瞻性、方便性

等需要在較高層次上進(jìn)行綜合、歸類的抽象。比如對銀行來說,DW包含的主題

域能夠分為當(dāng)事人、協(xié)議、產(chǎn)品等。通過按主題重構(gòu)的數(shù)據(jù)模型,應(yīng)當(dāng)能夠支持

所有的分析應(yīng)用。

集成共享

由于源數(shù)據(jù)的分散獨立、平臺異構(gòu)、標(biāo)準(zhǔn)不統(tǒng)一、模型差別大、冗余度高等

狀況,在將其提煉、抽取到數(shù)據(jù)倉庫時要進(jìn)行必要的轉(zhuǎn)換與整合。這樣集成后的

數(shù)據(jù),具有一致的結(jié)構(gòu)與標(biāo)準(zhǔn),才能為所有分析應(yīng)用共享。

隨時間變化

除了可能有小部分的業(yè)務(wù)數(shù)據(jù)補錄,數(shù)據(jù)倉庫自身不產(chǎn)生源數(shù)據(jù),而只需要

對進(jìn)入倉庫的源數(shù)據(jù)進(jìn)行加工與匯總。加載處理后的統(tǒng)一基礎(chǔ)數(shù)據(jù)與匯總數(shù)據(jù)總

是隨時間不斷增量變化的。

不可更新

源自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是已經(jīng)發(fā)生的數(shù)據(jù),除了個別分析應(yīng)用可能需要對錯

誤發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行日后的在應(yīng)用層的糾錯處理外,數(shù)據(jù)倉庫基本不可能更新

與刪除從源系統(tǒng)中傳過來的細(xì)節(jié)數(shù)據(jù)。

3.數(shù)據(jù)倉庫架構(gòu)

>兩類基本數(shù)據(jù)倉庫架構(gòu)

有兩類基本數(shù)據(jù)倉庫架構(gòu),一類是Inmon提出的CIF架構(gòu)(Corporate

InformationFactory,即企業(yè)信息工廠),一類是Kimball提出的MD架構(gòu)

(MutildimensionalArchitecture,即多維體系結(jié)構(gòu))。

CIF架構(gòu)要緊包含集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、

數(shù)據(jù)集市(DM)、探索倉庫(EW)等部件。

MD架構(gòu)要緊包含數(shù)據(jù)準(zhǔn)備區(qū)(StagingArea)與數(shù)據(jù)集市。MD的數(shù)據(jù)準(zhǔn)備

區(qū)在功能上相當(dāng)于CIF的stagingarea+EDW,要緊負(fù)責(zé)數(shù)據(jù)準(zhǔn)備工作,是一致

性維表注5的產(chǎn)生、儲存與分發(fā)的場所。數(shù)據(jù)集市要緊是使用一致性維表來完成維

度建模,多個數(shù)據(jù)集市一起合并成“虛擬”數(shù)據(jù)倉庫,這些數(shù)據(jù)集市能夠是存在

于一個數(shù)據(jù)庫中,也能夠是分布在不一致機器的不一致數(shù)據(jù)庫中。

兩類數(shù)據(jù)倉庫架構(gòu)各有優(yōu)缺點,CIF架構(gòu)建設(shè)周期較長且初始設(shè)計復(fù)雜,但

當(dāng)建立起企業(yè)級數(shù)據(jù)模型并完成數(shù)據(jù)清洗整合工作,數(shù)據(jù)的完整性與一致性問題

就能夠得到根本解決,后續(xù)針對需求變化易于擴展,且成本較低。MD架構(gòu)是先

著眼于某些部門級應(yīng)用創(chuàng)建快速見效的數(shù)據(jù)集市,而后以逐步創(chuàng)建與合并數(shù)據(jù)集

市的方式實現(xiàn)企業(yè)級數(shù)據(jù)倉庫,這樣啟動成本較低且初始設(shè)計較簡單,但是全局

數(shù)據(jù)的一致性與穩(wěn)固性需要通過對一致性維表的持續(xù)保護(hù)來保證,后續(xù)擴展的工

作量與代價較大。

在實際的數(shù)據(jù)倉庫項目解決方案中,往往是根據(jù)項目規(guī)模、實施目標(biāo)、成本

預(yù)算等在這兩類基本架構(gòu)上進(jìn)行取舍調(diào)整與變形。多數(shù)是使用CIF架構(gòu);也有使

用CIF架構(gòu)與MD架構(gòu)相結(jié)合的方法,比如,IBM提出的CDW(CorporateData

Warehouse)就是把CIF架構(gòu)的EDW與MD架構(gòu)的DM進(jìn)行結(jié)合的解決方案。

>解析CIF數(shù)據(jù)倉庫架構(gòu)

典型的CIF數(shù)據(jù)倉庫架構(gòu)見圖37,大的層次上要緊包含源數(shù)據(jù)層、ETL層、

數(shù)據(jù)服務(wù)層、數(shù)據(jù)展現(xiàn)層等部分。

現(xiàn)層

數(shù)據(jù)展

報表工

人員

決策

詢工具

靈活查

人員

管理

P工具

加載數(shù)OLA

數(shù)據(jù)據(jù)

文件緩

掘工具

存數(shù)據(jù)挖

人員

分析

區(qū)

發(fā)

應(yīng)用開

人員

業(yè)務(wù)

圖37

數(shù)據(jù)

/源

系統(tǒng)

業(yè)務(wù)

各類

況的

營狀

業(yè)經(jīng)

映企

集反

含采

,包

的源頭

據(jù)倉庫

層是數(shù)

源數(shù)據(jù)

L

由ET

方式

直連

據(jù)庫

用數(shù)

夠使

據(jù)能

源數(shù)

據(jù)。

的數(shù)

外部

來自

導(dǎo)入

據(jù)與

錄數(shù)

、補

數(shù)據(jù)

TL層

傳給E

件,再

數(shù)據(jù)文

到接口

先采集

選是

但首

務(wù)層,

數(shù)據(jù)服

抽取到

TL層

/E

可根

計中

目設(shè)

個項

在各

加載。

轉(zhuǎn)換與

取、

據(jù)抽

成數(shù)

是完

任務(wù)

設(shè)計

基本

ETL的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論