版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
全面認(rèn)識數(shù)據(jù)倉庫
1.前言
隨著我行信息科技工作進(jìn)入后藍(lán)圖時代,后線分析系統(tǒng)注I建設(shè)的需求會越來
越高,將在快速響應(yīng)、高效實施、靈活應(yīng)變、信息統(tǒng)一、全局分析、深度挖掘、
監(jiān)管有力、報送及時、降低成本等方面提出更多新的挑戰(zhàn)。面對藍(lán)圖成功投產(chǎn)后
新的產(chǎn)品體系,如何統(tǒng)一規(guī)劃全轄數(shù)據(jù)資源、整合后線產(chǎn)品架構(gòu)、準(zhǔn)備各項技術(shù)
預(yù)研可能是將來信息科技工作的一個重心。
數(shù)據(jù)倉庫(DW)是各行業(yè)后線系統(tǒng)進(jìn)展的一個重要方向,它在克服部門級
應(yīng)用的局限(數(shù)據(jù)分隔注2、重復(fù)存儲、重復(fù)中間加工過程注3、保護(hù)工作繁瑣、資
源重復(fù)投入等)、滿足全轄基礎(chǔ)數(shù)據(jù)共享、提供全局分析視角與應(yīng)用組件、支持
快捷靈活與低成本的開發(fā)部署等方面有著不可替代的功能與地位。
數(shù)據(jù)倉庫本身有著不一致視角的概念解釋,大可涵蓋整個企業(yè)級應(yīng)用架構(gòu),
小可專注于單純的數(shù)據(jù)建模與存儲;數(shù)據(jù)倉庫涉及重多有關(guān)技術(shù),如ETL、數(shù)據(jù)
模型設(shè)計、多維分析、數(shù)據(jù)挖掘等;數(shù)據(jù)倉庫建設(shè)可能是一個復(fù)雜高難的全局性
項目,正確的實施路徑、策略、方法與有效的質(zhì)量管理是項目成敗的關(guān)鍵;另外,
數(shù)據(jù)倉庫系統(tǒng)實施后的管理與保護(hù),也是保證各類后線應(yīng)用系統(tǒng)長期順利運行的
重要因素。針對這些數(shù)據(jù)倉庫有關(guān)的概念、技術(shù)、策略、方法等,可能并不是每
個人都有比較全面的熟悉。因此有必要對這些做一個系統(tǒng)的介紹,使大家對數(shù)據(jù)
倉庫有一個全面清晰的認(rèn)識。
2.數(shù)據(jù)倉庫入門介紹
>應(yīng)用需求背景
隨著聯(lián)機事務(wù)處理(OLTP)業(yè)務(wù)系統(tǒng)的深入應(yīng)用,企業(yè)各類業(yè)務(wù)數(shù)據(jù)不斷
積存與豐富,越來越需要從大量數(shù)據(jù)中提取有價值的信息,以輔助決策與指導(dǎo)經(jīng)
營。管理信息系統(tǒng)(MIS)與早期的決策支持系統(tǒng)注4(DSS)要緊是基于傳統(tǒng)的
數(shù)據(jù)庫技術(shù)與事務(wù)處理環(huán)境,這種系統(tǒng)結(jié)構(gòu)隨著業(yè)務(wù)系統(tǒng)建設(shè)規(guī)模的擴大、數(shù)據(jù)
量的巨增與數(shù)據(jù)復(fù)雜度的提高,已無法滿足綜合分析型應(yīng)用的需求,造成數(shù)據(jù)豐
富而信息貧乏的逆境。
首先,人們逐步認(rèn)識到,分析處理與事務(wù)處理具有極不相同的性質(zhì),事務(wù)處
理通常是對數(shù)據(jù)庫進(jìn)行聯(lián)機的查詢與修改操作,每筆交易的響應(yīng)時間與數(shù)據(jù)的安
全完整是關(guān)鍵;而分析型處理往往是對大規(guī)模歷史數(shù)據(jù)的批量加工計算,數(shù)據(jù)的
規(guī)范統(tǒng)一與整體時間窗口是重要關(guān)注點。因此直接使用傳統(tǒng)數(shù)據(jù)庫技術(shù)與使用事
務(wù)處理環(huán)境來支持分析型系統(tǒng)是不合適與失敗的。兩類系統(tǒng)的特點比較見表-1:
事務(wù)處理型應(yīng)用分析處理型應(yīng)用
很多用戶少量用戶
小事務(wù)、頻率高、時間短大事務(wù)、頻率低、時間長
一次數(shù)據(jù)操作量小,是小單元的隨一次數(shù)據(jù)操作量大,是大集合的批
機數(shù)據(jù)操作量數(shù)據(jù)操作
更新與插入操作都很頻繁更新操作較少,插入操作較多
需要當(dāng)前的細(xì)節(jié)的業(yè)務(wù)數(shù)據(jù)需要歷史的整合的綜合數(shù)據(jù)
響應(yīng)時間是關(guān)鍵總的處理時間是關(guān)鍵
面向應(yīng)用、事務(wù)驅(qū)動,數(shù)據(jù)范圍小面向分析、分析驅(qū)動,數(shù)據(jù)范圍大
表一1
另一方面,企業(yè)的各類應(yīng)用系統(tǒng)是在不一致時期通常由各部門或者分支機構(gòu)
面向特定應(yīng)用建設(shè)的,存在著數(shù)據(jù)平臺異構(gòu)、數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一等問題。
傳統(tǒng)的數(shù)據(jù)庫技術(shù)與事務(wù)處理環(huán)境關(guān)于實現(xiàn)基于個別業(yè)務(wù)系統(tǒng)的部門級MIS與
初級DSS系統(tǒng)尚可支持,而對實現(xiàn)全局范圍的離散數(shù)據(jù)整合與綜合信息利用,
建設(shè)跨部門的企業(yè)級分析應(yīng)用已無能為力。
>數(shù)據(jù)倉庫的提出
麻省理工學(xué)院在20世紀(jì)70年代對業(yè)務(wù)系統(tǒng)與分析系統(tǒng)的處理過程進(jìn)行研究,
結(jié)論是只能使用完全不一致的架構(gòu)與設(shè)計方法。1988年,IBM為解決全企業(yè)數(shù)
據(jù)集成問題,提出了信息倉庫的概念,確立了原理、架構(gòu)與規(guī)范,但沒有進(jìn)行實
際的設(shè)計。1991年,BiUInmon提出了數(shù)據(jù)倉庫概念,并對為什么建設(shè)數(shù)據(jù)倉庫
與如何建設(shè)數(shù)據(jù)倉庫進(jìn)行了論述。BillInmon被稱之?dāng)?shù)據(jù)倉庫之父。
Inmon對數(shù)據(jù)倉庫的定義是“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)固的、隨
時間變化的數(shù)據(jù)集合,它用以支持經(jīng)營管理中的決策制定過程二
這個定義要緊描述了數(shù)據(jù)倉庫的四個最基本特征。在數(shù)據(jù)倉庫的整體概念中,
這是對最核心部分的狹義定義。我們還應(yīng)該明白,除了這個最核心的倉庫體之外,
廣義的數(shù)據(jù)倉庫概念,還包含來自各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過采集、下傳與加載等
步驟進(jìn)行入倉庫體的過程,包含倉庫體的數(shù)據(jù)針對各類分析需求進(jìn)行多維加工、
挖掘、利用的過程,并包含全程數(shù)據(jù)流程設(shè)計與數(shù)據(jù)質(zhì)量管理等過程。從狹義上
說,數(shù)據(jù)倉庫是一個具有四個基本特征的數(shù)據(jù)倉儲體,從廣義上說,數(shù)據(jù)倉庫是
一種架設(shè)企業(yè)后線分析類應(yīng)用的解決方案。
伴隨著數(shù)據(jù)倉庫,同時期還出現(xiàn)了聯(lián)機分析處理(OLAP)與數(shù)據(jù)挖掘(DM)
等新技術(shù),從此,DW+OLAP+DM就逐步形成新決策支持系統(tǒng)的概念。再后來的
商務(wù)智能(BD應(yīng)用需求更是基于DW+OLAP+DM的支持。
>兩種數(shù)據(jù)倉庫設(shè)計思路
提出數(shù)據(jù)倉庫的不至Inmon一個人。BillInmon與RalphKimball都是數(shù)據(jù)倉
庫的首創(chuàng)者,但對數(shù)據(jù)倉庫設(shè)計的觀點很不相同。
首先需要熟悉一個數(shù)據(jù)集市(DM)的概念。相關(guān)于數(shù)據(jù)倉庫是一個企業(yè)級
的高度綜合數(shù)據(jù)集,數(shù)據(jù)集市就是部門級的輕度綜合數(shù)據(jù)集。
Inmon主張建立數(shù)據(jù)倉庫時使用DWDM方式,即先建一個統(tǒng)一數(shù)據(jù)層(狹
義DW,中央數(shù)據(jù)倉庫),將不一致的OLTP數(shù)據(jù)集中到面向主題、集成、穩(wěn)固、
隨時間變化的統(tǒng)一數(shù)據(jù)層中,其中數(shù)據(jù)可下列鉆到最細(xì)層,或者者上卷到匯總層。
再利用中間統(tǒng)一數(shù)據(jù)層,針對各部門的特殊分析需要設(shè)計獨立數(shù)據(jù)集市(數(shù)據(jù)倉
庫的子集)。見圖27:
企業(yè)供據(jù)倉庫
數(shù)據(jù)集市
圖27
而Kimball主張DMDW方式,即直接將源數(shù)據(jù)抽取轉(zhuǎn)換到面向各部門分析
需要的數(shù)據(jù)集市中,然后將一系列維數(shù)相同的數(shù)據(jù)集市聯(lián)合起來遞增地構(gòu)建數(shù)據(jù)
倉庫,通過一致的維(公共定義的元素)能夠共同看到不一致數(shù)據(jù)集市中的信息O
也即數(shù)據(jù)集市的聯(lián)合=數(shù)據(jù)倉庫。見圖2-2:
圖2-2
兩種設(shè)計思路產(chǎn)生兩種不一致的數(shù)據(jù)倉庫建設(shè)模式,一種是先構(gòu)建企業(yè)中央
數(shù)據(jù)倉庫,一次性的完成數(shù)據(jù)的重構(gòu)工作,最小化數(shù)據(jù)冗余度與不一致性,再從
中央數(shù)據(jù)倉庫中建造數(shù)據(jù)集市,數(shù)據(jù)集市從數(shù)據(jù)倉庫中得到大部分的集成數(shù)據(jù),
且直接依靠于數(shù)據(jù)倉庫的可用性。這種建設(shè)模式的問題在于:投資回報時間如何
保證?建設(shè)中央數(shù)據(jù)模型的必要性與可能性?初始費用如何預(yù)算?。
另一種建設(shè)模式是先建數(shù)據(jù)集市,即由各個部門在各自的主題區(qū)域內(nèi)進(jìn)行數(shù)
據(jù)重構(gòu),快速得到投資收益,然后通過聯(lián)合數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫,把建
造數(shù)據(jù)倉庫作為一個長期的目標(biāo)。這種由數(shù)據(jù)集市匯成數(shù)據(jù)倉庫的建設(shè)模式面臨
的要緊問題是:各個數(shù)據(jù)集市的數(shù)據(jù)不一致性難以解決,且存在一定的數(shù)據(jù)冗余。
這種方法更能滿足近期目標(biāo)的需求,但增加了未來轉(zhuǎn)換為獨立的數(shù)據(jù)倉庫的數(shù)據(jù)
體系結(jié)構(gòu)的困難。
從總的比較結(jié)果來看,Inmon的建設(shè)模式起步難度大,但假如走好了第一步,
長遠(yuǎn)利好;Kimbal的建設(shè)模式更能滿足近期目標(biāo)的需求,但當(dāng)未來試圖跨數(shù)據(jù)集
市獲取聯(lián)合視圖時,可能面臨嚴(yán)重問題。
數(shù)據(jù)倉庫建設(shè)模式的選擇要緊取決于商業(yè)驅(qū)動。假如企業(yè)正忍耐糟糕的數(shù)據(jù)
管理與不一致的數(shù)據(jù),那么Inmon的方法就更好一些,能夠帶來全面革命與解放;
假如企業(yè)迫切需要給用戶提供信息,那么Kimbal的方法更能滿足需求,能夠通
過逐步改革解決問題。大型項目通常會使用Inmon的數(shù)據(jù)倉庫建設(shè)策略,全球最
資深的數(shù)據(jù)倉庫服務(wù)商TERADATA就是這種模式的忠實支持者。
>數(shù)據(jù)倉庫的四個特征
Inmon的數(shù)據(jù)倉庫思想被奉為經(jīng)典,他在數(shù)據(jù)倉庫定義中描述的四個基本特
征是數(shù)據(jù)倉庫之路上的入門概念,是數(shù)據(jù)倉庫區(qū)別于事務(wù)處理環(huán)境與傳統(tǒng)獨立分
析應(yīng)用的最本質(zhì)內(nèi)容。
面向主題
OLTP應(yīng)用或者獨立分析應(yīng)用都是為滿足個別應(yīng)用需求而建設(shè)的,它們的數(shù)
據(jù)是各取所需的、局部的,其數(shù)據(jù)定義標(biāo)準(zhǔn)與組織方式也各具特色。
數(shù)據(jù)倉庫的設(shè)計思想與此不一致,它不是面向某個具體需求,而是對反映全
轄業(yè)務(wù)經(jīng)營情況的所有源數(shù)據(jù)進(jìn)行分門別類、統(tǒng)一組織,從而為現(xiàn)有與潛在的各
類分析需求提供一致范圍與一致標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)支持。
主題就是對企業(yè)內(nèi)結(jié)構(gòu)各異的源數(shù)據(jù)根據(jù)可用性、及時性、前瞻性、方便性
等需要在較高層次上進(jìn)行綜合、歸類的抽象。比如對銀行來說,DW包含的主題
域能夠分為當(dāng)事人、協(xié)議、產(chǎn)品等。通過按主題重構(gòu)的數(shù)據(jù)模型,應(yīng)當(dāng)能夠支持
所有的分析應(yīng)用。
集成共享
由于源數(shù)據(jù)的分散獨立、平臺異構(gòu)、標(biāo)準(zhǔn)不統(tǒng)一、模型差別大、冗余度高等
狀況,在將其提煉、抽取到數(shù)據(jù)倉庫時要進(jìn)行必要的轉(zhuǎn)換與整合。這樣集成后的
數(shù)據(jù),具有一致的結(jié)構(gòu)與標(biāo)準(zhǔn),才能為所有分析應(yīng)用共享。
隨時間變化
除了可能有小部分的業(yè)務(wù)數(shù)據(jù)補錄,數(shù)據(jù)倉庫自身不產(chǎn)生源數(shù)據(jù),而只需要
對進(jìn)入倉庫的源數(shù)據(jù)進(jìn)行加工與匯總。加載處理后的統(tǒng)一基礎(chǔ)數(shù)據(jù)與匯總數(shù)據(jù)總
是隨時間不斷增量變化的。
不可更新
源自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是已經(jīng)發(fā)生的數(shù)據(jù),除了個別分析應(yīng)用可能需要對錯
誤發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行日后的在應(yīng)用層的糾錯處理外,數(shù)據(jù)倉庫基本不可能更新
與刪除從源系統(tǒng)中傳過來的細(xì)節(jié)數(shù)據(jù)。
3.數(shù)據(jù)倉庫架構(gòu)
>兩類基本數(shù)據(jù)倉庫架構(gòu)
有兩類基本數(shù)據(jù)倉庫架構(gòu),一類是Inmon提出的CIF架構(gòu)(Corporate
InformationFactory,即企業(yè)信息工廠),一類是Kimball提出的MD架構(gòu)
(MutildimensionalArchitecture,即多維體系結(jié)構(gòu))。
CIF架構(gòu)要緊包含集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、
數(shù)據(jù)集市(DM)、探索倉庫(EW)等部件。
MD架構(gòu)要緊包含數(shù)據(jù)準(zhǔn)備區(qū)(StagingArea)與數(shù)據(jù)集市。MD的數(shù)據(jù)準(zhǔn)備
區(qū)在功能上相當(dāng)于CIF的stagingarea+EDW,要緊負(fù)責(zé)數(shù)據(jù)準(zhǔn)備工作,是一致
性維表注5的產(chǎn)生、儲存與分發(fā)的場所。數(shù)據(jù)集市要緊是使用一致性維表來完成維
度建模,多個數(shù)據(jù)集市一起合并成“虛擬”數(shù)據(jù)倉庫,這些數(shù)據(jù)集市能夠是存在
于一個數(shù)據(jù)庫中,也能夠是分布在不一致機器的不一致數(shù)據(jù)庫中。
兩類數(shù)據(jù)倉庫架構(gòu)各有優(yōu)缺點,CIF架構(gòu)建設(shè)周期較長且初始設(shè)計復(fù)雜,但
當(dāng)建立起企業(yè)級數(shù)據(jù)模型并完成數(shù)據(jù)清洗整合工作,數(shù)據(jù)的完整性與一致性問題
就能夠得到根本解決,后續(xù)針對需求變化易于擴展,且成本較低。MD架構(gòu)是先
著眼于某些部門級應(yīng)用創(chuàng)建快速見效的數(shù)據(jù)集市,而后以逐步創(chuàng)建與合并數(shù)據(jù)集
市的方式實現(xiàn)企業(yè)級數(shù)據(jù)倉庫,這樣啟動成本較低且初始設(shè)計較簡單,但是全局
數(shù)據(jù)的一致性與穩(wěn)固性需要通過對一致性維表的持續(xù)保護(hù)來保證,后續(xù)擴展的工
作量與代價較大。
在實際的數(shù)據(jù)倉庫項目解決方案中,往往是根據(jù)項目規(guī)模、實施目標(biāo)、成本
預(yù)算等在這兩類基本架構(gòu)上進(jìn)行取舍調(diào)整與變形。多數(shù)是使用CIF架構(gòu);也有使
用CIF架構(gòu)與MD架構(gòu)相結(jié)合的方法,比如,IBM提出的CDW(CorporateData
Warehouse)就是把CIF架構(gòu)的EDW與MD架構(gòu)的DM進(jìn)行結(jié)合的解決方案。
>解析CIF數(shù)據(jù)倉庫架構(gòu)
典型的CIF數(shù)據(jù)倉庫架構(gòu)見圖37,大的層次上要緊包含源數(shù)據(jù)層、ETL層、
數(shù)據(jù)服務(wù)層、數(shù)據(jù)展現(xiàn)層等部分。
現(xiàn)層
數(shù)據(jù)展
具
報表工
人員
決策
心
詢工具
靈活查
人員
管理
P工具
加載數(shù)OLA
數(shù)據(jù)據(jù)
文件緩
掘工具
存數(shù)據(jù)挖
人員
分析
區(qū)
發(fā)
應(yīng)用開
人員
業(yè)務(wù)
圖37
層
數(shù)據(jù)
/源
源
系統(tǒng)
業(yè)務(wù)
各類
況的
營狀
業(yè)經(jīng)
映企
集反
含采
,包
的源頭
據(jù)倉庫
層是數(shù)
源數(shù)據(jù)
L
由ET
方式
直連
據(jù)庫
用數(shù)
夠使
據(jù)能
源數(shù)
據(jù)。
的數(shù)
外部
來自
導(dǎo)入
據(jù)與
錄數(shù)
、補
數(shù)據(jù)
。
TL層
傳給E
件,再
數(shù)據(jù)文
到接口
先采集
選是
但首
務(wù)層,
數(shù)據(jù)服
抽取到
TL層
/E
可根
計中
目設(shè)
個項
在各
加載。
轉(zhuǎn)換與
取、
據(jù)抽
成數(shù)
是完
任務(wù)
設(shè)計
基本
ETL的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 光明的守護(hù)者燈具
- 《快餐廳設(shè)計》課件
- 2024年一年級品生下冊《種養(yǎng)一棵花》教案2 山東版
- 2024學(xué)年九年級英語上冊 Unit 4 Stories and poems Lesson 24 Writing a Poem教學(xué)設(shè)計(新版)冀教版
- 2024-2025學(xué)年八年級物理下冊 第九章 機械和功 四 功率教案 (新版)北師大版
- 2023六年級數(shù)學(xué)上冊 一 小手藝展示-分?jǐn)?shù)乘法信息窗3 求一個數(shù)的幾分之幾是多少說課稿 青島版六三制
- 2023七年級道德與法治上冊 第三單元 師長情誼 第六課 師生之間第2框 師生交往說課稿 新人教版
- 動詞錘煉 課件
- 自己擬的入股合同(2篇)
- 獲獎?wù)n件 英語
- 湖南省長沙市雅禮集團(tuán)2024-2025學(xué)年九年級上學(xué)期11月期中英語試題
- 2023年 評審準(zhǔn)則質(zhì)量記錄手冊表格匯編(101個)
- 2024年度采購合同管理程序指南
- GB/T 44693.1-2024危險化學(xué)品企業(yè)工藝平穩(wěn)性第1部分:管理導(dǎo)則
- 湖南省三湘名校教育聯(lián)盟2023-2024學(xué)年高二下學(xué)期4月期中聯(lián)考地理試題
- 2024秋期國家開放大學(xué)專科《現(xiàn)代教師學(xué)導(dǎo)論》一平臺在線形考(形成性考核任務(wù)一至四)+終結(jié)性考核(大作業(yè))試題及答案
- 2024年銀行考試-征信人員考試近5年真題附答案
- 世界一流港口綜合評價報告
- 第四單元 比(單元測試)-2024-2025學(xué)年六年級上冊數(shù)學(xué)人教版
- 農(nóng)作物植保員技能競賽理論考試題及答案
- 遼寧省盤錦市第一完全中學(xué)2023-2024學(xué)年八年級上學(xué)期期中數(shù)學(xué)試卷
評論
0/150
提交評論