全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)_第1頁(yè)
全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)_第2頁(yè)
全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)_第3頁(yè)
全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)_第4頁(yè)
全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 全面認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)前言隨著我行信息科技工作進(jìn)入后藍(lán)圖時(shí)代,后線分析系統(tǒng)注1建設(shè)的需求會(huì)越來越高,將在快速響應(yīng)、高效實(shí)施、靈活應(yīng)變、信息統(tǒng)一、全局分析、深度挖掘、監(jiān)管有力、報(bào)送及時(shí)、降低成本等方面提出更多新的挑戰(zhàn)。面對(duì)藍(lán)圖成功投產(chǎn)后新的產(chǎn)品體系,如何統(tǒng)一規(guī)劃全轄數(shù)據(jù)資源、整合后線產(chǎn)品架構(gòu)、準(zhǔn)備各項(xiàng)技術(shù)預(yù)研可能是將來信息科技工作的一個(gè)重心。數(shù)據(jù)倉(cāng)庫(kù)(DW)是各行業(yè)后線系統(tǒng)發(fā)展的一個(gè)重要方向,它在克服部門級(jí)應(yīng)用的局限(數(shù)據(jù)分隔注2、重復(fù)存儲(chǔ)、重復(fù)中間加工過程注3、維護(hù)工作繁瑣、資源重復(fù)投入等)、滿足全轄基礎(chǔ)數(shù)據(jù)共享、提供全局分析視角和應(yīng)用組件、支持快捷靈活和低成本的開發(fā)部署等方面有著不可替代的功能和

2、地位。數(shù)據(jù)倉(cāng)庫(kù)本身有著不同視角的概念解釋,大可涵蓋整個(gè)企業(yè)級(jí)應(yīng)用架構(gòu),小可專注于單純的數(shù)據(jù)建模與存儲(chǔ);數(shù)據(jù)倉(cāng)庫(kù)涉及重多相關(guān)技術(shù),如ETL、數(shù)據(jù)模型設(shè)計(jì)、多維分析、數(shù)據(jù)挖掘等;數(shù)據(jù)倉(cāng)庫(kù)建設(shè)可能是一個(gè)復(fù)雜高難的全局性項(xiàng)目,正確的實(shí)施路徑、策略、方法與有效的質(zhì)量管理是項(xiàng)目成敗的關(guān)鍵;另外,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)施后的管理與維護(hù),也是保證各類后線應(yīng)用系統(tǒng)長(zhǎng)期順利運(yùn)行的重要因素。針對(duì)這些數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的概念、技術(shù)、策略、方法等,可能并不是每個(gè)人都有比較全面的了解。因此有必要對(duì)這些做一個(gè)系統(tǒng)的介紹,使大家對(duì)數(shù)據(jù)倉(cāng)庫(kù)有一個(gè)全面清晰的認(rèn)識(shí)。數(shù)據(jù)倉(cāng)庫(kù)入門介紹應(yīng)用需求背景隨著聯(lián)機(jī)事務(wù)處理(OLTP)業(yè)務(wù)系統(tǒng)的深入應(yīng)用,企業(yè)

3、各類業(yè)務(wù)數(shù)據(jù)不斷積累和豐富,越來越需要從大量數(shù)據(jù)中提取有價(jià)值的信息,以輔助決策和指導(dǎo)經(jīng)營(yíng)。管理信息系統(tǒng)(MIS)和早期的決策支持系統(tǒng)注4(DSS)主要是基于傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)和事務(wù)處理環(huán)境,這種系統(tǒng)結(jié)構(gòu)隨著業(yè)務(wù)系統(tǒng)建設(shè)規(guī)模的擴(kuò)大、數(shù)據(jù)量的巨增和數(shù)據(jù)復(fù)雜度的提高,已無法滿足綜合分析型應(yīng)用的需求,造成數(shù)據(jù)豐富而信息貧乏的困境。首先,人們逐漸認(rèn)識(shí)到,分析處理和事務(wù)處理具有極不相同的性質(zhì),事務(wù)處理通常是對(duì)數(shù)據(jù)庫(kù)進(jìn)行聯(lián)機(jī)的查詢和修改操作,每筆交易的響應(yīng)時(shí)間和數(shù)據(jù)的安全完整是關(guān)鍵;而分析型處理往往是對(duì)大規(guī)模歷史數(shù)據(jù)的批量加工計(jì)算,數(shù)據(jù)的規(guī)范統(tǒng)一和整體時(shí)間窗口是重要關(guān)注點(diǎn)。因此直接采用傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)和使用事務(wù)

4、處理環(huán)境來支持分析型系統(tǒng)是不合適和失敗的。兩類系統(tǒng)的特點(diǎn)比較見表-1:事務(wù)處理型應(yīng)用分析處理型應(yīng)用很多用戶少量用戶小事務(wù)、頻率高、時(shí)間短大事務(wù)、頻率低、時(shí)間長(zhǎng)一次數(shù)據(jù)操作量小,是小單元的隨機(jī)數(shù)據(jù)操作一次數(shù)據(jù)操作量大,是大集合的批量數(shù)據(jù)操作更新與插入操作都很頻繁更新操作較少,插入操作較多需要當(dāng)前的細(xì)節(jié)的業(yè)務(wù)數(shù)據(jù)需要?dú)v史的整合的綜合數(shù)據(jù)響應(yīng)時(shí)間是關(guān)鍵總的處理時(shí)間是關(guān)鍵面向應(yīng)用、事務(wù)驅(qū)動(dòng),數(shù)據(jù)范圍小面向分析、分析驅(qū)動(dòng),數(shù)據(jù)范圍大表-1另一方面,企業(yè)的各類應(yīng)用系統(tǒng)是在不同時(shí)期通常由各部門或分支機(jī)構(gòu)面向特定應(yīng)用建設(shè)的,存在著數(shù)據(jù)平臺(tái)異構(gòu)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一等問題。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)和事務(wù)處理環(huán)境對(duì)于

5、實(shí)現(xiàn)基于個(gè)別業(yè)務(wù)系統(tǒng)的部門級(jí)MIS和初級(jí)DSS系統(tǒng)尚可支持,而對(duì)實(shí)現(xiàn)全局范圍的離散數(shù)據(jù)整合和綜合信息利用,建設(shè)跨部門的企業(yè)級(jí)分析應(yīng)用已無能為力。數(shù)據(jù)倉(cāng)庫(kù)的提出麻省理工學(xué)院在20世紀(jì)70年代對(duì)業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的處理過程進(jìn)行研究,結(jié)論是只能采用完全不同的架構(gòu)和設(shè)計(jì)方法。1988年,IBM為解決全企業(yè)數(shù)據(jù)集成問題,提出了信息倉(cāng)庫(kù)的概念,確立了原理、架構(gòu)和規(guī)范,但沒有進(jìn)行實(shí)際的設(shè)計(jì)。1991年,Bill Inmon提出了數(shù)據(jù)倉(cāng)庫(kù)概念,并對(duì)為什么建設(shè)數(shù)據(jù)倉(cāng)庫(kù)和如何建設(shè)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行了論述。Bill Inmon被稱為數(shù)據(jù)倉(cāng)庫(kù)之父。 Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間

6、變化的數(shù)據(jù)集合,它用以支持經(jīng)營(yíng)管理中的決策制定過程”。這個(gè)定義主要描述了數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)最基本特征。在數(shù)據(jù)倉(cāng)庫(kù)的整體概念中,這是對(duì)最核心部分的狹義定義。我們還應(yīng)該知道,除了這個(gè)最核心的倉(cāng)庫(kù)體之外,廣義的數(shù)據(jù)倉(cāng)庫(kù)概念,還包括來自各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過采集、下傳和加載等步驟進(jìn)行入倉(cāng)庫(kù)體的過程,包括倉(cāng)庫(kù)體的數(shù)據(jù)針對(duì)各類分析需求進(jìn)行多維加工、挖掘、利用的過程,并包括全程數(shù)據(jù)流程設(shè)計(jì)和數(shù)據(jù)質(zhì)量管理等過程。從狹義上說,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)具有四個(gè)基本特征的數(shù)據(jù)倉(cāng)儲(chǔ)體,從廣義上說,數(shù)據(jù)倉(cāng)庫(kù)是一種架設(shè)企業(yè)后線分析類應(yīng)用的解決方案。伴隨著數(shù)據(jù)倉(cāng)庫(kù),同時(shí)期還出現(xiàn)了聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘(DM)等新技術(shù),從此,

7、DW+OLAP+DM就逐漸形成新決策支持系統(tǒng)的概念。再后來的商務(wù)智能(BI)應(yīng)用需求更是基于DW+OLAP+DM的支持。兩種數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)思路提出數(shù)據(jù)倉(cāng)庫(kù)的不至Inmon一個(gè)人。Bill Inmon和Ralph Kimball都是數(shù)據(jù)倉(cāng)庫(kù)的首創(chuàng)者,但對(duì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的觀點(diǎn)很不相同。首先需要了解一個(gè)數(shù)據(jù)集市(DM)的概念。相對(duì)于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)企業(yè)級(jí)的高度綜合數(shù)據(jù)集,數(shù)據(jù)集市就是部門級(jí)的輕度綜合數(shù)據(jù)集。Inmon主張建立數(shù)據(jù)倉(cāng)庫(kù)時(shí)采用DWDM方式,即先建一個(gè)統(tǒng)一數(shù)據(jù)層(狹義DW,中央數(shù)據(jù)倉(cāng)庫(kù)),將不同的OLTP數(shù)據(jù)集中到面向主題、集成、穩(wěn)定、隨時(shí)間變化的統(tǒng)一數(shù)據(jù)層中,其中數(shù)據(jù)可以下鉆到最細(xì)層,或者上卷

8、到匯總層。再利用中間統(tǒng)一數(shù)據(jù)層,針對(duì)各部門的特殊分析需要設(shè)計(jì)獨(dú)立數(shù)據(jù)集市(數(shù)據(jù)倉(cāng)庫(kù)的子集)。見圖2-1: 圖2-1而Kimball主張DMDW方式,即直接將源數(shù)據(jù)抽取轉(zhuǎn)換到面向各部門分析需要的數(shù)據(jù)集市中,然后將一系列維數(shù)相同的數(shù)據(jù)集市聯(lián)合起來遞增地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),通過一致的維(公共定義的元素)能夠共同看到不同數(shù)據(jù)集市中的信息。也即數(shù)據(jù)集市的聯(lián)合數(shù)據(jù)倉(cāng)庫(kù)。見圖2-2: 圖2-2兩種設(shè)計(jì)思路產(chǎn)生兩種不同的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)模式,一種是先構(gòu)建企業(yè)中央數(shù)據(jù)倉(cāng)庫(kù),一次性的完成數(shù)據(jù)的重構(gòu)工作,最小化數(shù)據(jù)冗余度和不一致性,再?gòu)闹醒霐?shù)據(jù)倉(cāng)庫(kù)中建造數(shù)據(jù)集市,數(shù)據(jù)集市從數(shù)據(jù)倉(cāng)庫(kù)中得到大部分的集成數(shù)據(jù),且直接依賴于數(shù)據(jù)倉(cāng)庫(kù)

9、的可用性。這種建設(shè)模式的問題在于:投資回報(bào)時(shí)間如何保證?建設(shè)中央數(shù)據(jù)模型的必要性和可能性?初始費(fèi)用如何預(yù)算?。另一種建設(shè)模式是先建數(shù)據(jù)集市,即由各個(gè)部門在各自的主題區(qū)域內(nèi)進(jìn)行數(shù)據(jù)重構(gòu),快速得到投資收益,然后通過聯(lián)合數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),把建造數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)長(zhǎng)期的目標(biāo)。這種由數(shù)據(jù)集市匯成數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)模式面臨的主要問題是:各個(gè)數(shù)據(jù)集市的數(shù)據(jù)不一致性難以解決,且存在一定的數(shù)據(jù)冗余。 這種方法更能滿足近期目標(biāo)的需求,但增加了未來轉(zhuǎn)換為獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)體系結(jié)構(gòu)的困難。從總的比較結(jié)果來看,Inmon的建設(shè)模式起步難度大,但如果走好了第一步,長(zhǎng)遠(yuǎn)利好;Kimbal的建設(shè)模式更能滿足近期目標(biāo)的需

10、求,但當(dāng)未來試圖跨數(shù)據(jù)集市獲取聯(lián)合視圖時(shí),可能面臨嚴(yán)重問題。數(shù)據(jù)倉(cāng)庫(kù)建設(shè)模式的選擇主要取決于商業(yè)驅(qū)動(dòng)。如果企業(yè)正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),那么Inmon的方法就更好一些,可以帶來全面革命和解放;如果企業(yè)迫切需要給用戶提供信息,那么Kimbal的方法更能滿足需求,可以通過逐步改革解決問題。大型項(xiàng)目一般會(huì)采用Inmon的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)策略,全球最資深的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)商TERADATA就是這種模式的忠實(shí)支持者。數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)特征Inmon的數(shù)據(jù)倉(cāng)庫(kù)思想被奉為經(jīng)典,他在數(shù)據(jù)倉(cāng)庫(kù)定義中描述的四個(gè)基本特征是數(shù)據(jù)倉(cāng)庫(kù)之路上的入門概念,是數(shù)據(jù)倉(cāng)庫(kù)區(qū)別于事務(wù)處理環(huán)境和傳統(tǒng)獨(dú)立分析應(yīng)用的最本質(zhì)內(nèi)容。面向主題O

11、LTP應(yīng)用或獨(dú)立分析應(yīng)用都是為滿足個(gè)別應(yīng)用需求而建設(shè)的,它們的數(shù)據(jù)是各取所需的、局部的,其數(shù)據(jù)定義標(biāo)準(zhǔn)和組織方式也各具特色。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)思想與此不同,它不是面向某個(gè)具體需求,而是對(duì)反映全轄業(yè)務(wù)經(jīng)營(yíng)情況的所有源數(shù)據(jù)進(jìn)行分門別類、統(tǒng)一組織,從而為現(xiàn)有和潛在的各類分析需求提供一致范圍和一致標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)支持。主題就是對(duì)企業(yè)內(nèi)結(jié)構(gòu)各異的源數(shù)據(jù)根據(jù)可用性、及時(shí)性、前瞻性、方便性等需要在較高層次上進(jìn)行綜合、歸類的抽象。例如對(duì)銀行來說,DW包括的主題域可以分為當(dāng)事人、協(xié)議、產(chǎn)品等。經(jīng)過按主題重構(gòu)的數(shù)據(jù)模型,應(yīng)當(dāng)可以支持所有的分析應(yīng)用。集成共享由于源數(shù)據(jù)的分散獨(dú)立、平臺(tái)異構(gòu)、標(biāo)準(zhǔn)不統(tǒng)一、模型差別大、冗余度高

12、等狀況,在將其提煉、抽取到數(shù)據(jù)倉(cāng)庫(kù)時(shí)要進(jìn)行必要的轉(zhuǎn)換與整合。這樣集成后的數(shù)據(jù),具有一致的結(jié)構(gòu)和標(biāo)準(zhǔn),才能為所有分析應(yīng)用共享。隨時(shí)間變化除了可能有小部分的業(yè)務(wù)數(shù)據(jù)補(bǔ)錄,數(shù)據(jù)倉(cāng)庫(kù)自身不產(chǎn)生源數(shù)據(jù),而只需要對(duì)進(jìn)入倉(cāng)庫(kù)的源數(shù)據(jù)進(jìn)行加工和匯總。加載處理后的統(tǒng)一基礎(chǔ)數(shù)據(jù)和匯總數(shù)據(jù)總是隨時(shí)間不斷增量變化的。不可更新源自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是已經(jīng)發(fā)生的數(shù)據(jù),除了個(gè)別分析應(yīng)用可能需要對(duì)錯(cuò)誤發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行日后的在應(yīng)用層的糾錯(cuò)處理外,數(shù)據(jù)倉(cāng)庫(kù)基本不會(huì)更新和刪除從源系統(tǒng)中傳過來的細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)兩類基本數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)有兩類基本數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),一類是Inmon提出的CIF架構(gòu)(Corporate Informatio

13、n Factory,即企業(yè)信息工廠),一類是Kimball提出的MD架構(gòu)(Mutildimensional Architecture,即多維體系結(jié)構(gòu))。CIF架構(gòu)主要包括集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(chǔ)(ODS)、數(shù)據(jù)倉(cāng)庫(kù)(EDW)、數(shù)據(jù)集市(DM)、探索倉(cāng)庫(kù)(EW)等部件。MD架構(gòu)主要包括數(shù)據(jù)準(zhǔn)備區(qū)(Staging Area)和數(shù)據(jù)集市。MD的數(shù)據(jù)準(zhǔn)備區(qū)在功能上相當(dāng)于 CIF 的staging area+EDW,主要負(fù)責(zé)數(shù)據(jù)準(zhǔn)備工作,是一致性維表注5的產(chǎn)生、保存和分發(fā)的場(chǎng)所。數(shù)據(jù)集市主要是采用一致性維表來完成維度建模,多個(gè)數(shù)據(jù)集市一起合并成“虛擬”數(shù)據(jù)倉(cāng)庫(kù),這些數(shù)據(jù)集市可以是存在于一個(gè)數(shù)據(jù)

14、庫(kù)中,也可以是分布在不同機(jī)器的不同數(shù)據(jù)庫(kù)中。兩類數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)各有優(yōu)缺點(diǎn),CIF架構(gòu)建設(shè)周期較長(zhǎng)且初始設(shè)計(jì)復(fù)雜,但當(dāng)建立起企業(yè)級(jí)數(shù)據(jù)模型并完成數(shù)據(jù)清洗整合工作,數(shù)據(jù)的完整性和一致性問題就能夠得到根本解決,后續(xù)針對(duì)需求變化易于擴(kuò)展,且成本較低。MD架構(gòu)是先著眼于某些部門級(jí)應(yīng)用創(chuàng)建快速見效的數(shù)據(jù)集市,而后以逐步創(chuàng)建和合并數(shù)據(jù)集市的方式實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),這樣啟動(dòng)成本較低且初始設(shè)計(jì)較簡(jiǎn)單,但是全局?jǐn)?shù)據(jù)的一致性和穩(wěn)定性需要通過對(duì)一致性維表的持續(xù)維護(hù)來保證,后續(xù)擴(kuò)展的工作量和代價(jià)較大。在實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目解決方案中,往往是根據(jù)項(xiàng)目規(guī)模、實(shí)施目標(biāo)、成本預(yù)算等在這兩類基本架構(gòu)上進(jìn)行取舍調(diào)整和變形。多數(shù)是采用C

15、IF架構(gòu);也有采用CIF架構(gòu)和MD架構(gòu)相結(jié)合的方法,例如,IBM提出的CDW(Corporate Data Warehouse)就是把CIF架構(gòu)的EDW與MD架構(gòu)的DM進(jìn)行結(jié)合的解決方案。解析CIF數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)典型的CIF數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)見圖3-1,大的層次上主要包括源數(shù)據(jù)層、ETL層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)展現(xiàn)層等部分。圖3-1源數(shù)據(jù)層源數(shù)據(jù)層是數(shù)據(jù)倉(cāng)庫(kù)的源頭,包括采集反映企業(yè)經(jīng)營(yíng)狀況的各類業(yè)務(wù)系統(tǒng)源數(shù)據(jù)、補(bǔ)錄數(shù)據(jù)以及導(dǎo)入來自外部的數(shù)據(jù)。源數(shù)據(jù)可以采用數(shù)據(jù)庫(kù)直連方式由ETL抽取到數(shù)據(jù)服務(wù)層,但首選是先采集到接口數(shù)據(jù)文件,再傳給ETL層。ETL層ETL的基本設(shè)計(jì)任務(wù)是完成數(shù)據(jù)抽取、轉(zhuǎn)換與加載。在各個(gè)項(xiàng)目

16、設(shè)計(jì)中可根據(jù)具體環(huán)境進(jìn)行調(diào)整,例如在我行已建立通用數(shù)據(jù)下傳平臺(tái)系統(tǒng),因此可以不再需要數(shù)據(jù)抽取功能。ETL作為將整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)處理過程串聯(lián)起來的生命通道,還負(fù)責(zé)對(duì)整個(gè)過程中的批量任務(wù)進(jìn)行調(diào)度、管理和監(jiān)控。另外我們將元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管控也歸為ETL層的任務(wù)。數(shù)據(jù)服務(wù)層數(shù)據(jù)服務(wù)層也可稱數(shù)據(jù)倉(cāng)庫(kù)層,其中包含多個(gè)層次。源數(shù)據(jù)緩存區(qū):加載數(shù)據(jù)先進(jìn)入源數(shù)據(jù)緩存區(qū)(也稱staing area),在這一層(數(shù)據(jù)落地或不落地)經(jīng)過進(jìn)一步的清洗和轉(zhuǎn)換之后進(jìn)入全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū)。加載過程中的臨時(shí)表就屬于這一層。ODS區(qū):是可選層,其數(shù)據(jù)結(jié)構(gòu)跟源數(shù)據(jù)結(jié)構(gòu)一致,相當(dāng)于業(yè)務(wù)數(shù)據(jù)的快照,保存相對(duì)于數(shù)據(jù)倉(cāng)庫(kù)比較實(shí)時(shí)

17、的數(shù)據(jù),主要是針對(duì)需要實(shí)時(shí)數(shù)據(jù)的操作型應(yīng)用需求,也可服務(wù)于實(shí)時(shí)性需求不強(qiáng)但需要按照源數(shù)據(jù)結(jié)構(gòu)訪問數(shù)據(jù)的應(yīng)用需求,如審計(jì)。ODS層的數(shù)據(jù)存儲(chǔ)周期一般不長(zhǎng),例如一周,一般不超過一月。如需長(zhǎng)時(shí)間保留,可以采用單庫(kù)同步處理或保留數(shù)據(jù)文件的方式實(shí)現(xiàn)。根據(jù)應(yīng)用需要,有時(shí)可能需要建立多個(gè)ODS區(qū)或ODS庫(kù)。全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū):即CIF架構(gòu)的EDW,存儲(chǔ)面向主題的、集成共享的、歷史的、不易變的全局視角企業(yè)數(shù)據(jù)。采用關(guān)系模型注6設(shè)計(jì),不面向具體應(yīng)用,而是要考慮整體使用的方便性和效率。所有分析類系統(tǒng)使用的數(shù)據(jù)(除了可能有使用ODS數(shù)據(jù)的應(yīng)用系統(tǒng))都應(yīng)通過本層提供,避免出現(xiàn)數(shù)據(jù)孤島。本層中可以存在面向一定邏輯視圖的

18、通用匯總數(shù)據(jù),以方便數(shù)據(jù)集市加工或提供更好性能的數(shù)據(jù)直接訪問,但理論上本層設(shè)計(jì)不用考慮最終用戶的需求。應(yīng)當(dāng)減少最終用戶對(duì)本層數(shù)據(jù)的過多直接訪問,通常應(yīng)該通過數(shù)據(jù)集市間接向最終用戶提供數(shù)據(jù),當(dāng)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)成熟之后,最終用戶對(duì)本層直接訪問的情況應(yīng)該很少,雖然有時(shí)也是必要且有益的。匯總數(shù)據(jù)緩存和DM區(qū):由于EDW中存儲(chǔ)的是關(guān)系模型的、統(tǒng)一標(biāo)準(zhǔn)的、最全面的基礎(chǔ)數(shù)據(jù),如果每個(gè)分析應(yīng)用都直接訪問EDW,應(yīng)用的性能和EDW承受的壓力都成問題,因此需要針對(duì)特定應(yīng)用提前加工各類匯總數(shù)據(jù)。匯總數(shù)據(jù)在數(shù)據(jù)緩沖層(落地或不落地)完成加工后,存儲(chǔ)到各個(gè)數(shù)據(jù)集市中。DM層的數(shù)據(jù)直接被具體應(yīng)用訪問,通常是按維度建模,根據(jù)應(yīng)

19、用需要也可建成關(guān)系模型。將DM與EDW放在同一數(shù)據(jù)庫(kù)中是可能的,但如果將它們物理上分開,放在不同的機(jī)器上處理好處更多,包括:將數(shù)據(jù)集市分別放在小一點(diǎn)的機(jī)器上,處理過程的費(fèi)用會(huì)下降;數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的工作相分離,整個(gè)處理過程將更容易管理,對(duì)容量的計(jì)劃也更容易預(yù)測(cè)和管理;不同的部門擁有相應(yīng)的數(shù)據(jù)集市,可以令各方滿意。數(shù)據(jù)展現(xiàn)層本層主要是通過各種工具或應(yīng)用開發(fā)實(shí)現(xiàn)對(duì)DM中數(shù)據(jù)的目標(biāo)應(yīng)用。數(shù)據(jù)展現(xiàn)工具主要包括報(bào)表、靈活查詢、OLAP分析、數(shù)據(jù)挖掘等各類;應(yīng)用開發(fā)更加靈活自主,還可以直接使用EDW中的通用基礎(chǔ)數(shù)據(jù)和通用匯總數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)如果把數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)看作一個(gè)產(chǎn)品,那么這是一個(gè)涵蓋了幾乎所有后線

20、分析子系統(tǒng)的巨型平臺(tái)產(chǎn)品,并且還要輕松支持不斷擴(kuò)充的應(yīng)用需求。這樣的一個(gè)平臺(tái)產(chǎn)品要能做到充滿活力的按需運(yùn)行,必須首先做好每一部分的規(guī)劃設(shè)計(jì)工作,這里我們分ETL設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)和應(yīng)用架構(gòu)設(shè)計(jì)進(jìn)行介紹。ETL設(shè)計(jì)ETL控制著整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的生命線,其設(shè)計(jì)直接關(guān)系著倉(cāng)庫(kù)內(nèi)的元數(shù)據(jù)質(zhì)量、倉(cāng)庫(kù)結(jié)構(gòu)的穩(wěn)健和流暢運(yùn)行。主要包括基本ETL、作業(yè)調(diào)度、元數(shù)據(jù)管理及其它方面的設(shè)計(jì)。ETL服務(wù)器可以獨(dú)立一臺(tái)機(jī)器,也可以與數(shù)據(jù)庫(kù)服務(wù)器同機(jī)?;綞TL 基本ETL功能主要可分為兩個(gè),其一是把握著數(shù)據(jù)倉(cāng)庫(kù)的入口,將來自不同架構(gòu)、不同形式、不同標(biāo)準(zhǔn)、不同結(jié)構(gòu)的各類業(yè)務(wù)數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)換、加載、加工等步驟送入EDW;其二

21、是將EDW中的數(shù)據(jù)加工轉(zhuǎn)換到DM中去。這部分的分析設(shè)計(jì)工作至少要包括以下方面的內(nèi)容。1,確定數(shù)據(jù)抽取范圍,包括數(shù)據(jù)源系統(tǒng)范圍的確定和每個(gè)源系統(tǒng)內(nèi)采集數(shù)據(jù)范圍的確定。這項(xiàng)工作一定需要對(duì)行業(yè)需求有相當(dāng)了解、對(duì)企業(yè)內(nèi)的軟件架構(gòu)和業(yè)務(wù)系統(tǒng)非常熟悉的人牽頭,并由各類業(yè)務(wù)系統(tǒng)的骨干人員組成工作組,從全局角度選定數(shù)據(jù)范圍。這不僅需要全面考慮當(dāng)前分析類應(yīng)用的數(shù)據(jù)需求,還要有一定的前瞻性,將反映企業(yè)重要經(jīng)營(yíng)信息將來可能使用的數(shù)據(jù)也劃入采集范圍。2, 制定數(shù)據(jù)接口文件格式、數(shù)據(jù)驗(yàn)證規(guī)范、錯(cuò)誤數(shù)據(jù)處理辦法和高性能加載方法,保證進(jìn)入倉(cāng)庫(kù)數(shù)據(jù)的及時(shí)、正確、有效。3,制定數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和轉(zhuǎn)換合并規(guī)則。這項(xiàng)工作是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)

22、化加工處理的前提,是倉(cāng)庫(kù)數(shù)據(jù)得以集成共享的保證。需要結(jié)合數(shù)據(jù)模型設(shè)計(jì)。4,梳理數(shù)據(jù)的加載、加工處理步驟和相互間的影響與依賴關(guān)系。保證數(shù)據(jù)根據(jù)依賴關(guān)系和時(shí)效需要、按照正確的次序各就各位。需要結(jié)合元數(shù)據(jù)設(shè)計(jì)。5,數(shù)據(jù)量和各階段處理時(shí)間估算、時(shí)間窗口評(píng)估等。采用并行等方法滿足時(shí)間窗口需求。作業(yè)調(diào)度整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的批量作業(yè)流程依賴ETL的正確調(diào)度。首先要梳理清楚每個(gè)作業(yè)的觸發(fā)機(jī)制、每個(gè)步驟的容錯(cuò)處理機(jī)制,以及各作業(yè)間的影響與依賴關(guān)系,才能正確配置ETL的調(diào)度表。要注意作業(yè)粒度的劃分(不宜過小或過大)、并行度的合適設(shè)置、中斷重跑措施等。并考慮采用動(dòng)態(tài)調(diào)整作業(yè)優(yōu)先級(jí)等方法以滿足下游系統(tǒng)的時(shí)間窗口。元數(shù)據(jù)管理

23、元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)中用來定義和描述業(yè)務(wù)和應(yīng)用數(shù)據(jù)、數(shù)據(jù)映射和演進(jìn)關(guān)系、處理流程及任務(wù)依賴等幾乎所有內(nèi)容的描述數(shù)據(jù),從而將數(shù)據(jù)倉(cāng)庫(kù)的各個(gè)角落和各個(gè)環(huán)節(jié)有機(jī)的串聯(lián)在一起,以不僅支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)各種功能實(shí)現(xiàn),而且應(yīng)該支持跟蹤數(shù)據(jù)倉(cāng)庫(kù)的狀況和變化,從而給數(shù)據(jù)倉(cāng)庫(kù)的生命運(yùn)動(dòng)提供一個(gè)整體概貌視圖。相對(duì)于數(shù)據(jù)倉(cāng)庫(kù)裸層的數(shù)據(jù)與功能,元數(shù)據(jù)就相當(dāng)于管理層的數(shù)據(jù),起著保駕護(hù)航的支撐作用。對(duì)于一個(gè)大型數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目,如果沒有元數(shù)據(jù)設(shè)計(jì),就相當(dāng)于建設(shè)一個(gè)大城市而沒有規(guī)劃圖紙、沒有考慮基礎(chǔ)設(shè)施建設(shè),是不可能成功的。元數(shù)據(jù)自成一系,可以單獨(dú)存儲(chǔ)到元數(shù)據(jù)庫(kù),也可以與數(shù)據(jù)倉(cāng)庫(kù)共存在一個(gè)庫(kù)中。元數(shù)據(jù)設(shè)計(jì)應(yīng)力求全面、細(xì)致,可以參考業(yè)界的

24、一些數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)標(biāo)準(zhǔn),如CWM(Common Warehouse Model)等,注意所有元數(shù)據(jù)要統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一設(shè)計(jì)和管理,保證各層、各類元數(shù)據(jù)的銜接,避免出現(xiàn)數(shù)據(jù)斷層。元數(shù)據(jù)設(shè)計(jì)適宜早做,對(duì)于一個(gè)復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,事后維護(hù)比事先規(guī)劃成本要大得多。元數(shù)據(jù)的質(zhì)量在很大程度上決定著數(shù)據(jù)倉(cāng)庫(kù)的健壯程度和可用程度。元數(shù)據(jù)設(shè)計(jì)應(yīng)重點(diǎn)考慮描述清楚各層數(shù)據(jù)間的數(shù)據(jù)接口和轉(zhuǎn)換關(guān)系,以直觀的視圖追蹤哪些分析指標(biāo)來自哪些業(yè)務(wù)數(shù)據(jù)、經(jīng)過哪些處理步驟,支持?jǐn)?shù)據(jù)血緣分析和影響分析,發(fā)揮對(duì)數(shù)據(jù)質(zhì)量管控和系統(tǒng)運(yùn)行監(jiān)控的重要支持功能。隨著業(yè)務(wù)系統(tǒng)和某些業(yè)務(wù)參數(shù)的變化,元數(shù)據(jù)也是不斷發(fā)展變化的,要注意元數(shù)據(jù)的一致性和持續(xù)性

25、維護(hù)。其它管理功能ETL的護(hù)航作用除了依靠設(shè)計(jì)周密的元數(shù)據(jù)提供支持,還要設(shè)計(jì)開發(fā)相應(yīng)的系統(tǒng)功能,如任務(wù)調(diào)度依賴關(guān)系查詢、批任務(wù)完成情況查詢、警告與錯(cuò)誤查詢、倉(cāng)庫(kù)數(shù)據(jù)使用狀況、性能與資源狀況查詢、日志管理等。這些管理功能的設(shè)計(jì)應(yīng)滿足數(shù)據(jù)倉(cāng)庫(kù)日常運(yùn)行的監(jiān)管需要,可以逐步完善。對(duì)倉(cāng)庫(kù)數(shù)據(jù)的監(jiān)控應(yīng)包括進(jìn)入倉(cāng)庫(kù)的SQL命令和這些命令的結(jié)果集,使系統(tǒng)管理員能夠知曉數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)正在被使用、哪些數(shù)據(jù)經(jīng)常被使用等,可能需要在表級(jí)、行級(jí)和列級(jí)進(jìn)行監(jiān)控,以清楚掌握數(shù)據(jù)的情況,為存儲(chǔ)規(guī)劃和管理等提供依據(jù)。數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)區(qū)大概有四層:源數(shù)據(jù)緩沖區(qū)+ODS數(shù)據(jù)區(qū)、EDW、匯總數(shù)據(jù)緩沖區(qū)和DM。根據(jù)不同

26、數(shù)據(jù)層的使用目的和特性要求,應(yīng)分別采用不同的數(shù)據(jù)模型。主要有關(guān)系和多維兩種模型,它們主要的區(qū)別在于靈活性和性能方面。關(guān)系模型靈活,支持各類群組用戶任何形式的訪問和數(shù)據(jù)重構(gòu)需求,但在滿足終端用戶的訪問性能方面不夠理想;多維模型可以滿足終端用戶的直接訪問,性能很高,但靈活性不好。因此關(guān)系模型適合構(gòu)造企業(yè)級(jí)基礎(chǔ)數(shù)據(jù)模型,而多維模型適合構(gòu)建范圍有限的部門級(jí)應(yīng)用數(shù)據(jù)模型。源數(shù)據(jù)緩沖區(qū)和ODS數(shù)據(jù)區(qū)基本采用與源系統(tǒng)相同的數(shù)據(jù)模型,可直接提供基于源系統(tǒng)結(jié)構(gòu)的簡(jiǎn)單原貌訪問,一般保留短暫歷史。EDW采用面向主題的關(guān)系模型設(shè)計(jì),以存儲(chǔ)整合后的企業(yè)全局詳細(xì)數(shù)據(jù),支持各種類型最低粒度的數(shù)據(jù)需求。EDW中的數(shù)據(jù)是穩(wěn)定的

27、、持續(xù)增長(zhǎng)和長(zhǎng)期保存的,保存期一般為2年或3年,超過保存期限的數(shù)據(jù)在本區(qū)備帶。本層主要為數(shù)據(jù)集市提供基礎(chǔ)數(shù)據(jù)輸入服務(wù),也可提供小量級(jí)的隨機(jī)業(yè)務(wù)查詢服務(wù)。匯總數(shù)據(jù)緩沖區(qū)基本是對(duì)EDW數(shù)據(jù)區(qū)的各層邏輯視圖,主要用于加工DM數(shù)據(jù)區(qū)的中間過渡作用,也可物化為通用邏輯匯總數(shù)據(jù),提供對(duì)某些業(yè)務(wù)用戶的直接訪問支持。除物化匯總數(shù)據(jù)保留周期視需求而定(不超過EDW周期),其它數(shù)據(jù)保留周期短暫。DM數(shù)據(jù)層是面向某類應(yīng)用的匯總成品或半成品數(shù)據(jù),具有業(yè)務(wù)意義,用于支持特定而明確的需求,滿足特定用戶的快速訪問,一般采用多維模型設(shè)計(jì),保留周期視需求而定(一般不超過EDW周期)。下面講述EDW層的關(guān)系數(shù)據(jù)模型設(shè)計(jì)和DM層的

28、多維數(shù)據(jù)模型設(shè)計(jì)。關(guān)系模型設(shè)計(jì)EDW關(guān)系數(shù)據(jù)模型設(shè)計(jì)有幾個(gè)目的:消除冗余、統(tǒng)一標(biāo)準(zhǔn)、中性共享、方便使用、完整一致的描述和組織企業(yè)數(shù)據(jù)。設(shè)計(jì)要點(diǎn)是面向全局業(yè)務(wù)、全面反映企業(yè)經(jīng)營(yíng)狀況、包含最細(xì)節(jié)數(shù)據(jù)、靈活可擴(kuò)展,并同時(shí)規(guī)劃數(shù)據(jù)容量、存儲(chǔ)周期、備份機(jī)制、訪問方案和效率等;不需要太多考慮具體應(yīng)用的數(shù)據(jù)模式需求。設(shè)計(jì)EDW關(guān)系數(shù)據(jù)模型的第一步是確定主題區(qū)域,即將種類繁多的業(yè)務(wù)數(shù)據(jù)根據(jù)業(yè)務(wù)領(lǐng)域劃分成幾個(gè)高度概括的類別,例如對(duì)銀行業(yè)可以分為客戶、產(chǎn)品、協(xié)議、交易、財(cái)務(wù)等主題。第二步是確定每個(gè)主題區(qū)域內(nèi)的實(shí)體對(duì)象,及區(qū)域內(nèi)對(duì)象和跨區(qū)域?qū)ο蟮年P(guān)聯(lián)關(guān)系,例如客戶主題內(nèi)可以包括客戶基本信息、家庭信息、名稱歷史信息、

29、地址歷史信息等實(shí)體;產(chǎn)品主題內(nèi)可包括產(chǎn)品特性信息、利率信息、產(chǎn)品與客戶的關(guān)系等實(shí)體類型。對(duì)于某些應(yīng)用的個(gè)性化數(shù)據(jù)需求,雖然共享程度低,也須放入EDW,可以根據(jù)數(shù)據(jù)的共享程序和繁忙程序,在進(jìn)行物理設(shè)計(jì)時(shí)劃分出熱數(shù)據(jù)區(qū)和冷數(shù)據(jù)區(qū)。由于每個(gè)行業(yè)的企業(yè)數(shù)據(jù)有較大的相似性,而一個(gè)結(jié)構(gòu)穩(wěn)定、擴(kuò)展性強(qiáng)的EDW模型設(shè)計(jì)需要深厚的行業(yè)和技術(shù)經(jīng)驗(yàn),因此數(shù)據(jù)倉(cāng)庫(kù)廠商針對(duì)主要行業(yè)都有自己比較成熟的數(shù)據(jù)模型產(chǎn)品。企業(yè)在進(jìn)行EDW關(guān)系模型設(shè)計(jì)時(shí),可以借鑒這些成熟產(chǎn)品的設(shè)計(jì)思想并依靠自己的經(jīng)驗(yàn)與能力獨(dú)立完成,也可以依托成熟的行業(yè)產(chǎn)品進(jìn)行客戶化。多維模型設(shè)計(jì)DM層的主要目的是用于特定分析應(yīng)用的快速訪問,通常采用多維模型設(shè)計(jì),

30、當(dāng)然根據(jù)分析型應(yīng)用的特點(diǎn)與需要也可以采用關(guān)系模型設(shè)計(jì)。多維模型恰是根據(jù)用戶的請(qǐng)求而構(gòu)造的,其設(shè)計(jì)的最大優(yōu)點(diǎn)在于訪問的高效性,因此必須收集和理解用戶的最終需求,才能定義出優(yōu)化的多維模型結(jié)構(gòu)。確定結(jié)構(gòu)后的多維模型固定服務(wù)于特定用戶特定形式的訪問,不能再輕易改變而用于其它需求。多維模型也稱OLAP模型,是為了滿足用戶從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的需要而建立起來的基于度量(實(shí)際數(shù)據(jù)值)和維(描述數(shù)據(jù)的不同角度)的數(shù)據(jù)模型。在設(shè)計(jì)時(shí)應(yīng)首先選擇業(yè)務(wù)所需的度量指標(biāo),然后選擇度量的維度和反映維度等級(jí)結(jié)構(gòu)的層(粒度)。維度建模有三種實(shí)現(xiàn)方法:ROLAP、MOLAP和HOLAP。ROLAP是利用關(guān)系數(shù)據(jù)庫(kù)來存

31、儲(chǔ)多維數(shù)據(jù)和完成多維操作;MOLP是基于多維數(shù)據(jù)庫(kù)完成數(shù)據(jù)存儲(chǔ)和分析操作(例如ORACLE的分析工作區(qū)Analytic Workspace,簡(jiǎn)稱AW);HOLAP是基于關(guān)系和多維的混合模型,即利用關(guān)系數(shù)據(jù)庫(kù)來存儲(chǔ)和處理細(xì)節(jié)數(shù)據(jù),利用多維數(shù)據(jù)庫(kù)來存儲(chǔ)和處理聚合數(shù)據(jù)。多數(shù)采用ROLAP進(jìn)行設(shè)計(jì)。ROLAP模型有星型和雪花兩種結(jié)構(gòu),星型是基本結(jié)構(gòu)。星型結(jié)構(gòu)是采用中間一個(gè)事實(shí)表和外圍多個(gè)維度表來表達(dá)和存儲(chǔ)多維數(shù)據(jù),事實(shí)表用來存儲(chǔ)度量值和維關(guān)鍵字,每個(gè)維使用一個(gè)表來存儲(chǔ)維的層次結(jié)構(gòu),事實(shí)表和維表通過主外鍵關(guān)聯(lián)成“星型結(jié)構(gòu)”。對(duì)于層次復(fù)雜的維,可以將其進(jìn)一步層次化而分成多個(gè)維表,星型結(jié)構(gòu)就擴(kuò)展為“雪花結(jié)構(gòu)

32、”。雪花結(jié)構(gòu)有減少數(shù)據(jù)冗余等優(yōu)點(diǎn),但由于增加連接而導(dǎo)致性能下降等原因,通常不推薦。應(yīng)用架構(gòu)設(shè)計(jì)有了EDW的基礎(chǔ)數(shù)據(jù)和DM的應(yīng)用數(shù)據(jù),怎樣充分利用這些數(shù)據(jù),挖掘其中的商業(yè)價(jià)值是應(yīng)用架構(gòu)設(shè)計(jì)的范圍。應(yīng)用架構(gòu)設(shè)計(jì)既是建設(shè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的出發(fā)點(diǎn),也是目標(biāo)。數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值回報(bào)最終體現(xiàn)在所支持的各類應(yīng)用。一般應(yīng)用模式應(yīng)用模式一般有靈活查詢、數(shù)據(jù)挖掘和應(yīng)用開發(fā)等。靈活查詢解決那些無法預(yù)定義的查詢分析和詳細(xì)鉆取,可能是簡(jiǎn)單統(tǒng)計(jì)或某些明細(xì)數(shù)據(jù)項(xiàng)查詢,也可能是較復(fù)雜的計(jì)算與處理。常用的、能夠提煉出共性的靈活查詢可以轉(zhuǎn)化為固定報(bào)表。由于靈活查詢的時(shí)效要求相對(duì)較高,對(duì)這類應(yīng)用應(yīng)該為各部門規(guī)定數(shù)據(jù)范圍、操作范圍和查詢頻率

33、,以免影響數(shù)據(jù)倉(cāng)庫(kù)的性能;同時(shí)在ETL元數(shù)據(jù)設(shè)計(jì)時(shí)應(yīng)考慮對(duì)這類應(yīng)用狀況的動(dòng)態(tài)監(jiān)控。數(shù)據(jù)挖掘是針對(duì)特定領(lǐng)域的特定問題,從大量詳細(xì)數(shù)據(jù)中提取可能具有潛在價(jià)值的信息,基于機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等技術(shù),做出歸納性的推理,從中挖掘出潛在的模式,供決策者參考。數(shù)據(jù)挖掘一般需要跨業(yè)務(wù)領(lǐng)域進(jìn)行綜合關(guān)聯(lián)分析,信息全面,信息量大,而時(shí)效性要求不是太強(qiáng)。通常采用專業(yè)的工具。應(yīng)用開發(fā)是挖掘數(shù)據(jù)倉(cāng)庫(kù)價(jià)值的最有效方式,可以靈活滿足企業(yè)的各類后線應(yīng)用需要。不僅可以為領(lǐng)導(dǎo)層提供分析決策支持,為中層管理者、市場(chǎng)分析人員和操作員提供智能商務(wù)服務(wù),還可服務(wù)于各類監(jiān)管、報(bào)送需求。靈活設(shè)計(jì)數(shù)據(jù)集市EDW中的數(shù)據(jù)通常只在需要時(shí)才經(jīng)過

34、預(yù)加工后送入到DM中,DM并非只有一種模式,而是根據(jù)不同應(yīng)用目的設(shè)計(jì)不同的模式,例如有的需要設(shè)計(jì)成多維模型,而有的設(shè)計(jì)成關(guān)系模型更合適;有的要求越快見到數(shù)據(jù)越好,有的只需在月底的時(shí)候見到數(shù)據(jù)。對(duì)于每一個(gè)數(shù)據(jù)集市的不同需求,應(yīng)靈活區(qū)別對(duì)待,包括為其預(yù)測(cè)和計(jì)劃不同的處理機(jī)器和存儲(chǔ)容量。數(shù)據(jù)倉(cāng)庫(kù)實(shí)施與維護(hù)策略數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)復(fù)雜的系統(tǒng)工程,分析設(shè)計(jì)的每一具體步驟都很關(guān)鍵,而在更高角度上有一個(gè)正確的實(shí)施策略和方法論更是保證數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目成功的先決條件。另一方面,建成后的數(shù)據(jù)倉(cāng)庫(kù)像一個(gè)結(jié)構(gòu)龐大而邏輯嚴(yán)密的機(jī)器,具體的日常狀態(tài)監(jiān)控和錯(cuò)誤應(yīng)對(duì)措施十分重要,而在更高層次上有一套完善的維護(hù)策略對(duì)保障數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)

35、順利運(yùn)行也必不可少。除了一般的項(xiàng)目管理方法外,實(shí)施數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目還應(yīng)該重視以下策略:目標(biāo)明確和需求:持續(xù)建設(shè)和改進(jìn)是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目區(qū)別于一般軟件項(xiàng)目的一個(gè)特征,作為平臺(tái)型綜合性項(xiàng)目,數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值實(shí)現(xiàn)不是一步到位的。要宏觀規(guī)劃和階段性預(yù)期目標(biāo)相結(jié)合,經(jīng)過論證評(píng)估,明確自己的需求。很多數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目是由于需求不明確而導(dǎo)致失敗的。高層領(lǐng)導(dǎo)支持和用戶的充分參與:數(shù)據(jù)倉(cāng)庫(kù)不是一個(gè)普通的技術(shù)主導(dǎo)型項(xiàng)目,而是一個(gè)大的群集項(xiàng)目,需要高層領(lǐng)導(dǎo)的支持而保證和各部門間的密切高效配合。同時(shí)需要建立有效機(jī)制而推動(dòng)各業(yè)務(wù)部門的積極深入?yún)⑴c,只有持續(xù)不斷的基于數(shù)據(jù)倉(cāng)庫(kù)的海量數(shù)據(jù)建立更先進(jìn)的分析應(yīng)用,才能發(fā)揮出數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用價(jià)值

36、。重視數(shù)據(jù)質(zhì)量管控:數(shù)據(jù)質(zhì)量太差的數(shù)據(jù)倉(cāng)庫(kù),其應(yīng)用價(jià)值可以幾乎為零。除了做好具體的數(shù)據(jù)質(zhì)量檢查和維護(hù)工作,更重要的是建立一套完善的數(shù)據(jù)管控體系,不僅需要制訂數(shù)據(jù)質(zhì)量檢查、改進(jìn)和解決數(shù)據(jù)問題的任務(wù)、制度、方法與流程等,還必須有跨部門以上的領(lǐng)導(dǎo)牽頭建立一個(gè)組織平臺(tái)來負(fù)責(zé)數(shù)據(jù)質(zhì)量問題跟蹤解決和數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)。數(shù)據(jù)質(zhì)量管控是一個(gè)長(zhǎng)期持續(xù)的過程,重點(diǎn)是組織管理和抓好流程,好的經(jīng)驗(yàn)還有:持續(xù)推進(jìn)元數(shù)據(jù)精細(xì)化管理;做好數(shù)據(jù)生命周期管理;建立數(shù)據(jù)質(zhì)量評(píng)估模型;推進(jìn)主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)等。同業(yè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用發(fā)展?fàn)顩r數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在國(guó)內(nèi)外銀行業(yè)的應(yīng)用已有多年,可以說給銀行業(yè)帶來了比其傳統(tǒng)基礎(chǔ)業(yè)務(wù)系統(tǒng)更加鮮活

37、的競(jìng)爭(zhēng)力;然而,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的難度和風(fēng)險(xiǎn)也困擾著銀行業(yè)的IT決策者。銀行業(yè)數(shù)據(jù)倉(cāng)庫(kù)道路上的障礙并不是技術(shù)本身,而是在于建設(shè)策略、目標(biāo)定位、需求落實(shí)、遷移過渡等逐多困難因素,這需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)有深刻且高瞻遠(yuǎn)矚的認(rèn)識(shí),并且借鑒國(guó)內(nèi)外同行在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方面的成功經(jīng)驗(yàn),提高制勝把握。工商銀行數(shù)據(jù)倉(cāng)庫(kù)建設(shè)情況工商銀行運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)方法論建立的全行管理信息系統(tǒng)及在此基礎(chǔ)上的整合平臺(tái),包含了全行業(yè)務(wù)交易信息、客戶信息、內(nèi)部管理和外部環(huán)境信息有關(guān)的細(xì)節(jié)數(shù)據(jù),用于支持工商銀行經(jīng)營(yíng)管理和科學(xué)決策。建設(shè)策略堅(jiān)持整體規(guī)劃分步實(shí)施原則:1)總行統(tǒng)一規(guī)劃,協(xié)同攻關(guān),不搞重復(fù)建設(shè)。2)綜合考慮業(yè)務(wù)重要性、數(shù)據(jù)可支持性和支持

38、可行性。3)從全行管理、決策和業(yè)務(wù)發(fā)展需要出發(fā),分階段逐個(gè)開發(fā)不同主題應(yīng)用,合理部署進(jìn)程。遵循企業(yè)信息化漸近發(fā)展逐步完善的建設(shè)規(guī)律:如圖6-1。圖6-1業(yè)務(wù)功能全行統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(EDW)和客戶統(tǒng)一視圖:全行管理信息大集中統(tǒng)一平臺(tái)(EDW)于2007年12月完成一期建設(shè),實(shí)現(xiàn)了全行57個(gè)主要信息系統(tǒng)(包括信貸系統(tǒng)、電子銀行、核心銀行等)2324張數(shù)據(jù)源表信息的邏輯集中,實(shí)現(xiàn)全行管理信息從物理集中到邏輯集中的飛躍。在此基礎(chǔ)上實(shí)現(xiàn)對(duì)全行個(gè)人貸款、信用卡、理財(cái)金和金融資產(chǎn)超過萬元的個(gè)人客戶信息進(jìn)行全面整合,實(shí)現(xiàn)全行重點(diǎn)客戶單一視圖、向人行報(bào)送個(gè)人客戶征信信息、提供不良客戶信息等功能。實(shí)現(xiàn)全行法人

39、客戶信息集成管理和單一視圖等功能。自動(dòng)化統(tǒng)計(jì)平臺(tái),分行特色應(yīng)用數(shù)據(jù)返傳與管理:建立綜合統(tǒng)計(jì)系統(tǒng),搭建全行自動(dòng)化統(tǒng)計(jì)平臺(tái),實(shí)現(xiàn)全行3600多張經(jīng)營(yíng)管理報(bào)表的自動(dòng)生成。建立動(dòng)態(tài)監(jiān)測(cè)子系統(tǒng),實(shí)現(xiàn)全行境內(nèi)全口徑資產(chǎn)負(fù)債、損益等報(bào)表自動(dòng)化生成,真正實(shí)現(xiàn)“天天損益表”目標(biāo)。建立分行數(shù)據(jù)平臺(tái)(BDP)報(bào)表應(yīng)用系統(tǒng),基于BDP的基礎(chǔ)數(shù)據(jù),幫助分行開展特色信息應(yīng)用工作。投產(chǎn)9個(gè)客戶信用風(fēng)險(xiǎn)管理類數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng):如圖6-2圖6-2架構(gòu)設(shè)計(jì)總體應(yīng)用架構(gòu):如圖6-3圖6-3總體邏輯架構(gòu):如圖6-4圖6-4總體數(shù)據(jù)架構(gòu):如圖6-5圖6-5建設(shè)銀行數(shù)據(jù)倉(cāng)庫(kù)(DW&MIS)建行DW&MIS 是一個(gè)集中型的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),同

40、時(shí)支持總體和一級(jí)分行應(yīng)用。在數(shù)據(jù)倉(cāng)庫(kù)的總體架構(gòu)框架中,分行將部署以internet瀏覽器為主的數(shù)據(jù)查詢功能,同時(shí)部分一級(jí)分行也將根據(jù)其業(yè)務(wù)需要,部署支持其業(yè)務(wù)特色的數(shù)據(jù)集市和分析能力。在DW&MIS一期,分行將僅通過管理信息平臺(tái)向分行發(fā)布相關(guān)的靜態(tài)報(bào)表,不部署數(shù)據(jù)集市和動(dòng)態(tài)數(shù)據(jù)分析能力??傮w邏輯架構(gòu)如圖6-6:圖6-6源系統(tǒng):在數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)生命周期中,源系統(tǒng)的選擇是在變化的。源數(shù)據(jù)的選擇應(yīng)首先從業(yè)務(wù)應(yīng)用需求出發(fā),根據(jù)一期和未來階段分析應(yīng)用所需數(shù)據(jù)的需求,對(duì)建行的相關(guān)源系統(tǒng)進(jìn)行數(shù)據(jù)篩選,并對(duì)每一個(gè)數(shù)據(jù)字段進(jìn)行標(biāo)準(zhǔn)定義整理。應(yīng)將所有相關(guān)表的數(shù)據(jù)都從源數(shù)據(jù)系統(tǒng)抽取出來,數(shù)據(jù)倉(cāng)庫(kù)暫時(shí)不用的數(shù)據(jù)可以存

41、放在數(shù)據(jù)整合層,以便支持未來的數(shù)據(jù)需求。在比較、選擇源系統(tǒng)時(shí),應(yīng)采用貼近數(shù)據(jù)產(chǎn)生源的原則,盡量使用歸總、計(jì)算前的原始數(shù)據(jù),選擇正確的源數(shù)據(jù)。數(shù)據(jù)整合層:為了保證多系統(tǒng)對(duì)源系統(tǒng)數(shù)據(jù)抽取的需求,在數(shù)據(jù)從源數(shù)據(jù)系統(tǒng)抽取后在一個(gè)統(tǒng)一的數(shù)據(jù)整合環(huán)境中整合,完成技術(shù)層面的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換。采用建行已經(jīng)上線的UDI數(shù)據(jù)整合環(huán)境完成數(shù)據(jù)的整合。數(shù)據(jù)整合層只承擔(dān)操作型源系統(tǒng)的整合工作,數(shù)據(jù)倉(cāng)庫(kù)需要的其他中間業(yè)務(wù)系統(tǒng)如ERP系統(tǒng)將直接和數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)交換,而不通過數(shù)據(jù)整合層。數(shù)據(jù)整合層是批量交換數(shù)據(jù)的平臺(tái)。所有從源數(shù)據(jù)系統(tǒng)卸載的數(shù)據(jù),包括暫時(shí)不進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)都應(yīng)有介質(zhì)備份,以便日后需要時(shí)可以不需要對(duì)源數(shù)據(jù)接口進(jìn)

42、行大修改,這一方案需要UDI的擴(kuò)容。整合層的數(shù)據(jù)保留原則:每日的數(shù)據(jù)保留一周、每周的數(shù)據(jù)保留一個(gè)月、每月的數(shù)據(jù)保留三個(gè)月。ETL層:主要功能是完成數(shù)據(jù)從源系統(tǒng)的數(shù)據(jù)組織邏輯向數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)邏輯的轉(zhuǎn)換及數(shù)據(jù)倉(cāng)庫(kù)的加載。ETL的主要設(shè)計(jì)考量在于其數(shù)據(jù)轉(zhuǎn)換及加載的效率、可擴(kuò)充性以及ETL程序的自動(dòng)化和可維護(hù)性,例如與元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)映射。出于費(fèi)用和實(shí)施時(shí)間的考量,在DW&MIS第一階段,ETL工具將采用NCR的 Automation 數(shù)據(jù)轉(zhuǎn)換及加載工具。但建行應(yīng)該從企業(yè)數(shù)據(jù)架構(gòu)層面考慮其長(zhǎng)期的ETL工具和原數(shù)據(jù)管理能力的策略,以滿足企業(yè)數(shù)據(jù)環(huán)境復(fù)雜性的需要。數(shù)據(jù)緩沖區(qū)及數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)緩沖區(qū)是數(shù)據(jù)在加載

43、至數(shù)據(jù)倉(cāng)庫(kù)之前的臨時(shí)存貯區(qū)。數(shù)據(jù)倉(cāng)庫(kù)是DW&MIS的核心數(shù)據(jù)邏輯存貯空間。BI應(yīng)用層:是數(shù)據(jù)倉(cāng)庫(kù)向終端業(yè)務(wù)用戶提供應(yīng)用功能支持的界面,根據(jù)應(yīng)用功能提供的形式和所采用的應(yīng)用系統(tǒng)的不同,BI應(yīng)用層主要定義在以下幾個(gè)技術(shù)環(huán)境。管理信息平臺(tái)作為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的一個(gè)有機(jī)組成部分,將承擔(dān)著靜態(tài)報(bào)表的展現(xiàn)、分發(fā),手工數(shù)據(jù)的錄入,指標(biāo)數(shù)據(jù)的分發(fā)等任務(wù)。未來的管理信息平臺(tái)需要在作業(yè)調(diào)度自動(dòng)化,報(bào)表接口的標(biāo)準(zhǔn)化方向進(jìn)一步提高。數(shù)據(jù)分析環(huán)境為數(shù)據(jù)倉(cāng)庫(kù)的高端用戶提供動(dòng)態(tài)的數(shù)據(jù)分析及挖掘能力,包括:動(dòng)態(tài)報(bào)表的生成、多維數(shù)據(jù)分析、數(shù)據(jù)挖掘能力和管理信息儀表盤能力等。定制應(yīng)用軟件環(huán)境是為滿足業(yè)務(wù)需要在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中配置的應(yīng)用

44、軟件包??傮w數(shù)據(jù)架構(gòu)如圖6-7:圖6-7應(yīng)用主題涵蓋的數(shù)據(jù):見下表應(yīng)用主題主要數(shù)據(jù)類別用戶及人數(shù)數(shù)據(jù)粒度/頻率資產(chǎn)負(fù)債管理(ALM)公共類信息:機(jī)構(gòu)、賬號(hào)、科目、貨幣期限日期類信息:起息日、到期日等交易類信息:金額、摘要、日期時(shí)間分戶賬余額類信息:余額、利息等余額信息:當(dāng)前余額、初始金額等支付類信息:支付日、支付金額等利率類信息:利率、利差等總行ALM相關(guān)部門、一級(jí)分行每日財(cái)務(wù)績(jī)效管理(F&PM)產(chǎn)品、客戶經(jīng)理、成本、利潤(rùn)、預(yù)算總行財(cái)務(wù)及相關(guān)部門、一級(jí)分行、二級(jí)分行和支行每月(除了應(yīng)付款項(xiàng)外,其它為歸總數(shù)據(jù))風(fēng)險(xiǎn)管理(RM)客戶、產(chǎn)品、機(jī)構(gòu)、交易總行、一行分行每月更新分析型CRM(ACRM)客

45、戶、賬戶、渠道、產(chǎn)品、交易總行、一級(jí)分行、二級(jí)分行和支行13個(gè)月的每日數(shù)據(jù),7年的每月歸總數(shù)據(jù)多維分析報(bào)表(OLAP)客戶、賬戶、時(shí)間、產(chǎn)品、渠道、總賬、貨種、風(fēng)險(xiǎn)總行、一級(jí)分行、二級(jí)分行每日總行分行數(shù)據(jù)分布:見下表總行分行備注ALM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的ALM系統(tǒng)F&PM總行F&PM系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和應(yīng)付款數(shù)據(jù)到分行本地的應(yīng)用集市分行的F&PM應(yīng)納入分行本地的特色數(shù)據(jù),如中間業(yè)務(wù)的詳細(xì)數(shù)據(jù)RM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的RM系統(tǒng)ACRM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的ACRM系統(tǒng)OL

46、AP總行OLAP系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和指標(biāo)數(shù)據(jù)到分行本地的應(yīng)用數(shù)據(jù)集市分行本地的OLAP數(shù)據(jù)集市應(yīng)包括總行DW下發(fā)的匯總數(shù)據(jù)及本地特色數(shù)據(jù)大多數(shù)應(yīng)用不需要大量詳細(xì)數(shù)據(jù)通過網(wǎng)絡(luò)傳輸,分行用戶只需要結(jié)果數(shù)據(jù)。分行的F&PM和OLAP用戶應(yīng)首先考慮使用總行集中的數(shù)據(jù)集市,如果總行的數(shù)據(jù)集市不能滿足分行的特色業(yè)務(wù)需求,分行可以采用本地的數(shù)據(jù)集市。根據(jù)業(yè)界經(jīng)驗(yàn),數(shù)據(jù)集中、功能分散的方案比數(shù)據(jù)分散的總體成本低。數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的保留策略:見下表:基礎(chǔ)數(shù)據(jù)包含每筆交易的詳細(xì)數(shù)據(jù)、客戶和賬戶的詳細(xì)信息。對(duì)私客戶的交易數(shù)據(jù)因數(shù)據(jù)量大,而且業(yè)務(wù)功能通常不需要很長(zhǎng)歷史的詳細(xì)數(shù)據(jù),保留40天每筆交易

47、的詳細(xì)數(shù)據(jù)。對(duì)公客戶的交易數(shù)據(jù)量比對(duì)私客戶小,業(yè)務(wù)分析需求通常需要較長(zhǎng)歷史的詳細(xì)交易數(shù)據(jù),保留3年對(duì)公客戶的詳細(xì)交易數(shù)據(jù)。賬戶和客戶為狀態(tài)數(shù)據(jù),所有的客戶和賬戶和變化歷史數(shù)據(jù)都因歸納到數(shù)據(jù)倉(cāng)庫(kù)里。匯總數(shù)據(jù)包括三大類數(shù)據(jù):交易類、賬戶類和客戶類。交易數(shù)據(jù)應(yīng)按渠道、交易代碼、機(jī)構(gòu)、產(chǎn)品等維度匯總。對(duì)私客戶的日匯總,如每日每種交易代碼的交易額,日均余額,應(yīng)保存13個(gè)月的歷史。對(duì)公客戶的日匯總,應(yīng)保存3年的匯總數(shù)據(jù)。月匯總按國(guó)外銀行的通常作法,應(yīng)保留7年的歷史。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)返回機(jī)制:應(yīng)用數(shù)據(jù)集市只保留最新的評(píng)級(jí)結(jié)果,數(shù)據(jù)倉(cāng)庫(kù)保留分析結(jié)果和評(píng)級(jí)的歷史。從應(yīng)用數(shù)據(jù)集市到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)返回應(yīng)采用批處理

48、的方式。另外,ERP系統(tǒng)建立之后,總帳數(shù)據(jù)直接從ERP抽取、導(dǎo)入到DW。DW數(shù)據(jù)質(zhì)量檢查:從文件級(jí)別和數(shù)據(jù)記錄級(jí)別執(zhí)行以下數(shù)據(jù)質(zhì)量檢查點(diǎn)。源數(shù)據(jù)質(zhì)量檢查。從源數(shù)據(jù)系統(tǒng)傳輸?shù)綌?shù)據(jù)緩儲(chǔ)的所有數(shù)據(jù)都應(yīng)首先接受質(zhì)量檢查后才能導(dǎo)入,源數(shù)據(jù)的質(zhì)量檢查應(yīng)包括接口數(shù)據(jù)文件格式是否標(biāo)準(zhǔn)化的確認(rèn),并按照目標(biāo)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)模型或數(shù)據(jù)字典將不同源數(shù)據(jù)系統(tǒng)的字段屬性統(tǒng)一轉(zhuǎn)換成目標(biāo)系統(tǒng)要求的格式。ETL流程中的質(zhì)量檢查,每次數(shù)據(jù)的抽取、轉(zhuǎn)換和加載都必須有日志記錄,并確認(rèn)記錄數(shù)前后一致。從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)集市和應(yīng)用展現(xiàn)層的數(shù)據(jù)問題通常是由于業(yè)務(wù)指標(biāo)計(jì)算不正確引起,需要對(duì)業(yè)務(wù)邏輯和算法進(jìn)行修正。數(shù)據(jù)緩儲(chǔ)區(qū)的數(shù)據(jù)處理流程遵循的

49、原則:數(shù)據(jù)緩儲(chǔ)區(qū)應(yīng)將源系統(tǒng)數(shù)據(jù)按原有數(shù)據(jù)格式登錄接收,在進(jìn)行任何數(shù)據(jù)處理前,應(yīng)先將數(shù)據(jù)接收、保存在DW&MIS的ETL服務(wù)器的存儲(chǔ)中。必須檢驗(yàn)是否是重復(fù)的數(shù)據(jù)文本,避免對(duì)同樣的數(shù)據(jù)多次重復(fù)處理。應(yīng)盡量使用增量數(shù)據(jù),在使用自然鍵識(shí)別新數(shù)據(jù)的同時(shí),應(yīng)將新的數(shù)據(jù)文本的生成時(shí)間應(yīng)與最近加載的時(shí)間比較,從而獲取正確的增量數(shù)據(jù)。原則上,無用的數(shù)據(jù)應(yīng)由靠近源的步驟被檢出,避免不必要的處理和在以后的步驟里增加復(fù)雜的業(yè)務(wù)轉(zhuǎn)換規(guī)則,在緩儲(chǔ)區(qū)內(nèi)應(yīng)執(zhí)行數(shù)據(jù)清洗、標(biāo)準(zhǔn)化處理、非規(guī)范化化/規(guī)范化(denormalization/normalization), 換算和去重等流程。應(yīng)減少數(shù)據(jù)重復(fù)遍歷(Pass Through

50、)次數(shù),盡量將多個(gè)數(shù)據(jù)處理程序完成后再處理新的數(shù)據(jù)記錄。在緩儲(chǔ)區(qū)內(nèi)對(duì)源數(shù)據(jù)不進(jìn)行數(shù)據(jù)歸總。數(shù)據(jù)緩儲(chǔ)區(qū)應(yīng)包含參考數(shù)據(jù)。數(shù)據(jù)緩儲(chǔ)區(qū)應(yīng)維持主鍵查找表,主鍵查找應(yīng)能將源數(shù)據(jù)的鍵與數(shù)據(jù)倉(cāng)庫(kù)內(nèi)定的代理鍵關(guān)聯(lián)起來。緩儲(chǔ)區(qū)的數(shù)據(jù)處理應(yīng)提供數(shù)據(jù)檢控、審計(jì)功能,例如數(shù)據(jù)行數(shù),數(shù)據(jù)匯總,如與源數(shù)據(jù)有出入,應(yīng)該與源數(shù)據(jù)系統(tǒng)校對(duì),數(shù)據(jù)處理必須提供日志。數(shù)據(jù)緩儲(chǔ)區(qū)的數(shù)據(jù)應(yīng)保留至下一輪數(shù)據(jù)的成功加載。DW設(shè)計(jì):DW&MIS數(shù)據(jù)倉(cāng)庫(kù)管理的數(shù)據(jù)包含了集成之后的多年歷史數(shù)據(jù),數(shù)據(jù)量巨大,應(yīng)被合理的規(guī)劃、組織、存儲(chǔ),分片和索引,保證數(shù)據(jù)的管理和使用的高效性。按照建行數(shù)據(jù)“唯一事實(shí)”的要求,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)為各級(jí)業(yè)務(wù)人員提供一致的信息視圖

51、。DW&MIS數(shù)據(jù)倉(cāng)庫(kù)采用滿足第三范式的規(guī)范化建模,基于NCR FS-LDM進(jìn)行客戶化定制完成,并在Teradata關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)上實(shí)現(xiàn)。數(shù)據(jù)倉(cāng)庫(kù)應(yīng)保留7年的歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型包含下列類別的數(shù)據(jù)主題:數(shù)據(jù)集市設(shè)計(jì):數(shù)據(jù)集市是根據(jù)不同部門的業(yè)務(wù)需求,按照主題的方式對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的組織,建立業(yè)務(wù)應(yīng)用,其數(shù)據(jù)直接來自于數(shù)據(jù)倉(cāng)庫(kù)。ALM、RM、CRM和F&PM各個(gè)業(yè)務(wù)主題以及多維分析均應(yīng)建立各自的應(yīng)用數(shù)據(jù)集市。應(yīng)用數(shù)據(jù)集市的建設(shè)和分布應(yīng)考慮實(shí)施的成本、數(shù)據(jù)使用對(duì)網(wǎng)絡(luò)的影響和業(yè)務(wù)需求。DW&MIS項(xiàng)目一期將建立多維分析數(shù)據(jù)集市和ALM應(yīng)用數(shù)據(jù)集市。設(shè)計(jì)考慮因素有:集市數(shù)據(jù)永久保存;按照預(yù)

52、先安排的時(shí)間和頻度進(jìn)行數(shù)據(jù)集市的更新;在基礎(chǔ)平臺(tái)能夠支持的情況下,優(yōu)先采用虛擬集市(Virtual Mart)的技術(shù)。元數(shù)據(jù)管理策略:一期元數(shù)據(jù)存儲(chǔ)分為三部分。NCR MDS是符合CWM規(guī)范的元數(shù)據(jù)存儲(chǔ)庫(kù),安裝配置后以Teradata數(shù)據(jù)庫(kù)形式存在,提供了多種元數(shù)據(jù)加載工具和編程接口,在本項(xiàng)目中MDS用于保存數(shù)據(jù)源、ETL、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型、決策儀表盤元數(shù)據(jù)信息。Cognos元數(shù)據(jù)庫(kù)保存監(jiān)管報(bào)表、多維分析元數(shù)據(jù)。ALM元數(shù)據(jù)庫(kù)保存ALM元數(shù)據(jù)。美洲銀行的數(shù)據(jù)倉(cāng)庫(kù)型CRM從海外的情況看,對(duì)公業(yè)務(wù)的市場(chǎng)一旦趨于飽和,最后就會(huì)蛻變成價(jià)格競(jìng)爭(zhēng),很難有差別化的優(yōu)勢(shì)。所以IT金融咨詢領(lǐng)域認(rèn)為“從

53、全球銀行業(yè)的情況看, 個(gè)人銀行業(yè)務(wù)在價(jià)值創(chuàng)造方面遠(yuǎn)比公司業(yè)務(wù)高得多。”無疑, 正是個(gè)人銀行業(yè)務(wù)的發(fā)展?jié)摿ν滑F(xiàn)了CRM在商業(yè)銀行管理中的地位。美洲銀行的數(shù)據(jù)倉(cāng)庫(kù)型客戶關(guān)系管理系統(tǒng)是美國(guó)銀行業(yè)中開發(fā)比較成功的一種。美洲銀行擁有北美最大的客戶信息數(shù)據(jù)。由于數(shù)據(jù)倉(cāng)庫(kù)給銀行帶來了詳細(xì)的客戶信息, 美洲銀行的營(yíng)銷部門使用數(shù)據(jù)倉(cāng)庫(kù)來進(jìn)行精確的客戶細(xì)分, 從而開展更準(zhǔn)確、更有利的商業(yè)活動(dòng)。同時(shí), 該銀行利用預(yù)測(cè)性建模, 實(shí)現(xiàn)更有效的分析、測(cè)量和鎖定高利潤(rùn)客戶。在一次直郵客戶聯(lián)系行動(dòng)中,美洲銀行的加州數(shù)據(jù)庫(kù)將需要用郵件聯(lián)系的客戶數(shù)降低了40%,而反映率卻增加了97%,定購(gòu)率增加了21%,僅僅這個(gè)應(yīng)用就為銀行產(chǎn)生

54、了4500萬美元的利潤(rùn)。美洲銀行引進(jìn)數(shù)據(jù)倉(cāng)庫(kù)型客戶關(guān)系管理系統(tǒng)后,在數(shù)據(jù)處理上可以以更低的成本、更綜合的方式分析出有用的信息。例如,一些以前要幾個(gè)星期才能得到答案的業(yè)務(wù)問題,現(xiàn)在只需要幾分鐘甚至更少,效果非常明顯。再如,業(yè)務(wù)人員可以通過分析銀行的客戶群數(shù)據(jù),判斷哪些類型或具有什么特征的客戶最有可能購(gòu)買哪一種產(chǎn)品或服務(wù)。事實(shí)上, 單就數(shù)據(jù)倉(cāng)庫(kù)本身而言,美洲銀行利用這一技術(shù)實(shí)施個(gè)性化服務(wù),早在1994年就感受過強(qiáng)烈的應(yīng)用快感。在當(dāng)年的舊金山大地震中,美洲銀行利用郵編快速地找出受災(zāi)的客戶名單,提供災(zāi)后重建的貸款,極大地增強(qiáng)了客戶關(guān)系, 增加了銀行收入。2003年美洲銀行面向個(gè)人融資的總件數(shù)中, 74

55、%是借助數(shù)據(jù)倉(cāng)庫(kù)型客戶關(guān)系管理系統(tǒng)挖掘分析的信息, 通過電話直接推銷而成功的?,F(xiàn)在, 美洲銀行逐漸向數(shù)據(jù)倉(cāng)庫(kù)型客戶關(guān)系管理系統(tǒng)與電話銀行相結(jié)合, 向每天、甚至每時(shí)更新數(shù)據(jù), 深入發(fā)掘數(shù)據(jù)倉(cāng)庫(kù)型客戶關(guān)系管理系統(tǒng)潛力的方向發(fā)展。另外,在信用卡業(yè)務(wù)的拓展方面,數(shù)據(jù)倉(cāng)庫(kù)也起了很大的作用。一方面,通過對(duì)數(shù)據(jù)倉(cāng)庫(kù)中客戶信息的分析,識(shí)別出那些給銀行帶來更多利潤(rùn)并且信用好的客戶,對(duì)這些客戶提供更好的服務(wù);另一方面,對(duì)那些信用差的客戶,則要想辦法防止其呆賬行為,降低風(fēng)險(xiǎn)。除此以外,還找出那些使用了銀行其它服務(wù)卻沒有使用信用卡服務(wù)或者使用其它銀行卡服務(wù)的客戶。針對(duì)具有較好潛在利潤(rùn)可供挖掘的客戶群體,設(shè)計(jì)促銷活動(dòng),

56、將這些客戶吸引到美洲銀行來,這樣既拓展了信用卡業(yè)務(wù),又降低了促銷成本。美洲銀行是1986年開始投資建立Teradata數(shù)據(jù)倉(cāng)庫(kù)的,它采用循序漸進(jìn)的方式實(shí)施,分階段實(shí)施,由一個(gè)主題應(yīng)用開始逐步展開,在功能實(shí)現(xiàn)上逐步延伸。剛開始時(shí)數(shù)據(jù)庫(kù)容量為20GB,后來逐步擴(kuò)展成超過4TB 的龐大系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品介紹數(shù)據(jù)倉(cāng)庫(kù)建設(shè)離不了選擇“原材料”這一環(huán)節(jié)。世界上主要的數(shù)據(jù)倉(cāng)庫(kù)廠商都提供成套的產(chǎn)品和解決方案。雖然選擇任一家的“原材料”都可能完成自己的建設(shè),但是如果能根據(jù)自身的實(shí)施策略與方案,選用更加適合自身特點(diǎn)的產(chǎn)品和服務(wù),無疑能夠增大成功把握。本節(jié)對(duì)其中幾家產(chǎn)品做簡(jiǎn)要介紹和比較。Oracle數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)

57、Oracle公司在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的每一個(gè)環(huán)節(jié)上都提供了相應(yīng)的技術(shù)手段及工具,產(chǎn)品之間無縫集成,圖11所示為Oracle公司10G版本的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu):圖-11這個(gè)體系結(jié)構(gòu)的產(chǎn)品可以分成三個(gè)層次:數(shù)據(jù)獲取層:Oracle Warehouse Builder(OWB)實(shí)現(xiàn)了從數(shù)據(jù)模型設(shè)計(jì)、ETL流程設(shè)計(jì)和元數(shù)據(jù)管理的全部功能。OWB生成的ETL腳本存儲(chǔ)在Oracle10g數(shù)據(jù)庫(kù)中執(zhí)行,按照數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的要求,定時(shí)地完成數(shù)據(jù)的抽取并加載到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中。由于ETL的執(zhí)行是在Oracle10g 數(shù)據(jù)庫(kù)中,可以充分利用Oracle10g數(shù)據(jù)庫(kù)提供的強(qiáng)大并行處理能力,保證數(shù)據(jù)獲取的高效、可靠執(zhí)行。數(shù)據(jù)存儲(chǔ)

58、層:Oracle10g數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)各種類型數(shù)據(jù)的集中存儲(chǔ)和管理,包括各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。Oracle10g數(shù)據(jù)庫(kù)內(nèi)置OLAP和數(shù)據(jù)挖掘功能,不需要進(jìn)行數(shù)據(jù)遷移,就可以直接在關(guān)系數(shù)據(jù)庫(kù)中完成復(fù)雜的統(tǒng)計(jì)分析功能。Oracle10g數(shù)據(jù)庫(kù)可以支持海量數(shù)據(jù)的存儲(chǔ),一個(gè)數(shù)據(jù)庫(kù)最大數(shù)據(jù)量為8,000PB(1PB=1024TB)。Oracle10g提供強(qiáng)大的并行處理能力,滿足數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)對(duì)于性能和擴(kuò)展性方面的要求。系統(tǒng)并通過網(wǎng)格控制臺(tái)(Grid Control)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一管理。數(shù)據(jù)展現(xiàn)層:Oracle提供多種數(shù)據(jù)分析的工具,包括標(biāo)準(zhǔn)報(bào)表工具(Reports)、即席查詢工具(Dis

59、coverer)、OLAP分析開發(fā)工具(JDeveloperBIBeans)和數(shù)據(jù)挖掘工具(Oracle Data Miner),將統(tǒng)計(jì)分析的結(jié)果通過各種方式展現(xiàn)。Oracle的數(shù)據(jù)展現(xiàn)工具使用Java和HTML兩種方式實(shí)現(xiàn),基于標(biāo)準(zhǔn)的J2EE平臺(tái)。由于使用統(tǒng)一的元數(shù)據(jù)庫(kù),不需要進(jìn)行元數(shù)據(jù)的交換,能夠最大限度地減少系統(tǒng)的維護(hù)工作。同時(shí),Oracle的數(shù)據(jù)展現(xiàn)工具支持通過門戶(Portal)技術(shù)進(jìn)行集成,為不同類型的用戶提供一致的訪問界面。IBM企業(yè)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)總體結(jié)構(gòu)DB2 Data Warehouse Enterprise Edition (DB2數(shù)據(jù)倉(cāng)庫(kù)企業(yè)版)是一個(gè)商業(yè)智能平臺(tái),擴(kuò)展了I

60、BM DB2 UDB用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)和分析應(yīng)用的商業(yè)智能特性。包括聯(lián)邦數(shù)據(jù)訪問,數(shù)據(jù)分區(qū),在線分析處理,數(shù)據(jù)挖掘,ETL,工作負(fù)載管理等功能。整合了IBM DB2 UDB的商業(yè)智能特性,是面向客戶和合作伙伴,構(gòu)建企業(yè)隨需應(yīng)變架構(gòu),實(shí)施實(shí)時(shí)商業(yè)智能的新一代商業(yè)智能解決方案。DWEE總體結(jié)構(gòu)規(guī)劃如圖12:圖-12主要產(chǎn)品包括: 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的海量關(guān)系型數(shù)據(jù)庫(kù):DB2 UDB ESE企業(yè)版,數(shù)據(jù)倉(cāng)庫(kù)引擎數(shù)據(jù)分區(qū)模塊:DB2 UDB DPF,支持分區(qū)和多機(jī)并行調(diào)度復(fù)雜即席查詢的查詢管理器:Query Patroller,基于成本的查詢負(fù)載管理工具, 提高數(shù)據(jù)倉(cāng)庫(kù)吞吐量。多維分析工具:DB2 Cube

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論