全面認(rèn)識數(shù)據(jù)倉庫_第1頁
全面認(rèn)識數(shù)據(jù)倉庫_第2頁
全面認(rèn)識數(shù)據(jù)倉庫_第3頁
全面認(rèn)識數(shù)據(jù)倉庫_第4頁
全面認(rèn)識數(shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

51/51全面認(rèn)識數(shù)據(jù)倉庫前言隨著我行信息科技工作進(jìn)入后藍(lán)圖時(shí)代,后線分析系統(tǒng)注1建設(shè)的需求會(huì)越來越高,將在快速響應(yīng)、高效實(shí)施、靈活應(yīng)變、信息統(tǒng)一、全局分析、深度挖掘、監(jiān)管有力、報(bào)送及時(shí)、降低成本等方面提出更多新的挑戰(zhàn)。面對藍(lán)圖成功投產(chǎn)后新的產(chǎn)品體系,如何統(tǒng)一規(guī)劃全轄數(shù)據(jù)資源、整合后線產(chǎn)品架構(gòu)、預(yù)備各項(xiàng)技術(shù)預(yù)研可能是今后信息科技工作的一個(gè)重心。數(shù)據(jù)倉庫(DW)是各行業(yè)后線系統(tǒng)進(jìn)展的一個(gè)重要方向,它在克服部門級應(yīng)用的局限(數(shù)據(jù)分隔注2、重復(fù)存儲、重復(fù)中間加工過程注3、維護(hù)工作繁瑣、資源重復(fù)投入等)、滿足全轄基礎(chǔ)數(shù)據(jù)共享、提供全局分析視角和應(yīng)用組件、支持快捷靈活和低成本的開發(fā)部署等方面有著不可替代的功能和地位。數(shù)據(jù)倉庫本身有著不同視角的概念解釋,大可涵蓋整個(gè)企業(yè)級應(yīng)用架構(gòu),小可專注于單純的數(shù)據(jù)建模與存儲;數(shù)據(jù)倉庫涉及重多相關(guān)技術(shù),如ETL、數(shù)據(jù)模型設(shè)計(jì)、多維分析、數(shù)據(jù)挖掘等;數(shù)據(jù)倉庫建設(shè)可能是一個(gè)復(fù)雜高難的全局性項(xiàng)目,正確的實(shí)施路徑、策略、方法與有效的質(zhì)量治理是項(xiàng)目成敗的關(guān)鍵;另外,數(shù)據(jù)倉庫系統(tǒng)實(shí)施后的治理與維護(hù),也是保證各類后線應(yīng)用系統(tǒng)長期順利運(yùn)行的重要因素。針對這些數(shù)據(jù)倉庫相關(guān)的概念、技術(shù)、策略、方法等,可能并不是每個(gè)人都有比較全面的了解。因此有必要對這些做一個(gè)系統(tǒng)的介紹,使大伙兒對數(shù)據(jù)倉庫有一個(gè)全面清晰的認(rèn)識。數(shù)據(jù)倉庫入門介紹應(yīng)用需求背景隨著聯(lián)機(jī)事務(wù)處理(OLTP)業(yè)務(wù)系統(tǒng)的深入應(yīng)用,企業(yè)各類業(yè)務(wù)數(shù)據(jù)不斷積存和豐富,越來越需要從大量數(shù)據(jù)中提取有價(jià)值的信息,以輔助決策和指導(dǎo)經(jīng)營。治理信息系統(tǒng)(MIS)和早期的決策支持系統(tǒng)注4(DSS)要緊是基于傳統(tǒng)的數(shù)據(jù)庫技術(shù)和事務(wù)處理環(huán)境,這種系統(tǒng)結(jié)構(gòu)隨著業(yè)務(wù)系統(tǒng)建設(shè)規(guī)模的擴(kuò)大、數(shù)據(jù)量的巨增和數(shù)據(jù)復(fù)雜度的提高,已無法滿足綜合分析型應(yīng)用的需求,造成數(shù)據(jù)豐富而信息貧乏的困境。首先,人們逐漸認(rèn)識到,分析處理和事務(wù)處理具有極不相同的性質(zhì),事務(wù)處理通常是對數(shù)據(jù)庫進(jìn)行聯(lián)機(jī)的查詢和修改操作,每筆交易的響應(yīng)時(shí)刻和數(shù)據(jù)的安全完整是關(guān)鍵;而分析型處理往往是對大規(guī)模歷史數(shù)據(jù)的批量加工計(jì)算,數(shù)據(jù)的規(guī)范統(tǒng)一和整體時(shí)刻窗口是重要關(guān)注點(diǎn)。因此直接采納傳統(tǒng)數(shù)據(jù)庫技術(shù)和使用事務(wù)處理環(huán)境來支持分析型系統(tǒng)是不合適和失敗的。兩類系統(tǒng)的特點(diǎn)比較見表-1:事務(wù)處理型應(yīng)用分析處理型應(yīng)用專門多用戶少量用戶小事務(wù)、頻率高、時(shí)刻短大事務(wù)、頻率低、時(shí)刻長一次數(shù)據(jù)操作量小,是小單元的隨機(jī)數(shù)據(jù)操作一次數(shù)據(jù)操作量大,是大集合的批量數(shù)據(jù)操作更新與插入操作都專門頻繁更新操作較少,插入操作較多需要當(dāng)前的細(xì)節(jié)的業(yè)務(wù)數(shù)據(jù)需要?dú)v史的整合的綜合數(shù)據(jù)響應(yīng)時(shí)刻是關(guān)鍵總的處理時(shí)刻是關(guān)鍵面向應(yīng)用、事務(wù)驅(qū)動(dòng),數(shù)據(jù)范圍小面向分析、分析驅(qū)動(dòng),數(shù)據(jù)范圍大表-1另一方面,企業(yè)的各類應(yīng)用系統(tǒng)是在不同時(shí)期通常由各部門或分支機(jī)構(gòu)面向特定應(yīng)用建設(shè)的,存在著數(shù)據(jù)平臺異構(gòu)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一等問題。傳統(tǒng)的數(shù)據(jù)庫技術(shù)和事務(wù)處理環(huán)境關(guān)于實(shí)現(xiàn)基于個(gè)不業(yè)務(wù)系統(tǒng)的部門級MIS和初級DSS系統(tǒng)尚可支持,而對實(shí)現(xiàn)全局范圍的離散數(shù)據(jù)整合和綜合信息利用,建設(shè)跨部門的企業(yè)級分析應(yīng)用已無能為力。數(shù)據(jù)倉庫的提出麻省理工學(xué)院在20世紀(jì)70年代對業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的處理過程進(jìn)行研究,結(jié)論是只能采納完全不同的架構(gòu)和設(shè)計(jì)方法。1988年,IBM為解決全企業(yè)數(shù)據(jù)集成問題,提出了信息倉庫的概念,確立了原理、架構(gòu)和規(guī)范,但沒有進(jìn)行實(shí)際的設(shè)計(jì)。1991年,BillInmon提出了數(shù)據(jù)倉庫概念,并對什么緣故建設(shè)數(shù)據(jù)倉庫和如何建設(shè)數(shù)據(jù)倉庫進(jìn)行了論述。BillInmon被稱為數(shù)據(jù)倉庫之父。Inmon對數(shù)據(jù)倉庫的定義是“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)刻變化的數(shù)據(jù)集合,它用以支持經(jīng)營治理中的決策制定過程”。那個(gè)定義要緊描述了數(shù)據(jù)倉庫的四個(gè)最差不多特征。在數(shù)據(jù)倉庫的整體概念中,這是對最核心部分的狹義定義。我們還應(yīng)該明白,除了那個(gè)最核心的倉庫體之外,廣義的數(shù)據(jù)倉庫概念,還包括來自各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過采集、下傳和加載等步驟進(jìn)行入倉庫體的過程,包括倉庫體的數(shù)據(jù)針對各類分析需求進(jìn)行多維加工、挖掘、利用的過程,并包括全程數(shù)據(jù)流程設(shè)計(jì)和數(shù)據(jù)質(zhì)量治理等過程。從狹義上講,數(shù)據(jù)倉庫是一個(gè)具有四個(gè)差不多特征的數(shù)據(jù)倉儲體,從廣義上講,數(shù)據(jù)倉庫是一種架設(shè)企業(yè)后線分析類應(yīng)用的解決方案。伴隨著數(shù)據(jù)倉庫,同時(shí)期還出現(xiàn)了聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘(DM)等新技術(shù),從此,DW+OLAP+DM就逐漸形成新決策支持系統(tǒng)的概念。再后來的商務(wù)智能(BI)應(yīng)用需求更是基于DW+OLAP+DM的支持。兩種數(shù)據(jù)倉庫設(shè)計(jì)思路提出數(shù)據(jù)倉庫的不至Inmon一個(gè)人。BillInmon和RalphKimball差不多上數(shù)據(jù)倉庫的首創(chuàng)者,但對數(shù)據(jù)倉庫設(shè)計(jì)的觀點(diǎn)專門不相同。首先需要了解一個(gè)數(shù)據(jù)集市(DM)的概念。相關(guān)于數(shù)據(jù)倉庫是一個(gè)企業(yè)級的高度綜合數(shù)據(jù)集,數(shù)據(jù)集市確實(shí)是部門級的輕度綜合數(shù)據(jù)集。Inmon主張建立數(shù)據(jù)倉庫時(shí)采納DWDM方式,即先建一個(gè)統(tǒng)一數(shù)據(jù)層(狹義DW,中央數(shù)據(jù)倉庫),將不同的OLTP數(shù)據(jù)集中到面向主題、集成、穩(wěn)定、隨時(shí)刻變化的統(tǒng)一數(shù)據(jù)層中,其中數(shù)據(jù)能夠下鉆到最細(xì)層,或者上卷到匯總層。再利用中間統(tǒng)一數(shù)據(jù)層,針對各部門的專門分析需要設(shè)計(jì)獨(dú)立數(shù)據(jù)集市(數(shù)據(jù)倉庫的子集)。見圖2-1:圖2-1而Kimball主張DMDW方式,即直接將源數(shù)據(jù)抽取轉(zhuǎn)換到面向各部門分析需要的數(shù)據(jù)集市中,然后將一系列維數(shù)相同的數(shù)據(jù)集市聯(lián)合起來遞增地構(gòu)建數(shù)據(jù)倉庫,通過一致的維(公共定義的元素)能夠共同看到不同數(shù)據(jù)集市中的信息。也即數(shù)據(jù)集市的聯(lián)合=數(shù)據(jù)倉庫。見圖2-2:圖2-2兩種設(shè)計(jì)思路產(chǎn)生兩種不同的數(shù)據(jù)倉庫建設(shè)模式,一種是先構(gòu)建企業(yè)中央數(shù)據(jù)倉庫,一次性的完成數(shù)據(jù)的重構(gòu)工作,最小化數(shù)據(jù)冗余度和不一致性,再從中央數(shù)據(jù)倉庫中建筑數(shù)據(jù)集市,數(shù)據(jù)集市從數(shù)據(jù)倉庫中得到大部分的集成數(shù)據(jù),且直接依靠于數(shù)據(jù)倉庫的可用性。這種建設(shè)模式的問題在于:投資回報(bào)時(shí)刻如何保證?建設(shè)中央數(shù)據(jù)模型的必要性和可能性?初始費(fèi)用如何預(yù)算?。另一種建設(shè)模式是先建數(shù)據(jù)集市,即由各個(gè)部門在各自的主題區(qū)域內(nèi)進(jìn)行數(shù)據(jù)重構(gòu),快速得到投資收益,然后通過聯(lián)合數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫,把建筑數(shù)據(jù)倉庫作為一個(gè)長期的目標(biāo)。這種由數(shù)據(jù)集市匯成數(shù)據(jù)倉庫的建設(shè)模式面臨的要緊問題是:各個(gè)數(shù)據(jù)集市的數(shù)據(jù)不一致性難以解決,且存在一定的數(shù)據(jù)冗余。這種方法更能滿足近期目標(biāo)的需求,但增加了以后轉(zhuǎn)換為獨(dú)立的數(shù)據(jù)倉庫的數(shù)據(jù)體系結(jié)構(gòu)的困難。從總的比較結(jié)果來看,Inmon的建設(shè)模式起步難度大,但假如走好了第一步,長遠(yuǎn)利好;Kimbal的建設(shè)模式更能滿足近期目標(biāo)的需求,但當(dāng)以后試圖跨數(shù)據(jù)集市獵取聯(lián)合視圖時(shí),可能面臨嚴(yán)峻問題。數(shù)據(jù)倉庫建設(shè)模式的選擇要緊取決于商業(yè)驅(qū)動(dòng)。假如企業(yè)正忍受糟糕的數(shù)據(jù)治理和不一致的數(shù)據(jù),那么Inmon的方法就更好一些,能夠帶來全面革命和解放;假如企業(yè)迫切需要給用戶提供信息,那么Kimbal的方法更能滿足需求,能夠通過逐步改革解決問題。大型項(xiàng)目一般會(huì)采納Inmon的數(shù)據(jù)倉庫建設(shè)策略,全球最資深的數(shù)據(jù)倉庫服務(wù)商TERADATA確實(shí)是這種模式的忠實(shí)支持者。數(shù)據(jù)倉庫的四個(gè)特征Inmon的數(shù)據(jù)倉庫思想被奉為經(jīng)典,他在數(shù)據(jù)倉庫定義中描述的四個(gè)差不多特征是數(shù)據(jù)倉庫之路上的入門概念,是數(shù)據(jù)倉庫區(qū)不于事務(wù)處理環(huán)境和傳統(tǒng)獨(dú)立分析應(yīng)用的最本質(zhì)內(nèi)容。面向主題OLTP應(yīng)用或獨(dú)立分析應(yīng)用差不多上為滿足個(gè)不應(yīng)用需求而建設(shè)的,它們的數(shù)據(jù)是各取所需的、局部的,其數(shù)據(jù)定義標(biāo)準(zhǔn)和組織方式也各具特色。數(shù)據(jù)倉庫的設(shè)計(jì)思想與此不同,它不是面向某個(gè)具體需求,而是對反映全轄業(yè)務(wù)經(jīng)營情況的所有源數(shù)據(jù)進(jìn)行分門不類、統(tǒng)一組織,從而為現(xiàn)有和潛在的各類分析需求提供一致范圍和一致標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)支持。主題確實(shí)是對企業(yè)內(nèi)結(jié)構(gòu)各異的源數(shù)據(jù)依照可用性、及時(shí)性、前瞻性、方便性等需要在較高層次上進(jìn)行綜合、歸類的抽象。例如對銀行來講,DW包括的主題域能夠分為當(dāng)事人、協(xié)議、產(chǎn)品等。通過按主題重構(gòu)的數(shù)據(jù)模型,應(yīng)當(dāng)能夠支持所有的分析應(yīng)用。集成共享由于源數(shù)據(jù)的分散獨(dú)立、平臺異構(gòu)、標(biāo)準(zhǔn)不統(tǒng)一、模型差不大、冗余度高等狀況,在將其提煉、抽取到數(shù)據(jù)倉庫時(shí)要進(jìn)行必要的轉(zhuǎn)換與整合。如此集成后的數(shù)據(jù),具有一致的結(jié)構(gòu)和標(biāo)準(zhǔn),才能為所有分析應(yīng)用共享。隨時(shí)刻變化除了可能有小部分的業(yè)務(wù)數(shù)據(jù)補(bǔ)錄,數(shù)據(jù)倉庫自身不產(chǎn)生源數(shù)據(jù),而只需要對進(jìn)入倉庫的源數(shù)據(jù)進(jìn)行加工和匯總。加載處理后的統(tǒng)一基礎(chǔ)數(shù)據(jù)和匯總數(shù)據(jù)總是隨時(shí)刻不斷增量變化的。不可更新源自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)差不多上差不多發(fā)生的數(shù)據(jù),除了個(gè)不分析應(yīng)用可能需要對錯(cuò)誤發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行日后的在應(yīng)用層的糾錯(cuò)處理外,數(shù)據(jù)倉庫差不多可不能更新和刪除從源系統(tǒng)中傳過來的細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫架構(gòu)兩類差不多數(shù)據(jù)倉庫架構(gòu)有兩類差不多數(shù)據(jù)倉庫架構(gòu),一類是Inmon提出的CIF架構(gòu)(CorporateInformationFactory,即企業(yè)信息工廠),一類是Kimball提出的MD架構(gòu)(MutildimensionalArchitecture,即多維體系結(jié)構(gòu))。CIF架構(gòu)要緊包括集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集市(DM)、探究倉庫(EW)等部件。MD架構(gòu)要緊包括數(shù)據(jù)預(yù)備區(qū)(StagingArea)和數(shù)據(jù)集市。MD的數(shù)據(jù)預(yù)備區(qū)在功能上相當(dāng)于CIF的stagingarea+EDW,要緊負(fù)責(zé)數(shù)據(jù)預(yù)備工作,是一致性維表注5的產(chǎn)生、保存和分發(fā)的場所。數(shù)據(jù)集市要緊是采納一致性維表來完成維度建模,多個(gè)數(shù)據(jù)集市一起合并成“虛擬”數(shù)據(jù)倉庫,這些數(shù)據(jù)集市能夠是存在于一個(gè)數(shù)據(jù)庫中,也能夠是分布在不同機(jī)器的不同數(shù)據(jù)庫中。兩類數(shù)據(jù)倉庫架構(gòu)各有優(yōu)缺點(diǎn),CIF架構(gòu)建設(shè)周期較長且初始設(shè)計(jì)復(fù)雜,但當(dāng)建立起企業(yè)級數(shù)據(jù)模型并完成數(shù)據(jù)清洗整合工作,數(shù)據(jù)的完整性和一致性問題就能夠得到全然解決,后續(xù)針對需求變化易于擴(kuò)展,且成本較低。MD架構(gòu)是先著眼于某些部門級應(yīng)用創(chuàng)建快速見效的數(shù)據(jù)集市,而后以逐步創(chuàng)建和合并數(shù)據(jù)集市的方式實(shí)現(xiàn)企業(yè)級數(shù)據(jù)倉庫,如此啟動(dòng)成本較低且初始設(shè)計(jì)較簡單,然而全局?jǐn)?shù)據(jù)的一致性和穩(wěn)定性需要通過對一致性維表的持續(xù)維護(hù)來保證,后續(xù)擴(kuò)展的工作量和代價(jià)較大。在實(shí)際的數(shù)據(jù)倉庫項(xiàng)目解決方案中,往往是依照項(xiàng)目規(guī)模、實(shí)施目標(biāo)、成本預(yù)算等在這兩類差不多架構(gòu)上進(jìn)行取舍調(diào)整和變形。多數(shù)是采納CIF架構(gòu);也有采納CIF架構(gòu)和MD架構(gòu)相結(jié)合的方法,例如,IBM提出的CDW(CorporateDataWarehouse)確實(shí)是把CIF架構(gòu)的EDW與MD架構(gòu)的DM進(jìn)行結(jié)合的解決方案。解析CIF數(shù)據(jù)倉庫架構(gòu)典型的CIF數(shù)據(jù)倉庫架構(gòu)見圖3-1,大的層次上要緊包括源數(shù)據(jù)層、ETL層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)展現(xiàn)層等部分。圖3-1源數(shù)據(jù)層源數(shù)據(jù)層是數(shù)據(jù)倉庫的源頭,包括采集反映企業(yè)經(jīng)營狀況的各類業(yè)務(wù)系統(tǒng)源數(shù)據(jù)、補(bǔ)錄數(shù)據(jù)以及導(dǎo)入來自外部的數(shù)據(jù)。源數(shù)據(jù)能夠采納數(shù)據(jù)庫直連方式由ETL抽取到數(shù)據(jù)服務(wù)層,但首選是先采集到接口數(shù)據(jù)文件,再傳給ETL層。ETL層ETL的差不多設(shè)計(jì)任務(wù)是完成數(shù)據(jù)抽取、轉(zhuǎn)換與加載。在各個(gè)項(xiàng)目設(shè)計(jì)中可依照具體環(huán)境進(jìn)行調(diào)整,例如在我行已建立通用數(shù)據(jù)下傳平臺系統(tǒng),因此能夠不再需要數(shù)據(jù)抽取功能。ETL作為將整個(gè)數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)處理過程串聯(lián)起來的生命通道,還負(fù)責(zé)對整個(gè)過程中的批量任務(wù)進(jìn)行調(diào)度、治理和監(jiān)控。另外我們將元數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量管控也歸為ETL層的任務(wù)。數(shù)據(jù)服務(wù)層數(shù)據(jù)服務(wù)層也可稱數(shù)據(jù)倉庫層,其中包含多個(gè)層次。源數(shù)據(jù)緩存區(qū):加載數(shù)據(jù)先進(jìn)入源數(shù)據(jù)緩存區(qū)(也稱staingarea),在這一層(數(shù)據(jù)落地或不落地)通過進(jìn)一步的清洗和轉(zhuǎn)換之后進(jìn)入全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū)。加載過程中的臨時(shí)表就屬于這一層。ODS區(qū):是可選層,其數(shù)據(jù)結(jié)構(gòu)跟源數(shù)據(jù)結(jié)構(gòu)一致,相當(dāng)于業(yè)務(wù)數(shù)據(jù)的快照,保存相關(guān)于數(shù)據(jù)倉庫比較實(shí)時(shí)的數(shù)據(jù),要緊是針對需要實(shí)時(shí)數(shù)據(jù)的操作型應(yīng)用需求,也可服務(wù)于實(shí)時(shí)性需求不強(qiáng)但需要按照源數(shù)據(jù)結(jié)構(gòu)訪問數(shù)據(jù)的應(yīng)用需求,如審計(jì)。ODS層的數(shù)據(jù)存儲周期一般不長,例如一周,一般不超過一月。如需長時(shí)刻保留,能夠采納單庫同步處理或保留數(shù)據(jù)文件的方式實(shí)現(xiàn)。依照顧用需要,有時(shí)可能需要建立多個(gè)ODS區(qū)或ODS庫。全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū):即CIF架構(gòu)的EDW,存儲面向主題的、集成共享的、歷史的、不易變的全局視角企業(yè)數(shù)據(jù)。采納關(guān)系模型注6設(shè)計(jì),不面向具體應(yīng)用,而是要考慮整體使用的方便性和效率。所有分析類系統(tǒng)使用的數(shù)據(jù)(除了可能有使用ODS數(shù)據(jù)的應(yīng)用系統(tǒng))都應(yīng)通過本層提供,幸免出現(xiàn)數(shù)據(jù)孤島。本層中能夠存在面向一定邏輯視圖的通用匯總數(shù)據(jù),以方便數(shù)據(jù)集市加工或提供更好性能的數(shù)據(jù)直接訪問,但理論上本層設(shè)計(jì)不用考慮最終用戶的需求。應(yīng)當(dāng)減少最終用戶對本層數(shù)據(jù)的過多直接訪問,通常應(yīng)該通過數(shù)據(jù)集市間接向最終用戶提供數(shù)據(jù),當(dāng)數(shù)據(jù)倉庫建設(shè)成熟之后,最終用戶對本層直接訪問的情況應(yīng)該專門少,盡管有時(shí)也是必要且有益的。匯總數(shù)據(jù)緩存和DM區(qū):由于EDW中存儲的是關(guān)系模型的、統(tǒng)一標(biāo)準(zhǔn)的、最全面的基礎(chǔ)數(shù)據(jù),假如每個(gè)分析應(yīng)用都直接訪問EDW,應(yīng)用的性能和EDW承受的壓力都成問題,因此需要針對特定應(yīng)用提早加工各類匯總數(shù)據(jù)。匯總數(shù)據(jù)在數(shù)據(jù)緩沖層(落地或不落地)完成加工后,存儲到各個(gè)數(shù)據(jù)集市中。DM層的數(shù)據(jù)直接被具體應(yīng)用訪問,通常是按維度建模,依照顧用需要也可建成關(guān)系模型。將DM與EDW放在同一數(shù)據(jù)庫中是可能的,但假如將它們物理上分開,放在不同的機(jī)器上處理好處更多,包括:將數(shù)據(jù)集市分不放在小一點(diǎn)的機(jī)器上,處理過程的費(fèi)用會(huì)下降;數(shù)據(jù)集市與數(shù)據(jù)倉庫的工作相分離,整個(gè)處理過程將更容易治理,對容量的打算也更容易預(yù)測和治理;不同的部門擁有相應(yīng)的數(shù)據(jù)集市,能夠令各方中意。數(shù)據(jù)展現(xiàn)層本層要緊是通過各種工具或應(yīng)用開發(fā)實(shí)現(xiàn)對DM中數(shù)據(jù)的目標(biāo)應(yīng)用。數(shù)據(jù)展現(xiàn)工具要緊包括報(bào)表、靈活查詢、OLAP分析、數(shù)據(jù)挖掘等各類;應(yīng)用開發(fā)更加靈活自主,還能夠直接使用EDW中的通用基礎(chǔ)數(shù)據(jù)和通用匯總數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計(jì)假如把數(shù)據(jù)倉庫系統(tǒng)看作一個(gè)產(chǎn)品,那么這是一個(gè)涵蓋了幾乎所有后線分析子系統(tǒng)的巨型平臺產(chǎn)品,同時(shí)還要輕松支持不斷擴(kuò)充的應(yīng)用需求。如此的一個(gè)平臺產(chǎn)品要能做到充滿活力的按需運(yùn)行,必須首先做好每一部分的規(guī)劃設(shè)計(jì)工作,那個(gè)地點(diǎn)我們分ETL設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)和應(yīng)用架構(gòu)設(shè)計(jì)進(jìn)行介紹。ETL設(shè)計(jì)ETL操縱著整個(gè)數(shù)據(jù)倉庫的生命線,其設(shè)計(jì)直接關(guān)系著倉庫內(nèi)的元數(shù)據(jù)質(zhì)量、倉庫結(jié)構(gòu)的穩(wěn)健和流暢運(yùn)行。要緊包括差不多ETL、作業(yè)調(diào)度、元數(shù)據(jù)治理及其它方面的設(shè)計(jì)。ETL服務(wù)器能夠獨(dú)立一臺機(jī)器,也能夠與數(shù)據(jù)庫服務(wù)器同機(jī)。差不多ETL差不多ETL功能要緊可分為兩個(gè),其一是把握著數(shù)據(jù)倉庫的入口,今后自不同架構(gòu)、不同形式、不同標(biāo)準(zhǔn)、不同結(jié)構(gòu)的各類業(yè)務(wù)數(shù)據(jù),通過清洗、轉(zhuǎn)換、加載、加工等步驟送入EDW;其二是將EDW中的數(shù)據(jù)加工轉(zhuǎn)換到DM中去。這部分的分析設(shè)計(jì)工作至少要包括以下方面的內(nèi)容。1,確定數(shù)據(jù)抽取范圍,包括數(shù)據(jù)源系統(tǒng)范圍的確定和每個(gè)源系統(tǒng)內(nèi)采集數(shù)據(jù)范圍的確定。這項(xiàng)工作一定需要對行業(yè)需求有相當(dāng)了解、對企業(yè)內(nèi)的軟件架構(gòu)和業(yè)務(wù)系統(tǒng)特不熟悉的人牽頭,并由各類業(yè)務(wù)系統(tǒng)的骨干人員組成工作組,從全局角度選定數(shù)據(jù)范圍。這不僅需要全面考慮當(dāng)前分析類應(yīng)用的數(shù)據(jù)需求,還要有一定的前瞻性,將反映企業(yè)重要經(jīng)營信息今后可能使用的數(shù)據(jù)也劃入采集范圍。2,制定數(shù)據(jù)接口文件格式、數(shù)據(jù)驗(yàn)證規(guī)范、錯(cuò)誤數(shù)據(jù)處理方法和高性能加載方法,保證進(jìn)入倉庫數(shù)據(jù)的及時(shí)、正確、有效。3,制定數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和轉(zhuǎn)換合并規(guī)則。這項(xiàng)工作是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化加工處理的前提,是倉庫數(shù)據(jù)得以集成共享的保證。需要結(jié)合數(shù)據(jù)模型設(shè)計(jì)。4,梳理數(shù)據(jù)的加載、加工處理步驟和相互間的阻礙與依靠關(guān)系。保證數(shù)據(jù)依照依靠關(guān)系和時(shí)效需要、按照正確的次序各就各位。需要結(jié)合元數(shù)據(jù)設(shè)計(jì)。5,數(shù)據(jù)量和各時(shí)期處理時(shí)刻估算、時(shí)刻窗口評估等。采納并行等方法滿足時(shí)刻窗口需求。作業(yè)調(diào)度整個(gè)數(shù)據(jù)倉庫的批量作業(yè)流程依靠ETL的正確調(diào)度。首先要梳理清晰每個(gè)作業(yè)的觸發(fā)機(jī)制、每個(gè)步驟的容錯(cuò)處理機(jī)制,以及各作業(yè)間的阻礙與依靠關(guān)系,才能正確配置ETL的調(diào)度表。要注意作業(yè)粒度的劃分(不宜過小或過大)、并行度的合適設(shè)置、中斷重跑措施等。并考慮采納動(dòng)態(tài)調(diào)整作業(yè)優(yōu)先級等方法以滿足下游系統(tǒng)的時(shí)刻窗口。元數(shù)據(jù)治理元數(shù)據(jù)是數(shù)據(jù)倉庫中用來定義和描述業(yè)務(wù)和應(yīng)用數(shù)據(jù)、數(shù)據(jù)映射和演進(jìn)關(guān)系、處理流程及任務(wù)依靠等幾乎所有內(nèi)容的描述數(shù)據(jù),從而將數(shù)據(jù)倉庫的各個(gè)角落和各個(gè)環(huán)節(jié)有機(jī)的串聯(lián)在一起,以不僅支持?jǐn)?shù)據(jù)倉庫各種功能實(shí)現(xiàn),而且應(yīng)該支持跟蹤數(shù)據(jù)倉庫的狀況和變化,從而給數(shù)據(jù)倉庫的生命運(yùn)動(dòng)提供一個(gè)整體概貌視圖。相關(guān)于數(shù)據(jù)倉庫裸層的數(shù)據(jù)與功能,元數(shù)據(jù)就相當(dāng)于治理層的數(shù)據(jù),起著保駕護(hù)航的支撐作用。關(guān)于一個(gè)大型數(shù)據(jù)倉庫項(xiàng)目,假如沒有元數(shù)據(jù)設(shè)計(jì),就相當(dāng)于建設(shè)一個(gè)大都市而沒有規(guī)劃圖紙、沒有考慮基礎(chǔ)設(shè)施建設(shè),是不可能成功的。元數(shù)據(jù)自成一系,能夠單獨(dú)存儲到元數(shù)據(jù)庫,也能夠與數(shù)據(jù)倉庫共存在一個(gè)庫中。元數(shù)據(jù)設(shè)計(jì)應(yīng)力求全面、細(xì)致,能夠參考業(yè)界的一些數(shù)據(jù)倉庫元數(shù)據(jù)標(biāo)準(zhǔn),如CWM(CommonWarehouseModel)等,注意所有元數(shù)據(jù)要統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一設(shè)計(jì)和治理,保證各層、各類元數(shù)據(jù)的銜接,幸免出現(xiàn)數(shù)據(jù)斷層。元數(shù)據(jù)設(shè)計(jì)適宜早做,關(guān)于一個(gè)復(fù)雜的數(shù)據(jù)倉庫環(huán)境,事后維護(hù)比事先規(guī)劃成本要大得多。元數(shù)據(jù)的質(zhì)量在專門大程度上決定著數(shù)據(jù)倉庫的健壯程度和可用程度。元數(shù)據(jù)設(shè)計(jì)應(yīng)重點(diǎn)考慮描述清晰各層數(shù)據(jù)間的數(shù)據(jù)接口和轉(zhuǎn)換關(guān)系,以直觀的視圖追蹤哪些分析指標(biāo)來自哪些業(yè)務(wù)數(shù)據(jù)、通過哪些處理步驟,支持?jǐn)?shù)據(jù)血緣分析和阻礙分析,發(fā)揮對數(shù)據(jù)質(zhì)量管控和系統(tǒng)運(yùn)行監(jiān)控的重要支持功能。隨著業(yè)務(wù)系統(tǒng)和某些業(yè)務(wù)參數(shù)的變化,元數(shù)據(jù)也是不斷進(jìn)展變化的,要注意元數(shù)據(jù)的一致性和持續(xù)性維護(hù)。其它治理功能ETL的護(hù)航作用除了依靠設(shè)計(jì)周密的元數(shù)據(jù)提供支持,還要設(shè)計(jì)開發(fā)相應(yīng)的系統(tǒng)功能,如任務(wù)調(diào)度依靠關(guān)系查詢、批任務(wù)完成情況查詢、警告與錯(cuò)誤查詢、倉庫數(shù)據(jù)使用狀況、性能與資源狀況查詢、日志治理等。這些治理功能的設(shè)計(jì)應(yīng)滿足數(shù)據(jù)倉庫日常運(yùn)行的監(jiān)管需要,能夠逐步完善。對倉庫數(shù)據(jù)的監(jiān)控應(yīng)包括進(jìn)入倉庫的SQL命令和這些命令的結(jié)果集,使系統(tǒng)治理員能夠知曉數(shù)據(jù)倉庫中哪些數(shù)據(jù)正在被使用、哪些數(shù)據(jù)經(jīng)常被使用等,可能需要在表級、行級和列級進(jìn)行監(jiān)控,以清晰掌握數(shù)據(jù)的情況,為存儲規(guī)劃和治理等提供依據(jù)。數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫中的數(shù)據(jù)區(qū)大概有四層:源數(shù)據(jù)緩沖區(qū)+ODS數(shù)據(jù)區(qū)、EDW、匯總數(shù)據(jù)緩沖區(qū)和DM。依照不同數(shù)據(jù)層的使用目的和特性要求,應(yīng)分不采納不同的數(shù)據(jù)模型。要緊有關(guān)系和多維兩種模型,它們要緊的區(qū)不在于靈活性和性能方面。關(guān)系模型靈活,支持各類群組用戶任何形式的訪問和數(shù)據(jù)重構(gòu)需求,但在滿足終端用戶的訪問性能方面不夠理想;多維模型能夠滿足終端用戶的直接訪問,性能專門高,但靈活性不行。因此關(guān)系模型適合構(gòu)造企業(yè)級基礎(chǔ)數(shù)據(jù)模型,而多維模型適合構(gòu)建范圍有限的部門級應(yīng)用數(shù)據(jù)模型。源數(shù)據(jù)緩沖區(qū)和ODS數(shù)據(jù)區(qū)差不多采納與源系統(tǒng)相同的數(shù)據(jù)模型,可直接提供基于源系統(tǒng)結(jié)構(gòu)的簡單原貌訪問,一般保留短暫歷史。EDW采納面向主題的關(guān)系模型設(shè)計(jì),以存儲整合后的企業(yè)全局詳細(xì)數(shù)據(jù),支持各種類型最低粒度的數(shù)據(jù)需求。EDW中的數(shù)據(jù)是穩(wěn)定的、持續(xù)增長和長期保存的,保存期一般為2年或3年,超過保存期限的數(shù)據(jù)在本區(qū)備帶。本層要緊為數(shù)據(jù)集市提供基礎(chǔ)數(shù)據(jù)輸入服務(wù),也可提供小量級的隨機(jī)業(yè)務(wù)查詢服務(wù)。匯總數(shù)據(jù)緩沖區(qū)差不多是對EDW數(shù)據(jù)區(qū)的各層邏輯視圖,要緊用于加工DM數(shù)據(jù)區(qū)的中間過渡作用,也可物化為通用邏輯匯總數(shù)據(jù),提供對某些業(yè)務(wù)用戶的直接訪問支持。除物化匯總數(shù)據(jù)保留周期視需求而定(不超過EDW周期),其它數(shù)據(jù)保留周期短暫。DM數(shù)據(jù)層是面向某類應(yīng)用的匯總成品或半成品數(shù)據(jù),具有業(yè)務(wù)意義,用于支持特定而明確的需求,滿足特定用戶的快速訪問,一般采納多維模型設(shè)計(jì),保留周期視需求而定(一般不超過EDW周期)。下面講述EDW層的關(guān)系數(shù)據(jù)模型設(shè)計(jì)和DM層的多維數(shù)據(jù)模型設(shè)計(jì)。關(guān)系模型設(shè)計(jì)EDW關(guān)系數(shù)據(jù)模型設(shè)計(jì)有幾個(gè)目的:消除冗余、統(tǒng)一標(biāo)準(zhǔn)、中性共享、方便使用、完整一致的描述和組織企業(yè)數(shù)據(jù)。設(shè)計(jì)要點(diǎn)是面向全局業(yè)務(wù)、全面反映企業(yè)經(jīng)營狀況、包含最細(xì)節(jié)數(shù)據(jù)、靈活可擴(kuò)展,并同時(shí)規(guī)劃數(shù)據(jù)容量、存儲周期、備份機(jī)制、訪問方案和效率等;不需要太多考慮具體應(yīng)用的數(shù)據(jù)模式需求。設(shè)計(jì)EDW關(guān)系數(shù)據(jù)模型的第一步是確定主題區(qū)域,立即種類繁多的業(yè)務(wù)數(shù)據(jù)依照業(yè)務(wù)領(lǐng)域劃分成幾個(gè)高度概括的類不,例如對銀行業(yè)能夠分為客戶、產(chǎn)品、協(xié)議、交易、財(cái)務(wù)等主題。第二步是確定每個(gè)主題區(qū)域內(nèi)的實(shí)體對象,及區(qū)域內(nèi)對象和跨區(qū)域?qū)ο蟮年P(guān)聯(lián)關(guān)系,例如客戶主題內(nèi)能夠包括客戶差不多信息、家庭信息、名稱歷史信息、地址歷史信息等實(shí)體;產(chǎn)品主題內(nèi)可包括產(chǎn)品特性信息、利率信息、產(chǎn)品與客戶的關(guān)系等實(shí)體類型。關(guān)于某些應(yīng)用的個(gè)性化數(shù)據(jù)需求,盡管共享程度低,也須放入EDW,能夠依照數(shù)據(jù)的共享程序和繁忙程序,在進(jìn)行物理設(shè)計(jì)時(shí)劃分出熱數(shù)據(jù)區(qū)和冷數(shù)據(jù)區(qū)。由于每個(gè)行業(yè)的企業(yè)數(shù)據(jù)有較大的相似性,而一個(gè)結(jié)構(gòu)穩(wěn)定、擴(kuò)展性強(qiáng)的EDW模型設(shè)計(jì)需要深厚的行業(yè)和技術(shù)經(jīng)驗(yàn),因此數(shù)據(jù)倉庫廠商針對要緊行業(yè)都有自己比較成熟的數(shù)據(jù)模型產(chǎn)品。企業(yè)在進(jìn)行EDW關(guān)系模型設(shè)計(jì)時(shí),能夠借鑒這些成熟產(chǎn)品的設(shè)計(jì)思想并依靠自己的經(jīng)驗(yàn)與能力獨(dú)立完成,也能夠依托成熟的行業(yè)產(chǎn)品進(jìn)行客戶化。多維模型設(shè)計(jì)DM層的要緊目的是用于特定分析應(yīng)用的快速訪問,通常采納多維模型設(shè)計(jì),因此依照分析型應(yīng)用的特點(diǎn)與需要也能夠采納關(guān)系模型設(shè)計(jì)。多維模型恰是依照用戶的請求而構(gòu)造的,其設(shè)計(jì)的最大優(yōu)點(diǎn)在于訪問的高效性,因此必須收集和理解用戶的最終需求,才能定義出優(yōu)化的多維模型結(jié)構(gòu)。確定結(jié)構(gòu)后的多維模型固定服務(wù)于特定用戶特定形式的訪問,不能再輕易改變而用于其它需求。多維模型也稱OLAP模型,是為了滿足用戶從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的需要而建立起來的基于度量(實(shí)際數(shù)據(jù)值)和維(描述數(shù)據(jù)的不同角度)的數(shù)據(jù)模型。在設(shè)計(jì)時(shí)應(yīng)首先選擇業(yè)務(wù)所需的度量指標(biāo),然后選擇度量的維度和反映維度等級結(jié)構(gòu)的層(粒度)。維度建模有三種實(shí)現(xiàn)方法:ROLAP、MOLAP和HOLAP。ROLAP是利用關(guān)系數(shù)據(jù)庫來存儲多維數(shù)據(jù)和完成多維操作;MOLP是基于多維數(shù)據(jù)庫完成數(shù)據(jù)存儲和分析操作(例如ORACLE的分析工作區(qū)AnalyticWorkspace,簡稱AW);HOLAP是基于關(guān)系和多維的混合模型,即利用關(guān)系數(shù)據(jù)庫來存儲和處理細(xì)節(jié)數(shù)據(jù),利用多維數(shù)據(jù)庫來存儲和處理聚合數(shù)據(jù)。多數(shù)采納ROLAP進(jìn)行設(shè)計(jì)。ROLAP模型有星型和雪花兩種結(jié)構(gòu),星型是差不多結(jié)構(gòu)。星型結(jié)構(gòu)是采納中間一個(gè)事實(shí)表和外圍多個(gè)維度表來表達(dá)和存儲多維數(shù)據(jù),事實(shí)表用來存儲度量值和維關(guān)鍵字,每個(gè)維使用一個(gè)表來存儲維的層次結(jié)構(gòu),事實(shí)表和維表通過主外鍵關(guān)聯(lián)成“星型結(jié)構(gòu)”。關(guān)于層次復(fù)雜的維,能夠?qū)⑵溥M(jìn)一步層次化而分成多個(gè)維表,星型結(jié)構(gòu)就擴(kuò)展為“雪花結(jié)構(gòu)”。雪花結(jié)構(gòu)有減少數(shù)據(jù)冗余等優(yōu)點(diǎn),但由于增加連接而導(dǎo)致性能下降等緣故,通常不推舉。應(yīng)用架構(gòu)設(shè)計(jì)有了EDW的基礎(chǔ)數(shù)據(jù)和DM的應(yīng)用數(shù)據(jù),如何樣充分利用這些數(shù)據(jù),挖掘其中的商業(yè)價(jià)值是應(yīng)用架構(gòu)設(shè)計(jì)的范圍。應(yīng)用架構(gòu)設(shè)計(jì)既是建設(shè)數(shù)據(jù)倉庫系統(tǒng)的動(dòng)身點(diǎn),也是目標(biāo)。數(shù)據(jù)倉庫的價(jià)值回報(bào)最終體現(xiàn)在所支持的各類應(yīng)用。一般應(yīng)用模式應(yīng)用模式一般有靈活查詢、數(shù)據(jù)挖掘和應(yīng)用開發(fā)等。靈活查詢解決那些無法預(yù)定義的查詢分析和詳細(xì)鉆取,可能是簡單統(tǒng)計(jì)或某些明細(xì)數(shù)據(jù)項(xiàng)查詢,也可能是較復(fù)雜的計(jì)算與處理。常用的、能夠提煉出共性的靈活查詢能夠轉(zhuǎn)化為固定報(bào)表。由于靈活查詢的時(shí)效要求相對較高,對這類應(yīng)用應(yīng)該為各部門規(guī)定數(shù)據(jù)范圍、操作范圍和查詢頻率,以免阻礙數(shù)據(jù)倉庫的性能;同時(shí)在ETL元數(shù)據(jù)設(shè)計(jì)時(shí)應(yīng)考慮對這類應(yīng)用狀況的動(dòng)態(tài)監(jiān)控。數(shù)據(jù)挖掘是針對特定領(lǐng)域的特定問題,從大量詳細(xì)數(shù)據(jù)中提取可能具有潛在價(jià)值的信息,基于機(jī)器學(xué)習(xí)、模式識不、統(tǒng)計(jì)學(xué)等技術(shù),做出歸納性的推理,從中挖掘出潛在的模式,供決策者參考。數(shù)據(jù)挖掘一般需要跨業(yè)務(wù)領(lǐng)域進(jìn)行綜合關(guān)聯(lián)分析,信息全面,信息量大,而時(shí)效性要求不是太強(qiáng)。通常采納專業(yè)的工具。應(yīng)用開發(fā)是挖掘數(shù)據(jù)倉庫價(jià)值的最有效方式,能夠靈活滿足企業(yè)的各類后線應(yīng)用需要。不僅能夠?yàn)轭I(lǐng)導(dǎo)層提供分析決策支持,為中層治理者、市場分析人員和操作員提供智能商務(wù)服務(wù),還可服務(wù)于各類監(jiān)管、報(bào)送需求。靈活設(shè)計(jì)數(shù)據(jù)集市EDW中的數(shù)據(jù)通常只在需要時(shí)才通過預(yù)加工后送入到DM中,DM并非只有一種模式,而是依照不同應(yīng)用目的設(shè)計(jì)不同的模式,例如有的需要設(shè)計(jì)成多維模型,而有的設(shè)計(jì)成關(guān)系模型更合適;有的要求越快見到數(shù)據(jù)越好,有的只需在月底的時(shí)候見到數(shù)據(jù)。關(guān)于每一個(gè)數(shù)據(jù)集市的不同需求,應(yīng)靈活區(qū)不對待,包括為其預(yù)測和打算不同的處理機(jī)器和存儲容量。數(shù)據(jù)倉庫實(shí)施與維護(hù)策略數(shù)據(jù)倉庫建設(shè)是一個(gè)復(fù)雜的系統(tǒng)工程,分析設(shè)計(jì)的每一個(gè)體步驟都專門關(guān)鍵,而在更高角度上有一個(gè)正確的實(shí)施策略和方法論更是保證數(shù)據(jù)倉庫項(xiàng)目成功的先決條件。另一方面,建成后的數(shù)據(jù)倉庫像一個(gè)結(jié)構(gòu)龐大而邏輯嚴(yán)密的機(jī)器,具體的日常狀態(tài)監(jiān)控和錯(cuò)誤應(yīng)對措施十分重要,而在更高層次上有一套完善的維護(hù)策略對保障數(shù)據(jù)倉庫系統(tǒng)順利運(yùn)行也必不可少。除了一般的項(xiàng)目治理方法外,實(shí)施數(shù)據(jù)倉庫項(xiàng)目還應(yīng)該重視以下策略:目標(biāo)明確和需求:持續(xù)建設(shè)和改進(jìn)是數(shù)據(jù)倉庫項(xiàng)目區(qū)不于一般軟件項(xiàng)目的一個(gè)特征,作為平臺型綜合性項(xiàng)目,數(shù)據(jù)倉庫的價(jià)值實(shí)現(xiàn)不是一步到位的。要宏觀規(guī)劃和時(shí)期性預(yù)期目標(biāo)相結(jié)合,通過論證評估,明確自己的需求。專門多數(shù)據(jù)倉庫項(xiàng)目是由于需求不明確而導(dǎo)致失敗的。高層領(lǐng)導(dǎo)支持和用戶的充分參與:數(shù)據(jù)倉庫不是一個(gè)一般的技術(shù)主導(dǎo)型項(xiàng)目,而是一個(gè)大的群集項(xiàng)目,需要高層領(lǐng)導(dǎo)的支持而保證和各部門間的緊密高效配合。同時(shí)需要建立有效機(jī)制而推動(dòng)各業(yè)務(wù)部門的積極深入?yún)⑴c,只有持續(xù)不斷的基于數(shù)據(jù)倉庫的海量數(shù)據(jù)建立更先進(jìn)的分析應(yīng)用,才能發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價(jià)值。重視數(shù)據(jù)質(zhì)量管控:數(shù)據(jù)質(zhì)量太差的數(shù)據(jù)倉庫,其應(yīng)用價(jià)值能夠幾乎為零。除了做好具體的數(shù)據(jù)質(zhì)量檢查和維護(hù)工作,更重要的是建立一套完善的數(shù)據(jù)管控體系,不僅需要制訂數(shù)據(jù)質(zhì)量檢查、改進(jìn)和解決數(shù)據(jù)問題的任務(wù)、制度、方法與流程等,還必須有跨部門以上的領(lǐng)導(dǎo)牽頭建立一個(gè)組織平臺來負(fù)責(zé)數(shù)據(jù)質(zhì)量問題跟蹤解決和數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)。數(shù)據(jù)質(zhì)量管控是一個(gè)長期持續(xù)的過程,重點(diǎn)是組織治理和抓好流程,好的經(jīng)驗(yàn)還有:持續(xù)推進(jìn)元數(shù)據(jù)精細(xì)化治理;做好數(shù)據(jù)生命周期治理;建立數(shù)據(jù)質(zhì)量評估模型;推進(jìn)主數(shù)據(jù)和參考數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)等。同業(yè)數(shù)據(jù)倉庫應(yīng)用進(jìn)展?fàn)顩r數(shù)據(jù)倉庫技術(shù)在國內(nèi)外銀行業(yè)的應(yīng)用已有多年,能夠講給銀行業(yè)帶來了比其傳統(tǒng)基礎(chǔ)業(yè)務(wù)系統(tǒng)更加鮮活的競爭力;然而,數(shù)據(jù)倉庫建設(shè)的難度和風(fēng)險(xiǎn)也困擾著銀行業(yè)的IT決策者。銀行業(yè)數(shù)據(jù)倉庫道路上的障礙并不是技術(shù)本身,而是在于建設(shè)策略、目標(biāo)定位、需求落實(shí)、遷移過渡等逐多困難因素,這需要對數(shù)據(jù)倉庫建設(shè)有深刻且高瞻遠(yuǎn)矚的認(rèn)識,同時(shí)借鑒國內(nèi)外同行在數(shù)據(jù)倉庫建設(shè)方面的成功經(jīng)驗(yàn),提高制勝把握。工商銀行數(shù)據(jù)倉庫建設(shè)情況工商銀行運(yùn)用數(shù)據(jù)倉庫方法論建立的全行治理信息系統(tǒng)及在此基礎(chǔ)上的整合平臺,包含了全行業(yè)務(wù)交易信息、客戶信息、內(nèi)部治理和外部環(huán)境信息有關(guān)的細(xì)節(jié)數(shù)據(jù),用于支持工商銀行經(jīng)營治理和科學(xué)決策。建設(shè)策略堅(jiān)持整體規(guī)劃分步實(shí)施原則:1)總行統(tǒng)一規(guī)劃,協(xié)同攻關(guān),不搞重復(fù)建設(shè)。2)綜合考慮業(yè)務(wù)重要性、數(shù)據(jù)可支持性和支持可行性。3)從全行治理、決策和業(yè)務(wù)進(jìn)展需要?jiǎng)由?,分時(shí)期逐個(gè)開發(fā)不同主題應(yīng)用,合理部署進(jìn)程。遵循企業(yè)信息化漸近進(jìn)展逐步完善的建設(shè)規(guī)律:如圖6-1。圖6-1業(yè)務(wù)功能全行統(tǒng)一的數(shù)據(jù)倉庫平臺(EDW)和客戶統(tǒng)一視圖:全行治理信息大集中統(tǒng)一平臺(EDW)于2007年12月完成一期建設(shè),實(shí)現(xiàn)了全行57個(gè)要緊信息系統(tǒng)(包括信貸系統(tǒng)、電子銀行、核心銀行等)2324張數(shù)據(jù)源表信息的邏輯集中,實(shí)現(xiàn)全行治理信息從物理集中到邏輯集中的飛躍。在此基礎(chǔ)上實(shí)現(xiàn)對全行個(gè)人貸款、信用卡、理財(cái)金和金融資產(chǎn)超過5萬元的個(gè)人客戶信息進(jìn)行全面整合,實(shí)現(xiàn)全行重點(diǎn)客戶單一視圖、向人行報(bào)送個(gè)人客戶征信信息、提供不良客戶信息等功能。實(shí)現(xiàn)全行法人客戶信息集成治理和單一視圖等功能。自動(dòng)化統(tǒng)計(jì)平臺,分行特色應(yīng)用數(shù)據(jù)返傳與治理:建立綜合統(tǒng)計(jì)系統(tǒng),搭建全行自動(dòng)化統(tǒng)計(jì)平臺,實(shí)現(xiàn)全行3600多張經(jīng)營治理報(bào)表的自動(dòng)生成。建立動(dòng)態(tài)監(jiān)測子系統(tǒng),實(shí)現(xiàn)全行境內(nèi)全口徑資產(chǎn)負(fù)債、損益等報(bào)表自動(dòng)化生成,真正實(shí)現(xiàn)“天天損益表”目標(biāo)。建立分行數(shù)據(jù)平臺(BDP)報(bào)表應(yīng)用系統(tǒng),基于BDP的基礎(chǔ)數(shù)據(jù),關(guān)心分行開展特色信息應(yīng)用工作。投產(chǎn)9個(gè)客戶信用風(fēng)險(xiǎn)治理類數(shù)據(jù)倉庫應(yīng)用系統(tǒng):如圖6-2圖6-2架構(gòu)設(shè)計(jì)總體應(yīng)用架構(gòu):如圖6-3圖6-3總體邏輯架構(gòu):如圖6-4圖6-4總體數(shù)據(jù)架構(gòu):如圖6-5圖6-5建設(shè)銀行數(shù)據(jù)倉庫(DW&MIS)建行DW&MIS是一個(gè)集中型的數(shù)據(jù)倉庫架構(gòu),同時(shí)支持總體和一級分行應(yīng)用。在數(shù)據(jù)倉庫的總體架構(gòu)框架中,分行將部署以internet掃瞄器為主的數(shù)據(jù)查詢功能,同時(shí)部分一級分行也將依照其業(yè)務(wù)需要,部署支持其業(yè)務(wù)特色的數(shù)據(jù)集市和分析能力。在DW&MIS一期,分行將僅通過治理信息平臺向分行公布相關(guān)的靜態(tài)報(bào)表,不部署數(shù)據(jù)集市和動(dòng)態(tài)數(shù)據(jù)分析能力。總體邏輯架構(gòu)如圖6-6:圖6-6源系統(tǒng):在數(shù)據(jù)倉庫的整個(gè)生命周期中,源系統(tǒng)的選擇是在變化的。源數(shù)據(jù)的選擇應(yīng)首先從業(yè)務(wù)應(yīng)用需求動(dòng)身,依照一期和以后時(shí)期分析應(yīng)用所需數(shù)據(jù)的需求,對建行的相關(guān)源系統(tǒng)進(jìn)行數(shù)據(jù)篩選,并對每一個(gè)數(shù)據(jù)字段進(jìn)行標(biāo)準(zhǔn)定義整理。應(yīng)將所有相關(guān)表的數(shù)據(jù)都從源數(shù)據(jù)系統(tǒng)抽取出來,數(shù)據(jù)倉庫臨時(shí)不用的數(shù)據(jù)能夠存放在數(shù)據(jù)整合層,以便支持以后的數(shù)據(jù)需求。在比較、選擇源系統(tǒng)時(shí),應(yīng)采納貼近數(shù)據(jù)產(chǎn)生源的原則,盡量使用歸總、計(jì)算前的原始數(shù)據(jù),選擇正確的源數(shù)據(jù)。數(shù)據(jù)整合層:為了保證多系統(tǒng)對源系統(tǒng)數(shù)據(jù)抽取的需求,在數(shù)據(jù)從源數(shù)據(jù)系統(tǒng)抽取后在一個(gè)統(tǒng)一的數(shù)據(jù)整合環(huán)境中整合,完成技術(shù)層面的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換。采納建行差不多上線的UDI數(shù)據(jù)整合環(huán)境完成數(shù)據(jù)的整合。數(shù)據(jù)整合層只承擔(dān)操作型源系統(tǒng)的整合工作,數(shù)據(jù)倉庫需要的其他中間業(yè)務(wù)系統(tǒng)如ERP系統(tǒng)將直接和數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)交換,而不通過數(shù)據(jù)整合層。數(shù)據(jù)整合層是批量交換數(shù)據(jù)的平臺。所有從源數(shù)據(jù)系統(tǒng)卸載的數(shù)據(jù),包括臨時(shí)不進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)都應(yīng)有介質(zhì)備份,以便日后需要時(shí)能夠不需要對源數(shù)據(jù)接口進(jìn)行大修改,這一方案需要UDI的擴(kuò)容。整合層的數(shù)據(jù)保留原則:每日的數(shù)據(jù)保留一周、每周的數(shù)據(jù)保留一個(gè)月、每月的數(shù)據(jù)保留三個(gè)月。ETL層:要緊功能是完成數(shù)據(jù)從源系統(tǒng)的數(shù)據(jù)組織邏輯向數(shù)據(jù)倉庫目標(biāo)邏輯的轉(zhuǎn)換及數(shù)據(jù)倉庫的加載。ETL的要緊設(shè)計(jì)考量在于其數(shù)據(jù)轉(zhuǎn)換及加載的效率、可擴(kuò)充性以及ETL程序的自動(dòng)化和可維護(hù)性,例如與元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)映射。出于費(fèi)用和實(shí)施時(shí)刻的考量,在DW&MIS第一時(shí)期,ETL工具將采納NCR的Automation數(shù)據(jù)轉(zhuǎn)換及加載工具。但建行應(yīng)該從企業(yè)數(shù)據(jù)架構(gòu)層面考慮其長期的ETL工具和原數(shù)據(jù)治理能力的策略,以滿足企業(yè)數(shù)據(jù)環(huán)境復(fù)雜性的需要。數(shù)據(jù)緩沖區(qū)及數(shù)據(jù)倉庫:數(shù)據(jù)緩沖區(qū)是數(shù)據(jù)在加載至數(shù)據(jù)倉庫之前的臨時(shí)存貯區(qū)。數(shù)據(jù)倉庫是DW&MIS的核心數(shù)據(jù)邏輯存貯空間。BI應(yīng)用層:是數(shù)據(jù)倉庫向終端業(yè)務(wù)用戶提供應(yīng)用功能支持的界面,依照顧用功能提供的形式和所采納的應(yīng)用系統(tǒng)的不同,BI應(yīng)用層要緊定義在以下幾個(gè)技術(shù)環(huán)境。治理信息平臺作為數(shù)據(jù)倉庫系統(tǒng)的一個(gè)有機(jī)組成部分,將承擔(dān)著靜態(tài)報(bào)表的展現(xiàn)、分發(fā),手工數(shù)據(jù)的錄入,指標(biāo)數(shù)據(jù)的分發(fā)等任務(wù)。以后的治理信息平臺需要在作業(yè)調(diào)度自動(dòng)化,報(bào)表接口的標(biāo)準(zhǔn)化方向進(jìn)一步提高。數(shù)據(jù)分析環(huán)境為數(shù)據(jù)倉庫的高端用戶提供動(dòng)態(tài)的數(shù)據(jù)分析及挖掘能力,包括:動(dòng)態(tài)報(bào)表的生成、多維數(shù)據(jù)分析、數(shù)據(jù)挖掘能力和治理信息儀表盤能力等。定制應(yīng)用軟件環(huán)境是為滿足業(yè)務(wù)需要在數(shù)據(jù)倉庫環(huán)境中配置的應(yīng)用軟件包??傮w數(shù)據(jù)架構(gòu)如圖6-7:圖6-7應(yīng)用主題涵蓋的數(shù)據(jù):見下表應(yīng)用主題要緊數(shù)據(jù)類不用戶及人數(shù)數(shù)據(jù)粒度/頻率資產(chǎn)負(fù)債治理(ALM)公共類信息:機(jī)構(gòu)、賬號、科目、貨幣期限日期類信息:起息日、到期日等交易類信息:金額、摘要、日期時(shí)刻分戶賬余額類信息:余額、利息等余額信息:當(dāng)前余額、初始金額等支付類信息:支付日、支付金額等利率類信息:利率、利差等總行ALM相關(guān)部門、一級分行每日財(cái)務(wù)績效治理(F&PM)產(chǎn)品、客戶經(jīng)理、成本、利潤、預(yù)算總行財(cái)務(wù)及相關(guān)部門、一級分行、二級分行和支行每月(除了應(yīng)付款項(xiàng)外,其它為歸總數(shù)據(jù))風(fēng)險(xiǎn)治理(RM)客戶、產(chǎn)品、機(jī)構(gòu)、交易總行、一行分行每月更新分析型CRM(ACRM)客戶、賬戶、渠道、產(chǎn)品、交易總行、一級分行、二級分行和支行13個(gè)月的每日數(shù)據(jù),7年的每月歸總數(shù)據(jù)多維分析報(bào)表(OLAP)客戶、賬戶、時(shí)刻、產(chǎn)品、渠道、總賬、貨種、風(fēng)險(xiǎn)總行、一級分行、二級分行每日總行分行數(shù)據(jù)分布:見下表總行分行備注ALM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的ALM系統(tǒng)F&PM總行F&PM系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和應(yīng)付款數(shù)據(jù)到分行本地的應(yīng)用集市分行的F&PM應(yīng)納入分行本地的特色數(shù)據(jù),如中間業(yè)務(wù)的詳細(xì)數(shù)據(jù)RM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的RM系統(tǒng)ACRM總行集中統(tǒng)一部署無分行本地?cái)?shù)據(jù)集市分行用戶直接訪問集中的ACRM系統(tǒng)OLAP總行OLAP系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和指標(biāo)數(shù)據(jù)到分行本地的應(yīng)用數(shù)據(jù)集市分行本地的OLAP數(shù)據(jù)集市應(yīng)包括總行DW下發(fā)的匯總數(shù)據(jù)及本地特色數(shù)據(jù)大多數(shù)應(yīng)用不需要大量詳細(xì)數(shù)據(jù)通過網(wǎng)絡(luò)傳輸,分行用戶只需要結(jié)果數(shù)據(jù)。分行的F&PM和OLAP用戶應(yīng)首先考慮使用總行集中的數(shù)據(jù)集市,假如總行的數(shù)據(jù)集市不能滿足分行的特色業(yè)務(wù)需求,分行能夠采納本地的數(shù)據(jù)集市。依照業(yè)界經(jīng)驗(yàn),數(shù)據(jù)集中、功能分散的方案比數(shù)據(jù)分散的總體成本低。數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的保留策略:見下表:基礎(chǔ)數(shù)據(jù)包含每筆交易的詳細(xì)數(shù)據(jù)、客戶和賬戶的詳細(xì)信息。對私客戶的交易數(shù)據(jù)因數(shù)據(jù)量大,而且業(yè)務(wù)功能通常不需要專門長歷史的詳細(xì)數(shù)據(jù),保留40天每筆交易的詳細(xì)數(shù)據(jù)。對公客戶的交易數(shù)據(jù)量比對私客戶小,業(yè)務(wù)分析需求通常需要較長歷史的詳細(xì)交易數(shù)據(jù),保留3年對公客戶的詳細(xì)交易數(shù)據(jù)。賬戶和客戶為狀態(tài)數(shù)據(jù),所有的客戶和賬戶和變化歷史數(shù)據(jù)都因歸納到數(shù)據(jù)倉庫里。匯總數(shù)據(jù)包括三大類數(shù)據(jù):交易類、賬戶類和客戶類。交易數(shù)據(jù)應(yīng)按渠道、交易代碼、機(jī)構(gòu)、產(chǎn)品等維度匯總。對私客戶的日匯總,如每日每種交易代碼的交易額,日均余額,應(yīng)保存13個(gè)月的歷史。對公客戶的日匯總,應(yīng)保存3年的匯總數(shù)據(jù)。月匯總按國外銀行的通常作法,應(yīng)保留7年的歷史。數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)返回機(jī)制:應(yīng)用數(shù)據(jù)集市只保留最新的評級結(jié)果,數(shù)據(jù)倉庫保留分析結(jié)果和評級的歷史。從應(yīng)用數(shù)據(jù)集市到數(shù)據(jù)倉庫的數(shù)據(jù)返回應(yīng)采納批處理的方式。另外,ERP系統(tǒng)建立之后,總帳數(shù)據(jù)直接從ERP抽取、導(dǎo)入到DW。DW數(shù)據(jù)質(zhì)量檢查:從文件級不和數(shù)據(jù)記錄級不執(zhí)行以下數(shù)據(jù)質(zhì)量檢查點(diǎn)。源數(shù)據(jù)質(zhì)量檢查。從源數(shù)據(jù)系統(tǒng)傳輸?shù)綌?shù)據(jù)緩儲的所有數(shù)據(jù)都應(yīng)首先同意質(zhì)量檢查后才能導(dǎo)入,源數(shù)據(jù)的質(zhì)量檢查應(yīng)包括接口數(shù)據(jù)文件格式是否標(biāo)準(zhǔn)化的確認(rèn),并按照目標(biāo)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)模型或數(shù)據(jù)字典將不同源數(shù)據(jù)系統(tǒng)的字段屬性統(tǒng)一轉(zhuǎn)換成目標(biāo)系統(tǒng)要求的格式。ETL流程中的質(zhì)量檢查,每次數(shù)據(jù)的抽取、轉(zhuǎn)換和加載都必須有日志記錄,并確認(rèn)記錄數(shù)前后一致。從數(shù)據(jù)倉庫到數(shù)據(jù)集市和應(yīng)用展現(xiàn)層的數(shù)據(jù)問題通常是由于業(yè)務(wù)指標(biāo)計(jì)算不正確引起,需要對業(yè)務(wù)邏輯和算法進(jìn)行修正。數(shù)據(jù)緩儲區(qū)的數(shù)據(jù)處理流程遵循的原則:數(shù)據(jù)緩儲區(qū)應(yīng)將源系統(tǒng)數(shù)據(jù)按原有數(shù)據(jù)格式登錄接收,在進(jìn)行任何數(shù)據(jù)處理前,應(yīng)先將數(shù)據(jù)接收、保存在DW&MIS的ETL服務(wù)器的存儲中。必須檢驗(yàn)是否是重復(fù)的數(shù)據(jù)文本,幸免對同樣的數(shù)據(jù)多次重復(fù)處理。應(yīng)盡量使用增量數(shù)據(jù),在使用自然鍵識不新數(shù)據(jù)的同時(shí),應(yīng)將新的數(shù)據(jù)文本的生成時(shí)刻應(yīng)與最近加載的時(shí)刻比較,從而獵取正確的增量數(shù)據(jù)。原則上,無用的數(shù)據(jù)應(yīng)由靠近源的步驟被檢出,幸免不必要的處理和在以后的步驟里增加復(fù)雜的業(yè)務(wù)轉(zhuǎn)換規(guī)則,在緩儲區(qū)內(nèi)應(yīng)執(zhí)行數(shù)據(jù)清洗、標(biāo)準(zhǔn)化處理、非規(guī)范化化/規(guī)范化(denormalization/normalization),換算和去重等流程。應(yīng)減少數(shù)據(jù)重復(fù)遍歷(PassThrough)次數(shù),盡量將多個(gè)數(shù)據(jù)處理程序完成后再處理新的數(shù)據(jù)記錄。在緩儲區(qū)內(nèi)對源數(shù)據(jù)不進(jìn)行數(shù)據(jù)歸總。數(shù)據(jù)緩儲區(qū)應(yīng)包含參考數(shù)據(jù)。數(shù)據(jù)緩儲區(qū)應(yīng)維持主鍵查找表,主鍵查找應(yīng)能將源數(shù)據(jù)的鍵與數(shù)據(jù)倉庫內(nèi)定的代理鍵關(guān)聯(lián)起來。緩儲區(qū)的數(shù)據(jù)處理應(yīng)提供數(shù)據(jù)檢控、審計(jì)功能,例如數(shù)據(jù)行數(shù),數(shù)據(jù)匯總,如與源數(shù)據(jù)有出入,應(yīng)該與源數(shù)據(jù)系統(tǒng)校對,數(shù)據(jù)處理必須提供日志。數(shù)據(jù)緩儲區(qū)的數(shù)據(jù)應(yīng)保留至下一輪數(shù)據(jù)的成功加載。DW設(shè)計(jì):DW&MIS數(shù)據(jù)倉庫治理的數(shù)據(jù)包含了集成之后的多年歷史數(shù)據(jù),數(shù)據(jù)量巨大,應(yīng)被合理的規(guī)劃、組織、存儲,分片和索引,保證數(shù)據(jù)的治理和使用的高效性。按照建行數(shù)據(jù)“唯一事實(shí)”的要求,數(shù)據(jù)倉庫應(yīng)為各級業(yè)務(wù)人員提供一致的信息視圖。DW&MIS數(shù)據(jù)倉庫采納滿足第三范式的規(guī)范化建模,基于NCRFS-LDM進(jìn)行客戶化定制完成,并在Teradata關(guān)系型數(shù)據(jù)倉庫上實(shí)現(xiàn)。數(shù)據(jù)倉庫應(yīng)保留7年的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型包含下列類不的數(shù)據(jù)主題:數(shù)據(jù)集市設(shè)計(jì):數(shù)據(jù)集市是依照不同部門的業(yè)務(wù)需求,按照主題的方式對數(shù)據(jù)進(jìn)行進(jìn)一步的組織,建立業(yè)務(wù)應(yīng)用,其數(shù)據(jù)直接來自于數(shù)據(jù)倉庫。ALM、RM、CRM和F&PM各個(gè)業(yè)務(wù)主題以及多維分析均應(yīng)建立各自的應(yīng)用數(shù)據(jù)集市。應(yīng)用數(shù)據(jù)集市的建設(shè)和分布應(yīng)考慮實(shí)施的成本、數(shù)據(jù)使用對網(wǎng)絡(luò)的阻礙和業(yè)務(wù)需求。DW&MIS項(xiàng)目一期將建立多維分析數(shù)據(jù)集市和ALM應(yīng)用數(shù)據(jù)集市。設(shè)計(jì)考慮因素有:集市數(shù)據(jù)永久保存;按照預(yù)先安排的時(shí)刻和頻度進(jìn)行數(shù)據(jù)集市的更新;在基礎(chǔ)平臺能夠支持的情況下,優(yōu)先采納虛擬集市(VirtualMart)的技術(shù)。元數(shù)據(jù)治理策略:一期元數(shù)據(jù)存儲分為三部分。NCRMDS是符合CWM規(guī)范的元數(shù)據(jù)存儲庫,安裝配置后以Teradata數(shù)據(jù)庫形式存在,提供了多種元數(shù)據(jù)加載工具和編程接口,在本項(xiàng)目中MDS用于保存數(shù)據(jù)源、ETL、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型、決策儀表盤元數(shù)據(jù)信息。Cognos元數(shù)據(jù)庫保存監(jiān)管報(bào)表、多維分析元數(shù)據(jù)。ALM元數(shù)據(jù)庫保存ALM元數(shù)據(jù)。美洲銀行的數(shù)據(jù)倉庫型CRM從海外的情況看,對公業(yè)務(wù)的市場一旦趨于飽和,最后就會(huì)蛻變成價(jià)格競爭,專門難有差不化的優(yōu)勢。因此IT金融咨詢領(lǐng)域認(rèn)為“從全球銀行業(yè)的情況看,個(gè)人銀行業(yè)務(wù)在價(jià)值制造方面遠(yuǎn)比公司業(yè)務(wù)高得多?!睙o疑,正是個(gè)人銀行業(yè)務(wù)的進(jìn)展?jié)摿ν滑F(xiàn)了CRM在商業(yè)銀行治理中的地位。美洲銀行的數(shù)據(jù)倉庫型客戶關(guān)系治理系統(tǒng)是美國銀行業(yè)中開發(fā)比較成功的一種。美洲銀行擁有北美最大的客戶信息數(shù)據(jù)。由于數(shù)據(jù)倉庫給銀行帶來了詳細(xì)的客戶信息,美洲銀行的營銷部門使用數(shù)據(jù)倉庫來進(jìn)行精確的客戶細(xì)分,從而開展更準(zhǔn)確、更有利的商業(yè)活動(dòng)。同時(shí),該銀行利用預(yù)測性建模,實(shí)現(xiàn)更有效的分析、測量和鎖定高利潤客戶。在一次直郵客戶聯(lián)系行動(dòng)中,美洲銀行的加州數(shù)據(jù)庫將需要用郵件聯(lián)系的客戶數(shù)降低了40%,而反映率卻增加了97%,定購率增加了21%,僅僅那個(gè)應(yīng)用就為銀行產(chǎn)生了4500萬美元的利潤。美洲銀行引進(jìn)數(shù)據(jù)倉庫型客戶關(guān)系治理系統(tǒng)后,在數(shù)據(jù)處理上能夠以更低的成本、更綜合的方式分析出有用的信息。例如,一些往常要幾個(gè)星期才能得到答案的業(yè)務(wù)問題,現(xiàn)在只需要幾分鐘甚至更少,效果特不明顯。再如,業(yè)務(wù)人員能夠通過分析銀行的客戶群數(shù)據(jù),推斷哪些類型或具有什么特征的客戶最有可能購買哪一種產(chǎn)品或服務(wù)。事實(shí)上,單就數(shù)據(jù)倉庫本身而言,美洲銀行利用這一技術(shù)實(shí)施個(gè)性化服務(wù),早在1994年就感受過強(qiáng)烈的應(yīng)用快感。在當(dāng)年的舊金山大地震中,美洲銀行利用郵編快速地找出受災(zāi)的客戶名單,提供災(zāi)后重建的貸款,極大地增強(qiáng)了客戶關(guān)系,增加了銀行收入。2003年美洲銀行面向個(gè)人融資的總件數(shù)中,74%是借助數(shù)據(jù)倉庫型客戶關(guān)系治理系統(tǒng)挖掘分析的信息,通過電話直接推銷而成功的?,F(xiàn)在,美洲銀行逐漸向數(shù)據(jù)倉庫型客戶關(guān)系治理系統(tǒng)與電話銀行相結(jié)合,向每天、甚至每時(shí)更新數(shù)據(jù),深入發(fā)掘數(shù)據(jù)倉庫型客戶關(guān)系治理系統(tǒng)潛力的方向進(jìn)展。另外,在信用卡業(yè)務(wù)的拓展方面,數(shù)據(jù)倉庫也起了專門大的作用。一方面,通過對數(shù)據(jù)倉庫中客戶信息的分析,識不出那些給銀行帶來更多利潤同時(shí)信用好的客戶,對這些客戶提供更好的服務(wù);另一方面,對那些信用差的客戶,則要想方法防止其呆賬行為,降低風(fēng)險(xiǎn)。除此以外,還找出那些使用了銀行其它服務(wù)卻沒有使用信用卡服務(wù)或者使用其它銀行卡服務(wù)的客戶。針對具有較好潛在利潤可供挖掘的客戶群體,設(shè)計(jì)促銷活動(dòng),將這些客戶吸引到美洲銀行來,如此既拓展了信用卡業(yè)務(wù),又降低了促銷成本。美洲銀行是1986年開始投資建立Teradata數(shù)據(jù)倉庫的,它采納循序漸進(jìn)的方式實(shí)施,分時(shí)期實(shí)施,由一個(gè)主題應(yīng)用開始逐步展開,在功能實(shí)現(xiàn)上逐步延伸。剛開始時(shí)數(shù)據(jù)庫容量為20GB,后來逐步擴(kuò)展成超過4TB的龐大系統(tǒng)。數(shù)據(jù)倉庫產(chǎn)品介紹數(shù)據(jù)倉庫建設(shè)離不了選擇“原材料”這一環(huán)節(jié)。世界上要緊的數(shù)據(jù)倉庫廠商都提供成套的產(chǎn)品和解決方案。盡管選擇任一家的“原材料”都可能完成自己的建設(shè),然而假如能依照自身的實(shí)施策略與方案,選用更加適合自身特點(diǎn)的產(chǎn)品和服務(wù),無疑能夠增大成功把握。本節(jié)對其中幾家產(chǎn)品做簡要介紹和比較。Oracle數(shù)據(jù)倉庫體系結(jié)構(gòu)Oracle公司在數(shù)據(jù)倉庫建設(shè)的每一個(gè)環(huán)節(jié)上都提供了相應(yīng)的技術(shù)手段及工具,產(chǎn)品之間無縫集成,圖11所示為Oracle公司10G版本的數(shù)據(jù)倉庫體系結(jié)構(gòu):圖-11那個(gè)體系結(jié)構(gòu)的產(chǎn)品能夠分成三個(gè)層次:數(shù)據(jù)獵取層:OracleWarehouseBuilder(OWB)實(shí)現(xiàn)了從數(shù)據(jù)模型設(shè)計(jì)、ETL流程設(shè)計(jì)和元數(shù)據(jù)治理的全部功能。OWB生成的ETL腳本存儲在Oracle10g數(shù)據(jù)庫中執(zhí)行,按照數(shù)據(jù)倉庫系統(tǒng)的要求,定時(shí)地完成數(shù)據(jù)的抽取并加載到數(shù)據(jù)倉庫系統(tǒng)中。由于ETL的執(zhí)行是在Oracle10g數(shù)據(jù)庫中,能夠充分利用Oracle10g數(shù)據(jù)庫提供的強(qiáng)大并行處理能力,保證數(shù)據(jù)獵取的高效、可靠執(zhí)行。數(shù)據(jù)存儲層:Oracle10g數(shù)據(jù)庫實(shí)現(xiàn)對數(shù)據(jù)倉庫系統(tǒng)各種類型數(shù)據(jù)的集中存儲和治理,包括各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。Oracle10g數(shù)據(jù)庫內(nèi)置OLAP和數(shù)據(jù)挖掘功能,不需要進(jìn)行數(shù)據(jù)遷移,就能夠直接在關(guān)系數(shù)據(jù)庫中完成復(fù)雜的統(tǒng)計(jì)分析功能。Oracle10g數(shù)據(jù)庫能夠支持海量數(shù)據(jù)的存儲,一個(gè)數(shù)據(jù)庫最大數(shù)據(jù)量為8,000PB(1PB=1024TB)。Oracle10g提供強(qiáng)大的并行處理能力,滿足數(shù)據(jù)倉庫系統(tǒng)關(guān)于性能和擴(kuò)展性方面的要求。系統(tǒng)并通過網(wǎng)格操縱臺(GridControl)進(jìn)行數(shù)據(jù)倉庫統(tǒng)一治理。數(shù)據(jù)展現(xiàn)層:Oracle提供多種數(shù)據(jù)分析的工具,包括標(biāo)準(zhǔn)報(bào)表工具(Reports)、即席查詢工具(Discoverer)、OLAP分析開發(fā)工具(JDeveloper+BIBeans)和數(shù)據(jù)挖掘工具(OracleDataMiner),將統(tǒng)計(jì)分析的結(jié)果通過各種方式展現(xiàn)。Oracle的數(shù)據(jù)展現(xiàn)工具使用Java和HTML兩種方式實(shí)現(xiàn),基于標(biāo)準(zhǔn)的J2EE平臺。由于使用統(tǒng)一的元數(shù)據(jù)庫,不需要進(jìn)行元數(shù)據(jù)的交換,能夠最大限度地減少系統(tǒng)的維護(hù)工作。同時(shí),Oracle的數(shù)據(jù)展現(xiàn)工具支持通過門戶(Portal)技術(shù)進(jìn)行集成,為不同類型的用戶提供一致的訪問界面。IBM企業(yè)數(shù)據(jù)倉庫平臺總體結(jié)構(gòu)DB2DataWarehouseEnterpriseEdition(DB2數(shù)據(jù)倉庫企業(yè)版)是一個(gè)商業(yè)智能平臺,擴(kuò)展了IBMDB2UDB用于構(gòu)建數(shù)據(jù)倉庫和分析應(yīng)用的商業(yè)智能特性。包括聯(lián)邦數(shù)據(jù)訪問,數(shù)據(jù)分區(qū),在線分析處理,數(shù)據(jù)挖掘,ETL,工作負(fù)載治理等功能。整合了IBMDB2UDB的商業(yè)智能特性,是面向客戶和合作伙伴,構(gòu)建企業(yè)隨需應(yīng)變架構(gòu),實(shí)施實(shí)時(shí)商業(yè)智能的新一代商業(yè)智能解決方案。DWEE總體結(jié)構(gòu)規(guī)劃如圖12:圖-12要緊產(chǎn)品包括:數(shù)據(jù)倉庫存儲的海量關(guān)系型數(shù)據(jù)庫:DB2UDBESE企業(yè)版,數(shù)據(jù)倉庫引擎數(shù)據(jù)分區(qū)模塊:DB2UDBDPF,支持分區(qū)和多機(jī)并行調(diào)度復(fù)雜即席查詢的查詢治理器:QueryPatroller,基于成本的查詢負(fù)載治理工具,提高數(shù)據(jù)倉庫吞吐量。多維分析工具:DB2CubeViews ,OLAP元數(shù)據(jù)交換工具和模型級物化查詢表生成器。實(shí)時(shí)數(shù)據(jù)倉庫及信息集成器:IBMWebsphereINFORMATIONINTEGRATOR,包括關(guān)系數(shù)據(jù)庫聯(lián)接RelationConnect和非關(guān)系數(shù)據(jù)庫聯(lián)接LifeSencieConnect。ETL工具:DB2WarehouseManager ,包括的要緊模塊有:1)用于數(shù)據(jù)抽取、清洗、加工和裝載的的ETL工具DB2WarehouseManagerTransformer;2)用于分布數(shù)據(jù)倉庫ETL過程的數(shù)據(jù)倉庫代理Agent。3)數(shù)據(jù)倉庫的開發(fā)、監(jiān)控以及MetaData治理工具DB2WarehouseCenter;4)數(shù)據(jù)倉庫信息目錄InformationCatalog;5)報(bào)表生成工具QMF。數(shù)據(jù)挖掘評分工具:DB2IntelligentMinerScoring,在數(shù)據(jù)倉庫中直接實(shí)現(xiàn)(實(shí)時(shí))評分。數(shù)據(jù)挖掘建模工具:DB2IntelligentMinerModeler,從數(shù)據(jù)倉庫中發(fā)覺規(guī)律(模型)。數(shù)據(jù)挖掘模型圖示化工具:DB2IntelligentMinerVisualization Excel多維分析插件:IBMOfficeConnectAnalytical/EnterpriseWebEdition,在Excel中實(shí)現(xiàn)查詢、報(bào)表、多維分析。DB2Alphablox:提供開發(fā)分析應(yīng)用的平臺,構(gòu)建客戶自己的分析應(yīng)用。Teradata動(dòng)態(tài)企業(yè)級數(shù)據(jù)倉庫平臺Teradata動(dòng)態(tài)企業(yè)級數(shù)據(jù)倉庫平臺(ActiveEnterpriseDataWarehouse)采納Teradata海量并行處理技術(shù),是一種通過優(yōu)化、可同步執(zhí)行多種流程的系統(tǒng),其性能及可擴(kuò)展性令企業(yè)能夠?qū)υ敿?xì)的運(yùn)營數(shù)據(jù)進(jìn)行更深入和透徹的分析。動(dòng)態(tài)數(shù)據(jù)倉庫將傳統(tǒng)數(shù)據(jù)倉庫功能擴(kuò)展到了動(dòng)態(tài)企業(yè)智能這一更為成熟、覆蓋面更廣的數(shù)據(jù)環(huán)境。動(dòng)態(tài)企業(yè)智能側(cè)重?cái)?shù)據(jù)倉庫在業(yè)務(wù)運(yùn)營層面的應(yīng)用,通過數(shù)據(jù)庫平臺在實(shí)時(shí)操作環(huán)境的支持下,實(shí)現(xiàn)快速戰(zhàn)略決策。Teradata動(dòng)態(tài)數(shù)據(jù)倉庫有兩大特點(diǎn)。一是動(dòng)態(tài)訪問,一線用戶能夠動(dòng)態(tài)、或者講實(shí)時(shí)地訪問所需信息。傳統(tǒng)數(shù)據(jù)倉庫用戶只針對高端治理層,一個(gè)銀行一般只有幾十個(gè)到幾百個(gè)用戶能夠訪問,成千上萬的客戶經(jīng)理和客戶代表假如要實(shí)現(xiàn)同時(shí)訪問,對傳統(tǒng)數(shù)據(jù)倉庫來講是一個(gè)專門大的壓力,而動(dòng)態(tài)數(shù)據(jù)倉庫采取相同的技術(shù)架構(gòu)和不同的技術(shù)手段實(shí)現(xiàn)了大規(guī)模的動(dòng)態(tài)訪問。二是動(dòng)態(tài)數(shù)據(jù)加載,傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)加載與動(dòng)態(tài)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論