商業(yè)銀行數(shù)據(jù)倉庫建設(shè)_第1頁
商業(yè)銀行數(shù)據(jù)倉庫建設(shè)_第2頁
商業(yè)銀行數(shù)據(jù)倉庫建設(shè)_第3頁
商業(yè)銀行數(shù)據(jù)倉庫建設(shè)_第4頁
商業(yè)銀行數(shù)據(jù)倉庫建設(shè)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、商業(yè)銀行數(shù)據(jù)倉庫建設(shè)摘要:目前國內(nèi)幾大商業(yè)銀行的數(shù)據(jù)大集中基本完成,為企業(yè)級數(shù)據(jù)倉庫的建設(shè)創(chuàng)造了先決條件。同時,銀行管理層也希望從既有的海量數(shù)據(jù)庫中獲取信息,可以在精準(zhǔn)營銷、績效考核、風(fēng)險(xiǎn)管理等方面發(fā)揮作用,這也成為建設(shè)企業(yè)級數(shù)據(jù)倉庫的主要動力。結(jié)合作者的工作背景,對銀行數(shù)據(jù)倉庫建設(shè)過程中的幾個方面進(jìn)行了闡述,以期望能對讀者有所啟發(fā)。關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)模型;數(shù)據(jù)標(biāo)準(zhǔn);元數(shù)據(jù)管理;靈活查詢0引言數(shù)據(jù)挖掘是20世紀(jì)90年代中后期提出的概念,它是以傳統(tǒng)的數(shù)據(jù)庫技術(shù)作為存儲數(shù)據(jù)和管理資源的基本手段,以統(tǒng)計(jì)分析技術(shù)作為分析數(shù)據(jù)和提取信息的有效方法。以人工智能技術(shù)作為挖掘知識和發(fā)現(xiàn)規(guī)律的科學(xué)途徑的一種

2、解決問題的方案。而數(shù)據(jù)倉庫的建設(shè),可以看作數(shù)據(jù)挖掘的一個重要預(yù)處理步驟。在數(shù)據(jù)倉庫的建設(shè)過程中,可以將支持企業(yè)日常運(yùn)作的各個獨(dú)立系統(tǒng)中的數(shù)據(jù)進(jìn)行清理、集成和統(tǒng)一,并且可以將數(shù)據(jù)加載入不同于日常交易系統(tǒng)結(jié)構(gòu)的易于查詢分析的數(shù)據(jù)模型中,為后續(xù)數(shù)據(jù)挖掘高效地獲取準(zhǔn)確明晰的數(shù)據(jù)掃清障礙。1數(shù)據(jù)倉庫根據(jù)數(shù)據(jù)倉庫之父的說法,“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程”這個簡短而又全面的定義指出了數(shù)據(jù)倉庫的主要特征。4個關(guān)鍵詞,面向主題的、集成的、時變的、非易失的,將數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)(如關(guān)系數(shù)據(jù)庫系統(tǒng)、事務(wù)處理系統(tǒng)和文件系統(tǒng))相區(qū)別。數(shù)據(jù)倉庫領(lǐng)域的領(lǐng)導(dǎo)廠商

3、,美國Teradata公司給企業(yè)級數(shù)據(jù)倉庫下過一個定義,“一個企業(yè)級數(shù)據(jù)倉庫是一個由集成的、明細(xì)的、可擴(kuò)展的數(shù)據(jù)組成的,集中的,保留歷史的數(shù)據(jù)機(jī),可以支持多個部門的各種決策分析,是整個企業(yè)分析型數(shù)據(jù)的唯一來源”。這里有5個關(guān)鍵字:集成的、明細(xì)的、可擴(kuò)展的、集中的、保留歷史的。從以上兩個定義來看,時變的包含了保留歷史的意思,而面向主題的結(jié)構(gòu)保證了其結(jié)構(gòu)和設(shè)計(jì)是可擴(kuò)展的。因此,從筆者的觀點(diǎn)來看,數(shù)據(jù)倉庫的關(guān)鍵字應(yīng)該是:面向主題的、集成的、時變的、明細(xì)的、集中的和非易失的。為了進(jìn)一步理解數(shù)據(jù)倉庫的概念,我們可以將數(shù)據(jù)倉庫系統(tǒng)和操作型數(shù)據(jù)庫系統(tǒng)進(jìn)行一下比較,概括在表1中。2商業(yè)銀行數(shù)據(jù)倉庫所謂商業(yè)銀行

4、數(shù)據(jù)倉庫,是將數(shù)據(jù)倉庫技術(shù)運(yùn)用到商業(yè)銀行的經(jīng)營分析中,從而為商業(yè)銀行的精準(zhǔn)營銷、績效考核、風(fēng)險(xiǎn)管理等提供強(qiáng)有力的數(shù)據(jù)支持。從技術(shù)角度來看,商業(yè)銀行的數(shù)據(jù)倉庫與其他企業(yè)的數(shù)據(jù)倉庫差別不大,具有數(shù)據(jù)倉庫本身具有的一切技術(shù)特性。但是其數(shù)據(jù)模型的設(shè)計(jì),必須與商業(yè)銀行的業(yè)務(wù)邏輯相切合,這樣才能發(fā)揮其應(yīng)有的作用。商業(yè)銀行數(shù)據(jù)倉庫采集包括銀行核心系統(tǒng)在內(nèi)的交易系統(tǒng)數(shù)據(jù),經(jīng)過加載整理,按照銀行業(yè)務(wù)主題(當(dāng)事人、內(nèi)部機(jī)構(gòu)、資產(chǎn)、地址、產(chǎn)品、協(xié)議、事件、渠道、總賬、營銷等)進(jìn)行組織和存儲,形成商業(yè)銀行數(shù)據(jù)倉庫的基礎(chǔ)模型區(qū),特點(diǎn)為以數(shù)據(jù)驅(qū)動,保留基礎(chǔ)、細(xì)節(jié)、歷史、整合的數(shù)據(jù)。3數(shù)據(jù)倉庫模型3.1維度模型該模型將數(shù)據(jù)

5、看作數(shù)據(jù)立方體(datacube)形式,立方體由維和事實(shí)定義。維是關(guān)于一個組織想要記錄的透視或?qū)嶓w。每一個維都有一個表與之相聯(lián),該表稱為維表,它進(jìn)一步描述維。維度數(shù)據(jù)模型圍繞中心主題組織。該主題用事實(shí)表表示。事實(shí)是數(shù)值度量的。把它們看作數(shù)量,是因?yàn)槲覀兿敫鶕?jù)他們分析維之間的關(guān)系。事實(shí)表包括事實(shí)名稱和度量,以及每個相關(guān)維表的關(guān)鍵字。比如,銀行想記錄客戶所持有的賬戶的相關(guān)信息,那么就要建一張賬戶的事實(shí)表來表示賬戶這個主題。在賬戶表中有賬戶的余額、開戶日期、開戶機(jī)構(gòu)、賬戶持有人等信息。其中,賬戶余額就是賬戶表的度量字段。而開戶日期、開戶機(jī)構(gòu)等字段則是與其他日期、機(jī)構(gòu)等維表關(guān)聯(lián)的關(guān)鍵字。3.2星型模型

6、是維度模型的一種,包括一個大的包含大批數(shù)據(jù)和不含冗余的中心表(事實(shí)表),一組小的附屬表(維表),每維一個。這種模型很像星星爆發(fā),維表圍繞中心表顯示在射線上。3.3雪花模型雪花模型是星型模型的變種,其中某些維表是范式化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果模式圖形成類似于雪花的形狀。雪花模型和星型模型的主要不同在于,雪花模型的維度可能是范式化形式,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時,大維表可能非常大。然而,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。這樣,系統(tǒng)的性能可能相對受到影響。因此

7、,在維度建模的數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模型不如星型模型流行。3.4范式化模型根據(jù)企業(yè)的業(yè)務(wù)特點(diǎn),將整個業(yè)務(wù)流程抽象為若干個主題,主題內(nèi)部遵循三范式以上的范式進(jìn)行建模(必要時可以適當(dāng)降范式),主題與主題間通過關(guān)系表連接。比較類似于雪花緯度模型,但是范式化程度比雪花模型更高,也沒有事實(shí)表和緯度表的概念。3.5商業(yè)銀行數(shù)據(jù)倉庫模型的選擇從理論上來看,維度模型在查詢上比較有優(yōu)勢,但是對于業(yè)務(wù)種類繁多,業(yè)務(wù)流程復(fù)雜的商業(yè)銀行來說,用維度模型進(jìn)行存儲未必能將各個操作型系統(tǒng)的數(shù)據(jù)進(jìn)行很好地整合。而范式化模型可以將操作系統(tǒng)的各類數(shù)據(jù)很好地整合存儲,但是范式化的結(jié)構(gòu)不利于快速分析查詢,需要經(jīng)過多次的表間聯(lián)接才能完成

8、一次客戶全視圖查詢。因此,筆者認(rèn)為單單使用維度建?;蛘叻妒交6疾荒芎芎玫刂С制髽I(yè)級數(shù)據(jù)倉庫的建設(shè)和發(fā)展。根據(jù)國際最佳實(shí)踐以及筆者的項(xiàng)目實(shí)施經(jīng)驗(yàn),比較好的做法是在數(shù)據(jù)模型層使用范式化模型,而后通過視圖將范式化模型轉(zhuǎn)換為維度模型給數(shù)據(jù)集市供數(shù)。4商業(yè)銀行數(shù)據(jù)倉庫整體架構(gòu)初探4.1源系統(tǒng)文件(Sourcefile)源系統(tǒng)文件就是將銀行各操作型系統(tǒng)(比如客戶信息系統(tǒng)、存貸款系統(tǒng)、中間業(yè)務(wù)系統(tǒng)、信用卡系統(tǒng)、電子銀行系統(tǒng)等)數(shù)據(jù)表中的數(shù)據(jù)以文件形式下載給數(shù)據(jù)倉庫系統(tǒng)。同時,視相關(guān)業(yè)務(wù)數(shù)據(jù)量大小決定每天是全量下載還是增量下載。4.2操作型數(shù)據(jù)存儲(ODS)層及其視圖操作型數(shù)據(jù)存儲區(qū)域的數(shù)據(jù)表結(jié)構(gòu)一般與上

9、游源表結(jié)構(gòu)一致,數(shù)據(jù)也基本一致,等于是將上游數(shù)據(jù)復(fù)制一份到數(shù)據(jù)倉庫系統(tǒng),因此也稱為源系統(tǒng)鏡像(SourceImage。操作型數(shù)據(jù)存儲(ODS)視圖,是為了數(shù)據(jù)安全性和查詢性能等因素考慮建立的視圖,其結(jié)構(gòu)與ODS本身結(jié)構(gòu)一致。操作型數(shù)據(jù)存儲(ODS)的作用主要有以下幾個:如果上游源系統(tǒng)文件每日下載增量數(shù)據(jù)給數(shù)據(jù)倉庫,則可以在ODS進(jìn)行全量累加;對于上游源系統(tǒng)文件中部分錯誤數(shù)據(jù)(比如字段長度被截位等),可以在ODS及時發(fā)現(xiàn),進(jìn)行修復(fù)和清理,提高到達(dá)模型層數(shù)據(jù)的數(shù)據(jù)質(zhì)量;對于那些時效性要求高,不需要?dú)v史數(shù)據(jù),且查詢不是很復(fù)雜的業(yè)務(wù)需求(比如電話銀行的增值業(yè)務(wù)等),可以繞過數(shù)據(jù)倉庫模型層,由ODS直接

10、供數(shù)。4.3范式化模型層根據(jù)商業(yè)銀行日常運(yùn)作的業(yè)務(wù)特點(diǎn),抽象出若干個主題(比如當(dāng)事人、內(nèi)部機(jī)構(gòu)、資產(chǎn)、地址、產(chǎn)品、協(xié)議、事件、渠道、總賬、營銷等),將銀行各個交易系統(tǒng)中的數(shù)據(jù)經(jīng)過整合加載入各主題內(nèi)部的各個數(shù)據(jù)表中??梢哉f,模型層的設(shè)計(jì)對于整個數(shù)據(jù)倉庫建設(shè)的成敗起著至關(guān)重要的作用,模型設(shè)計(jì)人員需要結(jié)合銀行自身業(yè)務(wù)特點(diǎn)在模型的穩(wěn)定性、準(zhǔn)確性、完整性和易用性等方面進(jìn)行權(quán)衡,從而設(shè)計(jì)出高效、穩(wěn)定、準(zhǔn)確的模型。4.4邏輯視圖邏輯視圖的主要目的是方便數(shù)據(jù)倉庫下游各數(shù)據(jù)集市取數(shù),由于是面向查詢,建議使用維度建模。隨著數(shù)據(jù)倉庫的發(fā)展,其下游的數(shù)據(jù)集市將會越來越多。因此,對于邏輯視圖的設(shè)計(jì)除了要方便查詢以外,更

11、要注意對于統(tǒng)計(jì)指標(biāo)的重用,以及對于視圖數(shù)量的合理規(guī)劃。需要在穩(wěn)定性和易用性之間找到平衡點(diǎn)。同時,從模型層到邏輯視圖的轉(zhuǎn)換邏輯復(fù)雜程度和轉(zhuǎn)換性能也是需要考慮的一個問題。5數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)管理要建設(shè)好商業(yè)銀行的企業(yè)級數(shù)據(jù)倉庫,除了要選擇一種合適的建模方法,有一個合理的數(shù)據(jù)架構(gòu)以外,更要關(guān)注存入數(shù)據(jù)倉庫的數(shù)據(jù)情況。要真正體現(xiàn)數(shù)據(jù)倉庫的價(jià)值,還是要依靠存入倉庫中的數(shù)據(jù),可以說數(shù)據(jù)是數(shù)據(jù)倉庫的生命。而說到數(shù)據(jù),就必須要提數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)管理這3塊內(nèi)容。5.1數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)是用來描述數(shù)據(jù)的,用來定義數(shù)據(jù)的業(yè)務(wù)含義和技術(shù)特征,可以分為業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)和技術(shù)數(shù)據(jù)標(biāo)準(zhǔn)。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)從銀

12、行業(yè)務(wù)角度來描述數(shù)據(jù),比如賬號可以描述為“與銀行簽訂了特定協(xié)議的客戶所持有的,用于存放交易金額的賬戶號”。技術(shù)數(shù)據(jù)表準(zhǔn)則從數(shù)據(jù)庫技術(shù)的角度來描述數(shù)據(jù),比如賬號可以描述為“25位長度的數(shù)字串,由9位地區(qū)號+9位網(wǎng)點(diǎn)號+2位識別號+5位順序號組成”。5.2數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)倉庫建設(shè)的重要內(nèi)容,是數(shù)據(jù)倉庫應(yīng)用及價(jià)值發(fā)揮的基礎(chǔ)。具體來說,數(shù)據(jù)質(zhì)量管理需要部署數(shù)據(jù)質(zhì)量檢查規(guī)則。對于在數(shù)據(jù)倉庫中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,需要通過數(shù)據(jù)質(zhì)量管理平臺進(jìn)行反饋、跟蹤和驗(yàn)證,從而保證數(shù)據(jù)質(zhì)量問題的有效解決。5.3元數(shù)據(jù)管理元數(shù)據(jù)管理的工作主要是建立一個物理平臺,將數(shù)據(jù)標(biāo)準(zhǔn)在物理上實(shí)現(xiàn)落地。元數(shù)據(jù)管理平臺的建設(shè)

13、要注意其范圍和詳細(xì)程度。從范圍上來說,最好是有一個覆蓋全行所有數(shù)據(jù)和數(shù)據(jù)結(jié)構(gòu)的大元數(shù)據(jù)系統(tǒng),這樣可以保證各個系統(tǒng)之間的數(shù)據(jù)結(jié)構(gòu)和各個元數(shù)據(jù)的統(tǒng)一規(guī)劃和設(shè)計(jì)。從詳細(xì)程度上來說,需要建立機(jī)制,要求各個系統(tǒng)的所有數(shù)據(jù)結(jié)構(gòu)及其相關(guān)信息都要登記到元數(shù)據(jù)管理平臺中,這樣才能使其發(fā)揮應(yīng)用的價(jià)值和作用。5.4數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)管理的關(guān)系數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)管理三者是相輔相成,相互作用的關(guān)系。數(shù)據(jù)標(biāo)準(zhǔn)的建立給數(shù)據(jù)質(zhì)量管理提供了判斷依據(jù),凡是不符合數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)都是有問題的數(shù)據(jù)。同時,數(shù)據(jù)質(zhì)量發(fā)現(xiàn)和解決的過程中也可能會產(chǎn)生新的數(shù)據(jù)標(biāo)準(zhǔn)。元數(shù)據(jù)管理平臺的建設(shè)則是需要和數(shù)據(jù)標(biāo)準(zhǔn)建立同步實(shí)施的,數(shù)

14、據(jù)標(biāo)準(zhǔn)必須與元數(shù)據(jù)保持統(tǒng)一和同步。6靈活查詢所謂靈活查詢,就是在數(shù)據(jù)倉庫中開辟一塊空間,讓業(yè)務(wù)用戶直接從倉庫中獲取數(shù)據(jù),以滿足業(yè)務(wù)人員即時的、靈活的查詢。產(chǎn)品再好,也需要營銷了才能讓客戶知曉。靈活查詢在數(shù)據(jù)倉庫的建設(shè)過程中就是扮演了這么一個營銷的角色。讓業(yè)務(wù)人員開始使用數(shù)據(jù)倉庫,從中體會到數(shù)據(jù)倉庫的優(yōu)勢。同時,在業(yè)務(wù)人員使用數(shù)據(jù)倉庫的過程中,也可能發(fā)現(xiàn)一些數(shù)據(jù)質(zhì)量問題,這樣也有利于改善數(shù)據(jù)倉庫本身的數(shù)據(jù)質(zhì)量情況。對于數(shù)據(jù)倉庫項(xiàng)目的設(shè)計(jì)開發(fā)來說,推廣靈活查詢也具有其積極的意義。對于一般的數(shù)據(jù)集市應(yīng)用類項(xiàng)目開發(fā)周期一般需要幾個月時間,而且業(yè)務(wù)人員在提需求的時候,沒有數(shù)據(jù)驗(yàn)證環(huán)節(jié)。導(dǎo)致當(dāng)項(xiàng)目完成了,或是已經(jīng)失去市場機(jī)遇,或是沒有達(dá)到業(yè)務(wù)人員的預(yù)期,效果未必令人滿意。靈活查詢的推廣,可以讓業(yè)務(wù)人員在提需求前先通過數(shù)據(jù)倉庫來驗(yàn)證自己的想法,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論