銀行數(shù)據(jù)倉庫構(gòu)建分析_第1頁
銀行數(shù)據(jù)倉庫構(gòu)建分析_第2頁
銀行數(shù)據(jù)倉庫構(gòu)建分析_第3頁
銀行數(shù)據(jù)倉庫構(gòu)建分析_第4頁
銀行數(shù)據(jù)倉庫構(gòu)建分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、如何構(gòu)建銀行數(shù)據(jù)倉庫數(shù)據(jù)倉庫技術(shù)作為一項數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對聯(lián)機分析處理(olap)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標準。在以往關(guān)系數(shù)據(jù)庫的設(shè)計和實現(xiàn)中,不僅有詳細的理論推導,還有無數(shù)的設(shè)計實例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實現(xiàn)同一業(yè)務(wù)需求的方案都會很相似。而現(xiàn)有數(shù)據(jù)倉庫的實現(xiàn)中,出現(xiàn)了molap方案和rolap方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而

2、設(shè)計人員的個人經(jīng)驗和素質(zhì)也會在其中扮演很重要的角色。數(shù)據(jù)倉庫技術(shù)的實現(xiàn)方式目前在數(shù)據(jù)倉庫技術(shù)的實際應(yīng)用中主要包括如下幾種具體實現(xiàn)方式。1、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(rolap)2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(molap)molap方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲數(shù)據(jù);rolap方案則以二維關(guān)系表為核心表達多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲。在多維數(shù)據(jù)模型的表達方面,多維矩陣比關(guān)系表更清晰且占用的存儲更少,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的rolap系統(tǒng),系統(tǒng)性能成為最大問題。molap方案比rolap方案要簡明,索引及數(shù)

3、據(jù)聚合可以自動進行并自動管理,但同時喪失了一定的靈活性。rolap方案的實現(xiàn)較為復雜,但靈活性較好,用戶可以動態(tài)定義統(tǒng)計和計算方式,另外能保護在已有關(guān)系數(shù)據(jù)庫上的投資。由于兩種方案各有優(yōu)劣,因此在實際應(yīng)用中,往往將molap和rolap結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫存儲歷史數(shù)據(jù)、細節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費,而在多維數(shù)據(jù)庫中存儲當前數(shù)據(jù)和常用統(tǒng)計數(shù)據(jù),以提高操作性能。3、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫由于目前正在運行的oltp系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能、性能各方面給

4、出一個完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉庫的建設(shè)和分析數(shù)據(jù)的積累需要一段時間,無法及時滿足用戶對信息分析的迫切需要。因此在籌建數(shù)據(jù)倉庫的前期,可以采用一些合適的表現(xiàn)工具,在原有oltp系統(tǒng)上建立起一個邏輯的數(shù)據(jù)倉庫系統(tǒng)。盡管由于原有oltp系統(tǒng)設(shè)計上的局限性,這樣的系統(tǒng)可能無法實現(xiàn)很多分析功能,但這樣一個系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模、實現(xiàn)過程會相對容易、便捷;同時,這樣的系統(tǒng)也會成為將來真正數(shù)據(jù)倉庫建設(shè)的原型。信息系統(tǒng)與數(shù)據(jù)倉庫的關(guān)系由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時,不可避免地會遇上如何管理這些浩如煙海的數(shù)據(jù),以

5、及如何從中提取有用的信息的問題;而數(shù)據(jù)倉庫的最大優(yōu)點在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲在一個單一的集成的數(shù)據(jù)庫中,并提供各種手段對數(shù)據(jù)進行統(tǒng)計、分析。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。數(shù)據(jù)倉庫在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶市場分析、相關(guān)金融業(yè)分析決策(證券、外匯買賣)、風險預(yù)測、效益分析等。在銀行信息系統(tǒng)構(gòu)建時,由于歷史情況和現(xiàn)實需求的不同,存在兩種途徑:1、建設(shè)新系統(tǒng)由于目前國內(nèi)商業(yè)銀行對銀行內(nèi)部運營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機制,因此可以在構(gòu)建管理信息系統(tǒng)時,分數(shù)據(jù)收集錄入和

6、數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,同時考慮到搜集過程中可能存在多個數(shù)據(jù)來源,因此可以在系統(tǒng)建設(shè)的同時構(gòu)建數(shù)據(jù)倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中。2、完善原有系統(tǒng)而對于已經(jīng)存在oltp系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個虛擬的多維模型。當系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,又縮短開發(fā)工期。實現(xiàn)中需要注意的問題一、模型設(shè)計中的問題模型設(shè)計(包括邏輯模型設(shè)計和物理模型設(shè)計)是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實際操作中,視實現(xiàn)技術(shù)的不同應(yīng)分別對下列問題引起注

7、意。1、直接構(gòu)建數(shù)據(jù)倉庫直接構(gòu)建數(shù)據(jù)倉庫時,必須按業(yè)務(wù)分析的要求重組oltp系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點分別組織,使之便于使用。*主題的確定主題是一個邏輯概念,它應(yīng)該能夠完整、統(tǒng)一地刻畫出分析對象所涉及的各項數(shù)據(jù)以及相互聯(lián)系。劃分主題的根據(jù)主要來源于兩方面:對原有固定報表的分析和對業(yè)務(wù)人員的訪談。原有固定報表能較好地反映出以往工作對數(shù)據(jù)分析的需求,而且數(shù)據(jù)含義和格式相對成熟、穩(wěn)定,在模型設(shè)計中需要大量借鑒。但僅僅滿足于替代目前的手工報表還遠遠不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標,還應(yīng)該通過業(yè)務(wù)訪談,進一步挖掘出日常工作中潛在的更廣、更深的分析需求。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉庫模型所需的主題劃分

8、。*分析內(nèi)容的細化主題的劃分實際上是與分析內(nèi)容的范圍直接相關(guān)的,一旦主題劃分清楚了,下一步就是細化分析的具體內(nèi)容以及根據(jù)分析內(nèi)容的性質(zhì)確定它在數(shù)據(jù)倉庫中的位置。通常維元素對應(yīng)的是分析角度,而度量對應(yīng)的是分析關(guān)心的具體指標。一個指標究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務(wù)需求,但從實際操作中可以總結(jié)出如下的概念性經(jīng)驗:作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)型數(shù)據(jù),取值無限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對其按取值進行分段,以分段值作為實際的維元素。判斷分析指標是作為維元素還是維屬性時,則需要綜合考慮這個指標占用的存儲空間與相關(guān)查詢的使用頻度

9、。需要特別強調(diào)的是,在細化分析內(nèi)容的過程中,務(wù)必解決指標的歧義問題。在不同報表中以及在業(yè)務(wù)訪談中同一名稱的指標,是否是在同樣條件限定下,通過同樣方法提取或計算得到的,它們之間的相互關(guān)系是什么,這些問題都必須從熟悉業(yè)務(wù)的分析人員那里得到準確、清晰的答案,否則將會影響到模型設(shè)計、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個方面。*粒度的設(shè)計數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒度將對信息系統(tǒng)的多方面產(chǎn)生影響。事實表中以各種維度的什么層次作為最細粒度,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時間。如果同一個信息系統(tǒng)要在大范圍、多層次上同時運行,如部門級和企業(yè)級,還

10、應(yīng)考慮不同層次的數(shù)據(jù)倉庫采用不同的粒度。*模型設(shè)計中的技巧復合指標尤其是比率類指標的定義,必須注意累加時是先加減后乘除,還是反之。戶數(shù)、筆數(shù)的計算,這類指標在分析或報表中經(jīng)常出現(xiàn),但不需要作為單獨的指標物理存在于數(shù)據(jù)庫中,但定義分析模型時一定應(yīng)該準備。度量的時間特性,針對分析指標在時間維上的不同表現(xiàn),可分為可累加指標、半可累加指標和不可累加指標。2、在原有數(shù)據(jù)基礎(chǔ)上構(gòu)建邏輯數(shù)據(jù)倉庫如果直接使用oltp系統(tǒng)中的數(shù)據(jù)進行數(shù)據(jù)分析處理,會遇到許多麻煩,有時甚至是不可能實現(xiàn)的。這并不是說關(guān)系數(shù)據(jù)庫不好,而是因為其設(shè)計思路不適應(yīng)較大規(guī)模數(shù)據(jù)分析。因此在使用這種方法時,需要注意下列問題的處理:*不同的時間

11、單位這是實現(xiàn)過程中最常遇到的問題,也往往是最難解決的問題。oltp系統(tǒng)中存儲的時間往往采用與實際業(yè)務(wù)發(fā)生相同的時間單位,如帳務(wù)數(shù)據(jù)單位為日期,財務(wù)報表單位為月或半年。而面向分析時,往往要將不同時間單位的數(shù)據(jù)統(tǒng)一到同一個結(jié)果中,這樣就必須存在適當?shù)霓D(zhuǎn)換機制才能實現(xiàn)。*冗余信息所謂冗余信息,就是指不同關(guān)系表中存在的同一含義的字段,而同一含義不僅指這些字段的取得或計算方式一樣,還指它們成立的條件一樣,例如截止某一時間同一地區(qū)的同一貸種的貸款余額。在oltp系統(tǒng)中,這樣的字段往往是基于性能考慮而設(shè)計的,而在面向分析設(shè)計模型時,為了保證結(jié)果的唯一性和準確性,就必須用且只用其中之一的數(shù)據(jù)產(chǎn)生分析結(jié)果。*表

12、間連接由于oltp系統(tǒng)中表的設(shè)計面向業(yè)務(wù)處理,既要保證數(shù)據(jù)的完整性、一致性,又要考慮響應(yīng)時間,因此表與表之間既相對獨立,又相互依賴。在設(shè)計數(shù)據(jù)倉庫邏輯模型時,對表間的連接必須做出相應(yīng)取舍,既要保證分析數(shù)據(jù)能通過連接取得或計算出,又要避免出現(xiàn)環(huán)路,造成分析數(shù)據(jù)的歧義。另外,不同的連接途徑還會出現(xiàn)不同的查詢速度,影響數(shù)據(jù)分析的響應(yīng)性能。*統(tǒng)計表的設(shè)計如果上述問題不能在原有數(shù)據(jù)庫基礎(chǔ)上得到很好的解決,那么權(quán)益之計就是構(gòu)建統(tǒng)計表,即簡單化的數(shù)據(jù)倉庫,形式類似數(shù)據(jù)倉庫的事實表,定時計算統(tǒng)計數(shù)據(jù)放入,將時間、冗余、連接等問題擯除,進行簡單分析。二、數(shù)據(jù)抽取中的問題數(shù)據(jù)抽取是一件技術(shù)含量不高,但非常煩瑣的工

13、作,必須有專人負責數(shù)據(jù)抽取的工作。在對其進行設(shè)計時,要注意的問題有:1、數(shù)據(jù)抽取的規(guī)則要作為元數(shù)據(jù)進行規(guī)范和管理,抽取過程中的源表、源字段、目的表、目的字段、轉(zhuǎn)換規(guī)則以及轉(zhuǎn)換條件都要作好詳細記錄。這樣不僅便于編程人員實現(xiàn),而且在抽取規(guī)則或邏輯模型發(fā)生變化時也便于修改。2、如何記錄業(yè)務(wù)數(shù)據(jù)庫中的變動情況是數(shù)據(jù)抽取中一個重要的環(huán)節(jié)。由于數(shù)據(jù)倉庫中按時間保存數(shù)據(jù),因此不同時間點之間數(shù)據(jù)的差異就成為一個關(guān)鍵性因素。通??梢岳脭?shù)據(jù)庫管理系統(tǒng)提供的手段在數(shù)據(jù)庫級產(chǎn)生數(shù)據(jù)變動日志,根據(jù)日志再判斷數(shù)據(jù)的變動情況完成抽取,這樣是一個從性能、可操作性以及對原業(yè)務(wù)系統(tǒng)的影響等多方面綜合考慮都比較理想的方法。3、當

14、數(shù)據(jù)倉庫中同一表中的數(shù)據(jù)來自于原有系統(tǒng)中不同的表,甚至不同的庫時,抽取時務(wù)必保證這些數(shù)據(jù)單位一致,而且都滿足同一時間條件。4、數(shù)據(jù)抽取不僅要考慮數(shù)據(jù)的提取,還要考慮抽取的時間安排和執(zhí)行方式,這樣才是一個完整的數(shù)據(jù)抽取方案,也才能保證抽取出來的數(shù)據(jù)準確、可用。三、后期維護、優(yōu)化中的問題數(shù)據(jù)倉庫的建設(shè)是一個長期工作,它同其他系統(tǒng)一樣需要在運行的過程中不斷進行調(diào)整、完善。這其中包括兩方面的工作:1、性能數(shù)據(jù)倉庫涉及海量數(shù)據(jù)的查詢,數(shù)據(jù)的大量寫入讀出,不僅對數(shù)據(jù)庫系統(tǒng)的要求很高,而且與oltp系統(tǒng)的要求極為不同,因此在系統(tǒng)設(shè)計、實施和維護的過程中,數(shù)據(jù)倉庫系統(tǒng)的性能都是一個不可忽視的問題。尤其是在運行

15、期間,要密切關(guān)注應(yīng)用對系統(tǒng)資源的消耗情況,針對應(yīng)用的特點及時對系統(tǒng)進行調(diào)整,包括調(diào)整數(shù)據(jù)庫參數(shù)、數(shù)據(jù)分片放置、創(chuàng)建特殊索引乃至提高系統(tǒng)配置等。2、模型應(yīng)用與需求是相互促進、不斷發(fā)展的,隨著信息系統(tǒng)建成運行,用戶在對系統(tǒng)了解不斷加深的過程中,也會對系統(tǒng)提出更新更高的要求。如何在最小投入的前提下滿足用戶的需求,也是一個值得注意和潛心研究的問題。首先要盡可能挖掘現(xiàn)有系統(tǒng)的潛力,其次考慮,對主題的增加或可在現(xiàn)有系統(tǒng)上增加少量指標就可解決的需求,對系統(tǒng)進行適當調(diào)整,最后才考慮對系統(tǒng)進行重構(gòu),盡可能減小系統(tǒng)建設(shè)中的投入。數(shù)據(jù)倉庫應(yīng)用的深化按照上述方法實現(xiàn)的應(yīng)用中,主要完成了報表的生成和日常業(yè)務(wù)的分析,這并不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論