商業(yè)銀行常見的數(shù)據(jù)架構體系_第1頁
商業(yè)銀行常見的數(shù)據(jù)架構體系_第2頁
商業(yè)銀行常見的數(shù)據(jù)架構體系_第3頁
商業(yè)銀行常見的數(shù)據(jù)架構體系_第4頁
商業(yè)銀行常見的數(shù)據(jù)架構體系_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商業(yè)銀行常見的數(shù)據(jù)架構體系商業(yè)銀行常見的數(shù)據(jù)架構體系原則參考原則參考正文目錄TOC商業(yè)銀行常見的數(shù)據(jù)架構體系 31、數(shù)據(jù)采集層 42、存儲計算層 4(1)主數(shù)據(jù)區(qū): 4(2)指標匯總區(qū): 5(3)集市區(qū)(倉內): 6(4)批量接口區(qū): 6(5)非構造化數(shù)據(jù)存儲計算區(qū): 6(6)歷史數(shù)據(jù)區(qū): 6(7)實時數(shù)據(jù)區(qū): 6(8)在線訪問區(qū): 63、倉外集市數(shù)據(jù)區(qū) 74、報表區(qū) 75、數(shù)據(jù)探索區(qū) 8商業(yè)銀行常見的數(shù)據(jù)架構體系我國商業(yè)銀行通過20數(shù)年的信息化建設,形成了比較完善的IT體系架構,但是隨著銀行業(yè)務和信息技術的快速發(fā)展,卻產生越來越多的不同種類的業(yè)務數(shù)據(jù),它們分散在不同的系統(tǒng)中且無法作為一種整體被運用,給銀行的數(shù)據(jù)管理和運用帶來了巨大挑戰(zhàn);同時,競爭越來越激烈的商業(yè)銀行意識到了通過分析運用數(shù)據(jù)來挖掘本身潛力和提高業(yè)績,鞏固其市場競爭力。數(shù)據(jù)倉庫通過集成、統(tǒng)一數(shù)據(jù),使數(shù)據(jù)得到有效運用,為商業(yè)銀行提高管理和服務水平提供了有效的手段。狹義的數(shù)據(jù)倉庫數(shù)據(jù)架構用來特指數(shù)據(jù)分布,廣義的數(shù)據(jù)倉庫數(shù)據(jù)架構還涉及數(shù)據(jù)模型、數(shù)據(jù)原則和數(shù)據(jù)治理。即包含相對靜態(tài)部分如元數(shù)據(jù)、業(yè)務對象數(shù)據(jù)模型、主數(shù)據(jù)、共享數(shù)據(jù),也包含相對動態(tài)部分如數(shù)據(jù)流轉、ETL、整合、訪問應用和數(shù)據(jù)全生命周期管控治理。數(shù)據(jù)架構層面通過數(shù)據(jù)分類、分層布署等手段,從非功效性視角將數(shù)據(jù)合理布局。通過整體架構管控和設計,支持業(yè)務操作類和管理分析類應用(系統(tǒng)),滿足業(yè)務發(fā)展及IT轉型對數(shù)據(jù)的需求,架構的擴展性和適應性能夠提高數(shù)據(jù)分析應用的及時性、靈活性和精確性。那實際狀況下各個銀行的數(shù)據(jù)架構體系會有所不同,根據(jù)各行的業(yè)務發(fā)展、客戶數(shù)據(jù)量、交易數(shù)據(jù)量、功效需求等會有不同的演變途徑以及發(fā)展方向。銀行業(yè)務較復雜,數(shù)據(jù)量也較多,數(shù)據(jù)架構也因此進化較快。常見的數(shù)據(jù)架構分區(qū)以下圖所示:1、數(shù)據(jù)采集層數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)重要是將數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)倉庫中,作為數(shù)據(jù)在數(shù)據(jù)倉庫的起點,數(shù)據(jù)緩存區(qū)數(shù)據(jù)只保存7-10天,以備數(shù)據(jù)問題解決,數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)除了原則化的解決,最佳直接獲取源系統(tǒng)未經加工的數(shù)據(jù),方便一次抽取,多次使用。原則化解決重要有編碼統(tǒng)一轉化、異常字符清理等,方便后續(xù)解決。數(shù)據(jù)采集層不僅僅只應用于數(shù)據(jù)倉庫有關,也能夠合用于各交易系統(tǒng)的批量數(shù)據(jù)或文獻傳輸和交換,因此在全行系統(tǒng)層面制訂規(guī)范。2、存儲計算層(1)主數(shù)據(jù)區(qū):指構造化數(shù)據(jù)的主數(shù)據(jù)區(qū),這部分數(shù)據(jù)涉及了全部的基礎明細數(shù)據(jù)以及歷史數(shù)據(jù),其它區(qū)域的構造化數(shù)據(jù)都是由主數(shù)據(jù)區(qū)數(shù)據(jù)加工而來。那主數(shù)據(jù)區(qū)重要有兩種模型:近源模型層和整合模型層。普通在實踐過程中能夠兩個區(qū)域都有,也能夠只有任意一種區(qū)域。這兩個區(qū)的數(shù)據(jù)都通過歷史拉鏈或歷史流水的方式保存歷史數(shù)據(jù),如果有數(shù)據(jù)原則,這兩個區(qū)的數(shù)據(jù)按數(shù)據(jù)原則進行字段屬性如代碼值、長度、精度的原則化,那這兩個區(qū)的數(shù)據(jù)重要在模型設計方面有所不同:①近源模型區(qū):表構造設計和源系統(tǒng)類似,在源系統(tǒng)表基礎上增加原則化字段以及歷史數(shù)據(jù)保存算法的數(shù)據(jù)日期字段,近源模型層的特點是保存源系統(tǒng)表全部信息,在建模和運行效率上比較高,但數(shù)據(jù)整合性不高,某些交易系統(tǒng)設計的表構造并不直接合用數(shù)據(jù)分析和加工。②整合模型區(qū):整合模型區(qū)按主題進行數(shù)據(jù)整合、表設計以三范式為主,模型穩(wěn)定,數(shù)據(jù)冗余少,那這里模型穩(wěn)定是指即使源系統(tǒng)表構造如何變化,只要實體之間關系和屬性不變,那整合模型也能夠保持基本不變。模型穩(wěn)定的一種好處就是能夠屏蔽源系統(tǒng)變化,避免下游應用系統(tǒng)重復改造。舉個例子:個人信貸系統(tǒng)升級,將使用新的系統(tǒng),那全部表構造都會發(fā)生變化,如果直接使用近源模型區(qū)數(shù)據(jù),那對于后續(xù)加工變化很大,同時時間跨度較大的分析(如年報)需要分別考慮新舊個人信貸系統(tǒng)的數(shù)據(jù)加工規(guī)則,如果使用整合模型,那整合模型變動不會太大,對于歷史數(shù)據(jù)也能同時存在于一種模型(一套表)中,對于后續(xù)應用加工影響較小。同時整合模型會在客戶、賬戶、簽約等各重要維度進行分析梳理,形成整體視圖,有助于從全行視角分析。例如客戶整合能夠分辨客戶唯一性,獲得客戶視圖;產品和簽約的整合能夠清晰看到客戶在行內的購置的全部產品和簽約。方便后續(xù)客戶分析。(2)指標匯總區(qū):由于主數(shù)據(jù)區(qū)的數(shù)據(jù)并不適宜直接提供應數(shù)據(jù)系統(tǒng)分析使用,因此指標匯總區(qū)是整合各數(shù)據(jù)應用的加工需求,按事實表(寬表)和維度表進行模型設計,對主數(shù)據(jù)區(qū)數(shù)據(jù)進行關聯(lián)、公共指標加工,提供應多個數(shù)據(jù)應用使用,那指標匯總區(qū)可按合同(賬戶)、產品、客戶、科目、機構等逐級匯總,指標匯總區(qū)能夠消除各系統(tǒng)對于同一種指標分別加工造成的口徑差別。(3)集市區(qū)(倉內):倉內集市重要指和數(shù)據(jù)倉庫在同一種物理平臺中的集市,能夠直接訪問主數(shù)據(jù)區(qū),指標匯總區(qū)數(shù)據(jù)、減少數(shù)據(jù)批量轉移的成本,運用數(shù)據(jù)倉庫平臺分析性能快速進行數(shù)據(jù)加工,那數(shù)據(jù)集市的劃分可按業(yè)務部門或下游系統(tǒng)關聯(lián)度進行集市劃分,如財務集市面對管理睬計等財務分析應用進行專門的數(shù)據(jù)加工、使用者重要為計劃財務部。監(jiān)管集市重要面對給人行、銀監(jiān)進行監(jiān)管報送報表的加工,涉及多個業(yè)務管理部門。(4)批量接口區(qū):數(shù)據(jù)倉庫給各下游數(shù)據(jù)應用系統(tǒng)、倉外集市的數(shù)據(jù)接口加工區(qū),按雙方商定的數(shù)據(jù)格式提供應數(shù)據(jù)應用系統(tǒng),批量接口區(qū)按接口合同做簡樸關聯(lián),不做復雜加工,如果平臺支持視圖,接口區(qū)能夠只有視圖提供應下游接口,減少數(shù)據(jù)冗余。(5)非構造化數(shù)據(jù)存儲計算區(qū):重要對非構造化數(shù)據(jù)進行存儲計算,按一定的數(shù)據(jù)類型、來源、用途進行區(qū)域劃分,方便實時查看和分析;(6)歷史數(shù)據(jù)區(qū):面對主數(shù)據(jù)區(qū)和非構造化數(shù)據(jù)區(qū)的歷史數(shù)據(jù)歸檔和查詢。主數(shù)據(jù)區(qū)和非構造化數(shù)據(jù)區(qū)普通只保存1-3年的數(shù)據(jù),之前的數(shù)據(jù)使用率低,可專門歸檔到歷史數(shù)據(jù)區(qū),提高主數(shù)據(jù)區(qū)的性能;同時歷史數(shù)據(jù)區(qū)能夠采用成本較低的設備,減少成本。(7)實時數(shù)據(jù)區(qū):實時數(shù)據(jù)區(qū)重要面對流式數(shù)據(jù)的加工和解決,同時對于流解決所需的主數(shù)據(jù)區(qū)數(shù)據(jù)能夠直接訪問也能夠存儲一份在實時數(shù)據(jù)區(qū)。(8)在線訪問區(qū):在線訪問區(qū)數(shù)據(jù)是數(shù)據(jù)加工成果數(shù)據(jù),以實時數(shù)據(jù)接口方式提供應外部使用。改部分數(shù)據(jù)能夠采用HBASE提供在線查詢服務。3、倉外集市數(shù)據(jù)區(qū)倉外數(shù)據(jù)集市和倉內數(shù)據(jù)集市區(qū)別只是和數(shù)據(jù)倉庫不在同一物理平臺,但同樣面對特定的數(shù)據(jù)應用進行加工分析,普通隨著數(shù)據(jù)量的增加,數(shù)據(jù)倉庫的平臺負荷過大往往會將集市從倉內移到倉外,或者對于需24小時隨時提供數(shù)據(jù)解決的數(shù)據(jù)集市,為了不與數(shù)據(jù)倉庫平臺競爭資源,也普通選擇在倉外建設數(shù)據(jù)集市。4、報表區(qū)報表區(qū)數(shù)據(jù)是加工后的報表成果數(shù)據(jù),為報表平臺提供展示數(shù)據(jù),由于報表系統(tǒng)往往是7*24小時提供服務,因此在數(shù)據(jù)平臺外單獨建立報表平臺,減少耦合性,在行內能夠建設統(tǒng)一的報表平臺,對報表的開發(fā)、整合、維護、下線進行統(tǒng)一管理,減少重復報表開發(fā)。5、數(shù)據(jù)探索區(qū)數(shù)據(jù)探索區(qū)是提供應各業(yè)務部門進行數(shù)據(jù)探索的區(qū)域,該區(qū)域的數(shù)據(jù)根據(jù)業(yè)務分析需求從數(shù)據(jù)倉庫進行加載,并T+1進行更新,由業(yè)務同事對數(shù)據(jù)進行自由分析和挖掘。該平臺普通性能規(guī)定也比較高,能夠使用MPP數(shù)據(jù)庫或HADOOP平臺進行技術實現(xiàn)。由于業(yè)務人員使用比較隨意,該區(qū)域需要注意歷史數(shù)據(jù)的清理,避免過多冗余無用的數(shù)據(jù)占用大量空間。從數(shù)據(jù)分層來看,存儲計算區(qū)是最為核心的部分,存儲計算區(qū)大部分銀行是由MPP數(shù)據(jù)庫和HADOOP平臺共同來實現(xiàn),部分互聯(lián)網銀行單獨使用HADOOP平臺來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論