大數(shù)據(jù)處理綜合處理服務(wù)平臺的設(shè)計方案與實現(xiàn)_第1頁
大數(shù)據(jù)處理綜合處理服務(wù)平臺的設(shè)計方案與實現(xiàn)_第2頁
大數(shù)據(jù)處理綜合處理服務(wù)平臺的設(shè)計方案與實現(xiàn)_第3頁
大數(shù)據(jù)處理綜合處理服務(wù)平臺的設(shè)計方案與實現(xiàn)_第4頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)處理綜合處理服務(wù)平臺的設(shè)計與實現(xiàn)(廣州城市職業(yè)學(xué)院廣東 廣州 510405)摘要:在信息技術(shù)高速發(fā)展的今天,金融業(yè)面臨的競爭日趨激烈,信息的高度共享和數(shù)據(jù)的安全可靠是系統(tǒng)建設(shè)中優(yōu)先考慮的問題。大數(shù)據(jù)綜合處理服務(wù)平臺支持靈活構(gòu)建面向數(shù)據(jù)倉庫、實現(xiàn)批量作業(yè)的原子化、參數(shù)化、操作簡單化、流程可控化,并提供靈活、可自定義的程序接口,具有良好的可擴展性。該服務(wù)平臺以SOA 為基礎(chǔ),采用云計算的體系架構(gòu),整合多種ETL 技術(shù)和不同的ETL 工具,具有統(tǒng)一、高效、可拓展性。該系統(tǒng)整合金融機構(gòu)的客戶、合約、交易、財務(wù)、產(chǎn)品等主要業(yè)務(wù)數(shù)據(jù),提供客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、質(zhì)量監(jiān)控、風(fēng)險預(yù)警

2、、業(yè)務(wù)流程等功能模塊。該研究與設(shè)計打破跨國廠商在金融軟件方面的壟斷地位,促進傳統(tǒng)優(yōu)勢企業(yè)走新型信息化道路,充分實現(xiàn)了“資源共享、低投入、低消耗、低排放和高效率”,值得大力發(fā)展和推廣。關(guān)鍵詞:面向金融,大數(shù)據(jù),綜合處理服務(wù)平臺。一、研究的意義目前,全球 IT 行業(yè)討論最多的兩個議題,一個是大數(shù)據(jù)分析“ Big Data ”, 一個是云計算 “CloudComputing ”。中國五大國有商業(yè)銀行發(fā)展至今,積累了海量的業(yè)務(wù)數(shù)據(jù),同時還不斷的從外界收集數(shù)據(jù)。據(jù)IDC(國際數(shù)據(jù)公司)預(yù)測,用于云計算服務(wù)上的支出在接下來的 5 年間可能會出現(xiàn)3 倍的增長,占據(jù)IT 支出增長總量中 25% 的份額。目前企

3、業(yè)的各種業(yè)務(wù)系統(tǒng)中數(shù)據(jù)從GB 、TB 到 PB 量級呈海量急速增長,相應(yīng)的存儲方式也從單機存儲轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)存儲。傳統(tǒng)的信息處理技術(shù)和手段,如數(shù)據(jù)庫技術(shù)往往只能單純實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,無法充分利用和及時更新海量數(shù)據(jù),更難以進行綜合研究,中國的金融行業(yè)也不例外。中國五大國有商業(yè)銀行發(fā)展至今,積累了海量的業(yè)務(wù)數(shù)據(jù),同時還不斷的從外界收集數(shù)據(jù)。通過對不同來源,不同歷史階段的數(shù)據(jù)進行分析,銀行可以甄別有價值潛力的客戶群和發(fā)現(xiàn)未來金融市場的發(fā)展趨勢,針對目標客戶群的特點和金融市場的需求來研發(fā)有競爭力的理財產(chǎn)品。所以,銀行對海量數(shù)據(jù)分析的需求是尤為迫切的。再有,在信息技術(shù)高速發(fā)展的今天

4、,金融業(yè)面臨的競爭日趨激烈,信息的高度共享和數(shù)據(jù)的安全可靠是系統(tǒng)建設(shè)中優(yōu)先考慮的問題。隨著國內(nèi)銀行業(yè)競爭的加劇,五大國有商業(yè)銀行不斷深化以客戶為中心,以優(yōu)質(zhì)業(yè)務(wù)為核心的經(jīng)營理念,這對銀行自身系統(tǒng)的不斷完善提出了更高的要求。而“云計算”技術(shù)的推出,將成為銀行增強數(shù)據(jù)的安全性和加快信息共享的速度,提高服務(wù)質(zhì)量、降低成本和贏得競爭優(yōu)勢的一大選擇。面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺融合了分布式云計算技術(shù)、SOA 技術(shù)、 ETL 技術(shù)、作業(yè)調(diào)度技術(shù),以 SOA 為基礎(chǔ),采用云計算的體系架構(gòu),整合多種ETL 技術(shù)和不同的 ETL 工具,為金融行業(yè)建立統(tǒng)一、高效、可拓展的面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服

5、務(wù)平臺。該平臺支持靈活構(gòu)建面向數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)集文件進行海量數(shù)據(jù)的處理、加工和交換,實現(xiàn)批量作業(yè)的原子化、參數(shù)化、操作簡單化、流程可控化,并提供靈活、可自定義的程序接口,具有良好的可擴展性,是一個基礎(chǔ)服務(wù)框架的產(chǎn)品平臺。該系統(tǒng)整合金融機構(gòu)的客戶、合約、交易、財務(wù)、產(chǎn)品等主要業(yè)務(wù)數(shù)據(jù),提供客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、質(zhì)量監(jiān)控、風(fēng)險預(yù)警、業(yè)務(wù)流程等功能模塊。系統(tǒng)支持構(gòu)筑面向運營的服務(wù)平臺,可以按功能點或數(shù)據(jù)量來向使用方收費,使用方按格式要求提供數(shù)據(jù),然后點擊相關(guān)功能模塊得到目標結(jié)果。隨著全球各行業(yè)對數(shù)據(jù)整合應(yīng)用需求的擴大,“面向金融領(lǐng)域的海量數(shù)據(jù)綜合處理服務(wù)平臺”的需求將會

6、越來越大。該平臺為銀行、證券、保險行業(yè)等金融領(lǐng)域服務(wù)業(yè)創(chuàng)新和轉(zhuǎn)型升級提供決策支持,能有效推進信息化技術(shù)在傳統(tǒng)金融優(yōu)勢產(chǎn)業(yè)的融合滲透,屬于國家優(yōu)先發(fā)展和重點支持技術(shù)領(lǐng)域。從宏觀的角度來看,通過本服務(wù)平臺的實施,能促進我國金融信息化的發(fā)展,調(diào)整產(chǎn)業(yè)結(jié)構(gòu),同時增強企業(yè)品牌競爭力,提高企業(yè)在國內(nèi)外信息科技領(lǐng)域的知名度,打破跨國廠商在金融軟件方面的壟斷地位,促進傳統(tǒng)優(yōu)勢企業(yè)走新型信息化道路,完善社會主義市場經(jīng)濟體制,符合我國“十二五”規(guī)劃剛要發(fā)展的特點,對全面建設(shè)小康社會新勝利、推進中國特色社會主義偉大事業(yè),具有十分重要的意義。二、 平臺設(shè)計的技術(shù)線路1、 基礎(chǔ)技術(shù)架構(gòu)采用了當(dāng)前先進的云計算技術(shù),系統(tǒng)采

7、用基于 Hadoop 架構(gòu)計算模式,突破傳統(tǒng)數(shù)據(jù)庫系統(tǒng)對海量數(shù)據(jù)處理的速度限制,通過對大量數(shù)據(jù)的并發(fā)訪問和處理,極大地提高了數(shù)據(jù)處理效率。2、 基于 SOA 方式的批量處理作業(yè)調(diào)度邏輯設(shè)計,采用集中式管理、分布式、多節(jié)點并行運算的設(shè)計概念,實現(xiàn)跨平臺、面向數(shù)據(jù)、高效并發(fā)調(diào)度多個海量批處理作業(yè)。3、 采用 ETL 技術(shù),完成海量數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)倉庫再到數(shù)據(jù)集市加工、處理、集成的過程。同時,平臺支持整合主流的ETL 工具( DataStage、 Informatica 、Sagent等)和對可執(zhí)行程序和存儲過程的調(diào)用。4、 采用作業(yè)調(diào)度技術(shù),通過統(tǒng)一的操作平臺和圖形化界面,定義批量作業(yè)的調(diào)度策略

8、和調(diào)度規(guī)則,實現(xiàn)跨平臺、跨系統(tǒng)的批量作業(yè)的調(diào)度、執(zhí)行和監(jiān)控;同時,平臺通過并發(fā)控制和動態(tài)負載均衡實現(xiàn)性能的最大優(yōu)化。5、 采用影像處理技術(shù)實現(xiàn)影像的掃描、處理、分類、上傳。影像掃描通用平臺集成了一系列對文件處理、文件掃描、影像處理、文件上傳的邏輯,通過一系列的抽象和轉(zhuǎn)化,使開發(fā)人員可以忽略內(nèi)部細節(jié)而直接針對業(yè)務(wù)邏輯進行設(shè)計。6、 通過工作流技術(shù)實現(xiàn)業(yè)務(wù)線上的流轉(zhuǎn)和審批,并結(jié)合電子化影像,極大地提高了工作效率。三、平臺的功能與架構(gòu)1、數(shù)據(jù)整合層通過 SOA 技術(shù)、 ETL 技術(shù)、 hadoop 的 HDFS 技術(shù)、影像處理技術(shù),高效整合來自各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),保證系統(tǒng)數(shù)據(jù)的一致性、準確性和完整性

9、。數(shù)據(jù)經(jīng)過加工處理,根據(jù)數(shù)據(jù)格式和數(shù)據(jù)量,分別存儲在關(guān)系型數(shù)據(jù)庫、hadoopHBASE 、影像存 ? 教校 ?再根據(jù)主題應(yīng)用,將數(shù)據(jù)整合加工存儲在“應(yīng)用數(shù)據(jù)存儲”,為用戶提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖。2、基礎(chǔ)架構(gòu)層采用 hadoop 來構(gòu)建分布式并行計算平臺,主要由MapReduce 的算法執(zhí)行和一個分布式的文件系統(tǒng)(HDFS )兩部分組成, hadoop 在可伸縮性、健壯性、計算性能和成本上具有無可替代的優(yōu)勢。采用公司有自主知識產(chǎn)權(quán)的ETL 軟件包或整合主流的ETL 工具( DataStage、 Informatica 、 Sagent等)來構(gòu)建數(shù)據(jù)ETL 平臺。采用 Brio 構(gòu)建數(shù)據(jù)查

10、詢、分析、統(tǒng)計報表平臺。采用 Oracle 和 hadoop HBASE 搭建數(shù)據(jù)存儲平臺。Oracle 采用傳統(tǒng)的方式存儲數(shù)據(jù)。HBase 是 Hadoop 的一個子工程, HBase 采用了 Google BigTable 的稀疏的、面向列的數(shù)據(jù)庫實現(xiàn)方式,建立在hadoop 的 hdfs 上,一方面用了hdfs 的高可靠性和可伸縮行,另外一方面用了BigTable 的高效數(shù)據(jù)組織形式,為海量數(shù)據(jù)加工處理存儲提供了很好的解決方案。采用 JBPM 管理并配置流程,實現(xiàn)對流程的讀取和保存操作,并推動流程的流轉(zhuǎn)。采用 Websphere支持 WEB 應(yīng)用,用戶只需通過瀏覽器即可登錄系統(tǒng)進行相關(guān)操

11、作,提高了易用性和可維護性。3、集成與服務(wù)層集成與服務(wù)層整合了ETL 引擎、作業(yè)調(diào)度引擎、規(guī)則引擎、影像處理引擎、工作流引擎來實現(xiàn)關(guān)鍵技術(shù)路徑,并通過組件化設(shè)計,保證了系統(tǒng)的靈活性和可擴展性。系統(tǒng)還提供了管理監(jiān)控服務(wù)、云計算服務(wù)、數(shù)據(jù)平臺服務(wù)等。4、應(yīng)用層在數(shù)據(jù)整合層、基礎(chǔ)架構(gòu)層、集成與服務(wù)層的基礎(chǔ)上實現(xiàn)針對業(yè)務(wù)數(shù)據(jù)加工、客戶視圖、客戶關(guān)系管理、營銷管理、財務(wù)分析、資產(chǎn)質(zhì)量監(jiān)控、風(fēng)險預(yù)警、業(yè)務(wù)分析、統(tǒng)計報表等應(yīng)用。系統(tǒng)物理架構(gòu)如下:> 數(shù)據(jù)源:數(shù)據(jù)來源于多個業(yè)務(wù)系統(tǒng);> ETL 服務(wù)器:多臺服務(wù)器組成集群,部署hadoopHDFS 、 datastage工具、 etl 軟件包,實現(xiàn)

12、海量數(shù)據(jù)的綜合處理;> 存儲服務(wù)器:多臺服務(wù)器組成集群,部署oracle 數(shù)據(jù)庫、 hadoop HBASE 來存儲數(shù)據(jù),部署影像存儲平臺來存儲影像文件;> WEB應(yīng)用服務(wù)器:部署IBM Webspshere applicationServer,支持WEB應(yīng)用,部署JBPM支持工作流應(yīng)用;> 分析應(yīng)用服務(wù)器:部署 Brio 服務(wù)器,支持分析、統(tǒng)計、報表應(yīng)用;> 客戶端:客戶端采用普通 PC,客戶端瀏覽器要求IE5.5 以上;> 網(wǎng)絡(luò):服務(wù)器、客戶端通過TCP/IP 網(wǎng)絡(luò)進行連接。四、關(guān)鍵技術(shù)與創(chuàng)新性云計算技術(shù):本服務(wù)平臺采用高性能的分布式云計算技術(shù),實現(xiàn)海量文件存

13、儲、海量數(shù)據(jù)存儲和統(tǒng)一的海量數(shù)據(jù)處理編程方法和運行環(huán)境。云計算主要基于虛擬化和分布式并行架構(gòu)兩大核心技術(shù),虛擬化平臺將服務(wù)器虛擬為多個性能可配的虛擬機,對整個集群系統(tǒng)中所有虛擬機進行監(jiān)控和管理,并根據(jù)實際資源使用情況對資源池靈活分配和調(diào)度。虛擬化技術(shù)不僅消除大規(guī)模異構(gòu)服務(wù)器的差異化,其形成的計算池可以具有超級的計算能力。分布式并行架構(gòu)是云計算的另一個核心技術(shù),用于將大量的低配置機器整合為一臺高性能計算機,提供海量的數(shù)據(jù)存儲和處理服務(wù)。SOA 技術(shù): 面向服務(wù)的體系結(jié)構(gòu)(service-orientedarchitecture,SOA )是一個組件模型,它將應(yīng)用程序的不同功能單元(稱之為服務(wù))通

14、過這些服務(wù)之間定義良好的接口聯(lián)系起來。接口是獨立于實現(xiàn)服務(wù)的硬件平臺、操作系統(tǒng)和編程語言的。采用SOA 技術(shù)實現(xiàn)處理、運行、監(jiān)控服務(wù)之間的松耦合,使系統(tǒng)變得更加靈活,以適應(yīng)不斷變化的業(yè)務(wù)需求和環(huán)境。ETL 技術(shù): ETL 中三個字母分別代表的是Extract 、Transform 、Load,即抽取、轉(zhuǎn)換、加載。ETL 作為構(gòu)建數(shù)據(jù)倉庫的一個重要環(huán)節(jié),負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等加工到臨時中間層,然后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市,作為聯(lián)機分析處理、數(shù)據(jù)挖掘的數(shù)據(jù)基礎(chǔ)。采用自主開發(fā)的 ETL 工具或整合主流ETL 工具,通過周期性的刷新,為用戶

15、提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個高質(zhì)量的數(shù)據(jù)源。作業(yè)調(diào)度技術(shù):數(shù)據(jù)倉庫、數(shù)據(jù)集市的批量作業(yè)數(shù)量很多、處理流程和作業(yè)依賴關(guān)系復(fù)雜多樣、性能低下,是ETL 處理加工遇到的常見問題,系統(tǒng)采用作業(yè)調(diào)度技術(shù),通過統(tǒng)一的操作平臺和圖形化界面,定義批量作業(yè)的調(diào)度策略和調(diào)度規(guī)則,實現(xiàn)跨平臺、跨系統(tǒng)的批量作業(yè)的調(diào)度、執(zhí)行和監(jiān)控。針對數(shù)據(jù)量巨大、源數(shù)據(jù)文件多、加工邏輯復(fù)雜的系統(tǒng),使用作業(yè)調(diào)度技術(shù)達到簡化管理復(fù)雜度,提高系統(tǒng)總體性能的目的。影像處理技術(shù):采用我公司自有知識產(chǎn)權(quán)的影像掃描通過平臺來實現(xiàn)影像的處理及上傳。掃描影像:作為一個插件,該軟件可以在 IE 瀏覽器平臺上調(diào)用各種掃描設(shè)備掃描圖像,并

16、按照預(yù)先設(shè)定的摸板,對影像自動存盤,并對掃描的影像進行數(shù)據(jù)格式壓縮,確保傳輸文件的大小。影像處理:對掃描出來的影像提供了預(yù)覽的功能,支持放大、縮小查看。對影像還具有自動去黑點、去黑框、自動糾偏,以及旋轉(zhuǎn)角度等功能。影像分類:對掃描的影像文件提供分類文件夾,便于用戶按照實際的業(yè)務(wù)需求來進行分類。文件操作:支持影像文件的一般操作,如復(fù)制、粘貼、刪除、建立文件夾等功能,并支持縮略圖的拖拉操作。影像上傳:對于指定的影像資料,在特定的目錄下,支持影像的上傳功能,由服務(wù)器進行影像的存放及 ?稻菘飧 ? 新。在傳輸過程中嚴格保證文件傳輸?shù)臏蚀_性。工作流技術(shù):采用基于Java 的 jBPM 作為工作流引擎,來設(shè)計、優(yōu)化、運行并控制業(yè)務(wù)流程。 jBPM 作為工作流引擎,支持可視化流程定義、版本化部署以及日志跟蹤。系統(tǒng)充分利用 jBPM 原有特性的基礎(chǔ)上做了優(yōu)化和封裝,尤其是優(yōu)化了流程的執(zhí)行、改善流程執(zhí)行的效率、提高系統(tǒng)的并發(fā)性能。六、技術(shù)推廣與社會效益在未來的五年內(nèi),國際金融市場對數(shù)據(jù)倉庫和數(shù)據(jù)分析的市場需求將會持續(xù)增長,本服務(wù)平臺開發(fā)的數(shù)據(jù)倉庫支撐技術(shù)將得到進一步的升級改造。同時,進一步推進國內(nèi)金融信息化同行對數(shù)據(jù)倉庫相關(guān)的支撐技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論