![金融大數(shù)據(jù)解決方案匯報_第1頁](http://file4.renrendoc.com/view/cfabbb39adb16f0e89ec78247813f3cc/cfabbb39adb16f0e89ec78247813f3cc1.gif)
![金融大數(shù)據(jù)解決方案匯報_第2頁](http://file4.renrendoc.com/view/cfabbb39adb16f0e89ec78247813f3cc/cfabbb39adb16f0e89ec78247813f3cc2.gif)
![金融大數(shù)據(jù)解決方案匯報_第3頁](http://file4.renrendoc.com/view/cfabbb39adb16f0e89ec78247813f3cc/cfabbb39adb16f0e89ec78247813f3cc3.gif)
![金融大數(shù)據(jù)解決方案匯報_第4頁](http://file4.renrendoc.com/view/cfabbb39adb16f0e89ec78247813f3cc/cfabbb39adb16f0e89ec78247813f3cc4.gif)
![金融大數(shù)據(jù)解決方案匯報_第5頁](http://file4.renrendoc.com/view/cfabbb39adb16f0e89ec78247813f3cc/cfabbb39adb16f0e89ec78247813f3cc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、金融大數(shù)據(jù)解決方案匯報Content大數(shù)據(jù)發(fā)展趨勢金融大數(shù)據(jù)平臺行業(yè)實踐金融大數(shù)據(jù)平臺關(guān)鍵技術(shù)1234金融大數(shù)據(jù)平臺案列詳述未來銀行:客戶更加移動化、個性化、社交化,實時化固定時間地點獲取服務(wù) 被動接受數(shù)據(jù)傳統(tǒng)客戶 尋求更多資源信任市場信息被動接受傳播互動參與內(nèi)容、產(chǎn) 品和體驗的創(chuàng)建隨時隨地獲取服務(wù) 分析、創(chuàng)造數(shù)據(jù) 尋找有意義的體驗 審視細節(jié)新客戶傳統(tǒng)銀行標準化和產(chǎn)業(yè)化提供服務(wù) 關(guān)注過程和步驟被動接受信息且信息來源單一通過客戶經(jīng)理聯(lián)系客戶 固定渠道單一交互關(guān)注場景營銷客戶運營客戶服務(wù) 客戶個性化的 靈活服務(wù)效率全渠道新銀行第二數(shù)據(jù)平臺成為驅(qū)動業(yè)務(wù)創(chuàng)新的新平臺或有金融資產(chǎn)統(tǒng)一歷史明細實時營銷精準
2、營銷在線征信第一數(shù)據(jù)平面:交易核心單次、事務(wù)性第二數(shù)據(jù)平面: 大數(shù)據(jù)平臺并發(fā)、查詢/分析POSATM柜面電話銀行網(wǎng)上銀行金融脈絡(luò)關(guān)系實時批量互聯(lián)網(wǎng)大數(shù)據(jù)業(yè)務(wù): 實時在線性 業(yè)務(wù)持續(xù)性 跨多元數(shù)據(jù)對大數(shù)據(jù)平臺的要求:企業(yè)級質(zhì)量標準:金融等保、可靠、 易用;支持現(xiàn)有系統(tǒng)的對接。開放性:多分析引擎統(tǒng)一管理,滿足多樣化的數(shù)據(jù)分析場景挖掘能力:支持機器學習、深度學習等新的數(shù)據(jù)挖掘能力,實現(xiàn)更精準的洞見數(shù)據(jù):存量 . 增量 . 行內(nèi) . 行外社交日志 影像 帳戶 明細行外數(shù)據(jù)行內(nèi)數(shù)據(jù)歷史數(shù)據(jù)越來越多非結(jié)構(gòu)化數(shù)據(jù)越來越多社交、網(wǎng)購數(shù)據(jù)企業(yè)數(shù)據(jù)平面“在大數(shù)據(jù)領(lǐng)域,不能充分形成大數(shù)據(jù)使用能力的競爭者將被淘汰”-
3、McKinsey Global Institute業(yè)務(wù)系統(tǒng)帳戶 明細 交易數(shù)據(jù)分析信用混合型數(shù)據(jù)平臺-體系架構(gòu)新核心系統(tǒng)老核心系統(tǒng) 客戶系統(tǒng) 外圍系統(tǒng) 渠道系統(tǒng)外部系統(tǒng)操作型 數(shù)據(jù)區(qū)數(shù)據(jù) 交換區(qū)數(shù) 據(jù) 采 集 和 交 換 平 臺集成型數(shù)據(jù)區(qū)實時事件處理平臺歷史數(shù)據(jù)區(qū)歷史數(shù)據(jù)平臺分析型數(shù)據(jù)區(qū)監(jiān)管報送平臺統(tǒng)一報表平臺管理會計系統(tǒng)流動風險系統(tǒng)市場風險系統(tǒng)數(shù)據(jù)挖掘平臺國家審計平臺應(yīng)用服務(wù)區(qū)應(yīng)用服務(wù)器報表 工具W E 服 務(wù) 器即席查詢數(shù)據(jù) 挖掘 工具歷史 數(shù)據(jù) 訪問 應(yīng)用技 術(shù) 緩 沖 層貼 源 模 型 層共 性 加 工 層ETL調(diào)度數(shù)據(jù)標準元數(shù)據(jù)數(shù)據(jù)質(zhì)量數(shù)據(jù)管控數(shù)據(jù)交換基 礎(chǔ) 模 型 層傳統(tǒng)平臺應(yīng)
4、用 集 市 層基礎(chǔ)數(shù)據(jù)平臺大數(shù)據(jù)平臺對應(yīng)系統(tǒng):客戶管理系統(tǒng)、各類產(chǎn)品系統(tǒng)、帳務(wù)處理系統(tǒng)、各類渠 道系統(tǒng)、管理流程系統(tǒng)。功能定位:主要承擔面向客戶的交易、帳務(wù)處理,面向內(nèi)部的流程、事務(wù)管理等功能。數(shù)據(jù)特征:存儲業(yè)務(wù)處理和流程管理過程中產(chǎn)生的客戶、協(xié)議、賬 戶、交易等原始數(shù)據(jù),數(shù)據(jù)基本為當前狀態(tài),保存一定周期的交易 流水數(shù)據(jù)。混合型數(shù)據(jù)平臺-數(shù)據(jù)區(qū)域?qū)?yīng)系統(tǒng):主要是歷史數(shù)據(jù)平臺。功能定位:根據(jù)數(shù)據(jù)生命周期管理,承擔對操作型系統(tǒng)、分析型系統(tǒng) 的歷史數(shù)據(jù),以及數(shù)據(jù)集成平臺部分歷史數(shù)據(jù)的在線歸檔保存,為客 戶交易明細歷史查詢、公檢法查詢等應(yīng)用提供支持。數(shù)據(jù)特征:狀態(tài)類數(shù)據(jù)采用全表歷叱拉鏈存儲,交易類數(shù)據(jù)
5、保留長期 歷史。操作型數(shù)據(jù)區(qū)對應(yīng)系統(tǒng):基礎(chǔ)數(shù)據(jù)平臺、大數(shù)據(jù)平臺和實時事件處理平臺。功能定位:實現(xiàn)全行關(guān)系型結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的處理,包 括離線分析和實時事件數(shù)據(jù)的集中管理和加工,為業(yè)務(wù)運營和決策 分析提供數(shù)據(jù)支持。數(shù) 據(jù) 特 征 : 1.利用大數(shù)據(jù)技術(shù),實現(xiàn)ODS、EDW、匯總層數(shù)據(jù)統(tǒng)計等一系列 的離線數(shù)據(jù)分析功能,而傳統(tǒng)數(shù)據(jù)庫則實現(xiàn)復(fù)雜的交于和事務(wù)處理 邏輯。2.大數(shù)據(jù)平臺同時可以實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的集中管理,結(jié)構(gòu)化及非 結(jié) 構(gòu) 化 數(shù) 據(jù) 的 初 加 工 為 主 ; 3.實時事件處理平臺以實時事件數(shù)據(jù)的集中管理和加工為主。集成型數(shù)據(jù)區(qū)對應(yīng)系統(tǒng):統(tǒng)一報表平臺、監(jiān)管報送平臺、管理會計、風險
6、管理等系統(tǒng)。功能定位:主要獲取數(shù)據(jù)集成平臺提供的匯總數(shù)據(jù),按照應(yīng)用主題 進行數(shù)據(jù)的高粒度匯總加工、圖形化分析和展現(xiàn)。數(shù)據(jù)特征:存儲匯總、聚合類數(shù)據(jù),主要以星型結(jié)構(gòu)、寬表等形式 存儲,存儲周期較長。分析型數(shù)據(jù)區(qū)歷史數(shù)據(jù)區(qū)數(shù)據(jù)處理技術(shù)分布式演進趨勢:Hadoop成為開放的事實標準特點:Share Everything結(jié)構(gòu)化、關(guān)系型Flash Cache+分布式塊存儲+IBSMPSMP+MPP混合MPPHadoop特點:Share Nothing開放,、全球生態(tài)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化高性能、實時特點:Share Nothing結(jié)構(gòu)化、關(guān)系型通用的硬件特點:單機、Scale up性能存在瓶頸擴展性
7、差內(nèi)存計算興起,Hadoop生態(tài)系統(tǒng)持續(xù)壯大實時化:內(nèi)存計算興起Hadoop生態(tài)系統(tǒng)持續(xù)擴大AMPlab開發(fā)的Spark,提供迭代式內(nèi)存計算模型,非常適合用于數(shù)據(jù)挖掘算法的并行化預(yù)計Spark將成為編寫和分享數(shù)據(jù)挖掘算法的標準平臺Spark目前已經(jīng)成為Apache頂級項目HadoopHadoop 2.0發(fā)布支持多種計算模型調(diào)度的Yarn,實現(xiàn)多種計算模型在同一個集群中并存,將幫助Hadoop 進一步鞏固大數(shù)據(jù)生態(tài)圈。HDFS和Yarn成為Hadoop核心平臺性組建,不斷吸收更多組建集成到Hadoop。HDFSStormMapReduceYARN/ZookeeperSparkHBaseFlume
8、SqoopIntegrationSearchMachineLearningComplex Event Process3rd Party or customized wordloadBatchProcessingPigInteractiveAnalyticsImpalaHiveSolrMLLIB融入混合負載的統(tǒng)一計算平臺,滿足數(shù)據(jù)多樣化Content大數(shù)據(jù)發(fā)展趨勢金融大數(shù)據(jù)平臺行業(yè)實踐金融大數(shù)據(jù)平臺關(guān)鍵技術(shù)1234金融大數(shù)據(jù)平臺案列詳述全球布局、全面覆蓋大數(shù)據(jù)領(lǐng)域關(guān)鍵技術(shù)西安研究所:大數(shù)據(jù)算法(IT)Hadoop產(chǎn)品化(IT)ELK/MPP DB(高斯實驗室)深圳研發(fā)基地/香港: 大數(shù)據(jù)洞察平臺
9、(IT) 大數(shù)據(jù)解決方案(IT)數(shù)據(jù)挖掘算法(諾亞實驗室)印 度 研 究 所 : Hadoop(中央軟件院) 數(shù)據(jù)可視化(中央軟件院) MOLAP(中央軟件院)美研所:Spark ( 中 央 軟 件 院 ) ELK/MPP DB(高斯實驗室) 大數(shù)據(jù)系統(tǒng)加速(香農(nóng)實驗室)歐研所:分布式內(nèi)存DB(中央軟件院) 分布式計算算法(中央軟件院)杭 州 研 究 所 : Hadoop(中央軟件院) Spark(中央軟件院) 流計算(中央軟件院)加研所:Yarn/大規(guī)模調(diào)度硬件加速(中央硬件院) 金融大數(shù)據(jù)分析(IT)俄研所:大數(shù)據(jù)算法(香農(nóng)實驗室)會使用 Hadoop會定位周 邊問題會定位內(nèi)核級問題(拔尖
10、的個人)定位內(nèi)核級問題 的團隊(依賴團 隊而不是精英個 人)能夠獨立完成支 撐關(guān)鍵業(yè)務(wù)特性 的內(nèi)核級開發(fā)能夠帶領(lǐng)社區(qū),引 領(lǐng)社區(qū)完成面向未 來的內(nèi)核級特性開 發(fā)能夠創(chuàng)建新的社區(qū) 頂級項目,并且得 到生態(tài)系統(tǒng)認可強大的Hadoop內(nèi)核團隊支持的開發(fā)與產(chǎn)品交付能力,企業(yè)級運營支撐能力Apache開源社區(qū)生態(tài)系統(tǒng)組件多,代碼量大組件更新塊特性無有效整合金融積極參與spark社區(qū)貢獻,主導Spark SQL升級支持hive 0.13, 其中合入社區(qū)patch 150+,公司貢獻在社區(qū)排名第三。強大內(nèi)核開發(fā)團隊提供企業(yè)級的開源支撐能力企業(yè)版的關(guān)鍵在于工程團隊的能力及與周邊生態(tài)環(huán)境的對接能力某大銀行CIO
11、:“我們把大數(shù)據(jù)應(yīng)用視作 是生命線,肯定是采用企業(yè)版,因為搞開 源軟件不是我們的主業(yè)。在選合作伙伴的 時候,我們一定考慮門當戶對,因為強有 力的合作伙伴才能保證58年的供應(yīng)、合 作安全”金融大數(shù)據(jù):提供大數(shù)據(jù)存儲、處理、分析和服務(wù)平臺Manager統(tǒng)一管理通用X86服務(wù)器分布式存儲數(shù)據(jù)處理平臺大數(shù)據(jù)基礎(chǔ)設(shè)施數(shù)據(jù)集成 平臺收集 清洗 轉(zhuǎn)換特征/模型/挖掘/可視/服務(wù)數(shù)據(jù)洞察/數(shù)據(jù)服務(wù)電信詳單查詢、經(jīng)分分析、 精準營銷銀行全生命周期分析、歷史明細、 精準營銷、在線征信與風控 等行業(yè) 應(yīng)用政府交通、公安情報分析、人口管理海量數(shù)據(jù)存儲,批處理,流處理、交互式分析HIVE/Impala/ElkPorte
12、rMinerDataFarmHadoopStormSolr系統(tǒng)管理Farmer元數(shù)據(jù)管理ManagerHadoop APIPlugin APIOpenAPI/SDK應(yīng)用服務(wù)層REST/SNMP/SyslogDataInformationKnowledgewisdomM/RSpark Yarn/ Zookeeper安全管理MPP DBHDFS/HBaseFusionInsight的Hadoop層提供大數(shù)據(jù)處理環(huán)境,基于社區(qū)開源軟件增強,按照場景選擇業(yè)界最佳實踐FusionInsight的DataFarm層提供支撐端到端數(shù)據(jù)洞察,構(gòu)建數(shù)據(jù)到信息到知識到智慧的數(shù)據(jù)供應(yīng)鏈, 其中包括相對獨立的數(shù)據(jù)集成
13、服務(wù)Porter、數(shù)據(jù)挖掘服務(wù)Miner和數(shù)據(jù)服務(wù)框架FarmerFusionInsight Manager是一個分布式系統(tǒng)管理框架,管理員可以從單一接入點操控分布式集群,包括系統(tǒng)管理(OM/NTP/災(zāi)備)、數(shù)據(jù)安全管理和數(shù)據(jù)治理大數(shù)據(jù)軟件平臺Porter用來簡化大數(shù)據(jù)的數(shù)據(jù)集成除了開源的Sqoop2支持的DB和HDFS外, porter還支持從SFTP, FTP和NAS進行數(shù)據(jù)導入和導出除了Sqoop2支持的HDFS外, porter還支持數(shù)據(jù)注入到HBASE并提供功能豐富的rowkey生產(chǎn)機制Sql請求和響應(yīng)可以通過SFTP和FTP提交, 實現(xiàn)和現(xiàn)有系統(tǒng)的無縫集成輕量匯總的Sql和結(jié)果可以
14、通過 SFTP和FTP提交, 并且能夠自動調(diào)度按天/按月調(diào)度。大數(shù)據(jù)全能搬運工RM DBHadoopHDFSHBaseSFTPServerFTP ServerOther Data SourcePorterDB文件服 務(wù)器MR/spark/Hive任務(wù)提交目標系統(tǒng)HDFS/HiveHBaseRDMS數(shù)據(jù)數(shù)據(jù)FTP/SFTP/NFSJDBCPorterFusionInsight Miner:基于分布式內(nèi)存計算的數(shù)據(jù)分析平臺主要特點:端到端分析平臺:一站式平臺支撐數(shù)據(jù)分析全流程特征工程/社交化:特征復(fù)用;支持1,000萬維度建模算法:自研HiGraph算法, 比MLlib快35倍開放性:對Opera
15、tor的擴展性;與R無縫對接;與SAS、SPSS等對接;業(yè)務(wù)驅(qū)動:基于業(yè)務(wù)問題驅(qū)動的閉環(huán)解決方案,比如推薦引擎使能套件業(yè)務(wù)理解特征提取模型模型構(gòu)建模型 模型評估模型應(yīng)用應(yīng)用效果評估結(jié)束開始模型評估好應(yīng)用效果好典型數(shù)據(jù)分析流程數(shù)據(jù)預(yù)處理 數(shù)據(jù)理解 并行化機器學習算法庫(Mahout/MLlib/HiGraph)可視化金融行業(yè)模型使能套件電信行業(yè)模型 使能套件FusionInsight Miner行業(yè)應(yīng)用使能器(Enabler)通用使能套件(標簽管理、推 薦引擎)數(shù)據(jù)處理平臺數(shù)據(jù)探索特征工程 建模分析0500100015002000Top1000 Top10000Top60000Conversio
16、n 40 x專家系統(tǒng)學習系統(tǒng)14000DimensionsFusionInsight Farmer:大數(shù)據(jù)應(yīng)用使能器Server or VMPaaSBLU1Farmer SDKDeploy onDeploy onRegisterManagerRESTMQAccess Load Balance & MQRedisHadoopHadoop API客戶開發(fā)的應(yīng)用Farmer SDKREST:REQ/RESPBLU2BLU3Container大數(shù)據(jù)實時應(yīng)用使能器,支撐企業(yè)快速開發(fā)基于大數(shù)據(jù)平臺的應(yīng)用。1、分布式大數(shù)據(jù)服務(wù)框架和標準服務(wù)(如推薦)二次開發(fā)SDK,透明化訪問Hadoop,聚焦業(yè)務(wù)邏輯高可靠
17、的分布式處理框架,去中心化的負載均衡能力,和服 務(wù)實例的彈性伸縮能力基于Activiti的服務(wù)編排支持應(yīng)用的灰度發(fā)布隔離的輕量級應(yīng)用容器2、多協(xié)議接入和緩沖簡化應(yīng)用集成高性能的多協(xié)議接入部件,通過ALB隱藏內(nèi)部拓撲細節(jié)高性能、高可靠消息隊列部件熱點數(shù)據(jù)redis加速為行業(yè)業(yè)務(wù)負載優(yōu)化的統(tǒng)一大數(shù)據(jù)處理平臺FusionInsight用100開源的核心支持混合負載,從批量、交互查詢、數(shù)據(jù)挖掘,到實時流和查詢等各種場景開放式存儲格式(Rcfile/ORCfile/Parquet),以避免鎖定私有文件格式所有的組件都通過Manager提供的插件框架來按需安裝開源 輕度增強開源 孵化特性開源 深度增強自研
18、DSLIDE分布式計算框架HDFS/HBasePigHiveMapReduce/TezSparkStormYARN/ZookeeperFlumeLoaderIntegrationBatchProcessingInteractiveSearch QueryMachineLearningEvent Stream ProcessImpalaSolrMLLIB分布式存儲StreamingCalculation基礎(chǔ)設(shè)施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkSparkStreamingCQLElkHiGraph
19、Online QueryCTBasePhoenixMPP DBSQL能力支持(SQL-on-Hadoop)每一種SQL on Hadoop產(chǎn)品都在盡量滿足某一類應(yīng)用的特征,典型需求:interactive query (ms3min)data analyst,reporting query (3min20min)data mining,modeling and large ETL (20 min hr day)架構(gòu) 模型模式定義主要應(yīng)用場景產(chǎn)品類MPP架構(gòu)在線查詢作業(yè)時間小于秒級有查詢要求的場景,響應(yīng)幾乎是實時的Phoenix(HBase),交互查詢作業(yè)時間秒級左 右,并且返回結(jié) 果集很小,一
20、般 在萬條記錄以內(nèi)小數(shù)據(jù)的查詢場景, 如報表展示、數(shù)據(jù)鉆 取等Elk、Impala、 MPPDB(OLAP)類MR架構(gòu)批處理作業(yè)時間超過分 鐘級別,中間結(jié) 果或最終結(jié)果集 比較大對作業(yè)時間要求不敏 感場景,主要以后臺 長時間作業(yè)為主,如 系統(tǒng)每天、每周、每 月定時處理匯總的業(yè) 務(wù)Hive、SparkSQL數(shù)據(jù)挖掘作業(yè)時間超過分 鐘級別,數(shù)據(jù)計 算量比較大,內(nèi) 存消耗比較多的 場景作業(yè)對內(nèi)存和CPU要求比較高的場景,如迭代計算的場景,主要 應(yīng)用于數(shù)據(jù)挖掘、科 學計算等場景Spark SQL基于應(yīng)用場景選擇最適合的流處理技術(shù)BatchStreamingMini-BatchSpark-Streami
21、ngStormSpark Streaming:微批流式計算適用于在Spark集群上同時提供更低時延要求的微批流處理處理,如KPI統(tǒng)計等Storm:事件驅(qū)動模式的實時計算適用于更低時延要求(毫秒級),高并發(fā)的實時事件處理場景Kevent/sStorm1460Spark Streaming5001 node,Mini-batch is set to 5s安全可靠所有業(yè)務(wù)和管理節(jié)點HA跨數(shù)據(jù)中心容災(zāi)、備份第三方備份系統(tǒng)集成在線更換硬盤HBase容災(zāi)業(yè)界最早推出代碼基線是Apache開源經(jīng)過系統(tǒng)STRIDE分析加固完善RBAC和多租戶體系與現(xiàn)存AAA系統(tǒng)標準協(xié)議對接全方位數(shù)據(jù)審計功能STRIDE+電信
22、系統(tǒng)安全紅線易用易安裝,集成NTP等易運維,增加圖形化運維易開發(fā),標準接口+實用案例易定位,日志收集搜索HBase可視化建??煽俊踩?、易用、高效高效-平臺核心代碼性能優(yōu)化-高性能分析挖掘算法(Miner)-存儲效能提升(EC,ARM)高性能網(wǎng)絡(luò)優(yōu)化(RDMA)新型存儲優(yōu)化(大型SSD)高效-SparkSQL:平易近人,快速上手HQLSQLUnresolved Logical PlanLogical PlanOptimized Logical PlanPhysical PlansSchema CatalogRelation Execution OperatorsNative RDDs語法增強S
23、QL ParserSQL parser:實現(xiàn)插件式的SQL Parser,基于插件接口實現(xiàn)SQL99語法解析。Logical Plan:新增SQL99LogicalPlans,支持SQL99邏輯計劃。元數(shù)據(jù)管理:使用Hive metastore進行元數(shù)據(jù)管理,與社區(qū)演講發(fā)現(xiàn)對齊。性能提升:原則上重用社區(qū)的優(yōu)化器,必要時增加SQL99OptimizerRules,新增and/or優(yōu)化,inner join優(yōu)化,hive index優(yōu)化應(yīng)用場景價值:SQL是一個常用的分析語言,客 戶接受度較高,各種業(yè)務(wù)場景對SQL訴 求也較明確。解決方案方案:基于插件式方案構(gòu)建基于Spark SQL 框架的差異化
24、語法解析器和性能優(yōu) 化器用戶價值實現(xiàn)標準SQL的TPC-DS用例99個全部通 過。滿足客戶常用的標準SQL訴求。高效-Spark Carbon :提升查詢效率Cube EngineDistributed Data Store (HDFS)Cube FileCube FileCube FileCubeProcessorCubeProcessorCubeProcessorSparkRDDPartitionRDDPartitionRDDPartitionSpark CoreSpark CoreSpark CoreOLAP PlannerSpark Application (Cube Load)Enc
25、odingEncodingEncodingDataSource API特點:分布式,多維索引,物化視圖,分布式入庫,Schema固定存儲:計算:語言:CubeFile,一種按多維Key排序的文件格式HDFS + Shortcut基于Catalyst框架新增OLAP Planner,對Cube支持過濾下壓、計算下壓等優(yōu)化Cube Processor: Cube數(shù)據(jù)讀取,跳轉(zhuǎn),聚合計算使用SparkSQL DMLDDL:新增CREATE CUBE, LOAD INTO CUBENode1Node2Node3Carbon性能對比120億行記錄,20個維度,4個度量,原始數(shù)據(jù)1.5TBSparkSQL
26、: Cube文件380GB;物化視圖增加130GB;Impala:336GBPL/SQLSQL99SQL2003HQLHDFSHBaseElk Sql ParserSql Eexcutejdbc/odbc/BIWebETLData ExplorerHive Metadata采用通用的SQL標準接口,全面兼容傳統(tǒng)的數(shù)據(jù)庫SQL和Hadoop的HQL全面支持傳統(tǒng)應(yīng)用的接口JDBC、ODBC,并提供豐富的擴展接口如PL/C,PL/Jaca,PL/Python交互式查詢性能達到或超越Impala靈活的存儲格式HDFS(ORC、Parquet),HBase(KV)Elk與Impala性能對比,TPC-H
27、(單位:秒/查詢N)測試環(huán)境: 4 節(jié)點: 2 *8 core CPUs, 96GB RAM, 6 7200rpsSATA 盤, 10GE網(wǎng)卡, HDFS 3副本.全面超越Impala,大部份指標是impala兩倍01002003004005006007001 2 3 4 5 6 7 8 9 10111213141516171819202122Impala ELkElk: 交互式SQL on Hadoop智慧 HiGraph,高性能優(yōu)質(zhì)算法庫Mahout:基于MR的并行算法庫MLlib:基于Spark的并行算法庫HUAWEIHiGraph:超過60種算法,半數(shù)由金融 研發(fā)及優(yōu)化Cloudera
28、HortonworksHuawei FusionInsight性能提升2-3倍線性加速優(yōu)質(zhì)算法HiGraph網(wǎng)絡(luò)平面隔離集群管理平面集群外維護網(wǎng)絡(luò)OMS-Server集群業(yè)務(wù)平面APP-ServerAPP-ServerWebUI-ClientHadoop是全分布式計算系統(tǒng),要求業(yè)務(wù)節(jié)點之間全互 聯(lián)。為應(yīng)對由此帶來的可靠性、安全性風險,F(xiàn)usionInsight支持將網(wǎng)絡(luò)劃分為三級:集群業(yè)務(wù)平面、集群管理平面和集群外維護網(wǎng)絡(luò),彼此之間實施物理隔離。實施網(wǎng)絡(luò)隔離,可以避免業(yè)務(wù)平面的高負載阻塞集群管 理通道,也可以阻止外部攻擊者通過管理通道入侵實際 業(yè)務(wù)數(shù)據(jù)。網(wǎng)絡(luò)類別信任程度說明集群業(yè)務(wù) 平面高Ha
29、doop集群核心部件,業(yè)務(wù)數(shù)據(jù)在其 中存儲、流轉(zhuǎn)。集群管理平面中僅具備集群管理功能,不接觸實際的業(yè)務(wù)數(shù)據(jù)。集群外維護網(wǎng)絡(luò)低僅能訪問OMS Server提供的Web服務(wù), 除 非 連 續(xù) 攻 破 OMS Server 和 APP Server,否則無法訪問業(yè)務(wù)數(shù)據(jù)。電信級可靠性業(yè)務(wù)可靠性:系統(tǒng)無單點: OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BOOKEEPER采用主備,負荷分擔方式實現(xiàn)服務(wù)無 單點故障數(shù)據(jù)可靠性:管理節(jié)點HA:OMS節(jié)點及所有業(yè)務(wù)組件中心管理節(jié)點實現(xiàn)HA跨數(shù)據(jù)中心數(shù)據(jù)備份:HBase集群通過HLOG準 實時復(fù)制,HDFS/Hive
30、集群通過BackupAdmin 異步復(fù)制實現(xiàn)跨數(shù)據(jù)中心災(zāi)備硬盤熱插拔:支持在線集群硬盤更換不影響業(yè)務(wù).OS層可靠性加固: RAID/OS寫緩存保護實現(xiàn)掉電數(shù)據(jù)保護Raid策略: OS,OMS,NameNode,ZK 及HDFS數(shù)據(jù)節(jié)點采用不同硬盤分區(qū)及Raid策略,兼顧性能情況下保證數(shù)據(jù)可靠性第三方備份系統(tǒng)集成:數(shù)據(jù)可以靈活的備份在外部成111111122333446578 系統(tǒng)如NAS、磁帶庫,只是和NBU等備份軟件集665781Hadoop clusterNAS異地災(zāi)備表級別集群在線備份,用于在線業(yè)務(wù)故障災(zāi)備數(shù)據(jù)恢復(fù)批量導出本地備份支持庫級別本地備份、批量導出 和數(shù)據(jù)恢復(fù),支持全量、增量兩
31、 種模式。用于集群故障、人為誤 操作導致的數(shù)據(jù)丟失數(shù)據(jù)備份與集群容災(zāi)本地備份LdapServerHMHMHDFSRSRSHBaseLdapServerHDFSRSRSHBaseHMHMRSRSRSHLog SyncAuthentication Data Sync敏感數(shù)據(jù)加密存儲Hive/HBaseHDFS敏感數(shù)據(jù)寫 入加密/解密敏感數(shù)據(jù) 讀取*($%!%$#$!(*&*5!$!%$!$!%#$%#!$#!非敏感數(shù) 據(jù)非敏感數(shù)據(jù)技術(shù)特點保密性高:采用業(yè)界流行的算法加密。除業(yè)務(wù)接口外,其他手段讀取文件均為亂碼(如通過shell、或HDFS接口查看)。靈活:加密算法插件化,支持AES、SMS4等
32、,允許用戶自定義。非敏感數(shù)據(jù)可不加密,不影響性能(加密約有5%性能開銷)。業(yè)務(wù)透明:上層業(yè)務(wù)只需指定敏感數(shù)據(jù)(Hive表級/列、HBase表/列族/列級加密),加解密過程業(yè)務(wù)完全不感知。HiveHBaseContent大數(shù)據(jù)發(fā)展趨勢金融大數(shù)據(jù)平臺關(guān)鍵技術(shù)金融大數(shù)據(jù)平臺行業(yè)實踐1234金融大數(shù)據(jù)平臺案列詳述成功實踐:全國金融領(lǐng)域案例最多33業(yè) 務(wù) 價 值應(yīng) 用 場 景營銷支持產(chǎn)品運營內(nèi)部管理風險管控實實時時風征控信反 欺 詐客 戶 風 險 報 告運 維 日 志 分 析信 息 安 全 分 析靈活深專業(yè)化整體解決安全可入的客的營銷方案與個靠的渠戶細分與銷售性化服務(wù)定制道風險控制風險集成的業(yè) 務(wù)運營高
33、效的運營效 率實時的風險決策員 工 挽 留事 件 營 銷客 戶 畫 像輿 情 分 析獲客客 戶 挽 留交 叉 銷 售個 性 化 理 財小 微 貸大數(shù)據(jù)應(yīng)用場景優(yōu)化管理流程,提升運作效率降低管理成本智 能 客 服賬 務(wù) 追 溯網(wǎng) 站 分 析知 識 管 理產(chǎn) 品 績 效 評 價數(shù)據(jù)行內(nèi)業(yè)務(wù)數(shù)據(jù)賬戶/流水/產(chǎn)品/組件日志行內(nèi)非業(yè)務(wù)數(shù)據(jù)運維日志/對內(nèi)服務(wù)系統(tǒng)數(shù)據(jù)新型數(shù)據(jù)移動應(yīng)用/微信/呼叫中心/微博第三方數(shù)據(jù)互聯(lián)網(wǎng)/電信/醫(yī)療/交通/咨詢報告客戶標簽對公客戶細分商機挖掘信息零售客戶評分客戶貢獻度客戶風險測評產(chǎn)品運營KPI黑名單知識圖譜品牌美譽度第三方資信用戶位置用戶消費傾向大數(shù)據(jù)平臺參考架構(gòu)數(shù)據(jù) 采集
34、數(shù)據(jù)轉(zhuǎn)換平臺管理結(jié)構(gòu)化數(shù)據(jù)客戶數(shù)據(jù)賬務(wù)數(shù)據(jù)第三方數(shù)據(jù)微信微博流式數(shù)據(jù)刷卡事件結(jié)構(gòu)化轉(zhuǎn)換統(tǒng)計/關(guān)聯(lián)非結(jié)構(gòu)轉(zhuǎn)換XML/JSON文本多媒體轉(zhuǎn)換視頻摘要 語音轉(zhuǎn)文本半/非結(jié)構(gòu)數(shù)據(jù)挖掘文本分析分詞視頻分析語義NLP互聯(lián)網(wǎng)分搜析索社交網(wǎng)絡(luò) 推薦引擎多媒體分影像析分析音頻分析過濾/匹配結(jié)構(gòu)化數(shù)據(jù)挖掘分類聚類預(yù)測關(guān)聯(lián)流處理ESP/CE P流式數(shù)據(jù)處理RTD商業(yè)智能(BI)報表多維分析引擎實時查詢數(shù)據(jù)服務(wù)批量查詢訪問框架分布式緩存數(shù)據(jù)可視數(shù)據(jù)探察數(shù)據(jù)多維展示元數(shù)據(jù)管理作業(yè)調(diào)度數(shù)據(jù)安全管理非結(jié)構(gòu)數(shù)據(jù)日志 呼叫中心語音網(wǎng)站點擊流數(shù)據(jù)集市實時計算交互式探索多維關(guān)聯(lián)數(shù)據(jù)聚集應(yīng)用計算數(shù)據(jù) 存儲基礎(chǔ)數(shù)據(jù)區(qū)實時查詢區(qū)公共訪問
35、區(qū)應(yīng)用數(shù)據(jù)區(qū)數(shù)據(jù) 采集轉(zhuǎn)換平臺管理結(jié)構(gòu)化數(shù)據(jù)第三方數(shù)據(jù)數(shù)據(jù) 結(jié)構(gòu)化轉(zhuǎn)換 非結(jié)構(gòu)轉(zhuǎn)換 多媒體轉(zhuǎn)換半/非結(jié)構(gòu)數(shù)據(jù)挖掘文本分析分詞視頻分析社交網(wǎng)絡(luò)推薦引擎多媒體分影像析分析過濾/匹配 結(jié)構(gòu)化數(shù)據(jù)挖掘 預(yù)測關(guān)聯(lián)CEP流式數(shù)據(jù)處理RTD報表商業(yè)智能(BI)多維分析引擎實時查詢數(shù)據(jù)服務(wù)批量查詢訪問框架分布式緩存數(shù)據(jù)多維展示元數(shù)據(jù)管理作業(yè)調(diào)度數(shù)據(jù)安全管理數(shù)據(jù)集市實時計算 數(shù)據(jù)聚集數(shù)據(jù)存儲應(yīng)用數(shù)據(jù)區(qū)公共訪問區(qū)大數(shù)據(jù)平臺總體框架-技術(shù)視角流式數(shù)據(jù)刷M卡Q事件kafka客F戶TP數(shù)據(jù)賬S務(wù)q數(shù)oo據(jù)p非結(jié)構(gòu)數(shù)據(jù)日志 F呼lu叫m中e心語音網(wǎng)F站T點P擊流微信Crawler 微博H基D礎(chǔ)F數(shù)S據(jù)區(qū)實時查詢H區(qū)BAS
36、EXMML/J/SRON文本視頻摘S要par語k音轉(zhuǎn)文本Storm流處理Miner(Ma語ho義ut/MLLib/HiGrap音h頻)分析分類SAS 聚類SQ交L互o式n 探索Hadoop互聯(lián)網(wǎng)分S搜析o索lrCognosHIVE/I統(tǒng)m計p/關(guān)al聯(lián)a分布式I應(yīng)M用DB計算數(shù)據(jù)T探a察bleau數(shù)據(jù)可D視3.js多維關(guān)聯(lián)GPYarnM/R NLPSparkHIVE/ImpalaContent大數(shù)據(jù)發(fā)展趨勢金融大數(shù)據(jù)平臺關(guān)鍵技術(shù)金融大數(shù)據(jù)平臺案列詳述1234金融大數(shù)據(jù)平臺行業(yè)實踐Content金融大數(shù)據(jù)平臺案列詳述4TD數(shù)倉卸載HDS運維日志實時分析影像存儲智能運維業(yè)務(wù)現(xiàn)有數(shù)據(jù)倉庫應(yīng)用負載卸載
37、-現(xiàn)狀和挑戰(zhàn)現(xiàn)狀一般采用貼源層+基礎(chǔ)層+應(yīng)用層三層數(shù)據(jù)架構(gòu)數(shù)據(jù)貼源層存放貼源數(shù)據(jù)數(shù)據(jù)貼源層數(shù)據(jù)除了用來加工為基礎(chǔ)層數(shù)據(jù) 外,一般很少被下游應(yīng)用直接用到,可視為冷數(shù) 據(jù)數(shù)據(jù)貼源層占據(jù)EDW寶貴存儲資源貼源跑批占據(jù)大量EDW系統(tǒng)資源挑戰(zhàn)伴隨業(yè)務(wù)的增長,數(shù)據(jù)增長快,擴容壓力大通常采用國外廠商一體機,存儲成本高,擴 容成本大跑批占用數(shù)據(jù)倉庫時間窗口越來越長,可使 用時間窗口越來越少,給數(shù)據(jù)倉庫的使用帶來巨 大壓力數(shù)據(jù)倉庫 應(yīng)用層 基礎(chǔ)層 貼源層一體機核心信貸中間業(yè)務(wù)信用卡網(wǎng)銀數(shù)據(jù)源FTP卸載加載作業(yè)管理ETL平臺CRM信用評級績效考核精準營銷管理報表下游應(yīng)用數(shù)據(jù)轉(zhuǎn)數(shù)換據(jù)轉(zhuǎn)換現(xiàn)有數(shù)據(jù)倉庫應(yīng)用負載卸載聯(lián)合
38、創(chuàng)新方案聯(lián)合創(chuàng)新方案與金融機構(gòu)一起聯(lián)合創(chuàng)新,將數(shù)據(jù)倉庫系統(tǒng) 中的貼源批處理過程遷移至基于通用X86服務(wù)器 的使用大數(shù)據(jù)技術(shù)的Hadoop或MPPDB平臺注:方案過程見動畫卸載平臺基礎(chǔ)層客戶價值開放,不被單一供應(yīng)商鎖定;提高數(shù)倉體系拓展能力、降低拓展成本降低數(shù)據(jù)存儲成本減少數(shù)倉跑批時間窗口,提高數(shù)倉使用效率數(shù)據(jù)倉庫應(yīng)用層基礎(chǔ)層貼源層核心信貸中間業(yè)務(wù)信用卡網(wǎng)銀數(shù)據(jù)源CRM信用評級績效考核精準營銷管理報表下游應(yīng)用卸載平臺要求卸載平臺能夠滿足一定的處理時間窗口要求卸載平臺具有較低的每TB數(shù)據(jù)成本卸載平臺具備非常好的水平擴展能力卸載平臺支持通用X86服務(wù)器卸載平臺能夠提供較好的企業(yè)級特性(可靠 性、易管
39、理性、易用性),滿足一定的性能SLA X86服務(wù)器ETLETL貼源層FTP體 機Content金融大數(shù)據(jù)平臺案列詳述4TD數(shù)倉卸載HDS運維日志實時分析影像存儲智能運維業(yè)務(wù)歷史數(shù)據(jù)應(yīng)用四種模式應(yīng)用模式用戶群體應(yīng)用場景數(shù)據(jù)歸檔行內(nèi)用戶組件內(nèi)生產(chǎn)數(shù)據(jù)清理后,在歷史數(shù)據(jù)區(qū)進行歸檔保存在線查詢在線同步(訪問數(shù)據(jù)庫)(響應(yīng)時間:60(秒)查詢條件比較精確;響應(yīng)時間不是非常緊迫;訪問頻率比較高;在線異步(訪問文件)(響應(yīng)時間:300(秒) 訪問頻率:=50次/天)查詢條件比較寬泛;響應(yīng)時間不是非常緊迫;訪問頻率比較 低批量供數(shù)外部監(jiān)管 (部分包括行內(nèi)用戶)月末/季末的銀監(jiān)會、 外管局、審計署的外部監(jiān)管數(shù)據(jù)
40、需求; 數(shù)據(jù)需求比較確定、供數(shù)操作頻率比較固定、供數(shù)格式比較 固定零星供數(shù)行內(nèi)用戶數(shù)據(jù)需求不確定、供數(shù)操作頻率不固定、數(shù)據(jù)結(jié)果集不確定。HDS區(qū)整體視圖歸檔批量供數(shù)在線查詢應(yīng)用計算區(qū)指標計算區(qū)查詢服務(wù)區(qū)統(tǒng)一在線查詢HDS區(qū)查詢集群在線同步查詢區(qū)在線數(shù)據(jù)(HBASE)在線同步查 詢服務(wù)在線異步查詢服務(wù)數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量 明細增量HDS區(qū)歸檔集群接入數(shù)據(jù)區(qū) 組合計算區(qū) 多表關(guān)聯(lián)Hbase裝載主檔全量主檔增量明細增量數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量明細增量應(yīng)用加工計算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工批量供應(yīng)數(shù)據(jù)區(qū)表截面文件加工數(shù)據(jù)文件數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量明細增量歸檔數(shù)據(jù)區(qū)
41、(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)HDS區(qū)歸檔集群接入數(shù)據(jù)區(qū)主檔全量主檔增量明細增量應(yīng)用加工計算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工批量供應(yīng)數(shù)據(jù)區(qū)表截面文件加工數(shù)據(jù)文件歸檔數(shù)據(jù)區(qū)(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)接入數(shù)據(jù)區(qū)HDS區(qū)歸檔集群 組合計算區(qū) 多表關(guān)聯(lián) Hbase裝載 主檔全量主檔增量明細增量應(yīng)用加工計算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工歸檔數(shù)據(jù)區(qū)(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)44關(guān)鍵技術(shù):HBase二級索引+Phoenix+SparkHBase二級索引特性支持在非RowKey列上建立索引,大幅提高檢索 速度。使用Ph
42、oenix為HBase提供基礎(chǔ)SQL能力,在使用HBase高速查詢能力的同時,降低系統(tǒng)的學習使用成本。構(gòu)建統(tǒng)一的混合結(jié)構(gòu)數(shù)據(jù)存儲平臺,通過Spark支持全量業(yè)務(wù)數(shù)據(jù)+外部數(shù)據(jù)的挖掘分析。高性能、高并發(fā):HBase規(guī)??蛇_到數(shù)十億行以及數(shù)百萬列,同時讀、寫訪問可以達到實時級別。提供SQL支持:降低學習成本和系統(tǒng)改造成本。易擴展:HBase基于HDFS文件系統(tǒng),性能線性增長,利于橫向擴展。HBase:較開源產(chǎn)品提供二級索引、Region多點分割、一千公里容災(zāi) 備份等增強特性,其中二級索引特性已被社區(qū)接受并納入Phoenix組 件。Spark:金融貢獻了Spark on HBase( Astro)特
43、性,可以使用SparkSQL 操作HBase數(shù)據(jù),執(zhí)行高效、復(fù)雜的查詢操作,為HBase提供在線分 析引擎。特性價值特性描述UserTableRowKeyColumnFamilycolAcolBcolCa00001*a00002*a00003*a00004*a00005*a00006*目 標 行數(shù) 據(jù) 掃 描 區(qū) 域無索引:“Scan + Filter”,掃描大量數(shù)據(jù)a00004 *UserTableRowKeyColumnFamilycolAcolBcolCa00001*a00002*a00003*a00005*a00006*UserTable_idxRowKeyCFa00001coluA*
44、a00001a00001coluA*a00002a00001coluA*a00003a00001coluAxxxxxa00004a00001coluA*a00005a00001coluA*a00006Content金融大數(shù)據(jù)平臺案列詳述4TD數(shù)倉卸載HDS運維日志實時分析影像存儲智能運維業(yè)務(wù)項目背景與現(xiàn)狀問題數(shù)據(jù)量巨大,效率低:日志收集與檢索的效率低、成本高, 無法滿足故障排查問題定位的快速運維需求。因日志數(shù)據(jù)量 巨大,監(jiān)控系統(tǒng)目前只對日志文件進行基本的監(jiān)控,只對日 志大小、日志更新時間進行監(jiān)控。數(shù)據(jù)類型復(fù)雜:傳統(tǒng)關(guān)系型數(shù)據(jù)庫不能處理半結(jié)構(gòu)化或者非 結(jié)構(gòu)化數(shù)據(jù)Splunk日志分析: Splun
45、k日志分析工具僅支持離線的、片 段的日志分析,且許可成本較高, 僅應(yīng)用于少量的應(yīng)用系統(tǒng) , 不滿足應(yīng)用日志分析需要?,F(xiàn)狀每日產(chǎn)生大量的應(yīng)用日志,分布于各應(yīng)用系統(tǒng)及歷史磁帶監(jiān)控系統(tǒng)目前對日志文件進行基本的監(jiān)控,只對日志大小、日志更新時間進行監(jiān)控,利用價值不大。場景特點實時性要求高(高吞吐、低延遲)*實時:達到秒級以內(nèi)大數(shù)據(jù)量的離線分析(總數(shù)據(jù)量、日增數(shù)據(jù)量都不斷增長)*歷史回溯:一小時以外的歷史統(tǒng)計分析*歷史日志檢索:日志快速檢索,故障快速定位業(yè)務(wù)應(yīng)用日志離線分析業(yè)務(wù)性能分析運維風險評估模型訓練歷史日志檢索日志集中存儲日志快速檢索故障快速定位日志實時分析實時風險探測業(yè)務(wù)實時監(jiān)控模型訓練一體化日志
46、分析平臺47項目目標和定位建立企業(yè)級的日志采集、存儲、分析一體化平臺,運用數(shù)據(jù)建模、離線分析、實 時流計算、搜索引擎等技術(shù),實現(xiàn)業(yè)務(wù)性能分析、運維風險評估、實時預(yù)警監(jiān) 控、日志快速檢索等功能,促進業(yè)務(wù)能力與運維水平的提高本期項目內(nèi)容1、日志采集子平臺搭建企業(yè)級的分布式日志采集平臺支持文件、Syslog等主流日志源實現(xiàn)日志文件的實時采集與離線采集日志采集平臺架構(gòu)靈活擴展2、歷史日志文件檢索平臺歷史日志文件分布式存儲基于開源搜索引擎Lucene,實現(xiàn) 歷史日志文件檢索支持全文檢索與可配置的文本分析4、實時日志分析預(yù)警平臺使用流計算技術(shù)實現(xiàn)在線日志分析平臺提供實時接口與監(jiān)控等第三方應(yīng)用系統(tǒng) 對接,實
47、現(xiàn)實時分析結(jié)果的消費實時風險探測業(yè)務(wù)實時監(jiān)控項目需求3、離線日志分析平臺基于HADOOP搭建離線日志分析平臺分析模型設(shè)計與訓練優(yōu)化日志分析結(jié)果報表展示運維風險評估業(yè)務(wù)性能分析技術(shù)方案-系統(tǒng)邏輯架構(gòu)X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器服務(wù)器應(yīng)用日志系統(tǒng)日志渠道網(wǎng)銀柜面KafkaFlumeStormHiveMapReduce流計 算集 群業(yè)務(wù)實時反欺詐監(jiān)控 業(yè)務(wù)系統(tǒng)RDBETL批量HDFS實時處理實時搜索消息中間件分析模型HBase基于大數(shù)據(jù)平臺的二次開發(fā)應(yīng)用離線分析網(wǎng)絡(luò)日志風險實時預(yù)警與監(jiān)控集中監(jiān)控系統(tǒng)ECC大屏故障協(xié)同處理日志查詢平臺日志搜索集群Solr Lucene離線分析集群P
48、honiex技術(shù)方案數(shù)據(jù)處理流程APPWEBDB個人網(wǎng)銀HDFS分布式存儲M/RHBASE報表工具SOLR日志檢索平臺Storm1Storm2Storm集群KAFKARedis集中監(jiān)控個人網(wǎng)銀ETLFLUME(T+1)FLUME實時計算結(jié)果Phoenix實時告警大屏展示入侵檢測安全審計精準營銷實時推薦WebService消息中間件Content金融大數(shù)據(jù)平臺案列詳述4TD數(shù)倉卸載HDS運維日志實時分析影像存儲智能運維業(yè)務(wù)影像存儲/查詢應(yīng)用場景場景特點1、影像平臺(也稱影像處理平臺、影像管理平臺)構(gòu) 建了銀行非結(jié)構(gòu)化數(shù)據(jù)的管理平臺,具有綜合存儲管理銀行海量非結(jié)構(gòu)化數(shù)據(jù)的能力。2、影像平臺具備高效
49、的查詢能力。3、影像平臺具備強大的內(nèi)容分析能力?;竟δ軙?計 業(yè) 務(wù) 應(yīng) 用信 貸 業(yè) 務(wù) 應(yīng) 用國 際 結(jié) 算 業(yè) 務(wù)信 用 卡 業(yè) 務(wù)票 據(jù) 業(yè) 務(wù)大 額 審 批 業(yè) 務(wù)費 用 單 證 審 批流 程 銀 行影像存儲/查詢平臺分析查詢存儲現(xiàn)狀影像平臺由數(shù)據(jù)庫服務(wù)器、存儲系統(tǒng)拼接而成,元數(shù)據(jù)與影像 數(shù)據(jù)分離。在金融行業(yè)影像大多為小文件(幾K到幾M) ,個數(shù)多(千萬級以 上),數(shù)據(jù)量增長迅速(TB)。計算能力集中在數(shù)據(jù)庫服務(wù)器。影像平臺支持高并發(fā)、低時延查詢需求日益強烈。問題小文件存儲壓力:海量的小文件對存儲系統(tǒng)帶來了巨大的存儲 壓力;歸檔、備份時需要對海量小文件進行一次掃描,耗時會 相當長,
50、可能會持續(xù)數(shù)天。查詢性能受限:傳統(tǒng)平臺越來越難以應(yīng)付影像平臺對高并發(fā)、 低時延的查詢需要。分析性能不足:傳統(tǒng)平臺的計算資源集中在數(shù)據(jù)庫服務(wù)器,分 析能力差、擴展性差。影像存儲/查詢的現(xiàn)狀與問題離線存儲在線存儲數(shù)據(jù)庫服務(wù)器應(yīng)用服務(wù)器影像存儲/查詢的技術(shù)方案FileFileFileFileHBase FileStream(HFS)FileFileFileFile FileFileFiles統(tǒng)一文件 讀寫接口HBase Raw APIFileFileFileFileMOBHBaseFileFileHFile(MOB)小文件大文件小文 件自 合并HDFS1、對于每一個文件,都會相應(yīng)在HBase表中插入一條記錄(Rowkey, 客戶信息等);2、MOB是HBase本身提供的一種關(guān)于小對象的存儲優(yōu)化方法;通過將MOB方法把較小的文件(即100KB到10MB大小的數(shù)據(jù))合并后直接以HFile的格式存儲在文件系統(tǒng)HDFS上;特性價值建立統(tǒng)一的業(yè)務(wù)處理平臺:銀行影像系統(tǒng)的應(yīng)用將解決儲蓄業(yè)務(wù)憑證、部分 會計業(yè)務(wù)憑證和信用卡等的縮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手鋼琴租賃合同(2篇)
- 2025年個人試用期勞動合同樣本(三篇)
- 城市公園碎石配送保障協(xié)議
- 國際貿(mào)易攪拌車運輸協(xié)議
- 化工品物流合同安全范本
- 專業(yè)物流合同模板
- 湖南實驗室裝修合同樣本
- 產(chǎn)業(yè)扶持用地居間協(xié)議模板
- 旅游用地居間合同范本
- 會議室簡易改造合同樣本
- 初中英語人教版 八年級上冊 單詞默寫表 漢譯英
- pcs-9611d-x說明書國內(nèi)中文標準版
- 無人機航拍技術(shù)理論考核試題題庫及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 工藝評審報告
- 中國滑雪運動安全規(guī)范
- 畢業(yè)論文-基于51單片機的智能LED照明燈的設(shè)計
- 酒廠食品召回制度
- 中職數(shù)學基礎(chǔ)模塊上冊第一章《集合》單元檢測試習題及參考答案
- 化學魯科版必修一期末復(fù)習98頁PPT課件
評論
0/150
提交評論