大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議-V10_第1頁
大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議-V10_第2頁
大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議-V10_第3頁
大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議-V10_第4頁
大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議-V10_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)應(yīng)用實施方案建議應(yīng)用實施方案建議信息技術(shù)管理部2013年6月1目錄 我行新一代數(shù)據(jù)集成平臺能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略2新一代管理分析類應(yīng)用需求3運營與信息安全運行日志存儲與分析安全日志存儲與分析營銷支持加強客戶洞察分析,實現(xiàn)靈活深入的客戶細分;科學(xué)的客戶行為及渠道經(jīng)營分析報告與決策全面的計劃預(yù)算管理 價值導(dǎo)向的管理會計;流程化的財務(wù)會計體系 集成高效的財務(wù)運作 及時、準確的財務(wù)報告風險管理 滿足新協(xié)議合規(guī)和內(nèi)部管理需要的全面風險管理體系市場風險、信用風險、操作風險等全面的風險計量;風險建模監(jiān)管合規(guī)支持全面整合的反洗錢和欺詐風險管理;監(jiān)

2、管合規(guī)長時間保存數(shù)據(jù)需求;審計供數(shù);非結(jié)構(gòu)化數(shù)據(jù)保存數(shù)據(jù)管控支持數(shù)據(jù)完整、全面(廣度、深度);數(shù)據(jù)可信;數(shù)據(jù)易用;數(shù)據(jù)生命周期管理應(yīng)用需求新一代管理分析類應(yīng)用對于大數(shù)據(jù)處理分析技術(shù)提出了高要求新一代數(shù)據(jù)集成平臺數(shù)據(jù)特點與挑戰(zhàn)4Volume數(shù)量大 數(shù)據(jù)內(nèi)容豐富(賬戶信息、賬戶明細、流水信息等) 數(shù)據(jù)存儲周期長(監(jiān)管要求保存20年) PB級的海量數(shù)據(jù)Variety種類多 數(shù)據(jù)類型多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如交易數(shù)據(jù)、日志數(shù)據(jù)、影像視頻數(shù)據(jù)等等Velocity速度快 近實時數(shù)據(jù)處理(即席數(shù)據(jù)分析) 實時訪問(如歷史數(shù)據(jù)查詢) 流式數(shù)據(jù)計算(如反欺詐)大數(shù)據(jù)時代,技術(shù)面臨著Volume

3、、Variety、Velocity 3V的挑戰(zhàn)目錄 我行新一代數(shù)據(jù)集成平臺能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 技術(shù)特性研究 技術(shù)應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略5大數(shù)據(jù)技術(shù)一覽圖6大數(shù)據(jù)技術(shù)主要包含應(yīng)用領(lǐng)域(如商務(wù)智能)、基礎(chǔ)設(shè)施領(lǐng)域(結(jié)構(gòu)化數(shù)據(jù)庫技術(shù)、分析型數(shù)據(jù)技術(shù)等)和基礎(chǔ)技術(shù)領(lǐng)域的各種相關(guān)技術(shù)。重點調(diào)研的相關(guān)大數(shù)據(jù)存儲技術(shù)產(chǎn)品調(diào)研基于商用硬件的分布式數(shù)據(jù)庫技術(shù)HADOOP技術(shù)對于大數(shù)據(jù)技術(shù)、產(chǎn)品的調(diào)研分兩類進行,即關(guān)系型數(shù)據(jù)庫與非關(guān)系型技術(shù),前者以基于X86的MPP技術(shù)為代表,后者以HADOOP技術(shù)為代表大數(shù)據(jù)技術(shù)特性研究結(jié)論8分析維度X86 MPPHADOOP數(shù)據(jù)特性僅支持結(jié)構(gòu)

4、化數(shù)據(jù)支持非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)擴展性可擴展至數(shù)百節(jié)點可擴展至數(shù)千個節(jié)點數(shù)據(jù)可靠性每份數(shù)據(jù)只有一個備份每份數(shù)據(jù)可有多個備份產(chǎn)品成熟度介于傳統(tǒng)關(guān)系型數(shù)據(jù)庫與HADOOP之間新技術(shù),產(chǎn)品與技術(shù)均不成熟易開發(fā)性相對容易與傳統(tǒng)數(shù)據(jù)庫差異較大,開發(fā)復(fù)雜運維管理缺少統(tǒng)一的運維管理工具復(fù)雜,缺少統(tǒng)一的運維管理工具人員技能要求一般,僅需熟悉傳統(tǒng)關(guān)系型數(shù)據(jù)庫高,需要對產(chǎn)品、技術(shù)及程序設(shè)計有深入理解基于X86的MPP技術(shù)與傳統(tǒng)分析型數(shù)據(jù)庫的差異不大,但是提供了良好的擴展性,適合替代現(xiàn)有技術(shù)進行關(guān)系型數(shù)據(jù)的分析HADOOP技術(shù)支持的數(shù)據(jù)類型多,擴展性強,適合海量非結(jié)構(gòu)化的數(shù)據(jù)分析,但技術(shù)不成熟,需逐步試點目

5、錄 我行新一代數(shù)據(jù)集成平臺能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 技術(shù)特性研究 技術(shù)應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略9美國銀行大數(shù)據(jù)技術(shù)應(yīng)用情況10技術(shù)類型產(chǎn)品系統(tǒng)/機柜數(shù)集群容量 (PB)數(shù)據(jù)量 (PB)應(yīng)用領(lǐng)域使用案例專有一體機Teradata2453.1數(shù)據(jù)倉庫企業(yè)/集中式數(shù)據(jù)倉庫Netezza80+2.81.1數(shù)據(jù)集市OLAPExadata10+10.08數(shù)據(jù)集市(OLAP 和 OLTP混合)全球人力資源部、CRC(客戶報告中心:22TB)、AMT基于商用硬件的分布式數(shù)據(jù)庫Vertica20.570.34數(shù)據(jù)集市OLAPHadoop技術(shù)Cloudera Hadoop若干1.61.6

6、ETL集團DW 、電子商務(wù)、信用風險數(shù)據(jù)暫存與歸檔銀行卡系統(tǒng)過期數(shù)據(jù)歸檔;集團數(shù)據(jù)倉庫數(shù)據(jù)歸檔信息安全數(shù)據(jù)庫、防火墻、應(yīng)用程序等日志存儲與分析風險分析定量風險技術(shù) (最大的Hadoop應(yīng)用集群,173臺機器,1.6PB未壓縮數(shù)據(jù))、欺詐檢測沙箱分析美國銀行在數(shù)據(jù)集市領(lǐng)域大量使用X86 MPP技術(shù),HADOOP主要用于ETL、數(shù)據(jù)歸檔、日志分析及風險分析等應(yīng)用美國銀行未來大數(shù)據(jù)技術(shù)應(yīng)用11產(chǎn)品美國銀行的最佳定位戰(zhàn)略性產(chǎn)品IBM Netezza 純分析性的工作量的首選解決方案。高性能和高擴展性。費用較低,比 Exadata 或 Teradata 更容易進行管理。并發(fā)性方面的局限,使其適用于數(shù)據(jù)市場

7、,或可能適合小型部門的數(shù)據(jù)倉庫。 是Oracle Exadata 適用于 I/O 要求極為嚴苛并需要 20 TB 以上的交易/分析混合工作量。能夠處理同一系統(tǒng)中的多種工作量。也可視為適用于 20 TB 以上的分析數(shù)據(jù)庫(目前運行的是標準 Oracle 數(shù)據(jù)庫),因為它比 Netezza 更容易移植是Vertica (HP) 作為一種新興的主要候選方案,可替代 Netezza 和 Exadata,為大型數(shù)據(jù)市場或部門數(shù)據(jù)倉庫(20 TB 以上)提供基于商品的列式數(shù)據(jù)庫。通過創(chuàng)新的寫優(yōu)存儲和讀優(yōu)存儲以及經(jīng)驗證的 PB 級別,擴展架構(gòu)。在美國銀行進行了兩項重大且成功的實施。 是Sybase IQ (

8、SAP) 列存儲的首個商業(yè)實施。穩(wěn)定、成熟的產(chǎn)品。許可交易使部署不受任何限制。通過標準的 x86 服務(wù)器和 SAN 運行。以前不屬于擴展解決方案,且在這方面仍未經(jīng)過驗證。計劃作為 5-20 TB 數(shù)據(jù)市場的首選商品方案。 是Teradata行業(yè)標準,適用于大型、要求高和復(fù)雜的企業(yè)數(shù)據(jù)倉庫,此類數(shù)據(jù)倉庫需要復(fù)雜的工作量管理和其他高級功能。高度專有化、昂貴且不易獲得支持。美國銀行的使用應(yīng)僅限于 W 數(shù)據(jù)倉庫,以及可能需要與 W 進行極高水平集成的某些數(shù)據(jù)市場。 是SAP HANA 最佳用途是為運行 SAP 軟件的應(yīng)用程序?qū)崿F(xiàn)加速。對于一般的非 SAP 工作量,不必采用此解決方案。亦沒有證據(jù)證明,H

9、ANA 在 SAP 前端之外的市場廣受歡迎。否ParAccel產(chǎn)品的發(fā)展速度非???。供應(yīng)商聲稱自己在 POC 方面無人可及。創(chuàng)新的架構(gòu)和光纖通信。這是此表中唯一一個仍歸小型獨立供應(yīng)商所有的解決方案。需要考慮供應(yīng)商的規(guī)模、穩(wěn)定性和長期生存能力。盡管技術(shù)令人印象深刻,但目前沒有計劃將 ParAccel 作為戰(zhàn)略性產(chǎn)品。否結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域,Netezza、Exadata、Vertica、Teradata及Sybase IQ是美國銀行未來的戰(zhàn)略產(chǎn)品國內(nèi)銀行同業(yè) 中國銀行 采用HADOOP實現(xiàn)系統(tǒng)日志的分析 中國農(nóng)業(yè)銀行 進行歷史數(shù)據(jù)的歸檔 中國銀聯(lián) 歷史數(shù)據(jù)歸檔12目前中行、農(nóng)行、銀聯(lián)等都已經(jīng)開始了

10、基于HADOOP技術(shù)的應(yīng)用探索及規(guī)劃淘寶大數(shù)據(jù)技術(shù)應(yīng)用情況13應(yīng)用領(lǐng)域n 批處理: ETL數(shù)據(jù)分析,OLAP大數(shù)據(jù)量分析主要使用Hive 點擊流日志分析; 搜索排行榜和其他搜索相關(guān)的業(yè)務(wù) 機器學(xué)習n 數(shù)據(jù)生命周期管理: 歸檔存儲:n 歷史訂單明細查詢n 應(yīng)用規(guī)模 3000多個節(jié)點,36PB數(shù)據(jù),20多個事業(yè)群,150多用戶組,3000多用戶。Hadoop應(yīng)用發(fā)展歷程淘寶數(shù)據(jù)服務(wù)平臺架構(gòu)淘寶采用HADOOP技術(shù)構(gòu)建了完整的數(shù)據(jù)倉庫及處理分析平臺大數(shù)據(jù)技術(shù)應(yīng)用研究結(jié)論14關(guān)系型數(shù)據(jù)領(lǐng)域非關(guān)系型數(shù)據(jù)領(lǐng)域Teradata主要用于數(shù)據(jù)倉庫X86 MPP技術(shù)在數(shù)據(jù)集市中得到廣泛應(yīng)用HADOOP技術(shù)在如下領(lǐng)

11、域得到廣泛應(yīng)用數(shù)據(jù)歸檔存儲ELT半結(jié)構(gòu)化數(shù)據(jù)分析隨著HADOOP技術(shù)快速發(fā)展,其對關(guān)系型數(shù)據(jù)的處理支持也越來越強,關(guān)系型與非關(guān)系型數(shù)據(jù)的處理技術(shù)邊界已經(jīng)日漸模糊,后續(xù)應(yīng)用HADOOP技術(shù)可能實現(xiàn)統(tǒng)一的數(shù)據(jù)處理分析平臺目錄 我行新一代數(shù)據(jù)集成平臺能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的發(fā)展及應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略15我行大數(shù)據(jù)技術(shù)應(yīng)用規(guī)劃建議我行大數(shù)據(jù)技術(shù)應(yīng)用規(guī)劃建議技術(shù)應(yīng)用領(lǐng)域建議技術(shù)應(yīng)用領(lǐng)域建議ORACLE滿足OLTP類應(yīng)用需求X86 MPP在某些非關(guān)鍵應(yīng)用領(lǐng)域作為TERADATA的替代技術(shù),降低應(yīng)用成本;復(fù)雜的歷史數(shù)據(jù)查詢(如:多表關(guān)聯(lián),查詢條件可自由組合的查詢)Teradata核心數(shù)據(jù)倉庫

12、應(yīng)用海量、多維度的復(fù)雜數(shù)據(jù)分析HADOOP技術(shù)歷史數(shù)據(jù)歸檔; 簡單歷史數(shù)據(jù)查詢(查詢條件固定的單表查詢);半結(jié)構(gòu)化數(shù)據(jù)分析;RDW區(qū)(ORACLE Exadata)SOR區(qū) (X86 MPP)ADW &CM區(qū)(TERADATA)LDS區(qū)(X86 MPP+HADOOP)HDS-歸檔區(qū)(HADOOP)HDS-訪問區(qū)(HADOOP+X86 MPP)Staging區(qū)第三階段引入基于X86平臺的商用硬件的分布什數(shù)據(jù)庫產(chǎn)品,以較合理的性價比,提高海量數(shù)據(jù)的計算能力與時俱進、積極應(yīng)用總體規(guī)劃、分步實施制定計劃、穩(wěn)步推進第二階段第一階段引入遵行HADOOP技術(shù)標準的HADOOP技術(shù)產(chǎn)品,實現(xiàn):海量結(jié)構(gòu)化歷史數(shù)

13、據(jù)的歸檔保存信息安全日志的存儲與分析擴展HADOOP技術(shù)的應(yīng)用范圍:電商數(shù)據(jù)分析其他場景我行大數(shù)據(jù)技術(shù)應(yīng)用實施路徑建議不斷豐富大數(shù)據(jù)技術(shù)上的應(yīng)用功能,形成我行完善的大數(shù)據(jù)技術(shù)應(yīng)用體系。17HADOOP技術(shù)選擇方案比較18詳細見:比較項 方案方案一:采用免費開源發(fā)行版Cloudera Hadoop方案二:采用商業(yè)開源發(fā)行版(如Cloudera、Hortonworks)方案三:采用閉源的HADOOP技術(shù)產(chǎn)品(如Intel Hadoop、IBM BigInsights、EMC Pivotal HD)是否關(guān)鍵指標成熟度與穩(wěn)定性高高中是應(yīng)用案例與規(guī)模多多少是產(chǎn)品和服務(wù)成本低中高是運行維護成本高中中是行內(nèi)技術(shù)儲備要求高中中是國內(nèi)支持力量弱一般稍強是服務(wù)支持響應(yīng)時間長較長一般是運行風險高中中是廠商依賴程度低中高否開放程度高高低否產(chǎn)品按需定制的靈活度高中低否大數(shù)據(jù)技術(shù)應(yīng)用初步實施計劃19階段主題開始時間結(jié)束時間第一階段引入X86分布式數(shù)據(jù)庫,分擔Teradata批量數(shù)據(jù)處理壓力,合理降低成本已完成第二階段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論