大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第1頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第2頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第3頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第4頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)(jìshù)應(yīng)用實(shí)施方案建議信息技術(shù)管理部2013年6月1共二十一頁(yè)目錄(mùlù)我行新一代數(shù)據(jù)集成(jíchénɡ)平臺(tái)能力要求業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究我行大數(shù)據(jù)技術(shù)的應(yīng)用策略2共二十一頁(yè)新一代管理(guǎnlǐ)分析類(lèi)應(yīng)用需求3運(yùn)營(yíng)與信息安全運(yùn)行日志存儲(chǔ)與分析(fēnxī)安全日志存儲(chǔ)與分析營(yíng)銷(xiāo)支持加強(qiáng)客戶洞察分析,實(shí)現(xiàn)靈活深入的客戶細(xì)分;科學(xué)的客戶行為及渠道經(jīng)營(yíng)分析報(bào)告與決策全面的計(jì)劃預(yù)算管理價(jià)值導(dǎo)向的管理會(huì)計(jì);流程化的財(cái)務(wù)會(huì)計(jì)體系集成高效的財(cái)務(wù)運(yùn)作及時(shí)、準(zhǔn)確的財(cái)務(wù)報(bào)告風(fēng)險(xiǎn)管理滿足新協(xié)議合規(guī)和內(nèi)部管理需要的全面風(fēng)險(xiǎn)管理體系市場(chǎng)風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)等全面的風(fēng)險(xiǎn)計(jì)量;風(fēng)險(xiǎn)建模監(jiān)管合規(guī)支持全面整合的反洗錢(qián)和欺詐風(fēng)險(xiǎn)管理;監(jiān)管合規(guī)長(zhǎng)時(shí)間保存數(shù)據(jù)需求;審計(jì)供數(shù);非結(jié)構(gòu)化數(shù)據(jù)保存數(shù)據(jù)管控支持?jǐn)?shù)據(jù)完整、全面(廣度、深度);數(shù)據(jù)可信;數(shù)據(jù)易用;數(shù)據(jù)生命周期管理應(yīng)用需求新一代管理分析類(lèi)應(yīng)用對(duì)于大數(shù)據(jù)處理分析技術(shù)提出了高要求共二十一頁(yè)新一代數(shù)據(jù)集成平臺(tái)(píngtái)數(shù)據(jù)特點(diǎn)與挑戰(zhàn)4Volume數(shù)量大數(shù)據(jù)內(nèi)容豐富(賬戶信息、賬戶明細(xì)、流水信息等)數(shù)據(jù)存儲(chǔ)周期長(zhǎng)(監(jiān)管要求保存20年)PB級(jí)的海量數(shù)據(jù)Variety種類(lèi)多數(shù)據(jù)類(lèi)型多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如交易數(shù)據(jù)、日志數(shù)據(jù)、影像視頻數(shù)據(jù)等等Velocity速度快近實(shí)時(shí)數(shù)據(jù)處理(即席數(shù)據(jù)分析)實(shí)時(shí)訪問(wèn)(如歷史數(shù)據(jù)查詢)流式數(shù)據(jù)計(jì)算(如反欺詐)大數(shù)據(jù)時(shí)代,技術(shù)(jìshù)面臨著Volume、Variety、Velocity

3V的挑戰(zhàn)共二十一頁(yè)目錄(mùlù)我行新一代數(shù)據(jù)集成平臺(tái)能力要求業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性(tèxìng)及應(yīng)用研究技術(shù)特性研究技術(shù)應(yīng)用研究我行大數(shù)據(jù)技術(shù)的應(yīng)用策略5共二十一頁(yè)大數(shù)據(jù)(shùjù)技術(shù)一覽圖6大數(shù)據(jù)技術(shù)主要(zhǔyào)包含應(yīng)用領(lǐng)域(如商務(wù)智能)、基礎(chǔ)設(shè)施領(lǐng)域(結(jié)構(gòu)化數(shù)據(jù)庫(kù)技術(shù)、分析型數(shù)據(jù)技術(shù)等)和基礎(chǔ)技術(shù)領(lǐng)域的各種相關(guān)技術(shù)。共二十一頁(yè)重點(diǎn)調(diào)研的相關(guān)大數(shù)據(jù)(shùjù)存儲(chǔ)技術(shù)產(chǎn)品調(diào)研TDAsterData基于(jīyú)商用硬件的分布式數(shù)據(jù)庫(kù)技術(shù)HADOOP技術(shù)對(duì)于大數(shù)據(jù)技術(shù)、產(chǎn)品的調(diào)研分兩類(lèi)進(jìn)行,即關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型技術(shù),前者以基于X86的MPP技術(shù)為代表,后者以HADOOP技術(shù)為代表共二十一頁(yè)大數(shù)據(jù)(shùjù)技術(shù)特性研究結(jié)論8分析維度X86MPPHADOOP數(shù)據(jù)特性僅支持結(jié)構(gòu)化數(shù)據(jù)支持非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展性可擴(kuò)展至數(shù)百節(jié)點(diǎn)可擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)數(shù)據(jù)可靠性每份數(shù)據(jù)只有一個(gè)備份每份數(shù)據(jù)可有多個(gè)備份產(chǎn)品成熟度介于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)與HADOOP之間新技術(shù),產(chǎn)品與技術(shù)均不成熟易開(kāi)發(fā)性相對(duì)容易與傳統(tǒng)數(shù)據(jù)庫(kù)差異較大,開(kāi)發(fā)復(fù)雜運(yùn)維管理缺少統(tǒng)一的運(yùn)維管理工具復(fù)雜,缺少統(tǒng)一的運(yùn)維管理工具人員技能要求一般,僅需熟悉傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)高,需要對(duì)產(chǎn)品、技術(shù)及程序設(shè)計(jì)有深入理解基于X86的MPP技術(shù)與傳統(tǒng)分析(fēnxī)型數(shù)據(jù)庫(kù)的差異不大,但是提供了良好的擴(kuò)展性,適合替代現(xiàn)有技術(shù)進(jìn)行關(guān)系型數(shù)據(jù)的分析(fēnxī)HADOOP技術(shù)支持的數(shù)據(jù)類(lèi)型多,擴(kuò)展性強(qiáng),適合海量非結(jié)構(gòu)化的數(shù)據(jù)分析,但技術(shù)不成熟,需逐步試點(diǎn)共二十一頁(yè)目錄(mùlù)我行新一代數(shù)據(jù)集成平臺(tái)能力要求業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究(yánjiū)技術(shù)特性研究技術(shù)應(yīng)用研究我行大數(shù)據(jù)技術(shù)的應(yīng)用策略9共二十一頁(yè)美國(guó)銀行大數(shù)據(jù)技術(shù)應(yīng)用(yìngyòng)情況10技術(shù)類(lèi)型產(chǎn)品系統(tǒng)/機(jī)柜數(shù)集群容量(PB)數(shù)據(jù)量(PB)應(yīng)用領(lǐng)域使用案例專有一體機(jī)Teradata2453.1數(shù)據(jù)倉(cāng)庫(kù)企業(yè)/集中式數(shù)據(jù)倉(cāng)庫(kù)Netezza80+2.81.1數(shù)據(jù)集市OLAPExadata10+10.08數(shù)據(jù)集市(OLAP和OLTP混合)全球人力資源部、CRC(客戶報(bào)告中心:22TB)、AMT基于商用硬件的分布式數(shù)據(jù)庫(kù)Vertica20.570.34數(shù)據(jù)集市OLAPHadoop技術(shù)ClouderaHadoop若干>1.6>1.6ETL集團(tuán)DW、電子商務(wù)、信用風(fēng)險(xiǎn)數(shù)據(jù)暫存與歸檔銀行卡系統(tǒng)過(guò)期數(shù)據(jù)歸檔;

集團(tuán)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)歸檔信息安全數(shù)據(jù)庫(kù)、防火墻、應(yīng)用程序等日志存儲(chǔ)與分析風(fēng)險(xiǎn)分析定量風(fēng)險(xiǎn)技術(shù)(最大的Hadoop應(yīng)用集群,173臺(tái)機(jī)器,1.6PB未壓縮數(shù)據(jù))、

欺詐檢測(cè)沙箱分析

美國(guó)銀行在數(shù)據(jù)集市領(lǐng)域大量使用(shǐyòng)X86MPP技術(shù),HADOOP主要用于ETL、數(shù)據(jù)歸檔、日志分析及風(fēng)險(xiǎn)分析等應(yīng)用共二十一頁(yè)美國(guó)銀行未來(lái)大數(shù)據(jù)(shùjù)技術(shù)應(yīng)用11產(chǎn)品美國(guó)銀行的最佳定位戰(zhàn)略性產(chǎn)品IBMNetezza純分析性的工作量的首選解決方案。高性能和高擴(kuò)展性。費(fèi)用較低,比Exadata或Teradata更容易

進(jìn)行管理。并發(fā)性方面的局限,使其適用于數(shù)據(jù)市場(chǎng),或可能適合小型部門(mén)的數(shù)據(jù)倉(cāng)庫(kù)。是OracleExadata適用于I/O要求極為嚴(yán)苛并需要20TB以上的交易/分析混合工作量。能夠處理同一系統(tǒng)中的多種工

作量。也可視為適用于20TB以上的分析數(shù)據(jù)庫(kù)(目前運(yùn)行的是標(biāo)準(zhǔn)Oracle數(shù)據(jù)庫(kù)),因?yàn)樗?/p>

Netezza更容易移植是Vertica(HP)作為一種新興的主要候選方案,可替代Netezza和Exadata,為大型數(shù)據(jù)市場(chǎng)或部門(mén)數(shù)據(jù)倉(cāng)庫(kù)(20TB

以上)提供基于商品的列式數(shù)據(jù)庫(kù)。通過(guò)創(chuàng)新的寫(xiě)優(yōu)存儲(chǔ)和讀優(yōu)存儲(chǔ)以及經(jīng)驗(yàn)證的PB級(jí)別,擴(kuò)展

架構(gòu)。在美國(guó)銀行進(jìn)行了兩項(xiàng)重大且成功的實(shí)施。是SybaseIQ(SAP)列存儲(chǔ)的首個(gè)商業(yè)實(shí)施。穩(wěn)定、成熟的產(chǎn)品。許可交易使部署不受任何限制。通過(guò)標(biāo)準(zhǔn)的x86服務(wù)

器和SAN運(yùn)行。以前不屬于擴(kuò)展解決方案,且在這方面仍未經(jīng)過(guò)驗(yàn)證。計(jì)劃作為5-20TB數(shù)據(jù)市場(chǎng)

的首選商品方案。是Teradata行業(yè)標(biāo)準(zhǔn),適用于大型、要求高和復(fù)雜的企業(yè)數(shù)據(jù)倉(cāng)庫(kù),此類(lèi)數(shù)據(jù)倉(cāng)庫(kù)需要復(fù)雜的工作量管理和其

他高級(jí)功能。高度專有化、昂貴且不易獲得支持。美國(guó)銀行的使用應(yīng)僅限于W數(shù)據(jù)倉(cāng)庫(kù),以及可能

需要與W進(jìn)行極高水平集成的某些數(shù)據(jù)市場(chǎng)。是SAPHANA最佳用途是為運(yùn)行SAP軟件的應(yīng)用程序?qū)崿F(xiàn)加速。對(duì)于一般的非SAP工作量,不必采用此解決方案。

亦沒(méi)有證據(jù)證明,HANA在SAP前端之外的市場(chǎng)廣受歡迎。否ParAccel產(chǎn)品的發(fā)展速度非???。供應(yīng)商聲稱自己在POC方面無(wú)人可及。創(chuàng)新的架構(gòu)和光纖通信。這是此表

中唯一一個(gè)仍歸小型獨(dú)立供應(yīng)商所有的解決方案。需要考慮供應(yīng)商的規(guī)模、穩(wěn)定性和長(zhǎng)期生存能力。

盡管技術(shù)令人印象深刻,但目前沒(méi)有計(jì)劃將ParAccel作為戰(zhàn)略性產(chǎn)品。否結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域,Netezza、Exadata、Vertica、Teradata及SybaseIQ是美國(guó)銀行未來(lái)(wèilái)的戰(zhàn)略產(chǎn)品共二十一頁(yè)國(guó)內(nèi)銀行(yínháng)同業(yè)中國(guó)銀行采用(cǎiyòng)HADOOP實(shí)現(xiàn)系統(tǒng)日志的分析中國(guó)農(nóng)業(yè)銀行進(jìn)行歷史數(shù)據(jù)的歸檔中國(guó)銀聯(lián)歷史數(shù)據(jù)歸檔12目前中行、農(nóng)行、銀聯(lián)等都已經(jīng)開(kāi)始了基于HADOOP技術(shù)的應(yīng)用探索及規(guī)劃共二十一頁(yè)淘寶大數(shù)據(jù)技術(shù)(jìshù)應(yīng)用情況13應(yīng)用領(lǐng)域批處理:ETL數(shù)據(jù)分析,OLAP大數(shù)據(jù)量分析—主要使用Hive點(diǎn)擊流日志分析;搜索排行榜和其他搜索相關(guān)的業(yè)務(wù)機(jī)器學(xué)習(xí)數(shù)據(jù)生命周期管理:歸檔存儲(chǔ):歷史訂單明細(xì)查詢應(yīng)用規(guī)模3000多個(gè)節(jié)點(diǎn),36PB數(shù)據(jù),20多個(gè)事業(yè)群,150多用戶組,3000多用戶。Hadoop應(yīng)用發(fā)展歷程淘寶數(shù)據(jù)服務(wù)平臺(tái)架構(gòu)淘寶采用HADOOP技術(shù)(jìshù)構(gòu)建了完整的數(shù)據(jù)倉(cāng)庫(kù)及處理分析平臺(tái)共二十一頁(yè)大數(shù)據(jù)(shùjù)技術(shù)應(yīng)用研究結(jié)論14關(guān)系型數(shù)據(jù)(shùjù)領(lǐng)域非關(guān)系型數(shù)據(jù)領(lǐng)域Teradata主要用于數(shù)據(jù)倉(cāng)庫(kù)X86MPP技術(shù)在數(shù)據(jù)集市中得到廣泛應(yīng)用HADOOP技術(shù)在如下領(lǐng)域得到廣泛應(yīng)用數(shù)據(jù)歸檔存儲(chǔ)ELT半結(jié)構(gòu)化數(shù)據(jù)分析隨著HADOOP技術(shù)快速發(fā)展,其對(duì)關(guān)系型數(shù)據(jù)的處理支持也越來(lái)越強(qiáng),關(guān)系型與非關(guān)系型數(shù)據(jù)的處理技術(shù)邊界已經(jīng)日漸模糊,后續(xù)應(yīng)用HADOOP技術(shù)可能實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)處理分析平臺(tái)共二十一頁(yè)目錄(mùlù)我行新一代數(shù)據(jù)集成平臺(tái)能力要求業(yè)內(nèi)(yènèi)大數(shù)據(jù)技術(shù)的發(fā)展及應(yīng)用研究我行大數(shù)據(jù)技術(shù)的應(yīng)用策略15共二十一頁(yè)我行大數(shù)據(jù)技術(shù)應(yīng)用(yìngyòng)規(guī)劃建議我行大數(shù)據(jù)(shùjù)技術(shù)應(yīng)用規(guī)劃建議技術(shù)應(yīng)用領(lǐng)域建議技術(shù)應(yīng)用領(lǐng)域建議ORACLE滿足OLTP類(lèi)應(yīng)用需求X86MPP在某些非關(guān)鍵應(yīng)用領(lǐng)域作為T(mén)ERADATA的替代技術(shù),降低應(yīng)用成本;復(fù)雜的歷史數(shù)據(jù)查詢(如:多表關(guān)聯(lián),查詢條件可自由組合的查詢)Teradata核心數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用海量、多維度的復(fù)雜數(shù)據(jù)分析HADOOP技術(shù)歷史數(shù)據(jù)歸檔;簡(jiǎn)單歷史數(shù)據(jù)查詢(查詢條件固定的單表查詢);半結(jié)構(gòu)化數(shù)據(jù)分析;RDW區(qū)(ORACLEExadata)SOR區(qū)(X86MPP)ADW&CM區(qū)(TERADATA)LDS區(qū)(X86MPP+HADOOP)HDS-歸檔區(qū)(HADOOP)HDS-訪問(wèn)區(qū)(HADOOP+X86MPP)Staging區(qū)共二十一頁(yè)第三階段引入基于X86平臺(tái)的商用硬件的分布什數(shù)據(jù)庫(kù)產(chǎn)品(chǎnpǐn),以較合理的性價(jià)比,提高海量數(shù)據(jù)的計(jì)算能力與時(shí)俱進(jìn)、積極(jījí)應(yīng)用總體規(guī)劃、分步實(shí)施制定計(jì)劃、穩(wěn)步推進(jìn)第二階段第一階段引入遵行HADOOP技術(shù)標(biāo)準(zhǔn)的HADOOP技術(shù)產(chǎn)品,實(shí)現(xiàn):海量結(jié)構(gòu)化歷史數(shù)據(jù)的歸檔保存信息安全日志的存儲(chǔ)與分析擴(kuò)展HADOOP技術(shù)的應(yīng)用范圍:電商數(shù)據(jù)分析其他場(chǎng)景……我行大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施路徑建議不斷豐富大數(shù)據(jù)技術(shù)上的應(yīng)用功能,形成我行完善的大數(shù)據(jù)技術(shù)應(yīng)用體系。17共二十一頁(yè)HADOOP技術(shù)選擇方案(fāngàn)比較18詳細(xì)(xiángxì)見(jiàn):比較項(xiàng)方案方案一:采用免費(fèi)開(kāi)源發(fā)行版ClouderaHadoop方案二:采用商業(yè)開(kāi)源發(fā)行版(如Cloudera、Hortonworks)方案三:采用閉源的HADOOP技術(shù)產(chǎn)品(如IntelHadoop、IBMBigInsights、EMCPivotalHD))是否關(guān)鍵指標(biāo)成熟度與穩(wěn)定性高高中是應(yīng)用案例與規(guī)模多多少是產(chǎn)品和服務(wù)成本低中高是運(yùn)行維護(hù)成本高中中是行內(nèi)技術(shù)儲(chǔ)備要求高中中是國(guó)內(nèi)支持力量弱一般稍強(qiáng)是服務(wù)支持響應(yīng)時(shí)間長(zhǎng)較長(zhǎng)一般是運(yùn)行風(fēng)險(xiǎn)高中中是廠商依賴程度低中高否開(kāi)放程度高高低否產(chǎn)品按需定制的靈活度高中低否共二十一頁(yè)大數(shù)據(jù)(shùjù)技術(shù)應(yīng)用初步實(shí)施計(jì)劃19階段主題開(kāi)始時(shí)間結(jié)束時(shí)間第一階段引入X86分布式數(shù)據(jù)庫(kù),分擔(dān)Teradata批量數(shù)據(jù)處理壓力,合理降低成本已完成

第二階段HADOOP測(cè)試案例準(zhǔn)備與實(shí)現(xiàn)2013年6月13日2013年7月26日HADOOP產(chǎn)品選型測(cè)試2013年7月29日2013年12月30日歷史數(shù)據(jù)歸檔應(yīng)用基于HADOOP構(gòu)建2014年初2014年底信息安全應(yīng)用日志存儲(chǔ)與分析基于HADOOP構(gòu)建2014年中2015年中第三階段電子商務(wù)大數(shù)據(jù)分析2015年初2015年底持續(xù)應(yīng)用階段不斷豐富大數(shù)據(jù)技術(shù)上的應(yīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論