大大數(shù)據(jù)處理技術(shù)參考架構(gòu)

上傳人：d*** IP屬地：天津上傳時(shí)間：2021-10-12 格式：DOC 頁數(shù)：23 大?。?07KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)處理技術(shù)參考架構(gòu)China Finance Computerization Corp.二0五年十二月目錄1. 背景12. 技術(shù)目標(biāo)23. 技術(shù)要求24. 大數(shù)據(jù)處理業(yè)務(wù)場(chǎng)景35. 大數(shù)據(jù)處理技術(shù)對(duì)比45.1. MPP與 HADOO&ARK技術(shù)對(duì)比45.2. HADOO&SARK技術(shù)優(yōu)勢(shì)65.3. HADOOP匡架對(duì)比 65.4. HADOOI使用情況75.5. HADOOP血緣關(guān)系85.6. 行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景對(duì)比分析 126. 大數(shù)據(jù)處理參考架構(gòu) 136.1. 參考架構(gòu)136.2. 與JAVAEE體系對(duì)比146.3. 參考架構(gòu)運(yùn)行狀態(tài) 157. 總結(jié)與思考16附錄：名詞解釋 18A善

2、旦1. 冃景隨著大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)由海量拓展為多樣，在注重計(jì)算速度的同時(shí)更加關(guān)注挖掘有價(jià)值的數(shù)據(jù)。以IOE體系為核心的數(shù)據(jù)計(jì)算和存儲(chǔ)方式越來越不能滿足目前大數(shù)據(jù)處理在性能和成本上的綜合要求。為適應(yīng)對(duì)大數(shù)據(jù)處理的要求，眾多的分布式計(jì)算平臺(tái)隨之興起，在對(duì)眾多分布式計(jì)算平臺(tái)進(jìn)行權(quán)衡的同時(shí)，增強(qiáng)自主創(chuàng)新能力，以滿足人民銀行對(duì)信息技術(shù)安全可控的要求。在核心應(yīng)用自主研發(fā)、核心知識(shí)自主掌控的氛圍下，保障大數(shù)據(jù)技術(shù)達(dá)到靈活可用的目標(biāo)，確保數(shù)據(jù)和信息的有效、及時(shí)，確保信息系統(tǒng)的可靠、靈活。同時(shí)，充分的利用開源產(chǎn)品透明公開的關(guān)鍵信息，做到對(duì)技術(shù)細(xì)節(jié)的掌控和驗(yàn)證，開源產(chǎn)品的特點(diǎn)也更能夠激發(fā)開發(fā)者

3、的熱情并推進(jìn)技術(shù)的快速變革。在互聯(lián)網(wǎng)+”的戰(zhàn)略布局下，當(dāng)利用信息通信技術(shù)把互聯(lián)網(wǎng)和包括金融行業(yè) 在內(nèi)的相關(guān)行業(yè)結(jié)合起來時(shí)，能夠更加合理和充分的利用大數(shù)據(jù)技術(shù)促進(jìn)互聯(lián)網(wǎng) 金融的健康發(fā)展。當(dāng)前互聯(lián)網(wǎng)金融的格局中，由傳統(tǒng)金融機(jī)構(gòu)和非金融機(jī)構(gòu)組成。傳統(tǒng)金融機(jī)構(gòu)的發(fā)展方向主要為傳統(tǒng)金融業(yè)務(wù)的互聯(lián)網(wǎng)創(chuàng)新以及電商化創(chuàng)新、手機(jī)APP服務(wù)等；非金融機(jī)構(gòu)的發(fā)展方向則主要是指利用互聯(lián)網(wǎng)技術(shù)進(jìn)行金融運(yùn) 作的電子商務(wù)企業(yè)、P2P模式的網(wǎng)絡(luò)借貸平臺(tái)，眾籌模式的網(wǎng)絡(luò)投資平臺(tái)或掌上理財(cái)服務(wù)，以及第三方支付平臺(tái)等。在金融行業(yè)新興業(yè)態(tài)下，為促進(jìn)互聯(lián)網(wǎng)金融的健康發(fā)展，為全面提升互聯(lián)網(wǎng)金融服務(wù)能力和普惠水平，為有效防范互聯(lián)網(wǎng)

4、金融風(fēng)險(xiǎn)及其外溢效應(yīng)而提供技術(shù)支撐。在金融領(lǐng)域，新生業(yè)態(tài)層出不窮，金融機(jī)構(gòu)日益多樣化，金融資產(chǎn)的流動(dòng)性快速上升，金融體系的關(guān)聯(lián)度、復(fù)雜度大幅提高。金融業(yè)的快速發(fā)展和創(chuàng)新，使貨幣政策操作環(huán)境、傳導(dǎo)渠道發(fā)生重大變化。在數(shù)據(jù)的處理分析上，對(duì)原有的宏觀審慎分析框架及其有效性、準(zhǔn)確性提出了挑戰(zhàn)。2. 技術(shù)目標(biāo)獲得最優(yōu)系統(tǒng)價(jià)值，滿足大數(shù)據(jù)的處理性能，節(jié)約系統(tǒng)建設(shè)成本。充分利用開源產(chǎn)品，做到對(duì)技術(shù)細(xì)節(jié)的掌控和驗(yàn)證，以保障大數(shù)據(jù)技術(shù) 達(dá)到靈活可用。增強(qiáng)自主創(chuàng)新能力，滿足人民銀行對(duì)信息技術(shù)安全可控的要求。有效提供技術(shù)支撐，適應(yīng)金融行業(yè)新興業(yè)態(tài)下對(duì)大數(shù)據(jù)技術(shù)的需要。3. 技術(shù)要求在滿足海量數(shù)據(jù)高效處理的同時(shí)

5、，對(duì)用戶的訪問能夠保持較高的實(shí)時(shí)性，快速響應(yīng)用戶的請(qǐng)求采用的大數(shù)據(jù)技術(shù)架構(gòu)能夠支持水平擴(kuò)展(Scale-out)，適應(yīng)未來五年對(duì)大數(shù)據(jù)存儲(chǔ)和處理的需要采用的大數(shù)據(jù)技術(shù)架構(gòu)能夠支持故障的檢測(cè)和自動(dòng)快速恢復(fù)，確保系統(tǒng)的高可用性。在滿足大數(shù)據(jù)業(yè)務(wù)場(chǎng)景性能要求的同時(shí)，采用更加經(jīng)濟(jì)的大數(shù)據(jù)技術(shù)解決方案。4. 大數(shù)據(jù)處理業(yè)務(wù)場(chǎng)景以統(tǒng)計(jì)分析類的業(yè)務(wù)場(chǎng)景為例，針對(duì)大數(shù)據(jù)的處理主要經(jīng)過采集、存儲(chǔ)、校驗(yàn)、審核、匯總、計(jì)算、分析挖掘等過程，在數(shù)據(jù)粒度上，既要包逐筆的標(biāo)準(zhǔn)化源數(shù)據(jù)，還要包括不同層次的總量指標(biāo)數(shù)據(jù)，從而實(shí)現(xiàn)對(duì)統(tǒng)計(jì)體系業(yè)務(wù)的全覆蓋、無遺漏。統(tǒng)計(jì)分析類大數(shù)據(jù)處理、報(bào)表展現(xiàn)和信息發(fā)布的典型流程

6、如下圖所示:報(bào)文落地 .alp （if錯(cuò)數(shù)據(jù) 1*報(bào)主按收悄況實(shí)時(shí)金詢文件名樓驗(yàn)解壓報(bào)文*址愛血越吐迪狡遂結(jié)果實(shí)時(shí)逵讒格式栓驗(yàn)”讀取搭式揑艇規(guī)則（D6）逐條記錄謹(jǐn)個(gè)字段樁驗(yàn)抬標(biāo)匯憨”謚貶匯總關(guān)靠CDH）匯總指標(biāo)數(shù)據(jù)-處理情況實(shí)時(shí)査詢揃逐醴疇實(shí)時(shí)査詢指標(biāo)計(jì)算讀應(yīng)捋折欝法口叩*計(jì)碎抬標(biāo)姒據(jù)報(bào)表數(shù)據(jù)生成說取主成規(guī)則處換逸J至也校鑒結(jié)呆實(shí)時(shí)査詢-統(tǒng)計(jì)分析類業(yè)務(wù)的特點(diǎn)主要包括：在每個(gè)處理環(huán)節(jié)中，均能夠?yàn)闃I(yè)務(wù)操作員提供實(shí)時(shí)的業(yè)務(wù)處理情況或處理結(jié)果的查詢。校驗(yàn)、匯總、計(jì)算等環(huán)節(jié)中，所涉及到的運(yùn)算規(guī)則均定義在數(shù)據(jù)庫或配置文件中，在執(zhí)行處理之前，需要獲取運(yùn)算規(guī)則。*在報(bào)表數(shù)據(jù)生成或信息發(fā)布環(huán)節(jié)，能夠提供逐

7、筆數(shù)據(jù)、指標(biāo)數(shù)據(jù)、匯總數(shù)據(jù)和報(bào)表數(shù)據(jù)的實(shí)時(shí)查詢，并能夠通過 BI工具訪問以上數(shù)據(jù)。統(tǒng)計(jì)類的數(shù)據(jù)查詢多為綜合查詢，條件通?？捎捎脩粼诓樵兦岸ㄖ?，有查詢響應(yīng)實(shí)時(shí)性、查詢條件多樣性、查詢多表關(guān)聯(lián)性的特點(diǎn)。能夠靈活的通過數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行價(jià)值分析，例如：R語言。能夠靈活的使用數(shù)據(jù)可視化技術(shù)對(duì)數(shù)據(jù)進(jìn)行互動(dòng)展現(xiàn)，例如： EChars統(tǒng)計(jì)系統(tǒng)業(yè)務(wù)量以每月增量40億筆進(jìn)行估算（以每筆1KB估算，約4TB/月增量數(shù)據(jù)；每筆數(shù)據(jù)平均包含20個(gè)字段），現(xiàn)有存量數(shù)據(jù)大約在20TB。增量數(shù) 據(jù)在當(dāng)月5-8日進(jìn)行校驗(yàn)、審核等處理，數(shù)據(jù)處理過程希望在 T+0完成。實(shí)時(shí)查詢業(yè)務(wù)為用戶隨機(jī)進(jìn)行。在使用數(shù)據(jù)進(jìn)行分布式計(jì)

8、算時(shí)，一般情況當(dāng)月4TB的數(shù) 據(jù)全部參與計(jì)算。比較復(fù)雜場(chǎng)景之一是邏輯校驗(yàn)部分的算法，按不同的規(guī)則，有的規(guī)則會(huì)使用到當(dāng)月的全部增量數(shù)據(jù)參與校驗(yàn)，有的規(guī)則會(huì)按金融機(jī)構(gòu)維度使用當(dāng)前機(jī)構(gòu)的歷史數(shù)據(jù)參與校驗(yàn)。5. 大數(shù)據(jù)處理技術(shù)對(duì)比目前對(duì)海量數(shù)據(jù)進(jìn)行分布式處理的技術(shù)主要分為兩類：MPP( Massively Parallel Processin)大規(guī)模并行處理技術(shù)；MPP技術(shù)大多用于數(shù)據(jù)倉庫領(lǐng)域，是將任務(wù)并行的分散到多個(gè)服務(wù)器節(jié)點(diǎn) 上，在每個(gè)節(jié)點(diǎn)上計(jì)算完成后，將各自部分的結(jié)果匯總在一起得到最終的結(jié)果的一項(xiàng)技術(shù)，典型的代表例如：Teradata, HP Vertica EMC Greenplum, GB

9、ase Oracle Exadata 等。Apache Hadoop Spark技術(shù)。Hadoop&Spark是由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，它所解決的核心問題是，通過部署在低廉的硬件上的、可以協(xié)同工作的軟件組件，來完成分布式數(shù)據(jù)存儲(chǔ)、高吞吐量數(shù)據(jù)訪問、以及高負(fù)載的分布式計(jì)算。近些年在眾多行業(yè)都得到廣泛應(yīng)用。5.1.MPP與 Hadoop&Spark 技術(shù)對(duì)比集群規(guī)模上，MPP技術(shù)支持近百個(gè)節(jié)點(diǎn)(中國(guó)大陸很少有100+節(jié)點(diǎn)的案例)。 Hadoop&Spark技術(shù)支持幾千個(gè)節(jié)點(diǎn)。擴(kuò)容影響上，MPP技術(shù)擴(kuò)容通常導(dǎo)致停機(jī)、服務(wù)中斷；數(shù)據(jù)需要重新分布，性能嚴(yán)重下降。Had

10、oop&Spark技術(shù)擴(kuò)容無需停機(jī)、服務(wù)不中斷；數(shù)據(jù)無需重新分布，新數(shù)據(jù)自動(dòng)被分配到新的節(jié)點(diǎn)中，性能沒有影響。數(shù)據(jù)分布方式上，MPP技術(shù)以預(yù)定義數(shù)據(jù)分布策略，按列進(jìn)行散列或輪詢分布；真實(shí)數(shù)據(jù)通常有傾斜，將導(dǎo)致數(shù)據(jù)不均勻分布，對(duì)計(jì)算效率影響較大。 Hadoop&Spark技術(shù)中，數(shù)據(jù)按預(yù)配置的塊大小自動(dòng)均勻分布，通過blockmap映射表查詢數(shù)據(jù)位置；數(shù)據(jù)分布均勻、擴(kuò)容無需停機(jī)。處理數(shù)據(jù)量上，MPP技術(shù)在數(shù)十TB級(jí)別。Hadoop&Spark技術(shù)在PB級(jí)別。容錯(cuò)能力上，MPP技術(shù)不存放中間結(jié)果，出錯(cuò)時(shí)需要重新執(zhí)行整個(gè)任務(wù)。Hadoop&Spark技術(shù)存放中間結(jié)果，出錯(cuò)時(shí)只需要重新運(yùn)行出錯(cuò)的

11、子任務(wù)并發(fā)能力上，MPP技術(shù)多用于分析型應(yīng)用場(chǎng)景，數(shù)據(jù)裝載時(shí)建立索引較慢；通常不超過數(shù)百個(gè)并發(fā)。Hadoop&Spark技術(shù)數(shù)據(jù)裝載快，采用公平調(diào)度/配額調(diào)度；可支持上億用戶并發(fā)數(shù)據(jù)插入、查詢、檢索。數(shù)據(jù)存儲(chǔ)對(duì)象，MPP技術(shù)支持結(jié)構(gòu)化數(shù)據(jù)，Hadoop&Spark技術(shù)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。應(yīng)用運(yùn)算邏輯實(shí)現(xiàn)方式上， MPP技術(shù)SQL語言，Hadoop&Spark技術(shù)支持SQL2003 部分 PL/SQL R、Java Scala等。數(shù)據(jù)訪問接口，MPP技術(shù)支持JDBG ODBC，Hadoop&Spark技術(shù)支持JDBGODBC R語言接口等。MPPHadoop&Spark集群規(guī)

12、模近百個(gè)節(jié)點(diǎn)（中國(guó)大陸很少有100+節(jié)點(diǎn)的案例）幾千個(gè)節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)展擴(kuò)容通常導(dǎo)致停機(jī)、服務(wù)中擴(kuò)容無需停機(jī)、服務(wù)不中斷；運(yùn)算能力斷；擴(kuò)容時(shí)數(shù)據(jù)無需重新分布，新數(shù)據(jù)自動(dòng)數(shù)據(jù)需要重新分布，性能嚴(yán) 重下降。被分配到新的節(jié)點(diǎn)中，性能沒有影響。數(shù)據(jù)分布數(shù)據(jù)以預(yù)定義的分布策略，數(shù)據(jù)以預(yù)定義的塊大小自動(dòng)均勻分方式按列進(jìn)行散列或輪詢分布；布，真實(shí)數(shù)據(jù)通常有傾斜，將導(dǎo)通過blockmap映射表查詢數(shù)據(jù)位致數(shù)據(jù)不均勻分布，置；對(duì)計(jì)算效率影響較大。數(shù)據(jù)分布均勻、擴(kuò)容無需停機(jī)。處理數(shù)據(jù)量數(shù)十TBPB容錯(cuò)能力不存放中間結(jié)果，出錯(cuò)時(shí)需存放中間結(jié)果，出錯(cuò)時(shí)只需要重新要重新執(zhí)行整個(gè)任務(wù)運(yùn)行出錯(cuò)的子任務(wù)并發(fā)能力用于分析型應(yīng)用場(chǎng)景

13、，數(shù)據(jù)數(shù)據(jù)裝載快，采用公平調(diào)度/配額調(diào)裝載時(shí)建立索引較慢；度；通常不超過數(shù)百個(gè)并發(fā)?？芍С稚蟽|用戶并發(fā)數(shù)據(jù)插入、查詢、檢索。數(shù)據(jù)存儲(chǔ) 對(duì)象結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用運(yùn)算SQL 語言SQL2003 部分 PL/SQL R Java邏輯實(shí)現(xiàn)方式Scala 等MPPHadoop&Spark數(shù)據(jù)訪問接口JDBC ODBCJDBC ODBC R語言接口等索引支持支持（rowkey索引、二維索引、全文關(guān)鍵字索引）52 Hadoop&Spark 技術(shù)優(yōu)勢(shì)存儲(chǔ)、處理、分析PB級(jí)別的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。低成本運(yùn)算能力，使用低成本的存儲(chǔ)和服務(wù)器構(gòu)建，僅花費(fèi)40%左右價(jià)格,便可

14、以達(dá)到甚至超越IOE架構(gòu)的性能。動(dòng)態(tài)擴(kuò)展運(yùn)算能力，擴(kuò)容無需停機(jī)、服務(wù)不中斷，數(shù)據(jù)無需重新分布，新數(shù) 據(jù)自動(dòng)被分配到新的節(jié)點(diǎn)中，性能沒有影響。高擴(kuò)展能力，集群規(guī)模可擴(kuò)展至幾千個(gè)節(jié)點(diǎn)。高容錯(cuò)能力，數(shù)據(jù)處理過程中存放中間結(jié)果，出錯(cuò)時(shí)只需要重新運(yùn)行出錯(cuò)的子任務(wù)。應(yīng)用運(yùn)算邏輯，支持Java R語言、Scala、SQL2003等。5.3. Hadoop框架對(duì)比Apache HadoopCloudera CDHHortonworks HDP開源程度完全開源部分開源完全開源（包含免費(fèi)版/企業(yè)版）（包含免費(fèi)版/企業(yè)版）技術(shù)支持無每年按節(jié)點(diǎn)數(shù)量收費(fèi)每年按節(jié)點(diǎn)數(shù)量收費(fèi)集群部署復(fù)雜容易容易集群監(jiān)控較易容易容易Apa

15、che HadoopCloudera CDHHortonworks HDP集群管理較易容易容易專有代碼依賴無有無（如：管理工具）主要特點(diǎn)Apache Hadoop已經(jīng)形成生態(tài)系統(tǒng)，除了包含HDFS、YARN Map Reduce, 還包含了很多其他Apache項(xiàng)目，女口： HBase、 Hive 、 ZooKeeper； Ambari、Sqoop等等，使用者可以根據(jù)需要自由組合。通過添加專有代碼實(shí)現(xiàn) 的 Cloudera Manager 完成集群的部署和管理，并對(duì)集群的節(jié)點(diǎn)及服務(wù) 進(jìn)行實(shí)時(shí)監(jiān)控。所有解決方案都通過ApacheSoftwareFoundation 以項(xiàng)目形式開發(fā)，H

16、DP內(nèi) 無需專用擴(kuò)展。避免隨著擴(kuò)展而背離主干，以及隨之而來的兼容性問題。54 Hadoop使用情況根據(jù)咨詢機(jī)構(gòu) Wikib on在2014年進(jìn)行的一項(xiàng)調(diào)查，部署Hadoop的機(jī)構(gòu)中，僅有25%是付費(fèi)用戶，而有51%是基于Hadoop的開源版本自行開發(fā)，還有24%的用戶則是使用Cloudera、Hortonworks等Hadoop開發(fā)商推出的免費(fèi)版本。25%開源版本發(fā)行版（免費(fèi)）日發(fā)行版（付費(fèi)）5.5. Hadoop血緣關(guān)系Hortonworks HDPdoopruH edAppli匚毛盤.EJovpinsprripntTaxi Precis sing Engin* 氐匕口xU網(wǎng)叩(

17、AxjL-tHILjAdmin Qarucle-IniegraMOAdvurAiiulytic Ergiric卜Adaptive Alg orrthniBIn 誕anatRdiEnhancedInstallirSuriliWortdMd OptinizalionZooKeaperJoqlgpA 嗨 ducnJDBCPfeKMflSdhvdulvHGanLu i. eiiuFunbrraeMenage meniUuIll StoreHutreLin申號(hào)File SystemIBMOpen BaurcaUSM SympliwiiyEMC Pivotal HD是EMC公司進(jìn)行自主研發(fā)的 Hadoop

18、商業(yè)化產(chǎn)品，在2013 年2月獨(dú)立推出的商業(yè)發(fā)行版（2013年以前EMC和MapR公司在Hadoop領(lǐng)域為合作伙伴）。Pivotal HD產(chǎn)品包括Hadoop 2.0的Map Reduce和HDFS可以利用 Hive、HBase Pig開發(fā)語言、Yarn資源管理、Mahout分析工具和 Zookeeper工具等。還包括 Hardware Virtual Extensions （HVE 組件，它可以讓 Hadoop集群知道自己是建立在虛擬機(jī)還是物理服務(wù)器上。整體架構(gòu)如下圖所示：Pivotal HD ArchitecturePivotal HDManagemerit & WgirknewCo

19、EliBbo-ratiQn & OrciiestratianApplic-atloris|mm PtvOUI HD Adders VAluC寧；PrvatJIIPiitfierEMUMapR Hadoop是MapR Technologies公司于2011年正式發(fā)布的產(chǎn)品，目標(biāo)是使Hadoop變?yōu)橐粋€(gè)速度更快、可靠性更高、更易于管理、使用更加方便的分布式計(jì)算服務(wù)和存儲(chǔ)平臺(tái)，同時(shí)性能也不斷提高。它將極大的擴(kuò)大了Hadoop的使用范圍和方式。它包含了開源社區(qū)許多流行的工具和功能，例如Hbase Hive。它還100%與 Apache Hadoop的API兼容。目前有M3 （免費(fèi)版）和M5 （收費(fèi)版

20、）兩個(gè)版本。整體架構(gòu)如下圖所示:MAPR3S COMPLETE DISTRIBUTION FOR APACHE HADOOPMAPR CONTROL SYSTEMMapR He at ma pr*LDAPr NFSintegrationQuotas, Alerts,AlarmsCLI, REST APIPigOozieSqoopHBaeCascadingNagbsI Integration 1Ganglia1 Integratiorii 1FlunnHiveVaidyaMahoutZookeeperDepeim 口巨FastE.ASYDirect Access NFS,MRea I tim已

21、 DatwflnwEI Distributed NameNode HA1JcbTracker HADirect Access NFSTU嚴(yán) MapRs High PerfbTmanceMapReduceDirect ShuffleMapR VolumesMirroring andSnapshotsData Placement Controltotal MirrccingMapRrs Lock I ess Storage Services天云趨勢(shì)科技Hadoop解決方案主要基于Hortonworks發(fā)行版，同時(shí)也提供了對(duì)Cloudera Hadoop發(fā)行版的支持。整體架構(gòu)如下圖所示：音智達(dá)Ha

22、doop解決方案基于Cloudera Hadoop發(fā)行版。整體架構(gòu)如下圖所示：CIDHWORKLOAD MANAGEMENT帥ATA INTEGRfllIOOd raqooinr -.j .rjrstBATCHanautticSEARCHMACHINESTREAM3 RD PARTYP1ROCESSINGSQLENGINELEARMINGPROCESSINGAPRSM#plWW*FICJoyrtffa Swhi$p*rk)(Pirtners)Hwt?P PigJMahfHjij浪潮Hadoop解決方案基于Intel Hadoop發(fā)行版。整體架構(gòu)如下圖所示:Intel* Manager for

23、Hadoop* 軟件部昌、配直、監(jiān)整、告警和安全Pig*腳本集寫Hive*SQLWQEn-u-華為Fusioninsight Hadoo是完全基于 Apache Hadoop組件構(gòu)建的Hadoop 產(chǎn)品，在 Apache Hadoop版本的基礎(chǔ)上對(duì) HBase HDFS和Map Reduce等組件增加了 HA、查詢和分析功能，進(jìn)行了性能優(yōu)化，并及時(shí)回饋 Hadoop社區(qū)，保持版本同步，接口與社區(qū)版本完全一致。整體架構(gòu)如下圖所示：DataFarmHadoop APIwisdcrn系統(tǒng)管理Plugin APIMRP數(shù)扌居治理Hadoop安全管理Oozie星環(huán)科技Transwarp Data H

24、ulTDH）基于Apache Hadoop組件構(gòu)建，并在此基礎(chǔ)之上研發(fā)了交互式 SQL分析引擎Inceptor、實(shí)時(shí)NoSQL數(shù)據(jù)庫Hyperbase 和Transwarp Manager等引擎。同時(shí)支持R語言數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、實(shí)時(shí)流處理、全文搜索和圖計(jì)算和系統(tǒng)安裝及集群配置功能。整體架構(gòu)如下圖所示：pTranswarp ManagerIn 匚 eptorDiscoverHyperbaseStreamPL/SQL批處理數(shù)據(jù)挖掘NoSQL數(shù)據(jù)庫流處理交互式分析機(jī)器學(xué)習(xí)搜索、圖計(jì)算引筆資源管理VARN 2.5 (PfiTranswarp Ertension批處理Pig 0.13機(jī)器學(xué)習(xí)工作流

25、Mahout 0.9 Oczip 4.0.1數(shù)據(jù)集成 Sqwp 1-4.5日志采集 Fhume 1.4全文搏素ElasticS&anch L3.1優(yōu)化存?zhèn)騂DFS23 (FjT ran swarp Era sure Code)批處理框架 Map/Reduce2協(xié)炸服務(wù) Zac keeper 3.4.5Transwarp Proprietary77/1Apache Projects56 行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景對(duì)比分析基于MPP的數(shù)據(jù)倉庫Hadoop & Spark阿里云工商銀行建設(shè)銀行交通銀行廣發(fā)銀行中國(guó)銀聯(lián)民生銀行恒豐銀行北京銀行上海銀行天弘基金眾安保險(xiǎn)新華保險(xiǎn)中國(guó)聯(lián)通美團(tuán)網(wǎng)TeradataTer

26、adataTeradataOracle信息庫風(fēng)險(xiǎn)控制與交易查詢(Cloudera)實(shí)時(shí)查詢采用Hadoop-HBase大數(shù)據(jù)分析平臺(tái)（星環(huán)科技）實(shí)時(shí)查詢采用基于Hadoop-HBaS的星環(huán)Hyperbase數(shù)據(jù)倉庫（星環(huán)科技）實(shí)時(shí)查詢采用基于Hadoop-HBaS的星環(huán)Hyperbase歷史明細(xì)數(shù)據(jù)查詢、司法查詢（東方國(guó)信）核心系統(tǒng)及數(shù)據(jù)分析核心系統(tǒng)及數(shù)據(jù)分析核心系統(tǒng)及數(shù)據(jù)分析精準(zhǔn)營(yíng)銷分析（Cloudera）通話及短信息記錄輿情分析（東方國(guó)信）大數(shù)據(jù)分析平臺(tái)（Apache）實(shí)時(shí)查詢采用Hadoop-HBa和MySQL6. 大數(shù)據(jù)處理參考架構(gòu)6.1.參考架構(gòu)結(jié)合統(tǒng)計(jì)分析Web應(yīng)用的數(shù)據(jù)處理典型場(chǎng)

27、景，在Hadoop&Spark開源框架中，分布式文件系統(tǒng)HDFS資源調(diào)度引擎YARN內(nèi)存計(jì)算引擎Spark、挖掘分析引擎SparkR分布式遷移引擎Sqoop等較為符合統(tǒng)計(jì)類應(yīng)用場(chǎng)景。分布式文件系統(tǒng)HDFS是Hadoop體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)，也是高度容錯(cuò)的系統(tǒng)，能檢測(cè)和應(yīng)對(duì)硬件故障，用于在低成本的通用硬件上運(yùn)行。資源調(diào)度引擎YARN是通用資源管理系統(tǒng)，可以為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。計(jì)算引擎 Map Reduce，用以進(jìn)行大數(shù)據(jù)量的計(jì)算。Hadoop的Map Reduce與Common、HDFS 起，構(gòu)成了 Hadoop發(fā)展初期的三個(gè)組件。分布式數(shù)據(jù)倉庫 Hive是建立在H

28、adoop基礎(chǔ)上的數(shù)據(jù)倉庫架構(gòu)，為數(shù)據(jù)倉庫的管理提供的主要功能包括：數(shù)據(jù)ETL工具、數(shù)據(jù)存儲(chǔ)管理和大型數(shù)據(jù)集的查詢和分析能力。分布式協(xié)作服務(wù)ZooKeeper,提供了統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。ZooKeeper通過封裝好復(fù)雜、易出錯(cuò)的關(guān)鍵服務(wù)，將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的服務(wù)提供給用戶。分布式遷移引擎Sqoop主要作用是在結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與 Hadoop之間進(jìn)行數(shù)據(jù)交換。Sqoop可以將一個(gè) 關(guān)系型數(shù)據(jù)庫（如：MySQL DB2等）中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS Hive中，也可以將HDFS Hive中的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。內(nèi)存計(jì)

29、算引擎Spark是與Hadoop相似的開源集群計(jì)算環(huán)境，Spark啟用了內(nèi)存分布數(shù)據(jù)集，基于內(nèi)存進(jìn)行分布式計(jì)算，除了能夠提供交互式查詢外，還可以優(yōu)化迭代工作負(fù)載。配置管理監(jiān)控服務(wù)Ambari是基于Web的工具，用于配置、管理和監(jiān)視 Hadoop集群，并支持 HDFS Map Reduce Hive、ZooKeepe、Sqoop 等框架。Ambari 還提供了集群狀況儀表盤，以及查看 Map Reduce、Hive應(yīng)用程序的能力，以友好的用戶界面對(duì)它們的性能進(jìn)行診斷。下圖基于Apache Hadoop的開源框架，給出了大數(shù)據(jù)處理的參考架構(gòu)。3 KJ 總WebPffl上報(bào)現(xiàn)有紊統(tǒng) 數(shù)據(jù)匯

30、息計(jì)算散據(jù)分析信息授布系純借理內(nèi)存計(jì)算引擎Spark資源調(diào)度引普yarn井布式文件系統(tǒng)HDFS分布式數(shù)據(jù)倉庫Hive數(shù)館果址計(jì)算引啾 I MapRaicEnLrl-r-.汀 ULt/rt-mbt 分和X協(xié)作臉務(wù)獸2巾巾PR旳L引HiveorS0ark 1 帥eng流式計(jì)第擂掘分析引莘引擎SparicR彷布式玻據(jù)庫統(tǒng)計(jì)類系統(tǒng)數(shù)據(jù)處理流程主要包括以下步驟：采集（解壓報(bào)文等文件操作）-校驗(yàn)（每筆數(shù)據(jù)各字段的格式校驗(yàn)、各筆數(shù)據(jù)之間的邏輯關(guān)系校驗(yàn)等）-審核（與歷史數(shù)據(jù)的比對(duì)，同期/上期；或執(zhí)行自定義審核SQL算法等）-匯總計(jì)算（指標(biāo)計(jì)算、數(shù)據(jù)匯總等）-查詢-數(shù)據(jù)分析-報(bào)表-信息發(fā)布。結(jié)合統(tǒng)計(jì)類系統(tǒng)

31、的處理流程，對(duì)于現(xiàn)有系統(tǒng)的數(shù)據(jù)，可以通過分布式遷移引擎Sqoop將數(shù)據(jù)同步至分布式文件系統(tǒng)HDFS中加以分析利用。對(duì)于采集數(shù)據(jù)的校驗(yàn)審核、匯總計(jì)算等應(yīng)用功能，可以通過分布式數(shù)據(jù)倉庫Hive或直接內(nèi)存計(jì)算引擎Spark進(jìn)行異步計(jì)算和處理。對(duì)于數(shù)據(jù)處理過程中的狀態(tài)跟蹤和監(jiān)控以及簡(jiǎn)要的信息發(fā)布，可以通過分布式數(shù)據(jù)庫HBase直接從HDFS中獲取相應(yīng)的信息。6.2. 與JavaEE體系對(duì)比通過下圖的對(duì)比不難看出，大數(shù)據(jù)處理參考架構(gòu)中的各類引擎主要是拓展 JavaE聊系中業(yè)務(wù)邏輯層與數(shù)據(jù)持久層對(duì)大數(shù)據(jù)的支撐。Client層Web層JavaEEWeb應(yīng)用內(nèi)存計(jì)算引離Spark算挖掘分析引擎Sp

32、ark RmgI業(yè)務(wù)邏輯層資源調(diào)度引擎YARN數(shù)據(jù)持久層It；63參考架構(gòu)運(yùn)行狀態(tài)通過下圖的能夠看出，參考架構(gòu)在運(yùn)行時(shí)，各引擎在主機(jī)節(jié)點(diǎn)中均會(huì)有對(duì)應(yīng) 的進(jìn)程，YARN的集群在運(yùn)行時(shí)提供了資源的調(diào)度和管理，ZooKeeper的集群在運(yùn) 行時(shí)為各引擎提供了高可用的保障。Spark引擎中的進(jìn)程分為Master和Worker，當(dāng)節(jié)點(diǎn)故障時(shí)，由協(xié)作服務(wù)ZooKeeper進(jìn)行Master切換，保障Spark的持續(xù)可用。Wmb應(yīng)用W甜應(yīng)用Host 3ClusterZooKeeperZooKeeperHDFSHDFSW&bb?xIHHost 1Host 2MasterZooKeeperZooKeeperWo

33、rkerYARNARNSpark workerII 厲ClusterYARNWorkerMasterHDFSHDFS7. 總結(jié)與思考大數(shù)據(jù)是指不用隨機(jī)分析法（如：抽樣調(diào)查）這樣的捷徑，而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的主要特點(diǎn)包括：海量的、高增長(zhǎng)率的（Volume），數(shù)據(jù)處理模式的高效性（Velocity），數(shù)據(jù)來源、種類的多樣化（Variety），待探勘的數(shù) 據(jù)價(jià)值（Value）。從業(yè)務(wù)角度來看，在數(shù)據(jù)來源和種類多樣化的環(huán)境中為了能夠更加深入的對(duì) 數(shù)據(jù)價(jià)值進(jìn)行探勘，還需要注重以下幾方面：1. 數(shù)據(jù)來源的準(zhǔn)確。大數(shù)據(jù)應(yīng)用的核心是挖掘數(shù)據(jù)價(jià)值，而挖掘數(shù)據(jù)價(jià)值的前提是數(shù)據(jù)來源的準(zhǔn)確性。沒有準(zhǔn)確

34、的數(shù)據(jù)來源，很難得到有價(jià)值的結(jié)果。2. 數(shù)據(jù)質(zhì)量的持久。為了充分挖掘大數(shù)據(jù)的價(jià)值，業(yè)務(wù)系統(tǒng)必須持久的保證數(shù)據(jù)質(zhì)量。高質(zhì)量的數(shù)據(jù)不僅僅體現(xiàn)在質(zhì)量管控，更要有持續(xù)的治理。業(yè)務(wù)系統(tǒng)中需要有完善的數(shù)據(jù)質(zhì)量管理流程，能夠作用于數(shù)據(jù)生命周期的不同階段。3. 數(shù)據(jù)標(biāo)準(zhǔn)的一致。大數(shù)據(jù)在挖掘分析之前需要先將數(shù)據(jù)標(biāo)準(zhǔn)化，利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行分析。單個(gè)業(yè)務(wù)系統(tǒng)內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)化主要體現(xiàn)在數(shù)據(jù)無量綱化處理，即：解決數(shù)據(jù)的可比性（如：指標(biāo)數(shù)據(jù)的定性轉(zhuǎn)定量處理）。多個(gè)業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)標(biāo)準(zhǔn)化主要體現(xiàn)在數(shù)據(jù)的公共維度所遵循標(biāo)準(zhǔn)的一致性上。業(yè)務(wù)系統(tǒng)在規(guī)劃階段，必須充分使用人民銀行公共代碼規(guī)范，將業(yè)務(wù)數(shù)據(jù)的公共維度與規(guī)范

35、統(tǒng)一，并遵循人民銀行信息技術(shù)標(biāo)準(zhǔn)體系。4. 數(shù)據(jù)價(jià)值的探索。在大數(shù)據(jù)時(shí)代中業(yè)務(wù)系統(tǒng)已經(jīng)逐漸由功能是價(jià)值轉(zhuǎn)變?yōu)閿?shù)據(jù)是價(jià)值，對(duì)大數(shù)據(jù)價(jià)值的挖掘是探索性的。大數(shù)據(jù)的出現(xiàn)填補(bǔ)了無數(shù)的空白，面對(duì)海量的、高增長(zhǎng)率的、種類多樣化的大數(shù)據(jù)僅采用傳統(tǒng)的數(shù)據(jù)分析方法是不夠的，需要采用大數(shù)據(jù)的思維模式，例如：由傳統(tǒng)的因果思維轉(zhuǎn)變?yōu)橄嚓P(guān)思維，深入的探索數(shù)據(jù)的關(guān)聯(lián)性。從而能夠更加有效的進(jìn)行預(yù)測(cè)分析、輔助決策，為央行履職提供更強(qiáng)有力的支撐。面對(duì)海量、高增長(zhǎng)率、多樣化信息資產(chǎn)的諸多特點(diǎn)，在技術(shù)上我們需要引入新的處理模式以具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。結(jié)合統(tǒng)計(jì)分析類業(yè)務(wù)在數(shù)據(jù)處理和數(shù)據(jù)展現(xiàn)環(huán)節(jié)的特點(diǎn)進(jìn)

36、行分析以及對(duì)原型系統(tǒng)的測(cè)試情況，數(shù)據(jù)處理環(huán)節(jié)采用Hadoop&Spark技術(shù)較為適宜，主要包括：采集（解壓報(bào)文、每筆數(shù)據(jù)各字段的格式校驗(yàn)等文件操作）、校驗(yàn)（各字段的合規(guī)校驗(yàn)、數(shù)據(jù)之間的邏輯關(guān)系校驗(yàn)等）、審核（與歷史數(shù)據(jù)比對(duì)，同期/上期；或執(zhí)行審核SQL算法等）、匯總計(jì)算（指標(biāo)計(jì)算、數(shù)據(jù)匯總等）各環(huán)節(jié)處理情況監(jiān)控、以及挖掘分析（基于全量數(shù)據(jù)）、數(shù)據(jù)存儲(chǔ)（TBPB、數(shù)據(jù)整合加工和數(shù) 據(jù)分發(fā)。數(shù)據(jù)展現(xiàn)環(huán)節(jié)采用關(guān)系型數(shù)據(jù)庫集群技術(shù)較為適宜，主要包括：報(bào)表、綜合查詢（具有實(shí)時(shí)、多表關(guān)聯(lián)、自定義條件或表樣的特點(diǎn)）、多維分析（如：維度表、事實(shí)表）。在研發(fā)能力方面，現(xiàn)有的技術(shù)團(tuán)隊(duì)在 Hadoop&Sp

37、ark技術(shù)方面的技能和經(jīng)驗(yàn) 比較欠缺，特別是大數(shù)據(jù)相關(guān)的技術(shù)正處于成長(zhǎng)階段，技術(shù)團(tuán)隊(duì)豐富的實(shí)踐經(jīng)驗(yàn) 尤為重要，否則難以快速響應(yīng)和處理突發(fā)問題。具有大數(shù)據(jù)處理需求的系統(tǒng)在建設(shè)過程中，可以考慮通過與實(shí)施經(jīng)驗(yàn)豐富的、有較強(qiáng)的自主研發(fā)能力的大數(shù)據(jù)技術(shù)平臺(tái)廠商或技術(shù)團(tuán)隊(duì)進(jìn)行合作。一方面，能夠通過借鑒外界成熟的實(shí)踐經(jīng)驗(yàn)，來應(yīng)對(duì)研發(fā)能力不足所帶來的風(fēng)險(xiǎn)；另一方面，能夠引入外界技術(shù)力量對(duì)系統(tǒng)研發(fā)過程進(jìn)行指導(dǎo)，促進(jìn)大數(shù)據(jù)技術(shù)團(tuán)隊(duì)的組建。附錄：名詞解釋大數(shù)據(jù)：由維克托邁爾-舍恩伯格和肯尼斯庫克耶在2008年8月提出，大數(shù)據(jù)指不用隨機(jī)分析法（如：抽樣調(diào)查）這樣的捷徑，而采用所有數(shù)據(jù)進(jìn)行分析處理。全球

38、最具權(quán)威的IT研究與顧問咨詢機(jī)構(gòu)Gartner將大數(shù)據(jù)定義為，需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng) 率和多樣化的信息資產(chǎn)。IBM提出大數(shù)據(jù)的5V特點(diǎn)，Volume （大量）、Velocity（高速）、Variety （多樣）、Value （價(jià)值）和 Veracity （真實(shí)性）。2015年8月國(guó) 務(wù)院在促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要中指出，大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合，正快速發(fā)展為對(duì)數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析，從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)?；ヂ?lián)網(wǎng)+: “互聯(lián)網(wǎng)+”是把互聯(lián)網(wǎng)的創(chuàng)新成果與經(jīng)濟(jì)社會(huì)各領(lǐng)域深度融合，推動(dòng)技術(shù)進(jìn)步、效率提升和組織變革，提升實(shí)體經(jīng)濟(jì)創(chuàng)新力和生產(chǎn)力，形成更廣泛的以互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施和創(chuàng)新要素的經(jīng)濟(jì)社會(huì)發(fā)展新形態(tài)。IOE:指服務(wù)器提供商IBM，數(shù)據(jù)庫提供商Oracle,存儲(chǔ)設(shè)備提供商EMC的簡(jiǎn)稱?；ヂ?lián)網(wǎng)金融：是傳統(tǒng)金融機(jī)構(gòu)與互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)和信息通信技術(shù) 實(shí)現(xiàn)資金融通、支付、投資和信息中介服務(wù)的新型金融業(yè)務(wù)模式。P2P借貸：peer to peer網(wǎng)絡(luò)借貸的一

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大大數(shù)據(jù)處理技術(shù)參考架構(gòu)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大大數(shù)據(jù)處理技術(shù)參考架構(gòu)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔