企業(yè)大數(shù)據(jù)案例分析_第1頁(yè)
企業(yè)大數(shù)據(jù)案例分析_第2頁(yè)
企業(yè)大數(shù)據(jù)案例分析_第3頁(yè)
企業(yè)大數(shù)據(jù)案例分析_第4頁(yè)
企業(yè)大數(shù)據(jù)案例分析_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、企業(yè)大數(shù)據(jù)案例分析 TOC o 1-5 h z HYPERLINK l bookmark17 o Current Document 中國(guó)聯(lián)通大數(shù)據(jù)平臺(tái)4項(xiàng)目概述4項(xiàng)目實(shí)施情況5項(xiàng)目成果10項(xiàng)目意義11 HYPERLINK l bookmark30 o Current Document 恒豐銀行大數(shù)據(jù)平臺(tái)12項(xiàng)目概述12項(xiàng)目實(shí)施情況15項(xiàng)目成果21項(xiàng)目意義21 HYPERLINK l bookmark43 o Current Document 華通CDN運(yùn)營(yíng)商海量日志采集分析系統(tǒng)24項(xiàng)目概述24項(xiàng)目實(shí)施情況24項(xiàng)目成果28項(xiàng)目意義28 HYPERLINK l bookmark46 o Curre

2、nt Document 案例總結(jié)301中國(guó)聯(lián)通大數(shù)據(jù)平臺(tái)聯(lián)通XX公司公司按照工信部的的要求(見工業(yè)和信息化部、國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān) 督管理委員會(huì)關(guān)于開展基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全責(zé)任考核有關(guān)工作的指導(dǎo)意見和 工業(yè)和信息化部辦公廳關(guān)于印發(fā)2013年省級(jí)基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全工作考 核要點(diǎn)與評(píng)分標(biāo)準(zhǔn)的通知),于2013年啟動(dòng)IDC/ISP日志留存系統(tǒng)的建設(shè),其中XX 公司側(cè)的集中留存系統(tǒng)軟件由聯(lián)通研究院負(fù)責(zé)開發(fā)。為了滿足海量數(shù)據(jù)條件下的處理效 率的要求,XX公司側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存 儲(chǔ)部分計(jì)劃進(jìn)行外包,通過(guò)軟件技術(shù)服務(wù),來(lái)進(jìn)行系統(tǒng)優(yōu)化和維護(hù)支撐。1.1項(xiàng)目

3、概述目前,聯(lián)通XX公司公司全國(guó)IDC出口的訪問(wèn)日志預(yù)計(jì)兩個(gè)月產(chǎn)生的數(shù)據(jù)量約20 PB至30PB,每秒寫入大概6千萬(wàn)至7千萬(wàn)條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Ter adata和Oracle已經(jīng)不能滿足快速讀寫的性能要求了。同時(shí)為了實(shí)現(xiàn)快速檢索以及分 析處理的性能要求,需要引入分布式大數(shù)據(jù)平臺(tái),利用分布式文件存儲(chǔ)系統(tǒng),提高數(shù)據(jù) 的存儲(chǔ)入庫(kù)能力,利用Hadoop/HBase架構(gòu)克服磁盤I/O瓶頸導(dǎo)致的數(shù)據(jù)讀寫延遲; 基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進(jìn)行快速存儲(chǔ)和檢索以及分析處理同樣要求數(shù)據(jù)處理 平臺(tái)具備快速讀寫的高性能。中國(guó)聯(lián)通公司全國(guó)IDC日至留存項(xiàng)目對(duì)分布式集群的要求非常高:日志數(shù)據(jù)量非常大,存

4、儲(chǔ)的總?cè)罩緮?shù)據(jù)量將達(dá)到20PB-30PB。要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫入量將達(dá)到6千萬(wàn)至七千萬(wàn)條,未來(lái)還會(huì)增長(zhǎng)更多,每秒的數(shù)據(jù)寫入量為上百GB數(shù)據(jù)訪問(wèn)的性能要求非常高,對(duì)日志的分析需要分鐘級(jí)、甚至秒級(jí)返回結(jié)果。數(shù)據(jù)計(jì)算量大,日常日志掃描任務(wù)就需要掃描上百TB,甚至上PB的數(shù)據(jù)。集群的擴(kuò)展性要求非常高,能夠靈活擴(kuò)展至上千個(gè)節(jié)點(diǎn)的集群。根據(jù)此次中國(guó)聯(lián)通的需求以及項(xiàng)目的特點(diǎn)和技術(shù)要求推薦采用商用的、成熟的、 基于星環(huán)Transwarp Data Hub的企業(yè)級(jí)大數(shù)據(jù)平臺(tái)套件,構(gòu)建中國(guó)聯(lián)通IDC日志留 存平臺(tái)的基礎(chǔ)大數(shù)據(jù)平臺(tái),用于滿足海量日志的高速存儲(chǔ)、計(jì)算、分析、挖掘的需求。1.2項(xiàng)目實(shí)

5、施情況星環(huán)科技通過(guò)協(xié)助聯(lián)通XX公司搭建基于星環(huán)Transwarp Data Hub的大數(shù)據(jù)平 臺(tái),成功為聯(lián)通XX公司搭建了信息安全管理系統(tǒng)大數(shù)據(jù)存儲(chǔ)處理子系統(tǒng)項(xiàng)目所采用的 平臺(tái)系統(tǒng)。分布式大數(shù)據(jù)平臺(tái)采用Hadoop/HBase架構(gòu),能夠支持對(duì)聯(lián)通IDC出口流 量詳單的存儲(chǔ)和快速檢索和分析處理。系統(tǒng)拓?fù)洌篐inoop圖4-1聯(lián)通大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)整個(gè)集群由FTP集群和Hadoop集群組成,其中:FTP集群:由 129 臺(tái)服務(wù)器組成,hostname 對(duì)應(yīng)為 idcisp-ftp-001 - idci sp-ftp-129功能:主要存放從各大機(jī)房傳輸過(guò)來(lái)的數(shù)據(jù),放到對(duì)應(yīng)目錄下由Su perList

6、en進(jìn)程進(jìn)行監(jiān)控,并將數(shù)據(jù)統(tǒng)一傳輸?shù)紿adoop集群的HDFS上Hadoop 集群:組成:Zookeeper 11 臺(tái),NameNode 2 臺(tái),Resource Manager1 臺(tái),hamster 5 臺(tái),DataNode921 臺(tái)功能:安裝了 tdh 相關(guān)的組件 Hadoop、Hyperbase、Inceptor,存 儲(chǔ)從ftp服務(wù)器傳輸過(guò)來(lái)的數(shù)據(jù),并定時(shí)導(dǎo)入到Hyperbase中,供上層應(yīng)用 或程序的調(diào)用快速返回查詢結(jié)果,同時(shí)也可以通過(guò)inceptor進(jìn)行統(tǒng)計(jì)分析, 暫時(shí)保存的數(shù)據(jù)是2+1月每天存儲(chǔ)Hyperbase中的數(shù)據(jù)大概10T左右,存儲(chǔ)的是2 + 1月,除了存儲(chǔ)在Hy perb

7、ase中的數(shù)據(jù),HDFS也會(huì)有原始數(shù)據(jù)的備份,現(xiàn)在空間占用大概在65%左右。耳十-版YcI縹奩的機(jī)48 口萬(wàn)電云操機(jī)霍口萬(wàn)集又蜘HL如n力籬交換虬Transwarp Data Hub平臺(tái)部署拓?fù)鋱D:滿配1152臺(tái)曲務(wù)器,J待T2個(gè)邊1千兆山換機(jī)+1&個(gè)48【1刀兆趣機(jī)任意兩合1艮務(wù)器之間可百2Gbp*W寬圖4-2聯(lián)通大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)拓?fù)? links24機(jī)柜一24Ui網(wǎng)tor交悖*4 links w個(gè)核心空也*24機(jī)柜-244-1廠中三口 24個(gè)F切非口24-f-T0R#8l24?TORKKl.1o ,4個(gè)卜.廠71北口W links 我個(gè) 千Rzi我口T*安妝機(jī)仙口萬(wàn)關(guān)交楨機(jī)址門子死整薄yi皿

8、門涯交H6機(jī)旭臺(tái)衛(wèi)uje冬as仙門力兆交L切ZU堰券新牡n十盅交換做口萬(wàn)我交投機(jī)16合衛(wèi)Ulk苦器隊(duì)口I丑立挽機(jī)姑臺(tái)知幽化制技n伐交換,網(wǎng)絡(luò)實(shí)際部署星環(huán)的Hadoop集群,存儲(chǔ)能力達(dá)到全國(guó)IDC出口訪問(wèn)日志兩個(gè)月的存 儲(chǔ)能力,約為20PB,總帶寬16764G,每G每秒生成話單4000條計(jì)算,每秒新寫入 數(shù)據(jù)為67056000條訪問(wèn)日志。入庫(kù)方式:傳統(tǒng)的API put方式平均每秒每臺(tái)機(jī)器只能入庫(kù)約2萬(wàn)條數(shù)據(jù),900臺(tái)機(jī)器的極限是1.8千萬(wàn)條/秒。遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)灌入速度。 Bulkload是唯一的選擇定制化的Bulkload入庫(kù)效率約為單節(jié)點(diǎn)每秒12萬(wàn), 900臺(tái)機(jī)器的入庫(kù)能力超過(guò)10.8千萬(wàn)條/秒

9、數(shù)據(jù)通過(guò)通過(guò)FTP服務(wù)器集群中部署HDFS寫入Agent方式直接由ftp集群 直接上傳到HDFS中。注:之前IP溯源Bulkload對(duì)三張表(一張內(nèi)容表+2張索引表)的入庫(kù)效率為4 萬(wàn)條/秒/節(jié)點(diǎn)。此次為了最大限度的利用Bulkload的效率,一方面去除了 2張索引表, 另一方面也優(yōu)化了已有Bulkload代碼。優(yōu)化內(nèi)容:數(shù)據(jù)入庫(kù)時(shí)負(fù)載均衡,優(yōu)化rowkey中日期時(shí)間,避免數(shù)據(jù)寫熱點(diǎn)。 8位UUID尾綴避免同一時(shí)間點(diǎn)上的數(shù)據(jù)相互覆蓋。 Rowkey上優(yōu)化時(shí)間排序,加速讀過(guò)程,保證數(shù)據(jù)從最近到最遠(yuǎn)排序。保留60天歷史數(shù)據(jù),每天各建一張表,提升每張表的可管理性建表時(shí)預(yù)設(shè)15000個(gè)Region,提

10、升Bulkload入庫(kù)效率。不建索引表,改用定制化的API滿足查詢需求,進(jìn)一步增大入庫(kù)帶寬。根據(jù)中國(guó)聯(lián)通對(duì)IDC出口的流量詳單的存儲(chǔ)與快速檢索、分析的處理的要求,星環(huán) 科技為聯(lián)通XX公司提供了如下技術(shù)組件與模塊:表4-1組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用Transwarp InceptorTDH平臺(tái)組件服務(wù),提供對(duì)SQL99, SQL2003的完整支持,同時(shí)支持 Oracle PL/SQL,快速開發(fā)日志統(tǒng)計(jì)與分析TranswarpHyperbaseTDH平臺(tái)組件服務(wù),提供對(duì)海量日志 數(shù)據(jù)的快速存儲(chǔ)與高并發(fā)訪問(wèn),提供高 效的索引功能針對(duì)存儲(chǔ)的日志數(shù)據(jù) 的快速檢索Transwarp Hadoo

11、pTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái)對(duì)高吞吐量的日志數(shù) 據(jù)進(jìn)行快速的存儲(chǔ)Transwarp ManagerTDH平臺(tái)組件服務(wù),TDH管理工具, 圖形化、自動(dòng)化安裝、部署、配置、監(jiān) 控、報(bào)警管理功能聯(lián)通XX公司搭建的信息安全管理系統(tǒng)大數(shù)據(jù)存儲(chǔ)處理子系統(tǒng),所采用的硬件設(shè)備如下表所示:表4-2節(jié)點(diǎn)配置表節(jié)點(diǎn)數(shù)量目前已經(jīng)超過(guò)900個(gè)節(jié)點(diǎn)CPU兩路8核處理器2*E5-2620內(nèi)存64GB ECC DDR3硬盤10 個(gè) 2TB 的 SATA 硬盤,15000RPM,不使用 RAID ;2個(gè)300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬(wàn)兆(10Gbps)以太網(wǎng)卡星環(huán)科技作為大數(shù)據(jù)

12、平臺(tái)技術(shù)提供商,XX公司側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲(chǔ)部分計(jì)劃進(jìn)行外包,通過(guò)軟件技術(shù)服務(wù),來(lái)進(jìn)行系 統(tǒng)優(yōu)化和維護(hù)支撐。表4-3項(xiàng)目概況所屬公司編 號(hào)人員項(xiàng)目各個(gè)階段實(shí)施進(jìn)度以及人員參與情況架設(shè)計(jì)集群部署概要設(shè)計(jì)詳細(xì)設(shè)計(jì)應(yīng)用開 發(fā)系統(tǒng)測(cè)試試運(yùn) 行上線運(yùn) 行2014.122014.122015.12015.12015.12015.12015.12015.32015.32015.62015.62015.82015.82015.102015.11聯(lián)通研究院參與人員1系統(tǒng)設(shè)計(jì)師寸VVVVV2開發(fā)工程師1寸VVVVVV3開發(fā)工程師2VVVVVVV4開發(fā)工程師3VVVVVV

13、V星環(huán)科 技人員1架構(gòu)師VVVV2實(shí)施工程師VVVVVVVV3運(yùn)維工程師VVVVVVVV服務(wù)外包公司人員1項(xiàng)目經(jīng)理VVVVVV2開發(fā)工程師1VVVVVV3開發(fā)工程師2VVVVVV4開發(fā)工程師3VVVVVV1.3項(xiàng)目成果項(xiàng)目所搭建的星環(huán)Transwarp Data Hub平臺(tái),克服在海量數(shù)據(jù)的條件下,因磁 盤I/O性能帶來(lái)的數(shù)據(jù)處理瓶頸,分布式大數(shù)據(jù)平臺(tái)采用Hadoop/HBase架構(gòu),項(xiàng)目 成果如下:搭建了超過(guò)900個(gè)節(jié)點(diǎn)的星環(huán)Transwarp Data Hub集群,滿足約20000T( 20 PB)至30000T( 30PB)的數(shù)據(jù)存儲(chǔ)能力以及每秒寫入大概6千萬(wàn)至7千萬(wàn)條數(shù)據(jù)的 讀寫性能。

14、經(jīng)測(cè)算,數(shù)據(jù)平臺(tái)的性能為:高速數(shù)據(jù)插入吞吐量遠(yuǎn)高于單節(jié)點(diǎn)30MB/S ;單節(jié)點(diǎn)在索引上檢索性能不低于1W條/秒;提供數(shù)據(jù)據(jù)高并發(fā)查詢,單節(jié)點(diǎn)SQL并發(fā)度不低于3000次/秒;提供SQL對(duì)數(shù)據(jù)的高速統(tǒng)計(jì)分析,線性掃描性能單節(jié)點(diǎn)不低于80MB/S。通過(guò)Hyperbase對(duì)外提供的SQL接口上層應(yīng)用通過(guò)SQL進(jìn)行數(shù)據(jù)訪問(wèn)和查詢, 極大的降低了對(duì)開發(fā)人員專業(yè)技能的要求,降低了系統(tǒng)維護(hù)成本,同時(shí)提高了應(yīng)用開發(fā) 效率。通過(guò)Hyperbase集成的Elastic Search功能,應(yīng)用層可以通過(guò)全文索引進(jìn)行日志 數(shù)據(jù)的檢索,根據(jù)關(guān)鍵字的檢索響應(yīng)時(shí)間在20ms以內(nèi),整個(gè)集群可以承載的基于關(guān)鍵 詞的檢索并發(fā)度遠(yuǎn)

15、高于100萬(wàn)/秒對(duì)海量IDC出口訪問(wèn)日志的分析性能極為高效,日掃描數(shù)據(jù)量超過(guò)100TB。入庫(kù)效率單節(jié)點(diǎn)每秒12萬(wàn)條日志,集群總體入庫(kù)能力目前超過(guò)10.8千萬(wàn)條/秒。 每天Hyperbase新增存儲(chǔ)日志量超過(guò)50TB。1.4項(xiàng)目意義基于星環(huán)Transwarp Data Hub搭建的中國(guó)聯(lián)通IDC日志留存大數(shù)據(jù)平臺(tái),目前 已經(jīng)部署了 900多個(gè)x86服務(wù)器節(jié)點(diǎn),是目前國(guó)內(nèi)非互聯(lián)網(wǎng)公司范圍內(nèi)規(guī)模最大的單 一客戶、單一集群的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),從全球的非互聯(lián)網(wǎng)行業(yè)看,如此大的部署規(guī)模 也不常見,是國(guó)內(nèi)XX公司級(jí)、總部級(jí)客戶中非常成功的落地項(xiàng)目,充分證明星環(huán)科技 Transwarp Data Hub大數(shù)據(jù)

16、平臺(tái)可以為企業(yè)級(jí)客戶提供成熟的、穩(wěn)定的的大規(guī)模部 署方案,中國(guó)聯(lián)通IDC日志留存大數(shù)據(jù)平臺(tái)為XX公司大數(shù)據(jù)平臺(tái)的建設(shè)提供了寶貴的 經(jīng)驗(yàn),可以幫助XX公司搭成功建起高效、穩(wěn)定的、充分滿足XX公司需求以及符合X X公司特色的大數(shù)據(jù)平臺(tái)。2恒豐銀行大數(shù)據(jù)平臺(tái)恒豐銀行股份有限公司是12家全國(guó)性股份制商業(yè)銀行之一,其前身為1987年經(jīng) 國(guó)務(wù)院同意、中國(guó)人民銀行批準(zhǔn)成立的煙臺(tái)住房?jī)?chǔ)蓄銀行。2003年經(jīng)中國(guó)人民銀行批 準(zhǔn),正式改制為恒豐銀行股份有限公司,成為全國(guó)性股份制商業(yè)銀行。目前,恒豐銀行在全國(guó)設(shè)有14家一級(jí)分行,2家總行直管行,共256家分支機(jī)構(gòu); 另外還發(fā)起設(shè)立了 5家村鎮(zhèn)銀行。截至2015年末,恒

17、豐銀行資產(chǎn)規(guī)模達(dá)到1.05萬(wàn)億元,全年凈利潤(rùn)同比增長(zhǎng)14%, 凈資產(chǎn)收益率ROE超過(guò)15%,新增分支機(jī)構(gòu)74家,與上年相比實(shí)現(xiàn)翻番,創(chuàng)歷年新 高。在英國(guó)銀行家雜志發(fā)布的2015年全球銀行1000強(qiáng)排名中,恒豐銀行位 列第170位。恒豐銀行較好的實(shí)現(xiàn)了盈利與穩(wěn)健發(fā)展的平衡。盈利能力方面,恒豐銀行在香港中 文大學(xué)發(fā)布的亞洲銀行競(jìng)爭(zhēng)力研究報(bào)告中位列亞洲銀行業(yè)第5位;穩(wěn)健發(fā)展能力方 面,恒豐銀行在中國(guó)銀行業(yè)協(xié)會(huì)發(fā)布的商業(yè)銀行穩(wěn)健發(fā)展能力陀螺(GYROSCOPE ) 評(píng)價(jià)體系中,在綜合能力排名中位列全國(guó)性商業(yè)銀行第7位,全國(guó)性股份制商業(yè)銀 彳亍前三。2.1項(xiàng)目概述隨著利率市場(chǎng)化進(jìn)程加快、互聯(lián)網(wǎng)金融業(yè)態(tài)的

18、發(fā)展,傳統(tǒng)銀行與實(shí)體經(jīng)濟(jì)的業(yè)務(wù)橫 向聯(lián)系與深度融合進(jìn)展迅速,業(yè)務(wù)數(shù)據(jù)的內(nèi)容不斷豐富,建立在數(shù)據(jù)處理技術(shù)之上業(yè)務(wù) 洞察能力也需要不斷提升。恒豐銀行處于業(yè)務(wù)發(fā)展的新階段,新業(yè)務(wù)模式的創(chuàng)新離不開數(shù)據(jù)的支持,也對(duì)數(shù)據(jù) 信息服務(wù)的總體能力提出了新的要求。基于大數(shù)據(jù)平臺(tái)技術(shù),整合現(xiàn)有行內(nèi)數(shù)據(jù),接入 行外數(shù)據(jù),搭建處理能力更強(qiáng),更易于擴(kuò)展,性能更高的統(tǒng)一數(shù)據(jù)平臺(tái)。不僅可以很好 的滿足高計(jì)算、高存儲(chǔ)、高負(fù)載的要求,更能夠?qū)A康臄?shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、清洗、加 工、建模等,把先前無(wú)法利用的數(shù)據(jù)充分利用,提升對(duì)數(shù)據(jù)的認(rèn)識(shí),抓住機(jī)遇為恒豐銀 行數(shù)據(jù)平臺(tái)建設(shè)做好最基礎(chǔ)、最扎實(shí)的工作。根據(jù)恒豐銀行的實(shí)際應(yīng)用需要分別搭建基于

19、大數(shù)據(jù)平臺(tái)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和歷史數(shù) 據(jù)分析探索平臺(tái),滿足海量數(shù)據(jù)的低成本高效存儲(chǔ)、加工、使用,完成企業(yè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng) 用的遷移和優(yōu)化重構(gòu),滿足移動(dòng)互聯(lián)渠道場(chǎng)景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求,協(xié)助業(yè)務(wù) 數(shù)據(jù)分析團(tuán)隊(duì)自主的數(shù)據(jù)探索和業(yè)務(wù)建模。恒豐銀行傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是建立在IOE體系之下,支持TB級(jí)別數(shù)據(jù)存儲(chǔ)并提供復(fù)雜 數(shù)據(jù)查詢功能的數(shù)據(jù)管理體系。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)多年,已接入數(shù)據(jù)源30多個(gè),配套 監(jiān)管數(shù)據(jù)集市、數(shù)據(jù)分析集市,風(fēng)險(xiǎn)數(shù)據(jù)集市三個(gè)數(shù)據(jù)集市,負(fù)責(zé)十幾個(gè)管理應(yīng)用和監(jiān) 管系統(tǒng)的數(shù)據(jù)需求,下游建有銀行管理類系統(tǒng)如綜合經(jīng)營(yíng)分析系統(tǒng)(管理駕駛艙)、自 定義查詢平臺(tái)等,并為各分行提供數(shù)據(jù)下發(fā)服務(wù)。隨著恒豐銀行業(yè)務(wù)發(fā)

20、展,與外部機(jī)構(gòu)的跨界合作的展開,歷史數(shù)據(jù)越來(lái)越多,半結(jié) 構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)也越來(lái)越多,數(shù)據(jù)的統(tǒng)一存儲(chǔ)和處理已面臨硬件成本壓力。充分發(fā)揮大數(shù)據(jù)平臺(tái)的技術(shù)優(yōu)勢(shì),確保系統(tǒng)平穩(wěn)安全運(yùn)行,恒豐銀行基于星環(huán)科技 Transwarp Data Hub大數(shù)據(jù)技術(shù)構(gòu)建全新的IT信息系統(tǒng)架構(gòu),為各數(shù)據(jù)應(yīng)用系統(tǒng)提 供功能完善、穩(wěn)定可靠的大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)平臺(tái),更好的支持各類型海量業(yè)務(wù)數(shù)據(jù)的 存儲(chǔ)、加工、使用和數(shù)據(jù)價(jià)值提煉?;谛黔h(huán)科技Transwarp Data Hub平臺(tái),恒豐銀行將原有的基于Oracle的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)平滑遷移至星環(huán)大數(shù)據(jù)平臺(tái),提升數(shù)據(jù)倉(cāng)庫(kù)的批處理能力,同時(shí)也建設(shè)歷史數(shù) 據(jù)探索的能力,基于大數(shù)據(jù)

21、架構(gòu),完成了符合恒豐銀行現(xiàn)狀的開創(chuàng)型應(yīng)用,例如:準(zhǔn)實(shí) 時(shí)系統(tǒng)日志分析應(yīng)用、客戶實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè)、基于互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)的用戶體驗(yàn)優(yōu)化與客 戶行為分析、客戶標(biāo)簽化畫像應(yīng)用等。源數(shù)據(jù)層核心系統(tǒng)總賬系統(tǒng)卡系統(tǒng)工具層源數(shù)據(jù)支付系統(tǒng)/監(jiān)管集市工具層數(shù)據(jù)卸載平臺(tái)統(tǒng)一調(diào)度監(jiān)控平臺(tái)數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)指標(biāo)管理平臺(tái)數(shù)據(jù)質(zhì)量管理平臺(tái)基于星環(huán)的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市平臺(tái)應(yīng)用層 業(yè)務(wù)層文件交換區(qū)數(shù)據(jù)服務(wù)接口監(jiān)管集市數(shù)據(jù)分析集市監(jiān)管平臺(tái)1104EAST客戶風(fēng)險(xiǎn)反洗錢績(jī)效考核風(fēng)險(xiǎn)集市CRM圖4-3恒豐銀行大平臺(tái)架構(gòu)恒豐銀行搭建的基于星環(huán)科技Transwarp Data Hub的大數(shù)據(jù)平臺(tái)承載了恒豐銀 行分布在全國(guó)的數(shù)千萬(wàn)用戶數(shù)據(jù),服務(wù)于

22、全國(guó)用戶與行內(nèi)業(yè)務(wù)人員,數(shù)據(jù)總存儲(chǔ)量達(dá)到 幾十TBO根據(jù)恒豐銀行的項(xiàng)目建設(shè)的需求,我們推薦恒豐銀行采用基于星環(huán) Transwarp Data Hub大數(shù)據(jù)平臺(tái)來(lái)構(gòu)建新一代數(shù)字銀行平臺(tái),滿足恒豐銀行數(shù)據(jù)倉(cāng)庫(kù)的遷移、數(shù) 據(jù)集市的搭建,同時(shí)協(xié)助恒豐銀行構(gòu)建客戶360度視圖應(yīng)用,準(zhǔn)實(shí)時(shí)日志和精準(zhǔn)營(yíng)銷 等應(yīng)用。技術(shù)組件和相關(guān)方案如下所示:Transwarp Hadoop,完成海量數(shù)據(jù)的存儲(chǔ)。Transwarp Inceptor完成傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫(kù)SQL應(yīng)用的語(yǔ)義解析和編譯, 使得基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的應(yīng)用可以直接遷移至星環(huán)大數(shù)據(jù)平臺(tái),在 Transwarp Data Hub平臺(tái)實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的核

23、心組件。Transwarp Hyperbase,完成銀行海量歷史交易明細(xì)數(shù)據(jù)的存儲(chǔ),支持高并發(fā) 的快速查詢。(4) Transwarp Discover,完成客戶畫像,風(fēng)險(xiǎn)預(yù)警等分析挖掘任務(wù)。Transwarp Stream,完成實(shí)時(shí)日志的采集與報(bào)警。2.2項(xiàng)目實(shí)施情況星環(huán)科技協(xié)助恒豐銀行搭建了行內(nèi)統(tǒng)一基于Transwarp Data Hub的數(shù)據(jù)平臺(tái),一 期工作完成將原有Oracle數(shù)據(jù)倉(cāng)庫(kù)中的全量數(shù)據(jù)進(jìn)行遷移,同時(shí)在大數(shù)據(jù)平臺(tái)完成了 數(shù)據(jù)批處理、數(shù)據(jù)建模、數(shù)據(jù)集市等工作。數(shù)據(jù)移植說(shuō)明:數(shù)據(jù)倉(cāng)庫(kù)原有數(shù)據(jù)全部移植到新的大數(shù)據(jù)平臺(tái)之上,并對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行重構(gòu)。數(shù)據(jù) 移植的基本流程如下圖所示:除Sq

24、oop數(shù)據(jù)抽取階段,剩下的主要的數(shù)據(jù)處理階段放在大數(shù)據(jù)平臺(tái)上實(shí)現(xiàn),避 免了對(duì)原數(shù)據(jù)倉(cāng)庫(kù)正常運(yùn)行的影響。數(shù)據(jù)倉(cāng)庫(kù)日終ETL體系流程說(shuō)明:(1)每日業(yè)務(wù)系統(tǒng)日終完成后會(huì)生成相關(guān)數(shù)據(jù)文件提供給數(shù)據(jù)平臺(tái),數(shù)據(jù)平臺(tái)獲 取文件并加載文件數(shù)據(jù)。(2)對(duì)每個(gè)業(yè)務(wù)系統(tǒng)提供的數(shù)據(jù)文件,數(shù)據(jù)平臺(tái)必須對(duì)文件進(jìn)行合法性校驗(yàn)。合 法則加載文本,不合法通知業(yè)務(wù)系統(tǒng)人員對(duì)數(shù)據(jù)文本的導(dǎo)出進(jìn)行調(diào)整。(3)ODM構(gòu)建文本的映射外表,通過(guò)PL/SQL存儲(chǔ)過(guò)程將ODM數(shù)據(jù)備份到 HDM 層。(4)部分原數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)整合模型保留在FDM層,通過(guò)PL/SQL還原原倉(cāng)庫(kù) 數(shù)據(jù)處理程序,并逐步將FDM層數(shù)據(jù)轉(zhuǎn)移到CDM層公共模型中。(5)O

25、DM層數(shù)據(jù)每日經(jīng)過(guò)清洗、加工、整合后放在CDM層公共數(shù)據(jù)模型層, 在公共模型層之上構(gòu)建DSI服務(wù)接口,向外部集市或應(yīng)用提供數(shù)據(jù)服務(wù)。(6)集市回流數(shù)據(jù)依照ODM-HDM的處理方法進(jìn)行數(shù)據(jù)的備份。如圖所示:業(yè)務(wù)系統(tǒng)日終后生成提 供給數(shù)據(jù)平臺(tái) 的數(shù)據(jù)文件圖4-5恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)據(jù)同步流程(1)每日在線數(shù)據(jù)平臺(tái)處理數(shù)據(jù)經(jīng)過(guò)處理后,經(jīng)數(shù)據(jù)復(fù)制將數(shù)據(jù)同步到歷史數(shù)據(jù)(2)校驗(yàn)成功后的文本同步到歷史數(shù)據(jù)平臺(tái)進(jìn)行歸檔。(3)歷史數(shù)據(jù)平臺(tái)的數(shù)據(jù)與在線數(shù)據(jù)平臺(tái)保持一致,存期延長(zhǎng)。(4)歷史數(shù)據(jù)平臺(tái)之上建立歷史數(shù)據(jù)查詢模型,提供歷史數(shù)據(jù)查詢服務(wù)。圖4-6恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)據(jù)模型轉(zhuǎn)換為完整支持恒豐銀行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)

26、目的建設(shè),星環(huán)科技為恒豐銀行提供了如下技術(shù)組件與模塊:表4-4組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用Transwarp InceptorTDH平臺(tái)組件服務(wù),提供對(duì)SQL99 , SQL2003的完整支持,同時(shí)支持 Oracle PL/SQL ,為原有應(yīng)用平滑遷移 提供基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、 批處理、ETLTranswarpHyperbaseTDH平臺(tái)組件服務(wù),提供對(duì)海量歷史 數(shù)據(jù)的快速存儲(chǔ)與高并發(fā)訪問(wèn)歷史數(shù)據(jù)存儲(chǔ)與查 詢、數(shù)據(jù)集市Transwarp DiscoverTDH平臺(tái)組件服務(wù),對(duì)海量數(shù)據(jù)進(jìn)行 快速的分析和挖掘客戶畫像、風(fēng)險(xiǎn)監(jiān)測(cè)Transwarp StreamTDH平臺(tái)組件服務(wù),對(duì)實(shí)時(shí)

27、數(shù)據(jù)進(jìn)行 計(jì)算實(shí)時(shí)交易預(yù)警、實(shí)時(shí) 點(diǎn)擊流分析Transwarp HadoopTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái)影像存儲(chǔ)、日志存儲(chǔ)、 點(diǎn)擊流數(shù)據(jù)存儲(chǔ)Transwarp ManagerTDH平臺(tái)組件服務(wù),TDH管理工具, 圖形化、自動(dòng)化安裝、部署、配置、監(jiān) 控、報(bào)警管理功能經(jīng)過(guò)恒豐銀行的測(cè)試確認(rèn),從性能的角度出發(fā),恒豐銀行采用如下硬件設(shè)備:表4-5硬件配置列表節(jié)點(diǎn)數(shù)量一期16個(gè)節(jié)點(diǎn),未來(lái)規(guī)劃150節(jié)點(diǎn)CPU兩路8核處理器2*E5-2650 v3內(nèi)存256GB ECC DDR3硬&10 個(gè) 600GB 的 SAS 硬盤,15000RPM,不使用 RAID ;2個(gè)300G的SAS硬盤,15000RPM

28、,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬(wàn)兆(10Gbps)以太網(wǎng)卡固態(tài)硬盤800GB星環(huán)科技作為大數(shù)據(jù)平臺(tái)技術(shù)提供商,在恒豐銀行大數(shù)據(jù)平臺(tái)建設(shè)項(xiàng)目中,為客戶 提供了強(qiáng)大平臺(tái)技術(shù)支持,同時(shí)與應(yīng)用廠商進(jìn)行緊密的配合,確保了項(xiàng)目一期建設(shè)的順 利上線。表4-6項(xiàng)目實(shí)施概況編號(hào)角色所屬公需求架構(gòu)概要詳細(xì)應(yīng)用開發(fā)系統(tǒng)測(cè)試運(yùn)上線分析設(shè)計(jì)設(shè)計(jì)設(shè)計(jì)/遷移試行運(yùn)行項(xiàng)目各個(gè)階段實(shí)施進(jìn)度以及人員參與情況司2015.72015.72015.72015.2015.72015.82015.72015.82015.82015.102015.102015.112015.112015.12015.12-至 今1架構(gòu)師:科技VVVV2

29、實(shí)施工程師VVVVVV3項(xiàng)目經(jīng)理應(yīng)用商VVVVVVVV4實(shí)施工程師1VVVVVV5實(shí)施工程師2VVVVVV6實(shí)施工程師3VVVVVV7實(shí)施工程師4VVVVVV物理拓?fù)鋱D:大數(shù)據(jù)平臺(tái)(企業(yè)級(jí)數(shù)據(jù)倉(cāng)BS1大數(shù)據(jù)卜大數(shù)據(jù)8-一圖4-7恒豐銀行大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)應(yīng)用服務(wù)器3性能指標(biāo):日終批處理時(shí)間數(shù)據(jù)平臺(tái)每日幾千個(gè)數(shù)據(jù)處理作業(yè),日終時(shí)間窗口控制在3個(gè)小時(shí)到4個(gè)小 時(shí)之間。日終掃描數(shù)據(jù)量達(dá)10TB,按照業(yè)務(wù)系統(tǒng)供數(shù)最晚時(shí)間1:30計(jì)算,在凌 晨5點(diǎn)左右全部完成數(shù)據(jù)處理作業(yè),個(gè)別作業(yè)錯(cuò)誤不影響整體進(jìn)度。最大并發(fā)查詢用戶1000個(gè)用戶同時(shí)使用數(shù)據(jù)平臺(tái)查詢數(shù)據(jù),簡(jiǎn)單查詢響應(yīng)時(shí)間在100毫秒以內(nèi),關(guān)聯(lián)統(tǒng)計(jì)查詢?cè)?0

30、0毫米以內(nèi),復(fù)雜的統(tǒng)計(jì)分析應(yīng)用響應(yīng)時(shí)間在分鐘級(jí)。2.3項(xiàng)目成果恒豐銀行所搭建的基于星環(huán)科技Transwarp Data Hub的大數(shù)據(jù)平臺(tái)是國(guó)內(nèi)第一 個(gè)完全采用Hadoop來(lái)搭建金融機(jī)構(gòu)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的成功案例。在短短半年的 時(shí)間內(nèi),就將原有Oracle數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜數(shù)據(jù)處理過(guò)程,以及金融機(jī)構(gòu)的模型,遷移 至星環(huán)Transwarp Data Hub平臺(tái),同時(shí)在數(shù)據(jù)倉(cāng)庫(kù)上面,建設(shè)了客戶關(guān)系管理集市和 審計(jì)集市,同時(shí)存儲(chǔ)了恒豐銀行多年來(lái)全部數(shù)據(jù),接入了 30幾個(gè)業(yè)務(wù)系統(tǒng),批處理性 能比原有Oracle數(shù)據(jù)庫(kù)平臺(tái)提升5倍以上,歷史數(shù)據(jù)查詢的性能比原來(lái)提升幾十倍, 90%的歷史查詢應(yīng)用都可以在20

31、0毫秒內(nèi)返回結(jié)果,而總體投資僅占原有平臺(tái)的1/3。埠臺(tái)監(jiān)管里可 I 數(shù)據(jù)會(huì)析集市 I莒自關(guān)聶管理址市審r.反洗族等巨w數(shù)據(jù)運(yùn)堆體系統(tǒng)一閶度平臺(tái) . 上數(shù)攔管珪平臺(tái)歷史敬據(jù)報(bào)將接口腆服務(wù)援口 DS1敬據(jù)服務(wù)歷史敬據(jù)平臺(tái)在線數(shù)唱平臺(tái)非結(jié)構(gòu)數(shù)據(jù)區(qū)罪培構(gòu)化數(shù)據(jù)接人源數(shù)據(jù)基麟,歷史層據(jù)指型 HDM.層FDM J非結(jié)構(gòu)化歸輜構(gòu)化數(shù)搪公英數(shù)據(jù)模型層CDM數(shù)據(jù)存儲(chǔ)醇數(shù)據(jù)氐史曇HDM基礎(chǔ)數(shù)據(jù)模型 層FDM源雌彩口 EOD M始嗨化數(shù)據(jù)接入.文件交換區(qū)F5A竦數(shù)據(jù)結(jié)祠據(jù)散握演人源數(shù)據(jù)基于星環(huán)科技TrainEwarp Data Hub的恒豐銀行數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖4-8恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)倉(cāng)架構(gòu)本項(xiàng)目充分證明,星環(huán)科技T

32、ranswarp Data Hub大數(shù)據(jù)平臺(tái),能夠全面支撐企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的搭建。2.4項(xiàng)目意義恒豐銀行大數(shù)據(jù)平臺(tái)的一期建設(shè)完成了將傳統(tǒng)基于Oracle的數(shù)據(jù)倉(cāng)庫(kù)遷移至星環(huán)大數(shù)據(jù)平臺(tái),并在基于星環(huán)Transwarp Data Hub大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)上搭建了基于 三范式模型的數(shù)據(jù)集市,充分證明了星環(huán)Transwarp Data Hub平臺(tái)能夠支持企業(yè)在大 數(shù)據(jù)平臺(tái)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市的應(yīng)用,同時(shí)如果已有數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),也可以短期內(nèi) 快速完成數(shù)據(jù)倉(cāng)庫(kù)的遷移。恒豐銀行基于Transwarp Data Hub大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目,是大數(shù)據(jù)技術(shù) 在行業(yè)復(fù)雜應(yīng)用落地項(xiàng)目中的重要里程碑充分證明星環(huán)Tr

33、answarp Data Hub平臺(tái)能 夠支持企業(yè)最重要也最復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用。全球著名大數(shù)據(jù)調(diào)研機(jī)構(gòu)Gartner在近期的大數(shù)據(jù)市場(chǎng)調(diào)研報(bào)告中,已經(jīng)將星環(huán) Transwarp Data Hub平臺(tái)列入數(shù)據(jù)倉(cāng)庫(kù)魔力象限,并在技術(shù)成熟度,技術(shù)領(lǐng)先度的維 度中,排名全球大數(shù)據(jù)廠商第一名。AmiriiniWHb ScrnCftHPWlOdrtB .RnWighl.0MarkLogkMapfS TechFvbgiiKOoiidtfaAdsn .HodMwrcdti.McmguDB PffUlBltulnokuEDl Atl一是Kcfnitii.HrUd!. MemCKAs d February 201

34、6CatIPLETENESS DF VISiDN圖4-9 Gartner數(shù)據(jù)倉(cāng)庫(kù)魔力象限因此,恒豐銀行基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)經(jīng)驗(yàn),可以為此次XX公司大數(shù)據(jù) 平臺(tái)建設(shè)提供寶貴的經(jīng)驗(yàn)。目前從全球大數(shù)據(jù)廠商來(lái)看,除星環(huán)科技外,還沒有其他廠 商能夠在金融、銀行這樣的高端行業(yè),擁有完全通過(guò)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的成 功案例。在恒豐銀行項(xiàng)目中,星環(huán)科技已經(jīng)積累了大量的基于大數(shù)據(jù)平臺(tái)建設(shè)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù) 理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn),同時(shí)在產(chǎn)品的性能和功能上也充分的得到了驗(yàn)證,尤其星環(huán) Transwarp Inceptor組件,能夠快速協(xié)助XX公司將傳統(tǒng)基于Teradata數(shù)據(jù)倉(cāng)庫(kù)平臺(tái) 的應(yīng)用快速的遷移至星環(huán)大

35、數(shù)據(jù)平臺(tái),從而極大降低了項(xiàng)目風(fēng)險(xiǎn)。采用星環(huán)Transwarp Data Hub平臺(tái)構(gòu)建XX公司大數(shù)據(jù)平臺(tái),是XX公司的正確 選擇。3華通CDN運(yùn)營(yíng)商海日志采集分析系統(tǒng)浙江華通云數(shù)據(jù)科技有限公司是一家致力于云基礎(chǔ)設(shè)施、云網(wǎng)絡(luò)(CDN、VPN ) 以及各類云應(yīng)用建設(shè)和服務(wù)企業(yè)。通過(guò)云數(shù)據(jù)中心、覆蓋全國(guó)主要城市的CDN網(wǎng)絡(luò), 為通信運(yùn)營(yíng)商、服務(wù)提供商、互聯(lián)網(wǎng)企業(yè)及終端用戶提供云應(yīng)用和服務(wù)。依托豐富的網(wǎng) 絡(luò)資源和云資源優(yōu)勢(shì),打造成為全國(guó)性的云應(yīng)用服務(wù)中心。3.1項(xiàng)目概述華通CDN運(yùn)營(yíng)商需要構(gòu)建了全國(guó)性的CDN平臺(tái),針對(duì)CDN服務(wù)過(guò)程中產(chǎn)生的 海量日志數(shù)據(jù)進(jìn)行流式采集和分析,并將海量日志的處理及分析結(jié)果

36、輸出給使用者。華通CDN運(yùn)營(yíng)商已經(jīng)在全國(guó)部署了上千臺(tái)服務(wù)器,日志采集系統(tǒng)需要滿足上數(shù)百 個(gè)節(jié)點(diǎn)、每秒上千萬(wàn)次的日志數(shù)據(jù)實(shí)時(shí)采集能力;日志從采集、分析到提供給第三方的 延時(shí)不超過(guò)5分鐘;日志存儲(chǔ)集群支持2PB的數(shù)據(jù)存儲(chǔ);支持將采集的數(shù)據(jù)實(shí)時(shí)匯聚 并寫入日志管理分析平臺(tái)進(jìn)行后續(xù)的統(tǒng)計(jì)分析;實(shí)現(xiàn)針對(duì)命中率、時(shí)延、可用性、流量 等指標(biāo)的統(tǒng)計(jì)功能。3.2項(xiàng)目實(shí)施情況星環(huán)科技根據(jù)華通CDN日志采集和分析系統(tǒng)的需求,在前端600多個(gè)CDN服務(wù) 器節(jié)點(diǎn)上,部署了 600多個(gè)代理服務(wù)器,用來(lái)實(shí)時(shí)采集日志數(shù)據(jù),搭建了 100個(gè)節(jié)點(diǎn) 的X86服務(wù)器來(lái)部署星環(huán)Transwarp Data Hub平臺(tái),用Transwa

37、rp Hadoop來(lái)采集 日志數(shù)據(jù),并通過(guò)Transwarp Inceptor進(jìn)行分析,快速得到分析結(jié)果。SQLInceplor ln-nwng圖4-10華通CDN日志采集和分析系統(tǒng)架構(gòu)數(shù)據(jù)采集完成緩存服務(wù)器日志數(shù)據(jù)從節(jié)點(diǎn)到中心的數(shù)據(jù)采集匯聚,在每個(gè)節(jié)點(diǎn)內(nèi)部署日志采集Agent,通過(guò)UDP方式采集服務(wù)器syslog日志,節(jié)點(diǎn)Agent將采集的數(shù)據(jù)通過(guò)流式傳輸?shù)姆绞桨l(fā)送至中心匯聚服務(wù)器,中心匯聚服務(wù)器將匯聚的日志數(shù)據(jù)寫入數(shù)據(jù)存儲(chǔ)分析平臺(tái),系統(tǒng)部署600+ Agent,20個(gè)匯聚服務(wù)器,平臺(tái)采用TranswarpData Hub方案構(gòu)建支持峰值928w/sec的數(shù)據(jù)寫入和分析;將數(shù)據(jù)進(jìn)行清洗整理后

38、,進(jìn)行實(shí)時(shí)壓縮處理,輸出至第三方系統(tǒng)。平臺(tái)依賴于Transwarp Inceptor對(duì)采集的日志流數(shù)據(jù)進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)分析,為業(yè)務(wù)質(zhì)量監(jiān)控和后續(xù)服務(wù)的優(yōu)化提供數(shù)據(jù)支撐。圖4-11華通CDN日志采集平臺(tái)物理部署單臺(tái)日志采集服務(wù)器每條處理的日志數(shù)為10萬(wàn)條,按照服務(wù)器最多的A類節(jié)點(diǎn)其峰值每秒產(chǎn)生4萬(wàn)條日志計(jì)算一個(gè)拉遠(yuǎn)節(jié)點(diǎn)每天所需存儲(chǔ)的日志數(shù)為,代理服務(wù)器本地配置8T的存儲(chǔ)空間至少可滿足1周的日志存儲(chǔ)。按照流式處理的峰值計(jì)算,1秒內(nèi)完成所有日志的傳輸,單條日志0.2K的情況下 單個(gè)拉遠(yuǎn)節(jié)點(diǎn)日志傳輸對(duì)上行帶寬的要求。星環(huán)科技為華通CDN海量日志采集與分析系統(tǒng)提供了如下技術(shù)組件與模塊:表4-7組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用TranswarpInceptorTDH平臺(tái)組件服務(wù),用于對(duì)海量日志數(shù) 據(jù)進(jìn)行實(shí)時(shí)、高效的分析,并通過(guò)標(biāo)準(zhǔn)的 SQL完成各種分析報(bào)告日志分析,點(diǎn)擊命中 率報(bào)告Transwarp FlumeTDH平臺(tái)組件服務(wù),對(duì)實(shí)時(shí)日志數(shù)據(jù)進(jìn) 行采集,提供分布式的采集方式實(shí)時(shí)日志采集Transwarp HadoopTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái), 用于存儲(chǔ)海量的日志數(shù)據(jù),提供極高的吞 吐量日志存儲(chǔ)TranswarpManagerTDH平臺(tái)組件服務(wù),TDH管理工具,圖 形化、自動(dòng)化安裝、部署、配置、監(jiān)控、 報(bào)警管理功能華通CDN海量日志采集與分析系統(tǒng),采用如下硬件設(shè)備:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論