基于Hadoo的大數(shù)據(jù)應(yīng)用2_第1頁
基于Hadoo的大數(shù)據(jù)應(yīng)用2_第2頁
基于Hadoo的大數(shù)據(jù)應(yīng)用2_第3頁
基于Hadoo的大數(shù)據(jù)應(yīng)用2_第4頁
基于Hadoo的大數(shù)據(jù)應(yīng)用2_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于Hadoop的大數(shù)據(jù)應(yīng)用分析

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)定義及特點(diǎn)大數(shù)據(jù)對(duì)系統(tǒng)的需求Highperformance–高并發(fā)讀寫的需求

高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲(chǔ)和訪問的需求

類似SNS網(wǎng)站,海量用戶信息的高效率實(shí)時(shí)存儲(chǔ)和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

需要擁有快速橫向擴(kuò)展能力、提供7*24小時(shí)不間斷服務(wù)商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計(jì)算作為基礎(chǔ)架構(gòu),才能高效運(yùn)行通過大數(shù)據(jù)的業(yè)務(wù)需求,為云計(jì)算的落地找到了實(shí)際應(yīng)用大數(shù)據(jù)和云計(jì)算的關(guān)系大數(shù)據(jù)云計(jì)算大數(shù)據(jù)市場(chǎng)分析12011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模2各行業(yè)大數(shù)據(jù)市場(chǎng)規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。由于各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場(chǎng)空間非??捎^。2011年是中國(guó)大數(shù)據(jù)市場(chǎng)元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場(chǎng)的飛速發(fā)展。2012年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到4.7億元,2013年大數(shù)據(jù)市場(chǎng)將迎來增速為138.3%的飛躍,到2016年,整個(gè)市場(chǎng)規(guī)模逼近百億。

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測(cè),全球大數(shù)據(jù)市場(chǎng)2015年將達(dá)170億美元規(guī)模,市場(chǎng)發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù),因?yàn)橛欣诓⑿蟹植继幚怼按髷?shù)據(jù)”而備受重視。ApacheHadoop是一個(gè)用java語言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。

優(yōu)點(diǎn):可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。經(jīng)濟(jì):框架可以運(yùn)行在任何普通的PC上。可靠:分布式文件系統(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構(gòu)Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個(gè)開源的,基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算MapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計(jì)HDFSNameNode:文件管理DataNode:文件存儲(chǔ)Client:文件獲取Hadoop核心設(shè)計(jì)HDFS————分布布式式文文件件系系統(tǒng)統(tǒng)NameNode可以以看看作作是是分分布布式式文文件件系系統(tǒng)統(tǒng)中中的的管管理理者者,,存存儲(chǔ)儲(chǔ)文文件件系系統(tǒng)統(tǒng)的的meta-data,主主要要負(fù)負(fù)責(zé)責(zé)管管理理文文件件系系統(tǒng)統(tǒng)的的命命名名空空間間,,集集群群配配置置信信息息,,存存儲(chǔ)儲(chǔ)塊塊的的復(fù)復(fù)制制。。DataNode是文文件件存存儲(chǔ)儲(chǔ)的的基基本本單單元元。。它它存存儲(chǔ)儲(chǔ)文文件件塊塊在在本本地地文文件件系系統(tǒng)統(tǒng)中中,,保保存存了了文文件件塊塊的的meta-data,同同時(shí)時(shí)周周期期性性的的發(fā)發(fā)送送所所有有存存在在的的文文件件塊塊的的報(bào)報(bào)告告給給NameNode。Client就是需要要獲取分分布式文文件系統(tǒng)統(tǒng)文件的的應(yīng)用程程序。HDFS是一個(gè)高高度容錯(cuò)錯(cuò)性的分分布式文文件系統(tǒng)統(tǒng),能提提供高吞吞吐量的的數(shù)據(jù)訪訪問,非非常適合合大規(guī)模模數(shù)據(jù)集集上的應(yīng)應(yīng)用。HDFS具體操操作文件寫入入:1.Client向向NameNode發(fā)發(fā)起文件件寫入的的請(qǐng)求2.NameNode根據(jù)據(jù)文件大大小和文文件塊配配置情況況,返回回給Client它所所管理部部分DataNode的信息息。3.Client將將文件劃劃分為多多個(gè)文件件塊,根根據(jù)DataNode的地址址信息,,按順序序?qū)懭氲降矫恳粋€(gè)個(gè)DataNode塊塊中。文件讀取?。?.Client向向NameNode發(fā)發(fā)起文件件讀取的的請(qǐng)求2.NameNode返回回文件存存儲(chǔ)的DataNode的信信息。3.Client讀讀取文件件信息。。MapReduce———映射、化化簡(jiǎn)編程程模型1.根據(jù)輸入入數(shù)據(jù)的的大小和和參數(shù)的的設(shè)置把把數(shù)據(jù)分分成splits,每個(gè)split對(duì)于一個(gè)個(gè)map線程。2.Split中的數(shù)據(jù)據(jù)作為Map的輸入,,Map的輸出一一定在Map端。3.Map的輸出到到Reduce的輸入的的過程(shuffle過程):第一階段段:在map端完成內(nèi)內(nèi)存->排序->寫入磁盤盤->復(fù)制第二階段段:在reduce端完成映映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到到Reduce的輸出最后排好好序的key/value作為Reduce的輸入,,輸出不不一定是是在reduce端。MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集的并行行運(yùn)算。。Map(映射))和Reduce(化簡(jiǎn))),采用用分而治治之思想想,先把把任務(wù)分分發(fā)到集集群多個(gè)個(gè)節(jié)點(diǎn)上上,并行行計(jì)算,,然后再再把計(jì)算算結(jié)果合合并,從從而得到到最終計(jì)計(jì)算結(jié)果果。多節(jié)節(jié)點(diǎn)計(jì)算算,所涉涉及的任任務(wù)調(diào)度度、負(fù)載載均衡、、容錯(cuò)處處理等,,都由MapReduce框架完成成,不需需要編程程人員關(guān)關(guān)心這些些內(nèi)容。。HBASE———分布式數(shù)據(jù)存儲(chǔ)儲(chǔ)HBase––HadoopDatabase,是一個(gè)個(gè)高可靠靠性、高高性能、、面向列列、可伸伸縮的分分布式存存儲(chǔ)系統(tǒng)統(tǒng);HBase位于結(jié)構(gòu)構(gòu)化存儲(chǔ)儲(chǔ)層,HDFS為HBase提供了高高可靠性性的底層層存儲(chǔ)支支持,MapReduce為HBase提供了高高性能的的計(jì)算能能力,Zookeeper為HBase提供了穩(wěn)穩(wěn)定服務(wù)務(wù)和failover機(jī)制;Pig和Hive還為HBase提供了高高層語言言支持,,使得在在HBase上進(jìn)行數(shù)數(shù)據(jù)統(tǒng)計(jì)計(jì)處理變變的簡(jiǎn)單單。5.東軟基于于HADOOP的大數(shù)據(jù)據(jù)應(yīng)用建建議內(nèi)容提要要1.大數(shù)據(jù)背背景介紹紹2.HADOOP體系架構(gòu)構(gòu)3.基于HADOOP的大數(shù)據(jù)據(jù)產(chǎn)品分分析4.基于HADOOP的大數(shù)據(jù)據(jù)行業(yè)應(yīng)應(yīng)用分析析Hadoop主要開發(fā)發(fā)廠商大型企業(yè)業(yè)和機(jī)構(gòu)構(gòu)在尋求求解決棘棘手的大大數(shù)據(jù)問問題時(shí),,往往會(huì)會(huì)使用開開源軟件件基礎(chǔ)架架構(gòu)Hadoop的服務(wù)。。由于Hadoop深受歡迎迎,許多多公司都都推出了了各自版版本的Hadoop,也有一一些公司司則圍繞繞Hadoop提供解決決方案。。Hadoop的發(fā)行版版除了社社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供供了自己己的商業(yè)業(yè)版本。。商業(yè)版版主要是是提供Hadoop專業(yè)的技技術(shù)支持持,這對(duì)對(duì)一些大大型企業(yè)業(yè)尤其重重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)發(fā)廠商——CLOUDERA在Hadoop生態(tài)系統(tǒng)統(tǒng)中,規(guī)規(guī)模最大大、知名名度最高高的公司司則是Cloudera。2008年成立的的Cloudera是最早將將Hadoop商用的公公司,為為合作伙伙伴提供供Hadoop的商用解解決方案案,主要要是包括括支持,,咨詢服服務(wù)和培培訓(xùn)。Cloudera的客戶中中倒是有有很多知知名公司司,如AOL、哥倫比比亞廣播播公司、、eBay、Expedia、摩根大大通、Monsanto、諾基亞亞、RIM和迪士尼尼等。Cloudera企業(yè)解決決方案包包括Hadoop軟件發(fā)行行版、Cloudera管理器。。Hadoop主要開發(fā)發(fā)廠商——Hortonworks2011年成立的的Hortonworks是雅虎與與硅谷風(fēng)風(fēng)投公司司BenchmarkCapital合資組建建的公司司。公司司成立之之初吸納納了大約約25名至30名專門研研究Hadoop的雅虎工工程師,,上述工工程師均均在2005年開始協(xié)協(xié)助雅虎虎開發(fā)Hadoop,這些工工程師貢貢獻(xiàn)了hadoop80%的代碼。。Hortonworks的主打產(chǎn)產(chǎn)品是HortonworksDataPlatform(HDP),包括穩(wěn)穩(wěn)定版本本的ApacheHadoop的所有關(guān)關(guān)鍵組件件。InfoSphereBigInsights是一個(gè)軟軟件平臺(tái)臺(tái),旨在在幫助企企業(yè)從大大量不同同范圍的的數(shù)據(jù)中中挖掘商商機(jī)并進(jìn)進(jìn)行分析析,如日日志記錄錄、點(diǎn)擊擊流、社社會(huì)媒體體數(shù)據(jù)、、新聞?wù)?、電電子傳感感器輸出出,甚至至是一些些事?wù)數(shù)數(shù)據(jù)等。。BigInsights包括ApacheHadoop發(fā)行版、、面向MapReduce編程的Pig編程語言言、針對(duì)對(duì)IBM的DB2數(shù)據(jù)庫的的連接件件以及IBMBigSheets。IBM通過其智智慧云企企業(yè)(SmartCloudEnterprise)基礎(chǔ)架架構(gòu),將將BigInsights和BigSheets作為一項(xiàng)項(xiàng)服務(wù)來來提供。??蛻舨徊槐刭徺I買支持性性硬件,,也不需需要IT專門知識(shí)識(shí),就可可以學(xué)習(xí)習(xí)和試用用大數(shù)據(jù)據(jù)處理和和分析功功能。據(jù)據(jù)IBM稱,客戶戶用30分鐘就能能搭建起起Hadoop集群,并并能將現(xiàn)現(xiàn)有數(shù)據(jù)據(jù)轉(zhuǎn)移到到集群里里面。Hadoop主要開發(fā)發(fā)廠商——IBMHadoop主要開發(fā)發(fā)廠商——ORACLEOracleBigData機(jī)與OracleExadata數(shù)據(jù)庫云云服務(wù)器器以及新新推出的的OracleExalytics商務(wù)智能能云服務(wù)務(wù)器,為為客戶提提供了一一個(gè)端到到端的大大數(shù)據(jù)解解決方案案,從而而為客戶戶在企業(yè)業(yè)內(nèi)獲取取、組織織、分析析大數(shù)據(jù)據(jù)以及最最大限度度地挖掘掘大數(shù)據(jù)據(jù)的價(jià)值值提供供了所需需要的一一切條件件。OracleBigData機(jī)是一款款集成設(shè)設(shè)計(jì)的系系統(tǒng),并并且針對(duì)對(duì)獲取、、組織以以及將非非結(jié)構(gòu)化化數(shù)據(jù)加加載到Oracle數(shù)據(jù)庫11g之中的的整個(gè)流流程進(jìn)行行優(yōu)化。。OracleBigData機(jī)包括開開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、、Oracle數(shù)據(jù)集成成Hadoop應(yīng)用適配配器、OracleHadoop裝載器。。EMC公司于2013年發(fā)布了了自身的的ApacheHadoop發(fā)行版——PivotalHD,同時(shí)發(fā)發(fā)布的還還有一個(gè)個(gè)名為HAWQ的技術(shù),,通過HAWQ能夠?qū)reenplum分析型數(shù)數(shù)據(jù)庫與與Hadoop分布式架架構(gòu)進(jìn)行行緊密地地融合。。PivotalHD對(duì)ApacheHadoop進(jìn)行了全全面的改改造,同同其他一一些Hadoop發(fā)行版相相比,其其最大的的優(yōu)勢(shì)就就是能夠夠與Greenplum數(shù)據(jù)庫進(jìn)進(jìn)行整合合,PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)進(jìn)一步,,同時(shí)將將成為EMC大數(shù)據(jù)戰(zhàn)戰(zhàn)略中的的一個(gè)重重要里程程碑。Hadoop主要開發(fā)發(fā)廠商——EMC基于在大大數(shù)據(jù)領(lǐng)領(lǐng)域的長(zhǎng)長(zhǎng)期技術(shù)術(shù)積累和和應(yīng)用經(jīng)經(jīng)驗(yàn),英英特爾推推出成熟熟的企業(yè)業(yè)級(jí)Hadoop發(fā)行版,,為企業(yè)業(yè)和政府府部門實(shí)實(shí)現(xiàn)大數(shù)數(shù)據(jù)應(yīng)用用提供強(qiáng)強(qiáng)有力的的平臺(tái)支支持。英英特爾在在Hadoop上的改進(jìn)進(jìn)和功能能增強(qiáng)為為用戶提提供了一一個(gè)高性性能、高高穩(wěn)定性性和可管管理的大大數(shù)據(jù)應(yīng)應(yīng)用實(shí)施施平臺(tái),,并提供供全面的的專業(yè)支支持。在在Hadoop軟件的英英特爾分分發(fā)版在在中國(guó)推推廣的兩兩年多時(shí)時(shí)間里,,已經(jīng)在在電信行行業(yè)、智智能交通通行業(yè)有有多個(gè)成成功應(yīng)用用。Hadoop主要開發(fā)發(fā)廠商——INTEL5.東軟基于于HADOOP的大數(shù)據(jù)據(jù)應(yīng)用建建議內(nèi)容提要要1.大數(shù)據(jù)背背景介紹紹2.HADOOP體系架構(gòu)構(gòu)3.基于HADOOP的大數(shù)據(jù)據(jù)產(chǎn)品分分析4.基于HADOOP的大數(shù)據(jù)據(jù)行業(yè)應(yīng)應(yīng)用分析析大數(shù)據(jù)應(yīng)應(yīng)用行業(yè)業(yè)分析應(yīng)用可能能性電信政府(公公共事業(yè)業(yè))交通金融醫(yī)療教育能源(電電力/石油)縱軸契合合度:表示該用用戶的IT應(yīng)用特點(diǎn)點(diǎn)與大數(shù)數(shù)據(jù)特性性的契合合程度;;橫軸應(yīng)用用可能性性:表示該該用戶出出于主客客觀因素素在短期期內(nèi)投資資大數(shù)據(jù)據(jù)的可能能性;注:該位置為為分析師師訪談的的綜合印印象,為為定性分分析,圖圖中位置置不代表表具體數(shù)數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注注行業(yè)用用戶應(yīng)用特點(diǎn)點(diǎn)與大數(shù)數(shù)據(jù)技術(shù)術(shù)有較高高的契合合度,在在主客觀觀條件上上也有較較高的應(yīng)應(yīng)用可能能性。值得關(guān)注注行業(yè)用用戶應(yīng)有特點(diǎn)點(diǎn)與大數(shù)數(shù)據(jù)的契契合度及及應(yīng)用可可能性綜綜合較高高適當(dāng)關(guān)注注行業(yè)用用戶兩個(gè)維度度暫時(shí)都都不具備備優(yōu)勢(shì),,可適當(dāng)當(dāng)給予關(guān)關(guān)注互聯(lián)網(wǎng)((電子商商務(wù))契合度流通零售制造金融行業(yè)業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)業(yè)能源行業(yè)業(yè)電信行業(yè)業(yè)大數(shù)據(jù)行行業(yè)應(yīng)用用分析——互聯(lián)網(wǎng)行行業(yè)政府行業(yè)業(yè)互聯(lián)網(wǎng)行行業(yè)擁抱抱大數(shù)據(jù)據(jù)的關(guān)鍵鍵因素互聯(lián)網(wǎng)大大數(shù)據(jù)技技術(shù)的應(yīng)應(yīng)用,會(huì)會(huì)首先帶帶動(dòng)社會(huì)會(huì)化媒體體、電子子商務(wù)的的快速發(fā)發(fā)展,其其他的互互聯(lián)網(wǎng)分分支也會(huì)會(huì)緊追其其后,整整個(gè)行業(yè)業(yè)在大數(shù)數(shù)據(jù)的推推動(dòng)下將將會(huì)蓬勃勃發(fā)展。。互聯(lián)網(wǎng)行行業(yè)大數(shù)數(shù)據(jù)需求求分析互聯(lián)網(wǎng)行行業(yè)對(duì)數(shù)數(shù)據(jù)實(shí)時(shí)時(shí)分析要要求較高高,例如如廣告監(jiān)監(jiān)測(cè)、B2C業(yè)務(wù),往往往要求求在數(shù)秒秒內(nèi)返回回上億行行數(shù)據(jù)的的分析,,從而達(dá)達(dá)到不影影響用戶戶體驗(yàn)和和快速準(zhǔn)準(zhǔn)確營(yíng)銷銷的目的的。目前互互聯(lián)網(wǎng)網(wǎng)企業(yè)業(yè)面對(duì)對(duì)大數(shù)數(shù)據(jù),,會(huì)普普遍感感覺到到實(shí)時(shí)時(shí)分析析能力力差、、海量量數(shù)據(jù)據(jù)處理理效率率低、、缺少少分析析方法法、分分析軟軟件能能力差差等問問題。。互聯(lián)網(wǎng)網(wǎng)行業(yè)業(yè)大數(shù)數(shù)據(jù)分分析面面臨的的主要要問題題公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點(diǎn)數(shù):15臺(tái)機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置:8核CPU,16G內(nèi)存,1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析,同時(shí)使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點(diǎn)數(shù):10-500個(gè)節(jié)點(diǎn)。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲(chǔ)內(nèi)部日志的拷貝,作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。主要使用了2個(gè)集群:一個(gè)由1100臺(tái)節(jié)點(diǎn)組成的集群,包括8800核CPU(即每臺(tái)機(jī)器8核),和12000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),一個(gè)有300臺(tái)節(jié)點(diǎn)組成的集群,包括2400核CPU(即每臺(tái)機(jī)器8核),和3000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項(xiàng)目:HIVEHADOOP在TWITTER使用HADOOP用于存儲(chǔ)微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲(chǔ)壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索機(jī)器數(shù):25000,CPU:8核集群機(jī)器數(shù):

4000

個(gè)節(jié)點(diǎn)

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)網(wǎng)行業(yè)業(yè)Hadoop應(yīng)用大數(shù)據(jù)據(jù)行業(yè)業(yè)應(yīng)用用分析析——金融行行業(yè)金融行行業(yè)互聯(lián)網(wǎng)網(wǎng)醫(yī)療行行業(yè)能源行行業(yè)電信行行業(yè)政府行行業(yè)金融行行業(yè)大大數(shù)據(jù)據(jù)發(fā)展展分析析IDC研究顯顯示,,數(shù)據(jù)據(jù)是重重要資資產(chǎn)的的理念念已經(jīng)經(jīng)在中中國(guó)金金融行行業(yè)形形成共共識(shí),,數(shù)據(jù)據(jù)的真真正價(jià)價(jià)值在在于能能夠洞洞察企企業(yè)內(nèi)內(nèi)部規(guī)規(guī)律,,數(shù)據(jù)據(jù)的洞洞察力力成為為金融融企業(yè)業(yè)的核核心競(jìng)競(jìng)爭(zhēng)力力。在在中國(guó)國(guó)金融融行業(yè)業(yè)信息息化建建設(shè)中中,與與信息息加工工密切切相關(guān)關(guān)的大大數(shù)據(jù)據(jù)管理理正逐逐漸成成為與與核心心業(yè)務(wù)務(wù)系統(tǒng)統(tǒng)建設(shè)設(shè)、渠渠道建建設(shè)和和前置置建設(shè)設(shè)同等等重要要的領(lǐng)領(lǐng)域。。經(jīng)過多多年的的發(fā)展展與積積累,,目前前中國(guó)國(guó)的大大型商商業(yè)銀銀行和和保險(xiǎn)險(xiǎn)公司司的數(shù)數(shù)據(jù)量量已經(jīng)經(jīng)達(dá)到到100TB以上級(jí)級(jí)別,,并且且非結(jié)結(jié)構(gòu)化化數(shù)據(jù)據(jù)量在在迅速速增長(zhǎng)長(zhǎng)。金融行行業(yè)大大數(shù)據(jù)據(jù)需求求背景景從未來來幾年年看,,金融融行業(yè)業(yè)在““十二二五””時(shí)期期面臨臨發(fā)展展方式式轉(zhuǎn)型型的挑挑戰(zhàn),,轉(zhuǎn)型型主要要集中中在三三大方方面::一,,建立立全面面的風(fēng)風(fēng)險(xiǎn)管管理體體制,,向嚴(yán)嚴(yán)監(jiān)管管轉(zhuǎn)型型;二二,從從粗放放式管管理向向精細(xì)細(xì)化管管理轉(zhuǎn)轉(zhuǎn)型;;三,,從““利潤(rùn)潤(rùn)為中中心””向向“客客戶為為中心心”轉(zhuǎn)轉(zhuǎn)型。。大數(shù)據(jù)據(jù)在加加強(qiáng)風(fēng)風(fēng)險(xiǎn)管管控、、精細(xì)細(xì)化管管理、、服務(wù)務(wù)創(chuàng)新新等轉(zhuǎn)轉(zhuǎn)型中中別具具現(xiàn)實(shí)實(shí)意義義,是是實(shí)現(xiàn)現(xiàn)向信信息化化銀行行轉(zhuǎn)型型的重重要推推動(dòng)力力。金金融行行業(yè)應(yīng)應(yīng)首先先在戰(zhàn)戰(zhàn)略層層面對(duì)對(duì)大數(shù)數(shù)據(jù)進(jìn)進(jìn)行規(guī)規(guī)劃,,積極極應(yīng)對(duì)對(duì)大數(shù)數(shù)據(jù)時(shí)時(shí)代的的挑戰(zhàn)戰(zhàn),推推進(jìn)并并建立立數(shù)據(jù)據(jù)驅(qū)動(dòng)動(dòng)型發(fā)發(fā)展方方式。。金融行行業(yè)大大數(shù)據(jù)據(jù)需求求分析析摩根大大通基于Hadoop的的大數(shù)數(shù)據(jù)應(yīng)應(yīng)用已經(jīng)開開始使使用Hadoop技技術(shù)以以滿足足日益益增多多的用用途,,包括括詐騙騙檢驗(yàn)驗(yàn)、IT風(fēng)風(fēng)險(xiǎn)管管理和和自助助服務(wù)務(wù)。150PB在線線存儲(chǔ)儲(chǔ)數(shù)據(jù)據(jù)、30,000個(gè)個(gè)數(shù)據(jù)據(jù)庫和和35億個(gè)個(gè)用戶戶登錄錄賬號(hào)號(hào)。Hadoop能能夠存存儲(chǔ)大大量非非結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù),,允許許公司司收集集和存存儲(chǔ)Web日志志、交交易數(shù)數(shù)據(jù)和和社交交媒體體數(shù)據(jù)據(jù)。數(shù)據(jù)被匯集集至一個(gè)通通用平臺(tái),,以方便以以客戶為中中心的數(shù)據(jù)據(jù)挖掘與數(shù)數(shù)據(jù)分析工工具的使用用。Zions銀行基于Hadoop的的大數(shù)據(jù)應(yīng)應(yīng)用數(shù)據(jù)倉庫存存儲(chǔ)了120多個(gè)不不同類型的的數(shù)據(jù),包包括交易日日志,日志志,欺詐警警報(bào),服務(wù)務(wù)器日志,,防火墻日日志和IDS日志跨整個(gè)企業(yè)業(yè)進(jìn)行數(shù)據(jù)據(jù)挖掘,加加快取證調(diào)調(diào)查并提高高欺詐偵測(cè)測(cè),以及整整體安全性性利用Hadoop來存儲(chǔ)所有有數(shù)據(jù),并并對(duì)客戶交交易和現(xiàn)貨貨異常進(jìn)行行判斷,對(duì)對(duì)可能存在在欺詐行為為提前預(yù)警警的基于Hadoop的的安全數(shù)據(jù)據(jù)倉庫,迅速對(duì)來自自各種源頭頭的惡意軟軟件威脅作作出響應(yīng)并并對(duì)抗它們們美國(guó)地區(qū)性性銀行ZionsBancorp(ZIONS)32大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長(zhǎng)迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長(zhǎng)迅速:隨著業(yè)務(wù)的迅猛增長(zhǎng),業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進(jìn)和推動(dòng)有針對(duì)性的營(yíng)銷活動(dòng)。采用大數(shù)據(jù)方案后價(jià)值體現(xiàn)實(shí)時(shí)的商業(yè)智能可以結(jié)合實(shí)時(shí)、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險(xiǎn)管理部門現(xiàn)在可以每天評(píng)估客戶的行為,并決定對(duì)客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級(jí)營(yíng)銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對(duì)的進(jìn)行營(yíng)銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營(yíng)銷平臺(tái)進(jìn)行了1286個(gè)宣傳活動(dòng),每個(gè)營(yíng)銷活動(dòng)配置平均時(shí)間從2周縮短到2-3天。EMCGreen-plum中信銀行信信用卡中心心基于Hadoop的大數(shù)據(jù)據(jù)應(yīng)用未來和基于于Hadoop的PivotalHD相融合大數(shù)據(jù)行業(yè)業(yè)應(yīng)用分析析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,運(yùn)營(yíng)商的網(wǎng)絡(luò)將會(huì)更加繁忙,用于監(jiān)測(cè)網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會(huì)快速增長(zhǎng)。通過大數(shù)據(jù)的海量分布式存儲(chǔ)技術(shù),可以更好地滿足存儲(chǔ)需求;通過智能分析技術(shù),能夠提高網(wǎng)絡(luò)維護(hù)的實(shí)時(shí)性,預(yù)測(cè)網(wǎng)絡(luò)流量峰值,預(yù)警異常流量,有效防止網(wǎng)絡(luò)堵塞和宕機(jī),為網(wǎng)絡(luò)改造、優(yōu)化提供參考,從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,提升用戶體驗(yàn)。提升網(wǎng)絡(luò)服服務(wù)質(zhì)量,,增強(qiáng)管道道智能化客戶洞察是指在企業(yè)或部門層面對(duì)客戶數(shù)據(jù)的全面掌握并在市場(chǎng)營(yíng)銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運(yùn)營(yíng)商能夠整合來自市場(chǎng)部門、銷售部門、服務(wù)部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對(duì)客戶形象進(jìn)行精準(zhǔn)刻畫,以尋找目標(biāo)客戶,制定有針對(duì)性的營(yíng)銷計(jì)劃、產(chǎn)品組合或商業(yè)決策,提升客戶價(jià)值。判斷客戶對(duì)企業(yè)產(chǎn)品、服務(wù)的感知,有針對(duì)性地進(jìn)行改進(jìn)和完善。通過情感分析、語義分析等技術(shù),可以針對(duì)客戶的喜好、情緒,進(jìn)行個(gè)性化的業(yè)務(wù)推薦更加精準(zhǔn)地地洞察客戶需求,,增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國(guó)計(jì)民生的行業(yè),都具有極大的信息化需求。目前,電信運(yùn)營(yíng)商針對(duì)智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商,對(duì)于客戶的價(jià)值主要體現(xiàn)在網(wǎng)絡(luò)化、自動(dòng)化等較低水平。而隨著社會(huì)、經(jīng)濟(jì)的發(fā)展,客戶及客戶的客戶對(duì)于智能化的要求將逐步強(qiáng)烈,因此運(yùn)營(yíng)商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲(chǔ)和分析更好地進(jìn)行決策,將能極大提升信息化服務(wù)的價(jià)值升級(jí)行業(yè)信信息化解決方案,,提升客戶價(jià)值大數(shù)據(jù)也有大風(fēng)險(xiǎn),其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險(xiǎn)。由于大量的數(shù)據(jù)產(chǎn)生、存儲(chǔ)和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內(nèi)成為一個(gè)更大的問題,企業(yè)必須提供數(shù)據(jù)安安全服務(wù),,在大數(shù)據(jù)市場(chǎng)建立差差異化競(jìng)爭(zhēng)爭(zhēng)優(yōu)勢(shì)電信行業(yè)大大數(shù)據(jù)需求求分析中國(guó)移動(dòng)基基于Hadoop的大數(shù)據(jù)應(yīng)應(yīng)用在中國(guó)移動(dòng)動(dòng)“大云””產(chǎn)品總體體架構(gòu)中,,分析型PaaS產(chǎn)品底層基基于Hadoop數(shù)據(jù)存儲(chǔ)和和分析平臺(tái)臺(tái),在技術(shù)術(shù)路線方面面,選擇數(shù)數(shù)據(jù)倉庫與與Hadoop混搭的方式式,借鑒關(guān)關(guān)系型數(shù)據(jù)據(jù)倉庫在傳傳統(tǒng)應(yīng)用支支持方面以以及在復(fù)雜雜查詢和分分析方面的的快速響應(yīng)應(yīng)能力,同同時(shí)也借鑒鑒了Hadoop的非結(jié)構(gòu)化化數(shù)據(jù)處理理能力以及及存儲(chǔ)的低低成本。屏屏蔽Hadoop與數(shù)據(jù)倉庫庫的使用細(xì)細(xì)節(jié),讓用用戶在使用用這些數(shù)據(jù)據(jù)時(shí)盡量無無感知;在在數(shù)據(jù)的ETL采集預(yù)處理理環(huán)節(jié),盡盡量采用Hadoop與分布式ETL的方式,提提高數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換效率,,同時(shí)降低低成本。中國(guó)聯(lián)通已已經(jīng)構(gòu)建了了一個(gè)全國(guó)國(guó)集中的一一級(jí)架構(gòu)海海量數(shù)據(jù)存存儲(chǔ)和查詢?cè)兿到y(tǒng):通通信用戶上上網(wǎng)記錄集集中查詢與與分析支撐撐系統(tǒng),在在集團(tuán)公司司進(jìn)行統(tǒng)一一部署,各各個(gè)省分僅僅僅是做數(shù)數(shù)據(jù)的采集集,按照業(yè)業(yè)務(wù)實(shí)時(shí)性性將數(shù)據(jù)傳傳送到集團(tuán)團(tuán)公司,由由集團(tuán)公司司統(tǒng)一處理理,全國(guó)所所有用戶所所有上網(wǎng)記記錄數(shù)據(jù)都都放北京數(shù)數(shù)據(jù)中心里里,在國(guó)內(nèi)內(nèi)電信行業(yè)當(dāng)中也是首首創(chuàng)的方式式。中國(guó)聯(lián)通成成功將大數(shù)數(shù)據(jù)和Hadoop技術(shù)引入到到‘移動(dòng)通通信用戶上上網(wǎng)記錄集集中查詢與與分析支撐撐系統(tǒng)’。。截止到目目前已經(jīng)部部署了4.5PB的存儲(chǔ)空間間。其中,,4.5PB的存儲(chǔ)分布布在300個(gè)數(shù)據(jù)節(jié)點(diǎn)點(diǎn)上,即每每個(gè)節(jié)點(diǎn)配配備15TB的存儲(chǔ)空間間。系統(tǒng)每每天有能力力處理700億條上網(wǎng)記記錄。中國(guó)聯(lián)通基基于Hadoop的大數(shù)據(jù)應(yīng)應(yīng)用大數(shù)據(jù)行業(yè)業(yè)應(yīng)用分析析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)政府行業(yè)大大數(shù)據(jù)需求求分析1、加強(qiáng)統(tǒng)籌籌規(guī)劃,優(yōu)優(yōu)化大數(shù)據(jù)據(jù)形成機(jī)制制。強(qiáng)化對(duì)對(duì)大數(shù)據(jù)建建設(shè)工作的的組織協(xié)調(diào)調(diào),打破地地區(qū)和部門門數(shù)據(jù)壁壘壘,實(shí)現(xiàn)數(shù)據(jù)資源聯(lián)合共建、、廣泛共享享。建立政政府和社會(huì)會(huì)聯(lián)動(dòng)的大大數(shù)據(jù)形成成機(jī)制,以以政府?dāng)?shù)據(jù)據(jù)公開共享享,推動(dòng)公公共數(shù)據(jù)資資源的開發(fā)發(fā)利用。2、加強(qiáng)數(shù)據(jù)據(jù)收集和信息感知,提高智慧慧城市感知知水平。加加強(qiáng)政府部部門在管理理和服務(wù)過過程中對(duì)數(shù)數(shù)據(jù)的主動(dòng)動(dòng)采集,建建立政府大大數(shù)據(jù)庫。。鼓勵(lì)制造造業(yè)企業(yè)和和商業(yè)機(jī)構(gòu)構(gòu)加強(qiáng)對(duì)生生產(chǎn)經(jīng)營(yíng)活活動(dòng)中的數(shù)數(shù)據(jù)采集,,形成覆蓋蓋生產(chǎn)過程程和商業(yè)各各環(huán)節(jié)各流流程的數(shù)據(jù)據(jù)庫。推進(jìn)進(jìn)無線識(shí)別別技術(shù)、傳傳感器、無無線網(wǎng)絡(luò)、、傳感網(wǎng)絡(luò)絡(luò)等新技術(shù)術(shù)的廣泛應(yīng)應(yīng)用,提高高數(shù)據(jù)采集集的智能化化水平。3、推進(jìn)大數(shù)數(shù)據(jù)應(yīng)用,,提高經(jīng)濟(jì)濟(jì)社會(huì)智慧慧化水平。。推進(jìn)政務(wù)務(wù)信息公開開。推行政政府網(wǎng)上辦辦事,收集集分析挖掘掘社會(huì)政務(wù)務(wù)服務(wù)需求求,推進(jìn)公公共服務(wù)個(gè)個(gè)性化和政政府決策智智能化。支支持公共服服務(wù)機(jī)構(gòu)和和商業(yè)機(jī)構(gòu)構(gòu)開放與社社會(huì)民生密密切相關(guān)的的公共數(shù)據(jù)據(jù)。推進(jìn)國(guó)國(guó)民經(jīng)濟(jì)各各行業(yè)和企企業(yè)數(shù)據(jù)開開發(fā),發(fā)展展商業(yè)智能能。鼓勵(lì)開開展服務(wù)大大眾的大數(shù)數(shù)據(jù)應(yīng)用,,提升智慧慧生活品質(zhì)質(zhì)。政府行業(yè)大數(shù)據(jù)應(yīng)用用——智慧城市2013年1月29日,住房和和城鄉(xiāng)建設(shè)設(shè)部公布了了首批900個(gè)國(guó)家智智慧城市試試點(diǎn)名單,,試點(diǎn)城市市的公布標(biāo)標(biāo)志著我國(guó)國(guó)智慧城市市發(fā)展進(jìn)入入規(guī)模推廣廣的階段。。在目前智智慧城市的的發(fā)展階段段,主要的的應(yīng)用還處處于對(duì)感知知設(shè)備傳遞遞的信息進(jìn)進(jìn)行簡(jiǎn)單處處理的水平平,充分認(rèn)認(rèn)識(shí)大數(shù)據(jù)據(jù)對(duì)于智慧慧城市建設(shè)設(shè)的關(guān)鍵作作用,對(duì)于于避免智慧慧城市建設(shè)設(shè)中出現(xiàn)““重感知,,輕智慧””的通病具具有重要意意義。從智慧城市市的體系結(jié)結(jié)構(gòu)來看,,由于智慧慧城市的基基礎(chǔ)在于物物聯(lián)網(wǎng)技術(shù)術(shù),因此智智慧城市體系架構(gòu)和物聯(lián)聯(lián)網(wǎng)的體系系結(jié)構(gòu)相類類似,也可可分為四層層,分別為為感知層、、傳輸層、、平臺(tái)層、、應(yīng)用層。。智慧城市市相對(duì)于之之前數(shù)字城城市概念,,最大的區(qū)區(qū)別在于對(duì)對(duì)感知層獲獲取的信息息進(jìn)行了智智慧的處理理,因此也也可以認(rèn)為為智慧城市市是數(shù)字城城市的升級(jí)級(jí)版。由城城市數(shù)字化化到城市智智慧化,關(guān)關(guān)鍵是要實(shí)實(shí)現(xiàn)對(duì)數(shù)字字信息的智智慧處理,,其核心是是大數(shù)據(jù)處處理技術(shù)。。智慧城市大數(shù)據(jù)行業(yè)業(yè)應(yīng)用分析析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論