大數(shù)據(jù)應(yīng)用分析45_第1頁(yè)
大數(shù)據(jù)應(yīng)用分析45_第2頁(yè)
大數(shù)據(jù)應(yīng)用分析45_第3頁(yè)
大數(shù)據(jù)應(yīng)用分析45_第4頁(yè)
大數(shù)據(jù)應(yīng)用分析45_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于Hadoop的大數(shù)據(jù)應(yīng)用分析第一頁(yè),共四十六頁(yè)。

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析第二頁(yè),共四十六頁(yè)。IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)定義及特點(diǎn)第三頁(yè),共四十六頁(yè)。大數(shù)據(jù)對(duì)系統(tǒng)的需求Highperformance–高并發(fā)讀寫的需求

高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲(chǔ)和訪問(wèn)的需求

類似SNS網(wǎng)站,海量用戶信息的高效率實(shí)時(shí)存儲(chǔ)和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

需要擁有快速橫向擴(kuò)展能力、提供7*24小時(shí)不間斷服務(wù)第四頁(yè),共四十六頁(yè)。商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計(jì)算作為基礎(chǔ)架構(gòu),才能高效運(yùn)行通過(guò)大數(shù)據(jù)的業(yè)務(wù)需求,為云計(jì)算的落地找到了實(shí)際應(yīng)用大數(shù)據(jù)和云計(jì)算的關(guān)系大數(shù)據(jù)云計(jì)算第五頁(yè),共四十六頁(yè)。大數(shù)據(jù)市場(chǎng)分析12011年-2016年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模2各行業(yè)大數(shù)據(jù)市場(chǎng)規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。由于各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場(chǎng)空間非常可觀。2011年是中國(guó)大數(shù)據(jù)市場(chǎng)元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來(lái)大數(shù)據(jù)市場(chǎng)的飛速發(fā)展。2012年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到4.7億元,2013年大數(shù)據(jù)市場(chǎng)將迎來(lái)增速為138.3%的飛躍,到2016年,整個(gè)市場(chǎng)規(guī)模逼近百億。第六頁(yè),共四十六頁(yè)。

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析第七頁(yè),共四十六頁(yè)。大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測(cè),全球大數(shù)據(jù)市場(chǎng)2015年將達(dá)170億美元規(guī)模,市場(chǎng)發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù),因?yàn)橛欣诓⑿蟹植继幚怼按髷?shù)據(jù)”而備受重視。ApacheHadoop是一個(gè)用java語(yǔ)言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。

優(yōu)點(diǎn):可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。經(jīng)濟(jì):框架可以運(yùn)行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。第八頁(yè),共四十六頁(yè)。MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構(gòu)Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個(gè)開(kāi)源的,基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算第九頁(yè),共四十六頁(yè)。MapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計(jì)HDFSNameNode:文件管理DataNode:文件存儲(chǔ)Client:文件獲取Hadoop核心設(shè)計(jì)第十頁(yè),共四十六頁(yè)。HDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者,存儲(chǔ)文件系統(tǒng)的meta-data,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間,集群配置信息,存儲(chǔ)塊的復(fù)制。DataNode

是文件存儲(chǔ)的基本單元。它存儲(chǔ)文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時(shí)周期性的發(fā)送所有存在的文件塊的報(bào)告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

HDFS是一個(gè)高度容錯(cuò)性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。第十一頁(yè),共四十六頁(yè)。HDFS具體操作文件寫入:1.Client向NameNode發(fā)起文件寫入的請(qǐng)求2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個(gè)文件塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€(gè)DataNode塊中。

文件讀?。?.

Client向NameNode發(fā)起文件讀取的請(qǐng)求2.

NameNode返回文件存儲(chǔ)的DataNode的信息。3.Client讀取文件信息。第十二頁(yè),共四十六頁(yè)。MapReduce——映射、化簡(jiǎn)編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個(gè)split對(duì)于一個(gè)map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過(guò)程(shuffle過(guò)程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。Map(映射)和Reduce(化簡(jiǎn)),采用分而治之思想,先把任務(wù)分發(fā)到集群多個(gè)節(jié)點(diǎn)上,并行計(jì)算,然后再把計(jì)算結(jié)果合并,從而得到最終計(jì)算結(jié)果。多節(jié)點(diǎn)計(jì)算,所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯(cuò)處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。第十三頁(yè),共四十六頁(yè)。HBASE——分布式數(shù)據(jù)存儲(chǔ)HBase–HadoopDatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng);HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持,MapReduce為HBase提供了高性能的計(jì)算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制;Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變的簡(jiǎn)單。第十四頁(yè),共四十六頁(yè)。

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析第十五頁(yè),共四十六頁(yè)。Hadoop主要開(kāi)發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問(wèn)題時(shí),往往會(huì)使用開(kāi)源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對(duì)一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle第十六頁(yè),共四十六頁(yè)。Hadoop主要開(kāi)發(fā)廠商——CLOUDERA在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司,為合作伙伴提供Hadoop的商用解決方案,主要是包括支持,咨詢服務(wù)和培訓(xùn)。Cloudera的客戶中倒是有很多知名公司,如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。第十七頁(yè),共四十六頁(yè)。Hadoop主要開(kāi)發(fā)廠商——Hortonworks

2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開(kāi)始協(xié)助雅虎開(kāi)發(fā)Hadoop,這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP),包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。第十八頁(yè),共四十六頁(yè)。InfoSphereBigInsights是一個(gè)軟件平臺(tái),旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析,如日志記錄、點(diǎn)擊流、社會(huì)媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出,甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語(yǔ)言、針對(duì)IBM的DB2數(shù)據(jù)庫(kù)的連接件以及IBMBigSheets。IBM通過(guò)其智慧云企業(yè)(SmartCloudEnterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來(lái)提供??蛻舨槐刭?gòu)買支持性硬件,也不需要IT專門知識(shí),就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱,客戶用30分鐘就能搭建起Hadoop集群,并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。Hadoop主要開(kāi)發(fā)廠商——IBM第十九頁(yè),共四十六頁(yè)。Hadoop主要開(kāi)發(fā)廠商——ORACLEOracle

BigData機(jī)與Oracle

Exadata數(shù)據(jù)庫(kù)云服務(wù)器以及新推出的Oracle

Exalytics商務(wù)智能云服務(wù)器,為客戶提供了一個(gè)端到端的大數(shù)據(jù)解決方案,從而為客戶在企業(yè)內(nèi)獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價(jià)值提供了所需要的一切條件。OracleBigData機(jī)是一款集成設(shè)計(jì)的系統(tǒng),并且針對(duì)獲取、組織以及將非結(jié)構(gòu)化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫(kù)11g之中的整個(gè)流程進(jìn)行優(yōu)化。OracleBigData機(jī)包括開(kāi)源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫(kù)、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器。第二十頁(yè),共四十六頁(yè)。

EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD,同時(shí)發(fā)布的還有一個(gè)名為HAWQ的技術(shù),通過(guò)HAWQ能夠?qū)reenplum分析型數(shù)據(jù)庫(kù)與Hadoop分布式架構(gòu)進(jìn)行緊密地融合。PivotalHD對(duì)ApacheHadoop進(jìn)行了全面的改造,同其他一些Hadoop發(fā)行版相比,其最大的優(yōu)勢(shì)就是能夠與Greenplum數(shù)據(jù)庫(kù)進(jìn)行整合,PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)一步,同時(shí)將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個(gè)重要里程碑。Hadoop主要開(kāi)發(fā)廠商——EMC第二十一頁(yè),共四十六頁(yè)。基于在大數(shù)據(jù)領(lǐng)域的長(zhǎng)期技術(shù)積累和應(yīng)用經(jīng)驗(yàn),英特爾推出成熟的企業(yè)級(jí)Hadoop發(fā)行版,為企業(yè)和政府部門實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用提供強(qiáng)有力的平臺(tái)支持。英特爾在Hadoop上的改進(jìn)和功能增強(qiáng)為用戶提供了一個(gè)高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應(yīng)用實(shí)施平臺(tái),并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國(guó)推廣的兩年多時(shí)間里,已經(jīng)在電信行業(yè)、智能交通行業(yè)有多個(gè)成功應(yīng)用。Hadoop主要開(kāi)發(fā)廠商——INTEL第二十二頁(yè),共四十六頁(yè)。

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析第二十三頁(yè),共四十六頁(yè)。大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:

表示該用戶的IT應(yīng)用特點(diǎn)與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:

該位置為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點(diǎn)與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點(diǎn)與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個(gè)維度暫時(shí)都不具備優(yōu)勢(shì),可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造第二十四頁(yè),共四十六頁(yè)。金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——互聯(lián)網(wǎng)行業(yè)政府行業(yè)第二十五頁(yè),共四十六頁(yè)。網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級(jí)和終端設(shè)備的爆發(fā),使今天的用戶能夠使用多種設(shè)備、從不同位置、通過(guò)多種手段來(lái)接入互聯(lián)網(wǎng),并在這一過(guò)程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來(lái)越豐富的在線應(yīng)用和服務(wù),不斷激勵(lì)用戶創(chuàng)造和分享信息,尤其是社會(huì)化媒體業(yè)務(wù),帶動(dòng)圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長(zhǎng)與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個(gè)高滲透力的行業(yè),正在與各垂直行業(yè)發(fā)生深度的融合,原本隱藏于先下的孤島信息,源源不斷的輸入到線上?;ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用,會(huì)首先帶動(dòng)社會(huì)化媒體、電子商務(wù)的快速發(fā)展,其他的互聯(lián)網(wǎng)分支也會(huì)緊追其后,整個(gè)行業(yè)在大數(shù)據(jù)的推動(dòng)下將會(huì)蓬勃發(fā)展?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析互聯(lián)網(wǎng)行業(yè)對(duì)數(shù)據(jù)實(shí)時(shí)分析要求較高,例如廣告監(jiān)測(cè)、B2C業(yè)務(wù),往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗(yàn)和快速準(zhǔn)確營(yíng)銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對(duì)大數(shù)據(jù),會(huì)普遍感覺(jué)到實(shí)時(shí)分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問(wèn)題?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問(wèn)題第二十六頁(yè),共四十六頁(yè)。公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點(diǎn)數(shù):15臺(tái)機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置:8核CPU,16G內(nèi)存,1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析,同時(shí)使用它做一些網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘工作。節(jié)點(diǎn)數(shù):10-500個(gè)節(jié)點(diǎn)。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲(chǔ)內(nèi)部日志的拷貝,作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。主要使用了2個(gè)集群:一個(gè)由1100臺(tái)節(jié)點(diǎn)組成的集群,包括8800核CPU(即每臺(tái)機(jī)器8核),和12000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),一個(gè)有300臺(tái)節(jié)點(diǎn)組成的集群,包括2400核CPU(即每臺(tái)機(jī)器8核),和3000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤),由此基礎(chǔ)上開(kāi)發(fā)了基于SQL語(yǔ)法的項(xiàng)目:HIVEHADOOP在TWITTER使用HADOOP用于存儲(chǔ)微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲(chǔ)壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁(yè)搜索機(jī)器數(shù):25000,CPU:8核集群機(jī)器數(shù):

4000

個(gè)節(jié)點(diǎn)

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)Hadoop應(yīng)用第二十七頁(yè),共四十六頁(yè)。大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)第二十八頁(yè),共四十六頁(yè)。金融行業(yè)大數(shù)據(jù)發(fā)展分析

IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)的理念已經(jīng)在中國(guó)金融行業(yè)形成共識(shí),數(shù)據(jù)的真正價(jià)值在于能夠洞察企業(yè)內(nèi)部規(guī)律,數(shù)據(jù)的洞察力成為金融企業(yè)的核心競(jìng)爭(zhēng)力。在中國(guó)金融行業(yè)信息化建設(shè)中,與信息加工密切相關(guān)的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務(wù)系統(tǒng)建設(shè)、渠道建設(shè)和前置建設(shè)同等重要的領(lǐng)域。經(jīng)過(guò)多年的發(fā)展與積累,目前中國(guó)的大型商業(yè)銀行和保險(xiǎn)公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級(jí)別,并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長(zhǎng)。金融行業(yè)大數(shù)據(jù)需求背景從未來(lái)幾年看,金融行業(yè)在“十二五”時(shí)期面臨發(fā)展方式轉(zhuǎn)型的挑戰(zhàn),轉(zhuǎn)型主要集中在三大方面:一,建立全面的風(fēng)險(xiǎn)管理體制,向嚴(yán)監(jiān)管轉(zhuǎn)型;二,從粗放式管理向精細(xì)化管理轉(zhuǎn)型;三,從“利潤(rùn)為中心”向“客戶為中心”轉(zhuǎn)型。大數(shù)據(jù)在加強(qiáng)風(fēng)險(xiǎn)管控、精細(xì)化管理、服務(wù)創(chuàng)新等轉(zhuǎn)型中別具現(xiàn)實(shí)意義,是實(shí)現(xiàn)向信息化銀行轉(zhuǎn)型的重要推動(dòng)力。金融行業(yè)應(yīng)首先在戰(zhàn)略層面對(duì)大數(shù)據(jù)進(jìn)行規(guī)劃,積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),推進(jìn)并建立數(shù)據(jù)驅(qū)動(dòng)型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析第二十九頁(yè),共四十六頁(yè)。摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開(kāi)始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢驗(yàn)、IT風(fēng)險(xiǎn)管理和自助服務(wù)。150PB在線存儲(chǔ)數(shù)據(jù)、30,000個(gè)數(shù)據(jù)庫(kù)和35億個(gè)用戶登錄賬號(hào)。Hadoop能夠存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù),允許公司收集和存儲(chǔ)Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個(gè)通用平臺(tái),以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。第三十頁(yè),共四十六頁(yè)。Zions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)了120多個(gè)不同類型的數(shù)據(jù),包括交易日志,日志,欺詐警報(bào),服務(wù)器日志,防火墻日志和IDS日志跨整個(gè)企業(yè)進(jìn)行數(shù)據(jù)挖掘,加快取證調(diào)查并提高欺詐偵測(cè),以及整體安全性利用Hadoop來(lái)存儲(chǔ)所有數(shù)據(jù),并對(duì)客戶交易和現(xiàn)貨異常進(jìn)行判斷,對(duì)可能存在欺詐行為提前預(yù)警的基于Hadoop的安全數(shù)據(jù)倉(cāng)庫(kù),迅速對(duì)來(lái)自各種源頭的惡意軟件威脅作出響應(yīng)并對(duì)抗它們美國(guó)地區(qū)性銀行ZionsBancorp(ZIONS)第三十一頁(yè),共四十六頁(yè)。32大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長(zhǎng)迅速:2008年發(fā)卡約500萬(wàn)張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長(zhǎng)迅速:隨著業(yè)務(wù)的迅猛增長(zhǎng),業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉(cāng)庫(kù)解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過(guò)從數(shù)據(jù)倉(cāng)庫(kù)提取數(shù)據(jù),改進(jìn)和推動(dòng)有針對(duì)性的營(yíng)銷活動(dòng)。采用大數(shù)據(jù)方案后價(jià)值體現(xiàn)實(shí)時(shí)的商業(yè)智能可以結(jié)合實(shí)時(shí)、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險(xiǎn)管理部門現(xiàn)在可以每天評(píng)估客戶的行為,并決定對(duì)客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級(jí)營(yíng)銷Greenplum數(shù)據(jù)倉(cāng)庫(kù)解決方案提供了統(tǒng)一的客戶視圖,更有針對(duì)的進(jìn)行營(yíng)銷。2011年,中信銀行信用卡中心通過(guò)其數(shù)據(jù)庫(kù)營(yíng)銷平臺(tái)進(jìn)行了1286個(gè)宣傳活動(dòng),每個(gè)營(yíng)銷活動(dòng)配置平均時(shí)間從2周縮短到2-3天。EMCGreen-plum中信銀行信用卡中心基于Hadoop的大數(shù)據(jù)應(yīng)用未來(lái)和基于Hadoop的PivotalHD相融合第三十二頁(yè),共四十六頁(yè)。大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)第三十三頁(yè),共四十六頁(yè)。

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,運(yùn)營(yíng)商的網(wǎng)絡(luò)將會(huì)更加繁忙,用于監(jiān)測(cè)網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會(huì)快速增長(zhǎng)。通過(guò)大數(shù)據(jù)的海量分布式存儲(chǔ)技術(shù),可以更好地滿足存儲(chǔ)需求;通過(guò)智能分析技術(shù),能夠提高網(wǎng)絡(luò)維護(hù)的實(shí)時(shí)性,預(yù)測(cè)網(wǎng)絡(luò)流量峰值,預(yù)警異常流量,有效防止網(wǎng)絡(luò)堵塞和宕機(jī),為網(wǎng)絡(luò)改造、優(yōu)化提供參考,從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,提升用戶體驗(yàn)。提升網(wǎng)絡(luò)服務(wù)質(zhì)量,增強(qiáng)管道智能化客戶洞察是指在企業(yè)或部門層面對(duì)客戶數(shù)據(jù)的全面掌握并在市場(chǎng)營(yíng)銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過(guò)使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運(yùn)營(yíng)商能夠整合來(lái)自市場(chǎng)部門、銷售部門、服務(wù)部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對(duì)客戶形象進(jìn)行精準(zhǔn)刻畫,以尋找目標(biāo)客戶,制定有針對(duì)性的營(yíng)銷計(jì)劃、產(chǎn)品組合或商業(yè)決策,提升客戶價(jià)值。判斷客戶對(duì)企業(yè)產(chǎn)品、服務(wù)的感知,有針對(duì)性地進(jìn)行改進(jìn)和完善。通過(guò)情感分析、語(yǔ)義分析等技術(shù),可以針對(duì)客戶的喜好、情緒,進(jìn)行個(gè)性化的業(yè)務(wù)推薦更加精準(zhǔn)地洞察客戶需求,增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國(guó)計(jì)民生的行業(yè),都具有極大的信息化需求。目前,電信運(yùn)營(yíng)商針對(duì)智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商,對(duì)于客戶的價(jià)值主要體現(xiàn)在網(wǎng)絡(luò)化、自動(dòng)化等較低水平。而隨著社會(huì)、經(jīng)濟(jì)的發(fā)展,客戶及客戶的客戶對(duì)于智能化的要求將逐步強(qiáng)烈,因此運(yùn)營(yíng)商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中,幫助客戶通過(guò)數(shù)據(jù)采集、存儲(chǔ)和分析更好地進(jìn)行決策,將能極大提升信息化服務(wù)的價(jià)值升級(jí)行業(yè)信息化解決方案,提升客戶價(jià)值大數(shù)據(jù)也有大風(fēng)險(xiǎn),其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險(xiǎn)。由于大量的數(shù)據(jù)產(chǎn)生、存儲(chǔ)和分析,數(shù)據(jù)保密和隱私問(wèn)題將在未來(lái)幾年內(nèi)成為一個(gè)更大的問(wèn)題,企業(yè)必須提供數(shù)據(jù)安全服務(wù),在大數(shù)據(jù)市場(chǎng)建立差異化競(jìng)爭(zhēng)優(yōu)勢(shì)電信行業(yè)大數(shù)據(jù)需求分析第三十四頁(yè),共四十六頁(yè)。中國(guó)移動(dòng)基于Hadoop的大數(shù)據(jù)應(yīng)用在中國(guó)移動(dòng)“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲(chǔ)和分析平臺(tái),在技術(shù)路線方面,選擇數(shù)據(jù)倉(cāng)庫(kù)與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力,同時(shí)也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲(chǔ)的低成本。屏蔽Hadoop與數(shù)據(jù)倉(cāng)庫(kù)的使用細(xì)節(jié),讓用戶在使用這些數(shù)據(jù)時(shí)盡量無(wú)感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時(shí)降低成本。

第三十五頁(yè),共四十六頁(yè)。中國(guó)聯(lián)通已經(jīng)構(gòu)建了一個(gè)全國(guó)集中的一級(jí)架構(gòu)海量數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng):通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng),在集團(tuán)公司進(jìn)行統(tǒng)一部署,各個(gè)省分僅僅是做數(shù)據(jù)的采集,按照業(yè)務(wù)實(shí)時(shí)性將數(shù)據(jù)傳送到集團(tuán)公司,由集團(tuán)公司統(tǒng)一處理,全國(guó)所有用戶所有上網(wǎng)記錄數(shù)據(jù)都放北京數(shù)據(jù)中心里,在國(guó)內(nèi)電信行業(yè)當(dāng)中也是首創(chuàng)的方式。中國(guó)聯(lián)通成功將大數(shù)據(jù)和Hadoop技術(shù)引入到‘移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)’。截止到目前已經(jīng)部署了4.5PB的存儲(chǔ)空間。其中,4.5PB的存儲(chǔ)分布在300個(gè)數(shù)據(jù)節(jié)點(diǎn)上,即每個(gè)節(jié)點(diǎn)配備15TB的存儲(chǔ)空間。系統(tǒng)每天有能力處理700億條上網(wǎng)記錄。中國(guó)聯(lián)通基于Hadoop的大數(shù)據(jù)應(yīng)用第三十六頁(yè),共四十六頁(yè)。大數(shù)據(jù)行業(yè)應(yīng)用分析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)第三十七頁(yè),共四十六頁(yè)。政府行業(yè)大數(shù)據(jù)需求分析1、加強(qiáng)統(tǒng)籌規(guī)劃,優(yōu)化大數(shù)據(jù)形成機(jī)制。強(qiáng)化對(duì)大數(shù)據(jù)建設(shè)工作的組織協(xié)調(diào),打破地區(qū)和部門數(shù)據(jù)壁壘,實(shí)現(xiàn)數(shù)據(jù)資源聯(lián)合共建、廣泛共享。建立政府和社會(huì)聯(lián)動(dòng)的大數(shù)據(jù)形成機(jī)制,以政府?dāng)?shù)據(jù)公開(kāi)共享,推動(dòng)公共數(shù)據(jù)資源的開(kāi)發(fā)利用。

2、加強(qiáng)數(shù)據(jù)收集和信息感知,提高智慧城市感知水平。加強(qiáng)政府部門在管理和服務(wù)過(guò)程中對(duì)數(shù)據(jù)的主動(dòng)采集,建立政府大數(shù)據(jù)庫(kù)。鼓勵(lì)制造業(yè)企業(yè)和商業(yè)機(jī)構(gòu)加強(qiáng)對(duì)生產(chǎn)經(jīng)營(yíng)活動(dòng)中的數(shù)據(jù)采集,形成覆蓋生產(chǎn)過(guò)程和商業(yè)各環(huán)節(jié)各流程的數(shù)據(jù)庫(kù)。推進(jìn)無(wú)線識(shí)別技術(shù)、傳感器、無(wú)線網(wǎng)絡(luò)、傳感網(wǎng)絡(luò)等新技術(shù)的廣泛應(yīng)用,提高數(shù)據(jù)采集的智能化水平。3、推進(jìn)大數(shù)據(jù)應(yīng)用,提高經(jīng)濟(jì)社會(huì)智慧化水平。推進(jìn)政務(wù)信息公開(kāi)。推行政府網(wǎng)上辦事,收集分析挖掘社會(huì)政務(wù)服務(wù)需求,推進(jìn)公共服務(wù)個(gè)性化和政府決策智能化。支持公共服務(wù)機(jī)構(gòu)和商業(yè)機(jī)構(gòu)開(kāi)放與社會(huì)民生密切相關(guān)的公共數(shù)據(jù)。推進(jìn)國(guó)民經(jīng)濟(jì)各行業(yè)和企業(yè)數(shù)據(jù)開(kāi)發(fā),發(fā)展商業(yè)智能。鼓勵(lì)開(kāi)展服務(wù)大眾的大數(shù)據(jù)應(yīng)用,提升智慧生活品質(zhì)。第三十八頁(yè),共四十六頁(yè)。政府行業(yè)大數(shù)據(jù)應(yīng)用——智慧城市2013年1月29日,住房和城鄉(xiāng)建設(shè)部公布了首批90個(gè)國(guó)家智慧城市試點(diǎn)名單,試點(diǎn)城市的公布標(biāo)志著我國(guó)智慧城市發(fā)展進(jìn)入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應(yīng)用還處于對(duì)感知設(shè)備傳遞的信息進(jìn)行簡(jiǎn)單處理的水平,充分認(rèn)識(shí)大數(shù)據(jù)對(duì)于智慧城市建設(shè)的關(guān)鍵作用,對(duì)于避免智慧城市建設(shè)中出現(xiàn)“重感知,輕智慧”的通病具有重要意義。

從智慧城市的體系結(jié)構(gòu)來(lái)看,由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù),因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似,也可分為四層,分別為感知層、傳輸層、平臺(tái)層、應(yīng)用層。智慧城市相對(duì)于之前數(shù)字城市概念,最大的區(qū)別在于對(duì)感知層獲取的信息進(jìn)行了智慧的處理,因此也可以認(rèn)為智慧城市是數(shù)字城市的升級(jí)版。由城市數(shù)字化到城市智慧化,關(guān)鍵是要實(shí)現(xiàn)對(duì)數(shù)字信息的智慧處理,其核心是大數(shù)據(jù)處理技術(shù)。智慧城市第三十九頁(yè),共四十六頁(yè)。大數(shù)據(jù)行業(yè)應(yīng)用分析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)第四十頁(yè),共四十六頁(yè)。醫(yī)療行業(yè)大數(shù)據(jù)需求分析醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來(lái)自于PACS影像、B超、病理分析等業(yè)務(wù)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。人體不同部位、不同??朴跋竦臄?shù)據(jù)文件大小不一,PACS網(wǎng)絡(luò)存儲(chǔ)和傳輸要采取不同策略。面對(duì)大數(shù)據(jù),醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機(jī)遇。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景非常多,右圖僅以臨床操作和研發(fā)為例,展示醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景。對(duì)于公共衛(wèi)生部門,可以通過(guò)過(guò)覆蓋全國(guó)的患者電子

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論