網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)(39張)課件_第1頁(yè)
網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)(39張)課件_第2頁(yè)
網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)(39張)課件_第3頁(yè)
網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)(39張)課件_第4頁(yè)
網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)(39張)課件_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)5. 大數(shù)據(jù)技術(shù)5.1 大數(shù)據(jù)的定義5.2 大數(shù)據(jù)的技術(shù)特征5.3 大數(shù)據(jù)的典型應(yīng)用5.4 大數(shù)據(jù)的發(fā)展趨勢(shì)一組數(shù)據(jù)3億用戶,每天上億條微博.2015年全球移動(dòng)終端產(chǎn)生的數(shù)據(jù)量6300PB Facebook每天要存儲(chǔ)大約100TB的用戶數(shù)據(jù);NASA 美國(guó)宇航局每天要處理約24TB的數(shù)據(jù)微信國(guó)內(nèi)用戶4億,國(guó)外用戶突破7千萬(wàn),每天產(chǎn)生數(shù)據(jù)百度每天處理數(shù)據(jù)量100PB大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006 年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011 年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有

2、市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020 年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44 倍,達(dá)到35.2ZB(1ZB=10 億TB)!1PB (拍字節(jié)) = 250字節(jié)1EB (艾字節(jié)) = 260字節(jié)1ZB (澤字節(jié)) = 270字節(jié)大數(shù)據(jù)概念和特征什么是大數(shù)據(jù)(Big data)?維基百科的定義:大數(shù)據(jù)指難以用常用的軟件工具在可容忍時(shí)間內(nèi)抓取、管理以及處理的數(shù)據(jù)集(一般單個(gè)數(shù)據(jù)集大小在10T左右)。大數(shù)據(jù)之所以在最近走紅,主要?dú)w結(jié)于互聯(lián)網(wǎng)、移動(dòng)設(shè)備、物聯(lián)網(wǎng)和云 計(jì)算等快速崛起,全球數(shù)據(jù)量大大提升?!按髷?shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革2006年左右,數(shù)據(jù)量已足夠大,但是當(dāng)時(shí)大數(shù)據(jù)不紅,w

3、hy?為什么叫大數(shù)據(jù):一是數(shù)量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍絕大部分應(yīng)用在這兩個(gè)數(shù)量級(jí)二是類型多結(jié)構(gòu)特征:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化擁有特征:私有、共有、公開(kāi)形態(tài)特征:語(yǔ)音、文本、數(shù)值、圖像、視頻為什么叫大數(shù)據(jù):二是類型多三是更接近把握信息資源的本質(zhì)大數(shù)據(jù)真正開(kāi)始把信息變成資源有的文章將大數(shù)據(jù)看作石油,大數(shù)據(jù)研究與自然資源利用發(fā)現(xiàn)、開(kāi)采、提煉存在一定的相似之處研究大數(shù)據(jù),首先要研究各種有用的信息在何處,就是找

4、礦其次是把滿足特定需求的信息收集過(guò)來(lái),就是開(kāi)礦第三是把收集的信息按應(yīng)用需求進(jìn)行結(jié)構(gòu)化處理,就是提煉,如同石油必須經(jīng)過(guò)煉化才能變成消費(fèi)用的汽油、柴油或作為原料用的聚乙烯、聚丙烯第四是將這樣的信息與具體的應(yīng)用結(jié)合,使之發(fā)揮作用,這就是基于大數(shù)據(jù)的應(yīng)用系統(tǒng),或稱之為圍繞應(yīng)用的大數(shù)據(jù)管理系統(tǒng),如同汽油通過(guò)加油站加到消費(fèi)者的汽車內(nèi),石化原料變成衣服、設(shè)備或其部件。大數(shù)據(jù)的各部分組成大數(shù)據(jù)技術(shù):圖像、音頻、視頻、非結(jié)構(gòu)化、社交關(guān)系數(shù)據(jù)處理技術(shù)商;現(xiàn)有IT系統(tǒng)改造商:大數(shù)據(jù)咨詢公司、集成商、ERP、商務(wù)智能、客戶關(guān)系管理系統(tǒng);終端提供商向數(shù)據(jù)提供商演進(jìn):對(duì)現(xiàn)有客戶數(shù)據(jù)的深度把握、建立客戶之間的社交和聯(lián)系;展

5、現(xiàn)方式:大型控制中心、移動(dòng)終端在多樣性、體量、速度三大特征的指引下,大數(shù)據(jù)將有新型的展現(xiàn)方式:大型控制中心和移動(dòng)終端,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理和快速?zèng)Q策。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析擴(kuò)展到傳感、互聯(lián)網(wǎng)、交易等多來(lái)源多類型數(shù)據(jù)來(lái)源單一,以內(nèi)部結(jié)構(gòu)化數(shù)據(jù)為主主要是面向結(jié)構(gòu)化數(shù)據(jù)和事務(wù)處理的關(guān)系型數(shù)據(jù)庫(kù)擴(kuò)展到面向非結(jié)構(gòu)化數(shù)據(jù)和分析處理的非關(guān)系型數(shù)據(jù)庫(kù)依賴高性能計(jì)算機(jī),主要利用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法需用分布式并行計(jì)算,Scale out能力,以機(jī)器學(xué)習(xí)算法為主局限在金融、保險(xiǎn)、零售、電信等少數(shù)領(lǐng)域,以決策支撐為主有望滲透到政府、醫(yī)療、交通等各個(gè)領(lǐng)域,嵌入到業(yè)務(wù)流程中來(lái)

6、源廣,3V非結(jié)構(gòu)化和面向分析為主分布式并行架構(gòu)結(jié)合機(jī)器學(xué)習(xí)算法更廣的領(lǐng)域,更深入的嵌入業(yè)務(wù)流大數(shù)據(jù)系統(tǒng)的特點(diǎn)大數(shù)據(jù)資源大數(shù)據(jù)工具大數(shù)據(jù)理念11大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)通信等都是近年涌現(xiàn)出來(lái)的新興概念,彼此之間不是孤立的,而是存在著內(nèi)部聯(lián)系。大數(shù)據(jù)帶來(lái)的思維方式的變化處理的對(duì)象往往是全部數(shù)據(jù),而不是部分?jǐn)?shù)據(jù)的采樣采樣的不合理會(huì)導(dǎo)致預(yù)測(cè)結(jié)果的偏差,在大數(shù)據(jù)時(shí)代,依靠強(qiáng)大的數(shù)據(jù)處理能力,應(yīng)該去處理全部的數(shù)據(jù)。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫(kù)處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才能處理另外95%的數(shù)據(jù)。錯(cuò)誤的數(shù)據(jù)是客觀存在的,竭力避免它就失去了

7、應(yīng)有的客觀性和公平性。大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效。更加關(guān)注相關(guān)性,而不是因果性預(yù)測(cè)依靠的是相關(guān)性。很多情況下知道“是什么”即可,不必知道“為什么”。大數(shù)據(jù)的價(jià)值鏈數(shù)據(jù)數(shù)據(jù)的掌控者,擁有或者可以收集大量數(shù)據(jù)的公司。海量的數(shù)據(jù)就是財(cái)富,可以考慮自己分析或者賣數(shù)據(jù)給其他公司。技術(shù)技術(shù)供應(yīng)商或者分析公司。掌握了從海量數(shù)據(jù)中分析出有用信息的技能或者工具,但本身不一定擁有數(shù)據(jù)。思維有創(chuàng)新思維的人或者公司。他們對(duì)大數(shù)據(jù)敏感,有怎樣挖掘數(shù)據(jù)的新價(jià)值的獨(dú)特想法。2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consulting Corporation第 15 頁(yè)大數(shù)據(jù)基礎(chǔ)架

8、構(gòu)要求可預(yù)測(cè)的低延遲高事務(wù)參數(shù)靈活的數(shù)據(jù)結(jié)構(gòu)高吞吐量就地準(zhǔn)備所有數(shù)據(jù)源和結(jié)構(gòu)深度分析敏捷開(kāi)發(fā)高度可伸縮性實(shí)時(shí)流數(shù)據(jù)運(yùn)營(yíng)影響5. 大數(shù)據(jù)技術(shù)5.1 大數(shù)據(jù)的定義5.2 大數(shù)據(jù)的技術(shù)特征5.3 大數(shù)據(jù)的典型應(yīng)用5.4 大數(shù)據(jù)的發(fā)展趨勢(shì)大數(shù)據(jù)的技術(shù)特征數(shù)據(jù)結(jié)構(gòu): 結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)數(shù)據(jù)模型:關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)處理特性:OLTP與OLAP數(shù)據(jù)一致性:強(qiáng)一致性與最終一致性數(shù)據(jù)存儲(chǔ)方式:行式存儲(chǔ)與列式存儲(chǔ)數(shù)據(jù)庫(kù)存儲(chǔ)與處理架構(gòu):SMP與MPP數(shù)據(jù)存儲(chǔ)架構(gòu):傳統(tǒng)分布式文件與新型分布式文件數(shù)據(jù)處理架構(gòu):基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)(MapReduce)17數(shù)據(jù)的結(jié)構(gòu)結(jié)構(gòu)化、非結(jié)構(gòu)化

9、、半結(jié)構(gòu)化數(shù)據(jù)對(duì)比項(xiàng)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半非結(jié)構(gòu)化數(shù)據(jù)定義有數(shù)據(jù)結(jié)構(gòu)描述信息的數(shù)據(jù)不方便用固定結(jié)構(gòu)來(lái)表現(xiàn)的數(shù)據(jù)介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)結(jié)構(gòu)與內(nèi)容的關(guān)系先有結(jié)構(gòu)、再有數(shù)據(jù)只有數(shù)據(jù),沒(méi)有結(jié)構(gòu)先有數(shù)據(jù),再有結(jié)構(gòu)示例各類表格圖形、圖像、音頻、視頻信息HTML文檔,它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都是客觀存在,大數(shù)據(jù)技術(shù)需要涵蓋兩者18數(shù)據(jù)庫(kù)數(shù)據(jù)模型關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型數(shù)據(jù)庫(kù)在大數(shù)據(jù)技術(shù)中非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)是必不可少的,但關(guān)系數(shù)據(jù)庫(kù)也是不可或缺的對(duì)比項(xiàng)關(guān)系型數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)定義創(chuàng)建在關(guān)系模型基礎(chǔ)上,借助于集合代數(shù)等數(shù)學(xué)概念和方法來(lái)處理數(shù)據(jù)庫(kù)

10、中的數(shù)據(jù)關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成沒(méi)有標(biāo)準(zhǔn)定義包括:表存儲(chǔ)數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)數(shù)據(jù)庫(kù)、面向文檔的數(shù)據(jù)庫(kù)等接口語(yǔ)言SQL(Structured Query Language,結(jié)構(gòu)化查詢語(yǔ)言),對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行查詢、操作和管理無(wú)統(tǒng)一標(biāo)準(zhǔn)包括:各自定義的API、類SQL、MR等典型案例Oracel、DB2、Sybase、SQL Server、Mysql、Postgresql等新型的MPP RDB(Greenplum)也屬于關(guān)系型數(shù)據(jù)庫(kù)Hbase、MongoDB、Redis19數(shù)據(jù)處理特性O(shè)LTP與OLAP比較項(xiàng)聯(lián)機(jī)事務(wù)處理OLTP( On-Line Transac

11、tion Processing )聯(lián)機(jī)分析處理OLAP( On-Line Analytical Processing )基本類型業(yè)務(wù)操作型業(yè)務(wù)分析型數(shù)據(jù)特性對(duì)一條記錄數(shù)據(jù)會(huì)多次修改,支持大量并發(fā)用戶添加和修改數(shù)據(jù)數(shù)據(jù)寫入后基本不再修改,能較好地支持大量并發(fā)用戶進(jìn)行大數(shù)據(jù)量查詢技術(shù)特性確保數(shù)據(jù)的一致性確保事務(wù)的完整性數(shù)據(jù)讀寫實(shí)時(shí)性高支持多維數(shù)據(jù)以及對(duì)多維數(shù)據(jù)的復(fù)雜分析大數(shù)據(jù)量數(shù)據(jù)量GB-TB級(jí)TB-PB級(jí)典型示例銀行業(yè)務(wù)系統(tǒng)/數(shù)據(jù)庫(kù)各類決策分析系統(tǒng)/數(shù)據(jù)庫(kù)OLTP以業(yè)務(wù)操作型為主,OLAP以業(yè)務(wù)分析性為主,兩者對(duì)技術(shù)的要求很難兼顧20數(shù)據(jù)一致性:強(qiáng)一致性與最終一致性強(qiáng)一致性和最終一致性都是指客戶

12、端向數(shù)據(jù)庫(kù)系統(tǒng)寫入數(shù)據(jù)后,數(shù)據(jù)庫(kù)系統(tǒng)能夠提供的數(shù)據(jù)一致性的表現(xiàn)對(duì)比項(xiàng)強(qiáng)一致性(即時(shí)一致性)最終一致性弱一致性場(chǎng)景定義假定三個(gè)進(jìn)程A、B、C是互相獨(dú)立的,且都在對(duì)存儲(chǔ)系統(tǒng)進(jìn)行讀寫操作數(shù)據(jù)一致性表現(xiàn)A寫入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,存儲(chǔ)系統(tǒng)能夠保證后續(xù)任何時(shí)刻發(fā)起讀操作的B、C 可以讀到A寫入的數(shù)據(jù)A寫入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,經(jīng)過(guò)一定時(shí)間,或者在某個(gè)特定操作后,B、C最終會(huì)讀到A寫入的數(shù)據(jù)A寫入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,存儲(chǔ)系統(tǒng)不能夠保證后續(xù)發(fā)起讀操作的B、C可以讀到A寫入的數(shù)據(jù)示例OLTP需要強(qiáng)一致性O(shè)LAP需最終一致性絕大多數(shù)應(yīng)用不能夠容忍弱一致性21數(shù)據(jù)存儲(chǔ)方式行式存儲(chǔ)與列式存儲(chǔ)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)主要采用行存儲(chǔ)模式

13、,海量數(shù)據(jù)的高效存儲(chǔ)和訪問(wèn)要求引發(fā)了從行存儲(chǔ)模式向列存儲(chǔ)模式的轉(zhuǎn)變行存儲(chǔ)用戶生日聊天記錄日均在線時(shí)長(zhǎng)用戶11981-10-3Xxxx yyyy.2用戶21990-5-15Mm nnn 3.7用戶11981-10-3Xxxx yyyy.2用戶21990-5-15Mm nnn 3.7列存儲(chǔ)用戶11981-10-3用戶21990-5-15用戶1Xxxx yyyy . 用戶2Mm nnn .用戶12用戶23.7行存儲(chǔ)列存儲(chǔ)存儲(chǔ)一行中各列一起存放,單行集中存儲(chǔ)一行中各列獨(dú)立存放,單列集中存儲(chǔ)索引效率海量數(shù)據(jù)索引既占用大量空間,且索引效率會(huì)隨著數(shù)據(jù)增長(zhǎng)越來(lái)越低基于列自動(dòng)索引,海量數(shù)據(jù)查詢效率高,不產(chǎn)生額外

14、存儲(chǔ)空間效率同一行不同列數(shù)據(jù)類型不同,壓縮效率低空值列依然占據(jù)空間列同數(shù)據(jù)類型,壓縮效率高空值不占空間I/O查某列必須讀出整行,I/O負(fù)荷高、速度慢只需讀出某列數(shù)據(jù),I/O低速度快結(jié)構(gòu)表結(jié)構(gòu)改變影響很大可隨時(shí)動(dòng)態(tài)增加列適用場(chǎng)景數(shù)據(jù)寫入后需要修改和刪除,基于行的反復(fù)查詢,多用于OLTP數(shù)據(jù)庫(kù)批量數(shù)據(jù)一次寫入和基于少量列的反復(fù)查詢,多用于OLAP數(shù)據(jù)庫(kù)樣例數(shù)據(jù)表22數(shù)據(jù)庫(kù)存儲(chǔ)與處理架構(gòu)SMP與MPP在數(shù)據(jù)量急劇膨脹的背景下,數(shù)據(jù)庫(kù)處理要求超出了單機(jī)或SMP架構(gòu)能力范圍,最高配置小型機(jī)也無(wú)法滿足,所以在大數(shù)據(jù)技術(shù)中,MPP架構(gòu)(計(jì)算分布+存儲(chǔ)分布)架構(gòu)成為主流計(jì)算分布,存儲(chǔ)集中DB Serv共享磁盤

15、DB ServDB ServDB Serv網(wǎng)絡(luò)SAN/FC計(jì)算集中,存儲(chǔ)集中DB Serv磁盤計(jì)算分布,存儲(chǔ)分布DB ServDB ServDB ServDB Serv高速通信網(wǎng)絡(luò)磁盤磁盤磁盤磁盤Master如:Oracle傳統(tǒng)單機(jī)數(shù)據(jù)庫(kù)如:Oracle RAC小型機(jī)+共享盤陣如:Greenplum、HbaseX86+本地硬盤傳統(tǒng)單機(jī)數(shù)據(jù)庫(kù)SMP架構(gòu)數(shù)據(jù)庫(kù)MPP架構(gòu)數(shù)據(jù)庫(kù)對(duì)稱多處理,Symmetrical Multi-Processing有兩臺(tái)以上的服務(wù)器,各主機(jī)之間共享總線結(jié)構(gòu),共享數(shù)據(jù)存儲(chǔ)磁盤節(jié)點(diǎn)數(shù)有限制,主要通過(guò)提高節(jié)點(diǎn)配置來(lái)提高整體處理能力,擴(kuò)展能力有限對(duì)共享磁盤的訪問(wèn)可能成為瓶頸SM

16、P大規(guī)模并行處理,Massively Parallel Processing多個(gè)松耦合處理單元組成,數(shù)據(jù)存在本機(jī)磁盤上通過(guò)增加服務(wù)器數(shù)量提高系統(tǒng)處理能力,理論上可無(wú)限擴(kuò)展,目技術(shù)可實(shí)現(xiàn)上千個(gè)節(jié)點(diǎn)互聯(lián)對(duì)軟件體系要求較高,需要通過(guò)軟件層來(lái)調(diào)度和平衡各個(gè)節(jié)點(diǎn)的負(fù)載和并行處理過(guò)程MPP23數(shù)據(jù)存儲(chǔ)架構(gòu):傳統(tǒng)分布式文件與新型分布式文件傳統(tǒng)分布式文件系統(tǒng)也可以適應(yīng)海量數(shù)據(jù)增長(zhǎng),但是由于數(shù)據(jù)計(jì)算與存儲(chǔ)是分離的,隨數(shù)據(jù)量的增長(zhǎng),網(wǎng)絡(luò)帶寬形成瓶頸。新型分布式文件系統(tǒng)采用數(shù)據(jù)計(jì)算與存儲(chǔ)綁定的新策略,可有效應(yīng)對(duì)海量數(shù)據(jù)增長(zhǎng)X86 PC集群數(shù)據(jù)存儲(chǔ):磁盤陣列數(shù)據(jù)存儲(chǔ)與計(jì)算合一數(shù)據(jù)計(jì)算:數(shù)據(jù)服務(wù)器數(shù)據(jù)靠網(wǎng)絡(luò)傳輸本機(jī)硬盤

17、本機(jī)硬盤本機(jī)硬盤本機(jī)硬盤計(jì)算模式擁有成本盤陣負(fù)責(zé)存儲(chǔ),數(shù)據(jù)服務(wù)器負(fù)責(zé)計(jì)算,彼此靠網(wǎng)絡(luò)連接,計(jì)算效率受網(wǎng)絡(luò)帶寬影響PC機(jī)自行負(fù)責(zé)存儲(chǔ)和計(jì)算,數(shù)據(jù)與計(jì)算綁定,不受網(wǎng)絡(luò)帶寬影響專用設(shè)備價(jià)格昂貴,維護(hù)費(fèi)用高通用PC,價(jià)格低廉,維護(hù)方便存儲(chǔ)模式磁盤陣列存儲(chǔ)由每臺(tái)PC機(jī)自帶硬盤組成容錯(cuò)模式不能容忍盤陣設(shè)備出問(wèn)題,靠RAID容錯(cuò)個(gè)別硬盤故障容許PC節(jié)點(diǎn)故障,通過(guò)多個(gè)文件副本保證數(shù)據(jù)完整性數(shù)據(jù)存儲(chǔ)與計(jì)算分離24新型分布式文件系統(tǒng)Hadoop HDFSHadoop HDFS是新型分布式文件系統(tǒng)的典型代表,提供高可靠、高擴(kuò)展、高吞吐能力的海量文件數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)節(jié)點(diǎn)Namenode文件名,文件塊,文件塊所在數(shù)據(jù)節(jié)點(diǎn)

18、,文件元數(shù)據(jù)123數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)點(diǎn)Datanode先讀取文件元數(shù)據(jù),知道文件在哪后讀取各個(gè)文件塊管理文件分布存儲(chǔ)優(yōu)點(diǎn)支持任意超大文件存儲(chǔ);硬件節(jié)點(diǎn)可不斷擴(kuò)展,低成本存儲(chǔ)對(duì)上層應(yīng)用屏蔽分布式部署結(jié)構(gòu),提供統(tǒng)一的文件系統(tǒng)訪問(wèn)接口,感覺(jué)就是一個(gè)大硬盤;應(yīng)用無(wú)需知道文件具體存放位置,使用簡(jiǎn)單;文件分塊存儲(chǔ)(1塊缺省64MB),不同塊可分布在不同機(jī)器節(jié)點(diǎn)上,通過(guò)元數(shù)據(jù)記錄文件塊位置;應(yīng)用順序讀取各個(gè)塊系統(tǒng)設(shè)計(jì)為高容錯(cuò)性,允許廉價(jià)PC故障;每塊文件數(shù)據(jù)在不同機(jī)器節(jié)點(diǎn)上保存3份;這種備份的另一個(gè)好處是可方便不同應(yīng)用就近讀取,提高訪問(wèn)效率缺點(diǎn)適合

19、大數(shù)據(jù)文件保存和分析,不適合小文件,由于分布存儲(chǔ)需要從不同節(jié)點(diǎn)讀取數(shù)據(jù),效率反而沒(méi)有集中存儲(chǔ)高;一次寫入多次讀取,不支持文件修改是最基礎(chǔ)的大數(shù)據(jù)技術(shù),基于文件系統(tǒng)層面提供文件訪問(wèn)能力,不如數(shù)據(jù)庫(kù)技術(shù)強(qiáng)大,但也是海量數(shù)據(jù)庫(kù)技術(shù)的底層依托文件系統(tǒng)接口完全不同于傳統(tǒng)文件系統(tǒng),應(yīng)用需要重新開(kāi)發(fā)上層應(yīng)用Yahoo Amazon Facebook Ebay 淘寶 百度 中國(guó)移動(dòng)飛信 中國(guó)移動(dòng)大云行業(yè)應(yīng)用技術(shù)特點(diǎn)25基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)(MapReduce)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracke

20、r(ReduceTask)TaskTracker(ReduceTask)中間結(jié)果中間結(jié)果中間結(jié)果JobTracker用戶程序(JobClient)提交作業(yè)任務(wù)調(diào)度任務(wù)調(diào)度狀態(tài)監(jiān)控狀態(tài)監(jiān)控123MapReduce技術(shù)特性自動(dòng)并行化:系統(tǒng)自動(dòng)進(jìn)行作業(yè)并行化處理自動(dòng)可靠處理:系統(tǒng)自動(dòng)處理節(jié)點(diǎn)/任務(wù)的故障檢測(cè)和恢復(fù)靈活擴(kuò)展:節(jié)點(diǎn)可以靈活加入和退出,系統(tǒng)自動(dòng)感知節(jié)點(diǎn)狀態(tài)并進(jìn)行處理高性能:計(jì)算任務(wù)將被調(diào)度至數(shù)據(jù)所在的節(jié)點(diǎn),減少網(wǎng)絡(luò)開(kāi)銷,提升執(zhí)行性能MapReduceMapReduce是解決海量數(shù)據(jù)處理的并行編程環(huán)境265. 大數(shù)據(jù)技術(shù)5.1 大數(shù)據(jù)的定義5.2 大數(shù)據(jù)的技術(shù)特征5.3 大數(shù)據(jù)的典型應(yīng)用5.

21、4 大數(shù)據(jù)的發(fā)展趨勢(shì)2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consulting Corporation第 28 頁(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:表示該用戶的IT應(yīng)用特點(diǎn)與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:該位置為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點(diǎn)與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點(diǎn)與大數(shù)據(jù)的契合度及應(yīng)用可

22、能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個(gè)維度暫時(shí)都不具備優(yōu)勢(shì),可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consulting Corporation第 29 頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景(1)為企業(yè)提供全面,可靠的績(jī)效信息第 30 頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景(2)為城市管理提供最新,實(shí)時(shí)數(shù)據(jù)2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consulting Corporation第 31 頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景(3)更快的基因組和蛋白質(zhì)組分析2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consultin

23、g Corporation第 32 頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景(4)利用社交媒體等公開(kāi)的信息增強(qiáng)傳統(tǒng)的CRM數(shù)據(jù),從而憑借全面的個(gè)人資料實(shí)現(xiàn)實(shí)現(xiàn)微觀細(xì)分。2013 北京澤佳公司版權(quán)所有Copyright2013 Zejia Consulting Corporation第 33 頁(yè) 2013年1月29日,住房和城鄉(xiāng)建設(shè)部公布了首批個(gè)國(guó)家智慧城市試點(diǎn)名單,試點(diǎn)城市的公布標(biāo)志著我國(guó)智慧城市發(fā)展進(jìn)入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應(yīng)用還處于對(duì)感知設(shè)備傳遞的信息進(jìn)行簡(jiǎn)單處理的水平,充分認(rèn)識(shí)大數(shù)據(jù)對(duì)于智慧城市建設(shè)的關(guān)鍵作用,對(duì)于避免智慧城市建設(shè)中出現(xiàn)“重感知,輕智慧”的通病具有重要意義。 從智慧城市

24、的體系結(jié)構(gòu)來(lái)看,由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù),因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似,也可分為四層,分別為感知層、傳輸層、平臺(tái)層、應(yīng)用層。智慧城市相對(duì)于之前數(shù)字城市概念,最大的區(qū)別在于對(duì)感知層獲取的信息進(jìn)行了智慧的處理,因此也可以認(rèn)為智慧城市是數(shù)字城市的升級(jí)版。由城市數(shù)字化到城市智慧化,關(guān)鍵是要實(shí)現(xiàn)對(duì)數(shù)字信息的智慧處理,其核心是大數(shù)據(jù)處理技術(shù)。智慧城市大數(shù)據(jù)應(yīng)用場(chǎng)景(5)5. 大數(shù)據(jù)技術(shù)5.1 大數(shù)據(jù)的定義5.2 大數(shù)據(jù)的技術(shù)特征5.3 大數(shù)據(jù)的典型應(yīng)用5.4 大數(shù)據(jù)的發(fā)展趨勢(shì)大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)之一:軟件應(yīng)用泛互聯(lián)網(wǎng)化軟件的價(jià)值是同它所協(xié)助管理的數(shù)據(jù)的規(guī)模和活性成正

25、比大數(shù)據(jù)時(shí)代,掌握更多用戶行為數(shù)據(jù),并能加以充分挖掘利用的公司,將在競(jìng)爭(zhēng)中贏得先機(jī),桌面應(yīng)用軟件鏈接軟件公司與互聯(lián)網(wǎng)平臺(tái)的核心紐帶,如何充分發(fā)揮桌面應(yīng)用軟件的紐帶作用,是大數(shù)據(jù)時(shí)代的核心趨勢(shì)之一。富界面:集成瀏覽器,支持移動(dòng)終端、PC等設(shè)備(富界面是指桌面應(yīng)用軟件與瀏覽器的深度整合,軟件外觀與傳統(tǒng)的應(yīng)用軟件雷同,但所有的數(shù)據(jù)都來(lái)自于互聯(lián)網(wǎng))門戶化(排他性,產(chǎn)品相互支援,提高客戶粘性)門戶化的核心要義在于排他性、相關(guān)性。第一排他性是指用戶一旦適應(yīng)一個(gè)門戶,則難以割舍,從而提供用戶粘性;第二相關(guān)性是指用戶在門戶化軟件中,可以完成他大部分的任務(wù),而無(wú)需離開(kāi)門戶,門戶中相關(guān)軟件互為支援,互提供流量,促

26、使用戶粘性越來(lái)越強(qiáng)。碎片化按需付費(fèi),改變商業(yè)模式(桌面應(yīng)用軟件的這三個(gè)特征相互促進(jìn)、缺一不可,沒(méi)有互聯(lián)網(wǎng)化,門戶化將無(wú)從談起,碎片化也就推動(dòng)了依托;沒(méi)有碎片化,則商業(yè)模式?jīng)]有形成的突破,在走賣拷貝的老路。泛互聯(lián)網(wǎng)化趨勢(shì),將引發(fā)軟件企業(yè)商業(yè)模式的弈,從單一的賣軟件,向服務(wù)轉(zhuǎn)型。大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)之二:行業(yè)應(yīng)用垂直整合大數(shù)據(jù)時(shí)代開(kāi)源技術(shù)的發(fā)展已經(jīng)可以和商務(wù)軟件分庭抗禮,傳統(tǒng)的OS、中間件、DB等平臺(tái)級(jí)軟件的同質(zhì)化趨勢(shì)已經(jīng)漸趨明顯,最終用戶的關(guān)注焦點(diǎn)集中如何解決實(shí)際問(wèn)題,而不是購(gòu)買誰(shuí)的數(shù)據(jù)庫(kù)或OS。因此,越靠近最終用戶的企業(yè),將在產(chǎn)業(yè)鏈中擁有越大的發(fā)言權(quán)。上演“扶天子令諸侯”的好戲

27、,而這個(gè)“天子”就是廣泛的最終用戶。開(kāi)源技術(shù)的興盛和沖擊Oracle行業(yè)垂直整合之路:ExaData:集成主機(jī)、存儲(chǔ)、為客戶提供一體化的應(yīng)用、數(shù)據(jù)解決方案大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)大數(shù)據(jù)發(fā)展趨勢(shì)之三:數(shù)據(jù)成為資產(chǎn)對(duì)數(shù)據(jù)的掌控導(dǎo)致了對(duì)市場(chǎng)的支配和巨大的經(jīng)濟(jì)回報(bào):一些公司已經(jīng)在銷售或者租賃數(shù)據(jù)包,獲得了不菲的收入,象廣聯(lián)達(dá)、四維圖新等。另外一些公司圍繞大數(shù)據(jù)的存儲(chǔ)、傳輸、整理、分析、挖掘,發(fā)展出新的技術(shù)和新的服務(wù)模式某種意義上來(lái)講:數(shù)據(jù)就是金錢改變商業(yè)模式賣license賣服務(wù)從對(duì)license的需求到對(duì)整體解決方案、服務(wù)的需求易復(fù)制、利潤(rùn)率高邊際成本為零賣人頭盜版客戶粘度高軟硬一體化利潤(rùn)率較賣licen

28、se低,需要解決復(fù)用問(wèn)題因泛在計(jì)算而導(dǎo)致行業(yè)需求變化利用好海量的大數(shù)據(jù),解決中國(guó)軟件公司賣人頭、賣授權(quán)、無(wú)粘度的商業(yè)模式,轉(zhuǎn)變?yōu)橐詳?shù)據(jù)服務(wù)為核心的新商業(yè)模式。啟發(fā)各行業(yè)對(duì)IT系統(tǒng)投資新熱點(diǎn)不同行業(yè)中,企業(yè)信息化成熟度差異明顯;政府 等行業(yè) 的信息 化成熟 度明顯領(lǐng)先,總 體處于擴(kuò)展和 整合優(yōu) 化階段 ;除金融和電信之外的服務(wù)行業(yè)的信息化建設(shè)成熟度相對(duì)較低,仍處 在成長(zhǎng)階段。對(duì)大數(shù)據(jù)的處理需求將啟發(fā)對(duì)于IT系統(tǒng)投資新熱點(diǎn),證實(shí)IT推動(dòng)業(yè)務(wù)發(fā)展,增加對(duì)IT投資。從IT系統(tǒng)走向大數(shù)據(jù)決策分析未來(lái)著眼點(diǎn)在于服務(wù)2000制造業(yè)金融電信政府互聯(lián)網(wǎng)企業(yè)自動(dòng)化走向初步信息化快速發(fā)展整體解決方案需求年600億投

29、資規(guī)模信息化走向移動(dòng)互聯(lián)化基本架構(gòu)已經(jīng)建立相對(duì)成熟500億以上投資規(guī)模手工化向自動(dòng)化轉(zhuǎn)型:成熟度低成長(zhǎng)階段中國(guó)建筑信息化投入占總收入0.03%建筑流通移動(dòng)互聯(lián)化數(shù)據(jù)智能化大數(shù)據(jù)1、不是井里沒(méi)有水,而是你挖的不夠深。不是成功來(lái)得慢,而是你努力的不夠多。2、孤單一人的時(shí)間使自己變得優(yōu)秀,給來(lái)的人一個(gè)驚喜,也給自己一個(gè)好的交代。3、命運(yùn)給你一個(gè)比別人低的起點(diǎn)是想告訴你,讓你用你的一生去奮斗出一個(gè)絕地反擊的故事,所以有什么理由不努力!4、心中沒(méi)有過(guò)分的貪求,自然苦就少。口里不說(shuō)多余的話,自然禍就少。腹內(nèi)的食物能減少,自然病就少。思緒中沒(méi)有過(guò)分欲,自然憂就少。大悲是無(wú)淚的,同樣大悟無(wú)言。緣來(lái)盡量要惜,緣

30、盡就放。人生本來(lái)就空,對(duì)人家笑笑,對(duì)自己笑笑,笑著看天下,看日出日落,花謝花開(kāi),豈不自在,哪里來(lái)的塵埃!5、心情就像衣服,臟了就拿去洗洗,曬曬,陽(yáng)光自然就會(huì)蔓延開(kāi)來(lái)。陽(yáng)光那么好,何必自尋煩惱,過(guò)好每一個(gè)當(dāng)下,一萬(wàn)個(gè)美麗的未來(lái)抵不過(guò)一個(gè)溫暖的現(xiàn)在。6、無(wú)論你正遭遇著什么,你都要從落魄中站起來(lái)重振旗鼓,要繼續(xù)保持熱忱,要繼續(xù)保持微笑,就像從未受傷過(guò)一樣。7、生命的美麗,永遠(yuǎn)展現(xiàn)在她的進(jìn)取之中;就像大樹(shù)的美麗,是展現(xiàn)在它負(fù)勢(shì)向上高聳入云的蓬勃生機(jī)中;像雄鷹的美麗,是展現(xiàn)在它搏風(fēng)擊雨如蒼天之魂的翱翔中;像江河的美麗,是展現(xiàn)在它波濤洶涌一瀉千里的奔流中。8、有些事,不可避免地發(fā)生,陰晴圓缺皆有規(guī)律,我們

31、只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改變它的軌跡。9、與其埋怨世界,不如改變自己。管好自己的心,做好自己的事,比什么都強(qiáng)。人生無(wú)完美,曲折亦風(fēng)景。別把失去看得過(guò)重,放棄是另一種擁有;不要經(jīng)常艷羨他人,人做到了,心悟到了,相信屬于你的風(fēng)景就在下一個(gè)拐彎處。10、有些事想開(kāi)了,你就會(huì)明白,在世上,你就是你,你痛痛你自己,你累累你自己,就算有人同情你,那又怎樣,最后收拾殘局的還是要靠你自己。11、人生的某些障礙,你是逃不掉的。與其費(fèi)盡周折繞過(guò)去,不如勇敢地攀登,或許這會(huì)鑄就你人生的高點(diǎn)。12、有些壓力總是得自己扛過(guò)去,說(shuō)出來(lái)就成了充滿負(fù)能量的抱怨。尋求安慰也無(wú)濟(jì)于事,還徒

32、增了別人的煩惱。13、認(rèn)識(shí)到我們的所見(jiàn)所聞都是假象,認(rèn)識(shí)到此生都是虛幻,我們才能真正認(rèn)識(shí)到佛法的真相。錢多了會(huì)壓死你,你承受得了嗎?帶,帶不走,放,放不下。時(shí)時(shí)刻刻發(fā)悲心,饒益眾生為他人。14、夢(mèng)想總是跑在我的前面。努力追尋它們,為了那一瞬間的同步,這就是動(dòng)人的生命奇跡。15、懶惰不會(huì)讓你一下子跌倒,但會(huì)在不知不覺(jué)中減少你的收獲;勤奮也不會(huì)讓你一夜成功,但會(huì)在不知不覺(jué)中積累你的成果。人生需要挑戰(zhàn),更需要堅(jiān)持和勤奮!16、人生在世:可以缺錢,但不能缺德;可以失言,但不能失信;可以倒下,但不能跪下;可以求名,但不能盜名;可以低落,但不能墮落;可以放松,但不能放縱;可以虛榮,但不能虛偽;可以平凡,但

33、不能平庸;可以浪漫,但不能浪蕩;可以生氣,但不能生事。17、人生沒(méi)有筆直路,當(dāng)你感到迷茫、失落時(shí),找?guī)撞窟@種充滿正能量的電影,坐下來(lái)靜靜欣賞,去發(fā)現(xiàn)生命中真正重要的東西。18、在人生的舞臺(tái)上,當(dāng)有人愿意在臺(tái)下陪你度過(guò)無(wú)數(shù)個(gè)沒(méi)有未來(lái)的夜時(shí),你就更想展現(xiàn)精彩絕倫的自己。但愿每個(gè)被努力支撐的靈魂能吸引更多的人同行。1、想要體面生活,又覺(jué)得打拼辛苦;想要健康身體,又無(wú)法堅(jiān)持運(yùn)動(dòng)。人最失敗的,莫過(guò)于對(duì)自己不負(fù)責(zé)任,連答應(yīng)自己的事都辦不到,又何必抱怨這個(gè)世界都和你作對(duì)?人生的道理很簡(jiǎn)單,你想要什么,就去付出足夠的努力。2、時(shí)間是最公平的,活一天就擁有24小時(shí),差別只是珍惜。你若不相信努力和時(shí)光,時(shí)光一定第

34、一個(gè)辜負(fù)你。有夢(mèng)想就立刻行動(dòng),因?yàn)楝F(xiàn)在過(guò)的每一天,都是余生中最年輕的一天。3、無(wú)論正在經(jīng)歷什么,都請(qǐng)不要輕言放棄,因?yàn)閺膩?lái)沒(méi)有一種堅(jiān)持會(huì)被辜負(fù)。誰(shuí)的人生不是荊棘前行,生活從來(lái)不會(huì)一蹴而就,也不會(huì)永遠(yuǎn)安穩(wěn),只要努力,就能做獨(dú)一無(wú)二平凡可貴的自己。4、努力本就是年輕人應(yīng)有的狀態(tài),是件充實(shí)且美好的事,可一旦有了表演的成分,就會(huì)顯得廉價(jià),努力,不該是為了朋友圈多獲得幾個(gè)贊,不該是每次長(zhǎng)篇贅述后的自我感動(dòng),它是一件平凡而自然而然的事,最佳的努力不過(guò)是:但行好事,莫問(wèn)前程。愿努力,成就更好的你!5、付出努力卻沒(méi)能實(shí)現(xiàn)的夢(mèng)想,愛(ài)了很久卻沒(méi)能在一起的人,活得用力卻平淡寂寞的青春,遺憾是每一次小的挫折,它磨去最初柔軟的心智、讓我們懂得累積時(shí)間的力量;那些孤獨(dú)沉寂的時(shí)光,讓我們學(xué)會(huì)守候內(nèi)心的平和與堅(jiān)定。那些脆弱的不完美,都會(huì)在努力和堅(jiān)持下,改變模樣。6、人生中總會(huì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論