云計(jì)算與大數(shù)據(jù)基礎(chǔ)課件_第1頁(yè)
云計(jì)算與大數(shù)據(jù)基礎(chǔ)課件_第2頁(yè)
云計(jì)算與大數(shù)據(jù)基礎(chǔ)課件_第3頁(yè)
云計(jì)算與大數(shù)據(jù)基礎(chǔ)課件_第4頁(yè)
云計(jì)算與大數(shù)據(jù)基礎(chǔ)課件_第5頁(yè)
已閱讀5頁(yè),還剩169頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云計(jì)算與大數(shù)據(jù)技術(shù)

人民郵電出版社王鵬黃焱安俊秀張逸琴編著

云計(jì)算與大數(shù)據(jù)技術(shù)人民郵電出版社王鵬黃焱安俊秀1目錄CONTENTS第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)第2章云計(jì)算與大數(shù)據(jù)的相關(guān)技術(shù)第3章虛擬化技術(shù)第4章集群系統(tǒng)基礎(chǔ)第5章MPI—面向計(jì)算第6章Hadoop—分布式大數(shù)據(jù)系統(tǒng)第7章HPCC—面向數(shù)據(jù)的高性能計(jì)算集群系統(tǒng)第8章Storm—基于拓?fù)涞牧鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)第9章服務(wù)器與數(shù)據(jù)中心第10章云計(jì)算大數(shù)據(jù)仿真技術(shù)目錄CONTENTS第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)2第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)《云計(jì)算與大數(shù)據(jù)技術(shù)》

第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)《云計(jì)算與大數(shù)據(jù)技術(shù)》3第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)1.1云計(jì)算技術(shù)概述 1.1.1云計(jì)算簡(jiǎn)介

1.1.2云計(jì)算的特點(diǎn) 1.1.3云計(jì)算技術(shù)分類

1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

1.2.3大數(shù)據(jù)處理的基本流程

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)1.1云計(jì)算技術(shù)概述 41.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段而出現(xiàn)的一種新的技術(shù)模型云計(jì)算并不是對(duì)某一項(xiàng)獨(dú)立技術(shù)的稱呼,而是對(duì)實(shí)現(xiàn)云計(jì)算模式所需要的所有技術(shù)的總稱。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一5云計(jì)算技術(shù)的內(nèi)容很多包括分布式計(jì)算技術(shù)、虛擬化技術(shù)、網(wǎng)絡(luò)技術(shù)、服務(wù)器技術(shù)、數(shù)據(jù)中心技術(shù)、云計(jì)算平臺(tái)技術(shù)、存儲(chǔ)技術(shù)等。從廣義上說(shuō),云計(jì)算技術(shù)幾乎包括了當(dāng)前信息技術(shù)中的絕大部分。

1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)的內(nèi)容很多1.1.1云計(jì)算簡(jiǎn)介6維基百科中對(duì)云計(jì)算的定義為:云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過(guò)這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備。2012年的國(guó)務(wù)院政府工作報(bào)告將云計(jì)算作為國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)給出了定義:云計(jì)算是基于互聯(lián)網(wǎng)的服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)、易擴(kuò)展且經(jīng)常是虛擬化的資源。云計(jì)算是傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,它意味著計(jì)算能力也可作為一種商品通過(guò)互聯(lián)網(wǎng)進(jìn)行流通。

1.1.1云計(jì)算簡(jiǎn)介維基百科中對(duì)云計(jì)算的定義為:1.1.1云計(jì)算簡(jiǎn)介7云計(jì)算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產(chǎn)業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產(chǎn)業(yè)分工高度專業(yè)化的需求,同時(shí)也不符合企業(yè)需要靈敏地適應(yīng)客戶的需要。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。1.1.1云計(jì)算8傳統(tǒng)的計(jì)算資源和存儲(chǔ)資源大小通常是相對(duì)固定的,面對(duì)客戶高波動(dòng)性的需求時(shí)會(huì)非常的不敏捷,企業(yè)的計(jì)算和存儲(chǔ)資源要么是被浪費(fèi),要么是面對(duì)客戶峰值需求時(shí)力不從心。云計(jì)算技術(shù)使資源與用戶需求之間是一種彈性化的關(guān)系,資源的使用者和資源的整合者并不是一個(gè)企業(yè),資源的使用者只需要對(duì)資源按需付費(fèi),從而敏捷地響應(yīng)客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。

1.1.1云計(jì)算簡(jiǎn)介傳統(tǒng)的計(jì)算資源和存儲(chǔ)資源大小通常是相對(duì)固定的,面對(duì)客戶高波動(dòng)9云計(jì)算時(shí)代基本的3種角色:

資源的整合運(yùn)營(yíng)者、資源的使用者、終端客戶。資源的整合運(yùn)營(yíng)者就像是發(fā)電廠負(fù)責(zé)資源的整合輸出;資源的使用者負(fù)責(zé)將資源轉(zhuǎn)變?yōu)闈M足客戶需求的各種應(yīng)用;終端客戶為資源的最終消費(fèi)者。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算時(shí)代基本的3種角色:1.1.1云計(jì)算簡(jiǎn)介10云計(jì)算這種新的模式的出現(xiàn)被認(rèn)為是信息產(chǎn)業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國(guó)內(nèi)企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計(jì)算簡(jiǎn)介云計(jì)算這種新的模式的出現(xiàn)被認(rèn)為是信息產(chǎn)業(yè)的一大變革,吸引了大11云計(jì)算技術(shù)作為一項(xiàng)涵蓋面廣且對(duì)產(chǎn)業(yè)影響深遠(yuǎn)的技術(shù),未來(lái)將逐步滲透到信息產(chǎn)業(yè)和其他產(chǎn)業(yè)的方方面面,并將深刻改變產(chǎn)業(yè)的結(jié)構(gòu)模式、技術(shù)模式和產(chǎn)品銷售模式,進(jìn)而深刻影響人們的生活;云計(jì)算會(huì)逐步成為人們生活中必不可少的技術(shù);1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)作為一項(xiàng)涵蓋面廣且對(duì)產(chǎn)業(yè)影響深遠(yuǎn)的技術(shù),未來(lái)將逐步12移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使云計(jì)算應(yīng)用走向了人們的指間,推動(dòng)了云計(jì)算技術(shù)的應(yīng)用發(fā)展,今后云計(jì)算將是一項(xiàng)隨時(shí)、隨地、隨身為我們提供服務(wù)的技術(shù);云計(jì)算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產(chǎn)業(yè)的發(fā)展提供無(wú)限的想象空間,使應(yīng)用的創(chuàng)新能力得到完全釋放。

1.1.1云計(jì)算簡(jiǎn)介移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使云計(jì)算應(yīng)用走向了人們的指間,推動(dòng)了云計(jì)算技131.1.2云計(jì)算的特點(diǎn)1.資源池彈性可擴(kuò)張2.按需提供資源服務(wù)3.虛擬化4.網(wǎng)絡(luò)化的資源接入5.高可靠性和安全性1.1.2云計(jì)算的特點(diǎn)1.1.2云計(jì)算的特點(diǎn)1.1.2云計(jì)算的特點(diǎn)14與傳統(tǒng)的資源提供方向相比,云計(jì)算具有以下特點(diǎn):

(1)資源池彈性可擴(kuò)張?jiān)朴?jì)算系統(tǒng)的一個(gè)重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計(jì)算的基本特征之一。分散的資源使用方法造成了資源的極大浪費(fèi),現(xiàn)在每個(gè)人都可能有一到兩臺(tái)自己的計(jì)算機(jī),但對(duì)這種資源的利用率卻非常的低,計(jì)算機(jī)在大量時(shí)間都是在等待狀態(tài)或是在處理文字?jǐn)?shù)據(jù)等低負(fù)荷的任務(wù)。資源集中起來(lái)后資源的利用效率會(huì)大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴(kuò)張能力成為云計(jì)算系統(tǒng)的一個(gè)基本要求,云計(jì)算系統(tǒng)只有具備了資源的彈性化擴(kuò)張能力才能有效地應(yīng)對(duì)不斷增長(zhǎng)的資源需求。大多數(shù)云計(jì)算系統(tǒng)都能較為方便地實(shí)現(xiàn)新資源的加入。

1.1.2云計(jì)算的特點(diǎn)與傳統(tǒng)的資源提供方向相比,云計(jì)算具有以下特點(diǎn):

1.1.215(2)按需提供資源服務(wù)云計(jì)算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應(yīng)用戶對(duì)資源不斷變化的需求;云計(jì)算系統(tǒng)實(shí)現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開(kāi)支,用戶不用自己購(gòu)買并維護(hù)大量固定的硬件資源,只需向自己實(shí)際消費(fèi)的資源量來(lái)付費(fèi);按需提供資源服務(wù)使應(yīng)用開(kāi)發(fā)者在邏輯上可以認(rèn)為資源池的大小是不受限制的,應(yīng)用開(kāi)發(fā)者的主要精力只需要集中在自己的應(yīng)用上。

1.1.2云計(jì)算的特點(diǎn)(2)按需提供資源服務(wù)1.1.2云計(jì)算的特點(diǎn)16(3)虛擬化

現(xiàn)有的云計(jì)算平臺(tái)的重要特點(diǎn)是利用軟件來(lái)實(shí)現(xiàn)硬件資源的虛擬化管理、調(diào)度及應(yīng)用。在云計(jì)算中利用虛擬化技術(shù)可大大降低維護(hù)成本和提高資源的利用率。

1.1.2云計(jì)算的特點(diǎn)(3)虛擬化

1.1.2云計(jì)算的特點(diǎn)17(4)網(wǎng)絡(luò)化的資源接入。

從最終用戶的角度看,基于云計(jì)算系統(tǒng)的應(yīng)用服務(wù)通常都是通過(guò)網(wǎng)絡(luò)來(lái)提供的,應(yīng)用開(kāi)發(fā)者將云計(jì)算中心的計(jì)算、存儲(chǔ)等資源封裝為不同的應(yīng)用后往往會(huì)通過(guò)網(wǎng)絡(luò)提供給最終的用戶。云計(jì)算技術(shù)必須實(shí)現(xiàn)資源的網(wǎng)絡(luò)化接入才能有效地向應(yīng)用開(kāi)發(fā)者和最終用戶提供資源服務(wù)。以網(wǎng)絡(luò)技術(shù)的發(fā)展是推動(dòng)云計(jì)算技術(shù)出現(xiàn)的首要?jiǎng)恿Α?.1.2云計(jì)算的特點(diǎn)(4)網(wǎng)絡(luò)化的資源接入。

1.1.2云計(jì)算的特點(diǎn)18(5)高可靠性和安全性。

用戶數(shù)據(jù)存儲(chǔ)在服務(wù)器端,而應(yīng)用程序在服務(wù)器端運(yùn)行,計(jì)算由服務(wù)器端來(lái)處理。所有的服務(wù)分布在不同的服務(wù)器上,如果什么地方(節(jié)點(diǎn))出問(wèn)題就在什么地方終止它,另外再啟動(dòng)一個(gè)程序或節(jié)點(diǎn),即自動(dòng)處理失敗節(jié)點(diǎn),從而保證了應(yīng)用和計(jì)算的正常進(jìn)行。數(shù)據(jù)被復(fù)制到多個(gè)服務(wù)器節(jié)點(diǎn)上有多個(gè)副本(備份),存儲(chǔ)在云里的數(shù)據(jù)即使遇到意外刪除或硬件崩潰也不會(huì)受到影響。1.1.2云計(jì)算的特點(diǎn)(5)高可靠性和安全性。

1.1.2云計(jì)算的特點(diǎn)191.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類1.按技術(shù)路線分類2.按服務(wù)對(duì)象分類3.按資源封裝的層次分類1.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類20目前已出現(xiàn)的云計(jì)算技術(shù)種類非常多,對(duì)于云計(jì)算的分類可以有多種角度:從技術(shù)路線角度可以分為資源整合型云計(jì)算和資源切分型云計(jì)算;從服務(wù)對(duì)像角度可以被分為公有云和私有云;按資源封裝的層次來(lái)分可以分為:基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)平臺(tái)即服務(wù)(PlatformasaService,PaaS)軟件即服務(wù)(SoftwareasaService,SaaS)。1.1.3云計(jì)算技術(shù)分類目前已出現(xiàn)的云計(jì)算技術(shù)種類非常多,對(duì)于云計(jì)算的分類可以有多種21

1.按技術(shù)路線分類

資源整合型云計(jì)算:這種類型的云計(jì)算系統(tǒng)在技術(shù)實(shí)現(xiàn)方面大多體現(xiàn)為集群架構(gòu),通過(guò)將大量節(jié)點(diǎn)的計(jì)算資源和存儲(chǔ)資源整合后輸出。這類系統(tǒng)通常能實(shí)現(xiàn)跨節(jié)點(diǎn)彈性化的資源池構(gòu)建,核心技術(shù)為分布式計(jì)算和存儲(chǔ)技術(shù)。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計(jì)算系統(tǒng)。1.1.3云計(jì)算技術(shù)分類

1.按技術(shù)路線分類

1.1.3云計(jì)算技術(shù)分類22資源切分型云計(jì)算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計(jì)算系統(tǒng)通過(guò)系統(tǒng)虛擬化實(shí)現(xiàn)對(duì)單個(gè)服務(wù)器資源的彈性化切分,從而有效地利用服務(wù)器資源,其核心技術(shù)為虛擬化技術(shù)。這種技術(shù)的優(yōu)點(diǎn)是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術(shù)的云系統(tǒng),是目前應(yīng)用較為廣泛的技術(shù),特別是在桌面云計(jì)算技術(shù)上應(yīng)用得較為成功;缺點(diǎn)是跨節(jié)點(diǎn)的資源整合代價(jià)較大;KVM、VMware都是這類技術(shù)的代表。1.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類232.按服務(wù)對(duì)象分類公有云:指服務(wù)對(duì)象是面向公眾的云計(jì)算服務(wù),公有云對(duì)云計(jì)算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務(wù)能力有更高的要求。私有云:指主要服務(wù)于某一組織內(nèi)部的云計(jì)算服務(wù),其服務(wù)并不向公眾開(kāi)放,如企業(yè)、政府內(nèi)部的云服務(wù)。公有云與私有云的界限并不是特別清晰,有時(shí)服務(wù)于一個(gè)地區(qū)和團(tuán)體的云也被稱為公有云。所以這種云計(jì)算分類方法并不是一種準(zhǔn)確的分類方法,主要是在商業(yè)領(lǐng)域的一種稱呼。1.1.3云計(jì)算技術(shù)分類2.按服務(wù)對(duì)象分類1.1.3云計(jì)算技術(shù)分類243.按資源封裝的層次分類基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS):把單純的計(jì)算和存儲(chǔ)資源不經(jīng)封裝地直接通過(guò)網(wǎng)絡(luò)以服務(wù)的形式提供的用戶使用。這類云計(jì)算服務(wù)用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務(wù)的對(duì)象往往是具有專業(yè)知識(shí)能力的資源使用者,傳統(tǒng)數(shù)據(jù)中心的主機(jī)租用等可能作為IaaS的典型代表。1.1.3云計(jì)算技術(shù)分類3.按資源封裝的層次分類1.1.3云計(jì)算技術(shù)分類25平臺(tái)即服務(wù)(PlatformasaService,PaaS):計(jì)算和存儲(chǔ)資源經(jīng)封裝后,以某種接口和協(xié)議的形式提供給用戶調(diào)用,資源的使用者不再直接面對(duì)底層資源。平臺(tái)即服務(wù)需要平臺(tái)軟件的支撐,可以認(rèn)為是從資源到應(yīng)用軟件的一個(gè)中間件,通過(guò)這類中間件可以大大減小應(yīng)用軟件開(kāi)發(fā)時(shí)的技術(shù)難度。這類云服務(wù)的對(duì)象往往是云計(jì)算應(yīng)用軟件的開(kāi)發(fā)者,平臺(tái)軟件的開(kāi)發(fā)需要使用者具有一定的技術(shù)能力。1.1.3云計(jì)算技術(shù)分類平臺(tái)即服務(wù)(PlatformasaService,Pa26軟件即服務(wù)(SoftwareasaService,SaaS):將計(jì)算和存儲(chǔ)資源封裝為用戶可以直接使用的應(yīng)用并通過(guò)網(wǎng)絡(luò)提供給用戶;SaaS面向的服務(wù)對(duì)象為最終用戶,用戶只是對(duì)軟件功能進(jìn)行使用,無(wú)需了解任何云計(jì)算系統(tǒng)的內(nèi)部結(jié)構(gòu),也不需要用戶具有專業(yè)的技術(shù)開(kāi)發(fā)能力。

1.1.3云計(jì)算技術(shù)分類軟件即服務(wù)(SoftwareasaService,Sa27圖1.1云計(jì)算服務(wù)體系結(jié)構(gòu)如圖所示,云計(jì)算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對(duì)底層硬件資源不同級(jí)別的封裝,從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來(lái)使用資源的,而云計(jì)算系統(tǒng)通過(guò)IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務(wù)的形式利用網(wǎng)絡(luò)提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應(yīng)用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費(fèi)者,他們將資源轉(zhuǎn)變?yōu)閼?yīng)用服務(wù)程序后以SaaS的形式提供給資源的最終消費(fèi)者。實(shí)現(xiàn)對(duì)物理資源封裝的技術(shù)并不是惟一的,目前不少的軟件都能實(shí)現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒(méi)有進(jìn)行逐層的封裝。

1.1.3云計(jì)算技術(shù)分類圖1.1云計(jì)算服務(wù)體系結(jié)構(gòu)傳統(tǒng)的信息系統(tǒng)資源的使用者通常是28云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來(lái)劃分,與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。在計(jì)算機(jī)網(wǎng)絡(luò)中每個(gè)層次都實(shí)現(xiàn)一定的功能,層與層之間有一定關(guān)聯(lián)。而云計(jì)算體系結(jié)構(gòu)中的層次是可以分割的,即某一層次可以單獨(dú)完成一項(xiàng)用戶的請(qǐng)求而不需要其他層次為其提供必要的服務(wù)和支持。

1.1.3云計(jì)算技術(shù)分類云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來(lái)劃分,與大家熟悉的29在云計(jì)算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對(duì)應(yīng)。應(yīng)用層對(duì)應(yīng)SaaS軟件即服務(wù),如:GoogleAPPS、SoftWare+Services。平臺(tái)層對(duì)應(yīng)PaaS平臺(tái)即服務(wù),如:IBMITFactory、GoogleAPPEngine、F?;A(chǔ)設(shè)施層對(duì)應(yīng)IaaS基礎(chǔ)設(shè)施即服務(wù),如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對(duì)應(yīng)硬件即服務(wù),結(jié)合PaaS提供硬件服務(wù),包括服務(wù)器集群及硬件檢測(cè)等服務(wù)。1.1.3云計(jì)算技術(shù)分類在云計(jì)算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對(duì)應(yīng)。1.1.3云301.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介1.什么是大數(shù)據(jù)2.?dāng)?shù)據(jù)的來(lái)源3.生產(chǎn)數(shù)據(jù)的三個(gè)階段4.大數(shù)據(jù)的特點(diǎn)5.大數(shù)據(jù)的應(yīng)用領(lǐng)域1.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述311.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介計(jì)算和數(shù)據(jù)是信息產(chǎn)業(yè)不變的主題,在信息和網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動(dòng)下,人們的感知、計(jì)算、仿真、模擬、傳播等活動(dòng)產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)的產(chǎn)生不受時(shí)間、地點(diǎn)的限制,大數(shù)據(jù)的概念逐漸形成,大數(shù)據(jù)涵蓋了計(jì)算和數(shù)據(jù)兩大主題,是產(chǎn)業(yè)界和學(xué)術(shù)界的研究熱點(diǎn),被譽(yù)為未來(lái)十年的革命性技術(shù)。1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介321.2.1大數(shù)據(jù)簡(jiǎn)介2008年,《Nature》雜志推出了“大數(shù)據(jù)”專輯,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注;2011年,大數(shù)據(jù)應(yīng)用進(jìn)入我國(guó)并快速發(fā)展,目前大數(shù)據(jù)的應(yīng)用和研究已經(jīng)是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn);2012年3月,美國(guó)政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據(jù),用以強(qiáng)化國(guó)土安全、轉(zhuǎn)變教育學(xué)習(xí)模式、加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災(zāi)等為中心制定新ICT(信息通信技術(shù))戰(zhàn)略,發(fā)布“新ICT計(jì)劃”,重點(diǎn)關(guān)注大數(shù)據(jù)研究和應(yīng)用;2013年1月,英國(guó)政府宣布將在對(duì)地觀測(cè)、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計(jì)算技術(shù)方面投資1.89億英鎊;2013年我國(guó)上海、重慶等地相繼發(fā)布大數(shù)據(jù)行動(dòng)計(jì)劃。

1.2.1大數(shù)據(jù)簡(jiǎn)介2008年,《Nature》雜志推出了331.什么是大數(shù)據(jù)維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫(kù)管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)的挑戰(zhàn)包括采集、存儲(chǔ)、搜索、共享、傳輸、分析和可視化等。大數(shù)據(jù)的“大”是一個(gè)動(dòng)態(tài)的概念以前10GB的數(shù)據(jù)是個(gè)天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學(xué)等領(lǐng)域,TB級(jí)的數(shù)據(jù)集已經(jīng)很普遍。大數(shù)據(jù)系統(tǒng)需要滿足以下三個(gè)特性。

(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據(jù)容量大;(2)多樣性(Variety):數(shù)據(jù)的種類多、復(fù)雜性高;

(3)高速性(Velocity):數(shù)據(jù)需要頻繁地采集、處理并輸出。

1.2.1大數(shù)據(jù)簡(jiǎn)介1.什么是大數(shù)據(jù)1.2.1大數(shù)據(jù)簡(jiǎn)介342.?dāng)?shù)據(jù)的來(lái)源大數(shù)據(jù)的數(shù)據(jù)來(lái)源很多,主要有信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等;其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(1)管理信息系統(tǒng):企業(yè)內(nèi)部使用的信息系統(tǒng),包括辦公自動(dòng)化系統(tǒng)、業(yè)務(wù)管理系統(tǒng)等,是常見(jiàn)的數(shù)據(jù)產(chǎn)生方式。管理信息系統(tǒng)主要通過(guò)用戶輸入和系統(tǒng)的二次加工的方式生成數(shù)據(jù),其產(chǎn)生的數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中。1.2.1大數(shù)據(jù)簡(jiǎn)介2.?dāng)?shù)據(jù)的來(lái)源1.2.1大數(shù)據(jù)簡(jiǎn)介35

(2)網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運(yùn)行的信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重要方式,電子商務(wù)系統(tǒng)、社交網(wǎng)絡(luò)、社會(huì)媒體、搜索引擎等都是常見(jiàn)的網(wǎng)絡(luò)信息系統(tǒng),網(wǎng)絡(luò)信息系統(tǒng)產(chǎn)生的大數(shù)據(jù)多為半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)化的數(shù)據(jù),網(wǎng)絡(luò)信息系統(tǒng)與管理信息系統(tǒng)的區(qū)別在于管理信息系統(tǒng)是內(nèi)部使用的,不接入外部的公共網(wǎng)絡(luò)。(3)物聯(lián)網(wǎng)系統(tǒng):通過(guò)傳感器獲取外界的物理、化學(xué)、生物等數(shù)據(jù)信息。(4)科學(xué)實(shí)驗(yàn)系統(tǒng):主要用于學(xué)術(shù)科學(xué)研究,其環(huán)境是預(yù)先設(shè)定的,數(shù)據(jù)既可以是由真實(shí)實(shí)驗(yàn)產(chǎn)生也可以是通過(guò)模擬方式獲取仿真的。

1.2.1大數(shù)據(jù)簡(jiǎn)介

(2)網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運(yùn)行的信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重363.生產(chǎn)數(shù)據(jù)的三個(gè)階段(1)被動(dòng)式生成數(shù)據(jù):

數(shù)據(jù)庫(kù)技術(shù)使得數(shù)據(jù)的保存和管理變得簡(jiǎn)單,業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫(kù)中,這個(gè)時(shí)候數(shù)據(jù)的產(chǎn)生是被動(dòng)的,數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生的。1.2.1大數(shù)據(jù)簡(jiǎn)介3.生產(chǎn)數(shù)據(jù)的三個(gè)階段1.2.1大數(shù)據(jù)簡(jiǎn)介37(2)主動(dòng)式生成數(shù)據(jù):互聯(lián)網(wǎng)的誕生尤其是Web2.0、移動(dòng)互聯(lián)網(wǎng)的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生,人們可以隨時(shí)隨地通過(guò)手機(jī)等移動(dòng)終端隨時(shí)隨地地生成數(shù)據(jù),人們開(kāi)始主動(dòng)地生成數(shù)據(jù)。(3)感知式生成數(shù)據(jù):感知技術(shù)尤其是物聯(lián)網(wǎng)的發(fā)展促進(jìn)了數(shù)據(jù)生成方式發(fā)生了根本性的變化,遍布在城市各個(gè)角落的攝像頭等數(shù)據(jù)采集設(shè)備源源不斷地自動(dòng)采集、生成數(shù)據(jù)。1.2.1大數(shù)據(jù)簡(jiǎn)介1.2.1大數(shù)據(jù)簡(jiǎn)介38

4.大數(shù)據(jù)的特點(diǎn)(1)數(shù)據(jù)產(chǎn)生方式:在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生方式發(fā)生了巨大的變化,數(shù)據(jù)的采集方式由以往的被動(dòng)采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃?dòng)生成數(shù)據(jù)。

(2)數(shù)據(jù)采集密度:以往我們進(jìn)行數(shù)據(jù)采集時(shí)的采樣密度較低,獲得的采樣數(shù)據(jù)有限;在大數(shù)據(jù)時(shí)代,有了大數(shù)據(jù)處理平臺(tái)的支撐,我們可以對(duì)需要分析的事件的數(shù)據(jù)進(jìn)行更加密集地采樣,從而精確地獲取事件的全局?jǐn)?shù)據(jù)。

(3)數(shù)據(jù)源:以往我們多從各個(gè)單一的數(shù)據(jù)源獲取數(shù)據(jù),獲取的數(shù)據(jù)較為孤立,不同數(shù)據(jù)源之間的數(shù)據(jù)整合難度較大;在大數(shù)據(jù)時(shí)代,我們可以通過(guò)分布式計(jì)算、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)等技術(shù)對(duì)多個(gè)數(shù)據(jù)源獲取的數(shù)據(jù)進(jìn)行整合處理。

1.2.1大數(shù)據(jù)簡(jiǎn)介

4.大數(shù)據(jù)的特點(diǎn)1.2.1大數(shù)據(jù)簡(jiǎn)介39(4)數(shù)據(jù)處理方式:

以往我們對(duì)數(shù)據(jù)的處理大多采用離線處理的方式,對(duì)已經(jīng)生成的數(shù)據(jù)集中進(jìn)行分析處理,不對(duì)實(shí)時(shí)產(chǎn)生的數(shù)據(jù)進(jìn)行分析;在大數(shù)據(jù)時(shí)代,我們可以根據(jù)應(yīng)用的實(shí)際需求對(duì)數(shù)據(jù)采取靈活的處理方式,對(duì)于較大的數(shù)據(jù)源、響應(yīng)時(shí)間要求低的應(yīng)用可以采取批處理的方式進(jìn)行集中計(jì)算,而對(duì)于響應(yīng)時(shí)間要求高的實(shí)時(shí)數(shù)據(jù)處理則采用流處理的方式進(jìn)行實(shí)時(shí)計(jì)算,并且可以通過(guò)對(duì)歷史數(shù)據(jù)的分析進(jìn)行預(yù)測(cè)分析;1.2.1大數(shù)據(jù)簡(jiǎn)介(4)數(shù)據(jù)處理方式:1.2.1大數(shù)據(jù)簡(jiǎn)介40大數(shù)據(jù)需要處理的數(shù)據(jù)大小通常達(dá)到PB(1024TB)或EB(1024PB)級(jí);數(shù)據(jù)的類型多種多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);巨大的數(shù)據(jù)量和種類繁多的數(shù)據(jù)類型給大數(shù)據(jù)系統(tǒng)的存儲(chǔ)和計(jì)算帶來(lái)很大挑戰(zhàn),單節(jié)點(diǎn)的存儲(chǔ)容量和計(jì)算能力成為瓶頸;分布式系統(tǒng)是對(duì)大數(shù)據(jù)進(jìn)行處理的基本方法,分布式系統(tǒng)將數(shù)據(jù)切分后存儲(chǔ)到多個(gè)節(jié)點(diǎn)上,并在多個(gè)節(jié)點(diǎn)上發(fā)起計(jì)算,解決單節(jié)點(diǎn)的存儲(chǔ)和計(jì)算瓶頸。常見(jiàn)的數(shù)據(jù)切分的方法有隨機(jī)方法、哈希方法和區(qū)間方法:隨機(jī)方法將數(shù)據(jù)隨機(jī)分布到不同的節(jié)點(diǎn);哈希方法根據(jù)數(shù)據(jù)的某一行或者某一列的哈希值將數(shù)據(jù)分布到不同的節(jié)點(diǎn);區(qū)間方法將不同的數(shù)據(jù)按照不同區(qū)間分布到不同節(jié)點(diǎn)。1.2.1大數(shù)據(jù)簡(jiǎn)介大數(shù)據(jù)需要處理的數(shù)據(jù)大小通常達(dá)到PB(1024TB)或EB415.大數(shù)據(jù)的應(yīng)用領(lǐng)域大數(shù)據(jù)在社會(huì)生活的各個(gè)領(lǐng)域得到廣泛的應(yīng)用,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用具有不同的特點(diǎn),其對(duì)響應(yīng)時(shí)間、系統(tǒng)穩(wěn)定性、計(jì)算精確性的要求各不相同,其對(duì)比如表1.1所示。

表1.1典型的大數(shù)據(jù)應(yīng)用特征對(duì)比

應(yīng)用領(lǐng)域示例用戶數(shù)量響應(yīng)時(shí)延數(shù)據(jù)量級(jí)穩(wěn)定性精確度科學(xué)計(jì)算基因計(jì)算小長(zhǎng)TB一般非常高金融股票交易大實(shí)時(shí)GB非常高非常高社交網(wǎng)絡(luò)Facebook非常大快速PB高高移動(dòng)數(shù)據(jù)移動(dòng)終端非常大快速TB高高物聯(lián)網(wǎng)傳感網(wǎng)大快速TB高高網(wǎng)頁(yè)數(shù)據(jù)新聞網(wǎng)站非常大快速GB高高多媒體視頻網(wǎng)站非常大快速GB高一般1.2.1大數(shù)據(jù)簡(jiǎn)介5.大數(shù)據(jù)的應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域示例用戶數(shù)量響應(yīng)時(shí)延數(shù)據(jù)量級(jí)穩(wěn)定421.2.2主要的大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理的數(shù)據(jù)源類型多種多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理的需求各不相同:對(duì)海量已有數(shù)據(jù)進(jìn)行批量處理,對(duì)大量的實(shí)時(shí)生成的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,在進(jìn)行數(shù)據(jù)分析時(shí)進(jìn)行反復(fù)迭代計(jì)算,對(duì)圖數(shù)據(jù)進(jìn)行分析計(jì)算。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理43目前主要的大數(shù)據(jù)處理系統(tǒng)有:數(shù)據(jù)查詢分析計(jì)算系統(tǒng)、批處理系統(tǒng)、流式計(jì)算系統(tǒng)、迭代計(jì)算系統(tǒng)、圖計(jì)算系統(tǒng)和內(nèi)存計(jì)算系統(tǒng)。

1.?dāng)?shù)據(jù)查詢分析計(jì)算系統(tǒng)大數(shù)據(jù)時(shí)代,數(shù)據(jù)查詢分析計(jì)算系統(tǒng)需要具備對(duì)大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)查詢的能力,數(shù)據(jù)規(guī)模的增長(zhǎng)已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的承載和處理能力。目前主要的數(shù)據(jù)查詢分析計(jì)算系統(tǒng)包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)目前主要的大數(shù)據(jù)處理系統(tǒng)有:1.2.2主要的大數(shù)據(jù)處44

HBase:開(kāi)源、分布式、面向列的非關(guān)系型數(shù)據(jù)庫(kù)模型,是Apache的Hadoop項(xiàng)目的子項(xiàng)目;源于Google論文《Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)》,實(shí)現(xiàn)了其中的壓縮算法、內(nèi)存操作和布隆過(guò)濾器HBase的編程語(yǔ)言為Java。HBase的表能夠作為MapReduce任務(wù)的輸入和輸出,可以通過(guò)JavaAPI來(lái)存取數(shù)據(jù)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

HBase:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)45Hive:基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,用于查詢、管理分布式存儲(chǔ)中的大數(shù)據(jù)集,提供完整的SQL查詢功能,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。Hive提供了一種類SQL語(yǔ)言(HiveQL)可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Hive:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)46Cassandra:開(kāi)源NoSQL數(shù)據(jù)庫(kù)系統(tǒng),最早由Facebook開(kāi)發(fā),并于2008年開(kāi)源;由于其良好的可擴(kuò)展性,Cassandra被Facebook、Twitter、Backspace、Cisco等公司使用;其數(shù)據(jù)模型借鑒了Amazon的Dynamo和GoogleBigTable,是一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Cassandra:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)47Impala:由Cloudera公司主導(dǎo)開(kāi)發(fā),是運(yùn)行在Hadoop平臺(tái)上的開(kāi)源的大規(guī)模并行SQL查詢引擎。用戶可以使用標(biāo)準(zhǔn)的SQL接口的工具查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Impala:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)48

Shark:Spark上的數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn),即SQLonSpark;與Hive相兼容,但處理HiveQL的性能比Hive快100倍。Hana:由SAP公司開(kāi)發(fā)的與數(shù)據(jù)源無(wú)關(guān)、軟硬件結(jié)合、基于內(nèi)存計(jì)算的平臺(tái)。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Shark:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)492.批處理系統(tǒng)

MapReduce是被廣泛使用的批處理計(jì)算模式。MapReduce對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分的大數(shù)據(jù)采用“分而治之”的并行處理思想,將數(shù)據(jù)記錄的處理分為Map和Reduce兩個(gè)簡(jiǎn)單的抽象操作,提供了一個(gè)統(tǒng)一的并行計(jì)算框架。批處理系統(tǒng)將復(fù)雜的并行計(jì)算的實(shí)現(xiàn)進(jìn)行封裝,大大降低開(kāi)發(fā)人員的并行程序設(shè)計(jì)難度。Hadoop和Spark是典型的批處理系統(tǒng)。MapReduce的批處理模式不支持迭代計(jì)算。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)50

Hadoop:目前大數(shù)據(jù)處理最主流的平臺(tái),是Apache基金會(huì)的開(kāi)源軟件項(xiàng)目,使用Java語(yǔ)言開(kāi)發(fā)實(shí)現(xiàn)。Hadoop平臺(tái)使開(kāi)發(fā)人員無(wú)需了解底層的分布式細(xì)節(jié),即可開(kāi)發(fā)出分布式程序,在集群中對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、分析。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Hadoop:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)51Spark:由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開(kāi)發(fā),適合用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等迭代運(yùn)算較多的計(jì)算任務(wù)。Spark引入了內(nèi)存計(jì)算的概念,運(yùn)行Spark時(shí)服務(wù)器可以將中間數(shù)據(jù)存儲(chǔ)在RAM內(nèi)存中,大大加速數(shù)據(jù)分析結(jié)果的返回速度,可用于需要互動(dòng)分析的場(chǎng)景。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Spark:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)523.流式計(jì)算系統(tǒng)流式計(jì)算具有很強(qiáng)的實(shí)時(shí)性,需要對(duì)應(yīng)用源源不斷產(chǎn)生的數(shù)據(jù)實(shí)時(shí)進(jìn)行處理,使數(shù)據(jù)不積壓、不丟失,常用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)的訪問(wèn)日志等。Facebook的Scribe、Apache的Flume、Twitter的Storm、Yahoo的S4、UCBerkeley的SparkStreaming是常用的流式計(jì)算系統(tǒng)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)3.流式計(jì)算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)53Scribe:Scribe由Facebook開(kāi)發(fā)開(kāi)源系統(tǒng),用于從海量服務(wù)器實(shí)時(shí)收集日志信息,對(duì)日志信息進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)分析處理,應(yīng)用在Facebook內(nèi)部。Flume:Flume由Cloudera公司開(kāi)發(fā),其功能與Scribe相似,主要用于實(shí)時(shí)收集在海量節(jié)點(diǎn)上產(chǎn)生的日志信息,存儲(chǔ)到類似于HDFS的網(wǎng)絡(luò)文件系統(tǒng)中,并根據(jù)用戶的需求進(jìn)行相應(yīng)的數(shù)據(jù)分析。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Scribe:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)54

Storm:基于拓?fù)涞姆植际搅鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng),由BackType公司(后被Twitter收購(gòu))開(kāi)發(fā),現(xiàn)已經(jīng)開(kāi)放源代碼,并應(yīng)用于淘寶、百度、支付寶、Groupon、Facebook等平臺(tái),是主要的流數(shù)據(jù)計(jì)算平臺(tái)之一。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

Storm:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)55S4:S4的全稱是SimpleScalableStreamingSystem,是由Yahoo開(kāi)發(fā)的通用、分布式、可擴(kuò)展、部分容錯(cuò)、具備可插拔功能的平臺(tái);其設(shè)計(jì)目的是根據(jù)用戶的搜索內(nèi)容計(jì)算得到相應(yīng)的推薦廣告,現(xiàn)已經(jīng)開(kāi)源,是重要的大數(shù)據(jù)計(jì)算平臺(tái)。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)S4:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)56SparkStreaming:構(gòu)建在Spark上的流數(shù)據(jù)處理框架,將流式計(jì)算分解成一系列短小的批處理任務(wù)進(jìn)行處理。網(wǎng)站流量統(tǒng)計(jì)是SparkStreaming的一種典型的使用場(chǎng)景,這種應(yīng)用既需要具有實(shí)時(shí)性,還需要進(jìn)行聚合、去重、連接等統(tǒng)計(jì)計(jì)算操作;如果使用HadoopMapReduce框架,則可以很容易地實(shí)現(xiàn)統(tǒng)計(jì)需求,但無(wú)法保證實(shí)時(shí)性;如果使用Storm這種流式框架則可以保證實(shí)時(shí)性,但實(shí)現(xiàn)難度較大;SparkStreaming可以以準(zhǔn)實(shí)時(shí)的方式方便地實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)SparkStreaming:1.2.2主要的大數(shù)據(jù)處理574.迭代計(jì)算系統(tǒng)針對(duì)MapReduce不支持迭代計(jì)算的缺陷,人們對(duì)Hadoop的MapReduce進(jìn)行了大量改進(jìn),Haloop、iMapReduce、Twister、Spark是典型的迭代計(jì)算系統(tǒng)。HaLoop:Haloop是HadoopMapReduce框架的修改版本,用于支持迭代、遞歸類型的數(shù)據(jù)分析任務(wù),如PageRank、K-means等。iMapReduce:一種基于MapReduce的迭代模型,實(shí)現(xiàn)了MapReduce的異步迭代。Twister:基于Java的迭代MapReduce模型,上一輪Reduce的結(jié)果會(huì)直接傳送到下一輪的Map。Spark:基于內(nèi)存計(jì)算的開(kāi)源集群計(jì)算框架。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)4.迭代計(jì)算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)585.圖計(jì)算系統(tǒng)社交網(wǎng)絡(luò)、網(wǎng)頁(yè)鏈接等包含具有復(fù)雜關(guān)系的圖數(shù)據(jù),這些圖數(shù)據(jù)的規(guī)模巨大,可包含數(shù)十億頂點(diǎn)和上百億條邊,圖數(shù)據(jù)需要由專門的系統(tǒng)進(jìn)行存儲(chǔ)和計(jì)算。常用的圖計(jì)算系統(tǒng)有Google公司的Pregel、Pregel的開(kāi)源版本Giraph、微軟的Trinity、BerkeleyAMPLab的GraphX以及高速圖數(shù)據(jù)處理系統(tǒng)PowerGraph。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)5.圖計(jì)算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)59Pregel:

Google公司開(kāi)發(fā)的一種面向圖數(shù)據(jù)計(jì)算的分布式編程框架,采用迭代的計(jì)算模型。Google的數(shù)據(jù)計(jì)算任務(wù)中,大約80%的任務(wù)處理采用MapReduce模式,如網(wǎng)頁(yè)內(nèi)容索引;圖數(shù)據(jù)的計(jì)算任務(wù)約占20%,采用Pregel進(jìn)行處理。Giraph:一個(gè)迭代的圖計(jì)算系統(tǒng),最早由雅虎公司借鑒Pregel系統(tǒng)開(kāi)發(fā),后捐贈(zèng)給Apache軟件基金會(huì),成為開(kāi)源的圖計(jì)算系統(tǒng)。Giraph是基于Hadoop建立的,F(xiàn)acebook在其臉譜搜索服務(wù)中大量使用了Giraph。1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Pregel:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)60Trinity:微軟公司開(kāi)發(fā)的圖數(shù)據(jù)庫(kù)系統(tǒng),該系統(tǒng)是基于內(nèi)存的數(shù)據(jù)存儲(chǔ)與運(yùn)算系統(tǒng),源代碼不公開(kāi)。GraphX:由AMPLab開(kāi)發(fā)的運(yùn)行在數(shù)據(jù)并行的Spark平臺(tái)上的圖數(shù)據(jù)計(jì)算系統(tǒng)。PowerGraph:高速圖處理系統(tǒng),常用于廣告推薦計(jì)算和自然語(yǔ)言處理。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)616.內(nèi)存計(jì)算系統(tǒng)隨著內(nèi)存價(jià)格的不斷下降、服務(wù)器可配置內(nèi)存容量的不斷增長(zhǎng),使用內(nèi)存計(jì)算完成高速的大數(shù)據(jù)處理已成為大數(shù)據(jù)處理的重要發(fā)展方向。目前常用的內(nèi)存計(jì)算系統(tǒng)有分布式內(nèi)存計(jì)算系統(tǒng)Spark、全內(nèi)存式分布式數(shù)據(jù)庫(kù)系統(tǒng)HANA、Google的可擴(kuò)展交互式查詢系統(tǒng)Dremel。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)6.內(nèi)存計(jì)算系統(tǒng)1.2.2主要的大數(shù)據(jù)處理系統(tǒng)62Dremel:Google的交互式數(shù)據(jù)分析系統(tǒng),可以在數(shù)以千計(jì)的服務(wù)器組成的集群上發(fā)起計(jì)算,處理PB級(jí)的數(shù)據(jù)。Dremel是GoogleMapReduce的補(bǔ)充,大大縮短了數(shù)據(jù)的處理時(shí)間,成功地應(yīng)用在Google的bigquery中。HANA:SAP公司開(kāi)發(fā)的基于內(nèi)存技術(shù)、面向企業(yè)分析性的產(chǎn)品。Spark:基于內(nèi)存計(jì)算的開(kāi)源集群計(jì)算系統(tǒng)。

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)Dremel:1.2.2主要的大數(shù)據(jù)處理系統(tǒng)631.2.3大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本流程大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)處理的基本流程如圖1.2所示。

圖1.2大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本流程1.2.3大數(shù)據(jù)處理的基本64

1.?dāng)?shù)據(jù)抽取與集成由于大數(shù)據(jù)處理的數(shù)據(jù)來(lái)源類型豐富,大數(shù)據(jù)處理的第一步是對(duì)數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過(guò)關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)?,F(xiàn)有的數(shù)據(jù)抽取和集成方法有三種:基于物化或ETL方法的引擎(MaterializationorETLEngine)、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法的引擎(FederationEngineorMediator)、基于數(shù)據(jù)流方法的引擎(StreamEngine)。1.2.3大數(shù)據(jù)處理的基本流程

1.?dāng)?shù)據(jù)抽取與集成1.2.3大數(shù)據(jù)處理的基本流程652.?dāng)?shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟,通過(guò)數(shù)據(jù)抽取和集成環(huán)節(jié),我們已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù),用戶可以根據(jù)自己的需求對(duì)這些數(shù)據(jù)進(jìn)行分析處理,比如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)等,數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)等。

1.2.3大數(shù)據(jù)處理的基本流程2.?dāng)?shù)據(jù)分析1.2.3大數(shù)據(jù)處理的基本流程663.?dāng)?shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶最關(guān)心的是數(shù)據(jù)處理的結(jié)果,正確的數(shù)據(jù)處理結(jié)果只有通過(guò)合適的展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果的展示非常重要,可視化和人機(jī)交互是數(shù)據(jù)解釋的主要技術(shù)。

1.2.3大數(shù)據(jù)處理的基本流程3.?dāng)?shù)據(jù)解釋1.2.3大數(shù)據(jù)處理的基本流程67我們?cè)陂_(kāi)發(fā)調(diào)試程序的時(shí)候經(jīng)常通過(guò)打印語(yǔ)句的方式來(lái)呈現(xiàn)結(jié)果,這種方式非常靈活、方便,但只有熟悉程序的人才能很好地理解打印結(jié)果。使用可視化技術(shù),可以將處理的結(jié)果通過(guò)圖形的方式直觀地呈現(xiàn)給用戶,標(biāo)簽云(TagCloud)、歷史流(HistoryFlow)、空間信息流(SpatialInformationFlow)等是常用的可視化技術(shù),用戶可以根據(jù)自己的需求靈活地使用這些可視化技術(shù);人機(jī)交互技術(shù)可以引導(dǎo)用戶對(duì)數(shù)據(jù)進(jìn)行逐步的分析,使用戶參與到數(shù)據(jù)分析的過(guò)程中,使用戶可以深刻地理解數(shù)據(jù)分析結(jié)果。

1.2.3大數(shù)據(jù)處理的基本流程我們?cè)陂_(kāi)發(fā)調(diào)試程序的時(shí)候經(jīng)常通過(guò)打印語(yǔ)句的方式來(lái)呈現(xiàn)結(jié)果,這681.3云計(jì)算與大數(shù)據(jù)的發(fā)展1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

1.云計(jì)算與大數(shù)據(jù)發(fā)展歷程早在1958年,人工智能之父JohnMcCarthy發(fā)明了函數(shù)式語(yǔ)言LISP,LISP語(yǔ)言后來(lái)成為MapReduce的思想來(lái)源。1960年JohnMcCarthy預(yù)言了:“今后計(jì)算機(jī)將會(huì)作為公共設(shè)施提供給公眾”,這一概念與我們現(xiàn)在所定義的云計(jì)算已非常相似,但當(dāng)時(shí)的技術(shù)條件決定了這一設(shè)想只是一種對(duì)未來(lái)技術(shù)發(fā)展的預(yù)言。云計(jì)算是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段后必然出現(xiàn)的新的技術(shù)體系和產(chǎn)業(yè)模式。1984年SUN公司提出“網(wǎng)絡(luò)就是計(jì)算機(jī)”這一具有云計(jì)算特征的論點(diǎn),2006年Google公司CEOEricSchmidt提出云計(jì)算概念,2008年云計(jì)算概念全面進(jìn)入中國(guó),2009年中國(guó)首屆云計(jì)算大會(huì)召開(kāi),此后云計(jì)算技術(shù)和產(chǎn)品迅速地發(fā)展起來(lái)。1.3云計(jì)算與大數(shù)據(jù)的發(fā)展1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

169

隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,數(shù)據(jù)正在以前所未有的速度增長(zhǎng)和積累,IDC的研究數(shù)據(jù)表明,全球的數(shù)據(jù)量每年增長(zhǎng)50%,兩年翻一番,這意味著全球近兩年產(chǎn)生的數(shù)據(jù)量將超過(guò)之前全部數(shù)據(jù)的總和。2011年全球數(shù)據(jù)總量已達(dá)1.8ZB,到2020年,全球數(shù)據(jù)總量將達(dá)到35ZB。2008年《Nature》雜志推出了大數(shù)據(jù)???,2011年《Science》雜志推出大數(shù)據(jù)專刊,討論科學(xué)研究的中大數(shù)據(jù)問(wèn)題。2012年大數(shù)據(jù)的關(guān)注度和影響力快速增長(zhǎng),成為當(dāng)年達(dá)沃斯世界經(jīng)濟(jì)論壇的主題,美國(guó)政府啟動(dòng)大數(shù)據(jù)發(fā)展計(jì)劃。中國(guó)計(jì)算機(jī)學(xué)會(huì)于2012年成立了大數(shù)據(jù)專家委員會(huì),并發(fā)布了大數(shù)據(jù)技術(shù)白皮書(shū)。1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展70

圖1.3近年來(lái)云計(jì)算、大數(shù)據(jù)的關(guān)注度

如圖1.3所示為云計(jì)算、大數(shù)據(jù)兩個(gè)關(guān)鍵詞近年來(lái)的網(wǎng)絡(luò)關(guān)注度,可以看出2012年至今大數(shù)據(jù)的關(guān)注度越來(lái)越高,云計(jì)算和大數(shù)據(jù)是信息技術(shù)未來(lái)的發(fā)展方向。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展1.3云計(jì)算與大數(shù)據(jù)的發(fā)展71網(wǎng)絡(luò)技術(shù)在云計(jì)算和大數(shù)據(jù)的發(fā)展歷程中發(fā)揮了重要的推動(dòng)作用??梢哉J(rèn)為信息技術(shù)的發(fā)展經(jīng)歷了硬件發(fā)展推動(dòng)和網(wǎng)絡(luò)技術(shù)推動(dòng)兩個(gè)階段。早期主要以硬件發(fā)展為主要?jiǎng)恿?,在這個(gè)階段硬件的技術(shù)水平?jīng)Q定著整個(gè)信息技術(shù)的發(fā)展水平,硬件的每一次進(jìn)步都有力地推動(dòng)著信息技術(shù)的發(fā)展,從電子管技術(shù)到晶體管技術(shù)再到大規(guī)模集成電路,這種技術(shù)變革成為產(chǎn)業(yè)發(fā)展的核心動(dòng)力。但網(wǎng)絡(luò)技術(shù)的出現(xiàn)逐步地打破了單純的硬件能力決定技術(shù)發(fā)展的格局,通信帶寬的發(fā)展為信息技術(shù)的發(fā)展提供了新的動(dòng)力,在這一階段通信帶寬成為了信息技術(shù)發(fā)展的決定性力量之一,云計(jì)算、大數(shù)據(jù)技術(shù)的出現(xiàn)正是這一階段的產(chǎn)物,其廣泛應(yīng)用并不是單純靠某一個(gè)人發(fā)明而是由于技術(shù)發(fā)展到現(xiàn)在的必然產(chǎn)物,生產(chǎn)力決定生產(chǎn)關(guān)系的規(guī)律在這里依然是成立的。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展網(wǎng)絡(luò)技術(shù)在云計(jì)算和大數(shù)據(jù)的發(fā)展歷程中發(fā)揮了重要的推動(dòng)作用。172當(dāng)前移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)并迅速普及更是對(duì)云計(jì)算、大數(shù)據(jù)的發(fā)展起到了推動(dòng)作用。移動(dòng)瘦客戶終端與云計(jì)算資源池的結(jié)合大大拓展了移動(dòng)應(yīng)用的思路,云計(jì)算資源得以在移動(dòng)終端上實(shí)現(xiàn)隨時(shí)、隨地、隨身資源服務(wù)。移動(dòng)互聯(lián)網(wǎng)再次拓展了以網(wǎng)絡(luò)化資源交付為特點(diǎn)的云計(jì)算技術(shù)的應(yīng)用能力,同時(shí)也改變了數(shù)據(jù)的產(chǎn)生方式,推動(dòng)了全球數(shù)據(jù)的快速增長(zhǎng),推動(dòng)了大數(shù)據(jù)的技術(shù)和應(yīng)用的發(fā)展。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展當(dāng)前移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)并迅速普及更是對(duì)云計(jì)算、大數(shù)據(jù)的發(fā)展起到73云計(jì)算是一種全新的領(lǐng)先信息技術(shù),結(jié)合IT技術(shù)和互聯(lián)網(wǎng)實(shí)現(xiàn)超級(jí)計(jì)算和存儲(chǔ)的能力,而推動(dòng)云計(jì)算興起的動(dòng)力是高速互聯(lián)網(wǎng)和虛擬化技術(shù)的發(fā)展、更加廉價(jià)且功能強(qiáng)勁的芯片及硬盤、數(shù)據(jù)中心的發(fā)展。云計(jì)算作為下一代企業(yè)數(shù)據(jù)中心,其基本形式為大量鏈接在一起的共享IT基礎(chǔ)設(shè)施,不受本地和遠(yuǎn)程計(jì)算機(jī)資源的限制,可以很方便地訪問(wèn)云中的“虛擬”資源,使用戶和云服務(wù)提供商之間可以像訪問(wèn)網(wǎng)絡(luò)一樣進(jìn)行交互操作。1.3云計(jì)算與大數(shù)據(jù)的發(fā)展云計(jì)算是一種全新的領(lǐng)先信息技術(shù),結(jié)合IT技術(shù)和互聯(lián)網(wǎng)實(shí)現(xiàn)超級(jí)74云計(jì)算的興起有以下因素:(1)高速互聯(lián)網(wǎng)技術(shù)發(fā)展。

云計(jì)算能夠利用現(xiàn)有的IT基礎(chǔ)設(shè)施在極短的時(shí)間內(nèi)處理大量的信息以滿足動(dòng)態(tài)網(wǎng)絡(luò)的高性能的需求。

(2)資源利用率需求。

引入云計(jì)算模式后可以通過(guò)整合資源或采用租用存儲(chǔ)空間、租用計(jì)算能力等服務(wù)來(lái)降低企業(yè)運(yùn)行成本和節(jié)省能源。

同時(shí),利用云計(jì)算將資源集中,統(tǒng)一提供可靠服務(wù),能減少企業(yè)成本,提升企業(yè)靈活性,企業(yè)可以把更多的時(shí)間用于服務(wù)客戶和進(jìn)一步研發(fā)新的產(chǎn)品上。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展云計(jì)算的興起有以下因素:1.3云計(jì)算與大數(shù)據(jù)的發(fā)展75

(3)簡(jiǎn)單與創(chuàng)新需求。

在實(shí)際的業(yè)務(wù)需求中,越來(lái)越多的個(gè)人用戶和企業(yè)用戶都在期待著使用計(jì)算機(jī)操作能簡(jiǎn)單化,能夠直接通過(guò)購(gòu)買軟件或硬件服務(wù)而不是軟件或硬件實(shí)體,為自己的學(xué)習(xí)、生活和工作帶來(lái)更多的便利,能在學(xué)習(xí)場(chǎng)所、工作場(chǎng)所、住所之間建立便利的文件或資料共享的紐帶。而對(duì)資源的利用可以簡(jiǎn)化到通過(guò)接入網(wǎng)絡(luò)就可以實(shí)現(xiàn)自己想要實(shí)現(xiàn)的一切,就需要在技術(shù)上有所創(chuàng)新,利用云計(jì)算來(lái)提供這一切,將我們需要的資料、數(shù)據(jù)、文檔、程序等全部放在云端實(shí)現(xiàn)同步。1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

(3)簡(jiǎn)單與創(chuàng)新需求。

在實(shí)際的業(yè)務(wù)需求中,越來(lái)越76(4)其他需求連接設(shè)備、實(shí)時(shí)數(shù)據(jù)流、SOA的采用以及搜索、開(kāi)放協(xié)作、社會(huì)網(wǎng)絡(luò)和移動(dòng)商務(wù)等的移動(dòng)互聯(lián)網(wǎng)應(yīng)用急劇增長(zhǎng),數(shù)字元器件性能的提升也使IT環(huán)境的規(guī)模大幅度提高,從而進(jìn)一步加強(qiáng)了對(duì)一個(gè)由統(tǒng)一的云進(jìn)行管理的需求。個(gè)人或企業(yè)希望按需計(jì)算或服務(wù),能在不同的地方實(shí)時(shí)實(shí)現(xiàn)項(xiàng)目、文檔的協(xié)作處理,能在繁雜的信息中方便地找到自己需要的信息等需求也是云計(jì)算興起的原因之一。人類歷史不斷地證明生產(chǎn)力決定生產(chǎn)關(guān)系,技術(shù)的發(fā)展歷史也證明了技術(shù)能力決定技術(shù)的形態(tài),1.3云計(jì)算與大數(shù)據(jù)的發(fā)展(4)其他需求1.3云計(jì)算與大數(shù)據(jù)的發(fā)展77縱觀整個(gè)信息技術(shù)的發(fā)展歷史

圖1.4信息產(chǎn)業(yè)發(fā)展演進(jìn)路線圖

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展縱觀整個(gè)信息技術(shù)的發(fā)展歷史1.3云計(jì)算與大數(shù)據(jù)的發(fā)展78硬件驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。20世紀(jì)50年代最早的網(wǎng)絡(luò)開(kāi)始出現(xiàn),信息產(chǎn)業(yè)的發(fā)展驅(qū)動(dòng)力中開(kāi)始出現(xiàn)網(wǎng)絡(luò)的力量,但當(dāng)時(shí)網(wǎng)絡(luò)性能很弱,網(wǎng)絡(luò)并不是推動(dòng)信息產(chǎn)業(yè)發(fā)展的主要?jiǎng)恿?,處理器等硬件的影響還占絕對(duì)主導(dǎo)因素。隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)通信帶寬逐步加大,從20世紀(jì)80年代的局域網(wǎng)到20世紀(jì)90年代的互聯(lián)網(wǎng),網(wǎng)絡(luò)逐漸成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的主導(dǎo)力量,這個(gè)時(shí)期誕生了百度、谷歌、亞馬遜等企業(yè)。直到云計(jì)算的出現(xiàn)才標(biāo)志著網(wǎng)絡(luò)已成為信息產(chǎn)業(yè)發(fā)展的主要驅(qū)動(dòng)力,此時(shí)技術(shù)的變革即將出現(xiàn)。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展硬件驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。20世紀(jì)792.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家超級(jí)計(jì)算機(jī)之父—西摩·克雷(SeymourCray)

在人類解決計(jì)算和存儲(chǔ)問(wèn)題的歷程中,西摩·克雷成為了一座豐碑,被稱為超級(jí)計(jì)算機(jī)之父。西摩·克雷,生于1925年9月28日,美國(guó)人,1958年設(shè)計(jì)建造了世界上第一臺(tái)基于晶體管的超級(jí)計(jì)算機(jī),成為計(jì)算機(jī)發(fā)展史上的重要里程碑。同時(shí)也對(duì)精簡(jiǎn)指令(RISC)高端微處理器的產(chǎn)生有重大的貢獻(xiàn)。1972年,他創(chuàng)辦了克雷研究公司,公司的宗旨是只生產(chǎn)超級(jí)計(jì)算機(jī)。此后的十余年中,克雷先后創(chuàng)造了Cray-1、Cray-2等機(jī)型。作為高性能計(jì)算機(jī)領(lǐng)域中最重要的人物之一,他親手設(shè)計(jì)了Cray全部的硬件與操作系統(tǒng)。Cray機(jī)成為了從事高性能計(jì)算學(xué)者中永遠(yuǎn)的記憶,到1986年1月為止,世界上有130臺(tái)超級(jí)計(jì)算機(jī)投入使用,其中大約90臺(tái)是由克雷的上市公司—克雷研究所研制的。美國(guó)的《商業(yè)周刊》在1990年的一篇文章中曾這樣寫道:“西摩·克雷的天賦和非凡的干勁已經(jīng)給本世紀(jì)的技術(shù)留下了不可磨滅的印記”。2013年11月高性能計(jì)算Top500排行中第2名和第6名均為Cray機(jī)。

圖1.5西摩·克雷1.3云計(jì)算與大數(shù)據(jù)的發(fā)展2.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家圖1.5西摩·克雷802.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家云計(jì)算之父—約翰·麥卡錫(JohnMcCarthy)約翰·麥卡錫1927年生于美國(guó),1951年獲得普林斯頓大學(xué)數(shù)學(xué)博士學(xué)位。他因在人工智能領(lǐng)域的貢獻(xiàn)而在1971年獲得圖靈獎(jiǎng);麥卡錫真正廣為人知的稱呼是“人工智能之父”,因?yàn)樗?955年的達(dá)特矛斯會(huì)議上提出了“人工智能”這個(gè)概念,使人工智能成為了一門新的學(xué)科。1958年發(fā)明了LISP語(yǔ)言,而LISP語(yǔ)言中的MapReduce在幾十年后成為了Google云計(jì)算和大數(shù)據(jù)系統(tǒng)中最為核心的技術(shù)。麥卡錫更為富有遠(yuǎn)見(jiàn)的預(yù)言是他在1960年提出的“今后計(jì)算機(jī)將會(huì)作為公共設(shè)施提供給公眾”這一觀點(diǎn)與現(xiàn)在的云計(jì)算的理念竟然絲毫不差。正是由于他提前半個(gè)多世紀(jì)就預(yù)言了云計(jì)算這種新的模式,因此我們將他稱為“云計(jì)算之父”。圖1.6約翰·麥卡錫1.3云計(jì)算與大數(shù)據(jù)的發(fā)展2.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家圖1.6約翰·麥卡812.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家大數(shù)據(jù)之父—吉姆·格雷(JimGray)吉姆·格雷生于1944年,在著名的加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,是聲譽(yù)卓著的數(shù)據(jù)庫(kù)專家,1998年度的圖靈獎(jiǎng)獲得者;2007年1月11日在美國(guó)國(guó)家研究理事會(huì)計(jì)算機(jī)科學(xué)與通信分會(huì)上吉姆·格雷明確地闡述了科學(xué)研究第四范式,認(rèn)為依靠對(duì)數(shù)據(jù)分析挖掘也能發(fā)現(xiàn)新的知識(shí),這一認(rèn)識(shí)吹響了大數(shù)據(jù)前進(jìn)的號(hào)角,計(jì)算應(yīng)用于數(shù)據(jù)的觀點(diǎn)在當(dāng)前的云計(jì)算大數(shù)據(jù)系統(tǒng)中得到了大量的體現(xiàn)。在他發(fā)表這一演講后的十幾天,2007年1月28號(hào)格雷獨(dú)自架船出海就再也沒(méi)有了音訊,雖然經(jīng)多方的努力搜索卻沒(méi)有發(fā)現(xiàn)一絲他的信息,人們?cè)僖矝](méi)能見(jiàn)到這位天才的科學(xué)家。圖1.8大數(shù)據(jù)之父—吉姆·格雷1.3云計(jì)算與大數(shù)據(jù)的發(fā)展2.為云計(jì)算與大數(shù)據(jù)發(fā)展做出貢獻(xiàn)的科學(xué)家圖1.8大數(shù)據(jù)之父823.云計(jì)算與大數(shù)據(jù)的國(guó)內(nèi)發(fā)展現(xiàn)狀

云計(jì)算與大數(shù)據(jù)概念進(jìn)入中國(guó)以來(lái),國(guó)內(nèi)高度重視云計(jì)算產(chǎn)業(yè)和技術(shù)的發(fā)展,中國(guó)電子學(xué)會(huì)率先成立了云計(jì)算專業(yè)委員會(huì),并在2009年舉辦了第一屆中國(guó)云計(jì)算大會(huì),該委員會(huì)在大會(huì)后來(lái)每年舉辦一次,成為云計(jì)算領(lǐng)域的一個(gè)重要會(huì)議,同時(shí)每年出版一本《云計(jì)算技術(shù)發(fā)展報(bào)告》,報(bào)道當(dāng)年云計(jì)算的發(fā)展?fàn)顩r。中國(guó)計(jì)算機(jī)學(xué)會(huì)于2012年成立了大數(shù)據(jù)專家委員會(huì);2013年發(fā)布了《中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)》,并舉辦了第一節(jié)CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展3.云計(jì)算與大數(shù)據(jù)的國(guó)內(nèi)發(fā)展現(xiàn)狀

1.3云計(jì)算與大數(shù)據(jù)的發(fā)83國(guó)內(nèi)的研究機(jī)構(gòu)也紛紛開(kāi)展云計(jì)算、大數(shù)據(jù)研究工作,如清華大學(xué)、中國(guó)科學(xué)院計(jì)算所、華中科技大學(xué)、成都信息工程學(xué)院并行計(jì)算實(shí)驗(yàn)室都在開(kāi)展相關(guān)的研究工作??蒲腥藛T逐步發(fā)現(xiàn)在云計(jì)算的新的體系下,有大量需要研究解決的問(wèn)題,如理論框架、安全機(jī)制、調(diào)度策略、能耗模型、數(shù)據(jù)分析、虛擬化、遷移機(jī)制等。自“第四范式”提出后,數(shù)據(jù)成為科學(xué)研究的研究對(duì)象,大數(shù)據(jù)概念成為云計(jì)算之后信息產(chǎn)業(yè)的又一熱點(diǎn),成為科研領(lǐng)域研究的熱點(diǎn)。國(guó)家自然科學(xué)基金反映了我國(guó)科研領(lǐng)域的進(jìn)展,2009~2013年云計(jì)算、大數(shù)據(jù)、數(shù)據(jù)中心方向的國(guó)家自然科學(xué)基金立項(xiàng)數(shù)據(jù)如圖1.9所示。

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展國(guó)內(nèi)的研究機(jī)構(gòu)也紛紛開(kāi)展云計(jì)算、大數(shù)據(jù)研究工作,如清華大學(xué)、84圖1.9云計(jì)算、大數(shù)據(jù)、數(shù)據(jù)中心方向的國(guó)家自然科學(xué)基金立項(xiàng)情況

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展1.3云計(jì)算與大數(shù)據(jù)的發(fā)展85國(guó)內(nèi)的企業(yè)也對(duì)云計(jì)算、大數(shù)據(jù)給予了高度關(guān)注,華為、中興、阿里、騰訊都宣布了自己龐大的云計(jì)算計(jì)劃。這些企業(yè)多年來(lái)積累的數(shù)據(jù)在大數(shù)據(jù)時(shí)代將發(fā)揮巨大作用。數(shù)據(jù)分析、數(shù)據(jù)運(yùn)營(yíng)的作用已經(jīng)顯現(xiàn)出來(lái),擁有用戶數(shù)據(jù)的IT企業(yè)對(duì)傳統(tǒng)的行業(yè)產(chǎn)生了巨大影響,“數(shù)據(jù)為王”的時(shí)代正在到來(lái)。1.3云計(jì)算與大數(shù)據(jù)的發(fā)展1.3云計(jì)算與大數(shù)據(jù)的發(fā)展86練習(xí)題1.在信息產(chǎn)業(yè)的發(fā)展歷程中,

、

作為兩個(gè)重要的內(nèi)在動(dòng)力在不同時(shí)期起著重要作用。2.

建造了世界上第一臺(tái)基于晶體管的超級(jí)計(jì)算機(jī),被譽(yù)為“超級(jí)計(jì)算機(jī)之父”。3.

最早預(yù)言了“今后計(jì)算機(jī)將會(huì)作為公共設(shè)施提供給公眾”,被譽(yù)為“云計(jì)算之父”。4.萬(wàn)維網(wǎng)的發(fā)明人、世界上第一個(gè)網(wǎng)頁(yè)的開(kāi)發(fā)者是

。練習(xí)題87云計(jì)算與大數(shù)據(jù)技術(shù)

人民郵電出版社王鵬黃焱安俊秀張逸琴編著

云計(jì)算與大數(shù)據(jù)技術(shù)人民郵電出版社王鵬黃焱安俊秀88目錄CONTENTS第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)第2章云計(jì)算與大數(shù)據(jù)的相關(guān)技術(shù)第3章虛擬化技術(shù)第4章集群系統(tǒng)基礎(chǔ)第5章MPI—面向計(jì)算第6章Hadoop—分布式大數(shù)據(jù)系統(tǒng)第7章HPCC—面向數(shù)據(jù)的高性能計(jì)算集群系統(tǒng)第8章Storm—基于拓?fù)涞牧鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)第9章服務(wù)器與數(shù)據(jù)中心第10章云計(jì)算大數(shù)據(jù)仿真技術(shù)目錄CONTENTS第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)89第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)《云計(jì)算與大數(shù)據(jù)技術(shù)》

第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)《云計(jì)算與大數(shù)據(jù)技術(shù)》90第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)1.1云計(jì)算技術(shù)概述 1.1.1云計(jì)算簡(jiǎn)介

1.1.2云計(jì)算的特點(diǎn) 1.1.3云計(jì)算技術(shù)分類

1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介

1.2.2主要的大數(shù)據(jù)處理系統(tǒng)

1.2.3大數(shù)據(jù)處理的基本流程

1.3云計(jì)算與大數(shù)據(jù)的發(fā)展

第1章云計(jì)算與大數(shù)據(jù)基礎(chǔ)1.1云計(jì)算技術(shù)概述 911.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段而出現(xiàn)的一種新的技術(shù)模型云計(jì)算并不是對(duì)某一項(xiàng)獨(dú)立技術(shù)的稱呼,而是對(duì)實(shí)現(xiàn)云計(jì)算模式所需要的所有技術(shù)的總稱。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一92云計(jì)算技術(shù)的內(nèi)容很多包括分布式計(jì)算技術(shù)、虛擬化技術(shù)、網(wǎng)絡(luò)技術(shù)、服務(wù)器技術(shù)、數(shù)據(jù)中心技術(shù)、云計(jì)算平臺(tái)技術(shù)、存儲(chǔ)技術(shù)等。從廣義上說(shuō),云計(jì)算技術(shù)幾乎包括了當(dāng)前信息技術(shù)中的絕大部分。

1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)的內(nèi)容很多1.1.1云計(jì)算簡(jiǎn)介93維基百科中對(duì)云計(jì)算的定義為:云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過(guò)這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備。2012年的國(guó)務(wù)院政府工作報(bào)告將云計(jì)算作為國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)給出了定義:云計(jì)算是基于互聯(lián)網(wǎng)的服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)、易擴(kuò)展且經(jīng)常是虛擬化的資源。云計(jì)算是傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,它意味著計(jì)算能力也可作為一種商品通過(guò)互聯(lián)網(wǎng)進(jìn)行流通。

1.1.1云計(jì)算簡(jiǎn)介維基百科中對(duì)云計(jì)算的定義為:1.1.1云計(jì)算簡(jiǎn)介94云計(jì)算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產(chǎn)業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產(chǎn)業(yè)分工高度專業(yè)化的需求,同時(shí)也不符合企業(yè)需要靈敏地適應(yīng)客戶的需要。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。1.1.1云計(jì)算95傳統(tǒng)的計(jì)算資源和存儲(chǔ)資源大小通常是相對(duì)固定的,面對(duì)客戶高波動(dòng)性的需求時(shí)會(huì)非常的不敏捷,企業(yè)的計(jì)算和存儲(chǔ)資源要么是被浪費(fèi),要么是面對(duì)客戶峰值需求時(shí)力不從心。云計(jì)算技術(shù)使資源與用戶需求之間是一種彈性化的關(guān)系,資源的使用者和資源的整合者并不是一個(gè)企業(yè),資源的使用者只需要對(duì)資源按需付費(fèi),從而敏捷地響應(yīng)客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。

1.1.1云計(jì)算簡(jiǎn)介傳統(tǒng)的計(jì)算資源和存儲(chǔ)資源大小通常是相對(duì)固定的,面對(duì)客戶高波動(dòng)96云計(jì)算時(shí)代基本的3種角色:

資源的整合運(yùn)營(yíng)者、資源的使用者、終端客戶。資源的整合運(yùn)營(yíng)者就像是發(fā)電廠負(fù)責(zé)資源的整合輸出;資源的使用者負(fù)責(zé)將資源轉(zhuǎn)變?yōu)闈M足客戶需求的各種應(yīng)用;終端客戶為資源的最終消費(fèi)者。1.1.1云計(jì)算簡(jiǎn)介云計(jì)算時(shí)代基本的3種角色:1.1.1云計(jì)算簡(jiǎn)介97云計(jì)算這種新的模式的出現(xiàn)被認(rèn)為是信息產(chǎn)業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國(guó)內(nèi)企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計(jì)算簡(jiǎn)介云計(jì)算這種新的模式的出現(xiàn)被認(rèn)為是信息產(chǎn)業(yè)的一大變革,吸引了大98云計(jì)算技術(shù)作為一項(xiàng)涵蓋面廣且對(duì)產(chǎn)業(yè)影響深遠(yuǎn)的技術(shù),未來(lái)將逐步滲透到信息產(chǎn)業(yè)和其他產(chǎn)業(yè)的方方面面,并將深刻改變產(chǎn)業(yè)的結(jié)構(gòu)模式、技術(shù)模式和產(chǎn)品銷售模式,進(jìn)而深刻影響人們的生活;云計(jì)算會(huì)逐步成為人們生活中必不可少的技術(shù);1.1.1云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)作為一項(xiàng)涵蓋面廣且對(duì)產(chǎn)業(yè)影響深遠(yuǎn)的技術(shù),未來(lái)將逐步99移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使云計(jì)算應(yīng)用走向了人們的指間,推動(dòng)了云計(jì)算技術(shù)的應(yīng)用發(fā)展,今后云計(jì)算將是一項(xiàng)隨時(shí)、隨地、隨身為我們提供服務(wù)的技術(shù);云計(jì)算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產(chǎn)業(yè)的發(fā)展提供無(wú)限的想象空間,使應(yīng)用的創(chuàng)新能力得到完全釋放。

1.1.1云計(jì)算簡(jiǎn)介移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使云計(jì)算應(yīng)用走向了人們的指間,推動(dòng)了云計(jì)算技1001.1.2云計(jì)算的特點(diǎn)1.資源池彈性可擴(kuò)張2.按需提供資源服務(wù)3.虛擬化4.網(wǎng)絡(luò)化的資源接入5.高可靠性和安全性1.1.2云計(jì)算的特點(diǎn)1.1.2云計(jì)算的特點(diǎn)1.1.2云計(jì)算的特點(diǎn)101與傳統(tǒng)的資源提供方向相比,云計(jì)算具有以下特點(diǎn):

(1)資源池彈性可擴(kuò)張?jiān)朴?jì)算系統(tǒng)的一個(gè)重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計(jì)算的基本特征之一。分散的資源使用方法造成了資源的極大浪費(fèi),現(xiàn)在每個(gè)人都可能有一到兩臺(tái)自己的計(jì)算機(jī),但對(duì)這種資源的利用率卻非常的低,計(jì)算機(jī)在大量時(shí)間都是在等待狀態(tài)或是在處理文字?jǐn)?shù)據(jù)等低負(fù)荷的任務(wù)。資源集中起來(lái)后資源的利用效率會(huì)大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴(kuò)張能力成為云計(jì)算系統(tǒng)的一個(gè)基本要求,云計(jì)算系統(tǒng)只有具備了資源的彈性化擴(kuò)張能力才能有效地應(yīng)對(duì)不斷增長(zhǎng)的資源需求。大多數(shù)云計(jì)算系統(tǒng)都能較為方便地實(shí)現(xiàn)新資源的加入。

1.1.2云計(jì)算的特點(diǎn)與傳統(tǒng)的資源提供方向相比,云計(jì)算具有以下特點(diǎn):

1.1.2102(2)按需提供資源服務(wù)云計(jì)算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應(yīng)用戶對(duì)資源不斷變化的需求;云計(jì)算系統(tǒng)實(shí)現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開(kāi)支,用戶不用自己購(gòu)買并維護(hù)大量固定的硬件資源,只需向自己實(shí)際消費(fèi)的資源量來(lái)付費(fèi);按需提供資源服務(wù)使應(yīng)用開(kāi)發(fā)者在邏輯上可以認(rèn)為資源池的大小是不受限制的,應(yīng)用開(kāi)發(fā)者的主要精力只需要集中在自己的應(yīng)用上。

1.1.2云計(jì)算的特點(diǎn)(2)按需提供資源服務(wù)1.1.2云計(jì)算的特點(diǎn)103(3)虛擬化

現(xiàn)有的云計(jì)算平臺(tái)的重要特點(diǎn)是利用軟件來(lái)實(shí)現(xiàn)硬件資源的虛擬化管理、調(diào)度及應(yīng)用。在云計(jì)算中利用虛擬化技術(shù)可大大降低維護(hù)成本和提高資源的利用率。

1.1.2云計(jì)算的特點(diǎn)(3)虛擬化

1.1.2云計(jì)算的特點(diǎn)104(4)網(wǎng)絡(luò)化的資源接入。

從最終用戶的角度看,基于云計(jì)算系統(tǒng)的應(yīng)用服務(wù)通常都是通過(guò)網(wǎng)絡(luò)來(lái)提供的,應(yīng)用開(kāi)發(fā)者將云計(jì)算中心的計(jì)算、存儲(chǔ)等資源封裝為不同的應(yīng)用后往往會(huì)通過(guò)網(wǎng)絡(luò)提供給最終的用戶。云計(jì)算技術(shù)必須實(shí)現(xiàn)資源的網(wǎng)絡(luò)化接入才能有效地向應(yīng)用開(kāi)發(fā)者和最終用戶提供資源服務(wù)。以網(wǎng)絡(luò)技術(shù)的發(fā)展是推動(dòng)云計(jì)算技術(shù)出現(xiàn)的首要?jiǎng)恿Α?.1.2云計(jì)算的特點(diǎn)(4)網(wǎng)絡(luò)化的資源接入。

1.1.2云計(jì)算的特點(diǎn)105(5)高可靠性和安全性。

用戶數(shù)據(jù)存儲(chǔ)在服務(wù)器端,而應(yīng)用程序在服務(wù)器端運(yùn)行,計(jì)算由服務(wù)器端來(lái)處理。所有的服務(wù)分布在不同的服務(wù)器上,如果什么地方(節(jié)點(diǎn))出問(wèn)題就在什么地方終止它,另外再啟動(dòng)一個(gè)程序或節(jié)點(diǎn),即自動(dòng)處理失敗節(jié)點(diǎn),從而保證了應(yīng)用和計(jì)算的正常進(jìn)行。數(shù)據(jù)被復(fù)制到多個(gè)服務(wù)器節(jié)點(diǎn)上有多個(gè)副本(備份),存儲(chǔ)在云里的數(shù)據(jù)即使遇到意外刪除或硬件崩潰也不會(huì)受到影響。1.1.2云計(jì)算的特點(diǎn)(5)高可靠性和安全性。

1.1.2云計(jì)算的特點(diǎn)1061.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類1.按技術(shù)路線分類2.按服務(wù)對(duì)象分類3.按資源封裝的層次分類1.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類107目前已出現(xiàn)的云計(jì)算技術(shù)種類非常多,對(duì)于云計(jì)算的分類可以有多種角度:從技術(shù)路線角度可以分為資源整合型云計(jì)算和資源切分型云計(jì)算;從服務(wù)對(duì)像角度可以被分為公有云和私有云;按資源封裝的層次來(lái)分可以分為:基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)平臺(tái)即服務(wù)(PlatformasaService,PaaS)軟件即服務(wù)(SoftwareasaService,SaaS)。1.1.3云計(jì)算技術(shù)分類目前已出現(xiàn)的云計(jì)算技術(shù)種類非常多,對(duì)于云計(jì)算的分類可以有多種108

1.按技術(shù)路線分類

資源整合型云計(jì)算:這種類型的云計(jì)算系統(tǒng)在技術(shù)實(shí)現(xiàn)方面大多體現(xiàn)為集群架構(gòu),通過(guò)將大量節(jié)點(diǎn)的計(jì)算資源和存儲(chǔ)資源整合后輸出。這類系統(tǒng)通常能實(shí)現(xiàn)跨節(jié)點(diǎn)彈性化的資源池構(gòu)建,核心技術(shù)為分布式計(jì)算和存儲(chǔ)技術(shù)。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計(jì)算系統(tǒng)。1.1.3云計(jì)算技術(shù)分類

1.按技術(shù)路線分類

1.1.3云計(jì)算技術(shù)分類109資源切分型云計(jì)算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計(jì)算系統(tǒng)通過(guò)系統(tǒng)虛擬化實(shí)現(xiàn)對(duì)單個(gè)服務(wù)器資源的彈性化切分,從而有效地利用服務(wù)器資源,其核心技術(shù)為虛擬化技術(shù)。這種技術(shù)的優(yōu)點(diǎn)是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術(shù)的云系統(tǒng),是目前應(yīng)用較為廣泛的技術(shù),特別是在桌面云計(jì)算技術(shù)上應(yīng)用得較為成功;缺點(diǎn)是跨節(jié)點(diǎn)的資源整合代價(jià)較大;KVM、VMware都是這類技術(shù)的代表。1.1.3云計(jì)算技術(shù)分類1.1.3云計(jì)算技術(shù)分類1102.按服務(wù)對(duì)象分類公有云:指服務(wù)對(duì)象是面向公眾的云計(jì)算服務(wù),公有云對(duì)云計(jì)算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務(wù)能力有更高的要求。私有云:指主要服務(wù)于某一組織內(nèi)部的云計(jì)算服務(wù),其服務(wù)并不向公眾開(kāi)放,如企業(yè)、政府內(nèi)部的云服務(wù)。公有云與私有云的界限并不是特別清晰,有時(shí)服務(wù)于一個(gè)地區(qū)和團(tuán)體的云也被稱為公有云。所以這種云計(jì)算分類方法并不是一種準(zhǔn)確的分類方法,主要是在商業(yè)領(lǐng)域的一種稱呼。1.1.3云計(jì)算技術(shù)分類2.按服務(wù)對(duì)象分類1.1.3云計(jì)算技術(shù)分類1113.按資源封裝的層次分類基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS):把單純的計(jì)算和存儲(chǔ)資源不經(jīng)封裝地直接通過(guò)網(wǎng)絡(luò)以服務(wù)的形式提供的用戶使用。這類云計(jì)算服務(wù)用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務(wù)的對(duì)象往往是具有專業(yè)知識(shí)能力的資源使用者,傳統(tǒng)數(shù)據(jù)中心的主機(jī)租用等可能作為IaaS的典型代表。1.1.3云計(jì)算技術(shù)分類3.按資源封裝的層次分類1.1.3云計(jì)算技術(shù)分類112平臺(tái)即服務(wù)(PlatformasaService,PaaS):計(jì)算和存儲(chǔ)資源經(jīng)封裝后,以某種接口和協(xié)議的形式提供給用戶調(diào)用,資源的使用者不再直接面對(duì)底層資源。平臺(tái)即服務(wù)需要平臺(tái)軟件的支撐,可以認(rèn)為是從資源到應(yīng)用軟件的一個(gè)中間件,通過(guò)這類中間件可以大大減小應(yīng)用軟件開(kāi)發(fā)時(shí)的技術(shù)難度。這類云服務(wù)的對(duì)象往往是云計(jì)算應(yīng)用軟件的開(kāi)發(fā)者,平臺(tái)軟件的開(kāi)發(fā)需要使用者具有一定的技術(shù)能力。1.1.3云計(jì)算技術(shù)分類平臺(tái)即服務(wù)(PlatformasaService,Pa113軟件即服務(wù)(SoftwareasaService,SaaS):將計(jì)算和存儲(chǔ)資源封裝為用戶可以直接使用的應(yīng)用并通過(guò)網(wǎng)絡(luò)提供給用戶;SaaS面向的服務(wù)對(duì)象為最終用戶,用戶只是對(duì)軟件功能進(jìn)行使用,無(wú)需了解任何云計(jì)算系統(tǒng)的內(nèi)部結(jié)構(gòu),也不需要用戶具有專業(yè)的技術(shù)開(kāi)發(fā)能力。

1.1.3云計(jì)算技術(shù)分類軟件即服務(wù)(SoftwareasaService,Sa114圖1.1云計(jì)算服務(wù)體系結(jié)構(gòu)如圖所示,云計(jì)算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對(duì)底層硬件資源不同級(jí)別的封裝,從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來(lái)使用資源的,而云計(jì)算系統(tǒng)通過(guò)IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務(wù)的形式利用網(wǎng)絡(luò)提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應(yīng)用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費(fèi)者,他們將資源轉(zhuǎn)變?yōu)閼?yīng)用服務(wù)程序后以SaaS的形式提供給資源的最終消費(fèi)者。實(shí)現(xiàn)對(duì)物理資源封裝的技術(shù)并不是惟一的,目前不少的軟件都能實(shí)現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒(méi)有進(jìn)行逐層的封裝。

1.1.3云計(jì)算技術(shù)分類圖1.1云計(jì)算服務(wù)體系結(jié)構(gòu)傳統(tǒng)的信息系統(tǒng)資源的使用者通常是115云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來(lái)劃分,與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。在計(jì)算機(jī)網(wǎng)絡(luò)中每個(gè)層次都實(shí)現(xiàn)一定的功能,層與層之間有一定關(guān)聯(lián)。而云計(jì)算體系結(jié)構(gòu)中的層次是可以分割的,即某一層次可以單獨(dú)完成一項(xiàng)用戶的請(qǐng)求而不需要其他層次為其提供必要的服務(wù)和支持。

1.1.3云計(jì)算技術(shù)分類云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類型即服務(wù)集合來(lái)劃分,與大家熟悉的116在云計(jì)算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對(duì)應(yīng)。應(yīng)用層對(duì)應(yīng)SaaS軟件即服務(wù),如:GoogleAPPS、SoftWare+Services。平臺(tái)層對(duì)應(yīng)PaaS平臺(tái)即服務(wù),如:IBMITFactory、GoogleAPPEngine、F。基礎(chǔ)設(shè)施層對(duì)應(yīng)IaaS基礎(chǔ)設(shè)施即服務(wù),如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對(duì)應(yīng)硬件即服務(wù),結(jié)合PaaS提供硬件服務(wù),包括服務(wù)器集群及硬件檢測(cè)等服務(wù)。1.1.3云計(jì)算技術(shù)分類在云計(jì)算服務(wù)體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對(duì)應(yīng)。1.1.3云1171.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介1.什么是大數(shù)據(jù)2.?dāng)?shù)據(jù)的來(lái)源3.生產(chǎn)數(shù)據(jù)的三個(gè)階段4.大數(shù)據(jù)的特點(diǎn)5.大數(shù)據(jù)的應(yīng)用領(lǐng)域1.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述1181.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介計(jì)算和數(shù)據(jù)是信息產(chǎn)業(yè)不變的主題,在信息和網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動(dòng)下,人們的感知、計(jì)算、仿真、模擬、傳播等活動(dòng)產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)的產(chǎn)生不受時(shí)間、地點(diǎn)的限制,大數(shù)據(jù)的概念逐漸形成,大數(shù)據(jù)涵蓋了計(jì)算和數(shù)據(jù)兩大主題,是產(chǎn)業(yè)界和學(xué)術(shù)界的研究熱點(diǎn),被譽(yù)為未來(lái)十年的革命性技術(shù)。1.2大數(shù)據(jù)技術(shù)概述1.2.1大數(shù)據(jù)簡(jiǎn)介1191.2.1大數(shù)據(jù)簡(jiǎn)介2008年,《Nature》雜志推出了“大數(shù)據(jù)”專輯,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注;2011年,大數(shù)據(jù)應(yīng)用進(jìn)入我國(guó)并快速發(fā)展,目前大數(shù)據(jù)的應(yīng)用和研究已經(jīng)是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn);2012年3月,美國(guó)政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據(jù),用以強(qiáng)化國(guó)土安全、轉(zhuǎn)變教育學(xué)習(xí)模式、加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災(zāi)等為中心制定新ICT(信息通信技術(shù))戰(zhàn)略,發(fā)布“新ICT計(jì)劃”,重點(diǎn)關(guān)注大數(shù)據(jù)研究和應(yīng)用;2013年1月,英國(guó)政府宣布將在對(duì)地觀測(cè)、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計(jì)算技術(shù)方面投資1.89億英鎊;2013年我國(guó)上海、重慶等地相繼發(fā)布大數(shù)據(jù)行動(dòng)計(jì)劃。

1.2.1大數(shù)據(jù)簡(jiǎn)介2008年,《Nature》雜志推出了1201.什么是大數(shù)據(jù)維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫(kù)管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)的挑戰(zhàn)包括采集、存儲(chǔ)、搜索、共享、傳輸、分析和可視化等。大數(shù)據(jù)的“大”是一個(gè)動(dòng)態(tài)的概念以前10GB的數(shù)據(jù)是個(gè)天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學(xué)等領(lǐng)域,TB級(jí)的數(shù)據(jù)集已經(jīng)很普遍。大數(shù)據(jù)系統(tǒng)需要滿足以下三個(gè)特性。

(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據(jù)容量大;(2)多樣性(Variety):數(shù)據(jù)的種類多、復(fù)雜性高;

(3)高速性(Velocity):數(shù)據(jù)需要頻繁地采集、處理并輸出。

1.2.1大數(shù)據(jù)簡(jiǎn)介1.什么是大數(shù)據(jù)1.2.1大數(shù)據(jù)簡(jiǎn)介1212.?dāng)?shù)據(jù)的來(lái)源大數(shù)據(jù)的數(shù)據(jù)來(lái)源很多,主要有信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等;其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論