大數(shù)據(jù)導(dǎo)論第2章-大數(shù)據(jù)與云計(jì)算_第1頁(yè)
大數(shù)據(jù)導(dǎo)論第2章-大數(shù)據(jù)與云計(jì)算_第2頁(yè)
大數(shù)據(jù)導(dǎo)論第2章-大數(shù)據(jù)與云計(jì)算_第3頁(yè)
大數(shù)據(jù)導(dǎo)論第2章-大數(shù)據(jù)與云計(jì)算_第4頁(yè)
大數(shù)據(jù)導(dǎo)論第2章-大數(shù)據(jù)與云計(jì)算_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章大數(shù)據(jù)與云計(jì)算BigDataandCloudComputing云計(jì)算概述2.1云計(jì)算的主要部署模式2.2云計(jì)算的主要服務(wù)模式2.3云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.42.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.1.1云計(jì)算的提出

在不同時(shí)期,信息產(chǎn)業(yè)的發(fā)展有兩個(gè)重要的核心驅(qū)動(dòng)力:硬件驅(qū)動(dòng)力、網(wǎng)絡(luò)驅(qū)動(dòng)力。這兩種驅(qū)動(dòng)力量的對(duì)比和變化決定著產(chǎn)業(yè)中不同產(chǎn)品的出現(xiàn)時(shí)期以及不同形態(tài)的企業(yè)出現(xiàn)和消亡的時(shí)間。以硬件為核心驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。以網(wǎng)絡(luò)為核心驅(qū)動(dòng)的時(shí)代誕生了Google、雅虎、亞馬遜等企業(yè)。2.1云計(jì)算概述2.1.1云計(jì)算的提出2.1云計(jì)算概述2006年,Google公司CEO埃里克·施密特(EricSchmidt)在搜索引擎大會(huì)(SESSanJose)首次提出“云計(jì)算”概念及體系架構(gòu),并快速得到了業(yè)界認(rèn)可,如圖所示。2008年,云計(jì)算概念全面進(jìn)入中國(guó),2009年,中國(guó)首屆云計(jì)算大會(huì)召開(kāi),此后云計(jì)算技術(shù)和產(chǎn)品迅速發(fā)展起來(lái)。2.1.2云計(jì)算的定義2.1云計(jì)算概述

(1)維基百科:云計(jì)算是一種動(dòng)態(tài)擴(kuò)展的計(jì)算模式,通過(guò)網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶;云計(jì)算通常包含基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)即服務(wù)(PlatformasaService,PaaS)、軟件即服務(wù)(SoftwareasaService,SaaS)。

(2)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)實(shí)驗(yàn)室(NationalInstituteofStandardsandTechnology,NIST):云計(jì)算是一種無(wú)處不在的、便捷的通過(guò)互聯(lián)網(wǎng)訪問(wèn)的一個(gè)可定制的IT資源(IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù))共享池,是一種按使用量付費(fèi)的模式。它能夠通過(guò)最少量的管理或與服務(wù)供應(yīng)商的互動(dòng)實(shí)現(xiàn)計(jì)算資源的迅速供給和釋放。這也是現(xiàn)階段廣為接受的云計(jì)算的定義。2.1.2云計(jì)算的定義2.1云計(jì)算概述

簡(jiǎn)而言之,云計(jì)算是一種通過(guò)互聯(lián)網(wǎng)以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化資源的計(jì)算模式。云計(jì)算的資源是分布式架構(gòu)并通過(guò)虛擬化技術(shù)實(shí)現(xiàn)動(dòng)態(tài)易擴(kuò)展,通過(guò)互聯(lián)網(wǎng)提供的一種具有服務(wù)等級(jí)協(xié)議(Service-LevelAgreement,SLA)的服務(wù)。該協(xié)議是云服務(wù)提供商和客戶之間的一份商業(yè)保障合同,而非一般的服務(wù)承諾。終端用戶不需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識(shí),也無(wú)需直接進(jìn)行控制,只關(guān)注自己真正需要什么樣的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

(1)用戶的公共性。云計(jì)算面向各類用戶,包括企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、個(gè)人等用戶,也包括應(yīng)用軟件、中間件平臺(tái)等“用戶”。這些用戶不需了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識(shí),也無(wú)需直接進(jìn)行控制,只關(guān)注自己真正需要的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。

(2)設(shè)備的多樣性。云計(jì)算希望提供服務(wù)的設(shè)備是多樣的,既包括各種規(guī)模的服務(wù)器、主機(jī)、存儲(chǔ)設(shè)備,也包括各種類型的終端設(shè)備,如計(jì)算機(jī)、智能手機(jī)、各種智能傳感器設(shè)備等。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

(3)商業(yè)模式的服務(wù)性。云計(jì)算的服務(wù)特性體現(xiàn)在兩個(gè)方面:簡(jiǎn)化和標(biāo)準(zhǔn)的服務(wù)接口、按需計(jì)費(fèi)的商業(yè)模式。

(4)提供方式的靈活性。云計(jì)算既可以作為一種公用設(shè)施,提供社會(huì)服務(wù),即“公有云”,也可以作為企業(yè)信息化的集中計(jì)算平臺(tái)來(lái)提供,即“私有云”。2.1.4云計(jì)算的特點(diǎn)2.1云計(jì)算概述(2)資源虛擬化(Virtualization)和彈性調(diào)度。(1)具有大規(guī)模并行計(jì)算能力。(3)數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)。

“云”已經(jīng)具有相當(dāng)規(guī)模,Google云計(jì)算已經(jīng)擁有100多萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器,企業(yè)私有云一般擁有數(shù)百上千臺(tái)服務(wù)器,這些服務(wù)器的硬件架構(gòu)是集群,為大粒度應(yīng)用提供傳統(tǒng)計(jì)算系統(tǒng)或用戶終端所無(wú)法完成的并行計(jì)算服務(wù)。云計(jì)算向外提供的是計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力等各種服務(wù)能力。

云計(jì)算的硬件資源是以分布式系統(tǒng)為底層架構(gòu),上層通過(guò)虛擬化技術(shù)進(jìn)行業(yè)務(wù)的彈性伸縮,以按需分配方式,為小粒度應(yīng)用提供計(jì)算資源,實(shí)現(xiàn)資源共享。即云計(jì)算能夠根據(jù)用戶的實(shí)際需求動(dòng)態(tài)分配和釋放不同的資源,當(dāng)有新需求出現(xiàn)時(shí),可為用戶快速匹配新的資源并及時(shí)分配,以保證資源提供的彈性;而當(dāng)用戶不再需要這些資源時(shí),會(huì)迅速釋放,提供給其他需要的用戶。

大數(shù)據(jù)離不開(kāi)云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始,大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營(yíng)銷發(fā)揮出更大的影響力。2.2.1公有云2.2云計(jì)算的主要部署模式

公有云:提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)。公有云用戶以付費(fèi)的方式,根據(jù)業(yè)務(wù)需要彈性使用IT分配的資源,用戶不需要自己構(gòu)建硬件、軟件等基礎(chǔ)設(shè)施和后期維護(hù),可以在任何地方、任何時(shí)間、多種方式、以互聯(lián)網(wǎng)的形式訪問(wèn)獲取資源。公有云如同日常生活中按需購(gòu)買使用的水、電一樣,方便、快捷地享受服務(wù)。

目前,比較流行的公有云平臺(tái)有國(guó)外的亞馬遜云平臺(tái)AWS(AmazonWebServices)、GAE(GoogleAppEngine)等,國(guó)內(nèi)的有阿里云、SAE(SinaAppEngine)、BAE(BaiduAppEngine)等。亞馬遜的AWS提供了大量基于云的全球性產(chǎn)品,包括計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)、分析、聯(lián)網(wǎng)、移動(dòng)產(chǎn)品、開(kāi)發(fā)人員工具、管理工具、物聯(lián)網(wǎng)、安全性和企業(yè)級(jí)應(yīng)用程序,這些服務(wù)及應(yīng)用程序可幫助企業(yè)或組織快速發(fā)展自己的業(yè)務(wù)、降低IT成本,使來(lái)自中國(guó)乃至全球的眾多客戶從中獲益。

公有云有很多優(yōu)點(diǎn),但最大的缺點(diǎn)是難以保證數(shù)據(jù)的私密性。2.2.2私有云2.2云計(jì)算的主要部署模式

私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)。私有云一般由一個(gè)組織來(lái)使用,同時(shí)由這個(gè)組織來(lái)運(yùn)營(yíng)。如政府機(jī)關(guān)、移動(dòng)通信、學(xué)校等內(nèi)部使用的云平臺(tái)。私有云可較好地解決數(shù)據(jù)私密性問(wèn)題,對(duì)移動(dòng)通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機(jī)構(gòu),建設(shè)私有云將是一個(gè)必然的選擇。使用私有云提供的云計(jì)算服務(wù)需要一定的權(quán)限,一般只提供給企業(yè)內(nèi)部員工使用。其主要目的是合理地組織企業(yè)已有的軟硬件資源,提供更加可靠、彈性的服務(wù)供企業(yè)內(nèi)部使用。比較流行的私有云平臺(tái)有VMwarevCloudSuite和微軟的MicrosoftSystemCenter2016。

2.2.2私有云舉例2.2云計(jì)算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球領(lǐng)先的虛擬化解決方案提供商,能對(duì)用戶的硬件資源進(jìn)行有效地整合,簡(jiǎn)化管理,提升硬件資源的利用率。VMwarevCloudSuite可構(gòu)建和管理基于軟件定義數(shù)據(jù)中心的VMwarevSphere企業(yè)私有云,VMwarevSphere能夠跨數(shù)據(jù)中心,實(shí)現(xiàn)高可用的、可擴(kuò)展的并按需分配的企業(yè)硬件IT基礎(chǔ)架構(gòu)。

②MicrosoftSystemCenter2016私有云。

它提供了本地企業(yè)環(huán)境與WindowsAzure集成的各種服務(wù),可以讓企業(yè)輕松地從本地環(huán)境遷移到微軟Azure公有云。它包括基礎(chǔ)設(shè)施管理和DevOps的資源配置、監(jiān)控、自動(dòng)化、端點(diǎn)保護(hù)和備份與恢復(fù)。SystemCenter2016能實(shí)現(xiàn)企業(yè)的數(shù)據(jù)中心向私有云轉(zhuǎn)型,使企業(yè)數(shù)據(jù)中心更可靠、可擴(kuò)展、彈性地滿足企業(yè)不斷增長(zhǎng)的業(yè)務(wù)需求。2.2.3混合云2.2云計(jì)算的主要部署模式

混合云:是把公有云和私有云進(jìn)行整合,吸納二者的優(yōu)點(diǎn),給企業(yè)帶來(lái)真正意義上的云計(jì)算服務(wù)?;旌显剖俏磥?lái)云發(fā)展的方向?;旌显萍饶芾闷髽I(yè)在IT基礎(chǔ)設(shè)施的巨大投入,又能解決公有云帶來(lái)的數(shù)據(jù)安全等問(wèn)題,是避免企業(yè)變成信息孤島的最佳解決方案?;旌显茝?qiáng)調(diào)基礎(chǔ)設(shè)施是由兩種或多種云組成的,但對(duì)外呈現(xiàn)的是一個(gè)完整的整體。企業(yè)正常運(yùn)營(yíng)時(shí),把重要數(shù)據(jù)保存在自己的私有云里面(如財(cái)務(wù)數(shù)據(jù)),把不重要的信息或需要對(duì)公眾開(kāi)放的信息放到公有云里,兩種云組合形成一個(gè)整體,這就是混合云。

組建混合云的利器是OpenStack,它可以把各種云計(jì)算平臺(tái)資源進(jìn)行異構(gòu)整合,構(gòu)建企業(yè)級(jí)混合云,使企業(yè)可以根據(jù)自己的需求靈活自定義各種云計(jì)算服務(wù)。在搭建企業(yè)云計(jì)算平臺(tái)時(shí),使用OpenStack架構(gòu)是最理想的解決方案,雖然入門門檻較高,但是隨著項(xiàng)目規(guī)模的擴(kuò)大,企業(yè)終將從中受益,因?yàn)椴槐刂Ц对破脚_(tái)中軟件的購(gòu)買費(fèi)用。2.2.3混合云舉例2.2云計(jì)算的主要部署模式

混合云計(jì)算的典型案例是12306火車票購(gòu)票網(wǎng)站。12306購(gòu)票網(wǎng)站最初是私有云計(jì)算,消費(fèi)者平時(shí)用12306購(gòu)票沒(méi)有問(wèn)題,但是一到節(jié)假日(如春節(jié)),有大量購(gòu)票需求的時(shí)候,消費(fèi)者在購(gòu)票的時(shí)候就會(huì)出現(xiàn)頁(yè)面響應(yīng)慢或者頁(yè)面報(bào)錯(cuò)的情況,甚至還會(huì)出現(xiàn)無(wú)法付款的情況,用戶體驗(yàn)特別差。為了解決上述問(wèn)題,12306火車購(gòu)票網(wǎng)站與阿里云簽訂戰(zhàn)略合作,由阿里云提供計(jì)算能力以滿足業(yè)務(wù)高峰期查票檢索服務(wù),而支付業(yè)務(wù)等關(guān)鍵業(yè)務(wù)在12306自己的私有云環(huán)境之中運(yùn)行。兩者組合成一個(gè)新的混合云,對(duì)外呈現(xiàn)還是一個(gè)完整的系統(tǒng)——12306火車購(gòu)票網(wǎng)站。在企業(yè)中,私有云能更好地調(diào)度和使用自動(dòng)化管理物理資源,使企業(yè)基礎(chǔ)設(shè)施更高效地運(yùn)行,結(jié)合公有云,使企業(yè)在相互協(xié)同、合作、創(chuàng)新等方面更加高效。2.3.1基礎(chǔ)設(shè)施即服務(wù)(IaaS)2.3云計(jì)算的主要服務(wù)模式IaaS主要用戶是系統(tǒng)管理員,他們具有專業(yè)知識(shí)能力,直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡(jiǎn)單的開(kāi)發(fā)。服務(wù)提供商提供給用戶的服務(wù)是計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施,包括CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)和其他基本的資源。用戶不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇,存儲(chǔ)空間、部署和運(yùn)行任意軟件,也可獲得有限的網(wǎng)絡(luò)組件(如路由器、防火墻、負(fù)載均衡器等)的控制。IaaS的典型代表是Amazon(前身是網(wǎng)上書(shū)店),Amazon的WebService提供了兩個(gè)云平臺(tái):彈性計(jì)算云EC2(ElasticComputingCloud)和簡(jiǎn)單存儲(chǔ)服務(wù)S3(SimpleStorageService),EC2完成計(jì)算功能,S3完成存儲(chǔ)功能。2.3.2平臺(tái)即服務(wù)(PaaS)2.3云計(jì)算的主要服務(wù)模式PaaS主要用戶是開(kāi)發(fā)人員。PaaS是把應(yīng)用服務(wù)的運(yùn)行和開(kāi)發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式。即PaaS是把二次開(kāi)發(fā)的平臺(tái)以服務(wù)形式提供給開(kāi)發(fā)軟件的用戶使用,開(kāi)發(fā)人員不需要管理或控制底層的云計(jì)算基礎(chǔ)設(shè)施,但可以方便地使用很多在構(gòu)建應(yīng)用時(shí)的必要服務(wù),能控制部署的應(yīng)用程序開(kāi)發(fā)平臺(tái)。PaaS的典型案例有微軟的VisualStudio開(kāi)發(fā)平臺(tái)和GoogleAppEngine(應(yīng)用引擎)平臺(tái)。GoogleAppEngine和Amazon的S3、EC2不同,因?yàn)楹笳呤侵苯犹峁┑氖且幌盗杏布Y源供用戶選擇使用。PaaS的關(guān)鍵技術(shù)有兩個(gè),一個(gè)是分布式的并行計(jì)算,另一個(gè)是大文件分布式存儲(chǔ)。分布式并行計(jì)算技術(shù)是為了充分利用廣泛部署的普通計(jì)算資源實(shí)現(xiàn)大規(guī)模運(yùn)算和應(yīng)用的目的,實(shí)現(xiàn)真正將傳統(tǒng)運(yùn)算轉(zhuǎn)化為并行計(jì)算,為客戶提供并行服務(wù)。大文件分布式存儲(chǔ)是為了解決海量數(shù)據(jù)存儲(chǔ)在廉價(jià)的不可信結(jié)點(diǎn)集群架構(gòu)上數(shù)據(jù)安全性及運(yùn)行性的保證。2.3.3軟件即服務(wù)(SaaS)2.3云計(jì)算的主要服務(wù)模式SaaS的客戶群體是普通用戶。服務(wù)提供商提供給用戶的服務(wù)是運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶只需要通過(guò)終端設(shè)備接入使用即可,簡(jiǎn)單方便,不需要用戶進(jìn)行軟件開(kāi)發(fā),也無(wú)需管理底層資源。如Office365、嘀嘀打車、共享單車等應(yīng)用軟件都屬于SaaS。在云平臺(tái)上,Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成為企業(yè)所需的辦公云平臺(tái),它不僅可以在線使用,還可以下載到本地以客戶端形式使用,是一套完整、容易入門、性價(jià)比高、支持混合部署、支持自定義的辦公解決方案,與傳統(tǒng)意義的Office有天壤之別。SaaS的關(guān)鍵技術(shù)是多租戶技術(shù)。云計(jì)算要求硬件資源和軟件資源能夠更好的共享,要具有良好的伸縮性,任何一個(gè)用戶都能夠按照自己的需求進(jìn)行客戶化配置而不影響其他用戶的使用。

2.3.4三種服務(wù)模式之間的關(guān)系2.3云計(jì)算的主要服務(wù)模式

①?gòu)挠脩趔w驗(yàn)角度分析從用戶體驗(yàn)角度而言,它們之間關(guān)系是獨(dú)立的,因?yàn)樗鼈兠鎸?duì)的是不同類型的用戶。SaaS主要面對(duì)的是普通用戶。PaaS主要的用戶是開(kāi)發(fā)人員。為了支撐著整個(gè)PaaS平臺(tái)的運(yùn)行,供應(yīng)商需要提供四大功能:友好的開(kāi)發(fā)環(huán)境、豐富的服務(wù)、自動(dòng)的資源調(diào)度、精細(xì)的管理和監(jiān)控。IaaS主要的用戶是系統(tǒng)管理員,具有專業(yè)知識(shí)能力。IaaS供應(yīng)商需要在7個(gè)方面對(duì)基礎(chǔ)設(shè)施進(jìn)行管理以給用戶提供資源,它們是資源抽象、資源監(jiān)控、負(fù)載管理、數(shù)據(jù)管理、資源部署、安全管理和計(jì)費(fèi)管理。

②從技術(shù)角度分析云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類型來(lái)劃分的,與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。從技術(shù)角度而言,它們有一定的繼承關(guān)系,即SaaS基于PaaS,PaaS基于IaaS,但并不是簡(jiǎn)單的繼承關(guān)系。因?yàn)镾aaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以構(gòu)建于IaaS之上,也可以直接構(gòu)建在物理資源之上,也就是說(shuō)某一層次可以單獨(dú)完成一項(xiàng)用戶的請(qǐng)求而不需要其他層次為其提供必要的服務(wù)和支持。云計(jì)算系統(tǒng)按資源封裝的層次分為對(duì)底層硬件資源不同級(jí)別的封裝,從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系

云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念,它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面,云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

導(dǎo)言:2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)

云計(jì)算的邏輯架構(gòu)是以Google提出的云計(jì)算邏輯架構(gòu)而發(fā)展起來(lái)的,Google提出了一整套基于分布式的并行集群基礎(chǔ)架構(gòu),并且Google的數(shù)據(jù)中心采用廉價(jià)的LinuxPC機(jī)組成集群,利用軟件來(lái)處理集群中經(jīng)常發(fā)生的結(jié)點(diǎn)失效問(wèn)題,從而形成了Google的云計(jì)算基礎(chǔ)架構(gòu)。Google的云計(jì)算基礎(chǔ)架構(gòu)包括三個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng):GFS分布式文件系統(tǒng)(GoogleFileSystem)、針對(duì)Google應(yīng)用程序的特點(diǎn)提出的MapReduce編程模式和大規(guī)模分布式數(shù)據(jù)庫(kù)BigTable。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)(1)GFS是建立在集群之上的分布式文件系統(tǒng),解決了超大文件存儲(chǔ)、訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作和集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題。GFS默認(rèn)把超大文件分成64MB固定大小的塊,分布在集群的機(jī)器上;為了提高可靠性,每個(gè)塊文件至少有3份以上的冗余,從而解決結(jié)點(diǎn)失效問(wèn)題。(2)MapReduce是分布式并行編程模式,解決了并行計(jì)算問(wèn)題。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù),就可以在集群上進(jìn)行大規(guī)模的分布式并行數(shù)據(jù)處理,并把結(jié)果存儲(chǔ)在GFS上。(3)BigTable是弱一致性要求的分布式大規(guī)模數(shù)據(jù)庫(kù)管理系統(tǒng),解決了海量非關(guān)系型數(shù)據(jù)的存儲(chǔ)。它是稀疏的、分布式的、持久化的、多維排序的,并以Key/Value對(duì)形式存儲(chǔ)的數(shù)據(jù)模型。BigTable不是關(guān)系型數(shù)據(jù)庫(kù),像它的名字一樣,就是一個(gè)巨大的表格,用來(lái)存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)HDFS是Hadoop的分布式文件存儲(chǔ)系統(tǒng)。從用戶角度看,HDFS和其他分布式文件系統(tǒng)沒(méi)有什么區(qū)別,都具有創(chuàng)建文件、刪除文件、移動(dòng)文件和重命名文件等功能。但HDFS是用來(lái)設(shè)計(jì)存儲(chǔ)大數(shù)據(jù)的,并且是分布式存儲(chǔ),所以所有特點(diǎn)都與大數(shù)據(jù)和分布式有關(guān)。為了滿足大數(shù)據(jù)的處理需求,Hadoop對(duì)超大文件的訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作、集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題從技術(shù)上進(jìn)行了優(yōu)化。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)Hadoop實(shí)現(xiàn)了一個(gè)對(duì)大數(shù)據(jù)進(jìn)行分布式并行處理的系統(tǒng)框架,是一種數(shù)據(jù)并行的處理方法。由實(shí)現(xiàn)數(shù)據(jù)分析的MapReduce計(jì)算框架和實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的分布式文件系統(tǒng)HDFS有機(jī)結(jié)合組成,它自動(dòng)把應(yīng)用程序分割成許多小的工作單元,并把這些單元放到集群中的相應(yīng)結(jié)點(diǎn)上執(zhí)行,而分布式文件系統(tǒng)HDFS負(fù)責(zé)各個(gè)結(jié)點(diǎn)上數(shù)據(jù)的存儲(chǔ),實(shí)現(xiàn)高吞吐率的數(shù)據(jù)讀寫(xiě)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)MapReduce是一個(gè)分布式計(jì)算框架,是Hadoop的一個(gè)基礎(chǔ)組件。分為Map和Reduce過(guò)程,是一種將大任務(wù)細(xì)分處理再匯總結(jié)果的一種方法。MapReduce是一種編程模型,支持使用廉價(jià)的計(jì)算機(jī)集群對(duì)規(guī)模達(dá)到PB級(jí)的數(shù)據(jù)集進(jìn)行分布式并行計(jì)算。MapReduce由Map函數(shù)和Reduce函數(shù)構(gòu)成,分別完成任務(wù)的分解與結(jié)果的匯總。MapReduce的用途是進(jìn)行批量處理,不是進(jìn)行實(shí)時(shí)查詢,即特別不適用于交互式應(yīng)用。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(1)ETLTools是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),由一系列數(shù)據(jù)倉(cāng)庫(kù)采集工具構(gòu)成。(2)BIReporting(BusinessIntelligenceReporting,商業(yè)智能報(bào)表)能提供綜合報(bào)告、數(shù)據(jù)分析和數(shù)據(jù)集成等功能。(3)RDBMS是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。RDBMS中的數(shù)據(jù)存儲(chǔ)在被稱為表(Table)的數(shù)據(jù)庫(kù)中。表是相關(guān)記錄的集合,它由行和列組成,是一種二維關(guān)系表。(4)Pig數(shù)據(jù)分析語(yǔ)言提供相應(yīng)的數(shù)據(jù)流(DataFlow)語(yǔ)言和運(yùn)行環(huán)境,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換(使用管道)和實(shí)驗(yàn)性研究(如快速原型)。適用于數(shù)據(jù)準(zhǔn)備階段,Pig運(yùn)行在由Hadoop基本架構(gòu)構(gòu)建的集群上。(5)Hive分布式數(shù)據(jù)倉(cāng)庫(kù)擅長(zhǎng)于數(shù)據(jù)展示,由Facebook開(kāi)發(fā)。Hive管理存儲(chǔ)在HDFS中的數(shù)據(jù),提供了基于SQL的查詢語(yǔ)言查詢數(shù)據(jù)。Hive和Pig都是建立在Hadoop基本架構(gòu)之上,可以用來(lái)從數(shù)據(jù)庫(kù)中提取信息,交給Hadoop處理。(6)Sqoop是數(shù)據(jù)格式轉(zhuǎn)化工具,是完成HDFS和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(7)HBase是類似于GoogleBigTable的分布式列數(shù)據(jù)庫(kù)。HBase支持MapReduce的并行計(jì)算和點(diǎn)查詢(即隨機(jī)讀?。?。HBase是基于Java的產(chǎn)品,與其對(duì)應(yīng)的基于C++的開(kāi)源項(xiàng)目是HyperTable,也是Apache的項(xiàng)目。(8)Avro是一種新的數(shù)據(jù)序列化(Serialization)格式和傳輸工具,主要用來(lái)取代Hadoop基本架構(gòu)中原有的IPC(Inter-ProcessCommunication,進(jìn)程間通信)機(jī)制。(9)Zookeeper是協(xié)同工作系統(tǒng),用于構(gòu)建分布式應(yīng)用,是一種分布式鎖設(shè)施,提供類似GoogleChubby(主要用于解決分布式一致性問(wèn)題)的功能,它是基于HBase和HDFS的,由Facebook開(kāi)發(fā)。(10)Ambari旨在將監(jiān)控和管理等核心功能加入Hadoop。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop、升級(jí)集群,并可提供監(jiān)控服務(wù)。(11)Flume是Cloudera提供的一個(gè)高可用的、高可靠的、分布式的海量日志收集工具,即Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(可定制)的能力。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.1物聯(lián)網(wǎng)

物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分,也是信息化時(shí)代的重要發(fā)展階段。其英文名稱是:“InternetofThings(IoT)”。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。其中物聯(lián)網(wǎng)的基礎(chǔ)是互聯(lián)網(wǎng),以互聯(lián)網(wǎng)的形式把物與物聯(lián)系在一起,進(jìn)行信息交換和通信,是互聯(lián)網(wǎng)對(duì)象的擴(kuò)展和延伸,即萬(wàn)物互聯(lián)。

物聯(lián)網(wǎng)必將引發(fā)一場(chǎng)新的技術(shù)與商業(yè)革命,將把人類推向一個(gè)萬(wàn)物智能的世界,任何事物都有學(xué)習(xí)、發(fā)現(xiàn)、傾聽(tīng)、感知的能力。未來(lái)的公路、建筑、路燈、護(hù)欄、道路標(biāo)識(shí)線等都遍布信號(hào)探測(cè)器。智能汽車時(shí)刻與道路探測(cè)器和其他汽車進(jìn)行高速信息交換,智能汽車的圖像識(shí)別能力日益成熟,外加道路的全面物聯(lián)網(wǎng)化,汽車將實(shí)現(xiàn)無(wú)人駕駛,而且比人類駕駛的汽車更安全、快捷。物聯(lián)網(wǎng)將顛覆人與物之間的相處模式,借助科技的力量可以改變?nèi)藗兊纳睢?.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.2邊緣計(jì)算

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、5G等信息技術(shù)的快速發(fā)展,云計(jì)算已經(jīng)無(wú)法滿足機(jī)器人、智能家居、無(wú)人駕駛、VR(VirtualReality,虛擬現(xiàn)實(shí))/AR(AugmentedReality,增強(qiáng)現(xiàn)實(shí))、新媒體、智能安防、遠(yuǎn)程醫(yī)療、可穿戴設(shè)備、智能制造等場(chǎng)景對(duì)低延遲的高要求,因此邊緣計(jì)算(EdgeComputing)產(chǎn)生。根據(jù)國(guó)際調(diào)研機(jī)構(gòu)Gartner公司的報(bào)告,到2022年,超過(guò)一半的企業(yè)數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心和云平臺(tái)之外的邊緣產(chǎn)生和處理,目前約為10%。邊緣計(jì)算的興起幫助企業(yè)近乎實(shí)時(shí)地分析信息,并圍繞物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)創(chuàng)造新的價(jià)值。

邊緣計(jì)算集結(jié)了云計(jì)算、CDN(ContentDeliveryNetwork)、硬件設(shè)備、運(yùn)營(yíng)商、研究機(jī)構(gòu)以及其它中小廠商等,CDN算是最早的邊緣計(jì)算的雛形。CDN主要是ContentCache(內(nèi)容緩存),現(xiàn)在是FunctionCache(功能緩存),等于要把計(jì)算功能搬到邊緣上來(lái),而不是簡(jiǎn)單的把內(nèi)容放上去。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.3霧計(jì)算

霧計(jì)算(FogComputing)是一種對(duì)云計(jì)算概念的延伸,云在天空飄浮,高高在上,遙不可及,刻意抽象;而霧卻現(xiàn)實(shí)可及,貼近地面,就在你我身邊。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備(是由性能較弱、更為分散的各種功能計(jì)算機(jī)組成)中,而不是全部保存在云中,導(dǎo)致數(shù)據(jù)傳遞具有極低時(shí)延。霧計(jì)算具有遼闊的地理分布,帶有大量網(wǎng)絡(luò)結(jié)點(diǎn)的大規(guī)模傳感器網(wǎng)絡(luò)。霧計(jì)算移動(dòng)性好,手機(jī)和其他移動(dòng)設(shè)備可以互相之間直接通信,信號(hào)不必到云端甚至基站去繞一圈,支持很高的移動(dòng)性。

霧計(jì)算是介于云計(jì)算和個(gè)人計(jì)算之間的,是半虛擬化的服務(wù)計(jì)算架構(gòu)模型,強(qiáng)調(diào)數(shù)量,不管單個(gè)計(jì)算結(jié)點(diǎn)能力多么弱都要發(fā)揮作用。與云計(jì)算相比,霧計(jì)算所采用的架構(gòu)更呈分布式,完成的計(jì)算任務(wù)更接近網(wǎng)絡(luò)邊緣。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中,而不像云計(jì)算那樣將它們幾乎全部保存在云中,數(shù)據(jù)的存儲(chǔ)及處理更依賴本地設(shè)備,而非服務(wù)器。霧計(jì)算是新一代分布式計(jì)算,符合互聯(lián)網(wǎng)的“去中心化”特征。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.4大數(shù)據(jù)和云計(jì)算之間的關(guān)系

云計(jì)算的實(shí)質(zhì)是服務(wù),是一種新興的商業(yè)計(jì)算模式。云概念的提出是因?yàn)樗囊?guī)模很大,可以根據(jù)業(yè)務(wù)動(dòng)態(tài)伸縮。云計(jì)算是提供給這種商業(yè)模式的具體實(shí)現(xiàn),是互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展到一定階段的必然產(chǎn)物。云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念,它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面,云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。

云計(jì)算的核心是業(yè)務(wù)模式,其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云計(jì)算為數(shù)據(jù)資產(chǎn)提供了存儲(chǔ)、訪問(wèn)的場(chǎng)所和計(jì)算能力,即云計(jì)算更偏重海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,以及提供的云計(jì)算服務(wù),運(yùn)行云應(yīng)用。但是云計(jì)算缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和進(jìn)行預(yù)測(cè)性分析,為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),這是大數(shù)據(jù)的核心議題。云計(jì)算是基礎(chǔ)設(shè)施架構(gòu),大數(shù)據(jù)是思想方法,大數(shù)據(jù)技術(shù)將幫助人們從大體量、高度復(fù)雜的數(shù)據(jù)中分析、挖掘信息,從而發(fā)現(xiàn)價(jià)值和預(yù)測(cè)趨勢(shì)。習(xí)題1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論