計算機導(dǎo)論 第11章 云計算與大數(shù)據(jù)_第1頁
計算機導(dǎo)論 第11章 云計算與大數(shù)據(jù)_第2頁
計算機導(dǎo)論 第11章 云計算與大數(shù)據(jù)_第3頁
計算機導(dǎo)論 第11章 云計算與大數(shù)據(jù)_第4頁
計算機導(dǎo)論 第11章 云計算與大數(shù)據(jù)_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

計算機導(dǎo)論教師:第11章云計算與大數(shù)據(jù)11目錄CONTENTS1云計算基礎(chǔ)2云計算的關(guān)鍵技術(shù)3云計算的應(yīng)用4云計算與其他集群計算比較5大數(shù)據(jù)簡介目錄CONTENTS6云計算與大數(shù)據(jù)系統(tǒng)7大數(shù)據(jù)處理系統(tǒng)實例8大數(shù)據(jù)的應(yīng)用本章學(xué)習(xí)目標(biāo)了解云計算的服務(wù)類型和部署方式了解云計算的關(guān)鍵技術(shù)及云計算的應(yīng)用理解大數(shù)據(jù)處理的主要過程本章學(xué)習(xí)目標(biāo)云計算

云計算是傳統(tǒng)計算機技術(shù)和網(wǎng)絡(luò)技術(shù)融合發(fā)展的產(chǎn)物,它涉及網(wǎng)絡(luò)存儲(NetworkStorageTechnologies)、分布式計算(Distributedcomputing)、并行計算(ParallelComputing)、虛擬化(Virtualization)、負(fù)載均衡(LoadBalance)、效用計算(UtilityComputing)、熱備份冗余(HighAvailable)等。除此之外,云計算還要關(guān)注系統(tǒng)的擴展及方便管理、降低成本等方面的問題。

云計算簡介云計算發(fā)展歷程1983年SunMicrosystems提出“網(wǎng)絡(luò)是電腦”。2006年3月Amazon推出彈性計算云(ElasticComputeCloud,EC2)服務(wù)。2006年8月9日Google首席執(zhí)行官埃里克·施密特在搜索引擎大會(SESSanJose2006)首次提出“云計算”的概念。2007年10月Google與IBM開始在美國大學(xué)校園推廣云計算計劃。2008年1月30日Google宣布在臺灣啟動“云計算學(xué)術(shù)計劃”。2008年2月1日Yahoo、HP和Intel宣布了一項涵蓋美國、德國和新加坡的聯(lián)合研究計劃,推出了云計算研究測試床,以推進云計算。2008年8月3日美國專利商標(biāo)局網(wǎng)站信息顯示,Dell正在申請“云計算”商標(biāo),此舉旨在加強對這一未來可能重塑技術(shù)架構(gòu)的術(shù)語的控制權(quán)。2010年3月5日Novell與云安全聯(lián)盟(CSA)共同宣布了一項供應(yīng)商中立計劃,名為“可信任云計算計劃”。2009年1月阿里軟件在江蘇南京建立了中國首個“電子商務(wù)云計算中心”。2009年7月中國首個企業(yè)云計算平臺“中化企業(yè)云計算平臺”誕生2009年11月中國移動云計算平臺“大云”計劃啟動。

云計算的服務(wù)類型

按照提供服務(wù)的層次和類別,云計算可以包括以下幾個層次的服務(wù):基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺即服務(wù)(PlatformasaService,PaaS)、軟件即服務(wù)(Softwareasaservice,SaaS)。不同服務(wù)類型下,用戶通過云計算獲取的服務(wù)內(nèi)容云計算的服務(wù)類型1.IaaS

IaaS能為用戶提供計算基礎(chǔ)架構(gòu),通常指提供物理機、虛擬機、網(wǎng)絡(luò)資源及其他資源,如虛擬機映像庫、塊存儲或基于文件的存儲、防火墻、負(fù)載均衡、IP地址、虛擬局域網(wǎng)等。目前主要的IaaS提供商和產(chǎn)品包括:Amazon的AWS、Microsoft的Azure、Rackspace的OpenStack、IBM的SoftLayer、VMware的VCloud等。中國有阿里云、青云及大云等,他們都是采用虛擬技術(shù)來提供虛擬機IaaS。云計算的服務(wù)類型2.PaaS

PaaS也被稱為中間件服務(wù),為用戶提供的服務(wù)平臺包括操作系統(tǒng)、編程語言運行環(huán)境、數(shù)據(jù)庫和大數(shù)據(jù)集處理、Web服務(wù)器等。PaaS把開發(fā)環(huán)境作為一種服務(wù)來提供,可以使用中間商的設(shè)備和軟件開發(fā)自己的程序,通過服務(wù)器和Internet傳給用戶。主要的服務(wù)平臺包括Amazon的AWSElasticBeanstalk、Google的GAE(GoogleAppEngine)、新浪的ASE、百度云的開發(fā)引擎、大數(shù)據(jù)處理系統(tǒng)hadoop等。云計算的服務(wù)類型3.SaaS

SaaS是為用戶提供按需支付費用的應(yīng)用軟件。用戶不必操心各種應(yīng)用程序的安裝、設(shè)置和運行維護,一切都由SaaS提供商來完成。

用戶只需要支付費用,通過可視化的客戶端來使用它,如Google的Apps、Microsoft的Office365、Citrix的CloudStack,以及目前流行的各種云存儲(網(wǎng)盤)、云相冊、云備份、云打印、云監(jiān)控等針對個人使用的云服務(wù)產(chǎn)品。公有云公有云是當(dāng)前最主流且最受歡迎的云計算部署形式之一。公有云由服務(wù)供應(yīng)商運行,為用戶提供各種各樣的信息技術(shù)資源。社區(qū)云社區(qū)云是指在一定的地域范圍內(nèi),或面向兩個及兩個以上組織開放的云計算服務(wù),該范圍內(nèi)的用戶一般具有共同的需求,如云服務(wù)模式、安全級別等。私有云私有云主要為企業(yè)內(nèi)部提供云服務(wù),在企業(yè)的防火墻內(nèi)工作,由企業(yè)自行管理?;旌显苹旌显剖枪性坪退接性频娜诤希墙陙碓朴嬎愕闹饕J胶桶l(fā)展方向。目前可供選擇的混合云產(chǎn)品較少。云計算的部署云計算的部署在云部署與云計算的應(yīng)用過程中,不同階段存在不同角色,他們分別能提供云服務(wù)和使用云服務(wù)。云計算產(chǎn)業(yè)鏈圖如下圖所示。云計算的特點超大規(guī)模虛擬化高可靠性高可擴展通用性按需部署高性價比動態(tài)資源池支持海量信息處理可計量的服務(wù)云計算體系結(jié)構(gòu)海量分布式存儲技術(shù)彈性計算技術(shù)云計算的關(guān)鍵技術(shù)并行編程模式分布式資源管理技術(shù)云計算平臺管理技術(shù)數(shù)據(jù)管理技術(shù)云計算的應(yīng)用1.云計算平臺Google云計算平臺:Google是云計算最大的實踐者之一,運營較接近云計算特征的商用平臺——在線應(yīng)用服務(wù)托管平臺Google應(yīng)用引擎(GAE)。軟件開發(fā)者可以在此之上編寫應(yīng)用程序。開源云計算平臺:Hadoop是Apache基金會的開源云計算平臺項目

(分布式系統(tǒng)基礎(chǔ)架構(gòu)),

是從Nutch項目發(fā)展而來的,專門負(fù)責(zé)分布式存儲及分布式運算的項目。Hadoop已成為目前應(yīng)用最廣、最成熟的云計算開源項目之一。Amazon的AWS云服務(wù):Amazon是以在線書店和電子零售業(yè)發(fā)展起來的,

如今已在業(yè)界享有盛譽,它的云計算服務(wù)不涉及應(yīng)用層面的計算,主要是基于虛擬化技術(shù)提供底層的可通過網(wǎng)絡(luò)訪問的存儲、計算機處理、信息排隊和數(shù)據(jù)庫管理系統(tǒng)等租用式服務(wù)。云計算的應(yīng)用2.云計算衍生產(chǎn)品

云存儲:云存儲是在云計算概念上延伸和發(fā)展出來的一個新的概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。典型的云存儲包括百度云、阿里云、網(wǎng)盤等,為用戶提供存儲和下載大容量文件服務(wù)。云安全:云安全是在Internet和云計算融合時代,信息安全的最新發(fā)展之一,包括以下兩方面內(nèi)容:1、云計算技術(shù)在安全領(lǐng)域的應(yīng)用;2、安全技術(shù)在云計算平臺的應(yīng)用。其他:在游戲、教育、通信和娛樂、交通、醫(yī)療等領(lǐng)域,云計算同樣應(yīng)用廣泛。如交通云、醫(yī)療云、購物云和高性能計算云等。云計算與其他集群計算比較1.云計算與網(wǎng)格計算

網(wǎng)格計算(GridComputing)是20世紀(jì)90年代中期發(fā)展起來的所謂下一代Internet核心技術(shù)。網(wǎng)格技術(shù)的開創(chuàng)者IanFoster將之定義為“在動態(tài)、多機構(gòu)參與的虛擬組織中協(xié)同共享資源和求解問題”。網(wǎng)格在網(wǎng)絡(luò)基礎(chǔ)之上,基于SOA(Service-OrientedArchitecture,面向服務(wù)的體系結(jié)構(gòu)),使用互操作、按需集成等技術(shù)手段,將分散在不同地理位置的資源虛擬成一個有機整體,以實現(xiàn)計算、存儲、數(shù)據(jù)、軟件和設(shè)備等資源的共享,從而大幅提高資源的利用率,使用戶獲得前所未有的計算和信息能力。云計算和網(wǎng)格計算的一個重要區(qū)別在于資源調(diào)度模式。云計算采用集群來存儲和管理數(shù)據(jù)資源,運行的任務(wù)以數(shù)據(jù)為中心,調(diào)度計算任務(wù)到數(shù)據(jù)存儲節(jié)點運行;網(wǎng)格計算以計算為中心。

云計算與其他集群計算比較2.云計算與分布式計算

分布式計算(DistributedComputation)是指在一個松散或嚴(yán)格約束條件下使用硬件和軟件系統(tǒng)處理任務(wù),系統(tǒng)包含多個處理器單元或存儲單元、多個并發(fā)過程、多個程序。一個程序先被分成多個部分,再通過網(wǎng)絡(luò)連接起來在計算機上運行。分布式計算類似于并行計算,但并行計算通常指一個程序的多個部分同時運行于某臺計算機上的多個處理器上。因此,分布式計算通常需要處理異構(gòu)環(huán)境、多樣化的網(wǎng)絡(luò)連接、不可預(yù)知的網(wǎng)絡(luò)或計算機錯誤。云計算屬于分布式計算的范疇,是以提供對外服務(wù)為導(dǎo)向的分布式計算形式。

云計算與其他集群計算比較3.云計算與并行計算

并行計算(ParallelComputing)是指同時使用多種計算資源解決計算問題的過程,是提高計算機系統(tǒng)計算速度和處理能力的一種有效手段。它的基本思想是用多個處理器來協(xié)同求解同一問題,即將被求解的問題分解成若干個部分,各部分均由一個獨立的處理機來并行計算。并行計算系統(tǒng)既可以是專門設(shè)計的、含有多個處理器的超級計算機,也可以是以某種方式互連的若干臺獨立計算機構(gòu)成的集群。

云計算是并行計算的一種形式,也屬于高性能計算、超級計算的形式之一。

云計算與其他集群計算比較4.云計算與效用計算

效用計算(UtilityComputing)是一種提供服務(wù)的模型,在這個模型里服務(wù)提供商能提供客戶需要的計算資源和基礎(chǔ)設(shè)施管理,并根據(jù)應(yīng)用所占用的資源情況進行計費,而不僅按照速率進行收費。效用計算理念發(fā)展的進一步延伸就是云計算技術(shù),該技術(shù)正在逐步成為技術(shù)發(fā)展的主流。云計算以服務(wù)的形式提供計算、存儲,應(yīng)用資源的思想與效用計算非常類似。兩者的區(qū)別不在于思想背后的目標(biāo),而在于組合到一起,使這些思想成為現(xiàn)實的技術(shù)。

大數(shù)據(jù)簡介1.大數(shù)據(jù)的定義

“大數(shù)據(jù)(BigData)”是指大量數(shù)據(jù)的集合,可以使用數(shù)據(jù)量來區(qū)分和判斷。維基百科對“大數(shù)據(jù)”的定義為:巨量資料或大數(shù)據(jù),是指所涉及的資料量規(guī)模巨大。由于數(shù)量太大,想要通過目前的主流軟件,在合理的時間把這些數(shù)據(jù)采集、管理、處理、整理成為幫助企業(yè)經(jīng)營決策的資訊,是無法做到的。

在今天,不同行業(yè)中“大數(shù)據(jù)”的范圍可以從TB到PB,但在20年前,1GB的數(shù)據(jù)已然是大數(shù)據(jù)??梢?,隨著計算機軟硬件技術(shù)的發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會增長,其數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、分析和管理的能力。

大數(shù)據(jù)簡介2.大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型

大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型包括以下4種。(1)結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括預(yù)定義的數(shù)據(jù)類型、格式和結(jié)構(gòu)的數(shù)據(jù)。例如,關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)。(2)半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是具有可識別模式并可解析的文本數(shù)據(jù)文件。例如,自描述和具有定義模式的可擴展標(biāo)記語言數(shù)據(jù)文件。(3)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)。準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)是具有不規(guī)則數(shù)據(jù)格式的文本數(shù)據(jù),使用工具可進行格式化。例如,包含不一致的數(shù)據(jù)值和格式化的網(wǎng)站點擊數(shù)據(jù)。(4)非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是沒有固定結(jié)構(gòu)的數(shù)據(jù),通常保存為不同類型的文件。例如,文本文檔、圖片、音頻和視頻。

3.大數(shù)據(jù)的特征

數(shù)據(jù)量大速度快類型繁多價值密度低大數(shù)據(jù)簡介大數(shù)據(jù)簡介4.大數(shù)據(jù)的處理技術(shù)按照“大數(shù)據(jù)”處理的實時性,大數(shù)據(jù)處理可分為實時大數(shù)據(jù)處理和離線大數(shù)據(jù)處理兩種。

大數(shù)據(jù)處理的一般過程為:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展現(xiàn)與應(yīng)用。大數(shù)據(jù)處理的關(guān)鍵技術(shù)是在處理大數(shù)據(jù)的各個階段使用的相關(guān)技術(shù)。

大數(shù)據(jù)處理技術(shù)處理大數(shù)據(jù)各階段的對應(yīng)技術(shù)大數(shù)據(jù)處理技術(shù)1.大數(shù)據(jù)的采集技術(shù)

“大數(shù)據(jù)采集系統(tǒng)”一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。大數(shù)據(jù)智能感知層相關(guān)技術(shù),是指對海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理的技術(shù)。

ApacheFlume是Apache旗下的一款開源數(shù)據(jù)采集系統(tǒng),F(xiàn)lume最初是由Cloudera的工程師設(shè)計用于合并日志數(shù)據(jù)的系統(tǒng),后來逐漸用于處理流數(shù)據(jù)事件。

大數(shù)據(jù)處理技術(shù)2.大數(shù)據(jù)的預(yù)處理技術(shù)

“大數(shù)據(jù)預(yù)處理技術(shù)”主要完成對已接收數(shù)據(jù)的抽取、清洗等操作。(1)抽取:獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取可以將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或便于處理的結(jié)構(gòu)和類型,以達到快速分析和處理的目的。(2)清洗:大數(shù)據(jù)并不全是有價值的,有些數(shù)據(jù)并不是人們所關(guān)心的內(nèi)容,或是完全錯誤的干擾項,因此要對數(shù)據(jù)過濾、去噪,提取出有效的數(shù)據(jù)。該步驟對后續(xù)的數(shù)據(jù)分析非常重要,它能夠提高數(shù)據(jù)分析的準(zhǔn)確性。

大數(shù)據(jù)處理技術(shù)3.大數(shù)據(jù)存儲與管理技術(shù)“大數(shù)據(jù)存儲與管理技術(shù)”是解決大數(shù)據(jù)的存儲、表示、處理、可靠性及有效傳輸?shù)汝P(guān)鍵問題的技術(shù),包括如下技術(shù):(1)數(shù)據(jù)庫技術(shù)。數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫及數(shù)據(jù)庫緩存系統(tǒng)。關(guān)系型數(shù)據(jù)庫包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)和NewSQL數(shù)據(jù)庫。非關(guān)系型數(shù)據(jù)庫主要是指NoSQL數(shù)據(jù)庫,分為鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫及文檔數(shù)據(jù)庫等。(2)大數(shù)據(jù)安全技術(shù)。大數(shù)據(jù)安全技術(shù)包括數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計、隱私保護和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術(shù)。

大數(shù)據(jù)處理技術(shù)4.大數(shù)據(jù)分析與挖掘技術(shù)

“數(shù)據(jù)挖掘”是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又有潛在價值的信息和知識的過程。數(shù)據(jù)挖掘算法能以很高的速度處理大量數(shù)據(jù),通過分割、集群、孤立點分析,以及其他各種方法精煉數(shù)據(jù)、挖掘價值。數(shù)據(jù)挖掘涉及的技術(shù)方法很多,包括很多分類。5.大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)大數(shù)據(jù)技術(shù)重點應(yīng)用于商業(yè)智能、政府決策、公共服務(wù)三大領(lǐng)域,如應(yīng)用于商業(yè)智能技術(shù)、政府決策技術(shù)、電信數(shù)據(jù)信息處理與挖掘技術(shù)、電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)、氣象信息分析技術(shù)、環(huán)境監(jiān)測技術(shù)、警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安系統(tǒng))、大規(guī)?;蛐蛄蟹治霰葘夹g(shù)、Web信息挖掘技術(shù)。

1.大數(shù)據(jù)處理系統(tǒng)的功能

云計算與大數(shù)據(jù)系統(tǒng)海量數(shù)據(jù)存儲

大數(shù)據(jù)處理系統(tǒng)能夠存儲隨時間變化不斷變大的數(shù)據(jù),多種數(shù)據(jù)類型的數(shù)據(jù),結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),可以存儲極大的數(shù)據(jù)個體,也可以存儲很小的數(shù)據(jù)個體。并行服務(wù)快速開發(fā)

系統(tǒng)必須提供并行服務(wù)的開發(fā)框架,讓開發(fā)人員能夠依據(jù)此框架迅速開發(fā)出面向大數(shù)據(jù)的程序代碼,并可在動態(tài)分布集群上實現(xiàn)并行運算。可在廉價機器搭建的集群上運行

實現(xiàn)廉價是大數(shù)據(jù)處理系統(tǒng)需要達到的重要目標(biāo)之一,系統(tǒng)可以安裝并運行在廉價的機器上,還具有將規(guī)模龐大的廉價機器組成集群并協(xié)調(diào)工作的功能。高速處理

系統(tǒng)能滿足用戶對響應(yīng)速度的要求。在數(shù)據(jù)規(guī)模不斷增大、數(shù)據(jù)量短時間內(nèi)快速增大時,系統(tǒng)的處理速度不受影響。實用性可靠性可擴展性完整性安全性云計算與大數(shù)據(jù)系統(tǒng)2.大數(shù)據(jù)處理系統(tǒng)的特性云計算與大數(shù)據(jù)系統(tǒng)3.云計算與大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理系統(tǒng)屬于云計算的PaaS。PaaS能為用戶提供計算平臺系統(tǒng)、編程語言的運行環(huán)境、數(shù)據(jù)庫、Web服務(wù)器等,把開發(fā)環(huán)境作為一種服務(wù)來提供。用戶可以使用中間商的設(shè)備開發(fā)和運行自己的程序,并通過Internet及其服務(wù)器傳輸?shù)狡渌脩羰种?。?dāng)然,用戶也可以構(gòu)建自己私有的大數(shù)據(jù)處理系統(tǒng),搭建一個服務(wù)器集群,安裝大數(shù)據(jù)處理軟件,如Hadoop,使用命令行方式,或者調(diào)用Hadoop的API對靜態(tài)大數(shù)據(jù)文件進行處理,或者安裝Spark軟件,對前臺的動態(tài)數(shù)據(jù)流進行實時處理。大數(shù)據(jù)處理系統(tǒng)實例1.Google大數(shù)據(jù)處理系統(tǒng)Google擁有全球較強大的搜索引擎,能為全球用戶提供基于海量數(shù)據(jù)的實時搜索服務(wù)。Google為了解決海量數(shù)據(jù)的存儲和快速處理問題,設(shè)計了一種簡單而又高效的大數(shù)據(jù)處理系統(tǒng),讓多達百萬臺計算機協(xié)同工作,共同完成對海量數(shù)據(jù)的存儲和快速處理。Google大數(shù)據(jù)處理系統(tǒng)的核心技術(shù)包括Google文件系統(tǒng)(GFS)、分布式計算編程模式(MapReduce)和分布式結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)(BigTable)。GFS能提供大數(shù)據(jù)的存儲訪問服務(wù),MapReduce能實現(xiàn)并行計算,BigTable能管理和組織結(jié)構(gòu)化大數(shù)據(jù)。1.GFSGoogle大數(shù)據(jù)處理系統(tǒng)GFS是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。它與MapReduce及BigTable結(jié)合得非常緊密,是基礎(chǔ)的底層系統(tǒng),可以運行于價格較低的普通硬件上,提供容錯功能。GFS將整個系統(tǒng)的節(jié)點分為Client(客戶端)、Master(主服務(wù)器)和ChunkServer(數(shù)據(jù)塊服務(wù)器)三類??蛻舳嗽谠L問GFS時,首先訪問Master主服務(wù)器,獲取將要與之進行交互的ChunkSever信息,然后直接訪問ChunkServer來完成數(shù)據(jù)存取。GFS的這種設(shè)計模式,在實現(xiàn)大數(shù)據(jù)存儲與處理的目標(biāo)的同時,做到了在一定規(guī)模下使成本降到最低,且保證了系統(tǒng)的可靠性及其他性能。2.MapReduceGoogle大數(shù)據(jù)處理系統(tǒng)

MapReduce是處理大數(shù)據(jù)的并行編程模式,用于大數(shù)據(jù)(大于1TB)的并行計算,Map(映射)、Reduce(化簡)是從函數(shù)式編程語言和矢量編程語言中借鑒來的,這種編程模式適用于非結(jié)構(gòu)化和結(jié)構(gòu)化的海量數(shù)據(jù)的搜索、挖掘、分析和智能機器學(xué)習(xí)。與傳統(tǒng)的分布式程序相比,MapReduce封裝了并行處理、容錯處理、本地化計算、負(fù)載均衡等細(xì)節(jié)。3.BigTableGoogle大數(shù)據(jù)處理系統(tǒng)BigTable是一個為管理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的分布式存儲系統(tǒng),可以擴展到PB級數(shù)據(jù)和上千臺服務(wù)器。Google的很多數(shù)據(jù),包括Web索引、衛(wèi)星圖像數(shù)據(jù)等在內(nèi)的海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)都存儲在BigTable中。BigTable是通過一個行關(guān)鍵字、一個列關(guān)鍵字和一個時間戳進行索引的。BigTable由客戶端、主服務(wù)器和子表服務(wù)器三部分構(gòu)成。大數(shù)據(jù)處理系統(tǒng)實例2.HadoopHadoop是一個開源分布式計算平臺。用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理,Hadoop已廣泛被企業(yè)用于搭建大數(shù)據(jù)處理系統(tǒng)。據(jù)不完全統(tǒng)計,全球已經(jīng)有數(shù)以萬計的Hadoop被安裝和使用,中國移動、百度、阿里巴巴都在大規(guī)模地使用Hadoop。1.基礎(chǔ)部分Hadoop是支撐Hadoop的公共部分,包括文件系統(tǒng)、遠程過程調(diào)用RPC和序列化函數(shù)庫等。HadoopCommon可以提供高吞吐量的可靠分布式文件系統(tǒng),是GFS的開源實現(xiàn)。HDFS是大型分布式數(shù)據(jù)處理模型,是GoogleMapReduce的開源實現(xiàn)。MapReduce2.配套部分Hadoop01HBase支持結(jié)構(gòu)化數(shù)據(jù)存儲的分布式數(shù)據(jù)庫,是GoogleBigTable的開源實現(xiàn)。02Hive提供數(shù)據(jù)摘要和查詢功能的數(shù)據(jù)倉庫。03Pig在MapReduce上構(gòu)建的一種腳本式開發(fā)方式,大大簡化了MapReduce的開發(fā)工作。2.配套部分Hadoop04Cassandra由Facebook支持的開源、可擴展分布式數(shù)據(jù)庫,是Amazon庫層架

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論