大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時(shí)間：2023-08-26 格式：PPTX 頁(yè)數(shù)：342 大?。?3.43MB 積分：35 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第2頁(yè)

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第3頁(yè)

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第4頁(yè)

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第5頁(yè)

已閱讀5頁(yè)，還剩337頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概述第一章隨著信息技術(shù)的迅猛發(fā)展和普及應(yīng)用，行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大，其所產(chǎn)生的數(shù)據(jù)呈指數(shù)型增長(zhǎng)。達(dá)到PB（1024TB）級(jí)規(guī)模的海量數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的計(jì)算技術(shù)和信息系統(tǒng)的處理能力，從而促進(jìn)了大數(shù)據(jù)（BigData）的產(chǎn)生。LOGO第1章大數(shù)據(jù)概述1117第2章大數(shù)據(jù)與云計(jì)算第3章從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)第4章大數(shù)據(jù)的硬件架構(gòu)——集群第5章大數(shù)據(jù)開(kāi)發(fā)與計(jì)算技術(shù)第6章大數(shù)據(jù)存儲(chǔ)技術(shù)第7章大數(shù)據(jù)分析第8章大數(shù)據(jù)與人工智能大數(shù)據(jù)概述什么是大數(shù)據(jù)01大數(shù)據(jù)的數(shù)據(jù)特征及對(duì)科學(xué)研究的影響02大數(shù)據(jù)的數(shù)據(jù)類(lèi)型03大數(shù)據(jù)的可用性及衍生價(jià)值04大數(shù)據(jù)的發(fā)展趨勢(shì)05什么是大數(shù)據(jù)目前，我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代，但對(duì)很多人來(lái)說(shuō)，什么是大數(shù)據(jù)，大數(shù)據(jù)是怎么產(chǎn)生的，它有什么用？從計(jì)算機(jī)的角度認(rèn)識(shí)從信息時(shí)代怎么進(jìn)入大數(shù)據(jù)時(shí)代的，這些東西并不清楚，所以本節(jié)主要解決以上問(wèn)題，讓我們能夠從科學(xué)的角度認(rèn)識(shí)大數(shù)據(jù)。PART01大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)數(shù)據(jù)分析師能力數(shù)據(jù)分析概念與統(tǒng)計(jì)學(xué)SQL數(shù)據(jù)庫(kù)基礎(chǔ)數(shù)據(jù)采集與處理數(shù)據(jù)建模分析具有數(shù)據(jù)分析的概念及方法論；可以分析描述性統(tǒng)計(jì)分析和推斷性統(tǒng)計(jì)分析；方差分析；回歸分析等能力具有SQL關(guān)系型數(shù)據(jù)庫(kù)基本概念；熟練使用增刪改查SQL語(yǔ)言；熟練使用SQL函數(shù)；對(duì)事務(wù)和多用戶(hù)并發(fā)有處理辦法等掌握數(shù)據(jù)采集的方法；做過(guò)市場(chǎng)調(diào)研；掌握數(shù)據(jù)預(yù)處理方法；可以將數(shù)據(jù)可視化等掌握主成分分析法；因子分析法；多元回歸分析法；聚類(lèi)分析法；時(shí)間序列等大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)分析師能力大數(shù)據(jù)基礎(chǔ)理論Hadoop理論數(shù)據(jù)庫(kù)理論及工具數(shù)據(jù)挖掘具有大數(shù)據(jù)分析基礎(chǔ)；Python基礎(chǔ)；Linux&Ubuntu操作系統(tǒng)基礎(chǔ)等具有Hadoop相關(guān)知識(shí)；了解HDFS分布式文件系統(tǒng)；MapReduce理論實(shí)戰(zhàn)等Hadoop其他組件具有數(shù)據(jù)庫(kù)理論基礎(chǔ)；熟練掌握MySQL或Oracle數(shù)據(jù)庫(kù)或其他關(guān)系型數(shù)據(jù)庫(kù)；Hbase，Hive，Sqoop使用；具有數(shù)據(jù)挖掘基本思想；掌握有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法Spark工具及實(shí)戰(zhàn)大數(shù)據(jù)可視化大數(shù)據(jù)分析實(shí)戰(zhàn)掌握Spark理論；SparkRDD基本概念及操作；Spark流式計(jì)算框架SparkStreaming、StructuredStreaming；Spark機(jī)器學(xué)習(xí)算法庫(kù)SparkMLlib基本使用方法掌握數(shù)據(jù)可視化基礎(chǔ)；Python數(shù)據(jù)可視化；Python高級(jí)數(shù)據(jù)可視化方法可以利用HDFSShell操作HDFS文件系統(tǒng)；利用HiveSQL進(jìn)行數(shù)據(jù)清洗；；利用Sqoop進(jìn)行數(shù)據(jù)傳輸；利用SparkSQL進(jìn)行數(shù)據(jù)讀?。焕肧parkMLlib進(jìn)行機(jī)器學(xué)習(xí)建模；利用Python進(jìn)行建模結(jié)果數(shù)據(jù)可視化生產(chǎn)數(shù)據(jù)的三個(gè)階段1.被動(dòng)式生成數(shù)據(jù)是由于數(shù)據(jù)庫(kù)技術(shù)的產(chǎn)生2.主動(dòng)式生成數(shù)據(jù)是由于萬(wàn)維網(wǎng)的發(fā)明與發(fā)展3.感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展“”1.1.1大數(shù)據(jù)的來(lái)源數(shù)據(jù)庫(kù)技術(shù)使數(shù)據(jù)的保存和管理變得簡(jiǎn)單，業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫(kù)中，這個(gè)時(shí)候數(shù)據(jù)的產(chǎn)生是被動(dòng)的，數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生的，并且更多地依賴(lài)人工收集數(shù)據(jù)。.被動(dòng)式生成數(shù)據(jù)是由于數(shù)據(jù)庫(kù)技術(shù)的產(chǎn)生Web2.0的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生，人們可以通過(guò)手機(jī)、電腦等終端隨時(shí)隨地生成數(shù)據(jù)。據(jù)統(tǒng)計(jì)，在1分鐘內(nèi)，新浪平均有2萬(wàn)條微博產(chǎn)生，蘋(píng)果商店平均有4.7萬(wàn)次應(yīng)用下載，淘寶平均有6萬(wàn)件商品交易記錄，百度大約產(chǎn)生了90萬(wàn)次的搜索查詢(xún)，數(shù)據(jù)的生成相比之前大大加速。主動(dòng)式生成數(shù)據(jù)是由于萬(wàn)維網(wǎng)的發(fā)明與發(fā)展感知技術(shù)尤其是物聯(lián)網(wǎng)的發(fā)展促進(jìn)了數(shù)據(jù)生成方式發(fā)生了根本性的變化。各種智能傳感設(shè)備、智能儀表、監(jiān)控探頭和GPS（GlobalPositioningSystem，全球定位系統(tǒng)）定位等數(shù)據(jù)采集設(shè)備源源不斷地自動(dòng)采集、生成數(shù)據(jù)。感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展1.1.1大數(shù)據(jù)的來(lái)源利用大數(shù)據(jù)1.1.1大數(shù)據(jù)的來(lái)源以2018年雙11期間，淘寶和天貓共實(shí)現(xiàn)2135億的交易額為例，其服務(wù)所支撐的用戶(hù)點(diǎn)擊所產(chǎn)生的數(shù)據(jù)量是海量并且是非結(jié)構(gòu)化數(shù)據(jù)，用戶(hù)所產(chǎn)生的數(shù)據(jù)是一項(xiàng)寶貴的資源，若能從這類(lèi)海量數(shù)據(jù)中快速地分析出數(shù)據(jù)的價(jià)值，便可以用于分析并理解客戶(hù)的市場(chǎng)需求，積極改善公司的市場(chǎng)設(shè)施配置策略和服務(wù)模式，還可以極大地提高服務(wù)的用戶(hù)體驗(yàn)。大數(shù)據(jù)的產(chǎn)生首先源于互聯(lián)網(wǎng)企業(yè)對(duì)于日益增長(zhǎng)的網(wǎng)絡(luò)數(shù)據(jù)分析的需求，如圖所示。利用大數(shù)據(jù)-問(wèn)題的產(chǎn)生1.1.1大數(shù)據(jù)的來(lái)源

有效地為如此巨大的用戶(hù)群體服務(wù)，讓他們參與時(shí)能夠享受方便、快捷的服務(wù)，成為網(wǎng)站不得不解決的一個(gè)問(wèn)題。為了解決大型網(wǎng)站的訪問(wèn)量大、并發(fā)量高、海量數(shù)據(jù)的問(wèn)題，一般會(huì)考慮業(yè)務(wù)拆分和分布式部署。由于海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)，數(shù)據(jù)已沒(méi)有辦法在可容忍的時(shí)間內(nèi)，使用常規(guī)軟件方法完成存儲(chǔ)、管理和處理任務(wù)?？焖僭鲩L(zhǎng)的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要緊跟其步伐，才能使得獲取到大量的數(shù)據(jù)被有效利用，否則，快速增長(zhǎng)的數(shù)據(jù)量會(huì)成為解決問(wèn)題的負(fù)擔(dān)。在獲取數(shù)據(jù)的過(guò)程中，數(shù)據(jù)不是一成不變的，而是隨著互聯(lián)網(wǎng)在時(shí)時(shí)發(fā)生變化，通常這樣的數(shù)據(jù)價(jià)值會(huì)隨著時(shí)間的推移而呈現(xiàn)降低的趨勢(shì)，如果數(shù)據(jù)在獲取時(shí)間內(nèi)沒(méi)有得到有效的處理，就會(huì)導(dǎo)致其失去價(jià)值。各個(gè)機(jī)構(gòu)對(duì)大數(shù)據(jù)的描述1.1.2大數(shù)據(jù)的定義維基百科將大數(shù)據(jù)描述為：大數(shù)據(jù)又稱(chēng)為巨量數(shù)據(jù)、海量數(shù)據(jù)，指的是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理它們大或復(fù)雜的數(shù)據(jù)集的術(shù)語(yǔ)。麥肯錫全球研究所對(duì)大數(shù)據(jù)的解釋?zhuān)阂环N規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。研究機(jī)構(gòu)Gartner（第一家信息技術(shù)研究和分析的公司）對(duì)大數(shù)據(jù)的解釋?zhuān)捍髷?shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。簡(jiǎn)而言之，大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫(kù)管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用方法很難處理的大型、復(fù)雜的數(shù)據(jù)集，大數(shù)據(jù)技術(shù)的范疇包括大數(shù)據(jù)的采集、存儲(chǔ)、搜索、共享、傳輸、分析和可視化等。從某種程度上說(shuō)，大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)，即從各種各樣類(lèi)型的數(shù)據(jù)中，快速獲得有價(jià)值信息的能力，就是大數(shù)據(jù)技術(shù)。1.1.3從信息技術(shù)（IT）轉(zhuǎn)向數(shù)據(jù)技術(shù)（DT）

李國(guó)杰院士認(rèn)為：信息系統(tǒng)需要從數(shù)據(jù)圍繞著處理器轉(zhuǎn)改為處理能力圍繞著數(shù)據(jù)轉(zhuǎn)，將計(jì)算用于數(shù)據(jù)，而不是將數(shù)據(jù)用于計(jì)算?；仡櫽?jì)算機(jī)技術(shù)的發(fā)展歷程，可以清晰地看到計(jì)算機(jī)技術(shù)從面向計(jì)算逐步轉(zhuǎn)變到面向數(shù)據(jù)的過(guò)程，面向數(shù)據(jù)也可以更準(zhǔn)確地稱(chēng)為“面向數(shù)據(jù)的計(jì)算”。面向數(shù)據(jù)要求系統(tǒng)的設(shè)計(jì)和架構(gòu)以圍繞數(shù)據(jù)為核心開(kāi)展。這一過(guò)程的描述如圖所示，該圖從硬件、網(wǎng)絡(luò)和云計(jì)算的演進(jìn)過(guò)程等方面以時(shí)間為順序進(jìn)行了縱向和橫向的對(duì)比。大數(shù)據(jù)的數(shù)據(jù)特征及對(duì)科學(xué)研究的影響大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。所以要對(duì)大數(shù)據(jù)進(jìn)行處理，首先應(yīng)該先了解大數(shù)據(jù)的數(shù)據(jù)特征，進(jìn)行針對(duì)性處理。下面主要講解大數(shù)據(jù)的4V特征及其對(duì)科學(xué)研究有哪些影響。PART021.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一個(gè)特征是數(shù)據(jù)量大（Volume），或者叫大量化、規(guī)模性。需要采集、處理、傳輸?shù)臄?shù)據(jù)量大，數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息。處理PB級(jí)的數(shù)據(jù)是比較常態(tài)的情況。企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息，網(wǎng)絡(luò)世界中的商品、物流信息，人與人的交互信息、位置信息等都是大數(shù)據(jù)的主要來(lái)源。第二個(gè)特征是數(shù)據(jù)類(lèi)型繁多（Variety），也叫多樣性。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等，數(shù)據(jù)的種類(lèi)多、復(fù)雜性高。大數(shù)據(jù)有不同格式，有結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)，有半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)，還有非結(jié)構(gòu)化的視頻音頻數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中，其增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。多類(lèi)型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第三個(gè)特征是處理速度快，時(shí)效性高（Velocity），也叫高速性。獲得數(shù)據(jù)的速度快速增長(zhǎng)，數(shù)據(jù)需要頻繁地采集、處理并輸出；因?yàn)閿?shù)據(jù)會(huì)存在時(shí)效性，需要快速處理，并得到結(jié)果。如一些電商數(shù)據(jù)，如果當(dāng)天的信息不處理，就將會(huì)影響到很多需要立即做出的商業(yè)決策。要達(dá)到立竿見(jiàn)影而非事后見(jiàn)效，實(shí)現(xiàn)實(shí)時(shí)獲取需要的信息，1秒是臨界點(diǎn)，即對(duì)于很多實(shí)時(shí)大數(shù)據(jù)應(yīng)用而言，必須要在1秒鐘內(nèi)進(jìn)行處理，否則處理結(jié)果就是過(guò)時(shí)和無(wú)效的。這也是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。

第四個(gè)特征是數(shù)據(jù)價(jià)值密度低（Value）。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用，信息感知無(wú)處不在，大量的不相關(guān)信息不經(jīng)過(guò)處理則價(jià)值較低，挖掘大數(shù)據(jù)的價(jià)值類(lèi)似于沙里淘金。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)要解決的問(wèn)題，即合理運(yùn)用大數(shù)據(jù)，以低成本創(chuàng)造高價(jià)值。。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息，而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換而言之，如果把大數(shù)據(jù)比作一種產(chǎn)業(yè)，那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵，在于提高對(duì)數(shù)據(jù)的“加工能力”，通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)的產(chǎn)生和信息技術(shù)領(lǐng)域提出的面向數(shù)據(jù)的概念同時(shí)也開(kāi)始深刻地改變了科學(xué)研究的模式，2007年，已故的圖靈獎(jiǎng)得主吉姆·格雷（JimGray，數(shù)據(jù)庫(kù)基本理論的奠基人，如圖所示）提出了數(shù)據(jù)密集型科研“第四范式（TheFourthParadigm）”。他將大數(shù)據(jù)科研從第三范式中分離出來(lái)單獨(dú)作為一種科研范式，他認(rèn)為利用海量的數(shù)據(jù)可以為科學(xué)研究和知識(shí)發(fā)現(xiàn)提供除經(jīng)驗(yàn)、理論、計(jì)算外的第四種重要方法。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一范式——實(shí)驗(yàn)，人類(lèi)早期知識(shí)的發(fā)現(xiàn)主要依賴(lài)于經(jīng)驗(yàn)、觀察和實(shí)驗(yàn)，需要的計(jì)算和產(chǎn)生的數(shù)據(jù)很少。當(dāng)人類(lèi)知識(shí)積累到一定的程度后，知識(shí)逐漸形成了理論體系，這時(shí)進(jìn)入第二范式——理論，通過(guò)理論研究發(fā)現(xiàn)知識(shí)。計(jì)算機(jī)的出現(xiàn)為人類(lèi)發(fā)現(xiàn)新的知識(shí)提供了重要的工具，這時(shí)進(jìn)入第三范式——計(jì)算，通過(guò)計(jì)算發(fā)現(xiàn)知識(shí)。現(xiàn)在人類(lèi)在一年內(nèi)所產(chǎn)生的數(shù)據(jù)已經(jīng)超過(guò)人類(lèi)過(guò)去幾千年產(chǎn)生的數(shù)據(jù)的總和，目前的數(shù)據(jù)處理方法在面對(duì)龐大的數(shù)據(jù)時(shí)顯得力不從心，人類(lèi)逐步進(jìn)入面向數(shù)據(jù)的時(shí)代，這時(shí)進(jìn)入第四范式——數(shù)據(jù)，通過(guò)數(shù)據(jù)發(fā)現(xiàn)知識(shí)，利用海量數(shù)據(jù)加上高速計(jì)算發(fā)現(xiàn)新的知識(shí)是數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)。2.促進(jìn)了交叉學(xué)科的發(fā)展1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征目前，社會(huì)科學(xué)、自然科學(xué)和人文科學(xué)只是學(xué)術(shù)建制意義上的區(qū)分，它們之間已經(jīng)有著密切的聯(lián)系，不再像以前是孤立的存在。自然科學(xué)的根本目的在于發(fā)現(xiàn)自然現(xiàn)象背后的規(guī)律。20世紀(jì)50年代之前，社會(huì)科學(xué)與自然科學(xué)相對(duì)獨(dú)立，跨學(xué)科交叉研究基本沒(méi)有。繼物理計(jì)算和生物計(jì)算之后，社會(huì)計(jì)算（SocialComputing）可能成為科學(xué)計(jì)算研發(fā)的新焦點(diǎn)，并產(chǎn)生新的方向和領(lǐng)域。大數(shù)據(jù)的數(shù)據(jù)類(lèi)型PART031.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型

大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示：半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)快速增長(zhǎng)，企業(yè)中80%~90%的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%，如圖所示。1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)也稱(chēng)作行數(shù)據(jù)，是指可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)（如學(xué)生成績(jī)表），嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范，主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。如MySQL、Oracle、SQLServer等可以存儲(chǔ)表現(xiàn)二維形式的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的一般特點(diǎn)是：數(shù)據(jù)以行為單位，一行數(shù)據(jù)表示一個(gè)實(shí)體的信息，每一行數(shù)據(jù)的屬性是相同的。但它的擴(kuò)展性不好，如增加一個(gè)字段。結(jié)構(gòu)化數(shù)據(jù)通常按照特定的應(yīng)用對(duì)事物進(jìn)行相應(yīng)的抽象，數(shù)據(jù)最終以表格的形式保存在數(shù)據(jù)庫(kù)中，數(shù)據(jù)格式統(tǒng)一，呈現(xiàn)大眾化、標(biāo)準(zhǔn)化的特點(diǎn)。結(jié)合到典型場(chǎng)景中更容易理解，如企業(yè)ERP（EnterpriseResourcePlanning，企業(yè)資源計(jì)劃）、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS（HospitalInformationSystem）數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批和其他核心數(shù)據(jù)庫(kù)等。1.結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的是不適于用數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn)的數(shù)據(jù)，可以說(shuō)都是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)屬性，一般直接整體進(jìn)行存儲(chǔ)，并且一般存儲(chǔ)為二進(jìn)制數(shù)據(jù)格式。包含全部格式的辦公文檔（如Word、PPT）、文本、日志、圖片、音頻、視頻、地形等數(shù)據(jù)。除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)之外的明顯區(qū)別之外，結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。相對(duì)于特定場(chǎng)景的應(yīng)用，大數(shù)據(jù)關(guān)注非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值密度較低。整體而言，非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度快10倍到50倍，但這并不意味著結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù)將面臨淘汰的局面，具體的使用情況以實(shí)際的應(yīng)用場(chǎng)景為準(zhǔn)。但有了海量的非結(jié)構(gòu)化數(shù)據(jù)，必須想辦法存儲(chǔ)和分析，從中挖掘出有價(jià)值的信息，為社會(huì)提供更好的服務(wù)。2.非結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)，如標(biāo)記語(yǔ)言XML、HTML文檔、電子郵件等屬于半結(jié)構(gòu)化數(shù)據(jù)。電子郵件的本地元數(shù)據(jù)可以實(shí)現(xiàn)分類(lèi)和關(guān)鍵字搜索，不需要任何其他工具，所以半結(jié)構(gòu)化數(shù)據(jù)一般是自描述的，數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起，沒(méi)有明顯的區(qū)分。目前，對(duì)于半結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)多采用NoSQL數(shù)據(jù)庫(kù)，NoSQL泛指非關(guān)系型的數(shù)據(jù)庫(kù)。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫(kù)。NoSQL不會(huì)將組織（模式）與數(shù)據(jù)分開(kāi)，這使得NoSQL成為存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)更好的選擇。但NoSQL數(shù)據(jù)庫(kù)正處于探索階段。無(wú)論企業(yè)的業(yè)務(wù)具體是什么，其目標(biāo)都是挖掘業(yè)務(wù)價(jià)值，無(wú)論數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)，它們都可能具有很高的價(jià)值。需要?jiǎng)?chuàng)新工具，實(shí)現(xiàn)匯總、查詢(xún)、分析和利用所有數(shù)據(jù)類(lèi)型，以便在整個(gè)企業(yè)數(shù)據(jù)范圍內(nèi)獲得更加深入的業(yè)務(wù)洞察力。3.半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)的可用性及衍生價(jià)值PART041.4大數(shù)據(jù)的可用性及衍生價(jià)值

進(jìn)入大數(shù)據(jù)時(shí)代以來(lái)，全人類(lèi)積累了海量的數(shù)據(jù)，這些數(shù)據(jù)仍在不斷急速增加，這帶來(lái)兩個(gè)方面的巨變：一方面，在過(guò)去沒(méi)有海量數(shù)據(jù)積累的時(shí)代無(wú)法實(shí)現(xiàn)的應(yīng)用現(xiàn)在終于可以實(shí)現(xiàn)；另一方面，從數(shù)據(jù)匱乏時(shí)代到數(shù)據(jù)泛濫時(shí)代的轉(zhuǎn)變，給數(shù)據(jù)的處理和應(yīng)用帶來(lái)新的挑戰(zhàn)與困擾，即如何從海量數(shù)據(jù)中高效地獲取數(shù)據(jù)，有效地深加工并最終得到有價(jià)值意義的數(shù)據(jù)。大數(shù)據(jù)的一個(gè)重要方面是數(shù)據(jù)的可用性。大數(shù)據(jù)的另一個(gè)重要方面是數(shù)據(jù)的復(fù)雜性。

大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價(jià)值，使得未來(lái)企業(yè)投資重點(diǎn)不再是以建系統(tǒng)為核心，而是以大數(shù)據(jù)為核心，處理大數(shù)據(jù)的效率逐漸成為企業(yè)的生命力。1.4大數(shù)據(jù)的可用性及衍生價(jià)值大數(shù)據(jù)系統(tǒng)里面都有什么東西呢？1.4大數(shù)據(jù)的可用性及衍生價(jià)值大數(shù)據(jù)涵蓋了計(jì)算和數(shù)據(jù)兩大主題在存儲(chǔ)上，HDFS的分布式存儲(chǔ)可以任意水平擴(kuò)展，可以解決數(shù)據(jù)存儲(chǔ)的難題。在計(jì)算上，從最初的MapReduce，把任務(wù)水平拆分，多臺(tái)機(jī)器并行計(jì)算，再匯總結(jié)果，到基于Spark的內(nèi)存計(jì)算，改造MapReduce每次數(shù)據(jù)存盤(pán)以及編程方式的痛點(diǎn)。有了存儲(chǔ)和計(jì)算框架，周邊就衍生出了很多管理、緩存相關(guān)的技術(shù)，如Yarn解決多租戶(hù)資源調(diào)度的難題，F(xiàn)lume解決數(shù)據(jù)傳輸?shù)碾y題，Sqoop解決分布式存儲(chǔ)數(shù)據(jù)與傳統(tǒng)DB數(shù)據(jù)之間的轉(zhuǎn)換，Oozie解決了大數(shù)據(jù)計(jì)算任務(wù)的調(diào)度，Kafka提供了發(fā)布訂閱機(jī)制的消息隊(duì)列，ZooKeeper可以幫助用戶(hù)完成主備的選舉，Hive在HDFS的基礎(chǔ)上提供了數(shù)據(jù)倉(cāng)庫(kù)的功能，Hbase是基于HDFS實(shí)現(xiàn)的列式數(shù)據(jù)庫(kù)等。大數(shù)據(jù)的發(fā)展趨勢(shì)PART051.5大數(shù)據(jù)的發(fā)展趨勢(shì)從目前發(fā)展形勢(shì)可以看出，大數(shù)據(jù)主要有以下八種發(fā)展趨勢(shì)（1）數(shù)據(jù)的資源化是指大數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源，已成為大家爭(zhēng)相搶奪的新焦點(diǎn)。因而，企業(yè)必須要提前制定大數(shù)據(jù)營(yíng)銷(xiāo)戰(zhàn)略計(jì)劃，搶占市場(chǎng)先機(jī)。（2）與云計(jì)算的深度結(jié)合大數(shù)據(jù)離不開(kāi)云計(jì)算，云計(jì)算為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備，是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始，大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合，預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外，物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài)，也將一齊助力大數(shù)據(jù)技術(shù)，讓大數(shù)據(jù)發(fā)揮出更大的影響力。（3）科學(xué)理論的突破隨著大數(shù)據(jù)的快速發(fā)展，就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣，大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù)，可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論，實(shí)現(xiàn)科學(xué)技術(shù)上的突破。（4）數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立未來(lái)，數(shù)據(jù)科學(xué)將成為一門(mén)專(zhuān)門(mén)的學(xué)科被越來(lái)越多的人所認(rèn)知。各大高校將設(shè)立專(zhuān)門(mén)的數(shù)據(jù)科學(xué)類(lèi)專(zhuān)業(yè)，也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí)，基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái)，也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái)，之后，數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面，并且成為未來(lái)產(chǎn)業(yè)的核心一環(huán)。1.5大數(shù)據(jù)的發(fā)展趨勢(shì)（5）數(shù)據(jù)泄露泛濫未來(lái)幾年數(shù)據(jù)泄露事件的增長(zhǎng)率也許會(huì)達(dá)到100%，除非數(shù)據(jù)在其源頭就能夠得到安全保障。企業(yè)需要從新的角度來(lái)確保自身以及客戶(hù)數(shù)據(jù)，所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障，而并非在數(shù)據(jù)保存的最后一個(gè)環(huán)節(jié)，僅僅加強(qiáng)后者的安全措施已被證明于事無(wú)補(bǔ)。（6）數(shù)據(jù)管理成為核心競(jìng)爭(zhēng)力數(shù)據(jù)管理直接影響財(cái)務(wù)表現(xiàn)，當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后，企業(yè)對(duì)于數(shù)據(jù)管理便有了更清晰的界定，將數(shù)據(jù)管理作為企業(yè)核心競(jìng)爭(zhēng)力，持續(xù)發(fā)展，戰(zhàn)略性規(guī)劃與運(yùn)用數(shù)據(jù)資產(chǎn)，成為企業(yè)數(shù)據(jù)管理的核心。（7）數(shù)據(jù)質(zhì)量是BI（BusinessIntelligence，商業(yè)智能）成功的關(guān)鍵采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會(huì)脫穎而出。其中要面臨的一個(gè)挑戰(zhàn)是，很多數(shù)據(jù)源會(huì)帶來(lái)大量低質(zhì)量數(shù)據(jù)。想要成功，企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距，從而消除低質(zhì)量數(shù)據(jù)并通過(guò)BI獲得更佳決策。（8）數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強(qiáng)大數(shù)據(jù)的世界不只是一個(gè)單一的、巨大的計(jì)算機(jī)網(wǎng)絡(luò)，而是一個(gè)由大量活動(dòng)構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng)，終端設(shè)備提供商、基礎(chǔ)設(shè)施提供商、網(wǎng)絡(luò)服務(wù)提供商、網(wǎng)絡(luò)接入服務(wù)提供商、數(shù)據(jù)服務(wù)使用者、數(shù)據(jù)服務(wù)提供商、觸點(diǎn)服務(wù)、數(shù)據(jù)服務(wù)零售商等一系列的參與者共同構(gòu)建的生態(tài)系統(tǒng)。課后習(xí)題1.簡(jiǎn)述什么是大數(shù)據(jù)？2.大數(shù)據(jù)的數(shù)據(jù)有什么特點(diǎn)？3.大數(shù)據(jù)對(duì)科學(xué)研究有什么影響？4.大數(shù)據(jù)有哪些數(shù)據(jù)類(lèi)型？5.大數(shù)據(jù)有哪些應(yīng)用？課后答案1.答：大數(shù)據(jù)（bigdata）是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。2.答：數(shù)據(jù)量大（Volume）、數(shù)據(jù)類(lèi)型復(fù)雜（Variety）、數(shù)據(jù)產(chǎn)生速度快（Velocity）、價(jià)值密度低（Value）。3.答：促進(jìn)了科學(xué)研究的第四范式產(chǎn)生和交叉學(xué)科的發(fā)展。4.答：有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。5.答：大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價(jià)值：實(shí)現(xiàn)數(shù)據(jù)的資源化，幫助企業(yè)搶占市場(chǎng)，提供個(gè)性化服務(wù)，指定有效方針等；與云計(jì)算深度結(jié)合；可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論，實(shí)現(xiàn)科學(xué)技術(shù)上的突破感謝大家的全力支持LOGO第2章大數(shù)據(jù)與云計(jì)算BigDataandCloudComputing云計(jì)算概述2.1云計(jì)算的主要部署模式2.2云計(jì)算的主要服務(wù)模式2.3云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.42.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.1.1云計(jì)算的提出

在不同時(shí)期，信息產(chǎn)業(yè)的發(fā)展有兩個(gè)重要的核心驅(qū)動(dòng)力：硬件驅(qū)動(dòng)力、網(wǎng)絡(luò)驅(qū)動(dòng)力。這兩種驅(qū)動(dòng)力量的對(duì)比和變化決定著產(chǎn)業(yè)中不同產(chǎn)品的出現(xiàn)時(shí)期以及不同形態(tài)的企業(yè)出現(xiàn)和消亡的時(shí)間。以硬件為核心驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。以網(wǎng)絡(luò)為核心驅(qū)動(dòng)的時(shí)代誕生了Google、雅虎、亞馬遜等企業(yè)。2.1云計(jì)算概述2.1.1云計(jì)算的提出2.1云計(jì)算概述2006年，Google公司CEO埃里克·施密特（EricSchmidt）在搜索引擎大會(huì)（SESSanJose）首次提出“云計(jì)算”概念及體系架構(gòu)，并快速得到了業(yè)界認(rèn)可，如圖所示。2008年，云計(jì)算概念全面進(jìn)入中國(guó)，2009年，中國(guó)首屆云計(jì)算大會(huì)召開(kāi)，此后云計(jì)算技術(shù)和產(chǎn)品迅速發(fā)展起來(lái)。2.1.2云計(jì)算的定義2.1云計(jì)算概述

（1）維基百科：云計(jì)算是一種動(dòng)態(tài)擴(kuò)展的計(jì)算模式，通過(guò)網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶(hù)；云計(jì)算通常包含基礎(chǔ)設(shè)施即服務(wù)（InfrastructureasaService，IaaS）、平臺(tái)即服務(wù)（PlatformasaService，PaaS）、軟件即服務(wù)（SoftwareasaService，SaaS）。

（2）美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)實(shí)驗(yàn)室（NationalInstituteofStandardsandTechnology，NIST）：云計(jì)算是一種無(wú)處不在的、便捷的通過(guò)互聯(lián)網(wǎng)訪問(wèn)的一個(gè)可定制的IT資源（IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù)）共享池，是一種按使用量付費(fèi)的模式。它能夠通過(guò)最少量的管理或與服務(wù)供應(yīng)商的互動(dòng)實(shí)現(xiàn)計(jì)算資源的迅速供給和釋放。這也是現(xiàn)階段廣為接受的云計(jì)算的定義。2.1.2云計(jì)算的定義2.1云計(jì)算概述

簡(jiǎn)而言之，云計(jì)算是一種通過(guò)互聯(lián)網(wǎng)以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化資源的計(jì)算模式。云計(jì)算的資源是分布式架構(gòu)并通過(guò)虛擬化技術(shù)實(shí)現(xiàn)動(dòng)態(tài)易擴(kuò)展，通過(guò)互聯(lián)網(wǎng)提供的一種具有服務(wù)等級(jí)協(xié)議（Service-LevelAgreement，SLA）的服務(wù)。該協(xié)議是云服務(wù)提供商和客戶(hù)之間的一份商業(yè)保障合同，而非一般的服務(wù)承諾。終端用戶(hù)不需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié)，不必具有相應(yīng)的專(zhuān)業(yè)知識(shí)，也無(wú)需直接進(jìn)行控制，只關(guān)注自己真正需要什么樣的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

（1）用戶(hù)的公共性。云計(jì)算面向各類(lèi)用戶(hù)，包括企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、個(gè)人等用戶(hù)，也包括應(yīng)用軟件、中間件平臺(tái)等“用戶(hù)”。這些用戶(hù)不需了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié)，不必具有相應(yīng)的專(zhuān)業(yè)知識(shí)，也無(wú)需直接進(jìn)行控制，只關(guān)注自己真正需要的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。

（2）設(shè)備的多樣性。云計(jì)算希望提供服務(wù)的設(shè)備是多樣的，既包括各種規(guī)模的服務(wù)器、主機(jī)、存儲(chǔ)設(shè)備，也包括各種類(lèi)型的終端設(shè)備，如計(jì)算機(jī)、智能手機(jī)、各種智能傳感器設(shè)備等。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

（3）商業(yè)模式的服務(wù)性。云計(jì)算的服務(wù)特性體現(xiàn)在兩個(gè)方面：簡(jiǎn)化和標(biāo)準(zhǔn)的服務(wù)接口、按需計(jì)費(fèi)的商業(yè)模式。

（4）提供方式的靈活性。云計(jì)算既可以作為一種公用設(shè)施，提供社會(huì)服務(wù)，即“公有云”，也可以作為企業(yè)信息化的集中計(jì)算平臺(tái)來(lái)提供，即“私有云”。2.1.4云計(jì)算的特點(diǎn)2.1云計(jì)算概述（2）資源虛擬化（Virtualization）和彈性調(diào)度。（1）具有大規(guī)模并行計(jì)算能力。（3）數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)。

“云”已經(jīng)具有相當(dāng)規(guī)模，Google云計(jì)算已經(jīng)擁有100多萬(wàn)臺(tái)服務(wù)器，Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器，企業(yè)私有云一般擁有數(shù)百上千臺(tái)服務(wù)器，這些服務(wù)器的硬件架構(gòu)是集群，為大粒度應(yīng)用提供傳統(tǒng)計(jì)算系統(tǒng)或用戶(hù)終端所無(wú)法完成的并行計(jì)算服務(wù)。云計(jì)算向外提供的是計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力等各種服務(wù)能力。

云計(jì)算的硬件資源是以分布式系統(tǒng)為底層架構(gòu)，上層通過(guò)虛擬化技術(shù)進(jìn)行業(yè)務(wù)的彈性伸縮，以按需分配方式，為小粒度應(yīng)用提供計(jì)算資源，實(shí)現(xiàn)資源共享。即云計(jì)算能夠根據(jù)用戶(hù)的實(shí)際需求動(dòng)態(tài)分配和釋放不同的資源，當(dāng)有新需求出現(xiàn)時(shí)，可為用戶(hù)快速匹配新的資源并及時(shí)分配，以保證資源提供的彈性；而當(dāng)用戶(hù)不再需要這些資源時(shí)，會(huì)迅速釋放，提供給其他需要的用戶(hù)。

大數(shù)據(jù)離不開(kāi)云處理，云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備，是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始，大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合，預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外，物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài)，也將一齊助力大數(shù)據(jù)革命，讓大數(shù)據(jù)營(yíng)銷(xiāo)發(fā)揮出更大的影響力。2.2.1公有云2.2云計(jì)算的主要部署模式

公有云：提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)。公有云用戶(hù)以付費(fèi)的方式，根據(jù)業(yè)務(wù)需要彈性使用IT分配的資源，用戶(hù)不需要自己構(gòu)建硬件、軟件等基礎(chǔ)設(shè)施和后期維護(hù)，可以在任何地方、任何時(shí)間、多種方式、以互聯(lián)網(wǎng)的形式訪問(wèn)獲取資源。公有云如同日常生活中按需購(gòu)買(mǎi)使用的水、電一樣，方便、快捷地享受服務(wù)。

目前，比較流行的公有云平臺(tái)有國(guó)外的亞馬遜云平臺(tái)AWS（AmazonWebServices）、GAE（GoogleAppEngine）等，國(guó)內(nèi)的有阿里云、SAE（SinaAppEngine）、BAE（BaiduAppEngine）等。亞馬遜的AWS提供了大量基于云的全球性產(chǎn)品，包括計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)、分析、聯(lián)網(wǎng)、移動(dòng)產(chǎn)品、開(kāi)發(fā)人員工具、管理工具、物聯(lián)網(wǎng)、安全性和企業(yè)級(jí)應(yīng)用程序，這些服務(wù)及應(yīng)用程序可幫助企業(yè)或組織快速發(fā)展自己的業(yè)務(wù)、降低IT成本，使來(lái)自中國(guó)乃至全球的眾多客戶(hù)從中獲益。

公有云有很多優(yōu)點(diǎn)，但最大的缺點(diǎn)是難以保證數(shù)據(jù)的私密性。2.2.2私有云2.2云計(jì)算的主要部署模式

私有云：提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)。私有云一般由一個(gè)組織來(lái)使用，同時(shí)由這個(gè)組織來(lái)運(yùn)營(yíng)。如政府機(jī)關(guān)、移動(dòng)通信、學(xué)校等內(nèi)部使用的云平臺(tái)。私有云可較好地解決數(shù)據(jù)私密性問(wèn)題，對(duì)移動(dòng)通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機(jī)構(gòu)，建設(shè)私有云將是一個(gè)必然的選擇。使用私有云提供的云計(jì)算服務(wù)需要一定的權(quán)限，一般只提供給企業(yè)內(nèi)部員工使用。其主要目的是合理地組織企業(yè)已有的軟硬件資源，提供更加可靠、彈性的服務(wù)供企業(yè)內(nèi)部使用。比較流行的私有云平臺(tái)有VMwarevCloudSuite和微軟的MicrosoftSystemCenter2016。

2.2.2私有云舉例2.2云計(jì)算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球領(lǐng)先的虛擬化解決方案提供商，能對(duì)用戶(hù)的硬件資源進(jìn)行有效地整合，簡(jiǎn)化管理，提升硬件資源的利用率。VMwarevCloudSuite可構(gòu)建和管理基于軟件定義數(shù)據(jù)中心的VMwarevSphere企業(yè)私有云，VMwarevSphere能夠跨數(shù)據(jù)中心，實(shí)現(xiàn)高可用的、可擴(kuò)展的并按需分配的企業(yè)硬件IT基礎(chǔ)架構(gòu)。

②MicrosoftSystemCenter2016私有云。

它提供了本地企業(yè)環(huán)境與WindowsAzure集成的各種服務(wù)，可以讓企業(yè)輕松地從本地環(huán)境遷移到微軟Azure公有云。它包括基礎(chǔ)設(shè)施管理和DevOps的資源配置、監(jiān)控、自動(dòng)化、端點(diǎn)保護(hù)和備份與恢復(fù)。SystemCenter2016能實(shí)現(xiàn)企業(yè)的數(shù)據(jù)中心向私有云轉(zhuǎn)型，使企業(yè)數(shù)據(jù)中心更可靠、可擴(kuò)展、彈性地滿足企業(yè)不斷增長(zhǎng)的業(yè)務(wù)需求。2.2.3混合云2.2云計(jì)算的主要部署模式

混合云：是把公有云和私有云進(jìn)行整合，吸納二者的優(yōu)點(diǎn)，給企業(yè)帶來(lái)真正意義上的云計(jì)算服務(wù)?；旌显剖俏磥?lái)云發(fā)展的方向。混合云既能利用企業(yè)在IT基礎(chǔ)設(shè)施的巨大投入，又能解決公有云帶來(lái)的數(shù)據(jù)安全等問(wèn)題，是避免企業(yè)變成信息孤島的最佳解決方案。混合云強(qiáng)調(diào)基礎(chǔ)設(shè)施是由兩種或多種云組成的，但對(duì)外呈現(xiàn)的是一個(gè)完整的整體。企業(yè)正常運(yùn)營(yíng)時(shí)，把重要數(shù)據(jù)保存在自己的私有云里面（如財(cái)務(wù)數(shù)據(jù)），把不重要的信息或需要對(duì)公眾開(kāi)放的信息放到公有云里，兩種云組合形成一個(gè)整體，這就是混合云。

組建混合云的利器是OpenStack，它可以把各種云計(jì)算平臺(tái)資源進(jìn)行異構(gòu)整合，構(gòu)建企業(yè)級(jí)混合云，使企業(yè)可以根據(jù)自己的需求靈活自定義各種云計(jì)算服務(wù)。在搭建企業(yè)云計(jì)算平臺(tái)時(shí)，使用OpenStack架構(gòu)是最理想的解決方案，雖然入門(mén)門(mén)檻較高，但是隨著項(xiàng)目規(guī)模的擴(kuò)大，企業(yè)終將從中受益，因?yàn)椴槐刂Ц对破脚_(tái)中軟件的購(gòu)買(mǎi)費(fèi)用。2.2.3混合云舉例2.2云計(jì)算的主要部署模式

混合云計(jì)算的典型案例是12306火車(chē)票購(gòu)票網(wǎng)站。12306購(gòu)票網(wǎng)站最初是私有云計(jì)算，消費(fèi)者平時(shí)用12306購(gòu)票沒(méi)有問(wèn)題，但是一到節(jié)假日（如春節(jié)），有大量購(gòu)票需求的時(shí)候，消費(fèi)者在購(gòu)票的時(shí)候就會(huì)出現(xiàn)頁(yè)面響應(yīng)慢或者頁(yè)面報(bào)錯(cuò)的情況，甚至還會(huì)出現(xiàn)無(wú)法付款的情況，用戶(hù)體驗(yàn)特別差。為了解決上述問(wèn)題，12306火車(chē)購(gòu)票網(wǎng)站與阿里云簽訂戰(zhàn)略合作，由阿里云提供計(jì)算能力以滿足業(yè)務(wù)高峰期查票檢索服務(wù)，而支付業(yè)務(wù)等關(guān)鍵業(yè)務(wù)在12306自己的私有云環(huán)境之中運(yùn)行。兩者組合成一個(gè)新的混合云，對(duì)外呈現(xiàn)還是一個(gè)完整的系統(tǒng)——12306火車(chē)購(gòu)票網(wǎng)站。在企業(yè)中，私有云能更好地調(diào)度和使用自動(dòng)化管理物理資源，使企業(yè)基礎(chǔ)設(shè)施更高效地運(yùn)行，結(jié)合公有云，使企業(yè)在相互協(xié)同、合作、創(chuàng)新等方面更加高效。2.3.1基礎(chǔ)設(shè)施即服務(wù)（IaaS）2.3云計(jì)算的主要服務(wù)模式IaaS主要用戶(hù)是系統(tǒng)管理員，他們具有專(zhuān)業(yè)知識(shí)能力，直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡(jiǎn)單的開(kāi)發(fā)。服務(wù)提供商提供給用戶(hù)的服務(wù)是計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施，包括CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)和其他基本的資源。用戶(hù)不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施，但能控制操作系統(tǒng)的選擇，存儲(chǔ)空間、部署和運(yùn)行任意軟件，也可獲得有限的網(wǎng)絡(luò)組件（如路由器、防火墻、負(fù)載均衡器等）的控制。IaaS的典型代表是Amazon（前身是網(wǎng)上書(shū)店），Amazon的WebService提供了兩個(gè)云平臺(tái)：彈性計(jì)算云EC2（ElasticComputingCloud）和簡(jiǎn)單存儲(chǔ)服務(wù)S3（SimpleStorageService），EC2完成計(jì)算功能，S3完成存儲(chǔ)功能。2.3.2平臺(tái)即服務(wù)（PaaS）2.3云計(jì)算的主要服務(wù)模式PaaS主要用戶(hù)是開(kāi)發(fā)人員。PaaS是把應(yīng)用服務(wù)的運(yùn)行和開(kāi)發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式。即PaaS是把二次開(kāi)發(fā)的平臺(tái)以服務(wù)形式提供給開(kāi)發(fā)軟件的用戶(hù)使用，開(kāi)發(fā)人員不需要管理或控制底層的云計(jì)算基礎(chǔ)設(shè)施，但可以方便地使用很多在構(gòu)建應(yīng)用時(shí)的必要服務(wù)，能控制部署的應(yīng)用程序開(kāi)發(fā)平臺(tái)。PaaS的典型案例有微軟的VisualStudio開(kāi)發(fā)平臺(tái)和GoogleAppEngine（應(yīng)用引擎）平臺(tái)。GoogleAppEngine和Amazon的S3、EC2不同，因?yàn)楹笳呤侵苯犹峁┑氖且幌盗杏布Y源供用戶(hù)選擇使用。PaaS的關(guān)鍵技術(shù)有兩個(gè)，一個(gè)是分布式的并行計(jì)算，另一個(gè)是大文件分布式存儲(chǔ)。分布式并行計(jì)算技術(shù)是為了充分利用廣泛部署的普通計(jì)算資源實(shí)現(xiàn)大規(guī)模運(yùn)算和應(yīng)用的目的，實(shí)現(xiàn)真正將傳統(tǒng)運(yùn)算轉(zhuǎn)化為并行計(jì)算，為客戶(hù)提供并行服務(wù)。大文件分布式存儲(chǔ)是為了解決海量數(shù)據(jù)存儲(chǔ)在廉價(jià)的不可信結(jié)點(diǎn)集群架構(gòu)上數(shù)據(jù)安全性及運(yùn)行性的保證。2.3.3軟件即服務(wù)（SaaS）2.3云計(jì)算的主要服務(wù)模式SaaS的客戶(hù)群體是普通用戶(hù)。服務(wù)提供商提供給用戶(hù)的服務(wù)是運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序，用戶(hù)只需要通過(guò)終端設(shè)備接入使用即可，簡(jiǎn)單方便，不需要用戶(hù)進(jìn)行軟件開(kāi)發(fā)，也無(wú)需管理底層資源。如Office365、嘀嘀打車(chē)、共享單車(chē)等應(yīng)用軟件都屬于SaaS。在云平臺(tái)上，Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成為企業(yè)所需的辦公云平臺(tái)，它不僅可以在線使用，還可以下載到本地以客戶(hù)端形式使用，是一套完整、容易入門(mén)、性?xún)r(jià)比高、支持混合部署、支持自定義的辦公解決方案，與傳統(tǒng)意義的Office有天壤之別。SaaS的關(guān)鍵技術(shù)是多租戶(hù)技術(shù)。云計(jì)算要求硬件資源和軟件資源能夠更好的共享，要具有良好的伸縮性，任何一個(gè)用戶(hù)都能夠按照自己的需求進(jìn)行客戶(hù)化配置而不影響其他用戶(hù)的使用。

2.3.4三種服務(wù)模式之間的關(guān)系2.3云計(jì)算的主要服務(wù)模式

①?gòu)挠脩?hù)體驗(yàn)角度分析從用戶(hù)體驗(yàn)角度而言，它們之間關(guān)系是獨(dú)立的，因?yàn)樗鼈兠鎸?duì)的是不同類(lèi)型的用戶(hù)。SaaS主要面對(duì)的是普通用戶(hù)。PaaS主要的用戶(hù)是開(kāi)發(fā)人員。為了支撐著整個(gè)PaaS平臺(tái)的運(yùn)行，供應(yīng)商需要提供四大功能：友好的開(kāi)發(fā)環(huán)境、豐富的服務(wù)、自動(dòng)的資源調(diào)度、精細(xì)的管理和監(jiān)控。IaaS主要的用戶(hù)是系統(tǒng)管理員，具有專(zhuān)業(yè)知識(shí)能力。IaaS供應(yīng)商需要在7個(gè)方面對(duì)基礎(chǔ)設(shè)施進(jìn)行管理以給用戶(hù)提供資源，它們是資源抽象、資源監(jiān)控、負(fù)載管理、數(shù)據(jù)管理、資源部署、安全管理和計(jì)費(fèi)管理。

②從技術(shù)角度分析云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類(lèi)型來(lái)劃分的，與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。從技術(shù)角度而言，它們有一定的繼承關(guān)系，即SaaS基于PaaS，PaaS基于IaaS，但并不是簡(jiǎn)單的繼承關(guān)系。因?yàn)镾aaS可以是基于PaaS或者直接部署于IaaS之上，PaaS可以構(gòu)建于IaaS之上，也可以直接構(gòu)建在物理資源之上，也就是說(shuō)某一層次可以單獨(dú)完成一項(xiàng)用戶(hù)的請(qǐng)求而不需要其他層次為其提供必要的服務(wù)和支持。云計(jì)算系統(tǒng)按資源封裝的層次分為對(duì)底層硬件資源不同級(jí)別的封裝，從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系

云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念，它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面，云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法，大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起，因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

導(dǎo)言：2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)

云計(jì)算的邏輯架構(gòu)是以Google提出的云計(jì)算邏輯架構(gòu)而發(fā)展起來(lái)的，Google提出了一整套基于分布式的并行集群基礎(chǔ)架構(gòu)，并且Google的數(shù)據(jù)中心采用廉價(jià)的LinuxPC機(jī)組成集群，利用軟件來(lái)處理集群中經(jīng)常發(fā)生的結(jié)點(diǎn)失效問(wèn)題，從而形成了Google的云計(jì)算基礎(chǔ)架構(gòu)。Google的云計(jì)算基礎(chǔ)架構(gòu)包括三個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng)：GFS分布式文件系統(tǒng)（GoogleFileSystem）、針對(duì)Google應(yīng)用程序的特點(diǎn)提出的MapReduce編程模式和大規(guī)模分布式數(shù)據(jù)庫(kù)BigTable。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)（1）GFS是建立在集群之上的分布式文件系統(tǒng)，解決了超大文件存儲(chǔ)、訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作和集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題。GFS默認(rèn)把超大文件分成64MB固定大小的塊，分布在集群的機(jī)器上；為了提高可靠性，每個(gè)塊文件至少有3份以上的冗余，從而解決結(jié)點(diǎn)失效問(wèn)題。（2）MapReduce是分布式并行編程模式，解決了并行計(jì)算問(wèn)題。用戶(hù)只需要提供自己的Map函數(shù)以及Reduce函數(shù)，就可以在集群上進(jìn)行大規(guī)模的分布式并行數(shù)據(jù)處理，并把結(jié)果存儲(chǔ)在GFS上。（3）BigTable是弱一致性要求的分布式大規(guī)模數(shù)據(jù)庫(kù)管理系統(tǒng)，解決了海量非關(guān)系型數(shù)據(jù)的存儲(chǔ)。它是稀疏的、分布式的、持久化的、多維排序的，并以Key/Value對(duì)形式存儲(chǔ)的數(shù)據(jù)模型。BigTable不是關(guān)系型數(shù)據(jù)庫(kù)，像它的名字一樣，就是一個(gè)巨大的表格，用來(lái)存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)HDFS是Hadoop的分布式文件存儲(chǔ)系統(tǒng)。從用戶(hù)角度看，HDFS和其他分布式文件系統(tǒng)沒(méi)有什么區(qū)別，都具有創(chuàng)建文件、刪除文件、移動(dòng)文件和重命名文件等功能。但HDFS是用來(lái)設(shè)計(jì)存儲(chǔ)大數(shù)據(jù)的，并且是分布式存儲(chǔ)，所以所有特點(diǎn)都與大數(shù)據(jù)和分布式有關(guān)。為了滿足大數(shù)據(jù)的處理需求，Hadoop對(duì)超大文件的訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作、集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題從技術(shù)上進(jìn)行了優(yōu)化。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)Hadoop實(shí)現(xiàn)了一個(gè)對(duì)大數(shù)據(jù)進(jìn)行分布式并行處理的系統(tǒng)框架，是一種數(shù)據(jù)并行的處理方法。由實(shí)現(xiàn)數(shù)據(jù)分析的MapReduce計(jì)算框架和實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的分布式文件系統(tǒng)HDFS有機(jī)結(jié)合組成，它自動(dòng)把應(yīng)用程序分割成許多小的工作單元，并把這些單元放到集群中的相應(yīng)結(jié)點(diǎn)上執(zhí)行，而分布式文件系統(tǒng)HDFS負(fù)責(zé)各個(gè)結(jié)點(diǎn)上數(shù)據(jù)的存儲(chǔ)，實(shí)現(xiàn)高吞吐率的數(shù)據(jù)讀寫(xiě)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)MapReduce是一個(gè)分布式計(jì)算框架，是Hadoop的一個(gè)基礎(chǔ)組件。分為Map和Reduce過(guò)程，是一種將大任務(wù)細(xì)分處理再匯總結(jié)果的一種方法。MapReduce是一種編程模型，支持使用廉價(jià)的計(jì)算機(jī)集群對(duì)規(guī)模達(dá)到PB級(jí)的數(shù)據(jù)集進(jìn)行分布式并行計(jì)算。MapReduce由Map函數(shù)和Reduce函數(shù)構(gòu)成，分別完成任務(wù)的分解與結(jié)果的匯總。MapReduce的用途是進(jìn)行批量處理，不是進(jìn)行實(shí)時(shí)查詢(xún)，即特別不適用于交互式應(yīng)用。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)（1）ETLTools是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)，由一系列數(shù)據(jù)倉(cāng)庫(kù)采集工具構(gòu)成。（2）BIReporting（BusinessIntelligenceReporting，商業(yè)智能報(bào)表）能提供綜合報(bào)告、數(shù)據(jù)分析和數(shù)據(jù)集成等功能。（3）RDBMS是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。RDBMS中的數(shù)據(jù)存儲(chǔ)在被稱(chēng)為表（Table）的數(shù)據(jù)庫(kù)中。表是相關(guān)記錄的集合，它由行和列組成，是一種二維關(guān)系表。（4）Pig數(shù)據(jù)分析語(yǔ)言提供相應(yīng)的數(shù)據(jù)流（DataFlow）語(yǔ)言和運(yùn)行環(huán)境，實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換（使用管道）和實(shí)驗(yàn)性研究（如快速原型）。適用于數(shù)據(jù)準(zhǔn)備階段，Pig運(yùn)行在由Hadoop基本架構(gòu)構(gòu)建的集群上。（5）Hive分布式數(shù)據(jù)倉(cāng)庫(kù)擅長(zhǎng)于數(shù)據(jù)展示，由Facebook開(kāi)發(fā)。Hive管理存儲(chǔ)在HDFS中的數(shù)據(jù)，提供了基于SQL的查詢(xún)語(yǔ)言查詢(xún)數(shù)據(jù)。Hive和Pig都是建立在Hadoop基本架構(gòu)之上，可以用來(lái)從數(shù)據(jù)庫(kù)中提取信息，交給Hadoop處理。（6）Sqoop是數(shù)據(jù)格式轉(zhuǎn)化工具，是完成HDFS和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)（7）HBase是類(lèi)似于GoogleBigTable的分布式列數(shù)據(jù)庫(kù)。HBase支持MapReduce的并行計(jì)算和點(diǎn)查詢(xún)（即隨機(jī)讀取）。HBase是基于Java的產(chǎn)品，與其對(duì)應(yīng)的基于C++的開(kāi)源項(xiàng)目是HyperTable，也是Apache的項(xiàng)目。（8）Avro是一種新的數(shù)據(jù)序列化（Serialization）格式和傳輸工具，主要用來(lái)取代Hadoop基本架構(gòu)中原有的IPC（Inter-ProcessCommunication，進(jìn)程間通信）機(jī)制。（9）Zookeeper是協(xié)同工作系統(tǒng)，用于構(gòu)建分布式應(yīng)用，是一種分布式鎖設(shè)施，提供類(lèi)似GoogleChubby（主要用于解決分布式一致性問(wèn)題）的功能，它是基于HBase和HDFS的，由Facebook開(kāi)發(fā)。（10）Ambari旨在將監(jiān)控和管理等核心功能加入Hadoop。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop、升級(jí)集群，并可提供監(jiān)控服務(wù)。（11）Flume是Cloudera提供的一個(gè)高可用的、高可靠的、分布式的海量日志收集工具，即Flume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)，F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫(xiě)到各種數(shù)據(jù)接收方（可定制）的能力。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.1物聯(lián)網(wǎng)

物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分，也是信息化時(shí)代的重要發(fā)展階段。其英文名稱(chēng)是：“InternetofThings（IoT）”。顧名思義，物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。其中物聯(lián)網(wǎng)的基礎(chǔ)是互聯(lián)網(wǎng)，以互聯(lián)網(wǎng)的形式把物與物聯(lián)系在一起，進(jìn)行信息交換和通信，是互聯(lián)網(wǎng)對(duì)象的擴(kuò)展和延伸，即萬(wàn)物互聯(lián)。

物聯(lián)網(wǎng)必將引發(fā)一場(chǎng)新的技術(shù)與商業(yè)革命，將把人類(lèi)推向一個(gè)萬(wàn)物智能的世界，任何事物都有學(xué)習(xí)、發(fā)現(xiàn)、傾聽(tīng)、感知的能力。未來(lái)的公路、建筑、路燈、護(hù)欄、道路標(biāo)識(shí)線等都遍布信號(hào)探測(cè)器。智能汽車(chē)時(shí)刻與道路探測(cè)器和其他汽車(chē)進(jìn)行高速信息交換，智能汽車(chē)的圖像識(shí)別能力日益成熟，外加道路的全面物聯(lián)網(wǎng)化，汽車(chē)將實(shí)現(xiàn)無(wú)人駕駛，而且比人類(lèi)駕駛的汽車(chē)更安全、快捷。物聯(lián)網(wǎng)將顛覆人與物之間的相處模式，借助科技的力量可以改變?nèi)藗兊纳睢?.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.2邊緣計(jì)算

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、5G等信息技術(shù)的快速發(fā)展，云計(jì)算已經(jīng)無(wú)法滿足機(jī)器人、智能家居、無(wú)人駕駛、VR（VirtualReality，虛擬現(xiàn)實(shí)）/AR（AugmentedReality，增強(qiáng)現(xiàn)實(shí)）、新媒體、智能安防、遠(yuǎn)程醫(yī)療、可穿戴設(shè)備、智能制造等場(chǎng)景對(duì)低延遲的高要求，因此邊緣計(jì)算（EdgeComputing）產(chǎn)生。根據(jù)國(guó)際調(diào)研機(jī)構(gòu)Gartner公司的報(bào)告，到2022年，超過(guò)一半的企業(yè)數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心和云平臺(tái)之外的邊緣產(chǎn)生和處理，目前約為10%。邊緣計(jì)算的興起幫助企業(yè)近乎實(shí)時(shí)地分析信息，并圍繞物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)創(chuàng)造新的價(jià)值。

邊緣計(jì)算集結(jié)了云計(jì)算、CDN（ContentDeliveryNetwork）、硬件設(shè)備、運(yùn)營(yíng)商、研究機(jī)構(gòu)以及其它中小廠商等，CDN算是最早的邊緣計(jì)算的雛形。CDN主要是ContentCache（內(nèi)容緩存），現(xiàn)在是FunctionCache（功能緩存），等于要把計(jì)算功能搬到邊緣上來(lái)，而不是簡(jiǎn)單的把內(nèi)容放上去。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.3霧計(jì)算

霧計(jì)算（FogComputing）是一種對(duì)云計(jì)算概念的延伸，云在天空飄浮，高高在上，遙不可及，刻意抽象；而霧卻現(xiàn)實(shí)可及，貼近地面，就在你我身邊。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備（是由性能較弱、更為分散的各種功能計(jì)算機(jī)組成）中，而不是全部保存在云中，導(dǎo)致數(shù)據(jù)傳遞具有極低時(shí)延。霧計(jì)算具有遼闊的地理分布，帶有大量網(wǎng)絡(luò)結(jié)點(diǎn)的大規(guī)模傳感器網(wǎng)絡(luò)。霧計(jì)算移動(dòng)性好，手機(jī)和其他移動(dòng)設(shè)備可以互相之間直接通信，信號(hào)不必到云端甚至基站去繞一圈，支持很高的移動(dòng)性。

霧計(jì)算是介于云計(jì)算和個(gè)人計(jì)算之間的，是半虛擬化的服務(wù)計(jì)算架構(gòu)模型，強(qiáng)調(diào)數(shù)量，不管單個(gè)計(jì)算結(jié)點(diǎn)能力多么弱都要發(fā)揮作用。與云計(jì)算相比，霧計(jì)算所采用的架構(gòu)更呈分布式，完成的計(jì)算任務(wù)更接近網(wǎng)絡(luò)邊緣。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中，而不像云計(jì)算那樣將它們幾乎全部保存在云中，數(shù)據(jù)的存儲(chǔ)及處理更依賴(lài)本地設(shè)備，而非服務(wù)器。霧計(jì)算是新一代分布式計(jì)算，符合互聯(lián)網(wǎng)的“去中心化”特征。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.4大數(shù)據(jù)和云計(jì)算之間的關(guān)系

云計(jì)算的實(shí)質(zhì)是服務(wù)，是一種新興的商業(yè)計(jì)算模式。云概念的提出是因?yàn)樗囊?guī)模很大，可以根據(jù)業(yè)務(wù)動(dòng)態(tài)伸縮。云計(jì)算是提供給這種商業(yè)模式的具體實(shí)現(xiàn)，是互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展到一定階段的必然產(chǎn)物。云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念，它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面，云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法，大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。

云計(jì)算的核心是業(yè)務(wù)模式，其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn)，云計(jì)算為數(shù)據(jù)資產(chǎn)提供了存儲(chǔ)、訪問(wèn)的場(chǎng)所和計(jì)算能力，即云計(jì)算更偏重海量數(shù)據(jù)的存儲(chǔ)和計(jì)算，以及提供的云計(jì)算服務(wù)，運(yùn)行云應(yīng)用。但是云計(jì)算缺乏盤(pán)活數(shù)據(jù)資產(chǎn)的能力，挖掘價(jià)值性信息和進(jìn)行預(yù)測(cè)性分析，為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù)，這是大數(shù)據(jù)的核心議題。云計(jì)算是基礎(chǔ)設(shè)施架構(gòu)，大數(shù)據(jù)是思想方法，大數(shù)據(jù)技術(shù)將幫助人們從大體量、高度復(fù)雜的數(shù)據(jù)中分析、挖掘信息，從而發(fā)現(xiàn)價(jià)值和預(yù)測(cè)趨勢(shì)。習(xí)題1.簡(jiǎn)述什么是云計(jì)算？2.云計(jì)算有什么特點(diǎn)？3.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要部署模式。4.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要服務(wù)模式。5.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Google平臺(tái)的基礎(chǔ)架構(gòu)圖。6.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Hadoop平臺(tái)的基礎(chǔ)架構(gòu)圖。7.用自己的語(yǔ)言分別解釋物聯(lián)網(wǎng)，邊緣計(jì)算，霧計(jì)算。答案1.簡(jiǎn)述什么是云計(jì)算？①云計(jì)算是一種動(dòng)態(tài)擴(kuò)展的計(jì)算模式，通過(guò)網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶(hù)。②云計(jì)算是一種無(wú)處不在的、便捷的通過(guò)互聯(lián)網(wǎng)訪問(wèn)的一個(gè)可定制的IT資源（IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù)）共享池，是一種按使用量付費(fèi)的模式。它能夠通過(guò)最少量的管理或與服務(wù)供應(yīng)商的互動(dòng)實(shí)現(xiàn)計(jì)算資源的迅速供給和釋放2.云計(jì)算有什么特點(diǎn)？①具有大規(guī)模并行計(jì)算能力②資源虛擬化和彈性調(diào)度③數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)3.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要部署模式。①公有云：提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)②私有云：提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)③混合云：是把公有云和私有云進(jìn)行整合，吸納二者的優(yōu)點(diǎn)，給企業(yè)帶來(lái)真正意義上的云計(jì)算服務(wù)答案4.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要服務(wù)模式。1.基礎(chǔ)設(shè)施即服務(wù)（IaaS）①主要用戶(hù)是系統(tǒng)管理員②直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡(jiǎn)單的開(kāi)發(fā)③服務(wù)提供商提供給用戶(hù)的服務(wù)是計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施④用戶(hù)不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施，但能控制操作系統(tǒng)的選擇⑤關(guān)鍵技術(shù)及解決方案是虛擬化技術(shù)2.平臺(tái)即服務(wù)（PaaS）①主要用戶(hù)是開(kāi)發(fā)人員②把應(yīng)用服務(wù)的運(yùn)行和開(kāi)發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式即PaaS是把二次開(kāi)發(fā)的平臺(tái)以服務(wù)形式提供給開(kāi)發(fā)軟件的用戶(hù)使用③開(kāi)發(fā)人員不需要管理或控制底層的云計(jì)算基礎(chǔ)設(shè)施，但可以方便地使用很多在構(gòu)建應(yīng)用時(shí)的必要服務(wù)④兩個(gè)關(guān)鍵技術(shù)：分布式的并行計(jì)算和大文件分布式存儲(chǔ)3.軟件即服務(wù)（SaaS）①主要用戶(hù)是普通用戶(hù)②服務(wù)提供商提供給用戶(hù)的服務(wù)是運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序，用戶(hù)只需要通過(guò)終端設(shè)備接入使用即可，簡(jiǎn)單方便，不需要用戶(hù)進(jìn)行軟件開(kāi)發(fā)，也無(wú)需管理底層資源③關(guān)鍵技術(shù)是多租戶(hù)技術(shù)，使資源能夠更好的共享答案5.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Google平臺(tái)的基礎(chǔ)架構(gòu)圖。6.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Hadoop平臺(tái)的基礎(chǔ)架構(gòu)圖。

答案7.用自己的語(yǔ)言分別解釋物聯(lián)網(wǎng)，邊緣計(jì)算，霧計(jì)算。

物聯(lián)網(wǎng)：物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)

邊緣計(jì)算：邊緣計(jì)算是指在靠近物或數(shù)據(jù)源頭的一側(cè)，采用網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力為一體的開(kāi)放平臺(tái)，就近提供最近端服務(wù)

霧計(jì)算：數(shù)據(jù)、（數(shù)據(jù)）處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中，而不是幾乎全部保存在云中，是云計(jì)算（CloudComputing）的延伸概念感謝大家的全力支持LOGO從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)第3章LOGO目錄3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述013.2大數(shù)據(jù)的解決方案023.3大數(shù)據(jù)采集技術(shù)033.4大數(shù)據(jù)預(yù)處理技術(shù)04053.5大數(shù)據(jù)可視化技術(shù)

產(chǎn)業(yè)結(jié)構(gòu)概述產(chǎn)業(yè)結(jié)構(gòu)（IndustrialStructure）是指農(nóng)業(yè)、工業(yè)和服務(wù)業(yè)在一國(guó)經(jīng)濟(jì)結(jié)構(gòu)中所占的比重。近年來(lái)，隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的進(jìn)步，在工業(yè)化和信息化快速發(fā)展的背景下，大數(shù)據(jù)產(chǎn)業(yè)欣欣向榮。大數(shù)據(jù)的快速發(fā)展是產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)的重要推動(dòng)力。之后主要介紹三方面內(nèi)容：①?gòu)漠a(chǎn)業(yè)結(jié)構(gòu)探索大數(shù)據(jù)技術(shù)的產(chǎn)生、發(fā)展以及處理的基本流程；②介紹大數(shù)據(jù)采集技術(shù)及大數(shù)據(jù)預(yù)處理技術(shù)；③介紹大數(shù)據(jù)可視化技術(shù)及其分類(lèi)。當(dāng)前以微電子、大數(shù)據(jù)、信息產(chǎn)品制造業(yè)為代表的技術(shù)密集型產(chǎn)業(yè)正迅猛發(fā)展，成為帶動(dòng)發(fā)達(dá)國(guó)家經(jīng)濟(jì)增長(zhǎng)的主導(dǎo)產(chǎn)業(yè)。因此可以說(shuō)，技術(shù)密集型產(chǎn)業(yè)的發(fā)展水平?jīng)Q定一個(gè)國(guó)家的競(jìng)爭(zhēng)力和經(jīng)濟(jì)增長(zhǎng)的前景。技術(shù)創(chuàng)新與技術(shù)結(jié)構(gòu)變動(dòng)是產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化的決定性因素。從產(chǎn)業(yè)角度看，大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn)、采集、存儲(chǔ)、加工、分析、服務(wù)為主的相關(guān)經(jīng)濟(jì)活動(dòng)，包括數(shù)據(jù)資源建設(shè)、數(shù)據(jù)軟硬件產(chǎn)品的開(kāi)發(fā)、銷(xiāo)售和租賃活動(dòng)，以及相關(guān)信息技術(shù)服務(wù)。大數(shù)據(jù)融入產(chǎn)業(yè)結(jié)構(gòu)圖主要可以分為三大類(lèi)如左圖所示3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述

大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持我們從硬件、基礎(chǔ)軟件、應(yīng)用軟件、信息服務(wù)和數(shù)據(jù)生成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用共兩條路線、四個(gè)維度來(lái)劃分大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持，其中共涉及11個(gè)大類(lèi)主要的產(chǎn)品和服務(wù)，如圖所示。其中，基礎(chǔ)軟件（數(shù)據(jù)庫(kù)軟件和分布式文件系統(tǒng)）、應(yīng)用軟件是大數(shù)據(jù)產(chǎn)業(yè)價(jià)值轉(zhuǎn)化變現(xiàn)的最關(guān)鍵部分，其他7種在某種意義上是在原有基礎(chǔ)上持續(xù)更新并與大數(shù)據(jù)發(fā)展配套的過(guò)程。對(duì)大數(shù)據(jù)的處理主要包括：數(shù)據(jù)生成（也稱(chēng)為數(shù)據(jù)采集、數(shù)據(jù)獲取）、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用（也稱(chēng)為數(shù)據(jù)分析與挖掘）。硬件支持軟件支持采集設(shè)備、存儲(chǔ)設(shè)備和服務(wù)器等支持；數(shù)據(jù)庫(kù)軟件、分布式文件系統(tǒng)、智能搜索軟件、采集軟件、分析軟件、監(jiān)測(cè)軟件等各類(lèi)軟件技術(shù)支持；信息服務(wù)有系統(tǒng)集成、IT基礎(chǔ)設(shè)施服務(wù)、咨詢(xún)服務(wù)等，并且要保證信息安全；3.2大數(shù)據(jù)的解決方案大數(shù)據(jù)如此重要，以至于其采集、儲(chǔ)存、搜索、共享、分析、乃至可視化呈現(xiàn)，都成為了當(dāng)前重要的研究課題。技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。下面從大數(shù)據(jù)數(shù)據(jù)源的產(chǎn)生和處理，以及大數(shù)據(jù)處理的基本流程來(lái)討論大數(shù)據(jù)的解決方案。數(shù)據(jù)產(chǎn)生方式的改變1.運(yùn)營(yíng)式系統(tǒng)階段2.用戶(hù)原創(chuàng)內(nèi)容階段3.感知式系統(tǒng)階段運(yùn)營(yíng)式系統(tǒng)階段的代表是數(shù)據(jù)庫(kù)的出現(xiàn)，使得數(shù)據(jù)管理的復(fù)雜度大大降低。在實(shí)際使用中，數(shù)據(jù)庫(kù)大多為運(yùn)營(yíng)系統(tǒng)所采用，如銀行的交易記錄系統(tǒng)等。這個(gè)階段的最主要特點(diǎn)是數(shù)據(jù)的產(chǎn)生往往伴隨著一定的運(yùn)營(yíng)活動(dòng)，而且數(shù)據(jù)是記錄在數(shù)據(jù)庫(kù)中的，這種數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。用戶(hù)原創(chuàng)內(nèi)容階段的代表是Web2.0的產(chǎn)生，Web2.0的最重要標(biāo)志就是用戶(hù)原創(chuàng)內(nèi)容。Web2.0的誕生促使人類(lèi)社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍，這個(gè)階段的數(shù)據(jù)產(chǎn)生方式是主動(dòng)的。感知式系統(tǒng)階段的代表是物聯(lián)網(wǎng)。隨著技術(shù)的發(fā)展，人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器，并開(kāi)始將這些設(shè)備廣泛地布置于社會(huì)的各個(gè)角落，通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù)，這種數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的。人類(lèi)社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生，這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。數(shù)據(jù)采集方式的改變1.傳統(tǒng)的數(shù)據(jù)采集2.大數(shù)據(jù)時(shí)代數(shù)據(jù)采集來(lái)源單一，且存儲(chǔ)、管理和分析的數(shù)據(jù)量也相對(duì)較小，大多采用關(guān)系型數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)即可處理。對(duì)依靠并行計(jì)算提升數(shù)據(jù)處理速度方面而言，傳統(tǒng)的并行數(shù)據(jù)庫(kù)技術(shù)追求高度的一致性和容錯(cuò)性，難以保證其可用性和擴(kuò)展性，并且以往進(jìn)行數(shù)據(jù)采集時(shí)的采樣密度較低，獲得的采樣數(shù)據(jù)有限。有了大數(shù)據(jù)處理平臺(tái)的支撐，可以對(duì)需要分析的事件的數(shù)據(jù)進(jìn)行更加密集地采樣，從而精確地獲取事件的全局?jǐn)?shù)據(jù)。數(shù)據(jù)的采集方式由以往的被動(dòng)采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃?dòng)生成數(shù)據(jù)。在大數(shù)據(jù)的采集過(guò)程中，其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高，因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪問(wèn)和操作。大數(shù)據(jù)處理的基本流程及相應(yīng)技術(shù)支持大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下，對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成，結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ)，利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析，從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展示給終端用戶(hù)。大數(shù)據(jù)的處理步驟分為：①獲取源數(shù)據(jù)；②進(jìn)行數(shù)據(jù)清洗；③數(shù)據(jù)分析；④數(shù)據(jù)解釋?zhuān)虎輰?shù)據(jù)分析與解釋的結(jié)果呈現(xiàn)給用戶(hù)。（1）數(shù)據(jù)抽取與集成1.基于物化或ETL（Extract-Transform-Load）方法的引擎。2.基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法的引擎由于大數(shù)據(jù)處理的數(shù)據(jù)來(lái)源類(lèi)型豐富，大數(shù)據(jù)處理的第一步就是對(duì)數(shù)據(jù)進(jìn)行清洗，從中提取出關(guān)系和實(shí)體，經(jīng)過(guò)關(guān)聯(lián)和聚合等操作，按照統(tǒng)一定義的格式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)，即實(shí)現(xiàn)大數(shù)據(jù)預(yù)處理。方法有以下四種ETL是利用某種裝置（如攝像頭、麥克風(fēng)），從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。3.基于數(shù)據(jù)流方法的引擎聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)彼此協(xié)作卻又相互獨(dú)立的單元數(shù)據(jù)庫(kù)集合。聯(lián)邦數(shù)據(jù)庫(kù)技術(shù)就是為了實(shí)現(xiàn)對(duì)相互獨(dú)立運(yùn)行的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行互操作，從而進(jìn)行數(shù)據(jù)抽取與集成。數(shù)據(jù)流引擎可以在數(shù)據(jù)到達(dá)時(shí)處理數(shù)據(jù)，從而過(guò)濾掉不需要的數(shù)據(jù)，或者在將結(jié)果數(shù)據(jù)發(fā)送到最終目的地之前改變傳入的數(shù)據(jù)。4.基于搜索引擎的方法搜索引擎將網(wǎng)頁(yè)大量抓取下來(lái)，通過(guò)分析器解析，將有價(jià)值的數(shù)據(jù)入庫(kù)，檢索器（索引器）對(duì)有效的內(nèi)數(shù)據(jù)建立檢索。（2）數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟，通過(guò)數(shù)據(jù)抽取和集成環(huán)節(jié)，已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù)，用戶(hù)可以根據(jù)自己的需求對(duì)這些數(shù)據(jù)進(jìn)行分析處理，如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)等，數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)等。目前采集到的大數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)無(wú)法勝任這些數(shù)據(jù)的處理。如何高效處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，是大數(shù)據(jù)計(jì)算技術(shù)的核心要點(diǎn)。如何能夠在不同的數(shù)據(jù)類(lèi)型中，進(jìn)行交叉計(jì)算，是大數(shù)據(jù)計(jì)算技術(shù)要解決的另一核心問(wèn)題。大數(shù)據(jù)計(jì)算技術(shù)可分為批處理計(jì)算和流處理計(jì)算，批處理計(jì)算主要操作大容量、靜態(tài)的數(shù)據(jù)集，并在計(jì)算過(guò)程完成后返回結(jié)果，適用于需要計(jì)算全部數(shù)據(jù)后才能完成的計(jì)算工作；流處理計(jì)算會(huì)對(duì)隨時(shí)進(jìn)入的數(shù)據(jù)進(jìn)行計(jì)算，流處理計(jì)算無(wú)需對(duì)整個(gè)數(shù)據(jù)集執(zhí)行操作，而是對(duì)通過(guò)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作，處理結(jié)果立刻可用，并會(huì)隨著新數(shù)據(jù)的抵達(dá)繼續(xù)更新結(jié)果。（2）數(shù)據(jù)分析目前主要流行以下大數(shù)據(jù)分析技術(shù)Hive是Facebook團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)可以支持PB級(jí)別的可伸縮的數(shù)據(jù)倉(cāng)庫(kù)。這是一個(gè)建立在Hadoop之上的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)解決方案。其使用類(lèi)SQL（HiveQL）語(yǔ)言，底層經(jīng)過(guò)編譯轉(zhuǎn)為MapReduce程序，在Hadoop上運(yùn)行，最終將數(shù)據(jù)存儲(chǔ)在HDFS上。，用戶(hù)可以使用的HiveQL將自定義的MapReduce腳本插入到查詢(xún)中。該語(yǔ)言支持基本數(shù)據(jù)類(lèi)型，類(lèi)似數(shù)組和Map的集合或者他們的嵌套組合。Hive簡(jiǎn)化了對(duì)于那些不熟悉HadoopMapReduce接口的用戶(hù)學(xué)習(xí)門(mén)檻，Hive提供的一些HiveQL語(yǔ)句不只是可以進(jìn)行查詢(xún)操作，還可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行簡(jiǎn)要的分析與計(jì)算。同屬于Hadoop開(kāi)源生態(tài)系統(tǒng)的新成員ApacheSpark提供了一個(gè)比Hive更快的查詢(xún)引擎，因?yàn)樗蕾?lài)于自己的數(shù)據(jù)處理框架而不是依靠Hadoop的HDFS服務(wù)。同時(shí)，它還用于事件流處理、實(shí)時(shí)查詢(xún)和機(jī)器學(xué)習(xí)等方面。這是一個(gè)ETL(Extract,Transform,andLoad)工具，可執(zhí)行數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)庫(kù)之間的數(shù)據(jù)同步，提供基于EclipseRCP的圖形操作界面。Talend工具用于協(xié)助進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成和數(shù)據(jù)管理等方面工作。它是一個(gè)統(tǒng)一的平臺(tái)，通過(guò)提供一個(gè)統(tǒng)一的，跨企業(yè)邊界生命周期管理的環(huán)境，使數(shù)據(jù)管理和應(yīng)用更簡(jiǎn)單便捷。這種設(shè)計(jì)可以幫助企業(yè)構(gòu)建靈活、高性能的企業(yè)架構(gòu),在此架構(gòu)下，集成并啟用百分之百開(kāi)源服務(wù)的分布式應(yīng)用程序變?yōu)榭赡堋＃?）數(shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶(hù)最關(guān)心的是數(shù)據(jù)處理的結(jié)果，計(jì)算結(jié)果的展現(xiàn)方式有標(biāo)簽云、關(guān)系圖等。正確的數(shù)據(jù)處理結(jié)果只有通過(guò)合適的展示方式才能被終端用戶(hù)正確理解，因此數(shù)據(jù)處理結(jié)果的展示非常重要，可視化和人機(jī)交互是數(shù)據(jù)解釋的主要技術(shù)。標(biāo)簽云關(guān)系圖3.3大數(shù)據(jù)采集技術(shù)從上一節(jié)的學(xué)習(xí)中可以了解到大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析與解釋、大數(shù)據(jù)展現(xiàn)和應(yīng)用等?？梢钥吹?，數(shù)據(jù)采集屬于數(shù)據(jù)分析生命周期的第一步，它通過(guò)傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)使用ETL、Flume等方式獲得各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的海量數(shù)據(jù)。那什么是大數(shù)據(jù)采集技術(shù)，以及大數(shù)據(jù)采集有哪些方法呢？3.3.1大數(shù)據(jù)采集概述

大數(shù)據(jù)采集技術(shù)是指對(duì)數(shù)據(jù)進(jìn)行ETL（Extract-Transform-Load）操作，即用戶(hù)從數(shù)據(jù)源抽取出所需的數(shù)據(jù)，經(jīng)過(guò)數(shù)據(jù)清洗，最終按照預(yù)先定義好的數(shù)據(jù)模型，將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中的過(guò)程。數(shù)據(jù)從數(shù)據(jù)來(lái)源端經(jīng)過(guò)提?。‥xtract）、轉(zhuǎn)換（Transform）、加載（Load）到目的端，然后進(jìn)行處理分析，最終挖掘數(shù)據(jù)的潛在價(jià)值，提供給用戶(hù)解決方案或者決策參考。

大數(shù)據(jù)的采集依靠多個(gè)數(shù)據(jù)庫(kù)接收來(lái)自客戶(hù)端（Web、APP或傳感器等）的數(shù)據(jù)，并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。如電商使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù)，除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。

大數(shù)據(jù)采集技術(shù)系統(tǒng)分類(lèi)1.日志采集系統(tǒng)收集日志數(shù)據(jù)，供離線和在線的數(shù)據(jù)分析使用。目前常用的開(kāi)源日志收集系統(tǒng)有Flume、Scribe等。2.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)和一些網(wǎng)站平臺(tái)提供的公共API（如Twitter和新浪微博API）等方式從網(wǎng)站上獲取數(shù)據(jù)。目前常用的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。3.數(shù)據(jù)庫(kù)采集系統(tǒng)一些企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù)。除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。企業(yè)每時(shí)每刻都在產(chǎn)生業(yè)務(wù)數(shù)據(jù)，而這些復(fù)雜的數(shù)據(jù)按照關(guān)系結(jié)構(gòu)模型被歸結(jié)為二元關(guān)系（即二維表格形式）再寫(xiě)到數(shù)據(jù)庫(kù)中，通過(guò)對(duì)這些關(guān)系表格的分類(lèi)、合并、連接或選取等操作來(lái)實(shí)現(xiàn)數(shù)據(jù)的管理，最后由特定的處理分析系統(tǒng)進(jìn)行系統(tǒng)分析。3.3.2日志采集系統(tǒng)——Flume每個(gè)公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù)，通過(guò)對(duì)這些日志信息進(jìn)行日志采集、收集，然后進(jìn)行數(shù)據(jù)分析，挖掘公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中的潛在價(jià)值。為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估提高可靠的數(shù)據(jù)保證。Flume最早是Cloudera公司提供的實(shí)時(shí)日志采集系統(tǒng)，目前是Apache的一個(gè)孵化項(xiàng)目。ApacheFlume是一個(gè)分布式、可靠、可用的服務(wù)，用于高效地收集、聚合和移動(dòng)大量的日志數(shù)據(jù)，它具有基于流式數(shù)據(jù)流的簡(jiǎn)單靈活的架構(gòu)。其可靠性機(jī)制、完備的故障轉(zhuǎn)移和恢復(fù)機(jī)制使Flume具有強(qiáng)大的容錯(cuò)能力。Flume有日志收集和數(shù)據(jù)處理兩個(gè)功能，F(xiàn)lume支持日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)。同時(shí)Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫(xiě)到各種數(shù)據(jù)接收方（可定制）的能力。Flume處理流程Flume的核心就是一個(gè)Agent（媒介），該Agent對(duì)外有兩個(gè)進(jìn)行交互的地方，一個(gè)是接收數(shù)據(jù)的輸入Source（源頭結(jié)點(diǎn)），一個(gè)是數(shù)據(jù)的輸出Sink（匯聚結(jié)點(diǎn)），Sink負(fù)責(zé)將數(shù)據(jù)發(fā)送到外部指定的目的地，如圖Source接收到數(shù)據(jù)之后，將數(shù)據(jù)發(fā)送給Channel（存儲(chǔ)渠道或者存儲(chǔ)通道），Channel作為一個(gè)數(shù)據(jù)緩沖區(qū)會(huì)臨時(shí)存放這些數(shù)據(jù)，隨后Sink會(huì)將Channel中的數(shù)據(jù)發(fā)送到指定的地方——外部存儲(chǔ)。注意：只有在Sink將Channel中的數(shù)據(jù)成功發(fā)送出去之后，Channel才會(huì)將臨時(shí)數(shù)據(jù)進(jìn)行刪除，這種機(jī)制保證了數(shù)據(jù)傳輸?shù)目煽啃耘c安全性。在整個(gè)數(shù)據(jù)的傳輸?shù)倪^(guò)程中，流動(dòng)的是Event（事件），即事務(wù)保證是在Event級(jí)別進(jìn)行的。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝，是Flume傳輸數(shù)據(jù)的基本單位。如果是文本文件，通常是一行記錄，Event也是事務(wù)的基本單位。Event從Source流向Channel，再到Sink，本身為一個(gè)字節(jié)數(shù)組，并可攜帶Headers（頭信息）信息。Event代表著一個(gè)數(shù)據(jù)的最小完整單元，從外部數(shù)據(jù)源來(lái)，向外部目的地去。AgentFlume架構(gòu)Flume采用了三層架構(gòu)，分別為Agent、Collector和Storage，其中，如圖所示所有Agent和Collector由Master統(tǒng)一管理，這使得系統(tǒng)容易監(jiān)控和維護(hù)，且Master允許有多個(gè)（使用ZooKeeper進(jìn)行管理和負(fù)載均衡），這就避免了單點(diǎn)故障問(wèn)題。從而具有以下幾個(gè)特性①可靠性，當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí)，日志文件能夠被傳送到其他節(jié)點(diǎn)上而不會(huì)丟失。②可擴(kuò)展性，F(xiàn)lume采用了三層架構(gòu)，每一層均可以水平擴(kuò)展。③可管理性，所有Agent和Collector由Master統(tǒng)一管理，這使得系統(tǒng)便于維護(hù)。多Master情況④功能的可擴(kuò)展性，用戶(hù)可以根據(jù)需要添加自己的Agent、Collector或者Storage。3.3.3消息采集系統(tǒng)——KafkaKafka最初由Linkedin公司開(kāi)發(fā)，是一個(gè)支持分區(qū)（partition）、多副本（

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔