大數(shù)據(jù)導(dǎo)論PPT全套完整教學(xué)課件_第1頁
大數(shù)據(jù)導(dǎo)論PPT全套完整教學(xué)課件_第2頁
大數(shù)據(jù)導(dǎo)論PPT全套完整教學(xué)課件_第3頁
大數(shù)據(jù)導(dǎo)論PPT全套完整教學(xué)課件_第4頁
大數(shù)據(jù)導(dǎo)論PPT全套完整教學(xué)課件_第5頁
已閱讀5頁,還剩337頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)概述第一章隨著信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴大,其所產(chǎn)生的數(shù)據(jù)呈指數(shù)型增長。達(dá)到PB(1024TB)級規(guī)模的海量數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的計算技術(shù)和信息系統(tǒng)的處理能力,從而促進(jìn)了大數(shù)據(jù)(BigData)的產(chǎn)生。LOGO第1章大數(shù)據(jù)概述1117第2章大數(shù)據(jù)與云計算第3章從產(chǎn)業(yè)結(jié)構(gòu)來探索大數(shù)據(jù)技術(shù)第4章大數(shù)據(jù)的硬件架構(gòu)——集群第5章大數(shù)據(jù)開發(fā)與計算技術(shù)第6章大數(shù)據(jù)存儲技術(shù)第7章大數(shù)據(jù)分析第8章大數(shù)據(jù)與人工智能大數(shù)據(jù)概述什么是大數(shù)據(jù)01大數(shù)據(jù)的數(shù)據(jù)特征及對科學(xué)研究的影響02大數(shù)據(jù)的數(shù)據(jù)類型03大數(shù)據(jù)的可用性及衍生價值04大數(shù)據(jù)的發(fā)展趨勢05什么是大數(shù)據(jù)目前,我們已經(jīng)進(jìn)入大數(shù)據(jù)時代,但對很多人來說,什么是大數(shù)據(jù),大數(shù)據(jù)是怎么產(chǎn)生的,它有什么用?從計算機的角度認(rèn)識從信息時代怎么進(jìn)入大數(shù)據(jù)時代的,這些東西并不清楚,所以本節(jié)主要解決以上問題,讓我們能夠從科學(xué)的角度認(rèn)識大數(shù)據(jù)。PART01大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)數(shù)據(jù)分析師能力數(shù)據(jù)分析概念與統(tǒng)計學(xué)SQL數(shù)據(jù)庫基礎(chǔ)數(shù)據(jù)采集與處理數(shù)據(jù)建模分析具有數(shù)據(jù)分析的概念及方法論;可以分析描述性統(tǒng)計分析和推斷性統(tǒng)計分析;方差分析;回歸分析等能力具有SQL關(guān)系型數(shù)據(jù)庫基本概念;熟練使用增刪改查SQL語言;熟練使用SQL函數(shù);對事務(wù)和多用戶并發(fā)有處理辦法等掌握數(shù)據(jù)采集的方法;做過市場調(diào)研;掌握數(shù)據(jù)預(yù)處理方法;可以將數(shù)據(jù)可視化等掌握主成分分析法;因子分析法;多元回歸分析法;聚類分析法;時間序列等大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)分析師能力大數(shù)據(jù)基礎(chǔ)理論Hadoop理論數(shù)據(jù)庫理論及工具數(shù)據(jù)挖掘具有大數(shù)據(jù)分析基礎(chǔ);Python基礎(chǔ);Linux&Ubuntu操作系統(tǒng)基礎(chǔ)等具有Hadoop相關(guān)知識;了解HDFS分布式文件系統(tǒng);MapReduce理論實戰(zhàn)等Hadoop其他組件具有數(shù)據(jù)庫理論基礎(chǔ);熟練掌握MySQL或Oracle數(shù)據(jù)庫或其他關(guān)系型數(shù)據(jù)庫;Hbase,Hive,Sqoop使用;具有數(shù)據(jù)挖掘基本思想;掌握有監(jiān)督和無監(jiān)督學(xué)習(xí)算法Spark工具及實戰(zhàn)大數(shù)據(jù)可視化大數(shù)據(jù)分析實戰(zhàn)掌握Spark理論;SparkRDD基本概念及操作;Spark流式計算框架SparkStreaming、StructuredStreaming;Spark機器學(xué)習(xí)算法庫SparkMLlib基本使用方法掌握數(shù)據(jù)可視化基礎(chǔ);Python數(shù)據(jù)可視化;Python高級數(shù)據(jù)可視化方法可以利用HDFSShell操作HDFS文件系統(tǒng);利用HiveSQL進(jìn)行數(shù)據(jù)清洗;;利用Sqoop進(jìn)行數(shù)據(jù)傳輸;利用SparkSQL進(jìn)行數(shù)據(jù)讀取;利用SparkMLlib進(jìn)行機器學(xué)習(xí)建模;利用Python進(jìn)行建模結(jié)果數(shù)據(jù)可視化生產(chǎn)數(shù)據(jù)的三個階段1.被動式生成數(shù)據(jù)是由于數(shù)據(jù)庫技術(shù)的產(chǎn)生2.主動式生成數(shù)據(jù)是由于萬維網(wǎng)的發(fā)明與發(fā)展3.感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展“”1.1.1大數(shù)據(jù)的來源數(shù)據(jù)庫技術(shù)使數(shù)據(jù)的保存和管理變得簡單,業(yè)務(wù)系統(tǒng)在運行時產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫中,這個時候數(shù)據(jù)的產(chǎn)生是被動的,數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運行產(chǎn)生的,并且更多地依賴人工收集數(shù)據(jù)。.被動式生成數(shù)據(jù)是由于數(shù)據(jù)庫技術(shù)的產(chǎn)生Web2.0的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生,人們可以通過手機、電腦等終端隨時隨地生成數(shù)據(jù)。據(jù)統(tǒng)計,在1分鐘內(nèi),新浪平均有2萬條微博產(chǎn)生,蘋果商店平均有4.7萬次應(yīng)用下載,淘寶平均有6萬件商品交易記錄,百度大約產(chǎn)生了90萬次的搜索查詢,數(shù)據(jù)的生成相比之前大大加速。主動式生成數(shù)據(jù)是由于萬維網(wǎng)的發(fā)明與發(fā)展感知技術(shù)尤其是物聯(lián)網(wǎng)的發(fā)展促進(jìn)了數(shù)據(jù)生成方式發(fā)生了根本性的變化。各種智能傳感設(shè)備、智能儀表、監(jiān)控探頭和GPS(GlobalPositioningSystem,全球定位系統(tǒng))定位等數(shù)據(jù)采集設(shè)備源源不斷地自動采集、生成數(shù)據(jù)。感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展1.1.1大數(shù)據(jù)的來源利用大數(shù)據(jù)1.1.1大數(shù)據(jù)的來源以2018年雙11期間,淘寶和天貓共實現(xiàn)2135億的交易額為例,其服務(wù)所支撐的用戶點擊所產(chǎn)生的數(shù)據(jù)量是海量并且是非結(jié)構(gòu)化數(shù)據(jù),用戶所產(chǎn)生的數(shù)據(jù)是一項寶貴的資源,若能從這類海量數(shù)據(jù)中快速地分析出數(shù)據(jù)的價值,便可以用于分析并理解客戶的市場需求,積極改善公司的市場設(shè)施配置策略和服務(wù)模式,還可以極大地提高服務(wù)的用戶體驗。大數(shù)據(jù)的產(chǎn)生首先源于互聯(lián)網(wǎng)企業(yè)對于日益增長的網(wǎng)絡(luò)數(shù)據(jù)分析的需求,如圖所示。利用大數(shù)據(jù)-問題的產(chǎn)生1.1.1大數(shù)據(jù)的來源

有效地為如此巨大的用戶群體服務(wù),讓他們參與時能夠享受方便、快捷的服務(wù),成為網(wǎng)站不得不解決的一個問題。為了解決大型網(wǎng)站的訪問量大、并發(fā)量高、海量數(shù)據(jù)的問題,一般會考慮業(yè)務(wù)拆分和分布式部署。由于海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),數(shù)據(jù)已沒有辦法在可容忍的時間內(nèi),使用常規(guī)軟件方法完成存儲、管理和處理任務(wù)??焖僭鲩L的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要緊跟其步伐,才能使得獲取到大量的數(shù)據(jù)被有效利用,否則,快速增長的數(shù)據(jù)量會成為解決問題的負(fù)擔(dān)。在獲取數(shù)據(jù)的過程中,數(shù)據(jù)不是一成不變的,而是隨著互聯(lián)網(wǎng)在時時發(fā)生變化,通常這樣的數(shù)據(jù)價值會隨著時間的推移而呈現(xiàn)降低的趨勢,如果數(shù)據(jù)在獲取時間內(nèi)沒有得到有效的處理,就會導(dǎo)致其失去價值。各個機構(gòu)對大數(shù)據(jù)的描述1.1.2大數(shù)據(jù)的定義維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)又稱為巨量數(shù)據(jù)、海量數(shù)據(jù),指的是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理它們大或復(fù)雜的數(shù)據(jù)集的術(shù)語。麥肯錫全球研究所對大數(shù)據(jù)的解釋:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。研究機構(gòu)Gartner(第一家信息技術(shù)研究和分析的公司)對大數(shù)據(jù)的解釋:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。簡而言之,大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用方法很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)技術(shù)的范疇包括大數(shù)據(jù)的采集、存儲、搜索、共享、傳輸、分析和可視化等。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),即從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。1.1.3從信息技術(shù)(IT)轉(zhuǎn)向數(shù)據(jù)技術(shù)(DT)

李國杰院士認(rèn)為:信息系統(tǒng)需要從數(shù)據(jù)圍繞著處理器轉(zhuǎn)改為處理能力圍繞著數(shù)據(jù)轉(zhuǎn),將計算用于數(shù)據(jù),而不是將數(shù)據(jù)用于計算?;仡櫽嬎銠C技術(shù)的發(fā)展歷程,可以清晰地看到計算機技術(shù)從面向計算逐步轉(zhuǎn)變到面向數(shù)據(jù)的過程,面向數(shù)據(jù)也可以更準(zhǔn)確地稱為“面向數(shù)據(jù)的計算”。面向數(shù)據(jù)要求系統(tǒng)的設(shè)計和架構(gòu)以圍繞數(shù)據(jù)為核心開展。這一過程的描述如圖所示,該圖從硬件、網(wǎng)絡(luò)和云計算的演進(jìn)過程等方面以時間為順序進(jìn)行了縱向和橫向的對比。大數(shù)據(jù)的數(shù)據(jù)特征及對科學(xué)研究的影響大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。所以要對大數(shù)據(jù)進(jìn)行處理,首先應(yīng)該先了解大數(shù)據(jù)的數(shù)據(jù)特征,進(jìn)行針對性處理。下面主要講解大數(shù)據(jù)的4V特征及其對科學(xué)研究有哪些影響。PART021.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一個特征是數(shù)據(jù)量大(Volume),或者叫大量化、規(guī)模性。需要采集、處理、傳輸?shù)臄?shù)據(jù)量大,數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息。處理PB級的數(shù)據(jù)是比較常態(tài)的情況。企業(yè)內(nèi)部的經(jīng)營交易信息,網(wǎng)絡(luò)世界中的商品、物流信息,人與人的交互信息、位置信息等都是大數(shù)據(jù)的主要來源。第二個特征是數(shù)據(jù)類型繁多(Variety),也叫多樣性。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,數(shù)據(jù)的種類多、復(fù)雜性高。大數(shù)據(jù)有不同格式,有結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),有半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),還有非結(jié)構(gòu)化的視頻音頻數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中,其增長速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第三個特征是處理速度快,時效性高(Velocity),也叫高速性。獲得數(shù)據(jù)的速度快速增長,數(shù)據(jù)需要頻繁地采集、處理并輸出;因為數(shù)據(jù)會存在時效性,需要快速處理,并得到結(jié)果。如一些電商數(shù)據(jù),如果當(dāng)天的信息不處理,就將會影響到很多需要立即做出的商業(yè)決策。要達(dá)到立竿見影而非事后見效,實現(xiàn)實時獲取需要的信息,1秒是臨界點,即對于很多實時大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)進(jìn)行處理,否則處理結(jié)果就是過時和無效的。這也是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。

第四個特征是數(shù)據(jù)價值密度低(Value)。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,大量的不相關(guān)信息不經(jīng)過處理則價值較低,挖掘大數(shù)據(jù)的價值類似于沙里淘金。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)要解決的問題,即合理運用大數(shù)據(jù),以低成本創(chuàng)造高價值。。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)的產(chǎn)生和信息技術(shù)領(lǐng)域提出的面向數(shù)據(jù)的概念同時也開始深刻地改變了科學(xué)研究的模式,2007年,已故的圖靈獎得主吉姆·格雷(JimGray,數(shù)據(jù)庫基本理論的奠基人,如圖所示)提出了數(shù)據(jù)密集型科研“第四范式(TheFourthParadigm)”。他將大數(shù)據(jù)科研從第三范式中分離出來單獨作為一種科研范式,他認(rèn)為利用海量的數(shù)據(jù)可以為科學(xué)研究和知識發(fā)現(xiàn)提供除經(jīng)驗、理論、計算外的第四種重要方法。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一范式——實驗,人類早期知識的發(fā)現(xiàn)主要依賴于經(jīng)驗、觀察和實驗,需要的計算和產(chǎn)生的數(shù)據(jù)很少。當(dāng)人類知識積累到一定的程度后,知識逐漸形成了理論體系,這時進(jìn)入第二范式——理論,通過理論研究發(fā)現(xiàn)知識。計算機的出現(xiàn)為人類發(fā)現(xiàn)新的知識提供了重要的工具,這時進(jìn)入第三范式——計算,通過計算發(fā)現(xiàn)知識?,F(xiàn)在人類在一年內(nèi)所產(chǎn)生的數(shù)據(jù)已經(jīng)超過人類過去幾千年產(chǎn)生的數(shù)據(jù)的總和,目前的數(shù)據(jù)處理方法在面對龐大的數(shù)據(jù)時顯得力不從心,人類逐步進(jìn)入面向數(shù)據(jù)的時代,這時進(jìn)入第四范式——數(shù)據(jù),通過數(shù)據(jù)發(fā)現(xiàn)知識,利用海量數(shù)據(jù)加上高速計算發(fā)現(xiàn)新的知識是數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)。2.促進(jìn)了交叉學(xué)科的發(fā)展1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征目前,社會科學(xué)、自然科學(xué)和人文科學(xué)只是學(xué)術(shù)建制意義上的區(qū)分,它們之間已經(jīng)有著密切的聯(lián)系,不再像以前是孤立的存在。自然科學(xué)的根本目的在于發(fā)現(xiàn)自然現(xiàn)象背后的規(guī)律。20世紀(jì)50年代之前,社會科學(xué)與自然科學(xué)相對獨立,跨學(xué)科交叉研究基本沒有。繼物理計算和生物計算之后,社會計算(SocialComputing)可能成為科學(xué)計算研發(fā)的新焦點,并產(chǎn)生新的方向和領(lǐng)域。大數(shù)據(jù)的數(shù)據(jù)類型PART031.3大數(shù)據(jù)的數(shù)據(jù)類型

大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報告顯示:半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)快速增長,企業(yè)中80%~90%的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%,如圖所示。1.3大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)也稱作行數(shù)據(jù),是指可以用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的數(shù)據(jù)(如學(xué)生成績表),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。如MySQL、Oracle、SQLServer等可以存儲表現(xiàn)二維形式的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的一般特點是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的。但它的擴展性不好,如增加一個字段。結(jié)構(gòu)化數(shù)據(jù)通常按照特定的應(yīng)用對事物進(jìn)行相應(yīng)的抽象,數(shù)據(jù)最終以表格的形式保存在數(shù)據(jù)庫中,數(shù)據(jù)格式統(tǒng)一,呈現(xiàn)大眾化、標(biāo)準(zhǔn)化的特點。結(jié)合到典型場景中更容易理解,如企業(yè)ERP(EnterpriseResourcePlanning,企業(yè)資源計劃)、財務(wù)系統(tǒng)、醫(yī)療HIS(HospitalInformationSystem)數(shù)據(jù)庫、教育一卡通、政府行政審批和其他核心數(shù)據(jù)庫等。1.結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類型與結(jié)構(gòu)化數(shù)據(jù)相對的是不適于用數(shù)據(jù)庫二維表來表現(xiàn)的數(shù)據(jù),可以說都是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)屬性,一般直接整體進(jìn)行存儲,并且一般存儲為二進(jìn)制數(shù)據(jù)格式。包含全部格式的辦公文檔(如Word、PPT)、文本、日志、圖片、音頻、視頻、地形等數(shù)據(jù)。除了存儲在關(guān)系數(shù)據(jù)庫和存儲在一個關(guān)系數(shù)據(jù)庫之外的明顯區(qū)別之外,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。相對于特定場景的應(yīng)用,大數(shù)據(jù)關(guān)注非結(jié)構(gòu)化數(shù)據(jù)的價值密度較低。整體而言,非結(jié)構(gòu)化數(shù)據(jù)的增長速度比結(jié)構(gòu)化數(shù)據(jù)的增長速度快10倍到50倍,但這并不意味著結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù)將面臨淘汰的局面,具體的使用情況以實際的應(yīng)用場景為準(zhǔn)。但有了海量的非結(jié)構(gòu)化數(shù)據(jù),必須想辦法存儲和分析,從中挖掘出有價值的信息,為社會提供更好的服務(wù)。2.非結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類型半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),如標(biāo)記語言XML、HTML文檔、電子郵件等屬于半結(jié)構(gòu)化數(shù)據(jù)。電子郵件的本地元數(shù)據(jù)可以實現(xiàn)分類和關(guān)鍵字搜索,不需要任何其他工具,所以半結(jié)構(gòu)化數(shù)據(jù)一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。目前,對于半結(jié)構(gòu)化的數(shù)據(jù)的存儲多采用NoSQL數(shù)據(jù)庫,NoSQL泛指非關(guān)系型的數(shù)據(jù)庫。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫。NoSQL不會將組織(模式)與數(shù)據(jù)分開,這使得NoSQL成為存儲半結(jié)構(gòu)化數(shù)據(jù)更好的選擇。但NoSQL數(shù)據(jù)庫正處于探索階段。無論企業(yè)的業(yè)務(wù)具體是什么,其目標(biāo)都是挖掘業(yè)務(wù)價值,無論數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),它們都可能具有很高的價值。需要創(chuàng)新工具,實現(xiàn)匯總、查詢、分析和利用所有數(shù)據(jù)類型,以便在整個企業(yè)數(shù)據(jù)范圍內(nèi)獲得更加深入的業(yè)務(wù)洞察力。3.半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)的可用性及衍生價值PART041.4大數(shù)據(jù)的可用性及衍生價值

進(jìn)入大數(shù)據(jù)時代以來,全人類積累了海量的數(shù)據(jù),這些數(shù)據(jù)仍在不斷急速增加,這帶來兩個方面的巨變:一方面,在過去沒有海量數(shù)據(jù)積累的時代無法實現(xiàn)的應(yīng)用現(xiàn)在終于可以實現(xiàn);另一方面,從數(shù)據(jù)匱乏時代到數(shù)據(jù)泛濫時代的轉(zhuǎn)變,給數(shù)據(jù)的處理和應(yīng)用帶來新的挑戰(zhàn)與困擾,即如何從海量數(shù)據(jù)中高效地獲取數(shù)據(jù),有效地深加工并最終得到有價值意義的數(shù)據(jù)。大數(shù)據(jù)的一個重要方面是數(shù)據(jù)的可用性。大數(shù)據(jù)的另一個重要方面是數(shù)據(jù)的復(fù)雜性。

大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價值,使得未來企業(yè)投資重點不再是以建系統(tǒng)為核心,而是以大數(shù)據(jù)為核心,處理大數(shù)據(jù)的效率逐漸成為企業(yè)的生命力。1.4大數(shù)據(jù)的可用性及衍生價值大數(shù)據(jù)系統(tǒng)里面都有什么東西呢?1.4大數(shù)據(jù)的可用性及衍生價值大數(shù)據(jù)涵蓋了計算和數(shù)據(jù)兩大主題在存儲上,HDFS的分布式存儲可以任意水平擴展,可以解決數(shù)據(jù)存儲的難題。在計算上,從最初的MapReduce,把任務(wù)水平拆分,多臺機器并行計算,再匯總結(jié)果,到基于Spark的內(nèi)存計算,改造MapReduce每次數(shù)據(jù)存盤以及編程方式的痛點。有了存儲和計算框架,周邊就衍生出了很多管理、緩存相關(guān)的技術(shù),如Yarn解決多租戶資源調(diào)度的難題,F(xiàn)lume解決數(shù)據(jù)傳輸?shù)碾y題,Sqoop解決分布式存儲數(shù)據(jù)與傳統(tǒng)DB數(shù)據(jù)之間的轉(zhuǎn)換,Oozie解決了大數(shù)據(jù)計算任務(wù)的調(diào)度,Kafka提供了發(fā)布訂閱機制的消息隊列,ZooKeeper可以幫助用戶完成主備的選舉,Hive在HDFS的基礎(chǔ)上提供了數(shù)據(jù)倉庫的功能,Hbase是基于HDFS實現(xiàn)的列式數(shù)據(jù)庫等。大數(shù)據(jù)的發(fā)展趨勢PART051.5大數(shù)據(jù)的發(fā)展趨勢從目前發(fā)展形勢可以看出,大數(shù)據(jù)主要有以下八種發(fā)展趨勢(1)數(shù)據(jù)的資源化是指大數(shù)據(jù)成為企業(yè)和社會關(guān)注的重要戰(zhàn)略資源,已成為大家爭相搶奪的新焦點。因而,企業(yè)必須要提前制定大數(shù)據(jù)營銷戰(zhàn)略計劃,搶占市場先機。(2)與云計算的深度結(jié)合大數(shù)據(jù)離不開云計算,云計算為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)技術(shù),讓大數(shù)據(jù)發(fā)揮出更大的影響力。(3)科學(xué)理論的突破隨著大數(shù)據(jù)的快速發(fā)展,就像計算機和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實現(xiàn)科學(xué)技術(shù)上的突破。(4)數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立未來,數(shù)據(jù)科學(xué)將成為一門專門的學(xué)科被越來越多的人所認(rèn)知。各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會催生一批與之相關(guān)的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎(chǔ)平臺,也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。1.5大數(shù)據(jù)的發(fā)展趨勢(5)數(shù)據(jù)泄露泛濫未來幾年數(shù)據(jù)泄露事件的增長率也許會達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個環(huán)節(jié),僅僅加強后者的安全措施已被證明于事無補。(6)數(shù)據(jù)管理成為核心競爭力數(shù)據(jù)管理直接影響財務(wù)表現(xiàn),當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競爭力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。(7)數(shù)據(jù)質(zhì)量是BI(BusinessIntelligence,商業(yè)智能)成功的關(guān)鍵采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會脫穎而出。其中要面臨的一個挑戰(zhàn)是,很多數(shù)據(jù)源會帶來大量低質(zhì)量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過BI獲得更佳決策。(8)數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強大數(shù)據(jù)的世界不只是一個單一的、巨大的計算機網(wǎng)絡(luò),而是一個由大量活動構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng),終端設(shè)備提供商、基礎(chǔ)設(shè)施提供商、網(wǎng)絡(luò)服務(wù)提供商、網(wǎng)絡(luò)接入服務(wù)提供商、數(shù)據(jù)服務(wù)使用者、數(shù)據(jù)服務(wù)提供商、觸點服務(wù)、數(shù)據(jù)服務(wù)零售商等一系列的參與者共同構(gòu)建的生態(tài)系統(tǒng)。課后習(xí)題1.簡述什么是大數(shù)據(jù)?2.大數(shù)據(jù)的數(shù)據(jù)有什么特點?3.大數(shù)據(jù)對科學(xué)研究有什么影響?4.大數(shù)據(jù)有哪些數(shù)據(jù)類型?5.大數(shù)據(jù)有哪些應(yīng)用?課后答案1.答:大數(shù)據(jù)(bigdata)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。2.答:數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型復(fù)雜(Variety)、數(shù)據(jù)產(chǎn)生速度快(Velocity)、價值密度低(Value)。3.答:促進(jìn)了科學(xué)研究的第四范式產(chǎn)生和交叉學(xué)科的發(fā)展。4.答:有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。5.答:大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價值:實現(xiàn)數(shù)據(jù)的資源化,幫助企業(yè)搶占市場,提供個性化服務(wù),指定有效方針等;與云計算深度結(jié)合;可能會改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實現(xiàn)科學(xué)技術(shù)上的突破感謝大家的全力支持LOGO第2章大數(shù)據(jù)與云計算BigDataandCloudComputing云計算概述2.1云計算的主要部署模式2.2云計算的主要服務(wù)模式2.3云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.42.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的關(guān)系2.1.1云計算的提出

在不同時期,信息產(chǎn)業(yè)的發(fā)展有兩個重要的核心驅(qū)動力:硬件驅(qū)動力、網(wǎng)絡(luò)驅(qū)動力。這兩種驅(qū)動力量的對比和變化決定著產(chǎn)業(yè)中不同產(chǎn)品的出現(xiàn)時期以及不同形態(tài)的企業(yè)出現(xiàn)和消亡的時間。以硬件為核心驅(qū)動的時代誕生了IBM、微軟、Intel等企業(yè)。以網(wǎng)絡(luò)為核心驅(qū)動的時代誕生了Google、雅虎、亞馬遜等企業(yè)。2.1云計算概述2.1.1云計算的提出2.1云計算概述2006年,Google公司CEO埃里克·施密特(EricSchmidt)在搜索引擎大會(SESSanJose)首次提出“云計算”概念及體系架構(gòu),并快速得到了業(yè)界認(rèn)可,如圖所示。2008年,云計算概念全面進(jìn)入中國,2009年,中國首屆云計算大會召開,此后云計算技術(shù)和產(chǎn)品迅速發(fā)展起來。2.1.2云計算的定義2.1云計算概述

(1)維基百科:云計算是一種動態(tài)擴展的計算模式,通過網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶;云計算通常包含基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺即服務(wù)(PlatformasaService,PaaS)、軟件即服務(wù)(SoftwareasaService,SaaS)。

(2)美國國家標(biāo)準(zhǔn)與技術(shù)實驗室(NationalInstituteofStandardsandTechnology,NIST):云計算是一種無處不在的、便捷的通過互聯(lián)網(wǎng)訪問的一個可定制的IT資源(IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件和服務(wù))共享池,是一種按使用量付費的模式。它能夠通過最少量的管理或與服務(wù)供應(yīng)商的互動實現(xiàn)計算資源的迅速供給和釋放。這也是現(xiàn)階段廣為接受的云計算的定義。2.1.2云計算的定義2.1云計算概述

簡而言之,云計算是一種通過互聯(lián)網(wǎng)以服務(wù)的方式提供動態(tài)可伸縮的虛擬化資源的計算模式。云計算的資源是分布式架構(gòu)并通過虛擬化技術(shù)實現(xiàn)動態(tài)易擴展,通過互聯(lián)網(wǎng)提供的一種具有服務(wù)等級協(xié)議(Service-LevelAgreement,SLA)的服務(wù)。該協(xié)議是云服務(wù)提供商和客戶之間的一份商業(yè)保障合同,而非一般的服務(wù)承諾。終端用戶不需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識,也無需直接進(jìn)行控制,只關(guān)注自己真正需要什么樣的資源以及如何通過網(wǎng)絡(luò)來得到相應(yīng)的服務(wù)。2.1.3云計算的概念模型2.1云計算概述

(1)用戶的公共性。云計算面向各類用戶,包括企業(yè)、政府、學(xué)術(shù)機構(gòu)、個人等用戶,也包括應(yīng)用軟件、中間件平臺等“用戶”。這些用戶不需了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識,也無需直接進(jìn)行控制,只關(guān)注自己真正需要的資源以及如何通過網(wǎng)絡(luò)來得到相應(yīng)的服務(wù)。

(2)設(shè)備的多樣性。云計算希望提供服務(wù)的設(shè)備是多樣的,既包括各種規(guī)模的服務(wù)器、主機、存儲設(shè)備,也包括各種類型的終端設(shè)備,如計算機、智能手機、各種智能傳感器設(shè)備等。2.1.3云計算的概念模型2.1云計算概述

(3)商業(yè)模式的服務(wù)性。云計算的服務(wù)特性體現(xiàn)在兩個方面:簡化和標(biāo)準(zhǔn)的服務(wù)接口、按需計費的商業(yè)模式。

(4)提供方式的靈活性。云計算既可以作為一種公用設(shè)施,提供社會服務(wù),即“公有云”,也可以作為企業(yè)信息化的集中計算平臺來提供,即“私有云”。2.1.4云計算的特點2.1云計算概述(2)資源虛擬化(Virtualization)和彈性調(diào)度。(1)具有大規(guī)模并行計算能力。(3)數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)。

“云”已經(jīng)具有相當(dāng)規(guī)模,Google云計算已經(jīng)擁有100多萬臺服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務(wù)器,企業(yè)私有云一般擁有數(shù)百上千臺服務(wù)器,這些服務(wù)器的硬件架構(gòu)是集群,為大粒度應(yīng)用提供傳統(tǒng)計算系統(tǒng)或用戶終端所無法完成的并行計算服務(wù)。云計算向外提供的是計算能力、存儲能力、網(wǎng)絡(luò)能力等各種服務(wù)能力。

云計算的硬件資源是以分布式系統(tǒng)為底層架構(gòu),上層通過虛擬化技術(shù)進(jìn)行業(yè)務(wù)的彈性伸縮,以按需分配方式,為小粒度應(yīng)用提供計算資源,實現(xiàn)資源共享。即云計算能夠根據(jù)用戶的實際需求動態(tài)分配和釋放不同的資源,當(dāng)有新需求出現(xiàn)時,可為用戶快速匹配新的資源并及時分配,以保證資源提供的彈性;而當(dāng)用戶不再需要這些資源時,會迅速釋放,提供給其他需要的用戶。

大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。2.2.1公有云2.2云計算的主要部署模式

公有云:提供面向社會大眾、公共群體的云計算服務(wù)。公有云用戶以付費的方式,根據(jù)業(yè)務(wù)需要彈性使用IT分配的資源,用戶不需要自己構(gòu)建硬件、軟件等基礎(chǔ)設(shè)施和后期維護,可以在任何地方、任何時間、多種方式、以互聯(lián)網(wǎng)的形式訪問獲取資源。公有云如同日常生活中按需購買使用的水、電一樣,方便、快捷地享受服務(wù)。

目前,比較流行的公有云平臺有國外的亞馬遜云平臺AWS(AmazonWebServices)、GAE(GoogleAppEngine)等,國內(nèi)的有阿里云、SAE(SinaAppEngine)、BAE(BaiduAppEngine)等。亞馬遜的AWS提供了大量基于云的全球性產(chǎn)品,包括計算、存儲、數(shù)據(jù)庫、分析、聯(lián)網(wǎng)、移動產(chǎn)品、開發(fā)人員工具、管理工具、物聯(lián)網(wǎng)、安全性和企業(yè)級應(yīng)用程序,這些服務(wù)及應(yīng)用程序可幫助企業(yè)或組織快速發(fā)展自己的業(yè)務(wù)、降低IT成本,使來自中國乃至全球的眾多客戶從中獲益。

公有云有很多優(yōu)點,但最大的缺點是難以保證數(shù)據(jù)的私密性。2.2.2私有云2.2云計算的主要部署模式

私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計算服務(wù)。私有云一般由一個組織來使用,同時由這個組織來運營。如政府機關(guān)、移動通信、學(xué)校等內(nèi)部使用的云平臺。私有云可較好地解決數(shù)據(jù)私密性問題,對移動通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機構(gòu),建設(shè)私有云將是一個必然的選擇。使用私有云提供的云計算服務(wù)需要一定的權(quán)限,一般只提供給企業(yè)內(nèi)部員工使用。其主要目的是合理地組織企業(yè)已有的軟硬件資源,提供更加可靠、彈性的服務(wù)供企業(yè)內(nèi)部使用。比較流行的私有云平臺有VMwarevCloudSuite和微軟的MicrosoftSystemCenter2016。

2.2.2私有云舉例2.2云計算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球領(lǐng)先的虛擬化解決方案提供商,能對用戶的硬件資源進(jìn)行有效地整合,簡化管理,提升硬件資源的利用率。VMwarevCloudSuite可構(gòu)建和管理基于軟件定義數(shù)據(jù)中心的VMwarevSphere企業(yè)私有云,VMwarevSphere能夠跨數(shù)據(jù)中心,實現(xiàn)高可用的、可擴展的并按需分配的企業(yè)硬件IT基礎(chǔ)架構(gòu)。

②MicrosoftSystemCenter2016私有云。

它提供了本地企業(yè)環(huán)境與WindowsAzure集成的各種服務(wù),可以讓企業(yè)輕松地從本地環(huán)境遷移到微軟Azure公有云。它包括基礎(chǔ)設(shè)施管理和DevOps的資源配置、監(jiān)控、自動化、端點保護和備份與恢復(fù)。SystemCenter2016能實現(xiàn)企業(yè)的數(shù)據(jù)中心向私有云轉(zhuǎn)型,使企業(yè)數(shù)據(jù)中心更可靠、可擴展、彈性地滿足企業(yè)不斷增長的業(yè)務(wù)需求。2.2.3混合云2.2云計算的主要部署模式

混合云:是把公有云和私有云進(jìn)行整合,吸納二者的優(yōu)點,給企業(yè)帶來真正意義上的云計算服務(wù)?;旌显剖俏磥碓瓢l(fā)展的方向?;旌显萍饶芾闷髽I(yè)在IT基礎(chǔ)設(shè)施的巨大投入,又能解決公有云帶來的數(shù)據(jù)安全等問題,是避免企業(yè)變成信息孤島的最佳解決方案?;旌显茝娬{(diào)基礎(chǔ)設(shè)施是由兩種或多種云組成的,但對外呈現(xiàn)的是一個完整的整體。企業(yè)正常運營時,把重要數(shù)據(jù)保存在自己的私有云里面(如財務(wù)數(shù)據(jù)),把不重要的信息或需要對公眾開放的信息放到公有云里,兩種云組合形成一個整體,這就是混合云。

組建混合云的利器是OpenStack,它可以把各種云計算平臺資源進(jìn)行異構(gòu)整合,構(gòu)建企業(yè)級混合云,使企業(yè)可以根據(jù)自己的需求靈活自定義各種云計算服務(wù)。在搭建企業(yè)云計算平臺時,使用OpenStack架構(gòu)是最理想的解決方案,雖然入門門檻較高,但是隨著項目規(guī)模的擴大,企業(yè)終將從中受益,因為不必支付云平臺中軟件的購買費用。2.2.3混合云舉例2.2云計算的主要部署模式

混合云計算的典型案例是12306火車票購票網(wǎng)站。12306購票網(wǎng)站最初是私有云計算,消費者平時用12306購票沒有問題,但是一到節(jié)假日(如春節(jié)),有大量購票需求的時候,消費者在購票的時候就會出現(xiàn)頁面響應(yīng)慢或者頁面報錯的情況,甚至還會出現(xiàn)無法付款的情況,用戶體驗特別差。為了解決上述問題,12306火車購票網(wǎng)站與阿里云簽訂戰(zhàn)略合作,由阿里云提供計算能力以滿足業(yè)務(wù)高峰期查票檢索服務(wù),而支付業(yè)務(wù)等關(guān)鍵業(yè)務(wù)在12306自己的私有云環(huán)境之中運行。兩者組合成一個新的混合云,對外呈現(xiàn)還是一個完整的系統(tǒng)——12306火車購票網(wǎng)站。在企業(yè)中,私有云能更好地調(diào)度和使用自動化管理物理資源,使企業(yè)基礎(chǔ)設(shè)施更高效地運行,結(jié)合公有云,使企業(yè)在相互協(xié)同、合作、創(chuàng)新等方面更加高效。2.3.1基礎(chǔ)設(shè)施即服務(wù)(IaaS)2.3云計算的主要服務(wù)模式IaaS主要用戶是系統(tǒng)管理員,他們具有專業(yè)知識能力,直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡單的開發(fā)。服務(wù)提供商提供給用戶的服務(wù)是計算和存儲基礎(chǔ)設(shè)施,包括CPU、內(nèi)存、存儲、網(wǎng)絡(luò)和其他基本的資源。用戶不管理或控制任何云計算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇,存儲空間、部署和運行任意軟件,也可獲得有限的網(wǎng)絡(luò)組件(如路由器、防火墻、負(fù)載均衡器等)的控制。IaaS的典型代表是Amazon(前身是網(wǎng)上書店),Amazon的WebService提供了兩個云平臺:彈性計算云EC2(ElasticComputingCloud)和簡單存儲服務(wù)S3(SimpleStorageService),EC2完成計算功能,S3完成存儲功能。2.3.2平臺即服務(wù)(PaaS)2.3云計算的主要服務(wù)模式PaaS主要用戶是開發(fā)人員。PaaS是把應(yīng)用服務(wù)的運行和開發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式。即PaaS是把二次開發(fā)的平臺以服務(wù)形式提供給開發(fā)軟件的用戶使用,開發(fā)人員不需要管理或控制底層的云計算基礎(chǔ)設(shè)施,但可以方便地使用很多在構(gòu)建應(yīng)用時的必要服務(wù),能控制部署的應(yīng)用程序開發(fā)平臺。PaaS的典型案例有微軟的VisualStudio開發(fā)平臺和GoogleAppEngine(應(yīng)用引擎)平臺。GoogleAppEngine和Amazon的S3、EC2不同,因為后者是直接提供的是一系列硬件資源供用戶選擇使用。PaaS的關(guān)鍵技術(shù)有兩個,一個是分布式的并行計算,另一個是大文件分布式存儲。分布式并行計算技術(shù)是為了充分利用廣泛部署的普通計算資源實現(xiàn)大規(guī)模運算和應(yīng)用的目的,實現(xiàn)真正將傳統(tǒng)運算轉(zhuǎn)化為并行計算,為客戶提供并行服務(wù)。大文件分布式存儲是為了解決海量數(shù)據(jù)存儲在廉價的不可信結(jié)點集群架構(gòu)上數(shù)據(jù)安全性及運行性的保證。2.3.3軟件即服務(wù)(SaaS)2.3云計算的主要服務(wù)模式SaaS的客戶群體是普通用戶。服務(wù)提供商提供給用戶的服務(wù)是運行在云計算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶只需要通過終端設(shè)備接入使用即可,簡單方便,不需要用戶進(jìn)行軟件開發(fā),也無需管理底層資源。如Office365、嘀嘀打車、共享單車等應(yīng)用軟件都屬于SaaS。在云平臺上,Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成為企業(yè)所需的辦公云平臺,它不僅可以在線使用,還可以下載到本地以客戶端形式使用,是一套完整、容易入門、性價比高、支持混合部署、支持自定義的辦公解決方案,與傳統(tǒng)意義的Office有天壤之別。SaaS的關(guān)鍵技術(shù)是多租戶技術(shù)。云計算要求硬件資源和軟件資源能夠更好的共享,要具有良好的伸縮性,任何一個用戶都能夠按照自己的需求進(jìn)行客戶化配置而不影響其他用戶的使用。

2.3.4三種服務(wù)模式之間的關(guān)系2.3云計算的主要服務(wù)模式

①從用戶體驗角度分析從用戶體驗角度而言,它們之間關(guān)系是獨立的,因為它們面對的是不同類型的用戶。SaaS主要面對的是普通用戶。PaaS主要的用戶是開發(fā)人員。為了支撐著整個PaaS平臺的運行,供應(yīng)商需要提供四大功能:友好的開發(fā)環(huán)境、豐富的服務(wù)、自動的資源調(diào)度、精細(xì)的管理和監(jiān)控。IaaS主要的用戶是系統(tǒng)管理員,具有專業(yè)知識能力。IaaS供應(yīng)商需要在7個方面對基礎(chǔ)設(shè)施進(jìn)行管理以給用戶提供資源,它們是資源抽象、資源監(jiān)控、負(fù)載管理、數(shù)據(jù)管理、資源部署、安全管理和計費管理。

②從技術(shù)角度分析云計算的服務(wù)層次是根據(jù)服務(wù)類型來劃分的,與大家熟悉的計算機網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。從技術(shù)角度而言,它們有一定的繼承關(guān)系,即SaaS基于PaaS,PaaS基于IaaS,但并不是簡單的繼承關(guān)系。因為SaaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以構(gòu)建于IaaS之上,也可以直接構(gòu)建在物理資源之上,也就是說某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務(wù)和支持。云計算系統(tǒng)按資源封裝的層次分為對底層硬件資源不同級別的封裝,從而實現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系

云計算與大數(shù)據(jù)是一對相輔相成的概念,它們描述了面向數(shù)據(jù)時代信息技術(shù)的兩個方面,云計算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對數(shù)據(jù)量巨大所帶來的技術(shù)挑戰(zhàn)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

導(dǎo)言:2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計算基礎(chǔ)設(shè)施——Google平臺

云計算的邏輯架構(gòu)是以Google提出的云計算邏輯架構(gòu)而發(fā)展起來的,Google提出了一整套基于分布式的并行集群基礎(chǔ)架構(gòu),并且Google的數(shù)據(jù)中心采用廉價的LinuxPC機組成集群,利用軟件來處理集群中經(jīng)常發(fā)生的結(jié)點失效問題,從而形成了Google的云計算基礎(chǔ)架構(gòu)。Google的云計算基礎(chǔ)架構(gòu)包括三個相互獨立又緊密結(jié)合在一起的系統(tǒng):GFS分布式文件系統(tǒng)(GoogleFileSystem)、針對Google應(yīng)用程序的特點提出的MapReduce編程模式和大規(guī)模分布式數(shù)據(jù)庫BigTable。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計算基礎(chǔ)設(shè)施——Google平臺(1)GFS是建立在集群之上的分布式文件系統(tǒng),解決了超大文件存儲、訪問、讀操作比例遠(yuǎn)超過寫操作和集群中的結(jié)點極易發(fā)生故障造成結(jié)點失效等問題。GFS默認(rèn)把超大文件分成64MB固定大小的塊,分布在集群的機器上;為了提高可靠性,每個塊文件至少有3份以上的冗余,從而解決結(jié)點失效問題。(2)MapReduce是分布式并行編程模式,解決了并行計算問題。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù),就可以在集群上進(jìn)行大規(guī)模的分布式并行數(shù)據(jù)處理,并把結(jié)果存儲在GFS上。(3)BigTable是弱一致性要求的分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng),解決了海量非關(guān)系型數(shù)據(jù)的存儲。它是稀疏的、分布式的、持久化的、多維排序的,并以Key/Value對形式存儲的數(shù)據(jù)模型。BigTable不是關(guān)系型數(shù)據(jù)庫,像它的名字一樣,就是一個巨大的表格,用來存儲半結(jié)構(gòu)化數(shù)據(jù)。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺HDFS是Hadoop的分布式文件存儲系統(tǒng)。從用戶角度看,HDFS和其他分布式文件系統(tǒng)沒有什么區(qū)別,都具有創(chuàng)建文件、刪除文件、移動文件和重命名文件等功能。但HDFS是用來設(shè)計存儲大數(shù)據(jù)的,并且是分布式存儲,所以所有特點都與大數(shù)據(jù)和分布式有關(guān)。為了滿足大數(shù)據(jù)的處理需求,Hadoop對超大文件的訪問、讀操作比例遠(yuǎn)超過寫操作、集群中的結(jié)點極易發(fā)生故障造成結(jié)點失效等問題從技術(shù)上進(jìn)行了優(yōu)化。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺Hadoop實現(xiàn)了一個對大數(shù)據(jù)進(jìn)行分布式并行處理的系統(tǒng)框架,是一種數(shù)據(jù)并行的處理方法。由實現(xiàn)數(shù)據(jù)分析的MapReduce計算框架和實現(xiàn)數(shù)據(jù)存儲的分布式文件系統(tǒng)HDFS有機結(jié)合組成,它自動把應(yīng)用程序分割成許多小的工作單元,并把這些單元放到集群中的相應(yīng)結(jié)點上執(zhí)行,而分布式文件系統(tǒng)HDFS負(fù)責(zé)各個結(jié)點上數(shù)據(jù)的存儲,實現(xiàn)高吞吐率的數(shù)據(jù)讀寫。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺MapReduce是一個分布式計算框架,是Hadoop的一個基礎(chǔ)組件。分為Map和Reduce過程,是一種將大任務(wù)細(xì)分處理再匯總結(jié)果的一種方法。MapReduce是一種編程模型,支持使用廉價的計算機集群對規(guī)模達(dá)到PB級的數(shù)據(jù)集進(jìn)行分布式并行計算。MapReduce由Map函數(shù)和Reduce函數(shù)構(gòu)成,分別完成任務(wù)的分解與結(jié)果的匯總。MapReduce的用途是進(jìn)行批量處理,不是進(jìn)行實時查詢,即特別不適用于交互式應(yīng)用。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(1)ETLTools是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié),由一系列數(shù)據(jù)倉庫采集工具構(gòu)成。(2)BIReporting(BusinessIntelligenceReporting,商業(yè)智能報表)能提供綜合報告、數(shù)據(jù)分析和數(shù)據(jù)集成等功能。(3)RDBMS是關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。RDBMS中的數(shù)據(jù)存儲在被稱為表(Table)的數(shù)據(jù)庫中。表是相關(guān)記錄的集合,它由行和列組成,是一種二維關(guān)系表。(4)Pig數(shù)據(jù)分析語言提供相應(yīng)的數(shù)據(jù)流(DataFlow)語言和運行環(huán)境,實現(xiàn)數(shù)據(jù)轉(zhuǎn)換(使用管道)和實驗性研究(如快速原型)。適用于數(shù)據(jù)準(zhǔn)備階段,Pig運行在由Hadoop基本架構(gòu)構(gòu)建的集群上。(5)Hive分布式數(shù)據(jù)倉庫擅長于數(shù)據(jù)展示,由Facebook開發(fā)。Hive管理存儲在HDFS中的數(shù)據(jù),提供了基于SQL的查詢語言查詢數(shù)據(jù)。Hive和Pig都是建立在Hadoop基本架構(gòu)之上,可以用來從數(shù)據(jù)庫中提取信息,交給Hadoop處理。(6)Sqoop是數(shù)據(jù)格式轉(zhuǎn)化工具,是完成HDFS和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具。2.4云計算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(7)HBase是類似于GoogleBigTable的分布式列數(shù)據(jù)庫。HBase支持MapReduce的并行計算和點查詢(即隨機讀?。?。HBase是基于Java的產(chǎn)品,與其對應(yīng)的基于C++的開源項目是HyperTable,也是Apache的項目。(8)Avro是一種新的數(shù)據(jù)序列化(Serialization)格式和傳輸工具,主要用來取代Hadoop基本架構(gòu)中原有的IPC(Inter-ProcessCommunication,進(jìn)程間通信)機制。(9)Zookeeper是協(xié)同工作系統(tǒng),用于構(gòu)建分布式應(yīng)用,是一種分布式鎖設(shè)施,提供類似GoogleChubby(主要用于解決分布式一致性問題)的功能,它是基于HBase和HDFS的,由Facebook開發(fā)。(10)Ambari旨在將監(jiān)控和管理等核心功能加入Hadoop。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop、升級集群,并可提供監(jiān)控服務(wù)。(11)Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志收集工具,即Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(可定制)的能力。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的關(guān)系2.5.1物聯(lián)網(wǎng)

物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分,也是信息化時代的重要發(fā)展階段。其英文名稱是:“InternetofThings(IoT)”。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。其中物聯(lián)網(wǎng)的基礎(chǔ)是互聯(lián)網(wǎng),以互聯(lián)網(wǎng)的形式把物與物聯(lián)系在一起,進(jìn)行信息交換和通信,是互聯(lián)網(wǎng)對象的擴展和延伸,即萬物互聯(lián)。

物聯(lián)網(wǎng)必將引發(fā)一場新的技術(shù)與商業(yè)革命,將把人類推向一個萬物智能的世界,任何事物都有學(xué)習(xí)、發(fā)現(xiàn)、傾聽、感知的能力。未來的公路、建筑、路燈、護欄、道路標(biāo)識線等都遍布信號探測器。智能汽車時刻與道路探測器和其他汽車進(jìn)行高速信息交換,智能汽車的圖像識別能力日益成熟,外加道路的全面物聯(lián)網(wǎng)化,汽車將實現(xiàn)無人駕駛,而且比人類駕駛的汽車更安全、快捷。物聯(lián)網(wǎng)將顛覆人與物之間的相處模式,借助科技的力量可以改變?nèi)藗兊纳睢?.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的關(guān)系2.5.2邊緣計算

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、5G等信息技術(shù)的快速發(fā)展,云計算已經(jīng)無法滿足機器人、智能家居、無人駕駛、VR(VirtualReality,虛擬現(xiàn)實)/AR(AugmentedReality,增強現(xiàn)實)、新媒體、智能安防、遠(yuǎn)程醫(yī)療、可穿戴設(shè)備、智能制造等場景對低延遲的高要求,因此邊緣計算(EdgeComputing)產(chǎn)生。根據(jù)國際調(diào)研機構(gòu)Gartner公司的報告,到2022年,超過一半的企業(yè)數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心和云平臺之外的邊緣產(chǎn)生和處理,目前約為10%。邊緣計算的興起幫助企業(yè)近乎實時地分析信息,并圍繞物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)創(chuàng)造新的價值。

邊緣計算集結(jié)了云計算、CDN(ContentDeliveryNetwork)、硬件設(shè)備、運營商、研究機構(gòu)以及其它中小廠商等,CDN算是最早的邊緣計算的雛形。CDN主要是ContentCache(內(nèi)容緩存),現(xiàn)在是FunctionCache(功能緩存),等于要把計算功能搬到邊緣上來,而不是簡單的把內(nèi)容放上去。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的關(guān)系2.5.3霧計算

霧計算(FogComputing)是一種對云計算概念的延伸,云在天空飄浮,高高在上,遙不可及,刻意抽象;而霧卻現(xiàn)實可及,貼近地面,就在你我身邊。霧計算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備(是由性能較弱、更為分散的各種功能計算機組成)中,而不是全部保存在云中,導(dǎo)致數(shù)據(jù)傳遞具有極低時延。霧計算具有遼闊的地理分布,帶有大量網(wǎng)絡(luò)結(jié)點的大規(guī)模傳感器網(wǎng)絡(luò)。霧計算移動性好,手機和其他移動設(shè)備可以互相之間直接通信,信號不必到云端甚至基站去繞一圈,支持很高的移動性。

霧計算是介于云計算和個人計算之間的,是半虛擬化的服務(wù)計算架構(gòu)模型,強調(diào)數(shù)量,不管單個計算結(jié)點能力多么弱都要發(fā)揮作用。與云計算相比,霧計算所采用的架構(gòu)更呈分布式,完成的計算任務(wù)更接近網(wǎng)絡(luò)邊緣。霧計算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中,而不像云計算那樣將它們幾乎全部保存在云中,數(shù)據(jù)的存儲及處理更依賴本地設(shè)備,而非服務(wù)器。霧計算是新一代分布式計算,符合互聯(lián)網(wǎng)的“去中心化”特征。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的關(guān)系2.5.4大數(shù)據(jù)和云計算之間的關(guān)系

云計算的實質(zhì)是服務(wù),是一種新興的商業(yè)計算模式。云概念的提出是因為它的規(guī)模很大,可以根據(jù)業(yè)務(wù)動態(tài)伸縮。云計算是提供給這種商業(yè)模式的具體實現(xiàn),是互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展到一定階段的必然產(chǎn)物。云計算與大數(shù)據(jù)是一對相輔相成的概念,它們描述了面向數(shù)據(jù)時代信息技術(shù)的兩個方面,云計算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對數(shù)據(jù)量巨大所帶來的技術(shù)挑戰(zhàn)。

云計算的核心是業(yè)務(wù)模式,其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云計算為數(shù)據(jù)資產(chǎn)提供了存儲、訪問的場所和計算能力,即云計算更偏重海量數(shù)據(jù)的存儲和計算,以及提供的云計算服務(wù),運行云應(yīng)用。但是云計算缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價值性信息和進(jìn)行預(yù)測性分析,為國家治理、企業(yè)決策乃至個人生活服務(wù),這是大數(shù)據(jù)的核心議題。云計算是基礎(chǔ)設(shè)施架構(gòu),大數(shù)據(jù)是思想方法,大數(shù)據(jù)技術(shù)將幫助人們從大體量、高度復(fù)雜的數(shù)據(jù)中分析、挖掘信息,從而發(fā)現(xiàn)價值和預(yù)測趨勢。習(xí)題1.簡述什么是云計算?2.云計算有什么特點?3.請簡述云計算的三種主要部署模式。4.請簡述云計算的三種主要服務(wù)模式。5.請畫出云計算基礎(chǔ)設(shè)施Google平臺的基礎(chǔ)架構(gòu)圖。6.請畫出云計算基礎(chǔ)設(shè)施Hadoop平臺的基礎(chǔ)架構(gòu)圖。7.用自己的語言分別解釋物聯(lián)網(wǎng),邊緣計算,霧計算。答案1.簡述什么是云計算?①云計算是一種動態(tài)擴展的計算模式,通過網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶。②云計算是一種無處不在的、便捷的通過互聯(lián)網(wǎng)訪問的一個可定制的IT資源(IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件和服務(wù))共享池,是一種按使用量付費的模式。它能夠通過最少量的管理或與服務(wù)供應(yīng)商的互動實現(xiàn)計算資源的迅速供給和釋放2.云計算有什么特點?①具有大規(guī)模并行計算能力②資源虛擬化和彈性調(diào)度③數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)3.請簡述云計算的三種主要部署模式。①公有云:提供面向社會大眾、公共群體的云計算服務(wù)②私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計算服務(wù)③混合云:是把公有云和私有云進(jìn)行整合,吸納二者的優(yōu)點,給企業(yè)帶來真正意義上的云計算服務(wù)答案4.請簡述云計算的三種主要服務(wù)模式。1.基礎(chǔ)設(shè)施即服務(wù)(IaaS)①主要用戶是系統(tǒng)管理員②直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡單的開發(fā)③服務(wù)提供商提供給用戶的服務(wù)是計算和存儲基礎(chǔ)設(shè)施④用戶不管理或控制任何云計算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇⑤關(guān)鍵技術(shù)及解決方案是虛擬化技術(shù)2.平臺即服務(wù)(PaaS)①主要用戶是開發(fā)人員②把應(yīng)用服務(wù)的運行和開發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式即PaaS是把二次開發(fā)的平臺以服務(wù)形式提供給開發(fā)軟件的用戶使用③開發(fā)人員不需要管理或控制底層的云計算基礎(chǔ)設(shè)施,但可以方便地使用很多在構(gòu)建應(yīng)用時的必要服務(wù)④兩個關(guān)鍵技術(shù):分布式的并行計算和大文件分布式存儲3.軟件即服務(wù)(SaaS)①主要用戶是普通用戶②服務(wù)提供商提供給用戶的服務(wù)是運行在云計算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶只需要通過終端設(shè)備接入使用即可,簡單方便,不需要用戶進(jìn)行軟件開發(fā),也無需管理底層資源③關(guān)鍵技術(shù)是多租戶技術(shù),使資源能夠更好的共享答案5.請畫出云計算基礎(chǔ)設(shè)施Google平臺的基礎(chǔ)架構(gòu)圖。6.請畫出云計算基礎(chǔ)設(shè)施Hadoop平臺的基礎(chǔ)架構(gòu)圖。

答案7.用自己的語言分別解釋物聯(lián)網(wǎng),邊緣計算,霧計算。

物聯(lián)網(wǎng):物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)

邊緣計算:邊緣計算是指在靠近物或數(shù)據(jù)源頭的一側(cè),采用網(wǎng)絡(luò)、計算、存儲、應(yīng)用核心能力為一體的開放平臺,就近提供最近端服務(wù)

霧計算:數(shù)據(jù)、(數(shù)據(jù))處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中,而不是幾乎全部保存在云中,是云計算(CloudComputing)的延伸概念感謝大家的全力支持LOGO從產(chǎn)業(yè)結(jié)構(gòu)來探索大數(shù)據(jù)技術(shù)第3章LOGO目錄3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述013.2大數(shù)據(jù)的解決方案023.3大數(shù)據(jù)采集技術(shù)033.4大數(shù)據(jù)預(yù)處理技術(shù)04053.5大數(shù)據(jù)可視化技術(shù)

產(chǎn)業(yè)結(jié)構(gòu)概述產(chǎn)業(yè)結(jié)構(gòu)(IndustrialStructure)是指農(nóng)業(yè)、工業(yè)和服務(wù)業(yè)在一國經(jīng)濟結(jié)構(gòu)中所占的比重。近年來,隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等信息技術(shù)的進(jìn)步,在工業(yè)化和信息化快速發(fā)展的背景下,大數(shù)據(jù)產(chǎn)業(yè)欣欣向榮。大數(shù)據(jù)的快速發(fā)展是產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級的重要推動力。之后主要介紹三方面內(nèi)容:①從產(chǎn)業(yè)結(jié)構(gòu)探索大數(shù)據(jù)技術(shù)的產(chǎn)生、發(fā)展以及處理的基本流程;②介紹大數(shù)據(jù)采集技術(shù)及大數(shù)據(jù)預(yù)處理技術(shù);③介紹大數(shù)據(jù)可視化技術(shù)及其分類。當(dāng)前以微電子、大數(shù)據(jù)、信息產(chǎn)品制造業(yè)為代表的技術(shù)密集型產(chǎn)業(yè)正迅猛發(fā)展,成為帶動發(fā)達(dá)國家經(jīng)濟增長的主導(dǎo)產(chǎn)業(yè)。因此可以說,技術(shù)密集型產(chǎn)業(yè)的發(fā)展水平?jīng)Q定一個國家的競爭力和經(jīng)濟增長的前景。技術(shù)創(chuàng)新與技術(shù)結(jié)構(gòu)變動是產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化的決定性因素。從產(chǎn)業(yè)角度看,大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務(wù)為主的相關(guān)經(jīng)濟活動,包括數(shù)據(jù)資源建設(shè)、數(shù)據(jù)軟硬件產(chǎn)品的開發(fā)、銷售和租賃活動,以及相關(guān)信息技術(shù)服務(wù)。大數(shù)據(jù)融入產(chǎn)業(yè)結(jié)構(gòu)圖主要可以分為三大類如左圖所示3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述

大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持我們從硬件、基礎(chǔ)軟件、應(yīng)用軟件、信息服務(wù)和數(shù)據(jù)生成、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用共兩條路線、四個維度來劃分大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持,其中共涉及11個大類主要的產(chǎn)品和服務(wù),如圖所示。其中,基礎(chǔ)軟件(數(shù)據(jù)庫軟件和分布式文件系統(tǒng))、應(yīng)用軟件是大數(shù)據(jù)產(chǎn)業(yè)價值轉(zhuǎn)化變現(xiàn)的最關(guān)鍵部分,其他7種在某種意義上是在原有基礎(chǔ)上持續(xù)更新并與大數(shù)據(jù)發(fā)展配套的過程。對大數(shù)據(jù)的處理主要包括:數(shù)據(jù)生成(也稱為數(shù)據(jù)采集、數(shù)據(jù)獲取)、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用(也稱為數(shù)據(jù)分析與挖掘)。硬件支持軟件支持采集設(shè)備、存儲設(shè)備和服務(wù)器等支持;數(shù)據(jù)庫軟件、分布式文件系統(tǒng)、智能搜索軟件、采集軟件、分析軟件、監(jiān)測軟件等各類軟件技術(shù)支持;信息服務(wù)有系統(tǒng)集成、IT基礎(chǔ)設(shè)施服務(wù)、咨詢服務(wù)等,并且要保證信息安全;3.2大數(shù)據(jù)的解決方案大數(shù)據(jù)如此重要,以至于其采集、儲存、搜索、共享、分析、乃至可視化呈現(xiàn),都成為了當(dāng)前重要的研究課題。技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。下面從大數(shù)據(jù)數(shù)據(jù)源的產(chǎn)生和處理,以及大數(shù)據(jù)處理的基本流程來討論大數(shù)據(jù)的解決方案。數(shù)據(jù)產(chǎn)生方式的改變1.運營式系統(tǒng)階段2.用戶原創(chuàng)內(nèi)容階段3.感知式系統(tǒng)階段運營式系統(tǒng)階段的代表是數(shù)據(jù)庫的出現(xiàn),使得數(shù)據(jù)管理的復(fù)雜度大大降低。在實際使用中,數(shù)據(jù)庫大多為運營系統(tǒng)所采用,如銀行的交易記錄系統(tǒng)等。這個階段的最主要特點是數(shù)據(jù)的產(chǎn)生往往伴隨著一定的運營活動,而且數(shù)據(jù)是記錄在數(shù)據(jù)庫中的,這種數(shù)據(jù)的產(chǎn)生方式是被動的。用戶原創(chuàng)內(nèi)容階段的代表是Web2.0的產(chǎn)生,Web2.0的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。Web2.0的誕生促使人類社會數(shù)據(jù)量出現(xiàn)第二次大的飛躍,這個階段的數(shù)據(jù)產(chǎn)生方式是主動的。感知式系統(tǒng)階段的代表是物聯(lián)網(wǎng)。隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開始將這些設(shè)備廣泛地布置于社會的各個角落,通過這些設(shè)備來對整個社會的運轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會源源不斷地產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動的。人類社會數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。數(shù)據(jù)采集方式的改變1.傳統(tǒng)的數(shù)據(jù)采集2.大數(shù)據(jù)時代數(shù)據(jù)采集來源單一,且存儲、管理和分析的數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。對依靠并行計算提升數(shù)據(jù)處理速度方面而言,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求高度的一致性和容錯性,難以保證其可用性和擴展性,并且以往進(jìn)行數(shù)據(jù)采集時的采樣密度較低,獲得的采樣數(shù)據(jù)有限。有了大數(shù)據(jù)處理平臺的支撐,可以對需要分析的事件的數(shù)據(jù)進(jìn)行更加密集地采樣,從而精確地獲取事件的全局?jǐn)?shù)據(jù)。數(shù)據(jù)的采集方式由以往的被動采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃由蓴?shù)據(jù)。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進(jìn)行訪問和操作。大數(shù)據(jù)處理的基本流程及相應(yīng)技術(shù)支持大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲,利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)的處理步驟分為:①獲取源數(shù)據(jù);②進(jìn)行數(shù)據(jù)清洗;③數(shù)據(jù)分析;④數(shù)據(jù)解釋;⑤將數(shù)據(jù)分析與解釋的結(jié)果呈現(xiàn)給用戶。(1)數(shù)據(jù)抽取與集成1.基于物化或ETL(Extract-Transform-Load)方法的引擎。2.基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎由于大數(shù)據(jù)處理的數(shù)據(jù)來源類型豐富,大數(shù)據(jù)處理的第一步就是對數(shù)據(jù)進(jìn)行清洗,從中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對數(shù)據(jù)進(jìn)行存儲,即實現(xiàn)大數(shù)據(jù)預(yù)處理。方法有以下四種ETL是利用某種裝置(如攝像頭、麥克風(fēng)),從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。3.基于數(shù)據(jù)流方法的引擎聯(lián)邦數(shù)據(jù)庫系統(tǒng)是一個彼此協(xié)作卻又相互獨立的單元數(shù)據(jù)庫集合。聯(lián)邦數(shù)據(jù)庫技術(shù)就是為了實現(xiàn)對相互獨立運行的多個數(shù)據(jù)庫進(jìn)行互操作,從而進(jìn)行數(shù)據(jù)抽取與集成。數(shù)據(jù)流引擎可以在數(shù)據(jù)到達(dá)時處理數(shù)據(jù),從而過濾掉不需要的數(shù)據(jù),或者在將結(jié)果數(shù)據(jù)發(fā)送到最終目的地之前改變傳入的數(shù)據(jù)。4.基于搜索引擎的方法搜索引擎將網(wǎng)頁大量抓取下來,通過分析器解析,將有價值的數(shù)據(jù)入庫,檢索器(索引器)對有效的內(nèi)數(shù)據(jù)建立檢索。(2)數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟,通過數(shù)據(jù)抽取和集成環(huán)節(jié),已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù),用戶可以根據(jù)自己的需求對這些數(shù)據(jù)進(jìn)行分析處理,如數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計等,數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測系統(tǒng)等。目前采集到的大數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法勝任這些數(shù)據(jù)的處理。如何高效處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),是大數(shù)據(jù)計算技術(shù)的核心要點。如何能夠在不同的數(shù)據(jù)類型中,進(jìn)行交叉計算,是大數(shù)據(jù)計算技術(shù)要解決的另一核心問題。大數(shù)據(jù)計算技術(shù)可分為批處理計算和流處理計算,批處理計算主要操作大容量、靜態(tài)的數(shù)據(jù)集,并在計算過程完成后返回結(jié)果,適用于需要計算全部數(shù)據(jù)后才能完成的計算工作;流處理計算會對隨時進(jìn)入的數(shù)據(jù)進(jìn)行計算,流處理計算無需對整個數(shù)據(jù)集執(zhí)行操作,而是對通過傳輸?shù)拿總€數(shù)據(jù)項執(zhí)行操作,處理結(jié)果立刻可用,并會隨著新數(shù)據(jù)的抵達(dá)繼續(xù)更新結(jié)果。(2)數(shù)據(jù)分析目前主要流行以下大數(shù)據(jù)分析技術(shù)Hive是Facebook團隊開發(fā)的一個可以支持PB級別的可伸縮的數(shù)據(jù)倉庫。這是一個建立在Hadoop之上的開源數(shù)據(jù)倉庫解決方案。其使用類SQL(HiveQL)語言,底層經(jīng)過編譯轉(zhuǎn)為MapReduce程序,在Hadoop上運行,最終將數(shù)據(jù)存儲在HDFS上。,用戶可以使用的HiveQL將自定義的MapReduce腳本插入到查詢中。該語言支持基本數(shù)據(jù)類型,類似數(shù)組和Map的集合或者他們的嵌套組合。Hive簡化了對于那些不熟悉HadoopMapReduce接口的用戶學(xué)習(xí)門檻,Hive提供的一些HiveQL語句不只是可以進(jìn)行查詢操作,還可以對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行簡要的分析與計算。同屬于Hadoop開源生態(tài)系統(tǒng)的新成員ApacheSpark提供了一個比Hive更快的查詢引擎,因為它依賴于自己的數(shù)據(jù)處理框架而不是依靠Hadoop的HDFS服務(wù)。同時,它還用于事件流處理、實時查詢和機器學(xué)習(xí)等方面。這是一個ETL(Extract,Transform,andLoad)工具,可執(zhí)行數(shù)據(jù)倉庫到數(shù)據(jù)庫之間的數(shù)據(jù)同步,提供基于EclipseRCP的圖形操作界面。Talend工具用于協(xié)助進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成和數(shù)據(jù)管理等方面工作。它是一個統(tǒng)一的平臺,通過提供一個統(tǒng)一的,跨企業(yè)邊界生命周期管理的環(huán)境,使數(shù)據(jù)管理和應(yīng)用更簡單便捷。這種設(shè)計可以幫助企業(yè)構(gòu)建靈活、高性能的企業(yè)架構(gòu),在此架構(gòu)下,集成并啟用百分之百開源服務(wù)的分布式應(yīng)用程序變?yōu)榭赡?。?)數(shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶最關(guān)心的是數(shù)據(jù)處理的結(jié)果,計算結(jié)果的展現(xiàn)方式有標(biāo)簽云、關(guān)系圖等。正確的數(shù)據(jù)處理結(jié)果只有通過合適的展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果的展示非常重要,可視化和人機交互是數(shù)據(jù)解釋的主要技術(shù)。標(biāo)簽云關(guān)系圖3.3大數(shù)據(jù)采集技術(shù)從上一節(jié)的學(xué)習(xí)中可以了解到大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析與解釋、大數(shù)據(jù)展現(xiàn)和應(yīng)用等。可以看到,數(shù)據(jù)采集屬于數(shù)據(jù)分析生命周期的第一步,它通過傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)使用ETL、Flume等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的海量數(shù)據(jù)。那什么是大數(shù)據(jù)采集技術(shù),以及大數(shù)據(jù)采集有哪些方法呢?3.3.1大數(shù)據(jù)采集概述

大數(shù)據(jù)采集技術(shù)是指對數(shù)據(jù)進(jìn)行ETL(Extract-Transform-Load)操作,即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中的過程。數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)過提?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)到目的端,然后進(jìn)行處理分析,最終挖掘數(shù)據(jù)的潛在價值,提供給用戶解決方案或者決策參考。

大數(shù)據(jù)的采集依靠多個數(shù)據(jù)庫接收來自客戶端(Web、APP或傳感器等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。如電商使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

大數(shù)據(jù)采集技術(shù)系統(tǒng)分類1.日志采集系統(tǒng)收集日志數(shù)據(jù),供離線和在線的數(shù)據(jù)分析使用。目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。2.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。目前常用的網(wǎng)頁爬蟲系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。3.數(shù)據(jù)庫采集系統(tǒng)一些企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。企業(yè)每時每刻都在產(chǎn)生業(yè)務(wù)數(shù)據(jù),而這些復(fù)雜的數(shù)據(jù)按照關(guān)系結(jié)構(gòu)模型被歸結(jié)為二元關(guān)系(即二維表格形式)再寫到數(shù)據(jù)庫中,通過對這些關(guān)系表格的分類、合并、連接或選取等操作來實現(xiàn)數(shù)據(jù)的管理,最后由特定的處理分析系統(tǒng)進(jìn)行系統(tǒng)分析。3.3.2日志采集系統(tǒng)——Flume每個公司的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志數(shù)據(jù),通過對這些日志信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)平臺日志數(shù)據(jù)中的潛在價值。為公司決策和公司后臺服務(wù)器平臺性能評估提高可靠的數(shù)據(jù)保證。Flume最早是Cloudera公司提供的實時日志采集系統(tǒng),目前是Apache的一個孵化項目。ApacheFlume是一個分布式、可靠、可用的服務(wù),用于高效地收集、聚合和移動大量的日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流的簡單靈活的架構(gòu)。其可靠性機制、完備的故障轉(zhuǎn)移和恢復(fù)機制使Flume具有強大的容錯能力。Flume有日志收集和數(shù)據(jù)處理兩個功能,F(xiàn)lume支持日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時Flume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(可定制)的能力。Flume處理流程Flume的核心就是一個Agent(媒介),該Agent對外有兩個進(jìn)行交互的地方,一個是接收數(shù)據(jù)的輸入Source(源頭結(jié)點),一個是數(shù)據(jù)的輸出Sink(匯聚結(jié)點),Sink負(fù)責(zé)將數(shù)據(jù)發(fā)送到外部指定的目的地,如圖Source接收到數(shù)據(jù)之后,將數(shù)據(jù)發(fā)送給Channel(存儲渠道或者存儲通道),Channel作為一個數(shù)據(jù)緩沖區(qū)會臨時存放這些數(shù)據(jù),隨后Sink會將Channel中的數(shù)據(jù)發(fā)送到指定的地方——外部存儲。注意:只有在Sink將Channel中的數(shù)據(jù)成功發(fā)送出去之后,Channel才會將臨時數(shù)據(jù)進(jìn)行刪除,這種機制保證了數(shù)據(jù)傳輸?shù)目煽啃耘c安全性。在整個數(shù)據(jù)的傳輸?shù)倪^程中,流動的是Event(事件),即事務(wù)保證是在Event級別進(jìn)行的。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝,是Flume傳輸數(shù)據(jù)的基本單位。如果是文本文件,通常是一行記錄,Event也是事務(wù)的基本單位。Event從Source流向Channel,再到Sink,本身為一個字節(jié)數(shù)組,并可攜帶Headers(頭信息)信息。Event代表著一個數(shù)據(jù)的最小完整單元,從外部數(shù)據(jù)源來,向外部目的地去。AgentFlume架構(gòu)Flume采用了三層架構(gòu),分別為Agent、Collector和Storage,其中,如圖所示所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護,且Master允許有多個(使用ZooKeeper進(jìn)行管理和負(fù)載均衡),這就避免了單點故障問題。從而具有以下幾個特性①可靠性,當(dāng)某一個節(jié)點出現(xiàn)故障時,日志文件能夠被傳送到其他節(jié)點上而不會丟失。②可擴展性,F(xiàn)lume采用了三層架構(gòu),每一層均可以水平擴展。③可管理性,所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)便于維護。多Master情況④功能的可擴展性,用戶可以根據(jù)需要添加自己的Agent、Collector或者Storage。3.3.3消息采集系統(tǒng)——KafkaKafka最初由Linkedin公司開發(fā),是一個支持分區(qū)(partition)、多副本(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論