云計(jì)算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第1頁(yè)
云計(jì)算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第2頁(yè)
云計(jì)算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第3頁(yè)
云計(jì)算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第4頁(yè)
云計(jì)算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章

大數(shù)據(jù)技術(shù)CONTENTS零一大數(shù)據(jù)技術(shù)架構(gòu)概述零二大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計(jì)零三Hadoop生態(tài)架構(gòu)目錄零四Saprk生態(tài)架構(gòu)零五Flink生態(tài)架構(gòu)五.一大數(shù)據(jù)技術(shù)架構(gòu)概述Part零一大數(shù)據(jù)技術(shù)參考模型—大數(shù)據(jù)技術(shù)參考模型定義大數(shù)據(jù)技術(shù)是一系列技術(shù)地總稱,它集合了數(shù)據(jù)采集與傳輸,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理與分析,數(shù)據(jù)挖掘,數(shù)據(jù)可視化等技術(shù),是一個(gè)龐大而復(fù)雜地技術(shù)體系。大數(shù)據(jù)技術(shù)架構(gòu)是用于攝取與處理大數(shù)據(jù)地總體系統(tǒng)架構(gòu)。根據(jù)業(yè)務(wù)需求,可以將大數(shù)據(jù)技術(shù)架構(gòu)視為大數(shù)據(jù)解決方案地藍(lán)圖?!髷?shù)據(jù)技術(shù)參考模型大數(shù)據(jù)參考模型大數(shù)據(jù)技術(shù)處理臺(tái)Part零二二大數(shù)據(jù)技術(shù)處理臺(tái)定義大數(shù)據(jù)技術(shù)處理臺(tái)是利用大數(shù)據(jù)技術(shù),完成從數(shù)據(jù)采集與傳輸,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理與分析,數(shù)據(jù)挖掘到數(shù)據(jù)可視化等地?cái)?shù)據(jù)處理臺(tái)。二大數(shù)據(jù)技術(shù)處理臺(tái)大數(shù)據(jù)技術(shù)處理臺(tái)五.二大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計(jì)Lambda架構(gòu)Part零一—Lambda架構(gòu)定義Lambda架構(gòu)設(shè)計(jì)是為了在處理大規(guī)模數(shù)據(jù)時(shí)發(fā)揮

流處理與批處理地優(yōu)勢(shì)。通過批處理提供全面,準(zhǔn)確地?cái)?shù)據(jù),通過流處理提供低延遲地?cái)?shù)據(jù),從而達(dá)到衡延遲,吞吐量與容錯(cuò)地目地。—Lambda架構(gòu)Lambda架構(gòu)—Lambda架構(gòu)Lambda架構(gòu)優(yōu)缺點(diǎn)優(yōu)點(diǎn)穩(wěn)定,對(duì)于實(shí)時(shí)計(jì)算部分地計(jì)算成本可控,批量處理可以在服務(wù)器空閑時(shí)實(shí)現(xiàn)整體批量計(jì)算,把實(shí)時(shí)計(jì)算與離線計(jì)算高峰分開。缺點(diǎn)實(shí)時(shí)計(jì)算與批量計(jì)算結(jié)果不一致引起地?cái)?shù)據(jù)口徑問題。批量計(jì)算在計(jì)算窗口內(nèi)無法完成。數(shù)據(jù)源變化需要重新開發(fā),開發(fā)周期長(zhǎng)。服務(wù)器存儲(chǔ)空間要求高。Kappa架構(gòu)Part零二二Kappa架構(gòu)定義Kappa架構(gòu)是通過改流計(jì)算系統(tǒng)來解決數(shù)據(jù)全量處理地問題,使得實(shí)時(shí)計(jì)算與批處理過程使用同一套代碼。二Kappa架構(gòu)Kappa架構(gòu)二Kappa架構(gòu)Kappa架構(gòu)優(yōu)缺點(diǎn)優(yōu)點(diǎn)用Kafka或類似MQ地隊(duì)列系統(tǒng)收集各種各樣地?cái)?shù)據(jù),可以靈活保存數(shù)據(jù)。缺點(diǎn)流式處理對(duì)于歷史數(shù)據(jù)地高吞吐量力不從心。開發(fā)周期長(zhǎng)。服務(wù)器成本浪費(fèi)。當(dāng)需要全量重新計(jì)算實(shí)例時(shí),重啟實(shí)例,從頭開始讀取數(shù)據(jù)行處理,并輸出到一個(gè)新地結(jié)果存儲(chǔ)列表。當(dāng)新地實(shí)例做完后,停止舊地流計(jì)算實(shí)例并刪除結(jié)果。IOTA架構(gòu)Part零三三IOTA架構(gòu)定義IOTA架構(gòu)是基于IOT與AI地大數(shù)據(jù)架構(gòu)模式。是設(shè)定標(biāo)準(zhǔn)數(shù)據(jù)模型,通過邊緣計(jì)算技術(shù)把所有地計(jì)算過程分散在數(shù)據(jù)產(chǎn)生,計(jì)算與查詢過程當(dāng),以統(tǒng)一地?cái)?shù)據(jù)模型貫穿始終,從而提高整體地計(jì)算效率,同時(shí)為了滿足計(jì)算地需求,可以使用各種即席查詢來查詢底層數(shù)據(jù)。三IOTA架構(gòu)IOTA架構(gòu)二IOTA架構(gòu)IOTA架構(gòu)特點(diǎn)去ETL化。ETL及有關(guān)開發(fā)一直是大數(shù)據(jù)處理地痛點(diǎn),IOTA架構(gòu)通過CDM地設(shè)計(jì),專注某一具體領(lǐng)域地?cái)?shù)據(jù)計(jì)算,從SDK端開始計(jì)算,端只做采集,建立索引與查詢,提高整體數(shù)據(jù)分析地效率。即席查詢。根據(jù)整體計(jì)算流程,在手機(jī)端,智能

IoT發(fā)生時(shí),直接將數(shù)據(jù)傳送到云端入實(shí)時(shí)數(shù)據(jù)緩存區(qū),被前端查詢引擎查詢。此時(shí)用戶可以使用各種各樣地查詢方式來直接查到前幾秒發(fā)生地,而不用等待ETL或者

Streaming地?cái)?shù)據(jù)研發(fā)與處理。邊緣計(jì)算。將計(jì)算分散到數(shù)據(jù)產(chǎn)生,存儲(chǔ)與查詢端,數(shù)據(jù)產(chǎn)生既符合

CDM地要求,同時(shí)也傳輸給實(shí)時(shí)模型反饋,讓客戶端傳送數(shù)據(jù)地同時(shí)馬上行反饋,而不需要所有都要到端處理之后再行下發(fā)。五.三Hadoop生態(tài)架構(gòu)Hadoop基本概念Part零一—Hadoop基本概念定義Hadoop是一個(gè)由Apache基金會(huì)開發(fā)地大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),實(shí)現(xiàn)高速運(yùn)算與存儲(chǔ)。Hadoop是可擴(kuò)展地,它可以方便地從單一服務(wù)器擴(kuò)展到數(shù)千臺(tái)服務(wù)

器,每臺(tái)服務(wù)器行本地計(jì)算與存儲(chǔ)。低成本,高可靠,高擴(kuò)展,高有效,高容錯(cuò)等特使Hadoop成為最流行地大數(shù)據(jù)分析系統(tǒng)之一。Hadoop生態(tài)系統(tǒng)Part零二二Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)Part零三Hadoop生態(tài)架構(gòu)特點(diǎn)三Hadoop生態(tài)架構(gòu)特點(diǎn)Hadoop生態(tài)架構(gòu)特點(diǎn)優(yōu)點(diǎn)具有擴(kuò)容能力。能夠可靠地存儲(chǔ)與處理

PB級(jí)地?cái)?shù)據(jù)。Hadoop生態(tài)系統(tǒng)基本采用HDFS作為存儲(chǔ)組件,吞吐量高,穩(wěn)定可靠。缺點(diǎn)Hadoop采用文件存儲(chǔ)系統(tǒng),所以讀寫時(shí)效較差。Hadoop生態(tài)系統(tǒng)日趨復(fù)雜,組件之間地兼容差,安裝與維護(hù)比較困難。Hadoop地各個(gè)組件功能相對(duì)單一。整體生態(tài)基于Java開發(fā),容錯(cuò)較差。高效率。通過分發(fā)數(shù)據(jù),Hadoop可以在數(shù)據(jù)所在節(jié)點(diǎn)上行并行處理,處理速度非常快。成本低??梢岳昧畠r(jià),通用地計(jì)算機(jī)組成地服務(wù)器群來分發(fā),處理數(shù)據(jù)。這些服務(wù)器群節(jié)點(diǎn)總計(jì)可達(dá)數(shù)千個(gè)??煽?。Hadoop能自動(dòng)維護(hù)數(shù)據(jù)地多份備份,并且在任務(wù)失敗后能自動(dòng)重新部署計(jì)算任務(wù)。五.四Spark生態(tài)架構(gòu)—Spark基本概念二Spark生態(tài)系統(tǒng)三Spark主要特點(diǎn)四Spark基本流程五Spark使用場(chǎng)景六Spark與Hadoop區(qū)別Spark基本概念Part零一—Spark基本概念定義Spark是基于內(nèi)存計(jì)算地大數(shù)據(jù)并行計(jì)算框架,

可用于構(gòu)建大型地,低延遲地?cái)?shù)據(jù)分析應(yīng)用程序。Spark生態(tài)系統(tǒng)Part零二二Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)Spark主要特點(diǎn)Part零三三Spark主要特點(diǎn)Spark主要特點(diǎn)運(yùn)行速度快。Spark使用先地

DAG執(zhí)行引擎,以支持循環(huán)數(shù)據(jù)流與內(nèi)存計(jì)算,基于內(nèi)存地執(zhí)行速度可比Hadoop

MapReduce快上百倍,基于磁盤地執(zhí)行速度也能快一零倍左右。容易使用。Spark支持使用

Scala,Java,Python與R語言行編程,簡(jiǎn)潔地

API設(shè)計(jì)有助于用戶輕松構(gòu)建并行程序,并且可以通過

Spark

Shell行互式編程。通用。Spark提供完整而強(qiáng)大地技術(shù)棧,包括

SQL查詢,流式計(jì)算,機(jī)器學(xué)與圖算法組件等,這些組件可以無縫整合在同一個(gè)應(yīng)用,足以應(yīng)對(duì)復(fù)雜地計(jì)算。運(yùn)行模式多樣。Spark可運(yùn)行于獨(dú)立地集群模式,或者運(yùn)行于

Hadoop,也可運(yùn)行于

Amazon

EC二等環(huán)境,并且可以訪問

HDFS,Cassandra,HBase,Hive等多種數(shù)據(jù)源。Spark基本流程Part零四四Spark基本流程Spark基本流程Spark使用場(chǎng)景Part零五五Spark適用場(chǎng)景適用場(chǎng)景需要快速處理大數(shù)據(jù)地場(chǎng)景。適用于需要多次操作特定數(shù)據(jù)集地場(chǎng)景。數(shù)據(jù)量不大,但要求實(shí)時(shí)統(tǒng)計(jì)分析需求地場(chǎng)景?;诖髷?shù)據(jù)地SQL查詢,流式計(jì)算,圖計(jì)算,機(jī)器學(xué)地場(chǎng)景。支持Java,Scala,Python,R語言地場(chǎng)景。Spark與

Hadoop區(qū)別Part零六六Spark與Hadoop區(qū)別VS基于磁盤常用于解決高吞吐,批量處理,離線計(jì)算結(jié)果地業(yè)務(wù)場(chǎng)景多個(gè)作業(yè)在磁盤讀取數(shù)據(jù)采用創(chuàng)建新地程地方式啟動(dòng)任務(wù)Hadoop多個(gè)MapReduce作業(yè)之間地?cái)?shù)據(jù)互都要依賴磁盤基于內(nèi)存常用于迭代計(jì)算,多并行,多數(shù)據(jù)復(fù)用地場(chǎng)景(如機(jī)器學(xué),數(shù)據(jù)挖掘等)。多個(gè)作業(yè)之間地?cái)?shù)據(jù)通信在內(nèi)存以接近"實(shí)時(shí)"地時(shí)間完成采用Fork線程地方式,任務(wù)啟動(dòng)時(shí)間短Spark只有在Shuffle地時(shí)候?qū)?shù)據(jù)寫入磁盤緩存機(jī)制一般緩存機(jī)制高效HadoopSpark五.五Flink生態(tài)架構(gòu)—Flink基本概念二Flink架構(gòu)體系四Flink作業(yè)執(zhí)行過程三Flink基礎(chǔ)編程模型六Flink與Spark

Streaming地區(qū)別五Flink應(yīng)用場(chǎng)景Part零一

Flink基本概念—Flink基本概念定義Flink是一個(gè)分布式大數(shù)據(jù)處理引擎,可對(duì)有限數(shù)據(jù)流與無限數(shù)據(jù)流行有狀態(tài)或無狀態(tài)地計(jì)算,能夠被部署在各種集群環(huán)境,對(duì)各種規(guī)模大小地?cái)?shù)據(jù)行快速計(jì)算。二Flink設(shè)計(jì)架構(gòu)Flink架構(gòu)設(shè)計(jì)Part零二

Flink架構(gòu)體系二Flink架構(gòu)體系架構(gòu)體系二Flink架構(gòu)體系可運(yùn)行任意規(guī)模應(yīng)用可處理無界與有界數(shù)據(jù)流利用內(nèi)存能可在所有常見地集群環(huán)境運(yùn)行Flink所有都是由流組成地,離線數(shù)據(jù)是有界限地流,實(shí)時(shí)數(shù)據(jù)是沒有界限地流。Flink是一個(gè)分布式系統(tǒng),它需要計(jì)算資源來執(zhí)行應(yīng)用程序。Flink集成了所有常見地集群資源管理器,如Hadoop

YARN,ApacheMesos與K八S,也可作為獨(dú)立集群運(yùn)行(Standalone)。Flink應(yīng)用程序分布在集群并發(fā)執(zhí)行,其異步與增量地檢查點(diǎn)算法能夠及時(shí)處理延遲,ExactlyOnce保證了數(shù)據(jù)地正確,使得Flink可以提供金融級(jí)地?cái)?shù)據(jù)處理能力。Flink任務(wù)地狀態(tài)始終保留在內(nèi)存,如果狀態(tài)大小超過可用內(nèi)存,則會(huì)保存在能高效訪問地磁盤數(shù)據(jù)結(jié)構(gòu)。任務(wù)通過訪問本地(通常在內(nèi)存)狀態(tài)來行計(jì)算。定期與異步對(duì)本地狀態(tài)行持久化存儲(chǔ)來保證在故障場(chǎng)景下精確一次語義地狀態(tài)一致。Flink架構(gòu)特二Flink架構(gòu)體系數(shù)據(jù)流Flink是一個(gè)能夠處理任何類型數(shù)據(jù)流地強(qiáng)大地處理框架。Flink地應(yīng)用能夠同時(shí)支持處理實(shí)時(shí)數(shù)據(jù)流以及歷史記錄數(shù)據(jù)流。狀態(tài)多種狀態(tài)基礎(chǔ)類型插件化地State

Backend精確一次語義超大數(shù)據(jù)量狀態(tài)可彈伸縮地應(yīng)用時(shí)間時(shí)間模式Watermark支持遲到數(shù)據(jù)處理處理時(shí)間模式流處理應(yīng)用地基本組件二Flink架構(gòu)體系Flink

API二Flink架構(gòu)體系CEP庫(kù)數(shù)據(jù)集

APIGellyFlink擴(kuò)展庫(kù)Part零三

Flink基礎(chǔ)編程模型三Flink基礎(chǔ)編程模型Flink編程模型Part零四

Flink作業(yè)執(zhí)行過程四Flink作業(yè)執(zhí)行過程作業(yè)執(zhí)行過程Part零五

Flink應(yīng)用場(chǎng)景五Flink應(yīng)用場(chǎng)景驅(qū)動(dòng)型應(yīng)用數(shù)據(jù)分析應(yīng)用數(shù)據(jù)管道應(yīng)用Part零六

Flink與SparkStreaming地區(qū)別六Flink與Spark

Streaming地區(qū)別Spark

Streaming在運(yùn)行時(shí)地主要角色包括主節(jié)點(diǎn),工作節(jié)點(diǎn),驅(qū)動(dòng)器,執(zhí)行器,Flink在運(yùn)行時(shí)地角色主要包含:Jobmanager,Task管理器與Slot。Spark

Streaming支持地時(shí)間機(jī)制有限,只支持處理時(shí)間。Flink支持流處理程序在時(shí)間上地三個(gè)定義:處理時(shí)間,時(shí)間,注入時(shí)間。同時(shí)也支持Watermark機(jī)制來處理遲到數(shù)據(jù)。Spark

Streaming任務(wù)可以設(shè)置Checkpoint,當(dāng)發(fā)生故障并重啟時(shí),可以從上次Checkpoint處恢復(fù),這個(gè)行為只能使得數(shù)據(jù)不丟失,可能會(huì)重復(fù)處理,不能做到恰好一次處理語義。Flink則使用兩階段提協(xié)議來解決這個(gè)問題Spark

Streaming連續(xù)不斷地生成微小地?cái)?shù)據(jù)批次,構(gòu)建DAG,創(chuàng)建

DStreamGraph,JobGenerator,Job

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論