主流大數(shù)據(jù)計(jì)算引擎對比分析_第1頁
主流大數(shù)據(jù)計(jì)算引擎對比分析_第2頁
主流大數(shù)據(jù)計(jì)算引擎對比分析_第3頁
主流大數(shù)據(jù)計(jì)算引擎對比分析_第4頁
主流大數(shù)據(jù)計(jì)算引擎對比分析_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、主流大數(shù)據(jù)引擎對比分析 p 分布式批處理計(jì)算引擎介紹 p 分布式流處理計(jì)算引擎介紹 提綱 mapreduce應(yīng)用場景 mapreduce基于google發(fā)布的分布式計(jì)算框架mapreduce論文設(shè)計(jì)開發(fā),用于大規(guī)模 數(shù)據(jù)集(大于1tb)的并行運(yùn)算,特點(diǎn)如下: - 易于編程:程序員僅需描述做什么,具體怎么做就交由系統(tǒng)的執(zhí)行框架處理。 - 良好的擴(kuò)展性:可以添加機(jī)器擴(kuò)展集群能力。 - 高容錯性:通過計(jì)算遷移或數(shù)據(jù)遷移等策略提高集群的可用性與容錯性。 mapreduce原理 mapreduce原理 mapreduce應(yīng)用場景 mapredcue適合做什么? l大規(guī)模數(shù)據(jù)集的離線批處理計(jì)算 l任務(wù)分而

2、治之,子任務(wù)相對獨(dú)立 mapredcue不適合做什么? l實(shí)時的交互式計(jì)算,要求快速響應(yīng),低延遲,比如sql查詢 l流式計(jì)算、實(shí)時分析,比如廣告點(diǎn)擊計(jì)算等 l任務(wù)之間相互依賴(迭代計(jì)算) 誰在使用mapreduce? hive - 基于mapreduce的olap引擎 spark 應(yīng)用場景 l 是什么 - spark系統(tǒng)是分布式批處理系統(tǒng)和分析挖掘引擎。 - spark是amp lab貢獻(xiàn)到apache社區(qū)的開源項(xiàng)目,是amp大數(shù)據(jù)棧的基礎(chǔ)組件。 l 做什么 - 數(shù)據(jù)處理(data processing):可以用來快速處理數(shù)據(jù),兼具容錯性和可擴(kuò)展性。 - 迭代計(jì)算(iterative comp

3、utation):支持迭代計(jì)算,有效應(yīng)對多步的數(shù)據(jù)處理邏輯。 spark 應(yīng)用場景 l 大多數(shù)現(xiàn)有集群計(jì)算框架如hadoop等基于從穩(wěn)定存儲(文件系統(tǒng))到穩(wěn)定存儲的非循環(huán)數(shù)據(jù) 流-應(yīng)對數(shù)據(jù)集重用型應(yīng)用時低效,與傳統(tǒng)的mr任務(wù)的頻繁讀寫磁盤數(shù)據(jù)相比,基于內(nèi)存 計(jì)算的spark則更適合應(yīng)用與迭代計(jì)算,交互式分析等場景 spark核心概念 rdd l 定義:只讀的,可分區(qū)的分布式數(shù)據(jù)集; l 容錯:根據(jù)依賴關(guān)系重計(jì)算恢復(fù)丟失數(shù)據(jù) l rdd操作:transformation算子和action算子。 spark核心概念 寬依賴和窄依賴 l rdd父子依賴關(guān)系:窄(narrow)依賴和寬(wide)依賴

4、。窄依賴指父rdd的每一個分 區(qū)最多被一個子rdd的分區(qū)所用。寬依賴指子rdd的分區(qū)依賴于父rdd的所有分區(qū)。 spark sql- spark 生態(tài)圈的查詢引擎 p 分布式批處理計(jì)算引擎介紹 p 分布式流處理計(jì)算引擎介紹 提綱 lstorm 可以對大量的數(shù)據(jù)流進(jìn)行可靠的實(shí)時處理,這一過程也稱為“流式處理”; lstorm 支持多種類型的應(yīng)用,包括:實(shí)時分析、在線機(jī)器學(xué)習(xí)、連續(xù)計(jì)算、分布式rpc(drpc)、 etl等; l快速的數(shù)據(jù)處理、可擴(kuò)展性與容錯性; storm 應(yīng)用場景 strom原理 基于strom的情感分析 l 相對于storm,spark streaming支持更的大吞吐量; l 基于spark內(nèi)核的迭代計(jì)算,spark streaming是準(zhǔn)實(shí)時處理; l 良好的容錯性和故障恢復(fù)能力; spark streaming

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論