hadoop、storm和spark的區(qū)別比較_第1頁
hadoop、storm和spark的區(qū)別比較_第2頁
hadoop、storm和spark的區(qū)別比較_第3頁
hadoop、storm和spark的區(qū)別比較_第4頁
hadoop、storm和spark的區(qū)別比較_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、hadoop、storm和spark的區(qū)別、比較一、該選哪一個?為了區(qū)別和,該部分將回答如下問題:、各是什么運算為什么被稱之為流式計算系統(tǒng)適合什么場景,什么情況下使用4.什么是吞吐量首先整體認(rèn)識:是磁盤級計算,進(jìn)行計算時,數(shù)據(jù)在磁盤上,需要讀寫磁盤;是內(nèi)存級計算,數(shù)據(jù)直接通過網(wǎng)絡(luò)導(dǎo)入內(nèi)存。讀寫內(nèi)存比讀寫磁盤速度快個數(shù)量級。根據(jù)課件,磁盤訪問延遲約為內(nèi)存訪問延遲的倍。所以更快。注釋:延時,指數(shù)據(jù)從產(chǎn)生到運算產(chǎn)生結(jié)果的時間,“快”應(yīng)該主要指這個。吞吐,指系統(tǒng)單位時間處理的數(shù)據(jù)量。的網(wǎng)絡(luò)直傳、內(nèi)存計算,其時延必然比的通過傳輸?shù)偷枚?;?dāng)計算模型比較適合流式時,的流式處理,省去了批處理的收集數(shù)據(jù)的時間;

2、因為是服務(wù)要快于型的作業(yè),也省去了作業(yè)調(diào)度的時延。所以從時延上來看,要快于從原理角度來講:基于,需要切分輸入數(shù)據(jù)、產(chǎn)生中間數(shù)據(jù)文件、排序、數(shù)據(jù)壓縮、多份復(fù)制等,效率較低。基于這個高性能的消息通訊庫,不持久化數(shù)據(jù)。為什么比快,下面舉一個應(yīng)用場景說一個典型的場景,幾千個日志生產(chǎn)方產(chǎn)生日志文件,需要進(jìn)行一些操作存入一個數(shù)據(jù)庫。假設(shè)利用,則需要先存入,按每一分鐘切一個文件的粒度來算(這個粒度已經(jīng)極端的細(xì)了,再小的話上會一堆小文件),開始計算時,分鐘已經(jīng)過去了,然后再開始調(diào)度任務(wù)又花了一分鐘,然后作業(yè)運行起來,假設(shè)機器特別多,幾鈔鐘就算完了,然后寫數(shù)據(jù)庫假設(shè)也花了很少的時間,這樣,從數(shù)據(jù)產(chǎn)生到最后可以使

3、用已經(jīng)過去了至少兩分多鐘。而流式計算則是數(shù)據(jù)產(chǎn)生時,則有一個程序去一直監(jiān)控日志的產(chǎn)生,產(chǎn)生一行就通過一個傳輸系統(tǒng)發(fā)給流式計算系統(tǒng),然后流式計算系統(tǒng)直接處理,處理完之后直接寫入數(shù)據(jù)庫,每條數(shù)據(jù)從產(chǎn)生到寫入數(shù)據(jù)庫,在資源充足時可以在毫秒級別完成。同時說一下另外一個場景:如果一個大文件的,把它放到上進(jìn)行流式的處理,等所有已有數(shù)據(jù)處理完才讓輸出結(jié)果,這時候,你再把它和比較快慢,這時,其實比較的不是時延,而是比較的吞吐了。最主要的方面:使用磁盤作為中間交換的介質(zhì),而的數(shù)據(jù)是一直在內(nèi)存中流轉(zhuǎn)的。兩者面向的領(lǐng)域也不完全相同,一個是批量處理,基于任務(wù)調(diào)度的;另外一個是實時處理,基于流。以水為例,可以看作是純凈

4、水,一桶桶地搬;而是用水管,預(yù)先接好(),然后打開水龍頭,水就源源不斷地流出來了。的主工程師表示:可以方便地在一個計算機集群中編寫與擴(kuò)展復(fù)雜的實時計算,之于實時處理,就好比之于批處理。保證每個消息都會得到處理,而且它很快在一個小集群中,每秒可以處理數(shù)以百萬計的消息。更棒的是你可以使用任意編程語言來做開發(fā)。的主要特點如下:簡單的編程模型。類似于降低了并行批處理復(fù)雜性,降低了進(jìn)行實時處理的復(fù)雜性。可以使用各種編程語言。你可以在之上使用各種編程語言。默認(rèn)支持、和。要增加對其他語言的支持,只需實現(xiàn)一個簡單的通信協(xié)議即可。和。要增加對其他語言的支持,只需實現(xiàn)一個簡單的通信協(xié)議即可。容錯性。會管理工作進(jìn)程

5、和節(jié)點的故障。4.水平擴(kuò)展。計算是在多個線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的??煽康南⑻幚?。保證每個消息至少能得到一次完整處理。任務(wù)失敗時,它會負(fù)責(zé)從消息源重試消息。快速。系統(tǒng)的設(shè)計保證了消息能得到快速的處理,使用作為其底層消息隊列。本地模式。有一個“本地模式”,可以在處理過程中完全模擬集群。這讓你可以快速進(jìn)行開發(fā)和單元測試。在消耗資源相同的情況下,一般來說的延時低于。但是吞吐也低于e是典型的流計算系統(tǒng),是典型的批處理系統(tǒng)。下面對流計算和批處理系統(tǒng)流程這個個數(shù)據(jù)處理流程來說大致可以分三個階段:數(shù)據(jù)采集與準(zhǔn)備數(shù)據(jù)計算(涉及計算中的中間存儲),題主中的“那些方面決定”應(yīng)該主要是指這個階段處理方式。數(shù)

6、據(jù)結(jié)果展現(xiàn)(反饋)數(shù)據(jù)采集階段,目前典型的處理處理策略:數(shù)據(jù)的產(chǎn)生系統(tǒng)一般出自頁面打點和解析的,流計算將數(shù)據(jù)采集中消息隊列(比如Q的,流計算將數(shù)據(jù)采集中消息隊列(比如Q等。批處理系統(tǒng)實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而般將數(shù)據(jù)采集進(jìn)分布式文件系統(tǒng)(比如),當(dāng)然也有使用消息隊列的。我們暫且把消息隊列和文件系統(tǒng)稱為預(yù)處理存儲。二者在延時和吞吐上沒太大區(qū)別,接下來從這個預(yù)處理存儲進(jìn)入到數(shù)據(jù)計算階段有很大的區(qū)別,流計算一般在實時的讀取消息隊列進(jìn)入流計算系統(tǒng)()的數(shù)據(jù)進(jìn)行運算,批處理一系統(tǒng)一般會攢一大批后批量導(dǎo)入到計算系統(tǒng)(),

7、這里就有了延時的區(qū)別。)數(shù)據(jù)計算階段,流計算系統(tǒng)()的延時低主要有一下幾個方面(針對題主的問題):進(jìn)程是常駐的,有數(shù)據(jù)就可以進(jìn)行實時的處理數(shù)據(jù)攢一批后由作業(yè)管理系統(tǒng)啟動任務(wù),數(shù)據(jù)攢一批后由作業(yè)管理系統(tǒng)啟動任務(wù),計算任務(wù)分配,實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而實際流計算和批處理系統(tǒng)沒有本質(zhì)的區(qū)別,像的也有批概念,而啟動相關(guān)的運算進(jìn)程每個計算單元之間數(shù)據(jù)之間通過網(wǎng)絡(luò)()直接傳輸。任務(wù)運算的結(jié)果要寫入到,在于任務(wù)通過網(wǎng)絡(luò)拖過去運算。相任務(wù)運算的結(jié)果要寫入到,在于任務(wù)通

8、過網(wǎng)絡(luò)拖過去運算。相對來說多了磁盤讀寫,比較慢對于復(fù)雜運算的運算模型直接支持(有向無環(huán)圖)需要肯多個過程組成,有些操作沒有意義的)數(shù)據(jù)結(jié)果展現(xiàn)流計算一般運算結(jié)果直接反饋到最終結(jié)果集中(展示頁面,數(shù)據(jù)庫,搜索引擎的索引)。而一般需要整個運算結(jié)束后將結(jié)果批量導(dǎo)入到結(jié)果集中。的就是基于可以將每次運算的數(shù)據(jù)集縮?。ū热鐜追昼妴右淮危龅牧饔嬎阆到y(tǒng)。的就是基于二、高性能并行計算引擎和比較基于這樣的理念,當(dāng)數(shù)據(jù)龐大時,把計算過程傳遞給數(shù)據(jù)要比把數(shù)據(jù)傳遞給計算過程要更富效率。每個節(jié)點存儲(或緩存)它的數(shù)據(jù)集,然后任務(wù)被提交給節(jié)點。所以這是把過程傳遞給數(shù)據(jù)。這和非常相似,除了積極使用內(nèi)存來避免I/O操作,

9、以使得迭代算法(前一步計算輸出是下一步計算的輸入)性能更高。只是一個基于的查詢引擎(支持臨時性的分析查詢)而的架構(gòu)和截然相反。是一個分布式流計算引擎。每個節(jié)點實現(xiàn)一個基本的計算過程,而數(shù)據(jù)項在互相連接的網(wǎng)絡(luò)節(jié)點中流進(jìn)流出。和相反,這個是把數(shù)據(jù)傳遞給過程。兩個框架都用于處理大量數(shù)據(jù)的并行計算。在動態(tài)處理大量生成的“小數(shù)據(jù)塊”上要更好(比如在數(shù)據(jù)流上實時計算一些匯聚功能或分析)。工作于現(xiàn)有的數(shù)據(jù)全集(如數(shù)據(jù))已經(jīng)被導(dǎo)入集群,基于管理可以進(jìn)行快訊掃描,并最小化迭代算法的全局I/O操作。窗口(),而后者需要自己去維護(hù)這個窗口。窗口(),而后者需要自己去維護(hù)這個窗口。不過流模塊()倒是和相類似(都是流計算引擎),盡管不過流模塊()倒是和相類似(都是流計算引擎),盡管并非完全一樣。流模塊先匯聚批量數(shù)據(jù)然后進(jìn)行數(shù)據(jù)塊分發(fā)(視作不可變數(shù)據(jù)進(jìn)行處理),而是只要接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論