Spark的優(yōu)勢架構(gòu)優(yōu)勢_第1頁
Spark的優(yōu)勢架構(gòu)優(yōu)勢_第2頁
Spark的優(yōu)勢架構(gòu)優(yōu)勢_第3頁
Spark的優(yōu)勢架構(gòu)優(yōu)勢_第4頁
Spark的優(yōu)勢架構(gòu)優(yōu)勢_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)計算平臺《大數(shù)據(jù)導(dǎo)論》課程IntroductiontobigdataSpark的優(yōu)勢架構(gòu)優(yōu)勢011Hadoop的局限性一個新的框架的誕生,必然是先前的框架無法滿足現(xiàn)有的需求和提高生產(chǎn)力,那么相對于spark,傳統(tǒng)的mapreduce編程有哪些局限性呢:Hadoop傳統(tǒng)MapReduce編程局限性1.繁雜:MapReduce中,只提供了倆種算子:Map和Reduce,那么基于這倆種算子面對不同的需求場景必然會使編程變得很繁雜。2.效率低下:1)進程級別低;2)基于磁盤,在迭代計算時,數(shù)據(jù)和網(wǎng)絡(luò)的頻繁IO;3)Map端和Reduce端均需要排序3.不適合迭代計算4.不適合實時流式計算Hadoop傳統(tǒng)MapReduce編程局限性2Spark優(yōu)勢速度與Hadoop的MapReduce相比,Spark基于內(nèi)存的運算要快100倍以上;而基于磁盤的運算也要快10倍以上。Spark實現(xiàn)了高效的DAG執(zhí)行引擎,可以通過基于內(nèi)存來高效地處理數(shù)據(jù)流。易用性Spark支持Java、Python和Scala的API,還支持超過80種高級算法,使用戶可以快速構(gòu)建不同應(yīng)用。而且Spark支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發(fā)非常重要。通用性Spark提供了統(tǒng)一的解決方案。Spark可以用于批處理、交互式查詢(通用SparkSQL)、實時流處理(通過SparkStreaming)、機器學習(通過SparkMLlib)和圖計算(通過SparkGraphX)。這些不同類型的處理都可以在同一應(yīng)用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺處理問題,減少開發(fā)和維護的人力成本和部署平臺的物理成本。當然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優(yōu)勢。ApacheSparkSparkSQLSparkStreamingMLlibGraphX可融合性Spark非常方便的與其他開源產(chǎn)品進行融合。比如,Spark可以使用Hadoop的YARN和ApacheMesos作為它的資源管理和調(diào)度器,并且可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、HBase和Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論