簡析Spark的發(fā)展歷程ppt課件_第1頁
簡析Spark的發(fā)展歷程ppt課件_第2頁
簡析Spark的發(fā)展歷程ppt課件_第3頁
簡析Spark的發(fā)展歷程ppt課件_第4頁
簡析Spark的發(fā)展歷程ppt課件_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、簡析spark -高效的分布式計(jì)算架構(gòu)Life is short,you need spark!.Spark簡介與體系架構(gòu)Spark的安裝與配置Spark的開發(fā)與運(yùn)用Life is short,you need spark!.Spark簡介與體系架構(gòu)Spark的安裝與配置Spark的開發(fā)與運(yùn)用Life is short,you need spark!.Spark是一個(gè)高速,通用大數(shù)據(jù)計(jì)算處置引擎。的官方定義官方網(wǎng)址/.Spark的開展歷史2021誕生于伯克利大學(xué)2021正式開源2021成為Apache基金工程2021發(fā)布2.0版本.Spark開展中的學(xué)術(shù)奉獻(xiàn)“D

2、iscretized Streams: Fault-Tolerant Streaming Computation at Scale. Matei Zaharia, Tathagata Das, Haoyuan Li, Timothy Hunter, Scott Shenker, Ion Stoica. SOSP 2021. November 2021.“Shark: SQL and Rich Analytics at Scale. Reynold Xin, Joshua Rosen, Matei Zaharia, Michael J. Franklin, Scott Shenker, Ion

3、Stoica. SIGMOD 2021. June 2021.“Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters. Matei Zaharia, Tathagata Das, Haoyuan Li, Scott Shenker, Ion Stoica. HotCloud 2021. June 2021.“Shark: Fast Data Analysis Using Coarse-grained Distributed Memory (demo)

4、. Cliff Engle, Antonio Lupher, Reynold Xin, Matei Zaharia, Haoyuan Li, Scott Shenker, Ion Stoica. SIGMOD 2021. May 2021. Best Demo Award.“Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin

5、 Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NSDI 2021. April 2021. Best Paper Award and Honorable Mention for Community Award.“Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotCloud 2021. June

6、2021.Spark開展中的學(xué)術(shù)奉獻(xiàn) Spark主要奠基者如今Spark是在其博士論文的根底上開展而來的“An Architecture for Fast and General Data Processing on Large Clusters.Spark的版本開展在開源社區(qū)的奉獻(xiàn)下Spark版本更新速度很快,平均1-2個(gè)月就推出一個(gè)新版本.Spark的體系架構(gòu)被稱為Spark core,是其最中心的部分,包含了Spark最根本、最中心的功能和根本分布式算子。Spark core 的根本功能有義務(wù)調(diào)度、內(nèi)存管理、缺點(diǎn)恢復(fù)以及和存儲系統(tǒng)的交互。.Spark的體系架構(gòu)數(shù)據(jù)選集被分割為多個(gè)數(shù)據(jù)子集

7、Sparkcore RDD (resilient distributed dataset) 是Spark的中心概念,指的是一個(gè)只讀的,可分區(qū)的分布式數(shù)據(jù)集分布式彈性數(shù)據(jù)集,這個(gè)數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計(jì)算間重用。Spark的中心思緒就是將數(shù)據(jù)集緩存在內(nèi)存中加快讀取速度,同時(shí)用RDD以較小的性能代價(jià)保證數(shù)據(jù)的魯棒性RDDRDD都是可序列化的,在內(nèi)存缺乏時(shí)可自動(dòng)降級為磁盤存儲計(jì)算的中間結(jié)果會被保管,出錯(cuò)后可以方便地重新調(diào)度.Spark的體系架構(gòu)Spark SQL用于分布式構(gòu)造化數(shù)據(jù)的SQL查詢與分析,在編寫程序中,可以直接運(yùn)用SQL語句.Spark的體系架構(gòu)Spark Strea

8、ming是用于處置流數(shù)據(jù)的分布式流處置框架,它將數(shù)據(jù)流以時(shí)間片為單位進(jìn)展分割構(gòu)成RDD,可以以較小的時(shí)間間隔對流數(shù)據(jù)進(jìn)展處置,從嚴(yán)厲意義上說是一個(gè)準(zhǔn)實(shí)時(shí)處置系統(tǒng)。.Spark的體系架構(gòu)Mllib是一個(gè)分布式機(jī)器學(xué)習(xí)庫,在Spark平臺上對一些常用的機(jī)器學(xué)習(xí)算法進(jìn)展了分布式實(shí)現(xiàn),如今都包括:分類、回歸、聚類、決策樹等等。.Spark的體系架構(gòu)GraphX是一個(gè)分布式圖處置框架,在Spark上實(shí)現(xiàn)了大規(guī)模圖計(jì)算的功能,提供了對圖計(jì)算和圖發(fā)掘的各種接口。.使用場景時(shí)間跨度同類框架使用Spark復(fù)雜的批量數(shù)據(jù)處理小時(shí)級MapReduce(Hive)Spark基于歷史數(shù)據(jù)的交互式查詢分鐘級,秒級Impa

9、laSpark SQL基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理秒級StormSpark Streaming基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘-MahoutSpark MLlib基于增量數(shù)據(jù)的機(jī)器學(xué)習(xí)-Spark Streaming+MLlibSpark的體系架構(gòu)在特定的運(yùn)用場景下,Spark提供的處理方案不一定是最優(yōu),比如在實(shí)時(shí)數(shù)據(jù)流處置中,相比于Spark Streaming,Storm的實(shí)時(shí)性更強(qiáng)、時(shí)間切片更小,但Spark模塊間的數(shù)據(jù)可以無縫結(jié)合,因此Spark生態(tài)體系可以為大數(shù)據(jù)的處置、分析提供一站式處理方案。.Spark簡介與體系架構(gòu)Spark的安裝與配置Spark的開發(fā)與運(yùn)用Life is short,you

10、 need spark!.Spark的安裝與配置Spark支持在多種操作系統(tǒng)上安裝和運(yùn)用,包括Windows、Linux、Ubuntu以及蘋果的Mac OS 等等。目前運(yùn)用最廣泛的是Linux和Ubuntu。緣由是其安裝配置方便。.Spark的安裝與配置將Spark部署一臺單機(jī)系統(tǒng)中,需求安裝的軟件為 -Ubuntu -jdk -Hadoop-2.4.0 此為穩(wěn)定版本 -Scala 編譯spark的言語環(huán)境 -spark-bin-hadoop2.4 Spark的開源代碼 -Spark開發(fā)環(huán)境以及IDE.Spark的安裝與配置1、安裝JDK,配置Java運(yùn)轉(zhuǎn)環(huán)境 測試jdk能否安裝勝利:.Spa

11、rk的安裝與配置2、安裝Hadoop,配置環(huán)境變量 測試hdfs能否配置勝利:.Spark的安裝與配置2、安裝Hadoop,配置環(huán)境變量 測試hdfs能否配置勝利:.Spark的安裝與配置3、安裝Scala,配置相應(yīng)環(huán)境變量 測試Scala安裝能否勝利:.Spark的安裝與配置4、安裝Spark,配置環(huán)境變量 測試Spark能否安裝勝利:.Spark的安裝與配置4、安裝Spark,配置環(huán)境變量 測試Spark能否安裝勝利:.Spark簡介與體系架構(gòu)Spark的安裝與配置Spark的開發(fā)與運(yùn)用Life is short,you need spark!.Spark的開發(fā)與運(yùn)用可以運(yùn)用多種編程言語編寫Spark運(yùn)用,包括Java、Scala、Python和R。其中Scala是Spark框架的開發(fā)言語,所以運(yùn)用Scala言語可以和Spark的源代碼進(jìn)展更好的無縫結(jié)合,更方便調(diào)用其相關(guān)功能。.Spar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論