![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第1頁](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502091.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第2頁](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502092.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第3頁](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502093.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第4頁](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502094.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第5頁](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502095.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐技術(shù)創(chuàng)新,變革未來2提綱Spark 簡介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程3是什么Spark系統(tǒng)是分布式批處理系統(tǒng)和分析挖掘引擎;AMP LAB貢獻(xiàn)到Apache社區(qū)的開源項(xiàng)目,是AMP大數(shù) 據(jù)棧的基礎(chǔ)組件;做什么數(shù)據(jù)處理( Data Processing): 可以用來快速處理數(shù) 據(jù),兼具容錯(cuò)性和可擴(kuò)展性。迭代計(jì)算( Iterative Computation):支持迭代計(jì)算, 有效應(yīng)對多步的數(shù)據(jù)處理邏輯。數(shù)據(jù)挖掘( Data Mining):在海量數(shù)據(jù)基礎(chǔ)上進(jìn)行復(fù) 雜的挖掘分析,可支持各種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。Spark 簡介
2、4輕: Spark核心代碼有3萬行。Scala語言的簡潔和豐富表達(dá)力巧妙利用了Hadoop和Mesos的基礎(chǔ)設(shè)施快: Spark對小數(shù)據(jù)集可達(dá)到亞秒級的延遲,對大數(shù)據(jù)集的迭代機(jī)器 學(xué)習(xí)、即席查詢、圖計(jì)算等應(yīng)用,Spark版本比基于MR、 Hive和Pregel的實(shí)現(xiàn)快。內(nèi)存計(jì)算、數(shù)據(jù)本地性和傳輸優(yōu)化、調(diào)度優(yōu)化靈: Spark提供了不同層面的靈活性。Scala trait動(dòng)態(tài)混入策略(如可更換的集群調(diào)度器、序列化庫);允許擴(kuò)展新的數(shù)據(jù)算子、新的數(shù)據(jù)源、新的language bindings( Java和 Python);Spark支持內(nèi)存計(jì)算、多迭代批量處理、即席查詢、流處理和圖計(jì)算等多 種范式
3、。巧:巧妙借力現(xiàn)有大數(shù)據(jù)組件。Spark借Hadoop之勢,與Hadoop無縫結(jié)合;Shark借了Hive的勢;Spark 特點(diǎn)5提綱Spark 簡介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程6Spark數(shù)據(jù)共享機(jī)制iter. 1. . .InputreadHDFSwritereaditer. 2writequery 1query 2query 3result 1result 2result 3. . .HDFSread太慢,冗余讀寫、序列化、磁盤IOHDFSHDFSData Sharing in MapReduceHDFSiter. 1iter. 2. . .Inp
4、utDistributed memoryInputquery 1query 2query 3. . .one-time processing10-100 x快于網(wǎng)絡(luò)和磁盤InputData Sharing in Spark7彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)A distributed memory abstraction that lets programmers performin-memory computations on large clusters只讀的,可分區(qū)的分布式數(shù)據(jù)集只能直接通過操作符來創(chuàng)建和處理支持容錯(cuò)處理RDD 操作:Tran
5、sformation & ActionSpark 核心概念- RDDs8Spark 容錯(cuò)機(jī)制iter. 1iter. 2. . .InputDistributed memoryInputquery 1query 2query 3. . .one-time processing快的同時(shí),也要保證系統(tǒng)魯棒性血統(tǒng)關(guān)系(Lineage):記錄RDD是如何從其它RDD中演變過來的一系列操作當(dāng)這個(gè)RDD的部分分區(qū)數(shù)據(jù)丟失時(shí),它可以通過Lineage獲取足夠的信息來 重新運(yùn)算和恢復(fù)丟失的數(shù)據(jù)分區(qū)采用粗顆粒的數(shù)據(jù)模型,性能的提升9Spark 任務(wù)調(diào)度RDD ObjectsDAGSchedulerTaskSch
6、edulerWorkerrdd1.join(rdd2).groupBy().filter()build operator DAGsplit graph intostages of taskssubmit each stage as readylaunch tasks via cluster managerretry failed or straggling tasksexecute tasksstore and serve blocksDAGTaskSetCluster managerThreadsBlock managerTask10提綱Spark 簡介Spark 功能與架構(gòu)Spark 生態(tài)
7、圈介紹1234Spark 編程11Spark 生態(tài)圈MesosSpark StreamingSparkSQL (Shark)統(tǒng)一集群資源管理系統(tǒng), 支持多種計(jì)算框架共享集群,eg Hadoop, MPI通過共享集群資源和數(shù)據(jù),提高資源利用率和數(shù)據(jù)共享率目前最大部署集群為3500+節(jié)點(diǎn)支持大規(guī)模流式計(jì)算,吞吐量高于Storm基于Spark單一框架,完善Spark批處理、交互式處理和流式處理模式將流式計(jì)算分解成一系列小而確定的批處理作業(yè)Hive on Spark, 提供SQL訪問Spark內(nèi)的RDDs比Hive性能高40-100倍SparkSQL拋棄Hive,直接SQL on SparkShark
8、項(xiàng)目已經(jīng)停止,目前是單獨(dú)的SparkSQL12Spark 生態(tài)圈之GraphXBlinkDB大規(guī)模的模糊查詢引擎允許用戶在準(zhǔn)確率和響應(yīng)時(shí)間作出權(quán)衡主要是facebook在使用和維護(hù)快速的圖計(jì)算框架,性能優(yōu)于Giraph和GraphLab提供GraphLib和APIGraphXMLBase(MLlib)基于Spark的機(jī)器學(xué)習(xí)算法包支持可擴(kuò)展的機(jī)器學(xué)習(xí)算法13提綱Spark 簡介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程14Spark提供 Java,Python, Scala三種語言的編程接口,官網(wǎng)上有詳細(xì)的Api 文檔Spark提出的最主要抽象概念是彈性分布式數(shù)據(jù)集 (resilient distributed dataset,RDD),它是一個(gè)元素集合,劃分到集群的各個(gè)節(jié)點(diǎn)上,可以被并行 操作。每個(gè)RDD都封裝了不同的操作,開發(fā)者通過合理組合,應(yīng)用這些RDD函數(shù)來實(shí)現(xiàn)需求功能。Spark提供的API主要分為兩類:轉(zhuǎn)換(transformation ):用來創(chuàng)建新的RD
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年三年級語文下冊第七單元23海底世界說課稿新人教版
- 2024-2025學(xué)年七年級數(shù)學(xué)上冊第二章有理數(shù)及其運(yùn)算2.2數(shù)軸教案新版北師大版
- 阿長與《山海經(jīng)》公開課一等獎(jiǎng)創(chuàng)新教案
- 2025年春統(tǒng)編版語文一年級下冊第八單元單元任務(wù)群整體公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)
- 太原師范學(xué)院《內(nèi)科臨床實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海思博職業(yè)技術(shù)學(xué)院《嵌入式系統(tǒng)原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 南開大學(xué)《建筑制圖一》2023-2024學(xué)年第二學(xué)期期末試卷
- 小學(xué)英語教研期末復(fù)習(xí)要點(diǎn)計(jì)劃月歷表(29篇)
- 甘肅農(nóng)業(yè)職業(yè)技術(shù)學(xué)院《石油工程風(fēng)險(xiǎn)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年叔丁基苯酚合作協(xié)議書
- GB 12710-2024焦化安全規(guī)范
- GB/T 8151.13-2012鋅精礦化學(xué)分析方法第13部分:鍺量的測定氫化物發(fā)生-原子熒光光譜法和苯芴酮分光光度法
- 2023年遼寧鐵道職業(yè)技術(shù)學(xué)院高職單招(英語)試題庫含答案解析
- GB/T 23800-2009有機(jī)熱載體熱穩(wěn)定性測定法
- T-SFSF 000012-2021 食品生產(chǎn)企業(yè)有害生物風(fēng)險(xiǎn)管理指南
- 2023年上海市閔行區(qū)精神衛(wèi)生中心醫(yī)護(hù)人員招聘筆試題庫及答案解析
- 水庫工程施工組織設(shè)計(jì)
- 氣流粉碎機(jī)課件
- 梁若瑜著-十二宮六七二象書增注版
- SJG 74-2020 深圳市安裝工程消耗量定額-高清現(xiàn)行
- 2017年安徽省中考數(shù)學(xué)試卷及答案解析
評論
0/150
提交評論