isc306大數(shù)據(jù)分析核心架構二_第1頁
isc306大數(shù)據(jù)分析核心架構二_第2頁
isc306大數(shù)據(jù)分析核心架構二_第3頁
isc306大數(shù)據(jù)分析核心架構二_第4頁
isc306大數(shù)據(jù)分析核心架構二_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息系統(tǒng)安全與對抗實踐大數(shù)據(jù)分析核心架構(二)Spark簡介Spark最初由加州伯克利大學(UCBerkeley)的AMP于2009年開發(fā),是基于內存計算的大數(shù)據(jù)并行計算框架,可用于構建大型的、低延遲的數(shù)據(jù)分析應用程序Spark簡介Spark具有如下幾個主要特點運行速度快:使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內存計算容易使用:支持使用Scala、Java、過Spark Shell進行交互式編程和R語言進行編程,可以通通用性:Spark提供了完整而強大的技術棧,機器學習和圖算法組件、流式計算、SQL運行模式多樣:可運行于的集群模式中,可運行于Hadoop中,也可運行于Amazon EC2等云環(huán)境

2、中,并且可以HBase、Hive等多種數(shù)據(jù)源HDFS、Cassandra、Spark簡介SparkHadoop2014年1月2014年7月2015年1月2015年7月2016年1月2013年7月谷歌趨勢:Spark與Hadoop對比Scala簡介Scala是一門現(xiàn)代的多范式編程語言,運行于Java平臺(JVM, Java虛擬機),并兼容現(xiàn)有的Java程序Spark與Hadoop的對比HSFSHSFS寫入HSFS讀取HSFS寫入讀取迭代1迭代2輸入查詢1結果1結果2存儲計算查詢2輸入(a)Hadoop MapReduce 執(zhí)行流程存儲在內存中讀取內存存儲在內存中讀取迭代1迭代2輸入內存計算查詢1

3、結果1存儲在內存中查詢2(b)Spark 執(zhí)行流程Hadoop與Spark的執(zhí)行流程對比結果2輸入Spark系統(tǒng)Spark的設計遵循“一個棧滿足不同應用場景”的理念,逐漸形成了一套完整的系統(tǒng)基本概念RDD:Resillient Distributed Dataset(彈性分布式數(shù)據(jù)集)的,是分布式內存的一個抽象概念,提供了一種高度受限的共享內存模型小結SparkSpark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集操作類型從BigTable說起B(yǎng)igTable是一個分布式系統(tǒng)BigTable起初用于解決典型的互聯(lián)網搜索問題從BigTable說起B(yǎng)i

4、gTable是一個分布式系統(tǒng)擴展到PB級別的數(shù)據(jù)和上千臺機器谷歌的許多項目都在BigTable中BigTable起初用于解決典型的互聯(lián)網搜索問題HBase簡介谷歌BigTable的開源實現(xiàn),主要用來數(shù)據(jù)非結構化和半結構化的松散HBase的目標是處理非常龐大的表,可以通過水平擴展的方式,利用廉價計算機集群處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素組成的數(shù)據(jù)表HBase簡介Hadoop很好解決了大規(guī)模數(shù)據(jù)的離線批量處理問題,受限于MapReduce編程框架的高延遲數(shù)據(jù)處理機制,使得Hadoop時處理需求大規(guī)模數(shù)據(jù)實Hbase表的特點大:一個表可以有數(shù)十億行,上百萬列無模式:每行都有一個可排序的主鍵和任意

5、多的列,列可以根據(jù)需要動態(tài)的增加,同一張表中不同的行可以有截然不同的列面向列:面向列(族)的稀疏:空(null)列并不占用和權限,列(族)檢索空間,表可以設計的非常稀疏Hive簡介支持大規(guī)模數(shù)據(jù)、分析,具有良可擴展性和處理數(shù)據(jù)可以看作是用戶編程接口,本身不依賴分布式文件系統(tǒng)HDFS數(shù)據(jù)依賴分布式并行計算模型MapReduce處理數(shù)據(jù)Hive在企業(yè)中的部署和應用應用層Hadoop數(shù)據(jù)倉庫企業(yè)中一種常見的大數(shù)據(jù)分析平臺部署框架HadoopMahoutHBaseImpala簡介Impala是由Cloudera公司開發(fā)的新型系統(tǒng),它提供SQL語義,能在Hadoop的HDFS和HBase上的PB級大數(shù)據(jù),在性能上比Hive高出330倍小結HIVEHive是一個構建于Hadoop頂層的數(shù)據(jù)倉庫工具,主要用于對在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論