版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章大數(shù)據(jù)分析概述關(guān)于大數(shù)據(jù)分析第一部分什么是大數(shù)據(jù)分析大數(shù)據(jù)分析可視化大數(shù)據(jù)分析工具學(xué)習(xí)目標(biāo)和要求1、了解大數(shù)據(jù)分析的概念、特點、類別、優(yōu)缺點。2、知道大數(shù)據(jù)分析的相關(guān)工具。3、了解大數(shù)據(jù)分析可視化的概念及相關(guān)工具。什么是大數(shù)據(jù)分析12345Volume(容量)Velocity(速度)Variety(種類)Value(價值)Veracity(真實性)1、大數(shù)據(jù)的“5V”特征大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,大數(shù)據(jù)分析就是指對規(guī)模巨大的數(shù)據(jù)進行數(shù)據(jù)分析。什么是大數(shù)據(jù)分析2、大數(shù)據(jù)分析概念數(shù)據(jù)分析量大1234數(shù)據(jù)處理速度快數(shù)據(jù)分析類型多數(shù)據(jù)價值密度低3、大數(shù)據(jù)分析的特點BigDataAnalysis5數(shù)據(jù)的可靠性低什么是大數(shù)據(jù)分析什么是大數(shù)據(jù)分析4、大數(shù)據(jù)分析類別預(yù)測分析關(guān)注的是對未來事件的預(yù)測。預(yù)測性分析規(guī)范性分析是指在發(fā)生問題之后,根據(jù)問題診斷性分析之后,結(jié)合預(yù)測性分析,做出相應(yīng)的優(yōu)化建議和行動。規(guī)范性分析針對過去已經(jīng)發(fā)生的事情,分析該事件產(chǎn)生的原因。診斷性分析描述性分析是描述過去的數(shù)據(jù),基于歷史數(shù)據(jù)描述發(fā)生了什么,對過去的大量歷史數(shù)據(jù)進行匯總分析描述,以簡單可讀的方式進行呈現(xiàn)。描述性分析為優(yōu)質(zhì)決策提供參考;提高產(chǎn)品開發(fā)創(chuàng)新力;改善客戶服務(wù)體驗;提升風(fēng)險管理優(yōu)勢缺點信息透明化成本高數(shù)據(jù)質(zhì)量低技術(shù)更新變化快什么是大數(shù)據(jù)分析5、大數(shù)據(jù)分析的優(yōu)勢與缺點大數(shù)據(jù)分析工具(1)ApacheSpark:具有SparkSQL、Streaming實時計算、機器學(xué)習(xí)和SparkGraphX圖計算的內(nèi)置功能。(2)Hbase:HBase是一個基于HDFS的面向列的分布式數(shù)據(jù)庫。(3)Storm:Storm是流處理的代表性實現(xiàn)之一。Storm具有低延遲、高性能、分布式、可擴展、容錯、可靠性、快速等特點。(4)Flink:
Flink是一個框架和分布式處理引擎,用于在無邊界和有邊界數(shù)據(jù)流上進行有狀態(tài)的計算。1、Hadoop生態(tài)圈中的大數(shù)據(jù)分析工具123編程語言Scala語言:Scala語言是基于JVM運行環(huán)境、面向?qū)ο蠛秃瘮?shù)式編程的完美結(jié)合Python語言:Python在數(shù)據(jù)分析領(lǐng)域也是一個強大的語言工具。R語言:是大數(shù)據(jù)分析工具之一,可用于科學(xué)計算、統(tǒng)計分析、數(shù)據(jù)可視化等。大數(shù)據(jù)分析工具2、大數(shù)據(jù)分析編程語言RapidMiner其特點是拖拽操作,無需編程,運算速度快,具有豐富數(shù)據(jù)挖掘分析和算法功能,常用于解決各種商業(yè)關(guān)鍵問題。12MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。旨在為WEB應(yīng)用提供可擴展的高性能數(shù)據(jù)存儲解決方案。大數(shù)據(jù)分析工具3、其他工具
數(shù)據(jù)可視化是利用計算機以圖形圖表的形式將原始的抽象信息和數(shù)據(jù)直觀的表示出來。
大數(shù)據(jù)分析可視化工具有很多,比如Zeppelin、PowerBI、Tableau、Spass等等。大數(shù)據(jù)分析可視化認識SparkSQL第二部分SparkSQL背景簡介SparkSQL運行原理學(xué)習(xí)目標(biāo)和要求1、了解SparkSQL的背景、特點。2、知道SparkSQL的運行架構(gòu)。3、掌握Catalyst查詢編譯器的工作流程。4、掌握SparkSQL運行流程。HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook開發(fā)的構(gòu)建于Hadoop集群之上的數(shù)據(jù)倉庫應(yīng)用,它提供了類似于SQL語句的HQL語句作為數(shù)據(jù)訪問接口脫離了Hive的依賴,SparkSQL在數(shù)據(jù)兼容、組件擴展、性能優(yōu)化方面都得到了極大的提升。Shark是使用Scala語言開發(fā)的開源SQL查詢引擎。其設(shè)計目標(biāo)是作為Hive的補充,性能比Hive提高了10-100倍。但是Shark對于Hive依舊存在很多的依賴。SparkSQL背景簡介1、SparkSQL的背景多種性能優(yōu)化技術(shù)組件擴展性用戶可以對SQL的語法解析器、分析器以及優(yōu)化器進行重新定義和開發(fā),并動態(tài)擴展。采用內(nèi)存列存儲(In-MemoryColumnarStorage),字節(jié)碼生成技術(shù)(byte-codegeneration),CostModel對查詢操作進行動態(tài)評估、獲取最佳物理計劃等。支持多種數(shù)據(jù)源可以在Hive上運行SQL或者HQL;可以從RDD、parquet文件、JSON文件中獲取數(shù)據(jù)。SparkSQL背景簡介2、SparkSQL的特點SparkSQL背景簡介多種性能優(yōu)化技術(shù)內(nèi)存列存儲(In-MemoryColumnarStorage)JVM對象存儲和內(nèi)存列存儲對比SparkSQL背景簡介多種性能優(yōu)化技術(shù)字節(jié)碼生成技術(shù)(byte-codegeneration)例如執(zhí)行selecta+bfromtable這條命令通用的SQL方法:首先將生成一個表達式,并多次調(diào)用虛函數(shù)。SparkSQL:在其catalyst模塊的expressions中增加了codegen模塊。使用動態(tài)字節(jié)碼生成技術(shù)來優(yōu)化其性能,對匹配的表達式采用特定的代碼動態(tài)編譯,然后運行。SparkSQL運行原理1、SparkSQL的運行架構(gòu)SparkSQL的整體架構(gòu)SparkSQL是由Catalyst,Core,Hive和Hive-Thriftserver四個子項目組成。SparkSQL運行原理(1)Catalyst:負責(zé)處理整個查詢過程,包括解析、綁定、優(yōu)化等,將SQL語句轉(zhuǎn)換成物理執(zhí)行計劃。(2)Core:用于將Catalyst的邏輯查詢計劃轉(zhuǎn)換為SparkRDD代碼。(3)Hive:Hive組件包括HiveContext和SQLContext,允許用戶使用HiveQL的子集編寫查詢。(4)Hive-Thriftserver:支持HiveServer和CLI。SparkSQL運行原理2、Catalyst查詢編譯器(1)Catalyst的組成:Parser、Analyzer、Optimizer、Planner(2)Catalyst的工作流程Catalyst運行流程SparkSQL運行原理3、SparkSQL的運行原理(1)傳統(tǒng)SQL的運行流程詞法和語法解析(Parse)綁定(Bind)優(yōu)化(Optimize)執(zhí)行(Execute)SparkSQL運行原理(2)SparkSQL運行流程SessionCatalog保存元數(shù)據(jù)ANTLR生成未綁定的邏輯計劃Analyzer綁定邏輯計劃Optimizer優(yōu)化邏輯計劃SparkPlanner生成可執(zhí)行的物理計劃CostModel選擇最佳物理執(zhí)行計劃execute執(zhí)行物理計劃小結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)資產(chǎn)轉(zhuǎn)讓協(xié)議案例
- 協(xié)議離婚中的財產(chǎn)分配協(xié)議
- 醫(yī)療機構(gòu)互惠合作協(xié)議
- 2024年工程建設(shè)項目咨詢服務(wù)合同
- 事業(yè)單位員工停薪留職合同范本2024年
- 2024年場地租賃協(xié)議
- 2024年養(yǎng)殖設(shè)備租賃合同
- 代理證券投資合作協(xié)議示范
- 企業(yè)投資合作意向協(xié)議范本
- 土墻工程承包合同專業(yè)版
- 2024年“安康杯”安全知識競賽培訓(xùn)試題及答案
- 教育部《中小學(xué)德育工作指南》-道德修養(yǎng)手冊
- 2024至2030年中國建筑設(shè)計行業(yè)市場調(diào)研分析及發(fā)展趨勢研究預(yù)測報告
- 主題人像攝影智慧樹知到答案2024年四川工商職業(yè)技術(shù)學(xué)院
- 餐飲服務(wù)食品安全規(guī)范2024
- 酒業(yè)有限公司財務(wù)管理制度方案
- 高空蜘蛛人施工專項施工方案
- 立冬主題課件
- 上海市2023-2024學(xué)年高一化學(xué)上學(xué)期期中試題
- (高清版)JTGT 3331-2024 采空區(qū)公路設(shè)計與施工技術(shù)規(guī)范
- 麻醉藥靶點的新發(fā)現(xiàn)和藥理機制
評論
0/150
提交評論