大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-11-07 格式：PPTX 頁數(shù)：59 大?。?.58MB 積分：25 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第2頁

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第3頁

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第4頁

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第5頁

已閱讀5頁，還剩54頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章大數(shù)據(jù)分析概述關(guān)于大數(shù)據(jù)分析第一部分什么是大數(shù)據(jù)分析大數(shù)據(jù)分析可視化大數(shù)據(jù)分析工具學(xué)習(xí)目標(biāo)和要求1、了解大數(shù)據(jù)分析的概念、特點(diǎn)、類別、優(yōu)缺點(diǎn)。2、知道大數(shù)據(jù)分析的相關(guān)工具。3、了解大數(shù)據(jù)分析可視化的概念及相關(guān)工具。什么是大數(shù)據(jù)分析12345Volume（容量）Velocity（速度）Variety（種類）Value（價(jià)值）Veracity（真實(shí)性）1、大數(shù)據(jù)的“5V”特征大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，大數(shù)據(jù)分析就是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。什么是大數(shù)據(jù)分析2、大數(shù)據(jù)分析概念數(shù)據(jù)分析量大1234數(shù)據(jù)處理速度快數(shù)據(jù)分析類型多數(shù)據(jù)價(jià)值密度低3、大數(shù)據(jù)分析的特點(diǎn)BigDataAnalysis5數(shù)據(jù)的可靠性低什么是大數(shù)據(jù)分析什么是大數(shù)據(jù)分析4、大數(shù)據(jù)分析類別預(yù)測分析關(guān)注的是對(duì)未來事件的預(yù)測。預(yù)測性分析規(guī)范性分析是指在發(fā)生問題之后，根據(jù)問題診斷性分析之后，結(jié)合預(yù)測性分析，做出相應(yīng)的優(yōu)化建議和行動(dòng)。規(guī)范性分析針對(duì)過去已經(jīng)發(fā)生的事情，分析該事件產(chǎn)生的原因。診斷性分析描述性分析是描述過去的數(shù)據(jù)，基于歷史數(shù)據(jù)描述發(fā)生了什么，對(duì)過去的大量歷史數(shù)據(jù)進(jìn)行匯總分析描述，以簡單可讀的方式進(jìn)行呈現(xiàn)。描述性分析為優(yōu)質(zhì)決策提供參考；提高產(chǎn)品開發(fā)創(chuàng)新力；改善客戶服務(wù)體驗(yàn)；提升風(fēng)險(xiǎn)管理優(yōu)勢(shì)缺點(diǎn)信息透明化成本高數(shù)據(jù)質(zhì)量低技術(shù)更新變化快什么是大數(shù)據(jù)分析5、大數(shù)據(jù)分析的優(yōu)勢(shì)與缺點(diǎn)大數(shù)據(jù)分析工具（1）ApacheSpark：具有SparkSQL、Streaming實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)和SparkGraphX圖計(jì)算的內(nèi)置功能。（2）Hbase：HBase是一個(gè)基于HDFS的面向列的分布式數(shù)據(jù)庫。（3）Storm：Storm是流處理的代表性實(shí)現(xiàn)之一。Storm具有低延遲、高性能、分布式、可擴(kuò)展、容錯(cuò)、可靠性、快速等特點(diǎn)。（4）Flink：

Flink是一個(gè)框架和分布式處理引擎，用于在無邊界和有邊界數(shù)據(jù)流上進(jìn)行有狀態(tài)的計(jì)算。1、Hadoop生態(tài)圈中的大數(shù)據(jù)分析工具123編程語言Scala語言：Scala語言是基于JVM運(yùn)行環(huán)境、面向?qū)ο蠛秃瘮?shù)式編程的完美結(jié)合Python語言：Python在數(shù)據(jù)分析領(lǐng)域也是一個(gè)強(qiáng)大的語言工具。R語言：是大數(shù)據(jù)分析工具之一，可用于科學(xué)計(jì)算、統(tǒng)計(jì)分析、數(shù)據(jù)可視化等。大數(shù)據(jù)分析工具2、大數(shù)據(jù)分析編程語言RapidMiner其特點(diǎn)是拖拽操作，無需編程，運(yùn)算速度快，具有豐富數(shù)據(jù)挖掘分析和算法功能，常用于解決各種商業(yè)關(guān)鍵問題。12MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫。旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。大數(shù)據(jù)分析工具3、其他工具

數(shù)據(jù)可視化是利用計(jì)算機(jī)以圖形圖表的形式將原始的抽象信息和數(shù)據(jù)直觀的表示出來。

大數(shù)據(jù)分析可視化工具有很多，比如Zeppelin、PowerBI、Tableau、Spass等等。大數(shù)據(jù)分析可視化認(rèn)識(shí)SparkSQL第二部分SparkSQL背景簡介SparkSQL運(yùn)行原理學(xué)習(xí)目標(biāo)和要求1、了解SparkSQL的背景、特點(diǎn)。2、知道SparkSQL的運(yùn)行架構(gòu)。3、掌握Catalyst查詢編譯器的工作流程。4、掌握SparkSQL運(yùn)行流程。HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook開發(fā)的構(gòu)建于Hadoop集群之上的數(shù)據(jù)倉庫應(yīng)用，它提供了類似于SQL語句的HQL語句作為數(shù)據(jù)訪問接口脫離了Hive的依賴，SparkSQL在數(shù)據(jù)兼容、組件擴(kuò)展、性能優(yōu)化方面都得到了極大的提升。Shark是使用Scala語言開發(fā)的開源SQL查詢引擎。其設(shè)計(jì)目標(biāo)是作為Hive的補(bǔ)充，性能比Hive提高了10-100倍。但是Shark對(duì)于Hive依舊存在很多的依賴。SparkSQL背景簡介1、SparkSQL的背景多種性能優(yōu)化技術(shù)組件擴(kuò)展性用戶可以對(duì)SQL的語法解析器、分析器以及優(yōu)化器進(jìn)行重新定義和開發(fā)，并動(dòng)態(tài)擴(kuò)展。采用內(nèi)存列存儲(chǔ)（In-MemoryColumnarStorage），字節(jié)碼生成技術(shù)（byte-codegeneration），CostModel對(duì)查詢操作進(jìn)行動(dòng)態(tài)評(píng)估、獲取最佳物理計(jì)劃等。支持多種數(shù)據(jù)源可以在Hive上運(yùn)行SQL或者HQL;可以從RDD、parquet文件、JSON文件中獲取數(shù)據(jù)。SparkSQL背景簡介2、SparkSQL的特點(diǎn)SparkSQL背景簡介多種性能優(yōu)化技術(shù)內(nèi)存列存儲(chǔ)（In-MemoryColumnarStorage）JVM對(duì)象存儲(chǔ)和內(nèi)存列存儲(chǔ)對(duì)比SparkSQL背景簡介多種性能優(yōu)化技術(shù)字節(jié)碼生成技術(shù)（byte-codegeneration）例如執(zhí)行selecta+bfromtable這條命令通用的SQL方法：首先將生成一個(gè)表達(dá)式，并多次調(diào)用虛函數(shù)。SparkSQL：在其catalyst模塊的expressions中增加了codegen模塊。使用動(dòng)態(tài)字節(jié)碼生成技術(shù)來優(yōu)化其性能，對(duì)匹配的表達(dá)式采用特定的代碼動(dòng)態(tài)編譯，然后運(yùn)行。SparkSQL運(yùn)行原理1、SparkSQL的運(yùn)行架構(gòu)SparkSQL的整體架構(gòu)SparkSQL是由Catalyst，Core，Hive和Hive-Thriftserver四個(gè)子項(xiàng)目組成。SparkSQL運(yùn)行原理（1）Catalyst：負(fù)責(zé)處理整個(gè)查詢過程，包括解析、綁定、優(yōu)化等，將SQL語句轉(zhuǎn)換成物理執(zhí)行計(jì)劃。（2）Core：用于將Catalyst的邏輯查詢計(jì)劃轉(zhuǎn)換為SparkRDD代碼。（3）Hive：Hive組件包括HiveContext和SQLContext，允許用戶使用HiveQL的子集編寫查詢。（4）Hive-Thriftserver：支持HiveServer和CLI。SparkSQL運(yùn)行原理2、Catalyst查詢編譯器（1）Catalyst的組成：Parser、Analyzer、Optimizer、Planner（2）Catalyst的工作流程Catalyst運(yùn)行流程SparkSQL運(yùn)行原理3、SparkSQL的運(yùn)行原理（1）傳統(tǒng)SQL的運(yùn)行流程詞法和語法解析（Parse）綁定（Bind）優(yōu)化（Optimize）執(zhí)行（Execute）SparkSQL運(yùn)行原理（2）SparkSQL運(yùn)行流程SessionCatalog保存元數(shù)據(jù)ANTLR生成未綁定的邏輯計(jì)劃Analyzer綁定邏輯計(jì)劃Optimizer優(yōu)化邏輯計(jì)劃SparkPlanner生成可執(zhí)行的物理計(jì)劃CostModel選擇最佳物理執(zhí)行計(jì)劃execute執(zhí)行物理計(jì)劃小結(jié)

本章首先對(duì)大數(shù)據(jù)分析進(jìn)行了介紹，詳細(xì)闡述了大數(shù)據(jù)分析的相關(guān)概念、特點(diǎn)、類別及優(yōu)缺點(diǎn)；簡單介紹了大數(shù)據(jù)分析的常用工具；并對(duì)大數(shù)據(jù)分析可視化的優(yōu)勢(shì)價(jià)值等進(jìn)行了分析。然后對(duì)大數(shù)據(jù)分析工具中的SparkSQL展開了詳盡的描述，包括SparkSQL的發(fā)展演變歷程、特點(diǎn)、運(yùn)行架構(gòu)原理等內(nèi)容。THANKS!第2章實(shí)踐環(huán)境準(zhǔn)備Hadoop集群環(huán)境搭建第一部分環(huán)境準(zhǔn)備啟動(dòng)Hadoop集群運(yùn)行經(jīng)典案例wordcount安裝Hadoop學(xué)習(xí)目標(biāo)和要求1、掌握Hadoop集群環(huán)境搭建的環(huán)境準(zhǔn)備工作，包括配置主機(jī)名、防火墻設(shè)置、免密登錄設(shè)置、Java環(huán)境設(shè)置。2、掌握安裝Hadoop的過程、配置文件設(shè)置及啟動(dòng)集群的方法。3、會(huì)在Hadoop集群運(yùn)行經(jīng)典案例wordcount。環(huán)境準(zhǔn)備1、集群節(jié)點(diǎn)規(guī)劃此集群由三個(gè)節(jié)點(diǎn)構(gòu)成，分別是master、slaver01、slaver02。集群搭建部署均在虛擬機(jī)中完成，使用VMwareWorkstation16Pro虛擬計(jì)算機(jī)軟件。環(huán)境準(zhǔn)備2、配置主機(jī)名和IP（1）修改對(duì)應(yīng)虛擬機(jī)的IP地址：

vi/etc/sysconfig/network-scripts/ifcfg-ens33（2）將三臺(tái)虛擬機(jī)的主機(jī)名修改為master、slaver01、slaver02。

hostnamectlset-hostname主機(jī)名（3）重啟網(wǎng)絡(luò)，使網(wǎng)絡(luò)配置生效。

systemctlrestartnetwork環(huán)境準(zhǔn)備3、連接MobaXterm終端工具使用MobaXterm終端工具，為master、slaver01和slaver02創(chuàng)建SSH連接。環(huán)境準(zhǔn)備4、關(guān)閉防火墻

防火墻是對(duì)服務(wù)器進(jìn)行保護(hù)的一種服務(wù)，但有時(shí)候會(huì)帶來很多麻煩，它會(huì)妨礙Hadoop集群間的相互通信，所以我們要關(guān)閉防火墻。關(guān)閉master、slaver01和slaver02主機(jī)的防火墻，并設(shè)置開機(jī)不自啟。systemctlstatusfirewalldsystemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalld環(huán)境準(zhǔn)備5、關(guān)閉SElinuxSELINUX是對(duì)系統(tǒng)安全級(jí)別更細(xì)粒度的設(shè)置。關(guān)閉master、slaver01和slaver02主機(jī)的SElinux。vi/etc/sysconfig/selinux環(huán)境準(zhǔn)備6、修改/etc/hosts文件修改master、slaver01和slaver02主機(jī)的/etc/hosts文件，建立主機(jī)和ip地址之間的映射關(guān)系。vi/etc/hosts7、配置免密登錄首先在master節(jié)點(diǎn)創(chuàng)建生成密鑰。將密鑰拷貝到slaver01和slaver02兩個(gè)節(jié)點(diǎn)，完成免密登錄配置。環(huán)境準(zhǔn)備8、配置Java環(huán)境在master節(jié)點(diǎn)上傳JDK軟件包并解壓。在.bash_profile文件中配置環(huán)境變量。使用source.bash_profile命令，使.bash_profile文件配置生效。查看Java版本，驗(yàn)證安裝成功。使用scp命令將jdk解壓安裝相關(guān)文件分發(fā)到slaver01和slaver02節(jié)點(diǎn)。安裝Hadoop

由于三個(gè)節(jié)點(diǎn)都需要安裝Hadoop，為了提高部署效率，先在master節(jié)點(diǎn)進(jìn)行部署安裝，然后將相關(guān)的文件和配置拷貝分發(fā)到另外兩個(gè)節(jié)點(diǎn)中。上傳Hadoop安裝包并解壓。修改環(huán)境變量。使環(huán)境變量生效。修改hadoop的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers。分發(fā)Hadoop和環(huán)境變量文件到slaver01和slaver02。格式化HDFS文件系統(tǒng)。啟動(dòng)Hadoop集群1、啟動(dòng)Hadoop集群只需要在master節(jié)點(diǎn)輸入start-all.sh。接著查看各節(jié)點(diǎn)的服務(wù)進(jìn)程。2、打開Google瀏覽器，輸入地址30:8088，可以打開Yarn頁面。3、輸入地址30:9870，可以打開HDFS頁面。案例wordcount通過經(jīng)典案例wordcount，體驗(yàn)Hadoop運(yùn)行MapReduce計(jì)算。1、在本地root目錄下創(chuàng)建一個(gè)txt文件，輸入一段自定義文字。2、上傳文本到到hdfs。案例wordcount3、運(yùn)行命令并查看結(jié)果hadoopjarhadoop-mapreduce-examples-3.2.1.jarwordcount/input/outputSpark集群部署與使用第二部分Spark安裝啟動(dòng)SparkSpark集群測試學(xué)習(xí)目標(biāo)和要求1、掌握Spark集群安裝配置方法。2、會(huì)啟動(dòng)關(guān)閉Spark集群。3、能使用Spark-shell進(jìn)行簡單編程測試。Spark安裝1、上傳軟件包使用MobaXterm工具，將軟件包上傳至master節(jié)點(diǎn)的root目錄下，然后將其解壓到/usr/local目錄中。Spark安裝2、在.bash_profile文件中修改環(huán)境變量執(zhí)行source.bash_profile使環(huán)境變量生效Spark安裝3、修改Spark配置文件（1）配置spark-env.sh文件（2）配置workers文件4、復(fù)制修改spark啟動(dòng)腳本，避免和hadoop的啟動(dòng)腳本沖突。5、分發(fā)Spark安裝文件到slaver01和slaver02。啟動(dòng)Spark1、在master節(jié)點(diǎn)輸入start-spark-all.sh，啟動(dòng)Spark。2、查看各節(jié)點(diǎn)服務(wù)進(jìn)程狀態(tài)（此處已經(jīng)啟動(dòng)Hadoop集群）啟動(dòng)Spark3、Web查看Spark主頁情況在瀏覽器中輸入地址30:8080/，進(jìn)行查看。Spark集群測試1、使用spark-submit工具提交Spark作業(yè)spark-submit提交任務(wù)及參數(shù)說明：--class：應(yīng)用程序的主類，僅針對(duì)java或scala應(yīng)用。--master：master的地址，提交任務(wù)到哪里執(zhí)行，例如spark://host:port,yarn,local。--driver-memory：driver進(jìn)程所使用的內(nèi)存數(shù)量，以字節(jié)為單位?？梢灾付ú煌暮缶Y如“512m”或“15g”，默認(rèn)是1G。--executor-memory：executor使用的內(nèi)存數(shù)量，以字節(jié)為單位?？梢灾付ú煌暮缶Y如“512m”或“15g”，默認(rèn)是1G。--total-executor-cores：所有executor

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備

文檔簡介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版） 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)（微課版）課件許慧第1、2章大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備