PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-03-16 格式：PPTX 頁數(shù)：61 大?。?.26MB 積分：12 舉報(bào) 版權(quán)申訴

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第2頁

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第3頁

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第4頁

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第5頁

已閱讀5頁，還剩56頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

搭建分布式模式的PySpark開發(fā)環(huán)境為了搭建分布式模式的PySpark開發(fā)環(huán)境，需要準(zhǔn)備如下安裝包。搭建分布式模式的PySpark開發(fā)環(huán)境安裝包版本備注VirtualBox6.1.22虛擬機(jī)軟件Sparkspark-3.1.1-bin-hadoop3.2Spark運(yùn)行環(huán)境CentOSCentOS-7-x86_64-DVD-2009安裝Linux操作系統(tǒng)JDKjdk-8u281Java運(yùn)行環(huán)境，Spark的運(yùn)行需要jdk的支持AnacondaAnaconda3-2020.11Python的包管理器和環(huán)境管理器Hadoop3.2.2提供HDFS分布式文件系統(tǒng)支持和Hive運(yùn)行環(huán)境支持Hive3.1.1Hive運(yùn)行環(huán)境MariaDB5.5.68Hive元數(shù)據(jù)管理MySQLConnector8.0.21Hive數(shù)據(jù)庫連接工具包構(gòu)建分布式模式需要多臺(tái)計(jì)算機(jī)，將采用3臺(tái)計(jì)算機(jī)（節(jié)點(diǎn)）搭建分布式Spark集群，其中1臺(tái)作為Master節(jié)點(diǎn)，其余2臺(tái)作為Slave節(jié)點(diǎn)。為了方便搭建分布式模式開發(fā)環(huán)境，將采用VirtualBox軟件創(chuàng)建3臺(tái)虛擬主機(jī)master、slaver1和slaver2，模擬出3臺(tái)計(jì)算機(jī)搭建的分布式環(huán)境。搭建分布式模式的PySpark開發(fā)環(huán)境服務(wù)器名稱IP地址HDFS服務(wù)Spark服務(wù)YARN服務(wù)masterNameNodeDriver，WorkerYARNslaver1DataNodeWorker

slaver2DataNodeWorker

1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8本文使用VirtualBox虛擬機(jī)軟件安裝三臺(tái)虛擬機(jī)計(jì)算機(jī)，通過網(wǎng)絡(luò)將其連接在一起完成分布式集群搭建。VirtualBox網(wǎng)站（/）安裝配置虛擬機(jī)要將3臺(tái)虛擬機(jī)通過網(wǎng)絡(luò)連接在一起完成集群搭建，需要為虛擬機(jī)創(chuàng)建網(wǎng)絡(luò)。VirtualBox提供多種網(wǎng)絡(luò)模式，在不同網(wǎng)絡(luò)模式中主機(jī)與虛擬機(jī)，虛擬機(jī)與外部網(wǎng)絡(luò)訪問規(guī)則是不同的。本文采用最后一種網(wǎng)絡(luò)模式，NAT網(wǎng)絡(luò)創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)。1.創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)網(wǎng)絡(luò)模式虛擬機(jī)

主機(jī)虛擬機(jī)

主機(jī)虛擬機(jī)1

虛擬機(jī)2虛擬機(jī)

外部網(wǎng)絡(luò)虛擬機(jī)

外部網(wǎng)絡(luò)僅主機(jī)網(wǎng)絡(luò)（Host-only）√√√––內(nèi)部網(wǎng)絡(luò)（Internal）––√––橋接網(wǎng)絡(luò)（Bridged）√√√√√網(wǎng)絡(luò)地址轉(zhuǎn)換（NAT）√端口轉(zhuǎn)發(fā)–√端口轉(zhuǎn)發(fā)NAT網(wǎng)絡(luò)√端口轉(zhuǎn)發(fā)√√端口轉(zhuǎn)發(fā)在VirtualBox軟件菜單中選擇“管理”→“全局設(shè)置”，在VirtualBox全局設(shè)置對(duì)話框的航欄中，選擇“網(wǎng)絡(luò)”，如左圖。創(chuàng)建NAT網(wǎng)絡(luò)的名稱為“NatNetwork”以及IP地址范圍，如中、右圖。在NatNetwork中，主機(jī)訪問虛擬機(jī)需要通過端口轉(zhuǎn)發(fā)功能才能與虛擬機(jī)通信。1.創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)在VirtualBox中創(chuàng)建Linux虛擬機(jī)。選擇虛擬機(jī)中運(yùn)行的操作系統(tǒng)的類型。為虛擬機(jī)分配內(nèi)存。創(chuàng)建虛擬磁盤并指定虛擬機(jī)磁盤文件的類型和大小。2.創(chuàng)建Linux虛擬機(jī)Linux虛擬機(jī)導(dǎo)航頁面。掛載操作系統(tǒng)的安裝光盤。選擇右邊面板中的“設(shè)置”選項(xiàng)。選擇“存儲(chǔ)”選項(xiàng)下的CD/DVD圖形。2.創(chuàng)建Linux虛擬機(jī)啟動(dòng)Linux虛擬機(jī)。根據(jù)提示安裝Linux操作系統(tǒng)的安裝。2.創(chuàng)建Linux虛擬機(jī)為了能夠遠(yuǎn)程登錄主機(jī)以及集群中的各個(gè)節(jié)點(diǎn)可以相互通信，需要設(shè)置Linux虛擬機(jī)的IP。默認(rèn)情況下，Linux中網(wǎng)卡的配置文件在“/etc/sysconfig/network-scripts”目錄下，通過修改配置文件，實(shí)現(xiàn)對(duì)網(wǎng)卡的配置。編輯文件ifcfg-enp0s3。啟用網(wǎng)卡。修改主機(jī)與IP地址映射。3.設(shè)置固定IP#修改ifcfg-enp0s3ONBOOT=yesBOOTPROTO=static#添加以下內(nèi)容NM_CONTROLLED=yesIPADDR=NETMASK=GATEWAY=DNS1=masterslaver1slaver2VirtualBox為每一個(gè)虛擬機(jī)提供了一個(gè)可視化窗口，用戶可以通過該窗口與虛擬機(jī)進(jìn)行交互，也可以采用SSH服務(wù)實(shí)現(xiàn)遠(yuǎn)程登錄并對(duì)Linux進(jìn)行操作和管理。本文使用虛擬機(jī)安裝Linux，需要按照前文配置的端口轉(zhuǎn)發(fā)規(guī)則連接Linux系統(tǒng)。使用Xshell軟件連接時(shí)，主機(jī)配置為localhost，端口號(hào)配置為120。4.遠(yuǎn)程連接虛擬機(jī)本文使用的Linux為CentOS發(fā)行版本，該系統(tǒng)使用yum工具安裝軟件。如果Linux虛擬機(jī)無法連接互聯(lián)網(wǎng)，那么可以使用安裝鏡像文件（iso）中的軟件包為yum工具提供軟件包來源，從而實(shí)現(xiàn)軟件安裝。創(chuàng)建CentOS鏡像文件夾。掛載鏡像文件到media目錄。重命名yum配置文件。配置本地軟件倉庫CentOS-Media.repo文件。驗(yàn)證yum配置是否成功，如果能夠完成軟件安裝，那么表示yum配置成功。5.虛擬機(jī)在線安裝軟件1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在Java官方網(wǎng)站下載Windows版的Java安裝文件。運(yùn)行Java安裝文件，按照安裝向?qū)崾就瓿蒍ava的安裝。在Windows下安裝Java上傳JDK安裝包至虛擬機(jī)master，按“Ctrl+Alt+F”組合鍵，進(jìn)入文件傳輸對(duì)話框，左側(cè)為個(gè)人計(jì)算機(jī)的文件系統(tǒng)，右側(cè)為Linux虛擬機(jī)的文件系統(tǒng)。在左側(cè)的文件系統(tǒng)中查找到j(luò)dk-8u281-linux-x64.rpm安裝包，右鍵單擊該安裝包，選擇“傳輸(T)”命令上傳至Linux的/opt目錄下。在Linux下安裝Java在虛擬機(jī)中，執(zhí)行“cd/opt/”切換至/opt目錄，使用“rpm-ivhjdk-8u281-linux-x64.rpm”命令，安裝JDK。在Linux下安裝Java完成Java安裝后，需要配置Java的環(huán)境變量。編輯/etc/profile文件，添加JAVA_HOME環(huán)境變量，將JAVA_HOME變量內(nèi)容替換為所在主機(jī)的實(shí)際路徑，添加好后保存退出，執(zhí)行命令“source/etc/profile”使配置文件生效。驗(yàn)證Java環(huán)境安裝是否成功，可以查看Java版本。在Linux下安裝Java本文使用3臺(tái)虛擬機(jī)搭建Hadoop、Spark分布式集群，3臺(tái)虛擬機(jī)需要相同的配置，可以使用虛擬機(jī)提供的復(fù)制功能，對(duì)已經(jīng)安裝好的Linux虛擬機(jī)進(jìn)行復(fù)制，快速完成新虛擬機(jī)的創(chuàng)建。復(fù)制虛擬主機(jī)，復(fù)制成功執(zhí)行后，會(huì)生成與原虛擬機(jī)一樣的新虛擬機(jī)。復(fù)制虛擬機(jī)配置新主機(jī)的IP復(fù)制得到的主機(jī)與源主機(jī)的配置相同，3臺(tái)虛擬機(jī)啟動(dòng)后將會(huì)出現(xiàn)IP地址沖突，需要修改新虛擬機(jī)的IP地址。通過虛擬機(jī)操作界面對(duì)3臺(tái)虛擬機(jī)修改IP地址。進(jìn)入/etc/sysconfig/network-scripts/目錄，修改ifcfg-enp0s3文件中IPADDR參數(shù)。復(fù)制虛擬機(jī)Hadoop集群啟動(dòng)時(shí)，其中master節(jié)點(diǎn)會(huì)連接slaver1和slaver2主機(jī)中的服務(wù)組件（如DataNode），連接時(shí)會(huì)提示用戶輸入用戶名和密碼。為了避免每次啟動(dòng)時(shí)要輸入主機(jī)的用戶名和密碼，需要建立計(jì)算機(jī)節(jié)點(diǎn)間的互相信任機(jī)制，免密碼登錄。創(chuàng)建公鑰，在master主機(jī)中，使用ssh-keygen命令生成公鑰，命令執(zhí)行成功后會(huì)生成私有密鑰id_rsa和公有密鑰id_rsa.pub兩個(gè)文件。配置SSH免密碼登錄復(fù)制公鑰到遠(yuǎn)程主機(jī)，將生成的master主機(jī)公鑰復(fù)制至master，slaver1，slaver2中，以便master主機(jī)能免密碼登錄本機(jī)及其他主機(jī)。驗(yàn)證無密碼登錄，在master主機(jī)中，在無輸入密碼提示情況下，若登錄其他遠(yuǎn)程主機(jī)則表明無密碼登錄設(shè)置成功。配置SSH免密碼登錄在分布式系統(tǒng)中，每個(gè)節(jié)點(diǎn)都是獨(dú)立的計(jì)算機(jī)，每臺(tái)計(jì)算機(jī)的時(shí)間如果不一致會(huì)導(dǎo)致運(yùn)行在節(jié)點(diǎn)上的服務(wù)獲取其他節(jié)點(diǎn)的數(shù)據(jù)和狀態(tài)時(shí)出現(xiàn)錯(cuò)誤。安裝時(shí)間同步服務(wù)，在master主機(jī)中，使用yum工具安裝時(shí)間同步軟件ntp。配置服務(wù)，在master主機(jī)中配置ntp服務(wù)，編輯/etc/ntp.conf文件，在server部分添加內(nèi)容，并注釋掉“server0~n”該行內(nèi)容。master主機(jī)配置服務(wù)地址為，表示與本機(jī)時(shí)間同步。同步時(shí)間，使用systemctl命令啟動(dòng)ntpd服務(wù)。配置時(shí)間同步服務(wù)驗(yàn)證時(shí)間同步，在master、slaver1和slaver2主機(jī)中，使用ntpstat命令可以查看時(shí)間同步狀態(tài)。剛啟動(dòng)時(shí)間同步服務(wù)時(shí)未同步。已同步配置時(shí)間同步服務(wù)ntpstat

unsynchronizedtimeserverre-startingpollingserverevery64sntpstatsynchronisedtoNTPserver()atstratum4

timecorrecttowithin1192ms

pollingserverevery64s1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8完成Linux系統(tǒng)的安裝和配置后，將在Linux系統(tǒng)中搭建Hadoop分布式環(huán)境，Hadoop分布式環(huán)境將為Spark提供HDFS分布式文件服務(wù)。首先在Hadoop的官方網(wǎng)站中下載Hadoop安裝包，安裝包版本為3.2.2，名稱為hadoop-3.2.2.tar.gz。運(yùn)行Hadoop前，需要修改Hadoop的配置文件，以便Hadoop可以正常運(yùn)行，Hadoop的主要配置文件如下。修改配置文件文件名文件描述hadoop-env.sh記錄Hadoop要使用的環(huán)境變量hdfs-site.xmlHDFS守護(hù)進(jìn)程配置文件，包括NameNode，DataNode配置core-site.xmlHadoopCore配置文件，包括HDFS和MapReduce常用的I/O設(shè)置mapreduce-site.xmlMapReduce守護(hù)進(jìn)程配置文件yarn-site.xmlYARN資源管理器配置文件workers運(yùn)行DataNode的節(jié)點(diǎn)的機(jī)器core-site.xml文件在/opt/hadoop-3.2.2/etc/hadoop目錄中，進(jìn)入core-site.xml所在目錄，使用vi命令修改core-site.xml文件修改core-site.xml文件，fs.defaultFS表示HDFS文件系統(tǒng)的地址，其中，master是Linux主機(jī)名。修改core-site.xml文件<configuration><property><name>fs.defaultFS</name><value>hdfs://master:8020</value></property><property><name>hadoop.tmp.dir</name><value>/var/log/hadoop/tmp</value></property></configuration>修改hdfs-site.xml文件.dir表示HDFS文件系統(tǒng)的地址,master是Linux主機(jī)名dfs.datanode.data.dir表示存放HDFS文件系統(tǒng)數(shù)據(jù)文件的目錄。修改hdfs-site.xml文件<configuration><property><name>.dir</name><value>file:///data/hadoop/hdfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:///data/hadoop/hdfs/data</value></property><property><name>node.secondary.http-address</name><value>master:50090</value></property><property><name>dfs.replication</name><value>3</value></property></configuration>修改mapred-site.xml文件內(nèi)容mapreduce.jobhistory.address配置Jobhistory歷史服務(wù)器，用于查詢每個(gè)job運(yùn)行完以后的歷史日志信息。mapreduce.jobhistory.webapp.address配置Mapreduce作業(yè)記錄的web地址，用于查看歷史服務(wù)器已經(jīng)運(yùn)行完的Mapreduce作業(yè)記錄。修改mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>master:19888</value></property></configuration>修改yarn-site.xml文件內(nèi)容修改yarn-site.xml文件<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property></configuration>在hadoop-env.sh文件末尾添加Java環(huán)境變量。Hadoop集群由master，slaver1，slaver2三臺(tái)主機(jī)組成，其中slaver1，slaver2是Slave節(jié)點(diǎn)，需要在workers文件配置slave節(jié)點(diǎn)主機(jī)名。修改hadoop-env.sh文件&修改workers文件exportJAVA_HOME=/usr/java/jdk1.8.0_281-amd64#localhostslaver1slaver2配置Linux系統(tǒng)環(huán)境變量，設(shè)置Hadoop安裝包的目錄。修改/etc/profile文件exportHADOOP_HOME=/opt/hadoop-3.2.2exportPATH=$HADOOP_HOME/bin:$PATHexportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root在使用Hadoop前，需要先格式化NameNode。格式化NameNode節(jié)點(diǎn)在master節(jié)點(diǎn)配置Hadoop集群后，需要將Hadoop安裝包分發(fā)到其他節(jié)點(diǎn)上，保證所有節(jié)點(diǎn)上Hadoop的配置相同。在master主機(jī)中，使用scp命令將Hadoop安裝包分發(fā)到其他節(jié)點(diǎn)。分發(fā)Hadoop安裝包到其他節(jié)點(diǎn)啟動(dòng)Hadoop集群，在master啟動(dòng)Hadoop后，會(huì)啟動(dòng)其他節(jié)點(diǎn)的Hadoop服務(wù)，最終完成集群的啟動(dòng)。驗(yàn)證Hadoop集群運(yùn)行情況，在瀏覽器中輸入“:8088”地址，即可進(jìn)入Hadoop任務(wù)管理頁面。啟動(dòng)集群1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在master主機(jī)中，可以使用yum命令安裝MySQL數(shù)據(jù)庫。CentOS7提供MySQL分支版本MariaDB。在master主機(jī)中，啟動(dòng)MySQL服務(wù)器，然后連接MySQL數(shù)據(jù)庫。啟動(dòng)MySQL后，進(jìn)入MySQL控制臺(tái)，為root用戶分配權(quán)限并設(shè)置允許從遠(yuǎn)程主機(jī)訪問。安裝MySQL數(shù)據(jù)庫grantallprivilegeson*.*to'root'@'%'identifiedby'123456';flushprivileges;1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在Hive官方網(wǎng)站中可以下載Hive安裝包，本文使用的Hive版本為Hive3.1.1，并將Hive服務(wù)安裝在master節(jié)點(diǎn)上。解壓安裝包，將Hive安裝包解壓縮至/opt目錄中。解壓安裝包Hive需要借助數(shù)據(jù)庫存儲(chǔ)其元數(shù)據(jù)信息，在MySQL數(shù)據(jù)庫中，為Hive服務(wù)新建元數(shù)據(jù)數(shù)據(jù)庫，并分配訪問權(quán)限。復(fù)制MySQL驅(qū)動(dòng)jar包到Hive安裝目錄的lib目錄中。配置數(shù)據(jù)庫Hive安裝目錄的conf目錄下（/opt/apache-hive-3.1.1-bin/conf）存放了Hive的配置文件。進(jìn)入Hive安裝目錄的conf目錄下，再使用“cphive-env.sh.templatehive-env.sh”命令復(fù)制hive-env.sh.template配置文件并重命名為hive-env.sh。修改配置文件hive-env.sh，添加HADOOP_HOME環(huán)境變量，指定Hadoop的安裝目錄。在復(fù)制hive-default.xml.template文件并重命名為hive-site.xml。配置HiveexportHADOOP_HOME=/opt/hadoop-3.2.2hive-site.xml文件主要配置存儲(chǔ)元數(shù)據(jù)的數(shù)據(jù)庫信息和數(shù)據(jù)存儲(chǔ)位置。修改hive-site.xml配置文件，并刪除3210、3211行的兩行注釋。配置Hive<?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore.TouseSSLtoencrypt/authenticatetheconnection,providedatabase-specificSSLflagintheconnectionURL.Forexample,jdbc:postgresql://myhost/db?ssl=trueforpostgresdatabase.</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.server2.thrift.port</name><value>10000</value></property><property><name>hive.server2.thrift.bind.host</name><value>master</value></property><property><name>hive.metastore.uris</name><value>thrift://master:9083</value></property></configuration>修改/etc/profile文件，添加Hive安裝目錄和可執(zhí)行文件路徑的環(huán)境變量。使/etc/profile文件的配置信息生效。更新系統(tǒng)環(huán)境變量exportHIVE_HOME=/opt/apache-hive-3.1.1-binexportPATH=$HIVE_HOME/bin:$PATH將Hadoop的guava包復(fù)制至Hive的lib目錄下，再將Hive的lib目錄下版本較低的guava包刪除。注意如果Hive中的guava包不一致，啟動(dòng)Hive時(shí)會(huì)報(bào)錯(cuò)，因此要將版本較低的包刪除。更新guava包版本運(yùn)行Hive前需要執(zhí)行元數(shù)據(jù)庫初始操作，在元數(shù)據(jù)庫中創(chuàng)建存儲(chǔ)Hive元數(shù)據(jù)的表。在Hive安裝目錄的bin目錄中，執(zhí)行“schematool”命令初始化數(shù)據(jù)庫中存儲(chǔ)元數(shù)據(jù)的表。Hive元數(shù)據(jù)庫初始化成功后即可啟動(dòng)Hive。初始化元數(shù)據(jù)庫及啟動(dòng)Hive1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8本書使用的Spark版本為Spark3.1.1。將master主機(jī)作為Spark集群的master節(jié)點(diǎn)，slaver1和slaver2主機(jī)作為Spark集群的Worker節(jié)點(diǎn)。首先在master主機(jī)中配置Spark，再將Spark安裝包分發(fā)到slaver1和slaver2主機(jī)中。在Spark官方網(wǎng)站中下載Spark安裝包，并將Spark安裝包解壓縮至/opt目錄。在/etc/profile文件，配置系統(tǒng)環(huán)境變量SPARK_HOME和可執(zhí)行文件路徑環(huán)境變量PATH。配置環(huán)境變量exportSPARK_HOME=/opt/spark-3.1.1-bin-hadoop3.2exportPATH=$PATH:$SPARK_HOME/bin創(chuàng)建并修改slaves文件修改spark-defaults.conf文件修改spark-env.sh文件新建log目錄配置SparkSQL修改Spark配置文件slaves文件記錄了Spark集群中的Slave節(jié)點(diǎn)（worker節(jié)點(diǎn)），在slaves文件中記錄Spark集群中作為Slave節(jié)點(diǎn)的主機(jī)名。進(jìn)入Spark安裝目錄的conf目錄下，使用“vislaves”命令創(chuàng)建slaves文件并打開文件，每行記錄一個(gè)主機(jī)名。創(chuàng)建并修改slaves文件spark-defaults.conf文件主要配置Spark集群的地址，日志記錄等信息?？梢詮?fù)制conf目錄的spark-defaults.conf.template文件并重命名為創(chuàng)建spark-defaults.conf。修改文件內(nèi)容修改spark-defaults.conf文件spark.masterspark://master:7077spark.eventLog.enabledtruespark.eventLog.dirhdfs://master:8020/spark-logsspark.history.fs.logDirectoryhdfs://master:8020/spark-logsspark-env.sh文件主要配置Spark運(yùn)行時(shí)的參數(shù)，如Java家目錄，Hadoop家目錄，worker節(jié)點(diǎn)中CPU及內(nèi)存數(shù)量等。該文件可以通過conf目錄中的spark-env.sh.template文件創(chuàng)建。修改spark-env.sh文件JAVA_HOME=/usr/java/jdk1.8.0_281-amd64HADOOP_CONF_DIR=/opt/hadoop-3.2.2/etc/hadoopSPARK_MASTER_IP=masterSPARK_MASTER_PORT=7077SPARK_WORKER_MEMORY=512mSPARK_WORKER_CORES=1SPARK_EXECUTOR_MEMORY=512mSPARK_EXECUTOR_CORES=1SPARK_WORKER_INSTANCES=1為了能夠查看歷史記錄，需要在HDFS文件系統(tǒng)中新建logs目錄，Spark會(huì)將所有執(zhí)行任務(wù)的日志寫入到該目錄中，該目錄地址在spark-defaults.conf文件中配置。新建日志文件路徑需要與spark-defaults.conf文件日志路徑相

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境

文檔簡介

溫馨提示

最新文檔

評(píng)論

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

PySpark大數(shù)據(jù)技術(shù)與應(yīng)用課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境