PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第1頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第2頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第3頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第4頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 2.2 搭建分布式模式的PySpark開發(fā)環(huán)境_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

搭建分布式模式的PySpark開發(fā)環(huán)境為了搭建分布式模式的PySpark開發(fā)環(huán)境,需要準(zhǔn)備如下安裝包。搭建分布式模式的PySpark開發(fā)環(huán)境安裝包版本備注VirtualBox6.1.22虛擬機(jī)軟件Sparkspark-3.1.1-bin-hadoop3.2Spark運(yùn)行環(huán)境CentOSCentOS-7-x86_64-DVD-2009安裝Linux操作系統(tǒng)JDKjdk-8u281Java運(yùn)行環(huán)境,Spark的運(yùn)行需要jdk的支持AnacondaAnaconda3-2020.11Python的包管理器和環(huán)境管理器Hadoop3.2.2提供HDFS分布式文件系統(tǒng)支持和Hive運(yùn)行環(huán)境支持Hive3.1.1Hive運(yùn)行環(huán)境MariaDB5.5.68Hive元數(shù)據(jù)管理MySQLConnector8.0.21Hive數(shù)據(jù)庫連接工具包構(gòu)建分布式模式需要多臺(tái)計(jì)算機(jī),將采用3臺(tái)計(jì)算機(jī)(節(jié)點(diǎn))搭建分布式Spark集群,其中1臺(tái)作為Master節(jié)點(diǎn),其余2臺(tái)作為Slave節(jié)點(diǎn)。為了方便搭建分布式模式開發(fā)環(huán)境,將采用VirtualBox軟件創(chuàng)建3臺(tái)虛擬主機(jī)master、slaver1和slaver2,模擬出3臺(tái)計(jì)算機(jī)搭建的分布式環(huán)境。搭建分布式模式的PySpark開發(fā)環(huán)境服務(wù)器名稱IP地址HDFS服務(wù)Spark服務(wù)YARN服務(wù)masterNameNodeDriver,WorkerYARNslaver1DataNodeWorker

slaver2DataNodeWorker

1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8本文使用VirtualBox虛擬機(jī)軟件安裝三臺(tái)虛擬機(jī)計(jì)算機(jī),通過網(wǎng)絡(luò)將其連接在一起完成分布式集群搭建。VirtualBox網(wǎng)站(/)安裝配置虛擬機(jī)要將3臺(tái)虛擬機(jī)通過網(wǎng)絡(luò)連接在一起完成集群搭建,需要為虛擬機(jī)創(chuàng)建網(wǎng)絡(luò)。VirtualBox提供多種網(wǎng)絡(luò)模式,在不同網(wǎng)絡(luò)模式中主機(jī)與虛擬機(jī),虛擬機(jī)與外部網(wǎng)絡(luò)訪問規(guī)則是不同的。本文采用最后一種網(wǎng)絡(luò)模式,NAT網(wǎng)絡(luò)創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)。1.創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)網(wǎng)絡(luò)模式虛擬機(jī)

主機(jī)虛擬機(jī)

主機(jī)虛擬機(jī)1

虛擬機(jī)2虛擬機(jī)

外部網(wǎng)絡(luò)虛擬機(jī)

外部網(wǎng)絡(luò)僅主機(jī)網(wǎng)絡(luò)(Host-only)√√√––內(nèi)部網(wǎng)絡(luò)(Internal)––√––橋接網(wǎng)絡(luò)(Bridged)√√√√√網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)√端口轉(zhuǎn)發(fā)–√端口轉(zhuǎn)發(fā)NAT網(wǎng)絡(luò)√端口轉(zhuǎn)發(fā)√√端口轉(zhuǎn)發(fā)在VirtualBox軟件菜單中選擇“管理”→“全局設(shè)置”,在VirtualBox全局設(shè)置對(duì)話框的航欄中,選擇“網(wǎng)絡(luò)”,如左圖。創(chuàng)建NAT網(wǎng)絡(luò)的名稱為“NatNetwork”以及IP地址范圍,如中、右圖。在NatNetwork中,主機(jī)訪問虛擬機(jī)需要通過端口轉(zhuǎn)發(fā)功能才能與虛擬機(jī)通信。1.創(chuàng)建虛擬機(jī)網(wǎng)絡(luò)在VirtualBox中創(chuàng)建Linux虛擬機(jī)。選擇虛擬機(jī)中運(yùn)行的操作系統(tǒng)的類型。為虛擬機(jī)分配內(nèi)存。創(chuàng)建虛擬磁盤并指定虛擬機(jī)磁盤文件的類型和大小。2.創(chuàng)建Linux虛擬機(jī)Linux虛擬機(jī)導(dǎo)航頁面。掛載操作系統(tǒng)的安裝光盤。選擇右邊面板中的“設(shè)置”選項(xiàng)。選擇“存儲(chǔ)”選項(xiàng)下的CD/DVD圖形。2.創(chuàng)建Linux虛擬機(jī)啟動(dòng)Linux虛擬機(jī)。根據(jù)提示安裝Linux操作系統(tǒng)的安裝。2.創(chuàng)建Linux虛擬機(jī)為了能夠遠(yuǎn)程登錄主機(jī)以及集群中的各個(gè)節(jié)點(diǎn)可以相互通信,需要設(shè)置Linux虛擬機(jī)的IP。默認(rèn)情況下,Linux中網(wǎng)卡的配置文件在“/etc/sysconfig/network-scripts”目錄下,通過修改配置文件,實(shí)現(xiàn)對(duì)網(wǎng)卡的配置。編輯文件ifcfg-enp0s3。啟用網(wǎng)卡。修改主機(jī)與IP地址映射。3.設(shè)置固定IP#修改ifcfg-enp0s3ONBOOT=yesBOOTPROTO=static#添加以下內(nèi)容NM_CONTROLLED=yesIPADDR=NETMASK=GATEWAY=DNS1=masterslaver1slaver2VirtualBox為每一個(gè)虛擬機(jī)提供了一個(gè)可視化窗口,用戶可以通過該窗口與虛擬機(jī)進(jìn)行交互,也可以采用SSH服務(wù)實(shí)現(xiàn)遠(yuǎn)程登錄并對(duì)Linux進(jìn)行操作和管理。本文使用虛擬機(jī)安裝Linux,需要按照前文配置的端口轉(zhuǎn)發(fā)規(guī)則連接Linux系統(tǒng)。使用Xshell軟件連接時(shí),主機(jī)配置為localhost,端口號(hào)配置為120。4.遠(yuǎn)程連接虛擬機(jī)本文使用的Linux為CentOS發(fā)行版本,該系統(tǒng)使用yum工具安裝軟件。如果Linux虛擬機(jī)無法連接互聯(lián)網(wǎng),那么可以使用安裝鏡像文件(iso)中的軟件包為yum工具提供軟件包來源,從而實(shí)現(xiàn)軟件安裝。創(chuàng)建CentOS鏡像文件夾。掛載鏡像文件到media目錄。重命名yum配置文件。配置本地軟件倉庫CentOS-Media.repo文件。驗(yàn)證yum配置是否成功,如果能夠完成軟件安裝,那么表示yum配置成功。5.虛擬機(jī)在線安裝軟件1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在Java官方網(wǎng)站下載Windows版的Java安裝文件。運(yùn)行Java安裝文件,按照安裝向?qū)崾就瓿蒍ava的安裝。在Windows下安裝Java上傳JDK安裝包至虛擬機(jī)master,按“Ctrl+Alt+F”組合鍵,進(jìn)入文件傳輸對(duì)話框,左側(cè)為個(gè)人計(jì)算機(jī)的文件系統(tǒng),右側(cè)為Linux虛擬機(jī)的文件系統(tǒng)。在左側(cè)的文件系統(tǒng)中查找到j(luò)dk-8u281-linux-x64.rpm安裝包,右鍵單擊該安裝包,選擇“傳輸(T)”命令上傳至Linux的/opt目錄下。在Linux下安裝Java在虛擬機(jī)中,執(zhí)行“cd/opt/”切換至/opt目錄,使用“rpm-ivhjdk-8u281-linux-x64.rpm”命令,安裝JDK。在Linux下安裝Java完成Java安裝后,需要配置Java的環(huán)境變量。編輯/etc/profile文件,添加JAVA_HOME環(huán)境變量,將JAVA_HOME變量內(nèi)容替換為所在主機(jī)的實(shí)際路徑,添加好后保存退出,執(zhí)行命令“source/etc/profile”使配置文件生效。驗(yàn)證Java環(huán)境安裝是否成功,可以查看Java版本。在Linux下安裝Java本文使用3臺(tái)虛擬機(jī)搭建Hadoop、Spark分布式集群,3臺(tái)虛擬機(jī)需要相同的配置,可以使用虛擬機(jī)提供的復(fù)制功能,對(duì)已經(jīng)安裝好的Linux虛擬機(jī)進(jìn)行復(fù)制,快速完成新虛擬機(jī)的創(chuàng)建。復(fù)制虛擬主機(jī),復(fù)制成功執(zhí)行后,會(huì)生成與原虛擬機(jī)一樣的新虛擬機(jī)。復(fù)制虛擬機(jī)配置新主機(jī)的IP復(fù)制得到的主機(jī)與源主機(jī)的配置相同,3臺(tái)虛擬機(jī)啟動(dòng)后將會(huì)出現(xiàn)IP地址沖突,需要修改新虛擬機(jī)的IP地址。通過虛擬機(jī)操作界面對(duì)3臺(tái)虛擬機(jī)修改IP地址。進(jìn)入/etc/sysconfig/network-scripts/目錄,修改ifcfg-enp0s3文件中IPADDR參數(shù)。復(fù)制虛擬機(jī)Hadoop集群啟動(dòng)時(shí),其中master節(jié)點(diǎn)會(huì)連接slaver1和slaver2主機(jī)中的服務(wù)組件(如DataNode),連接時(shí)會(huì)提示用戶輸入用戶名和密碼。為了避免每次啟動(dòng)時(shí)要輸入主機(jī)的用戶名和密碼,需要建立計(jì)算機(jī)節(jié)點(diǎn)間的互相信任機(jī)制,免密碼登錄。創(chuàng)建公鑰,在master主機(jī)中,使用ssh-keygen命令生成公鑰,命令執(zhí)行成功后會(huì)生成私有密鑰id_rsa和公有密鑰id_rsa.pub兩個(gè)文件。配置SSH免密碼登錄復(fù)制公鑰到遠(yuǎn)程主機(jī),將生成的master主機(jī)公鑰復(fù)制至master,slaver1,slaver2中,以便master主機(jī)能免密碼登錄本機(jī)及其他主機(jī)。驗(yàn)證無密碼登錄,在master主機(jī)中,在無輸入密碼提示情況下,若登錄其他遠(yuǎn)程主機(jī)則表明無密碼登錄設(shè)置成功。配置SSH免密碼登錄在分布式系統(tǒng)中,每個(gè)節(jié)點(diǎn)都是獨(dú)立的計(jì)算機(jī),每臺(tái)計(jì)算機(jī)的時(shí)間如果不一致會(huì)導(dǎo)致運(yùn)行在節(jié)點(diǎn)上的服務(wù)獲取其他節(jié)點(diǎn)的數(shù)據(jù)和狀態(tài)時(shí)出現(xiàn)錯(cuò)誤。安裝時(shí)間同步服務(wù),在master主機(jī)中,使用yum工具安裝時(shí)間同步軟件ntp。配置服務(wù),在master主機(jī)中配置ntp服務(wù),編輯/etc/ntp.conf文件,在server部分添加內(nèi)容,并注釋掉“server0~n”該行內(nèi)容。master主機(jī)配置服務(wù)地址為,表示與本機(jī)時(shí)間同步。同步時(shí)間,使用systemctl命令啟動(dòng)ntpd服務(wù)。配置時(shí)間同步服務(wù)驗(yàn)證時(shí)間同步,在master、slaver1和slaver2主機(jī)中,使用ntpstat命令可以查看時(shí)間同步狀態(tài)。剛啟動(dòng)時(shí)間同步服務(wù)時(shí)未同步。已同步配置時(shí)間同步服務(wù)ntpstat

unsynchronizedtimeserverre-startingpollingserverevery64sntpstatsynchronisedtoNTPserver()atstratum4

timecorrecttowithin1192ms

pollingserverevery64s1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8完成Linux系統(tǒng)的安裝和配置后,將在Linux系統(tǒng)中搭建Hadoop分布式環(huán)境,Hadoop分布式環(huán)境將為Spark提供HDFS分布式文件服務(wù)。首先在Hadoop的官方網(wǎng)站中下載Hadoop安裝包,安裝包版本為3.2.2,名稱為hadoop-3.2.2.tar.gz。運(yùn)行Hadoop前,需要修改Hadoop的配置文件,以便Hadoop可以正常運(yùn)行,Hadoop的主要配置文件如下。修改配置文件文件名文件描述hadoop-env.sh記錄Hadoop要使用的環(huán)境變量hdfs-site.xmlHDFS守護(hù)進(jìn)程配置文件,包括NameNode,DataNode配置core-site.xmlHadoopCore配置文件,包括HDFS和MapReduce常用的I/O設(shè)置mapreduce-site.xmlMapReduce守護(hù)進(jìn)程配置文件yarn-site.xmlYARN資源管理器配置文件workers運(yùn)行DataNode的節(jié)點(diǎn)的機(jī)器core-site.xml文件在/opt/hadoop-3.2.2/etc/hadoop目錄中,進(jìn)入core-site.xml所在目錄,使用vi命令修改core-site.xml文件修改core-site.xml文件,fs.defaultFS表示HDFS文件系統(tǒng)的地址,其中,master是Linux主機(jī)名。修改core-site.xml文件<configuration><property><name>fs.defaultFS</name><value>hdfs://master:8020</value></property><property><name>hadoop.tmp.dir</name><value>/var/log/hadoop/tmp</value></property></configuration>修改hdfs-site.xml文件.dir表示HDFS文件系統(tǒng)的地址,master是Linux主機(jī)名dfs.datanode.data.dir表示存放HDFS文件系統(tǒng)數(shù)據(jù)文件的目錄。修改hdfs-site.xml文件<configuration><property><name>.dir</name><value>file:///data/hadoop/hdfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:///data/hadoop/hdfs/data</value></property><property><name>node.secondary.http-address</name><value>master:50090</value></property><property><name>dfs.replication</name><value>3</value></property></configuration>修改mapred-site.xml文件內(nèi)容mapreduce.jobhistory.address配置Jobhistory歷史服務(wù)器,用于查詢每個(gè)job運(yùn)行完以后的歷史日志信息。mapreduce.jobhistory.webapp.address配置Mapreduce作業(yè)記錄的web地址,用于查看歷史服務(wù)器已經(jīng)運(yùn)行完的Mapreduce作業(yè)記錄。修改mapred-site.xml<configuration><property><name></name><value>yarn</value></property><!--jobhistoryproperties--><property><name>mapreduce.jobhistory.address</name><value>master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>master:19888</value></property></configuration>修改yarn-site.xml文件內(nèi)容修改yarn-site.xml文件<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property></configuration>在hadoop-env.sh文件末尾添加Java環(huán)境變量。Hadoop集群由master,slaver1,slaver2三臺(tái)主機(jī)組成,其中slaver1,slaver2是Slave節(jié)點(diǎn),需要在workers文件配置slave節(jié)點(diǎn)主機(jī)名。修改hadoop-env.sh文件&修改workers文件exportJAVA_HOME=/usr/java/jdk1.8.0_281-amd64#localhostslaver1slaver2配置Linux系統(tǒng)環(huán)境變量,設(shè)置Hadoop安裝包的目錄。修改/etc/profile文件exportHADOOP_HOME=/opt/hadoop-3.2.2exportPATH=$HADOOP_HOME/bin:$PATHexportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root在使用Hadoop前,需要先格式化NameNode。格式化NameNode節(jié)點(diǎn)在master節(jié)點(diǎn)配置Hadoop集群后,需要將Hadoop安裝包分發(fā)到其他節(jié)點(diǎn)上,保證所有節(jié)點(diǎn)上Hadoop的配置相同。在master主機(jī)中,使用scp命令將Hadoop安裝包分發(fā)到其他節(jié)點(diǎn)。分發(fā)Hadoop安裝包到其他節(jié)點(diǎn)啟動(dòng)Hadoop集群,在master啟動(dòng)Hadoop后,會(huì)啟動(dòng)其他節(jié)點(diǎn)的Hadoop服務(wù),最終完成集群的啟動(dòng)。驗(yàn)證Hadoop集群運(yùn)行情況,在瀏覽器中輸入“:8088”地址,即可進(jìn)入Hadoop任務(wù)管理頁面。啟動(dòng)集群1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在master主機(jī)中,可以使用yum命令安裝MySQL數(shù)據(jù)庫。CentOS7提供MySQL分支版本MariaDB。在master主機(jī)中,啟動(dòng)MySQL服務(wù)器,然后連接MySQL數(shù)據(jù)庫。啟動(dòng)MySQL后,進(jìn)入MySQL控制臺(tái),為root用戶分配權(quán)限并設(shè)置允許從遠(yuǎn)程主機(jī)訪問。安裝MySQL數(shù)據(jù)庫grantallprivilegeson*.*to'root'@'%'identifiedby'123456';flushprivileges;1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8在Hive官方網(wǎng)站中可以下載Hive安裝包,本文使用的Hive版本為Hive3.1.1,并將Hive服務(wù)安裝在master節(jié)點(diǎn)上。解壓安裝包,將Hive安裝包解壓縮至/opt目錄中。解壓安裝包Hive需要借助數(shù)據(jù)庫存儲(chǔ)其元數(shù)據(jù)信息,在MySQL數(shù)據(jù)庫中,為Hive服務(wù)新建元數(shù)據(jù)數(shù)據(jù)庫,并分配訪問權(quán)限。復(fù)制MySQL驅(qū)動(dòng)jar包到Hive安裝目錄的lib目錄中。配置數(shù)據(jù)庫Hive安裝目錄的conf目錄下(/opt/apache-hive-3.1.1-bin/conf)存放了Hive的配置文件。進(jìn)入Hive安裝目錄的conf目錄下,再使用“cphive-env.sh.templatehive-env.sh”命令復(fù)制hive-env.sh.template配置文件并重命名為hive-env.sh。修改配置文件hive-env.sh,添加HADOOP_HOME環(huán)境變量,指定Hadoop的安裝目錄。在復(fù)制hive-default.xml.template文件并重命名為hive-site.xml。配置HiveexportHADOOP_HOME=/opt/hadoop-3.2.2hive-site.xml文件主要配置存儲(chǔ)元數(shù)據(jù)的數(shù)據(jù)庫信息和數(shù)據(jù)存儲(chǔ)位置。修改hive-site.xml配置文件,并刪除3210、3211行的兩行注釋。配置Hive<?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore.TouseSSLtoencrypt/authenticatetheconnection,providedatabase-specificSSLflagintheconnectionURL.Forexample,jdbc:postgresql://myhost/db?ssl=trueforpostgresdatabase.</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.server2.thrift.port</name><value>10000</value></property><property><name>hive.server2.thrift.bind.host</name><value>master</value></property><property><name>hive.metastore.uris</name><value>thrift://master:9083</value></property></configuration>修改/etc/profile文件,添加Hive安裝目錄和可執(zhí)行文件路徑的環(huán)境變量。使/etc/profile文件的配置信息生效。更新系統(tǒng)環(huán)境變量exportHIVE_HOME=/opt/apache-hive-3.1.1-binexportPATH=$HIVE_HOME/bin:$PATH將Hadoop的guava包復(fù)制至Hive的lib目錄下,再將Hive的lib目錄下版本較低的guava包刪除。注意如果Hive中的guava包不一致,啟動(dòng)Hive時(shí)會(huì)報(bào)錯(cuò),因此要將版本較低的包刪除。更新guava包版本運(yùn)行Hive前需要執(zhí)行元數(shù)據(jù)庫初始操作,在元數(shù)據(jù)庫中創(chuàng)建存儲(chǔ)Hive元數(shù)據(jù)的表。在Hive安裝目錄的bin目錄中,執(zhí)行“schematool”命令初始化數(shù)據(jù)庫中存儲(chǔ)元數(shù)據(jù)的表。Hive元數(shù)據(jù)庫初始化成功后即可啟動(dòng)Hive。初始化元數(shù)據(jù)庫及啟動(dòng)Hive1安裝Java目錄安裝配置虛擬機(jī)2搭建Hadoop分布式集群3安裝MySQL4安裝Hive5搭建Spark完全分布式集群6安裝PyCharm7安裝Python解釋器及PySpark模塊8本書使用的Spark版本為Spark3.1.1。將master主機(jī)作為Spark集群的master節(jié)點(diǎn),slaver1和slaver2主機(jī)作為Spark集群的Worker節(jié)點(diǎn)。首先在master主機(jī)中配置Spark,再將Spark安裝包分發(fā)到slaver1和slaver2主機(jī)中。在Spark官方網(wǎng)站中下載Spark安裝包,并將Spark安裝包解壓縮至/opt目錄。在/etc/profile文件,配置系統(tǒng)環(huán)境變量SPARK_HOME和可執(zhí)行文件路徑環(huán)境變量PATH。配置環(huán)境變量exportSPARK_HOME=/opt/spark-3.1.1-bin-hadoop3.2exportPATH=$PATH:$SPARK_HOME/bin創(chuàng)建并修改slaves文件修改spark-defaults.conf文件修改spark-env.sh文件新建log目錄配置SparkSQL修改Spark配置文件slaves文件記錄了Spark集群中的Slave節(jié)點(diǎn)(worker節(jié)點(diǎn)),在slaves文件中記錄Spark集群中作為Slave節(jié)點(diǎn)的主機(jī)名。進(jìn)入Spark安裝目錄的conf目錄下,使用“vislaves”命令創(chuàng)建slaves文件并打開文件,每行記錄一個(gè)主機(jī)名。創(chuàng)建并修改slaves文件spark-defaults.conf文件主要配置Spark集群的地址,日志記錄等信息??梢詮?fù)制conf目錄的spark-defaults.conf.template文件并重命名為創(chuàng)建spark-defaults.conf。修改文件內(nèi)容修改spark-defaults.conf文件spark.masterspark://master:7077spark.eventLog.enabledtruespark.eventLog.dirhdfs://master:8020/spark-logsspark.history.fs.logDirectoryhdfs://master:8020/spark-logsspark-env.sh文件主要配置Spark運(yùn)行時(shí)的參數(shù),如Java家目錄,Hadoop家目錄,worker節(jié)點(diǎn)中CPU及內(nèi)存數(shù)量等。該文件可以通過conf目錄中的spark-env.sh.template文件創(chuàng)建。修改spark-env.sh文件JAVA_HOME=/usr/java/jdk1.8.0_281-amd64HADOOP_CONF_DIR=/opt/hadoop-3.2.2/etc/hadoopSPARK_MASTER_IP=masterSPARK_MASTER_PORT=7077SPARK_WORKER_MEMORY=512mSPARK_WORKER_CORES=1SPARK_EXECUTOR_MEMORY=512mSPARK_EXECUTOR_CORES=1SPARK_WORKER_INSTANCES=1為了能夠查看歷史記錄,需要在HDFS文件系統(tǒng)中新建logs目錄,Spark會(huì)將所有執(zhí)行任務(wù)的日志寫入到該目錄中,該目錄地址在spark-defaults.conf文件中配置。新建日志文件路徑需要與spark-defaults.conf文件日志路徑相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論