




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù),hadoop,spark,hive,ZooKeeper,kafka,flume等組件環(huán)境搭建大數(shù)據(jù)環(huán)境搭建1、CentOS 6.5 2、JDK 1.8 3、Hadoop 2.6 4、Hive 5、ZooK 6、7、Spark 2.1.1 8、flume-ng-1.6.0CentOS 6.5防火墻和DNS配置 1、關(guān)閉防火墻service iptables stopchkconfig iptables offvi /etc/selinux/configSELINUX=disabled2、配置yumyum clean allyum
2、 makecacheyum install telnetJDK 1.7安裝 1、將jdk-8u131-linux-x64.tar.gz通過上傳到服務(wù)器中 2、安裝JDK:把壓縮包放到/usr/java/目錄下3、配置jdk相關(guān)的環(huán)境變量vi /.bashrc 或者 vi /etc/profileexport JAVA_HOME=/usr/java/latestexport PATH=$PATH:$JAVA_HOME/binsource .bashrc 或者 source /etc/profile4、測試jdk安裝是否成功:Java -version 5、
3、rm -f /etc/udev/rules.d/70-persistent-net.rules安裝第二臺和第三臺服務(wù)器 1、安裝上述步驟,再安裝兩臺一模一樣環(huán)境的服務(wù)器,因為后面hadoop和spark都是要搭建集群的。 2、集群的最小環(huán)境就是三臺。因為后面要搭建ZooKeeper、kafka等集群。 3、另外兩臺機器的hostname分別設(shè)置為spark2和spark3即可,ip分別為和 4、在安裝的時候,另外兩臺服務(wù)器的centos鏡像文件必須重新拷貝一份,放在新的目錄里,使用各自自己的鏡像文件。 5、服務(wù)器的硬盤文件也必須重新選擇一個新的
4、目錄,以更好的區(qū)分。 6、安裝好之后,記得要在三臺機器的/etc/hosts文件中,配置全三臺機器的ip地址到hostname的映射,而不能只配置本機,這個很重要! 7、在windows的hosts文件中也要配置全三臺機器的ip地址到hostname的映射。配置集群ssh免密碼登錄 1、首先在三臺機器上配置對本機的ssh免密碼登錄 生成本機的公鑰,過程中不斷敲回車即可,ssh-keygen命令默認會將公鑰放在/root/.ssh目錄下ssh-keygen -t rsa將公鑰復(fù)制為authorized_keys文件,此時使用ssh連接本機就不需要輸入密碼了
5、cd /root/.sshcp id_rsa.pub authorized_keys2、接著配置三臺機器互相之間的ssh免密碼登錄 使用ssh-copy-id -i spark命令將本機的公鑰拷貝到指定機器的authorized_keys文件中(方便好用) 集群搭建 安裝hadoop包1、使用hadoop-2.4.1.tar.gz,使用WinSCP上傳到CentOS的/usr/local目錄下。2、將hadoop包進行解壓縮:tar -zxvf hadoop-2.4.1.tar.gz3、對hadoop目錄進行重命名:mv hadoop-2.4.1 hadoop4、
6、配置hadoop相關(guān)環(huán)境變量vi .bashrc 或者 vi/etc/profileexport HADOOP_HOME=/usr/local/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource .bashrc修改hadoop相關(guān)的配置文件 進入/usr/local/hadoop/etc/hadoop 目錄下 修改core-site.xml<property> <name></name> <value>hdfs:/spark1:9000</value>
7、; /設(shè)置hdfs集群對外提供的目錄</property>修改hdfs-site.xml /設(shè)置hdfs的一些目錄,放在/usr/local/data的目錄下面<property> <name></name> <value>/usr/local/data/namenode</value></property><property> <name></name> <value>/usr/local/data/datanode</value></prop
8、erty><property> <name></name> <value>/usr/local/data/tmp</value></property><property> <name>dfs.replication</name> <value>3</value> /設(shè)置副本數(shù)</property>修改mapred-site.xml /mapreduce的框架設(shè)置為yarn<property> <name><
9、/name> <value>yarn</value></property>修改yarn-site.xml<property> <name></name> <value>spark1</value></property><property> <name></name> <value>mapreduce_shuffle</value></property>修改slaves文件spark1spark2spark3在另
10、外兩臺機器上搭建hadoop1、使用如上配置在另外兩臺機器上搭建hadoop,可以使用scp命令將spark1上面的hadoop安裝包和.bashrc或者/etc/profile 配置文件都拷貝過去。scp -r hadoop rootspark1:/usr/local/ scp -r hadoop rootspark2:/usr/local/ scp -r /etc/profile rootspark1:/etc/scp -r /etc/profile rootspark2:/etc/2、要記得對.bashrc文件或者/etc/profile進行source,以讓它生效。3、記得在spark
11、2和spark3的/usr/local目錄下創(chuàng)建data目錄。啟動hdfs集群1、格式化namenode:在spark1上執(zhí)行以下命令,hdfs namenode -format2、啟動hdfs集群:start-dfs.sh3、驗證啟動是否成功:jps、50070端口查看是否啟動成功spark1:namenode、datanode、secondarynamenodespark2:datanodespark3:datanode啟動yarn集群1、啟動yarn集群:start-yarn.sh2、驗證啟動是否成功:jps、8088端口spark1:resourcemanager、nodemanage
12、rspark2:nodemanagerspark3:nodemanagerhive 0.13搭建 安裝hive包 1、將的使用WinSCP上傳到spark1的/usr/local目錄下。 2、解壓縮hive安裝包:。 3、重命名hive目錄:mv apache-hive-0.13.1-bin hive 4、配置hive相關(guān)的環(huán)境變量,下面以.bashrc文件操作vi .bashrcexport HIVE_HOME=/usr/local/hiveexport PATH=$HIVE_HOME/binsource .bashrc安裝MySQ
13、L 1、在spark1上安裝mysql。 2、使用yum安裝mysql server。yum install -y mysql-serverservice mysqld startchkconfig mysqld on3、使用yum安裝mysql connectoryum install -y mysql-connector-java4、將mysql connector拷貝到hive的lib包中cp /usr/share/java/mysql-connector-java-.jar /usr/local/hive/lib5、在mysql上創(chuàng)建hive元數(shù)據(jù)庫,并對hive進
14、行授權(quán)create database if not exists hive_metadata;grant all privileges on hive_metadata.* to 'hive''%' identified by 'hive'grant all privileges on hive_metadata.* to 'hive''localhost' identified by 'hive'grant all privileges on hive_metadata.* to 'hiv
15、e''spark1' identified by 'hive'flush privileges; /刷新授權(quán)use hive_metadata;配置hive-site.xmlmv hive-default.xml.template hive-site.xmlvi hive-site.xml<property> <name></name> <value>jdbc:mysql:/spark1:3306/hive_metadata?createDatabaseIfNotExist=true</value&g
16、t;</property><property> <name></name> <value></value></property><property> <name></name> <value>hive</value></property><property> <name></name> <value>hive</value></property><property
17、> <name></name> <value>/user/hive/warehouse</value></property>配置hive-env.sh和hive-config.shmv hive-env.sh.template hive-env.shvi /usr/local/hive/bin/hive-config.shexport JAVA_HOME=/usr/java/latestexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=/usr/local/hadoop驗證hi
18、ve是否安裝成功 直接輸入hive命令,可以進入hive命令行集群搭建 安裝ZooKeeper包 1、將使用WinSCP拷貝到spark1的/usr/local目錄下。 2、對進行解壓縮:。 3、對zookeeper目錄進行重命名:mv zookeeper-3.4.5 zk。 4、配置zookeeper相關(guān)的環(huán)境變量vi .bashrc 或者 vi /etc/profileexport ZOOKEEPER_HOME=/usr/local/zkexport PATH=$ZOOKEEPER_HOME/binsource .bashrc配置
19、zoo.cfg 在/usr/local/zk/conf目錄下vi zoo.cfg修改:dataDir=/usr/local/zk/data新增:server.0=spark1:2888:3888 server.1=spark2:2888:3888server.2=spark3:2888:3888設(shè)置zk節(jié)點標識cd zkmkdir datacd datavi myid0搭建zk集群 1、在另外兩個節(jié)點上按照上述步驟配置ZooKeeper,使用scp將zk和.bashrc拷貝到spark2和spark3上即可。 scp -r zk rootslave1:/usr/local/
20、2、唯一的區(qū)別是spark2和spark3的標識號分別設(shè)置為1和2。及myid 中的值修改為1 和2啟動ZooKeeper集群1、分別在三臺機器上執(zhí)行:zkServer.sh start。2、檢查ZooKeeper狀態(tài):zkServer.sh status。集群搭建 安裝Scala 1、將scala使用WinSCP拷貝到spark1的/usr/local目錄下。 2、對進行解壓縮:。 3、對scala目錄進行重命名:mv scala-2.11.4 scala 4、配置scala相關(guān)的環(huán)境變量vi .bashrcexport SCAL
21、A_HOME=/usr/local/scalaexport PATH=$SCALA_HOME/binsource .bashrc5、查看scala是否安裝成功:scala -version 6、按照上述步驟在spark2和spark3機器上都安裝好scala。使用scp將scala和.bashrc拷貝到spark2和spark3上即可。安裝Kafka包 1、將使用WinSCP拷貝到spark1的/usr/local目錄下。 2、對進行解壓縮:。 3、對kafka目錄進行改名:mv kafka_2.9.2-0.8.1 kafka 4、配置kafk
22、avi /usr/local/kafka/config/pertiesbroker.id:依次增長的整數(shù),0、1、2、3、4,集群中Broker的唯一idzookeeper.connect=:2181,:2181,:21815、安裝slf4j 將上傳到/usr/local目錄下 把slf4j中的復(fù)制到kafka的libs目錄下面搭建kafka集群 1、按照上述步驟在spark2和spark3分別安裝kafka。用scp把kafka拷貝到spark2和spark3行即可。2、唯一區(qū)別的,就是perties中的bro
23、ker.id,要設(shè)置為1和2啟動kafka集群 1、在三臺機器上分別執(zhí)行以下命令:nohup bin/kafka-server-start.sh config/perties & (必須在kafka的主目錄下執(zhí)行 cd /kafka)2、解決kafka Unrecognized VM option UseCompressedOops問題vi bin/kafka-run-class.sh if -z "$KAFKA_JVM_PERFORMANCE_OPTS" ; then KAFKA_JVM_PERFORMANCE_OPTS="
24、-server -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=true"fi去掉-XX:+UseCompressedOops即可3、使用jps檢查啟動是否成功測試kafka集群 使用基本命令檢查kafka是否搭建成功bin/kafka-topics.sh -zookeeper 192.168.
25、0.110:2181,11:2181,12:2181 -topic TestTopic -replication-factor 1 -partitions 1 -create在spark1 上執(zhí)行bin/kafka-console-producer.sh -broker-list 07:9092,08:9092,09:9092 -topic TestTopic在spark2 上執(zhí)行bin/kafka-console-consumer.sh -zookeeper 0
26、7:2181,08:2181,09:2181 -topic TestTopic -from-beginning集群搭建 安裝spark包 1、將使用WinSCP上傳到/usr/local目錄下。 2、解壓縮spark包:。 3、更改spark目錄名:mv spark-1.3.0-bin-hadoop2.4 spark 4、設(shè)置spark環(huán)境變量vi .bashrcexport SPARK_HOME=/usr/local/sparkexport PATH=$SPARK_HOME/binexport CL
27、ASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env.sh.template spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=export SPARK_WORKER_MEMORY=1gexport HADOOP_C
28、ONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安裝spark集群 在另外兩個節(jié)點進行一模一樣的配置,使用scp將spark和.bashrc拷貝到spark2和spark3即可。啟動spark集群 1、在spark目錄下的sbin目錄 2、執(zhí)行 ./start-all.sh 3、使用jsp和8080端口可以檢查集群是否啟動成功 4、進入spark-shell查看是否正常升級1.5 安裝spark包 1、停止集群:SPARK_HOME/sbin/stop-al
29、l.sh 2、將使用WinSCP上傳到/usr/local目錄下。 3、解壓縮spark包:。 4、修改spark環(huán)境變量vi .bashrcexport SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4export PATH=$SPARK_HOME/binexport CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env
30、.sh.template spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=07export SPARK_WORKER_MEMORY=1gexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安裝spark集群 在另外兩個節(jié)點進行一模一樣的配置,使用scp將spark和.bashrc拷貝
31、到spark2和spark3即可。 scp -r spark-1.5.1-bin-hadoop2.4 rootspark1:/usr/local/啟動spark集群 1、在spark目錄下的sbin目錄 2、執(zhí)行./start-all.sh 3、使用jsp和8080端口可以檢查集群是否啟動成功 4、進入spark-shell查看是否正常hadoop fs -put spark.txt /val lines = sc.textFile("hdfs:/spark1:9000/spark.txt")val words = line
32、s.flatMap(line => line.split(" ")val pairs = words.map(word => (word, 1)val counts = pairs.reduceByKey(_ + _)counts.foreach(count => println(count._1 +":"+ count._2) 安裝 安裝flume 1、將使用WinSCP拷貝到sparkproject1的/usr/local目錄下。 2、對flume進行解壓縮: 3、對flume目錄進行重命名:
33、mv apache-flume-1.5.0-cdh5.3.6-bin flume 4、配置scala相關(guān)的環(huán)境變量vi /.bashrcexport FLUME_HOME=/usr/local/flumeexport FLUME_CONF_DIR=$FLUME_HOME/confexport PATH=$FLUME_HOME/binsource /.bashrc修改flume配置文件 vi /usr/local/flume/conf/pertiesagent1表示代理名稱 agent1.sources=source1 agent1.sinks=sink1 agent1.cha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年地方志編纂與管理考試相關(guān)知識試卷及答案
- 2025年中國冷凍儲物袋行業(yè)市場全景分析及前景機遇研判報告
- 市政管道進場安全教育
- 員工入場安全培訓(xùn)
- 中醫(yī)護理相關(guān)知識
- 教育勞動的德性價值闡釋
- 高考歷史熱點難點押題預(yù)測 經(jīng)濟與社會生活(含解析)
- 幼兒園小班數(shù)學(xué)《幫幫小豬》教案
- 幼兒園小班美術(shù)版畫教案龍卷風(fēng)
- java面試題及答案kafka篇
- 2024年四川金融控股集團有限公司招聘筆試真題
- 沃爾瑪收貨管理制度
- 鐵塔施工方案(3篇)
- 2025年湖北省普通高中學(xué)業(yè)水平合格性考試模擬(二)歷史試題(含答案)
- 湖南長沙市長郡教育集團2025年七年級英語第二學(xué)期期中聯(lián)考試題含答案
- 2024初級會計職稱考試《經(jīng)濟法基礎(chǔ)》真題和答案
- 包裝公司日常管理制度
- 2025年遼寧省沈陽市于洪區(qū)中考數(shù)學(xué)二模試卷
- 四川雅安天立學(xué)校2025年七下數(shù)學(xué)期末預(yù)測試題含解析
- JTG∕T F30-2014 公路水泥混凝土路面施工技術(shù)細則
評論
0/150
提交評論