【一个很疑惑的问题】为什么我们一直在反复做一个操作:就是scp拷贝过来拷贝过去?
【答案】这是为了将文件或目录的权限修改成hadoop所属组。

一. 下载Spark安装包并传给mster机器,使权限是hadoop

①在slave1机器上下载Spark(进入官网下载更快)

②解压安装包

    tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz -C /data

③把slave1机器上的解压后的spark拷贝到master机器上

先进入/data目录下,打开终端,不用修改用户再:
scp -r spark-1.6.3-bin-hadoop2.6/ hadoop@master:/data/

④删除slave1机器上的spark-1.6.3-bin-hadoop2.6

sudo rm -r /data/spark-1.6.3-bin-hadoop2.6
到现在为止,slave1机器上的spark-1.6.3-bin-hadoop2.6安装包已经被删除;只在master机器上有spark-1.6.3-bin-hadoop2.6安装包,且权限是
hadoop。
可以进行下面的Spark配置了!

==========

二 .配置 spark(涉及到的配置文件有以下几个:)

在master机器上,新建下面文件:

先su hadoopsudo mkdir  /data/spark_data
sudo chmod -R 777 /data/spark_datasudo mkdir  /data/spark_data/spark_works
sudo chmod -R 777 /data/spark_data/spark_workssudo mkdir  /data/spark_data/history
sudo chmod -R 777 /data/spark_data/historysudo mkdir  /data/spark_data/history/event-log
sudo chmod -R 777 /data/spark_data/history/event-logsudo mkdir  /data/spark_data/history/spark-events
sudo chmod -R 777 /data/spark_data/history/spark-events再把在master创建好的上面的文件拷贝给slave机器:
在 master 机器上:
先切换到hadoop用户
su hadoopscp -r /data/spark_data hadoop@slave1:/data
scp -r /data/spark_data hadoop@slave2:/data
此时,在slave机器上就产生了/data/spark_data目录,查看权限是hadoop删除上面再master机器上创建的目录(在master机器上执行)sudo rm -r /data/spark_data
从slave1机器上复制一份给master(在slave1机器上执行)scp -r /data/spark_data hadoop@master:/data
1. ${SPARK_HOME}/conf/spark-env.sh
2. ${SPARK_HOME}/conf/slaves
3. ${SPARK_HOME}/conf/spark-defaults.conf这三个文件都是由原始的 template 文件复制过来的,比如:
先进入conf目录下,打开终端,再:
su hadoopcp spark-env.sh.template spark-env.shcp slaves.template slavescp spark-env.sh.template spark-env.sh
sudo chmod -R  777 ../*

配置文件 1:sudo gedit spark-env.sh

【重点注意】SPARK_MASTER_IP=192.168.1.10一定要修改成自己的master地址
注意:需要在本地创建/data/spark_data/spark_works 目录JAVA_HOME=/data/jdk1.8.0_111
SCALA_HOME=/data/scala-2.11.8
SPARK_MASTER_IP=192.168.1.10
HADOOP_CONF_DIR=/data/hadoop-2.6.5/etc/hadoop
# shuffled以及 RDD的数据存放目录
SPARK_LOCAL_DIRS=/data/spark_data
# worker端进程的工作目录
SPARK_WORKER_DIR=/data/spark_data/spark_works

配置文件 2:sudo gedit slaves

去掉最后一行的localhost后,在最后一行加上下面内容
master
slave1
slave2

配置文件 3:sudo gedit spark-defaults.conf

注意:需要在本地创建/data/spark_data/history/event-log、/data/spark_data/history/spark-events
spark.master spark://master:7077
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.eventLog.enabled true
spark.eventLog.dir file:///data/spark_data/history/event-log
spark.history.fs.logDirectory file:///data/spark_data/history/spark-events
spark.eventLog.compress true

===

三 . 复制到其他节点

在 master 上:1. scp -r /data/spark* hadoop@slave1:/data2. scp -r /data/spark* hadoop@slave2:/data 发现在 slave1 和slave2 上的/data目录下有spark-1.6.3-bin-hadoop2.6的目录,
查看权限是hadoop组。spark*实际上也把创建的目录/data/spark_data全部拷贝过去了。

四 . 设置环境变量

在master机器上:su hadoopsudo gedit ~/.bashrc
将以下内容加入到~/.bashrc 文件中,
export SPARK_HOME=/data/spark-1.6.3-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH然后执行以下命令:source ~/.bashrc再把master机器上的~/.bashrc文件拷贝到slave机器上:(在hadoop用户下)
su hadoop   #切换到hadoop用户scp -r ~/.bashrc hadoop@slave1:~/
scp -r ~/.bashrc hadoop@slave2:~/

=======================================

=======================================

5. 启动验证

在master机器上

1)启动 masterstart-master.sh下图说明在 master 节点上成功启动 Master 进程:

在master机器上

2)启动 slavestart-slaves.shjps

在slave机器上

执行jps

    上面的图片说明在每台机器上都成功启动了 Worker 进程。

3)访问 WebUI

    在 master、slave1 和 slave2 这三台中任意一台机器上的浏览器中输入:http://master:8080/,
看到如下图片,就说明我们的 spark 集群安装成功了。

===

趟过的坑

    配置 core-site.xml 和 hdfs-site.xml 文件时所指定的本地目录一定要自己
创建,否则在执行 玩格式化 hdfs 后,启动 hdfs 会丢失进程。

二、安装Spark集群相关推荐

  1. 学习笔记Spark(二)—— Spark集群的安装配置

    一.我的软件环境 二.Spark集群拓扑 2.1.集群规模 192.168.128.10 master 1.5G ~2G内存.20G硬盘.NAT.1~2核 : 192.168.128.11 node1 ...

  2. 使用Docker安装Spark集群(带有HDFS)

    本实验在CentOS 7中完成 第一部分:安装Docker 这一部分是安装Docker,如果机器中已经安装过Docker,可以直接跳过 [root@VM-48-22-centos ~]# system ...

  3. 基于Hadoop安装spark集群

    基于Hadoop的spark环境搭建 已有环境情况 Hadoop HA Java 软件版本 Hadoop 2.7.2 Java 1.8.0_301 Scala 2.11.8 Spark 2.1.0 下 ...

  4. 安装spark集群,并成功运行

    基于上一篇的hadoop成功运行后,进一步启动spark集群: 上图中的内容,slave主机中也需要相应的设置 上图就是成功运行的结果:

  5. 第一章,安装spark集群,测试和运行wordcount 案例

    1.1下载spark 地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/ 1.2上传解压: xiaoye@ubuntu: ...

  6. Spark集群安装和WordCount编写

    一.Spark概述 官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎.为大数据处理而设计的快速通用的计算引擎.Spark加州大学伯克 ...

  7. Spark-----Spark 与 Hadoop 对比,Spark 集群搭建与示例运行,RDD算子简单入门

    目录 一.Spark 概述 1.1. Spark是什么 1.2. Spark的特点(优点) 1.3. Spark组件 1.4. Spark和Hadoop的异同 二.Spark 集群搭建 2.1. Sp ...

  8. spark集群详细搭建过程及遇到的问题解决(三)

    上篇文章中讲完了如何配置免密码登录的问题,现在讲述下,三个节点的环境配置过程. 所需要的hadoop-2.7.3.tar.gz . jdk-7u79-linux-x64.tar.gz . scala- ...

  9. Hadoop集群+Spark集群搭建基于VMware虚拟机教程+安装运行Docker

    Hadoop集群+Spark集群搭建+安装运行Docker 目录 一.准备工作 二.在虚拟机上安装CentOS 7 三.hdfs的环境准备 四.hdfs配置文件的修改 五.克隆(复制虚拟机) 六.制作 ...

最新文章

  1. Python_面向对象_类1
  2. 安卓8.1 字体 ——现在6.0,7.0,8.0都可以体验
  3. 联通4g满格但是网速慢_手机信号明明满格?网速却非常慢,原来其中讲究这么大,涨知识了...
  4. mysql拼接两个字段_重拾MySQL之创建计算字段和函数
  5. 《小小梦魇2》直击青少年的深层焦虑
  6. 数据结构与算法 | 快速排序:Hoare法, 挖坑法,双指针法,非递归, 优化
  7. oracle立即关闭数据库,Oracle数据库的起步和关闭
  8. MATLAB基础教程(6)——使用matlab求解线性方程组
  9. 违法收集使用个人信息 抖音、快手、猎聘等105款App被点名
  10. delete kubectl pod_使用kubectl管理k8s集群(三十)
  11. vue底部跳转_Vue中底部tabBar切换及跳转
  12. 逻辑回归(Logistic Regression)学习笔记
  13. (附源码)ssm通用数据展示系统 毕业设计 200934
  14. 奶头乐理论和二八定律和马太效应
  15. mysql生成随机中文名_MySQL-随机中文名
  16. sin40度不用计算机怎么求,sin40度怎么算 sin40度如何算
  17. Matlab中常用的统计量函数
  18. 热伤风和感冒有什么区别
  19. 电脑无线(外网)和有线(内网)网络同时使用方法
  20. Scratch-陶陶摘苹果

热门文章

  1. Flink JAR包上传和运行逻辑
  2. Load和Initialize的往死了问是一种怎样的体验
  3. 从生命周期去看互联网金融产品的风险管理框架
  4. 支付产品必懂的会计基础及如何应用
  5. 程序员如果也能像C罗一样自律和勤奋,必将成为大神!
  6. 中兴执行副总裁熊辉回母校谈目标:相信总有路可走
  7. 李开复:我在硅谷看到的最前沿科技趋势
  8. 植入“电商基因” 传统产业搭上网络快车[图]
  9. matlab坐标数据导出,大批量fluent导出数据,然后找对应坐标的信息
  10. Java高级工程师学习路径