centos7 搭建Spark On Yarn集群

背景：

之前我已经搭好了hadoop3和hive3，但是了解hive3.1.2只能匹配spark2.4版本，所以我这次安装spark2.4.5。

Hive3 Hadoop3

首先保证hadoop集群正常启用。

我的机子：10.0.2.4是node1(master)，10.0.2.15是node2(slave)，10.0.2.5是node3(slave)，先配置node1.

hosts文件配置和ssh免密登录等问题看我之前搭建hadoop集群的内容，这里不再强调。

1、把下好的spark-2.4.5-bin-hadoop2.7.tgz放到node1的/opt/spark，然后解压：

spark2.4.5下载https://archive.apache.org/dist/spark/spark-2.4.5/

cd /opt/spark
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz

2、配置 spark

①spark-env.sh

cd /opt/spark/spark-2.4.5-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
vi spark-env.shHADOOP_CONF_DIR=/opt/hadoop/hadoop-3.3.2/etc/hadoop
YARN_CONF_DIR=/opt/hadoop/hadoop-3.3.2/etc/hadoop
JAVA_HOME=/opt/java/jdk1.8.0_321SPARK_MASTER_HOST=node1
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:9000/spark/eventLogs/
-Dspark.history.fs.cleaner.enabled=true"

②slaves

mv slaves.template slaves
vi slaves删除localhost 新增
node2
node3

③spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.confspark.eventLog.enabled true
spark.eventLog.dir hdfs://node1:9000/spark/eventLogs/  #spark日志目录
spark.eventLog.compress true
spark.yarn.historyServer.address node1:18080
spark.history.ui.port 18080
spark.history.fs.logDirectory hdfs://node1:9000/spark/eventLogs/
spark.yarn.jars hdfs://node1:9000/spark/apps/jars/*  #运行spark任务需要的jar包目录

④log4j.properties

mv log4j.properties.template log4j.properties
vi log4j.propertieslog4j.rootCategory=WARN, console    # 只修改这一行

⑤在node2、node3创建/opt/spark目录，发送配置到2个slave机器

scp -r /opt/spark/spark-2.4.5-bin-hadoop2.7/ root@node2:/opt/spark/
scp -r /opt/spark/spark-2.4.5-bin-hadoop2.7/ root@node3:/opt/spark/

3、配置hadoop，2个slave机器node2、node3都要同步配置

cd /opt/hadoop/hadoop-3.3.2/etc/hadoop
vi yarn-site.xml<property><name>yarn.log.server.url</name><value>http://node1:19888/jobhistory/logs</value>
</property>
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

4、配置spark环境变量，可不配

vi /etc/profileexport SPARK_HOME=/opt/spark/spark-2.4.5
export PATH=$SPARK_HOME/bin/:$SPARK_HOME/sbin/:$PATHsource /etc/profile

5、创建spark日志目录，配置SparkJar

创建spark日志目录
就是spark-defaults.conf的spark.eventLog.dir hdfs://node1:9000/spark/eventLogs/

执行命令hdfs dfs -mkdir -p /spark/eventLogs/

配置SparkJar，就是spark-defaults.conf里的spark.yarn.jars hdfs://node1:9000/spark/apps/jars/*

强烈建议配置一下，因为这样可以避免每次提交spark任务时需要指定jar包并上传到hadoop，会很费时间，提前把jar包环境准备好，配置如下：

hdfs dfs -mkdir -p /spark/apps/jars/    #jar包存放目录
hdfs dfs -put /opt/spark/spark-2.4.5-bin-hadoop2.7/jars/* /spark/apps/jars/

这里还有一个问题需要注意，随着提交的任务变化，可能hdfs上现有的jar不满足任务运行，会导致报莫名其妙的错误，后期可能需要不断上传jar包到hdfs上。（本人刚吃过亏才来补的这句话）

6、启动

①重启hadoop集群，在node1操作：

cd /opt/hadoop/hadoop-3.3.2/sbin
./stop-all.sh
./start-all.sh另外启动日志服务：
./mr-jobhistory-daemon.sh start historyserver

②启动spark集群，在node1操作：

cd /opt/spark/spark-2.4.5-bin-hadoop2.7/sbin./start-all.sh另外启动spark日志服务：
./start-history-server.sh

都启动成功后，在node1敲一下jps看一下进程：

JobHistoryServer是hadoop的日志服务，HistoryServer是spark的日志服务，Master是spark的主节点。

在node2和node3敲一下jps:

Worker是spark的从节点，其实我的node1也有Worker是因为我把slaves配置文件也加上了node1.

7、验证测试

①测试spark

/opt/spark/spark-2.4.5-bin-hadoop2.7/bin/spark-submit --master yarn --class org.apache.spark.examples.SparkPi /opt/spark/spark-2.4.5-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.5.jar 10

如果不报错出现 Pi is roughly 3.1423111423111423 则运行成功。

②测试日志

至于我们配置的JobHistoryServer和HistoryServer也可以验证一下：

浏览器输入 node1:18080，此时进入spark的HistoryServer的web页面。

点击上图圈红地方，进到这个job的详情页：

再点击上图圈红地方，查看任务执行：

最后再点上图圈红的stdout或stderr，会跳到配置的node1:19888，这里是hadoop的job日志

其实JobHistoryServer和HistoryServer的关系我不是很清楚，只是大概配通了流程，不了解的可以单独搜history相关自己去看看。

我是个大数据小白，是一名普通java后端，最近在研究hadoop全家桶，只为记录心得，spark搞定了之后再研究spark on hive。