注:本文是建立在hadoop已经搭建完成的基础上进行的。

Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度,任务的提交、执行和跟踪,节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。从这方面说,它与Apache Hadoop等分布式处理框架类似。但在底层架构上,Spark与它们有所不同。

Spark起源于加利福利亚大学伯克利分校的一个研究项目。学校当时关注分布式机器学习算法的应用情况。因此,Spark从一开始便为应对迭代式应用的高性能需求而设计。在这类应用中,相同的数据会被多次访问。该设计主要靠利用数据集内存缓存以及启动任务时的低延迟和低系统开销来实现高性能。再加上其容错性、灵活的分布式数据结构和强大的函数式编程接口,Spark在各类基于机器学习和迭代分析的大规模数据处理任务上有广泛的应用,这也表明了其实用性。

Spark支持四种运行模式。

  • 本地单机模式:所有Spark进程都运行在同一个Java虚拟机(Java Vitural Machine,JVM)中。
  • 集群单机模式:使用Spark自己内置的任务调度框架。
  • 基于Mesos:Mesos是一个流行的开源集群计算框架。
  • 基于YARN:即Hadoop 2,它是一个与Hadoop关联的集群计算和资源调度框架。

spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 
编译过程:Python、java、Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致)

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译。

hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装yarn版本的

spark官方详细参数配置手册:http://spark.apache.org/docs/latest/configuration.html

下载地址:http://spark.apache.org/downloads.html

---------------------------------------------------------------------------------------------------------

1、安装Scala

官网下载地址: http://www.scala-lang.org/download/all.html

下载后解压到指定目录,例如 /usr/local/scala

# tar -zxvf scala-2.11.8.tgz  ;  mv scala-2.11.8 /usr/local/scala

配置环境变量:

# vim /etc/profile

export  SCALA_HOME=/usr/local/scala/

export  PATH=$SCALA_HOME/bin:$PATH

2、编辑conf/spark-env.sh文件

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=dataMaster30
export SPARK_EXECUTOR_INSTANCES=3
export SPARK_EXECUTOR_CORES=3
export SPARK_EXECUTOR_MEMORY=8g
export SPARK_DRIVER_MEMORY=2g

3、编辑slaves文件

#localhost
dataSlave31
dataSlave32
dataSlave33
dataSlave34
dataSlave35

4、启动spark集群:

/usr/local/spark/sbin/start-all.sh

关闭spark集群:

/usr/local/spark/sbin/stop-all.sh

 

5、检测是否安装成功:

# jps (Master节点) 此时会多出现一个Master进程

1701 Master
1459 SecondaryNameNode
2242 NameNode
1907 ResourceManage

# jps  (Worker节点) 此时会多出现一个Worker进程

5387 Worker
4269 DataNode
4398 NodeManager

执行以下测试命令,查看spark单机运行是否成功:

/usr/local/spark/bin/run-example SparkPi 1000

执行以下测试命令,查看spark集群运行是否成功:

cd /usr/local/spark

./bin/spark-submit --master spark://master60:7077 --class org.apache.spark.examples.SparkPi  lib/spark-examples-1.6.1-hadoop2.6.0.jar 1000

如果没有报错的话,则证明spark确实部署成功。

6、查看集群状态:

http://master30:8080/

最后设置开机自启动:

vim /etc/rc.local

su - hadoop -c "/usr/local/hadoop/sbin/start-all.sh"
su - hadoop -c "/usr/local/spark/sbin/start-all.sh"

spark1.6.1 on yarn搭建部署相关推荐

  1. Spark集群基于Zookeeper的HA搭建部署笔记(转)

    原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...

  2. Spark-1.4.0集群搭建

    主要内容 Ubuntu 10.04 系统设置 ZooKeeper集群搭建 Hadoop-2.4.1集群搭建 Spark 1.4.0集群搭建 假设已经安装好Ubuntu操作系统 Ubuntu 10.04 ...

  3. Spark2.2.0集群搭建部署之【HADOOP集群篇】

    软件准备信息,详见Spark2.2.0集群搭建部署之[软件准备篇] 基础配置信息,详见Spark2.2.0集群搭建部署之[基础配置篇] SSH无密访问,详见park2.2.0集群搭建部署之[无密访问篇 ...

  4. 企业级监控软件Zabbix搭建部署之使用mutt+msmtp配置Zabbix邮件报警

    企业级监控软件Zabbix搭建部署之使用mutt+msmtp配置Zabbix邮件报警 [root@Zabbix-Server ~]# wget http://nchc.dl.sourceforge.n ...

  5. Nginx搭建部署Web服务器并与NFS结合搭建负载均衡服务器

    Nginx搭建部署Web服务器并与NFS结合搭建负载均衡服务器 一.搭建NginxWeb服务器     此种方式是用yum安装Nginx,为保证安装成功需在安装之前提前安装epel扩展源.     用 ...

  6. 手机直播系统 服务器,手机直播系统平台搭建部署开发

    原标题:手机直播系统平台搭建部署开发 如今网络发展如此迅速,除pc端直播开发的发展迅速外,手机直播系统也在不断进步,尤其是现在人们对手机的依赖程度增加,更多的人喜欢从手机上看直播,因为手机看直播更方便 ...

  7. hadoop集群HA模式(JN+ZK)+yarn搭建

    一.hadoop伪分布式环境搭建 二.hadoop集群HA模式搭建 三.hadoop集群HA模式(JN+ZK)+yarn搭建 角色分配 角色\服务器 node01 node02 node03 node ...

  8. CDN服务器是什么意思?CDN服务器搭建部署

    CDN服务器是什么意思?CDN服务器搭建部署 什么叫CDN服务器? cdn服务器的优点和设计原理 CDN服务器搭建部署 一.CDN服务器搭建前打算(文中以LuManager来构建CDN虚拟主机) 二. ...

  9. 基于云开发的微信答题活动小程序v1.0搭建部署帮助文档

    11月是全国"119"消防宣传月,不少企事业单位都会举办消防安全知识竞答活动,因此我基于云开发搭建了消防安全知识答题活动小程序. 接着,还写完了初阶的手把手教你搭建答题活动小程序系 ...

最新文章

  1. 降维处理:PCA和LDA
  2. C++ 虚函数在基类与派生类对象间的表现及其分析
  3. 数据从业者必读:抓取了一千亿个网页后我才明白,爬虫一点都不简单
  4. 招聘行业颠覆者【伯小乐】| 手摸手产品研究院
  5. 大三前端实习生2018总结
  6. .NET语言的编译过程:中间语言(IL)和即时编译器(JIT)
  7. 微信公众平台网站开发JS_SDK遇到的bug——wx.config注册提示成功,但部分接口注册失败问题
  8. 中国企业2017年数据_根据数据,2017年最好的免费在线课程
  9. 58页PPT揭示图神经网络研究最新进展
  10. 【华为云技术分享】HDC.Cloud | 为防止交通事故,95后学生运用“黑科技”这样做!
  11. 顺丰不行了吗?对快递行业的深度理解
  12. gcd常见结论及gcd与斐波那契结合--hdu6363.
  13. 点击头像上传文件的效果
  14. linux 集成 3g 模块 串口 option,华为等 3G、4G模块拨号上网过程分析
  15. 常用公差配合表图_车间里常用的测量器具,别说没见过!
  16. deepface:最先进轻量级人脸识别和人脸属性分析框架讲解
  17. 网上赚钱方法有哪些?这5种赚钱方法,非常适合草根!
  18. 模板文件, ruby erb 与 python format
  19. 爬取的网页翻页是js的(构造post请求,ajax 异步刷新的, 只抓ajax调用的接口就行),然后保存固定格式
  20. no module named ‘lap‘

热门文章

  1. python绘制散点图的步骤_python如何绘制散点图?
  2. layer中嵌套的页面如何操作父页面_vue中8种组件通信方式,值得收藏
  3. 房价预测python_详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索...
  4. java https soap,Java Https Soap Server(Tomcat-Axis2)
  5. 离散中多重组合是指_PLC编程中如何使用开关、模拟、脉冲量
  6. decorator php,php设计模式 Decorator(装饰模式)
  7. oracle系统实验,实验1 启动Oracle系统
  8. 计算机毕业设计答辩慌?软工本科 Java EE 毕设项目答辩问题、答案汇总指南奉上
  9. Apache Hadoop 答疑:解决 Apache Hadoop 启动时 DataNode 启动异常的问题
  10. UVAoj 11324 - The Largest Clique(tarjan + dp)