Spark初始

1、什么是Spark

Apache Spark™ is a unified analytics engine for large-scale data processing.

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写，方便快速编程。

2、总体技术栈讲解

3、Spark演变历史

4、Spark与MapReduce的区别

都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

5、Spark运行模式

Local

多用于本地测试，如在eclipse，idea中写程序测试等。

Standalone

Standalone是Spark自带的一个资源调度框架，它支持完全分布式。

Yarn

Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。

Mesos

资源调度框架。

要基于Yarn来进行资源调度，必须实现AppalicationMaster接口，Spark实现了这个接口，所以可以基于Yarn。

Spark _01初识相关推荐

Spark SQL 初识
Spark SQL 初识今天我们们学习一下Spark 的最最核心的组件,也是Spark中代码量最大,社区花费大量精力的模块在实际工作中,使用频率最高的当属 Spark SQL,通常一个大数据处理项 ...
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf
Spark大数据分析实战 1.Spark简介初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑弹性分布式数据集 2.Spark开发与环境配置 Spark应用开发环境2置使用 ...
Spark+Hadoop+中台实战pdf -阿里巴巴资深架构师熬几个通宵肛出来的
Spark大数据分析实战 1.Spark简介初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑弹性分布式数据集 2.Spark开发与环境配置 Spark应用开发环境2置使用 ...
Spark Streaming 实时计算在甜橙金融监控系统中的应用、性能优化、任务监控
1 写在前面目前公司对实时性计算的需要及应用越来越多,本文选取了其中之一的 Spark Streaming 来介绍如何实现高吞吐量并具备容错机制的实时流应用.在甜橙金融监控系统项目中,需要对每天亿万 ...
用java程序完成从kafka队列读取消息到sparkstreaming再从sparkstreaming里把数据导入mysql中
有一段时间没好好写博客了,因为一直在做一个比较小型的工程项目,也常常用在企业里,就是将流式数据处理收集,再将这些流式数据进行一些计算以后再保存在mysql上,这是一套比较完整的流程,并且可以从数据库中 ...
Spark2.1.0之初识Spark
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/79629729 随着近十年互联网的迅猛发展,越来越 ...
初识Spark2.0之Spark SQL
内存计算平台Spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...
Spark初识-弹性分布式数据集RDD
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用 ...
Spark初识-Spark基本架构概览使用
当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大 ...

Spark _01初识