Spark初始

1、什么是Spark

     Apache Spark™ is a unified analytics engine for large-scale data processing.

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写,方便快速编程。

2、总体技术栈讲解

3、Spark演变历史

4、Spark与MapReduce的区别

  • 都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。

5、Spark运行模式

  • Local

多用于本地测试,如在eclipse,idea中写程序测试等。

  • Standalone

Standalone是Spark自带的一个资源调度框架,它支持完全分布式。

  • Yarn

Hadoop生态圈里面的一个资源调度框架,Spark也是可以基于Yarn来计算的。

  • Mesos

资源调度框架。

  • 要基于Yarn来进行资源调度,必须实现AppalicationMaster接口,Spark实现了这个接口,所以可以基于Yarn。

Spark _01初识相关推荐

  1. Spark SQL 初识

    Spark SQL 初识 今天我们们学习一下Spark 的最最核心的组件,也是Spark中代码量最大,社区花费大量精力的模块 在实际工作中,使用频率最高的当属 Spark SQL,通常一个大数据处理项 ...

  2. 阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf

    Spark大数据分析实战 1.Spark简介 初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑 弹性分布式数据集 2.Spark开发与环境配置 Spark应用开发环境2置 使用 ...

  3. Spark+Hadoop+中台实战pdf -阿里巴巴资深架构师熬几个通宵肛出来的

    Spark大数据分析实战 1.Spark简介 初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑 弹性分布式数据集 2.Spark开发与环境配置 Spark应用开发环境2置 使用 ...

  4. Spark Streaming 实时计算在甜橙金融监控系统中的应用、性能优化、任务监控

    1 写在前面 目前公司对实时性计算的需要及应用越来越多,本文选取了其中之一的 Spark Streaming 来介绍如何实现高吞吐量并具备容错机制的实时流应用.在甜橙金融监控系统项目中,需要对每天亿万 ...

  5. 用java程序完成从kafka队列读取消息到sparkstreaming再从sparkstreaming里把数据导入mysql中

    有一段时间没好好写博客了,因为一直在做一个比较小型的工程项目,也常常用在企业里,就是将流式数据处理收集,再将这些流式数据进行一些计算以后再保存在mysql上,这是一套比较完整的流程,并且可以从数据库中 ...

  6. Spark2.1.0之初识Spark

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/79629729 随着近十年互联网的迅猛发展,越来越 ...

  7. 初识Spark2.0之Spark SQL

    内存计算平台Spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织 ...

  8. Spark初识-弹性分布式数据集RDD

    Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用 ...

  9. Spark初识-Spark基本架构概览使用

    当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大 ...

最新文章

  1. python 列表使用
  2. 飒!阿里巴巴 29 个吊炸天的开源项目!
  3. 自定义类似于listView中Item背景
  4. Java学习笔记(43)——Java泛型
  5. 理解JSON.stringify()高级用法
  6. vue如何使用原生js写动画效果_Vue中的动画效果
  7. android入门级智能手表产地,从全球智能手表市场来看,Android智能手表只在中国卖得好...
  8. 热释电传感器三个引脚_热释电传感器电路图大全(六款热释电传感器电路设计原理图详解)...
  9. armeabi-v7a arm64-v8a armeabi x86 x86_64区别
  10. 算法探究:线性时间选择问题
  11. php递归5,5.5.1 PHP递归函数
  12. android 魅族 webview,魅族 Flyme 系统出现大面积应用闪退问题,提供临时解决方法...
  13. 《紫川》之远东战火 第八卷
  14. 不小心设置了xml文件中的namespace(xmln)如何取消
  15. [附源码]计算机毕业设计Python架构的博客平台设计(程序+源码+LW文档)
  16. 大话设计模式 第二十三章 命令模式 考羊肉串
  17. PC-Lint的使用方法
  18. 运用JAVA开发安卓程序
  19. ant man 什么意思_ant是什么意思中文翻译
  20. 彻底理解单例设计模式

热门文章

  1. 服务器发送消息技术,知识科普:IM聊天应用是如何将消息发送给对方的?(非技术篇)...
  2. c语言 队列 游戏,循环队列实现约瑟夫游戏(C语言版)
  3. 石子合并(GarsiaWachs算法)
  4. HDU4475(找规律+预处理加速)
  5. QT乱码总结2.gbk和ANSI和gb2312的区别
  6. 重写数组的方法(改变原数组)
  7. 边缘计算、区块链、5G,哪个能走的更远
  8. 聚美app之 _sign参数分析
  9. RabbitMQ消息追踪之Firehose
  10. 计算机基础- -应用和硬件的关系