Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

Spark特点

Spark具有如下几个主要特点:

  • 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;
  • 容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过Spark Shell进行交互式编程;
  • 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以无缝整合在同一个应用中,足以应对复杂的计算;
  • 运行模式多样:Spark可运行于独立的集群模式中,或者运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

Spark相对于Hadoop的优势

Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因而只适用于离线批处理的应用场景。

回顾Hadoop的工作流程,可以发现Hadoo

【Spark】Spark基础教程相关推荐

  1. 【Spark】Spark基础教程知识点

    第 1 部分 Spark 基础 Spark 概述 本章介绍 Spark 的一些基本认识. Spark官方地址 一:什么是 Spark Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎 ...

  2. Spark环境搭建教程

    Spark环境搭建教程 前言 Spark环境搭建-Local-本地模式 准备工作 原理 操作-开箱即用 测试 Spark环境搭建-Standalone-独立集群 原理 操作 测试 Spark环境搭建- ...

  3. 学习笔记Spark(七)—— Spark SQL应用(2)—— Spark DataFrame基础操作

    二.Spark DataFrame基础操作 2.1.DataFrame DataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表. 数据集的每一列都带有名称和类 ...

  4. spark学习基础篇1--spark概述与入门

    spark总结 一: spark 概述 1. Spark 是 分布式内存计算框架 Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果 ...

  5. 第12期:Spark零基础学习路线

    大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Spark零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Spark学习路线不是很清晰,所以我花了一些时间给大家 ...

  6. spark编程基础python版 pdf_Spark编程基础Python版-第5章-Spark-SQL.pdf

    <Spark编程基础(Python版)> 教材官网:/post/spark-python/ 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 第5章Spark SQL (P ...

  7. 大数据spark开发入门教程

    大数据是互联网发展的方向,大数据人才是未来的高薪贵族.随着大数据人才的供不应求,大数据人才的薪资待遇也在不断提升.如果你也想进入大数据行业,也想学习大数据技术,大数据讲师认为,可以先从spark技术开 ...

  8. pyspark基础教程

    pyspark基础教程 下面一段代码是简单教程,对与如何向spark 集群提交代码任务,无论文档和博客都有很多说法,其实很简单,只要在脚本中setMaster("spark://192.16 ...

  9. Scala基础教程--10--数组列表与函数式编程

    Scala基础教程–10–数组列表与函数式编程 章节目标 掌握数组, 元组相关知识点 掌握列表, 集, 映射相关知识点 了解迭代器的用法 掌握函数式编程相关知识点 掌握学生成绩单案例 1. 数组 1. ...

  10. 本征向量、PCA和熵的基础教程

    1. 简介 本页主要以通俗语言和少量数学公式介绍本征向量及其与矩阵之间的关系,并且在此基础上解释协方差.主成分分析和信息熵. 本征向量(eigenvector)一词中的"本征(eigen)& ...

最新文章

  1. 使用maven导入jar包
  2. 如何阻止子元素触发父元素的事件
  3. LINQ TO ENTITY 根据Birthday获取Age
  4. 元宇宙iwemeta: 元宇宙与数字经济
  5. python网址在浏览器能打开_Python - Flask - 在默认浏览器中打开一个网页
  6. 计算机免修考试题库,计算机免修考试内容和样卷.doc
  7. 【我们一起写框架】C#的AOP框架
  8. 回文质数(洛谷P1217题题解,Java语言描述)
  9. excel两列相同匹配第三列_Vlookup函数解决Excel大量数据匹配问题
  10. 【论文推荐】推荐4个NLP任务的论文列表 -- 语法纠错、释义生成、文本可读性、汉字部件...
  11. 神经网络拟合高程异常
  12. OSPF的区域划分与路由计算概述
  13. Camera问题解锁:Sensor Flicker(banding)
  14. CART与ID3的区别C4.5离散化的过程
  15. 安装Xp和Win7双系统方法(图文教程)
  16. ORACLE查询基本语句
  17. Setup time 和 Hold time
  18. 信号频率、采样频率、采样点数
  19. 高等学校计算机水平考试一级,全国高等学校计算机水平考试一级office考试要点汇总大全...
  20. 解决docker下安装redis后,RedisDesktopManager可以链接,但是springboot项目不能链接的问题

热门文章

  1. 超级经典,绝对好的第三方控件网
  2. 关于Java中的引用的用法
  3. 解决Maven打包报错:Failed to clean project: Failed to delete
  4. CSS初始化(科普)
  5. python实现输入一个字符串,输出每个字符的ASCLL码形成的列表
  6. OLE- 微软API—对象链接与嵌入
  7. css:层叠样式表(全)
  8. 使用poi导出excel生成复杂多级表头通用方法
  9. 【资源】这款工具让SpringBoot不再需要Controller、Service、DAO、Mapper!
  10. qt下使用opencascade源代码