Spark计算框架在处理数据时,所有的中间数据都保存在内存中。正是由于Spark充分利用内存对数据进行计算,从而减少磁盘读写操作,提高了框架计算效率。同时Spark还兼容HDFS、Hive,可以很好地与Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。所以说,Spark是一个更加快速、高效的大数据计算平台。

Spark入门到精通:Spark3.0教程 Spark3.0从入门到精通

Spark具有以下几个显著的特点:

1、速度快

小生根据官方数据统计,与Hadoop相比,Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎,能够通过内存计算高效地处理数据流。

2、易用性

Spark编程支持Java、Python、Scala及R语言,并且还拥有超过80种高级算法,除此之外,Spark还支持交互式的Shell操作,开发人员可以方便地在Shell客户端中使用Spark集群解决问题。

3、通用性

Spark提供了统一的解决方案,适用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX),它们可以在同一个应用程序中无缝地结合使用,大大减少大数据开发和维护的人力成本和部署平台的物力成本。

4、兼容性

Spark开发容pSpark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中,并且还可以访问各种数据源,包括本地文件系统、HDFS、Cassandra、HBase和Hive等。

相关教程:

Hadoop3.x全套教程,一套精通Hadoop的大数据必看教程

数据库系统Cassandra全套教程,快速精通Cassandra分布式结构化数据存储

大数据教程HBase海量数据存储实战

Hive最新全套教程,大数据Hive3.x数仓开发精讲到企业级实战应用

Spark有哪些特点?相关推荐

  1. hadoop,spark,scala,flink 大数据分布式系统汇总

    20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...

  2. spark,hadoop区别

    https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...

  3. 大规模数据处理Apache Spark开发

    大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...

  4. 客快物流大数据项目(五十四):初始化Spark流式计算程序

    目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区

  5. 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

    Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...

  6. ❤️Spark的关键技术回顾,持续更新!【推荐收藏加关注】❤️

    目录 前言 Spark的关键技术回顾 一.Spark复习题回顾 1.Spark使用的版本 2.Spark几种部署方式? 3.Spark的提交任务的方式? 4.使用Spark-shell的方式也可以交互 ...

  7. 2021年大数据Spark(五十三):Structured Streaming Deduplication

    目录 Streaming Deduplication 介绍 需求 ​​​​​​​代码演示 Streaming Deduplication 介绍 在实时流式应用中,最典型的应用场景:网站UV统计. 1: ...

  8. 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析

    目录 事件时间窗口分析 时间概念 ​​​​​​​event-time ​​​​​​​延迟数据处理 ​​​​​​​延迟数据 ​​​​​​​Watermarking 水位 ​​​​​​​官方案例演示 事件 ...

  9. 2021年大数据Spark(五十一):Structured Streaming 物联网设备数据分析

    目录 ​​​​​​​物联网设备数据分析 ​​​​​​​设备监控数据准备 ​​​​​​​创建Topic ​​​​​​​模拟数据 ​​​​​​​SQL风格 ​​​​​​​DSL风格 物联网设备数据分析 在 ...

  10. 2021年大数据Spark(五十):Structured Streaming 案例一实时数据ETL架构

    目录 案例一 实时数据ETL架构 准备主题 ​​​​​​​模拟基站日志数据 ​​​​​​​实时增量ETL 案例一 实时数据ETL架构 在实际实时流式项目中,无论使用Storm.SparkStreami ...

最新文章

  1. 纯!干!货!2019年19个Docker面试问题和解答!一线大厂必看!
  2. iOS安全之ipa 包重签名的3种方法
  3. 输出表格_做造价不会编工程量清单?276个造价表格同步输出,告别晚加班
  4. php文件utf8编码转gbk编码格式,把phpwind utf8 转成 gbk 编码
  5. Python实训day10pm【os模块-处理Excel统计学生观看直播时长】
  6. ITK:使用写访问权迭代图像中的区域
  7. openmv串口数据 串口助手_Qt小项目之串口助手控制LED
  8. mysql主从技术_MySQL主从架构的实现
  9. endnote修改正文中参考文献标注_如何用Endnote在论文中插入参考文献
  10. Linux虚拟机挂载共享文件夹
  11. servlet篇 之servlet实现
  12. 20191219每日一句
  13. gitlab+jenkins+maven+docker持续集成(二)——maven安装配置
  14. 【重磅】Crust主网进入节点接入阶段
  15. macbook卡在进度条开不了机_mac开机卡在进度条的问题
  16. Linux搭建泰拉瑞亚(原版/模组/插件)服务器之1.3模组服务器
  17. Redis——Redis的事务
  18. 科普:什么是CPU?CPU和芯片关系?CPU怎么做的?CPU有什么用?不同CPU有什么区别?我们怎么选CPU?
  19. VMware Station pro15虚拟机的下载与安装
  20. 两个不同的自然数A和B,如果整数A的全部因子(包括1,不包括A本身)之和等于B;且整数B的全部因子(包括1,不包括B本身)之和等于A,则将整数A和B称为亲密数。求3000以内的全部亲密数。

热门文章

  1. flash播放必备控件flash.ocx(64/32位)
  2. ABLIC今日推出S-576Z系列IC
  3. 淡入淡出阴阳师官网切换效果
  4. 画世界怎么用光影_请问绘画中的光影怎么编造得很真实的技巧是啥?
  5. 中国十大易经著名专家,当代最好的易经大师谈顶级思维
  6. 雷士灯具管理系统、灯具管理系统
  7. 苹果全面屏适配安全距离(safeArea)H5的屏幕适配
  8. 拉卡拉支付注重用户信息安全
  9. 拿到jar文件,如何快速运行
  10. 小熊猫C++中配置OpenCV