Spark有哪些特点?
Spark计算框架在处理数据时,所有的中间数据都保存在内存中。正是由于Spark充分利用内存对数据进行计算,从而减少磁盘读写操作,提高了框架计算效率。同时Spark还兼容HDFS、Hive,可以很好地与Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。所以说,Spark是一个更加快速、高效的大数据计算平台。
Spark入门到精通:Spark3.0教程 Spark3.0从入门到精通
Spark具有以下几个显著的特点:
1、速度快
小生根据官方数据统计,与Hadoop相比,Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎,能够通过内存计算高效地处理数据流。
2、易用性
Spark编程支持Java、Python、Scala及R语言,并且还拥有超过80种高级算法,除此之外,Spark还支持交互式的Shell操作,开发人员可以方便地在Shell客户端中使用Spark集群解决问题。
3、通用性
Spark提供了统一的解决方案,适用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX),它们可以在同一个应用程序中无缝地结合使用,大大减少大数据开发和维护的人力成本和部署平台的物力成本。
4、兼容性
Spark开发容pSpark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中,并且还可以访问各种数据源,包括本地文件系统、HDFS、Cassandra、HBase和Hive等。
相关教程:
Hadoop3.x全套教程,一套精通Hadoop的大数据必看教程
数据库系统Cassandra全套教程,快速精通Cassandra分布式结构化数据存储
大数据教程HBase海量数据存储实战
Hive最新全套教程,大数据Hive3.x数仓开发精讲到企业级实战应用
Spark有哪些特点?相关推荐
- hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
- spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
- 大规模数据处理Apache Spark开发
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...
- 客快物流大数据项目(五十四):初始化Spark流式计算程序
目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区
- 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu
Spark操作Kudu dataFrame操作kudu 一.DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本 ...
- ❤️Spark的关键技术回顾,持续更新!【推荐收藏加关注】❤️
目录 前言 Spark的关键技术回顾 一.Spark复习题回顾 1.Spark使用的版本 2.Spark几种部署方式? 3.Spark的提交任务的方式? 4.使用Spark-shell的方式也可以交互 ...
- 2021年大数据Spark(五十三):Structured Streaming Deduplication
目录 Streaming Deduplication 介绍 需求 代码演示 Streaming Deduplication 介绍 在实时流式应用中,最典型的应用场景:网站UV统计. 1: ...
- 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析
目录 事件时间窗口分析 时间概念 event-time 延迟数据处理 延迟数据 Watermarking 水位 官方案例演示 事件 ...
- 2021年大数据Spark(五十一):Structured Streaming 物联网设备数据分析
目录 物联网设备数据分析 设备监控数据准备 创建Topic 模拟数据 SQL风格 DSL风格 物联网设备数据分析 在 ...
- 2021年大数据Spark(五十):Structured Streaming 案例一实时数据ETL架构
目录 案例一 实时数据ETL架构 准备主题 模拟基站日志数据 实时增量ETL 案例一 实时数据ETL架构 在实际实时流式项目中,无论使用Storm.SparkStreami ...
最新文章
- 纯!干!货!2019年19个Docker面试问题和解答!一线大厂必看!
- iOS安全之ipa 包重签名的3种方法
- 输出表格_做造价不会编工程量清单?276个造价表格同步输出,告别晚加班
- php文件utf8编码转gbk编码格式,把phpwind utf8 转成 gbk 编码
- Python实训day10pm【os模块-处理Excel统计学生观看直播时长】
- ITK:使用写访问权迭代图像中的区域
- openmv串口数据 串口助手_Qt小项目之串口助手控制LED
- mysql主从技术_MySQL主从架构的实现
- endnote修改正文中参考文献标注_如何用Endnote在论文中插入参考文献
- Linux虚拟机挂载共享文件夹
- servlet篇 之servlet实现
- 20191219每日一句
- gitlab+jenkins+maven+docker持续集成(二)——maven安装配置
- 【重磅】Crust主网进入节点接入阶段
- macbook卡在进度条开不了机_mac开机卡在进度条的问题
- Linux搭建泰拉瑞亚(原版/模组/插件)服务器之1.3模组服务器
- Redis——Redis的事务
- 科普:什么是CPU?CPU和芯片关系?CPU怎么做的?CPU有什么用?不同CPU有什么区别?我们怎么选CPU?
- VMware Station pro15虚拟机的下载与安装
- 两个不同的自然数A和B,如果整数A的全部因子(包括1,不包括A本身)之和等于B;且整数B的全部因子(包括1,不包括B本身)之和等于A,则将整数A和B称为亲密数。求3000以内的全部亲密数。