spark为什么比hadoop快
网上一堆人根本对计算框架一知半解就出来糊弄人,常见解答有:
spark是基于内存计算,所以快。这跟废话似的,mr计算的时候不也是基于内存?
mr shuffle落盘。这也是胡扯, spark shuffle不落盘?
实际上,如果一个job只有一个map task和reduce task,那么spark并不会比mr快很多。spark快的真正原因是,当一个job具有多个stage时, 我们将这个job表示为 [ m a p 1 , r e d u c e 1 , m a p 2 , r e d u c e 2 . . . r e d u c e n − 1 , m a p n . . . ] [map_1, reduce_1, map_2, reduce_2...reduce_{n-1}, map_n...] [map1,reduce1,map2,reduce2...reducen−1,mapn...],那么mr会在每一个 r e d u c e n − 1 reduce_{n-1} reducen−1和 m a p n map_n mapn之间进行一次落盘和一次文件读取,而spark因为可以将窄依赖的算子合并为一个stage(得益于spark的DAG计算机制),所以在 r e d u c e n − 1 reduce_{n-1} reducen−1和 m a p n map_n mapn之间是不涉及落盘的,直接基于内存计算。
举个小例子加深理解,假设一个job涉及两个stage,那么mr和spark的运行过程是这样的:
可以看到, spark相较于MR而言,少了一次hdfs文件落盘和一次文件读取,如果一个job有 n n n个stage(比方说是像机器学习算法这样的迭代式计算),那么spark可以节省 n − 1 n-1 n−1次文件落盘、读取。因此速度会快很多。
spark为什么比hadoop快相关推荐
- Spark精华问答 | Spark 会替代Hadoop 吗?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- 为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?
https://www.zhihu.com/question/20098507 为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?修改 写补充说明 举报 添加评论 分享 • 邀请回答 按 ...
- hadoop组件---spark----全面了解spark以及与hadoop的区别
Spark是什么 Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎. spark官网 Spark核心代码是用scala语言开发的,不过支持使用多种语言 ...
- Apache Spark学习:将Spark部署到Hadoop 2.2.0上
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作. 需要注意两点:(1)使用的Hadoop必须是2.0 ...
- [转]Spark能否取代Hadoop?
大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯. ...
- 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...
- spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网
资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...
- 为什么Spark官网上称其性能比Hadoop快100倍
背景 Spark的特点 1.减少磁盘IO 随着实时业务的流行,Hadoop作为离线的高吞吐.低响应框架已不能满足这一需求.Hadoop MapReduce 的map端的中间结果会落地落地到磁盘,red ...
- 笔记:python spark机器学习与hadoop大数据
目录 1.1机器学习的介绍 机器学习架构 1.2Spark的介绍 1.3Spark数据处理RDD.DataFrame.Spark SQl 1.4使用python开发spark机器学习与大数据应用 1. ...
最新文章
- 嵌入式 ARM 汇编编程例题(二维数组按规律求和,求两数 gcd / lcm,求数组 min / max,字符串复制,排序)
- 改变单选或者复选框的样式
- Java面试你必须要知道的那些知识,深夜思考
- 吴恩达机器学习+林轩田机器学习+高等数学和线性代数等视频领取
- Google Protocol Buffers浅析(四)
- iOS开发之oc(二十)--Foundation(5)NSDictionary
- 推导pca的降维损失_这应该是最全的PCA原理总结了(上)
- 包导出Android升级ADT22后会报ClassNotFoundException的原因分析
- 这一本《电子工程师技术手册》,你要不要?
- ubuntu用户磁盘空间分配--quota
- 中考计算机易错知识点,中考语文常见的易错考点23个
- 刘宇凡:关于圈子的只言片语
- 今日早报 每天一分钟知晓天下事 3-13
- php 通配符删除文件,如何使用通配符删除文件夹?
- 惠普g7服务器硬盘阵列,HP DL388 G7 服务器重新做RAID
- 利用Java反射机制调用含数组参数的方法
- sharepoint 2013 文档库eventhandle权限控制
- PMP-商业论证中的财务测量指标-动态投资回收期、净现值、内部收益率、效益成本率计算
- Asp.Net MVC中身份认证和授权
- CTF学习笔记:misc
热门文章
- 粉丝活动:《uni-app跨平台开发与应用从入门到实践》一本(包邮)
- linux使用scp传输文件出现Permission denied解决办法
- 试卷管理表mysql_图书馆管理系统-试卷表 - 数据库设计 - 数据库表结构 - 果创云...
- 华为公积金降低,还有人跳槽去华为么?
- 过敏性鼻炎给宝宝带来哪些危害?
- 优秀的程序员大多是谦虚的
- 特征可视化技术t-SNE
- 外卖+电商类小程序——微信小程序心得分享
- MaskRCNN环境配置
- Topaz Gigapixel AI 5.3.2汉化版|AI人工智能无损放大插件Topaz Gigapixel AI中文版