网上一堆人根本对计算框架一知半解就出来糊弄人,常见解答有:
spark是基于内存计算,所以快。这跟废话似的,mr计算的时候不也是基于内存?
mr shuffle落盘。这也是胡扯, spark shuffle不落盘?

实际上,如果一个job只有一个map task和reduce task,那么spark并不会比mr快很多。spark快的真正原因是,当一个job具有多个stage时, 我们将这个job表示为 [ m a p 1 , r e d u c e 1 , m a p 2 , r e d u c e 2 . . . r e d u c e n − 1 , m a p n . . . ] [map_1, reduce_1, map_2, reduce_2...reduce_{n-1}, map_n...] [map1​,reduce1​,map2​,reduce2​...reducen−1​,mapn​...],那么mr会在每一个 r e d u c e n − 1 reduce_{n-1} reducen−1​和 m a p n map_n mapn​之间进行一次落盘和一次文件读取,而spark因为可以将窄依赖的算子合并为一个stage(得益于spark的DAG计算机制),所以在 r e d u c e n − 1 reduce_{n-1} reducen−1​和 m a p n map_n mapn​之间是不涉及落盘的,直接基于内存计算。

举个小例子加深理解,假设一个job涉及两个stage,那么mr和spark的运行过程是这样的:

可以看到, spark相较于MR而言,少了一次hdfs文件落盘和一次文件读取,如果一个job有 n n n个stage(比方说是像机器学习算法这样的迭代式计算),那么spark可以节省 n − 1 n-1 n−1次文件落盘、读取。因此速度会快很多。

spark为什么比hadoop快相关推荐

  1. Spark精华问答 | Spark 会替代Hadoop 吗?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  2. 为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?

    https://www.zhihu.com/question/20098507 为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?修改 写补充说明 举报 添加评论 分享 • 邀请回答 按 ...

  3. hadoop组件---spark----全面了解spark以及与hadoop的区别

    Spark是什么 Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎. spark官网 Spark核心代码是用scala语言开发的,不过支持使用多种语言 ...

  4. Apache Spark学习:将Spark部署到Hadoop 2.2.0上

    本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作. 需要注意两点:(1)使用的Hadoop必须是2.0 ...

  5. [转]Spark能否取代Hadoop?

    大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯. ...

  6. 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf

    <Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...

  7. spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网

    资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...

  8. 为什么Spark官网上称其性能比Hadoop快100倍

    背景 Spark的特点 1.减少磁盘IO 随着实时业务的流行,Hadoop作为离线的高吞吐.低响应框架已不能满足这一需求.Hadoop MapReduce 的map端的中间结果会落地落地到磁盘,red ...

  9. 笔记:python spark机器学习与hadoop大数据

    目录 1.1机器学习的介绍 机器学习架构 1.2Spark的介绍 1.3Spark数据处理RDD.DataFrame.Spark SQl 1.4使用python开发spark机器学习与大数据应用 1. ...

最新文章

  1. 嵌入式 ARM 汇编编程例题(二维数组按规律求和,求两数 gcd / lcm,求数组 min / max,字符串复制,排序)
  2. 改变单选或者复选框的样式
  3. Java面试你必须要知道的那些知识,深夜思考
  4. 吴恩达机器学习+林轩田机器学习+高等数学和线性代数等视频领取
  5. Google Protocol Buffers浅析(四)
  6. iOS开发之oc(二十)--Foundation(5)NSDictionary
  7. 推导pca的降维损失_这应该是最全的PCA原理总结了(上)
  8. 包导出Android升级ADT22后会报ClassNotFoundException的原因分析
  9. 这一本《电子工程师技术手册》,你要不要?
  10. ubuntu用户磁盘空间分配--quota
  11. 中考计算机易错知识点,中考语文常见的易错考点23个
  12. 刘宇凡:关于圈子的只言片语
  13. 今日早报 每天一分钟知晓天下事 3-13
  14. php 通配符删除文件,如何使用通配符删除文件夹?
  15. 惠普g7服务器硬盘阵列,HP DL388 G7 服务器重新做RAID
  16. 利用Java反射机制调用含数组参数的方法
  17. sharepoint 2013 文档库eventhandle权限控制
  18. PMP-商业论证中的财务测量指标-动态投资回收期、净现值、内部收益率、效益成本率计算
  19. Asp.Net MVC中身份认证和授权
  20. CTF学习笔记:misc

热门文章

  1. 粉丝活动:《uni-app跨平台开发与应用从入门到实践》一本(包邮)
  2. linux使用scp传输文件出现Permission denied解决办法
  3. 试卷管理表mysql_图书馆管理系统-试卷表 - 数据库设计 - 数据库表结构 - 果创云...
  4. 华为公积金降低,还有人跳槽去华为么?
  5. 过敏性鼻炎给宝宝带来哪些危害?
  6. 优秀的程序员大多是谦虚的
  7. 特征可视化技术t-SNE
  8. 外卖+电商类小程序——微信小程序心得分享
  9. MaskRCNN环境配置
  10. Topaz Gigapixel AI 5.3.2汉化版|AI人工智能无损放大插件Topaz Gigapixel AI中文版