写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

1. 执行机制: Mapreduce是一个数据流模型,每个任务只对输入数据进行处理,产生的输出数据作为另一个任务的输入数据,并行任务之间独立地进行,串行任务之间以磁盘和数据复制作为交换介质和接口。而BSP是一个状态模型,各个子任务在本地的子图数据上执行计算、通信、修改图的状态等操作,并行任务之间通过消息通信交流中间计算结果,不需要像MapReduce那样对全体数据进行复制。
2. 迭代处理: MapReduce模型理论上需要连续启动若干作业才能完成图的迭代处理,相邻作业之间通过分布式文件系统交换全部数据。而BSP模型仅启动一个作业,利用多个超步就可以完成迭代处理,两次迭代之间通过消息传递中间计算结果。由于减少了作业启动、调度开销和磁盘存取开销, BSP模型的迭代执行效率较高。
3. 数据分割:基于BSP的图处理模型,需要对加载后的图数据进行一次再分布的过程,以确定消息通信时的路由地址。例如,在各任务并行加载数据的过程中,根据一定的映射策略,将读人的数据重新分发到对应的计算任务上(通常存放在内存中),既有磁盘IO又有网络通信,开销很大。但是一个BSP作业仅需一次数据分割,在之后的迭代计算过程中,除了消息通信外,无须进行数据的迁移。而基于MapReduce的图处理模型,一般情况下,不需要专门的数据分割处理。但是Map阶段和Reduce阶段存在中间结果的Shuffle过程,增加了磁盘IO和网络通信开销。4. MapReduce的设计初衷是解决大规模、非实时数据处理问题。“大规模”决定了数据有局部性特性可利用,从而可以划分、可以批处理;“非实时”代表响应时间较长,有充分的时间执行程序。而BSP模型在实时处理方面有优异的表现。这是二者最大的区別。

补充

BSP

详情请见我的另一篇博客——行计算模型有哪些?

BSP和MapReduce有什么区别?相关推荐

  1. spark原理和spark与mapreduce的最大区别

    参考文档:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf 参考网址:https://www.cnblogs.com/wangrd/p/ ...

  2. MapReduce和YARN区别

    原hadoop框架中MapReduce的问题 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 1.首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 ...

  3. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 (大数据技术丛书) - 电子书下载(高清版PDF格式+EPUB格式)...

    Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 (大数据技术丛书)-董西成著 在线阅读                   百度网盘下载(ihhy) 书名:Hadoop技术内幕:深 ...

  4. 为什么写《大数据架构详解》这本书

    花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书<大数据架构详解:从数据获取到深度学习>.整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了. 回想这我50 ...

  5. Hadoop的基本概念和简单使用

    文章目录 1.概念 1.1.Hadoop 1.0和Hadoop 2.0 什么是Hadoo1.0 什么是Hadoo2.0 两者区别 Hadoop整体框架区别 MapReduce计算框架区别 1.2.Ma ...

  6. Hadoop1.x版本升级Hadoop2.x

    引言 随着企业数据化和Hadoop的应用越加广泛,hadoop1.x的框架设计越来越无法满足人们对需求,Apache一直在对Hadoop1.x进行修改,最后推出了新一代的Hadoop2.x.从业界使用 ...

  7. hadoop---(1)hadoop核心知识点总结

    hadoop核心知识点总结 1.  安装hadoop需要配置的hadoop中的配置文件有哪些? hadoop-env.sh yarn-env.sh core-site.xml hdfs-site.xm ...

  8. 系统分析与设计 复习

    文章目录 系统分析与设计 复习 第 1 章 系统分析与设计概述 系统特性 DevOps 第 2 章 系统规划 **系统规划步骤** 规划模型 诺兰模型 **CMM 模型** 系统规划方法 战略集合转换 ...

  9. 嵌入式系统概论-考试总结

    Exam-嵌入式总结 1. 简答题 1.1. 什么是CPS?请画出典型结构,尝试描述典型应用[2015] CPS,信息物理系统,计算进程和物理进程的统一体,集计算.通信.控制于一体的下一代智能系统,由 ...

最新文章

  1. leetcode 139. Word Break | 139. 单词拆分(动态规划)
  2. 将5:400等类型的数据转成哈希表
  3. GridControl 选择列、复选框全选(上)
  4. No dashboards are active for the current data set. 解决tensorboard无法启动和显示问题
  5. 编码速度非常慢_有BUG?MySQL中的 utf8 居然并不是真正的UTF-8编码?
  6. Drop user 报ORA-00600 [KTSSDRP1]
  7. Joyoshare VidiKit教程:如何将字幕添加到WMV电影中?
  8. 关于2020idea不能创建web项目问题
  9. M8的USB工作模式切换工具
  10. JDBC - 宋红康 - 核心技术
  11. java中subject类_RxJava中常见的几种Subject
  12. 操作STM32单片机蜂鸣器模块演奏歌曲《北京欢迎你》
  13. python学习——把Excel的内容自动填写到Word
  14. 2020校招面试之深信服
  15. 赫夫曼树、赫夫曼编码
  16. 27家中美名校借阅榜对比公开:差别太大了
  17. 日历当前月 日期对应
  18. crmeb 易联云k4小票打印机相关配置说明
  19. 35个有创意的信息可视化设计欣赏
  20. 时代云主机,为节能而生!

热门文章

  1. java 去除数组中重复的元素
  2. log4j2 概述、配置详情、日志八种输出级别讲解
  3. Python中的对象实例化过程 用python解密__new__
  4. Python 3语法小记(四)字典 dictionary
  5. 电脑游戏业编年史之十二──叛逆
  6. UI设计教程分享:关于海报的合成过程
  7. 人人都是心理学家,mbti等
  8. [BUGKU] [MISC] 很普通的数独
  9. 简单易懂之什么是重排和重绘?
  10. Excel中如何找出两列数据中相同的数据,并且进行同行显示