1、MapReduce理论简介

1.1 MapReduce编程模型

  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。

  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。

  在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。

  需要注意的是,用MapReduce来处理的数据集(或任务)必须具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。

1.2 MapReduce处理过程

  在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和reduce函数。map函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式

WordCount运行详解相关推荐

  1. Spring Boot项目(Maven\Gradle)三种启动方式及后台运行详解

    Spring Boot项目三种启动方式及后台运行详解 1 Spring Boot项目三种启动方法 运行Application.java类中的Main方法 项目管理工具启动 Maven项目:mvn sp ...

  2. [转]Hadoop集群_WordCount运行详解--MapReduce编程模型

    Hadoop集群_WordCount运行详解--MapReduce编程模型 下面这篇文章写得非常好,有利于初学mapreduce的入门 http://www.nosqldb.cn/1369099810 ...

  3. DSP28377S_程序从FLASH部分复制到RAM中运行详解

    程序从FLASH部分复制到RAM中运行详解 为什么要复制到RAM中运行 CMD文件中对存储空间的分配 CMD文件中对段的定义 CMD文件中FLASH部分复制到RAM中的定义 main中的操作 编译后如 ...

  4. wordcount linux java_Java笔记---Hadoop 2.7.1下WordCount程序详解

    一.前言 在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境.既然环境已经搭建好了,那么现在我们就应该来干点正事嘛!比如来一个Hadoop世界的HelloWorld,也就是 ...

  5. WordCount代码详解

    本文简要讲解MapReduce实例–WordCount代码 MapReduce应用 使用MapReduce的前提: 待处理的数据集可以分解成许多小的数据集 每一个小数据集都可以完全并行地进行处理 Wo ...

  6. Hadoop集群(第6期)_WordCount运行详解

    1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...

  7. WordCount程序详解

    输入:hello hadoop hello word 下面是map函数 import java.io.IOException; import java.util.StringTokenizer;imp ...

  8. 苹果IOS,与windows Phone7,系统,内存,CPU处理,及后台程序运行,详解微软墓碑机制的系统...

    关于ios的多任务以及内存管理 看了很多人为自己的可用内存是350mb还是380mb纠结.为了多优化出一点可用内存费脑筋. ios的任务管理和内存管理,跟windows是有很大差别的.很多人习惯于用  ...

  9. cmd打包jar包并运行详解

    今天搜索了很多关于cmd打包jar包并运行的文章,但是感觉都不是太清楚,现在弄明白了一些(至少能用了),在这里记录一下: 主要用到以下3条指令 1.编译java文件 javac -d ./ xxx.j ...

最新文章

  1. xmlrcp学习 - python中使用xmlrpc
  2. mysql中修改字段的类型
  3. Jchatting通过Sina SAE云开发平台高级开发者认证
  4. python绘制直方图-python matplotlib库直方图绘制详解
  5. 442. Find All Duplicates in an Array
  6. vue项目npm run build后如何在本地查看效果
  7. 灰色市场(Gray Market),简称灰市,也称半黑市
  8. 【随笔】写在2014年的第一天
  9. 「SCOI2014」方伯伯的 OJ 解题报告
  10. 7-21 求特殊方程的正整数解 (15 分)
  11. python 扫描枪_python 之serial、pyusb 使用开发
  12. java程序实验报告_实验报告一
  13. Akka定义Actors和消息《two》译
  14. JAVA项目之图书管理系统
  15. 酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
  16. mysql既有整数又有小树字段类型,事业单位招考计算机专业知识试题
  17. 安卓APP开发日记1——名为Another的日记APP开发
  18. 1. Boost.Asio入门
  19. 提示用户输入一个高考_高考报名用户名密码显示错误怎么办
  20. 十进制转化为二进制与十六进制显示(汇编程序)

热门文章

  1. load average
  2. C# WinForm开发系列 - DataGrid/DataGridView
  3. 对结构体变量进行清零操作
  4. PAT甲级1144 The Missing Number:[C++题解]哈希表
  5. happy card 完全背包dp
  6. 用java写一个折半查找_用Java写一个折半查找。
  7. 岭回归和lasso回归_正则化(2):与岭回归相似的 Lasso 回归
  8. php制作表格生成器,php表格生成图片.doc
  9. matlab讨论资金积累,资金积累、国民收入与人口增长的关系综合评估
  10. 单曲循环 翻译_有没有那么一首歌是你的单曲循环?