mapreduce 人话

继续介绍Hadoop组件,我们将介绍MapReduce组件。 MapReduce是一个一直是LISP编程模型的概念。 但是在进入MapReduce之前,让我们先从一个示例开始,了解MapReduce的工作原理。

给定几个句子,编写一个计算单词数的程序。

现在,解决此问题的传统思路是读取一个单词,检查该单词是否是停用词之一,如果不是,请在HashMap中将该单词添加为关键字,并将其值设置为出现次数。 如果在HashMap中找不到该单词,则添加该单词并将其值设置为1。如果找到该单词,则在HashMap中将值和该单词递增相同。

现在,在这种情况下,程序正在以串行方式处理句子。 现在,假设是否需要计算句子中的单词数,而不是句子。 如此数量的数据进行串行处理非常耗时。 因此,问题是我们还有其他算法可以用来加快处理速度。

让我们处理相同的问题并将其分为两个步骤。 第一步,我们每个句子都取一个句子,并映射出该句子中的单词数。

单词映射完成后,让我们继续下一步。 在此步骤中,我们将两个句子中的地图组合(减少)为一个地图。

就是这样,我们已经看到了如何将单个句子分别进行映射,然后将其映射为单个生成的地图.MapReduce方法的优点是

  • 整个过程分散在小任务中,这将有助于更快地完成工作
  • 这两个步骤都可以分解为任务。 首先,运行多个映射任务,完成映射后,运行多个reduce任务以合并结果并最终汇总结果

现在,想象一下在HDFS上运行的MapReduce范例。 HDFS具有将节点拆分并存储在块中的数据节点。 现在,如果将任务映射到每个数据节点上,那么我们可以轻松利用这些数据节点机器的计算能力。

因此,每个数据节点都可以运行MapReduce的本质任务(映射或归约)。 由于每个数据节点都存储多个文件的数据,因此对于不同的数据块,可能同时运行多个任务。

要控制MapReduce任务,需要了解2个过程

  • JobTracker – JobTracker是Hadoop中的一项服务,用于将MapReduce任务分发到群集中的特定节点,理想情况下是具有数据的节点,或者至少在同一机架中。
  • TaskTracker – TaskTracker是一个启动和跟踪集群中MapReduce任务的过程。 它与JobTracker联系以分配任务和报告结果。

这些跟踪器是Hadoop本身的一部分,可以通过以下方式轻松跟踪

  • http:// <主机名>:50030 / – MapReduce作业跟踪器的Web UI
  • http:// <主机名>:50060 /-任务跟踪程序的Web UI

参考:在Tech Spot博客上,我们的JCG合作伙伴 Munish K Gupta提供的关于虚拟实体的MapReduce 。

翻译自: https://www.javacodegeeks.com/2012/05/mapreduce-for-dummies.html

mapreduce 人话

mapreduce 人话_MapReduce的假人相关推荐

  1. 看不懂代码?AI给你做翻译,说人话的那种

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 金磊 发自 凹非寺 量子位 | 公众号 QbitAI GitHub ...

  2. NAACL 2021 | 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还在担心 ...

  3. 让机器听懂人话的自然语言处理技术究竟神奇在哪里?

    https://www.toutiao.com/a6680059274095231501/ 一提到"AI"人工智能,很多人脑袋中就会自动冒出"科幻"电影中变幻莫 ...

  4. 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练丨NAACL 2021...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还在担心大语言模型"啥都吃",结果被用假信息训练了? 放在以前,这确实是训练NLP模型时值得担心的一个难题. 现在,谷歌 ...

  5. 不用写代码就能做高端科学计算,Mathematica推出“人话”版软件

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI 著名科技计算软件公司Wolfram推出了自然语言版Wolfram Alpha Notebook Edition,通俗来说,这就是一个可以和它 ...

  6. 浅析网络流量分析原理:如何把二进制“天书”变成“人话”

    网络流量贯穿业务流转的各个环节,从我们电脑.手机,到数据中心.WEB组件和应用等都需要通过网络流量完成数据交互.因此,网络流量存在着巨大的应用价值. 但原始的网络流量以二进制方式呈现,无法直接读取和应 ...

  7. 干货 | 深度学习的可解释性研究(一):让模型「说人话」

    在这篇文章中: 可解释性是什么? 我们为什么需要可解释性? 有哪些可解释性方法? 在建模之前的可解释性方法 建立本身具备可解释性的模型 在建模之后使用可解释性性方法作出解释 关于 BIGSCity 参 ...

  8. 别傻啦,不会高数,你连人话都听不懂

    你还在用买菜来搪塞高数 别傻啦,不懂高数你连人话都听不懂 先别急着反驳我,我们先看几个例子: 这是这10年来房价调控时的政府态度: 1,保持房价基本稳定 2.新建住房价格涨幅不高于GDP/人均收入增长 ...

  9. 互联网人,从来不说人话!

    来源:SocialMarketing(ID:social_marketing) 作者:洋气的圆圆君(授权发布)   Sayings:   互联网行业,应该是目前 最不爱说人话的行业. 随便感受一段话: ...

最新文章

  1. ECS服务器CPU使用率异常100%问题排查
  2. CSDN markdown 如何更改文字字体、样式、颜色、大小?
  3. FJUT寒假第一周作业浮点数查寻题解
  4. note deletion case
  5. ASP.NET Core分布式项目实战(业务介绍,架构设计,oAuth2,IdentityServer4)--学习笔记...
  6. VS Code 1.37 发布!多达数十个图标迎来全新设计
  7. OGNL 表达式/ValueStack
  8. 作者:黄媛洁(1992-),女,食品安全大数据技术北京市重点实验室、北京工商大学计算机与信息工程学院硕士生...
  9. C语言课程设计题库及答案,C语言课程设计题目.docx
  10. Esxi直接使用vmdk文件创建虚机
  11. opencart 添加新模型
  12. 《推荐系统实践》算法纯享(附代码链接)(三)—— 冷启动篇
  13. 北京大学计算机语言学,北京大学计算语言学教育部重点实验室
  14. python卡方检验计算pvalue值_如何用python计算临界值(critical value)和p值(p value)(scipy)...
  15. CI持续集成与软件测试
  16. JS - 将tree(树形)数据结构格式改为一维数组对象格式(扁平化)
  17. Exchange 2013/2016/2019修改附件大小限制
  18. php生成图片颜色失真,Coreldraw导出图片颜色失真怎么办?
  19. 用计算机算一算循环小数,循环小数化分数计算器
  20. 【雕爷学编程】Arduino动手做(75)---TTL转RS-485模块

热门文章

  1. 脚本搜索网站,配合chrome和Tampermonkey使用
  2. Sketchup 孤立模式
  3. 拳王虚拟项目公社:找副业?看如何利用虚拟资源,零成本自动化躺着赚钱
  4. selenium爬取淘宝商品基础数据以及商品详情(茶叶数据)
  5. Python描述 LeetCode 6094. 公司命名
  6. 稻盛和夫:人为什么要结婚,这是我听到最好的答案
  7. 高性能linux构建Cf游戏,构建CF卡Linux系统的几个常见难题
  8. java 自由控制定时器,JAVA web实现可控制定时器
  9. openwrt无线速率的修改
  10. 魔兽世界服务器维护抓宠物,魔兽世界怀旧服别想抓这宠物,130一个,普通玩家根本接触不到...