Hadoop 的基本结构介绍(原创)

概述:

这是我看了 Hadoop core 0.17.0 文档只有做的一些总结,有不对的地方请给我指出。

什么是 Hadoop?

Hadoop 是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。 Hadoop 为应用程序透明的提供了一组稳定 / 可靠的接口和数据运动。在 Hadoop 中实现了 Google 的 MapReduce 算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外, Hadoop 还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了 map/reduce 和分布式文件系统使得 Hadoop 框架具有高容错性,它会自动处理失败节点。

Hadoop 的项目组成

Hadoop core 主要的子项目,提供分布是文件系统( HDFS )和支持 MapReduce 计算。

HBase                建立在 Hadoop Core 基础上的分布是数据库。

我只研究 Hadoop core 的功能和实现,不涉及 HBase

MapReduce 介绍

这是 Hadoop 的核心。

思想

1.  就是做一个计算,如果计算过程中如果数据传输消耗的资源大于计算消耗的资源,考虑在计算过程中,将算法(程序),移动到数据存放的服务器中,再进行计算。

2. 在做一个巨型计算时,利用多台(例如 2000 )台服务器的 cpu 和内存同时计算。

算法描述

第一种方式描述

将计算要用的数据切分,放在各个服务器上,然后将计算程序分发到各个服务器,计算出各个部分的结果。最后将各个计算结果合并。
第二种方式描述

另外一种描述为, MapReduce 的名字源于这个模型中的两项核心操作: Map 和 Reduce 。也许熟悉 Functional Programming (函数式编程)的人见到这两个词会倍感亲切。简单的说来, Map 是把一组数据一对一的映射为另外的一组数据,其映射的规则由一个函数来指定,比如对 [1, 2, 3, 4] 进行乘 2 的映射就变成了 [2, 4, 6, 8] 。 Reduce 是对一组数据进行归约,这个归约的规则由一个函数指定,比如对 [1, 2, 3, 4] 进行求和的归约得到结果是 10 ,而对它进行求积的归约结果是 24

我觉得意思是差不多的。

总的来说算法必须可以切分,包含小列步骤。

切分、分别计算、合并。

最典型的是大规模日志计算。

Hadoop 文件系统( HDFS )

因为 MapReduce 算法需要切分数据, HDFS 设计为将大文件分别部署到各个服务器。主要有下列特性:

1.   冗余存储,默认任何文件保留 3 个备份(考虑到部署在不同机架的情况),保证了服务器失效时,不丢失数据。即使一个机架全部断电,或者烧毁,数据依然健壮存在。

2.   大文件分块分散在各个服务器上存储。

转载于:https://www.cnblogs.com/lindayyh/archive/2009/10/23/1588886.html

Hadoop的基本结构介绍(原创)相关推荐

  1. pytorch学习笔记(九):PyTorch结构介绍

    PyTorch结构介绍 对PyTorch架构的粗浅理解,不能保证完全正确,但是希望可以从更高层次上对PyTorch上有个整体把握.水平有限,如有错误,欢迎指错,谢谢! 几个重要的类型 和数值相关的 T ...

  2. Hadoop生态系统的详细介绍

    hadoop生态系统的详细介绍 简介 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.今 ...

  3. Hadoop学习之整体介绍及环境搭建

    Hadoop学习之整体介绍及环境搭建 1 大数据概述 1.1 什么是大数据 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材. 大数据:传统处理方 ...

  4. hadoop生态系统的详细介绍-详细一点

    前提 日常喜欢看一些微信分享的好文,总结下来,可以作为过滤器吧(节约更多人的时间!),在这里引用的是别人的文章!对原文的作者表示感谢!确实写的很好! hadoop生态系统的详细介绍 简介 Hadoop ...

  5. Linux常用命令(本篇包括,Linux目录结构介绍、Linux Shell介绍、9个常见命令介绍、文件的概念、文件的操作(20个)、目录的操作、文件和目录的权限、文件压缩及解压缩)

    Linux常用命令(本篇包括,Linux目录结构介绍.Linux Shell介绍.9个常见命令介绍.文件的概念.文件的操作(20个).目录的操作.文件和目录的权限.文件压缩及解压缩)         ...

  6. linux服务器都有注册表吗,NT服务器的注册表结构介绍

    NT服务器的注册表结构介绍 HKEY_CLASSES_ROOT:它包括与OLE和文件关联有关的信息.设置这一项的目的是提供和目前的Windows 3.x相兼容. HKEY_CURRENT_USER:它 ...

  7. 六十一、分析Springboot中的项目结构介绍

    @Author:Runsen 来源:尚硅谷 下面建议读者学习尚硅谷的B站的SpringBoot视频,我是学雷丰阳视频入门的. 具体链接如下:B站尚硅谷SpringBoot教程 文章目录 spring项 ...

  8. 【笔记】spring的注解回顾,springboot-restful项目结构介绍 springboot-freemarker ⼯程配置详解

    注解 学Spring boot有一阵子了,总结一下它的注解. @Controller :修饰class,⽤来创建处理http请求的对象 @RestController :Spring4之后加⼊的注解, ...

  9. Java-GUI编程实战之管理系统 Day3【学生管理系统GUI设计、学生管理系统增删改查、项目MVC结构介绍、Java技能图谱】

    视频.课件.源码[链接:https://pan.baidu.com/s/13ffqGDzH-DZib6-MFViW3Q 提取码:zjxs] Java-GUI编程实战之管理系统 Day1[项目开发流程. ...

最新文章

  1. python可以调试吗_调试-有什么好的方法可以使我的Python代码首次运行?
  2. java servicefactory_Java DirectoryServiceFactory.getDirectoryService方法代碼示例
  3. lisp用entmake生产圆柱体_使用lisp语言实现在平面图中自动画出桥梁的墩柱标识.doc...
  4. 如何将usb连接到远程计算机,远程服务器怎么共享usb
  5. Github霸榜月余,原来是阿里技术官的千亿级并发系统设计手册上线了
  6. dubbo学习(四)配置dubbo 注解方式配置
  7. java中注解的解析_全面解析Java中的注解与注释
  8. TCP提供可靠传输的工作原理和实现过程
  9. Bootstrap 幻灯片效果
  10. 支付宝 报错 rsa_private read error : private key is NULL解决方法
  11. RHEL5远程部署操作指导手册
  12. 多目标跟踪MOT评价指标
  13. 如何用密码保护 macOS 文件夹?
  14. 如何在 iPhone、iPad、Mac 和 PC 上设置 iCloud 照片共享?
  15. 一道和逆向和溢出有关的竞赛题分析
  16. IIS7 大文件上传下载限制设置
  17. vs2019配置glfw、glad等环境
  18. ICommand、ITool中调用要素闪烁/定位的方法
  19. 【视频制作表情包】能直接添加文字的表情包制作工具
  20. 数据结构实验6图的应用-行车路线问题

热门文章

  1. python哪些是可变对象_python 中的可变对象与不可变对象
  2. 运动目标跟踪(十四)--MIL跟踪
  3. Mysql短连接风暴
  4. Spark 理论简答
  5. 关于二进制兼容(二进制边界)的解释
  6. python读取中文txt操作 转化为拼音
  7. 原生js--放大镜效果
  8. lanmp_wdcp_v2.4快速安装RPM包发布
  9. Linux系统编程二:字符设备控制之点亮LED灯、控制蜂鸣器
  10. Jmeter4.0---- HTTP请求默认值(14)