文章目录

  • 目录
    • 1.Hadoop的发展与优化
      • 1.1 Hadoop1.0 的不足与局限
      • 1.2 Hadoop2.0 的改进与提升
    • 2.HDFS2.0 的新特性
      • 2.1 HDFS HA
      • 2.2 HDFS Federation
    • 3. 新一代的资源管理器YARN
      • 3.1 MapReduce1.0 缺陷
      • 3.2 YARN的设计思路
      • 3.3 YARN 体系结构
      • 3.4 YARN工作流程
      • 3.5 YARN框架与MapReduce1.0框架进行对比
      • 3.6 YARN的发展目标
    • 4.Hadoop2.0 生态中具有代表性的功能组件
      • 4.1 Pig
      • 4.2 Tez
      • 4.3 Spark
      • 4.4 Kafka

目录

1.Hadoop的发展与优化

1.1 Hadoop1.0 的不足与局限

主要针对于Hadoop1.0中两大核心组件:MapReduce和HDFS有以下几点不足:

  • 抽象层次低,需要人工编码(MapReduce需要人为的写map和reduce函数)
  • 表达能力有限(MapReduce)
  • 开发者自己管理作业之间的依赖关系(MapReduce)
  • 难以看清程序的整体逻辑(MapReduce)
  • 执行迭代操作效率低(MapReduce每次迭代写磁盘)
  • 资源浪费(map-slot与reduce-slot不能共用)
  • 实时性差(适用于批处理,不支持实时交互)

1.2 Hadoop2.0 的改进与提升


hdfs fedration只是提供管理多个命名空间,每个节点还是存在单点故障的问题,所以需要集合HDFS HA一起使用,即对HDFS Fedration中的每个节点创建一个附属的名称节点,作为单个节点的热备份。
Hadoop1.0 中的第二名称节点不是一个热备份的功能,湿冷备份,具体请查看之前的博客。

2.HDFS2.0 的新特性

2.1 HDFS HA



HDFS HA

2.2 HDFS Federation



3. 新一代的资源管理器YARN

3.1 MapReduce1.0 缺陷

3.2 YARN的设计思路

在Hadoop1.0 中,MapReduce既是一个大数据计算框架,又是一个资源和任务调度管理框架。

3.3 YARN 体系结构





3.4 YARN工作流程

3.5 YARN框架与MapReduce1.0框架进行对比

3.6 YARN的发展目标


4.Hadoop2.0 生态中具有代表性的功能组件

4.1 Pig





4.2 Tez



Tez是对MapReduce中的map和reduce过程进行优化,所以只要最终只要转换为map和reduce操作的都可以使用Tez进行优化。

4.3 Spark

4.4 Kafka

大数据学习(09)--Hadoop2.0介绍相关推荐

  1. 大数据学习系列:Hadoop3.0苦命学习(一)

    传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...

  2. 大数据学习系列:Hadoop3.0苦命学习(七)

    传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...

  3. 大数据学习系列:Hadoop3.0苦命学习(五)

    传送门: 大数据学习系列:Hadoop3.0苦命学习(一) 大数据学习系列:Hadoop3.0苦命学习(二) 大数据学习系列:Hadoop3.0苦命学习(三) 大数据学习系列:Hadoop3.0苦命学 ...

  4. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  5. 大数据学习规划(新手入门)

    前言: 一.背景介绍 二.大数据介绍 正文: 一.大数据相关的工作介绍 二.大数据工程师的技能要求 三.大数据学习规划 四.持续学习资源推荐(书籍,博客,网站) 五.项目案例分析(批处理+实时处理) ...

  6. 大数据学习路线详解,零基础学大数据学习路线

    在大数据蓬勃发展的现今,大家都看到了大数据未来不可限量的发展前景,跟着科技发展的潮流,不断学习新的技术知识,科多大数据相信,成为人生赢家不在话下. 大数据的三个发展方向,平台搭建/优化/运维/监控.大 ...

  7. 大数据系列(一)之hadoop介绍及集群搭建

    大数据系列(一)之hadoop介绍及集群搭建 文章最早发布来源,来源本人原创初版,同一个作者: https://mp.weixin.qq.com/s/fKuKRrpmHrKtxlCPY9rEYg 系列 ...

  8. 2021最全大数据学习路线(建议收藏)

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我可以给你提供最全的[大数据学习路线]:帮助你搭建大数据知识体系,从入门到精通:亲自指导你大数据工程师面试的简历该如何 ...

  9. 大数据学习之路(转载)

    #大数据学习之路(转载) 博文地址https://blog.csdn.net/zys_1997/article/details/78358992 看到一个博主写的大数据学习路线,看了比较心动,想着自己 ...

  10. 大数据学习心得、技术路径、生无可恋的朋友加油吧!明天就是你的天下

    申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学. 前言: 一.背景介绍 二.大数据介绍 正文: 一. ...

最新文章

  1. [YTU]_2566( 虚基类练习:动物)
  2. python查看函数参数_python函数参数
  3. win环境下,django+postgresql配置
  4. C++实现桶排序——十大经典排序算法之九【GIF动画+完整代码+详细注释】
  5. 【旅行】——出发!露营去。
  6. Linux内核设计与实现---虚拟文件系统
  7. VMware HA与VMotion的部署与搭建
  8. collection 多态 会自动转型为子类 继承多态需要显示转型
  9. Tridiv:基于 Web 的 CSS 编辑器,创建炫丽 3D 图形
  10. 微信小程序获取unionid与openid
  11. java中foreach怎么访问_JAVA中的foreach怎么用
  12. 几个找pdf资源的网站
  13. 迅雷连接转化为http链接
  14. 刚开始接触vs有没有什么版本比较好用的?
  15. 闲置手机制作电脑副屏-状态监控(含软件)
  16. 自作孽!知网终于被查了,涉嫌垄断,背后到底是何方神圣?
  17. 中国互联网的发展历程
  18. CVPR 2021 论文大盘点-医学影像篇
  19. sge安装 centos 安装 gridengine
  20. 安卓手机Recovery概述和原理分析

热门文章

  1. 网络编程常用接口的内核实现----sys_listen()
  2. Windows CE下驱动程序开发基础
  3. WinCE启动界面的定制
  4. 详解WINCE的控制面板
  5. NuGet是什么?理解与使用(上)
  6. 计算机课数学,这4个专业,对数学要求很高,数学不好的慎选!
  7. java内存加载dll_jacob调用dll控件,是否要执行内存释放,具体方法怎么写
  8. ntnub原理怎么看_老电工由浅入深带你入门学PLC的工作原理和梯形图的编程规则...
  9. 【编译原理】入门总结
  10. Hadoop集群HDFS各节点磁盘使用率不平衡,使用balancer做数据平衡