前言

第一次更新于2022.3.6(未发布)
第二次更新于2022.3.8

本章主要用来记录回顾总结一下2021上学期的《大数据的技术原理及应用》,因为内容超级多,在本章我只记录关于Hadoop的内容以及整体主要的框架组件。

Hadoop1.0与Hadoop2.0的区别

Hadoop1.0 Hadoop2.0
HDFS单一NameNode节点,容易出现单点故障 HDFS HA 和热备份机制
HDFS单一命名空间,无法隔离资源 HDFS联邦
MapReduce资源管理效率低,负载大 新一代资源管理框架YARN

Hadoop是Apache软件基金会下的一个开源分布式平台。Hadoop是基于谷歌公司所发布的三驾马车论文的开源实现。他们分别是HDFS,MapReduce,Hbase(各自对应谷歌GFS MapReduce Bigtable)。这三大组件也是Hadoop2.0的核心。当然还有一些其他作用的组件,他们的作用各不相同,每个组件都有他们自身的特点来完成大数据繁多的任务。从设计实现经过多年的发展,在零几年的时候达到巅峰,生态完善,社区活跃,实质已经成大数据领域的标准。同时也对近几年其他大数据框架产生深远影响例如Spark Flink等。或许Hadoop的计算模型MR已经跟不上企业的发展需要,在此记录Hadoop平台的核心思想以及他们的运行实现原理。

  1. HDFS
    分布式文件系统,他的英文名字我忘记了,这是Hadoop的三大核心组件之一(另外二个是MR,Yarn),HDFS是专注于解决海量大数据存储的,所以单一节点无法满足存储需要,所以才出现了HDFS分布式文件系统,它的特点提供了高可靠的冗余备份,默认冗余因子3。在我的理解来看,这就和我们的Windows的NTFS文件系统一样,都是提供底层存储的,本质区别是一个是本地系统,一个是分布式系统。

  1. MapReduce
    Hadoop的计算模型,为海量大数据提供计算服务,这是Hadoop的计算引擎,主要用于计算批处理数据,分为MAp端和Reduce端,由于其延迟性较高,不适合实时计算。现在已经很少有企业使用了。

  1. Yarn

通用资源调度框架,主要作用就是资源管理和任务调度的,Yarn是,Hadoop2.0版本新出的组件。主要对资源(CPU,内存等)进行管理分配,还有一些job任务的调度,它的出现主要是解决Hadoop1.0的单点故负载较大问题。

  1. Hbase

Hbase非关系型数据库,属于键值数据库,这个关系型数据库和非关系型有着根本的区别,关系型数据库主要用于处理事务性数据,例如对数据的增删改查。

  1. Hive

数据仓库是Apache下的子项目,它位于MR之上,主要提供一种类SQL的编成语言Hsql,主要作用就是可以通过编写sql的形式写mr程序,其实就是将sql转换成MR程序,只是转换这个过程被隐藏啦。这相比直接写MR应用要简单的多。

  1. Zookeeper
    分布式协调工作服务属于Hadoop的组件之一,它可以为HDFS HA提供自动实时的进行单一节点的选举切换。比如NameNode的出错,它可以监控到故障,自动根据备用的节点推举出一个新的Name Node节点,并且快速顶替已经出现故障的节点,这通常只在几秒内就可以完成。
  2. Sqoop(SQL-to-Hadoop)
    主要是Hadoop和关系型数据库的数据互相转换。比如可以将Mysql数据库输入到Hadoop中,包括HDFS,Hbase或Hive,反之亦然。

注:文章所有图片资源均来于网络,如有侵权,请联系作者删除。

Hadoop大数据生态系统笔记相关推荐

  1. Hadoop 大数据学习笔记

    Hadoop 大数据学习笔记1 大数据部门组织架构 Hadoop Hadoop是什么 Hadoop的优势 Hadoop的组成 HDFS架构 YARN架构 MapReduce 大数据技术生态体系![在这 ...

  2. 【学习笔记】尚硅谷Hadoop大数据教程笔记

    本文是尚硅谷Hadoop教程的学习笔记,由于个人的需要,只致力于搞清楚Hadoop是什么,它可以解决什么问题,以及它的原理是什么.至于具体怎么安装.使用和编写代码不在我考虑的范围内. 一.Hadoop ...

  3. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  4. 大数据生态系统 修仙之道 Hadoop Blog

    大数据生态系统 修仙之道 Hadoop Blog @(2019-01-22)[Docs Language:简体中文 & English|Programing Language:Hadoop|W ...

  5. 大数据学习笔记第1课 Hadoop基础理论与集群搭建

    大数据学习笔记第1课 Hadoop基础理论与集群搭建 一.环境准备 二.下载JDK 三.安装JDK 四.下载hadoop 五.安装hadoop集群 六.打通3台服务器的免密登录 七.hadoop集群配 ...

  6. hadoop大数据开发技术学习笔记第三天:(前序)MySQL数据库进阶

    hadoop大数据开发技术学习笔记第三天:(前序)MySQL数据库进阶 一.回顾知识 1.myschool数据库和数据表的创建 (1)创建数据库 (2)数据库模型图 (3)创建数据表grand (4) ...

  7. Hadoop大数据零基础高端实战培训系列配文本挖掘项目

    <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...

  8. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  9. 大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)

    不多说,直接上干货! 之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大 ...

最新文章

  1. FastDFS服务器搭建
  2. 【winfrom】事件与委托
  3. paip.表格化CSV输出
  4. 错误码应该如何设计?
  5. 网络安全攻防实验室通关教程-注入关
  6. 全市场等权中位数_市场指数估值周报20200412
  7. “决策树”——数据挖掘、数据分析
  8. 猪悟能淘宝商品下载专家v3版开发手记
  9. 多电脑切换器(KVM切换器)工作原理
  10. 计算机中电容状态表示什么,电容上面是字母代表什么
  11. 使用命令将项目打包并使用WinSCP将包部署到服务器
  12. 成都python数据分析师职业技能_合格大数据分析师应该具备的技能
  13. 计算机万金油专业,为什么说自动化专业是万金油专业
  14. shim是应该抛异常还是应该fail silently?
  15. 真实生活的记录:我三年的外企生涯(2) 出处:天涯虚拟社区
  16. 设计一个函数把两个数字相加。不得使用 + 或者其他算术运算符
  17. 【小甲鱼C语言】课后笔记第一章第一节——打印(printf)
  18. S01E04-Miya 的故事|从工地打印小妹,到全球知名教育公益开源社区大使
  19. 【观察者模式】深入浅出-设计模式 之 观察者模式
  20. yolov4中带groups的route理解

热门文章

  1. e家数据挖掘_总结报告
  2. 【融职培训】Web前端学习 第11章 微信开发5 微信支付
  3. e480 黑苹果_GitHub - aliyoge/Hackintosh-ThinkPad-E480: Thinkpad E480 for macOS Catalina
  4. 分享112个助理类简历模板,总有一款适合您
  5. ThinkPad e480安装Ubuntu后没有wifi模块
  6. 手把手教你写地震监测系统(跟着走,慢慢一步步)
  7. excel扩展函数整理
  8. 还在争论Rh2和Rg3哪个更好?黄金级稀有人参皂苷已经来了
  9. linux判断没有文件夹建一个,2,shell 脚本, 判断一个文件是否存在, 不存在就创建, 存在就显示其路径...
  10. 苍蓝誓约wiki 服务器维护,苍蓝誓约wiki