Hadoop大数据生态系统笔记

前言

第一次更新于2022.3.6(未发布)
第二次更新于2022.3.8

本章主要用来记录回顾总结一下2021上学期的《大数据的技术原理及应用》，因为内容超级多，在本章我只记录关于Hadoop的内容以及整体主要的框架组件。

Hadoop1.0与Hadoop2.0的区别

Hadoop1.0	Hadoop2.0
HDFS单一NameNode节点，容易出现单点故障	HDFS HA 和热备份机制
HDFS单一命名空间，无法隔离资源	HDFS联邦
MapReduce资源管理效率低，负载大	新一代资源管理框架YARN

Hadoop是Apache软件基金会下的一个开源分布式平台。Hadoop是基于谷歌公司所发布的三驾马车论文的开源实现。他们分别是HDFS，MapReduce，Hbase（各自对应谷歌GFS MapReduce Bigtable）。这三大组件也是Hadoop2.0的核心。当然还有一些其他作用的组件，他们的作用各不相同，每个组件都有他们自身的特点来完成大数据繁多的任务。从设计实现经过多年的发展，在零几年的时候达到巅峰，生态完善，社区活跃，实质已经成大数据领域的标准。同时也对近几年其他大数据框架产生深远影响例如Spark Flink等。或许Hadoop的计算模型MR已经跟不上企业的发展需要，在此记录Hadoop平台的核心思想以及他们的运行实现原理。

HDFS
分布式文件系统，他的英文名字我忘记了，这是Hadoop的三大核心组件之一（另外二个是MR，Yarn），HDFS是专注于解决海量大数据存储的，所以单一节点无法满足存储需要，所以才出现了HDFS分布式文件系统，它的特点提供了高可靠的冗余备份，默认冗余因子3。在我的理解来看，这就和我们的Windows的NTFS文件系统一样，都是提供底层存储的，本质区别是一个是本地系统，一个是分布式系统。

MapReduce
Hadoop的计算模型，为海量大数据提供计算服务，这是Hadoop的计算引擎，主要用于计算批处理数据，分为MAp端和Reduce端，由于其延迟性较高，不适合实时计算。现在已经很少有企业使用了。

Yarn

通用资源调度框架，主要作用就是资源管理和任务调度的，Yarn是,Hadoop2.0版本新出的组件。主要对资源（CPU,内存等）进行管理分配，还有一些job任务的调度，它的出现主要是解决Hadoop1.0的单点故负载较大问题。

Hbase

Hbase非关系型数据库，属于键值数据库，这个关系型数据库和非关系型有着根本的区别，关系型数据库主要用于处理事务性数据，例如对数据的增删改查。

Hive

数据仓库是Apache下的子项目，它位于MR之上，主要提供一种类SQL的编成语言Hsql，主要作用就是可以通过编写sql的形式写mr程序，其实就是将sql转换成MR程序，只是转换这个过程被隐藏啦。这相比直接写MR应用要简单的多。

Zookeeper
分布式协调工作服务属于Hadoop的组件之一，它可以为HDFS HA提供自动实时的进行单一节点的选举切换。比如NameNode的出错，它可以监控到故障，自动根据备用的节点推举出一个新的Name Node节点，并且快速顶替已经出现故障的节点，这通常只在几秒内就可以完成。
Sqoop（SQL-to-Hadoop）
主要是Hadoop和关系型数据库的数据互相转换。比如可以将Mysql数据库输入到Hadoop中，包括HDFS，Hbase或Hive，反之亦然。

注：文章所有图片资源均来于网络，如有侵权，请联系作者删除。

Hadoop大数据生态系统笔记相关推荐

Hadoop 大数据学习笔记
Hadoop 大数据学习笔记1 大数据部门组织架构 Hadoop Hadoop是什么 Hadoop的优势 Hadoop的组成 HDFS架构 YARN架构 MapReduce 大数据技术生态体系![在这 ...
【学习笔记】尚硅谷Hadoop大数据教程笔记
本文是尚硅谷Hadoop教程的学习笔记,由于个人的需要,只致力于搞清楚Hadoop是什么,它可以解决什么问题,以及它的原理是什么.至于具体怎么安装.使用和编写代码不在我考虑的范围内. 一.Hadoop ...
大数据学习笔记：Hadoop生态系统
文章目录一.Hadoop是什么二.Hadoop生态系统图三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
大数据生态系统修仙之道 Hadoop Blog
大数据生态系统修仙之道 Hadoop Blog @(2019-01-22)[Docs Language:简体中文 & English|Programing Language:Hadoop|W ...
大数据学习笔记第1课 Hadoop基础理论与集群搭建
大数据学习笔记第1课 Hadoop基础理论与集群搭建一.环境准备二.下载JDK 三.安装JDK 四.下载hadoop 五.安装hadoop集群六.打通3台服务器的免密登录七.hadoop集群配 ...
hadoop大数据开发技术学习笔记第三天：（前序）MySQL数据库进阶
hadoop大数据开发技术学习笔记第三天:(前序)MySQL数据库进阶一.回顾知识 1.myschool数据库和数据表的创建 (1)创建数据库 (2)数据库模型图 (3)创建数据表grand (4) ...
Hadoop大数据零基础高端实战培训系列配文本挖掘项目
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量:230课时用到技术:部署Hadoop集群涉 ...
hadoop大数据平台架构之DKhadoop详解
hadoop大数据平台架构之DKhadoop详解大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...
大数据入门基础系列之初步认识大数据生态系统圈（博主推荐）
不多说,直接上干货! 之前在微信公众平台里写过大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大 ...

Hadoop大数据生态系统笔记

前言

Hadoop1.0与Hadoop2.0的区别

Hadoop大数据生态系统笔记相关推荐

最新文章

热门文章