1. HDFS Architecture


一种Master-Slave结构。包括Name Node, Secondary Name Node,Data Node Job Tracker, Task Tracker。JobTrackers: 控制全部的Task Trackers 。这两个Tracker将会在MapReduce课程里面具体介绍。以下具体说明HDFS的结构及其功能。

Name Node:控制全部的Data Node。

存储了整个文件系统的信息。

全部新建文件,删除,拷贝等,都会在此更新。存储了Block Mapping.

Secondary Name Node:简单来说,是Name Node的一个备份。

Data Node: 真实进行全部操作的地方。比方一个用户要读取一份文件。用户会先和NameNode沟通,然后Name Node告诉用户这份文件在哪一个Data Node上面,然后用户从此Data Node中读取。Data Node还负责拷贝数据(当然也要报告Name Node)。

上述四个部分能够放到一台机器上面,也能够分别放在不同机器上面。

HDFS特征:

数据丢失保护:每份数据都会存储好几份。默认3份。

假设丢失一个block,能够从其它备份中恢复。假设丢失整个Rack,可是因为同一个数据的备份不会存储到同一Rack。因此也能够恢复。

相同,假设从一个Rack内部读取数据要比跨Rack读取数据速度更快,HDFS会首先试图从一个Rack读取全部所需数据,这个能够称为Rack Awareness。相同这样同一时候获得了可靠的数据存储,以及高数据吞吐量。

2. HDFS Internals


Name Node: 内存中存储了全部文件名称,备份数。以及文件所在的block id。另一个Edit Log,用于存储操作日志,当机器重新启动的时候,会生成一个FsImage文件,整合了Edit Log文件里的内容,相当于把内存持久化。

重新启动后再读取到内存中。

用户读写文件都是和Name Node交互。从Name Node中获取数据存储的Blocks,然后从对应的Block读取出文件。

Secondary Name Node: 为了防止Name Node奔溃或者丢失。

每小时把Name Node中的Edit Log读取过来,然后生成FsImage,等Name Node丢失后。能够用于恢复。

Data Node: 直接和Name Node进行交互。其实。Name Node并不和Data Node进行交互,也不和Secondary Name Node交互, 而是后二者主动和Name Node进行交互。

Data Node每3秒钟向Name Node报告一次。假设10秒钟没报告,就觉得是出问题了,開始进行恢复操作。每个Block默认大小是64M. 这样能够保证在大文件的情况下,Name Node不会太庞大,并且提升读取速度。

Block越大,Name Node中的metaData越小。

每个Block有id,同一份block(备份)的id相同,例如以下图。存储在不同的rack上面。

并且还会把相同一份文件的block放到尽量相近的位置便于读写操作。假设时间长了Blocks的位置混乱了,能够使用rebalancing 工具来又一次排序使其恢复到最优位置。

每隔3秒钟Data Node就会向Name Node报告自己的Blocks,Data Node内部包括了一个Block Scanner用来汇报。假设Name Node发现有block备份多了,就删除;假设发现某一block备份不足,就将该任务放到一个队列中,这个队列依照优先级来复制备份不足的block。备份最少的block优先级最高。

3. HDFS interaction


Ubuntu里面能够依照例如以下图所看到的输入命令,然后与HDFS进行交互,其命令大部分和Shell命令一样。叫FS Shell。除了Shell以外。另一个Web UI用来交互。

假设想知道每个命令能够去google搜索Hadoop Command Guide,然后就能够找到这些命令的具体使用方法。

转载于:https://www.cnblogs.com/liguangsunls/p/7202435.html

Hadoop自学笔记(二)HDFS简单介绍相关推荐

  1. HDFS简单介绍及用C语言訪问HDFS接口操作实践

    一.概述 近年来,大数据技术如火如荼,怎样存储海量数据也成了当今的热点和难点问题,而HDFS分布式文件系统作为Hadoop项目的分布式存储基础,也为HBASE提供数据持久化功能,它在大数据项目中有很广 ...

  2. 数据结构自学笔记二、栈

    数据结构自学笔记二.栈 栈的定义 栈的作用 栈的顺序存储与随机存储 栈的基本功能的实现 先以顺序存储结构的栈为例. 然后再说说随机存储结构的栈吧 两栈共享空间 栈的一个重要应用--四则运算 算式的后缀 ...

  3. Hadoop学习笔记之HDFS

    Hadoop学习笔记之HDFS HDFS (Hadoop Distributed File System) 优点 缺点 HDFS操作 命令操作HDFS Web端操作HDFS Java操作HDFS HD ...

  4. Hadoop系列 (三):HDFS详细介绍

    文章目录 Hadoop系列文章 HDFS简介 HDFS基本概念 分布式文件系统特点 HDFS设计目标 HDFS架构 HDFS应用场景 HDFS三大组件 NameNode SecondaryNameNo ...

  5. Hadoop自学笔记(三)MapReduce简单介绍

    1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都能够用Pig或者Hive完毕.可是还是要了解MapReduce本身是怎样工作的 ...

  6. Hadoop-HBASE案例分析-Hadoop学习笔记二

    之前有幸在MOOC学院抽中小象学院hadoop体验课.  这是小象学院hadoop2.X概述第八章的笔记  主要介绍HBase,一个分布式数据库的应用案例. 案例概况: 1)时间序列数据库(OpenT ...

  7. MySQL笔记之MySQL简单介绍及DQL语言

    MySQL介绍 MySQL服务的启动和停止: 方式一:通过命令行 net start 服务名 net stop 服务名 MySQL服务的登录和退出: 登录:mysql [ -h 主机名 -p 端口号 ...

  8. Hadoop自学笔记(七)Hadoop环境配置和优化

    概览 1. Hadoop Trouble Shooting 查看logs, 存储位置等 2. Hadoop Administration 常见Hadoop管理员面对的问题 3. Hadoop Opti ...

  9. 神经网络与深度学习——TensorFlow2.0实战(笔记)(二)(开发环境介绍)

    开发环境介绍 Python3 1.结构清晰,简单易学 2.丰富的标准库 3.强大的的第三方生态系统 4.开源.开放体系 5.高可扩展性:胶水语言 6.高可扩展性:胶水语言 7.解释型语言,实现复杂算法 ...

最新文章

  1. Oracle Hints具体解释
  2. formal method revision
  3. 【数据分析】可视化分类型变量,我一般使用这6种图形
  4. 【Python】学习笔记总结9(数据库与Python交互)
  5. ubuntu切换JDK版本
  6. ASP.Net Core 2.0中的Razor Page不是WebForm
  7. Python GUI界面编程初步 05- GUI框架PyQt的运用 - 02 PyQt的信号和槽例子
  8. 解说linux下proc文件系统
  9. 比较两个数组,输出不重复的数组
  10. Css3 display用法
  11. 数据库之架构:主备+分库?主从+读写分离?
  12. 如何发送Excel中图表到邮件
  13. 专科学历 工作机会少的可怜?这个简单方法帮几千人提升3倍工作机会
  14. 使用nginx负载均衡的webservice wsdl访问不到_Nginx 反向代理、负载均衡图文教程,写得太好了!...
  15. 11001-软件架构设计风格及visio使用
  16. SpringBoot+Vue项目外卖点餐系统
  17. VBA 字典 键值为二维数组并不断增加行
  18. 证券期货行业数据模型设计
  19. pillow软件 Android,Pillow app
  20. idea git切换分支、拉取最新代码 自己的代码被覆盖怎么办

热门文章

  1. np.dot()运算准则
  2. java 密钥工厂 desede_20145212 实验五《Java网络编程》
  3. 计算机网络实验可变长子网掩码,计算机网络实验3-子网掩码与划分子网实验报告.docx...
  4. centos 下安装mysql,linux(Centos7)下安装mysql8.0.18的教程图解
  5. java 默认数据库创建路径_无法创建数据库路径文件:/ user / hive /仓库错误
  6. ajax csv写文件内容,接收.csv文件作为ajax成功函数中的数据
  7. Python必备基本技能——命令行参数args详解
  8. 机器学习(14)逻辑回归(实战) -- 癌症分析
  9. 计算机专业英语2008影印版第四章翻译,计算机专业英语2008影印版选择题的翻译加答案(14页)-原创力文档...
  10. 一、如何实现python导入另一个文件中的模块(方法)?