1.4. HDFS 文件副本和 Block 块存储


所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中, 在 Hadoop1当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 block块大小默认是 128M, block 块的大小可以通过 hdfs-site.xml当中的配置文件进行指定

<property><name>dfs.block.size</name><value>块大小 以字节为单位</value>
</property>

1.4.1. 引入块机制的好处

  1. 一个文件有可能大于集群中任意一个磁盘
  2. 使用块抽象而不是文件可以简化存储子系统
  3. 块非常适合用于数据备份进而提供数据容错能力和可用性

1.4.2. 块缓存

通常 DataNode 从磁盘中读取块, 但对于访问频繁的文件,其对应的块可能被显式的缓存在 DataNode 的内存中, 以堆外块缓存的形式存在.默认情况下,一个块仅缓存在一个 DataNode的内存中,当然可以针对每个文件配置 DataNode 的数量.作业调度器通过在缓存块的 DataNode 上运行任务,可以利用块缓存的优势提高读操作的性能.

例如:

连接(join) 操作中使用的一个小的查询表就是块缓存的一个很好的候选用户或应用通过在缓存池中增加一个 Cache Directive 来告诉 NameNode需要缓存哪些文件及存多久. 缓存池(Cache Pool)是一个拥有管理缓存权限和资源使用的管理性分组.

例如一个文件 130M, 会被切分成 2 个 block 块, 保存在两个 block 块里面,实际占用磁盘 130M 空间, 而不是占用256M的磁盘空间

1.4.3. HDFS 文件权限验证

HDFS 的文件权限机制与 Linux 系统的文件权限机制类似

    r:read  w:write  x:execute

权限 x 对于文件表示忽略, 对于文件夹表示是否有权限访问其内容 如果 Linux系统用户 zhangsan 使用 Hadoop 命令创建一个文件, 那么这个文件在 HDFS当中的 Owner 就是 zhangsan HDFS 文件权限的目的, 防止好人做错事,而不是阻止坏人做坏事. HDFS相信你告诉我你是谁, 你就是谁

大数据-HDFS 文件副本和 Block 块存储相关推荐

  1. 大数据——HDFS的常用命令

    标题大数据--HDFS的常用命令 hdfs常用命令行: (1)查看帮助hdfs dfs -help (2)查看当前目录信息hdfs dfs -ls /(3)上传文件hdfs dfs -put /本地路 ...

  2. 数据结构与算法 第八天常见排序+冒泡排序+快速排序+文件IO+大数据排序+文件合并

    数据结构与算法 第八天常见排序+冒泡排序+快速排序+文件IO+大数据排序+文件合并 第一章 冒泡排序 [1]Bubble_Sort.c 第二章 快速排序 [1]quick_sort.c 第三章 大数据 ...

  3. 问题解决-----如何从windows10向ubuntu传输大数据的文件(大于等于50M)

    问题解决-----如何从windows10向ubuntu传输大数据文件目录 一.问题描述 1.问题描述如下: 二.FileZilla的下载及安装 1.FileZilla的下载地址如下所示: 2.Fil ...

  4. 国家大数据政策文件汇编(2022年) 附下载

    数据作为新型生产要素,是数字化.网络化.智能化的基础,已快速融入生产.分配.流通.消费和社会服务管理等各环节,深刻改变着生产方式.生活方式和社会治理方式.数据基础制度建设事关国家发展和安全大局.为加快 ...

  5. 大数据架构-使用HBase和Solr配置存储与索引

    大数据架构-使用HBase和Solr配置存储与索引 2014-08-22 11:04 王安琪 博客园 字号:T | T HBase可以通过协处理器Coprocessor的方式向Solr发出请求,Sol ...

  6. 大数据之-Hadoop之HDFS的API操作_配置参数的优先级说明_以设置hdfs文件副本数量参数为案例---大数据之hadoop工作笔记0057

    然后我们再来看一下配置参数的优先级的问题. 我没用这个副本数量来做案例.我们可以看到三一节上传的文件副本banzhang.txt的数量是3. 我们知道文件副本的数量是在hdfs-site.xml上面这 ...

  7. 彻底理解大数据 HDFS 分布式文件系统,这篇就够了

    来源:https://www.cnblogs.com/cainiao-chuanqi/p/11420490.html 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得 ...

  8. 大数据-HDFS文件系统是什么

    导语   Hadoop中附带了一个HDFS(Hadoop分布式文件系统)的分布式文件系统,专门用来存储超级大文件使用,它为整个的Hadoop应用生态圈提供了基础的文件存储功能. 文档目录 HDFS 特 ...

  9. 大数据HDFS凭啥能存下百亿数据?

    前言 大家平时经常用的百度网盘存放电影.照片.文档等,那有想过百度网盘是如何存下那么多文件的呢?难到是用一台计算机器存的吗?那得多大磁盘啊?显然不是的,那本文就带大家揭秘. 分布式存储思想 既然一台机 ...

  10. 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习复习记录~PART-05

    概念 1.在不影响当前集群正常运行的情况下,对集群的主机的数量进行增加或者减少 一.操作步骤-动态上线 1.准备一台机器node4,该机器要满足以下条件 IP:194.168.88.164 设置主机名 ...

最新文章

  1. HUD 5687(字典树)
  2. 中国CIO最关心的八大问题(上)
  3. torch 双线性上采样
  4. python下载文件并改名_第46p,8行代码,用Python批量重命名文件
  5. PowerShell-6.文件操作
  6. 【风控术语】数字金融反欺诈技术名词表
  7. 2018CCF-CSP 5.二次求和(点分治)
  8. phalcon使用registerNamespaces注册第三方类库文件
  9. 堆-动态的排序(洛谷1801-黑匣子)
  10. 后缀数组 倍增法详解
  11. windows常用端口对应表
  12. win10设置计算机关机时间,Win10怎么设置自动关机时间_Win10设置自动关机教程-192路由网...
  13. SSM用户注册登录案例
  14. 动动同步微信无法连接服务器,动动运动,动动计步器加到微信可是不能连接到微信运动...
  15. 开源切片工具--TileStache
  16. mulesoft MCIA 破釜沉舟备考 2023.04.29.27 (易错题)
  17. 洛谷 P1162 填涂颜色 C++ 深搜 染色法
  18. 利用MATLAB模糊控制器实现对水位高度调节SIMULINK仿真(隶属度7分级)
  19. 线性代数学习笔记——第十三讲——行列式的定义
  20. 人工智能等新技术将会给人们的生产、生活方式带来革命性的变化

热门文章

  1. ERP软件是什么意思,买菜大妈讲的通俗易懂
  2. 汽车行业数字化工厂建设方案
  3. 微信小程序----Grid(九宫格)(flex实现九宫格布局)
  4. ORACLE学习笔记-CentOS 7.2 Oracle 12C R2安装部署
  5. LOI2504 [HAOI2006]聪明的猴子
  6. 微信小程序真机提示error occurs:ENOENT: no such file or directory, access
  7. nls_lang环境变量linux设置,设置NLS_LANG环境变量
  8. 诛仙斩龙墨雪服务器怎么找不到了,《诛仙3》5月13日服务器数据互通公告
  9. php微信支付接口开发的实现程序
  10. BZOJ 1717: [Usaco2006 Dec]Milk Patterns 产奶的模式