【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的Archive机制~个人学习复习记录~PART-04

2024-06-15 08:20:14

一、一个集群中，不同主机之间的文件拷贝

HDFS的文件拷贝

1、本地->远程主机

拷贝目录

scp -r /root/test root@192.168.88.162/root

scp -r /root/test node2:/root

拷贝文件

scp /root/test/1.txt root@ 192.168.88.162/root

scp /root/test/1.txt node2:/root

2、本地<-远程主机

拉取目录

scp -r root@192.168.88.162/root/test /root

scp -r node2:/root/test /root

拉取文件

scp root@192.168.88.162/root/test/1.txt /root

scp node2:/root/test/1.txt /root

二、集群与集群之间hdfs文件的拷贝

hadoop distcp hdfs://node1:8020/test/1.txt hdfs://node8:8020/dir

三、Archive档案的使用

前言：HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会吃掉NameNode节点的大量内存

Hadoop Archive可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件（类似于打包）

1、Archive机制

概念

1、Arichive文件是一个打包文件，但是不会对文件进行压缩
2、Arichive文件归档之后，我们还可以透明的访问其中的每一个小文件
3、Archive主要解决HDFS不擅长存储小文件问题
4、底层执行的事MapReduce任务
5、Archive之后原来的文件依然保留
6、创建归档文件后不能修改

操作

1、创建一个归档文件
#将/config目录的所有文件归档（打包）成test.har，并输出到/outputdir目录下
hadoop archive -archiveName test.har -p /config /outputdir2、查看打包后的归档文件
hadoop fs -cat /outputdir/test.har/part-03、查看归档文件中所有小文件的名字
hadoop fs -ls har://hdfs-node1:8020/outputdir/test.har
如果客户端是集群的某台主机可以简写
hadoop fs -ls har:///outputdir/test.har4、查看归档文件中某个小文件内容
hadoop fs -cat har://hdfs-node1:8020/outputdir/test.har/core-site.xml
hadoop fs -cat har:///outputdir/test.har/core-site.xml5、解开Archive
hadoop fs -cp har://hdfs-node1:8020/outputdir/test.har/* /config2
hadoop fs -cp har:///outputdir/test.har/* /config2

HDFS的权限

1、HDFS的权限有个总开关，在hdfs-site.xml中，开启，权限就会起作用

<property>
<name>dfs.permissions.enabled</name>
<value>true</value>
</property>

2、修改HDFS的权限

hadoop fs -chmod 777 /a.txt

【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的Archive机制~个人学习复习记录~PART-04相关推荐

【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的JavaAPI操作~个人学习复习记录~PART-03
一.配置需要先在Windows配置对应版本的hadoop环境二.涉及的主要类 Configuration:该类的对象封装了客户端或服务器的配置 FileSystem:该类的对象是一个文件系统对象, ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习复习记录~PART-05
概念 1.在不影响当前集群正常运行的情况下,对集群的主机的数量进行增加或者减少一.操作步骤-动态上线 1.准备一台机器node4,该机器要满足以下条件 IP:194.168.88.164 设置主机名 ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS~个人学习复习记录~PART-01
namenode存放文件的元数据信息,文件的block存储在哪些主机,权限,以及文件被切分成几个block,默认一个block128M,副本机制使得每个文件或者每个block存多个一模一样的,默认备份 ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell脚本个人学习复习记录—PART-03
shell脚本个人学习&复习记录--PATR-01 shell脚本个人学习&复习记录--PATR-02 Shell的函数 function可以不用写 ()中不能放任何东西#定义函数-- ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell脚本个人学习复习记录—PART-02
shell脚本个人学习&复习记录PART-01:CSDN 7.shell的流程控制语句 if语句数字判断 -eq:等于 -ne:不等于 -gt:大于 -lt:小于 -ge:大于等于 -le: ...
{博学谷学习记录} 超强总结,用心分享|狂野架构师-前置互联网架构演变过程
本章以系统架构,数据架构,两种维度来进行讲解目录 1 系统架构 1,1 单体架构 1.2 中台战略 2 数据库架构 2,1 单体架构 2.2 主从读写 2.3 分库分表 3 总结 1 系统架构 1, ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据 | 环境 | hive搭建
实操-安装Hive 下载并解压下载所需版本的 Hive,这里我下载版本为 cdh5.15.2.下载地址:http://archive.cloudera.com/cdh5/cdh/5/ # 下载后进行 ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据Hadoop的搭建~个人学习复习记录~PART-01
前提:Hadoop集群搭建方案,这里要搭建HDFS和Yarn集群 HDFS: NameNode:node1 SecondaryNameNode:node2 DataNode:node1.node2.n ...
【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell编程—简单入门
目录前言一.shell简介二.入门案例 1.编写shell脚本 2.shell的运行方式 3.shell的数据类型 4.shell的变量 5.shell的字符串 6.shell的运算符 7.sh ...

最新文章

热门文章