【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的Archive机制~个人学习复习记录~PART-04
一、一个集群中,不同主机之间的文件拷贝
HDFS的文件拷贝
1、本地->远程主机
拷贝目录
scp -r /root/test root@192.168.88.162/root
scp -r /root/test node2:/root
拷贝文件
scp /root/test/1.txt root@ 192.168.88.162/root
scp /root/test/1.txt node2:/root
2、本地<-远程主机
拉取目录
scp -r root@192.168.88.162/root/test /root
scp -r node2:/root/test /root
拉取文件
scp root@192.168.88.162/root/test/1.txt /root
scp node2:/root/test/1.txt /root
二、集群与集群之间hdfs文件的拷贝
hadoop distcp hdfs://node1:8020/test/1.txt hdfs://node8:8020/dir
三、Archive档案的使用
前言:HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量内存
Hadoop Archive可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件(类似于打包)
1、Archive机制
概念
1、Arichive文件是一个打包文件,但是不会对文件进行压缩
2、Arichive文件归档之后,我们还可以透明的访问其中的每一个小文件
3、Archive主要解决HDFS不擅长存储小文件问题
4、底层执行的事MapReduce任务
5、Archive之后原来的文件依然保留
6、创建归档文件后不能修改
操作
1、创建一个归档文件
#将/config目录的所有文件归档(打包)成test.har,并输出到/outputdir目录下
hadoop archive -archiveName test.har -p /config /outputdir2、查看打包后的归档文件
hadoop fs -cat /outputdir/test.har/part-03、查看归档文件中所有小文件的名字
hadoop fs -ls har://hdfs-node1:8020/outputdir/test.har
如果客户端是集群的某台主机可以简写
hadoop fs -ls har:///outputdir/test.har4、查看归档文件中某个小文件内容
hadoop fs -cat har://hdfs-node1:8020/outputdir/test.har/core-site.xml
hadoop fs -cat har:///outputdir/test.har/core-site.xml5、解开Archive
hadoop fs -cp har://hdfs-node1:8020/outputdir/test.har/* /config2
hadoop fs -cp har:///outputdir/test.har/* /config2
HDFS的权限
1、HDFS的权限有个总开关,在hdfs-site.xml中,开启,权限就会起作用
<property>
<name>dfs.permissions.enabled</name>
<value>true</value>
</property>
2、修改HDFS的权限
hadoop fs -chmod 777 /a.txt
【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的Archive机制~个人学习复习记录~PART-04相关推荐
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的JavaAPI操作~个人学习复习记录~PART-03
一.配置 需要先在Windows配置对应版本的hadoop环境 二.涉及的主要类 Configuration:该类的对象封装了客户端或服务器的配置 FileSystem:该类的对象是一个文件系统对象, ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习复习记录~PART-05
概念 1.在不影响当前集群正常运行的情况下,对集群的主机的数量进行增加或者减少 一.操作步骤-动态上线 1.准备一台机器node4,该机器要满足以下条件 IP:194.168.88.164 设置主机名 ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS~个人学习复习记录~PART-01
namenode存放文件的元数据信息,文件的block存储在哪些主机,权限,以及文件被切分成几个block,默认一个block128M,副本机制使得每个文件或者每个block存多个一模一样的,默认备份 ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell脚本个人学习复习记录—PART-03
shell脚本个人学习&复习记录--PATR-01 shell脚本个人学习&复习记录--PATR-02 Shell的函数 function可以不用写 ()中不能放任何东西#定义函数-- ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell脚本个人学习复习记录—PART-02
shell脚本个人学习&复习记录PART-01:CSDN 7.shell的流程控制语句 if语句 数字判断 -eq:等于 -ne:不等于 -gt:大于 -lt:小于 -ge:大于等于 -le: ...
- {博学谷学习记录} 超强总结,用心分享|狂野架构师-前置互联网架构演变过程
本章以系统架构,数据架构,两种维度来进行讲解 目录 1 系统架构 1,1 单体架构 1.2 中台战略 2 数据库架构 2,1 单体架构 2.2 主从读写 2.3 分库分表 3 总结 1 系统架构 1, ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据 | 环境 | hive搭建
实操-安装Hive 下载并解压 下载所需版本的 Hive,这里我下载版本为 cdh5.15.2.下载地址:http://archive.cloudera.com/cdh5/cdh/5/ # 下载后进行 ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据Hadoop的搭建~个人学习复习记录~PART-01
前提:Hadoop集群搭建方案,这里要搭建HDFS和Yarn集群 HDFS: NameNode:node1 SecondaryNameNode:node2 DataNode:node1.node2.n ...
- 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell编程—简单入门
目录 前言 一.shell简介 二.入门案例 1.编写shell脚本 2.shell的运行方式 3.shell的数据类型 4.shell的变量 5.shell的字符串 6.shell的运算符 7.sh ...
最新文章
- mysql md_MySQL主从.md
- 【Python面试】 列举Python中的标准异常类?
- iOS开发常用快捷键
- 使用dbca创建oracle实例
- 2019 vs 安装odt_河南2019二级造价师考试教材出版信息,免费送考试大纲
- 解除主键锁_mysql 锁
- 小米开发版安装magisk_小米9手机不用解锁安装Magisk工具的教程
- dplayer安装php_Dplayer播放器集成p2p加速源码分享
- 概率论——Jordan公式
- IPV6 DNS服务器地址列表
- Craps 赌博游戏
- win10不下载开热点的软件来开启无线热点
- 【算法刷题日记之本手篇】左右最值最大差与顺时针打印矩阵
- 叮咚买菜涨势,撑起生鲜电商门面
- 计算机毕业设计php_thinkphp_vue的校园论坛网站
- 企业如何选择BPM业务管理系统?要注意哪些?
- hdu 1983 Kaitou Kid - The Phantom Thief (2)
- mysql binlog event_MySQL binlog中的事件类型详解
- 有限体积法(1)——一维扩散方程的推导
- Matlab中的snr
热门文章
- Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)
- vmwrare linux 下编译 出现 fatal error: error closing /tmp/ccsdc7Zt.s: No space left on device
- 移动办公APP软件开发前景怎样
- 多系统引导 Grub
- 相控阵天线(二):非规则直线阵列天线(稀布阵列、稀疏阵列、平方率分布阵列、含python代码)
- 何谓分布式特征表达?
- 重要!考研入场的5个流程细节!
- ssm+Vue计算机毕业设计综合售楼系统(程序+LW文档)
- 基于Python的实时聊天室开发
- 2020年金融银行行业网络信息安全、信息泄漏事件汇总