02:hadoop的基本使用
1.启动和关闭hadoop进程
1.启动|关闭 Hadoop 所有的服务
#启动所有进程
start-all.sh
#关闭所有进程
stop-all.sh
-
jps命令查看启动的节点情况
2.启动|关闭 HDFS 的服务
#启动
start-dfs.sh
#关闭
stop-dfs.sh
3.启动/关闭 YARN 的服务
在配置了 ResourceManager 的节点启动YARN
#进入启动目录cd /opt/module/hadoop-3.1.3/sbin/-
#启动start-yarn.sh#关闭stop-yarn.sh
查看 yarn 的 application 信息
##查看所有任务yarn application -list
##查看正在运行的任务yarn application -list -appStates RUNNING
##杀掉 yarn 正在运行的服务
yarn application -kill 任务id
##停止yarn 服务stop-yarn.sh
4.单点启动|关闭
单点代表只启动正在操作的主机,而不是主机集群
单点启动或者关闭Namenode/Datanode/SecondaryNamenode
#单点启动DataNodehadoop-daemon.sh start/stop datanode-#单点启动namenodehadoop-daemon.sh start/stop namenode-#单点启动secondarynamenodehadoop-daemon.sh start/stop secondarynamenode
单点启动或者关闭Resourcemanager/Nodemanager
#单点启动nodemanager
yarn-daemon.sh start/stop nodemanager
-
#单点启动resourcemanager
yarn-daemon.sh start/stop resourcemanager
5.多点启动或者关闭
多点就代表整个集群启动或者关闭
启动Datanode 或 Nodemanager,在主节点执行
#启动datanode
hadoop-daemons.sh start/stop datanode
-
#启动nodemanager
yarn-daemons.sh start/stop nodemanager
2.查看帮助
hdfs dfs -help
3.目录操作
1.显示目录
hdfs dfs -ls 目录名(必须是HDFS系统上的)-
hdfs dfs -ls /
2.创建目录
是在hadoop创建的这个大平台集群上面创建一个目录
hdfs dfs -mkdir 目录名
-
#在hadoop平台的根目录下创建一个input目录
hdfs dfs -mkdir /input
-
可以加参数-p,一次创建多级目录
hdfs dfs –mkdir –p /a/b
3.删除空目录
hdfs dfs -rmdir /test
非空目录无法删除
4.文件操作
1.在指定目录下创建空文件
hdfs dfs -touchz /test/zs.txt
-
在test目录下创建一个zs.txt空文件
2.显示文件内容
hdfs dfs -cat /tmp/test_hdfs/testshear.txt
-
查看HDFS系统上/tmp/test_hdfs/testshear.txt的文件内容
如果文件为空,则不显示
3.在文件末尾添加内容
假设test1.txt文件里面内容如下
aaa
-
想要在test1.txt文件末尾添加bbb,在test2.txt文件里面写bbb
vim test2.txt 填写bbb
-
将本地的test2.txt文件内容,添加到HDFS系统的/tmp/test_hdfs/test1.txt文件内容末尾
hdfs dfs -appendToFile test2.txt /tmp/test_hdfs/test1.txt
-
#查看追加结果
hdfs dfs -cat /tmp/test_hdfs/test1.txt
(1)使用此命令时,集群数量不能小于 3 个。
(2)第一个参数是本地文件,第二个是 Hadoop 集群中(HDFS)的文件(不能是本地文件)
4.更改文件权限
#查看文件权限,查看/tmp/test_hdfs/testshear.txt的权限
hdfs dfs -ls /tmp/test_hdfs/testshear.txt
-
#使用chmod将权限更改为755,将/tmp/test_hdfs/testshear.txt文件权限更改为755
hdfs dfs -chmod 755 /tmp/test_hdfs/testshear.txt
-
#再次查看权限是否已经更改
hdfs dfs -ls /tmp/test_hdfs/testshear.txt
5.复制文件
是将HDFS系统上的文件A复制到HDFS系统上指定目录的B位置下
#将 HDFS系统下的testshear.txt 拷贝到HDFS系统下的/tmp 下
hdfs dfs -cp /tmp/test_hdfs/testshear.txt /tmp
(1)只用于同节点内的文件复制。
(2)拷贝相同的文件到同一个目录中会报错。
(3)-f 参数会直接忽视错误,不管文件是否存在,强行将文件拷贝过去。
6.移动(剪切)文件
将HDFS系统上的文件A 移动到HDFS系统上的目录B下
#将HDFS系统下的testshear.txt文件移动到HDFS系统下的/user目录下
hdfs dfs -mv /tmp/testshear.txt /user
(1)文件名相同会报错,并且没有-f 参数。
(2)若源目录和目标目录相同,相当于重命名操作(Linux 的mv 命令同样有剪切和重命名两个功能)。
7.删除文件或者目录
#删除文件
hdfs dfs -rm /tmp/merge_test/file01.txt
#删除文件夹
hdfs dfs -rm -R /tmp/merge_test
rm -r:只能用于删除文件,不能用于删除文件夹。只能删除指定的一个文件,不能删除同时多个文件
rm -R:既能用于删除文件,也能用于删除除文件夹。
5.文件上传和下载操作
1.将本地文件上传到HDFS系统上,本地文件保留
(1)文件存在时,如果再上传相同的文件,会报错。
(2)如果在 put 后加上-f,则会直接覆盖同名文件。
(3)如果上传路径中的目录已存在,却直接执行了命令,会创建出一个和路径名相同的文件:
hdfs dfs -put testfile.zip /tmp/test_hdfs-将本地的testfile.zip文件上传到HDFS文件系统上的/tmp/test_hdfs目录下-hdfs dfs -ls /tmp/test_hdfs查看HDFS文件系统上的/tmp/test_hdfs目录下的文件
2.将HDFS系统上的文件下载到本地
#将HDFS系统上的/tmp/test_hdfs/testfile.zip 文件下载到本地的/home目录
hdfs dfs -get /tmp/test_hdfs/testfile.zip /home
3.将本地文件上传到HDFS系统,本地文件不保留
hdfs dfs -moveFromLocal testshear.txt /tmp/test_hdfs
-
将本地的testshear.txt文件上传到HDFS系统上的/tmp/test_hdfs目录下,而且本地的testshear.txt不存在了
与put 功能类似,不同之处在于moveFromLocal 会删除本地文件,而 put则不会。
4.合并下载一个文件夹中的多个文件
假设我们的/usr目录下有A.txt,B.txt这两个文件,我们想将它们联合下载下来
hdfs dfs -getmerge /usr Download.txt
-
将usr目录下的A.txt与B.txt追加在一个文件中Download.txt中,然后将Download.txt下载到本地
6.进阶操作
1.统计系统的可用空间
hdfs dfs -df -h /
-h:以 K,M,G 为单位,提高信息的可读性
2.统计文件或者文件夹的大小
#统计/tmp/test_hdfs文件夹下的各个文件大小
hdfs dfs -du -s -h /tmp/test_hdfs
-h:以 K,M,G 为单位,提高信息的可读性;
加-s:查看文件夹大小;
不加-s:查看文件夹内每个文件大小。
3.统计指定目录下的文件个数
#统计/tmp/test_hdfs目录下的文件个数
hdfs dfs -count -h /tmp/test_hdfs
第一列 1 表示指定目录下文件夹的数量,第二列 2表示指定目录下文件的个数。
190.7 M 表示指定目录下所有文件占用的磁盘容量(不包括 HDFS 副本)。
4.杀死hadoop某个进程
#查看进程号
jps
#杀死指定进程hadoop job –kill [job-id]
5.设置HDFS副本数量
最后一个参数 无论是文件夹还是文件,本文件夹中所有文件的副本数都会被重新设置
#将/tmp/test_hdfs文件夹副本数量设置为4
hdfs dfs -setrep 4 /tmp/test_hdfs
6.指定目录查看数据块是否损坏
## 从根目录检查每个文件的数据块是否损坏、丢失hdfs fsck /
7.查看被检查文件的状态信息
## 注意-files 参数要写在文件信息后
hdfs fsck /test/word.txt -files
8.显示文件的块信息
## 注意要和-files 参数一起使用
> hdfs fsck /test/word.txt -files -blocks
9.显示块信息的位置
## 注意要和-files -blocks 参数一起使用
> hdfs fsck /test/word.txt -files -blocks -racks
7.查看hadoop支持的压缩方式
hadoop checknative
如果返回’true’,说明 Hadoop 支持此种压缩
8.虚拟内存修改
集群里面的所有主机都需要执行下面的所有操作
如果集群内存比较小,在运行一些占用比较大内存进程的时候,会产生内存溢出,所以需要设置一下虚拟内存,防止内存溢出现象,当然如果内存很足,则不用考虑
1.查看集群虚拟内存大小
free
使用 free 命令查看内存信息,Swap 就是 Linux 的虚拟内存,0 表示没有虚拟内存
2.创建虚拟内存缓存文件
我们在root目录下,创建一个swap缓存文件((每块 1M,总共 8192 块,共计:8192M),比较慢
#注意路径,是在/root目录下
dd if=/dev/zero of=/root/swapfile bs=1M count=8192
-
#创建好以后,查看文件大小,只需要看swapfile文件即可
ll /root -h
3.构建+激活 swap
第一步:构建 swap 格式刡 swapfile
mkswap /root/swapfile
第二步:激活 swap
swapon /root/swapfile
第三步:查看激活信息
free
4.永久生效
第一步:保存配置
vim /etc/fstab
第二步:修改
将 /swap none swap sw 0 0 这行(如果有的话)注释掉,新增一行
/root/swapfile swap swap defaults 0 0
-
注意路径
5.调整虚拟内存
集群里面的所有主机都需要修改
第一步:关闭swap
swapoff /root/swapfile
-
注意路径
第二步:删除 swapfile 文件
rm -rf /root/swapfile
第三步:重建虚拟内存
02:hadoop的基本使用相关推荐
- 02 Hadoop概述
Hadoop概述 1.Hadoop是什么 2.Hadoop版本 3.HDFS.YARN.MapReduce (1) HDFS (2)YARN (3)MapReduce (3)Hadoop模块之间的关系 ...
- Hadoop怎么了,大数据路在何方?
导读:近期Hadoop消息不断,众说纷纭.本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势. 作者:姚延栋 来源:数字化三部曲(ID:digitxcn) 00 15秒钟简缩版 Ha ...
- 大数据第一季--Hadoop(day5)-徐培成-专题视频课程
大数据第一季--Hadoop(day5)-1777人已学习 课程介绍 大数据第一季--Hadoop(day5) 课程收益 大数据第一季--Hadoop(day5) 讲师介绍 ...
- Hadoop + Zookeeper + HBase 配置错误攻略集
以下不包括详细部署步骤,只有部分关键步骤作为检查错误的点 仅供参考: 1. Hadoop和 HBase的版本兼容问题: 官网地址:http://hbase.apache.org/book.html#j ...
- 大数据基础架构Hadoop,终于有人讲明白了
导读:大数据正在成为经济社会发展的新的驱动力.随着云计算.移动互联网等网络新技术的应用和发展,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态.而大数据技术也如雨后春笋般正在蓬勃发展中.Ha ...
- 大数据系统架构-Hadoop生态系统
Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储.简单来说,Hadoop是一 ...
- kettle全量抽数据_漫谈数据平台架构的演化和应用
随着科技的发展,数据在当代社会中所起的作用越来越大.阿里巴巴集团创始人马云在2014年提出了DT(Data Technology)的概念:"人类正从IT时代走向DT时代".DT的核 ...
- 大数据课程基础与商城,共享单车,互联网广告实战视频
├─01-JavaSE基础-15天 │ ├─javaSE-day01 │ │ 01.什么是计算机软件--计算机能看懂的描述特定功能的剧本.mp4 │ │ 02.什么数据软件开 ...
- Spark学习-事件日志EventLog
事件日志EventLog 背景 系统结构 Spark Event 介绍 事件类型 事件内容 事件日志 事件分析 背景 最近工作需要使用Flink对Spark的应用事件日志进行处理,帮助发现Spark应 ...
- 五个篇章讲明白如何从0到1搭建大数据平台
大家好,我是一哥,整理了一下之前写的搭建大数据平台的5个篇章,请大家收藏,文末可以获取完整PDF版本. 01 如何从0到1搭建大数据平台 大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了 ...
最新文章
- android笔记1——开发环境的搭建
- zookeeper集群启动报错:Cannot open channel to * at election address /ip:3888
- 基于vue的颜色选择器vue-color-picker
- jq简单封装replaceAll
- codeblocks快捷键(转载)
- ARM 寄存器 详解
- 被讨厌的勇气--总结
- js时间搓化为今天明天_踩雷预警!爆款好物怎么都变成了“搓泥宝”?
- ubuntu安装完无法用xshell,远程链接
- c语言指针教学word,C语言中的指针和指针教学
- ESET NOD32 升级 激活码 用户名和密码~MF111
- 计算机自配,手把手教你选择电脑配件,自己动手配置一台低价高能DIY计算机
- 计算机房等电位接地规范,一个实例全面讲解机房如何做防雷接地?
- 【其他】VirtualBox压缩磁盘占用空间
- Mac OSX配置XAMP虚拟主机
- mac 网络共享 wifi共享
- Unity 之 Mac包运行本地日志位置
- java文件后缀_java源文件名的后缀是什么?
- 新概念英语(第一册)复习(原文及全文翻译)——Lesson 61 - Lesson 90
- 如何通过企业微信便捷访问华为云、阿里云?