1.启动和关闭hadoop进程

1.启动|关闭 Hadoop 所有的服务

#启动所有进程
start-all.sh
#关闭所有进程
stop-all.sh
-
jps命令查看启动的节点情况

2.启动|关闭 HDFS 的服务

#启动
start-dfs.sh
#关闭
stop-dfs.sh

3.启动/关闭 YARN 的服务

在配置了 ResourceManager 的节点启动YARN

#进入启动目录cd /opt/module/hadoop-3.1.3/sbin/-
#启动start-yarn.sh#关闭stop-yarn.sh

查看 yarn 的 application 信息

##查看所有任务yarn application -list
##查看正在运行的任务yarn application -list -appStates RUNNING
##杀掉 yarn 正在运行的服务
yarn application -kill 任务id
##停止yarn 服务stop-yarn.sh

4.单点启动|关闭

单点代表只启动正在操作的主机，而不是主机集群

单点启动或者关闭Namenode/Datanode/SecondaryNamenode

 #单点启动DataNodehadoop-daemon.sh start/stop datanode-#单点启动namenodehadoop-daemon.sh start/stop namenode-#单点启动secondarynamenodehadoop-daemon.sh start/stop secondarynamenode

单点启动或者关闭Resourcemanager/Nodemanager

#单点启动nodemanager
yarn-daemon.sh start/stop nodemanager
-
#单点启动resourcemanager
yarn-daemon.sh start/stop resourcemanager

5.多点启动或者关闭

多点就代表整个集群启动或者关闭

启动Datanode 或 Nodemanager，在主节点执行

#启动datanode
hadoop-daemons.sh start/stop datanode
-
#启动nodemanager
yarn-daemons.sh start/stop nodemanager

2.查看帮助

hdfs dfs -help

3.目录操作

1.显示目录

 hdfs dfs -ls 目录名（必须是HDFS系统上的）-
hdfs dfs -ls /

2.创建目录

是在hadoop创建的这个大平台集群上面创建一个目录

hdfs dfs -mkdir 目录名
-
#在hadoop平台的根目录下创建一个input目录
hdfs dfs -mkdir /input
-
可以加参数-p，一次创建多级目录
hdfs dfs –mkdir –p /a/b

3.删除空目录

 hdfs dfs -rmdir /test

非空目录无法删除

4.文件操作

1.在指定目录下创建空文件

hdfs dfs -touchz /test/zs.txt
-
在test目录下创建一个zs.txt空文件

2.显示文件内容

hdfs dfs -cat /tmp/test_hdfs/testshear.txt
-
查看HDFS系统上/tmp/test_hdfs/testshear.txt的文件内容

如果文件为空，则不显示

3.在文件末尾添加内容

假设test1.txt文件里面内容如下
aaa
-
想要在test1.txt文件末尾添加bbb，在test2.txt文件里面写bbb
vim test2.txt   填写bbb
-
将本地的test2.txt文件内容，添加到HDFS系统的/tmp/test_hdfs/test1.txt文件内容末尾
hdfs dfs -appendToFile test2.txt /tmp/test_hdfs/test1.txt
-
#查看追加结果
hdfs dfs -cat /tmp/test_hdfs/test1.txt

(1）使用此命令时，集群数量不能小于 3 个。

（2）第一个参数是本地文件，第二个是 Hadoop 集群中（HDFS）的文件（不能是本地文件）

4.更改文件权限

#查看文件权限，查看/tmp/test_hdfs/testshear.txt的权限
hdfs dfs -ls /tmp/test_hdfs/testshear.txt
-
#使用chmod将权限更改为755，将/tmp/test_hdfs/testshear.txt文件权限更改为755
hdfs dfs -chmod 755 /tmp/test_hdfs/testshear.txt
-
#再次查看权限是否已经更改
hdfs dfs -ls /tmp/test_hdfs/testshear.txt

5.复制文件

是将HDFS系统上的文件A复制到HDFS系统上指定目录的B位置下

#将 HDFS系统下的testshear.txt 拷贝到HDFS系统下的/tmp 下
hdfs dfs -cp /tmp/test_hdfs/testshear.txt /tmp

（1）只用于同节点内的文件复制。

（2）拷贝相同的文件到同一个目录中会报错。

（3）-f 参数会直接忽视错误，不管文件是否存在，强行将文件拷贝过去。

6.移动(剪切)文件

将HDFS系统上的文件A 移动到HDFS系统上的目录B下

#将HDFS系统下的testshear.txt文件移动到HDFS系统下的/user目录下
hdfs dfs -mv /tmp/testshear.txt /user

（1）文件名相同会报错，并且没有-f 参数。

（2）若源目录和目标目录相同，相当于重命名操作（Linux 的mv 命令同样有剪切和重命名两个功能）。

7.删除文件或者目录

#删除文件
hdfs dfs -rm /tmp/merge_test/file01.txt
#删除文件夹
hdfs dfs -rm -R /tmp/merge_test

rm -r：只能用于删除文件，不能用于删除文件夹。只能删除指定的一个文件，不能删除同时多个文件

rm -R：既能用于删除文件，也能用于删除除文件夹。

5.文件上传和下载操作

1.将本地文件上传到HDFS系统上，本地文件保留

(1)文件存在时，如果再上传相同的文件，会报错。

（2）如果在 put 后加上-f，则会直接覆盖同名文件。

（3）如果上传路径中的目录已存在，却直接执行了命令，会创建出一个和路径名相同的文件：

 hdfs dfs -put testfile.zip /tmp/test_hdfs-将本地的testfile.zip文件上传到HDFS文件系统上的/tmp/test_hdfs目录下-hdfs dfs -ls /tmp/test_hdfs查看HDFS文件系统上的/tmp/test_hdfs目录下的文件

2.将HDFS系统上的文件下载到本地

#将HDFS系统上的/tmp/test_hdfs/testfile.zip 文件下载到本地的/home目录
hdfs dfs -get /tmp/test_hdfs/testfile.zip /home

3.将本地文件上传到HDFS系统，本地文件不保留

hdfs dfs -moveFromLocal testshear.txt /tmp/test_hdfs
-
将本地的testshear.txt文件上传到HDFS系统上的/tmp/test_hdfs目录下，而且本地的testshear.txt不存在了

与put 功能类似，不同之处在于moveFromLocal 会删除本地文件，而 put则不会。

4.合并下载一个文件夹中的多个文件

假设我们的/usr目录下有A.txt,B.txt这两个文件，我们想将它们联合下载下来

hdfs dfs -getmerge /usr Download.txt
-
将usr目录下的A.txt与B.txt追加在一个文件中Download.txt中，然后将Download.txt下载到本地

6.进阶操作

1.统计系统的可用空间

 hdfs dfs -df -h /

-h：以 K，M，G 为单位，提高信息的可读性

2.统计文件或者文件夹的大小

#统计/tmp/test_hdfs文件夹下的各个文件大小
hdfs dfs -du -s -h /tmp/test_hdfs

-h：以 K，M，G 为单位，提高信息的可读性；

加-s：查看文件夹大小；

不加-s：查看文件夹内每个文件大小。

3.统计指定目录下的文件个数

#统计/tmp/test_hdfs目录下的文件个数
hdfs dfs -count -h /tmp/test_hdfs

第一列 1 表示指定目录下文件夹的数量，第二列 2表示指定目录下文件的个数。

190.7 M 表示指定目录下所有文件占用的磁盘容量（不包括 HDFS 副本）。

4.杀死hadoop某个进程

#查看进程号
jps
#杀死指定进程hadoop job –kill [job-id]

5.设置HDFS副本数量

最后一个参数无论是文件夹还是文件，本文件夹中所有文件的副本数都会被重新设置

#将/tmp/test_hdfs文件夹副本数量设置为4
hdfs dfs -setrep 4 /tmp/test_hdfs

6.指定目录查看数据块是否损坏

## 从根目录检查每个文件的数据块是否损坏、丢失hdfs fsck /

7.查看被检查文件的状态信息

## 注意-files 参数要写在文件信息后
hdfs fsck /test/word.txt -files

8.显示文件的块信息

## 注意要和-files 参数一起使用
> hdfs fsck /test/word.txt -files -blocks

9.显示块信息的位置

## 注意要和-files -blocks 参数一起使用
> hdfs fsck /test/word.txt -files -blocks -racks

7.查看hadoop支持的压缩方式

hadoop checknative

如果返回’true’，说明 Hadoop 支持此种压缩

8.虚拟内存修改

集群里面的所有主机都需要执行下面的所有操作

如果集群内存比较小，在运行一些占用比较大内存进程的时候，会产生内存溢出，所以需要设置一下虚拟内存，防止内存溢出现象，当然如果内存很足，则不用考虑

1.查看集群虚拟内存大小

free

使用 free 命令查看内存信息，Swap 就是 Linux 的虚拟内存，0 表示没有虚拟内存

2.创建虚拟内存缓存文件

我们在root目录下，创建一个swap缓存文件（（每块 1M，总共 8192 块，共计：8192M），比较慢

#注意路径，是在/root目录下
dd if=/dev/zero of=/root/swapfile bs=1M count=8192
-
#创建好以后，查看文件大小，只需要看swapfile文件即可
ll /root -h

3.构建+激活 swap

第一步：构建 swap 格式刡 swapfile

 mkswap /root/swapfile

第二步:激活 swap

swapon /root/swapfile

第三步:查看激活信息

free

4.永久生效

第一步:保存配置

 vim /etc/fstab

第二步:修改

将 /swap none swap sw 0 0 这行（如果有的话）注释掉，新增一行

/root/swapfile swap swap defaults 0 0
-
注意路径

5.调整虚拟内存

集群里面的所有主机都需要修改

第一步:关闭swap

swapoff /root/swapfile
-
注意路径

第二步：删除 swapfile 文件

rm -rf /root/swapfile

第三步:重建虚拟内存

02：hadoop的基本使用相关推荐

02 Hadoop概述
Hadoop概述 1.Hadoop是什么 2.Hadoop版本 3.HDFS.YARN.MapReduce (1) HDFS (2)YARN (3)MapReduce (3)Hadoop模块之间的关系 ...
Hadoop怎么了，大数据路在何方？
导读:近期Hadoop消息不断,众说纷纭.本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势. 作者:姚延栋来源:数字化三部曲(ID:digitxcn) 00 15秒钟简缩版 Ha ...
大数据第一季--Hadoop（day5)-徐培成-专题视频课程
大数据第一季--Hadoop(day5)-1777人已学习课程介绍大数据第一季--Hadoop(day5) 课程收益大数据第一季--Hadoop(day5) 讲师介绍 ...
Hadoop + Zookeeper + HBase 配置错误攻略集
以下不包括详细部署步骤,只有部分关键步骤作为检查错误的点仅供参考: 1. Hadoop和 HBase的版本兼容问题: 官网地址:http://hbase.apache.org/book.html#j ...
大数据基础架构Hadoop，终于有人讲明白了
导读:大数据正在成为经济社会发展的新的驱动力.随着云计算.移动互联网等网络新技术的应用和发展,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态.而大数据技术也如雨后春笋般正在蓬勃发展中.Ha ...
大数据系统架构-Hadoop生态系统
Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储.简单来说,Hadoop是一 ...
kettle全量抽数据_漫谈数据平台架构的演化和应用
随着科技的发展,数据在当代社会中所起的作用越来越大.阿里巴巴集团创始人马云在2014年提出了DT(Data Technology)的概念:"人类正从IT时代走向DT时代".DT的核 ...
大数据课程基础与商城,共享单车,互联网广告实战视频
├─01-JavaSE基础-15天 │ ├─javaSE-day01 │ │ 01.什么是计算机软件--计算机能看懂的描述特定功能的剧本.mp4 │ │ 02.什么数据软件开 ...
Spark学习-事件日志EventLog
事件日志EventLog 背景系统结构 Spark Event 介绍事件类型事件内容事件日志事件分析背景最近工作需要使用Flink对Spark的应用事件日志进行处理,帮助发现Spark应 ...
五个篇章讲明白如何从0到1搭建大数据平台
大家好,我是一哥,整理了一下之前写的搭建大数据平台的5个篇章,请大家收藏,文末可以获取完整PDF版本. 01 如何从0到1搭建大数据平台大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了 ...

02：hadoop的基本使用

1.启动和关闭hadoop进程

1.启动|关闭 Hadoop 所有的服务

2.启动|关闭 HDFS 的服务

3.启动/关闭 YARN 的服务

4.单点启动|关闭

5.多点启动或者关闭

2.查看帮助

3.目录操作

1.显示目录

2.创建目录

3.删除空目录

4.文件操作

1.在指定目录下创建空文件

2.显示文件内容

3.在文件末尾添加内容

4.更改文件权限

5.复制文件

6.移动(剪切)文件

7.删除文件或者目录

5.文件上传和下载操作

1.将本地文件上传到HDFS系统上，本地文件保留

2.将HDFS系统上的文件下载到本地

3.将本地文件上传到HDFS系统，本地文件不保留

4.合并下载一个文件夹中的多个文件

6.进阶操作

1.统计系统的可用空间

2.统计文件或者文件夹的大小

3.统计指定目录下的文件个数

4.杀死hadoop某个进程

5.设置HDFS副本数量

6.指定目录查看数据块是否损坏

7.查看被检查文件的状态信息

8.显示文件的块信息

9.显示块信息的位置

7.查看hadoop支持的压缩方式

8.虚拟内存修改

1.查看集群虚拟内存大小

2.创建虚拟内存缓存文件

3.构建+激活 swap

4.永久生效

5.调整虚拟内存

02：hadoop的基本使用相关推荐

最新文章

热门文章