文章目录

  • 零、学习目标
  • 一、导入新课
  • 二、新课讲解
    • (一)配置Hadoop集群
      • 1、在master虚拟机上配置hadoop
        • (1)编辑Hadoop环境配置文件 - hadoop-env.sh
        • (2)编辑Hadoop核心配置文件 - core-site.xml
        • (3)编辑HDFS配置文件 - hdfs-site.xml
        • (4)编辑MapReduce配置文件 - mapred-site.xml
        • (5)编辑yarn配置文件 - yarn-site.xml
        • (6)编辑workers文件确定数据节点
      • 2、在slave1虚拟机上安装配置hadoop
        • (1)将master虚拟机上的hadoop分发到slave1虚拟机
        • (2)将master虚拟机上环境配置文件分发到slave1虚拟机
        • (3)在slave1虚拟机上让环境配置生效
      • 3、在slave2虚拟机上安装配置hadoop
        • (1)将master虚拟机上的hadoop分发到slave2虚拟机
        • (2)将master虚拟机上环境配置文件分发到slave2虚拟机
        • (3)在slave2虚拟机上让环境配置生效
    • (二)格式化文件系统
    • (三)启动和关闭Hadoop集群
      • 1、主节点上启动hadoop集群
        • (1)启动hdfs服务
        • (2)启动yarn服务
      • 2、主节点上停止Hadoop集群
  • 三、归纳总结
  • 四、上机操作
  • 五、解决问题

零、学习目标

1.掌握Hadoop集群配置
2. 掌握格式化文件系统
3. 掌握启动和关闭Hadoop集群

一、导入新课

  • 上次课中,主要讲解了Hadoop集群部署模式、JDK和Hadoop的安装。本次课将针对Hadoop集群的配置、文件系统的格式化以及Hadoop集群的启动和关闭进行详细讲解。

二、新课讲解

(一)配置Hadoop集群

  • Hadoop的配置文件都在$HADOOP_HOME/etc/hadoop目录里
配置文件 功能描述
hadoop-env.sh 配置Hadoop运行所需的环境变量
yarn-env.sh 配置Yarn运行所需的环境变量
core-site.xml Hadoop核心全局配置文件,可在其他配置文件中引用
hdfs-site.xml HDFS配置文件,继承core-site.xml配置文件
mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件
yarn-site.xml Yarn配置文件,继承core-site.xml配置文件
workers 配置从节点文件

1、在master虚拟机上配置hadoop

(1)编辑Hadoop环境配置文件 - hadoop-env.sh

  • 执行命令:cd $HADOOP_HOME/etc/hadoop,进入hadoop配置目录
  • 执行命令:vim hadoop-env.sh,添加三条环境变量配置(其实只需要添加第三条,因为前两条已经在/etc/profile里配置过了)
export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  • 存盘退出后,执行命令source hadoop-env.sh,让配置生效
  • 查看三个配置的三个环境变量

(2)编辑Hadoop核心配置文件 - core-site.xml

  • 执行命令:vim core-site.xml
<configuration><!--用来指定hdfs的老大--><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!--用来指定hadoop运行时产生文件的存放目录--><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-3.3.4/tmp</value></property>
</configuration>
  • 由于配置了IP地址主机名映射,因此配置HDFS老大节点可用hdfs://master:9000,否则必须用IP地址hdfs://192.168.1.101:9000

(3)编辑HDFS配置文件 - hdfs-site.xml

  • 执行命令:vim hdfs-site.xml
  • 可以不用设置名称节点的目录、数据节点的目录以及辅助名称节点
<configuration><!--设置名称节点的目录--><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop-3.3.4/tmp/namenode</value></property><!--设置数据节点的目录--><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop-3.3.4/tmp/datanode</value></property><!--设置辅助名称节点--><property><name>dfs.namenode.secondary.http-address</name><value>master:50090</value></property><!--hdfs web的地址,默认为9870,可不配置--><!--注意如果使用hadoop2,默认为50070--><property><name>dfs.namenode.http-address</name><value>0.0.0.0:9870</value></property><!--副本数,默认为3,可不配置--><property><name>dfs.replication</name><value>3</value></property><!--是否启用hdfs权限,当值为false时,代表关闭--><property><name>dfs.permissions.enabled</name><value>false</value></property>
</configuration>

(4)编辑MapReduce配置文件 - mapred-site.xml

  • 执行命令:vim mapred-site.xml
<configuration><!--配置MR资源调度框架YARN--><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>
</configuration>
  • 后三个属性如果不设置,在运行Hadoop自带示例的词频统计时,会报错:Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

(5)编辑yarn配置文件 - yarn-site.xml

  • 执行命令:vim yarn-site.xml
<configuration><!--配置资源管理器:集群master--><property>        <name>yarn.resourcemanager.hostname</name><value>master</value></property><!--配置节点管理器上运行的附加服务--><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--关闭虚拟内存检测,在虚拟机环境中不做配置会报错--><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>
</configuration>

(6)编辑workers文件确定数据节点

  • hadoop-2.x里配置slaves文件,hadoop-3.x里配置workers文件
  • 通过workers文件定义数据节点,根据集群规划,三个节点都要作为数据节点
  • 执行命令:vim workers
  • 这样集群总共有3个数据节点,正好跟副本数配置的3一致。

2、在slave1虚拟机上安装配置hadoop

(1)将master虚拟机上的hadoop分发到slave1虚拟机

  • 执行命令:scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
  • 在slave1虚拟机上查看分发的hadoop

(2)将master虚拟机上环境配置文件分发到slave1虚拟机

  • 执行命令:scp /etc/profile root@slave1:/etc/profile

(3)在slave1虚拟机上让环境配置生效

  • 切换到slave1虚拟机,执行命令:source /etc/profile

3、在slave2虚拟机上安装配置hadoop

(1)将master虚拟机上的hadoop分发到slave2虚拟机

  • 执行命令:scp -r $HADOOP_HOME root@slave2:$HADOOP_HOME
  • 在slave2虚拟机上查看分发的hadoop

(2)将master虚拟机上环境配置文件分发到slave2虚拟机

  • 执行命令:scp /etc/profile root@slave2:/etc/profile

(3)在slave2虚拟机上让环境配置生效

  • 切换到slave2虚拟机,执行命令:source /etc/profile

(二)格式化文件系统

  • 初次启动HDFS集群时,必须对主节点进行格式化处理。
  • 执行命令:hdfs namenode -format
  • 查看名称节点格式化成功的信息

(三)启动和关闭Hadoop集群

1、主节点上启动hadoop集群

  • 执行start-all.sh命令,一起启动hdfs和yarn服务,也可以分开启动两种服务。

(1)启动hdfs服务

  • 执行命令:start-dfs.sh
  • 一个名称节点(namenode)——老大,在master虚拟机上;三个数据节点(datanode)——小弟,在master、slave1与slave2虚拟机上。辅助名称节点(secondary namenode)的地址是master,因为在hdfs-site.xml文件里配置了辅助名称节点。
  • 查看master虚拟机上的进程
  • 查看slave1虚拟机上的进程
  • 查看slave2虚拟机上的进程
  • 查看进程总体情况

(2)启动yarn服务

  • 执行命令:start-yarn.sh

  • 启动了YARN守护进程;一个资源管理器(ResourceManager)在master虚拟机上,三个节点管理器(NodeManager)在master、slave1与slave2虚拟机上

  • 执行命令jps查看master虚拟机的进程

  • 查看slave1和slave2上的进程,只有NodeManager和DataNode

  • 查看YARN服务进程状况

  • 查看Hadoop服务进程总体状况

2、主节点上停止Hadoop集群

  • 在master虚拟机上执行命令:stop-all.sh(相当于同时执行了stop-dfs.shstop-yarn.sh

三、归纳总结

  • 回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。

四、上机操作

  • 形式:单独完成
  • 题目:安装配置hadoop集群
  • 要求:让学生自己动手进行Hadoop集群配置、格式化文件系统以及启动和关闭Hadoop集群的操作,以此来巩固本节的学习内容。写一篇CSDN博客,记录操作过程。

五、解决问题

  • 执行命令:start-dfs.sh,启动HDFS服务
  • 一个警告信息,如何去掉它,执行命令: vim log4j.properties,在末尾添加log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR
  • 存盘退出,停止hdfs服务,再重启hdfs服务

大数据讲课笔记3.3 Hadoop集群配置相关推荐

  1. 大数据平台分布式搭建-Hadoop集群配置

    Section 1: 文件清单 hadoop-2.8.4.tar.gz jdk-8u181-linux-x64.tar xshell 7家庭版 xftp 7家庭版 Section 2: 下载链接 [J ...

  2. 好程序员大数据笔记之:Hadoop集群搭建

    好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...

  3. 全国大学生大数据技能竞赛(Hadoop集群搭建)

    系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...

  4. 自学大数据第四天~hadoop集群的搭建(一)

    Hadoop集群安装配置 当hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,此时HDFS名称节点和数据节点位于不同的机器上; 数据就可以分布到多个节点,不同的数据节点上的数据计 ...

  5. CDH大数据平台搭建之SPARK集群搭建

    CDH大数据平台搭建之SPARK集群搭建 一.安装规划 二.下载 三.安装及配置 1.解压 2.修改配置文件 四.启动 五.JPS检查节点 一.安装规划 参考CHD大数据平台搭建之集群规划 二.下载 ...

  6. CDH大数据平台搭建之KAFKA集群搭建

    CDH大数据平台搭建之KAFKA集群搭建 一.安装规划 二.下载KAFKA 三.安装及配置 1.先安装zookeeper 2.解压 3.新建文件夹 4.修改config目录server.propert ...

  7. Hadoop集群配置(最全面总结)

    Hadoop集群配置(最全面总结) 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta ...

  8. 大数据第一天 Hadoop01-入门集群环境搭建

    Hadoop01-入门&集群环境搭建 今日内容 ​ Hadoop的介绍 ​ 集群环境搭建准备工作 ​ Linux命令和Shell脚本增强 ​ 集群环境搭建 大数据概述 ​ 大数据: 就是对海量 ...

  9. 数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践

    大数据平台不仅需要稳定地运行生产任务,还需要提供数据开发的能力.因此,不少大数据平台都会为每个任务区分开发模式与线上模式,可以通过提交上线的方式,将开发模式任务提交到线上,让其用于线上数据生产工作. ...

最新文章

  1. PL/SQL 中文显示乱码解决方案
  2. 四大发明之活字印刷——面向对象思想的胜利
  3. ckks方案优化最好的_站群如何优化才能提高SEO效果?站群优化方案有哪些?
  4. 重要说明,粉丝必看【java人脸识别说明】
  5. jQuery 的各种练习
  6. 【tool】kali linux关于postgresql的使用
  7. python----动态规划
  8. python初学 数据分叉情况下的函数递归
  9. python学习 数据类型之序列
  10. NWT创业失败原因之层层分析
  11. 《码农翻身》之浪潮之巅的Web
  12. 查询和追踪快递单的流向有这么难吗?用VFP其实太简单
  13. UEditor 编辑器的下载与安装
  14. 【Word】如何实现特殊数字 带圈数字
  15. MTK最新工具(刷机,写号,升级等)合集含工具源码
  16. 就业、养老、住房、出行等领域稳步前行 这一年,民生改善实实在在
  17. java连接wamp_eclipse php wamp配置教程
  18. 趋高机器视觉之机械手臂的应用
  19. python处理淘宝助理csv_淘宝助理上传CSV文件
  20. ros软路由防火墙(双线路、日志配置)

热门文章

  1. Windows密码忘记,如何在无密码情况下进入系统的 解决方法。(失效)
  2. 将微信订阅号的用户消息发到自己的服务器
  3. DotNet匿名类无法通过反射设置属性值
  4. 百亿数据分库分表核心流程详解
  5. Redis | 慢查询
  6. 获取银行简码类(php)
  7. [游戏技术] 传染病 Contagion 文档说明
  8. bootstrap table 冻结列 操作无效
  9. 俞敏洪 ----- 性格决定命运
  10. Deep Dream图像生成案例实践