目录

  • Hadoop简介:
  • (1)安装JDK和Hadoop
  • (2)配置环境变量
  • (3)集群部署规划
  • (4)配置免密登录
  • (5)修改Hadoop配置文件
    • 1.vim hdfs-site.xml
    • 2.vim core-site.xml
    • 3.vim yarn-site.xml
    • 4.vim mapred-site.xml
    • 5.vim workers
  • (6)配置文件分发
  • (7)集群启动
    • 1.格式化NameNode
    • 2.启动HDFS集群
    • 3.启动YARN集群
  • (8)查看集群节点启动情况
    • 1.jps查看
    • 2.Web端查看
  • (9)Hadoop的目录结构
  • (10)Hadoop官方文档说明:
    • Java和Hadoop安装包下载链接:

Hadoop简介:

​ Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。从广义上来说,Hadoop指的是一个更广泛的概念——Hadoop生态圈

Hadoop的优势:(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。(4)高容错性:能够自动将失败的任务重新分配。

(1)安装JDK和Hadoop

​ 解压JDK和Hadoop到/opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ #解压JDK
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/           #解压Hadoop3.1.3

(2)配置环境变量

# 新建/etc/profile.d/my_env.sh文件
sudo vim /etc/profile.d/my_env.sh

添加如下配置:

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# 使环境变量生效
source /etc/profile.d/my_env.sh

(3)集群部署规划

节点名  IP地址            主机名
主节点     192.168.1.102   hadoop102
从节点     192.168.1.103   hadoop103
从节点     192.168.1.104   hadoop104
hadoop102 hadoop103 hadoop104
HDFS NameNode SecondaryName
DataNode DataNode DataNode
YARN ResourceManager
NodeManager NodeManager NodeMAnager

(4)配置免密登录

ssh-keygen -t rsa    # 生成公钥和私钥
ssh-copy-id hadoop102   # 将公钥拷贝到目标机器上
known_hosts 记录ssh访问过计算机的公钥(public key)
id_rsa 生成的私钥
id_rsa.pub 生成的公钥
authorized_keys 存放授权过得无密登录服务器公钥

(5)修改Hadoop配置文件

首先进入hadoop目录:

cd $HADOOP_HOME/etc/hadoop

1.vim hdfs-site.xml

<configuration>
<!--NameNode http服务器地址和端口--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property>
<!-- 指定HDFS副本的数量:默认是3 --><property><name>dfs.replication</name><value>3</value></property>
</configuration>

2.vim core-site.xml

<configuration><!--指定HDFS的NameNode的地址--><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property>
<!--指定Hadoop运行时产生文件的储存目录--><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.1.3/data</value></property>
<!--(可选)代理服务器的主机名用户连接--><property><name>hadoop.proxyuser.tan.hosts</name><value>*</value></property>
<!--(可选)代理服务器的用户组连接--><property><name>hadoop.proxyuser.tan.groups</name><value>*</value></property>
<!--访问web网页时的用户--><property><name>hadoop.http.staticuser.user</name><value>tan</value></property></configuration>

3.vim yarn-site.xml

<configuration><!--Reducer获取数据的方式--><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
<!--指定YARN的ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop103</value></property>
<!--容器可以覆盖的环境变量而不是使用NodeManager的默认变量--><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property>
<!--每个容器请求的最小分配(以MB为单位)--><property><name>yarn.scheduler.minimum-allocation-mb</name><value>512</value></property>
<!--每个容器请求的最大分配(以MB为单位)--><property><name>yarn.scheduler.maximum-allocation-mb</name><value>4096</value></property>
<!--作为yarn.nodemanager.resource.memory-mb属性,但对于MiniYARNCluster中的NodeManager--><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property>
<!--是否对容器强制实施物理内存限制--><property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property>
<!--是否对容器强制执行虚拟内存限制--><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property></configuration>

4.vim mapred-site.xml

<configuration><!--用于MapReducedjobs运行时框架:可以是local,yarn上--><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>

5.vim workers

hadoop102
hadoop103
hadoop104
# 注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

(6)配置文件分发

cd /opt/module/  # 进入/opt/module/目录
scp -r jdk1.8.0_212/ 目标地址:/opt/module/  #分发JDK
scp -r hadoop-3.1.3/ 目标地址:/opt/module/  #分发Hadoop
sudo scp -r /etc/profile.d/my_env.sh 目标地址:/etc/profile.d/my_env.sh  #分发环境变量配置

(7)集群启动

注:如果集群是第一次启动,需要格式化NameNode
(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除dfs和log数据)

1.格式化NameNode

cd  $HADOOP_HOME #进入Hadoop的家目录下
bin/hdfs namenode -format  #格式化命令

2.启动HDFS集群

sbin/start-dfs.sh    # 在hadoop102执行

3.启动YARN集群

sbin/start-yarn.sh   # 在hadoop103执行

(8)查看集群节点启动情况

1.jps查看

jps  #查询节点启动情况

​ jpsall脚本搭建:可以同时查看多个集群上的启动节点

cd /home/tan/    #进入用户家目录
mkdir bin       #新建一个bin目录
vim bin/jpsall  #编写脚本
chmod +x jpsall #赋予可执行权限

jpsall 脚本代码编写如下:

#!/bin/bash
for i in hadoop102 hadoop103 hadoop104
doecho "========    $i    ========"ssh $i "jps" | grep -v Jps
done
[tan@daoop102 hadoop]$ jpsall
========    hadoop102    ========
10016 DataNode
10777 NodeManager
9886 NameNode
========    hadoop103    ========
9088 ResourceManager
7817 DataNode
9230 NodeManager
========    hadoop104    ========
7792 DataNode
8443 NodeManager
7903 SecondaryNameNode

2.Web端查看

HDFS的Web页面:http://hadoop102:9870/

YARN的Web页面:http://hadoop103:8088/

Web端查看SecondaryNameNode信息:http://hadoop104:9868/

(9)Hadoop的目录结构

[tan@hadoop102 hadoop-3.1.3]$ ll
总用量 180
drwxr-xr-x. 2 tan tan    183 9月  12 2019 bin
drwxr-xr-x. 3 tan tan     20 9月  12 2019 etc
drwxr-xr-x. 2 tan tan    106 9月  12 2019 include
drwxr-xr-x. 3 tan tan     20 9月  12 2019 lib
drwxr-xr-x. 4 tan tan    288 9月  12 2019 libexec
-rw-rw-r--. 1 tan tan 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 tan tan  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 tan tan   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 tan tan   4096 9月  12 2019 sbin
drwxr-xr-x. 4 tan tan     31 9月  12 2019 share
   (1)bin目录:存放对Hadoop相关服务(HDFS、YARN)进行操作的脚本。(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件。(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)。(4)sbin目录:存放启动或停止Hadoop相关服务的脚本。(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例。(6)logs目录:存放日志文件

(10)Hadoop官方文档说明:

​ https://hadoop.apache.org/docs/r3.1.3/

Java和Hadoop安装包下载链接:

链接:https://pan.baidu.com/s/1008xOtUT21xBdVYIL0t4Cw 提取码:1907
复制这段内容后打开百度网盘手机App,操作更方便哦

二、大数据之Hadoop完全分布式集群搭建相关推荐

  1. [大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)

    **在操作前,先梳理一下HADOOP完全分布式需要做些什么,不然像无头的苍蝇一样,永远不知道做什么.因为我本人比赛是一台服务器Centos 7,与三台客户端Ubuntu 18.04,所以以物理机的角度 ...

  2. 大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

    hadoop完全分布式集群搭建 一.搭建准备 1.安装VMware虚拟机 2.Xshell 7 远程客户端及Xftp 7安装 3.搭建模板虚拟机hadoop100 配置虚拟机网络 为虚拟机普通用户配置 ...

  3. Hadoop完全分布式集群搭建详细图文教程

    本文所使用的环境及版本: CentOS Linux release 7.9.2009 (Core) jdk1.8.0_291 hadoop-3.2.2 一.安装模板机 1.安装CentOS 7.9并配 ...

  4. HADOOP 伪分布式集群搭建

    一 linux 环境的搭建 由于笔者这里使用的是vmware 虚拟机 采用centos7 linux 操作系统进行搭建,所以一下示例均以centos7进行示例 1.  搭建vmware 虚拟机 (1) ...

  5. 基于ubuntu的hadoop完全分布式集群搭建

    借鉴网址1 借鉴网址2 hadoop官方配置教程 搭建虚拟机,克隆(或者先配置JAVA和Hadoop环境再克隆,之后要改主机名和映射以及SSH免密) 可以利用xsync集群分发脚本一台机器配置其他机器 ...

  6. Hadoop完全分布式集群搭建

    hadoop本地模式搭建 首先准备一台Linux环境的服务器关闭防火墙 # 查看防火墙状态 systemctl status firewalld # 停止防火墙 systemctl stop fire ...

  7. Ubuntu18.04+Docker+Hadoop+Spark分布式集群搭建

    题前记:因为课程需求,下面将搭建过程用学术论文的格式写.(其实我并不想写的,没办法,学习作业嘛QAQ...) 我的联系方式:630056108 文章目录 Docker上的Hadoop大数据平台搭建与测 ...

  8. Hadoop全分布式集群搭建(全网最详细,保姆级教程)

    在上一篇Hadoop环境搭建(全网最详细,保姆级教程)中已经搭建好了一个单机Hadoop环境,接下来搭建全分布式Hadoop集群 首先对Hadoop全分布示集群进行简单介绍和规划 一个集群由一个主机, ...

  9. 大数据之-Hadoop之HDFS_hadoop集群中的安全模式_原理---大数据之hadoop工作笔记0074

    我们说namenode启动的时候,会把fsimage,载入内存,然后执行edits中的各项操作,这个操作做完以后,内存中就有了, 文件系统元数据的镜像了,这个时候就去再创建一个新的Fsimage文件和 ...

最新文章

  1. 计算机与维修专业学校,计算机应用与维修学校录取分专业可靠
  2. 一招教你掌握肌肉发力的感觉
  3. QT的QSignalMapper类的使用
  4. ant design中的栅格化系统
  5. azul java_Java版本更新重大提醒 - Azul
  6. android计算汇率代码,android studio 开发实例 连接网络获取汇率
  7. 食谱数据库数据找不到的问题
  8. 我来告诉你2019新版微信转发语音消息的方法!就是这么简单
  9. O2O(online to offline)营销模式
  10. winform实现任务栏隐藏、通知栏图标及右键、类似QQ隐藏窗体等功能
  11. JENKINS中maven使用jdk8和jdk11环境
  12. 基于angular上传图片并能对图片裁剪,放大缩小,压缩size及在图片上添加文字等编辑操作,并能手动限制上传图片数量
  13. Eclipse不能查看Servler源码问题
  14. 基于canvas实现波浪式绘制图片
  15. 光纤收发器在安装使用过程所遇到的问题及解决办法
  16. 什么是GLEW GLFW GLM
  17. 毕业5年,我问遍了身边的大佬,总结了他们的学习方法
  18. 搜一下导航完整程序源码
  19. Python中mask使用
  20. “香约宁波”寻觅城市文化味

热门文章

  1. java技术总结_Java技术归纳总结
  2. 基于Web的期刊稿件管理系统
  3. 为什么连续性变量才有概率密度函数,而离散型只有概率呢?
  4. 高等数学笔记:关于等价无穷小替换的一个猜想
  5. “MacTalk 跨越边界” iBooks.
  6. 腾讯微服务框架-MSEC-部署 - 首个hello word服务
  7. VSO Downloader 【您连接到互联网的网络适配器没有启动自动检测 】解决办法
  8. item_search - 根据关键词获取拼多多商品列表
  9. anaconda中使用pip安装pytorch(GPU)
  10. chatgpt api请求样例