全分布式集群搭建流程（超详细）

全分布式的集群搭建流程如下：

1、克隆虚拟机

2、克隆后的配置

修改网卡信息

vi /etc/udev/rules.d/70-persistent-net.rules

修改主机名

vi /etc/sysconfig/network

修改ip信息

vi /etc/sysconfig/network-scripts/ifcfg-eth0(修改里面的UUID和网卡(MAC)地址)

修改映射

vi /etc/hosts

进入以后在下方添加

192.168.111.111 hadoop02 www.hadoop02.com

然后输入命令：

service network restart     //**（切换到eth0**）
ifconfig       //**（查看ip**）

然后在windows的命令行中ping一下：即ping 192.168.111.111(查看是否可以ping通)

关于Xshell设置出错的解决方案：点击要修改的客户端，右键选择properties，即可进行修改

3、搭建hadoop的集群

Local (Standalone) Mode
Pseudo-Distributed Mode
Fully-Distributed Mode

Hadoop全分布式环境搭建：
规划：

主机名称 IP地址功能
hadoop01 192.168.111.110 NameNode、DateNode、resourcemanager、 nodemanager
hadoop02 192.168.111.111 DateNode、nodemanager
hadoop03 192.168.111.112 DateNode、nodemanager
所有机子都需要配置
1、JDK 2、SSH免登陆 3、Hadoop集群

配置Hadoop的相关配置文件：

⑴、  vi ./etc/hadoop/hadoop-env.sh
⑵、  vi ./etc/hadoop/core-site.xml

进入以后输入：

<!-- 在<configuration>下输入：-->
<configuration>
<!-- 配置hdfs文件系统的命名空间  -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<!-- 配置操作hdfs的缓冲大小  -->
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
<!-- 配置临时数据存储目录  -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.2.0/bigdata/tmp</value>
</property>
</configuration>

⑶、vi ./etc/hadoop/hdfs-site.xml

进入以后输入：

<!-- 在<configuration>下输入：-->
<configuration>
<!-- 配置副本数 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- hdfs的元数据的存储位置 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.2.0/dfs/name</value>
</property>
<!-- hdfs的数据的存储位置 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.2.0/dfs/data</value>
</property>
<!-- hdfs的namenode的web ui地址 -->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop01:50070</value>
</property>
<!-- hdfs的snn的web ui地址 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop01:50090</value>
</property>
<!-- 是否开启web操作hdfs -->
<property>
<name>dfs.webhdfs.enabled</name>
<value>false</value>
</property>
<!-- 是否启用hdfs的权限(acl) -->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

⑷、 vi ./etc/hadoop/mapred-site.xml

进入以后输入：

<!-- 在<configuration>下输入：-->
<configuration>
<!-- 指定mapreduce运行框架 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 历史服务的通信地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop01:10020</value>
</property>
<!-- 历史服务的web ui地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop01:19888</value>
</property>
</configuration>

⑸、 vi ./etc/hadoop/yarn-site.xml

进入以后输入：

<!--  在<configuration>下输入：-->
<configuration>
<!--指定ResourceManager启动的服务器主机名-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<!--指定ResourceManager的shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定ResourceManager的内部通信地址-->
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop01:8032</value>
</property>
<!--指定ResourceManager的scheduler的内部通信地址-->
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop01:8030</value>
</property>
<!--指定ResourceManager的resource-tracker的内部通信地址-->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop01:8031</value>
</property>
<!--指定ResourceManager的admin的内部通信地址-->
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop01:8033</value>
</property>
<!--指定ResourceManager的web ui监控地址-->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop01:8088</value>
</property>
</configuration>

⑹、  vi ./etc/hadoop/workers

进入以后（进去以后应该为空）输入：

hadoop02
hadoop03

远程分发到别的服务器上面：

scp -r ../hadoop-3.2.0/ hadoop02:/usr/local/
scp -r ../hadoop-3.2.0/ hadoop03:/usr/local/

//启动之前，在namenode服务器上先格式化，只需一次即可

#hadoop namenode -format

启动namenode、datanode、ResourceManager、NodeManager节点

全启动：

start-all.sh

模块启动：

#start-dfs.sh
#start-yarn.sh

单个进程的启动与停止：

hadoop-daemon.sh start/stop namenode
hadoop-daemons.sh start/stop datanode
yarn-daemon.sh start/stop namenode
yarn-daemons.sh start/stop datanode
mr-jobhistory-daemon.sh start/stop historyserver

当出现./sbin/start-dfs.sh启动报错时，应进入vi ./sbin/start-dfs.sh和vi ./sbin/stop-dfs.sh,并且在其顶部输入以下命令：

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=rootYARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

ssh免密登录：
输入：

ssh-keygen -t rsa

然后一直回车即可实现免密登录