一、xshell远程访问服务器

二、ssh安装(忽略)

下载ssh
```
yum install -y openssl openssh-server
```
修改配置文件
- lsattr /etc/ssh/sshd_config 查看权限
- chattr -V -ia /etc/ssh/sshd_config 修改权限
- vim /etc/ssh/sshd_config
- 将上图的PermitRootLogin，RSAAuthentication，PubkeyAuthentication的设置打开。
启动ssh服务
```
systemctl start sshd.service
```
设置开机自动启动ssh服务
```
systemctl enable sshd.service
```
设置文件夹~./ssh的访问权限
- cd ~
- chattr -i ./.ssh
- chmod 700 .ssh
- chmod 600 .ssh/
- ls -la .ssh
- authorized_keys文件存储的是客户端的公共密钥。

三、配置虚拟机通信（三台）

确保虚拟机之间可以相互访问
- 比如在某一机器上ping另一个主机的ip：ping 10.64.26.98
配置虚拟机的hostname
- vi /etc/hostname,将原内容删除，三台机器分别写入master,data1,data2,然后保存更改该并退出
- sudo shutdown -r now重启服务器，让hostname生效
配置三台服务器的hosts
- 修改 /etc/hosts，使用命令vi /etc/hosts
- 改为如下
- 每个机器都要这样修改
配置服务器之间的ssh免密登录（生成密钥）
- 在每个服务器上都运行ssh-keygen -t rsa，一直回车即可
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lwOVHlJl-1656142093633)(C:\Users\wzq20\AppData\Roaming\Typora\typora-user-images\image-20220623155138093.png)]

实现节点间的免密访问

ssh-copy-id -i ~/.ssh/id_rsa.pub master
ssh-copy-id -i ~/.ssh/id_rsa.pub data1
ssh-copy-id -i ~/.ssh/id_rsa.pub data2

检验配置是否成功：
- ssh data1,查看是否免密跳转到对应的data1节点（使用exit退出）

四、JDK和Hadoop环境配置

4.1 传送jdk和hadoop文件

使主机的/usr/local文件夹支持写入
- cd /usr
- sudo chmod 777 local
解压分布式实验中jdk和hadoop压缩包，然后在此处打开命令行，输入以下命令，将windows本地的hadoop传到主机上：
```
scp .\hadoop-2.7.7.tar.gz .\jdk-7u80-linux-x64.tar.gz root@10.64.26.63:/usr/local
```
此处的10.64.26.63即是主机的ip地址
过程：
查看主机对应文件夹
```
ls /usr/local
```

在主机master上，将文件传给其他节点（data1，data2）

scp hadoop-2.7.7.tar.gz jdk-7u80-linux-x64.tar.gz root@data1:/usr/local

4.2 安装jdk和hadoop

解压jdk和hadoop

cd /usr/localmkdir /usr/javamkdir /usr/hadooptar -zxvf jdk-7u80-linux-x64.tar.gz -C /usr/javatar -zxvf hadoop-2.7.7.tar.gz -C /usr/hadoop/

配置环境变量
- vim ~/.bashrc
- 添加以下语句(复制以下语句，然后再vim中shift+insert)
```
export JAVA_HOME=/usr/java/jdk1.7.0_80
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 使⽤ source ~/.bashrc ，使其⽴即成效
- java -version和hdfs version确定环境变量修改成功

4.3 服务器配置hadoop（每台都需要配置）

使用cd /usr/hadoop/hadoop-2.7.7/etc/hadoop/,进入配置文件夹
修改hadoop-env.sh
- 使用vim hadoop-env.sh，打开文件开始编辑
- 找到export JAVA_HOME=的一行，注释掉，添加内容export JAVA_HOME=/usr/java/jdk1.7.0_80

修改core-site.xml

使⽤ vim core-site.xml ，打开⽂件开始编辑

在 <configuration></configuration> 之间添加内容

<!-- HDFS Web UI 监听端⼝配置 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>
<!-- Hadoop缓存⽬录（⾃动创建） -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/root/temp/hadoop</value>
</property>

修改hdfs-site.xml

使⽤vim hdfs-site.xml编辑

在 <configuration></configuration> 之间添加内容

        <!-- 每个block存⼏份 --><property><name>dfs.replication</name><value>2</value></property><!-- namenode数据⽬录 --><property><name>dfs.namenode.name.dir</name><value>file:/root/temp/hadoop/namenode</value></property><!-- datanode数据⽬录 --><property><name>dfs.datanode.data.dir</name><value>file:/root/temp/hadoop/datanode</value></property>

修改mapred-site.xml
- 使⽤ cp mapred-site.xml.template mapred-site.xml ，根据模板复制出mapred-site.xml ⽂件
- 使⽤ vim mapred-site.xml ，编辑⽂件
- 在 <configuration></configuration> 之间添加内容
```
        <property><name>mapreduce.framework.name</name><value>yarn</value></property>
```

修改yarn-site.xml

使⽤ vim yarn-site.xml ，开始编辑

在 <configuration></configuration> 之间添加内容

        <name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value></property>

修改slaves⽂件
- 使⽤ vim slaves ，开始编辑
- 删除⽂件内所有内容，然后直接添加
```
data1
data2
```

拷贝所有配置文件到data1,data2

for i in {1..2}; do
scp $HADOOP_HOME/etc/hadoop/* data${i}:$HADOOP_HOME/etc/hadoop/;
done

4.4 启动Hadoop

4.4.1 关闭防火墙

在3个节点进⾏如下操作：

# 停掉防⽕墙
service firewalld stop
chkconfig firewalld off

4.4.2 格式化NameNode

hdfs namenode -format

这个命令非常危险！你应当只在新建集群后执行一次，因为namenode保存的是HDFS的所有元信息，如果丢失了，整个集群中DataNode的数据都无法访问，就算它们还在磁盘上

4.4.3 启动HDFS

运⾏NameNode daemon和DataNode daemon

使⽤ sbin/start-dfs.sh ，启动dfs服务
正确启动，会有如下提⽰；并且输⼊jps也会有类似的 SecondaryNameNode, Jps, NameNode 这样的提⽰
dataX节点也可输⼊jps查看相应提示
如需关闭hdfs服务，在hadoop⽬录下使⽤ sbin/stop-dfs.sh

4.4.4 开启YARN

运⾏ResourceManager daemon和NodeManager daemon

使⽤ sbin/start-yarn.sh ，启动yarn服务
正确启动，会有如下提⽰；并且输⼊jps也有类似提示
如需关闭，使用 sbin/stop-yarn.sh

4.4.5 使用前的准备工作

使用xftp将将测试⽂件 tale.txt 和 war_peace.txt 上传到服务器上

将测试⽂件 tale.txt 和 war_peace.txt 上传到hdfs

hadoop fs -copyFromLocal tale.txt /
hadoop fs -copyFromLocal war_peace.txt /# 查看
hadoop fs -ls /

在hdfs上创建⽬录并移动文件

4.4.6 在master节点使⽤mapreduce-wordcount

当hdfs和yarn服务成功开启后，便可以执行mapreduce程序
常规的指令为 hadoop jar jarFile [mainClass] args
- 如果自己编写了Java开发的MapReduce版wordcount程序，需要将其打包成jar 包，然后使⽤上述指令执行

利⽤mapredice-wordcount对tale.txt进⾏单词统计

先进进入mapreduce文件夹

# 进⼊mapreduce ⽰例程序⽂件夹
cd $HADOOP_HOME/share/hadoop/mapreduce

执行

hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /small/tale.txt /wordcount/output

查看结果

使⽤ hadoop fs -ls -R / ，查看wordcount执⾏完成后hdfs的状态

把wordcount输出⽂件从hdfs拷⻉到本地

# 切换⾄~⽬录
cd
# 查看当前~⽬录状态
ll
# 将wordcount输出⽬录/wordcount/output拷⻉到本机~⽬录
hadoop fs -copyToLocal /wordcount/output
# 查看拷⻉后~⽬录状态
ll
# 切换⾄output⽬录
cd output/
# 查看output⽬录状态
ll

4. 查看输出文件

less part-r-00000

【华中科技大学软件学院】云计算：Hadoop实验相关推荐

2021 华中科技大学软件学院软件体系结构考试题回忆
2021 华中科技大学软件学院软件体系结构考试题回忆第一大题第二题简答题第三题判断题第四题简答题第五题实验题第六题简答题 2020软件体系结构考试题第一大题软件架构设计受哪四 ...
华中科技大学计算机与网络,华中科技大学计算机通信与网络实验报告-基于NS2的协议分析实验...
华中科技大学计算机通信与网络实验报告-基于NS2的协议分析实验 (26页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.9 积分实验二基于NS2的协 ...
408又来了！华中科技大学软件学院改考408！
华中科技大学是一所985大学,位于湖北省武汉市,计算机学科评估A,软件工程学科评估没有.计算机实力在985大学中排名中上游. 华中科技大学今年的计算机考研变化非常巨大,前段时间计算机学院和网络空间安全 ...
【华中科技大学软件学院】19级停止招生？？
转载于知乎链接:https://www.zhihu.com/question/321525971 原问题: 如何看待华中科技大学软件学院19级停止招生? 听说和新建的网安校区有关? 咱软院这是绝后 ...
华中科技大学计算机通信与网络实验,华中科技大学计算机通信与网络实验报告Socket编程实验.docx...
实验一 Socket编程实验 1.1环境开发环境:Windows 10 64 位,Intel Core i5-7300HQ CPU, 8GB 内存 1.1. 1开发平台 Microsoft Visu ...
华中科技大学计算机组成原理上机实验1 2018
notice: 本文已被archive,只具有历史价值,上机价值实验目的 GB2312 区位码字模码奇偶校验校验位检错海明码编解码电路基本原理流水数据传输机制,流水暂停原理实验环境 ( ...
华中科技大学计算机学院c 实验,华中科技大学计算机学院C实验报告-实验一.doc...
课程实验报告课程名称:面向对象程序设计实验名称:面向对象的整型栈编程院系 : 计算机科学与技术专业班级:CS1209班学号 : 姓名 : 指导教师:李春花 2014年1月22日一 ...
2022届华中科技大学软件学院考研经验贴
本人2022年考研上岸华科软件学院,排名大概20名左右.全文干货,不会说一些复习进度规划之类的,大家也不要太在意进度,并不是说一定要在几月之前复习几轮,但多做几遍真题是必须的. 先说一下华科软件的分数 ...
华中科技大学计算机学院考研大纲,2021华中科技大学考研大纲参考书目汇总
该楼层疑似违规已被系统折叠隐藏此楼查看此楼资料下载地址:http://fangcai.100xuexi.com/Ebook/DigitalLibrary/BookNew.aspx?BookName ...

【华中科技大学软件学院】云计算：Hadoop实验

一、xshell远程访问服务器

二、ssh安装(忽略)

三、配置虚拟机通信（三台）

四、JDK和Hadoop环境配置

4.1 传送jdk和hadoop文件

4.2 安装jdk和hadoop

4.3 服务器配置hadoop（每台都需要配置）

4.4 启动Hadoop

4.4.1 关闭防火墙

4.4.2 格式化NameNode

4.4.3 启动HDFS

4.4.4 开启YARN

4.4.5 使用前的准备工作

4.4.6 在master节点使⽤mapreduce-wordcount

【华中科技大学软件学院】云计算：Hadoop实验相关推荐

最新文章

热门文章