大数据笔记(三):HDFS集群搭建-伪分布式模式
文章目录
HDFS集群搭建-伪分布式模式
前言
一、实操&理论验证
二、官网导读
三、思路
四、基础设施
1、设置IP及主机名
2、关闭防火墙&selinux
3、设置hosts映射
4、时间同步
5、安装JDK
6、设置SSH免秘钥
五、部署配置
1、部署路径
2、 配置文件
3、初始化&启动
4、简单使用
5、验证知识点
HDFS集群搭建-伪分布式模式
前言
博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有
经典语录:美好的事情不是没有裂痕,而是满是裂痕而没有崩开
一、实操&理论验证
- HDFS安装配置
- HDFS命令行使用
- 理论知识点验证
二、官网导读
Hadoop - Apache Hadoop 2.6.5https://hadoop.apache.org/docs/r2.6.5/
- 支持最好的平台:GNU/Linux
- 依赖的软件:java,ssh
- 部署模式:
- Local (Standalone) Mode
- Pseudo-Distributed Mode
- Fully-Distributed Mode
三、思路
- 基础设施
- 部署配置
- 初始化运行
- 命令行使用
四、基础设施
操作系统、环境、网络、必要软件
1、设置IP及主机名
注意:大家看看自己的vm的编辑->虚拟网络编辑器->观察 NAT模式的地址
设置网络和设置IP
vi /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
#HWADDR=00:0C:29:42:15:C2
TYPE=Ethernet
ONBOOT=yes
NM_CONTROLLED=yes
BOOTPROTO=static
IPADDR=192.168.150.11
NETMASK=255.255.255.0
GATEWAY=192.168.150.2
DNS1=223.5.5.5
DNS2=114.114.114.114
设置主机名
vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=node01
2、关闭防火墙&selinux
关闭防火墙
service iptables stop
chkconfig iptables off
关闭 selinux
vi /etc/selinux/config
SELINUX=disabled
3、设置hosts映射
设置本机的IP到主机名的映射关系
vi /etc/hosts
192.168.150.11 node01
192.168.150.12 node02
4、时间同步
yum install ntp -y
vi /etc/ntp.conf
server ntp1.aliyun.com
service ntpd start
chkconfig ntpd on
5、安装JDK
注意:有一些软件只认:/usr/java/default
rpm -i jdk-8u181-linux-x64.rpm
vi /etc/profile
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile | . /etc/profile
6、设置SSH免秘钥
ssh免密:
ssh localhost
注意:
1)验证自己还没免密
2)被动生成了 /root/.ssh
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
白话解释SSH免秘钥
如果A 想 免密的登陆到B:
A:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
B:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
结论:
B包含了A的公钥,A就可以免密的登陆
生活案例:
你去陌生人家里得撬锁
去女朋友家里:拿钥匙开门
五、部署配置
伪分布式: (单一节点)
1、部署路径
mkdir /opt/bigdata
tar xf hadoop-2.6.5.tar.gz
mv hadoop-2.6.5 /opt/bigdata/
pwd
/opt/bigdata/hadoop-2.6.5
vi /etc/profile
export JAVA_HOME=/usr/java/default
export HADOOP_HOME=/opt/bigdata/hadoop-2.6.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
2、 配置文件
cd $HADOOP_HOME/etc/hadoop
注意:必须给hadoop配置javahome要不ssh过去找不到
vi hadoop-env.sh
export JAVA_HOME=/usr/java/default
给出NN角色在哪里启动
vi core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
因为是伪分布式集群,故配置HDFS 副本数为1,如果是真实集群就配置2-3的副本数量
vi hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/var/bigdata/hadoop/local/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/var/bigdata/hadoop/local/dfs/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node01:50090</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>/var/bigdata/hadoop/local/dfs/secondary</value>
</property>
配置DN这个角色再那里启动
vi slaves
node01
3、初始化&启动
格式化namenode操作(只要一次就够了)
hdfs namenode -format
简单过程:
- 创建配置文件设置的目录
- 并初始化一个空的fsimage
- VERSION文件里生成一个CID
sh start-dfs.sh
第一次:datanode和secondary角色会初始化创建自己的数据目录
修改windows: C:\Windows\System32\drivers\etc\hosts
192.168.150.11 node01
192.168.150.12 node02
192.168.150.13 node03
192.168.150.14 node04
可以通过以下地址访问:
http://node01:50070http://node01:50070
4、简单使用
hdfs dfs -mkdir /bigdata
hdfs dfs -mkdir -p /user/root
5、验证知识点
观察 editlog的id是不是再fsimage的后边
cd /var/bigdata/hadoop/local/dfs/name/current
SNN 只需要从NN拷贝最后时点的FSimage和增量的Editlog
cd /var/bigdata/hadoop/local/dfs/secondary/current
验证上传的大文件是否分块,分块最大文件是否128M
hdfs dfs -put hadoop*.tar.gz /user/root
cd /var/bigdata/hadoop/local/dfs/data/current/BP-281147636-192.168.150.11-1560691854170/current/finalized/subdir0/subdir0
for i in `seq 100000`;do echo "hello hadoop $i" >> data.txt ;done
hdfs dfs -D dfs.blocksize=1048576 -put data.txt
cd /var/bigdata/hadoop/local/dfs/data/current/BP-281147636-192.168.150.11-1560691854170/current/finalized/subdir0/subdir0
检查data.txt被切割的块,数据是什么样子的
可以看到两个文件的数据直接切开,一行数据被切成一小段,这样的数据到计算会有问题吗?
其实是不影响的,至于什么原理,会在后面的笔记里详细给大家说明
-
大数据笔记(三):HDFS集群搭建-伪分布式模式相关推荐
- Zookeeper集群搭建伪分布式
集群搭建 伪分布式,一台物理机 启动三个不同端口 搭建步骤 复制文件 修改配置文件 启动节点 测试连接 第一步 复制文件 将Zookeeper复制两份 第二步 修改配置文件 第一个节点 添加配置 保存 ...
- 大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化
大数据项目开发实训报告 一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...
- JAVA大数据(一)简介-Hadoop环境配置,伪分布式模式架构学习用
文章目录 1.课前资料 2.课程整体介绍 3.大数据介绍 什么是大数据? 为什么要学习大数据? 大数据相关技术 海量数据存储 海量数据清洗 海量数据处理 4.集群环境准备 4.1准备虚拟机 4.2修改 ...
- 数据仓库搭建1-Virtual-box虚拟机集群搭建
数据仓库搭建1-Virtual-box虚拟机集群搭建 前言 Virtual-box遇到的问题 虚拟机安装 虚拟机网络配置 安装必要的软件 前言 我的电脑内存16G,尽量大一点吧,太小的话会在使用的时候 ...
- 【大数据数仓项目集群配置 一】
本文用于记录我的第一次内网大数据集群配置过程. 本篇主要实现基础配置. 配置使用的软件版本和脚本参考自尚硅谷,链接如下: 链接: https://www.bilibili.com/video/BV1r ...
- Redis 主从集群搭建及哨兵模式配置
Redis 主从集群搭建及哨兵模式配置 最近搭建了redis集群及哨兵模式,为方便以后查看特此记录下来: 1.Redis安装 2.主从架构 2.1 Redis主从架构图 2.2Redis主从结构搭建 ...
- MySQL集群搭建--多主模式
MySQL集群搭建--多主模式 本文使用的是Galera搭建的MYSQL集群,实现的是每个MYSQL都是主服务器,不存在主从之分. 环境: 三台mysql5.7服务器. 安装mysql集群: 安装前准 ...
- 大数据 -- zookeeper和kafka集群环境搭建
一 运行环境 从阿里云申请三台云服务器,这里我使用了两个不同的阿里云账号去申请云服务器.我们配置三台主机名分别为zy1,zy2,zy3. 我们通过阿里云可以获取主机的公网ip地址,如下: 通过secu ...
- Redis三主三从集群搭建(三台机器)
介绍 redis三种模式 一.主从模式 Redis虽然读取写入的速度都特别快,但是也会产生读压力特别大的情况.为了分担读压力,Redis支持主从复制,Redis的主从结构可以采用一主多从或者级联结构. ...
- 联通大数据5000台规模集群故障自愈实践
本文转载自dbaplus社群 作者介绍 余澈,中国联通大数据技术部平台组核心技术负责人,项目管理高级工程师,具有多年大数据平台运维管理及开发优化经验.管理过多个上千节点集群,擅长对外多租户平台的维护开 ...
最新文章
- java major version: 51,Unsupported major.minor version 51.0的原因与解决办法
- 2020 年最全 Python 面试题汇总 (二)
- php gtk中文介绍,PHP-GTK介绍及其应用_PHP教程
- PostgreSQL学习笔记2之模式
- React Native 从入门到原理
- Swift与Objective-C混编时,我们是如何将编译时间优化了35%?
- LKT系列加密芯片如何预置openssl生成的rsa密钥完成运算(三)
- c# 服务器打印word文档,C#中5步完成word文档打印的方法
- 如何为人员办理离职停保
- 【QT】自定义Toast消息提示
- 用Far制作chm的简易教程
- 哒螨灵使用注意事项_哒螨灵的基础知识
- 创建oracle数据库到达梦数据库的dblink
- 常微分方程的差分方法C语言,常微分方程差分方法.ppt
- buuctf————findkey
- 推荐系统之NFM原理与实现学习
- vulnhub THE PLANETS: EARTH
- 私域流量运营的工作内容有哪些,SCRM系统能做什么?
- 找不到com.sun.beans.introspect.PropertyInfo的类文件问题
- python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别
热门文章
- 什么是饱和失真?什么是截止失真?
- 建筑装饰毕业论文题目
- 分析系统业务流程和绘制系统业务流程图
- c 语言 输入一个英文字母,判断该字母是大写还是小写,c语言从键盘输入一个字符,判断该字符是大写英文字母.小写英文字母还是数字....
- Latex排版技巧:上下方可输入文字的箭头
- Latex 箭头上面写字母
- 20款优秀的免费代码编辑器
- 重新安装的keil需要的设置-字体颜色固件库中文显示
- Beamer中数学符号字体
- android os for pc,凤凰OS For PC:抢鲜体验,升级Android 7.1
- Zookeeper集群搭建伪分布式