@[TOC]Hadoop

一、Hadoop是什么?

(1) Hadoop是一个分布式系统基础架构
(2) Hadoop主要解决海量数据的存储和海量数据的分析问题
(3) Hadoop可以指一个更广泛的概念——Hadoop生态圈

二、Hadoop的优势

(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素出现故障,也不会导致数据的丢失。
(2)高扩展性:在集群间分布任务数据,可以方便的扩展数以千计的节点
(3)高效性:在MapRfeduce的思想下,Hadoop是并行工作的,以加快任务的处理速度。
(4)高容错性:能够在后台自动将失败的任务重新进行分配。

三、Hadoop的组成(3.x)

MapReduce(计算)、Yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)

四、HDFS架构概述

HDFS,是一个分布式文件系统。
(1) NomeNode(简称nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
(2) DataNode(dn):在本地文件系统存储数据块数据,以及数据块的校验和。
(3) Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

五、YARN架构概述

YARN,另一种资源协调者,是Hadoop的资源管理器。
(1) ResourceManager(RM):整个集群资源(内存、CPU等)的老大。
(2) NodeManager(NM):整个节点服务器资源的老大。
(3) ApplicationMaster(AM):单个任务运行的老大。
(4) Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。
注意:(1)客户端可以有多个
(2)集群上可以运行多个ApplicationMaster
(3)每个NodeManager上可以有多个Container

六、MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce。
(1)Map阶段并行处理事务
(2)Reduce阶段对Map结果进行汇总

七、 大数据生态体系

八、创建虚拟机

1.创建一个新的虚拟机
方法一:

方法二:右键“库”界面,点击新建虚拟机。

2.选择自定义,点击下一步。

3.不做任何处理,点击下一步


4.选择稍后安装操作系统,然后点击下一步

5.客户机操作系统选择选择Linux,版本选择CentOS 7 64位。然后点击下一步。

6. 更改虚拟机的名称,选择安装位置,然后点击下一步。

7.保持默认状态即可,点击下一步

8. 保持默认状态即可,点击下一步

9.一定要选择使用网络地址转换(NAT),然后点击下一步

10.保持默认即可

11.保持默认即可,点击下一步

12.选择创建新的虚拟磁盘,然后点击下一步

13.磁盘大小设置为20GB即可,如果是以后有更多用处的,可以多设置一些,然后选择将虚拟磁盘存储为单个文件。点击下一步

14.给磁盘文件命名,默认即可,点击下一步

15.点击自定义硬件

16.点击新 CD/DVD,选择使用ISO映像文件,然后点击右侧的浏览,将下载好的ISO映像文件的路径选入,最后点击关闭即可。

17.点击完成

18.选择中文,点击继续

19. 进入页面

20.点击安装源,进入其页面后不需要做任何处理 ,直接点击左上角完成即可

21.选择软件安装,进入其页面后选择带GUI的服务器,然后点击左上角完成

22.选择安装目标位置,进入其界面后不做任何处理,点击左上角完成

23.点击网络和主机名,打开以太网,然后点击左上角完成

24.点击开始安装

25.设置root用户密码,并创建用户

26.点击接受许可证,然后完成配置

27.第一次登陆最好使用root用户,点击未列出,然后输入用户名root,然后输入密码,即可登录

28.一直点击跳过,然后点击开始使用即可

九、设置静态、更改主机名、设置主机映射

1.点击编辑,虚拟网络编辑器。

2.选择VMnet8,点击更改设置,给予管理员权限

3.选择VMnet8,选择NET模式,进入NET设置

4.记住这三项内容

5.通过 控制面板->网络和Internet->网络连接,来到如下界面,右键VMnet8,点击属性。

6.双击进入IPv4

7.箭头所指的需相同,圈中所指 可任意更改,常改为1,然后点击确定

8.打开终端,输入

vim /etc/sysconfig/network-scripts/ifcfg-ens33


9.按键a,进入输入模式,更改一下内容,IP状态、IP地址、网关、域名解释器。然后按键ESC,退出编辑模式,最后输入:wq!进行保存。
在这里插入图片描述

10.打开终端,输入vim /etc/hostname更改主机名


11.输入 vim /etc/hosts设置主机映射,因为后面还需要克隆虚拟机,所以这里我们多设置几台。


12.输入reboot,进行虚拟机重启

13. 打开终端,查看主机名

14.输入ifconfig,查看IP地址

15.输入ping www.baidu.com,如下图所示,既为成功。ctrl+C停止

十、克隆虚拟机的准备工作

1.输入yum install -y epel-release,用以安装rmp包,显示如下,既为成功


2. 关闭防火墙,输入

systemctl stop firewalld和systemctl disable firewalld.service


检查防火墙状态:systemctl status firewalld.service
3.给sqy用户赋予权限输入vim /etc/sudoers

找到如下位置,添加sqy ALL=(ALL) NOPASSWD:ALL

4.切换到sqy用户,输入 su sqy,进入opt目录。

5.尝试删除文件夹,输入 rm -rf rh/,权限不够,输入 sudo rm -rf rh/,成功删除

6.创建文件夹module、software,并设置权限

7.卸载虚拟机自带的JDK,需要切换到root用户
查看JDK,输入 rpm -qa | grep -i java

删除JDK,输入 rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

8.重启虚拟机

十一、克隆虚拟机

1.右键hadoop200,选择管理,选择克隆

2. 选择下一页

3. 选择虚拟机当前状态,选择下一页

4. 选择创建完整克隆,选择下一页

5. 设置虚拟机名称,位置,选择完成

6. 同样操作,共克隆三台

十二、克隆机基础设置

三台机器均执行以下操作
1.输入 vim /etc/sysconfig/network-scripts/ifcfg-ens33
只需修改IP地址即可,IP地址不可重复


2. 输入 vim /etc/hostname,修改主机名:


3. 输入 vim /etc/hosts,查看主机映射

4. 输入 reboot,进行重启

5. 输入ifconfig,查看IP地址

6. 输入 ping www.baidu.com ,验证网络是否连接

7. 输入 hostname,验证主机名是否修改成功

十三、JDK安装

自行安装,使用Xftp将压缩包从主机传输到虚拟机,保存在先前我们创建的文件夹software中
1. 解压JDK安装包

2.查看JDK

3. 配置环境变量
输入 sudo vim /my_env.sh,新建文本

在该新建文本中输入

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin


输入 source /etc/profile,让修改生效

4. 分别输入java、javac、java -version,没有报错,既为JDK配置成功

十四、hadoop安装

自行安装,使用Xftp将压缩包从主机传输到虚拟机,保存在先前我们创建的文件夹software中
1.解压hadoop安装包

2.查看hadoop,并复制hadoop所在位置的路径

3.输入 sudo vim /etc/profile.d/my_env.sh

在该文本中输入

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin


输入 source /etc/profile,让修改生效

Hadoop零基础入门相关推荐

  1. 基于hadoop的商品推荐系统_[零基础入门推荐系统(1)]基于用户和基于物品的协同过滤方法(python代码实现)...

    1. 前言: 为什么会有该系列? 最近,打算写<零基础入门推荐系统>系列,为了系统地介绍推荐系统知识,以及加强基础的实践能力. 该系列将结合一些书籍,比如项亮的<推荐系统实践> ...

  2. 学习大数据分析要什么基础,零基础入门ok吗?

    CDA数据分析师原创作品 身处21世纪的今天,数据分析行业急剧发展,越来越多的企业已经意识到大数据分析的重要性和发展潜力,同时越来越多的传统行业公司开始转型升级,开始引入并发展专属自己的大数据分析部门 ...

  3. python 二进制流转图片_Python零基础入门到精通-5.1节:Python程序的执行过程

    教程引言: 系统地讲解计算机基础知识,Python的基础知识, 高级知识,web开发框架,爬虫开发,数据结构与算法,nginx, 系统架构.一步步地帮助你从入门到就业. 5.1.1 在命令行中执行Py ...

  4. 【JAVA零基础入门系列】Day2 Java集成开发环境IDEA

    [JAVA零基础入门系列](已完结)导航目录 Day1 开发环境搭建 Day2 Java集成开发环境IDEA Day3 Java基本数据类型 Day4 变量与常量 Day5 Java中的运算符 Day ...

  5. 零基础入门jQuery视频教程

    零基础入门jQuery最新版开发.NET富客户端应用(选择器.DOM操作.事件和动画.Ajax应用.插件.Mobile) 课程分类:.NET+Jquery 适合人群:初级 课时数量:35课时 用到技术 ...

  6. 【组队学习】【24期】零基础入门语音识别(食物声音识别)

    零基础入门语音识别(食物声音识别) 开源内容: https://github.com/datawhalechina/team-learning-nlp/tree/master/FoodVoiceRec ...

  7. 【组队学习】【23期】Datawhale零基础入门数据挖掘(心跳信号分类)

    零基础入门数据挖掘(心跳信号分类) 开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/Heart ...

  8. 零基础入门CV赛事,理论结合实践

    Datawhale干货 作者:阿水,Datawhale成员 本次分享的背景是,Datawhle联合天池发布的学习赛:零基础入门CV赛事之街景字符识别.本文以该比赛为例,对计算机视觉赛事中,赛事理解和B ...

  9. 「建模调参」之零基础入门数据挖掘

    Datawhale 作者:徐韬 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型:如何进行交叉验证:如何调节参数优化等. 建模调参: ...

最新文章

  1. Stm32学了好久了,为什么做项目还是力不从心?
  2. Ubuntu安装搜狗输入法
  3. 天锐绿盾解密_天锐绿盾携手衡阳规划设计院 实现信息系统安全管理
  4. 剑指offer之用链表实现栈(带头节点)
  5. 关于在asp.net中播放MP4格式的视频(好吧,只兼容支持html5的浏览器,ie8及以下的都歇菜了)...
  6. background-origin:规定 background-position 属性相对于什么位置来定位
  7. 4广联达4代锁安装6.0_Aspen Plus 8.4 软件安装教程
  8. Linux 正则表达式 流编辑之sed awk
  9. 查理.芒格,谈投资的秘密
  10. 2007年IT技术走向何方 网络将再掀“酷”革命
  11. Web系统大规模并发-电商秒杀与抢购
  12. 随机数C语言 (就做个笔记储存一下)
  13. mysql中使用order by 排序时使用if()函数应用场景。
  14. 《Matrix Nets:A New Deep Architecture for Object Detection》论文笔记
  15. 关于特修斯之船(转自知乎)
  16. BZOJ 4946: [Noi2017]蔬菜 模拟费用流
  17. 实体链接在OPPO小布助手和OGraph的实践应用
  18. i9 10900K比9900K性能提升了多少?i9-10900K和i9-9900K区别对比评测 更多详情咨询世通兰陵王
  19. 我,单身沪漂,想有只猫
  20. Mapreduce 跑的慢的原因

热门文章

  1. Python 判断哪年哪月有几天
  2. 从番茄花园想到的。。。。
  3. 分布式存储系统etcd初探
  4. form action表单提交
  5. 正确认识不宁腿,固元益腿汤让你不再担心不宁腿的可怕
  6. java之继承,封装,多肽
  7. Spring 配置文件applicationContext.xml
  8. conan使用包以及管理(2)
  9. Abbkine β-Tubulin小鼠单克隆抗体解决方案
  10. 你了解Google Calendar吗?