Hadoop是大数据的基础框架模型,处理大数据,不应只谈偏向业务环境的大数据(如超市买婴儿尿不湿同时还应该推荐啤酒的经典案例),作为解决方案经理,技术是不能缺少的,否则存在忽游的嫌疑。:)  做解决方案经理,技术+业务,个人理解,技术应占到60%,业务占到40%,说到业务其实客户比我们更懂,因此技术非常重要。前面我们讲到过大数据的环境搭建,今天我们用单台云主机(或自建vmware虚机)进行Hadoop所有组件的实际应用,再次加深大数据的技术底蕴。

一、我们搭建伪分布式的hadoop环境

所谓伪分布式,即hadoop之dfs的namenode、datanode均在一台云主机中。今天我们用ubuntu 14.04进行测试,主机配置为2cpu、2GB内存、40GB硬盘,具有弹性IP配置。

二、为便于操作,新建hadoop帐户

1、sudo useradd -m hadoop -s /bin/bash

这条命令创建hadoop帐户,并创建/home/hadoop目录,并使用/bin/bash作为Shell

2、sudo passwd hadoop

这条命令为hadoop帐户设置密码

3、sudo adduser hadoop sudo

为hadoop用户增加管理员权限,方便将来的部署

三、为便于操作,实现Master免密登陆

1、sudo apt-get update

升级系统,以便为将来的java jdk安装作准备

2、为本机生成免密码登录,为hadoop作准备

ssh localhost   登录成功后退出

cd ~/.ssh/

ssh-keygen -t rsa

cat ./id_rsa.pub>>./authorized_keys

ssh localhost   如果正常,将实现免密登陆

四、安装java环境

1、sudo apt-get install openjdk-7-jre openjdk-7-jdk  安装201M的jdk文件

2、dpkg -L openjdk-7-jdk |grep 'bin/javac' 获得java的执行路径为/usr/lib/jvm/java-7-openjdk-amd64

3、配置JAVA_HOME变量

vim ~/.bashrc

在文件最开始增加

JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

!wq后保存退出

4、使环境变量生效

source ~/.bashrc

5、java -version,如果输出版本,则正常安装

五、安装伪分布式hadoop环境

1、从http://mirrors.cnnic.cn/apache.hadoop/common中下载hadoop2.7.6.tar.gz

2、通过rz命令上传至云主机

3、安装hadoop

sudo tar -zxf hadoop-2.7.6.tar.gz -C /usr/local

cd /usr/local/

sudo mv ./hadoop-2.7.6/ ./hadoop   将文件夹名改名

sudo chown -R hadoop ./hadoop      修改文件权限为hadoop用户

4、检查hadoop版本

cd /usr/local/hadoop

./bin/hadoop version

六、配置伪分布式hadoop环境

如果是单机环境,不用配置即可使用,但单机环境无法使用hdfs功能,因此我们按照伪分布式进行配置。

1、配置core-site.xml文件

cd /usr/local/hadoop/etc/hadoop

vim core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

2、配置hdfs-site.xml文件

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/data</value>

</property>

</configuration>

3、格式化hdfs环境

cd /usr/local/hadoop

./bin/hdfs namenode -format

4、配置mapreduce的文件

vim mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

5、配置yarn的文件

vim yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

~

七、启动所有进程

./sbin/start-dfs.sh 先启动hdfs

./sbin/stop-dfs.sh 先关闭hdfs,以产生secondary进程

./sbin/start-dfs.sh   启动hadoop

./sbin/start-yarn.sh  启动yarn

./sbin/mr-jobhistory-daemon.sh start historyserver 开启历史服务器,才能在web中查看任务运行情况

八、用web界面查看dfs、mapreduce

1、http://118.121.206.238:50070  用弹性ip查看dfs

2、http://118.121.206.238:8088  用弹性ip查看mapreduce

希望以上文章能帮到您。

更多内容实时更新,请访问公众号。    

点击这里,获取最高¥1888阿里云产品通用代金券

在单台云主机搭伪分布式hadoop环境相关推荐

  1. 在虚拟机环境下,电脑间拷贝配置好的伪分布式Hadoop环境,出现namenode不能启动的问题!...

    原因:在原来的电脑上配置伪分布的时候,已经将hostname与IP绑定了,所以拷贝到别的电脑的时候,重新启动的时候就会失败,因为新的电脑的IP不见得就和原来的电脑的IP一样!因为在不同的网络中,在NA ...

  2. 使用NAT网关轻松为单台云服务器设置多个公网IP

    摘要: 背景 在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题. 具体如何操作呢,有了NAT网关这个也不是难题. 配置单云主机多公网IP功能流程 1.为ECS实例配置多块网卡. 2 ...

  3. 配置伪分布式hadoop集群(附常见配置问题)

    配置伪分布式hadoop并运行wordcount程序 ps:本教程在虚拟机和阿里云服务器上都配置成功,建议使用虚拟机(容易成功).本实验最后将运行hadoop自带的wordcount程序用以检验配置是 ...

  4. 大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

    文章目录 前言 一.创建 Ubuntu 用户 二.安装 Java 2.1.查看本地 Java 版本 2.2.验证 Java 在本地的配置情况 三.安装 ssh 服务 3.1.安装 openssh-se ...

  5. hadoop hive集群_基于伪分布式Hadoop搭建Hive平台详细教程

    一.搭建环境的前提条件 环境:Linux系统 Hadoop-2.6.0 MySQL 5.6 apache-hive-2.3.7 这里的环境不一定需要和我一样,基本版本差不多都ok的,所需安装包和压缩包 ...

  6. 基于京东云GPU云主机搭建TensorFlow深度学习环境

    TensorFlow是一个开放源代码软件库,用于进行高性能数值计算.借助其灵活的架构,用户可以轻松地将计算工作部署到多种平台(CPU.GPU.TPU)和设备(桌面设备.服务器集群.移动设备.边缘设备等 ...

  7. 《Hadoop系列》脚本开发自动化配置伪分布式Hadoop

    shell脚本配置伪分布式Hadoop 一 hadoop安装 install_hadoop.sh ## !/bin/bash## 安装jdk ./install_java.sh ##安装前的路径 IN ...

  8. 百度云主机(配置、调试环境)文件上传(快速建站,实现首页访问) - FTP篇

    百度云主机BCH实例(配置.调试环境)FTP文件上传,如何操作? 百度云虚拟主机参考文档:产品手册大全 总结步骤: 在你首次登录控制面板,系统会要求初始化您的密码,包括设定用户账号.管理密码.FTP账 ...

  9. 云主机mysql环境_云主机搭建php+mysql运行环境教程(护卫神 PHP套件)

    目前windows系统使用iis来搭建php+mysql环境的居多,由于手动配置会出现很多意想不到的错误以及安全上的问题,这里推荐的是护卫神·PHP套件,可以非常方便的搭建好php+mysql+php ...

最新文章

  1. WinForm下PictureBox和Panel控件的On_Paint事件有何区别
  2. 发光二极管原理,理解,相关计算
  3. MySQL字段类型与Java数据类型的对应关系
  4. netty 粘包的解决策略
  5. 施一公:优秀博士如何养成
  6. 炸裂!万字长文拿下HTTP!
  7. linux 开源谷歌浏览器_开发人员浏览器,Google开源版本等
  8. Redis 集群使用(2)
  9. mysql锁表与不锁表设置主从复制的方法
  10. eclipse 输入卡顿_解决eclipse卡顿
  11. 如何制作SCI论文中的Figure(二)
  12. debounce函数的实现
  13. 用python进行人脸识别
  14. 鬼话描绘形式_桥接形式
  15. 2020-11-01
  16. LimeSurvey
  17. Android Camera动态人脸识别+人脸检测基于OpenCV(无需OpenCVManager)
  18. 网站文章内容发现重复率过高的解决办法
  19. base64编码计算机网络,什么是Base64(Base64)?
  20. 手机服务器 微信QQ,玩家天价买服务器语聊开黑 小白没想明白:微信QQ难道不行?...

热门文章

  1. 随手“一片”SCI,Qiime2扩增子处理流程确定不了解一下?
  2. python启动jupyter_python – 如何在Safari中启动Jupyter Notebook?
  3. 福建省有初中电子计算机的有吗,福建省七年级上 《活动六 制作电子板报》...
  4. HP_LaserJet_M153_M154_Printer_series_20200612.EXE 固件
  5. 由还款计划表和还款历史表,生成历史每日逾期表_历史逾期情况回溯_Mysql存储过程实现
  6. Java 正序、逆序排序
  7. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
  8. 科学家打造蝙蝠机器人,未来将用于工地监工
  9. jQuery插件实现红绿蓝三原色的搭配
  10. [MATLAB学习笔记]MATLAB读取UG三维模型数据