连续几天夜里加餐,让我想起了新兵连的夜训,在你成为合格战士之前,你必须经历新兵连的过程,,,,其实每个行业都有一个属于它自己的新兵连,不经历此处的磨练,你难以在这个行业立足,我承认先天的资本,但我更相信后天的努力,也许有的人奋斗一生都没有达到他人的起点,我为他人荒废人生而感到可耻,为此人奋斗一生而感到幸福,我们即使渺小,我也要努力绽放,苔花如米小,也学牡丹开!
————————————————前言:送给在所有岗位上努力拼搏的你
1.入门
HDFS 存储
MapReduce 计算
Spark Flink
Yarn 资源作业调度

伪分布式部署
要求 环境配置文件 参数文件 ssh无密码 启动

jps命令
[hadoop@hadoop002 ~]$ jps
28288 NameNode NN
27120 Jps
28410 DataNode DN
28575 SecondaryNameNode SNN

1.MapReduce job on Yarn
[hadoop@hadoop002 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop002 hadoop]$

Configure parameters as follows:
etc/hadoop/mapred-site.xml:

mapreduce.framework.name yarn etc/hadoop/yarn-site.xml: yarn.nodemanager.aux-services mapreduce_shuffle Start ResourceManager daemon and NodeManager daemon: $ sbin/start-yarn.sh

open web:------------

3.运行MR JOB
Linux 文件存储系统 mkdir ls
HDFS 分布式文件存储系统
-format
hdfs dfs -???

Make the HDFS directories required to execute MapReduce jobs:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/
Copy the input files into the distributed filesystem:
$ bin/hdfs dfs -put etc/hadoop input
Run some of the examples provided:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar grep input output ‘dfs[a-z.]+’
Examine the output files:
Copy the output files from the distributed filesystem to the local filesystem and examine them:

$ bin/hdfs dfs -get output output
$ cat output/*
or

View the output files on the distributed filesystem:

$ bin/hdfs dfs -cat output/*


bin/hdfs dfs -mkdir /user/hadoop/input
bin/hdfs dfs -put etc/hadoop/core-site.xml /user/hadoop/input

bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar
grep
/user/hadoop/input
/user/hadoop/output
‘fs[a-z.]+’

4.HDFS三个进程启动以hadoop002启动
NN: core-site.xml fs.defaultFS参数
DN: slaves
SNN:

dfs.namenode.secondary.http-address hadoop001:50090 dfs.namenode.secondary.https-address hadoop001:50091

5.jps
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ jps
16188 DataNode
16379 SecondaryNameNode
16566 Jps
16094 NameNode
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$

5.1 位置
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ which jps
/usr/java/jdk1.7.0_80/bin/jps
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$

5.2 其他用户
[root@hadoop002 ~]# jps
16188 – process information unavailable
16607 Jps
16379 – process information unavailable
16094 – process information unavailable
[root@hadoop002 ~]#

[root@hadoop002 ~]# useradd jepson
[root@hadoop002 ~]# su - jepson
[jepson@hadoop002 ~]$ jps
16664 Jps
[jepson@hadoop002 ~]$

process information unavailable
真正可用的

[root@hadoop002 ~]# kill -9 16094
[root@hadoop002 ~]#
[root@hadoop002 ~]# jps
16188 – process information unavailable
16379 – process information unavailable
16702 Jps
16094 – process information unavailable
[root@hadoop002 ~]#
[root@hadoop002 ~]# ps -ef|grep 16094
root 16722 16590 0 22:19 pts/4 00:00:00 grep 16094
[root@hadoop002 ~]#
process information unavailable
真正不可用的

正确的做法: process information unavailable
1.找到进程号 pid
2.ps -ef|grep pid 是否存在
3.假如存在,
第二步是可以知道哪个用户运行这个进程,
su - 用户,进去查看

假如删除rm -f /tmp/hsperfdata_${user}/pid文件
进程不挂,但是jps命令不显示了,所依赖的脚本都会有问题

4.假如不存在,怎样清空残留信息
rm -f /tmp/hsperfdata_${user}/pid文件

6.补充命令
ssh root@ip -p 22
ssh root IP地址 date

rz sz

两个Linux系统怎样传输呢?
hadoop000–>hadoop002
[ruoze@hadoop000 ~]$ scp test.log root IP地址:/tmp/
将当前的Linux系统文件 scp到 远程的机器上

hadoop000<–hadoop002
[ruoze@hadoop002 ~]$ scp test.log root@hadoop000:/tmp/

但是 hadoop002属于生产机器 你不可登陆
scp root IP地址:/tmp/test.log /tmp/rz.log

但是: 生产上 绝对不可能给你密码

ssh多台机器互相信任关系

坑:
scp 传输 pub文件
/etc/hosts文件里面配置多台机器的ip和name

这里是新兵连,这里是教导队,这里是集训队,这里是你开始脱变的起点,从不拒绝,从不害怕每一次磨砺的过程,因为这个过程会让你知道,兵到兵王有多大的差距,过程不好受,舒服的话早就烂大街,他也失去了它应有的价值!
————————————————结束语:送给各行各业努力向兵王奋斗的你

【大数据入门二——yarn和mapreduce】相关推荐

  1. 大数据入门(五)-分布式计算框架MapReduce

    1 概述 源自于Google的MapReduce论文,发表于2004年12月. Hadoop MapReduce是Google MapReduce的克隆版 优点 海量数量离线处理 易开发 易运行 缺点 ...

  2. 【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程

    [大数据入门笔记系列]第六节 分布式计算框架MapReduce的工作流程 前言 MapReduce分布式运算 MapReduceApplication MapTask ReduceTask split ...

  3. 女友问粉丝过万如何庆祝,我发万字长文《保姆级大数据入门篇》感恩粉丝们支持,学姐|学妹|学弟|小白看了就懂

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 粉丝破万了 新星计划申 ...

  4. 大数据入门概念及应用场景

    参考内容: [知乎]深入浅出大数据:到底什么是Hadoop? [知乎]五万字 | Hive知识体系保姆级教程​ 大数据入门概念及应用场景 一.入门概念 1.1 大数据的4V 1.2 大数据处理的最佳工 ...

  5. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

  6. 大数据技术之Hadoop(MapReduce)

    大数据技术之Hadoop(MapReduce) (作者:大数据研发部) 版本:V1.4 第1章MapReduce入门 map 计算 reduce 规约 1.1 MapReduce定义 Mapreduc ...

  7. 大数据入门培训之大数据开发基础知识学习

    在目前相信大多数IT开发人员对于人工智能+大数据并不陌生,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解,带大家来学习了解一下 ...

  8. 大数据入门学习之环境搭建

    一:环境搭建:VM.CentOS7安装及网络配置 大数据入门首先需要搭建环境,接下来的三篇文章均是环境搭建部分的内容. 首先我们要安装虚拟机及linux系统 一.安装虚拟机VM 官网下载VM虚拟机:这 ...

  9. 大数据入门简介(一)了解大数据

    大数据入门简介(一) 首先我们先想想为什么会大数据,或者说它能干什么? 与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗.下面我们就围绕这个大 ...

最新文章

  1. 华为搜索引擎面世:用不了谷歌,试试「花瓣搜索」?
  2. GAN最新进展:8大技巧提高稳定性
  3. LeetCode - 15. 3Sum
  4. Windows cmd 快捷操作
  5. IntelliJ IDEA的几种常见的快捷键
  6. 第三方工具生成密钥对连接GCP服务器(putty生成密钥远程连接服务器)
  7. 动态sql语句返回值
  8. unity调用dll打开双目
  9. maya藤蔓插件_用maya制作藤蔓蔓延的效果
  10. [算法导论] 邮递员问题代码c++实现,Floyd算法+dp,求遍历所有边回到起点的最短路径
  11. word||标题序号和标题内容间隔很大
  12. 润乾报表学习一:制作最简单的报表
  13. Windows 系统优化大全(完整)
  14. 基于live555的视频直播
  15. 【图像加密】DNA混沌系统图像加密【含Matlab源码 1190期】
  16. 图片放大出现锯齿问题
  17. 20万粉丝的技术大V是怎样练成的——胡忠想访谈
  18. 基于JAVA的房地产销售系统设计与实现-计算机毕业设计源码+LW文档
  19. 51单片机实现跑马灯
  20. Cadence OrCAD 原理图快捷键详解

热门文章

  1. JQuery筛选器全系列介绍
  2. 通过调用外部exe的方法实现c#调用java
  3. sql语句之查询操作
  4. CentOS搭建Git服务器
  5. 从pandas到geopandas
  6. java jmx 监控tomcat_jmx监控之Tomcat
  7. python requests库详解_python爬虫之路(一)-----requests库详解
  8. 如何设置硬盘安装linux,linux用硬盘安装时所设置选项
  9. C++_012C++11的语法新特性
  10. 为热门项目 若依(ruoyi) 添加flyway,自动管理数据库版本