Flink1.8 on yarn 环境搭建及使用
一、下载 flink包
官网下载flink-1.8.1-bin-scala_2.11.tgz,然后解压
下载地址 https://flink.apache.org/downloads.html 或 https://www.apache.org/dyn/closer.lua/flink/
二、下载 hadoop依赖包
官网下载flink-shaded-hadoop-2-uber-2.8.3-7.0.jar
拷贝到${flink_home}/lib/目录下
下载地址 https://flink.apache.org/downloads.html
三、提交任务到yarn
方式一:独立的Job
cd ${flink_home}/bin
flink run -m yarn-cluster -yn 1 -p 2 -yjm 1024 -ytm 1024 -ynm FlinkOnYarnSession -d -c com.gjm.Test /home/test.jar
说明:
- -c 类名
- /home/test.jar 包名
- -yn TaskManager的数量,已作废使用了
- -p 并发数,也就是使用的槽数
- -yjm JobManager的内存大小
- -ytm 每个TaskManager的内存大小
- -ynm Yarn Application显示的任务名称
方法二:共用的yarn-session
(1)启动集群
cd ${flink_home}/bin
./start-cluster.sh
(2)启动yarn-session
./yarn-session.sh -n 2 -jm 1024 -tm 2048 -s 2 -nm FlinkOnYarnSession -d
说明:
- -n TaskManager的数量
- -jm JobManager的内存大小
- -tm 每个TaskManager的内存大小
- -s 每个TM的槽数
(3)提交任务
flink run -p 2 -c com.gjm.Test /home/test.jar
说明:
- -p 并发数,也就是使用的槽数
四、停止任务
方式一:推荐
(1)获取ApplicationId
yarn application -list
(2)获取JobId
flink list -yid ${ApplicationId}
(3)停止任务
flink cancel ${JobId} -yid ${ApplicationId}
方式二:强制停止
(1)获取ApplicationId
yarn application -list
(2)强制停止
yarn application -kill ${ApplicationId}
五、总结
- 两种提交方式的区别
- 共用的yarn-session
(1)在yarn中初始化一个flink集群,开辟指定的资源,以后提交任务都向这里提交。这个flink集群会常驻在yarn集群中,除非手工停止。经实验发现,实际任务使用的资源,可以超过yarn-session申请开辟的内存资源,也就是说yarn-session申请的参数参数,似乎与后续任务实际申请的资源没什么关系??
(2)共享Dispatcher和Resource Manager,这里的RM是Flink的RM,不是Yarn的RM。
(3)共享资源,即TaskExecutor。
(4)适合规模小,执行时间短的作业。
- 独立的Job
(1)每次提交都会创建一个新的flink集群,任务之间互相独立,互不影响,方便管理。任务执行完成之后创建的集群也会消失。
(2)独享Dispatcher和Resource Manager,这里的RM是Flink的RM,不是Yarn的RM。
(3)TaskExecutor 按需要申请资源。
(4)适合执行时间较长的大作业。
【一起学习】
Flink1.8 on yarn 环境搭建及使用相关推荐
- Spark on Yarn环境搭建
1,解压缩spark安装文件 tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module 2,修改spark目录名称 mv spark-3.0.0-b ...
- Spark On YARN 环境搭建
1.确保前边的环境都是否配置成功 搭建环境之前先确定自己的环境是否做好 1.jdk 1.8版本 2.HDFS MapReduce Hadoop 3.2.1 + 3.zookeeper 4.python ...
- YARN环境搭建 之 一:CentOS7.0系统配置
一.我缘何选择CentOS7.0 14年7月7日17:39:42发布了CentOS 7.0.1406正式版,我曾使用过多款Linux,对于Hadoop2.X/YARN的环境配置缘何选择CentOS7. ...
- Hadoop详解(七):YARYN完全分布式环境搭建
1. 前言 本文搭建了一个由三节点(master.slave1.slave2)构成的Hadoop完全分布式集群,并通过Hadoop分布式计算的一个示例测试集群的正确性.本文将搭建一个支持Yarn的完全 ...
- Spark Standalone -- 独立集群模式、Spark 提交任务的两种模式、spark在yarn上运行的环境搭建、自己写的spark代码如何提交到yarn上并运行...
目录 Spark Standalone -- 独立集群模式 Standalone 架构图 Standalone 的搭建 1.上传.解压.重命名 2.配置环境变量 3.修改配置文件 conf 4.同步到 ...
- Flink教程(03)- Flink环境搭建
文章目录 01 引言 02 Local本地单机模式 2.1 工作原理 2.2 安装部署 2.3 测试验证 03 Standalone独立集群模式 3.1 工作原理 3.2 安装部署 3.3 测试验证 ...
- 小知识点:ARM 架构 Linux 大数据集群基础环境搭建(Hadoop、MySQL、Hive、Spark、Flink、ZK、Kafka、Nginx、Node)
换了 M2 芯片的 Mac,以前 x86 版本的 Linux 大数据集群基础环境搭建在 ARM 架构的虚拟机集群上有些用不了了,现在重新写一份基于 ARM 架构的,少数不兼容之外其他都差不多,相当 ...
- 2021年大数据环境搭建(二):分布式环境搭建
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 分布式环境搭建 集群规 ...
- 2021年大数据Spark(六):环境搭建集群模式 Standalone
目录 环境搭建-Standalone 前言 Standalone 架构 集群规划 修改配置并分发 修改slaves 分发到其他机器 修改spark-env.sh 集群启动和 ...
最新文章
- 生成对抗网络是什么?
- 软件测试面试题-如何测试复制粘贴功能
- python项目设计-Python:实际项目中抽象出的小项目设计
- java知识博客网站(一些配置和学习的记录)
- shell基础09 gawk程序(上)
- Graph_Master(连通分量_Poj_1904)
- linux查看tomcat启动内存溢出,Linux下 Tomcat内存溢出
- rabbitmq docker
- [Tools 之]online bookmark 在线书签
- 折腾一台准系统及i5 6600t简单测评
- stc51单片机串口通信程序
- C++虚函数指针虚函数表
- 用了三星Dex,我已经快一个月回家没开过电脑了
- 内网端口映射软件之80端口映射发布网站
- 以太坊Ghost协议
- java espresso_java – 带有片段的Android Espresso功能测试
- 在国产处理器服务器上配置DNS 轮询,实现多台服务器务负载分担.
- Ubuntu14.04虚拟机下基本操作(typical安装)
- 大华摄像头录像视频,可以使用PotPlayer剪切
- 小型软件团队该如何分工(转)