Spark的各种运行模式虽然启动方式,运行位置,调度手段有所不同,但它们所要完成的任务基本都是一致的,就是在合适的位置安全可靠的根据用户的配置和Job的需要管理和运行Task,这里粗略的列举一下在运行调度过程中各种需要考虑的问题

  • 环境变量的传递
  • Jar包和各种依赖文件的分发
  • Task的管理和序列化等
  • 用户参数配置
  • 用户及权限控制

环境变量的传递

Spark的运行参数有很大一部分是通过环境变量来设置的,例如Executor的内存设置,Library路径等等。Local模式当然不存在环境变量的传递问题,在Cluster模式下,就需要将环境变量传递到远端JVM环境中去

SparkContext在初始化过程中 需要传递给Executor的环境变量,会在executorEnvs变量中(HashMap)中收集起来

而具体如何将这些变量设置到Executor的环境中,取决于Executor的Launch方式

在Spark Standalone模式中,这些变量被封装在org.apache.spark.deploy.Command中,交给AppClient启动远程Executor,Command经由Spark Master通过Actor再次转发给合适的Worker,Worker通过ExecutorRunner构建Java.lang.Process运行ExecutorBackend,环境变量在ExecutorRunner中传递给java.lang.ProcessBuilder.environment完成整个传递过程

在Mesos相关模式中,这些环境变量被设置到org.apache.mesos.Protos.Environment中,在通过MesosLaunch Task时交给Mesos完成分发工作

在yarn-standalone模式中,这些环境变量首先要通过Yarn Client 设置到Spark AM的运行环境中,基本就是Client类运行环境中以SPARK开头的环境变量全部设置到ContainerLaunchContext中,AM通过WorkerRunnable进一步将它们设置到运行Executor所用的ContainerLaunchContext中

Yarn-client模式与yarn-standalone模式大致相同,虽然SparkContext运行在本地,executor所需的环境变量还是通过ContainerLaunchContext经AM中转发给Executor

可以注意到,在Yarn相关模式中,并没有使用到SparkContext收集的executorEnvs,主要是因为Yarn Standalone模式下Sparkcontext本身就是在远程运行的,因此在Yarn Client中单独实现了相关代码

Jar包和各种依赖文件的分发

Spark程序的运行依赖大致分两类, 一是Spark runtime及其依赖,二是应用程序自身的额外依赖

对于Local模式而言,不存在Jar包分发的问题

对于第一类依赖

在Spark Standalone模式中,整个环境随Spark部署到各个节点中,因此也不存在runtime Jar包分发的问题

Mesos相关模式下,Mesos本身需要部署到各个节点,SparkRuntime可以和Standalone模式一样部署到各个节点中,也可以上传到Mesos可以读取的地方比如HDFS上,然后通过配置spark.executor.uri通知Mesos相关的SchedulerBackend,它们会将该URL传递给Mesos,Mesos在Launch任务时会从指定位置获取相关文件

而Spark 应用程序所额外依赖的文件,在上述模式中可以通过参数将URL传递给SparkContext,对于本地文件SparkContext将启动一个HttpServer用于其它节点读取相关文件,其它如HDFS和外部HTTP等地址上的文件则原封不动,然后这些额外依赖文件的URL在TaskSetmanager中和Task本身一起被序列化后发送给Executor,Executor再反序列化得到URL并传递给ExecutorURLClassLoader使用

在Yarn相关模式中,Runtime和程序运行所依赖的文件首先通过HDFS Client API上传到Job的.sparkStaging目录下,然后将对应的文件和URL映射关系通过containerLaunchContext.setLocalResources函数通知Yarn,Yarn的NodeManager在Launch container的时候会从指定URL处下载相关文件作为运行环境的一部分。上面的步骤对于Spark AM来说是充分的,而对于需要进一步分发到Executor的运行环境中的文件来说,AM还需要在创建Executor的Container的时候同样调用setLocalResources函数,AM是如何获得对应的文件和URL列表的呢,其实就是SparkYarn Client将这些文件的相关属性如URL,时间戳,尺寸等信息打包成字符串,通过特定的环境变量(SPARK_YARN_CACHE_XXX )传递给AM,AM再把它们从环境变量中还原成所需文件列表

Task管理和序列化

Task的运行要解决的问题不外乎就是如何以正确的顺序,有效地管理和分派任务,如何将Task及运行所需相关数据有效地发送到远端,以及收集运行结果

Task的派发源起于DAGScheduler调用TaskScheduler.submitTasks将一个Stage相关的一组Task一起提交调度。

在TaskSchedulerImpl中,这一组Task被交给一个新的TaskSetManager实例进行管理,所有的TaskSetManager经由SchedulableBuilder根据特定的调度策略进行排序,在TaskSchedulerImpl的resourceOffers函数中,当前被选择的TaskSetManager的ResourceOffer函数被调用并返回包含了序列化任务数据的TaskDescription,最后这些TaskDescription再由SchedulerBackend派发到ExecutorBackend去执行

系列化的过程中,上一节中所述App依赖文件相关属性URL等通过DataOutPutStream写出,而Task本身通过可配置的Serializer来序列化,当前可配制的Serializer包括如JavaSerializer ,KryoSerializer等

Task的运行结果在Executor端被序列化并发送回SchedulerBackend,由于受到Akka Frame Size尺寸的限制,如果运行结果数据过大,结果会存储到BlockManager中,这时候发送到SchedulerBackend的是对应数据的BlockID,TaskScheduler最终会调用TaskResultGetter在线程池中以异步的方式读取结果,TaskSetManager再根据运行结果更新任务状态(比如失败重试等)并汇报给DAGScheduler等

用户参数配置

Spark的用户参数配置途径很多,除了环境变量以外,可以通过Spark.conf文件设置,也可以通过修改系统属性设置 "spark.*"

而这些配置参数的使用环境也很多样化,有些在Sparkcontext本地使用(除了yarn-standalone模式),有些需要分发到Cluster集群中去

在SparkContext中解析和使用,比如spark.master,spark.app.names, spark.jars等等,通常用于配置SparkContext运行参数,创建Executor启动环境等

发送给Executor的参数又分两部分

一部分在ExecutorBackend初始化过程中需要使用的系统变量,会通过SparkContext在初始化过程中读取并设置到环境变量中去,在通过前面所述的方式,使用对应的底层资源调度系统设置到运行容器的环境变量中

另一部分在Executor中才使用的以"spark.*"开头的参数,则通过ExecutorBackend向SchedulerBackend的注册过程,在注册确认函数中传递给ExecutorBackend再在Executor的初始化过程中设置到SparkConf中

总体看来,这些参数配置的方式和分发途径有些不太统一,稍显混乱,大概还有改进的余地

用户及权限控制

Spark的Task在Executor中运行时,使用hadoop的UerGroupInfomation.doAs 函数将整个Task的运行环境包装起来以特定的sparkUser的身份运行。这样做的目的主要是使得Spark的task在与Hadoop交互时,使用特定的用户而不是Executor启动时所用的用户身份,这有利于在集群中区分Spark Cluster的运行用户和实际使用集群的APP用户身份,以及HDFS等权限控制

用户名在Executor中通过SPARK_USER环境变量获取

对于Local模式来说,SPARK_USER环境变量就是当前JVM环境下设定的值,当然对Local模式来说实际上也是不需要doAs的,Executor中如果SPARK_USER变量未设定或者与当前用户名一致,会跳过doAs直接执行task launch相关函数

传递用户身份的问题容易解决,比较麻烦的是身份的认证,例如将Spark运行在通过Kerberos管理权限的Hadoop集群中,这需要完成客户端的身份认证,Security 相关秘钥或Token的获取,分发,更新,失效等工作,在保证效率的同时,还要确保整个过程的安全性,目前的Spark代码对这一方面还没有完善的实现方案,但是有一些提案和Patch正在进行中。

转载于:https://www.cnblogs.com/breg/p/4792426.html

Spark internal - 多样化的运行模式 (下)相关推荐

  1. spark sql 本地调试_Spark精华问答|Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  2. Spark精华问答 | Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  3. Spark之Spark角色介绍及运行模式

    Spark之Spark角色介绍及运行模式 集群角色 运行模式 1. 集群模式 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点: Master节点主要运行集群 ...

  4. Zynq-7000 AMP运行模式下的软件切换及多版本固化运行

    Zynq平台AMP运行模式下的软件切换及多版本固化运行 1. Zynq双裸核AMP运行环境构建 1 1.1 Zynq架构概要 1 1.2 Zynq启动与配置 2 1.2.1 启动流程概述 3 1.2. ...

  5. unity3d 非运行模式下执行脚本

    using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI; ...

  6. spark的三种运行模式以及yarn-client和yarn-cluster在提交命令上的区别

    本文针对的是Spark 2.3.1 standalone:线下模式 分为standalone-client和standalone-cluster两种模式 yarn:线上模式 又分为yarn-clien ...

  7. Spark的三种运行模式

    Spark三种运行模式 1.Spark运行模式: 2.验证Spark三种模式代码 1.Spark运行模式: ①Local(也称单节点模式):常用于开发和学习 ./spark-shell - -mast ...

  8. 【spark】Spark环境搭建(运行模式)

    一.local本地模式 解压重命名 cd /export/servers tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz mv spark-2.2.0-bin-2.6. ...

  9. 【spark基础】之client模式下--conf读取外部文件

    P1 需求描述 在做spark程序开发的时候,我们经常会遇到需要从外部文件读入数据,进而在程序中进行解析.处理,比如以下场景: 1)读入要处理的数据: 2)为了不写死代码,将需要的数据以K.V的形式保 ...

  10. 为什么Locust单进程运行模式下只能用到一个处理器的能力?

    目录 1.多核CPU 2.进程和线程在多核cpu,多cpu中的运行关系 3.区分并发和并行的区别 4.线程切换 5.计算密集型 vs. IO密集型 6.异步IO 7.分布式进程 服务端性能测试工具最核 ...

最新文章

  1. python 通过路径下载文件
  2. python做直方图-python实现直方图的应用
  3. C/S框架-WebService部署图
  4. DL之AlexNet:利用卷积神经网络类AlexNet实现猫狗分类识别(图片数据增强→保存h5模型)
  5. Python基础入门:正则re.sub使用自定义替换方法
  6. 如何多次读取request请求里的数据
  7. mysql开窗函数over_oracle分析函数技术详解(配上开窗函数over())
  8. 网络渗透测试(2)——使用nmap扫描微信服务器
  9. win10+linux系统进入安全模式,Win10进入安全模式的方法
  10. 分享 上班族兼职项目——存着慢慢看很有用
  11. java弹跳小球程序_用java实现跳动的小球示例代码
  12. 含类定义的完整python程序_含是什么意思 带含字的男孩名字 用含字起名的寓意...
  13. Python教你18个高效编程的方法
  14. 莫纳什大学计算机专业研究生在哪个校区,盘点莫纳什大学2019年计算机类硕士课程...
  15. python中a除以b_Python中的除法
  16. Latex中定理、引理、证明、假设
  17. 移远EC20模块通过物理串口连接PC或者MCU,通过AT命令进行控制
  18. 大一_计算机专业_职业生涯规划书(可拷贝在自己空间)
  19. 数据结构题库知识点汇总
  20. IDL接口描述语言和COM接口COM组件

热门文章

  1. 父子进程共享内存通信的三种方法
  2. vue $slot基本用法
  3. 【BZOJ3207】花神的嘲讽计划Ⅰ Hash+主席树
  4. rsync aws ec2 pem
  5. 链队列基本运算的实现
  6. 零元学Expression Blend 4 - Chapter 9 用实例了解布局容器系列-「Canvas」
  7. SQL*Plus生成html文件
  8. Namenode主节点停止报错 Error: flush failed for required journal
  9. nis从服务器接替nis主服务器步骤
  10. W/ActivityManager( 1419): Activity is launching as a new task, so cancelling activity result.