SparkStreaming的ck

一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 Checkpoint 足够多信息至一个具有容错设计的存储系统才能让Driver 从失败中恢复。Spark Streaming 会 Checkpoint 两种类型的数据。

Metadata（元数据） Checkpointing - 保存定义了 Streaming 计算逻辑至类似 HDFS 的支持容错的存储系统。用来恢复 Driver，元数据包括：

配置 —— 用于创建该 streaming application 的所有配置；
DStream 操作 —— DStream 一系列的操作；
未完成的 batches —— 那些提交了 job 但尚未执行或未完成的 batches。

Data（数据） Checkpointing - 保存已生成的RDD至可靠的存储。这在某些 stateful 转换中是需要的，在这种转换中，生成 RDD 需要依赖前面的 batches，会导致依赖链随着时间而变长。为了避免这种没有尽头的变长，要定期将中间生成的 RDDs 保存到可靠存储来切断依赖链。

总之，Metadata Checkpointing 主要用来恢复 Driver； Data Checkpointing 对于stateful 转换操作是必要的。

什么时候该启用 Checkpoint 呢？

满足以下任一条件：

使用了有状态的transformation操作——比如updateStateByKey（强制），或者reduceByKeyAndWindow操作（非强制），被使用了，那么Checkpoint目录要求是必须提供的，也就是必须开启Checkpoint机制，从而进行周期性的RDD Checkpoint；
希望能从意外中恢复 Driver。

如果 streaming app 没有 stateful 操作，也允许 driver 挂掉后再次重启的进度丢失，就没有启用 Checkpoint的必要了。

Checkpoint间隔设置

Checkpoint的时间间隔设置方法如下：

dstream.checkpoint(checkpointInterval)

Checkpoint时间间隔设置原则：一般设置为batch时间间隔的5-10倍。

Checkpoint会增加存储开销、增加批次处理时间。当批次间隔较小（如1秒）时，checkpoint可能会减小operation吞吐量；反之，checkpoint时间间隔较大会导致lineage和task数量增长。

SparkStreaming的ck相关推荐

大数据技术之Spark(三) SparkStreaming
文章目录第1章 SparkStreaming 概述 1.1 Spark Streaming 是什么? 1.2 为什么要学习Spark Streaming(特点) 1.3 Spark Streamin ...
【大数据开发】SparkStreaming——DStream输入源、原语、SparkStream与Kafka和Redis三者的交互
设置SparkConf的时候不能设置为local,会报错,应当设置成local[N],N>1.这是因为需要一个核接收数据,另一个核处理数据,如果只分配一个线程处理,这个线程会被用来接收数据,就没 ...
D32 SparkStreaming
一.SparkStreaming概述 Spark Streaming类似于Apache Storm,用于流式数据的处理.根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点. ...
2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用
目录整合Kafka 0-10-开发使用原理 1.Direct方式 2.简单的并行度1 : 1 API 注意代码实现-自动提交偏移量到默认主题代码实现- ...
2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明
目录 Kafka快速回顾消息队列: 发布/订阅模式: Kafka 重要概念: 常用命令整合说明两种方式两个版本API 在实际项目中,无论使用Storm还是SparkStreaming与Flin ...
2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD
目录 SparkStreaming实战案例六自定义输出-foreachRDD 需求注意: 代码实现 SparkStreaming实战案例六自定义输出-foreachRDD 需求对上述案例的结果 ...
2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数
目录 SparkStreaming实战案例四窗口函数需求代码实现 SparkStreaming实战案例四窗口函数需求使用窗口计算: 每隔5s(滑动间隔)计算最近10s(窗口长度)的数据! ...
2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey
目录 SparkStreaming实战案例二 UpdateStateByKey 需求 1.updateStateByKey 2.mapWithState 代码实现 SparkStreaming实战案例 ...
2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount
目录 SparkStreaming实战案例一 WordCount 需求准备工作代码实现第一种方式:构建SparkConf对象第二种方式:构建SparkContext对象完整代码如下所示: 应 ...

SparkStreaming的ck

SparkStreaming的ck相关推荐

最新文章

热门文章