文章目录

  • 一、问题描述
  • 二、解决步骤
    • 1、检查checkpoint的设置
    • 2、检查处理逻辑
    • 3、问题复盘
  • 三、解决方案

一、问题描述

超过了检查点可容忍的故障阈值

二、解决步骤

1、检查checkpoint的设置

明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:

     // 每 ** ms 开始一次 checkpointenv.enableCheckpointing(10*1000);// 设置模式为精确一次 (这是默认值)env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);// 确认 checkpoints 之间的时间会进行 ** msenv.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);// Checkpoint 必须在一分钟内完成,否则就会被抛弃env.getCheckpointConfig().setCheckpointTimeout(60000);// 同一时间只允许一个 checkpoint 进行env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);// 开启在 job 中止后仍然保留的 externalized checkpointsenv.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);// 允许在有更近 savepoint 时回退到 checkpointenv.getCheckpointConfig().setPreferCheckpointForRecovery(true);

尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉

这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。

2、检查处理逻辑


发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败

打印维度关联超时的数据:

3、问题复盘

问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。

三、解决方案

hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。

Flink CheckPoint : Exceeded checkpoint tolerable failure threshold相关推荐

  1. flink程序:Exceeded checkpoint tolerable failure threshould

    @[TOC]Exceeded checkpoint tolerable failure threshould 在写一个flink程序时报错, Exceeded checkpoint tolerable ...

  2. Flink任务失败,检查点失效:Exceeded checkpoint tolerable failure threshold.

    项目场景: 最近实时平台flink任务频繁失败,报检查点方面的错误,最近集群的hdfs也经常报警:运行状况不良,不知道是否和该情况有关,我的状态后端位置是hdfs,废话不多说,干货搞起来~ 问题描述 ...

  3. Flink报错:org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

    org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold 一.问题描述 ...

  4. flink 出现反压场景, 异常场景造成Exceeded checkpoint tolerable failure threshold.

    flink 出现反压场景,异常场景造成Exceeded checkpoint tolerable failure threshold. 监控反压情况 根据算子的InPool, OutPool 的比例, ...

  5. org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

    org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 原因 Che ...

  6. [Flink 日记]Exceeded checkpoint tolerable failure threshold.

    org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 原因 Che ...

  7. flink sql 报错:FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

    当出现这种错误时,原因一般是启动任务时,所给的资源不够. 可以调整 streamx 界面上的并行度.task的内存调大. 然后重启任务看下是否能行.

  8. 【Flink】Flink Exceeded checkpoint tolerable failure threshold

    文章目录 1.概述 2.源码 2.1 源码解析 2.2 小结 3.场景2 1.概述 Flink程序,如果单平行度运行是正常的,多并行度运行时有一个subtask的数据量很少,写kafka的数据为0,在 ...

  9. Flink报错:exceeded checkpoint tolerable failure threshould

    问题如图: 原因: 资源太小 checkpoint时间太小 数据库连接未关闭,资源未释放. 解决: 重新部署运行,正常!

  10. Exceeded checkpoint tolerable failure threshould【记一次flink上线异常】

    最近完成一个业务需求,flink程序上线之后,跑了不到一分钟就挂了,查看日志,报错如下: org.apache.flink.util.FlinkRuntimeException: Exceeded c ...

最新文章

  1. Struts result param详细设置
  2. mysql里的max怎么用_MySQL中的max()函数使用教程
  3. .NET跨平台之旅:博问站点迁移至ASP.NET Core on Linux并发布上线
  4. php object oriented,PHP学习记录之面向对象(Object-oriented programming,OOP)基础【接口、抽象类、静态方法等】...
  5. java mvc中重复提交_SpringMVC之——防止重复提交表单的方法(一)
  6. java中no1_【Java】-- 网络编程のNo.1
  7. C++程序设计基础(7)位运算
  8. F - 上升子序列-超详细注释版
  9. python爬虫微博图片,pyhton爬虫爬取微博某个用户所有微博配图
  10. MediaInfo使用简介(新版本支持HEVC)
  11. vue3.0 vuex 全局变量 存储更改
  12. YOLOv4/v5的创新点汇总!
  13. 聚合搜索V3.0泛解析泛目录站群源码 MIP自动推送 SEO功能SEO源码
  14. Pytorch问题及解决:‘lengths‘ argument should be a 1D CPU int64 tensor, but got 1D cuda:0 Long tensor
  15. 谁若97岁死,奈何桥上等3年
  16. 【SqlServer系列】表连接
  17. word 的使用(七) —— 绘图工具
  18. 第1个Qt项目:计算器
  19. 发布高性能迷你React框架anu
  20. 数值分析 第七章 常微分方程的数值解法

热门文章

  1. python判断互质_Python3 判断质数以及计算一个数字的质因数
  2. Fn按键失灵后的软件替代方案
  3. (28)部署强命名程序集到GAC
  4. 前端开发工程师需要的技能
  5. E575: viminfo: Illegal starting char in line:
  6. 小狮子荣光不复 瑞星信息去年亏损7300万元
  7. Your application has presented a UIAlertController of style UIAlertControllerStyleActionSheet.
  8. 瞎琢磨先生のJava笔记之读取SpringBoot配置文件的几种方式
  9. 衣服尺码自定义排序sql
  10. 【记录】win11安装ubuntu子系统教程