admin管理员组文章数量:1618723
文章目录
- 一、问题描述
- 二、解决步骤
- 1、检查checkpoint的设置
- 2、检查处理逻辑
- 3、问题复盘
- 三、解决方案
一、问题描述
超过了检查点可容忍的故障阈值
二、解决步骤
1、检查checkpoint的设置
明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:
// 每 ** ms 开始一次 checkpoint
env.enableCheckpointing(10*1000);
// 设置模式为精确一次 (这是默认值)
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
// 确认 checkpoints 之间的时间会进行 ** ms
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
// Checkpoint 必须在一分钟内完成,否则就会被抛弃
env.getCheckpointConfig().setCheckpointTimeout(60000);
// 同一时间只允许一个 checkpoint 进行
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
// 开启在 job 中止后仍然保留的 externalized checkpoints
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
// 允许在有更近 savepoint 时回退到 checkpoint
env.getCheckpointConfig().setPreferCheckpointForRecovery(true);
尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。
2、检查处理逻辑
发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败
打印维度关联超时的数据:
3、问题复盘
问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。
三、解决方案
hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。
本文标签: exceededCheckPointFlinkthreshold
版权声明:本文标题:Flink CheckPoint : Exceeded checkpoint tolerable failure threshold 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1728784056a1173095.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论