Flink 任务失败重启与恢复策略

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink 任务失败重启与恢复策略相关的知识,希望对你有一定的参考价值。

Flink版本:1.11.0

当任务失败时,Flink 需要重新启动失败的任务以及受到影响的任务,以将作业恢复到正常状态。重新启动策略和故障恢复策略用于控制任务重新启动。重新启动策略决定了是否以及何时重新启动失败/受影响的任务。故障恢复策略决定应重新启动哪些任务以恢复作业。

1. 重启策略

Flink 支持不同的重启策略,在作业没有特别指定重启策略时,使用默认的重启策略启动集群。如果在提交作业时指定了重启策略,那么此策略将覆盖集群的默认配置策略。

默认重启策略通过 Flink 的配置文件 flink-conf.yaml 进行配置。配置参数 restart-strategy 决定了采取哪种策略。如果未启用 Checkpoint,那么将使用不重启策略。如果启用了 Checkpoint,但是并没有配置重启策略,那么将使用固定间隔重启策略,其中 Integer.MAX_VALUE 是尝试重启的最大次数。

每个重启策略都有自己的一套控制其行为的参数。这些值也在配置文件中配置。下面看一下有哪些重启策略:

重启策略
固定间隔重启策略 fixeddelay, fixed-delay
失败率重启策略 failurerate, failure-rate
不重启策略 none, off, disable

除了定义一个默认的重启策略之外,还可以为每个 Flink 作业单独指定一个重启策略。可以通过以编程的方式调用 ExecutionEnvironment 上的 setRestartStrategy 方法进行配置。请注意,这也

以上是关于Flink 任务失败重启与恢复策略的主要内容,如果未能解决你的问题,请参考以下文章

Flink重启策略机制

Flink重启策略 flink出现异常重新拉起任务

从0到1Flink的成长之路(二十)-Flink 高级特性之自动重启策略和恢复

从0到1Flink的成长之路(二十)-Flink 高级特性之状态恢复和重启策略

Flink 利用 Checkpoint 实现故障恢复

Flink 系统性学习笔记系列