Flink检查点(checkpoint)保存点(savepoint)的区别与联系

Posted 二十六画生的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink检查点(checkpoint)保存点(savepoint)的区别与联系相关的知识,希望对你有一定的参考价值。

最近一段时间很忙,顾不上仔细选题,写一个所有人都知道的小知识点吧。

checkpoint和savepoint是Flink为我们提供的作业快照机制,它们都包含有作业状态的持久化副本。官方文档这样描述checkpoint:

Checkpoints make state in Flink fault tolerant by allowing state and the corresponding stream positions to be recovered, thereby giving the application the same semantics as a failure-free execution.

而对savepoint的描述是:

A Savepoint is a consistent image of the execution state of a streaming job, created via Flink’s checkpointing mechanism. You can use Savepoints to stop-and-resume, fork, or update your Flink jobs.

下面这张来自Flink 1.1版本文档(更新的版本就不见了)的图示出了checkpoint和savepoint的关系。


用几句话总结一下。

checkpoint的侧重点是“容错”,即Flink作业意外失败并重启之后,能够直接从早先打下的checkpoint恢复运行,且不影响作业逻辑的准确性。而savepoint的侧重点是“维护”,即Flink作业需要在人工干预下手动重启、升级、迁移或A/B测试时,先将状态整体写入可靠存储,维护完毕之后再从savepoint恢复现场。

savepoint是“通过checkpoint机制”创建的,所以savepoint本质上是特殊的checkpoint。

checkpoint面向Flink Runtime本身,由Flink的各个TaskManager定时触发快照并自动清理,一般不需要用户干预;savepoint面向用户,完全根据用户的需要触发与清理。

checkpoint的频率往往比较高(因为需要尽可能保证作业恢复的准确度),所以checkpoint的存储格式非常轻量级,但作为trade-off牺牲了一切可移植(portable)的东西,比如不保证改变并行度和升级的兼容性。savepoint则以二进制形式存储所有状态数据和元数据,执行起来比较慢而且“贵”,但是能够保证portability,如并行度改变或代码升级之后,仍然能正常恢复。

checkpoint是支持增量的(通过RocksDB),特别是对于超大状态的作业而言可以降低写入成本。savepoint并不会连续自动触发,所以savepoint没有必要支持增量。
————————————————
原文链接:https://blog.csdn.net/nazeniwaresakini/article/details/104649508

以上是关于Flink检查点(checkpoint)保存点(savepoint)的区别与联系的主要内容,如果未能解决你的问题,请参考以下文章

Flink解决Flink在测试环境无法保存checkpoint问题

16-flink-1.10.1-flink 容错机制

16-flink-1.10.1-flink 容错机制

16-flink-1.10.1-flink 容错机制

Apache Flink 实现原理:容错机制

【Flink 精选】如何排查 Checkpoint 异常问题?