记flink checkpoint 无法写入问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记flink checkpoint 无法写入问题相关的知识,希望对你有一定的参考价值。

参考技术A flink 消费kafka的数据处理后,回写到kafka 其他topic中,消费一段时间总是出现某几个 subTask 无法 ack barrier ,导致checkpoint 失败,无法正常处理数据。

PS:要打开flink debug 日志级别,开始没有打开debug级别好多处理信息无法看到。修改 flink/conf 下的 log4j 和logback文件内容。

1、首先要找到具体是哪个 TaskManager 中发生的故障,根据subTaskId 在JobManager.log 中搜索该 SubTaskId 分配到了哪个TaskManager 中。

2、根据对应的TaskManager 查看 TaskManger.log 日志,发现对应的TaskManager 有大量的kafka的日志信息,找到对应的 kafka topic 以及partition所在的 leader。

3、查看kafka Server 日志信息。

https://www.imooc.com/article/36519
https://www.cnblogs.com/huiandong/p/10008032.html

4、结果发现是kafka的错误,可能是同事用高版本读取kafka的问题,导致出现了 错误,重启kafka集群。

5、重启后发现kafka还是报

6、根据对应的 kafka版本修改对应的文件,重新打包编译
https://www.jianshu.com/p/d2cbaae38014

Flink 新加source后 发布前需要修改checkpoint的namspace/报错:作业拓扑发生改变,无法使用现有Checkpoint

之前是:

source_a union all source_b ;

新加source_c:

source_a union all source_b union all source_c;

会报错:

Flink任务Checkpoint检查

报错:作业拓扑发生改变,无法使用现有Checkpoint
Checkpoint verification error: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Failed to execute sql


 

以上是关于记flink checkpoint 无法写入问题的主要内容,如果未能解决你的问题,请参考以下文章

Flink从BucketSink看checkpoint与故障恢复

flink如何利用checkpoint保证数据状态一致性

面试指北 | 图解 Flink 的 Checkpoint 机制

Flink 新加source后 发布前需要修改checkpoint的namspace/报错:作业拓扑发生改变,无法使用现有Checkpoint

Flink 新加source后 发布前需要修改checkpoint的namspace/报错:作业拓扑发生改变,无法使用现有Checkpoint

Flink 新加source后 发布前需要修改checkpoint的namspace/报错:作业拓扑发生改变,无法使用现有Checkpoint