FlinkFLink checkpoint 某个 subtask 特别耗时 DisconnectException: null

Posted 九师兄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FlinkFLink checkpoint 某个 subtask 特别耗时 DisconnectException: null相关的知识,希望对你有一定的参考价值。

文章目录


1.概述

遇到有遇到过这种情况的么?某个subtask的ck时间总是比其他的subtask久很多,检查各个subtask的消费,也没有数据倾斜,好几次ck超时都是被这个subtask拖垮的


日志开始报org.apache.kafka.common.errors.DisconnectException: null,调整request.timeout.ms后就不怎么报了。

TM的PS_Scavenge次数较大,但是3个TM都较大,唯独每次都是同一个subtask的ck时间较突出。

作业背压在kafka source端,下游数据处理也没有背压啊。

我觉得调大request.timeout,虽然kafka不超时了,但是拖得时间

以上是关于FlinkFLink checkpoint 某个 subtask 特别耗时 DisconnectException: null的主要内容,如果未能解决你的问题,请参考以下文章

FlinkFlink checkpoint 本地磁盘 没有清除

FlinkFlink 清理过期 Checkpoint 目录的正确姿势

FlinkFlink Checkpoint 问题排查实用指南

FlinkFlink 反压机制 导致checkpoint 失败

FlinkFlink 新一代流计算和容错 Unaligned Checkpoint快速Checkpoint更小的Checkpoint

FlinkFlink Exceeded checkpoint tolerable failure threshold