故障公告没有龙卷风，k8s集群翻船3次，投用双集群恢复

Posted 2022-03-17 博客园官方博客

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了故障公告没有龙卷风，k8s集群翻船3次，投用双集群恢复相关的知识，希望对你有一定的参考价值。

今天没有龙卷风（异常的高并发请求），故障却依然出现，问题非常奇怪。某种异常情况会造成短时间内， k8s 集群中大量 pod （超过60%）因健康检查失败而处于 CrashLoopBackOff 状态，健康检查失败的错误是 `connection refused`。第2次翻船后我们非常紧张，如果中午找不到有效的避免翻船的紧急措施，下午不知要翻多少次，而当前我们对这个从天而降的突发问题毫无头绪。

今天没有龙卷风（异常的高并发请求），故障却依然出现，问题非常奇怪。

某种异常情况会造成短时间内， k8s 集群中大量 pod （超过60%）因健康检查失败而处于 CrashLoopBackOff 状态，健康检查失败的错误是 connection refused

Liveness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
Readiness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused

今天 k8s 集群因此翻船3次，分别是