故障公告没有龙卷风,k8s集群翻船3次,投用双集群恢复

Posted 博客园官方博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了故障公告没有龙卷风,k8s集群翻船3次,投用双集群恢复相关的知识,希望对你有一定的参考价值。

今天没有龙卷风(异常的高并发请求),故障却依然出现,问题非常奇怪。某种异常情况会造成短时间内, k8s 集群中大量 pod (超过60%)因健康检查失败而处于 CrashLoopBackOff 状态,健康检查失败的错误是 `connection refused`。第2次翻船后我们非常紧张,如果中午找不到有效的避免翻船的紧急措施,下午不知要翻多少次,而当前我们对这个从天而降的突发问题毫无头绪。

今天没有龙卷风(异常的高并发请求),故障却依然出现,问题非常奇怪。

某种异常情况会造成短时间内, k8s 集群中大量 pod (超过60%)因健康检查失败而处于 CrashLoopBackOff 状态,健康检查失败的错误是 connection refused

Liveness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
Readiness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused

今天 k8s 集群因此翻船3次,分别是

  • 早上 10:00-10:15
  • 中午 11:48-12:07
  • 下午 14:20-14:35

第2次翻船后我们非常紧张,如果中午找不到有效的避免翻船的紧急措施,下午不知要翻多少次,而当前我们对这个从天而降的突发问题毫无头绪。

中午我们想到了一招,既然1艘船扛不住,那我们用2艘,2艘同时翻的可能性小很多,而且翻掉的1艘过段时间自己也能恢复,即使2艘也扛不住,那故障的影响也会减小。

就在我们刚部署好新的集群,14:20 左右开始又翻船了,加入新船后恢复了正常。

从2艘船并驾齐驱的情况看,我们相信可以扛住。

非常抱歉!这段时间的频繁故障给大家带来了很大的麻烦,请大家谅解!

Kubernetes 集群相关信息:

  • 使用阿里云服务器自己搭建
  • k8s 版本是 1.23.3
  • 网络用的是 calico

以上是关于故障公告没有龙卷风,k8s集群翻船3次,投用双集群恢复的主要内容,如果未能解决你的问题,请参考以下文章

故障公告取代 memcached 的 redis 出现问题造成网站故障

故障公告阿里云抢占式实例服务器被释放引发全站故障

故障公告龙卷风继续袭击,服务器们顽强抵抗

K8S集群中Coredns域名解析故障排查思路

故障公告docker swarm 集群问题造成新版博客后台故障

故障公告10:30-10:45 左右 docker swarm 集群节点问题引发故障