故障公告10:30-10:45 左右 docker swarm 集群节点问题引发故障

Posted cmt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了故障公告10:30-10:45 左右 docker swarm 集群节点问题引发故障相关的知识,希望对你有一定的参考价值。

非常抱歉,今天 10:30-10:45 左右由于 docker swarm 集群节点出现问题,造成除博客之外的站点出现访问异常,由此给您带来很大的麻烦,请您谅解。

故障开始时出现有时访问正常有时访问出现 502 或 500 ,当时我们就判断是某个节点出现问题,但无法直接定位出哪个节点,只能依次将一个个节点下线-上线。但是,不走运的是出现问题的节点恰恰是我们最后下线的一个节点。所以,在下线正常节点的过程中,更多的容器被迁移到了问题节点,结果造成更大范围的故障,直到我们下线问题节点,才恢复正常。

自从我们今年 4 月优化了 docker swarm 集群的部署后(详见 优化自建 docker swarm 集群的部署),这是第一次出现这么大的故障。我们会对这次故障进行进一步的分析,采取进一步的措施减少引发节点出现不稳定的因素,并尽可能减少单个节点的不稳定带来的影响。

以上是关于故障公告10:30-10:45 左右 docker swarm 集群节点问题引发故障的主要内容,如果未能解决你的问题,请参考以下文章

故障公告:docker swarm集群“群龙无首”造成部分站点无法访问

故障公告攻击式巨量并发请求再次来袭,引发博客站点故障

[故障公告]受阿里云部分ECS服务器故障影响,目前无法上传图片与文件

故障公告cc攻击又来了,雪上加霜的三月

故障公告它(变异的百度蜘蛛)又来了,雪上加霜又添恐怖的三月

故障公告突然猛增的巨量请求冲垮一共92核CPU的k8s集群