故障公告docker swarm 集群问题造成新版博客后台故障
Posted cmt
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了故障公告docker swarm 集群问题造成新版博客后台故障相关的知识,希望对你有一定的参考价值。
非常抱歉,今天下午 16:55~17:05 左右,由于 docker swarm 集群的突发不稳定问题造成新版博客后台(目前处于灰度发布阶段)无法正常使用,由此给您带来麻烦,请您谅解。
出故障期时,新版博客后台的2个容器都无法正常启动。
AME NODE DESIRED STATE CURRENT STATE i_web.1 prod-swarm-w3 Running Assigned 5 minutes ago i_web.2 prod-swarm-w4 Running Assigned 2 hours ago
发现问题后,我们进行了删除 stack 并重新部署的操作。
docker stack rm i ./deploy-production.sh 2.0.6
NAME NODE DESIRED STATE CURRENT STATE i_web.1 prod-swarm-w3 Running Assigned 42 seconds ago i_web.2 prod-swarm-w7 Running Starting 42 seconds ago
重新部署后发现 prod-swarm-w7 节点上的容器可以正常启动,而 prod-swarm-w3 节点上的容器问题依旧,由此确认是 prod-swarm-w3 节点出了问题,于是立即卸载该节点。
docker node update --availability drain prod-swarm-w3
卸载后,新版博客后台很快恢复了正常。
我们已经决定用 k8s 取代 docker swarm ,但目前 k8s 集群还没部署好,在这即将与 docker swarm 说 88 的时刻,又被 docker swarm 坑了一次,都怪我们当时贪图省事,选对了集装箱(docker 容器)却上错了船(docker swarm),我们会深深吸取这次上错船的教训。
以上是关于故障公告docker swarm 集群问题造成新版博客后台故障的主要内容,如果未能解决你的问题,请参考以下文章
故障公告10:30-10:45 左右 docker swarm 集群节点问题引发故障
云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机
云计算之路-阿里云上:docker swarm 集群再次出现故障