云计算之路-阿里云上：针对 docker swarm 故障的部署调整以及应急措施

Posted 2020-10-27 博客园官方博客

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了云计算之路-阿里云上：针对 docker swarm 故障的部署调整以及应急措施相关的知识，希望对你有一定的参考价值。

针对上周 docker swarm 集群的频繁故障（详见故障一、故障二、故障三），我们今天对 docker swarm 集群的部署进行了如下调整。

将 docker engine 由 “17.12.0-ce, build c97c6d6” 升级至 “17.12.1-ce, build 7390fc6” ，这是 docker 在 2 月 27 日发布的最新稳定版。

~# docker -v
Docker version 17.12.1-ce, build 7390fc6

将之前的 “5 个 manager 节点 + 1 个 worker 节点” 调整为 “3 个 manager 节点 + 3 个 worker 节点”，3 个 manager 节点的阿里云服务器配置为 1 台 4 核 8 G + 2 台 2 核 4 G ，3 个 worker 节点的配置为 3 台 4 核 8 G ，应用容器尽量部署在 worker 节点上。

使用新的部署后，昨天 18:00 左右集群又出现了宕机，当时怎么处理也无法恢复，最后实在没办法，通过阿里云控制台强制重启所有节点服务器后，竟然神奇地一切恢复正常。

在目前问题没有根本解决的情况下，我们会采取这样的应急措施：部署一个备用 docker swarm 集群，当主集群出现故障时，切换到备用集群。

另外在周末遇到一次节点服务器“死机”的情况，ssh 登录无响应，通过阿里云控制台管理终端登录也没有响应，唯有通过阿里云控制台强制重启服务器。

以上是关于云计算之路-阿里云上：针对 docker swarm 故障的部署调整以及应急措施的主要内容，如果未能解决你的问题，请参考以下文章

云计算之路-阿里云上：docker swarm 集群再次出现故障

云计算之路-阿里云上-容器难容：自建docker swarm集群遭遇无法解决的问题

云计算之路-阿里云上：重启 manager 节点引发 docker swarm 集群宕机

云计算之路-阿里云上：3个manager节点异常造成 docker swarm 集群宕机

云计算之路-阿里云上：排查“黑色30秒”问题-为什么请求会排队

云计算之路-阿里云上：服务器CPU 100%问题是memcached连接数限制引起的