云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机

Posted cmt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机相关的知识,希望对你有一定的参考价值。

今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,造成整个集群宕机,由此给您带来很大的麻烦,请您谅解。

受此次故障影响的站点有:博问闪存班级园子短信息招聘小组网摘新闻,openapi

最近我们刚刚确认我们所有遇到的 docker swarm 不稳定问题都与部分节点的异常状况有关,即使是一直让我们非常头疼的 docker-flow-proxy 路由问题,也是因为路由容器所在的节点出现异常状况,只要通过阿里云控制台重启这台节点服务器,就能恢复正常。

我们的 docker swarm 集群节点部署是这样的:5台阿里云2核4G服务器作为 manager 节点,1台阿里云4核8G服务器作为 worker 节点。基于这样的部署,我们想即使部分节点出现异常状况也不会带来影响,发现后重启节点服务器就行了。但没想到今天3个节点同时出现异常状况。。。最终通过阿里云控制台重启这些异常节点后恢复正常。

对于节点的这种异常状况,我们目前毫无头绪,不知是我们的应用问题、还是docker的问题、还是阿里云服务器的问题,目前唯一的线索是:节点服务器持续运行时间越长,出现异常状况的概率越高,出现异常状况后通过阿里云控制台重启服务器立马恢复正常。

对于目前无法确定是船的问题、还是集装箱的问题、还是货物的问题的困难处境,我们的临时解决方法是改进对节点服务器的监控,及时发现出现异常状况的节点进行重启操作。

更新:根据我们的进一步分析,更保险的临时解决方法是当发现一个节点出现异常状况时要重启所有 manager 节点服务器。

以上是关于云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机的主要内容,如果未能解决你的问题,请参考以下文章

云计算之路-阿里云上-容器难容:容器服务故障以及自建 docker swarm 集群故障

云计算之路-阿里云上-容器服务:移除节点引发博问站点短暂故障

云计算之路-阿里云上:docker swarm 集群再次出现故障

云计算之路-阿里云上:攻击又来了,4个IP分别遭遇超过30G的流量攻击

云计算之路-阿里云上:RDS用户的烦恼

云计算之路-阿里云上:服务器CPU 100%问题是memcached连接数限制引起的