kubernetes排错系列:机房搬迁导致的节点NotReady

Posted haoprogrammer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kubernetes排错系列:机房搬迁导致的节点NotReady相关的知识,希望对你有一定的参考价值。

说下背景:

  上周六机房进行搬迁,我所在的网段的机器都重启了一遍。重启之后kubernetes集群不正常。如下

技术图片

排查过程:

# 查看节点信息
kubectl describe nodes cbov10-sso55-113

技术图片

时间正好是上周五搬迁的时间点,20190809,kubelet停止发布节点状态

# 查看kubelet状态
systemctl status kubelet.service

技术图片

这时候看出,报错名之k8s-master,但是我们kubernetes集群的node名字是cbov10-sso55-113,显然主机名有问题。

解决:

1. 查看是哪里的主机名出来问题。一般是两个地方

# 1. 查看 /etc/hosts
cat /etc/hosts

# 2.  查看 /etc/sysconfig/network
cat  /etc/sysconfig/network

博主这边是  /etc/sysconfig/network  加 HOSTNAME 写死 了,没关系,我们修改为需要的 cbov10-sso55-113,(这里说下,去掉HOSTNAME,用OpenStack自己虚出来的默认的虚拟机名也可以)

2.  修改主机名

# 方法1:临时有效
# 只能临时修改的主机名,当重启机器后,主机名称又变回来了。
hostname 主机名    

# 方法2:永久生效
# 永久性的修改主机名称,重启后能保持修改后的。
hostnamectl set-hostname  主机名

3.退出xshell,重新登录

# 查看主机名
hostnamectl

# 重启kubelet
systemctl daemon-reload
systemctl restart kubelet.service

 

4.再次查看kubernetes集群状态,可以发现集群状态为Ready

kubectl get nodes

 

 

感谢您的观看。

 

以上是关于kubernetes排错系列:机房搬迁导致的节点NotReady的主要内容,如果未能解决你的问题,请参考以下文章

Kubernetes集群实践-排错(01)Node节点证书过期

机房搬迁数据备份方式

记录一次机房搬迁中系统防火墙的问题

Hadoop运维记录系列(二十三)

机房搬迁方案

广州佛山IDC机房搬迁改造机柜安装方案报价