K8S节点网络故障排除过程

Posted 2021-04-23 技术爱好者家园

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了K8S节点网络故障排除过程相关的知识，希望对你有一定的参考价值。

一、环境介绍

K8S 集群有四个节点，主机列表如下

节点角色	CPU	内存	磁盘	IP
Master/work/etcd	12	64	2T	172.18.1.100
Master/work/etcd	12	64	2T	172.18.1.101
work/etcd	12	64	2T	172.18.1.12
Work	16	32	500G	172.18.1.102
非k8s节点	8	24	2T	172.18.1.20

由于特殊原因，需要将之前K8S 集群铲掉重新部署，新旧k8s版本都是19.4，网络CNI插件使用flannel。。新集群部署完成后查看node状态都已处于正常状态。

由于测试环境业务特殊性，部分服务会运行在集群之外，我们的交换机是三层千兆华为交换机，为了满足要求，将物理层和k8s POD网络、svc网络全部打通，目标是在非k8s节点能够访问到任何pod或svc。所以在三层交换机添加静态路由，将pod B类网和svc B类网指向三台ETCD主机IP地址，已实现网络路由均衡，防止其中一台节点网络流量过大导致异常(更好的解决方案是采用bfd方案，能够自动屏蔽网络故障，但是目前操作系统还未找到类似的开源软件，可以考虑自己开发一个这样的工具)。

二、发现问题

由于特殊需要，要将K8S集群内存监控系统页面(grafana)映射到出来让办公网络能够访问(之前测试ping pod IP 能够正常ping通所以认为是网络正常)，所以在非k8s节点通过nginx代理访问，配置好Nginx后并reload生效，在办公环境通过Nginx代理访问非常慢，有时候直接访问出错。

在Nginx主机ping grafana IP发现居然无法ping通，通过交换机可以ping通grafana IP(说明grafana本身没有问题)，随后在Nginx主机使用tracepath 测试grafana IP 获取路由信息，发现路由到172.18.1.12 将无法进行下去，说172.18.1.12这台主机与grafana pod网络不同，但是这台主机是k8s中的一个节点，正常情况下可以访问pod网络，随后登录到172.18.1.12状态主机ping grafana IP其实无法ping通，而其它k8s节点可以ping通，问题基本可以确定是172.18.1.12这台主机网络插件出现flannel异常，查看flannel插件日志并没有发现错误信息