经典k8s日常巡检及排错指南
Posted Friends of the wind
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了经典k8s日常巡检及排错指南相关的知识,希望对你有一定的参考价值。
目标:解决两方面问题
问题1:已搭建好的k8s集群,日常都做些什么,以保障系统安全稳定运行?
问题2:k8s出现报错,该如何做才能,快速有效解决?
问题1:
提示:这里只描述的是重点,其他像网络、域名等方面的内容,暂不讨论
-
所有节点是否为就绪状态
-
所有名称空间内pod是否有非Running
如果有,先判断是不用的pod,不影响业务的,还是会影响业务的,若有异常,则要排错。 -
集群节点的磁盘空间是否超过阈值(一般为90%)
集群报错,应该避免的是磁盘空间大于一个值,然后不能是太大才关注,生产环境,可能几分钟会产生大量数据
-
各个节点时间是否同步(误差在允许范围内)
尤其是对时间要求严格的应用,
以上是关于经典k8s日常巡检及排错指南的主要内容,如果未能解决你的问题,请参考以下文章
经典资料:IT 巡检内容工具方法 & Linux / AIX / Oracle / VMware 巡检表模板 | 周末送资料