经典k8s日常巡检及排错指南

Posted Friends of the wind

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了经典k8s日常巡检及排错指南相关的知识,希望对你有一定的参考价值。

目标:解决两方面问题

问题1:已搭建好的k8s集群,日常都做些什么,以保障系统安全稳定运行?
问题2:k8s出现报错,该如何做才能,快速有效解决?

问题1:

提示:这里只描述的是重点,其他像网络、域名等方面的内容,暂不讨论

  1. 所有节点是否为就绪状态

  2. 所有名称空间内pod是否有非Running

    如果有,先判断是不用的pod,不影响业务的,还是会影响业务的,若有异常,则要排错。

  3. 集群节点的磁盘空间是否超过阈值(一般为90%)
    集群报错,应该避免的是磁盘空间大于一个值,然后不能是太大才关注,生产环境,可能几分钟会产生大量数据

  4. 各个节点时间是否同步(误差在允许范围内)
    尤其是对时间要求严格的应用,

以上是关于经典k8s日常巡检及排错指南的主要内容,如果未能解决你的问题,请参考以下文章

网络包排错指南-类linux 平台

k8s医生k8s安全机制之新版rbac详解及排错

经典资料:IT 巡检内容工具方法 & Linux / AIX / Oracle / VMware 巡检表模板 | 周末送资料

k8s故障排查指南

linux巡检脚本

K8s之Pod资源管理及创建Harbor私有镜像仓库(含镜像拉取操作,中途含排错)