经典k8s日常巡检及排错指南

Posted Friends of the wind

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了经典k8s日常巡检及排错指南相关的知识,希望对你有一定的参考价值。

目标:解决两方面问题

问题一:已搭建好的k8s集群,日常都做些什么,以保障安全稳定运行?
问题二:k8s出现报错,该如何做才能,快速有效解决?

问题一:

1、系统资源巡检

1 -1 CPU
top命令获取CPU使用率,与正常状态做对比。

异常处理:

第一步:使用top命令,然后按shift+p按照CPU排序
找到占用CPU过高的进程的pid

第二步:使用top -H -p [进程id] 找到进程中消耗资源最高的线程的id,下图以kubelet进程的详情为例。

1-2 内存
运行free –h命令可以查看系统的内存与SWAP使用率。

关注free项值是否过于少;若使用交换分区,交换分区的值是否过低;可以通过web页面及日志来分析,在最近周期内有没有,负载过高,综合判定之后,解决方案,两种,一是迁移占用内存过高的业务,二是增加物理内存条

1-3 网络
运行ping命令检查目标机器是否可以ping通,如果ping不同需要查找是机器本身dow

以上是关于经典k8s日常巡检及排错指南的主要内容,如果未能解决你的问题,请参考以下文章

网络包排错指南-类linux 平台

k8s医生k8s安全机制之新版rbac详解及排错

k8s故障排查指南

linux巡检脚本

K8s之Pod资源管理及创建Harbor私有镜像仓库(含镜像拉取操作,中途含排错)

K8s完整多节点部署(线网实战!含排错!)