一次k8s node节点负载高的问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一次k8s node节点负载高的问题相关的知识,希望对你有一定的参考价值。

参考技术A 发现k8s某一个节点负载较高,但是查看内存、CPU、IO一切都正常

最后通过执行dmesg查看系统日志,发现以下几行

大致可以理解为无法给缓存申请内存。这个SLUB是个什么东西呢

然后深入了解了一下内核内存模型。一共有以下4种

看了一下__slab_alloc.c 的源码

根据源码和日志,可以看出应该是NUMA无法从node0申请内存,导致每次都调用kmalloc_large,对性能消耗特别大。

很有可能是Cgroup的BUG,由于机器重启了,问题暂时没有更加深入排查,待下次复现的时候继续排查

记录一次php占用系统资源过高的问题

本地环境:redhat6.7系统。 nginx1.12.1 ,php7.1.0,  代码使用yii2框架

问题:本地的web站需要用到elasticsearch服务。当php使用本地服务器搭建的elasticsearch时,本地的负载都是正常。 当我使用aws 的elasticsearch service服务时,本地服务器出现负载经常过高的情况。查看nginx 和php日志,发现没有异常。系统的并发连接数也不高。这时候想到我们老大给我讲的一个strace诊断工具。


调试过程:

  1. 查找一个php的子进程id

  2. strace -cp pid 跟踪进程的调用

系统当时的负载:

技术分享图片

strace 调试过程

技术分享图片


这边就发现php调用elasticsearch的时候,会去本地找一个文件,这个文件是不存在的。从而导致服务器负载偏高。通过对比aws elasticsearch 和本地es 集群的区别。发现只有调用的方法不一样。代码里面是用https的方法调用的,所以他会去本地找这个证书库文件。我立即联系开发,把调用方式改成http之后,观察一段时间,服务器负载恢复正常了。

strace -T -e access -p 1379

技术分享图片


以上是关于一次k8s node节点负载高的问题的主要内容,如果未能解决你的问题,请参考以下文章

(企业环境部署)K8S多节点部署——负载均衡——UI页面

记一次flannel网络调整

一次CDN源站负载高的问题排查及解决

Kubernetes-集群扩容增加node节点

记一次k8s集群节点镜像存储容量报警问题

k8s的高可用