一次k8s node节点负载高的问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一次k8s node节点负载高的问题相关的知识,希望对你有一定的参考价值。
参考技术A 发现k8s某一个节点负载较高,但是查看内存、CPU、IO一切都正常最后通过执行dmesg查看系统日志,发现以下几行
大致可以理解为无法给缓存申请内存。这个SLUB是个什么东西呢
然后深入了解了一下内核内存模型。一共有以下4种
看了一下__slab_alloc.c 的源码
根据源码和日志,可以看出应该是NUMA无法从node0申请内存,导致每次都调用kmalloc_large,对性能消耗特别大。
很有可能是Cgroup的BUG,由于机器重启了,问题暂时没有更加深入排查,待下次复现的时候继续排查
记录一次php占用系统资源过高的问题
本地环境:redhat6.7系统。 nginx1.12.1 ,php7.1.0, 代码使用yii2框架
问题:本地的web站需要用到elasticsearch服务。当php使用本地服务器搭建的elasticsearch时,本地的负载都是正常。 当我使用aws 的elasticsearch service服务时,本地服务器出现负载经常过高的情况。查看nginx 和php日志,发现没有异常。系统的并发连接数也不高。这时候想到我们老大给我讲的一个strace诊断工具。
调试过程:
查找一个php的子进程id
strace -cp pid 跟踪进程的调用
系统当时的负载:
strace 调试过程
这边就发现php调用elasticsearch的时候,会去本地找一个文件,这个文件是不存在的。从而导致服务器负载偏高。通过对比aws elasticsearch 和本地es 集群的区别。发现只有调用的方法不一样。代码里面是用https的方法调用的,所以他会去本地找这个证书库文件。我立即联系开发,把调用方式改成http之后,观察一段时间,服务器负载恢复正常了。
strace -T -e access -p 1379
以上是关于一次k8s node节点负载高的问题的主要内容,如果未能解决你的问题,请参考以下文章