docker容器的内存问题排查（“内存丢失”）

Posted 2023-05-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了docker容器的内存问题排查（“内存丢失”）相关的知识，希望对你有一定的参考价值。

参考技术A 容器内可用内存远没有达到cgroup限制，就已经OOM(Out Of Memory Killer)。容器套餐4c8g，top看占内存最多的进程大约17m左右，总共100个，总内存也不到2g，但是memory.usage_in_bytes已经达到8g（free看也是一样），cache也只有几百兆，久而久之，cache所占内存也被耗尽，容器内进程oom，实际可用内存不到1g。在这记录下问题排查过程。

由于达到oom的现场已经不在，现在使用下面的场景进行演示：
容器套餐4c8g，working_set内存6.8g（容器内一般用working_set来评内存使用情况，working_set=rss+活跃的cache），rss600m，cache1.7g，业务进程使用2g。目前working_set远小于rss+cache。

发现使用内存最多的php-fpm 进程用了17M，129个进程，一共使用内存2.1g。内存使用了7.4g、未使用450M、cache1.7g（我们使用了lxcfs做容器视图隔离，所以内存显示的是容器的真实情况），还有5g左右内存去哪了
2、进到内存容器cgroup

确实是7g多

没有占用内存特别大的项，也就是远没达到top所见。另外忘记说，上边单位都是字节

果然是5g

可以看出关于文件元数据缓存就占了4g多，上图第三列是对象数量，第四列是对象大小，所以xfs_inode占用内存=3959772 * 960 /1024/1024/1024,约等于3.5g，xfs_ili 0.7g，这已经4g多了。所以基本可以断定是业务进程操作文件多过导致

可见session文件数与slab中的xfs_inode基本相当，所以可以断定罪魁祸首在此

经过与业务沟通，他们清理的大量session文件后，slab内存明显降下来了。

https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/6/html/resource_management_guide/sec-memory
https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v1/memory.html
https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v2.html

JVM故障问题排查心得「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？

背景介绍

最近的docker容器经常被kill掉，k8s中该节点的pod也被驱赶。

我有一个在主机中运行的Docker容器（也有在同一主机中运行的其他容器）。该Docker容器中的应用程序将会计算数据和流式处理，这可能会消耗大量内存。

该容器会不时退出。我怀疑这是由于内存不足，但不是很确定。我需要找到根本原因的方法。那么有什么方法可以知道这个集装箱的死亡发生了什么？

容器层级判断检测

提到docker logs $container_id查看该应用程序的输出。这永远是我要检查的第一件事。接下来，您可以运行docker inspect $container_id以查看状态的详细信息，例如：

"State": 
        "Status": "exited",
        "Running": false,
        "Paused": false,
        "Restarting": false,
        "OOMKilled": false,
        "Dead": false,
        "Pid": 0,
        "ExitCode": 2,
        "Error": "",
        "StartedAt": "2016-06-28T21:26:53.477229071Z",
        "FinishedAt": "2016-06-28T21:26:53.478066987Z"

重要的一行是“ OOMKilled”，如果您超出了容器的内存限制，并且Docker杀死了您的应用程序，则该行将为true。您可能还需要查找退出代码，以查看其是否标识出您的应用退出的原因。

Docker内部，这仅表示docker本身是否会杀死您的进程，并要求您在容器上设置内存限制。
Docker外部，如果主机本身内存不足，Linux内核可以销毁进程。发生这种情况时，Linux通常会在/ var / log中写入日志。使用Windows和Mac上的Docker Desktop，您可以在docker设置中调整分配给嵌入式Linux VM的内存。

可以通过阅读日志来了解容器内的进程是否被OOM杀死。OOMkill是由内核启动的，因此每次发生时，都会在中包含很多行/var/log/kern.log，例如：

python invoked oom-killer: gfp_mask=0x14000c0(GFP_KERNEL), nodemask=(null), order=0, oom_score_adj=995
oom_kill_process+0x22e/0x450
Memory cgroup out of memory: Kill process 31204 (python) score 1994 or sacrifice child
Killed process 31204 (python) total-vm:7350860kB, anon-rss:4182920kB, file-rss:2356kB, shmem-rss:0kB

Linux操作系统的进程服务发生被killed的原因是什么

在Linux中，经常会遇到一些重要的进程无缘无故就被killed，而大多数的经验之谈就是系统资源不足或内存不足所导致的。

当Linux系统资源不足时，Linux内核可以决定终止一个或多个进程，内存不足时会在系统的物理内存耗尽时触发OOM killed，可以利用“dmesg | tail -N”命令来查看killed的近N行日志。

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_docker

常规的宕机监控之类

在服务宕机或者重启之前我们的常规操作就是采用ps指令判定服务的增长趋势以及展示真实使用的资源的大小的前几位排名。

Linux下显示系统进程的命令ps，最常用的有ps -ef 和ps aux。这两个到底有什么区别呢？

ps -ef指令代表着SystemV风格，而ps aux代表着’BSD风格‘。

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_docker_02

由上图所示，可以分析出对应的数据结构模型。

USER      //用户名
%CPU      //进程占用的CPU百分比
%MEM      //占用内存的百分比
VSZ       //该进程使用的虚拟內存量（KB）
RSS       //该进程占用的固定內存量（KB）resident set size
STAT      //进程的状态
START     //该进程被触发启动时间
TIME      //该进程实际使用CPU运行的时间

其中CPU算是第3个位置、内存MEM算是第4个位置，虚拟内存VSZ是第5个位置，记住这个后面我们会使用这个方式进行排序。

查看当前系统内CPU占用最多的前10个进程（栏位属于第3个）

ps auxw | sort -rn -k3 | head -10

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_内存不足_03

ps auxw指令（BSD风格）

u：以用户为主的格式来显示程序状况
x：显示所有程序，不以终端机来区分
w：采用宽阔的格式来显示程序状况

sort排序指令

sort -rn -k5

-n是按照数字大小排序(-n 这代表着排除n行的操作处理)，-r是以相反顺序，-k是指定需要排序的栏位

ps auxw | head -1

内存消耗最多的前10个进程（栏位属于第4个）

ps auxw | head -1;ps auxw|sort -rn -k4|head -10

虚拟内存使用最多的前10个进程（栏位属于第5个）

ps auxw|head -1;ps auxw|sort -rn -k5|head -10

去掉x参数的结果

ps auw | head -1; ps auw|sort -rn -k4 | head -10

stat取值含义

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_Docker_04

D      //无法中断的休眠状态（通常 IO 的进程）；
R      //正在运行可中在队列中可过行的；
S      //处于休眠状态；
T      //停止或被追踪；
W      //进入内存交换 （从内核2.6开始无效）；
X      //死掉的进程 （基本很少见）；
Z      //僵尸进程；
<      //优先级高的进程
N      //优先级较低的进程
L      //有些页被锁进内存；
s      //进程的领导者（在它之下有子进程）；
l      //多线程，克隆线程（使用 CLONE_THREAD, 类似 NPTL pthreads）；
+      //位于后台的进程组；

dmesg的命令分析

有几个工具/脚本/命令可以更轻松地从该虚拟设备读取数据，其中最常见的是 dmesg 和 journalctl。

输入dmesg指令进行egrep正则表达式匹配killed的进程信息，将输出对应的进程信息。

dmesg | egrep -i -B100 killed process

或

dmesg | grep -i -B100 killed process

以上的指令就可以输出最近killed的信息，其中-B100，表示 killed process’之前的100行内容，与head的指令非常的相似。

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_内存不足_05

如果我们看到了oom-kill的字样之后，就可以判断它是被内存不足所导致的kill，oom-kill之后，就是描述那个被killed的程序的pid和uid。

Out of memory: Killed process 1138439 (python3) total-vm:8117956kB, anon-rss:5649844kB，内存不够

total_vm和rss的指标值

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_Docker_06

total_vm：总共使用的虚拟内存 Virtual memory use (in 4 kB pages)，8117956/1024(得到MB)/1024(得到GB)=7.741GB
rss：常驻内存使用Resident memory use (in 4 kB pages) 5649844/1024/1024=5.388GB

案例1：查看到pod被驱赶的原因

[3899860.525793] Out of memory: Kill process 64058 (nvidia-device-p) score 999 or sacrifice child
[3899860.526961] Killed process 64058 (nvidia-device-p) total-vm:126548kB, anon-rss:2080kB, file-rss:0kB, shmem-rss:0kB

案例2：查看到docker容器被kill 的原因

[3899859.737598] Out of memory: Kill process 27562 (jupyter-noteboo) score 1000 or sacrifice child
[3899859.738640] Killed process 27562 (jupyter-noteboo) total-vm:215864kB, anon-rss:45928kB, file-rss:0kB, shmem-rss:0kB

journalctl命令 – 查看指定的日志信息

当内存不足时，内核会将相关信息记录到内核日志缓冲区中，该缓冲区可通过 /dev/kmsg 获得。除了上面的dmesg之外，还有一个journalctl。

语法格式： journalctl [参数]

常用参数：

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？_Docker_07

查看Killed日志

使用sudo dmesg | tail -7命令（任意目录下，不需要进入log目录，这应该是最简单的一种）而journalctl命令来自于英文词组“journal control”的缩写，其功能是用于查看指定的日志信息。

journalctl指令介绍

在RHEL7/CentOS7及以后版本的Linux系统中，Systemd服务统一管理了所有服务的启动日志，带来的好处就是可以只用journalctl一个命令，查看到全部的日志信息了。

查看所有日志（默认情况下，只保存本次启动的日志）

journalctl

查看内核日志（不显示应用日志）

journalctl -k

查看系统本次启动的日志

journalctl -b
journalctl -b -0

查看上一次启动的日志（需更改设置）

journalctl -b -1

查看指定时间的日志

journalctl --since=“2021-09-16 14:22:02”

journalctl --since “30 min ago”

journalctl --since yesterday

journalctl --since “2021-01-01” --until “2021-09-16 13:40”

journalctl --since 07:30 --until “2 hour ago”

显示尾部的最新10行日志

journalctl -n

显示尾部指定行数的日志

journalctl -n 15

实时滚动显示最新日志

journalctl -f

查看指定服务的日志

journalctl /usr/lib/systemd/systemd

比如查看docker服务的日志

systemctl status docker

查看某个 Unit 的日志

journalctl -u nginx.service
journalctl -u nginx.service --since today

实时滚动显示某个 Unit 的最新日志

journalctl -u nginx.service -f

合并显示多个 Unit 的日志

$ journalctl -u nginx.service -u php-fpm.service --since today

以上是关于docker容器的内存问题排查（“内存丢失”）的主要内容，如果未能解决你的问题，请参考以下文章

JVM故障问题排查心得「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？

JVM故障问题排查心得「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的，为啥还是会出现OOMKilled？

docker-index.exe内存占用大

JVM故障问题排查心得「内存诊断系列」JVM内存与Kubernetes中pod的内存容器的内存不一致所引发的OOMKilled问题总结（上）

Docker 容器中部署项目后一直重启原因排查

docker容器的内存问题排查（“内存丢失”）

JVM故障问题排查心得「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？

背景介绍

容器层级判断检测

Linux操作系统的进程服务发生被killed的原因是什么

常规的宕机监控之类

查看当前系统内CPU占用最多的前10个进程（栏位属于第3个）

ps auxw指令（BSD风格）

sort排序指令

内存消耗最多的前10个进程（栏位属于第4个）

虚拟内存使用最多的前10个进程（栏位属于第5个）

去掉x参数的结果

stat取值含义

dmesg的命令分析

total_vm和rss的指标值

案例1：查看到pod被驱赶的原因

案例2：查看到docker容器被kill 的原因

journalctl命令 – 查看指定的日志信息

常用参数：

查看Killed日志

journalctl指令介绍

查看所有日志（默认情况下 ，只保存本次启动的日志）

查看内核日志（不显示应用日志）

查看系统本次启动的日志

查看上一次启动的日志（需更改设置）

查看指定时间的日志

显示尾部的最新10行日志

显示尾部指定行数的日志

实时滚动显示最新日志

查看指定服务的日志

比如查看docker服务的日志

查看某个 Unit 的日志

实时滚动显示某个 Unit 的最新日志

合并显示多个 Unit 的日志

查看所有日志（默认情况下，只保存本次启动的日志）