实战经验 | Cassandra Java堆外内存排查经历全记录

Posted 阿里云数据库

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实战经验 | Cassandra Java堆外内存排查经历全记录相关的知识,希望对你有一定的参考价值。

背景

最近准备上线cassandra这个产品,同事在做一些小规格ECS(8G)的压测。压测时候比较容易触发OOM Killer,把cassandra进程干掉。问题是8G这个规格我配置的heap(Xmx)并不高(约6.5g)已经留出了足够的空间给系统。只有可能是Java堆外内存使用超出预期,导致RES增加,才可能触发OOM。




调查过程

1


0.初步怀疑是哪里有DirectBuffer泄漏,或者JNI库的问题。


1.按惯例通过google perftools追踪堆外内存开销,但是并未发现明显的异常。


2.然后用Java NMT

(https://docs.oracle.com/javase/8/docs/technotes/guides/vm/nmt-8.html) 看了一下,也没有发现什么异常。

实战经验 | Cassandra Java堆外内存排查经历全记录


3.查到这里思路似乎断了,因为跟DirectBuffer似乎没啥关系。这时候我注意到进程虚拟内存非常高,已经超过ECS内存了。怀疑这里有些问题。


实战经验 | Cassandra Java堆外内存排查经历全记录



实战经验 | Cassandra Java堆外内存排查经历全记录


此时这些mmap file 虚拟内存是2G,但是物理内存是0(因为我之前重启过,调低过内存防止进程挂掉影响问题排查)。


显然mmap的内存开销是不受JVM heap控制的,也就是堆外内存。如果mmap的文件数据被从磁盘load进物理内存(RES增加),Java NMT和google perftool是无法感知的,这是kernel的调度过程。


5.考虑到是在压测时候出现问题的,所以我只要读一下这些文件,观察下RES是否会增加,增加多少,为啥增加,就能推断问题是不是在这里。通过下面的命令简单读一下之前导入的数据。


*注:左右滑动阅览

cassandra-stress read duration=10m cl=ONE -rate threads=20 -mode native cql3 user=cassandra password=123 -schema keysp
ace=keyspace5 -node core-3


6.可以观察到压测期间(sar -B),major page fault是明显上升的,因为数据被实际从磁盘被load进内存。


实战经验 | Cassandra Java堆外内存排查经历全记录


同时观察到mmap file物理内存增加到20MB:


实战经验 | Cassandra Java堆外内存排查经历全记录


最终进程RES涨到7.1g左右,增加了大约600M:


实战经验 | Cassandra Java堆外内存排查经历全记录


如果加大压力(50线程),还会涨,每个mmap file物理内存会从20MB,涨到40MB


7.Root cause是cassandra识别系统是64还是32来确定要不要用mmap,ECS都是64,但是实际上小规格ECS内存并不多。


实战经验 | Cassandra Java堆外内存排查经历全记录




结论

2


1.问题诱因是mmap到内存开销没有考虑进去,具体调整方法有很多。可以针对小规格ECS降低heap配置或者关闭mmap特性 (disk_access_mode=standard)


2.排查Java堆外内存还是比较麻烦的,推荐先用NMT查查,用起来比较简单,配置JVM参数即可,可以看到内存申请情况。




活动预告

3

上海的小伙伴请看过来!

以上是关于实战经验 | Cassandra Java堆外内存排查经历全记录的主要内容,如果未能解决你的问题,请参考以下文章

Java堆外内存之突破JVM枷锁

Netty实战:netty 堆外内存泄露排查盛宴

Spring Boot引起的“堆外内存泄漏”排查及经验总结

Java 堆外内存回收原理

[转]JVM内存模型

Java堆外内存的使用