阿里云ARMS排查ACK容器环境Java事务阻塞触发系统连锁雪崩故障(线上JVM排查之六)
Posted 深度Java
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云ARMS排查ACK容器环境Java事务阻塞触发系统连锁雪崩故障(线上JVM排查之六)相关的知识,希望对你有一定的参考价值。
说明:这是一个非常复杂的故障排查过程,也是非常有价值的经验分享。这是一个K8s环境,非常复杂的故障涌现过程,排障过程也很慌乱,整个过程现在整理起来看起来很轻松,不过当时却是另一番心情。
背景:线上N个微服务,之间调用关系复杂,简单的来说有上层服务,中层服务,底层服务。
上层服务实际上是N个不同的服务,这里简化为A服务(实际上是A1,A2等),中层服务也是简化为B服务,底层服务简化为C服务和D服务。
调用链关系:A-->B-->C->D A,B,C,D都-->数据库 C--->Redis分布式锁
现象:下午15:15分A1服务出现严重响应延迟。
下面是事件过程中完整的性能趋势图
从图中看出 多个系统都出现分钟级的延迟,持续很久。
这个实际上首先说明并非这些上层系统A服务的问题而是底层依赖服务B或者C有问题。
当时查A1服务发现是依赖的B1服务出现问题导致,卡顿1分钟说明是B1服务不可用。
下面是B1服务容器内存变化趋势图:
以上是关于阿里云ARMS排查ACK容器环境Java事务阻塞触发系统连锁雪崩故障(线上JVM排查之六)的主要内容,如果未能解决你的问题,请参考以下文章
阿里云ARMS排查ACK容器环境Java事务阻塞触发系统连锁雪崩故障(线上JVM排查之六)
利用阿里云ARMS排查Java大量文件处理场景堆外内存溢出(线上JVM排障之八)
利用阿里云ARMS排查Java大量文件处理场景堆外内存溢出(线上JVM排障之八)
阿里云K8s容器Pod中Java进程CPU占比100%排查(线上JVM排查之一)