14如何定位软中断 CPU 使用率过高的问题?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了14如何定位软中断 CPU 使用率过高的问题?相关的知识,希望对你有一定的参考价值。

要想知道当前的系统的软中断情况,我们可以使用 ​​top​​ 命令查看,下面是一台服务器上的 top 的数据:

14、如何定位软中断

上图中的黄色部分 si,就是 CPU 在软中断上的使用率,而且可以发现,每个 CPU 使用率都不高,两个 CPU 的使用率虽然只有 3% 和 4% 左右,但是都是用在软中断上了。

另外,也可以看到 CPU 使用率最高的进程也是软中断 ​​ksoftirqd​​,因此可以认为此时系统的开销主要来源于软中断。

如果要知道是哪种软中断类型导致的,我们可以使用 ​​watch -d cat /proc/softirqs​​ 命令查看每个软中断类型的中断次数的变化速率。

14、如何定位软中断

一般对于网络 I/O 比较高的 Web 服务器,​​NET_RX​​ 网络接收中断的变化速率相比其他中断类型快很多。

如果发现 ​​NET_RX​​​ 网络接收中断次数的变化速率过快,接下来就可以使用 ​​sar -n DEV​​ 查看网卡的网络包接收速率情况,然后分析是哪个网卡有大量的网络包进来。

14、如何定位软中断

接着,在通过 ​​tcpdump​​ 抓包,分析这些包的来源,如果是非法的地址,可以考虑加防火墙,如果是正常流量,则要考虑硬件升级等。

中断总结

为了避免由于中断处理程序执行时间过长,而影响正常进程的调度,Linux 将中断处理程序分为上半部和下半部:

  • 上半部,对应硬中断,由硬件触发中断,用来快速处理中断;
  • 下半部,对应软中断,由内核触发中断,用来异步处理上半部未完成的工作;

Linux 中的软中断包括网络收发、定时、调度、RCU 锁等各种类型,可以通过查看 /proc/softirqs 来观察软中断的累计中断次数情况,如果要实时查看中断次数的变化率,可以使用 watch -d cat /proc/softirqs 命令。

每一个 CPU 都有各自的软中断内核线程,我们还可以用 ps 命令来查看内核线程,一般名字在中括号里面到,都认为是内核线程。

如果在 top 命令发现,CPU 在软中断上的使用率比较高,而且 CPU 使用率最高的进程也是软中断 ksoftirqd 的时候,这种一般可以认为系统的开销被软中断占据了。

这时我们就可以分析是哪种软中断类型导致的,一般来说都是因为网络接收软中断导致的,如果是的话,可以用 sar 命令查看是哪个网卡的有大量的网络包接收,再用 tcpdump 抓网络包,做进一步分析该网络包的源头是不是非法地址,如果是就需要考虑防火墙增加规则,如果不是,则考虑硬件升级等。

以上是关于14如何定位软中断 CPU 使用率过高的问题?的主要内容,如果未能解决你的问题,请参考以下文章

Java如何定位占用CPU比较高的问题

记一次线上Java程序导致服务器CPU占用率过高的问题排除过程

[转]定位占用oracle数据库cpu过高的sql

如何定位占用oracle数据库cpu过高的sql

linux 性能优化-- cpu 切换以及cpu过高

线上Java程序导致服务器CPU占用率过高的问题排除过程