[转帖]进程上下文频繁切换导致load average过高

Posted 2020-11-16 jinanxiaolaohu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[转帖]进程上下文频繁切换导致load average过高相关的知识，希望对你有一定的参考价值。

进程上下文频繁切换导致load average过高

2016年6月26日admin发表评论阅读评论

http://www.361way.com/linux-context-switch/5131.html

一、问题现象

现网有两台虚拟机主机95%的cpu处于idle状态，内存使用率也不是特别高，而主机的load average达到了40多。

二、问题分析

先在主机上通过top、free、ps、iostat 等常用工具分析了下主机的CPU、内存、IO使用情况，发现三者都不高。通过vmstat 1 查看的结果如下：

技术图片

从vmstat的输出结果来看，io项的block in 和block out 并不频繁。而system项的每称的中断数（in)、每秒的上下文切换（cs）特别频繁。这就造成load avaerage会特别高。大方向上的根因找到了，具体是哪个进程如何频繁的进行中断和上下文件的切换呢？

这里使用pidstat -w 1 （每秒刷新输出上下文切换情况），输出见下图：

技术图片

从上图中可以看到有cswch(自愿的上下文切换)和nvcswch(非自愿的上下文切换)及对应的命令，出vsftpd占用的文件交换比较多。可以看到这里显示的cs 值和总值还是有比较大的差距，由于主机上启动了不止一个vsftpd进程，而且pidstat 通过1秒刷新的时候并不会显示所有，通过pidstat -w执行几次收集所有发现所有的vsftpd进程占用的cs值叠加和vmstat里的比较相近了。

技术图片

将结果通知业务人员后，和业务人员的猜测也一致，由于ftp使用的目录结构层次较深、文件数也比较多，业务在备份老的使用目录并重新创建单层目录后，观察一段后，发现load average降下来了，稳定在1以下。

当然这里只是处理方法的一种，现网中有些程序不好进行这样的修改的，又不让让进程在cpu之间频繁切换的，也有通过设置固定运行的CPU上进行调优的方法，如下两个进程运行在0－7号cpu上：

[root@www ~]# taskset -c -p 6389
pid 6389‘s current affinity list: 0-7
[root@www ~]# taskset -c -p 6580
pid 6580‘s current affinity list: 0-7

可以通过taskset让其固定在0－1号cpu上运行：

[root@www ~]# taskset -c 0,1 -p 6389

这样做的原理是每当进程在切换到下一个cpu core上进会flush当前的cache数据，指定CPU时会减少这样的操作，增加进程的处理速度。这个对老的程序调优时比较有效。

三、有关上下文切换

1、上下文切换的理解

什么是上下文件切换呢？引用老外的一句话：A context switch (also sometimes referred to as a process switch or a task switch) is the switching of the CPU (central processing unit) from one process or thread to another.更详细的说明可以参看linfo站点或维基百科。

context switch过高会导致CPU像个搬运工，频繁在寄存器和运行队列之间奔波，更多的时间花在了线程切换，而不是真正工作的线程上。直接的消耗包括CPU寄存器需要保存和加载，系统调度器的代码需要执行。间接消耗在于多核cache之间的共享数据。