一、邮箱报警内空明显是CPU不够用了,IO也有点问题:主机: bwebser2__10.253.5.198 时间: 2015.11.15 15:25:17状态: PROBLEM 级别: Warning报警原因: Processor load is too high on bwebser2内容: Processor load (1 min average per core):value=52.53原始事件ID: 30605主机: bwebser2__10.253.5.198时间: 2015.11.18 15:42:23 状态: PROBLEM级别: Warning 报警原因: Disk I/O is overloaded on bwebser2 内容: CPU iowait time:value=68.7 %原始事件ID: 30812

二、用top查看进程,发现有近2000个进程

三、猜测可能和sendmail有关,查maillog日志,一直报警:No space left on device

四、用lsof确定sendmail、postdrop进程数量,进程数达到2000多个,为什么有这么多呢?

 

五、查看文件索引节点inode,发现空间满了:

六、通过清除zookeeper监控日志把腾出根的空间

七、杀死所有sendmail和postdrop进程后

八、lsof查看,进程数为0

九、被忽略的/etc/cron.d下的sysstat,修改sysstat,操作如下:

十、再次用top命令查看进程只有100多个,监控报警消失,问题搞定!