记一次Zabbix延时问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次Zabbix延时问题相关的知识,希望对你有一定的参考价值。

zabbix server队列延时

问题:查看队列数,发现队列延时一致高于某个值,于是来查查是什么问题导致。

技术分享图片

1. 查看队列延时详细信息

技术分享图片

技术分享图片

我们可以看到延时都对应某个监控项。此时已某主机查看监控数据,以10.70.242.201为例。

2. 查看监控数据

技术分享图片

我们可以看到延时的数据自从早上八点就没有更新了。

3. 查看特定item的图形

技术分享图片

可以看出数据的不连续,而这种情况只出现在某些固定的item上。可也粗略推测是此数据的某些特征导致延时,

4. 查看延时item的配置

我们发现延时严重的item多半主动检测

5. 查看主机agent的配置文件

查看是否开启了主动检测ServerActive指令是否开启?查看开启了。

6. 查看日志文件

agent日志文件

1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null))
1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))

我们可以看到agent端上传主动检测的数据时,无法连接到主机。这个表明agent可以从server端获取监控的items。

server端日志

cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found

7. 问题原因

这是由于agent端和server端标记主机的方式不同,主动检测时,agent的身份是配置文件中hostname的值,如果hostname没有指明,则使用主机名代替,而我们server端标识主机使用的IP导致无法识别agent 主机。

8. 解决方法

  • 只需将server 添加主机值主机名称和agent中配置指令hostname一致进行。
  • 将主动检测改为被动检测。

9. 总结

解决问题时,一步步验证猜测。往往日志文件会给我们很大的提示。

以上是关于记一次Zabbix延时问题的主要内容,如果未能解决你的问题,请参考以下文章

记一次基于zabbix snmp 监控实例

zabbix记一次简单的部署包方式安装一次过

记一次zabbix启动不成功

记一次ADG备库归档目录满导致的延时处理

记一次zabbix server挂掉的事件

记一次渗透测试过程中的Zabbix命令执行利用