记一次Zabbix延时问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次Zabbix延时问题相关的知识,希望对你有一定的参考价值。
zabbix server队列延时
问题:查看队列数,发现队列延时一致高于某个值,于是来查查是什么问题导致。
1. 查看队列延时详细信息
我们可以看到延时都对应某个监控项。此时已某主机查看监控数据,以10.70.242.201为例。
2. 查看监控数据
我们可以看到延时的数据自从早上八点就没有更新了。
3. 查看特定item的图形
可以看出数据的不连续,而这种情况只出现在某些固定的item上。可也粗略推测是此数据的某些特征导致延时,
4. 查看延时item的配置
我们发现延时严重的item多半主动检测
5. 查看主机agent的配置文件
查看是否开启了主动检测ServerActive指令是否开启?查看开启了。
6. 查看日志文件
agent日志文件
1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null))
1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))
我们可以看到agent端上传主动检测的数据时,无法连接到主机。这个表明agent可以从server端获取监控的items。
server端日志
cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found
7. 问题原因
这是由于agent端和server端标记主机的方式不同,主动检测时,agent的身份是配置文件中hostname的值,如果hostname没有指明,则使用主机名代替,而我们server端标识主机使用的IP导致无法识别agent 主机。
8. 解决方法
- 只需将server 添加主机值主机名称和agent中配置指令hostname一致进行。
- 将主动检测改为被动检测。
9. 总结
解决问题时,一步步验证猜测。往往日志文件会给我们很大的提示。
以上是关于记一次Zabbix延时问题的主要内容,如果未能解决你的问题,请参考以下文章