InfluxDB 监控指标分析

Posted 钟艾伶

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了InfluxDB 监控指标分析相关的知识,希望对你有一定的参考价值。

指标名指标含义

配置告警

设置告警原因图表/数值型是否web展示(默认展示,否给与标注)
influxdb_cq

连续查询失败次数continuous queries (CQs)

queryFail数值
连续查询成功次数queryOk
连续查询成功率(衍生)queryOk/(queryFail+queryOk)告警成功率低考虑influx 停服、或处理请求过多导致请求被拒折线,率及成功失败次数,一同展示
influxdb_database采集DB个数numMeasurements数值
Series数量numSeriesseries数量,越多表示tag value组合越多;inmem模式内存占用越高告警关系到服务器内存占用情况折线
influxdb_httpdauthFail
HTTP查询请求次数req(除http还有flux cmd方式请求,agent自动区分采集记录 )
当前活跃HTTP请求个数reqActive
执行查询所用耗时(Ns)reqDurationNs
存储丢弃采点数pointsWrittenDropped
存储失败采点数pointsWrittenFail
存储成功采点数pointsWrittenOK
存储成功率(衍生)

pointsWrittenFail/(ok+fail+dropped)

告警反应采点数存储情况
存储丢弃率(衍生)pointsWrittenDropped/(ok+fail+dropped)告警反应采点被丢弃情况,丢弃率高应该告警排查原因,为何丢弃
HTTP写请求次数writeReq
当前活跃HTTP写请求个数writeReqActive
写请求字节大小writeReqBytes告警体现IO情况
influxdb_memstats已分配堆大小(byte)HeapAlloc
闲置堆大小HeapIdle
使用堆大小HeapInuse
从操作系统获得的堆大小HeapSys
内存占用率HeapSys/osMem使用/os总内存告警

比率过高,表示influx占用太多系统内存,需要排查原因。 (可以提前发现influx 吃内存的情况,以及观察规律,总结具体是什么时间点吃内存,是否周期性。也避免os直接占用太高比如80、90才告警,预先发现内存耗用)

操作系统回收堆大小HeapReleased告警回收也标识influx标记为无用的内存有没有被有效回收。长时间不回收就要考虑回收策略是不是有问题
上一次GC时间LastGC
GC STW时间PauseTotalNs从程序启动后,gc stop-the-world 的累计时间 Ns
influxdb_runtimeruntime 指标同influxdb_memstats基本一致。不过表示当前时,正在情况 (统计runtime更能体现进程当下情况 )
influxdb_shardshard大小 (bytes)diskBytes
series 索引类型indexType inmem or tsi1
series个数seriesCreate
db的shard个数n_shards体现shard情况,rp过期策略、磁盘资源回收

influxdb_tsm1_engine

TSM存储引擎相关指标

官方Chronograf

以上是关于InfluxDB 监控指标分析的主要内容,如果未能解决你的问题,请参考以下文章

InfluxDB 监控指标分析

[svc]influxdb最佳实战-监控对比

基于 Njmon + InfluxDB + Grafana 实现性能指标实时可视监控

一分钟 Get 时序数据库 InfluxDB 的技能

震荡指标RSI指标

collectd+influxDB+grafana搭建性能监控平台