InfluxDB 监控指标分析
Posted 钟艾伶
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了InfluxDB 监控指标分析相关的知识,希望对你有一定的参考价值。
表 | 指标名 | 指标 | 含义 | 配置告警 | 设置告警原因 | 图表/数值型 | 是否web展示(默认展示,否给与标注) |
---|---|---|---|---|---|---|---|
influxdb_cq | 连续查询失败次数continuous queries (CQs) | queryFail | 数值 | 否 | |||
连续查询成功次数 | queryOk | 否 | |||||
连续查询成功率(衍生) | queryOk/(queryFail+queryOk) | 告警 | 成功率低考虑influx 停服、或处理请求过多导致请求被拒 | 折线,率及成功失败次数,一同展示 | |||
influxdb_database | 数值 | 否 | |||||
Series数量 | numSeries | series数量,越多表示tag value组合越多;inmem模式内存占用越高 | 告警 | 关系到服务器内存占用情况 | 折线 | ||
influxdb_httpd | authFail | ||||||
HTTP查询请求次数 | req | (除http还有flux cmd方式请求,agent自动区分采集记录 ) | |||||
当前活跃HTTP请求个数 | reqActive | ||||||
执行查询所用耗时(Ns) | reqDurationNs | ||||||
存储丢弃采点数 | pointsWrittenDropped | ||||||
存储失败采点数 | pointsWrittenFail | ||||||
存储成功采点数 | pointsWrittenOK | ||||||
存储成功率(衍生) | pointsWrittenFail/(ok+fail+dropped) | 告警 | 反应采点数存储情况 | ||||
存储丢弃率(衍生) | pointsWrittenDropped/(ok+fail+dropped) | 告警 | 反应采点被丢弃情况,丢弃率高应该告警排查原因,为何丢弃 | ||||
HTTP写请求次数 | writeReq | ||||||
当前活跃HTTP写请求个数 | writeReqActive | ||||||
写请求字节大小 | writeReqBytes | 告警 | 体现IO情况 | ||||
influxdb_memstats | 已分配堆大小(byte) | HeapAlloc | |||||
闲置堆大小 | HeapIdle | ||||||
使用堆大小 | HeapInuse | ||||||
从操作系统获得的堆大小 | HeapSys | ||||||
内存占用率 | HeapSys/osMem | 使用/os总内存 | 告警 | 比率过高,表示influx占用太多系统内存,需要排查原因。 (可以提前发现influx 吃内存的情况,以及观察规律,总结具体是什么时间点吃内存,是否周期性。也避免os直接占用太高比如80、90才告警,预先发现内存耗用) | |||
操作系统回收堆大小 | HeapReleased | 告警 | 回收也标识influx标记为无用的内存有没有被有效回收。长时间不回收就要考虑回收策略是不是有问题 | ||||
上一次GC时间 | LastGC | ||||||
GC STW时间 | PauseTotalNs | 从程序启动后,gc stop-the-world 的累计时间 Ns | |||||
influxdb_runtime | runtime 指标同influxdb_memstats基本一致。不过表示当前时,正在情况 (统计runtime更能体现进程当下情况 ) | ||||||
influxdb_shard | shard大小 (bytes) | diskBytes | |||||
series 索引类型 | indexType | inmem or tsi1 | |||||
series个数 | seriesCreate | ||||||
db的shard个数 | n_shards | 体现shard情况,rp过期策略、磁盘资源回收 | |||||
influxdb_tsm1_engine TSM存储引擎相关指标 | |||||||
官方Chronograf
以上是关于InfluxDB 监控指标分析的主要内容,如果未能解决你的问题,请参考以下文章