使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据
Posted
技术标签:
【中文标题】使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据【英文标题】:Monitoring Kubernetes with Grafana: lots of missing data with latest Prometheus version 【发布时间】:2018-12-13 04:53:03 【问题描述】:我有一个正在运行的 Kubernetes 集群,我想使用 Grafana 进行监控。
我一直在尝试来自 https://grafana.com/dashboards 的许多仪表板,但它们似乎都有一些问题:Prometheus 指标名称与仪表板的预期名称之间似乎存在不匹配。
例如,如果我看一下这个最近发布的非常流行的仪表板:https://grafana.com/dashboards/5309/revisions
运行它时我最终会遇到很多“漏洞”:
查看面板配置,我发现问题来自小键更改,例如 node_memory_Buffers
而不是 node_memory_Buffers_bytes
。
当 Prometheus 提供 node_disk_written_bytes_total
时,仪表板同样需要 node_disk_bytes_written
。
我已经试用了 很多 个 Kubernetes 特定的仪表板,但几乎所有的仪表板都遇到了同样的问题。
我做错了吗?
【问题讨论】:
【参考方案1】:Prometheus 节点导出器在 0.16.0 版本中更改了很多指标名称以符合新的命名约定。
来自https://github.com/prometheus/node_exporter/releases/tag/v0.16.0:
重大变化
此版本包含对指标名称的重大重大更改。许多 度量有新的名称、标签和标签值以符合 按照当前的命名约定。
Linux node_cpu 指标现在将guest
值分解为单独的 指标。 许多计数器指标已重命名为include _total
。 许多指标已重命名/修改为包括 基本单位,例如node_cpu
现在是node_cpu_seconds_total
。
另见upgrade guide。它的建议之一是使用compatibility rules,这将使用旧名称创建重复的指标。
否则在仪表板更新之前使用 0.15.x 版本,或者修复它们!
【讨论】:
以上是关于使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据的主要内容,如果未能解决你的问题,请参考以下文章
Kubernetes第七篇:使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)
Kubernetes第七篇:使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)
Kubernetes_08_使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)
使用 Prometheus + Grafana 对 Kubernetes 进行性能监控的实践