使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据

Posted

技术标签:

【中文标题】使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据【英文标题】:Monitoring Kubernetes with Grafana: lots of missing data with latest Prometheus version 【发布时间】:2018-12-13 04:53:03 【问题描述】:

我有一个正在运行的 Kubernetes 集群,我想使用 Grafana 进行监控。

我一直在尝试来自 https://grafana.com/dashboards 的许多仪表板,但它们似乎都有一些问题:Prometheus 指标名称与仪表板的预期名称之间似乎存在不匹配。

例如,如果我看一下这个最近发布的非常流行的仪表板:https://grafana.com/dashboards/5309/revisions

运行它时我最终会遇到很多“漏洞”:

查看面板配置,我发现问题来自小键更改,例如 node_memory_Buffers 而不是 node_memory_Buffers_bytes

当 Prometheus 提供 node_disk_written_bytes_total 时,仪表板同样需要 node_disk_bytes_written

我已经试用了 很多 个 Kubernetes 特定的仪表板,但几乎所有的仪表板都遇到了同样的问题。

我做错了吗?

【问题讨论】:

【参考方案1】:

Prometheus 节点导出器在 0.16.0 版本中更改了很多指标名称以符合新的命名约定。

来自https://github.com/prometheus/node_exporter/releases/tag/v0.16.0:

重大变化

此版本包含对指标名称的重大重大更改。许多 度量有新的名称、标签和标签值以符合 按照当前的命名约定。

Linux node_cpu 指标现在将guest 值分解为单独的 指标。 许多计数器指标已重命名为include _total。 许多指标已重命名/修改为包括 基本单位,例如 node_cpu 现在是 node_cpu_seconds_total

另见upgrade guide。它的建议之一是使用compatibility rules,这将使用旧名称创建重复的指标。

否则在仪表板更新之前使用 0.15.x 版本,或者修复它们!

【讨论】:

以上是关于使用 Grafana 监控 Kubernetes:最新 Prometheus 版本丢失了大量数据的主要内容,如果未能解决你的问题,请参考以下文章

Kubernetes第七篇:使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)

Kubernetes第七篇:使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)

Kubernetes_08_使用kubernetes部署prometheus+grafana监控系统(Kubernetes工作实践类)

使用 Prometheus + Grafana 对 Kubernetes 进行性能监控的实践

kubernetes之监控系统--prometheus+grafana+alertmanager

使用 grafana 访问远程 kubernetes 集群