使用 Grafana 监控 Kubernetes：最新 Prometheus 版本丢失了大量数据

Posted 2023-03-22

技术标签:

【中文标题】使用 Grafana 监控 Kubernetes：最新 Prometheus 版本丢失了大量数据【英文标题】：Monitoring Kubernetes with Grafana: lots of missing data with latest Prometheus version 【发布时间】：2018-12-13 04:53:03 【问题描述】：

我有一个正在运行的 Kubernetes 集群，我想使用 Grafana 进行监控。

我一直在尝试来自 https://grafana.com/dashboards 的许多仪表板，但它们似乎都有一些问题：Prometheus 指标名称与仪表板的预期名称之间似乎存在不匹配。

例如，如果我看一下这个最近发布的非常流行的仪表板：https://grafana.com/dashboards/5309/revisions

运行它时我最终会遇到很多“漏洞”：

查看面板配置，我发现问题来自小键更改，例如 node_memory_Buffers 而不是 node_memory_Buffers_bytes。

当 Prometheus 提供 node_disk_written_bytes_total 时，仪表板同样需要 node_disk_bytes_written。

我已经试用了很多个 Kubernetes 特定的仪表板，但几乎所有的仪表板都遇到了同样的问题。

我做错了吗？

【问题讨论】：

【参考方案1】：

Prometheus 节点导出器在 0.16.0 版本中更改了很多指标名称以符合新的命名约定。

来自https://github.com/prometheus/node_exporter/releases/tag/v0.16.0：

重大变化

此版本包含对指标名称的重大重大更改。许多度量有新的名称、标签和标签值以符合按照当前的命名约定。
Linux node_cpu 指标现在将guest 值分解为单独的指标。许多计数器指标已重命名为include _total。许多指标已重命名/修改为包括基本单位，例如 node_cpu 现在是 node_cpu_seconds_total。

另见upgrade guide。它的建议之一是使用compatibility rules，这将使用旧名称创建重复的指标。

否则在仪表板更新之前使用 0.15.x 版本，或者修复它们！

【讨论】：

以上是关于使用 Grafana 监控 Kubernetes：最新 Prometheus 版本丢失了大量数据的主要内容，如果未能解决你的问题，请参考以下文章

Kubernetes第七篇：使用kubernetes部署prometheus+grafana监控系统（Kubernetes工作实践类）

Kubernetes_08_使用kubernetes部署prometheus+grafana监控系统（Kubernetes工作实践类）

使用 Prometheus + Grafana 对 Kubernetes 进行性能监控的实践

kubernetes之监控系统--prometheus+grafana+alertmanager

使用 grafana 访问远程 kubernetes 集群