使用 prometheus 计算 k8s 集群 cpu/内存使用情况

Posted 2023-02-15

技术标签:

【中文标题】使用 prometheus 计算 k8s 集群 cpu/内存使用情况【英文标题】：count k8s cluster cpu/memory usage with prometheus 【发布时间】：2019-07-18 21:22:51 【问题描述】：

我想用 prometheus 统计 k8s 集群 cpu/内存使用情况（不是 k8s pod 使用情况），以便在 grafana 中显示。

我使用sum (container_memory_usage_bytesid="/")获取k8s集群已用内存，topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance))获取整个k8s集群内存，但是由于topk函数返回的不是值而是向量，所以它们不能分割。

我该怎么做？

【问题讨论】：

【参考方案1】：

我已经通过 gcloud 默认应用程序在 google Cloud 上安装了 Prometheus。仪表板随安装自动部署。以下查询用于集群的内存和 CPU 使用情况：

按命名空间划分的 CPU 使用率：

sum(irate(container_cpu_usage_seconds_total[1m])) by (namespace)

按命名空间划分的内存使用情况（无缓存）：

sum(container_memory_rss) by (namespace)

CPU 请求承诺：

sum(kube_pod_container_resource_requests_cpu_cores) / sum(node:node_num_cpu:sum)

内存请求承诺：

sum(kube_pod_container_resource_requests_memory_bytes) / sum(node_memory_MemTotal)

【讨论】：

我不能使用node_memory_MemTotal，因为 1）我有一些节点，一些在 k8s 集群中，一些没有，所以我不能使用 2）它仍然不是 k8s 集群使用，这意味着主机级别总计【参考方案2】：

我的主要问题是topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)) 不能返回值，但现在我发现使用sum() 来隐藏它可以工作，整个查询如下：

sum(sum (container_memory_usage_bytesid="/")by (instance))/sum(topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)))*100

【讨论】：

使用 sum(avg(kube_node_status_allocatable_memory_bytes) by (node)) 可能会更好地获得 k8s 使用的整个内存资源。

以上是关于使用 prometheus 计算 k8s 集群 cpu/内存使用情况的主要内容，如果未能解决你的问题，请参考以下文章