使用 prometheus 计算 k8s 集群 cpu/内存使用情况

Posted

技术标签:

【中文标题】使用 prometheus 计算 k8s 集群 cpu/内存使用情况【英文标题】:count k8s cluster cpu/memory usage with prometheus 【发布时间】:2019-07-18 21:22:51 【问题描述】:

我想用 prometheus 统计 k8s 集群 cpu/内存使用情况(不是 k8s pod 使用情况),以便在 grafana 中显示。

我使用sum (container_memory_usage_bytesid="/")获取k8s集群已用内存,topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance))获取整个k8s集群内存,但是由于topk函数返回的不是值而是向量,所以它们不能分割。

我该怎么做?

【问题讨论】:

【参考方案1】:

我已经通过 gcloud 默认应用程序在 google Cloud 上安装了 Prometheus。仪表板随安装自动部署。以下查询用于集群的内存和 CPU 使用情况:

按命名空间划分的 CPU 使用率:

sum(irate(container_cpu_usage_seconds_total[1m])) by (namespace)

按命名空间划分的内存使用情况(无缓存):

sum(container_memory_rss) by (namespace)

CPU 请求承诺:

sum(kube_pod_container_resource_requests_cpu_cores) / sum(node:node_num_cpu:sum)

内存请求承诺:

sum(kube_pod_container_resource_requests_memory_bytes) / sum(node_memory_MemTotal)

【讨论】:

我不能使用node_memory_MemTotal,因为 1)我有一些节点,一些在 k8s 集群中,一些没有,所以我不能使用 2)它仍然不是 k8s 集群使用,这意味着主机级别总计【参考方案2】:

我的主要问题是topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)) 不能返回值,但现在我发现使用sum() 来隐藏它可以工作,整个查询如下:

sum(sum (container_memory_usage_bytesid="/")by (instance))/sum(topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)))*100

【讨论】:

使用 sum(avg(kube_node_status_allocatable_memory_bytes) by (node)) 可能会更好地获得 k8s 使用的整个内存资源。

以上是关于使用 prometheus 计算 k8s 集群 cpu/内存使用情况的主要内容,如果未能解决你的问题,请参考以下文章

基于k8s集群部署prometheus监控etcd

K8S部署Prometheus+Grafana监控集群

用于 k8s 多集群的 Prometheus

基于prometheus监控k8s集群

Prometheus+Grafan监控k8s集群详解

搭建Prometheus监控k8s服务