使用 prometheus 计算 k8s 集群 cpu/内存使用情况
Posted
技术标签:
【中文标题】使用 prometheus 计算 k8s 集群 cpu/内存使用情况【英文标题】:count k8s cluster cpu/memory usage with prometheus 【发布时间】:2019-07-18 21:22:51 【问题描述】:我想用 prometheus 统计 k8s 集群 cpu/内存使用情况(不是 k8s pod 使用情况),以便在 grafana 中显示。
我使用sum (container_memory_usage_bytesid="/")
获取k8s集群已用内存,topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance))
获取整个k8s集群内存,但是由于topk
函数返回的不是值而是向量,所以它们不能分割。
我该怎么做?
【问题讨论】:
【参考方案1】:我已经通过 gcloud 默认应用程序在 google Cloud 上安装了 Prometheus。仪表板随安装自动部署。以下查询用于集群的内存和 CPU 使用情况:
按命名空间划分的 CPU 使用率:
sum(irate(container_cpu_usage_seconds_total[1m])) by (namespace)
按命名空间划分的内存使用情况(无缓存):
sum(container_memory_rss) by (namespace)
CPU 请求承诺:
sum(kube_pod_container_resource_requests_cpu_cores) / sum(node:node_num_cpu:sum)
内存请求承诺:
sum(kube_pod_container_resource_requests_memory_bytes) / sum(node_memory_MemTotal)
【讨论】:
我不能使用node_memory_MemTotal
,因为 1)我有一些节点,一些在 k8s 集群中,一些没有,所以我不能使用 2)它仍然不是 k8s 集群使用,这意味着主机级别总计【参考方案2】:
我的主要问题是topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance))
不能返回值,但现在我发现使用sum()
来隐藏它可以工作,整个查询如下:
sum(sum (container_memory_usage_bytesid="/")by (instance))/sum(topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)))*100
【讨论】:
使用sum(avg(kube_node_status_allocatable_memory_bytes) by (node))
可能会更好地获得 k8s 使用的整个内存资源。以上是关于使用 prometheus 计算 k8s 集群 cpu/内存使用情况的主要内容,如果未能解决你的问题,请参考以下文章