无法获取 cpu pod 指标,k8s-containerd-containerd-shim-runsc-v1-gvisor

Posted

技术标签:

【中文标题】无法获取 cpu pod 指标,k8s-containerd-containerd-shim-runsc-v1-gvisor【英文标题】:Unable to fetch cpu pod metrics, k8s- containerd - containerd-shim-runsc-v1 - gvisor 【发布时间】:2020-11-17 19:25:37 【问题描述】:

我从 gvisor-containerd-shim (Shim V1) 迁移到 containerd-shim-runsc-v1 (Shim V2)。在 gvisor-containerd-shim 的情况下,指标服务器和 Horizo​​ntal Pod Autoscaler 过去可以正常工作。

但现在,使用 containerd-shim-runsc-v1,我不断获取节点和 runc pod 的 CPU 和内存指标,但我只获得 runc (gvisor) pod 的内存指标。

例如,我使用 containerd-shim-runsc-v1 在 gvisor pod 中部署了一个 php 服务器。我得到以下指标:

kubectl get hpa
NAME         REFERENCE               TARGETS   MINPODS   MAXPODS   REPLICAS   AGE
php-apache   Deployment/php-apache   0%/50%    1         10        1          68s


kubectl top nodes
NAME         CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
snf-877559   549m         13%    2327Mi          39%


kubectl top pods
NAME                                 CPU(cores)   MEMORY(bytes)
php-apache-gvisor-6f7bb6cf84-28qdk   0m           52Mi

向 php-apache-gvisor pod 发送一些负载后,我可以看到节点和 runc pod(负载生成器)的 CPU 和内存使用增量。 我也可以看到 php-apache-gvisor 的内存从 52 米增加到了 72 米,但它的 CPU 使用率保持在 0%。 为什么 cpu 使用率保持在 0%?

我也尝试过使用不同的容器图像,但我一直得到相同的结果。

随着负载,我得到以下指标:

kubectl get hpa
NAME         REFERENCE               TARGETS   MINPODS   MAXPODS   REPLICAS   AGE
php-apache   Deployment/php-apache   0%/50%    1         10        1          68s


kubectl top nodes
NAME         CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
snf-877559   946m         23%    2413Mi          41%


kubectl top pods
NAME                             CPU(cores)   MEMORY(bytes)
load-generator-7d549cd44-xmbqw   3m           1Mi
php-apache-gvisor-6f7bb6cf84-28qdk      0m           72Mi

更多信息:

kubeadm,kubernetes 1.15.3,containerd 1.3.3,runsc nightly/2019-09-18,flannel

kubectl logs metrics-server-74657b4dc4-8nlzn -n kube-system
I0728 09:33:42.449921       1 serving.go:312] Generated self-signed cert (/tmp/apiserver.crt, /tmp/apiserver.key)
I0728 09:33:44.153682       1 secure_serving.go:116] Serving securely on [::]:4443
E0728 09:35:24.579804       1 reststorage.go:160] unable to fetch pod metrics for pod default/php-apache-gvisor-6f7bb6cf84-28qdk: no metrics known for pod
E0728 09:35:39.940417       1 reststorage.go:160] unable to fetch pod metrics for pod default/php-apache-gvisor-6f7bb6cf84-28qdk: no metrics known for pod

/etc/containerd/config.toml (containerd-shim-runsc-v1)

subreaper = true
oom_score = -999
disabled_plugins = ["restart"]


[debug]
    level = "debug"

[metrics]
    address = "127.0.0.1:1338"

[plugins.linux]
    runtime = "runc"
    shim_debug = true


[plugins.cri.containerd.runtimes.runsc]
  runtime_type = "io.containerd.runsc.v1"

/etc/containerd/config.toml (gvisor-containerd-shim)

subreaper = true
oom_score = -999
disabled_plugins = ["restart"]


[debug]
    level = "debug"

[metrics]
    address = "127.0.0.1:1338"

[plugins.linux]
    runtime = "runc"
    shim_debug = true
    shim = "/usr/local/bin/gvisor-containerd-shim"


[plugins.cri.containerd.runtimes.runsc]
  runtime_type = "io.containerd.runtime.v1.linux"
  runtime_engine = "/usr/local/bin/runsc"
  runtime_root = "/run/containerd/runsc"

指标服务器 yaml 基于 https://github.com/kubernetes-sigs/metrics-server/releases/download/v0.3.6/components.yaml 并带有以下参数

....
      containers:
      - name: metrics-server
        image: k8s.gcr.io/metrics-server-amd64:v0.3.6
        imagePullPolicy: IfNotPresent
        args:
          - --kubelet-preferred-address-types=InternalIP
          - --kubelet-insecure-tls
          - --cert-dir=/tmp
          - --secure-port=4443
....

当前部署有以下资源部分

  resources:
    limits:
      cpu: 500m
    requests:
      cpu: 200m

【问题讨论】:

您的 gVisor 唯一配置的容器配置是什么?你为配置 runc 添加了什么? 感谢您的评论。对于 containerd 配置,我使用了 /etc/containerd/config.toml 文件(您可以在我的问题中看到它)。我还将 RuntimeClass 用于 gvisor。对于安装,我依赖于本指南 -> github.com/google/gvisor-containerd-shim/blob/master/docs/… 。如果我误解了您的问题,请告诉我。 是的,但您最初说过您拥有 gVisor。然后将 runc 和 gVisor 添加在一起。你在配置中做了什么改变? 谢谢。在这两种情况下,我都运行了 runc 和 runc 容器。在第一种情况下,我使用 gvisor-containerd-shim,在第二种情况下,我使用 containerd-shim-runsc-v1。为了从 gvisor-containerd-shim 迁移到 containerd-shim-runsc-v1,我删除了部署,更改了 /etc/containerd/config.toml 文件,重新启动了 containerd 和 kubelet,然后我再次部署了指标服务器和示例部署.此外,我将 containerd-shim-runsc-v1 部署到了一个全新的集群,这次我得到了相同的结果。我更新了我的答案,以便您可以看到初始配置文件。 【参考方案1】:

gVisor 目前仅报告每个 Pod 的内存和 Pid。 见:https://github.com/google/gvisor/blob/add40fd/runsc/boot/events.go#L62-L68

我们计划导出更多统计数据,跟踪该工作的问题在这里: https://gvisor.dev/issue/172

【讨论】:

以上是关于无法获取 cpu pod 指标,k8s-containerd-containerd-shim-runsc-v1-gvisor的主要内容,如果未能解决你的问题,请参考以下文章

无法获取 pod 指标 -Kubernetes

Prometheus 查询以获取 kubernetes pod 中的 CPU 和内存使用情况

prometheus 中 kube_metrics_server_pods_cpu 指标的单位

通过Prometheus查询计算Kubernetes集群中Pod 的CPU、内存使用率等指标

Horizontal Pod Autoscaler(Pod水平自动伸缩)

Pod 无法访问 kubelet 端点