用 Django 和 Kubernetes 部署 prometheus，如何让它抓取 Django 应用程序？

Posted 2023-02-15

技术标签:

【中文标题】用 Django 和 Kubernetes 部署 prometheus，如何让它抓取 Django 应用程序？【英文标题】：Deployed prometheus with Django and Kubernetes, how to make it scrape the Django app? 【发布时间】：2021-12-26 17:01:00 【问题描述】：

我在 Kubernetes 中部署了一个 Django 项目，我正在尝试将 Prometheus 部署为监控工具。我已成功完成在项目中包含 django_prometheus 所需的所有步骤，并且在本地我可以转到 localhost:9090 并尝试查询指标。

我还将 Prometheus 部署到我的 Kubernetes 集群中，在 Prometheus pod 上运行 kubectl port-forward ... 后，我可以看到我的 Kubernetes 资源的一些指标。

我有点困惑的是如何使部署的 Django 应用程序指标像其他人一样在 Prometheus 仪表板上可用。我将我的应用程序部署在 default 命名空间中，并将 prometheus 部署在 monitoring 专用命名空间中。我想知道我在这里错过了什么。我是否需要根据工作人员的数量或类似的东西，将服务和部署上的端口从 8000 公开到 8005？

我的 Django 应用使用 gunicorn 运行，使用 supervisord，如下所示：

[program:gunicorn]
command=gunicorn --reload --timeout 200000 --workers=5 --limit-request-line 0 --limit-request-fields 32768 --limit-request-field_size 0 --chdir /code/ my_app.wsgi

my_app服务：

apiVersion: v1
kind: Service
metadata:
  name: my_app
  namespace: default
spec:
  ports:
  - name: http
    port: 80
    protocol: TCP
    targetPort: 80
  selector:
    app: my-app
  sessionAffinity: None
  type: ClusterIP

deployment.yaml 的精简版

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: my-app
  name: my-app-deployment
  namespace: default
spec:
  progressDeadlineSeconds: 600
  replicas: 1
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: my-app
  strategy:
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
    type: RollingUpdate
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
      - image: ...
        imagePullPolicy: IfNotPresent
        name: my-app
        ports:
        - containerPort: 80
          name: http
          protocol: TCP
      dnsPolicy: ClusterFirst
      imagePullSecrets:
      - name: regcred
      restartPolicy: Always
      schedulerName: default-scheduler
      terminationGracePeriodSeconds: 30

prometheus configmap

apiVersion: v1
data:
  prometheus.rules: |-
    ... some rules
  prometheus.yml: |-
    global:
      scrape_interval: 5s
      evaluation_interval: 5s
    rule_files:
      - /etc/prometheus/prometheus.rules
    scrape_configs:
      - job_name: prometheus
        static_configs:
        - targets:
          - localhost:9090

      - job_name: my-app
        metrics_path: /metrics
        static_configs:
          - targets:
            - localhost:8000

      - job_name: 'node-exporter'
        kubernetes_sd_configs:
          - role: endpoints
        relabel_configs:
        - source_labels: [__meta_kubernetes_endpoints_name]
          regex: 'node-exporter'
          action: keep

kind: ConfigMap
metadata:
  labels:
    name: prometheus-config
  name: prometheus-config
  namespace: monitoring

【问题讨论】：

提供的任何解决方案对您有帮助吗？我没有更改以正确应用这两个建议。当我这样做时，我会发布更新。 【参考方案1】：

如果 promehteus 与您的应用安装在同一个集群上，则您不必公开服务。您可以按照规则使用 Kubernetes DNS 解析在命名空间之间与应用程序通信：

SERVICENAME.NAMESPACE.svc.cluster.local

所以一种方法是将您的 prometheus 工作目标更改为类似的内容

  - job_name: speedtest-ookla
    metrics_path: /metrics
    static_configs:
      - targets:
          - 'my_app.default.svc.cluster.local:9000'

这是“手动”方式。更好的方法是使用 prometheus kubernetes_sd_config。它会自动发现您的服务并尝试抓取它们。

参考：https://prometheus.io/docs/prometheus/latest/configuration/configuration/#kubernetes_sd_config

【讨论】：

我尝试了这个解决方案，但在 prometheus 仪表板Get "http://my_app.default.svc.cluster.local:8000/metrics": context deadline exceeded 中仍然出现错误。不过它适用于普罗米修斯。 @everspader 将端口更改为 80，而不是 8000。您的 Deployment 正在侦听 80 端口，与 Service 相同。另请查看@Marco 的答案。它会自动抓取您的部署和服务。【参考方案2】：

无需将应用程序暴露在集群之外。

利用 Kubernetes 服务发现，将作业添加到抓取服务、Pod 或两者：

- job_name: 'kubernetes-service-endpoints'
  kubernetes_sd_configs:
  - role: endpoints
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
    action: keep
    regex: true
  - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
    action: replace
    regex: ([^:]+)(?::\d+)?;(\d+)
    replacement: $1:$2
    target_label: __address__
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
    action: replace
    target_label: __metrics_path__
    regex: (.+)
  - source_labels: [__meta_kubernetes_namespace]
    action: replace
    target_label: namespace
    regex: (.+)
  - regex: __meta_kubernetes_service_label_(.+)
    action: labelmap
  - regex: 'app_kubernetes_io_(.+)'
    action: labeldrop
  - regex: 'helm_sh_(.+)'
    action: labeldrop

- job_name: 'kubernetes-pods'
  kubernetes_sd_configs:
  - role: pod
  relabel_configs:
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
    action: keep
    regex: true
  - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
    action: replace
    regex: ([^:]+)(?::\d+)?;(\d+)
    replacement: $1:$2
    target_label: __address__
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
    action: replace
    target_label: __metrics_path__
    regex: (.+)
  - source_labels: [__meta_kubernetes_namespace]
    action: replace
    target_label: namespace
    regex: (.+)
  - source_labels: [__meta_kubernetes_pod_node_name]
    action: replace
    target_label: host
    regex: (.+)
  - source_labels: [__meta_kubernetes_pod_name]
    action: replace
    target_label: pod
    regex: (.+)
  - regex: __meta_kubernetes_pod_label_(.+)
    action: labelmap
  - regex: 'app_kubernetes_io_(.+)'
    action: labeldrop
  - regex: 'helm_sh_(.+)'
    action: labeldrop

然后，使用以下内容注释服务：

metadata:
  annotations:
    prometheus.io/scrape: "true"
    prometheus.io/port: "80"
    prometheus.io/path: "/metrics"

和部署：

spec:
  template:
    metadata:
     annotations:
      prometheus.io/scrape: "true"
      prometheus.io/port: "80"
      prometheus.io/path: "/metrics"

【讨论】：

以上是关于用 Django 和 Kubernetes 部署 prometheus，如何让它抓取 Django 应用程序？的主要内容，如果未能解决你的问题，请参考以下文章

基于Django开发的Kubernetes管理平台

用Kubernetes部署企业大数据应用

基于Python+Django的Kubernetes集群管理平台

kubernetes 提供啥功能

用Python/Keras/Flask/Docker在Kubernetes上部署深度学习模型

KUBERNETES01_部署方式的变迁为什么用Kubernetes工作原理组件交互原理动画演示