Prometheus&Grafana基本使用

Posted 微笑刺客D

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Prometheus&Grafana基本使用相关的知识,希望对你有一定的参考价值。

Prometheus介绍

Prometheus 是一套开源的系统监控与报警框架,以便于我们能够监控生产环境下的应用与服务。启发于 Google 的 BorgMon 监控系统,由工作在 SoundCloud 的 google 前员工在 2012 年创建,作为社区开源项目进行开发,并于 2015 年正式发布。2016 年,Prometheus 正式加入CNCF(Cloud Native Computing Foundation),成为受欢迎度仅次于 Kubernetes 的项目。

Prometheus特点

作为新一代的监控框架,Prometheus 具有以下特点:

  • 多维度数据模型:
    • 时间序列数据通过 metric 名和键值对来区分。
    • 所有的 metrics 都可以设置任意的多维标签。
    • 数据模型更随意,不需要刻意设置为以点分隔的字符串。
    • 可以对数据模型进行聚合,切割和切片操作。
    • 支持双精度浮点类型,标签可以设为全 unicode。
  • 灵活而强大的查询语句(PromQL):在同一个查询语句,可以对多个 metrics 进行乘法、加法、连接、取分数位等操作。
  • 易于管理: Prometheus server 是一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储。
  • 高效:平均每个采样点仅占 3.5 bytes,且一个 Prometheus server 可以处理数百万的 metrics。
  • 使用 pull 模式采集时序数据,这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的 metrics。
  • 可以采用 push gateway 的方式把时序数据推送至 Prometheus server 端。
  • 可以通过服务发现或者静态配置去获取监控的 targets。
  • 支持多种可视化图形界面,比如Grafana等。

Prometheus组件

Prometheus server

主要负责数据采集和存储,提供PromQL查询语言的支持。包含了三个组件:

  • Retrieval: 获取监控数据
  • TSDB: 时间序列数据库(Time Series Database),我们可以简单的理解为一个优化后用来处理时间序列数据的软件,并且数据中的数组是由时间进行索引的。具备以下特点:大部分时间都是顺序写入操作,很少涉及修改数据删除操作都是删除一段时间的数据,而不涉及到删除无规律数据读操作一般都是升序或者降序
  • HTTP Server: 为告警和出图提供查询接口

Metrics collection

主要负责指标的采集,其次将指标主动或被动交付给Prometheus Server

  • Job/Exporters: 数据采集组件,负责从目标处(主机/数据库/服务/容器/...)搜集数据,并将其转化为Prometheus支持的格式。已有一系列可用,面向各基础设施的采集工具可直接使用。组件完成数据采集后,等待Prometheus Server拉取。
  • Short-lived Jobs&Pushgateway: 支持临时Job主动推送指标到中间网关,进而等待Prometheus Server拉取。

Service discovery

  • Kubernetes: 支持从Kubernetes中自动发现服务和采集信息。
  • file_sd: 通过配置文件来实现服务的自动发现。

Alerting

通过相关的告警配置,对触发阈值的告警通过页面展示、短信和邮件通知的方式告知运维人员。

Visualization

通过PromQL语句查询指标信息,并在页面展示。可使用Prometheus自带UI界面,或是使用内容展示更加丰富的Grafana。也可调用API来获取监控指标。

Prometheus部署

准备好了两台服务器,用来模拟指标采集,其中一台服务器用来指标数据的收集,另一台用来部署Prometheus Server。

指标数据收集

从三个角度去收集指标数据,从主机指标,容器指标以及容器服务指标分别收集。

主机指标

为收集服务器指标数据,使用node_exporter,此处为了简便,使用容器安装,但最好是直接安装在主机上,以避免指标数据收集不准确。

docker run -d \\
--name StarCityNodeExporter \\
--restart=always \\
--net="host" \\
--pid="host" \\
-v "/proc:/host/proc:ro" \\
-v "/sys:/host/sys:ro" \\
-v "/:/rootfs:ro" \\
-e TZ=Asia/Shanghai \\
-v /etc/localtime:/etc/localtime \\
prom/node-exporter \\
--path.procfs=/host/proc \\
--path.rootfs=/rootfs \\
--path.sysfs=/host/sys \\
--collector.filesystem.ignored-mount-points=\'^/(sys|proc|dev|host|etc)($$|/)\'

可访问http://host:9100/metrics,查看指标数据

容器指标

再安装一个针对主机上所有容器的指标收集器cAdvisor,能够收集所有容器的CPU,内存,网络等使用情况。

docker run \\
  --volume=/:/rootfs:ro \\
  --volume=/var/run:/var/run:ro \\
  --volume=/sys:/sys:ro \\
  --volume=/var/lib/docker/:/var/lib/docker:ro \\
  --volume=/dev/disk/:/dev/disk:ro \\
  --publish=58080:8080 \\
  --detach=true \\
  --name=StarCityCAdvisor \\
  --privileged \\
  --device=/dev/kmsg \\
  google/cadvisor

可访问http://host:58080/containers,查看指标数据

容器服务指标

以及收集RabbitMQ指标的收集器RabbitMQ_exporter,--net=container:RabbitMQ容器名(此处我本地RabbitMQ容器名为StarCityRabbitMQ),需要注意,在创建RabbitMQ时候容器开放9419端口。

docker run --name StarCityRabbitMQExporter -d --net=container:StarCityRabbitMQ kbudde/rabbitmq-exporter

可访问http://host:9419/metrics,查看指标数据

Prometheus Server

配置文件挂载目录

mkdir -p /opt/prometheus/data
chmod -R 777 /opt/prometheus/data

配置Prometheus文件

cd /opt/prometheus/
touch prometheus.yml

此处为了方便,直接用winscp编辑了prometheus.yml文件

global:
  scrape_interval: 15s
  evaluation_interval: 15s
scrape_configs:
  - job_name: prometheus
    static_configs:
      - targets:
          - \'Prometheus Server Host:9090\'
        labels:
          appname: Prometheus
  - job_name: node
    scrape_interval: 10s
    static_configs:
      - targets:
          - \'Metrics Host:9100\'
        labels:
          appname: node
  - job_name: cadvisor
    static_configs:
      - targets:
          - \'Metrics Host:58080\'
  - job_name: rabbitmq
    scrape_interval: 10s
    static_configs:
      - targets:
          - \'Metrics Host:9419\'
        labels:
          appname: rabbitmq

搭建Prometheus容器

docker run -d \\
--name StarCityPrometheus \\
--restart=always \\
-p 9090:9090 \\
-v /opt/prometheus/data:/prometheus \\
-e TZ=Asia/Shanghai \\
-v /etc/localtime:/etc/localtime \\
-v /opt/prometheus:/etc/prometheus \\
prom/prometheus

可通过http://host:9090/targets,访问Prometheus的UI页面查看prometheus.yml中配置的指标采集组件信息及情况。

Grafana

介绍

Grafana使你能够把来自不同数据源比如Elasticsearch, Prometheus, Graphite, influxDB等多维度的数据以绚丽的图表展示出来。它也能基于你的metrics数据发出告警。当一个告警状态改变时,它能通过email,slack或者其他途径发出通知。

搭建Grafana

docker run -d --name StarCityGrafana --restart=always -p 3000:3000 grafana/grafan

可访问http://host:3000,初始化用户名密码:admin/admin(首次进入后可改密码或跳过)。

设置数据源

选择Prometheus作为数据源,从其中读取数据,用于图表展示。

设置Prometheus地址与其他参数

导入仪表

已有许多设置好的,图表丰富的模板我们可以直接从模板库中导入使用。

对于主机层面的node_exporter指标收集器,此处使用id 8919

对于容器层面的cadvisor指标收集器,此处使用id 13112

对于容器服务层面的rabbitmq的指标收集器,此处使用id 4279

2023-01-31,望技术有成后能回来看见自己的脚步

以上是关于Prometheus&Grafana基本使用的主要内容,如果未能解决你的问题,请参考以下文章

普罗米修斯Prometheus+Grafana,监控搭建与界面基础配置

普罗米修斯Prometheus+Grafana,监控搭建与界面基础配置

k8s Prometheus+CAdvisor+node_export+grafana

prometheus+grafana

Prometheus+Grafana监控MySQL浅析

Prometheus + Grafana