Prometheus监控实战之Docker容器监控
Posted alden_ygq
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Prometheus监控实战之Docker容器监控相关的知识,希望对你有一定的参考价值。
1 概述
容器的使用已经非常普及,将服务迁移到容器上正成为了越来越多公司的选择。而对于运维人员而言,熟悉容器的使用与监控,也已成为一项必不可少的专业技能。
关于容器的开源产品,目前知名的有Docker、Containerd、CoreOS rkt、LXC 等,在这其中Docker占据了绝对的统治地位,也是当前使用最广泛的容器产品。以下是docker应用常用的两种监控方式:
- Docker原生监控常用的方式有:docker ps/top/logs、docker stats、Docker Remote API、Docker伪文件系统。
- 但是原生的dockr命令监控的方式存在一点的局限性,针对这个问题,Google开源的容器度量收集工具cAdvisor可实现对容器的监控。
2 原生监控
2.1 docker stats
- 该命令默认以流式方式输出,如果想打印出最新的数据并立即退出,可以使用no-stream=true参数。可以指定一个已停止的容器,但是停止的容器不返回任何数据。
- 监控容器性能度量指标有多种方法,简单的如通过Docker的CPU、内存、网络及磁盘的使用情况进行监测,示例如下:
# docker stats
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
db9ee91008fc cadvisor 1.95% 100.3MiB / 1.777GiB 5.51% 3.06MB / 718MB 229kB / 0B 13
2.2 伪文件系统
- docker stats的数据来自/sys/fs/cgroup下的文件:
- mem usage那一列的值,来自于/sys/fs/cgroup/memory/docker/[containerId]/memory.usage_in_bytes。
- 如果没限制内存,Limit=machine_mem,否则来自于/sys/fs/cgroup/memory/docker/[id]/memory.limit_in_bytes。
- 内存使用率=memory.usage_in_bytes/memory.limit_in_bytes。
- 一般情况下,cgroup文件夹下的内容包括CPU、内存、磁盘、网络等信息,下面列出常用的指标说明。
- devices:设备权限控制。
- cpuset:分配指定的CPU和内存节点。
- cpu:控制CPU占用率。
- cpuacct:统计CPU使用情况。
- memory:限制内存的使用上限。
- freezer:冻结(暂停)cgroup中的进程。
- net_cls:配合tc(traffic controller)限制网络带宽。
- net_prio:设置进程的网络流量优先级。
- huge_tlb:限制HugeTLB的使用。
- perf_event:允许Perf工具基于cgroup分组做性能监测。
- 在memory中常用的指标说明如下:
- memory.usage_in_bytes:已使用的内存量(包含cache和buffer),相当于used_mem。
- memory.limit_in_bytes:限制的内存总量(字节),相当于Linux的total_mem。
- memory.failcnt:申请内存失败次数计数。
- memory.memsw.usage_in_bytes:已使用的内存和swap容量(字节)。
- memory.memsw.limit_in_bytes:限制的内存和swap容量(字节)。
- memory.memsw.failcnt:申请内存和swap失效次数计数。
- memory.stat:内存相关状态。
- 随着Docker容器云的广泛应用,大量的业务软件运行在容器中,这使得对Docker容器的监控越来越重要。对容器集群系统进行监控,一般采用物理机监控+容器本身监控的方式(如图10-2所示),具体监控指标总结如下:
- 容器本身资源使用情况:CPU、内存、网络、磁盘。
- 物理机的资源使用情况:CPU、内存、网络、磁盘。
- 物理机上容器镜像情况:名字、大小、版本。
- 目前较为流行的容器监控工具有DockerStats、cAdvisor、Scout、Data Dog以及Sensu。应用场景不同,各监控工具的优缺点体现得也有所不同。
- DockerStats是Docker本身提供的,用于监控容器资源使用情况,直接输入命令行即可查看,还可提供远程API接口,易于操作,但没有图形界面。
- cAdvisor可提供数据的可视化界面,并且可监控容器所在宿主机中的资源使用情况,只监控单一主机。
- Scout可聚合多主机容器的监控,并且提供告警,但无法显示容器的详细信息,更多的是偏向于主机资源的监控,为收费项目。
- Data Dog监控功能较为强大,可以获得运行和停止的容器计数以及镜像数量等,可整合集群主机数据和容器数据,但使用成本较高。
- Sensu监控部署较为复杂。
3 cAdvisor
3.1 cAdvisor概述
- 在容器集群的环境中,通过Docker stats命令对一台台机器收集容器的度量指标显然是不现实的。在Kubenetes(有时简称k8s)设计之初就考虑到了这一点,因此它将Google开源的容器度量收集工具cAdvisor集成到了Kubelet中。在集群中,Kubelet会驻留在集群的每一个节点上,因此cAdvisor也将随之运行在所有节点上。
- cAdvisor为容器用户提供了对其运行容器的资源使用和性能特征的理解。它是一个运行守护程序,用于收集、聚合、处理和导出有关正在运行的容器的信息,同时它消耗的资源也比较少。cAdvisor不仅可以搜集一台机器上所有运行的容器的信息,还提供基础查询界面和http接口,方便其他组件(如Prometheus)进行数据抓取,或者cAdvisor+Influxdb+Grafna搭配使用。可以导出资源使用情况和完整历史资源使用的直方图,通过快速预览压力表(pressuregauge)可了解集群是否需要额外的资源。
- cAdvisor可以对节点机器上的资源及容器进行实时监控和性能数据采集,包括CPU使用情况、内存使用情况、网络吞吐量及文件系统使用情况。
- cAdvisor也有一定的局限性,即只能监控一个Docker主机。对于多节点的场景,就需要在所有的主机上都各安装一个cAdvisor。另外,在图表中的数据仅仅显示时长为2分钟,并没有查看长期数据趋势的方法。它也没有生成告警的机制,如果资源使用率较高则可能存在风险。
3.2 cAdvisor架构
- 只需在宿主机上部署cAdvisor容器,用户就可通过Web界面或REST服务访问当前节点和容器的详尽性能数据(CPU、内存、网络、磁盘、文件系统等)。
- cAdvisor支持一下指标:
- 容器基础指标。
- 容器内进程查看。
- 容器状态实践。
- 监控数据push到第三方存储介质。
- 通过Prometheus采集自定义指标。
- 通过容器标签采集应用自定义指标。
- Collector可扩展开发其他标准类型,如数据库、Kafka、Redis等,当前只支持http方式采集应用自定义指标。
- Storage可扩展开发其他介质。
- cAdvisor软件架构如图10-3所示。
- cAdvisor主要包括API层、Handler、Manager、Collector,具体说明如下:
- API层:提供节点信息、容器运行状态信息、自定义指标信息、容器spec信息、事件信息、容器进程列表、文件系统信息的查询API。
- Handler:提供rkt、Docker的容器spec以及Storage栈信息。内置有rkt、Docker的适配器被Manager调用。
- Manager:总控,实例化Storage,为周期任务,通过Handler获取容器列表,自动发现容器的增/删等。
- Collector:内置两种采集器,即Prometheus和自定义指标采集器。
3.3 部署cAdvisor
//下载镜像
docker pull google/cadvisor:latest
//运行容器
docker run \\
--volume=/:/rootfs:ro \\
--volume=/var/run:/var/run:rw \\
--volume=/sys:/sys:ro \\
--volume=/var/lib/docker/:/var/lib/docker:ro \\
--publish=8080:8080 \\
--detach=true \\
--name=cadvisor \\
google/cadvisor:latest
- cAdvisor提供一些运行时参数供用户配置使用:
- 4个--volume挂载操作不能省略,如果不挂载,将无法连接到Docker deamon,ro表示只读。
- --detach操作是为了在创建后不进入容器内部,让其自动完成监视功能。
- 在Ret Hat/CentOS/Fedora等发行版上需要传递privileged参数,因为SELinux加强了安全策略:--privileged=true。
- --storage_duration保存在内存中的数据时间段长度,默认为2min,即保存2分钟的数据。
- --allow_dynamic_housekeeping依据容器的活跃程度,动态调整读取容器监控数据的时间间隔。
- --global_housekeeping_interval检测是否有新增容器的时间周期。
- --housekeeping_interval统计每个容器数据的时间周期,默认每秒取1次数据,取统计到的最近的60个数据。
- 启动后cAdvisor立即开始监控,可以浏览主机上的端口8080查看cAdvisor的Web接口,确认它是可操作的。可以访问/metric页面查看监控指标。
- http://10.1.1.13:8080/containers/
- http://10.1.1.13:8080/metrics
- cAdvisor支持的Prometheus的指标主要有五大类(62个),包括CPU(10个)、内存(9个)、文件(18个)、网络(12个)、其他容器状态(13个),具体指标说明可以参考:https://github.com/google/cadvisor/blob/master/docs/storage/prometheus.md。
- cAdvisor通过存储插件(cAdvisor Storage Plugins)把状态信息输出到InfluxDB数据库进行存储、读取或KAfka等,通过-storage_driver来配置,具体支持的存储项有:BigQuery、ElasticSearch、InfluxDB、Kafka、Prometheus、Redis、StatsD以及stdout标准输出等。详见官网文档:https://github.com/google/cadvisor/tree/master/docs/storage。
3.4 集成到Prometheus
- cAdvisor采集的监控数据通过http://localhost:8080/metrics展现给Prometheus。
- 修改/etc/prometheus/prometheus.yml,将cAdvisor添加到监控数据采集任务目标当中:
global:
scrape_interval: 15s
evaluation_interval: 15s
scrape_configs:
- job_name: 'cadvisor'
static_configs:
- targets: ['cadvisor:8080']
- PromQL表达式示例:
1 2 3 4 5 6 7 8 9 10 11 12 |
|
4 容器指标
4.1 CPU指标
- container_cpu_load_average_10s #最近10秒容器的CPU平均负载情况
- container_cpu_usage_seconds_total #容器的CPU累积占用时间
4.2 内存指标
- container_memory_max_usage_bytes #容器的最大内存使用量(单位:字节)
- container_memory_usage_bytes #容器的当前内存使用量(单位:字节)
- container_spec_memory_limit_bytes #容器的可使用最大内存数量(单位:字节)
4.3 网络指标
- container_network_receive_bytes_total #容器网络累积接收字节数据总量(单位:字节)
- container_network_transmit_bytes_total #容器网络累积传输数据总量(单位:字节)
4.4 存储指标
- container_fs_usage_bytes #容器中的文件系统存储使用量(单位:字节)
- container_fs_limit_bytes #容器中的文件系统存储总量(单位:字节)
Prometheus监控运维实战十三:Docker容器监控
目前容器的使用在企业中已经非常普及,将服务迁移到容器上正成为了越来越多公司的选择。而对于运维人员而言,熟悉容器的使用与监控,也已成为一项必不可少的专业技能。关于容器的开源产品,当前知名的有Docker、Containerd、CoreOS rkt、LXC 等,在这其中Docker占剧了绝对统治地位,也是目前使用最广泛的容器产品。
本文将介绍通过Prometheus实现Docker容器监控的方案,关于Docker的技术本文不做讲解,不熟悉的朋友要可先自行查看相关资料。
一.CAdvisor工具
CAdvisor为Google开源的一款用于监控和展示容器运行状态的可视化工具。CAdvior可直接运行在主机上,它不仅可以搜集到机器上所有运行的容器信息,还提供查询界面和http接口,方便如Prometheus等监控平台进行数据的获取。
1. 安装部署
CAdvisor的安装很简单,可通过容器的方式进行部署。
下载镜像
$ docker pull google/cadvisor:latest
启动容器
$ docker run \\
--volume=/:/rootfs:ro \\
--volume=/var/run:/var/run:rw \\
--volume=/sys:/sys:ro \\
--volume=/var/lib/docker/:/var/lib/docker:ro \\
--volume=/dev/disk/:/dev/disk:ro \\
--publish=8080:8080 \\
--detach=true \\
--name=cadvisor \\
--privileged=true \\
google/cadvisor:latest
注解:该命令在容器中挂载了几个目录,ro代表只读,CAdvisor将从其中收集数据。rw代表可读写,此处指定/var/run目录,用于Docker套接字的挂载;--detach将以守护进程的方式运行;--name对生成的容器进行命名;在Ret Hat,CentOS, Fedora 等发行版上需要传递如下参数--privileged=true。
查看容器状态,已正常启动
$ docker ps |grep cadvisor
13eb99bc02ce google/cadvisor:latest
访问页面
浏览器打开http://ip:8080 ,可查看CAdvisor的web界面
访问http://ip:8080/metrics,可看到相关的metrics指标信息
2. 相关指标
CPU类型
container_cpu_load_average_10s #最近10秒容器的CPU平均负载情况
container_cpu_usage_seconds_total #容器的CPU累积占用时间
内存类型
container_memory_max_usage_bytes #容器的最大内存使用量(单位:字节)
container_memory_usage_bytes #容器的当前内存使用量(单位:字节)
container_spec_memory_limit_bytes #容器的可使用最大内存数量(单位:字节)
网络类型
container_network_receive_bytes_total #容器网络累积接收字节数据总量(单位:字节)
container_network_transmit_bytes_total #容器网络累积传输数据总量(单位:字节)
存储类型
container_fs_usage_bytes #容器中的文件系统存储使用量(单位:字节)
container_fs_limit_bytes #容器中的文件系统存储总量(单位:字节)
二.Prometheus集成
CAdvisor是一个简单易用的工具,它除了有详细的监控指标,也提供了可供查看的WEB图表界面。但CAdvisor本身的数据保存时间只有2分钟,而且在多主机的情况下,要单独去登录每台机器查看docker数据对于管理员也是一件麻烦的事情。
对此,更好的方法是与Prometheus集成,实现Docker容器数据的收集与保存。
由于CAdvisor提供了支持Prometheus的metrics格式接口,所以Prometheus只需要按照获取Exporter指标的方式,创建相关的Job即可。
示例:
- job_name: \'docker\'
static_configs:
- targets:
- \'192.168.214.108:8080\'
labels:
group: docker
任务正常启动后,我们可以在Prometheus查看到相关的指标
三.Grafana展示
Grafana提供了不少Docker相关的Dashboard,可根据自己情况选择合适模板导入。
示例:
选择"Create"-"Import"
填写需要导入的Dashboard ID号,点击Load
选择对应的Prometheus 数据源,点击import
导入完成后,可看到新的Dashboard已生效。
以上是关于Prometheus监控实战之Docker容器监控的主要内容,如果未能解决你的问题,请参考以下文章
云原生之Docker实战使用Docker部署Prometheus 服务监控系统
Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置
[系统性能优化实践]JVM进阶实战之监控工具(Prometheus)