Prometheus告警收敛
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Prometheus告警收敛相关的知识,希望对你有一定的参考价值。
参考技术A 什么是告警收敛?在对节点或服务的日常监控中,收到的警报太多,如一下就几十封,或者很多不必要的邮件发来,容易导致人很麻木,这样时间久了,遇到比较严重的警报,我们也会放松警惕性。面对这种情况,alertmanager收敛可很好解决这个问题,就是当Prometheus成功的把一条告警发给了Alertmanager,而Alertmanager并不是简简单单的直接发送出去,而是合理做一些控制,这样就不会导致告警信息过多,重要告警被淹没。
打开alertmanager
创建静默
prometheus告警功能
prometheus告警功能
Prometheus对指标的收集、存储同告警能力分属于Prometheus Server和AlertManager(通用的组件,可由企业自行开发)两个独立的组件,前者仅负责基于"告警规则"生成告警通知,具体的告警操作则由后者完成;
Alertmanager负责处理由客户端发来的告警通知客户端通常是Prometheus server,但它也支持接收来自其它工具的告警;
Alertmanager对告警通知进行分组、去重后,根据路由规则将其路由到不同的receiver,如Email、短信或PagerDuty等;
目前Alertmanager还不支持钉钉,那用户完全可以通过Webhook与钉钉机器人进行集成,从而通过钉钉接收告警信息。同时AltManager还提供了静默和告警抑制机制来对告警通知行为进行优化
PS:webhook是一个APr概念, webhook是一种web回调或者http的push APT.Webhook作为一个轻量的事件处理应用
(一)定义:
1.告警功能概述:
prometheus对指标的收集、存储与告警能力分属于Prometheus serve和alertmanager两个独立的组件,pro-server只负责通过"告警规则"生成告警通知,具体告警操作是由alertmmanager完成
告警规则:
是由PromQL编写的布尔值表达式使用>< =与一个常用量值,比如80%进行比较,其返回值为true或false
prometheus-server对抓取到的指标序列与告警规则中做为比较的Prometheus匹配,则会把此样本值抓取过来作比较,若返回值为true则认为指标异常,不能满足false,则为正常值以上表达式为告警规则表达式
比如:筛选一个指标数据cpu使用率<0%系统异常
2.通知告警信息
一旦条件表达式为true了就会触发通知信息,送给altermanager,由alter借助”特定服务的API或者访问入口",将此信息发出去一般称为告警媒介,也可以借助邮件进行告警SMTP
”特定服务的API或者访问入口": 例如 pageduty(告警平台) slock(群组) smtp server (邮件)
3.prometheus监控系统的告警逻辑
route:告警路由,分组、分类分发告警消息给不同渠道
prometheus通过alter-rule规则,生成告警通知给altermanager
altermanager会生成本地的告警路由表(第一路由默认称为根路由,所有的告警信息都需要一个根路由,没有一个匹配项,则需要设置一个默认路由)为实现将特定的信息发送给特定的用户
例如:
按消息级别来看,严重、中等、普通级别,红色报警、蓝色报警,应用发送方
按分组:业务运维、系统运维、基础设施运维、k8s运维
1.告警功能:
除了基本的告警通知能力外,Altermanager还支持对告警进行去重、分组、抑制、
2.静默、抑制、分组等功能;
分组 (Grouping):将相似告警合并为单个告警通知的机制,在系统因大面积故障而触发告警潮时,分组机制能避免用户被大量的告警噪声淹没,进而导致关键信息的隐没;
抑制(Inhibition):系统中某个组件或服务故障而触发告警通知后,那些依赖于该组件或服务的其它组件或服务可能也会因此而触发告警,抑制便是避免类似的级联告警的一种特性,从而让用户能将精力集中于真正的故障所在;
静默(silent):是指在一个特定的时间窗口内,即便接收到告警通知,Alertmanager也不会真正向用户发送告警信息的行为;通常,在系统例行维护期间,需要激活告警系统的静默特性;
路由(route):用于配置Alertmanager如何处理传入的特定类型的告警通知,其基本逻辑是根据路由匹配规则的匹配结果来确定处理当前告警通知的路径和行为
部署告警对接邮箱
以上是关于Prometheus告警收敛的主要内容,如果未能解决你的问题,请参考以下文章