PrometheusGrafana告警

Posted 2022-12-26 shark_西瓜甜

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PrometheusGrafana告警相关的知识，希望对你有一定的参考价值。

主要概念和特点

关键概念或特征	含义
Data sources for Alerting 告警的数据源	配置从哪里查询到告警信息数据
Provisioning for Alerting 告警的配置	使用文件等方式配置警报资源，已经管理警报资源
Scheduler 调度器	评估告警规则，将其视为定期对数据源运行查询的组件
Alertmanager 告警管理器	赶礼警报实例的路由和分组
Alert rule 告警规则	告警规则由一个或多个查询和表达式、条件、评估频率以及满足条件的持续时间组成。一个告警规则可以产生多个告警实例。
Alert instance	触发警报规则时会创建一个警报实例。警报规则可以创建一个或多个警报实例。当一个警报规则导致创建多个实例时，这称为多维警报。
Alert group	默认情况下，Alertmanager 使用根通知策略的标签对警报实例进行分组。这控制发送到联系点的重复数据删除和警报实例组。
Contact point 联系点	定义触发警报规则时如何通知您的联系人。比如邮件、钉钉企业微信等
Message templating消息模板	创建可重复使用的自定义模板并在联系点中使用它们。
Notification policy 通知策略	定义了一组关于告警分组和路由到联系点的位置、时间和方式
Labels and label matchers 标签和标签选择器	标签唯一标识警报规则。它们将警报规则链接到通知策略和静音，确定应处理它们的策略以及应静音的警报规则。
Silences 静默	设置在接下的某个时间段（比如 2：20到3：30）停止来自一个或多个警报实例的通知，这个是单次设定的。使用标签匹配器使警报实例静音。
Mute timings 静音计时	指定您不希望生成或发送新通知的时间间隔。例如在固定每周的某个时间段进行维护系统的时候，或者升级的时候，不希望接收到告警通知。必须链接到现有的通知政策。

告警规则

告警规则类型

Mimir, Loki and Cortex rules

要创建 Mimir、Loki 或 Cortex 警报，您必须具有兼容的 Prometheus 数据源。您可以通过测试数据源并检查是否支持 ruler API 的详细信息来检查您的数据源是否兼容。

告警实例

Grafana 托管警报支持多维警报。每个警报规则可以创建多个警报实例。如果您在单个表达式中观察多个系列，这将非常强大。

考虑以下 PromQL 表达式：

sum by(cpu) (
  rate(node_cpu_seconds_totalmode!="idle"[1m])
)

组织告警规则

警报可以使用 Grafana 管理规则的文件夹和 Mimir 或 Loki 规则和组名称的命名空间来组织。

Namespace
在创建 Grafana 管理的规则时，该文件夹可用于执行访问控制并授予或拒绝对特定文件夹内所有规则的访问。

Groups
一个组内的所有规则都以相同的时间间隔进行评估。

组内的警报规则和记录规则将始终按顺序进行评估，这意味着不会同时按出现顺序评估任何规则。

消息模板

通过联系点发送的通知是使用消息传递模板构建的。Grafana 的默认模板基于Go 模板系统，其中一些字段被评估为文本，而其他字段被评估为 html（这会影响转义）。default_template.go中定义的默认模板是自定义模板的有用参考。

由于大多数联系点字段都可以模板化，因此您可以创建可重复使用的自定义模板并在多个联系点中使用它们。默认模板在default_template.go中定义，可以作为自定义模板的有用参考或起点。

使用模板

以下示例显示如何使用默认模板在 Slack 中呈现警报消息。消息标题包含正在触发或已解决的警报计数。消息正文列出了警报及其状态。

以下示例显示了在其中一个联系点字段中使用自定义模板。

嵌套模板

您可以将模板嵌入到其他模板中。

例如，您可以使用define关键字定义模板片段：

 define "mytemplate" 
   len .Alerts.Firing  firing.  len .Alerts.Resolved  resolved.
 end

template然后，您可以使用关键字在此片段中嵌入自定义模板。例如：

Alert summary:
 template "mytemplate" .

您可以使用以下任何内置模板选项来嵌入自定义模板。

名称	含义
default.title	显示高级状态信息
default.message	提供触发和已解决的格式化摘要
teams.default.message	类似 `default.message` ,为 Microsoft Teams 格式化

消息模板中的 HTML

警报消息模板中的 HTML 已转义。不支持在生成的通知中呈现 HTML

创建 Grafana 托管警报规则

中英文对照表

英文	中文
is above	高于
is below	低于
outside range	超出范围
is within range	在范围内
has no value	没有值
classic condition	经典条件
resample	重新采样
reduce	减少
math	数学
Alert evaluation behavior	警报评估行为
Evaluate	评估
Evaluation interval applies to every rule within a group. It can overwrite the interval of an existing alert rule.	评估间隔适用于组中的每个规则。它可以覆盖现有警报规则的间隔。
Evaluate every	评估间隔（就是多长时间监控一下是否符合告警信息）
Preview alerts	预览警报
Add details for your alert	添加警报的详细信息
Write a summary and add labels to help you better manage your alerts	编写摘要并添加标签，以帮助您更好地管理警报
Folder	文件夹
Summary and annotations	摘要和注释
Grafana handles the notifications for alerts by assigning labels to alerts. These labels connect alerts to contact points and silence alert instances that have matching labels	Grafana通过为警报分配标签来处理警报通知。这些标签将警报连接到联系人，并使具有匹配标签的警报实例静音
Notifications	通知
chart	图表