智能巡检告警配置实践

Posted 2022-02-09 阿里云云栖号

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了智能巡检告警配置实践相关的知识，希望对你有一定的参考价值。

简介：智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中，单个任务往往会巡检大量的实体对象，涉及到的对象规则很多，我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中，单个任务往往会巡检大量的实体对象，涉及到的对象规则很多，我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

巡检事件基础结构

在这里，我们先简单看下巡检任务的基本逻辑：

对于单个巡检作业而言，内部包含N个实体的巡检，每个巡检实体对应一个巡检模型，其中任意一个异常事件产生后，都会通过告警系统通知到用户，因此我们需要有能力通过不同的方式将结果进行分发和管理。

我们先看下巡检事件的基础结构，具体的内置模板如下所示：

## 数据源
+ Project: $results[0].project
+ LogStore: $results[0].store

##  异常对象
+ Entity: $labels

## 异常程度
+ Score: $annotations.anomaly_score

## 异常时序图
![image]($annotations.__plot_image__)

[[数据详情]($query_url)]
[[作业详情]($alert_url)]

[[确认]($annotations.__ensure_url__)]
[[误报]($annotations.__mismatch_url__)]

我们一起来看下具体的告警消息的样例，接下来我们所有的描述都会根据对应的如下结果进行描述。

  "results": [
    
      "store_type": "log",
      "region": "cn-chengdu",
      "project": "sls-ml-demo",
      "store": "machine_metric_logtail",
      "start_time": 1641361140,
      "end_time": 1641361200
    
  ],
  "labels": 
    "ip": "192.168.1.5",
    "name": "load_avg"
  ,
  "annotations": 
    "__ensure_url__": "$url_path",
    "__mismatch_url__": "$url_path",
    "__plot_image__": "$url_path",
    "alert_msg_type": "ml_anomaly_msg",
    "anomaly_score": "0.8000",
    "anomaly_type_id": "1",
    "anomaly_type_name": "STAB_TYPE",
    "job_id": "29030-2bbf5beba0110fa869339708a8217b67",
    "model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1",
    "title": "metric-logtail-sql"
  ,
  "severity": 8,
  "drill_down_url": "$url_path"