如何配置 Cloudwatch 警报 - 每 30 分钟检查 5 个错误
Posted
技术标签:
【中文标题】如何配置 Cloudwatch 警报 - 每 30 分钟检查 5 个错误【英文标题】:How to configure Cloudwatch Alarms - check for 5 errors once every 30 minutes 【发布时间】:2022-01-23 19:22:53 【问题描述】:谁能解释我应该如何配置我的 cloudwatch 警报,因为文档非常混乱。
用例:我想每 30 分钟检查一次错误并在日志中看到超过 5 个错误时触发警报。
Below is my current configuration:
threshold - 5
period - 1800
datapoints_to_alarm - 1
evaluation_periods - 1
comparison_operator - GreaterThanOrEqualToThreshold
statistic - Sum
treat_missing_data- notBreaching
当我使用周期为 120 进行测试时,我能够验证当日志中有 5 个或更多错误时触发警报。
但是,当我将时间段更改为 1800 时,我看到在日志中看到 5 个错误并且它在 1800 秒(30 分钟)内没有退出警报状态时会立即触发警报。任何想法如何解决这个问题?
【问题讨论】:
阈值指的是公制单位,而不是数据点。当您将周期设置为 1800 秒时,这意味着每 30 分钟评估一个点。由于您有 1 个数据点和评估期,这意味着一次评估足以进入和退出警报。警报会检查每个数据点的度量单位是否高于阈值。 @kgiannakakis 那么我应该将值设置为什么,抱歉我仍然对此感到困惑? 您的经期应该是多少?这是警报可以改变状态的最快速度。 @kgiannakakis 基本用例是如果我们在日志中看到 5 个错误触发警报,我想每 30 分钟检查一次。努力为那里的所有参数设置正确的值 那么在我看来你是对的。每 30 分钟,如果有超过 5 个错误,报警器将进入报警状态。在下一点,如果错误少于 5 个,则会转到 OK。什么不工作? 【参考方案1】:以上解决方案就是问题的答案。在定义的时间段,evaluation_period 结束之前,没有办法脱离警报状态。
【讨论】:
正如目前所写,您的答案尚不清楚。请edit 添加其他详细信息,以帮助其他人了解这如何解决所提出的问题。你可以找到更多关于如何写好答案的信息in the help center。以上是关于如何配置 Cloudwatch 警报 - 每 30 分钟检查 5 个错误的主要内容,如果未能解决你的问题,请参考以下文章
Cloudwatch 日志警报 - 如何在电子邮件通知中包含错误/异常/堆栈跟踪数据
Terraform Cloudwatch 警报 - 维度配置