SQL Server数据库告警改进

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SQL Server数据库告警改进相关的知识,希望对你有一定的参考价值。

  考虑对生产环境所有SQL Server服务器开启数据库邮件功能,它是数据库自带的邮件发送功能,通过配置到邮件服务器的访问,及时接收SQL Server事件告警。

技术分享图片


  SQL Server警报是基于引擎的事件通知机制发送告警,当事件发生时出发告警通知。

技术分享图片

 

  现阶段,需要收集如下两类SQL Server事件告警:

  • Severity - 事件严重性级别1325告警;
    技术分享图片

  • Error Number - 包括操作系统错误、IO错误、内存错误、AlwaysOn状态相关告警。
    技术分享图片


策略调整


  我们考虑将这些需要监控的告警整合到应用程序日志,接入ELK日志分析系统。


  我们了解到,在下列情况下,SQL Server 和 SQL Server 应用程序产生的错误/消息将发送到Windows 应用程序日志:

  • 严重级别为 19 或更高的 sys.messages 错误

  • 任何使用 WITH LOG 语法调用的 RAISERROR 语句

  • 所有使用 sp_altermessage 修改或创建的 sys.messages 错误

  • 所有使用 xp_logevent 记录的日志事件

    引用自 https://docs.microsoft.com/en-us/sql/ssms/agent/create-an-alert-using-severity-level“Severity levels from 19 through 25 send a SQL Server message to the Microsoft Windows application log and trigger an alert. Events with severity levels less than 19 will trigger alerts only if you have used sp_altermessage, RAISERROR WITH LOG, or xp_logevent to force them to be written to the Windows application log. ”


针对上文提到、我们需要监控的Severity和Error Number告警,我们需要做如下变更调整:

  • Severity - 经过讨论,不记录严重级别19以下的用户级别的错误,19级别及以上的Fatal Error默认记录到应用程序日志,我们不用做任何更改。

  • Error Number - 需要监控的错误,根据附件的查询结果,部分错误号的is_event_logged字段为0,表示没有记录到应用程序日志。可以通过上面的sp_altermessage修改该字段为1达到记录到应用程序日志的目的。



以上是关于SQL Server数据库告警改进的主要内容,如果未能解决你的问题,请参考以下文章

SQL Server 死锁的告警监控

SQL Server数据库镜像关键性能计数器

SQL Server数据库配置改进

SQL Server 和实体框架性能改进

关于SQL Server 数据库归档的一些思考和改进

SQL Server Alwayson架构下 服务器 各虚拟IP漂移监控告警的功能实现 -2(虚拟IP视角)