围剿慢SQL,工行MySQL研发管控和治理实践(附PPT)
Posted dbaplus社群
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了围剿慢SQL,工行MySQL研发管控和治理实践(附PPT)相关的知识,希望对你有一定的参考价值。
在发布时,我们会根据CheckList,对相关实现情况进行核对勾选,在确保所有指标都达标以后,才允许它进行正式发布。这样就能够在应用质量方面有较大的提升。
八、未来畅想
最后简单介绍一下我们对未来的畅想,也就是我们现在正在做的事情。
上文提到,我们一直在做“1-5-10”。但是目前还处于“1”稳步推进,“5”和“10”艰难实现的阶段。
针对一分钟定位我们发现,我们其实并没有那么多采集指标,所以对一些数据可以加大采集,比如常规数据:CPU、内存......等,目前对于中间件系统基础监控数据已经完成处理了,像网络、QPS、连接数等。
针对mysql数据库,其实它有一些性能指标可以进行高密度采集,也有一些影响数据库性能的要素指标需要进行低密度采集。这部分主要分为两类,第一类是像ps.threads这种可以高密度地处理的,同时show engine innodb status,这样我们可以快速发现到底用哪些死锁,或迅速了解某个事务处理的数据量,以及哪些线程在做哪些事情等。这些是我们要做高密度采集的事情。低密度采集也就是我们提到过的摘要信息的处理,每小时进行一次快照的数据分析,同时通过events_statements_history,对数据进行定时采集。
通过高密度采集,我们可以快速进行一分钟定位,查出出现问题的具体位置。
接下来是五分钟预判。我们工行的实验室之前有用“逻辑回归加孤立森林算法进行异常检测,用图算法进行根因定位”对全链路进行一些根因的分析和追溯。但通过我们之前跟某Top企业交流时发现,根因定位这个方法实际的正确率只在40%左右,波动检测精度可达到80以上,但该算法属于监督算法,需要针对性训练,无法大规模普及,且模型并没有达到我们所预想的标准。之前阿里在中台有一篇宣传文章,介绍说它的五分钟预判准确率可以达到90%,虽然我不太相信这个值,但他们的模型应该是相对比较好的。
十分钟自愈这部分算是我们对未来的期望,我们希望未来在发现问题以后,系统可以直接自行处理。这部分其实我们现在在做的一些自动化运维可以达到这个要求。比如当数据库发现问题以后,经过一些检测,自动进行主从切换。这其实也属于十分钟自愈的范畴。
我们只能说还在路上,但是未来具体是什么样的?目前我们也只能猜测。希望未来会更加美好!
↓点这里可下载本文PPT,提取码:dpmy
慢SQL治理最佳实践
慢SQL治理主要从三个方面进行优化
- 从数据表的定义开始优化
- 从索引设计开始优化
- 从查询开始优化
优化表设计
- 表字段长度尽量紧凑,字段尽量不冗余
- 字段类型尽量考虑用简单的类型
- 字段尽量有默认值,且默认值尽量不要用null
优化索引
设计索引的时候,尽量让查询用到索引,并且减少回表次数。
- 业务查询频率高的字段尽量设计成覆盖索引,比如
select age, name from user where name=\'张三\'
, 如果建立了(name, age)的覆盖索引,可以避免回表查询 - where语句要能用到索引,并且避免出现使索引失效的情况,比如对索引字段进行了函数操作等
- 排序字段尽量按照索引排序,避免使用到外部排序,比如file sort
优化查询
- 确保select 的字段都是业务所需的,避免直接使用
select *
- 复杂查询拆分成多个简单查询
- 一次返回的数据条数不能太多,分批次返回
- 限制in查询中的条目
- 分页查询时,页数越大时,性能越差,建议结合id>LastedMaxId查询
- join查询的表不能太多,后面尽量优化为单表查询
以上是关于围剿慢SQL,工行MySQL研发管控和治理实践(附PPT)的主要内容,如果未能解决你的问题,请参考以下文章