记升级mysql后的一次故障

Posted windysai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记升级mysql后的一次故障相关的知识,希望对你有一定的参考价值。

一、问题背景

  接上级要求,某生产数据库需要实施备份;刚好漏洞扫描报告出来,mysql 版本需要升级到5.7.20,于是就未雨绸缪,先写脚本。脚本在mysql旧版本下完全可用(未升级前,mysql 为5.7.18)。升级完后,本着技术人员的一种严谨态度,绝对要sh -x 看看脚本在新环境下有没有出现异常啦~~~

 
二、现象(主要有两个)
  1、mysqldump只能备份表不能备份库(Z库和S库),刚好测试时用的是S库!(这个强调下面是有用的,观众慢慢欣赏)。开始非常纳闷,两个库才不到100M,mysqldump良久不出结果,总不能仅仅1~2天,生产库上数据量陡增的
   2、与此同时,测试人员反馈,项目页面一直转圈登不上(前一天刚升级完数据库,测试过,页面打开没问题)
  

 

三、排查及解决

   1、上头说,可能是因为升级后 tomcat 没有重启,导致应用出问题(ps:数据库跟应用分别在两台不同的机器上),于是就重启 tomcat ~~顺带观察实时日志:tail -f Catalina.out

(1)图一

(2)图二

  综上,可以发现,挺多preparing的。。。然当时其实看不出有什么异样(毕竟太年轻,囧)

  2、之后,开发人员拿到数据库账号密码,说S库的某个表,也就是上图的日志表:TB_ICT_SYS_LOG被锁了!这就是为什么mysqldump测试备份S库的时候一直备份不了,如果测试备份Z库的话,结果估计是可以出来的,因为Z库上的表并没有被锁

登陆数据库查线程运行情况,终于有眉目了!!!

(1)图一   (mysqldump不了S库的线程)

(2)图二    (页面登陆不上卡住报错的线程)

 

  3、解决:据查到的进程号, kill 掉数据库锁进程

之后,数据库恢复正常,页面打开没问题

 

四、结论

  1、浏览器登陆项目页面,无论登陆是否成功,都有一个第三点 1(2)图二的插入S库日志表的操作

  2、mysqldump备份数据库会有锁表的问题,可能会和插入操作有冲突(开发人员:业务上并没有其他地方引起锁表操作),所以这次问题的产生好可能是因为在调试脚本的时候引起的。为了不影响业务,建议晚上备份(现在调度已改成凌晨 0 点备份

   3、确定Tomcat数据库连接池配置是否准确无误(.../WEB-INF/classes/jdbc.properties),虽然跟本次排错过程无关

这个日志是tomcat最早时候的信息(暂时不知道这里是不是暗藏问题发生的玄机)

 

以上是关于记升级mysql后的一次故障的主要内容,如果未能解决你的问题,请参考以下文章

记一次mariadb升级故障

还好DBA给力!记“一次自动恢复的支付故障”根本解法

k8s 开船记:升级为豪华邮轮(高可用集群)与遇到奇怪故障(dns解析异常)

记一次性能故障排查

蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起

记一次 Ubuntu 内核升级故障处理