记一次mysql大量插入数据，造成插入延迟，磁盘IO高的性能调优

Posted 2021-12-24 敲代码的小小酥

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了记一次mysql大量插入数据，造成插入延迟，磁盘IO高的性能调优相关的知识，希望对你有一定的参考价值。

项目场景：

Kafka的数据入库到mysql中，由于业务场景的特殊性，Kafka并不是用于削峰填谷的，而是要求数据库尽可能的实时存入Kafka的最新数据。

问题描述：

虽然Kafka数据量巨大，但是过滤完数据后，消费者拉取的每批kafka数据只存入五六百条数据，但是随着时间的推移，存入数据与kafka的实时数据差距会越来越大。而且服务器磁盘IO也是将近100%。这可是服务器啊，就算插入五六百条数据也是毫秒级别的吧，为什么延迟会越来愈大呢？磁盘IO为何这么高呢？不应该吧

原因分析：

上面的问题，转化成两个问题来分析:
1.mysql如何进行大批量insert调优
2.mysql如何解决磁盘高IO问题。
按照上面两个问题，进行解决方案的设计。

解决方案：

一、mysql如何进行大批量insert调优
1. insert语句values后加多条数据，进行数据库批量插入。
起初的程序，确实是单条数据insert插入数据库的。当时认为一批数据五六百条，就算单条插入，数据库应该也是毫秒级别的插入吧，应该不会影响插入性能。后来验证后发现这个想法大错特错了。
手动复制了500条数据直接用navicat进行插入操作。结果发现，这500条insert语句，各自单条插入的时间确实很短，都是毫秒甚至纳秒级别的。但是，当500条insert语句顺序执行时，他们的执行是有先后顺序的，也就是说执行完一条后，才会执行另一条，不是并行执行的。所以，这就造成后面的sql需要等待前面的sql执行完后，才开始执行，这500条insert执行完总共用了十几秒的时间。在程序中也是一个道路，当一个连接循环insert语句时，后面的语句一定是等前面的语句执行完后才开始执行的。所以，处理完一批数据的五六百条数据后，已经花费了10几秒甚至更长的时间，这就造成了kafka下一次拉取数据其实等待了很长时间，所以造成了insert数据不能实时跟上kafka数据的问题。

2.关于bulk_insert_buffer_size参数的设置
网上很多博客说加大这个参数的值，允许insert语句拼接更多的values值。通过查看mysql官网描述可以知道，该参数是对MyISAM 引擎下的表才起作用的。而对于InnoDB引擎的表没有作用。所以设置该参数没有作用。

3.索引对插入数据的影响
随着表记录越来越多，索引对插入的性能影响也越来越大，所以，在批量插入数据时，可以把索引关闭，插入完成后，再将索引打开，如下:

ALTER TABLE my_table DISABLE KEYS;

-- Your insert statement

ALTER TABLE my_table ENABLE KEYS;

这种方式需要根据具体业务场景评估是否使用。因为频繁的开启或关闭索引会对查询造成影响。

4.利用列具有默认值的事实。仅当要插入的值与默认值不同时才显式插入值。这减少了 MySQL 必须做的解析并提高了插入速度。

更多insert性能调优，可以查看MYSQL官网:[InnoDB 表的批量数据加载]

实际上，我只听过修改了values后面加多个值的方式，解决了延迟的问题。

二、mysql如何解决磁盘高IO问题

解决磁盘IO问题，主要调整以下几个参数:
buffer pool size

innodb_io_capacity 参数

innodb_change_buffering参数

RAM

可参考mysql官网:优化 InnoDB 磁盘 I/O

以上是关于记一次mysql大量插入数据，造成插入延迟，磁盘IO高的性能调优的主要内容，如果未能解决你的问题，请参考以下文章