Mysql load data infile 效率问题

Posted 2023-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Mysql load data infile 效率问题相关的知识，希望对你有一定的参考价值。

一次性导入20W的数据，当表是空的时候load data infile导入几十秒钟就搞定，当表中存在的数据越多，所需要的时间也越来越多，有什么办法解决？

参考技术A 其实你的这个问题是mysql中的一个核心问题，既mysql数据的备份和恢复
你可以使用三种方式
1.使用sql语句导入导出
2.使用mysqldump 和mysqlimport 工具
3.直接copy 数据文件既冷备份
你说说的详细，就给积分，那我就说详细些

一.使用sql语句完成mysql的备份和恢复

你可以使用SELECT INTO OUTFILE语句备份数据，并用LOAD DATA INFILE语句恢复数据。这种方法只能导出数据的内容，不包括表的结构，如果表的结构文件损坏，你必须要先恢复原来的表的结构。
语法：
SELECT * INTO 'file_name' FROM tbl_name
LOAD DATA [LOW_PRIORITY] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE]
INTO TABLE tbl_name
SELECT ... INTO OUTFILE 'file_name'格式的SELECT语句将选择的行写入一个文件。文件在服务器主机上被创建，并且不能是已经存在的(不管别的，这可阻止数据库表和文件例如“/etc/passwd”被破坏)。SELECT ... INTO OUTFILE是LOAD DATA INFILE逆操作。
LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中。如果指定LOCAL关键词，从客户主机读文件。如果LOCAL没指定，文件必须位于服务器上。(LOCAL在MySQL3.22.6或以后版本中可用。)
为了安全原因，当读取位于服务器上的文本文件时，文件必须处于数据库目录或可被所有人读取。另外，为了对服务器上文件使用LOAD DATA INFILE，在服务器主机上你必须有file的权限。使用这种SELECT INTO OUTFILE语句，在服务器主机上你必须有FILE权限。
为了避免重复记录，在表中你需要一个PRIMARY KEY或UNIQUE索引。当在唯一索引值上一个新记录与一个老记录重复时，REPLACE关键词使得老记录用一个新记录替代。如果你指定IGNORE，跳过有唯一索引的现有行的重复行的输入。如果你不指定任何一个选项，当找到重复索引值时，出现一个错误，并且文本文件的余下部分被忽略时。
如果你指定关键词LOW_PRIORITY，LOAD DATA语句的执行被推迟到没有其他客户读取表后。
使用LOCAL将比让服务器直接存取文件慢些，因为文件的内容必须从客户主机传送到服务器主机。在另一方面，你不需要file权限装载本地文件。如果你使用LOCAL关键词从一个本地文件装载数据，服务器没有办法在操作的当中停止文件的传输，因此缺省的行为好像IGNORE被指定一样。
当在服务器主机上寻找文件时，服务器使用下列规则：
 如果给出一个绝对路径名，服务器使用该路径名。
 如果给出一个有一个或多个前置部件的相对路径名，服务器相对服务器的数据目录搜索文件。
 如果给出一个没有前置部件的一个文件名，服务器在当前数据库的数据库目录寻找文件。
假定表tbl_name具有一个PRIMARY KEY或UNIQUE索引，备份一个数据表的过程如下：
1、锁定数据表，避免在备份过程中，表被更新
mysql>LOCK TABLES READ tbl_name;
关于表的锁定的详细信息，将在下一章介绍。
2、导出数据
mysql>SELECT * INTO OUTFILE ‘tbl_name.bak’ FROM tbl_name;
3、解锁表
mysql>UNLOCK TABLES;
相应的恢复备份的数据的过程如下：
1、为表增加一个写锁定：
mysql>LOCK TABLES tbl_name WRITE;
2、恢复数据
mysql>LOAD DATA INFILE ‘tbl_name.bak’
->REPLACE INTO TABLE tbl_name;
如果，你指定一个LOW_PRIORITY关键字，就不必如上要对表锁定，因为数据的导入将被推迟到没有客户读表为止：
mysql>LOAD DATA LOW_PRIORITY INFILE ‘tbl_name’
->REPLACE INTO TABLE tbl_name;
3、解锁表
mysql->UNLOCAK TABLES;
5.3.2使用mysqlimport恢复数据
如果你仅仅恢复数据，那么完全没有必要在客户机中执行SQL语句，因为你可以简单的使用mysqlimport程序，它完全是与LOAD DATA 语句对应的，由发送一个LOAD DATA INFILE命令到服务器来运作。执行命令mysqlimport --help，仔细查看输出，你可以从这里得到帮助。
shell> mysqlimport [options] db_name filename ...
对于在命令行上命名的每个文本文件，mysqlimport剥去文件名的扩展名并且使用它决定哪个表导入文件的内容。例如，名为“patient.txt”、“patient.text”和“patient”将全部被导入名为patient的一个表中。
常用的选项为：
-C, --compress 如果客户和服务器均支持压缩，压缩两者之间的所有信息。
-d, --delete 在导入文本文件前倒空表格。
l, --lock-tables 在处理任何文本文件前为写入所定所有的表。这保证所有的表在服务器上被同步。
--low-priority，--local，--replace，--ignore分别对应LOAD DATA语句的LOW_PRIORITY，LOCAL，REPLACE，IGNORE关键字。
例如恢复数据库db1中表tbl1的数据，保存数据的文件为tbl1.bak，假定你在服务器主机上：
shell>mysqlimport --lock-tables --replace db1 tbl1.bak
这样在恢复数据之前现对表锁定，也可以利用--low-priority选项：
shell>mysqlimport --low-priority --replace db1 tbl1.bak
如果你为远程的服务器恢复数据，还可以这样：
shell>mysqlimport -C --lock-tables --replace db1 tbl1.bak
当然，解压缩要消耗CPU时间。
象其它客户机一样，你可能需要提供-u，-p选项以通过身分验证，也可以在选项文件my.cnf中存储这些参数，具体方法和其它客户机一样，这里就不详述了。

二、使用mysqldump备份数据
同mysqlimport一样，也存在一个工具mysqldump备份数据，但是它比SQL语句多做的工作是可以在导出的文件中包括SQL语句，因此可以备份数据库表的结构，而且可以备份一个数据库，甚至整个数据库系统。
mysqldump [OPTIONS] database [tables]
mysqldump [OPTIONS] --databases [OPTIONS] DB1 [DB2 DB3...]
mysqldump [OPTIONS] --all-databases [OPTIONS]
如果你不给定任何表，整个数据库将被倾倒。
通过执行mysqldump --help，你能得到你mysqldump的版本支持的选项表。
1、备份数据库的方法
例如，假定你在服务器主机上备份数据库db_name
shell> mydqldump db_name
当然，由于mysqldump缺省时把输出定位到标准输出，你需要重定向标准输出。例如，把数据库备份到bd_name.bak中：
shell> mydqldump db_name>db_name.bak
你可以备份多个数据库，注意这种方法将不能指定数据表：
shell> mydqldump --databases db1 db1>db.bak
你也可以备份整个数据库系统的拷贝，不过对于一个庞大的系统，这样做没有什么实际的价值：
shell> mydqldump --all-databases>db.bak
虽然用mysqldump导出表的结构很有用，但是恢复大量数据时，众多SQL语句使恢复的效率降低。你可以通过使用--tab选项，分开数据和创建表的SQL语句。
-T，--tab= 在选项指定的目录里，创建用制表符（tab）分隔列值的数据文件和包含创建表结构的SQL语句的文件，分别用扩展名.txt和.sql表示。该选项不能与--databases或--all-databases同时使用，并且mysqldump必须运行在服务器主机上。
例如，假设数据库db包括表tbl1，tbl2，你准备备份它们到/var/mysqldb
shell>mysqldump --tab=/var/mysqldb/ db
其效果是在目录/var/mysqldb中生成4个文件，分别是tbl1.txt、tbl1.sql、tbl2.txt和tbl2.sql。
2、mysqldump实用程序时的身份验证的问题
同其他客户机一样，你也必须提供一个MySQL数据库帐号用来导出数据库，如果你不是使用匿名用户的话，可能需要手工提供参数或者使用选项文件：
如果这样：
shell>mysql -u root –pmypass db_name>db_name.sql
或者这样在选项文件中提供参数：
[mysqldump]
user=root
password=mypass
然后执行
shell>mysqldump db_name>db_name.sql
那么一切顺利，不会有任何问题，但要注意命令历史会泄漏密码，或者不能让任何除你之外的用户能够访问选项文件，由于数据库服务器也需要这个选项文件时，选项文件只能被启动服务器的用户（如，mysql）拥有和访问，以免泄密。在Unix下你还有一个解决办法，可以在自己的用户目录中提供个人选项文件（~/.my.cnf）,例如，/home/some_user/.my.cnf，然后把上面的内容加入文件中，注意防止泄密。在NT系统中，你可以简单的让c:\my.cnf能被指定的用户访问。
你可能要问，为什么这么麻烦呢，例如，这样使用命令行：
shell>mysql -u root –p db_name>db_name.sql
或者在选项文件中加入
[mysqldump]
user=root
password
然后执行命令行：
shell>mysql db_name>db_name.sql
你发现了什么？往常熟悉的Enter password:提示并没有出现，因为标准输出被重定向到文件db_name.sql中了，所以看不到往常的提示符，程序在等待你输入密码。在重定向的情况下，再使用交互模式，就会有问题。在上面的情况下，你还可以直接输入密码。然后在文件db_name.sql文件的第一行看到:
Enter password:#……..
你可能说问题不大，但是mysqldump之所以把结果输出到标准输出，是为了重定向到其它程序的标准输入，这样有利于编写脚本。例如：
用来自于一个数据库的信息充实另外一个MySQL数据库也是有用的：
shell>mysqldump --opt database | mysql --host=remote-host -C database
如果mysqldump仍运行在提示输入密码的交互模式下，该命令不会成功，但是如果mysql是否运行在提示输入密码的交互模式下，都是可以的。
如果在选项文件中的[client]或者[mysqldump]任何一段中指定了password选项，且不提供密码，即使，在另一段中有提供密码的选项password=mypass,例如
[client]
user=root
password
[mysqldump]
user=admin
password=mypass
那么mysqldump一定要你输入admin用户的密码：
mysql>mysqldump db_name
即使是这样使用命令行：
mysql>mysqldump –u root –ppass1 db
也是这样，不过要如果-u指定的用户的密码。
其它使用选项文件的客户程序也是这样
3、有关生成SQL语句的优化控制
--add-locks 生成的SQL 语句中，在每个表数据恢复之前增加LOCK TABLES并且之后UNLOCK TABLE。(为了使得更快地插入到MySQL)。
--add-drop-table 生成的SQL 语句中，在每个create语句之前增加一个drop table。
-e, --extended-insert 使用全新多行INSERT语法。（给出更紧缩并且更快的插入语句）
下面两个选项能够加快备份表的速度：
-l, --lock-tables. 为开始导出数据前，读锁定所有涉及的表。
-q, --quick 不缓冲查询，直接倾倒至stdout。
理论上，备份时你应该指定上诉所有选项。这样会使命令行过于复杂，作为代替，你可以简单的指定一个--opt选项，它会使上述所有选项有效。
例如，你将导出一个很大的数据库：
shell> mysqldump --opt db_name > db_name.txt
当然，使用--tab选项时，由于不生成恢复数据的SQL语句，使用--opt时，只会加快数据导出。
4、恢复mysqldump备份的数据
由于备份文件是SQL语句的集合，所以需要在批处理模式下使用客户机
 如果你使用mysqldump备份单个数据库或表，即：
shell>mysqldump --opt db_name > db_name.sql
由于db_name.sql中不包括创建数据库或者选取数据库的语句，你需要指定数据库
shell>mysql db2 < db_name.sql
 如果，你使用--databases或者--all-databases选项，由于导出文件中已经包含创建和选用数据库的语句，可以直接使用，不比指定数据库，例如：
shell>mysqldump --databases db_name > db_name.sql
shell>mysql <db_name.sql
 如果你使用--tab选项备份数据，数据恢复可能效率会高些
例如，备份数据库db_name后在恢复：
shell>mysqldump --tab=/path/to/dir --opt test
如果要恢复表的结构，可以这样：
shell>mysql < /path/to/dir/tbl1.sql
…
如果要恢复数据，可以这样
shell>mysqlimport -l db /path/to/dir/tbl1.txt
…
如果是在Unix平台下使用（推荐），就更方便了：
shell>ls -l *.sql | mysql db
shell>mysqlimport --lock-tables db /path/to/dir/*.txt

三 .用直接拷贝的方法备份恢复
根据本章前两节的介绍，由于MySQL的数据库和表是直接通过目录和表文件实现的，因此直接复制文件来备份数据库数据，对MySQL来说特别方便。而且自MySQL 3.23起MyISAM表成为缺省的表的类型，这种表可以为在不同的硬件体系中共享数据提供了保证。
使用直接拷贝的方法备份时，尤其要注意表没有被使用，你应该首先对表进行读锁定。
备份一个表，需要三个文件：
对于MyISAM表：
tbl_name.frm 表的描述文件
tbl_name.MYD 表的数据文件
tbl_name.MYI 表的索引文件
对于ISAM表：
tbl_name.frm 表的描述文件
tbl_name.ISD 表的数据文件
tbl_name.ISM 表的索引文件
你直接拷贝文件从一个数据库服务器到另一个服务器，对于MyISAM表，你可以从运行在不同硬件系统的服务器之间复制文件

像你这个问题，可以把远程机器的mysql数据目录ftp下载到你本地的mysql目录下，重启mysql就可以了

MySql LOAD DATA INFILE 以逗号失败

【中文标题】MySql LOAD DATA INFILE 以逗号失败【英文标题】：MySql LOAD DATA INFILE failing with commas 【发布时间】：2021-12-06 02:16:33 【问题描述】：

声明如下：

LOAD DATA INFILE '/var/lib/mysql-files/test.csv'
INTO TABLE test 
FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY '\\'

这里有一行可以很好地导入：

1450327840667357185, 1, "This is my text"

如果文本字段有逗号，则会失败。例如，看到这一行：

1450327840667357185, 1, "This is my text, with a comma in it"

为什么会失败？

如果我转义逗号（通过在它前面放一个反斜杠）它可以正常工作。但这没有意义。我已经规定字段可以用双引号括起来，为什么不接受其中的所有内容作为字段的内容呢？

如果我必须重新处理所有文本以引用逗号，那将是一项艰巨的任务。

【问题讨论】：

您已指定FIELDS TERMINATED BY ',' - 为什么您会感到惊讶？您的 CSV 在 , 分隔符后有空格。我没有 MySQL 可以玩，但我希望这意味着它将这些空间视为值的一部分，从而导致各种问题。试试TERMINATED BY ', '？ 这就是问题所在。我在文本字段值中的逗号后面也看到了一个空格...这个空格在实际数据中不存在吗？ @Akina - 通过将', ' 指定为分隔符/终止符（包括空格），第三个值现在被读取为以" 开头，而不是从一个空格开始。这意味着ENCLOSED BY '"' 现在按预期“工作”；解析正确地看到 quoted string 内的 , ，因此不作为分隔符处理。相反，正如问题中所写，第三个值以空格开头，而不是 "，因此不是带引号的字符串，导致解析器认为有四个分隔值。 @MatBailie 请将此解释添加到您的答案中 - 这很关键。 【参考方案1】：

您的 CSV 在 , 分隔符后有空格。

我没有 MySQL 可玩，但我希望这意味着它会将这些空格视为值的一部分，从而导致各种问题。

这意味着 CSV 行被读取为...

VAL = 1450327840667357185 SEP = , VAL = 1 SEP = , VAL = "This is my text SEP = , VAL = with a comma in it"

请注意，值中包含前导空格。

这意味着第三个值不是以"开头（它以空格开头），所以ENCLOSED BY '"'没有做任何事情。这意味着解析器将字符串视为未引用，这反过来意味着后续的, 被视为分隔符。

试试TERMINATED BY ', '...

这意味着解析器现在将该行读取为...

VAL = 1450327840667357185 SEP = , VAL = 1 SEP = , VAL = "This is my text, with a comma in it"

注意第三个值现在确实以"开头（因为前导空格现在是分隔符的一部分），并且所以是一个引用的字符串，所以后面的,是不是 strong> 视为分隔符。

【讨论】：

【参考方案2】：

使用Input Preprocessing。将整行加载到一个变量中，然后将其解析为单独的列。

LOAD DATA INFILE '/var/lib/mysql-files/test.csv'
INTO TABLE test 
-- FIELDS TERMINATED BY ''
(@tmp)
SET column1 = SUBSTRING_INDEX(@tmp, ',', 1),
    @tmp = TRIM(SUBSTRING(@tmp FROM 1 + LOCATE(',', @tmp))),
    column2 = SUBSTRING_INDEX(@tmp, ',', 1),
    column3 = TRIM(BOTH '"' FROM TRIM(SUBSTRING(@tmp FROM 1 + LOCATE(',', @tmp))))

【讨论】：

以上是关于Mysql load data infile 效率问题的主要内容，如果未能解决你的问题，请参考以下文章

mysql导入数据load data infile用法

MySQL：启用 LOAD DATA LOCAL INFILE

MySQL通过 LOAD DATA INFILE 批量导入数据

MySql LOAD DATA INFILE 以逗号失败

mysql load data local infile问题

MySQL 之 LOAD DATA INFILE 快速导入数据