Mysql load data infile 效率问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Mysql load data infile 效率问题相关的知识,希望对你有一定的参考价值。
一次性导入20W的数据,当表是空的时候load data infile导入几十秒钟就搞定,当表中存在的数据越多,所需要的时间也越来越多,有什么办法解决?
参考技术A 其实你的这个问题是mysql中的一个核心问题,既mysql数据的备份和恢复你可以使用三种方式
1.使用sql语句导入导出
2.使用mysqldump 和mysqlimport 工具
3.直接copy 数据文件 既冷备份
你说说的详细,就给积分,那我就说详细些
一.使用sql语句完成mysql的备份和恢复
你可以使用SELECT INTO OUTFILE语句备份数据,并用LOAD DATA INFILE语句恢复数据。这种方法只能导出数据的内容,不包括表的结构,如果表的结构文件损坏,你必须要先恢复原来的表的结构。
语法:
SELECT * INTO 'file_name' FROM tbl_name
LOAD DATA [LOW_PRIORITY] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE]
INTO TABLE tbl_name
SELECT ... INTO OUTFILE 'file_name'格式的SELECT语句将选择的行写入一个文件。文件在服务器主机上被创建,并且不能是已经存在的(不管别的,这可阻止数据库表和文件例如“/etc/passwd”被破坏)。SELECT ... INTO OUTFILE是LOAD DATA INFILE逆操作。
LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中。如果指定LOCAL关键词,从客户主机读文件。如果LOCAL没指定,文件必须位于服务器上。(LOCAL在MySQL3.22.6或以后版本中可用。)
为了安全原因,当读取位于服务器上的文本文件时,文件必须处于数据库目录或可被所有人读取。另外,为了对服务器上文件使用LOAD DATA INFILE,在服务器主机上你必须有file的权限。使用这种SELECT INTO OUTFILE语句,在服务器主机上你必须有FILE权限。
为了避免重复记录,在表中你需要一个PRIMARY KEY或UNIQUE索引。当在唯一索引值上一个新记录与一个老记录重复时,REPLACE关键词使得老记录用一个新记录替代。如果你指定IGNORE,跳过有唯一索引的现有行的重复行的输入。如果你不指定任何一个选项,当找到重复索引值时,出现一个错误,并且文本文件的余下部分被忽略时。
如果你指定关键词LOW_PRIORITY,LOAD DATA语句的执行被推迟到没有其他客户读取表后。
使用LOCAL将比让服务器直接存取文件慢些,因为文件的内容必须从客户主机传送到服务器主机。在另一方面,你不需要file权限装载本地文件。如果你使用LOCAL关键词从一个本地文件装载数据,服务器没有办法在操作的当中停止文件的传输,因此缺省的行为好像IGNORE被指定一样。
当在服务器主机上寻找文件时,服务器使用下列规则:
如果给出一个绝对路径名,服务器使用该路径名。
如果给出一个有一个或多个前置部件的相对路径名,服务器相对服务器的数据目录搜索文件。
如果给出一个没有前置部件的一个文件名,服务器在当前数据库的数据库目录寻找文件。
假定表tbl_name具有一个PRIMARY KEY或UNIQUE索引,备份一个数据表的过程如下:
1、锁定数据表,避免在备份过程中,表被更新
mysql>LOCK TABLES READ tbl_name;
关于表的锁定的详细信息,将在下一章介绍。
2、导出数据
mysql>SELECT * INTO OUTFILE ‘tbl_name.bak’ FROM tbl_name;
3、解锁表
mysql>UNLOCK TABLES;
相应的恢复备份的数据的过程如下:
1、为表增加一个写锁定:
mysql>LOCK TABLES tbl_name WRITE;
2、恢复数据
mysql>LOAD DATA INFILE ‘tbl_name.bak’
->REPLACE INTO TABLE tbl_name;
如果,你指定一个LOW_PRIORITY关键字,就不必如上要对表锁定,因为数据的导入将被推迟到没有客户读表为止:
mysql>LOAD DATA LOW_PRIORITY INFILE ‘tbl_name’
->REPLACE INTO TABLE tbl_name;
3、解锁表
mysql->UNLOCAK TABLES;
5.3.2使用mysqlimport恢复数据
如果你仅仅恢复数据,那么完全没有必要在客户机中执行SQL语句,因为你可以简单的使用mysqlimport程序,它完全是与LOAD DATA 语句对应的,由发送一个LOAD DATA INFILE命令到服务器来运作。执行命令mysqlimport --help,仔细查看输出,你可以从这里得到帮助。
shell> mysqlimport [options] db_name filename ...
对于在命令行上命名的每个文本文件,mysqlimport剥去文件名的扩展名并且使用它决定哪个表导入文件的内容。例如,名为“patient.txt”、“patient.text”和“patient”将全部被导入名为patient的一个表中。
常用的选项为:
-C, --compress 如果客户和服务器均支持压缩,压缩两者之间的所有信息。
-d, --delete 在导入文本文件前倒空表格。
l, --lock-tables 在处理任何文本文件前为写入所定所有的表。这保证所有的表在服务器上被同步。
--low-priority,--local,--replace,--ignore分别对应LOAD DATA语句的LOW_PRIORITY,LOCAL,REPLACE,IGNORE关键字。
例如恢复数据库db1中表tbl1的数据,保存数据的文件为tbl1.bak,假定你在服务器主机上:
shell>mysqlimport --lock-tables --replace db1 tbl1.bak
这样在恢复数据之前现对表锁定,也可以利用--low-priority选项:
shell>mysqlimport --low-priority --replace db1 tbl1.bak
如果你为远程的服务器恢复数据,还可以这样:
shell>mysqlimport -C --lock-tables --replace db1 tbl1.bak
当然,解压缩要消耗CPU时间。
象其它客户机一样,你可能需要提供-u,-p选项以通过身分验证,也可以在选项文件my.cnf中存储这些参数,具体方法和其它客户机一样,这里就不详述了。
二、使用mysqldump备份数据
同mysqlimport一样,也存在一个工具mysqldump备份数据,但是它比SQL语句多做的工作是可以在导出的文件中包括SQL语句,因此可以备份数据库表的结构,而且可以备份一个数据库,甚至整个数据库系统。
mysqldump [OPTIONS] database [tables]
mysqldump [OPTIONS] --databases [OPTIONS] DB1 [DB2 DB3...]
mysqldump [OPTIONS] --all-databases [OPTIONS]
如果你不给定任何表,整个数据库将被倾倒。
通过执行mysqldump --help,你能得到你mysqldump的版本支持的选项表。
1、备份数据库的方法
例如,假定你在服务器主机上备份数据库db_name
shell> mydqldump db_name
当然,由于mysqldump缺省时把输出定位到标准输出,你需要重定向标准输出。例如,把数据库备份到bd_name.bak中:
shell> mydqldump db_name>db_name.bak
你可以备份多个数据库,注意这种方法将不能指定数据表:
shell> mydqldump --databases db1 db1>db.bak
你也可以备份整个数据库系统的拷贝,不过对于一个庞大的系统,这样做没有什么实际的价值:
shell> mydqldump --all-databases>db.bak
虽然用mysqldump导出表的结构很有用,但是恢复大量数据时,众多SQL语句使恢复的效率降低。你可以通过使用--tab选项,分开数据和创建表的SQL语句。
-T,--tab= 在选项指定的目录里,创建用制表符(tab)分隔列值的数据文件和包含创建表结构的SQL语句的文件,分别用扩展名.txt和.sql表示。该选项不能与--databases或--all-databases同时使用,并且mysqldump必须运行在服务器主机上。
例如,假设数据库db包括表tbl1,tbl2,你准备备份它们到/var/mysqldb
shell>mysqldump --tab=/var/mysqldb/ db
其效果是在目录/var/mysqldb中生成4个文件,分别是tbl1.txt、tbl1.sql、tbl2.txt和tbl2.sql。
2、mysqldump实用程序时的身份验证的问题
同其他客户机一样,你也必须提供一个MySQL数据库帐号用来导出数据库,如果你不是使用匿名用户的话,可能需要手工提供参数或者使用选项文件:
如果这样:
shell>mysql -u root –pmypass db_name>db_name.sql
或者这样在选项文件中提供参数:
[mysqldump]
user=root
password=mypass
然后执行
shell>mysqldump db_name>db_name.sql
那么一切顺利,不会有任何问题,但要注意命令历史会泄漏密码,或者不能让任何除你之外的用户能够访问选项文件,由于数据库服务器也需要这个选项文件时,选项文件只能被启动服务器的用户(如,mysql)拥有和访问,以免泄密。在Unix下你还有一个解决办法,可以在自己的用户目录中提供个人选项文件(~/.my.cnf),例如,/home/some_user/.my.cnf,然后把上面的内容加入文件中,注意防止泄密。在NT系统中,你可以简单的让c:\my.cnf能被指定的用户访问。
你可能要问,为什么这么麻烦呢,例如,这样使用命令行:
shell>mysql -u root –p db_name>db_name.sql
或者在选项文件中加入
[mysqldump]
user=root
password
然后执行命令行:
shell>mysql db_name>db_name.sql
你发现了什么?往常熟悉的Enter password:提示并没有出现,因为标准输出被重定向到文件db_name.sql中了,所以看不到往常的提示符,程序在等待你输入密码。在重定向的情况下,再使用交互模式,就会有问题。在上面的情况下,你还可以直接输入密码。然后在文件db_name.sql文件的第一行看到:
Enter password:#……..
你可能说问题不大,但是mysqldump之所以把结果输出到标准输出,是为了重定向到其它程序的标准输入,这样有利于编写脚本。例如:
用来自于一个数据库的信息充实另外一个MySQL数据库也是有用的:
shell>mysqldump --opt database | mysql --host=remote-host -C database
如果mysqldump仍运行在提示输入密码的交互模式下,该命令不会成功,但是如果mysql是否运行在提示输入密码的交互模式下,都是可以的。
如果在选项文件中的[client]或者[mysqldump]任何一段中指定了password选项,且不提供密码,即使,在另一段中有提供密码的选项password=mypass,例如
[client]
user=root
password
[mysqldump]
user=admin
password=mypass
那么mysqldump一定要你输入admin用户的密码:
mysql>mysqldump db_name
即使是这样使用命令行:
mysql>mysqldump –u root –ppass1 db
也是这样,不过要如果-u指定的用户的密码。
其它使用选项文件的客户程序也是这样
3、有关生成SQL语句的优化控制
--add-locks 生成的SQL 语句中,在每个表数据恢复之前增加LOCK TABLES并且之后UNLOCK TABLE。(为了使得更快地插入到MySQL)。
--add-drop-table 生成的SQL 语句中,在每个create语句之前增加一个drop table。
-e, --extended-insert 使用全新多行INSERT语法。(给出更紧缩并且更快的插入语句)
下面两个选项能够加快备份表的速度:
-l, --lock-tables. 为开始导出数据前,读锁定所有涉及的表。
-q, --quick 不缓冲查询,直接倾倒至stdout。
理论上,备份时你应该指定上诉所有选项。这样会使命令行过于复杂,作为代替,你可以简单的指定一个--opt选项,它会使上述所有选项有效。
例如,你将导出一个很大的数据库:
shell> mysqldump --opt db_name > db_name.txt
当然,使用--tab选项时,由于不生成恢复数据的SQL语句,使用--opt时,只会加快数据导出。
4、恢复mysqldump备份的数据
由于备份文件是SQL语句的集合,所以需要在批处理模式下使用客户机
如果你使用mysqldump备份单个数据库或表,即:
shell>mysqldump --opt db_name > db_name.sql
由于db_name.sql中不包括创建数据库或者选取数据库的语句,你需要指定数据库
shell>mysql db2 < db_name.sql
如果,你使用--databases或者--all-databases选项,由于导出文件中已经包含创建和选用数据库的语句,可以直接使用,不比指定数据库,例如:
shell>mysqldump --databases db_name > db_name.sql
shell>mysql <db_name.sql
如果你使用--tab选项备份数据,数据恢复可能效率会高些
例如,备份数据库db_name后在恢复:
shell>mysqldump --tab=/path/to/dir --opt test
如果要恢复表的结构,可以这样:
shell>mysql < /path/to/dir/tbl1.sql
…
如果要恢复数据,可以这样
shell>mysqlimport -l db /path/to/dir/tbl1.txt
…
如果是在Unix平台下使用(推荐),就更方便了:
shell>ls -l *.sql | mysql db
shell>mysqlimport --lock-tables db /path/to/dir/*.txt
三 .用直接拷贝的方法备份恢复
根据本章前两节的介绍,由于MySQL的数据库和表是直接通过目录和表文件实现的,因此直接复制文件来备份数据库数据,对MySQL来说特别方便。而且自MySQL 3.23起MyISAM表成为缺省的表的类型,这种表可以为在不同的硬件体系中共享数据提供了保证。
使用直接拷贝的方法备份时,尤其要注意表没有被使用,你应该首先对表进行读锁定。
备份一个表,需要三个文件:
对于MyISAM表:
tbl_name.frm 表的描述文件
tbl_name.MYD 表的数据文件
tbl_name.MYI 表的索引文件
对于ISAM表:
tbl_name.frm 表的描述文件
tbl_name.ISD 表的数据文件
tbl_name.ISM 表的索引文件
你直接拷贝文件从一个数据库服务器到另一个服务器,对于MyISAM表,你可以从运行在不同硬件系统的服务器之间复制文件
像你这个问题,可以把远程机器的mysql数据目录ftp下载到你本地的mysql目录下,重启mysql就可以了
MySql LOAD DATA INFILE 以逗号失败
【中文标题】MySql LOAD DATA INFILE 以逗号失败【英文标题】:MySql LOAD DATA INFILE failing with commas 【发布时间】:2021-12-06 02:16:33 【问题描述】:声明如下:
LOAD DATA INFILE '/var/lib/mysql-files/test.csv'
INTO TABLE test
FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY '\\'
这里有一行可以很好地导入:
1450327840667357185, 1, "This is my text"
如果文本字段有逗号,则会失败。例如,看到这一行:
1450327840667357185, 1, "This is my text, with a comma in it"
为什么会失败?
如果我转义逗号(通过在它前面放一个反斜杠)它可以正常工作。但这没有意义。我已经规定字段可以用双引号括起来,为什么不接受其中的所有内容作为字段的内容呢?
如果我必须重新处理所有文本以引用逗号,那将是一项艰巨的任务。
【问题讨论】:
您已指定FIELDS TERMINATED BY ','
- 为什么您会感到惊讶?
您的 CSV 在 ,
分隔符后有空格。我没有 MySQL 可以玩,但我希望这意味着它将这些空间视为值的一部分,从而导致各种问题。试试TERMINATED BY ', '
?
这就是问题所在。我在文本字段值中的逗号后面也看到了一个空格...这个空格在实际数据中不存在吗?
@Akina - 通过将', '
指定为分隔符/终止符(包括空格),第三个值现在被读取为以"
开头,而不是从一个空格开始。这意味着ENCLOSED BY '"'
现在按预期“工作”;解析正确地看到 quoted string 内的 ,
,因此不作为分隔符处理。相反,正如问题中所写,第三个值以空格开头,而不是 "
,因此不是带引号的字符串,导致解析器认为有四个分隔值。
@MatBailie 请将此解释添加到您的答案中 - 这很关键。
【参考方案1】:
您的 CSV 在 ,
分隔符后有空格。
我没有 MySQL 可玩,但我希望这意味着它会将这些空格视为值的一部分,从而导致各种问题。
这意味着 CSV 行被读取为...
VAL =1450327840667357185
SEP = ,
VAL = 1
SEP = ,
VAL = "This is my text
SEP = ,
VAL = with a comma in it"
请注意,值中包含前导空格。
这意味着第三个值不是以"
开头(它以空格开头),所以ENCLOSED BY '"'
没有做任何事情。这意味着解析器将字符串视为未引用,这反过来意味着后续的,
被视为分隔符。
试试TERMINATED BY ', '
...
这意味着解析器现在将该行读取为...
VAL =1450327840667357185
SEP = ,
VAL = 1
SEP = ,
VAL = "This is my text, with a comma in it"
注意第三个值现在确实以"
开头(因为前导空格现在是分隔符的一部分),并且所以是一个引用的字符串,所以后面的,
是不是 strong> 视为分隔符。
【讨论】:
【参考方案2】:使用Input Preprocessing。将整行加载到一个变量中,然后将其解析为单独的列。
LOAD DATA INFILE '/var/lib/mysql-files/test.csv'
INTO TABLE test
-- FIELDS TERMINATED BY ''
(@tmp)
SET column1 = SUBSTRING_INDEX(@tmp, ',', 1),
@tmp = TRIM(SUBSTRING(@tmp FROM 1 + LOCATE(',', @tmp))),
column2 = SUBSTRING_INDEX(@tmp, ',', 1),
column3 = TRIM(BOTH '"' FROM TRIM(SUBSTRING(@tmp FROM 1 + LOCATE(',', @tmp))))
【讨论】:
以上是关于Mysql load data infile 效率问题的主要内容,如果未能解决你的问题,请参考以下文章
MySQL:启用 LOAD DATA LOCAL INFILE
MySQL通过 LOAD DATA INFILE 批量导入数据