Sqoop 导出到 Aurora RDS 非常慢

Posted

技术标签:

【中文标题】Sqoop 导出到 Aurora RDS 非常慢【英文标题】:Sqoop export into Aurora RDS is extreamly Slow 【发布时间】:2018-10-18 06:12:13 【问题描述】:

我正在尝试将 900 个文件中的 130GB 数据从 S3 导出到 Aurora/mysql RDS。 我有 10r4.4xlarge 配置的 10 个节点集群。 极光在上

Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)

另外,当我运行我的 Sqoop 命令时,我可以看到 917 个映射器被启动。 但是导出还是很慢很慢。加载所有数据需要2个多小时。

这是我正在尝试执行的 Sqoop 命令。

sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by  '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1

有什么方法可以改进 Sqoop Export 吗? 我尝试使用每个事务的记录,但结果仍然相同。

请建议..

【问题讨论】:

你能优化这个吗?如果是这样,您能分享一下方法吗? 【参考方案1】:

您可以批量导出它,分区也会有所帮助,但存在更多解决方案。您可以参考此 HortonWorks 链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html 以了解更多性能调优方法。

【讨论】:

以上是关于Sqoop 导出到 Aurora RDS 非常慢的主要内容,如果未能解决你的问题,请参考以下文章

如何将 DynamoDb 迁移到 RDS (Aurora)

hive导出到rds 时间字段string

[AWS][数据库]Aurora 动手实验&对比RDS Mysql性能

如何将 AWS RDS Aurora MySQL 5.6 升级到 5.7

使用 Ruby on rails Elastic Beanstalk 将 RDS 迁移到 Aurora MySQL

无法公开 AWS Aurora Postgres RDS