Sqoop Oracle 导出非常慢

Posted

技术标签:

【中文标题】Sqoop Oracle 导出非常慢【英文标题】:Sqoop Oracle Export Very slow 【发布时间】:2013-08-14 08:39:51 【问题描述】:

我最近开始在 Linux 上研究 sqoop - hive/hadoop。我必须将 hive 数据从一个表导入到 oracle 表。我正在使用简单的sqoop export 来执行此操作。我在 hive 表中有 600 万行。

这个命令给了我很差的性能并且需要很长时间(85 分钟)才能完成这项工作。

查询->

sqoop export --connect jdbc:oracle:thin:@server:port:db--username user --password password--export-dir /user/hive/warehouse/tb --table tb--columns 'col1,col2..col33'  --input-fields-terminated-by  ','  --input-null-string '\\N' --input-null-non-string '\\N'  -m 1

是否有任何配置更改可以帮助我加快速度。

【问题讨论】:

【参考方案1】:

如果没有任何其他信息,很难提供帮助。我建议再次开始导出工作并监视环境以查看瓶颈在哪里(数据库?网络?hadoop?)。尝试OraOop 连接器也可能会有所帮助,因为它通常更快。

【讨论】:

您的链接已失效【参考方案2】:

这是一个“宽”数据集吗?这可能是一个 sqoop 错误https://issues.apache.org/jira/browse/SQOOP-2920 如果列数非常多(数百),sqoop 开始阻塞(cpu 上非常高)。

当字段数量很少时,通常情况相反——当 sqoop 很无聊并且 Oracle 跟不上时。在这种情况下,我们通常不会超过 45-55 个映射器。

【讨论】:

以上是关于Sqoop Oracle 导出非常慢的主要内容,如果未能解决你的问题,请参考以下文章

Sqoop 导出到 Aurora RDS 非常慢

sqoop从oracle导数据后是空表

Sqoop_具体总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入导出

sqoop 从oracle抽数据是 sql怎么写

如何用sqoop查看oracle的表

Sqoop简单回顾总结