Sqoop Oracle 导出非常慢
Posted
技术标签:
【中文标题】Sqoop Oracle 导出非常慢【英文标题】:Sqoop Oracle Export Very slow 【发布时间】:2013-08-14 08:39:51 【问题描述】:我最近开始在 Linux 上研究 sqoop - hive/hadoop
。我必须将 hive 数据从一个表导入到 oracle 表。我正在使用简单的sqoop
export 来执行此操作。我在 hive 表中有 600 万行。
这个命令给了我很差的性能并且需要很长时间(85 分钟)才能完成这项工作。
查询->
sqoop export --connect jdbc:oracle:thin:@server:port:db--username user --password password--export-dir /user/hive/warehouse/tb --table tb--columns 'col1,col2..col33' --input-fields-terminated-by ',' --input-null-string '\\N' --input-null-non-string '\\N' -m 1
是否有任何配置更改可以帮助我加快速度。
【问题讨论】:
【参考方案1】:如果没有任何其他信息,很难提供帮助。我建议再次开始导出工作并监视环境以查看瓶颈在哪里(数据库?网络?hadoop?)。尝试OraOop 连接器也可能会有所帮助,因为它通常更快。
【讨论】:
您的链接已失效【参考方案2】:这是一个“宽”数据集吗?这可能是一个 sqoop 错误https://issues.apache.org/jira/browse/SQOOP-2920 如果列数非常多(数百),sqoop 开始阻塞(cpu 上非常高)。
当字段数量很少时,通常情况相反——当 sqoop 很无聊并且 Oracle 跟不上时。在这种情况下,我们通常不会超过 45-55 个映射器。
【讨论】:
以上是关于Sqoop Oracle 导出非常慢的主要内容,如果未能解决你的问题,请参考以下文章