sqoop进口实木复合地板尺寸

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sqoop进口实木复合地板尺寸相关的知识,希望对你有一定的参考价值。

我的问题是,我有一个500k行的Oracle表。我设置sqoop将其作为镶木地板文件导入HDFS。我将--num-partition参数设置为32,我得到了32个镶木地板文件,但其中一个是28 MB大,其他只有2-3 KB。

这是我的sqoop命令:

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR>

我的问题是,这个文件大小的原因是什么?

答案

这意味着您的数据不是均匀分布的。

我在命令中没有看到任何--split-by列。因此,假设在主键上完成拆分。拆分基本上是通过同时运行范围查询来完成的。其中一个范围查询是获取最大数据,因此大小为28 MB。

另一答案

我建议你不要拆分sqoop作业,只给“-m 1”。此外,镶木地板文件的500K行不高;镶木地板是一种可拆分的文件格式,因此一个大的镶木地板文件不会成为mapreduce的开销。

以上是关于sqoop进口实木复合地板尺寸的主要内容,如果未能解决你的问题,请参考以下文章

有人买过北美枫情地板吗?

将拼花地板转换为json以进行dynamodb导入

Sqoop 导入不适用于蜂巢镶木地板

火花可重复/确定性结果

支持动态或静态片段的不同屏幕尺寸?

oozie sqoop 动作具有 --map-column-java