我们可以使用SizeEstimator.estimate估算RDD / DataFrame的大小吗？

Posted 2021-04-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了我们可以使用SizeEstimator.estimate估算RDD / DataFrame的大小吗？相关的知识，希望对你有一定的参考价值。

我有一个DataFrame，它将由hiveContext通过执行Hive SQL创建，在我的情况下，查询的数据应该被推送到不同的数据存储区。

由于我试图执行的SQL，DataFrame有数千个分区。

要将数据推送到数据存储区，我使用mapPartitions()并获取连接并推送数据。

由于分区的数量，数据目标上的负载非常高，我可以根据DataFrame的大小将分区数量coalsec()到所需的计数。

在我的所有情况下，SQL生成的数据量并不相同。在少数情况下，它可能只有几百个记录，在极少数情况下可能会达到几百万个。因此，我需要一种动态的方式来决定coalsec()的分区数量。

在谷歌搜索后，我可以看到我们可以使用SizeEstimator.estimate()估计DataFrame的大小，然后根据一些计算划分计数以获得分区数。但是在SizeEstimator.estimate上查看spark's repo的实现表明，它已经针对单个JVM立场实现，并且应该用于广播变量等对象，而不是用于分布在JVM上的RDD / DataFrame。

任何人都可以建议如何解决我的问题？如果我的理解是错误的，请告诉我。

答案