用于大型交叉连接的Spark scala分区数据框

Question

我有两个需要在20节点集群上交叉连接的数据帧。但是由于它们的大小，简单的交叉连接失败了。我正在寻找分区数据和执行交叉连接，我正在寻找一种有效的方法来做到这一点。

简单算法

手动将文件f1分成三个并读入数据帧：df1A, df1B, df1C。手动将文件f2分成四个并准备好进入数据帧：df2A, df2B, df2C, df2D。交叉加入df1A X df2A, df1A X df2B,..,df1A X df2D,...,df1C X df2D。将每个交叉连接保存在文件中，并手动将所有文件放在一起。通过这种方式，Spark可以并行执行每个交叉连接，并且事情应该很快完成。

题

是否有更有效的方法通过将两个文件读入两个数据帧，然后将每个数据帧分成3个和4个“片段”，并将一个数据帧的每个分区与另一个数据帧的每个分区交叉连接？

Answer 1

另一答案