Spark 数据集 Joinwith 错误:连接条件丢失或不重要

Posted

技术标签:

【中文标题】Spark 数据集 Joinwith 错误:连接条件丢失或不重要【英文标题】:Spark Dataset Joinwith Error: Join condition is missing or trivial 【发布时间】:2018-10-05 06:12:46 【问题描述】:

我想在 Spark 中加入两个数据集。这就是我所做的:

Dataset<Row> data = spark.read().format("parquet").load("hdfs://path");
Dataset<Person> p1= data.filter("id < 200").as(Encoders.bean(Person.class)).alias("ds1");
Dataset<Person> p2= data.filter("id < 100").as(Encoders.bean(Person.class)).alias("ds2");
p1.joinWith(p2, p1.col("ds1.id").equalTo(p2.col("ds2.id")) ,"inner").show();

当我运行程序时出现此错误:

Detected implicit cartesian product for INNER join between logical plans
Project [named_struct(id, id#3L, fname, fname#1, lname, lname#4, email, email#0, gender, gender#2) AS _1#41]
+- Filter (named_struct(id, id#3L, fname, fname#1, lname, lname#4, email, email#0, gender, gender#2).id = named_struct(id, id#3L, fname, fname#1, lname, lname#4, email, email#0, gender, gender#2).id)
   +- Relation[email#0,fname#1,gender#2,id#3L,lname#4] parquet
and
Project [named_struct(id, id#39L, fname, fname#37, lname, lname#40, email, email#36, gender, gender#38) AS _2#42]
+- Relation[email#36,fname#37,gender#38,id#39L,lname#40] parquet
Join condition is missing or trivial.
Either: use the CROSS JOIN syntax to allow cartesian products between these
relations, or: enable implicit cartesian products by setting the configuration
variable spark.sql.crossJoin.enabled=true;

我从错误中了解到并查看源代码是:它认为this is a cross join(第 1311-1328 行)但事实并非如此。

我看到this solution 也说这是因为结构共享相同的血统,我们应该使用别名,我使用了它,但它不起作用。我该如何解决这个问题?

还有一个与此问题相关的错误报告:spark-25150

【问题讨论】:

【参考方案1】:

“col”附近没有数据集前缀(“p1.”、“p2.”)必须工作:

import static org.apache.spark.sql.functions.col;
p1.joinWith(p2, col("ds1.id").equalTo(col("ds2.id")) ,"inner").show();

【讨论】:

你能告诉我你是怎么知道应该删除前缀的? 如果使用别名,则不需要前缀。

以上是关于Spark 数据集 Joinwith 错误:连接条件丢失或不重要的主要内容,如果未能解决你的问题,请参考以下文章

Java Spark:使用未知连接列名称连接的数据集的 Spark 错误解决方法

YII2-数据库数据查询方法,关联查询with, joinWith区别和分页

Spark 数据集 - 内部连接问题

Spark 数据集连接和聚合列

Spark 连接数据框和数据集

使用 Scala 在 Apache Spark 中连接不同 RDD 的数据集