Java Spark:使用未知连接列名称连接的数据集的 Spark 错误解决方法

Posted

技术标签:

【中文标题】Java Spark:使用未知连接列名称连接的数据集的 Spark 错误解决方法【英文标题】:Java Spark : Spark Bug Workaround for Datasets Joining with unknow Join Column Names 【发布时间】:2018-08-03 15:42:19 【问题描述】:

我正在使用带有 Java 的 Spark 2.3.1。

我遇到过什么(我认为)是this known bug of Spark。

这是我的代码:

public Dataset<Row> compute(Dataset<Row> df1, Dataset<Row> df2, List<String> columns)
    Seq<String> columns_seq = JavaConverters.asScalaIteratorConverter(columns.iterator()).asScala().toSeq();

    final Dataset<Row> join = df1.join(df2, columns_seq);

    join.show()

    join.withColumn("newColumn", abs(col("value1").minus(col("value2")))).show();

    return join;
       

我这样称呼我的代码:

Dataset<Row> myNewDF = compute(MyDataset1, MyDataset2, Arrays.asList("field1","field2","field3","field4"));

注意:MyDataset1 和 MyDataset2 是来自同一个 Dataset MyDataset0 的两个数据集,具有多个不同的转换。

join.show() 行,我收到以下错误:

2018-08-03 18:48:43 - ERROR main Logging$class -  -  - failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 235, Column 21: Expression "project_isNull_2" is not an rvalue
org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 235, Column 21: Expression "project_isNull_2" is not an rvalue
    at org.codehaus.janino.UnitCompiler.compileError(UnitCompiler.java:11821)
    at org.codehaus.janino.UnitCompiler.toRvalueOrCompileException(UnitCompiler.java:7170)
    at org.codehaus.janino.UnitCompiler.getConstantValue2(UnitCompiler.java:5332)
    at org.codehaus.janino.UnitCompiler.access$9400(UnitCompiler.java:212)
    at org.codehaus.janino.UnitCompiler$13$1.visitAmbiguousName(UnitCompiler.java:5287)
    at org.codehaus.janino.Java$AmbiguousName.accept(Java.java:4053)
    ...

2018-08-03 18:48:47 - WARN main Logging$class -  -  - Whole-stage codegen disabled for plan (id=7):

但它并没有停止执行,仍然显示数据集的内容。

那么,上线join.withColumn("newColumn", abs(col("value1").minus(col("value2")))).show();

我得到错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Resolved attribute(s) 'value2,'value1 missing from field6#16,field7#3,field8#108,field5#0,field9#4,field10#28,field11#323,value1#298,field12#131,day#52,field3#119,value2#22,field2#35,field1#43,field4#144 in operator 'Project [field1#43, field2#35, field3#119, field4#144, field5#0, field6#16, value2#22, field7#3, field9#4, field10#28, day#52, field8#108, field12#131, value1#298, field11#323, abs(('value1 - 'value2)) AS newColumn#2579]. Attribute(s) with the same name appear in the operation: value2,value1. Please check if the right attribute(s) are used.;;
'Project [field1#43, field2#35, field3#119, field4#144, field5#0, field6#16, value2#22, field7#3, field9#4, field10#28, day#52, field8#108, field12#131, value1#298, field11#323, abs(('value1 - 'value2)) AS newColumn#2579]
+- AnalysisBarrier
...

此错误结束程序。

Mijung Kim 在 Jira 问题上提出的解决方法是通过 toDF(Columns) 创建一个数据集克隆。但在我的情况下,用于连接的列名事先不知道(我只有一个列表),我不能使用这种解决方法。

还有其他方法可以解决这个非常烦人的错误吗?

【问题讨论】:

【参考方案1】:

尝试调用这个方法:

private static Dataset<Row> cloneDataset(Dataset<Row> ds) 
    List<Column> filterColumns = new ArrayList<>();
    List<String> filterColumnsNames = new ArrayList<>();
    scala.collection.Iterator<StructField> it = ds.exprEnc().schema().toIterator();
    while (it.hasNext()) 
        String columnName = it.next().name();
        filterColumns.add(ds.col(columnName));
        filterColumnsNames.add(columnName);
    
    ds = ds.select(JavaConversions.asScalaBuffer(filterColumns).seq()).toDF(scala.collection.JavaConverters.asScalaIteratorConverter(filterColumnsNames.iterator()).asScala().toSeq());
    return ds;

在加入之前的两个数据集上:

df1 = cloneDataset(df1);
df2 = cloneDataset(df2);
final Dataset<Row> join = df1.join(df2, columns_seq);
// or ( based on Nakeuh comment )
final Dataset<Row> join = cloneDataset(df1.join(df2, columns_seq)); 

【讨论】:

您的解决方案在我的情况下不起作用,但根据您的 cloneDataset 函数,我做到了: final Dataset join = cloneDataset(df1.join(df2, columns_seq));而且效果很好。 @Nakeuh:您的建议确实有效。仍然试图了解发生了什么。 @Abdenaceur Lichiheb:你有提到 Spark 问题吗? 你可以在这里找到 Spark 问题***.com/questions/45713290/…

以上是关于Java Spark:使用未知连接列名称连接的数据集的 Spark 错误解决方法的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Spark 数据框中使用嵌套列进行连接

java.sql.SQLException:Io 异常:指定了未知主机

如何在数据块中使用 Spark sql 连接 Spark 数据框列

Spark 数据集连接和聚合列

使用 spark cassandra 连接器在 DataSet 中获取列 writeTime

计算两列之间的不同集,同时使用 agg 函数 Pyspark Spark Session