Spark SQL DataFrame - 异常处理

Question

在我们的应用程序中，我们的大多数代码只是在filter上应用group by，aggregate和DataFrame操作，并将DF保存到Cassandra数据库。

与下面的代码一样，我们有几种方法可以在不同数量的字段上执行相同类型的操作[filter, group by, join, agg]并返回DF并将其保存到Cassandra表中。

示例代码是：

 val filteredDF = df.filter(col("hour") <= LocalDataTime.now().getHour())
.groupBy("country")
.agg(sum(col("volume")) as "pmtVolume")

saveToCassandra(df)

def saveToCassandra(df: DataFrame) {
    try {
        df.write.format("org.apache.spark.sql.cassandra")
        .options(Map("Table" -> "tableName", "keyspace" -> keyspace)
        .mode("append").save()
    }
    catch {
        case e: Throwable => log.error(e)
    }
}

由于我通过将DF保存到Cassandra来调用该操作，我希望我只需要根据this线程处理该行的异常。

如果我得到任何异常，我可以默认在Spark详细日志中看到异常。

我是否必须真正围绕过滤器，使用Try或try , catch?进行分组

我没有看到有关异常处理的Spark SQL DataFrame API示例的任何示例。

我如何在Try方法上使用saveToCassandra？它返回Unit

Answer 1

另一答案