如何使用替代方法解决重载方法值寄存器,UDF Spark scala

Posted

技术标签:

【中文标题】如何使用替代方法解决重载方法值寄存器,UDF Spark scala【英文标题】:How to solve overloaded method value register with alternatives, UDF Spark scala 【发布时间】:2018-06-28 08:45:25 【问题描述】:

我正在尝试获取完整文件路径的最后一个标记,我的代码看起来像

val testUdf = spark.udf.register("get_filename", (fullpath: String) => 
  val lastIndex = fullpath.lastIndexOf("/")
  fullpath.substring(lastIndex, fullpath.length - 1), DataTypes.StringType)

我得到一个错误:

Error:(39, 29) overloaded method value register with alternatives:
  (name: String,f: org.apache.spark.sql.api.java.UDF22[_, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _],returnType: org.apache.spark.sql.types.DataType)Unit <and> ......

有人知道如何解决这个问题吗?

谢谢

【问题讨论】:

【参考方案1】:

register 方法没有采用 Scala 闭包和 DataType 的变体(存在 org.apache.spark.sql.functions.udf 的此类变体,专为 Java 互操作性而设计)。

如果您使用带有寄存器的闭包,函数应该返回可以通过反射映射到 SQL 类型的对象。在您的情况下,它很满意,所以只需省略数据类型:

val testUdf = spark.udf.register("get_filename", (fullpath: String) => 
 val lastIndex = fullpath.lastIndexOf("/")
 fullpath.substring(lastIndex, fullpath.length - 1)
)

【讨论】:

以上是关于如何使用替代方法解决重载方法值寄存器,UDF Spark scala的主要内容,如果未能解决你的问题,请参考以下文章

具有替代方法的重载方法值

错误重载方法值 regexp_replace 与替代品

scala.collection.immutable.Iterable[org.apache.spark.sql.Row] 到 DataFrame ?错误:使用替代方法重载了方法值 createDat

是否有替代 SET STATISTICS TIME 也显示语句的替代方法?

Hive UDF 返回多列输出

具有替代方法的重载方法 foreachBatch