如何在spark shell中注册Java SPark UDF?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在spark shell中注册Java SPark UDF?相关的知识,希望对你有一定的参考价值。
下面是我的java udf代码,
package com.udf;
import org.apache.spark.sql.api.java.UDF1;
public class SparkUDF implements UDF1<String, String> {
@Override
public String call(String arg) throws Exception {
if (validateString(arg))
return arg;
return "INVALID";
}
public static boolean validateString(String arg) {
if (arg == null | arg.length() != 11)
return false;
else
return true;
}
}
我正在用这个类构建jar作为SparkUdf-1.0-SNAPSHOT.jar
我在hive中有一个表名作为示例,并希望在spark shell上的sql下运行。
> select UDF(name) from sample ;
使用以下命令启动spark-shell。
spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar
任何人都可以告诉,如何在spark shell上注册UDF以在spark sql中使用它?
答案
经过一番搜索后,我得到了答案,
以下是步骤,
spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar
scala> import com.udf.SparkUDF;
scala> import com.udf.SparkUDF;
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};
scala> spark.udf.register("myfunc", new SparkUDF(),StringType)
scala> val sql1 = """ select myfunc(name) from sample """
scala> spark.sql(sql1).show();
你会得到结果。
以上是关于如何在spark shell中注册Java SPark UDF?的主要内容,如果未能解决你的问题,请参考以下文章
在spark-shell和Scala jars中用Kryo注册复杂的scala类。
使用spark-shell时,使用sparkConf.set(..)自定义SparkContext