Spark SQL: Error in query: undefined function错误的解决方法
Posted bluishglc
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark SQL: Error in query: undefined function错误的解决方法相关的知识,希望对你有一定的参考价值。
本文原文出处: http://blog.csdn.net/bluishglc/article/details/50748937 严禁任何形式的转载,否则将委托CSDN官方维护权益!
问题描述
如果你在Spark SQL上试图调用在HIVE注册的自定义函数(UDF)时,你可能会遇到这样的错误:
Spark SQL: Error in query: undefined function xxxxxx
这个问题发生在Spark 1.5.0, 1.5.1和1.5.2版本上,对此Spark官方有一个专门的bug report: https://issues.apache.org/jira/browse/SPARK-11191
简单说, 引起这个bug的原因是Spark SQL在与HIVE的(主要是Hive的元数据)交互上,在UDF方面有问题,导致Spark SQL无法正确的得到UDF的信息。针对这个问题最简单的解决方法当然是升级Spark,但是可能受制于其他因素,我们无法升级,这时就需要从别的途径来解决这个问题了。
解决方案
这里提供一个参考的解决方案,这个方案的思路是:绕过HIVE,直接在Spark上注册UDF。但这里有一个地方需要斟酌的地方,那就是在哪里和什么样的时机去注册UDF。这里有一个假定,即:所有的SQL语句是抽离到专门的SQL文件中去,然后通过spark-sql -f /your/sql/file 的方式来执行的,通常我们认为这是更加规范的做法,而不是在scala或java代码中去嵌入sql语句,那么在这样一个前提下,注册UDF的入口应该是spark-sql这个脚本的初始化环节中的某个地方,通过浏览Spark源码,我们得知spark-sql的入口是
org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver
而SparkSQLCLIDriver会通过
org.apache.spark.sql.hive.thriftserver.SparkSQLEnv#init
去初始化一个HiveContext, 这个HiveContext就是spark-sql启动后建立的hiveContext实例,同时也是后续SQL执行时使用的hiveContext实例,因此在这个实例的初始化方法就是我们注册我们的UDF的入口,我们可以在
hiveContext.setConf("spark.sql.hive.version", HiveContext.hiveExecutionVersion)
这一行之后添加注册UDF的代码:
hiveContext.udf.register("your_function_name",yourFunction _)
修改完成之后重新编译,把编译后的SparkSQLEnv的所有class文件更新到各个节点的spark的jar包中就可以了。
以上是关于Spark SQL: Error in query: undefined function错误的解决方法的主要内容,如果未能解决你的问题,请参考以下文章
Spark - ERROR Executor: Exception in tjava.lang.OutOfMemoryError: unable to create new native thread
Error Code : 1064 You have an error in your SQL syntax; check the manual that corresponds to your My
在 Spark SQL Query 中通过 Repartition 重用 Exchange
运行spark-shell查看版本报错[init] error: error while Loading object, Missing dependency‘ object scala in