不支持 spark sql 上下文中的 WITH 子句

Posted

技术标签:

【中文标题】不支持 spark sql 上下文中的 WITH 子句【英文标题】:WITH Clause in spark sql Context not supported 【发布时间】:2019-03-16 04:41:46 【问题描述】:

我正在尝试使用 spark sql context 和以下查询从大型机表中获取记录

data_config.db2_qry= SELECT A.E_No,A.E_Name FROM Scheema.Employee A WITH UR

但它抛出以下错误

com.ibm.db2.jcc.am.SqlSyntaxErrorException: DB2 SQL 错误: SQLCODE=-199, SQLSTATE=42601, SQLERRMC=WITH;HAVING WHERE GROUP ORDER INTERSECT MINUS EXCEPT UNION ) , FETCH, DRIVER=4.19.26

但如果我直接在大型机控制台中运行相同的查询,它就可以正常工作。

如何在spark的sql上下文中使用WITH子句?

我使用的是 spark 2.4.0 版

我正在检索如下记录

filt_cond = "(" + data_config.db2_qry + ") ref_id"

db2Df = sqlContext.read.format("jdbc").option("url", data_config.db2_url).option("driver", "com.ibm.db2.jcc.DB2Driver").option( "dbtable", filt_cond).option("user", data_config.db2_uname).option("password", data_config.db2_passwd).load()

【问题讨论】:

【参考方案1】:

问题在于发送到 Mainframe DB2 的查询,用于推送“WITH UR”的 spark jdbc 方法选择需要更改。

这里使用的spark jdbc读取方法是

def jdbc(url: String, table: String, properties: Properties): DataFrame

在这个方法中,我们将以下查询推送到 db2 sql 引擎

"select a, b, c, d from table where d is not null with UR as table" ,这与 Mainframe DB2 SQL 引擎中推送的查询不同。 spark发送sql为

select a, b, c from (select a, b, c from table where d is not null with UR) as table 这就是麻烦的开始。

如果您想在 Mainframe SPUFI 或 QMF 或其他工具中看到相同的 sql 错误,请尝试通过 spark 运行构造的查询,而不是我们在代码中编写的查询。

为了克服在 SQL 中添加“WITH UR”语法的问题,而不是上面的 spark jdbc 方法切换到允许我们构造谓词的后续 spark jdbc 方法。

 def jdbc(url: String, table: String, predicates: Array[String],
 connectionProperties: Properties): DataFrame

将sql推送为""select a, b, c, d from table as tbl"

predicates= Array("d is not null with UR")

在这种情况下,预期的查询被下推。希望这可以帮助您找到解决问题的方向。

在这里你可以看到更多关于 spark jdbc 读取方法的细节-Link

【讨论】:

嘿@Karthick 感谢您的回复..因为我使用 pyspark jbdc 定义看起来像[spark.apache.org/docs/2.1.0/api/python/…。所以我尝试使用下面但它没有工作 predicates = "where A.E_No=323156 with ur " db2Df = .. "dbtable", filt_cond).option("predicates", predicates).load() 所以我尝试使用 predicates = "where A.E_No=323156 with ur " db2Df = sqlContext.read.format("jdbc").option("url", data_config.db2_url).option( "driver", "com.ibm.db2.jcc.DB2Driver").option("dbtable", filt_cond).option("predicates", predicates).option("user", data_config.db2_uname).option("password ", data_config.db2_passwd).load() "where" 子句是由 spark 构建的,不需要在谓词中添加该子句,显示的错误是什么?还要确保您使用了正确的 spark jdbc 方法。 predicates 是 Array[String] ,您可以在其中继续添加更多也定义分区的谓词。 非常感谢@Karthick。我能够使用提供的链接使其工作。

以上是关于不支持 spark sql 上下文中的 WITH 子句的主要内容,如果未能解决你的问题,请参考以下文章

无法在 spark 中使用 hive 支持创建 sql 上下文

Spark-SQL 是不是支持使用 regex 规范的 Hive Select All Query with except Columns

Spark SQL 到底怎么搭建起来

使用 Spark 作业服务器的 Spark SQL 作业中的错误“此上下文的作业类型无效”

SPARK SQL中 CTE(with表达式)会影响性能么?

在 spark 数据框中运行 UDF 时,不支持获取 org.apache.spark.sql.Column 类型的架构