过滤df时出现pyspark.sql.utils.ParseException错误

Posted 2023-04-15

技术标签:

【中文标题】过滤df时出现pyspark.sql.utils.ParseException错误【英文标题】：pyspark.sql.utils.ParseException error when filtering the df 【发布时间】：2021-12-21 05:43:24 【问题描述】：

我想从 pyspark df 中选择所有行，除了数组包含 1 的某些行。它适用于笔记本中的以下代码：

<pyspark df>.filter(~exists("<col name>", lambda x: x=="hello"))

但是当我这样写的时候：

cond = '~exists("<col name>", lambda x: x=="hello")'
df = df.filter(con)

我收到如下错误：

pyspark.sql.utils.ParseException: 
extraneous input 'x' expecting ')', ','(line 1, pos 32)

我真的找不到任何错字。如果我错过了什么，有人可以给我提示吗？

谢谢，J

【问题讨论】：

【参考方案1】：

通过变量传入条件，需要写成 expr str 的 spark sql。所以可以修改为：

cond = '!exists(col_name, x -> x == "hello")'

【讨论】：

这应该可以，谢谢！但这是否会将 col 类型从数组更改为字符串？奇怪的是我收到一个错误说该列是字符串所以存在数据类型不匹配... 不，它不会改变列类型！

以上是关于过滤df时出现pyspark.sql.utils.ParseException错误的主要内容，如果未能解决你的问题，请参考以下文章