检查 arraytype 列是不是包含 null
Posted
技术标签:
【中文标题】检查 arraytype 列是不是包含 null【英文标题】:Check if arraytype column contains null检查 arraytype 列是否包含 null 【发布时间】:2017-06-01 12:36:35 【问题描述】:我有一个数据框,其中有一列 arraytype 可以包含整数值。如果没有值,它将只包含一个,它将是空值
重要:注意该列不会为空,而是一个具有单个值的数组;空
> val df: DataFrame = Seq(("foo", Seq(Some(2), Some(3))), ("bar", Seq(None))).toDF("k", "v")
df: org.apache.spark.sql.DataFrame = [k: string, v: array<int>]
> df.show()
+---+------+
| k| v|
+---+------+
|foo|[2, 3]|
|bar|[null]|
问题:我想获取具有空值的行。
到目前为止我已经尝试过什么:
> df.filter(array_contains(df("v"), 2)).show()
+---+------+
| k| v|
+---+------+
|foo|[2, 3]|
+---+------+
为null,好像不行
> df.filter(array_contains(df("v"), null)).show()
org.apache.spark.sql.AnalysisException:无法解析 'array_contains(
v
, NULL)' 由于数据类型不匹配:空类型 值不能用作参数;
或
> df.filter(array_contains(df("v"), None)).show()
java.lang.RuntimeException: 不支持的文字类型类 scala.None$ 无
【问题讨论】:
【参考方案1】:在这种情况下不能使用array_contains
,因为无法比较 SQL NULL
是否相等。
你可以像这样使用udf
:
val contains_null = udf((xs: Seq[Integer]) => xs.contains(null))
df.where(contains_null($"v")).show
// +---+------+
// | k| v|
// +---+------+
// |bar|[null]|
【讨论】:
【参考方案2】:对于 Spark 2.4+,可以使用高阶函数 exists
代替 UDF:
df.where("exists(v, x -> x is null)").show
//+---+---+
//| k| v|
//+---+---+
//|bar| []|
//+---+---+
【讨论】:
【参考方案3】:PySpark 实现(如果需要):
contains_null = f.udf(lambda x: None in x, BooleanType())
df.filter(contains_null(f.col("v"))).show()
【讨论】:
以上是关于检查 arraytype 列是不是包含 null的主要内容,如果未能解决你的问题,请参考以下文章
Spark DataFrame ArrayType 或 MapType 用于检查列中的值
如何在 spark DataFrame 中将多个浮点列连接到一个 ArrayType(FloatType()) 中?
将 Spark 中的多个 ArrayType 列合并为一个 ArrayType 列
在 PySpark 中将 ArrayType(StringType()) 的列转换为 ArrayType(DateType())