从 spark 数据框中的列生成不同的值

Posted 2023-04-17

技术标签:

【中文标题】从 spark 数据框中的列生成不同的值【英文标题】：Generate distinct values from a column in a spark dataframe 【发布时间】：2017-01-05 12:12:09 【问题描述】：

我有一个如下所示的 spark 数据框

id|name|age|sub
1 |ravi|21 |[M,J,J,K]

我不想在“sub”列上爆炸，因为它会创建另一组额外的行。我想从“子”列生成唯一值并将其分配给新列 sub_unique。

我的输出应该是这样的

id|name|age|sub_unique
1 |ravi|21 |[M,J,K]

【问题讨论】：

是sub 字符串列吗？可以添加数据框架构吗？ 【参考方案1】：

您可以使用udf

val distinct = udf((x: Seq[String]) => if (s != null) x.distinct else Seq[String]())

df.withColumn("subm_unique", distinct($"sub"))

【讨论】：

您的解决方案不起作用。执行“平面哈希表不能包含空元素”时出现以下错误

以上是关于从 spark 数据框中的列生成不同的值的主要内容，如果未能解决你的问题，请参考以下文章