从 spark 数据框中的列生成不同的值

Posted

技术标签:

【中文标题】从 spark 数据框中的列生成不同的值【英文标题】:Generate distinct values from a column in a spark dataframe 【发布时间】:2017-01-05 12:12:09 【问题描述】:

我有一个如下所示的 spark 数据框

id|name|age|sub
1 |ravi|21 |[M,J,J,K]

我不想在“sub”列上爆炸,因为它会创建另一组额外的行。我想从“子”列生成唯一值并将其分配给新列 sub_unique。

我的输出应该是这样的

id|name|age|sub_unique
1 |ravi|21 |[M,J,K]

【问题讨论】:

sub 字符串列吗?可以添加数据框架构吗? 【参考方案1】:

您可以使用udf

val distinct = udf((x: Seq[String]) => if (s != null) x.distinct else Seq[String]())

df.withColumn("subm_unique", distinct($"sub"))

【讨论】:

您的解决方案不起作用。执行“平面哈希表不能包含空元素”时出现以下错误

以上是关于从 spark 数据框中的列生成不同的值的主要内容,如果未能解决你的问题,请参考以下文章

Spark基于其他数据框中的列对数据框中的列进行重复数据删除

使用 pyspark 将 Spark 数据框中的列转换为数组 [重复]

如何将逗号添加到数据框中的现有值中?熊猫

Scala(Spark)连接数据框中的列[重复]

如何根据列的值对熊猫数据框中的列进行分类?

使用 json 模式更新 spark 数据框中的列