从 spark 数据框中的列生成不同的值
Posted
技术标签:
【中文标题】从 spark 数据框中的列生成不同的值【英文标题】:Generate distinct values from a column in a spark dataframe 【发布时间】:2017-01-05 12:12:09 【问题描述】:我有一个如下所示的 spark 数据框
id|name|age|sub
1 |ravi|21 |[M,J,J,K]
我不想在“sub”列上爆炸,因为它会创建另一组额外的行。我想从“子”列生成唯一值并将其分配给新列 sub_unique。
我的输出应该是这样的
id|name|age|sub_unique
1 |ravi|21 |[M,J,K]
【问题讨论】:
是sub
字符串列吗?可以添加数据框架构吗?
【参考方案1】:
您可以使用udf
val distinct = udf((x: Seq[String]) => if (s != null) x.distinct else Seq[String]())
df.withColumn("subm_unique", distinct($"sub"))
【讨论】:
您的解决方案不起作用。执行“平面哈希表不能包含空元素”时出现以下错误以上是关于从 spark 数据框中的列生成不同的值的主要内容,如果未能解决你的问题,请参考以下文章
Spark基于其他数据框中的列对数据框中的列进行重复数据删除