Spark Python/SQL - 如何使用独特的组合进行分组
Posted
技术标签:
【中文标题】Spark Python/SQL - 如何使用独特的组合进行分组【英文标题】:Spark Python/SQL - how to group with unique combinations 【发布时间】:2022-01-11 17:30:36 【问题描述】:我有一个 2 列 Spark 数据框,其独特组合看起来像这样(简单版本):
col1 col2
a b
b c
b d
d e
f g
我想组成组,在这种情况下会有 2 个组:(a,b,c,d,e) 和 (f,g),因为它们是通过组合链接的。计算组成员数量的最简单方法是,如果我能将其作为输出:
col1 col2
a b
a c
a d
a e
f g
有人知道怎么做吗?提前感谢您的帮助!
【问题讨论】:
【参考方案1】:您需要使用 pyspark 查看图表并使用 connectedComponents()
来显示分组。
【讨论】:
以上是关于Spark Python/SQL - 如何使用独特的组合进行分组的主要内容,如果未能解决你的问题,请参考以下文章
python spark-sql-application.py
python spark-sql-aggregations.py