Spark Python/SQL - 如何使用独特的组合进行分组

Posted

技术标签:

【中文标题】Spark Python/SQL - 如何使用独特的组合进行分组【英文标题】:Spark Python/SQL - how to group with unique combinations 【发布时间】:2022-01-11 17:30:36 【问题描述】:

我有一个 2 列 Spark 数据框,其独特组合看起来像这样(简单版本):

col1    col2
   a       b
   b       c
   b       d
   d       e
   f       g

我想组成组,在这种情况下会有 2 个组:(a,b,c,d,e) 和 (f,g),因为它们是通过组合链接的。计算组成员数量的最简单方法是,如果我能将其作为输出:

col1    col2
   a       b
   a       c
   a       d
   a       e
   f       g

有人知道怎么做吗?提前感谢您的帮助!

【问题讨论】:

【参考方案1】:

您需要使用 pyspark 查看图表并使用 connectedComponents() 来显示分组。

【讨论】:

以上是关于Spark Python/SQL - 如何使用独特的组合进行分组的主要内容,如果未能解决你的问题,请参考以下文章

python spark-sql-application.py

python spark-sql-ranking.py

python spark-sql-aggregations.py

python spark-sql-operations.py

python spark-sql-sorting.py

python spark-sql-aggregations.py