pyspark列合并为一行

Posted ttyb

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark列合并为一行相关的知识,希望对你有一定的参考价值。

dataframe 利用 pyspark 列合并为一行,类似于 sqlGROUP_CONCAT 函数。例如如下 dataframe :

+----+---+
|   s|  d|
+----+---+
|abcd|123|
| asd|123|
+----+---+

需要按照列相同的列 ds 合并,想要的结果为:

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

利用 groupby 去实现就好,spark 里面可以用 concat_ws 实现,可以看这个 Spark中SQL列合并为一行,而这里的 concat_ws 合并缺很奇怪,官方文档的实例为:

>>> df = spark.createDataFrame([('abcd','123')], ['s', 'd'])
>>> df.select(concat_ws('-', df.s, df.d).alias('s')).collect()
[Row(s=u'abcd-123')]

作者自己尝试得到:

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws

# 初始化spark会话
spark = SparkSession     .builder     .appName("test")     .master("local")     .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.select(concat_ws('-', df.s, df.d).alias('newcol')).show()
+--------+
|  newcol|
+--------+
|abcd-123|
| xyz-123|
+--------+

不是想要的效果。而 collect_list 能得到相同的效果:

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws
from pyspark.sql.functions import collect_list

# 初始化spark会话
spark = SparkSession     .builder     .appName("test")     .master("local")     .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.groupBy("d").agg(collect_list('s').alias('newcol')).show()

得到的结果为:

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

以上是关于pyspark列合并为一行的主要内容,如果未能解决你的问题,请参考以下文章

PySpark 或 SQL:消耗合并

将每一行的值汇总为布尔值(PySpark)

Pyspark - 将结构列合并到数组中

合并列是变量结构的数据框 - Pyspark

合并两个蜂巢表(不同的列大小)- pyspark

pyspark - 将两个数据帧与目标中的额外列合并