如何在 Spark 中“密集”数据框 [重复]
Posted
技术标签:
【中文标题】如何在 Spark 中“密集”数据框 [重复]【英文标题】:How to "dense" a data frame in Spark [duplicate] 【发布时间】:2017-06-17 10:07:58 【问题描述】:我有一个数据框看起来像:
item_id week_id sale amount
1 1 10
1 2 12
1 3 15
2 1 4
2 2 7
2 3 9
我想将此数据框转换为新的数据框,如下所示:
item_id week_1 week_2 week_3
1 10 12 15
2 4 7 9
这可以在 R 中轻松完成,但我不知道如何使用 Spark API 和 Scala。
【问题讨论】:
Pivot 是你的朋友! ;) 【参考方案1】:您可以使用groupBy.pivot
,然后聚合 sale_amount 列,在这种情况下,您可以从 item 和 week 的每个组合 id 中获取第一个值,如果其中不超过一行每个组合:
df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
如果item_id
和week_id
的每个组合有超过一行,您可以使用其他聚合函数,例如sum:
df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
要获得正确的列名,您可以在旋转之前转换 week_id
列:
import org.apache.spark.sql.functions._
(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)
+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+------+------+------+
【讨论】:
谢谢,如果某些 item_id 没有值“week_id”,如何自动填充“0”? 您可以使用na.fill(0)
将缺失值填充为0。df.withColumn("week_id", concat(lit("week_"), df("week_id"))).groupBy("item_id").pivot("week_id").agg(first("sale_amount")).na.fill(0).show)
以上是关于如何在 Spark 中“密集”数据框 [重复]的主要内容,如果未能解决你的问题,请参考以下文章