Pyspark 数据框中的重复行
Posted
技术标签:
【中文标题】Pyspark 数据框中的重复行【英文标题】:Duplicate rows in a Pyspark Dataframe 【发布时间】:2016-10-20 14:45:44 【问题描述】:假设我有一个数据框:
df = sqlContext.createDataFrame(
[(1, 10, 21.0, 0), (3, 14, -23.0, 1)], ("x1", "x2", "x3", "x4"))
df.show()
## +---+---+-----+---+
## | x1| x2| x3| x4|
## +---+---+-----+---+
## | 1| 10| 23.0| 5|
## | 3| 14|-23.0| 0|
## +---+---+-----+---+
什么是“复制”行并在这些重复项中设置x4=1
并具有以下效果的有效方法:
## +---+---+-----+---+
## | x1| x2| x3| x4|
## +---+---+-----+---+
## | 1| 10| 23.0| 5|
## | 1| 10| 23.0| 1|
## | 3| 14|-23.0| 0|
## | 3| 14|-23.0| 1|
## +---+---+-----+---+
在 Apache PIG 中,模拟很简单:执行 foreach 并生成:
FLATTEN(TOBAG(1, x4)) AS x4
谢谢大家
【问题讨论】:
【参考方案1】:从pyspark.sql.functions
导入所需函数:
from pyspark.sql.functions import array, explode, lit
并替换现有列:
df.withColumn("x4", explode(array(lit(1), df["x4"])))
【讨论】:
+1 ,这会在 df 中添加同一行,但是如果我想插入 n 行,n 可能是 df 中的另一个列值以上是关于Pyspark 数据框中的重复行的主要内容,如果未能解决你的问题,请参考以下文章