复制 Pandas DF N 次
Posted
技术标签:
【中文标题】复制 Pandas DF N 次【英文标题】:Duplicating a Pandas DF N times 【发布时间】:2014-02-18 13:09:08 【问题描述】:所以现在,如果我有多个列表,即x = [1,2,3]* 2 I get x as [1,2,3,1,2,3]
,但这不适用于 Pandas。
因此,如果我想复制 PANDAS DF,我必须将一列设为列表和多个:
col_x_duplicates = list(df['col_x'])*N
new_df = DataFrame(col_x_duplicates, columns=['col_x'])
然后对原始数据做一个join:
pd.merge(new_df, df, on='col_x', how='left')
这现在将 pandas DF 复制了 N 次,有没有更简单的方法?或者更快捷的方式?
【问题讨论】:
Numpy 的 repeat() 在这里可能有用(而且速度很快)。见***.com/questions/1550130/…。 您希望输出列看起来像[1,2,3,1,2,3]
还是[1,1,2,2,3,3]
?
【参考方案1】:
实际上,既然你想复制整个数据框(而不是每个元素),numpy.tile() 可能会更好:
In [69]: import pandas as pd
In [70]: arr = pd.np.array([[1, 2, 3], [4, 5, 6]])
In [71]: arr
Out[71]:
array([[1, 2, 3],
[4, 5, 6]])
In [72]: df = pd.DataFrame(pd.np.tile(arr, (5, 1)))
In [73]: df
Out[73]:
0 1 2
0 1 2 3
1 4 5 6
2 1 2 3
3 4 5 6
4 1 2 3
5 4 5 6
6 1 2 3
7 4 5 6
8 1 2 3
9 4 5 6
[10 rows x 3 columns]
In [75]: df = pd.DataFrame(pd.np.tile(arr, (1, 3)))
In [76]: df
Out[76]:
0 1 2 3 4 5 6 7 8
0 1 2 3 1 2 3 1 2 3
1 4 5 6 4 5 6 4 5 6
[2 rows x 9 columns]
【讨论】:
谢谢,太好了!在大熊猫 df 上运行时,耻辱似乎太慢了! 你知道有没有快捷的方法? @redrubia 您是否多次调用 tile()?它可能会很慢,因为您每次都在分配额外的内存。如果您知道最终大小(在所有重复之后),您可以尝试初始化该大小的 zeros numpy 数组,然后使用切片填充它。 @redrubia 或者,如果您不需要修改重复的数据,请查看是否可以重构代码,以便将索引保存在某处并重复访问相同的数据帧,而不是创建一个新的平铺数据框。这样您就无需支付分配更多内存的成本。这是做同样事情的另一种方式:***.com/questions/5564098/…【参考方案2】:这是使用 n
DataFrame df
的副本制作 DataFrame 的单行代码
n_df = pd.concat([df] * n)
例子:
df = pd.DataFrame(
data=[[34, 'null', 'mark'], [22, 'null', 'mark'], [34, 'null', 'mark']],
columns=['id', 'temp', 'name'],
index=pd.Index([1, 2, 3], name='row')
)
n = 4
n_df = pd.concat([df] * n)
那么n_df
就是下面的DataFrame:
id temp name
row
1 34 null mark
2 22 null mark
3 34 null mark
1 34 null mark
2 22 null mark
3 34 null mark
1 34 null mark
2 22 null mark
3 34 null mark
1 34 null mark
2 22 null mark
3 34 null mark
【讨论】:
请注意,这个答案会导致与接受的答案不同(即重复)的索引标签。这可能是也可能不是您想要的,具体取决于您的用例。我不认为 OP 对索引标签有任何偏好。以上是关于复制 Pandas DF N 次的主要内容,如果未能解决你的问题,请参考以下文章
想要将 pandas df 代码转换为 pyspark df 代码? [复制]
在 pandas 中,如何选择包含 NaN 的行? [复制]
pandas任取dataframe中的一个或者多个数据行(headtaillociloc),将抽取到的一个或者多个数据行复制N次形成新的dataframe