熊猫将数据框列单元格初始化为空列表
Posted
技术标签:
【中文标题】熊猫将数据框列单元格初始化为空列表【英文标题】:pandas initialize dataframe column cells as empty lists 【发布时间】:2016-09-21 18:11:50 【问题描述】:我需要将DataFrame
列中的单元格初始化为lists
。
df['some_col'] = [[] for _ in no_of_rows]
我想知道在时间效率方面是否有更好的方法来做到这一点?
【问题讨论】:
您接受的答案比您的起点慢 3 倍。 @Stefan 看来你是对的,因为apply(list)
确实比我的旧代码慢了一点。
所以正如您在下面看到的,使用itertools
可以更快一点,但我认为您实际上已经相当不错了,因为我没有看到比添加列更快的方法标准方法,但也许有人想出了一些魔法..
【参考方案1】:
由于您正在寻找时间效率,因此低于一些基准。我认为list
理解创建list
对象的空list
已经相当快了,但是您可以使用itertools.repeat
挤出一点点改进。在insert
部分,apply
慢 3 倍,因为它循环:
import pandas as pd
from itertools import repeat
df = pd.DataFrame("A":np.arange(100000))
%timeit df['some_col'] = [[] for _ in range(len(df))]
100 loops, best of 3: 8.75 ms per loop
%timeit df['some_col'] = [[] for i in repeat(None, len(df))]
100 loops, best of 3: 8.02 ms per loop
%%timeit
df['some_col'] = ''
df['some_col'] = df['some_col'].apply(list)
10 loops, best of 3: 25 ms per loop
【讨论】:
【参考方案2】:试试apply
:
df1['some_col'] = ''
df1['some_col'] = df1['some_col'].apply(list)
示例:
df1 = pd.DataFrame('a': pd.Series([1,2]))
print (df1)
a
0 1
1 2
df1['some_col'] = ''
df1['some_col'] = df1['some_col'].apply(list)
print (df1)
a some_col
0 1 []
1 2 []
【讨论】:
这在时间效率方面如何更好? 嗯,我认为在时间效率方面并没有更好。但由 OP 决定哪个答案标志被接受。也许你更喜欢我,因为我是第一,也许是因为喜欢。但也许在几秒钟内改变他的看法。我不知道。 还要注意lambda: []
会比list
快。
只是问,因为问题是关于时间效率的,所以如果答案也尝试这样做是一件好事。
@Stefan 现在也许你的解决方案会被接受。以上是关于熊猫将数据框列单元格初始化为空列表的主要内容,如果未能解决你的问题,请参考以下文章