将 Pandas 单元格中的列表拆分为多列 [重复]
Posted
技术标签:
【中文标题】将 Pandas 单元格中的列表拆分为多列 [重复]【英文标题】:Splitting a list in a Pandas cell into multiple columns [duplicate] 【发布时间】:2017-04-16 21:35:01 【问题描述】:我有一个非常简单的Pandas
dataframe
,其中每个单元格都包含一个列表。我想将列表的每个元素拆分为它自己的列。我可以通过导出值然后创建一个新的dataframe
来做到这一点。如果我的dataframe
在列表列之外还有一列,这似乎不是一个好方法。
import pandas as pd
df = pd.DataFrame(data=[[[8,10,12]],
[[7,9,11]]])
df = pd.DataFrame(data=[x[0] for x in df.values])
期望的输出:
0 1 2
0 8 10 12
1 7 9 11
基于@Psidom 回答的跟进:
如果我确实有第二列:
df = pd.DataFrame(data=[[[8,10,12], 'A'],
[[7,9,11], 'B']])
我怎样才能不松开另一列?
期望的输出:
0 1 2 3
0 8 10 12 A
1 7 9 11 B
【问题讨论】:
df[0].apply(pd.Series)
适用于您的示例。
@Psidom apply(Series)
可以,但 perhaps we could do better.
【参考方案1】:
您可以使用apply()
函数循环遍历系列并将每个列表转换为Series
,这会自动将列表扩展为列方向的系列:
df[0].apply(pd.Series)
# 0 1 2
#0 8 10 12
#1 7 9 11
更新:要保留数据框的其他列,您可以将结果与要保留的列连接起来:
pd.concat([df[0].apply(pd.Series), df[1]], axis = 1)
# 0 1 2 1
#0 8 10 12 A
#1 7 9 11 B
【讨论】:
我怎样才能不丢失额外的列(修改后的原始问题)? 您需要pd.concat()
方法。查看更新!【参考方案2】:
你可以做pd.DataFrame(df[col].values.tolist())
- 快得多~500x
In [820]: pd.DataFrame(df[0].values.tolist())
Out[820]:
0 1 2
0 8 10 12
1 7 9 11
In [821]: pd.concat([pd.DataFrame(df[0].values.tolist()), df[1]], axis=1)
Out[821]:
0 1 2 1
0 8 10 12 A
1 7 9 11 B
时间
中等
In [828]: df.shape
Out[828]: (20000, 2)
In [829]: %timeit pd.DataFrame(df[0].values.tolist())
100 loops, best of 3: 15 ms per loop
In [830]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 4.06 s per loop
大
In [832]: df.shape
Out[832]: (200000, 2)
In [833]: %timeit pd.DataFrame(df[0].values.tolist())
10 loops, best of 3: 161 ms per loop
In [834]: %timeit df[0].apply(pd.Series)
1 loop, best of 3: 40.9 s per loop
【讨论】:
这应该是公认的答案。以上是关于将 Pandas 单元格中的列表拆分为多列 [重复]的主要内容,如果未能解决你的问题,请参考以下文章
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表设置expand参数将拆分结果列表内容转化为多列数据并添加到原数据中replace函数基于正则表达式替换字符串数据列中的匹配内容
pandas 将excel中的一列文本数据拆分成多列 如何操作
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表设置参数n控制拆分的次数设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中