Pandas - 合并包含列表的行

Posted

技术标签:

【中文标题】Pandas - 合并包含列表的行【英文标题】:Pandas - merge rows containing lists 【发布时间】:2019-07-04 01:59:50 【问题描述】:

我想合并行(某种分组依据)但也合并它们的列数据,在我的例子中是一个列表。

例如,我的数据如下所示:

Col1 Col2
a    [1,2,3]
a    [3,4,5]
b    [1,2,3,4,20]
b    [3,80,4,5]

结果数据框将是:

Col1 Col2
a    [1,2,3,4,5]
b    [1,2,3,4,20,80,5]

【问题讨论】:

重复值是否需要剔除? 【参考方案1】:

您可以使用groupby

df = pd.DataFrame('col1': ['a','a','b','b'], 'col2': [[1,2,3], [3,4,5],[1,2,3,4,20], [3,80,4,5]])
print(df.groupby('col1').sum())

输出:

                               col2
col1                               
a                [1, 2, 3, 3, 4, 5]
b     [1, 2, 3, 4, 20, 3, 80, 4, 5]

如果只需要考虑重复值一次,可以通过以下两种方式完成:1)使用Set()

print(df.groupby('col1').sum()['col2'].apply(lambda x: list(set(x))).reset_index())

输出:

  col1                     col2
0    a          [1, 2, 3, 4, 5]
1    b  [1, 2, 3, 4, 5, 80, 20]

2) 通过使用 dict.fromkeys(): 这将有助于保持列表中元素的顺序:

print(df.groupby('col1').sum()['col2'].apply(lambda x: list(dict.fromkeys(x))).reset_index())

输出:

  col1                     col2
0    a          [1, 2, 3, 4, 5]
1    b  [1, 2, 3, 4, 20, 80, 5]

【讨论】:

以上是关于Pandas - 合并包含列表的行的主要内容,如果未能解决你的问题,请参考以下文章

如何组合 pandas df 以便可以合并具有置换 col1 和 col2 值的行,其中仅包含一个组合并汇总计数列

Pandas:从列表中选择包含任何子字符串的行

Pandas - 合并具有时差的行(当 datetime 为索引时)

在 Pandas 中对包含 Python `range` 或类似列表的列执行合并

pandas如何选择14到20之间的行

Pandas - 合并 DataFrame 中的行 [重复]