Pandas 按名称将多组列融化成多个目标列

Posted

技术标签:

【中文标题】Pandas 按名称将多组列融化成多个目标列【英文标题】:Pandas Melt several groups of columns into multiple target columns by name 【发布时间】:2016-12-16 05:07:31 【问题描述】:

我想将数据框的几组列合并为多个目标列。类似于问题Python Pandas Melt Groups of Initial Columns Into Multiple Target Columns 和pandas dataframe reshaping/stacking of multiple value variables into seperate columns。但是我需要通过列名而不是索引位置来显式执行此操作。

import pandas as pd
df = pd.DataFrame([('a','b','c',1,2,3,'aa','bb','cc'), ('d', 'e', 'f', 4, 5, 6, 'dd', 'ee', 'ff')],
                  columns=['a_1', 'a_2', 'a_3','b_1', 'b_2', 'b_3','c_1', 'c_2', 'c_3'])
df

原始数据框:

    id   a_1  a_2  a_3  b_1  b_2  b_3  c_1  c_2  c_3
0   101   a    b    c    1    2    3    aa   bb   cc
1   102   d    e    f    4    5    6    dd   ee   ff

目标数据框

     id   a   b   c
0   101   a   1   aa
1   101   b   2   bb
2   101   c   3   cc
3   102   d   4   dd
4   102   e   5   ee
5   102   f   6   ff

非常感谢您对此方法的建议。

【问题讨论】:

有一个更直观的解决方案,它使用专门针对这种情况构建的pd.wide_to_long 函数。请参阅下面的答案。 【参考方案1】:

有一种更有效的方法可以解决涉及熔化多组不同色谱柱的这类问题。 pd.wide_to_long 专为这些确切情况而构建。

pd.wide_to_long(df, stubnames=['a', 'b', 'c'], i='id', j='dropme', sep='_')\
  .reset_index()\
  .drop('dropme', axis=1)\
  .sort_values('id')

    id  a  b   c
0  101  a  1  aa
2  101  b  2  bb
4  101  c  3  cc
1  102  d  4  dd
3  102  e  5  ee
5  102  f  6  ff

【讨论】:

【参考方案2】:

您可以根据列模式将列名转换为多索引,然后根据您需要的结果在特定级别堆叠:

import pandas as pd
df.set_index('id', inplace=True)
df.columns = pd.MultiIndex.from_tuples(tuple(df.columns.str.split("_")))
df.stack(level = 1).reset_index(level = 1, drop = True).reset_index()

# id    a   b    c      
#101    a   1   aa
#101    b   2   bb
#101    c   3   cc
#102    d   4   dd
#102    e   5   ee
#102    f   6   ff

【讨论】:

df.columns = df.columns.str.split('_', expand=True) 也可以【参考方案3】:
cols = df.columns.difference(['id'])

pd.lreshape(df, cols.groupby(cols.str.split('_').str[0])).sort_values('id')
Out: 
    id  a   c  b
0  101  a  aa  1
2  101  b  bb  2
4  101  c  cc  3
1  102  d  dd  4
3  102  e  ee  5
5  102  f  ff  6

【讨论】:

你解释一下为什么这个“ cols.groupby(cols.str.split('_').str[0]) ”返回一个字典? Index.groupby 返回一个字典。可能是因为对索引进行算术运算不是一个常见的用例,通常我们需要组。 这是出乎意料的行为,这就是我问的原因。

以上是关于Pandas 按名称将多组列融化成多个目标列的主要内容,如果未能解决你的问题,请参考以下文章

EXCEL如何将多组数据画在一张图上,图例成分组效果(见附图)

如何使用 Seaborn 并排绘制熊猫数据框的多组列

Spark将多组行过滤为单行

Pandas 使用堆栈或融化(使用列作为行),多行作为列标题

如何从 Pandas 中的两列形成元组列

在 Pandas 中按列名选择两组列