带有自定义列的熊猫枢轴

Posted 2023-03-12

技术标签:

【中文标题】带有自定义列的熊猫枢轴【英文标题】：pandas pivot with custom columns 【发布时间】：2019-01-26 15:27:40 【问题描述】：

我有一个数据框，其中有几个变量（这里是 Var1 和 Var2），它们在不同的位置（这里是 Station）是不同的。然后我有一定数量的案例，对于每个案例，我在每个位置得到不同的值。

例如：

np.random.seed(42)

df1 = pd.DataFrame('Station' : range(10))
df1['ID'] = 'a'
df1['Var1'] = np.random.randn(10)
df1['Var2'] = np.random.randn(10)

df2 = pd.DataFrame('Station' : range(10))
df2['ID'] = 'b'
df2['Var1'] = np.random.randn(10)
df2['Var2'] = np.random.randn(10)

df = pd.concat([df1, df2])

所以它看起来像这样：

   Station ID      Var1      Var2
0        0  a  0.496714 -0.463418
1        1  a -0.138264 -0.465730
2        2  a  0.647689  0.241962
3        3  a  1.523030 -1.913280
4        4  a -0.234153 -1.724918
5        5  a -0.234137 -0.562288
6        6  a  1.579213 -1.012831
7        7  a  0.767435  0.314247
8        8  a -0.469474 -0.908024
9        9  a  0.542560 -1.412304
0        0  b  1.465649 -0.601707
1        1  b -0.225776  1.852278
2        2  b  0.067528 -0.013497
3        3  b -1.424748 -1.057711
4        4  b -0.544383  0.822545
5        5  b  0.110923 -1.220844
6        6  b -1.150994  0.208864
7        7  b  0.375698 -1.959670
8        8  b -0.600639 -1.328186
9        9  b -0.291694  0.196861

我的实际数据有 6 个不同的变量、45 个站点和超过 22,000 个 ID。

我现在想转换数据框，使每个站点的每个变量都有一个列，并将 ID 作为索引。所以我想得到这个：

      Var1_0    Var1_1    Var1_2    ...       Var2_7    Var2_8    Var2_9
ID                                  ...                                 
a   0.496714 -0.138264  0.647689    ...     0.314247 -0.908024 -1.412304
b   1.465649 -0.225776  0.067528    ...    -1.959670 -1.328186  0.196861

我试过了：

def test_func(x, IQ):
    col = IQ + '_' + str(x['Station'])
    out = col: x[IQ]
    return pd.Series(out)

def transformIQ(df, IQs):
    for i, iq in enumerate(IQs):
        if i==0:
            df_new = df.apply(lambda x: test_func(x, iq), axis=1)
        else:
            df_tmp = df.apply(lambda x: test_func(x, iq), axis=1)
            df_new = pd.concat([df_new, df_tmp], axis=1)

    return df_new

IQs = ['Var1', 'Var2']
df3 = transformIQ(df, IQs)

df4 = pd.concat([df, df3], axis=1)    

dfpivot = df4.pivot_table(index='ID').drop(['Station', 'Var1', 'Var2'], axis=1)

这给了我想要的数据框，但正如我之前所说，我的实际数据有超过 1,000,000 行，这种方法不起作用。有没有更好/更简单的方法可以处理超过 1,000,000 行？

【问题讨论】：

【参考方案1】：

将stack 与 unstack:

df = df.set_index(['ID','Station']).stack().unstack([2,1]).sort_index(axis=1)
#flatten columns, 3.6+
df.columns = [f'i_j' for i, j in df.columns]
#bellow 3.6
#df.columns = ['_'.format(i, j) for i, j in df.columns]
print (df)
      Var1_0    Var1_1    Var1_2    Var1_3    Var1_4    Var1_5    Var1_6  \
ID                                                                         
a   0.496714 -0.138264  0.647689  1.523030 -0.234153 -0.234137  1.579213   
b   1.465649 -0.225776  0.067528 -1.424748 -0.544383  0.110923 -1.150994   

      Var1_7    Var1_8    Var1_9    Var2_0    Var2_1    Var2_2    Var2_3  \
ID                                                                         
a   0.767435 -0.469474  0.542560 -0.463418 -0.465730  0.241962 -1.913280   
b   0.375698 -0.600639 -0.291694 -0.601707  1.852278 -0.013497 -1.057711   

      Var2_4    Var2_5    Var2_6    Var2_7    Var2_8    Var2_9  
ID                                                              
a  -1.724918 -0.562288 -1.012831  0.314247 -0.908024 -1.412304  
b   0.822545 -1.220844  0.208864 -1.959670 -1.328186  0.196861

【讨论】：

@jezrael 感谢您将 f-string 与扁平化多索引连接起来。使用 if 语句更快更灵活。 @ScottBoston - 刚刚投票赞成your solution ;)

以上是关于带有自定义列的熊猫枢轴的主要内容，如果未能解决你的问题，请参考以下文章