如何在 Pandas 中连接包含列表(系列)的两列

Posted

技术标签:

【中文标题】如何在 Pandas 中连接包含列表(系列)的两列【英文标题】:How to concatenate two columns containing list (series) in Pandas 【发布时间】:2019-01-23 00:58:20 【问题描述】:

我想连接 pandas 中的两列。每列包含一个 1x4 元素的浮点列表。我想合并两列,使得输出是一个 1x8 的向量。下面显示了数据帧的 sn-p

ue,bs
"[1.27932459e-01 7.83234197e-02 3.24789420e-02 4.34971932e-01]","[2.97806183e-01 2.32453145e-01 3.10236304e-01 1.69975788e-02]"
"[0.05627587 0.4113416  0.02160842 0.20420576]","[1.64862491e-01 1.35556330e-01 2.59050065e-02 1.42498115e-02]"

要连接两列,我执行以下操作:

df['ue_bs'] = zip(df_join['ue'], df_join['bs'])

有了这个,我得到一个新列“ue_bs”,其中包含df['ue_bs']第一行的以下内容:

(array([1.27932459e-01, 7.83234197e-02, 3.24789420e-02, 4.34971932e-01]),
 array([2.97806183e-01, 2.32453145e-01, 3.10236304e-01, 1.69975788e-02]))

但是,它们仍然是两个数组。为了合并它们,我做了如下:

a = df['ue_bs'][0]
np.concatenate((a[0], a[1]), axis=0)

然后,我得到了

array([1.27932459e-01, 7.83234197e-02, 3.24789420e-02, 4.34971932e-01,
   2.97806183e-01, 2.32453145e-01, 3.10236304e-01, 1.69975788e-02])

我想知道是否有一种简洁的方法可以在单行代码中执行此操作,而不必遍历 df['ue_bs'] 并执行 np.concatenate()

【问题讨论】:

【参考方案1】:

在python中连接两个列表,最简单的方法是使用+。在 pandas 中连接列时也是如此。你可以这样做:

df['ue_bs'] = df['ue'] + df['bs']

如果列类型是numpy数组,你可以先将它们转换成普通的python列表,然后再连接:

df['ue_bs'] = df['ue'].apply(lambda x: x.tolist()) + df['bs'].apply(lambda x: x.tolist())

【讨论】:

这可行,但如果其他列包含 NaN 值,则连接结果为 NaN。您对此解决方案有替代方案吗? @Dagad:一个简单的解决方案是首先用一个空列表替换任何 NaN 值,例如:***.com/questions/33199193/… 好的,会尝试并通知您。还有任何避免重复值的替代方法吗? @Dagad:你可以转换成一个集合(如果你想要一个列表,再返回):***.com/questions/53596283/… 请你检查我的问题,我把所有问题都说清楚了,***.com/questions/70617623/…【参考方案2】:

创建二维 numpy 数组,然后创建 numpy.hstack:

a = np.array(df[['ue','bs']].values.tolist())
df['ue_bs'] = np.hstack((a[:, 0], a[:, 1])).tolist()

print (df.loc[0, 'ue_bs'])
[0.127932459, 0.0783234197, 0.032478942, 0.434971932, 
 0.297806183, 0.232453145, 0.310236304, 0.0169975788]

【讨论】:

如何在 Pandas 中以行方式连接列表类型的列?例如,第 1 行包含一列,其值类似于第 1 行 = 1 a [a,b,c] 第 2 行 = 1 b [a,d] 结果 = 1 b [a,b,c,d] @AlwaysSunny - 有 3 列?并且thitd列包含列表? @AlwaysSunny - 所以需要删除a,因为存在于[a,b,c] 中? 这是我的问题,请看***.com/questions/63738328/…

以上是关于如何在 Pandas 中连接包含列表(系列)的两列的主要内容,如果未能解决你的问题,请参考以下文章

如何从 Pandas 中的两列形成元组列

Pandas:将依赖于第三列的相同数据框的两列相乘

在不包括当前行的两列之间使用pandas groupby除法创建一个新列

如何在列表中附加 csv 文件中的两列?

在 Python Pandas 中查找两列的交集 -> 字符串列表

比较 pandas/numpy 中的 NaN 列