如何将元组值设置为熊猫数据框？

Posted 2023-03-11

技术标签:

【中文标题】如何将元组值设置为熊猫数据框？【英文标题】：How do I set tuple value to pandas dataframe? 【发布时间】：2018-04-09 16:23:24 【问题描述】：

我想做的应该很简单。本质上，我有一些数据框，我需要为某些列分配一些元组值。

例如：

pd_tmp = pd.DataFrame(np.random.rand(3,3))
pd_tmp["new_column"] = ("a",2)

我只需要一个带有元组值的新列，我该怎么办？

ValueError: Length of values does not match length of index

前面的代码出错了。

【问题讨论】：

【参考方案1】：

您可以将元组包装在一个列表中：

import pandas as pd
pd_tmp = pd.DataFrame(np.random.rand(3,3))
pd_tmp["new_column"] = [("a",2)] * len(pd_tmp)

pd_tmp
#          0           1           2    new_column
#0  0.835350    0.338516    0.914184    (a, 2)
#1  0.007327    0.418952    0.741958    (a, 2)
#2  0.758607    0.464525    0.400847    (a, 2)

【讨论】：

【参考方案2】：

series的文档。

Series 是一个可以保存任何数据的一维标签数组类型（整数、字符串、浮点数、Python 对象、等等。）。轴标签统称为索引。这创建系列的基本方法是调用：
>>> s = pd.Series(data, index=index)
在这里，数据可以是很多不同的东西：
Python 字典一个ndarray 标量值（如 5）

所以Series 不会直接采用元组类型。 @Psidom 的答案是将元组作为ndarray 的元素。

如果您询问如何set a cell of Series/Dataframe，这是一个问问题。

【讨论】：

【参考方案3】：

您可以将apply 与返回tuple 的lambda 一起使用

pd_tmp.assign(newc_olumn=pd_tmp.apply(lambda x: ('a', 2), 1))

          0         1         2 newc_olumn
0  0.373564  0.806956  0.106911     (a, 2)
1  0.332508  0.711735  0.230347     (a, 2)
2  0.516232  0.343266  0.813759     (a, 2)

【讨论】：

【参考方案4】：

我一直在寻找类似的东西，但就我而言，我希望元组是现有列的组合，而不仅仅是一个固定值。我找到了下面的解决方案，我分享它希望它对像我这样的其他人有用。

In [24]: df
Out[24]:
      A     B
0     1     2
1    11    22
2   111   222
3  1111  2222

In [25]: df['D'] = df[['A','B']].apply(tuple, axis=1)

In [26]: df
Out[26]:
      A     B             D
0     1     2        (1, 2)
1    11    22      (11, 22)
2   111   222    (111, 222)
3  1111  2222  (1111, 2222)

【讨论】：

【参考方案5】：

如前所述，诀窍是在列表 [('a', 2)] 中为每个值放置一个元组并乘以行数或使用 apply/lambda 以下是一些额外的相关案例：

如果元组中只有一位数字，则添加逗号：

pd.DataFrame('no_comma': [(1.9)], 'with_comma': [(1.9,)])

将元组放入索引：

size = 3  
pd.DataFrame(np.random.rand(3,size), [('a',2)]*size )

【讨论】：

以上是关于如何将元组值设置为熊猫数据框？的主要内容，如果未能解决你的问题，请参考以下文章