Pandas concat:ValueError:传递值的形状是blah,索引暗示blah2

Posted

技术标签:

【中文标题】Pandas concat:ValueError:传递值的形状是blah,索引暗示blah2【英文标题】:Pandas concat: ValueError: Shape of passed values is blah, indices imply blah2 【发布时间】:2015-02-27 10:36:24 【问题描述】:

我正在尝试合并 (Pandas 14.1) 数据框和系列。该系列应形成一个新列,并带有一些 NA(因为该系列的索引值是数据帧索引值的子集)。

这适用于玩具示例,但不适用于我的数据(详情如下)。

例子:

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6, 4), columns=['A', 'B', 'C', 'D'], index=pd.date_range('1/1/2011', periods=6, freq='D'))
df1

A   B   C   D
2011-01-01  -0.487926   0.439190    0.194810    0.333896
2011-01-02  1.708024    0.237587    -0.958100   1.418285
2011-01-03  -1.228805   1.266068    -1.755050   -1.476395
2011-01-04  -0.554705   1.342504    0.245934    0.955521
2011-01-05  -0.351260   -0.798270   0.820535    -0.597322
2011-01-06  0.132924    0.501027    -1.139487   1.107873

s1 = pd.Series(np.random.randn(3), name='foo', index=pd.date_range('1/1/2011', periods=3, freq='2D'))
s1

2011-01-01   -1.660578
2011-01-03   -0.209688
2011-01-05    0.546146
Freq: 2D, Name: foo, dtype: float64

pd.concat([df1, s1],axis=1)

A   B   C   D   foo
2011-01-01  -0.487926   0.439190    0.194810    0.333896    -1.660578
2011-01-02  1.708024    0.237587    -0.958100   1.418285    NaN
2011-01-03  -1.228805   1.266068    -1.755050   -1.476395   -0.209688
2011-01-04  -0.554705   1.342504    0.245934    0.955521    NaN
2011-01-05  -0.351260   -0.798270   0.820535    -0.597322   0.546146
2011-01-06  0.132924    0.501027    -1.139487   1.107873    NaN

数据的情况(见下文)似乎基本相同 - 将系列与 DatetimeIndex 连接,其值是数据帧的子集。但它在标题中给出了 ValueError (blah1 = (5, 286) blah2 = (5, 276) )。为什么它不起作用?:

In[187]: df.head()
Out[188]:
high    low loc_h   loc_l
time                
2014-01-01 17:00:00 1.376235    1.375945    1.376235    1.375945
2014-01-01 17:01:00 1.376005    1.375775    NaN NaN
2014-01-01 17:02:00 1.375795    1.375445    NaN 1.375445
2014-01-01 17:03:00 1.375625    1.375515    NaN NaN
2014-01-01 17:04:00 1.375585    1.375585    NaN NaN
In [186]: df.index
Out[186]:
<class 'pandas.tseries.index.DatetimeIndex'>
[2014-01-01 17:00:00, ..., 2014-01-01 21:30:00]
Length: 271, Freq: None, Timezone: None

In [189]: hl.head()
Out[189]:
2014-01-01 17:00:00    1.376090
2014-01-01 17:02:00    1.375445
2014-01-01 17:05:00    1.376195
2014-01-01 17:10:00    1.375385
2014-01-01 17:12:00    1.376115
dtype: float64

In [187]:hl.index
Out[187]:
<class 'pandas.tseries.index.DatetimeIndex'>
[2014-01-01 17:00:00, ..., 2014-01-01 21:30:00]
Length: 89, Freq: None, Timezone: None

In: pd.concat([df, hl], axis=1)
Out: [stack trace] ValueError: Shape of passed values is (5, 286), indices imply (5, 276)

【问题讨论】:

你试过append而不是concat吗?如果我正确理解ValueError,则表示有 286 行数据,但数据框的索引预计为 276 行。尝试查看len(df.index)len(h1.index) df.append(hl) 因 TypeError 失败:“NoneType”对象不可迭代。但后来我尝试加入 - 谢谢! :) 没问题。确保将您的答案标记为正确,以便未来的 SO 用户在遇到类似问题时可以快速找到您的解决方案。 会做...当它让我。 错误消息可能会更有帮助,比如可能会说“您可能有一些重复的索引”... 【参考方案1】:

我遇到了类似的问题(join 工作,但 concat 失败)。

检查df1s1 中的重复索引值(例如df1.index.is_unique

删除重复的索引值(例如,df.drop_duplicates(inplace=True))或这里的方法之一https://***.com/a/34297689/7163376 应该可以解决它。

【讨论】:

成功了,谢谢!我这样做是这样的:df = pd.concat([df1, df2], axis=1, join_axes=[df1.index])。如果我在 df2 中有重复,那么我会收到此错误。这是有道理的,因为它不知道如何在两个 DF 之间映射多个重复索引。 要删除重复索引,请使用df = df.loc[df.index.drop_duplicates()]。参考文献pandas.pydata.org/pandas-docs/stable/generated/… 在两个索引中检查重复索引值的建议可能会帮助许多阅读此问题的人 要删除重复索引,最好是df = df[~df.index.duplicated(keep='first')]see ***.com/questions/13035764/…【参考方案2】:

我的问题是不同的索引,下面的代码解决了我的问题。

df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df = pd.concat([df1, df2], axis=1)

【讨论】:

我最终遇到了这个问题,reset_index() 解决了它。原索引有什么问题,reset_index()是怎么解决的?【参考方案3】:

Aus_lacy 的帖子给了我尝试相关方法的想法,其中 join 确实有效:

In [196]:

hl.name = 'hl'
Out[196]:
'hl'
In [199]:

df.join(hl).head(4)
Out[199]:
high    low loc_h   loc_l   hl
2014-01-01 17:00:00 1.376235    1.375945    1.376235    1.375945    1.376090
2014-01-01 17:01:00 1.376005    1.375775    NaN NaN NaN
2014-01-01 17:02:00 1.375795    1.375445    NaN 1.375445    1.375445
2014-01-01 17:03:00 1.375625    1.375515    NaN NaN NaN

了解为什么 concat 对示例有效,但不是这些数据会很好!

【讨论】:

【参考方案4】:

要删除重复索引,请使用df = df.loc[df.index.drop_duplicates()]。参考文献pandas.pydata.org/pandas-docs/stable/generated/… – BallpointBen 4 月 18 日 15:25

这是错误的,但由于声誉低,我无法直接回复 BallpointBen 的评论。它错误的原因是df.index.drop_duplicates() 返回一个唯一索引列表,但是当您使用这些唯一索引索引回数据帧时,它仍然返回所有记录。我认为这可能是因为使用重复索引之一进行索引将返回索引的所有实例。

改为使用df.index.duplicated(),它返回一个布尔列表(添加~ 以获取不重复的记录):

df = df.loc[~df.index.duplicated()]

【讨论】:

【参考方案5】:

您的索引可能包含重复值。

import pandas as pd

T1_INDEX = [
    0,
    1,  # <= !!! if I write e.g.: "0" here then it fails
    0.2,
]
T1_COLUMNS = [
    'A', 'B', 'C', 'D'
]
T1 = [
    [1.0, 1.1, 1.2, 1.3],
    [2.0, 2.1, 2.2, 2.3],
    [3.0, 3.1, 3.2, 3.3],
]

T2_INDEX = [
    1.2,
    2.11,
]

T2_COLUMNS = [
    'D', 'E', 'F',
]
T2 = [
    [54.0, 5324.1, 3234.2],
    [55.0, 14.5324, 2324.2],
    # [3.0, 3.1, 3.2],
]
df1 = pd.DataFrame(T1, columns=T1_COLUMNS, index=T1_INDEX)
df2 = pd.DataFrame(T2, columns=T2_COLUMNS, index=T2_INDEX)


print(pd.concat([pd.DataFrame()] + [df2, df1], axis=1))

【讨论】:

【参考方案6】:

连接它们后尝试排序索引

result=pd.concat([df1,df2]).sort_index()

【讨论】:

【参考方案7】:

也许很简单,试试这个 如果你有一个数据框。然后确保您尝试组合的两个矩阵或向量具有相同的 rows_name/index

我有同样的问题。我更改了行的名称索引以使它们相互匹配 这是矩阵(主成分)和向量(目标)具有相同行索引的示例(我在图片左侧用蓝色圈出了它们)

之前,“当它不工作时”,我有带有正常行索引 (0,1,2,3) 的矩阵,而我有带有行索引 (ID0, ID1, ID2, ID3) 的向量 然后我将向量的行索引更改为 (0,1,2,3),它对我有用。

enter image description here

【讨论】:

以上是关于Pandas concat:ValueError:传递值的形状是blah,索引暗示blah2的主要内容,如果未能解决你的问题,请参考以下文章

我可以避免连接空数据帧的 ValueError 吗?

Pandas 返回:ValueError: Unknown label type: 'continuous'

Pandas:ValueError:无法将浮点 NaN 转换为整数

Pandas - ValueError:无法从重复的轴重新索引

ValueError: <class 'pandas.core.frame.DataFrame'> 的填充值无效

Numpy、Pandas 和 Sklearn 中的多维缩放拟合(ValueError)