熊猫 concat ignore_index 不起作用
Posted
技术标签:
【中文标题】熊猫 concat ignore_index 不起作用【英文标题】:pandas concat ignore_index doesn't work 【发布时间】:2015-12-24 10:40:18 【问题描述】:我正在尝试对数据帧进行列绑定,但遇到了 pandas concat
的问题,因为 ignore_index=True
似乎不起作用:
df1 = pd.DataFrame('A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3'],
index=[0, 2, 3,4])
df2 = pd.DataFrame('A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7'],
index=[ 5, 6, 7,3])
df1
# A B D
# 0 A0 B0 D0
# 2 A1 B1 D1
# 3 A2 B2 D2
# 4 A3 B3 D3
df2
# A1 C D2
# 5 A4 C4 D4
# 6 A5 C5 D5
# 7 A6 C6 D6
# 3 A7 C7 D7
dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)
print df
结果是
0 1 2 3 4 5
0 A0 B0 D0 NaN NaN NaN
2 A1 B1 D1 NaN NaN NaN
3 A2 B2 D2 A7 C7 D7
4 A3 B3 D3 NaN NaN NaN
5 NaN NaN NaN A4 C4 D4
6 NaN NaN NaN A5 C5 D5
7 NaN NaN NaN A6 C6 D6
即使我使用重置索引
df1.reset_index()
df2.reset_index()
然后试试
pd.concat([df1,df2],axis=1)
它仍然产生相同的结果!
【问题讨论】:
pd.concat([df1, df2], axis=0, ignore_index=True)
会产生你想要的东西吗?如果没有,你能指定你的预期输出吗?
不,它绑定了行。我想绑定列(追加)。我尝试了追加,这似乎也不起作用。
@ajcr,你比较过pd.concat([df1, df2], axis=1, ignore_index=True)
和pd.concat([df1, df2], axis=1)
的输出了吗?第一个不应该直观地模仿cbind
吗?
我认为ignore_index
只会忽略您要加入的轴上的标签,因此它仍然会在索引标签上进行外部连接。我同意函数参数的名称在这里不是最直观的。
是的,我从@Alex 的回答中意识到这一点......但即使使用 ignore_index=False 我也有相同的结果
【参考方案1】:
如果我理解正确,这就是你想做的。
import pandas as pd
df1 = pd.DataFrame('A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3'],
index=[0, 2, 3,4])
df2 = pd.DataFrame('A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7'],
index=[ 4, 5, 6 ,7])
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df = pd.concat( [df1, df2], axis=1)
这给出了:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
实际上,我希望df = pd.concat(dfs,axis=1,ignore_index=True)
给出相同的结果。
这是 jreback 的精彩解释:
ignore_index=True
‘ignores’,意思是不在连接轴上对齐。它只是按照传递的顺序将它们粘贴在一起,然后为实际索引重新分配一个范围(例如range(len(index))
) 所以加入非重叠索引(假设axis=1
在示例中)之间的区别在于,使用ignore_index=False
(默认),你得到索引的连接,使用ignore_index=True
你得到一个范围。
【讨论】:
哦,那行得通……谢谢!有趣的是,我使用相同的方法在函数内绑定数据帧,而且效果很好!但一个外部功能不是 @mau,我已经更新了我的答案,现在使用pd.reset_index()
。我认为这是一种更清洁的方式。
我碰巧自己尝试过,如果我早点看到的话,可以节省几个小时 :)。谢谢...df = pd.concat( [df1.reset_index(drop=True), df2.reset_index(drop=True)], axis=1)
【参考方案2】:
ignore_index 选项在您的示例中有效,您只需要知道它忽略了 连接轴,在您的情况下是列。 (也许更好的名称是 ignore_labels。)如果您希望连接忽略索引标签,那么您的轴变量必须设置为 0(默认值)。
【讨论】:
谢谢!这很有帮助(还不能投票,低代表) 确实,这是文档中缺少的有用解释。【参考方案3】:同意 cmets,总是最好发布预期的输出。
这就是你想要的吗?
df1 = pd.DataFrame('A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3'],
index=[0, 2, 3,4])
df2 = pd.DataFrame('A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7'],
index=[ 5, 6, 7,3])
df1 = df1.transpose().reset_index(drop=True).transpose()
df2 = df2.transpose().reset_index(drop=True).transpose()
dfs = [df1,df2]
df = pd.concat( dfs,axis=0,ignore_index=True)
print df
0 1 2
0 A0 B0 D0
1 A1 B1 D1
2 A2 B2 D2
3 A3 B3 D3
4 A4 C4 D4
5 A5 C5 D5
6 A6 C6 D6
7 A7 C7 D7
【讨论】:
【参考方案4】:如果要保留左侧数据框的索引,请使用set_index
将 df2 的索引设置为 df1:
pd.concat([df1, df2.set_index(df1.index)], axis=1)
【讨论】:
【参考方案5】:你可以使用numpy的concatenate来达到效果。
cols = df1.columns.to_list() + df2.columns.to_list()
dfs = [df1,df2]
df = np.concatenate(dfs, axis=1)
df = pd.DataFrame(df, columns=cols)
Out[1]:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
【讨论】:
【参考方案6】:感谢您的提问。我遇到过同样的问题。 出于某种原因,“ignore_index=True”对我没有帮助。 我想保留第一个数据集中的索引并忽略第二个索引,这对我有用
X_train=pd.concat([train_sp, X_train.reset_index(drop=True, inplace=True)], axis=1)
【讨论】:
以上是关于熊猫 concat ignore_index 不起作用的主要内容,如果未能解决你的问题,请参考以下文章
pandas使用pd.concat纵向合并多个dataframe实战:纵向合并(ignore_index参数)为纵向合并的多个dataframe设置标识符指定数据来源(通过字典方式设置数据来源键)