为啥 pandas 多索引数据帧切片看起来不一致?
Posted
技术标签:
【中文标题】为啥 pandas 多索引数据帧切片看起来不一致?【英文标题】:Why does pandas multi-index dataframe slicing seem inconsistent?为什么 pandas 多索引数据帧切片看起来不一致? 【发布时间】:2016-12-13 11:23:11 【问题描述】:为什么在对多索引数据帧进行切片时,只要对 0 级索引进行切片,就可以使用更简单的语法?这是一个示例数据框:
hi
a b c
1 foo baz 0
can 1
bar baz 2
can 3
2 foo baz 4
can 5
bar baz 6
can 7
3 foo baz 8
can 9
bar baz 10
can 11
这些工作:
df.loc[1, 'foo', :]
df.loc[1, :, 'can']
虽然不是这样:
df.loc[:, 'foo', 'can']
强迫我改用其中一种:
df.loc[(slice(None), 'foo', 'can'), :]
df.loc[pd.IndexSlice[:, 'foo', 'can'], :]
以下是相同的示例,但更详细:
In [1]: import pandas as pd
import numpy as np
ix = pd.MultiIndex.from_product([[1, 2, 3], ['foo', 'bar'], ['baz', 'can']], names=['a', 'b', 'c'])
data = np.arange(len(ix))
df = pd.DataFrame(data, index=ix, columns=['hi'])
print df
hi
a b c
1 foo baz 0
can 1
bar baz 2
can 3
2 foo baz 4
can 5
bar baz 6
can 7
3 foo baz 8
can 9
bar baz 10
can 11
In [2]: df.sort_index(inplace=True)
print df.loc[1, 'foo', :]
hi
a b c
1 foo baz 0
can 1
In [3]: print df.loc[1, :, 'can']
hi
a b c
1 bar can 3
foo can 1
In [4]: print df.loc[:, 'foo', 'can']
KeyError: 'the label [foo] is not in the [columns]'
In [5]: print df.loc[(slice(None), 'foo', 'can'), :]
hi
a b c
1 foo can 1
2 foo can 5
3 foo can 9
In [6]: print df.loc[pd.IndexSlice[:, 'foo', 'can'], :]
hi
a b c
1 foo can 1
2 foo can 5
3 foo can 9
【问题讨论】:
【参考方案1】:所有三个例子在技术上都是模棱两可的,但在前两个例子中,Pandas 正确地猜出了你的意图。由于切片行、选择列(即df.loc[:, columns]
)是一种常见的习惯用法,因此推断似乎选择了这种解释。
推理有点混乱,所以我认为最好是明确的。如果您使用别名 IndexSlice
,则不需要额外输入:
idx = pd.IndexSlice
df.loc[idx[1, 'foo'], :]
df.loc[idx[1, :, 'can'], :]
df.loc[idx[:, 'foo', 'can'], :]
【讨论】:
当df[columns]
似乎在做同样的事情时,为什么df.loc[:, columns]
是一个常见的习语?我可能遗漏了一些细微差别。
它通常做同样的事情......除非它不是由于后备。 github 上有一个问题,它列举了所有的可能性 - github.com/pydata/pandas/issues/9595 - 正如那里所指出的,它有点混乱,此时主要是为了向后兼容。以上是关于为啥 pandas 多索引数据帧切片看起来不一致?的主要内容,如果未能解决你的问题,请参考以下文章