从 MultiIndex DataFrame 为切片分配新值
Posted
技术标签:
【中文标题】从 MultiIndex DataFrame 为切片分配新值【英文标题】:Assign new values to slice from MultiIndex DataFrame 【发布时间】:2013-05-25 21:23:22 【问题描述】:我想修改 DataFrame 中某列的一些值。目前,我通过原始df
的多索引从选择中获得了一个视图(并且修改确实改变了df
)。
这是一个例子:
In [1]: arrays = [np.array(['bar', 'bar', 'baz', 'qux', 'qux', 'bar']),
np.array(['one', 'two', 'one', 'one', 'two', 'one']),
np.arange(0, 6, 1)]
In [2]: df = pd.DataFrame(randn(6, 3), index=arrays, columns=['A', 'B', 'C'])
In [3]: df
A B C
bar one 0 -0.088671 1.902021 -0.540959
two 1 0.782919 -0.733581 -0.824522
baz one 2 -0.827128 -0.849712 0.072431
qux one 3 -0.328493 1.456945 0.587793
two 4 -1.466625 0.720638 0.976438
bar one 5 -0.456558 1.163404 0.464295
我尝试将df
的一部分修改为标量值:
In [4]: df.ix['bar', 'two', :]['A']
Out[4]:
1 0.782919
Name: A, dtype: float64
In [5]: df.ix['bar', 'two', :]['A'] = 9999
# df is unchanged
我真的很想修改列中的几个值(并且由于索引返回一个向量,而不是一个标量值,我认为这更有意义):
In [6]: df.ix['bar', 'one', :]['A'] = [999, 888]
# again df remains unchanged
我正在使用熊猫 0.11。有没有简单的方法可以做到这一点?
当前的解决方案是从一个新的重新创建 df 并修改我想要的值。但它并不优雅,并且在复杂的数据帧上可能非常繁重。在我看来,问题应该来自 .ix 和 .loc 不是返回视图而是返回副本。
【问题讨论】:
为什么是-1票?你至少能解释一下吗? +1 一个很好的问题,一个令人困惑的问题。我唯一能想到的是因为标题不具描述性而被否决了? (但谁知道呢!) 抱歉标题,但我不是英语母语人士,而且主题有点复杂,所以很难找到一个好的 :-) 如果你想给我一个标题,我可以更改当前一个。 我对其进行了调整,但我不会担心这样的反对票。快乐熊猫。 感谢您的调整。更加干净和精确:-) 【参考方案1】:对帧进行排序,然后使用元组选择/设置多索引
In [12]: df = pd.DataFrame(randn(6, 3), index=arrays, columns=['A', 'B', 'C'])
In [13]: df
Out[13]:
A B C
bar one 0 -0.694240 0.725163 0.131891
two 1 -0.729186 0.244860 0.530870
baz one 2 0.757816 1.129989 0.893080
qux one 3 -2.275694 0.680023 -1.054816
two 4 0.291889 -0.409024 -0.307302
bar one 5 1.697974 -1.828872 -1.004187
In [14]: df = df.sortlevel(0)
In [15]: df
Out[15]:
A B C
bar one 0 -0.694240 0.725163 0.131891
5 1.697974 -1.828872 -1.004187
two 1 -0.729186 0.244860 0.530870
baz one 2 0.757816 1.129989 0.893080
qux one 3 -2.275694 0.680023 -1.054816
two 4 0.291889 -0.409024 -0.307302
In [16]: df.loc[('bar','two'),'A'] = 9999
In [17]: df
Out[17]:
A B C
bar one 0 -0.694240 0.725163 0.131891
5 1.697974 -1.828872 -1.004187
two 1 9999.000000 0.244860 0.530870
baz one 2 0.757816 1.129989 0.893080
qux one 3 -2.275694 0.680023 -1.054816
two 4 0.291889 -0.409024 -0.307302
如果你指定完整的索引,你也可以不排序,例如
In [23]: df.loc[('bar','two',1),'A'] = 999
In [24]: df
Out[24]:
A B C
bar one 0 -0.113216 0.878715 -0.183941
two 1 999.000000 -1.405693 0.253388
baz one 2 0.441543 0.470768 1.155103
qux one 3 -0.008763 0.917800 -0.699279
two 4 0.061586 0.537913 0.380175
bar one 5 0.857231 1.144246 -2.369694
检查排序深度
In [27]: df.index.lexsort_depth
Out[27]: 0
In [28]: df.sortlevel(0).index.lexsort_depth
Out[28]: 3
问题的最后一部分,分配一个列表(请注意,您必须有 与您尝试替换的元素数量相同),并且必须对其进行排序才能使其工作
In [12]: df.loc[('bar','one'),'A'] = [999,888]
In [13]: df
Out[13]:
A B C
bar one 0 999.000000 -0.645641 0.369443
5 888.000000 -0.990632 -0.577401
two 1 -1.071410 2.308711 2.018476
baz one 2 1.211887 1.516925 0.064023
qux one 3 -0.862670 -0.770585 -0.843773
two 4 -0.644855 -1.431962 0.232528
【讨论】:
所以,这都是关于排序的......好吧,我将来会使用它。谢谢你的伎俩! 是的,让它成为你的朋友:pandas.pydata.org/pandas-docs/dev/…以上是关于从 MultiIndex DataFrame 为切片分配新值的主要内容,如果未能解决你的问题,请参考以下文章
Pandas DataFrame 图:从 MultiIndex 中为 secondary_y 指定列
使用 Multiindex 从 Pandas DataFrame 中选择数据
我需要从包含列表的字典中使用 MultiIndex 在 Pandas 中创建一个 DataFrame
将 MultiIndex DataFrame 格式从列排序到 Pandas 中的变量