从 NumPy 数组中选择特定的行和列

Posted

技术标签:

【中文标题】从 NumPy 数组中选择特定的行和列【英文标题】:Selecting specific rows and columns from NumPy array 【发布时间】:2014-05-20 13:37:11 【问题描述】:

我一直想弄清楚我在这里做错了什么愚蠢的事情。

我正在使用 NumPy,并且我有要从中选择的特定行索引和特定列索引。这是我的问题的要点:

import numpy as np

a = np.arange(20).reshape((5,4))
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11],
#        [12, 13, 14, 15],
#        [16, 17, 18, 19]])

# If I select certain rows, it works
print a[[0, 1, 3], :]
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [12, 13, 14, 15]])

# If I select certain rows and a single column, it works
print a[[0, 1, 3], 2]
# array([ 2,  6, 14])

# But if I select certain rows AND certain columns, it fails
print a[[0,1,3], [0,2]]
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# ValueError: shape mismatch: objects cannot be broadcast to a single shape

为什么会这样?当然,我应该能够选择第一、第二和第四行,以及第一和第三列?我期待的结果是:

a[[0,1,3], [0,2]] => [[0,  2],
                      [4,  6],
                      [12, 14]]

【问题讨论】:

标记numpy-slicing 以提高可查找性。 (此外,“切片”和“切片”这两个词不会出现在明文中,我们可以使用一些重复项,将这些词封闭在其中) 这是***.com/questions/19161512/numpy-extract-submatrix的副本 【参考方案1】:

正如 Toan 所建议的,一个简单的技巧是先选择行,然后选择 上的列。

>>> a[[0,1,3], :]            # Returns the rows you want
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [12, 13, 14, 15]])
>>> a[[0,1,3], :][:, [0,2]]  # Selects the columns you want as well
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

[编辑] 内置方法:np.ix_

我最近发现 numpy 为您提供了一种内置的单线器,可以完全按照@Jaime 的建议进行操作,但不必使用广播语法(由于缺乏可读性)。来自文档:

使用 ix_ 可以快速构建索引数组,将索引 交叉产品。 a[np.ix_([1,3],[2,5])] 返回数组 [[a[1,2] a[1,5]], [a[3,2] a[3,5]]]

所以你这样使用它:

>>> a = np.arange(20).reshape((5,4))
>>> a[np.ix_([0,1,3], [0,2])]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

它的工作方式是按照 Jaime 建议的方式对齐数组,以便正确进行广播:

>>> np.ix_([0,1,3], [0,2])
(array([[0],
        [1],
        [3]]), array([[0, 2]]))

另外,正如 MikeC 在评论中所说,np.ix_ 具有返回视图的优势,而我的第一个(预编辑)答案没有。这意味着您现在可以分配到索引数组:

>>> a[np.ix_([0,1,3], [0,2])] = -1
>>> a    
array([[-1,  1, -1,  3],
       [-1,  5, -1,  7],
       [ 8,  9, 10, 11],
       [-1, 13, -1, 15],
       [16, 17, 18, 19]])

【讨论】:

在一些测试中,我还发现np.ix_ 比选择第一列然后选择行的方法更快(在我对大小为 1K-10K 的方形数组的测试中,速度通常大约是 2 倍,其中您重新索引所有行和列)。【参考方案2】:

花式索引要求您为每个维度提供所有索引。您为第一个提供 3 个索引,而为第二个提供 2 个索引,因此出现错误。你想做这样的事情:

>>> a[[[0, 0], [1, 1], [3, 3]], [[0,2], [0,2], [0, 2]]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

写起来当然很痛苦,所以你可以让广播帮助你:

>>> a[[[0], [1], [3]], [0, 2]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

如果您使用数组而不是列表进行索引,这样做会简单得多:

>>> row_idx = np.array([0, 1, 3])
>>> col_idx = np.array([0, 2])
>>> a[row_idx[:, None], col_idx]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

【讨论】:

谢谢,我不知道你能做到这一点!直播很诡异,很精彩……用了两年的numpy,还是习惯了。 谢谢!虽然其他答案确实在返回所选矩阵方面正确回答了我的问题,但这个答案解决了这个问题,同时也解决了分配问题(如何设置 a[[0,1,3], [0,2]] = 0 ,例如)。 @Jaime - 就在昨天,我发现了一个内置的单行代码,可以完全实现您建议的广播技巧:np.ix_ 有人可以解释一下为什么语法会这样工作吗?它适用于第一个示例但不适用于第三个示例的原因是什么?而且,将想要的索引封装在他们自己的列表中如何解决这个问题?谢谢 为什么行需要嵌套而列不需要?【参考方案3】:

使用:

 >>> a[[0,1,3]][:,[0,2]]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

或者:

>>> a[[0,1,3],::2]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

【讨论】:

虽然这是正确的,但您应该考虑发布一些进一步的信息来解释为什么它是正确的。【参考方案4】:

使用np.ix_ 是最方便的方法(正如其他人所回答的那样),但也可以按如下方式完成:

>>> rows = [0, 1, 3]
>>> cols = [0, 2]

>>> (a[rows].T)[cols].T

array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

【讨论】:

非常有趣的方法。像那样!是更简洁的语法

以上是关于从 NumPy 数组中选择特定的行和列的主要内容,如果未能解决你的问题,请参考以下文章

如何为numpy数组中的特定行和列分配字符串值?

通过直接索引数据框来选择特定的行和列

选择特定行和列中的特定输入元素

请问如何获得GridView选中行的每一列的信息?

如何在 VBA 中显示选择查询的行和列值

选择 QTableWidget 中的行和列,同时保持突出显示