从多维 Numpy 数组行中选择随机窗口

Posted

技术标签:

【中文标题】从多维 Numpy 数组行中选择随机窗口【英文标题】:Selecting Random Windows from Multidimensional Numpy Array Rows 【发布时间】:2018-06-07 13:12:47 【问题描述】:

我有一个大数组,其中每一行都是一个时间序列,因此需要保持有序。

我想为每一行选择一个给定大小的随机窗口。

示例:

>>>import numpy as np
>>>arr = np.array(range(42)).reshape(6,7)
>>>arr
array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39, 40, 41]])
>>># What I want to do:
>>>select_random_windows(arr, window_size=3)
array([[ 1,  2,  3],
       [11, 12, 13],
       [14, 15, 16],
       [22, 23, 24],
       [38, 39, 40]])

在我看来,理想的解决方案是什么样的:

def select_random_windows(arr, window_size):
    offsets = np.random.randint(0, arr.shape[0] - window_size, size = arr.shape[1])
    return arr[:, offsets: offsets + window_size]

但不幸的是,这不起作用

我现在的进度非常慢:

def select_random_windows(arr, wndow_size):
    result = []
    offsets = np.random.randint(0, arr.shape[0]-window_size, size = arr.shape[1])
    for row, offset in enumerate(start_indices):
        result.append(arr[row][offset: offset + window_size])
    return np.array(result)

当然,我可以对列表理解做同样的事情(并获得最小的速度提升),但我想知道是否有一些超级智能的 numpy 矢量化方法可以做到这一点。

【问题讨论】:

【参考方案1】:

这是一个利用np.lib.stride_tricks.as_strided -

def random_windows_per_row_strided(arr, W=3):
    idx = np.random.randint(0,arr.shape[1]-W+1, arr.shape[0])
    strided = np.lib.stride_tricks.as_strided 
    m,n = arr.shape
    s0,s1 = arr.strides
    windows = strided(arr, shape=(m,n-W+1,W), strides=(s0,s1,s1))
    return windows[np.arange(len(idx)), idx]

10,000 行的更大数组的运行时测试 -

In [469]: arr = np.random.rand(100000,100)

# @Psidom's soln
In [470]: %timeit select_random_windows(arr, window_size=3)
100 loops, best of 3: 7.41 ms per loop

In [471]: %timeit random_windows_per_row_strided(arr, W=3)
100 loops, best of 3: 6.84 ms per loop

# @Psidom's soln
In [472]: %timeit select_random_windows(arr, window_size=30)
10 loops, best of 3: 26.8 ms per loop

In [473]: %timeit random_windows_per_row_strided(arr, W=30)
100 loops, best of 3: 9.65 ms per loop

# @Psidom's soln
In [474]: %timeit select_random_windows(arr, window_size=50)
10 loops, best of 3: 41.8 ms per loop

In [475]: %timeit random_windows_per_row_strided(arr, W=50)
100 loops, best of 3: 10 ms per loop

【讨论】:

感谢您的链接。这就是我一直以来所缺少的。现在我终于可以在 numpy 中添加一个加权选择的实现,并为加权直方图启用 bin 宽度估计器,这个功能已经困扰了我一段时间了。 很棒的答案,并且非常巧妙地使用了 as_strided。 您能否提供一个带有 N 维数组的 random_windows_per_row_strided 示例(例如,任何维度(无论是 x 还是 z,或其他任何人)?我有与 OP 完全相同的问题,但具有更大的维度数组。【参考方案2】:

在return语句中,将slicing改为advanced indexing,还需要稍微修正一下采样代码:

def select_random_windows(arr, window_size):
    offsets = np.random.randint(0, arr.shape[1]-window_size+1, size=arr.shape[0])
    return arr[np.arange(arr.shape[0])[:,None], offsets[:,None] + np.arange(window_size)]

select_random_windows(arr, 3)
#array([[ 4,  5,  6],
#       [ 7,  8,  9],
#       [17, 18, 19],
#       [25, 26, 27],
#       [31, 32, 33],
#       [39, 40, 41]])

【讨论】:

您能否提供一个带有 N 维数组的 random_windows_per_row_strided 示例(例如,任何维度(无论是 x 还是 z,或其他任何人)?我有与 OP 完全相同的问题,但具有更大的维度数组(因此是整个帖子的标题)。

以上是关于从多维 Numpy 数组行中选择随机窗口的主要内容,如果未能解决你的问题,请参考以下文章

python工具——NumPy

NumPy之:ndarray多维数组操作

11-2 numpy/pandas/matplotlib模块

对象深度以获得所需的数组,numpy随机选择

NumPy常用函数——构造数组函数及代码示例

学习笔记Python - NumPy