使用 itertools 创建 numpy 数组

Posted

技术标签:

【中文标题】使用 itertools 创建 numpy 数组【英文标题】:Using itertools to create numpy array 【发布时间】:2017-01-05 18:31:49 【问题描述】:

我想使用 itertools 的各种函数来创建 numpy 数组。我可以很容易地提前计算出产品中元素的数量、组合、排列等,因此分配空间应该不是问题。

例如

coords = [[1,2,3],[4,5,6]]
iterable = itertools.product(*coords)
shape = (len(coords[0]), len(coords[1]))
arr = np.iterable_to_array(
    iterable, 
    shape=shape, 
    dtype=np.float64, 
    count=shape[0]*shape[1]
) #not a real thing
answer = np.array([
    [1,4],[1,5],[1,6],
    [2,4],[2,5],[2,6],
    [3,4],[3,5],[3,6]])
assert np.equal(arr, answer)

【问题讨论】:

那么,arr = np.array(list(iterable)) 不适合您是有原因的吗?您可能正在寻找np.formiter,但它不能很好地处理多维数组,我上次尝试过。 我还可以创建一个零数组,然后填充各个值。那会更快,可能:forthescience.org/blog/2015/06/07/…... 只是想知道是否有一种好方法让 numpy 完成这项工作,因为在 python 中到处都会出现迭代。 不幸的是,AFAIK 仅支持从可迭代对象构建一维数组。看看这个交流:mail.scipy.org/pipermail/numpy-discussion/2007-August/…确实,他们建议使用empty 我也很怀疑。谢谢! 【参考方案1】:

这里有几种用这些值生成数组的 numpy 方法

In [469]: coords = [[1,2,3],[4,5,6]]
In [470]: it = itertools.product(*coords)
In [471]: arr = np.array(list(it))
In [472]: arr
Out[472]: 
array([[1, 4],
       [1, 5],
       [1, 6],
       [2, 4],
       [2, 5],
       [2, 6],
       [3, 4],
       [3, 5],
       [3, 6]])

fromiter 将与适当的结构化 dtype 一起使用:

In [473]: it = itertools.product(*coords)
In [474]: arr = np.fromiter(it, dtype='i,i')
In [475]: arr
Out[475]: 
array([(1, 4), (1, 5), (1, 6), (2, 4), (2, 5), (2, 6), (3, 4), (3, 5),
       (3, 6)], 
      dtype=[('f0', '<i4'), ('f1', '<i4')])

但通常我们使用numpy 提供的工具来生成序列和网格。 np.arange 到处都在使用。

meshgrid 被广泛使用。经过一些反复试验,我发现我可以转置它的输出,并产生相同的序列:

In [481]: np.transpose(np.meshgrid(coords[0], coords[1], indexing='ij'), (1,2,0)).reshape(-1,2)
Out[481]: 
array([[1, 4],
       [1, 5],
       [1, 6],
       [2, 4],
       [2, 5],
       [2, 6],
       [3, 4],
       [3, 5],
       [3, 6]])

repeattile 对于这样的任务也很有用:

In [487]: np.column_stack((np.repeat(coords[0],3), np.tile(coords[1],3)))
Out[487]: 
array([[1, 4],
       [1, 5],
       [1, 6],
       [2, 4],
       [2, 5],
       [2, 6],
       [3, 4],
       [3, 5],
       [3, 6]])

我过去在fromiter 上做过一些计时。我的记忆是,它只比np.array 节省了一点时间。

不久前我探索了itertoolsfromiter,并找到了一种使用itertools.chain 组合它们的方法

convert itertools array into numpy array

In [499]: it = itertools.product(*coords)
In [500]: arr = np.fromiter(itertools.chain(*it),int).reshape(-1,2)
In [501]: arr
Out[501]: 
array([[1, 4],
       [1, 5],
       [1, 6],
       [2, 4],
       [2, 5],
       [2, 6],
       [3, 4],
       [3, 5],
       [3, 6]])

【讨论】:

这可行,但代价是现在必须为 numpy 重写 itertools 包。 我找到了一个较早的答案,它使用itertools.chain 来展平product 这很甜蜜。 我会接受你的回答,如果你把它精简到那个东西。 您可以将其拆分为多个答案,以便 Scott 接受他喜欢的答案

以上是关于使用 itertools 创建 numpy 数组的主要内容,如果未能解决你的问题,请参考以下文章

itertools.product的Numpy等价物[重复]

python字典值的itertools产品

获取 NumPy 数组中的连续命中数及其第一个/最后一个索引

为啥标签与 pandas、itertools 和 numpy 索引不一致?

如何使用 numpy 从一维数组创建对角矩阵?

Itertools 产品 V​​alueError:解包的值太多(预期为 2)