优化Python:大数组、内存问题

Posted

技术标签:

【中文标题】优化Python:大数组、内存问题【英文标题】:Optimize Python: Large arrays, memory problems 【发布时间】:2017-02-06 13:40:24 【问题描述】:

我在运行 python/numypy 代码时遇到了速度问题。我不知道如何让它更快,也许是其他人?

假设有一个表面有两个三角剖分,一个精细 (..._fine) 有 M 个点,一个粗糙有 N 个点。此外,每个点(N 个浮点数)都有关于粗网格的数据。我正在尝试执行以下操作:

对于细网格上的每个点,找到粗网格上最近的 k 个点并获得平均值。短:从粗到细插入数据。

我现在的代码就是这样。对于大数据(在我的情况下 M = 2e6,N = 1e4),代码运行大约 25 分钟,猜测是因为显式 for 循环不会进入 numpy。任何想法如何通过智能索引解决这个问题? M x N 阵列炸毁了 RAM..

import numpy as np

p_fine.shape => m x 3
p.shape => n x 3

data_fine = np.empty((m,))
for i, ps in enumerate(p_fine):
    data_fine[i] = np.mean(data_coarse[np.argsort(np.linalg.norm(ps-p,axis=1))[:k]])

干杯!

【问题讨论】:

你不能在sklearn中使用nearest neighbors regression有什么原因吗?可能比手工更有效。 我认为 numpy 不是做这类事情的好模块,因为精细网格点上的循环无法矢量化。如果您需要手动编写代码,我建议使用 Cython 并使用显式 for 循环。 如果我理解正确的话,pp_fine 是网格。由于网格通常是结构化的,如果您切换到搜索空间数据速度较快的不同数据结构(例如 kD-tree),速度会快很多。 【参考方案1】:

方法#1

我们正在处理大型数据集,内存是一个问题,因此我将尝试优化循环内的计算。现在,我们可以使用np.einsum 替换np.linalg.norm 部分和np.argpartition 来代替np.argsort 的实际排序,就像这样-

out = np.empty((m,))
for i, ps in enumerate(p_fine):
    subs = ps-p
    sq_dists = np.einsum('ij,ij->i',subs,subs)
    out[i] = data_coarse[np.argpartition(sq_dists,k)[:k]].sum()
out = out/k

方法 #2

现在,作为另一种方法,我们也可以使用 Scipy's cdist 来实现完全矢量化的解决方案,就像这样 -

from scipy.spatial.distance import cdist
out = data_coarse[np.argpartition(cdist(p_fine,p),k,axis=1)[:,:k]].mean(1)

但是,由于我们在此处受内存限制,因此可以分块执行这些操作。基本上,我们将从具有数百万行的高数组p_fine 中获取行块,并使用cdist,因此在每次迭代中都会获得输出元素块,而不仅仅是一个标量。有了这个,我们将循环计数减少该块的长度。

所以,最后我们会有一个这样的实现 -

out = np.empty((m,))
L = 10 # Length of chunk (to be used as a param)
num_iter = m//L
for j in range(num_iter):
    p_fine_slice = p_fine[L*j:L*j+L]
    out[L*j:L*j+L] = data_coarse[np.argpartition(cdist\
                           (p_fine_slice,p),k,axis=1)[:,:k]].mean(1)

运行时测试

设置 -

# Setup inputs
m,n = 20000,100
p_fine = np.random.rand(m,3)
p = np.random.rand(n,3)
data_coarse = np.random.rand(n)
k = 5

def original_approach(p,p_fine,m,n,k):
    data_fine = np.empty((m,))
    for i, ps in enumerate(p_fine):
        data_fine[i] = np.mean(data_coarse[np.argsort(np.linalg.norm\
                                                 (ps-p,axis=1))[:k]])
    return data_fine

def proposed_approach(p,p_fine,m,n,k):    
    out = np.empty((m,))
    for i, ps in enumerate(p_fine):
        subs = ps-p
        sq_dists = np.einsum('ij,ij->i',subs,subs)
        out[i] = data_coarse[np.argpartition(sq_dists,k)[:k]].sum()
    return out/k

def proposed_approach_v2(p,p_fine,m,n,k,len_per_iter):
    L = len_per_iter
    out = np.empty((m,))    
    num_iter = m//L
    for j in range(num_iter):
        p_fine_slice = p_fine[L*j:L*j+L]
        out[L*j:L*j+L] = data_coarse[np.argpartition(cdist\
                               (p_fine_slice,p),k,axis=1)[:,:k]].sum(1)
    return out/k

时间安排 -

In [134]: %timeit original_approach(p,p_fine,m,n,k)
1 loops, best of 3: 1.1 s per loop

In [135]: %timeit proposed_approach(p,p_fine,m,n,k)
1 loops, best of 3: 539 ms per loop

In [136]: %timeit proposed_approach_v2(p,p_fine,m,n,k,len_per_iter=100)
10 loops, best of 3: 63.2 ms per loop

In [137]: %timeit proposed_approach_v2(p,p_fine,m,n,k,len_per_iter=1000)
10 loops, best of 3: 53.1 ms per loop

In [138]: %timeit proposed_approach_v2(p,p_fine,m,n,k,len_per_iter=2000)
10 loops, best of 3: 63.8 ms per loop

因此,与第一种建议的方法相比,2x20x 都比原来的方法有所改进,而第二种方法与 @987654338 的最佳结合点@ 参数设置为 1000。希望这会将您的 25 分钟运行时间缩短到一分钟多一点。我猜还不错!

【讨论】:

【参考方案2】:

首先感谢您的详细帮助。

首先,Divakar,您的解决方案大大加快了速度。使用我的数据,代码运行了不到 2 分钟,这取决于块的大小。

我也尝试过使用 sklearn 并最终得到了

def sklearnSearch_v3(p, p_fine, k):
    neigh = NearestNeighbors(k)
    neigh.fit(p)
    return data_coarse[neigh.kneighbors(p_fine)[1]].mean(axis=1)

结果很快,对于我的数据大小,我得到以下结果

import numpy as np
from sklearn.neighbors import NearestNeighbors

m,n = 2000000,20000
p_fine = np.random.rand(m,3)
p = np.random.rand(n,3)
data_coarse = np.random.rand(n)
k = 3

产量

%timeit sklearv3(p, p_fine, k)
1 loop, best of 3: 7.46 s per loop

【讨论】:

这似乎更好!好好研究这些。

以上是关于优化Python:大数组、内存问题的主要内容,如果未能解决你的问题,请参考以下文章

PHP 内存溢出

PHP 内存溢出

Python:修改列表时的内存使用和优化

C++ 对 Python 的扩展——安全的内存访问和内存布局

php程序内存优化之数组操作优化

ANDROID内存优化(大汇总——上)