非常大的numpy数组的效率
Posted
技术标签:
【中文标题】非常大的numpy数组的效率【英文标题】:Efficiency with very large numpy arrays 【发布时间】:2013-10-05 02:10:28 【问题描述】:我正在处理一些非常大的数组。我正在处理的一个问题当然是内存不足,但即使在此之前我的代码运行缓慢,所以即使我有无限的 RAM,它仍然需要太长时间。我将提供一些代码来展示我正在尝试做的事情:
#samplez is a 3 million element 1-D array
#zfit is a 10,000 x 500 2-D array
b = np.arange((len(zfit))
for x in samplez:
a = x-zfit
mask = np.ma.masked_array(a)
mask[a <= 0] = np.ma.masked
index = mask.argmin(axis=1)
# These past 4 lines give me an index array of the smallest positive number
# in x - zift
d = zfit[b,index]
e = zfit[b,index+1]
f = (x-d)/(e-d)
# f is the calculation I am after
if x == samplez[0]:
g = f
index_stack = index
else:
g = np.vstack((g,f))
index_stack = np.vstack((index_stack,index))
在进一步计算中,我需要使用 g 和 index_stack,每个都是 300 万 x 10,000 个二维数组。这个循环的每次迭代几乎需要 1 秒,所以总共需要 300 万秒,这太长了。
我能做些什么来让这个计算运行得更快吗?我试图思考如果没有这个 for 循环我该怎么办,但我能想象的唯一方法是制作 300 万份 zfit,这是不可行的。
有没有办法通过不将所有内容都保存在 RAM 中来处理这些数组?我是初学者,我搜索的所有内容要么无关紧要,要么我无法理解。提前致谢。
【问题讨论】:
samplez 中是否有重复值?或者它只包含唯一值? 它们都是独一无二的,并且按递增顺序排列e = zfit[b,index+1]
中存在潜在问题。如果 的最小正值是数组的任何一行中的最后一个元素,[b,index+1]
将导致IndexError
(超出范围)。第一行应该是b = np.arange(len(zfit))
感谢您的评论。由于与问题不太相关的原因,最小的正数永远不会是 a 中任何行的最后一个元素。因此,索引错误不是问题,尽管您通常认为这是一个考虑因素。第一行是错字,谢谢。
并且zfit
每一行的最大值大于samplez
的最大值?
【参考方案1】:
很高兴知道最小的正数永远不会出现在行尾。
samplez
中有 100 万个唯一值,但在zfit
中,每行最多只能有 500 个唯一值。整个 zfit
可以有多达 5000 万个唯一值。算法可以大大加快,如果'寻找最小正数> each_element_in_samplez'计算的次数可以大大减少。进行所有 5e13 比较可能是一种矫枉过正,仔细规划将能够摆脱其中的很大一部分。这在很大程度上取决于您实际的基础数学。
在不知不觉中,还是有一些小事可以做的。 1,没有那么多可能的(e-d)
,因此可以从循环中取出。 2、循环可以通过map
消除。在我的机器上,这两个小修复可以提高大约 22% 的速度。
def function_map(samplez, zfit):
diff=zfit[:,:-1]-zfit[:,1:]
def _fuc1(x):
a = x-zfit
mask = np.ma.masked_array(a)
mask[a <= 0] = np.ma.masked
index = mask.argmin(axis=1)
d = zfit[:,index]
f = (x-d)/diff[:,index] #constrain: smallest value never at the very end.
return (index, f)
result=map(_fuc1, samplez)
return (np.array([item[1] for item in result]),
np.array([item[0] for item in result]))
下一步:masked_array
可以完全避免(这应该会带来显着的改进)。 samplez
也需要排序。
>>> x1=arange(50)
>>> x2=random.random(size=(20, 10))*120
>>> x2=sort(x2, axis=1) #just to make sure the last elements of each col > largest val in x1
>>> x3=x2*1
>>> f1=lambda: function_map2(x1,x3)
>>> f0=lambda: function_map(x1, x2)
>>> def function_map2(samplez, zfit):
_diff=diff(zfit, axis=1)
_zfit=zfit*1
def _fuc1(x):
_zfit[_zfit<x]=(+inf)
index = nanargmin(zfit, axis=1)
d = zfit[:,index]
f = (x-d)/_diff[:,index] #constrain: smallest value never at the very end.
return (index, f)
result=map(_fuc1, samplez)
return (np.array([item[1] for item in result]),
np.array([item[0] for item in result]))
>>> import timeit
>>> t1=timeit.Timer('f1()', 'from __main__ import f1')
>>> t0=timeit.Timer('f0()', 'from __main__ import f0')
>>> t0.timeit(5)
0.09083795547485352
>>> t1.timeit(5)
0.05301499366760254
>>> t0.timeit(50)
0.8838210105895996
>>> t1.timeit(50)
0.5063929557800293
>>> t0.timeit(500)
8.900799036026001
>>> t1.timeit(500)
4.614129018783569
所以,这又是 50% 的加速。
masked_array
被避免并节省了一些 RAM。想不出任何其他方法来减少 RAM 的使用。可能需要部分处理samplez
。而且,取决于数据和所需的精度,如果您可以使用float16
或float32
而不是默认的float64
,可以为您节省大量内存。
【讨论】:
请注意,在 python3 中map
返回一个迭代器,因此 return
语句将失败,因为第二个数组将始终为空。另外,请避免使用\
作为延续。只需将返回值括在括号中即可。
嗨,CT。当你在你的机器上运行它时,你使用的数组大小和我一样吗?你的机器可以处理吗?
不,尺寸要小得多,只是为了对速度进行基准测试。 3e10 float64
或 int64
占用超过 200GB。 wolframalpha.com/input/?i=3e10+*+8+字节。我没有那个能力。
你说基础数学可能允许更多的简化。 samplez 包含从 0.08 到 1.1 的唯一值,并且 zfit 的每一行都包含从 0 到 2 的唯一值,按升序排列。对于 samplez 中的每个元素,我试图在 zfit 的每一行中找到它最接近的数字,然后找到它与 zfit 中下一个元素之间的分数。因此,如果 samplez 中的元素是 0.5,而 zfit 中的一行是:.3、.4、.6、.7,我需要分数 (.5-.4)/(.6-.4)。希望不要太混乱
是的,我知道这么多元素占用了大约 240gb...这就是为什么我希望也有人建议内存解决方案 :)以上是关于非常大的numpy数组的效率的主要内容,如果未能解决你的问题,请参考以下文章
非常大的 numpy 数组不会引发内存错误。它在哪里生活? [复制]
有没有比使用 np.where 更快的方法来迭代一个非常大的 2D numpy 数组?