在 Python 中并行化四个嵌套循环

Posted

技术标签:

【中文标题】在 Python 中并行化四个嵌套循环【英文标题】:Parallelizing four nested loops in Python 【发布时间】:2017-06-20 05:01:40 【问题描述】:

我有一个相当简单的嵌套 for 循环,它遍历四个数组:

for a in a_grid:
    for b in b_grid:
        for c in c_grid:
            for d in d_grid:
                do_some_stuff(a,b,c,d)  # perform calculations and write to file

也许这并不是在 4D 网格上执行计算的最有效方式。我知道joblib 能够并行化两个嵌套for 循环,如this,但我无法将其推广到四个嵌套循环。有什么想法吗?

【问题讨论】:

你尝试过显而易见的事情吗? Parallel(n_jobs=2)(delayed(do_some_stuff)(a, b, c, d) for a in a_grid for b in b_grid for c in c_grid for d in d_grid)? 【参考方案1】:

我通常使用这种形式的代码:

#!/usr/bin/env python3
import itertools
import multiprocessing

#Generate values for each parameter
a = range(10)
b = range(10)
c = range(10)
d = range(10)

#Generate a list of tuples where each tuple is a combination of parameters.
#The list will contain all possible combinations of parameters.
paramlist = list(itertools.product(a,b,c,d))

#A function which will process a tuple of parameters
def func(params):
  a = params[0]
  b = params[1]
  c = params[2]
  d = params[3]
  return a*b*c*d

#Generate processes equal to the number of cores
pool = multiprocessing.Pool()

#Distribute the parameter sets evenly across the cores
res  = pool.map(func,paramlist)

【讨论】:

paramlist = [a,b,c,d] 吗?【参考方案2】:

如果您使用的工具可以轻松并行化两个嵌套循环,而不是四个,则可以使用 itertools.product 将四个嵌套的 for 循环减少为两个:

from itertools import product

for a, b in product(a_grid, b_grid):
    for c, d in product(c_grid, d_grid):
        do_some_stuff(a, b, c, d)

【讨论】:

显着加速,这是真的。但是,它不是并行化,而是优化。仍在消耗一个核心。 @TedoVrbanec 通过并行化,我指的是同时对两个序列进行迭代,而不是使用两个 CPU。另请注意,使用itertools.product 也不是优化,它只是表达迭代的不同方式。【参考方案3】:

作业数与嵌套循环数无关。 在另一个答案中,它恰好是 n_jobs=2 和 2 个循环,但两者完全不相关。

这样想: 你有一堆函数调用;在你的情况下(展开循环):

do_some_stuff(0,0,0,0)
do_some_stuff(0,0,0,1)
do_some_stuff(0,0,0,2)
do_some_stuff(0,0,1,0)
do_some_stuff(0,0,1,1)
do_some_stuff(0,0,1,2)
...

并且您希望将这些函数调用分配给一些作业。 你可以使用 2 个工作,或 10 个,或 100 个,没关系。 Parallel 负责为您分发工作。

【讨论】:

对。我主要在构建代码时遇到了麻烦。我是 multiprocessing/joblib 的新手,所以 @Hamms 的明显解决方案不知何故没有想到。但它确实有效。

以上是关于在 Python 中并行化四个嵌套循环的主要内容,如果未能解决你的问题,请参考以下文章

如何优化并行嵌套循环?

多处理支持的并行循环不能嵌套在线程下面

CUDA:并行化具有嵌套循环的函数调用的多个嵌套for循环

使用 OpenMP 在 C、C++ 中并行化嵌套 for 循环的几种方法之间的区别

openMP 嵌套并行 for 循环与内部并行 for

带有 pragma omp 并行的嵌套循环,混乱起来