Python多处理,并行保存到netCDF4文件

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python多处理,并行保存到netCDF4文件相关的知识,希望对你有一定的参考价值。

我正在执行模拟,其中我想保存状态向量的快照,并计算为不同的参数做它。我有两个控制参数,我要扫描(下面的例子中的p和a)。因此,我保存了一个netCDF4文件的模拟结果,其中两个维度用于两个控制参数。当我为一个参数设置运行模拟时,文件被正确保存,但是当我尝试从apply_async运行multiprocessing时,在过程结束时netCDF4是无法访问的。

我的完整代码是在这个github repository,但基本上我想要做的是这样的:

import multiprocessing as mp
import time as timer
import netCDF4
import numpy as np
def run_sim_for_p_a(p,a,pstep,astep,step,max_time,u0,fname):
    time_ar=np.arange(0,max_time,step)
    u = np.ones((len(time_ar),1024))
    u[0]=u0
    print "Calculating for p,a:",p,a
    for i,t in enumerate(time_ar[1:]):
        u[i+1] = u[i]*np.cos(t)*np.sin(a)*np.sin(p)
    for tstep,t in enumerate(time_ar):
        save_p_a_snapshot(fname,pstep,astep,tstep,p,a,t,u[tstep]) # save the results into the netCDF4 file

def apply_async_and_save_grid(pmin,pmax,fname,
                              Np=10,Na=10,
                              step=None,max_time=500.0,numproc=10):
    start = timer.time()
    setup_p_a_scan(fname) # Setup a netCDF4 file for the simulations
    if step is None:
        step=max_time
    p_range = np.linspace(pmin,pmax,Np)
    init = np.random.random((1024))
    a_range = np.linspace(0,1,Na)
    availble_cpus = int(available_cpu_count() - 2)
    numproc=min(numproc,availble_cpus)
    print "Using",numproc," processors"
    pool = mp.Pool(processes=numproc)
    for i,p in enumerate(p_range):
        for j,a in enumerate(a_range):
            pool.apply_async(run_sim_for_p_a,
                             args = (p,a,i,j,step,max_time,init,fname))
    pool.close()
    pool.join()
    print "Took ",timer.time()-start
if __name__=="__main__":
    apply_async_and_save_grid(1.0,2.0,"test",Np=2,Na=4,step=1.0,max_time=10)
答案

至少有两种可能的方法:

您可以让每个工作进程将其结果写入其自己的netCDF4文件,并让主程序在所有工作程序完成后合并它们。

我不熟悉netCDF格式,但假设可以附加到这些文件,另一种可能性是在启动multiprocessing.Lock之前创建一个apply_async。 应将此锁添加到工作进程的参数中 。工作进程应该acquire锁,打开netcdf文件,写入并关闭它。然后它应该release锁。这将确保一次只有一个进程将写入netCDF文件。

编辑:请参阅this question关于如何使用Lock处理Pool的答案。

以上是关于Python多处理,并行保存到netCDF4文件的主要内容,如果未能解决你的问题,请参考以下文章

在 python 多处理中传递共享内存变量

使用 Python 多处理解决令人尴尬的并行问题

Python3.7 函数从 netCDF4 的时间步长绘制日期时间

netcdf4-python:随着从 netcdf 对象多次调用切片数据,内存增加

如何在服务器上并行提交“任务”

如何在 fasta 文件中并行化计算,其中每个处理器采用一个序列