如何使用 Python 多处理和 memory_profiler 分析多个子进程?

Posted

技术标签:

【中文标题】如何使用 Python 多处理和 memory_profiler 分析多个子进程?【英文标题】:How to profile multiple subprocesses using Python multiprocessing and memory_profiler? 【发布时间】:2016-11-16 11:11:41 【问题描述】:

我有一个使用 Python multiprocessing 模块生成多个工作人员的实用程序,我希望能够通过出色的 memory_profiler 实用程序跟踪他们的内存使用情况,它可以满足我的所有需求 - 特别是对内存使用情况进行采样随着时间的推移并绘制最终结果(我不关心这个问题的逐行内存分析)。

为了设置这个问题,我创建了一个更简单的脚本版本,它有一个分配内存的工作函数,类似于memory_profiler 库中给出的example。工人如下:

import time

X6 = 10 ** 6
X7 = 10 ** 7

def worker(num, wait, amt=X6):
    """
    A function that allocates memory over time.
    """
    frame = []

    for idx in range(num):
        frame.extend([1] * amt)
        time.sleep(wait)

    del frame

给定 4 个工作人员的顺序工作负载如下:

if __name__ == '__main__':
    worker(5, 5, X6)
    worker(5, 2, X7)
    worker(5, 5, X6)
    worker(5, 2, X7)

运行 mprof 可执行文件来分析我的脚本需要 70 秒,让每个工作人员一个接一个地运行。脚本,运行如下:

$ mprof run python myscript.py

生成以下内存使用图:

让这些工作程序与multiprocessing 并行运行意味着脚本将与最慢的工作程序一样慢(25 秒)。该脚本如下:

import multiprocessing as mp

if __name__ == '__main__':
    pool    = mp.Pool(processes=4)
    tasks   = [
        pool.apply_async(worker, args) for args in
        [(5, 5, X6), (5, 2, X7), (5, 5, X6), (5, 2, X7)]
    ]

    results = [p.get() for p in tasks]

内存分析器确实可以工作,或者至少在使用mprof时没有错误,但结果有点奇怪:

快速浏览一下 Activity Monitor 会发现实际上有 6 个 Python 进程,一个用于mprof,一个用于python myscript.py,然后一个用于每个工作子进程。 mprof 似乎只是在测量 python myscript.py 进程的内存使用情况。

memory_profiler 库是高度可定制的,我非常有信心我应该能够捕获每个进程的内存,并可能使用库本身将它们写到单独的日志文件中。我只是不确定从哪里开始或如何接近这种级别的定制。

编辑

阅读mprof 脚本后,我确实发现了-C 标志,它总结了所有子(分叉)进程的内存使用情况。这导致了一个(大大改进的)图表如下:

但我正在寻找的是每个子进程随时间的内存使用情况,以便我可以在同一个图表上绘制所有工作人员(和主进程)。我的想法是让每个子进程memory_usage 写入不同的日志文件,然后我可以将其可视化。

【问题讨论】:

如果有人感兴趣,这个问题正在 GitHub 上github.com/f***p/memory_profiler/issues/118 与开发人员讨论。 【参考方案1】:

截至今天,内存分析器库中已添加了一项新功能,可以做到这一点。如果你需要这个功能,首先更新memory_profiler如下:

$ pip install -U memory_profiler 

这应该安装内存分析器的 v0.44 版本。要检查是否是这种情况,请在运行操作上使用帮助命令:

mprof run --help
Usage: mprof run [options]

Options:
  --version             show program's version number and exit
  -h, --help            show this help message and exit
  --python              Activates extra features when the profiling executable
                        is a Python program (currently: function
                        timestamping.)
  --nopython            Disables extra features when the profiled executable
                        is a Python program (currently: function
                        timestamping.)
  -T INTERVAL, --interval=INTERVAL
                        Sampling period (in seconds), defaults to 0.1
  -C, --include-children
                        Monitors forked processes as well (sum up all process
                        memory)
  -M, --multiprocess    Monitors forked processes creating individual plots
                        for each child

如果您看到-M 标志,那么您就可以开始了!

然后您可以按如下方式运行您的脚本:

$ mprof run -M python myscript.py
$ mprof plot 

你应该得到一个看起来像这样的图形:

请注意,如果您也使用--include-children 标志,主进程内存将是所有子进程和主进程的总内存使用量,这也是一个有用的图。

【讨论】:

特别感谢 @f***-pedregosa 帮助实现这一目标! 在这种模式下启用时间戳@profile 装饰器怎么样?有可能吗? 我不确定您所说的启用时间戳是什么意思?我认为 @profile 装饰器应该可以做到这一点,它使用相同的参数。 不幸的是我无法让它工作。请看github.com/f***p/memory_profiler/issues/148 有没有办法为子进程命名? child-n 不是真的解释:)

以上是关于如何使用 Python 多处理和 memory_profiler 分析多个子进程?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Python 多处理和 memory_profiler 分析多个子进程?

如何在 Python 中使用套接字处理多线程?

如何在 Python 中的多处理期间访问全局变量 [重复]

如何找到理想数量的并行进程以使用 python 多处理运行?

如何在python 2.7中使用pymongo进行多处理池

Python多处理:如何创建x个进程并返回返回值