在模块化 python 代码库中使用 Dask LocalCluster()

Posted

技术标签:

【中文标题】在模块化 python 代码库中使用 Dask LocalCluster()【英文标题】:Using Dask LocalCluster() within a modular python codebase 【发布时间】:2020-07-22 02:57:54 【问题描述】:

我正在尝试使用 Dask Distributed 的 LocalCluster 使用单台机器的所有内核并行运行代码。

考虑一个示例 python 数据管道,其文件夹结构如下。

sample_dask_program
├── main.py
├── parallel_process_1.py
├── parallel_process_2.py
├── process_1.py
├── process_2.py
└── process_3.py

main.py 是入口点,在管道中顺序执行。

例如:

def run_pipeline():
    stage_one_run_util()
    stage_two_run_util()

    ...

    stage_six_run_util()


if __name__ == '__main__':

    ...

    run_pipeline()

parallel_process_1.pyparallel_process_2.py 是创建 Client() 并使用 futures 实现并行性的模块。

with Client() as client:
            # list to store futures after they are submitted
            futures = []

            for item in items:
                future = client.submit(
                    ...
                )
                futures.append(future)

            results = client.gather(futures)

process_1.pyprocess_2.pyprocess_3.py 是不需要并行运行的简单计算模块CPU 内核。

追溯:

  File "/sm/src/calculation/parallel.py", line 140, in convert_qty_to_float
    results = client.gather(futures)
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/client.py", line 1894, in gather
    asynchronous=asynchronous,
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/client.py", line 778, in sync
    self.loop, func, *args, callback_timeout=callback_timeout, **kwargs
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/utils.py", line 348, in sync
    raise exc.with_traceback(tb)
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/utils.py", line 332, in f
    result[0] = yield future
  File "/home/iouser/.local/lib/python3.7/site-packages/tornado/gen.py", line 735, in run
    value = future.result()
concurrent.futures._base.CancelledError

这是工人抛出的错误:

distributed.worker - ERROR - failed during get data with tcp://127.0.0.1:33901 -> tcp://127.0.0.1:38821
Traceback (most recent call last):
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/comm/tcp.py", line 248, in write
    future = stream.write(frame)
  File "/home/iouser/.local/lib/python3.7/site-packages/tornado/iostream.py", line 546, in write
    self._check_closed()
  File "/home/iouser/.local/lib/python3.7/site-packages/tornado/iostream.py", line 1035, in _check_closed
    raise StreamClosedError(real_error=self.error)
tornado.iostream.StreamClosedError: Stream is closed
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/worker.py", line 1248, in get_data
    compressed = await comm.write(msg, serializers=serializers)
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/comm/tcp.py", line 255, in write
    convert_stream_closed_error(self, e)
  File "/home/iouser/.local/lib/python3.7/site-packages/distributed/comm/tcp.py", line 121, in convert_stream_closed_error
    raise CommClosedError("in %s: %s: %s" % (obj, exc.__class__.__name__, exc))
distributed.comm.core.CommClosedError: in <closed TCP>: BrokenPipeError: [Errno 32] Broken pipe

我无法在本地重现此错误或找到最小可重现示例,因为此错误的发生是突然的。

这是在模块化 python 程序中使用 Dask LocalCluster 的正确方法吗?

编辑

我观察到,当使用相对较多的线程和进程创建 LocalCluster 时会出现这些错误。我正在使用 NumPy 和 Pandas 进行计算,这不是here 所述的好习惯。

有时,当使用 4 个工作人员和 16 个进程创建 LocalCluster 时,不会引发任何错误。当使用 8 个 worker 和 40 个进程创建 LocalCluster 时,就会抛出我上面描述的错误。

据我了解,dask 随机选择此组合(这是 dask 的问题吗?),因为我在同一个 AWS Batch 实例(具有 8 个内核(16 个 vCPU))上进行了测试。

当我强制创建仅使用线程的集群时,问题不会弹出。

例如:

cluster = LocalCluster(processes=False)
with Client(cluster) as client:
    client.submit(...)
    ...

但是,仅使用线程创建 LocalCluster 会使执行速度减慢 2-3 倍。

那么,问题的解决方案是找到适合程序的正确数量的进程/线程吗?

【问题讨论】:

distributed.dask.org/en/latest/killed.html 可能会有所帮助 谢谢@mdurant,这个页面帮助我获得了here。我正在做的计算涉及 NumPy/Pandas。好像是进程数比较多的时候会弹出这个错误。 【参考方案1】:

更常见的是创建一次 Dask Client,然后在其上运行许多工作负载。

with Client() as client:
    stage_one(client)
    stage_two(client)

话虽如此,你所做的应该没问题。如果您能够通过最小的示例重现错误,那将很有用(但没有期望)。

【讨论】:

以上是关于在模块化 python 代码库中使用 Dask LocalCluster()的主要内容,如果未能解决你的问题,请参考以下文章

在dask.distributed群集中的计算机之间共享python模块

python dask DataFrame,支持(可简单并行化)行吗?

在 for 循环中将 Python Dask 系列转换为列表或 Dask DataFrame

在 python dask 中使用分隔符读取 csv

python dask to_parquet 占用大量内存

在 Dask 数组-python 上使用 scikit-learn cosine_similarity