如何查看Dask Compute任务的进度?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何查看Dask Compute任务的进度?相关的知识,希望对你有一定的参考价值。

我想在Jupyternotebook上看到一个进度条,当我使用Dask运行计算任务时,我正在从一个大的csv文件+ 4GB计算“id”列的所有值,所以任何想法?

import dask.dataframe as dd

df = dd.read_csv('data/train.csv')
df.id.count().compute()
答案

如果您正在使用单机调度程序,请执行以下操作:

from dask.diagnostics import ProgressBar
ProgressBar().register()

http://dask.pydata.org/en/latest/diagnostics-local.html

如果您使用的是分布式调度程序,请执行以下操作:

from dask.distributed import progress

result = df.id.count.persist()
progress(result)

或者只使用仪表板

http://dask.pydata.org/en/latest/diagnostics-distributed.html

以上是关于如何查看Dask Compute任务的进度?的主要内容,如果未能解决你的问题,请参考以下文章

compute() 在 dask 中做啥?

dask:client.persist 和 client.compute 之间的区别

如何使用dask.distributed并行化嵌套循环?

查看Office365迁移任务进度状态

如何将 Dask.DataFrame 转换为 pd.DataFrame?

为什么__getitem__没有被dask系列实现?