在 PythonScriptStep 中使用 Dask 集群
Posted
技术标签:
【中文标题】在 PythonScriptStep 中使用 Dask 集群【英文标题】:Use a Dask Cluster in a PythonScriptStep 【发布时间】:2020-11-28 02:06:09 【问题描述】:是否可以使用多节点 Dask 集群作为具有 AML 管道的 PythonScriptStep
的计算?
我们有一个 PythonScriptStep
使用 featuretools
的深度特征合成 (dfs
) (docs)。 ft.dfs()
有一个参数 n_jobs
允许并行化。当我们在单台机器上运行时,这项工作需要三个小时,而在 Dask 上运行速度要快得多。如何在 Azure ML 管道中实现这一点?
【问题讨论】:
【参考方案1】:我们一直在努力,最近发布了您可能感兴趣的dask_cloudprovider.AzureMLCluster
:link to repo。您可以通过pip install dask-cloudprovider
安装它。
AzureMLCluster
在 AzureML 服务上实例化 Dask 集群,如果您需要,它可以弹性扩展到 100 个节点。唯一需要的参数是Workspace
对象,但您可以选择传递自己的ComputeTarget
。
一个如何使用它的例子你可以found here。在此示例中,我使用自定义 GPU/RAPIDS docker 映像,但您可以使用 Environment
类中的任何映像。
【讨论】:
感谢您指向 dask_cloudprovider。但是,示例代码 (github.com/drabastomek/GTC/blob/master/SJ_2020/workshop/1_Setup/…) 没有描述如何在 Dask Cluster 之上使用 AzureML Pipeline/PythonScriptStep。任何指针将不胜感激。以上是关于在 PythonScriptStep 中使用 Dask 集群的主要内容,如果未能解决你的问题,请参考以下文章