在 PythonScriptStep 中使用 Dask 集群

Posted

技术标签:

【中文标题】在 PythonScriptStep 中使用 Dask 集群【英文标题】:Use a Dask Cluster in a PythonScriptStep 【发布时间】:2020-11-28 02:06:09 【问题描述】:

是否可以使用多节点 Dask 集群作为具有 AML 管道的 PythonScriptStep 的计算?

我们有一个 PythonScriptStep 使用 featuretools 的深度特征合成 (dfs) (docs)。 ft.dfs() 有一个参数 n_jobs 允许并行化。当我们在单台机器上运行时,这项工作需要三个小时,而在 Dask 上运行速度要快得多。如何在 Azure ML 管道中实现这一点?

【问题讨论】:

【参考方案1】:

我们一直在努力,最近发布了您可能感兴趣的dask_cloudprovider.AzureMLCluster:link to repo。您可以通过pip install dask-cloudprovider 安装它。

AzureMLCluster 在 AzureML 服务上实例化 Dask 集群,如果您需要,它可以弹性扩展到 100 个节点。唯一需要的参数是Workspace 对象,但您可以选择传递自己的ComputeTarget

一个如何使用它的例子你可以found here。在此示例中,我使用自定义 GPU/RAPIDS docker 映像,但您可以使用 Environment 类中的任何映像。

【讨论】:

感谢您指向 dask_cloudprovider。但是,示例代码 (github.com/drabastomek/GTC/blob/master/SJ_2020/workshop/1_Setup/…) 没有描述如何在 Dask Cluster 之上使用 AzureML Pipeline/PythonScriptStep。任何指针将不胜感激。

以上是关于在 PythonScriptStep 中使用 Dask 集群的主要内容,如果未能解决你的问题,请参考以下文章

Azure 机器学习管道:如何在失败时重试?

在WebGL场景中使用2DA*寻路

使用 forge DA 获取访问令牌的问题

DA.PBI-DAX指南(上)

iOS:生成的 CoreData 代码中的 EXC_ARM_DA_ALIGN

两台电脑使用OPC DA相互通信,要怎么去配置?