使用 dask labextensions 连接到远程集群

Posted

技术标签:

【中文标题】使用 dask labextensions 连接到远程集群【英文标题】:Using the dask labextenstion to connect to a remote cluster 【发布时间】:2020-06-14 15:35:32 【问题描述】:

我有兴趣在 EMR 上运行 Dask 集群,并从在 单独 EC2 实例上运行的 Jupyter Lab 笔记本内部与其交互(例如,不在集群内且不受管理的 EC2 实例通过 EMR)。

Dask 文档指出 dask-labextension 是此用例的首选工具。 dask-labextension 依赖于 a YAML config file(和/或一些环境变量)来了解如何与集群通信。但是,据我所知,此配置只能设置为指向 local Dask 集群。换句话说,您必须在集群内的一个实例上运行的 Jupyter Lab 笔记本中(大概在主实例上?)才能使用此扩展。

我的阅读正确吗?目前是否无法将dask-labextension 与外部 Dask 集群一起使用?

【问题讨论】:

出于好奇,您是如何让实验室使用 EMR 的。当我尝试使用sudo initctl start jupyter-lab 加载时,我不断遇到引导失败。您是否将此与@MRocklin 答案一起使用? 【参考方案1】:

Dask Labextension 可以与从您的 Web 客户端运行的位置可见的任何 Dask 集群通信。如果您可以在网络浏览器中连接到仪表板,那么您可以将相同的地址复制到 Dask-Labextension 搜索栏,它就会连接。

【讨论】:

以上是关于使用 dask labextensions 连接到远程集群的主要内容,如果未能解决你的问题,请参考以下文章

尝试连接到 dask 仪表板时出现“404 Not found”

qgrid 的 jupyter labextension 安装在可选依赖项上失败(Windows)

使用 Dask 数据帧的 Autosklearn 预测/ Autosklearn 对 dask 数据帧的支持

在 dask 产生的进程中调用 dask

使用 dask 和多处理优化内存使用

如何使用dask.distributed并行化嵌套循环?