Dask:定期更新已发布的数据集并从其他客户端提取数据

Posted

技术标签:

【中文标题】Dask:定期更新已发布的数据集并从其他客户端提取数据【英文标题】:Dask: Update published dataset periodically and pull data from other clients 【发布时间】:2020-07-29 15:05:17 【问题描述】:

我想从队列(如 redis)中将数据附加到 published dask dataset 上。然后其他 python 程序将能够获取最新数据(例如每秒/分钟一次)并执行一些进一步的操作。

    这可能吗? 应该使用哪个附加接口?我应该先将它加载到pd.DataFrame 还是更好地使用一些文本导入器? 假定的追加速度是多​​少?是否可以在一秒钟内追加 1k/10k 行? 对于在 dask 集群中交换庞大且快速更新的数据集,还有其他好的建议吗?

感谢任何提示和建议。

【问题讨论】:

【参考方案1】:

这里有几个选项。

您可以看看 streamz 项目 你可以看看 Dask 的coordination primitives

假定的追加速度是多​​少?是否可以在一秒钟内追加 1k/10k 行?

Dask 只是在跟踪远程数据。与 Dask 相比,应用程序的速度与您选择表示该数据的方式(如 python 列表与 pandas 数据帧)有很大关系。 Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于您如何构建它。

【讨论】:

以上是关于Dask:定期更新已发布的数据集并从其他客户端提取数据的主要内容,如果未能解决你的问题,请参考以下文章

SwiftUI:如何更新由一组静态数据驱动的列表并从另一组动态数据中提取信息位?

如何从 hdf5 保存/提取数据集并转换为 TiFF?

如何将多个功能应用于dask数据帧的多个块?

Elasticsearch:将关系数据库中的数据提取到 Elasticsearch 集群中

Elasticsearch:将关系数据库中的数据提取到 Elasticsearch 集群中

使用 dask labextensions 连接到远程集群