懒惰地从 PostgreSQL / Cassandra 创建 Dask DataFrame

Posted

技术标签:

【中文标题】懒惰地从 PostgreSQL / Cassandra 创建 Dask DataFrame【英文标题】:Lazy create Dask DataFrame from PostgreSQL / Cassandra 【发布时间】:2017-02-15 20:37:47 【问题描述】:

据我了解,Dask DataFrame 是处理表格数据之类的正确方法。 我在 PostgreSQL 中有一个表,我知道如何将它加载到 pandas.Dataframe

我知道,odo 可用于将pandas.DataFrame 转换为 dask.dataframe。 但 这不是惰性操作:这种转换强制将整个 PostgeSQL 表加载到内存中,这很糟糕。我更喜欢一个一个或一个块地阅读项目。如何做到这一点?

    Cassandra 的类似问题。但 Cassandra 就像分布式存储,可以针对分布式访问进行优化。但是如何使用 Dask 做到这一点?

【问题讨论】:

您能否提供mcve 以帮助理解并希望回答您的问题? 【参考方案1】:

对于 MongoDB,我创建了以下解决方案: https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包,然后将这些参数传递给加载器。

【讨论】:

以上是关于懒惰地从 PostgreSQL / Cassandra 创建 Dask DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

我如何懒惰地从Rust中的文件/流中读取多个JSON值?

如何在 Java 中成功地从书中删除标签?

“贪欲”+“懒惰”= 韭菜

浅谈正则表达式匹配模式—懒惰模式

懒惰的 Kotlin 抛出 NullPointerException

懒惰程序员的百宝箱:提升工作效率的七大神器