我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]

Posted

技术标签:

【中文标题】我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]【英文标题】:Can I read 1 big CSV file in parallel in R? [duplicate] 【发布时间】:2015-04-29 15:45:12 【问题描述】:

我有一个很大的 csv 文件,需要很长时间才能阅读。我可以使用“并行”或相关的包在 R 中并行阅读吗?我试过使用 mclapply,但它不起作用。

【问题讨论】:

嗨,您在SO 上查看过这篇文章吗?另外,请查看 data.table 包中的 fread。它可能会满足您的需求(但不是并行的)。 什么是big?行数,列数,CSV的大小是多少?此外,添加您的代码,即使它不起作用。我认为您可以在 mclapply 中使用 fread 并指定行号块。 我在想只使用一个核心是一个缓慢的想法。现在使用 fread 我可以做到 5% 的时间。这是一个 1.2GB 的 CSV 文件,使用 read.csv 大约需要 4-5 分钟,现在只需 14 秒。谢谢理查德。我会尝试检查是否可以将 fread() 与 mclapply zx 一起使用,谢谢。 @Ansjovis86 您可以发布最适合您的答案。 @Frank 我使用 OP 的 cmets 写了我的评论作为答案。 【参考方案1】:

根据 OP 的评论,fread 包中的 data.table 有效。代码如下:

library(data.table)
dt <- fread("myFile.csv")

在 OP 的情况下,使用 read.csv 及时读取 1.2GB 文件,使用 fread 大约需要 4-5 分钟和 14 秒。

2021 年 1 月 29 日更新:似乎 fread() 现在可以根据包创建者的 Tweet 并行工作。

【讨论】:

以上是关于我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

在 R 中循环读取许多文件

pandas 可以自动从 CSV 文件中读取日期吗?

vb如何实时读取csv文件?

在python中处理几个大的csv [关闭]

python并行读取csv文件并连接数据框

用Spark读取庞大的CSV文件