我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]
Posted
技术标签:
【中文标题】我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]【英文标题】:Can I read 1 big CSV file in parallel in R? [duplicate] 【发布时间】:2015-04-29 15:45:12 【问题描述】:我有一个很大的 csv 文件,需要很长时间才能阅读。我可以使用“并行”或相关的包在 R 中并行阅读吗?我试过使用 mclapply,但它不起作用。
【问题讨论】:
嗨,您在SO 上查看过这篇文章吗?另外,请查看data.table
包中的 fread
。它可能会满足您的需求(但不是并行的)。
什么是big
?行数,列数,CSV的大小是多少?此外,添加您的代码,即使它不起作用。我认为您可以在 mclapply
中使用 fread
并指定行号块。
我在想只使用一个核心是一个缓慢的想法。现在使用 fread 我可以做到 5% 的时间。这是一个 1.2GB 的 CSV 文件,使用 read.csv 大约需要 4-5 分钟,现在只需 14 秒。谢谢理查德。我会尝试检查是否可以将 fread() 与 mclapply zx 一起使用,谢谢。
@Ansjovis86 您可以发布最适合您的答案。
@Frank 我使用 OP 的 cmets 写了我的评论作为答案。
【参考方案1】:
根据 OP 的评论,fread
包中的 data.table
有效。代码如下:
library(data.table)
dt <- fread("myFile.csv")
在 OP 的情况下,使用 read.csv
及时读取 1.2GB 文件,使用 fread
大约需要 4-5 分钟和 14 秒。
2021 年 1 月 29 日更新:似乎 fread()
现在可以根据包创建者的 Tweet 并行工作。
【讨论】:
以上是关于我可以在 R 中并行读取 1 个大 CSV 文件吗? [复制]的主要内容,如果未能解决你的问题,请参考以下文章