如何在R中加载和处理非常大的数据文件[关闭]

Posted

技术标签:

【中文标题】如何在R中加载和处理非常大的数据文件[关闭]【英文标题】:how to load and process very large size data file in R [closed] 【发布时间】:2014-08-07 09:51:25 【问题描述】:

我必须在一个项目中处理一些非常大的数据文件,这些文件非常大,每个大小> 50G。这些文件的格式各不相同:

type1  vaue1:123
type2  vaue1:234
type2  vaue1:234
type1  vaue1:234
type3  vaue1:234
.......

我想找出一个特定类型的数量并计算该类型的平均值和中值。 我用python一个一个的读取数据文件,最后计算,但是这样很慢。我想使用 R 来帮助我,但我想知道 R 是否可以处理这些大尺寸数据。我怀疑 R 是否可以将这些数据读入数据框。

如果有人知道使用 R 或其他工具处理大型数据的技巧。我现在真的需要一些建议!

【问题讨论】:

“我真的需要一些建议” 对 SO 来说不是一个合适的问题(或者,就此而言,根本不是一个问题)。互联网上其他地方有很多资源可以使用 R 处理“大数据”,我建议你做一些研究。 建议:python应该没问题,你不需要搬到R。 【参考方案1】:

读取数据的一种相对快速的方法是使用 data.table 包中的 fread

d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)

[我假设您有 50 GB 的 RAM 来加载整个文件。]

【讨论】:

以上是关于如何在R中加载和处理非常大的数据文件[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

在 Python 3.4 中加载和读取具有多个 JSON 对象的 JSON 文件

在android中加载和保存数据文件

Reactjs - 如何在 reactjs 材料表中加载和映射数据

如何在 Flutter Mobile App 中加载和查询本地 json 数据

在 react 组件中加载和显示 json 数据

如何在 Spring Boot 中加载和遍历属性文件