如何在R中加载和处理非常大的数据文件[关闭]
Posted
技术标签:
【中文标题】如何在R中加载和处理非常大的数据文件[关闭]【英文标题】:how to load and process very large size data file in R [closed] 【发布时间】:2014-08-07 09:51:25 【问题描述】:我必须在一个项目中处理一些非常大的数据文件,这些文件非常大,每个大小> 50G。这些文件的格式各不相同:
type1 vaue1:123
type2 vaue1:234
type2 vaue1:234
type1 vaue1:234
type3 vaue1:234
.......
我想找出一个特定类型的数量并计算该类型的平均值和中值。 我用python一个一个的读取数据文件,最后计算,但是这样很慢。我想使用 R 来帮助我,但我想知道 R 是否可以处理这些大尺寸数据。我怀疑 R 是否可以将这些数据读入数据框。
如果有人知道使用 R 或其他工具处理大型数据的技巧。我现在真的需要一些建议!
【问题讨论】:
“我真的需要一些建议” 对 SO 来说不是一个合适的问题(或者,就此而言,根本不是一个问题)。互联网上其他地方有很多资源可以使用 R 处理“大数据”,我建议你做一些研究。 建议:python应该没问题,你不需要搬到R。 【参考方案1】:读取数据的一种相对快速的方法是使用 data.table
包中的 fread
d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)
[我假设您有 50 GB 的 RAM 来加载整个文件。]
【讨论】:
以上是关于如何在R中加载和处理非常大的数据文件[关闭]的主要内容,如果未能解决你的问题,请参考以下文章
在 Python 3.4 中加载和读取具有多个 JSON 对象的 JSON 文件
Reactjs - 如何在 reactjs 材料表中加载和映射数据