无法在 RStudio 中处理大文件 [关闭]
Posted
技术标签:
【中文标题】无法在 RStudio 中处理大文件 [关闭]【英文标题】:Not able to work on large files in RStudio [closed] 【发布时间】:2016-07-23 13:10:54 【问题描述】:我有 1.3 GB 的 tsv 数据文件,我需要用它来使用 R 或 python 进行一些分析。我的机器有 8 GB RAM,它运行的是 Windows 8。我无法使用 RStudio 或任何文件读取应用程序加载文件。你有什么建议以便我能够读取文件并处理它?我应该用 hadoop 搬到亚马逊吗?在我看来,这是一个大数据问题。
【问题讨论】:
如果你不将整个文件读入内存,例如逐行读取,并做一些工作,那么你应该没问题。还有一些方法可以在本地进行 mapreduce,因此对于您拥有的数据大小来说,完全不需要 Hadoop 集群 是的。但是当我编写 R 程序时,它会处理整个文件。因此,即使我只是查看前 k 个记录,也无济于事。您能否提供更多有关在本地运行 mapreduce 作业的信息? 无论如何,回到 Hadoop 的观点是不必要的......我相当肯定 Python 中的 Pandas 可以读取和处理一些大小非常合理的数据。 How to I load a tsv file into a Pandas DataFrame?的可能重复 它告诉你如何加载文件。我不会复制一个告诉你如何使用 Pandas 的答案,因为你正在寻找的答案已经存在。 【参考方案1】:我在 R 中加载时遇到了问题。我可以使用 python pandas 加载它,并且似乎正在使用 8GB RAM 的计算机。
【讨论】:
你写这个的方式表明它是一个解决方案,但你的问题说你已经有 8GB。如果这是您问题的附录,请删除此答案并将其编辑到您的问题中 我将其解读为“无法让它与 R 一起使用,但即使在我的 8gb 机器上,我也确实让它与 Python Pandas 一起使用”。 @Gimby 够公平以上是关于无法在 RStudio 中处理大文件 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章