将大制表符分隔文件读入R [重复]

Posted

技术标签:

【中文标题】将大制表符分隔文件读入R [重复]【英文标题】:Reading Large Tab Delimited file into R [duplicate] 【发布时间】:2015-10-22 07:26:31 【问题描述】:

使用大型制表符分隔文件(110 列 200 万行)。该文件包含文本、日期和数字。我想将所有内容加载到 R 中进行分析,但无法成功加载所有内容。

我使用了下面的代码,它成功地加载了我的所有列,但只有大约 400 个观察值。似乎无法弄清楚为什么只加载整个文件的一小部分。我没有收到任何错误。任何有关为什么会发生这种情况的见解或加载此数据的替代方法将不胜感激。

> audfeed <- read.table("Audience_Feed_Validation.txt", header =
> TRUE,fileEncoding="UTF-16LE",fill=T,na.strings="NA", sep =
> '\t',stringsAsFactors=FALSE)

【问题讨论】:

我会使用data.table::freadreadr::read_delim,因为两者都比read.table 快​​得多。如果不查看您的文件,很难诊断您遇到的问题。 【参考方案1】:

试试 data.table 包中的fread 函数。它非常快速高效。

【讨论】:

试过 fread 但得到这个: fread 中的错误(“Audience_Feed_Validation.txt”,sep = “\t”,na.strings = “NA”,:在字符串中嵌入 nul:'ÿþc\0u \0s\0t\0o\0m\0e\0r\0_\0i\0d\0'

以上是关于将大制表符分隔文件读入R [重复]的主要内容,如果未能解决你的问题,请参考以下文章

无法将制表符分隔的文件读入 numpy 二维数组

在将大的txt文件读入R中的变量之前对其进行子集化[重复]

将制表符分隔的 csv 读入具有不同数据类型的 numpy 数组

使用制表符和空格读入文件

python如何将双字典变成制表符分隔文件[重复]

如何使用制表符分隔符 sep = "\t" 在 R 中编写 .tsv 文件