将大制表符分隔文件读入R [重复]

Posted 2023-02-22

技术标签:

【中文标题】将大制表符分隔文件读入R [重复]【英文标题】：Reading Large Tab Delimited file into R [duplicate] 【发布时间】：2015-10-22 07:26:31 【问题描述】：

使用大型制表符分隔文件（110 列 200 万行）。该文件包含文本、日期和数字。我想将所有内容加载到 R 中进行分析，但无法成功加载所有内容。

我使用了下面的代码，它成功地加载了我的所有列，但只有大约 400 个观察值。似乎无法弄清楚为什么只加载整个文件的一小部分。我没有收到任何错误。任何有关为什么会发生这种情况的见解或加载此数据的替代方法将不胜感激。

> audfeed <- read.table("Audience_Feed_Validation.txt", header =
> TRUE,fileEncoding="UTF-16LE",fill=T,na.strings="NA", sep =
> '\t',stringsAsFactors=FALSE)

【问题讨论】：

我会使用data.table::fread 或readr::read_delim，因为两者都比read.table 快得多。如果不查看您的文件，很难诊断您遇到的问题。 【参考方案1】：

试试 data.table 包中的fread 函数。它非常快速高效。

【讨论】：

试过 fread 但得到这个： fread 中的错误（“Audience_Feed_Validation.txt”，sep = “\t”，na.strings = “NA”，：在字符串中嵌入 nul：'ÿþc\0u \0s\0t\0o\0m\0e\0r\0_\0i\0d\0'

以上是关于将大制表符分隔文件读入R [重复]的主要内容，如果未能解决你的问题，请参考以下文章