在 read.table/read.csv 中为 colClasses 参数指定自定义日期格式

Posted

技术标签:

【中文标题】在 read.table/read.csv 中为 colClasses 参数指定自定义日期格式【英文标题】:Specify custom Date format for colClasses argument in read.table/read.csv 【发布时间】:2012-10-12 21:42:13 【问题描述】:

问题:

在 read.table/read.csv 中使用 colClasses 参数时,有没有办法指定日期格式?

(我意识到我可以在导入后进行转换,但是有很多这样的日期列,在导入步骤中会更容易)


示例:

我有一个带有日期列的 .csv,格式为 %d/%m/%Y

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

这会导致转换错误。例如,15/07/2008 变为 0015-07-20


可重现的代码:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

这是输出的样子:

【问题讨论】:

一种骇人听闻的方法是创建您自己的read.table 版本并添加一个format 参数,该参数传递给as.Date。不过,如果有我没有想到的更好的方法,我不会感到惊讶。 【参考方案1】:

您可以编写自己的函数来接受字符串并使用所需格式将其转换为日期,然后使用setAs 将其设置为as 方法。然后您可以将您的函数用作 colClasses 的一部分。

试试:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

然后根据需要进行修改以适用于您的数据。

编辑---

您可能希望首先运行setClass('myDate') 以避免警告(您可以忽略警告,但如果您经常这样做会很烦人,这是一个摆脱它的简单调用)。

【讨论】:

哇——setAs 是救命稻草!我以前怎么没见过这个功能? 请注意,您可能会收到this question 中详细说明的“类“myDate”没有定义”警告。 setMethod('myDate') 应该做什么?运行它只会给我一个错误... @JoshO'Brien,抱歉应该是setClass(现已修复)。它的作用是防止setAs 发出关于“myDate”不作为类存在的警告。警告是无害的,一切仍然有效,但设置类意味着您甚至看不到警告。 @MySchizoBuddy,如果您只有一个日期列并且您正在这样做一次,那么您使用哪种方式可能并不重要。但是,如果您的数据集中有几列是日期,那么我认为这种方法可能比在阅读后更改每一列更简单。【参考方案2】:

如果您只想更改一种日期格式,您可以使用Defaults 包更改as.Date.character 中的默认格式

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

我认为@Greg Snow 的回答要好得多,因为它不会改变常用函数的默认行为。

【讨论】:

【参考方案3】:

如果您还需要时间:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"

【讨论】:

【参考方案4】:

很久以前,与此同时,Hadley Wickham 已经解决了这个问题。所以现在解决方案被简化为单线:

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

也许我们甚至想摆脱不必要的东西:

data <- as.data.frame(data)

【讨论】:

以上是关于在 read.table/read.csv 中为 colClasses 参数指定自定义日期格式的主要内容,如果未能解决你的问题,请参考以下文章

在 MyServerHandler 中为 Netty websocket 写啥

在 UITableViewCell 中为 detailTextLabel 添加右边距

在phonegap中为ios压缩图像插件

在 Kubernetes 中为 Statefulset 应用 HPA?

在 Sprite Kit 中为我的角色设置动画?

为啥 recyclerview$adapter 在片段中为空