na.approx 函数不会产生正确的时间戳
Posted
技术标签:
【中文标题】na.approx 函数不会产生正确的时间戳【英文标题】:na.approx function does not produce correct timestamps 【发布时间】:2021-02-22 09:04:36 【问题描述】:由于夏令时,我有一个大型电力负荷数据集,其中缺少每年三月最后一个星期日的时间戳。我在下面复制了几行,其中包含缺少的时间戳。
structure(list(Date_Time = structure(c(1427569200, 1427572800,
1427576400, 1427580000, 1427583600, 1427587200, NA, 1427590800,
1427594400, 1427598000, 1427601600, 1427605200), tzone = "EET", class = c("POSIXct",
"POSIXt")), Day_ahead_Load = c("7139", "6598", "6137", "5177",
"4728", "4628", "N/A", "4426", "4326", "4374", "4546", "4885"
), Actual_Load = c(6541, 6020, 5602, 5084, 4640, 4593, NA, 4353,
NA, NA, 4333, 4556)), row.names = c(NA, -12L), class = "data.frame")
#> Date_Time Day_ahead_Load Actual_Load
#> 1 2015-03-28 21:00:00 7139 6541
#> 2 2015-03-28 22:00:00 6598 6020
#> 3 2015-03-28 23:00:00 6137 5602
#> 4 2015-03-29 00:00:00 5177 5084
#> 5 2015-03-29 01:00:00 4728 4640
#> 6 2015-03-29 02:00:00 4628 4593
#> 7 <NA> N/A NA
#> 8 2015-03-29 04:00:00 4426 4353
#> 9 2015-03-29 05:00:00 4326 NA
#> 10 2015-03-29 06:00:00 4374 NA
#> 11 2015-03-29 07:00:00 4546 4333
#> 12 2015-03-29 08:00:00 4885 4556
我尝试使用 na.approx 填充这些缺失的时间戳,但该函数返回“2015-03-29 02:30:00”,而不是“2015-03-29 03:00:00”。它没有使用正确的比例。
mydata$Date_Time <- as.POSIXct(na.approx(mydata$Date_Time), origin = "1970-01-01 00:00:00", tz = "EET")
#> Date_Time Day_ahead_Load Actual_Load
#> 1 2015-03-28 21:00:00 7139 6541
#> 2 2015-03-28 22:00:00 6598 6020
#> 3 2015-03-28 23:00:00 6137 5602
#> 4 2015-03-29 00:00:00 5177 5084
#> 5 2015-03-29 01:00:00 4728 4640
#> 6 2015-03-29 02:00:00 4628 4593
#> 7 2015-03-29 02:30:00 N/A NA
#> 8 2015-03-29 04:00:00 4426 4353
#> 9 2015-03-29 05:00:00 4326 NA
#> 10 2015-03-29 06:00:00 4374 NA
#> 11 2015-03-29 07:00:00 4546 4333
#> 12 2015-03-29 08:00:00 4885 4556
我也尝试过使用其他一些功能,例如“填充”,但它们都不能正常工作。 由于我对 R 相当陌生,因此我非常感谢任何有关填补缺失时间戳的建议。提前谢谢你。
【问题讨论】:
【参考方案1】:其实答案是正确的。由于标准时间改为夏令时,第 6 行和第 8 行之间仅相差 1 小时。
如果您希望这些行之间有 2 小时,请使用 GMT(或等效的 UTC)。下面我们使用相同的日期和时间作为字符串,但将时区更改为 GMT 以避免夏令时更改。
diff(mydata[c(6, 8), 1])
## Time difference of 1 hours
# use GMT
tt <- as.POSIXct(format(mydata[[1]]), tz = "GMT")
as.POSIXct(na.approx(tt), tz = "GMT", origin = "1970-01-01")
## [1] "2015-03-28 21:00:00 GMT" "2015-03-28 22:00:00 GMT"
## [3] "2015-03-28 23:00:00 GMT" "2015-03-29 00:00:00 GMT"
## [5] "2015-03-29 01:00:00 GMT" "2015-03-29 02:00:00 GMT"
## [7] "2015-03-29 03:00:00 GMT" "2015-03-29 04:00:00 GMT"
## [9] "2015-03-29 05:00:00 GMT" "2015-03-29 06:00:00 GMT"
## [11] "2015-03-29 07:00:00 GMT" "2015-03-29 08:00:00 GMT"
【讨论】:
你是对的,我不应该“填充”缺失的时间戳,因为那个时间没有实际负载。我有一个 UTC 格式的天气数据集,我想将我的负载数据索引到,因此我会将负载数据的时区更改为 UTC。谢谢你开导我!【参考方案2】:您可以使用以下循环来确保您始终得到正确的答案,即使您在数据中有很多 NA
相互关注。
library(lubridate)
dat$Date_Time <- as_datetime(as.character(dat$Date_Time))
dat$id <- 1:nrow(dat)
dat$previoustime <- NA
dat$timediff <- NA
for( i in 2:nrow(dat))
previousdateinds <- which(!is.na(dat$Date_Time) & dat$id < i)
previousdateind <- tail(previousdateinds,1)
dat$timediff[i] <- i-previousdateind # number of rows between this row and the last non-NA time
dat$previoustime[i] <- as.character(dat$Date_Time)[previousdateind]
print(previousdateind)
dat$previoustime <- as_datetime(dat$previoustime)
dat$result <- ifelse(is.na(dat$Date_Time), as.character(dat$previoustime+dat$timediff*60*60),
as.character(dat$Date_Time))
dat[6:8,]
Date_Time Day_ahead_Load Actual_Load id previoustime timediff result
6 2015-03-29 02:00:00 4628 4593 6 2015-03-29 01:00:00 1 2015-03-29 02:00:00
7 <NA> N/A NA 7 2015-03-29 02:00:00 1 2015-03-29 03:00:00
8 2015-03-29 04:00:00 4426 4353 8 2015-03-29 02:00:00 2 2015-03-29 04:00:00
【讨论】:
我不确定我是否理解这个解决方案。另外我应该注意到我有 47.477 行数据.. 您正在遍历每一行以找出最后一次时间日期不是NA
的时间,然后根据最后一次 @ 之间的行数将 x 小时添加到最后一次987654324@ 和这一行。
感谢您为我澄清这一点。以上是关于na.approx 函数不会产生正确的时间戳的主要内容,如果未能解决你的问题,请参考以下文章
什么PHP函数来解析这个时间戳42866.32972 [重复]