na.approx 函数不会产生正确的时间戳

Posted

技术标签:

【中文标题】na.approx 函数不会产生正确的时间戳【英文标题】:na.approx function does not produce correct timestamps 【发布时间】:2021-02-22 09:04:36 【问题描述】:

由于夏令时,我有一个大型电力负荷数据集,其中缺少每年三月最后一个星期日的时间戳。我在下面复制了几行,其中包含缺少的时间戳。

    structure(list(Date_Time = structure(c(1427569200, 1427572800, 
1427576400, 1427580000, 1427583600, 1427587200, NA, 1427590800, 
1427594400, 1427598000, 1427601600, 1427605200), tzone = "EET", class = c("POSIXct", 
"POSIXt")), Day_ahead_Load = c("7139", "6598", "6137", "5177", 
"4728", "4628", "N/A", "4426", "4326", "4374", "4546", "4885"
), Actual_Load = c(6541, 6020, 5602, 5084, 4640, 4593, NA, 4353, 
NA, NA, 4333, 4556)), row.names = c(NA, -12L), class = "data.frame")

#>              Date_Time Day_ahead_Load Actual_Load
#> 1  2015-03-28 21:00:00           7139        6541
#> 2  2015-03-28 22:00:00           6598        6020
#> 3  2015-03-28 23:00:00           6137        5602
#> 4  2015-03-29 00:00:00           5177        5084
#> 5  2015-03-29 01:00:00           4728        4640
#> 6  2015-03-29 02:00:00           4628        4593
#> 7                 <NA>            N/A          NA
#> 8  2015-03-29 04:00:00           4426        4353
#> 9  2015-03-29 05:00:00           4326          NA
#> 10 2015-03-29 06:00:00           4374          NA
#> 11 2015-03-29 07:00:00           4546        4333
#> 12 2015-03-29 08:00:00           4885        4556

我尝试使用 na.approx 填充这些缺失的时间戳,但该函数返回“2015-03-29 02:30:00”,而不是“2015-03-29 03:00:00”。它没有使用正确的比例。

mydata$Date_Time <- as.POSIXct(na.approx(mydata$Date_Time), origin = "1970-01-01 00:00:00", tz = "EET")

#>              Date_Time Day_ahead_Load Actual_Load
#> 1  2015-03-28 21:00:00           7139        6541
#> 2  2015-03-28 22:00:00           6598        6020
#> 3  2015-03-28 23:00:00           6137        5602
#> 4  2015-03-29 00:00:00           5177        5084
#> 5  2015-03-29 01:00:00           4728        4640
#> 6  2015-03-29 02:00:00           4628        4593
#> 7  2015-03-29 02:30:00            N/A          NA
#> 8  2015-03-29 04:00:00           4426        4353
#> 9  2015-03-29 05:00:00           4326          NA
#> 10 2015-03-29 06:00:00           4374          NA
#> 11 2015-03-29 07:00:00           4546        4333
#> 12 2015-03-29 08:00:00           4885        4556

我也尝试过使用其他一些功能,例如“填充”,但它们都不能正常工作。 由于我对 R 相当陌生,因此我非常感谢任何有关填补缺失时间戳的建议。提前谢谢你。

【问题讨论】:

【参考方案1】:

其实答案是正确的。由于标准时间改为夏令时,第 6 行和第 8 行之间仅相差 1 小时。

如果您希望这些行之间有 2 小时,请使用 GMT(或等效的 UTC)。下面我们使用相同的日期和时间作为字符串,但将时区更改为 GMT 以避免夏令时更改。

diff(mydata[c(6, 8), 1]) 
## Time difference of 1 hours

# use GMT
tt <- as.POSIXct(format(mydata[[1]]), tz = "GMT")
as.POSIXct(na.approx(tt), tz = "GMT", origin = "1970-01-01")
##  [1] "2015-03-28 21:00:00 GMT" "2015-03-28 22:00:00 GMT"
##  [3] "2015-03-28 23:00:00 GMT" "2015-03-29 00:00:00 GMT"
##  [5] "2015-03-29 01:00:00 GMT" "2015-03-29 02:00:00 GMT"
##  [7] "2015-03-29 03:00:00 GMT" "2015-03-29 04:00:00 GMT"
##  [9] "2015-03-29 05:00:00 GMT" "2015-03-29 06:00:00 GMT"
## [11] "2015-03-29 07:00:00 GMT" "2015-03-29 08:00:00 GMT"

【讨论】:

你是对的,我不应该“填充”缺失的时间戳,因为那个时间没有实际负载。我有一个 UTC 格式的天气数据集,我想将我的负载数据索引到,因此我会将负载数据的时区更改为 UTC。谢谢你开导我!【参考方案2】:

您可以使用以下循环来确保您始终得到正确的答案,即使您在数据中有很多 NA 相互关注。

library(lubridate)
dat$Date_Time <- as_datetime(as.character(dat$Date_Time))
dat$id <- 1:nrow(dat)
dat$previoustime <- NA
dat$timediff <- NA

for( i in 2:nrow(dat)) 
  previousdateinds <- which(!is.na(dat$Date_Time) & dat$id < i)
  previousdateind <- tail(previousdateinds,1)
  dat$timediff[i] <- i-previousdateind # number of rows between this row and the last non-NA time
  dat$previoustime[i] <- as.character(dat$Date_Time)[previousdateind]
  print(previousdateind)
  
dat$previoustime <- as_datetime(dat$previoustime)

dat$result <- ifelse(is.na(dat$Date_Time), as.character(dat$previoustime+dat$timediff*60*60), 
                     as.character(dat$Date_Time))
dat[6:8,]
            Date_Time Day_ahead_Load Actual_Load id        previoustime timediff              result
6 2015-03-29 02:00:00           4628        4593  6 2015-03-29 01:00:00        1 2015-03-29 02:00:00
7                <NA>            N/A          NA  7 2015-03-29 02:00:00        1 2015-03-29 03:00:00
8 2015-03-29 04:00:00           4426        4353  8 2015-03-29 02:00:00        2 2015-03-29 04:00:00

【讨论】:

我不确定我是否理解这个解决方案。另外我应该注意到我有 47.477 行数据.. 您正在遍历每一行以找出最后一次时间日期不是 NA 的时间,然后根据最后一次 @ 之间的行数将 x 小时添加到最后一次987654324@ 和这一行。 感谢您为我澄清这一点。

以上是关于na.approx 函数不会产生正确的时间戳的主要内容,如果未能解决你的问题,请参考以下文章

什么PHP函数来解析这个时间戳42866.32972 [重复]

PHP时间戳函数总结

苹果平板的challenge时间戳错误怎么办?

正确更改 Windows 上的文件时间戳?

php 时间戳,能够取得具体时间量的时间错值吗?例如10分钟的时间戳是多少?刚接触php,谢谢了。

从时间戳列表中获取上午 8 点到下午 5 点之间的时间戳