如何在 Julia 中编写和读取包含日期时间列的 DataFrame

Posted

技术标签:

【中文标题】如何在 Julia 中编写和读取包含日期时间列的 DataFrame【英文标题】:How can I write and read a DataFrame that contains a column of datetime in Julia 【发布时间】:2014-09-09 08:04:26 【问题描述】:

第二次更新:已被用户@Matt B 确认为错误。有关详细信息,请参阅下面的答案。

更新: @waTeim 已经证明可以写入和读取包含 date 类型列的 DataFrame(在我的设置中确认)。这很重要,因为这意味着 Julia 可以写入和读取数据框列中的一些复合类型。但是,类型 datetime(与类型 date 不同)的情况仍然会引发错误,因此此时问题仍未得到解答。

在 Julia 中,使用 HDF5 和 JLD 包,可以在 .jld 文件中保存和加载 DataFrame,例如:

#Preamble
using HDF, JLD, DataFrames
filePath = "/home/colin/Test.jld";

#Save the data-frame
fid1 = jldopen(FP, "w");
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);

#Come back later and load the data-frame
fid1 = jldopen(FP, "r");
X = read(fid1, "MyDataFrame");
close(fid1);

这很好用,只要数据框的列都是基本 Julia 类型的向量,如 Float64Int64。然而,在实践中,我们通常希望数据框的第一列是datetime,它不是基本类型(尽管在未来的版本中可能会成为基本类型)。在这种情况下,上面的代码在read 操作中对我来说失败,并显示一条很长的错误消息(如果有人在 cmets 中询问,我会将其添加到底部)。按照 JLD 包的文档,我在保存时尝试了以下操作:

#Save the data-frame
fid1 = jldopen(FP, "w");
addrequire(fid1, "/home/colin/.julia/v0.2/DataFrames/src/dataframe.jl")
addrequire(fid1, "/home/colin/.julia/v0.2/Datetime/src/Datetime.jl")
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);

但这没有帮助。

我是在做一些愚蠢的事情,还是这个功能根本不可用?

注意:包含 HDF5 标记是因为 JLD 包使用它。

【问题讨论】:

有没有机会 serialize() 和 deserialize() 做你想做的事?你不会得到 .jld 但你应该可以做 i/o。 @Mageek serialize()deserialize() 可能可以工作,但从长远来看,该解决方案是不可行的,因为不同版本的 Julia 甚至是在不同版本上运行的 Julia 实例系统可能不会读回写入的相同数据。不过感谢您的想法,很抱歉我花了这么长时间才回复。 这是一个错误。报告于:github.com/timholy/HDF5.jl/issues/106 现在应该修复了!如果您仍然遇到问题,请告诉我(在标记新版本的 HDF5 之前,您可以使用 Pkg.checkout("HDF5") 获取此补丁)。 @MattB。谢谢马特,我已经确认了我的设置的修复。现在都在工作。如果您想写一个非常简短的答案,表明这是一个错误并已修复,我会投票并给出答案。 【参考方案1】:

如果缺少对特定 Julia 数据类型的 HDF5 支持,则可能会出现此错误。在这种情况下,它不是专门使用 Datetime 的 DataFrame,而是缺乏对 Datetime 类型本身的支持。显然,当库由于某种原因无法加载类型时(see here 和 here too 用于其他示例)。每种类型的确切原因和修复方法都不同,但报告错误会导致及时修复(见下文)。

错误

HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
  #000: H5Dio.c line 182 in H5Dread(): can't read data
    major: Dataset
    minor: Read failed
  #001: H5Dio.c line 438 in H5D__read(): unable to set up type info
    major: Dataset
    minor: Unable to initialize object
  #002: H5Dio.c line 939 in H5D__typeinfo_init(): unable to convert between src and dest datatype
    major: Dataset
    minor: Feature is unsupported
  #003: H5T.c line 4525 in H5T_path_find(): no appropriate function for conversion path
    major: Datatype
    minor: Unable to initialize object

历史

版本 0.2.25

我建议您迁移到 Julia 版本 0.3,因为它现在处于候选发布状态,并更新您的包存储库。我的设置不同;我正在使用不同版本的 HDF5、JLD、DataFrames 和 Datetime。但话虽如此,我所做的两个重要更改是在对 addrequire 的调用中简单地指示 模块名称 而不是 文件名 以及使用 @read@write 宏而不是相应的函数,因为后者似乎有问题。

Version 0.3.0-rc1+4263 (2014-07-19 02:59 UTC)

Pkg.status()
- DataFrames                    0.5.7
- HDF5                          0.2.25
- Datetime                      0.1.6

创建数据文件

using HDF5,JLD,DataFrames,Datetime

testFile = jldopen("test.jld","w")
addrequire(testFile,"DataFrames")
addrequire(testFile,"Datetime")
df = DataFrame()
df[:column1] = today() 
@write testFile df
close(testFile)

重新启动 Julia 并阅读....

julia> using HDF5,JLD,DataFrames,Datetime

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile df
1x1 DataFrame
|-------|------------|
| Row # | column1    |
| 1     | 2014-07-19 |

julia> df[:column1]
 1-element DataArrayDateISOCalendar,1:
 2014-07-19

版本 0.2.25+(预发布)

确实,我可以确认尝试存储 Datetime 失败了,使用 repo 中的最新版本可以解决问题。

 HDF5                          0.2.25+            master

如果仅通过将 today() 更改为 now()

来修改上述内容
df[:column1] = now()

那么下面

julia> using HDF5,JLD,DataFrames,Datetime

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile df
1x1 DataFrame
|-------|-------------------------|
| Row # | column1                 |
| 1     | 2014-07-26T03:38:45 UTC |

但是,尽管有this fix,但似乎对于 Datetime 发生的相同的一般错误消息也发生在 type complex 上。

c = 1 + im;
@write testFile c

版本 0.2.26

这个版本也支持复杂的。最初看起来问题是普遍缺乏对复杂类型的支持,但更可能是复杂从1 + im初始化的特殊问题;而不是1.0 + im

- HDF5                          0.2.26

julia> using HDF5, JLD

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile c
1 + 1im

【讨论】:

感谢您的回复。我明天试试这个。 有趣。您的示例有效,但我认为这是因为您使用的是Date,而不是Datetime,即typeof(today()) 返回DateISOCalendar。如果您将示例中的df[:column1] = today() 替换为df[:column1] = datetime(2001, 1, 1, 1, 1, 1);,那么我相信您会收到我看到的错误。 我应该向其他读者澄清一下:这很有趣,因为Date 类型也是Datetime 包的一部分。这意味着问题出在Datetime 类型上,而不是隐藏在数据帧中的复合类型的更普遍问题。 @waTeim:你说“相应的功能……似乎有问题。”如果您有一个测试用例没有按照您的预期工作,请file an issue!【参考方案2】:

正如我在上面的评论中所指出的,这种行为是 a bug,现在是 been fixed。在 0.2.26 版本被标记之前,您可以使用 Pkg.checkout("HDF5") 来获取此错误修复。


但为了让这更像是一个答案,我将更多地描述这个问题并给出一个潜在的解决方法。 DateDateTime 类型都是带有 very similar definitions 的位类型。在 HDF5.jl 包中保存和加载位类型是一个相对较新的功能;仅支持 past month(标记为版本 0.2.24 和 0.2.25)。

这些版本有一个错误,即 bitstypes 的类型名称没有与其模块名称一起保存(作为完全限定的类型名称)。在importusing 之间的区别中可以非常清楚地看到这一点:

julia> using HDF5, JLD # version 0.2.25

julia> import Datetime

julia> save("today.jld","t",Datetime.today()) # today() returns a `Datetime.Date`

julia> load("today.jld") # But it was saved as just a `Date`, not a `Datetime.Date`
                         # so HDF5 cannot find the definition
HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
  #000: H5Dio.c line 182 in H5Dread(): can't read data … # backtrace truncated

julia> using Datetime # Bring `Date` into the `Main` namespace

julia> load("today.jld") # now it works!
DictUnion(UTF8String,ASCIIString),Any with 1 entry:
  "t" => 2014-07-25

因此,当您保存 DateTime 对象时,它由 Calendar 和时区 Offset 参数化。但是Offset 类型不是从 Datetime 包中导出的……它们有很多!然而,大多数 DateTimes 只使用 Zone0: UTC。因此,如果您使用 HDF5.jl 版本 0.2.24-25 保存了 DateTime 数据,您可以通过手动将这些类型“导出”到您的主命名空间中来恢复它。

julia> save("now.jld","n",now())

julia> load("now.jld")
HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
  #000: H5Dio.c line 182 in H5Dread(): can't read data … # truncated

julia> const Zone0 = Datetime.Zone0;

julia> load("now.jld")
DictUnion(UTF8String,ASCIIString),Any with 1 entry:
  "n" => 2014-07-25T13:45:45 UTC

【讨论】:

以上是关于如何在 Julia 中编写和读取包含日期时间列的 DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

读取具有日期格式列的 Xls 文件

Julia Box 绘图,不读取名称包含空格和括号的 csv 文件列但读取 1word 列标题没有问题的列

如何结合一列的日期和另一列的时间

如何从包含日期时间列的表中获取某些行和“先前”行?

如何在 Julia 中逐行读取文件?

如何在 Pandas 数据框中按行值对日期时间列进行排序?