使用 h5py 对 hdf5 进行增量写入

Posted

技术标签:

【中文标题】使用 h5py 对 hdf5 进行增量写入【英文标题】:Incremental writes to hdf5 with h5py 【发布时间】:2014-10-28 14:51:47 【问题描述】:

我有一个关于如何最好地使用 python / h5py 写入 hdf5 文件的问题。

我有如下数据:

-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178       | 10       | 12       | ...
-----------------------------------------
| 179       | 12       | 11       | ...
-----------------------------------------
| 185       | 9        | 12       | ...
-----------------------------------------
| 187       | 15       | 12       | ...
                    ...

大约有 10^4 列,大约 10^7 行。 (这大约是 10^11(1000 亿)个元素,或约 100GB 的 1 字节整数)。

对于这些数据,典型的使用几乎是一次写入,多次读取,典型的读取情况是获取第 1 列和另一列(例如 254),将两列加载到内存中,然后进行一些奇特的统计。

我认为一个好的 hdf5 结构是让上表中的每一列都是一个 hdf5 组,从而产生 10^4 个组。这样我们就不需要将所有数据读入内存,是吗? hdf5 结构尚未定义,所以它可以是任何东西。

现在的问题是: 我一次收到约 10^4 行的数据(每次的行数不完全相同),并且需要将其增量写入 hdf5 文件。我该如何写那个文件?

我正在考虑使用 python 和 h5py,但如果推荐的话,可以使用其他工具。正在分块要走的路,例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个 10^4 行的块到达时,替换数据集?

还是将每个 10^4 行的块存储为单独的数据集更好?还是我真的需要知道最终的行数? (这会很棘手,但也许是可能的)。

如果 hdf5 也不是适合这项工作的工具,我可以放弃它,但我认为一旦完成尴尬的写入,它会很棒。

【问题讨论】:

【参考方案1】:

Per the FAQ,您可以使用dset.resize 扩展数据集。例如,

import os
import h5py
import numpy as np
path = '/tmp/out.h5'
os.remove(path)
with h5py.File(path, "a") as f:
    dset = f.create_dataset('voltage284', (10**5,), maxshape=(None,),
                            dtype='i8', chunks=(10**4,))
    dset[:] = np.random.random(dset.shape)        
    print(dset.shape)
    # (100000,)

    for i in range(3):
        dset.resize(dset.shape[0]+10**4, axis=0)   
        dset[-10**4:] = np.random.random(10**4)
        print(dset.shape)
        # (110000,)
        # (120000,)
        # (130000,)

【讨论】:

是 dtype='i8' 吗?我认为 'int8' 是 8 位,但 i8 似乎更大。 i8 用于 8 字节整数。您可以使用np.dtype('i8').itemsize 检查字节大小。如果您想要 1 字节整数,请使用 np.int8(又名 'i1')。 这个符号是什么意思set[-10**4:]?这意味着您将np.random.random(10**4)分配给数据集的最后一个-10**4位置? @nbro:没错。见Understanding slice notation。 dset 是一种适用于 h5py 的数据集类型。为什么我不能在不关心底层表示(numpy)的情况下在数据集中执行此操作?似乎应该对用户隐藏实现,并且应该将 Dataset.cat(dset, dset2) 或 dset.append(dset2) 或其他东西作为标准函数包含在内【参考方案2】:

正如@unutbu 指出的那样,dset.resize 是一个很好的选择。查看pandas 及其HDF5 支持可能会起作用,这对于您的工作流程可能很有用。听起来 HDF5 是考虑到您的需求的合理选择,但使用顶部的附加层可能会更好地表达您的问题。

要考虑的一件大事是数据的方向。如果您主要对读取感兴趣,并且主要按列获取数据,那么听起来您可能想要转置数据,以便读取可以按行发生,因为 HDF5 以行优先顺序存储。

【讨论】:

以上是关于使用 h5py 对 hdf5 进行增量写入的主要内容,如果未能解决你的问题,请参考以下文章

python写入和读取h5、pkl、mat 文件

如何使用h5py读入数据

无法写入 hdf5 文件

用于 Python 的 HDF5:高级与低级接口。 h5py

使用来自 Python 的 1 个进程使用 HDF5 和 MPI 写入/读取大文件

如何将 Pandas 数据框写入 HDF5 数据集