如何使用 C++ API 在 HDF5 文件中写入/读取锯齿状数组?

Posted

技术标签:

【中文标题】如何使用 C++ API 在 HDF5 文件中写入/读取锯齿状数组?【英文标题】:How to write/read jagged arrays in a HDF5 file using the C++ API? 【发布时间】:2020-06-15 22:34:11 【问题描述】:

我有多个不同大小的 std::vector 包含浮点数。我想将它们作为 HDF5 文件中的锯齿状数组全部写入/读取(理想情况下,使用 hyperslabs 一个接一个,因为我不能同时将所有向量保存在内存中)。我相信我应该使用一个常规数组,它的每个元素都是可变长度数据类型,但我发现的所有示例都是 C 示例。我的代码如下所示:

#include <vector>
#include "H5Cpp.h"

int main() 
  std::vector<float> v1 0.1, 0.2, 0.3;
  std::vector<float> v2 0.4, 0.5;

  H5::VarLenType array_type (H5::PredType::NATIVE_FLOAT);

  hsize_t dimensions[1] = 2;
  H5::DataSpace dataspace (1, dimensions);

  H5::H5File file ("jarray.h5", H5F_ACC_TRUNC);
  H5::DataSet dataset = file.createDataSet("jarray", array_type, dataspace);

  hsize_t size[1] = 1;
  hsize_t offset[1] = 0;
  dataspace.selectHyperslab(H5S_SELECT_SET, size, offset);

  dataset.write(v1.data(), array_type);

  return 0;
;

如果我忽略对write 函数的调用,代码将创建一个具有以下结构的空文件(由h5dump 打印):

HDF5 "jarray.h5" 
GROUP "/" 
   DATASET "jarray" 
      DATATYPE  H5T_VLEN  H5T_IEEE_F32LE
      DATASPACE  SIMPLE  ( 2 ) / ( 2 ) 
      DATA 
      (0): (), ()
      
   


这让我相信数据集具有正确的结构,但我的写作部分没有正确。

有人可以澄清如何写入这样的数组吗?之后如何读取这些值?任何帮助将不胜感激。

【问题讨论】:

【参考方案1】:

不确定如何使用 HDF5 C++ API 执行此操作,但您可以尝试 HDFql,因为它可以让您从 HDF5 低级细节中解脱出来。在 C++ 中使用 HDFql,您可以执行以下操作来写入/读取 HDF5 锯齿状数组:

// create HDF5 file 'jarray.h5' and use (i.e. open) it
HDFql::execute("CREATE AND USE FILE jarray.h5");

// create HDF5 dataset 'jarray' of one dimension (size 2) as a variable-length float (i.e. jagged)
HDFql::execute("CREATE DATASET jarray AS VARFLOAT(2)");

// write 0.1, 0.2 and 0.3 in first row of dataset 'jarray', 0.4 and 0.5 in second row
HDFql::execute("INSERT INTO jarray VALUES((0.1, 0.2, 0.3), (0.4, 0.5))");

// read first row of dataset 'jarray' using an hyperslab and populate cursor with values
HDFql::execute("SELECT FROM jarray(0:::1)");

// display values of first row
while (HDFql::cursorNext() == HDFql::SUCCESS)

     std::cout << *HDFql::cursorGetFloat() << std::endl;


// read second row of dataset 'jarray' using an hyperslab and populate cursor with values
HDFql::execute("SELECT FROM jarray(1:::1)");

// display values of second row
while (HDFql::cursorNext() == HDFql::SUCCESS)

     std::cout << *HDFql::cursorGetFloat() << std::endl;

这是一个基于直接写入值的简短示例。如果您需要使用用户定义的内存(即变量)进行写入/读取,请查看reference manual 和examples 以获取更多信息。

【讨论】:

谢谢!我很惊讶在 HDF5 文档中没有提到 HDFql。这种语法比 C/C++ API 干净得多(并且显然有更好的文档记录)。暂时我将切换到 HDFql,尽管尽管作者可能声称,我有点担心效率不会完全相同。如果我设法使 C++ 版本工作,我会用基准报告。 如果您在 HDFql 中使用用户定义的内存(即变量)而不是游标(如上例所示),则效率不应该成为问题。此外,在处理大量 HDF5 数据时,I/O 成本最高,这意味着 HDFql 解释函数 HDFql::execute 中传递的语句所需的额外 CPU 可以忽略不计(因为它对整体效率/性能没有实际影响)。

以上是关于如何使用 C++ API 在 HDF5 文件中写入/读取锯齿状数组?的主要内容,如果未能解决你的问题,请参考以下文章

将浮点数组写入和附加到 C++ 中 hdf5 文件中的唯一数据集

使用 Visual C++ 将二维数组 int[n][m] 写入 HDF5 文件

如何使用 C++ 库在 HDF5 中找出数据集的 PredType

如何使用 Fortran API 将字符串数组写入 HDF5 数据集?

如何在 C++ 中使用 HDF5 存储多个 2D 字符数组?

C++ 代码创建空 HDF5 文件而不是数据集