JHDF5 - 如何避免数据集被覆盖
Posted
技术标签:
【中文标题】JHDF5 - 如何避免数据集被覆盖【英文标题】:JHDF5 - How to avoid dataset being overwritten 【发布时间】:2015-03-20 00:04:01 【问题描述】:我正在使用 JHDF5 将一组值记录到 hdf5 文件中。我目前正在使用两个 ArrayList 来执行此操作,一个带有值,一个带有值的名称。
ArrayList<String> valueList = new ArrayList<String>();
ArrayList<String> nameList = new ArrayList<String>();
valueList.add("Value1");
valueList.add("Value2");
nameList.add("Name1");
nameList.add("Name2");
IHDF5Writer writer = HDF5Factory.configure("My_Log").keepDataSetsIfTheyExist().writer();
HDF5CompoundType<List<?>> type = writer.compound().getInferredType("", nameList, valueList);
writer.compound().write("log1", type, valueList);
writer.close();
这将以正确的方式将值记录到文件 My_Log 和数据集“log1”中。但是,此示例始终覆盖数据集“log1”中值的先前日志。我希望每次都能登录到同一个数据集,将最新的日志添加到数据集的下一行/索引。例如,如果我要将 "Name2"
的值更改为 "Value3"
并记录值,然后将 "Name1"
更改为 "Value4"
并将 "Name2"
更改为 "Value5"
并记录值,数据集应该看起来像这样:
我认为keepDataSetsIfTheyExist()
选项可以防止数据集被覆盖,但显然它不起作用。
在某些情况下使用writer.compound().writeArrayBlock()
可以实现与我想要的类似的东西,并指定应写入数组块的索引。但是,此解决方案似乎与我当前的代码不兼容,我必须使用列表来处理我的数据。
是否有一些我忽略的选项来实现这一点,或者不能用 JHDF5 来完成?
【问题讨论】:
【参考方案1】:我认为这行不通。我不太清楚,但我相信您使用的 getInferredType() 正在创建一个包含 2 个名称 -> 值条目的数据集。因此,它有效地在 hdf5 中创建了一个对象。我能想到的最佳解决方案是在输出之前读取以前的值将它们添加到 valueList:
ArrayList<String> valueList = new ArrayList<>();
valueList.add("Value1");
valueList.add("Value2");
try (IHDF5Reader reader = HDF5Factory.configure("My_Log.h5").reader())
String[] previous = reader.string().readArray("log1");
for (int i = 0; i < previous.length; i++)
valueList.add(i, previous[i]);
catch (HDF5FileNotFoundException ex)
// Nothing to do here.
MDArray<String> values = new MDArray<>(String.class, new long[]valueList.size());
for (int i = 0; i < valueList.size(); i++)
values.set(valueList.get(i), i);
try (IHDF5Writer writer = HDF5Factory.configure("My_Log.h5").writer())
writer.string().writeMDArray("log1", values);
如果您再次使用“Value3”和“Value4”调用此代码,您将获得 4 个值。但是,如果您开始有数据集的层次结构,这种解决方案可能会变得不愉快。
【讨论】:
感谢您的回答!唉,这不是我要找的设置,也许我的问题太含糊了(稍后我有时间会编辑)。关键是值需要与名称相对应。当我写入我的日志文件时,这些值应该插入到一个新行中,并且每个值都插入到它们对应的名称列中。【参考方案2】:要解决您的问题,您需要将数据集 log1
定义为可扩展的,以便它可以存储未知数量的日志条目(随时间生成)并使用点或 hyperslab 选择写入这些条目(否则,数据集将被覆盖)。
如果您不拘泥于特定技术来处理 HDF5 文件,您不妨看看HDFql,这是一种轻松管理 HDF5 文件的高级语言。使用 HDFql(Java 中)的用例可能的解决方案是:
public class Example
public Class Log
String name1;
String name2;
public boolean doSomething(Log log)
log.name1 = "Value1";
log.name2 = "Value2";
return true;
public static void main(String args[])
// declare variables
Log log = new Log();
int variableNumber;
// create an HDF5 file named 'My_Log.h5' and use (i.e. open) it
HDFql.execute("CREATE AND USE FILE My_Log.h5");
// create an extendible HDF5 dataset named 'log1' of data type compound
HDFql.execute("CREATE DATASET log1 AS COMPOUND(name1 AS VARCHAR, name2 AS VARCHAR)(0 TO UNLIMITED)");
// register variable 'log' for subsequent usage (by HDFql)
variableNumber = HDFql.variableRegister(log);
// call function 'doSomething' that does something and populates variable 'log' with an entry
while(doSomething(log))
// alter (i.e. extend) dataset 'log1' to +1 (i.e. add a new row)
HDFql.execute("ALTER DIMENSION log1 TO +1");
// insert (i.e. write) data stored in variable 'log' into dataset 'log1' using a point selection
HDFql.execute("INSERT INTO log1(-1) VALUES FROM MEMORY " + variableNumber);
【讨论】:
以上是关于JHDF5 - 如何避免数据集被覆盖的主要内容,如果未能解决你的问题,请参考以下文章
极客日报:小鹏汽车回应非法收集人脸数据被罚10万;OPPO发布首颗自研芯片马里亚纳X;AMD 3DNow指令集被Linux淘汰