JHDF5 - 如何避免数据集被覆盖

Posted

技术标签:

【中文标题】JHDF5 - 如何避免数据集被覆盖【英文标题】:JHDF5 - How to avoid dataset being overwritten 【发布时间】:2015-03-20 00:04:01 【问题描述】:

我正在使用 JHDF5 将一组值记录到 hdf5 文件中。我目前正在使用两个 ArrayList 来执行此操作,一个带有值,一个带有值的名称。

ArrayList<String> valueList = new ArrayList<String>(); 
ArrayList<String> nameList = new ArrayList<String>();

valueList.add("Value1");
valueList.add("Value2");
nameList.add("Name1");
nameList.add("Name2");

IHDF5Writer writer = HDF5Factory.configure("My_Log").keepDataSetsIfTheyExist().writer();    
HDF5CompoundType<List<?>> type = writer.compound().getInferredType("", nameList, valueList);        

writer.compound().write("log1", type, valueList);       
writer.close();

这将以正确的方式将值记录到文件 My_Log 和数据集“log1”中。但是,此示例始终覆盖数据集“log1”中值的先前日志。我希望每次都能登录到同一个数据集,将最新的日志添加到数据集的下一行/索引。例如,如果我要将 "Name2" 的值更改为 "Value3" 并记录值,然后将 "Name1" 更改为 "Value4" 并将 "Name2" 更改为 "Value5" 并记录值,数据集应该看起来像这样:

我认为keepDataSetsIfTheyExist() 选项可以防止数据集被覆盖,但显然它不起作用。

在某些情况下使用writer.compound().writeArrayBlock() 可以实现与我想要的类似的东西,并指定应写入数组块的索引。但是,此解决方案似乎与我当前的代码不兼容,我必须使用列表来处理我的数据。

是否有一些我忽略的选项来实现这一点,或者不能用 JHDF5 来完成?

【问题讨论】:

【参考方案1】:

我认为这行不通。我不太清楚,但我相信您使用的 getInferredType() 正在创建一个包含 2 个名称 -> 值条目的数据集。因此,它有效地在 hdf5 中创建了一个对象。我能想到的最佳解决方案是在输出之前读取以前的值将它们添加到 valueList:

    ArrayList<String> valueList = new ArrayList<>();

    valueList.add("Value1");
    valueList.add("Value2");

    try (IHDF5Reader reader = HDF5Factory.configure("My_Log.h5").reader()) 
        String[] previous = reader.string().readArray("log1");
        for (int i = 0; i < previous.length; i++) 
            valueList.add(i, previous[i]);
        
     catch (HDF5FileNotFoundException ex) 
        // Nothing to do here.
    

    MDArray<String> values = new MDArray<>(String.class, new long[]valueList.size());
    for (int i = 0; i < valueList.size(); i++) 
        values.set(valueList.get(i), i);
    

    try (IHDF5Writer writer = HDF5Factory.configure("My_Log.h5").writer()) 
        writer.string().writeMDArray("log1", values);
    

如果您再次使用“Value3”和“Value4”调用此代码,您将获得 4 个值。但是,如果您开始有数据集的层次结构,这种解决方案可能会变得不愉快。

【讨论】:

感谢您的回答!唉,这不是我要找的设置,也许我的问题太含糊了(稍后我有时间会编辑)。关键是值需要与名称相对应。当我写入我的日志文件时,这些值应该插入到一个新行中,并且每个值都插入到它们对应的名称列中。【参考方案2】:

要解决您的问题,您需要将数据集 log1 定义为可扩展的,以便它可以存储未知数量的日志条目(随时间生成)并使用点或 hyperslab 选择写入这些条目(否则,数据集将被覆盖)。

如果您不拘泥于特定技术来处理 HDF5 文件,您不妨看看HDFql,这是一种轻松管理 HDF5 文件的高级语言。使用 HDFql(Java 中)的用例可能的解决方案是:

public class Example


    public Class Log
    
        String name1;
        String name2;
    

    public boolean doSomething(Log log)
    
        log.name1 = "Value1";
        log.name2 = "Value2";
        return true;
    

    public static void main(String args[])
    
        // declare variables
        Log log = new Log();
        int variableNumber;

        // create an HDF5 file named 'My_Log.h5' and use (i.e. open) it
        HDFql.execute("CREATE AND USE FILE My_Log.h5");

        // create an extendible HDF5 dataset named 'log1' of data type compound
        HDFql.execute("CREATE DATASET log1 AS COMPOUND(name1 AS VARCHAR, name2 AS VARCHAR)(0 TO UNLIMITED)");

        // register variable 'log' for subsequent usage (by HDFql)
        variableNumber = HDFql.variableRegister(log);

        // call function 'doSomething' that does something and populates variable 'log' with an entry
        while(doSomething(log))
        
            // alter (i.e. extend) dataset 'log1' to +1 (i.e. add a new row)
            HDFql.execute("ALTER DIMENSION log1 TO +1");

            // insert (i.e. write) data stored in variable 'log' into dataset 'log1' using a point selection
            HDFql.execute("INSERT INTO log1(-1) VALUES FROM MEMORY " + variableNumber);
        
    


【讨论】:

以上是关于JHDF5 - 如何避免数据集被覆盖的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 JHDF5 读取/写入 3D+ 数组?

Classification

树dp:边覆盖,点覆盖

极客日报:小鹏汽车回应非法收集人脸数据被罚10万;OPPO发布首颗自研芯片马里亚纳X;AMD 3DNow指令集被Linux淘汰

AppDomain 卷影复制不起作用(原始程序集被锁定)

tensorflow-实现knn算法-识别mnist数据集