HDF5 文件格式简介

Posted 庐州月光

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDF5 文件格式简介相关的知识,希望对你有一定的参考价值。

三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式,在做三代数据的分析之前,有必要先搞清楚hdf5 这种文件格式;

官网的链接如下:https://support.hdfgroup.org/HDF5/

HDF5 是一种灵活的文件储存格式,它相对其他的文件格式,肯定是有很多的优点,这里就不一一列举了,最值得我们关注的是,在这种格式中,数据是如何储存的。

对于hdf5 文件中的数据存储,有两个核心概念:

1)group 和 dataset

dataset 代表数据集,一个文件当中可以存放不同种类的数据集,这些数据集如何管理,就用到了group

最直观的理解,可以参考我们的文件管理系统,不同的文件位于不同的目录下:

目录就是hdf5中的group, 描述了数据集dataset的分类信息,通过group 有效的将多种dataset 进行管理和区分;

文件就是hdf5中的dataset, 表示的是具体的数据;

 

2)metadata

对于每一个dataset 而言,除了数据本身之外,这个数据集还会有很多的属性 attribute,。在hdf5中,还同时支持存储数据集对应的属性信息,

所有的属性信息的集合就叫做metadata;;

 

 

以上是关于HDF5 文件格式简介的主要内容,如果未能解决你的问题,请参考以下文章

将 HDF5 文件转换为其他格式

访问 netcdf 文件中嵌套组中的变量(文件格式 HDF5)

hdf5 和 pickle 比原始 csv 文件占用更多空间

python-使用HDF5格式文件进行数据存储

vs2010编写HDF5格式文件读取出错 “无法解析的外部符号 _H5Fclose,该符号在函数 _main 中被引用”

Caffe:将 CSV 文件转换为 HDF5