hdf5 文件到熊猫数据框

Posted

技术标签:

【中文标题】hdf5 文件到熊猫数据框【英文标题】:hdf5 file to pandas dataframe 【发布时间】:2017-03-21 06:04:19 【问题描述】:

我下载了一个存储在 .h5 文件中的数据集。 我只需要保留某些列并能够操作其中的数据。

为此,我尝试将其加载到 pandas 数据框中。我试过用:

pd.read_hdf(path)

但我得到:No dataset in HDF5 file.

我在 SO (read HDF5 file to pandas DataFrame with conditions) 上找到了答案,但我不需要条件,答案添加了有关文件编写方式的条件,但我不是文件的创建者,所以我做不到任何关于那个的。

我也尝试过使用 h5py:

df = h5py.File(path)

但这不容易操作,我似乎无法从中取出列(只有使用 df.keys() 的列的名称) 关于如何做到这一点的任何想法?

【问题讨论】:

【参考方案1】:

Pandas HDF 支持需要非常明确地格式化 HDF 文件。您可以查看https://***.com/a/33644128/4128030 了解更多信息。

【讨论】:

是的。更多关于此here 的信息。【参考方案2】:

将它们读入 Pandas 的最简单方法是转换为 h5py,然后转换为 np.array,然后转换为 DataFrame。它看起来像:

df = pd.DataFrame(np.array(h5py.File(path)['variable_1']))

【讨论】:

以上是关于hdf5 文件到熊猫数据框的主要内容,如果未能解决你的问题,请参考以下文章

使用熊猫将 CSV 文件转换为 HDF5

使用 Pandas、Python 将数据附加到 HDF5 文件

从多个熊猫数据帧创建 HDF5

是否可以直接重命名存储在 hdf5 文件中的 pandas 数据框的列?

如何将字典附加到熊猫数据框?

如何将 Pandas 数据框写入 HDF5 数据集