hdf5 文件到熊猫数据框

Posted

技术标签:

【中文标题】hdf5 文件到熊猫数据框【英文标题】:hdf5 file to pandas dataframe 【发布时间】:2017-03-21 06:04:19 【问题描述】:

我下载了一个存储在 .h5 文件中的数据集。 我只需要保留某些列并能够操作其中的数据。

为此,我尝试将其加载到 pandas 数据框中。我试过用:

pd.read_hdf(path)

但我得到:No dataset in HDF5 file.

我在 SO (read HDF5 file to pandas DataFrame with conditions) 上找到了答案,但我不需要条件,答案添加了有关文件编写方式的条件,但我不是文件的创建者,所以我做不到任何关于那个的。

我也尝试过使用 h5py:

df = h5py.File(path)

但这不容易操作,我似乎无法从中取出列(只有使用 df.keys() 的列的名称) 关于如何做到这一点的任何想法?

【问题讨论】:

【参考方案1】:

Pandas HDF 支持需要非常明确地格式化 HDF 文件。您可以查看https://***.com/a/33644128/4128030 了解更多信息。

【讨论】:

是的。更多关于此here 的信息。【参考方案2】:

将它们读入 Pandas 的最简单方法是转换为 h5py,然后转换为 np.array,然后转换为 DataFrame。它看起来像:

df = pd.DataFrame(np.array(h5py.File(path)['variable_1']))

【讨论】:

以上是关于hdf5 文件到熊猫数据框的主要内容,如果未能解决你的问题,请参考以下文章