hdf5 文件到熊猫数据框
Posted
技术标签:
【中文标题】hdf5 文件到熊猫数据框【英文标题】:hdf5 file to pandas dataframe 【发布时间】:2017-03-21 06:04:19 【问题描述】:我下载了一个存储在 .h5 文件中的数据集。 我只需要保留某些列并能够操作其中的数据。
为此,我尝试将其加载到 pandas 数据框中。我试过用:
pd.read_hdf(path)
但我得到:No dataset in HDF5 file.
我在 SO (read HDF5 file to pandas DataFrame with conditions) 上找到了答案,但我不需要条件,答案添加了有关文件编写方式的条件,但我不是文件的创建者,所以我做不到任何关于那个的。
我也尝试过使用 h5py:
df = h5py.File(path)
但这不容易操作,我似乎无法从中取出列(只有使用 df.keys()
的列的名称)
关于如何做到这一点的任何想法?
【问题讨论】:
【参考方案1】:Pandas HDF 支持需要非常明确地格式化 HDF 文件。您可以查看https://***.com/a/33644128/4128030 了解更多信息。
【讨论】:
是的。更多关于此here 的信息。【参考方案2】:将它们读入 Pandas 的最简单方法是转换为 h5py
,然后转换为 np.array
,然后转换为 DataFrame
。它看起来像:
df = pd.DataFrame(np.array(h5py.File(path)['variable_1']))
【讨论】:
以上是关于hdf5 文件到熊猫数据框的主要内容,如果未能解决你的问题,请参考以下文章
使用 Pandas、Python 将数据附加到 HDF5 文件