如何将 HDF5 文件转换为 Parquet 文件?

Posted

技术标签:

【中文标题】如何将 HDF5 文件转换为 Parquet 文件?【英文标题】:How does one convert an HDF5 file into a Parquet file? 【发布时间】:2017-05-20 17:36:41 【问题描述】:

我已经使用 pandas.HDFStore() 通过 pandas 将大约 800 GB 的巨大数据帧存储到 HDF5 中。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想用 Impala 查询这个。有没有一种直接的方法可以将这些数据解析成 Parquet?或者 Impala 是否允许您直接使用 HDF5? HDF5上的数据还有另一种选择吗?

【问题讨论】:

【参考方案1】:

我自己没有尝试过,但这里有一个链接显示如何使用 Spark 将 HDFStore 转换为 Parquet:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f。

【讨论】:

如果我运行hdf_to_parquet.py,这些 Parquet 文件会写入磁盘吗?然后我可以将这些导入到 Impala?

以上是关于如何将 HDF5 文件转换为 Parquet 文件?的主要内容,如果未能解决你的问题,请参考以下文章

如何将 Parquet 文件转换为 Delta 文件

将 HDF5 文件转换为其他格式

如何将 txt 文件转换为 parquet 文件并将其加载到 hdfs table-pyspark

如何使用 AWS Glue 将许多 CSV 文件转换为 Parquet

PySpark - Parquet - 调用 None.None 时发生错误

使用熊猫将 CSV 文件转换为 HDF5