Pandas - 如何将 Parquet 数据帧保存到本地磁盘?

Posted

技术标签:

【中文标题】Pandas - 如何将 Parquet 数据帧保存到本地磁盘?【英文标题】:Pandas - How do I save Parquet dataframe to local disc? 【发布时间】:2021-08-09 16:14:16 【问题描述】:

对 Python / Pandas 来说是全新的。显然,我无法下载 pyarrow,因此我正在尝试使用 pandas 集成来保存镶木地板文件。

我的代码是这样的:

我有一个名为 df 的数据框。此数据通过 Panadas 和 Jupytr Notebook 来自 mysql 连接器。

我做了代码:

df.to_parquet

它会将其转换为镶木地板,但是如何将此镶木地板保存到我的本地磁盘?我已经尝试了所有方法,但似乎无法找出方法。

【问题讨论】:

【参考方案1】:

将数据帧存储在内存中后,您只需执行以下操作:

df.to_parquet('./file.parquet')

结构与df.to_csv()的结构相同

【讨论】:

谢谢!现在的错误消息似乎是我没有安装 fastparquet 或 pyarrow。我试过通过 pip 和 conda 安装,但它似乎不起作用。 那一定是你的依赖有问题。尝试创建一个新环境并重新安装库。这样,依赖项将正常工作。 我的版本如下。你可以试一试。 pandas==1.2.5 pyarrow==3.0.0 fastparquet==0.6.3 不错!请不要忘记将我的答案标记为正确,如果对您有帮助,请点赞:)。

以上是关于Pandas - 如何将 Parquet 数据帧保存到本地磁盘?的主要内容,如果未能解决你的问题,请参考以下文章

如何将 HDF5 文件转换为 Parquet 文件?

pandas to_parquet 在大型数据集上失败

将 Pandas Dataframe 转换为 Parquet 失败:列表子类型字符串溢出单个块的容量

为啥索引名称总是出现在用 pandas 创建的 parquet 文件中?

Python Pandas 使用 Fastparquet 将 CSV 转换为 Parquet

为具有大量字符串的数据帧加速 PyArrow Parquet 到 Pandas