无法读取镶木地板文件

Posted 2023-03-11

技术标签:

【中文标题】无法读取镶木地板文件【英文标题】：Unable to read a parquet file 【发布时间】：2019-08-04 10:57:50 【问题描述】：

我现在正在为这件事头疼。我是这个 parquet 文件的新手，我遇到了很多问题。

每次我尝试从中创建df 时，都会抛出一个错误，显示为OSError: Passed non-file path: \datasets\proj\train\train.parquet。

我试过这个： pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas() 和 od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')

我还更改了数据集所在驱动器的驱动器号，它是一样的！

所有引擎都一样。

请帮忙！

【问题讨论】：

你在哪个操作系统上？ Window 2019 服务器。你试过import os; os.path.exists(x) 其中 x 是您要加载的文件？没有。我没试过。让我这样做。我不在电脑自动取款机前，所以需要一段时间才能完成。 【参考方案1】：

这可能是 Arrow 文件路径处理的问题。你可以传入一个已经打开的文件：

import pandas as pd

with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
    df = pd.read_parquet(f, engine='pyarrow')

【讨论】：

确实如此。我有同样的问题，你的解决方案解决了它。【参考方案2】：

尝试使用 fastparquet 作为引擎，对我有用。

engine = "fastparquet"

【讨论】：

以上是关于无法读取镶木地板文件的主要内容，如果未能解决你的问题，请参考以下文章