无法读取镶木地板文件

Posted

技术标签:

【中文标题】无法读取镶木地板文件【英文标题】:Unable to read a parquet file 【发布时间】:2019-08-04 10:57:50 【问题描述】:

我现在正在为这件事头疼。我是这个 parquet 文件的新手,我遇到了很多问题。

每次我尝试从中创建df 时,都会抛出一个错误,显示为OSError: Passed non-file path: \datasets\proj\train\train.parquet

我试过这个: pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')

我还更改了数据集所在驱动器的驱动器号,它是一样的!

所有引擎都一样。

请帮忙!

【问题讨论】:

你在哪个操作系统上? Window 2019 服务器。 你试过import os; os.path.exists(x) 其中 x 是您要加载的文件? 没有。我没试过。让我这样做。我不在电脑自动取款机前,所以需要一段时间才能完成。 【参考方案1】:

这可能是 Arrow 文件路径处理的问题。你可以传入一个已经打开的文件:

import pandas as pd

with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
    df = pd.read_parquet(f, engine='pyarrow')

【讨论】:

确实如此。我有同样的问题,你的解决方案解决了它。【参考方案2】:

尝试使用 fastparquet 作为引擎,对我有用。

engine = "fastparquet"

【讨论】:

以上是关于无法读取镶木地板文件的主要内容,如果未能解决你的问题,请参考以下文章

无法读取镶木地板文件

Pyspark:无法从 SparkFiles 读取镶木地板文件

无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件

在python中使用s3 select解析多个镶木地板文件?

EMR 5.28 无法在 s3 上加载镶木地板文件

spark sql 无法在 S3 中查询镶木地板分区