无法读取镶木地板文件
Posted
技术标签:
【中文标题】无法读取镶木地板文件【英文标题】:Unable to read a parquet file 【发布时间】:2019-08-04 10:57:50 【问题描述】:我现在正在为这件事头疼。我是这个 parquet
文件的新手,我遇到了很多问题。
每次我尝试从中创建df
时,都会抛出一个错误,显示为OSError: Passed non-file path: \datasets\proj\train\train.parquet
。
我试过这个:
pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()
和
od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')
我还更改了数据集所在驱动器的驱动器号,它是一样的!
所有引擎都一样。
请帮忙!
【问题讨论】:
你在哪个操作系统上? Window 2019 服务器。 你试过import os
; os.path.exists(x)
其中 x 是您要加载的文件?
没有。我没试过。让我这样做。我不在电脑自动取款机前,所以需要一段时间才能完成。
【参考方案1】:
这可能是 Arrow 文件路径处理的问题。你可以传入一个已经打开的文件:
import pandas as pd
with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
df = pd.read_parquet(f, engine='pyarrow')
【讨论】:
确实如此。我有同样的问题,你的解决方案解决了它。【参考方案2】:尝试使用 fastparquet 作为引擎,对我有用。
engine = "fastparquet"
【讨论】:
以上是关于无法读取镶木地板文件的主要内容,如果未能解决你的问题,请参考以下文章
Pyspark:无法从 SparkFiles 读取镶木地板文件
无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件